Sei sulla pagina 1di 570

Teoria della Probabilità

Andrea Pascucci1

13 dicembre 2021

1 Email: andrea.pascucci@unibo.it Dipartimento di Matematica, Università di Bologna, Piazza di Porta S. Donato 5,


40126 Bologna, Italy
2
Indice

1 Introduzione 9
Una rivoluzione della matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
La probabilità nel passato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
La probabilità nel presente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Nota bibliografica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Alcuni simboli e notazioni usati frequentemente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

I Variabili aleatorie e distribuzioni 17


2 Misure e spazi di probabilità 19
2.1 Spazi misurabili e spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Spazi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Algebre e σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.4 Additività finita e σ -additività . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Spazi finiti e problemi di conteggio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.1 Cardinalità di insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna . . . . . . . . . . . . . . 31
2.2.3 Metodo delle scelte successive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.4 Disposizioni e combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.5 Probabilità binomiale e ipergeometrica. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.6 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Probabilità condizionata e indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3.2 Indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.3 Prove ripetute e indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3.4 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4.1 σ -algebra generata e completamento di uno spazio di probabilità . . . . . . . . . . . . 57
2.4.2 σ -algebra di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.4.3 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.4.4 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.4.5 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4.6 Funzioni di ripartizione (CDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.7 Teorema di estensione di Carathéodory . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.4.8 Dalle CDF alle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.4.9 Funzioni di ripartizione su Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.4.10 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3
4 INDICE

2.5 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.5.1 Dimostrazione della Proposizione 2.3.30 . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.5.2 Dimostrazione della Proposizione 2.4.9 . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory . . . . . . . . . . . . . . . . . . . 78
2.5.4 Dimostrazione del Teorema 2.4.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3 Variabili aleatorie 87
3.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.1.1 Variabili aleatorie e distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.1.2 Esempi di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.1.3 Esempi di variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . 98
3.1.4 Altri esempi di variabili aleatorie notevoli . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.2 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.2.1 Integrale di variabili aleatorie semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.2.2 Integrale di variabili aleatorie non-negative . . . . . . . . . . . . . . . . . . . . . . . . 107
3.2.3 Integrale di variabili aleatorie a valori in Rd . . . . . . . . . . . . . . . . . . . . . . . . 108
3.2.4 Integrazione con distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.2.5 Valore atteso e Teorema del calcolo della media . . . . . . . . . . . . . . . . . . . . . . 113
3.2.6 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.2.7 Spazi Lp e disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.2.8 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.2.9 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta . . . . . . . . . . . 124
3.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.3.1 Dipendenza deterministica e indipendenza stocastica . . . . . . . . . . . . . . . . . . 127
3.3.2 Misura prodotto e Teorema di Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.3.3 Indipendenza fra σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.3.4 Indipendenza fra vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.3.5 Indipendenza e valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
3.4 Distribuzione e valore atteso condizionato ad un evento . . . . . . . . . . . . . . . . . . . . . 138
3.5 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
3.5.1 Il teorema di inversione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
3.5.2 Distribuzione normale multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 149
3.5.3 Sviluppo in serie della funzione caratteristica e momenti . . . . . . . . . . . . . . . . 153
3.6 Complementi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.6.1 Somma di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.6.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

4 Successioni di variabili aleatorie 161


4.1 Convergenza per successioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.1.1 Disuguaglianza di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.1.2 Relazioni fra le diverse definizioni di convergenza . . . . . . . . . . . . . . . . . . . . 164
4.2 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
4.2.1 Cenni al metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
4.2.2 Polinomi di Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
4.3 Condizioni necessarie e sufficienti per la convergenza debole . . . . . . . . . . . . . . . . . . 172
4.3.1 Convergenza di funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . 172
4.3.2 Compattezza nello spazio delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . 175
4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy . . . . . . . . 176
4.3.4 Esempi notevoli di convergenza debole . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
4.4 Legge dei grandi numeri e Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . 179
INDICE 5

5 Probabilità condizionata 185


5.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5.1.1 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
5.2 Attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
5.2.1 Proprietà dell’attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.2.2 Funzione attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
5.2.3 Least Square Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.3 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
5.3.1 Funzione distribuzione condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente continuo . . 208
5.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
5.4.1 Dimostrazione del Teorema 5.3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
5.4.2 Dimostrazione della Proposizione 5.3.20 . . . . . . . . . . . . . . . . . . . . . . . . . . 214

II Processi e calcolo stocastico - Work in progress! 217


6 Processi stocastici 219
6.1 Processi stocastici: legge e distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . 219
6.2 Processi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
6.3 Unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
6.4 Esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
6.5 Filtrazioni e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
6.6 Dimostrazione del Teorema di estensione di Kolmogorov . . . . . . . . . . . . . . . . . . . . 231
6.7 Riassunto delle notazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

7 Processi di Markov 237


7.1 Legge di transizione e processi di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
7.2 Proprietà di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
7.3 Processi a incrementi indipendenti e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . 243
7.4 Distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
7.5 Generatore infinitesimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

8 Processo di Poisson 253


8.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
8.2 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
8.3 Proprietà di martingala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
8.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260

9 Processi continui 263


9.1 Continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
9.2 Spazio di Wiener e versione canonica di un processo continuo . . . . . . . . . . . . . . . . . . 264
9.3 Teorema di continuità di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

10 Moto Browniano 271


10.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
10.2 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
10.2.1 Distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
10.3 Martingale Browniane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
6 INDICE

11 Tempi d’arresto 279


11.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
11.1.1 Optional sampling, disuguaglianze massimali e lemma di upcrossing . . . . . . . . . 283
11.2 Il caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
11.2.1 Ipotesi usuali e tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
11.2.2 Ampliamento di filtrazioni e processi di Markov . . . . . . . . . . . . . . . . . . . . . 288
11.2.3 Ampliamento di filtrazioni e processi di Lévy . . . . . . . . . . . . . . . . . . . . . . . 291
11.2.4 Risultati generali sui tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292

12 Proprietà di Markov forte 295


12.1 Proprietà di Feller e di Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
12.1.1 Principio di riflessione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
12.2 Il caso omogeneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

13 Martingale continue 303


13.1 Optional sampling e continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
13.2 Martingale càdlàg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
13.3 Martingale continue di quadrato sommabili: lo spazio M c,2 . . . . . . . . . . . . . . . . . . . 308
13.4 Martingale locali: lo spazio M c,loc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
13.5 Martingale uniformemente in L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

14 Teoria della variazione 315


14.1 Integrale di Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
14.2 Integrale di Lebesgue-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
14.3 Semi-martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.3.1 Il moto Browniano come semi-martingala . . . . . . . . . . . . . . . . . . . . . . . . . 322
14.3.2 Semi-martingale a variazione limitata . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
14.4 Decomposizione di Doob e processo variazione quadratica . . . . . . . . . . . . . . . . . . . . 324
14.5 Moto Browniano multi-dimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
14.6 Dimostrazione del Teorema di decomposizione di Doob . . . . . . . . . . . . . . . . . . . . . 328

15 Integrazione stocastica secondo Itô 333


15.1 Integrale rispetto al moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
15.1.1 Dimostrazione del Lemma 15.1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
15.2 Integrale rispetto a martingale continue di quadrato sommabile . . . . . . . . . . . . . . . . 339
15.2.1 Integrale di processi indicatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
15.2.2 Integrale di processi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
15.2.3 Integrale di processi in L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
15.2.4 Integrale di processi in L2loc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
15.2.5 Integrale stocastico e integrale di Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . 350
15.3 Integrale rispetto a semi-martingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
15.3.1 Processi di Itô uno-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353

16 Formula di Itô 355


16.1 Formula di Itô per semi-martingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
16.1.1 Formula di Itô per il moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
16.1.2 Formula di Itô per processi di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
16.2 Alcune conseguenze della formula di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
16.2.1 Disuguaglianze di Burkholder-Davis-Gundy . . . . . . . . . . . . . . . . . . . . . . . . 360
16.2.2 Processo variazione quadratica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
16.3 Il caso multi-dimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
16.3.1 Processi di Itô multi-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
INDICE 7

16.3.2 Formula di Itô multi-dimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366


16.3.3 Caratterizzazione di Lévy del moto Browniano . . . . . . . . . . . . . . . . . . . . . . 369
16.4 Dimostrazione della formula di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370

17 Equazioni differenziali stocastiche 375


17.1 Risolubilità forte e debole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
17.2 Unicità forte e debole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378

18 Soluzioni forti 381


18.1 Unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
18.2 Esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
18.3 Proprietà di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
18.4 Stime a priori di sommabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
18.5 Regolarità e dipendenza dal dato iniziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
18.6 Equazioni stocastiche lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393

19 Problema di Cauchy per equazioni paraboliche 397


19.1 Principio del massimo e unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.1.1 Problema di Cauchy-Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.1.2 Problema di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
19.2 Soluzione fondamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
19.2.1 Operatori backward e forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
19.2.2 Soluzioni non-negative del problema di Cauchy . . . . . . . . . . . . . . . . . . . . . . 405
19.3 Il metodo della parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
19.3.1 Stime Gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
19.3.2 Dimostrazione della Proposizione 19.3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . 409
19.3.3 Stime del potenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
19.3.4 Dimostrazione del Teorema 19.2.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417

20 Soluzioni deboli di SDE: il problema della martingala 423


20.1 Teorema di Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423

21 Relazione fra SDE e PDE 425


21.1 Equazione di Kolmogorov backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
21.2 Equazione di Kolmogorov forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
21.3 Integrale stocastico backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
21.4 SPDE di Krylov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
21.5 Teorema di Gyöngy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426

22 Metodi numerici stocastici 427

23 Applicazioni 429
23.1 Valutazione di derivati finanziari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
23.2 Filtraggio stocastico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429

A 431
A.1 Teoremi di Dynkin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
A.2 Assoluta continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
A.2.1 Teorema di Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
A.2.2 Rappresentazione di aperti di R mediante intervalli . . . . . . . . . . . . . . . . . . . 436
A.2.3 Derivabilità di funzioni integrali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
A.2.4 Assoluta continuità di funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
8 INDICE

A.3 Uniforme integrabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442

B Temi d’esame risolti 445


Dicembre 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
Gennaio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
Febbraio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
Giugno 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
Luglio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
Settembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
Dicembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
Gennaio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
Febbraio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
Maggio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
Luglio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
Settembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
Dicembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491
Gennaio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
Febbraio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
Maggio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
Giugno 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
Settembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
Dicembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
Gennaio 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
Febbraio 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
Dicembre 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
Gennaio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538
Febbraio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542
Maggio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
Luglio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
Settembre 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553

C Tavole riassuntive delle principali distribuzioni 559

Indice analitico 561

Riferimenti bibliografici 565


Capitolo 1

Introduzione

“For over two millennia, Aristotle’s logic has ruled over the thinking of western intellectuals. All precise theo-
ries, all scientific models, even models of the process of thinking itself, have in principle conformed to the straight-
jacket of logic. But from its shady beginnings devising gambling strategies and counting corpses in medieval
London, probability theory and statistical inference now emerge as better foundations for scientific models, espe-
cially those of the process of thinking and as essential ingredients of theoretical mathematics, even the foundations
of mathematics itself. We propose that this sea change in our perspective will affect virtually all of mathematics in
the next century.”

D. Mumford, The Dawning of the Age of Stochasticity [53]

“In conclusione, cosa ci hanno mostrato Tversky e Kahneman1 con la loro convincente serie di esperimenti?
Che l’essere umano, anche quello intelligente, colto e perfino con delle nozioni di statistica, non è un animale
probabilistico. La teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico, non è
insegnata nelle scuole, a volte non è capita molto bene neppure da coloro che dovrebbero applicarla.”

V. D’Urso, F. Giusberti, Esperimenti di psicologia [23]

Una rivoluzione della matematica


Nella matematica “classica” (quella che tuttora costituisce la maggior parte dei contenuti insegnati nel-
le scuole superiori e università) i concetti matematici rappresentano e descrivono quantità deterministiche:
quando si parla, per esempio, di una variabile reale o di un oggetto geometrico si pensa rispettivamente
a un numero che può essere ben determinato e a una figura che può essere definita analiticamente e rap-
presentata in modo esatto. Da sempre, la matematica è ritenuto il linguaggio e lo strumento più potente
con cui descrivere i fenomeni fisici e naturali in modo da interpretare e acquisire conoscenze su molte-
plici aspetti della realtà. Ma i modelli che la matematica può fornire sono sempre semplificazioni e non
forniscono quasi mai una descrizione completa del fenomeno che si vuole studiare.
Consideriamo il seguente esempio banale: se vado al supermercato e compro un 1Kg di farina, posso
essere soddisfatto dal fatto di sapere che il pacco pesa 1Kg perché c’è scritto sulla confezione; se non mi
fido, posso pesarlo con la mia bilancia e scoprire che magari non è esattamente 1Kg ma qualche grammo
in più o in meno; poi potrei anche chiedermi se la mia bilancia sia veramente affidabile e precisa fino al
grammo e quindi rassegnarmi al fatto che forse non saprò mai il vero peso del pacco di farina. In questo
caso ovviamente poco importa... Tuttavia l’esempio aiuta a capire che molti fenomeni (o forse tutta la
realtà) possono essere interpretati come la somma o combinazione di più fattori classificabili in fattori
1 Premio Nobel per l’economia nel 2002.

9
10 CAPITOLO 1. INTRODUZIONE

deterministici (nel senso di osservabili a livello macroscopico) e fattori stocastici (nel senso di casuali, aleatori,
non osservabili o non prevedibili).
Il termine “stocastico” deriva dal greco στόχος che significa bersaglio (del tiro a segno) o, in senso figu-
rato, congettura. A volte, come nell’esempio della farina, il fattore deterministico è prevalente nel senso che,
per vari motivi, non val la pena considerare altri fattori e si preferisce trascurarli oppure non si hanno gli
strumenti per includerli nella propria analisi: in questo modo forse semplicistico, per analogia, si potrebbe
descrivere l’approccio della fisica classica e di tutte le teorie formulate prima del XX secolo che puntano a
dare una descrizione a livello macroscopico e osservabile. D’altra parte, esistono molti fenomeni in cui il
fattore stocastico non solo non è trascurabile ma è addirittura dominante: un esempio eclatante è fornito
dalle principali teorie della fisica moderna, in particolare la meccanica quantistica. Rimanendo vicini alla
realtà quotidiana, ormai non esiste ambito applicativo della matematica in cui si possa trascurare il fatto-
re stocastico: dall’economia alla medicina, dall’ingegneria alla meteorologia, i modelli matematici devono
necessariamente includere l’incertezza; infatti il fenomeno in oggetto può essere intrinsecamente aleatorio
come il prezzo di un titolo azionario o il segnale in un sistema di riconoscimento vocale o guida automa-
tica, oppure può non essere osservabile con precisione o di difficile interpretazione come un segnale radio
disturbato, un’immagine tomografica o la posizione di una particella subatomica.
C’è anche un livello più generale in cui non si può ignorare il ruolo della probabilità nello sviluppo
della società odierna: si tratta di quella che è ormai ritenuta un’emergenza educativa, l’esigenza sempre
più pressante che si diffondano e rafforzino le conoscenze di tipo probabilistico. Una vera e propria opera
di alfabetizzazione in questo campo può evitare che banali misconcezioni, come per esempio quella dei
numeri “ritardatari” nel gioco del lotto, abbiano gli effetti devastanti a livello sociale ed economico che
oggi osserviamo: basti pensare che, in base ai dati ufficiali dei Monopoli di Stato, i soldi spesi dagli italiani
per giochi d’azzardo (e parliamo solo dei giochi legali) nel 2017 hanno superato il tetto dei 100 miliardi di
euro, il quadruplo rispetto al 2004.
Un segnale positivo è dato dall’evoluzione dell’insegnamento della probabilità nelle scuole superiori:
fino a pochi anni fa la probabilità era assente dai programmi scolastici ed ora sta velocemente incremen-
tando la propria presenza nei libri di testo e nelle prove d’esame, provocando anche un certo sconcerto
nel corpo docente a causa di un cosı̀ rapido aggiornamento dei contenuti. È bene sottolineare che la ma-
tematica stocastica (la probabilità) non vuole destituire la matematica classica ma ha in quest’ultima le
proprie fondamenta e la potenzia approfondendo i legami con le altre discipline scientifiche. Paradossal-
mente, il mondo della formazione superiore e universitaria sembra avere un’inerzia maggiore per cui tende
a rallentare il processo di passaggio dal pensiero deterministico a quello stocastico. In parte questo è com-
prensibile: la difesa dello status quo è ciò che normalmente avviene di fronte ad ogni profonda rivoluzione
scientifica e, a tutti gli effetti, stiamo parlando di una vera e propria rivoluzione, silenziosa e irreversibile, che
coinvolge tutti gli ambiti della matematica. A questo riguardo è illuminante la frase, posta all’inizio di que-
sta introduzione, del matematico anglo-statunitense David Mumford, medaglia Fields2 nel 1974 per i suoi
studi nel campo della geometria algebrica. Nell’articolo da cui è stata tratta la frase, Mumford conferma il
fatto che la teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico3 .

2 L’International Medal for Outstanding Discoveries in Mathematics, o più semplicemente medaglia Fields, è un premio riconosciu-
to a matematici che non abbiano superato l’età di 40 anni in occasione del Congresso internazionale dei matematici della International
Mathematical Union (IMU), che si tiene ogni quattro anni. È spesso considerata come il più alto riconoscimento che un matematico
possa ricevere: assieme al premio Abel è da molti definita il “Premio Nobel per la Matematica”, sebbene l’accostamento sia improprio
per varie ragioni, tra cui il limite di età insito nel conferimento della medaglia Fields (fonte Wikipedia).
3 The classical subdivisions of mathematics are geometry, algebra, and analysis. The perception of space (through senses and mu-
scular interaction) is the primitive element of our experience on which geometry is based. Analysis, I would argue, is the outgrowth of
the human experience of force and its children, acceleration and oscillation. Algebra seems to stem from the grammar of actions, i.e.,
the fact that we carry out actions in specific orders, concatenating one after the other, and making various ”higher order“ actions out
of simpler more basic ones. I believe there is a fourth branch of human experience which creates reproducible mental objects, hence
creates math: our experience of thought itself through our conscious observation of our mind at work. The division of mathematics
corresponding to this realm of experience is not logic but probability and statistics. (D. Mumford, [53])
11

La probabilità nel passato


Il termine probabilità deriva dal latino probabilitas che descrive la caratteristica di una persona (per
esempio, il testimone in un processo) di essere affidabile, credibile, onesto (probus). Questo differisce in
parte dal significato moderno di probabilità intesa come studio di metodi per quantificare e stimare gli
eventi casuali. Benché lo studio dei fenomeni in situazione d’incertezza abbia suscitato interesse in tutte le
epoche (a partire dai giochi d’azzardo), la teoria della probabilità come disciplina matematica ha origini
relativamente recenti. I primi studi di probabilità risalgono al XVI secolo: se ne occuparono, fra i primi,
Gerolamo Cardano (1501-1576) e Galileo Galilei (1564-1642).
Tradizionalmente la nascita del concetto moderno di probabilità viene attribuita a Blaise Pascal (1623-
1662) e Pierre de Fermat (1601-1665). In realtà il dibattito sulla natura stessa della probabilità è stato
molto lungo e articolato; esso ha interessato trasversalmente i campi della conoscenza dalla matematica
alla filosofia, e si è protratto fino ai giorni nostri producendo diverse interpretazioni e impostazioni. Per
maggiore chiarezza e precisione, è opportuno anzitutto distinguere la Teoria della Probabilità (che si occupa
della formalizzazione matematica dei concetti e dello sviluppo della teoria a partire da alcuni assunti) dalla
Statistica (che si occupa della determinazione o della stima della probabilità degli eventi aleatori, anche
utilizzando i risultati della Teoria della Probabilità). In questa breve premessa ci limitiamo a riassumere
in estrema sintesi alcune delle principali interpretazioni del concetto di probabilità: alcune di esse sono
maggiormente motivate dal calcolo e altre dalla teoria della probabilità. Partiamo dal considerare alcuni
eventi aleatori, posti in ordine crescente di complessità:
• E1 = “lanciando una moneta, si ottiene testa”;
• E2 = “il sig. Rossi non avrà incidenti in auto nei prossimi 12 mesi”;
• E3 = “entro 10 anni ci saranno auto a guida completamente autonoma”.
Esaminiamo tali eventi alla luce di alcune interpretazioni del concetto di probabilità:
• definizione classica: la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il
numero dei casi possibili. Per esempio, nel caso E1 la probabilità è pari a 12 = 50%. È la definizione
più antica di probabilità, attribuita a Pierre Simon Laplace (1749-1827). Questa definizione si limita
a considerare i fenomeni che ammettono un numero finito di casi possibili e nei quali i casi siano
equiprobabili: con questa interpretazione non è chiaro come studiare gli eventi E2 e E3 ;
• definizione frequentista (o statistica): si suppone che l’evento consista nel successo di un esperimento
riproducibile un numero indefinito di volte (per esempio, se l’esperimento è il lancio di una moneta,
l’evento potrebbe essere “ottenere testa”). Se Sn indica il numero di successi su n esperimenti, si
definisce (sarebbe meglio dire, si calcola) la probabilità come
Sn
lim .
n→∞ n
Alla base di questa definizione c’è la Legge empirica del caso (che, in termini teorici, corrisponde alla
Legge dei grandi numeri) per cui, per esempio, nel caso del lancio di una moneta si osserva empi-
ricamente che Snn approssima il valore 50% per n che tende all’infinito. La definizione frequentista
amplia notevolmente il campo di applicazione a tutti gli ambiti (fisica, economia, medicina etc) in cui
si posseggano dati statistici riguardanti eventi passati che si sono verificati in condizioni analoghe:
per esempio, si può calcolare la probabilità dell’evento E2 con una stima statistica in base a dati sto-
rici (come normalmente fanno le compagnie assicuratrici). L’approccio frequentista non permette di
studiare il terzo evento che non è l’esito di un “esperimento aleatorio riproducibile”;
• definizione soggettiva (o Bayesiana4 ): la probabilità è definita come una misura del grado di convin-
zione che un soggetto ha riguardo al verificarsi di un evento. In questo approccio, la probabilità non
4 Thomas Bayes (1701-1761).
12 CAPITOLO 1. INTRODUZIONE

è una proprietà intrinseca e oggettiva dei fenomeni casuali ma dipende dalla valutazione di un sog-
getto. Operativamente5 , la probabilità di un evento è definita come il prezzo che un individuo ritiene
equo pagare per ricevere 1 se l’evento si verifica e 0 se l’evento non si verifica: per esempio, la probabilità
di un evento è pari al 70% per un individuo che ritiene equo scommettere 70 per ricevere 100 nel
caso l’evento si verifichi e perdere tutto in caso contrario. La definizione è resa significativa assumen-
do un criterio di coerenza o razionalità dell’individuo che deve attribuire le probabilità in modo tale
che non sia possibile ottenere una vincita o una perdita certa (nel gergo finanziario odierno, si par-
lerebbe di assenza di possibilità di arbitraggio); occorre poi porre particolare attenzione per evitare
paradossi del tipo seguente: nell’esempio del lancio di una moneta, un individuo può essere disposto
a scommettere 1 euro per riceverne 2 in caso di “testa” e 0 in caso di “croce” (e quindi attribuendo
probabilità pari al 50% all’evento “testa”) ma lo stesso individuo potrebbe non essere disposto a gio-
care 1 milione di euro sulla stessa scommessa. L’approccio soggettivo è stato proposto e sviluppato da
Frank P. Ramsey (1903-1930), Bruno de Finetti (1906-1985) e successivamente da Leonard J. Savage
(1917-1971): esso generalizza i precedenti e permette di definire anche la probabilità di eventi come
E3 .
Il dibattito sulle possibili interpretazioni della probabilità si è protratto per lungo tempo ed è tuttora
aperto. Ma nella prima metà del secolo scorso c’è stato un punto di svolta decisivo, dovuto al lavoro del
matematico russo Andrej N. Kolmogorov (1903-1987). Egli per primo ha gettato le basi per la formaliz-
zazione matematica della probabilità, inserendola a pieno titolo nel novero delle discipline matematiche.
Kolmogorov ha messo in secondo piano i difficili problemi del fondamento logico e del dualismo fra la
visione oggettiva e soggettiva, concentrandosi sullo sviluppo della probabilità come teoria matematica. Il
contributo di Kolmogorov è fondamentale perché, aggirando i problemi epistemologici, ha sprigionato tut-
ta la potenza del ragionamento astratto e logico-deduttivo applicato allo studio della probabilità e ha cosı̀
agevolato il passaggio dal calcolo della probabilità alla teoria della probabilità. A partire dal lavoro di Kol-
mogorov e grazie al contributo di molti grandi matematici del secolo scorso, sono stati conseguiti risultati
profondi e aperti campi di ricerca ancora completamente inesplorati.
Ora è bene sottolineare che la formalizzazione matematica della probabilità richiede un considerevole
grado di astrazione. Pertanto, è assolutamente naturale che la teoria della probabilità risulti ostica, se
non incomprensibile, al primo impatto. Kolmogorov utilizza il linguaggio della teoria della misura: un
evento è identificato con un insieme E i cui elementi rappresentano singoli esiti possibili del fenomeno
aleatorio considerato; la probabilità P = P (E) è una misura, ossia una funzione d’insieme che gode di alcune
proprietà: per fissare le idee, si pensi alla misura di Lebesgue. L’utilizzo del linguaggio astratto della teoria
della misura è guardato da alcuni (anche da alcuni matematici) con sospetto perché sembra indebolire
l’intuizione. Tuttavia questo è il prezzo inevitabile che si deve pagare per poter sfruttare tutta la potenza
del ragionamento astratto e sintetico che è poi la vera forza dell’approccio matematico.
In queste libro presentiamo i primi rudimenti di teoria della probabilità secondo l’impostazione assio-
matica di Kolmogorov. Ci limiteremo a introdurre ed esaminare i concetti di spazio di probabilità, distribu-
zione e variabile aleatoria. Facendo un parallelo fra probabilità e analisi matematica, il contenuto di questo
testo corrisponde grossomodo all’introduzione dei numeri reali in un primo corso di analisi matematica:
ciò significa che faremo solo i primissimi passi nel vasto campo della Teoria della Probabilità.

La probabilità nel presente


Come affermato nella frase di David Mumford posta all’inizio dell’introduzione, al giorno d’oggi la
teoria della probabilità è considerata un ingrediente essenziale per lo sviluppo teorico della matematica e per
i fondamenti della matematica stessa. A titolo d’esempio, l’importante articolo di rassegna [52] racconta, con
dovizia di particolari, gli incredibili sviluppi della ricerca nella teoria processi stocastici dalla metà del
secolo scorso in poi.
5 Per quantificare, ossia tradurre in numero, il grado di convinzione di un soggetto su un evento, l’idea è di esaminare come il
soggetto agisce in una scommessa riguardante l’evento considerato.
13

Dal punto di vista applicativo, la teoria della probabilità è lo strumento utilizzato per modellizzare e
gestire il rischio in tutti gli ambiti in cui si studiano fenomeni in condizioni d’incertezza. Facciamo qualche
esempio:

• Fisica e Ingegneria dove si fa ampio uso dei metodi numerici stocastici di tipo Monte Carlo, forma-
lizzati fra i primi da Enrico Fermi e John von Neumann;

• Economia e Finanza, a partire dalla famosa formula di Black-Scholes-Merton per la quale gli autori
hanno ricevuto il premio Nobel. La modellistica finanziaria richiede generalmente un background
matematico-probabilistico-numerico avanzato: il contenuto di questo libro corrisponde grossomodo
all’Appendice A.1 di [58];

• Telecomunicazioni: la NASA utilizza il metodo di Kalman-Bucy per filtrare i segnali provenienti da


satelliti e sonde inviati nello spazio. Da [56], pag.2: “In 1960 Kalman and in 1961 Kalman and Bucy
proved what is now known as the Kalman-Bucy filter. Basically the filter gives a procedure for estimating
the state of a system which satisfies a “noisy” linear differential equation, based on a series of “noisy” obser-
vations. Almost immediately the discovery found applications in aerospace engineering (Ranger, Mariner,
Apollo etc.) and it now has a broad range of applications. Thus the Kalman-Bucy filter is an example of
a recent mathematical discovery which has already proved to be useful - it is not just “potentially” use-
ful. It is also a counterexample to the assertion that “applied mathematics is bad mathematics” and to the
assertion that “the only really useful mathematics is the elementary mathematics”. For the Kalman-Bucy
filter - as the whole subject of stochastic differential equations - involves advanced, interesting and first class
mathematics”.

• Medicina e Botanica: il più importante processo stocastico, il moto Browniano, prende il nome da
Robert Brown, un botanico che verso il 1830 osservò il movimento irregolare di particelle colloidali
in sospensione. Il moto Browniano è stato utilizzato da Louis Jean Baptist Bachelier nel 1900 nella
sua tesi di dottorato di ricerca per modellare i prezzi delle azioni ed è stato oggetto di uno dei più
famosi lavori di Albert Einstein pubblicato nel 1905. La prima definizione matematicamente rigorosa
di moto Browniano è stata data da Norbert Wiener nel 1923.

• Genetica: è la scienza che studia la trasmissione dei caratteri e i meccanismi con i quali questi vengo-
no ereditati. Gregor Johann Mendel (1822-1884), monaco agostiniano ceco considerato il precursore
della moderna genetica, diede un fondamentale contributo di tipo metodologico applicando per la
prima volta il calcolo delle probabilità allo studio dell’ereditarietà biologica.

• Informatica: i computer quantistici sfruttano le leggi della meccanica quantistica per l’elaborazione
dei dati. In un computer attuale l’unità di informazione è il bit: mentre possiamo sempre determinare
lo stato di un bit e stabilire con precisione se è 0 o 1, non possiamo determinare con altrettanta
precisione lo stato di un qubit, l’unità di informazione quantistica, ma solo le probabilità che assuma
i valori 0 e 1.

• Giurisprudenza: il verdetto emesso da un giudice di un tribunale si basa sulla probabilità di colpe-


volezza dell’imputato stimata a partire dalle informazioni fornite dalle indagini. In questo ambito
il concetto di probabilità condizionata gioca un ruolo fondamentale e un suo uso non corretto è alla
base di clamorosi errori giudiziari: per maggiori informazioni si veda, per esempio, [59].

• Meteorologia: per la previsione oltre il quinto giorno è fondamentale poter disporre di modelli me-
teorologici di tipo probabilistico; i modelli probabilistici girano generalmente nei principali centri
meteo internazionali perché necessitano di procedure statistico-matematiche molto complesse e one-
rose a livello computazionale. A partire dal 2020 il Data Center del Centro europeo per le previsioni
meteorologiche a medio termine (European Center Medium Weather Forecast, in sigla ECMWF) ha sede
a Bologna.
14 CAPITOLO 1. INTRODUZIONE

• Applicazioni militari: da [67] p.139: “In 1938, Kolmogorov had published a paper that established the
basic theorems for smoothing and predicting stationary stochastic processes. An interesting comment on
the secrecy of war efforts comes from Norbert Wiener (1894-1964) who, at the Massachusetts Institute of
Technology, worked on applications of these methods to military problems during and after the war. These
results were considered so important to America’s Cold War efforts that Wiener’s work was declared top
secret. But all of it, Wiener insisted, could have been deduced from Kolmogorov’s early paper.”
Infine la probabilità è alla base dello sviluppo delle più recenti tecnologie di Machine Learning e tutte le re-
lative applicazioni all’intelligenza artificiale, auto a guida autonoma, riconoscimento vocale e di immagini
etc (si veda, per esempio, [31] e [63]). Al giorno d’oggi, una conoscenza avanzata di Teoria della Probabi-
lità è il requisito minimo per chiunque voglia occuparsi di matematica applicata in uno degli ambiti sopra
menzionati.
Per concludere, penso si possa convenire sul fatto che se studiamo matematica è anzitutto perché ci piace
e non tanto perché ci garantirà un lavoro futuro. Certamente la matematica non ha bisogno di giustificarsi
con le applicazioni. Ma è anche vero che non viviamo sulla luna e un lavoro prima o poi dovremo trovarlo.
Allora è importante conoscere le applicazioni reali della matematica: esse sono numerose, richiedono cono-
scenze avanzate, assolutamente non banali tanto da poter soddisfare anche il gusto estetico di un cosiddetto
“matematico puro”. Infine, per chi volesse cimentarsi con la ricerca pura, la teoria della probabilità è cer-
tamente uno dei campi più affascinanti e meno esplorati, in cui il contributo delle migliori giovani menti è
fondamentale e fortemente auspicabile.

Nota bibliografica
Esistono molti eccellenti testi di introduzione alla Teoria della Probabilità: fra i miei preferiti, e che sono
stati la maggiore fonte di ispirazione e di idee, ci sono quelli di Bass [7], Durrett [22], Klenke [39] e Wil-
liams [76]. Di seguito elenco in ordine alfabetico altri importanti testi di riferimento: Baldi [2], Bass [5],
Bauer [9], Biagini e Campanino [11], Billingsley [12], Caravenna e Dai Pra [15], Feller [26], Jacod e Protter
[35], Kallenberg [37], Letta [49], Neveu [54], Pintacuda [61], Shiryaev [69], Sinai [70]. Questo libro può
essere considerato un ulteriore tentativo di raccogliere in maniera ordinata, sintetica e completa le nozioni
basilari di probabilità in modo da agevolare studi successivi più avanzati. Fra le numerose monografie di
introduzione alla ricerca nel campo della teoria dei processi stocastici e del calcolo differenziale stocastico,
mi limito a citare Baldi [3], Bass [6], Baudoin [8], Doob [19], Durrett [20], Friedman [28], Karatzas e Shreve
[38], Stroock [71].
15

Alcuni simboli e notazioni usati frequentemente


• A := B significa che A è, per definizione, uguale a B
U
• indica l’unione disgiunta
S
• An ↗ A indica che (An )n∈N è una successione crescente di insiemi tale che A = An
n∈N
T
• An ↘ A indica che (An )n∈N è una successione decrescente di insiemi tale che A = An
n∈N

• ♯A oppure |A| indica la cardinalità dell’insieme A. A ↔ B se |A| = |B|

• Bd = B(Rd ) è la σ -algebra di Borel in Rd ; B := B1

• mF (risp. mF + , bF ) la classe delle funzioni F -misurabili (risp. F -misurabili e non-negative, F -


misurabili e limitate)

• N famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16)

• insiemi numerici:

– numeri naturali: N = {1, 2, 3, ...}, N0 = N ∪ {0}, In := {1, . . . , n} per n ∈ N


¯ = R ∪ {±∞}, reali positivi R>0 = ]0, +∞[, non-negativi R≥0 = [0, +∞[
– numeri reali R, reali estesi R

• Lebd indica la misura di Lebesgue d-dimensionale; Leb := Leb1

• funzione indicatrice di un insieme A



1 se x ∈ A


1A (x) := 
0
 altrimenti

• prodotto scalare Euclideo:

d
X
⟨x, y⟩ = x · y = xi y i , x = (x1 , . . . , xd ), y = (y1 , . . . , yd ) ∈ Rd
i=1

Nelle operazioni matriciali, il vettore d-dimensionale x viene identificato con la matrice colonna d ×1.

• massimo e minimo di numeri reali:

x ∧ y = min{x, y}, x ∨ y = max{x, y}

• parte positiva e negativa:


x+ = x ∨ 0, x− = (−x) ∨ 0

• argomento del massimo e del minimo di f : A −→ R:

arg max f (x) = {y ∈ A | f (y) ≥ f (x) per ogni x ∈ A}


x∈A
arg min f (x) = {y ∈ A | f (y) ≤ f (x) per ogni x ∈ A}
x∈A
16 CAPITOLO 1. INTRODUZIONE

Abbreviazioni
v.a. = variabile aleatoria
q.c. = quasi certamente. Una certa proprietà vale q.c. se esiste N ∈ N (insieme trascurabile) tale che la
proprietà è vera per ogni ω ∈ Ω \ N
q.o. = quasi ovunque (rispetto alla misura di Lebesgue)

Segnaliamo l’importanza dei risultati con i seguenti simboli:


[!] significa che bisogna porre molta attenzione e cercare di capire bene, perché si sta introducendo un
concetto importante, un’idea o una tecnica nuova
[!!] significa che il risultato è molto importante
[!!!] significa che il risultato è fondamentale
Parte I

Variabili aleatorie e distribuzioni

17
Capitolo 2

Misure e spazi di probabilità

The philosophy of the foundations of


probability must be divorced from
mathematics and statistics, exactly
as the discussion of our intuitive
space concept is now divorced from
geometry.

William Feller

Si parla genericamente di Probabilità in riferimento a fenomeni incerti, il cui esito non è noto con
sicurezza. Come sottolinea Costantini [17], non è semplice dare una definizione generale e negli ultimi
secoli molti studiosi hanno cercato risposte a domande del tipo:
1) cos’è la Probabilità?
2) come si calcola1 la Probabilità?
3) come “funziona”2 la Probabilità?
D’altra parte, solo in tempi relativamente recenti si è iniziato a comprendere la differente natura di tali
quesiti e il fatto che debbano essere indagati con metodi e strumenti specifici di discipline diverse e ben
distinte:
1) in Filosofia si indaga il concetto di Probabilità e il suo possibile significato, cercando di darne una
definizione e studiarne la natura da un punto di vista generale. L’approccio filosofico ha portato a
interpretazioni e definizioni anche molto differenti;
2) la Statistica è la disciplina che studia i metodi per la stima e la valutazione della Probabilità a partire
da osservazioni e dati disponibili sul fenomeno aleatorio considerato;
3) la Teoria della Probabilità è la disciplina puramente matematica che applica il ragionamento astratto
e logico-deduttivo per formalizzare la Probabilità e le sue regole, partendo da assiomi e definizioni
primitive (come lo sono, per analogia, i concetti di punto e di retta in Geometria).
1 Sono molti i casi in cui è importante calcolare o almeno stimare la probabilità di un evento incerto. Per esempio, un giocatore
d’azzardo è interessato a conoscere la probabilità di ottenere una certa mano al gioco del Poker; una compagnia di assicurazioni deve
stimare la probabilità che un proprio assicurato abbia uno o più incidenti nel corso di un anno; un’industria che produce auto vuole
stimare la probabilità che il prezzo dell’acciaio non superi un certo valore; una compagnia aerea può fare overbooking in base alla
probabilità che un certo numero di viaggiatori non si presenti all’imbarco.
2 In altri termini, è possibile formalizzare i principi e le regole generali della Probabilità in termini matematici rigorosi, in analogia
con quanto si fa per esempio nella geometria Euclidea?

19
20 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Quando si affronta per la prima volta lo studio della Probabilità, confusione e fraintendimenti possono de-
rivare dal non distinguere adeguatamente i diversi approcci (filosofico, statistico e matematico). In questo
testo assumiamo esclusivamente il punto di vista matematico: il nostro scopo è fornire un’introduzione alla
Teoria della Probabilità.

2.1 Spazi misurabili e spazi di probabilità


La Teoria della Probabilità studia i fenomeni il cui esito è incerto: questi vengono detti fenomeni aleatori
(o esperimenti aleatori). Esempi banali di fenomeni aleatori sono il lancio di una moneta o l’estrazione di
una carta da un mazzo. Gli esiti di un fenomeno aleatorio non sono necessariamente tutti “equivalenti”
nel senso che, per qualche motivo, un esito può essere più “probabile” (plausibile, verosimile, atteso etc)
di un altro. Si noti che, poiché per definizione nessuno degli esiti possibili può essere scartato a priori,
la Teoria della Probabilità non si propone di prevedere l’esito di un fenomeno aleatorio (cosa impossibile!)
ma stimare, nel senso di misurare, il grado di attendibilità (la probabilità) dei singoli esiti possibili o della
combinazione di alcuni di essi. Questo è il motivo per cui gli strumenti matematici e il linguaggio su cui
si basa la moderna Teoria della Probabilità sono quelli della teoria della misura che è anche il punto di
partenza della nostra trattazione. La Sezione 2.1.1 è dedicata al richiamo delle prime definizioni e concetti
di teoria della misura; nella successiva Sezione 2.1.2 ne diamo l’interpretazione probabilistica.

2.1.1 Spazi misurabili


Definizione 2.1.1 (Spazio misurabile). Uno spazio misurabile è una coppia (Ω, F ) dove:

i) Ω è un insieme non vuoto;

ii) F è una σ -algebra su Ω, ossia F è una famiglia non vuota di sottoinsiemi di Ω che soddisfa le seguenti
proprietà:

ii-a) se A ∈ F allora Ac := Ω \ A ∈ F ;
ii-b) l’unione numerabile di elementi di F appartiene ad F .

La proprietà ii-a) si esprime dicendo che F è una famiglia chiusa rispetto al passaggio al complementare;
la proprietà ii-b) si esprime dicendo che F è una famiglia σ -∪-chiusa (chiusa rispetto all’unione numerabile).

Osservazione 2.1.2. Dalla proprietà ii-b) segue anche che se A, B ∈ F allora A ∪ B ∈ F , ossia F è ∪-chiusa
(chiusa rispetto all’unione finita). Infatti dati A, B ∈ F , si può costruire la successione C1 = A, Cn = B per
ogni n ≥ 2; allora

[
A∪B = Cn ∈ F .
n=1

Una σ -algebra F è non vuota per definizione e quindi esiste A ∈ F e, per la ii-a), si ha Ac ∈ F : allora anche
Ω = A ∪ Ac ∈ F e, ancora per ii-a), ∅ ∈ F . Osserviamo che {∅, Ω} è la più piccola σ -algebra su Ω; viceversa,
l’insieme delle parti P(Ω) è la più grande σ -algebra su Ω.
Notiamo anche che l’intersezione finita o numerabile di elementi di una σ -algebra F appartiene a F :
infatti se (An ) è una famiglia finita o numerabile in F , combinando le proprietà ii-a) e ii-b), si ha che
\ [ c
An = Acn ∈ F.
n n

Di conseguenza, si dice che F è ∩-chiusa e σ -∩-chiusa.


2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 21

Definizione 2.1.3 (Misura). Una misura sullo spazio misurabile (Ω, F ) è una funzione
µ : F −→ [0, +∞]
tale che:
iii-a) µ(∅) = 0;
iii-b) µ è σ -additiva su F , ossia per ogni successione (An )n∈N di elementi disgiunti di F vale3
∞  ∞
]  X
µ  An  =
 µ (An ) .
n=1 n=1

Osservazione 2.1.4. Ogni misura µ è additiva nel senso che, per ogni famiglia finita A1 , . . . , An di insiemi
disgiunti in F , vale  n 
]  X n
µ  Ak  = µ (Ak ) .
k=1 k=1
Infatti, posto Ak = ∅ per k > n, si ha
 n  ∞ 
]  ] 
µ  Ak  = µ  Ak  =
k=1 k=1

(per la σ -additività)

X
= µ (Ak ) =
k=1

(per il fatto che µ(∅) = 0)


n
X
= µ (Ak ) .
k=1

Definizione 2.1.5. Una misura µ su (Ω, F ) si dice finita se µ(Ω) < ∞ e si dice σ -finita se esiste una succes-
sione (An ) in F tale che [
Ω= An e µ(An ) < +∞, n ∈ N.
n∈N
Esempio 2.1.6. Il primo esempio di misura σ -finita che si incontra nei corsi di analisi matematica è la
misura di Lebesgue; essa è definita sullo spazio Euclideo d-dimensionale, Ω = Rd , munito della σ -algebra
degli insiemi misurabili secondo Lebesgue.

2.1.2 Spazi di probabilità


Definizione 2.1.7 (Spazio di probabilità). Uno spazio con misura (Ω, F , µ) in cui µ(Ω) = 1 è detto spazio
di probabilità: in questo caso, di solito utilizziamo la lettera P al posto di µ e diciamo che P è una misura di
probabilità (o semplicemente una probabilità).
In uno spazio di probabilità (Ω, F , P ), ogni elemento ω ∈ Ω è detto esito; ogni A ∈ F è chiamato evento
e il numero P (A) è detto probabilità di A. Inoltre diciamo che Ω è lo spazio campionario e F è la σ -algebra
degli eventi.
Nel caso in cui Ω sia finito o numerabile, assumiamo sempre F = P(Ω) e diciamo che (Ω, P(Ω), P ) (o,
più semplicemente, (Ω, P )) è uno spazio di probabilità discreto. Se invece Ω non è numerabile, parliamo di
spazio di probabilità continuo (o generale).
3 Ricordiamo che il simbolo U indica l’unione disgiunta. Osserviamo che U A ∈ F poiché F è una σ -algebra.
n
n∈N
22 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Esempio 2.1.8. [!] Consideriamo il fenomeno aleatorio del lancio di un dado regolare a sei facce. Lo spazio
campionario
Ω = {1, 2, 3, 4, 5, 6}
rappresenta gli stati possibili (esiti) dell’esperimento aleatorio considerato. Intuitivamente, un evento è
un’affermazione relativa all’esito dell’esperimento, per esempio:

i) A = “il risultato del lancio è un numero dispari”;

ii) B = “il risultato del lancio è il numero 4”;

iii) C = “il risultato del lancio è maggiore di 7”.

Ad ogni affermazione corrisponde un sottoinsieme di Ω:

i) A = {1, 3, 5};

ii) B = {4};

iii) C = ∅.

Questo spiega perché matematicamente abbiamo definito un evento come un sottoinsieme di Ω. In parti-
colare, B è detto un evento elementare poiché è costituito da un singolo esito. È bene porre attenzione nel
distinguere l’esito 4 dall’evento elementare {4}.
Le operazioni logiche fra eventi hanno una traduzione in termini di operazioni insiemistiche, per esempio:

• “A oppure B” corrisponde a A ∪ B;

• “A e B” corrisponde a A ∩ B;

• “non A” corrisponde a Ac = Ω \ A;

• “A ma non B” corrisponde a A \ B.

Esempio 2.1.9. Un corridore ha la probabilità del 30% di vincere la gara dei 100 metri, la probabilità del
40% di vincere la gara dei 200 metri e la probabilità del 50% di vincere almeno una delle due gare. Qual è
la probabilità che vinca entrambe le gare?
Posto

i) A = “il corridore vince la gara dei 100 metri”,

ii) B = “il corridore vince la gara dei 200 metri”,

i dati del problema sono: P (A) = 30%, P (B) = 40% e P (A ∪ B) = 50%. Si chiede di determinare P (A ∩ B).
Usando le operazioni insiemistiche (al riguardo si veda anche il successivo Lemma 2.1.24) si prova che

P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 20%.

Osservazione 2.1.10. Lo spazio campionario Ω è, per definizione, un generico insieme non vuoto: è lecito
domandarsi che senso abbia assumere un tale grado di generalità. In effetti vedremo che nei problemi più
classici Ω sarà semplicemente un insieme finito oppure lo spazio Euclideo Rd . Tuttavia, nelle applicazioni
più interessanti può anche capitare che Ω sia uno spazio funzionale (come, per esempio, lo spazio delle
funzioni continue). Spesso Ω avrà anche una certa struttura, per esempio quella di spazio metrico, per avere
a disposizione alcuni strumenti utili allo sviluppo della teoria.
2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 23

Esempio 2.1.11 (Probabilità uniforme discreta). Sia Ω finito. Per ogni A ⊆ Ω indichiamo con |A| la
cardinalità di A e poniamo
|A|
P (A) = . (2.1.1)
|Ω|
Allora P è una misura di probabilità, detta probabilità uniforme, e per definizione vale
1
P ({ω}) = , ω ∈ Ω,
|Ω|
ossia ogni esito è “equiprobabile”. La probabilità uniforme corrisponde al concetto classico di probabilità
secondo Laplace, come ricordato nella premessa. Per esempio, nel caso del lancio di un dado regolare a sei
facce, è naturale considerare la probabilità uniforme
1
P ({ω}) = , ω ∈ Ω := {1, 2, 3, 4, 5, 6}.
6
Osservazione 2.1.12. Uno spazio di probabilità in cui ogni evento elementare è equiprobabile e ha proba-
bilità positiva, è necessariamente finito. Di conseguenza, per esempio, non è possibile definire la probabilità
uniforme su N: infatti dovrebbe essere P ({n}) = 0 per ogni n ∈ N e di conseguenza, per la σ -additività, anche
P (N) = 0 che è assurdo.
Osservazione 2.1.13. [!] In uno spazio di probabilità discreto (Ω, P ), consideriamo la funzione
p : Ω −→ [0, 1], p(ω) = P ({ω}), ω ∈ Ω.
È chiaro che p è una funzione non-negativa che gode della proprietà
X X
p(ω) = P ({ω}) = P (Ω) = 1. (2.1.2)
ω∈Ω ω∈Ω

Si noti che le somme in (2.1.2) sono serie a termini non-negativi e pertanto il loro valore non dipende
dall’ordine degli addendi. La seconda uguaglianza in (2.1.2) è conseguenza della σ -additività di P .
Possiamo dire che esiste
P una relazione biunivoca fra p e P nel senso che, data una qualsiasi funzione
non-negativa p tale che p(ω) = 1, e posto
ω∈Ω
X
P (A) := p(ω), A ⊆ Ω,
ω∈A

si ha che P è una probabilità discreta su Ω.


In altri termini, una probabilità discreta è definita univocamente dalle probabilità dei singoli eventi elemen-
tari. Dal punto di vista operativo, è molto più semplice definire la probabilità dei singoli eventi elementari
(ossia p) che non definire esplicitamente P assegnando la probabilità di tutti gli eventi. Si pensi che, per
esempio, se Ω ha cardinalità 100 allora p è definita dai cento valori p(ω), con ω ∈ Ω, mentre P è definita su
P(Ω) che ha cardinalità 2100 ≈ 1030 .
Osservazione 2.1.14 (Probabilità nella scuola secondaria). [!] L’osservazione precedente ci suggerisce un
modo ragionevole e sintetico per introdurre il concetto di probabilità nella scuola secondaria: anzitutto,
in base ai programmi ministeriali, almeno fino al quart’anno di scuola secondaria superiore è sufficiente
considerare il caso di spazi campionari finiti (o, al massimo, numerabili)
Ω = {ω1 , . . . , ωN },
con N ∈ N, descrivendo i concetti di esito ed evento come nell’Esempio 2.1.8. Poi si può spiegare che intro-
durre una misura di probabilità P su Ω significa assegnare le probabilità dei singoli esiti: precisamente, si
fissano alcuni numeri p1 , . . . , pN tali che
p1 , . . . , pN ≥ 0 e p1 + · · · + pN = 1, (2.1.3)
24 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

dove pi indica la probabilità dell’i-esimo evento elementare, ossia

pi = P ({ωi }), i = 1, . . . , N .

Infine, per definizione, per ogni evento A si pone


X
P (A) = P ({ω}). (2.1.4)
ω∈A

Questa definizione di spazio di probabilità (Ω, P ) è equivalente alla definizione generale (Definizione 2.1.7,
ovviamente nel caso di Ω finito). La cosiddetta probabilità classica o uniforme è quella in cui gli esiti sono
equiprobabili, p1 = p2 = · · · = pN , per cui dalla (2.1.3) si deduce che il loro valore comune è N1 . Dunque
la probabilità classica è solo un caso molto particolare, anche se significativo, fra le infinite misure di
probabilità che si possono scegliere: in quel caso, chiaramente la (2.1.4) si riduce alla formula dei “casi
favorevoli su casi possibili”.

Esempio 2.1.15. Diamo una soluzione alternativa al problema dell’Esempio 2.1.9. Possiamo usare come
spazio campionario Ω = {vv, vp, pv, pp}, dove vv è l’esito in cui il corridore vince entrambe le gare, vp è
l’esito in cui il corridore vince la prima gara e perde la seconda, e cosı̀ via: quindi A = {vv, vp} e B = {vv, pv}.
Se p = p(ω) indica la probabilità dei singoli esiti, in base ai dati del problema otteniamo il sistema lineare



 p(vv) + p(vp) = 30%

p(vv) + p(pv) = 40%




p(vv) + p(vp) + p(pv) = 50%

da cui ricaviamo p(vv) = P (A ∩ B) = 20%, p(vp) = 10%, p(pv) = 20% e p(pp) = 1 − p(vv) − p(vp) − p(pv) = 50%.

Concludiamo la sezione con un paio di definizioni che useremo spesso in seguito.

Definizione 2.1.16 (Insiemi trascurabili e quasi certi). In uno spazio di probabilità (Ω, F , P ) diciamo che:

• un sottoinsieme N di Ω è trascurabile per P se N ⊆ A con A ∈ F tale che P (A) = 0;

• un sottoinsieme C di Ω è quasi certo per P se il suo complementare è trascurabile o, equivalentemente,


se esiste B ∈ F tale che B ⊆ C e P (B) = 1.

Indichiamo con N la famiglia degli insiemi trascurabili in (Ω, F , P ).

Gli insiemi trascurabili e quasi certi non sono necessariamente eventi e quindi in generale la probabilità
P (A) non è definita per A trascurabile o quasi certo.

Definizione 2.1.17 (Spazio completo). Uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F .

Osservazione 2.1.18. In uno spazio completo gli insiemi trascurabili (e di conseguenza anche i quasi certi)
per P sono eventi. Pertanto in uno spazio completo si ha che

• N è trascurabile se e solo se P (N ) = 0;

• C è quasi certo se e solo se P (C) = 1.

Chiaramente la proprietà di completezza dipende dalla misura di probabilità considerata. Vedremo in se-
guito che è sempre possibile “completare” uno spazio di probabilità (cfr. Osservazione 2.4.3) e spiegheremo
l’importanza della proprietà di completezza (si veda, per esempio, l’Osservazione 3.1.11).
2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 25

2.1.3 Algebre e σ -algebre


Il suffisso “σ -” (per esempio, in σ -algebra o σ -additività) è usato per specificare che una definizione o
una proprietà è valida per quantità numerabili e non solo finite. In analogia con il concetto di σ -algebra,
diamo la seguente utile
Definizione 2.1.19 (Algebra). Un’algebra è una famiglia non vuota A di sottoinsiemi di Ω tale che:
i) A è chiusa rispetto al passaggio al complementare;
ii) A è ∪-chiusa (ossia chiusa rispetto all’unione finita).
Ogni σ -algebra è un’algebra. Se A, B ∈ A allora A ∩ B = (Ac ∪ Bc )c ∈ A e di conseguenza A è ∩-chiusa.
Esempio 2.1.20. [!] In R si consideri la famiglia A formata dalle unioni finite di intervalli (non necessaria-
mente limitati) del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
dove per convenzione
]a, a] = ∅, ]a, b] = {x ∈ R | x > a}
nel caso b = +∞.
Si i
Notiamo che A è un’algebra ma non una σ -algebra poiché, per esempio, 0, 1 − n1 = ]0, 1[ < A .
n≥1

Poiché ci sarà utile considerare misure definite su algebre, diamo la seguente estensione del concetto di
misura (cfr. Definizione 2.1.3).
Definizione 2.1.21 (Misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una misura su A è
una funzione
µ : A −→ [0, +∞]
tale che:
i) µ(∅) = 0;
ii) µ è σ -additiva su A nel senso che per ogni successione (An )n∈N di elementi disgiunti di A , tale che
An ∈ A , vale
U
A :=
n∈N

X
µ (A) = µ (An ) .
n=1

Proviamo alcune proprietà basilari delle misure (e quindi, in particolare, delle misure di probabilità).
Proposizione 2.1.22. Sia µ una misura su un’algebra A . Valgono le seguenti proprietà:
i) Monotonia: per ogni A, B ∈ A tali che A ⊆ B vale

µ(A) ≤ µ(B), (2.1.5)

e, se inoltre µ(A) < ∞, vale


µ(B \ A) = µ(B) − µ(A). (2.1.6)
In particolare, se P è una misura di probabilità si ha

P (Ac ) = 1 − P (A); (2.1.7)

ii) σ -subadditività: per ogni A ∈ A e (An )n∈N successione in A , vale


[ ∞
X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n=1
26 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Dimostrazione. Proviamo la i): se A ⊆ B allora, per l’additività di µ ed essendo B \ A ∈ A , si ha

µ(B) = µ(A ⊎ (B \ A)) = µ(A) + µ(B \ A).

Dal fatto che µ(B \ A) ≥ 0 segue la (2.1.5) e, nel caso particolare in cui µ(A) < ∞, segue anche la (2.1.6).
Per provare la ii), poniamo
n
[
e1 := A1 ∩ A,
A en+1 := A ∩ An+1 \
A Ak .
k=1

Osserviamo che A en ⊆ An . Inoltre gli insiemi Aen appartengono all’algebra A poiché sono ottenuti con
operazioni finite da elementi di A e, per ipotesi, vale
]
en = A ∈ A .
A
n∈N

Allora, per monotonia si ha


 
 ] 
µ(A) = µ  en  =
A 
n∈N

(per σ -additività e poi ancora per monotonia)



X ∞
X
= en ) ≤
µ(A µ (An ) .
n=1 n=1

Esempio 2.1.23. La (2.1.7) è utile per risolvere problemi del tipo seguente: calcoliamo la probabilità di
ottenere almeno un 6 lanciando 8 volte un dado. Definiamo Ω come l’insieme delle possibili sequenze di
lanci: allora |Ω| = 68 . Possiamo determinare la probabilità dell’evento che ci interessa (chiamiamolo A) più
facilmente considerando Ac , ossia l’insieme delle sequenze che non contengono 6: infatti si avrà |Ac | = 58 e
quindi per la (2.1.7)
58
P (A) = 1 − P (Ac ) = 1 − 8 .
6
Lemma 2.1.24. Sia A un’algebra. Una funzione

µ : A −→ [0, +∞]

tale che µ(∅) = 0, è additiva se e solo se vale

µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B), A, B ∈ F . (2.1.8)

Dimostrazione. Se µ è additiva allora

µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B \ A) + µ(A ∩ B) = µ(A) + µ(B).

Viceversa, dalla (2.1.8) con A, B disgiunti si ha l’additività di µ.

Osservazione 2.1.25. Nel caso di misure di probabilità, la (2.1.8) si riscrive utilmente nella forma

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (2.1.9)


2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 27

Esempio 2.1.26. Lanciando due dadi, qual è la probabilità che almeno uno dei due lanci abbia un risultato
minore o uguale a 3?
Poniamo In = {k ∈ N | k ≤ n} e consideriamo lo spazio campionario Ω = I6 × I6 delle possibili coppie di
risultati dei lanci. Sia A = I3 × I6 (e rispettivamente B = I6 × I3 ) l’evento in cui il risultato del primo dado
(rispettivamente del secondo dado) sia minore o uguale a 3. Ci è chiesto di calcolare la probabilità di A ∪ B.
Notiamo che A, B non sono disgiunti e nella probabilità uniforme P , contando gli elementi, abbiamo

3·6 1 3·3 1
P (A) = P (B) = = , P (A ∩ B) = = .
6·6 2 6·6 4
Allora per la (2.1.9) otteniamo

3
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = .
4
Osservazione 2.1.27. La (2.1.8) si generalizza facilmente al caso di tre insiemi A1 , A2 , A3 ∈ F :

P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ∪ A3 ) − P ((A1 ∩ A2 ) ∪ (A1 ∩ A3 ))


= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+ P (A1 ∩ A2 ∩ A3 ).

In generale, si prova per induzione la seguente formula


 n  n
[  X X
P  Ak  = (−1)k−1 P (Ai1 ∩ · · · ∩ Aik )
k=1 k=1 {i1 ,...,ik }⊆{1,...,n}

dove l’ultima somma è intesa su tutti i sottoinsiemi di {1, . . . , n} con k elementi.

Esempio 2.1.28. Siano A, B eventi in (Ω, F , P ). Se P (A) = 1 allora P (A ∩ B) = P (B). Infatti per l’additività
finita di P si ha
P (B) = P (A ∩ B) + P (Ac ∩ B) = P (A ∩ B)
poiché, per la (2.1.5), P (Ac ∩ B) ≤ P (Ac ) = 0.

2.1.4 Additività finita e σ -additività


In uno spazio di probabilità generale, la σ -additività è una proprietà più forte dell’additività. Capiremo
fra poco, con la Proposizione 2.1.31, l’importanza di richiedere la σ -additività nella definizione di misura
di probabilità: questo è un punto abbastanza delicato come vediamo nel prossimo esempio.

Esempio 2.1.29 (Probabilità uniforme continua). Supponiamo di voler definire il concetto di probabilità
uniforme sull’intervallo reale Ω = [0, 1]. Dal punto di vista intuitivo, risulta naturale porre

P ([a, b]) = b − a, 0 ≤ a ≤ b ≤ 1. (2.1.10)

Allora ovviamente P (Ω) = 1 e la probabilità dell’evento [a, b] (che può essere interpretato come l’evento
“un punto scelto a caso in [0, 1] appartiene ad [a, b]”) dipende solo dalla lunghezza di [a, b] ed è invariante
per traslazione. Notiamo che P ({x}) = P ([x, x]) = 0 per ogni x ∈ [0, 1], ossia ogni esito ha probabilità nulla,
e P altro non è che la misura di Lebesgue. Giuseppe Vitali provò nel 1905 (cf. [75]) che non è possibile
estendere la misura di Lebesgue a tutto l’insieme delle parti P(Ω) o, in altri termini, non esiste P definita
sull’insieme delle parti di [0, 1], che sia σ -additiva e soddisfi la (2.1.10). Se questo è vero ne viene che, nel
caso di spazi di probabilità generali, diventa necessario introdurre una σ -algebra di eventi su cui definire P :
in generale, tale σ -algebra sarà più piccola dell’insieme delle parti di Ω.
28 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Nel nostro contesto, il risultato di Vitali può essere enunciato nel modo seguente: non esiste una misura
di probabilità P su ([0, 1], P([0, 1])) che sia invariante per traslazioni, ossia tale che P (A) = P (Ax ) per ogni
A ⊆ [0, 1] e x ∈ [0, 1], dove

Ax = {y ∈ [0, 1] | y = a + x oppure y = a + x − 1 per un certo a ∈ A}.

La dimostrazione procede per assurdo ed è basata sull’assioma della scelta. Consideriamo su [0, 1] la rela-
zione di equivalenza x ∼ y se e solo se (x − y) ∈ Q: per l’assioma della scelta, da ogni classe di equivalenza
è possibile selezionare un rappresentante e fatto ciò, indichiamo con A l’insieme formato da tali rappre-
sentanti. Ora, per ipotesi, P (Aq ) = P (A) per ogni q ∈ Q ∩ [0, 1] e inoltre Aq ∩ Ap = ∅ per q , p in Q ∩ [0, 1].
Dunque otteniamo ]
[0, 1] = Aq
q∈Q∩[0,1]

e se P fosse σ -additiva, si avrebbe


X X
1 = P ([0, 1]) = P (Aq ) = P (A).
q∈Q∩[0,1] q∈Q∩[0,1]

Tuttavia l’ultima somma può solo assumere il valore 0 (nel caso in cui P (A) = 0) oppure divergere (nel caso
in cui P (A) > 0) e ciò porta ad un assurdo. Si noti che l’assurdo è conseguenza della richiesta di additività
numerabile (ossia σ -additività) di P .

Notazione 2.1.30. Nel seguito scriveremo

An ↗ A e Bn ↘ B
S
per indicare che (An )n∈N è una successione crescente di insiemi tale che A = An , e (Bn )n∈N è una
T n∈N
successione decrescente di insiemi tale che B = Bn .
n∈N

La σ -additività ha le seguenti importanti caratterizzazioni.

Proposizione 2.1.31. [!] Sia A un’algebra su Ω e

µ : A −→ [0, +∞]

una funzione additiva. Le seguenti proprietà sono equivalenti:

i) µ è σ -additiva;

ii) µ è σ -subadditiva4 ;

iii) µ è continua dal basso, ossia per ogni successione (An )n∈N in A tale che An ↗ A, con A ∈ A , vale

lim µ(An ) = µ (A) .


n→∞

Inoltre, se vale i) allora si ha anche


4 Per ogni A ∈ A e per ogni successione (A )
n n∈N di elementi di A tale che A ⊆
S
An , vale
n∈N

X
µ(A) ≤ µ (An ) .
n=1
2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 29

iv) µ è continua dall’alto, ossia per ogni successione (Bn )n∈N in A , tale che µ(B1 ) < ∞ e Bn ↘ B ∈ A , vale

lim µ(Bn ) = µ (B) .


n→∞

Infine, se µ(Ω) < ∞ allora i), ii), iii) e iv) sono equivalenti.
Dimostrazione. Preliminarmente osserviamo che µ è monotona: questo si prova come la Proposizione 2.1.22-
i).
[i) ⇒ ii)] È il contenuto della Proposizione 2.1.22-ii).
[ii) ⇒ iii)] Sia A ∋ An ↗ A ∈ A . Per monotonia si ha

lim µ(An ) ≤ µ(A).


n→∞

D’altra parte, poniamo


C1 = A1 , Cn+1 = An+1 \ An , n ∈ N.
Allora (Cn ) è una successione disgiunta in A e vale
] 
µ(A) = µ Ck ≤
k≥1

(per la σ -subadditività di µ)

X n
X
≤ µ(Ck ) = lim µ(Ck ) =
n→∞
k=1 k=1

(per l’additività finita di µ)

= lim µ(An ).
n→∞

[iii) ⇒ i)] Sia (An )n∈N una successione di elementi disgiunti di A , tale che A := An ∈ A . Posto
U
n∈N

n
[
Ān = Ak ,
k=1

si ha Ān ↗ A e Ān ∈ A per ogni n. Allora, per l’ipotesi di continuità dal basso di µ, si ha

µ(A) = lim µ(Ān ) =


n→∞

(per l’additività finita di µ)


n
X ∞
X
= lim µ(Ak ) = µ(Ak ),
n→∞
k=1 k=1

osservando che il limite delle somme parziali esiste, finito o no, poiché µ ha valori non-negativi.
[iii) ⇒ iv)] Supponiamo valga la iii). Se Bn ↘ B allora An := B1 \ Bn è tale che An ↗ A := B1 \ B. Se µ(B1 ) < ∞,
per la proprietà (2.1.6) che vale sotto la sola ipotesi di additività, si ha5

µ (B) = µ (B1 \ A)
∞ ∞ ∞ ∞
5 Nel dettaglio: si ha B \ S A = B ∩ T Ac = T (B ∩ Ac ) = T B .
1 n 1 n 1 n n
n=1 n=1 n=1 n=1
30 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

= µ(B1 ) − µ(A) =

(per l’ipotesi di continuità dal basso di µ)

= µ(B1 ) − lim µ(An ) = lim (µ(B1 ) − µ(An )) = lim µ(Bn ).


n→∞ n→∞ n→∞

[iv) ⇒ iii)] Sotto l’ipotesi che µ(Ω) < ∞, il fatto che iv) implichi iii) si dimostra come nel punto prece-
dente ponendo Bn = Ω \ An e utilizzando il fatto che se (An )n∈N è crescente allora (Bn )n∈N è decrescente e
ovviamente µ(B1 ) < ∞.

2.2 Spazi finiti e problemi di conteggio


In questa sezione assumiamo che Ω sia finito e consideriamo alcuni problemi in cui si usa la probabilità
discreta uniforme dell’Esempio 2.1.11. Questi vengono detti problemi di conteggio perché, ricordando la
(2.1.1), il calcolo delle probabilità si riconduce alla determinazione della cardinalità degli eventi.
Il calcolo combinatorio è lo strumento matematico che permette di svolgere questi calcoli. Sebbene si
tratti di problemi che hanno una formulazione elementare (data in termini di monete, dadi, carte etc) spesso
il calcolo può risultare molto complicato e può intimorire al primo impatto. Su questo aspetto è importante
sdrammatizzare perché si tratta di una complicazione di tipo tecnico più che sostanziale, che non deve
creare un’ingiustificata preoccupazione. Inoltre la probabilità uniforme discreta è soltanto un caso molto
particolare il cui interesse è decisamente limitato e marginale rispetto alla teoria della probabilità nel suo
complesso. Per questi motivi, a meno che non ci sia un interesse specifico per l’argomento, questa sezione
può essere saltata o letta molto velocemente in prima istanza.

2.2.1 Cardinalità di insiemi


Cominciamo col ricordare alcune nozioni di base sulla cardinalità di insiemi finiti. Nel seguito usiamo
la seguente

Notazione 2.2.1.
In = {k ∈ N | k ≤ n} = {1, 2, . . . , n}, n ∈ N.

Si dice che un insieme A ha cardinalità n ∈ N, e si scrive |A| = n oppure ♯A = n, se esiste una funzione
biettiva da In ad A. Inoltre per definizione |A| = 0 se A = ∅. Scriviamo A ↔ B se |A| = |B|. In questa sezione
consideriamo solo insiemi con cardinalità finita.
Provare per esercizio le seguenti proprietà:

i) |A| = |B| se e solo se esiste una funzione biettiva da A a B;

ii) se A, B sono disgiunti allora


|A ⊎ B| = |A| + |B|
e più in generale tale proprietà si estende al caso di un’unione disgiunta finita;

iii) per ogni A, B vale


|A × B| = |A||B| (2.2.1)
La (2.2.1) si può provare usando la ii) ed il fatto che
]
A×B = {x} × B
x∈A

dove l’unione è disgiunta e |{x} × B| = |B| per ogni x ∈ A;


2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 31

iii) indichiamo con AB l’insieme delle funzioni da B ad A. Allora si ha



AB = |A||B| (2.2.2)

poiché AB ↔ A × · · · × A.
| {z }
|B| volte

2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna


Quando si utilizza il calcolo combinatorio per lo studio di un esperimento aleatorio, la scelta dello
spazio campionario è importante perché può semplificare il conteggio dei casi possibili e dei casi favore-
voli. La scelta più conveniente, da questo punto di vista, dipende in generale dal fenomeno aleatorio in
considerazione. Tuttavia, è spesso utile ripensare l’esperimento aleatorio (o, eventualmente, ciascun sotto-
esperimento aleatorio in cui può essere scomposto) come un’opportuna estrazione di palline da un’urna
(con remissione, senza reimmmissione, simultanea) che ora descriviamo.
Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en . Si estraggono k palline dall’urna
in uno dei tre modi seguenti:

1) estrazione con reimmissione, con k ∈ N, in cui, per l’estrazione successiva, la pallina estratta viene
reinserita nell’urna;

2) estrazione senza reimmissione, con k ∈ {1, . . . , n}, in cui la pallina estratta non viene reinserita nell’urna;

3) estrazione simultanea, con k ∈ {1, . . . , n}, in cui le k palline vengono estratte simultaneamente.

Si noti che:

• nell’estrazione con reimmissione il numero totale di palline nell’urna e la sua composizione si man-
tengono costanti nelle successive estrazioni; dato che si estrae una pallina per volta, si tiene conto
dell’ordine di estrazione; inoltre è possibile che ci siano delle ripetizioni, ovvero è possibile estrarre più
volte la stessa pallina;

• nell’estrazione senza reimmissione ad ogni estrazione il numero totale di palline nell’urna si riduce di
un’unità e quindi ogni volta si modifica la composizione dell’urna stessa; anche in questo caso si tiene
conto dell’ordine di estrazione; invece le ripetizioni non sono più possibili (infatti una volta estratta,
la pallina non viene più reinserita nell’urna);

• l’estrazione simultanea corrisponde all’estrazione senza reimmissione in cui non si tiene conto dell’or-
dine di estrazione.

Possiamo dunque riassumere quanto detto finora nel seguente schema:

Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione Estrazione
Si tiene conto dell’ordine senza con
reimmissione reimmissione
Estrazione
Non si tiene conto dell’ordine
simultanea

Tabella 2.1: Classificazione del tipo di estrazioni da un’urna


32 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Torneremo in seguito sul quarto caso corrispondente alla casella vuota e, in particolare, sul perché non
sia stato considerato (si veda l’Osservazione 2.2.13). Per ognuno dei tre tipi di estrazione descritti sopra
vogliamo determinare uno spazio campionario Ω, con cardinalità più piccola possibile, che permetta di
descrivere tale esperimento aleatorio. Affronteremo tale questione nella Sezione 2.2.4 in cui vedremo che
Ω sarà dato rispettivamente da:
1) l’insieme DRn,k delle disposizioni con ripetizione di k elementi di {e1 , . . . , en }, nel caso dell’estrazione con
reimmissione;
2) l’insieme Dn,k delle disposizioni semplici di k elementi di {e1 , . . . , en }, nel caso dell’estrazione senza
reimmissione;
3) l’insieme Cn,k delle combinazioni di k elementi di {e1 , . . . , en }, nel caso dell’estrazione simultanea.
Prima di introdurre questi tre insiemi fondamentali, illustriamo un metodo generale che utilizzeremo per
determinare la cardinalità di DRn,k , Dn,k , Cn,k e di altri insiemi finiti.

2.2.3 Metodo delle scelte successive


In questa sezione illustriamo un algoritmo, noto come metodo delle scelte successive (o schema delle scelte
successive o anche principio fondamentale del calcolo combinatorio), che permette di determinare la cardinalità
di un insieme una volta caratterizzati univocamente i suoi elementi tramite un numero finito di scelte
successive.
Metodo delle scelte successive. Dato un insieme finito A di cui si vuole determinare la cardinalità |A|, si
procede come segue:
1) al primo passo, si considera una partizione di A in n1 ∈ N sottoinsiemi A1 , . . . , An1 , tutti aventi la stessa
cardinalità; tale partizione è ottenuta facendo una “scelta”, ovvero distinguendo gli elementi di A in base
ad una proprietà che essi possiedono;
2) al secondo passo, per ogni i = 1, . . . , n1 , si procede come al punto 1) con l’insieme Ai al posto di A, conside-
rando una partizione Ai,1 , . . . , Ai,n2 di Ai in n2 sottoinsiemi tutti aventi la stessa cardinalità, con n2 ∈ N
che non dipende da i;
3) si procede in questo modo fino a quando, dopo un numero finito k ∈ N di passi, gli elementi della partizione
hanno cardinalità è pari a 1.
La cardinalità di A è allora data da
|A| = n1 n2 · · · nk .
Per esempio, applichiamo il metodo delle scelte successive per dimostrare la validità della formula

AB = |A||B| .

Sia n = |A| la cardinalità di A e indichiamo con a1 , . . . , an i suoi elementi. Analogamente, sia k = |B| la
cardinalità di B e indichiamo con b1 , . . . , bk i suoi elementi. Dato che AB è l’insieme delle funzioni da B ad
A, possiamo caratterizzare univocamente ogni funzione in AB tramite le seguenti k = |B| scelte successive:
1) come prima scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b1 ; abbia-
mo n = |A| possibilità (quindi n1 = n), ossia questa prima scelta determina una partizione di A in n
sottoinsiemi (non serve scrivere quali sono questi sottoinsiemi, ma solo quanto vale n1 );
2) come seconda scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b2 ;
abbiamo n = |A| possibilità (quindi n2 = n);
3) · · ·
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 33

4) come k-esima e ultima scelta (con k = |B|) fissiamo il valore che le funzioni di AB assumono in
corrispondenza di bk ; abbiamo n = |A| possibilità (quindi nk = n).
Dal metodo delle scelte successive si deduce che

AB = |A| · · · |A| = |A||B| .
| {z }
k = |B| volte

Nel seguito, quando applicheremo il metodo delle scelte successive, procederemo come nei punti 1)-4),
limitandoci a dire quale scelta viene effettuata ad ogni passo e quante possibilità (o modi) ci sono per
fare questa scelta; mentre non faremo riferimento alla partizione che ogni scelta determina, dato che è in
generale chiaro quale essa sia.

2.2.4 Disposizioni e combinazioni


In questa sezione consideriamo un insieme con n ∈ N elementi

E = {e1 , e2 , . . . , en }

che rappresenta un’urna, contenente n palline numerate, con la quale si effettuano gli esperimenti aleatori
di estrazione.
Definizione 2.2.2 (Disposizioni con ripetizione). Dato k ∈ N, diciamo che

DRn,k := E × · · · × E = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E}
| {z }
k volte

è l’insieme delle disposizioni con ripetizione di k elementi di E. Per la (2.2.2) vale DRn,k = nk .
L’insieme DRn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni con reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, DRn,k esprime i modi in cui possiamo scegliere, in maniera ordinata e ripetuta, k oggetti presi
da un insieme di n oggetti.
Esempio 2.2.3. Sia E = {a, b, c}. Allora |DR3,2 | = 32 e precisamente

DR3,2 = {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.

Esempio 2.2.4. Determiniamo i “casi possibili” dei seguenti esperimenti aleatori (le soluzioni sono a fondo
pagina6 ):
i) si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto italiano (che ha 21
lettere);
ii) si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere tra 1, 2 o X;
iii) si lancia 10 volte un dado (non truccato) a sei facce.
Definizione 2.2.5 (Disposizioni semplici). Dato k ≤ n, diciamo che

Dn,k = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E, distinti}

è l’insieme delle disposizioni semplici di k elementi di E. Vale


n!
Dn,k = n(n − 1) · · · (n − k + 1) = . (2.2.3)
(n − k)!

6 Soluzioni relative all’Esempio 2.2.4: i) DR 8 13 10
21,8 = 21 ; ii) DR3,13 = 3 ; iii) DR6,10 = 6 .
34 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

L’insieme Dn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni senza reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, Dn,k esprime i modi in cui possiamo disporre, in maniera ordinata e non ripetuta, un numero
k di oggetti scelti da un insieme di n oggetti.
La formula (2.2.3) si può dimostrare tramite il metodo delle scelte successive, caratterizzando il generico
elemento (ω1 , . . . , ωk ) di Dn,k come segue:

1) come prima scelta fissiamo ω1 : abbiamo n = |E| possibilità e quindi n1 = n;

2) come seconda scelta fissiamo ω2 , diverso da ω1 : abbiamo n − 1 possibilità e quindi n2 = n − 1;

3) · · ·

4) come k-esima e ultima scelta fissiamo ωk : abbiamo n − k + 1 possibilità, dato che abbiamo già scelto
ω1 , . . . , ωk−1 e quindi nk = n − k + 1.

Dal metodo delle scelte successive si deduce dunque la validità di (2.2.3).


3!
Esempio 2.2.6. Sia E = {a, b, c}. Allora |D3,2 | = 1! = 6 e precisamente

D3,2 = {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.

Esempio 2.2.7. Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione) al gioco
del lotto (in cui si estraggono senza reimmissione cinque numeri dai primi novanta naturali), supponendo
di giocare un’unica cinquina (ad esempio la sequenza ordinata 13, 5, 45, 21, 34)? Quanto vale invece la
probabilità di fare una cinquina semplice (per cui non conta l’ordine di estrazione)?
Soluzione. La probabilità di fare una cinquina secca è semplicemente D 1 ≈ 1.89 · 10−10 .
| 90,5 |
Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti modi differenti si possono ordinare 5
|D |
numeri, pari a D5,5 = 5!. Allora la probabilità di una cinquina semplice dopo 5 estrazioni è D 5,5 ≈ 2.27 · 10−8 .
| 90,5 |

Definizione 2.2.8 (Permutazioni). Indichiamo con Pn := Dn,n l’insieme delle permutazioni di n oggetti.
Vale
|Pn | = n!

L’insieme Pn esprime i modi in cui possiamo riordinare, ossia disporre in maniera ordinata e non
ripetuta, un numero n di oggetti.

Definizione 2.2.9 (Combinazioni). Dato k ≤ n, indichiamo con Cn,k l’insieme delle combinazioni di k
elementi di E, definito come la famiglia dei sottoinsiemi di E di cardinalità k:

Cn,k = {A ⊆ F | |A| = k} .

L’insieme Cn,k è lo spazio campionario naturale per descrivere l’esito dell’estrazione simultanea di k
palline da un’urna che ne contiene n: ogni elemento {ω1 , . . . , ωk } indica un gruppo di k palline estratte.
Più in generale, Cn,k esprime tutti i gruppi di k oggetti scelti da un insieme di n oggetti, in maniera non
ordinata e non ripetuta.

Esempio 2.2.10. Sia E = {a, b, c}. Allora |C3,2 | = 3 e precisamente

C3,2 = {{a, b}, {a, c}, {b, c}}.

Proposizione 2.2.11. Si ha !
|Dn,k | n! n
Cn,k = = = . (2.2.4)
|Pk | k!(n − k)! k
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 35

Dimostrazione. A differenza del calcolo di |DRn,k | e |Dn,k |, non è possibile scomporre il calcolo di |Cn,k | in una
sequenza di scelte successive. Tuttavia, dimostrare la (2.2.4) equivale a dimostrare la seguente uguaglianza:

|Dn,k | = |Cn,k | |Pk |. (2.2.5)

Dimostriamo la (2.2.5) applicando il metodo delle scelte successive all’insieme Dn,k , caratterizzando il
generico elemento ω = (ω1 , . . . , ωk ) di Dn,k in base al seguente schema:

1) come prima scelta fissiamo il sottoinsieme {ω1 , . . . , ωk } di E formato dalle componenti di ω: abbiamo
|Cn,k | possibilità e quindi n1 = |Cn,k |;

2) come seconda e ultima scelta fissiamo la permutazione dei k elementi ω1 , . . . , ωk che descrive l’ordine
in cui sono disposti in ω: abbiamo |Pk | possibilità e quindi n2 = |Pk |.

Dal metodo delle scelte successive si deduce la validità di (2.2.5) e dunque di (2.2.4).

Gli insiemi DRn,k , Dn,k (e dunque anche Pn = Dn,n ) e Cn,k sono importanti non solo perché sono gli spazi
campionari dei tre esperimenti aleatori introdotti nella Sezione 2.2.2, ma anche perché le cardinalità di tali
insiemi spesso corrispondono ai numeri n1 , n2 , . . . , nk del metodo delle scelte successive; per esempio, per il
calcolo di |Dn,k | in (2.2.5) abbiamo scelto n1 = |Cn,k | ed n2 = |Pk |.
Possiamo completare la tabella della Sezione 2.2.2, riportando anche gli spazi campionari e le loro
cardinalità (ovvero i “casi possibili”).

Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk

Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k |
= nk

|Ω| = k!

Tabella 2.2: Classificazione del tipo di estrazioni da un’urna e relazione con disposizioni e combinazioni

Riportiamo qui di seguito alcune osservazioni conclusive riguardanti la Tabella 2.2.

Osservazione 2.2.12. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sarebbe sufficiente
considerare solamente i primi due: l’estrazione senza reimmissione e l’estrazione con reimmissione. Infatti
l’estrazione simultanea può essere vista come un caso particolare dell’estrazione senza reimmissione in cui
non si tiene conto dell’ordine. Più precisamente, ad ogni elemento di Cn,k , ovvero ad ogni sottoinsieme di
k palline scelta fra n, corrispondono k! elementi (o k-uple) di Dn,k , di conseguenza vale che

casi favorevoli in Cn,k k! (casi favorevoli in Cn,k ) casi favorevoli in Dn,k


= = .
casi possibili in Cn,k k! (casi possibili in Cn,k ) casi possibili in Dn,k

Osservazione 2.2.13. La casella vuota nella tabella sopra riportata corrisponde all’insieme delle cosiddet-
te combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non ordinati ed eventualmente ripetuti,
di k oggetti scelti da un insieme di n oggetti. L’esperimento aleatorio corrispondente è l’estrazione con
36 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

reimmissione in cui non si tiene conto dell’ordine: questo esperimento aleatorio può essere descritto an-
che dallo spazio campionario DRn,k munito della probabilità uniforme discreta. Al contrario, sullo spazio
delle combinazioni con ripetizione la probabilità non può essere quella uniforme discreta. Infatti ad ogni
combinazione con ripetizione non corrisponde sempre lo stesso numero di elementi di DRn,k (come invece
accade nel caso di Cn,k e Dn,k ) e la costante di proporzionalità dipende da quante ripetizioni ci sono all’in-
terno della combinazione: le combinazioni con più ripetizioni sono meno probabili. Per questa ragione su
tale spazio non vale la formula “casi favorevoli/casi possibili”, ovvero non si possono usare le tecniche del
calcolo combinatorio.

Esempio 2.2.14. Riconsideriamo il calcolo della probabilità di una cinquina semplice al gioco del lotto:
poiché non conta l’ordine di estrazione dei numeri, siamo nel caso dell’estrazione simultanea, quindi è
naturale considerare Ω = C90,5 . In effetti la probabilità della cinquina è |C 1 | che coincide con il risultato
90,5
5!
che avevamo già trovato usando le disposizioni semplici, ossia .
|D90,5 |
Esercizio 2.2.15. Calcoliamo la probabilità di ottenere una cinquina semplice dopo k ≥ 5 estrazioni.
Soluzione. Poniamo Ω = C90,k . Indichiamo con A l’evento che ci interessa, ossia la famiglia degli insiemi di k numeri in cui 5
sono fissati e i rimanenti k − 5 sono qualsiasi fra i restanti 85 numeri. Allora si ha

|C85,k−5 |
P (A) = .
|C90,k |

Per esempio, P (A) ≈ 6 · 10−6 per k = 10 e P (A) ≈ 75% per k = 85.

Esercizio 2.2.16. Consideriamo un mazzo di 40 carte. Calcoliamo la probabilità dell’evento A definito in


ognuno dei modi seguenti:

(1) in 5 estrazioni senza reimmissione si ottengono 5 denari;

(2) in 5 estrazioni con reimmissione si ottengono 5 denari;

(3) in 5 estrazioni senza reimmissione si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme, anche
diversi fra loro.
Soluzione. (1) L’estrazione è senza reimmissione, ma l’evento A = “si ottengono 5 denari” non tiene conto dell’ordine. Quindi
tale estrazione può essere vista anche come un’estrazione simultanea. Perciò possiamo scegliere come spazio campionario
Ω = C40,5 (scegliere Ω = D40,5 andrebbe comunque bene). L’esito ω = {ω1 , ω2 , ω3 , ω4 , ω5 } corrisponde dunque all’insieme
delle carte estratte. Allora A ↔ C10,5 (le possibile scelte, non ordinate e non ripetute, di 5 denari) e quindi

10
P (A) = 5  ≈ 0.04 %.
40
5

(2) Questa volta l’estrazione è con reimmissione, quindi occorre considerare Ω = DR40,5 (in realtà, anche in questo caso
l’evento A non tiene conto dell’ordine; tuttavia quando c’è ripetizione l’unico spazio che possiamo scegliere per poter utilizzare
le tecniche del calcolo combinatorio è lo spazio delle disposizioni con ripetizione). L’esito ω può essere identificato con la
sequenza (ω1 , ω2 , ω3 , ω4 , ω5 ), ordinata e con possibili ripetizioni, delle carte estratte. In questo caso A ↔ DR10,5 (le possibile
scelte, ordinate e ripetute, di 5 denari) e quindi
105
P (A) = 5 ≈ 0.1 %.
40
(3) In questo caso l’estrazione è senza reimmissione e l’evento A = “si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme,
anche diversi fra loro” tiene conto dell’ordine, quindi lo spazio campionario naturale è Ω = D40,5 . Abbiamo che A ↔ DR4,5
(si sceglie in modo ordinato la sequenza dei semi delle 5 carte estratte) e quindi

|DR4,5 |
P (A) = ≈ 10−3 %.
|D40,5 |
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 37

2.2.5 Probabilità binomiale e ipergeometrica.


Presentiamo ora due esempi fondamentali che, come vedremo più avanti, sono legati a due misure di
probabilità molto importanti, la binomiale e l’ipergeometrica. Cominciamo col ricordare alcune proprietà
del coefficiente binomiale. Assumiamo per convenzione

0! = 1 e 00 = 1. (2.2.6)

Ricordiamo che per k, n ∈ N0 , con k ≤ n, !


n n!
= .
k k!(n − k)!
Dalla definizione segue direttamente che
! ! ! ! !
n n n n n
= , = = 1, = n.
k n−k 0 n 1

Inoltre, per k, n ∈ N con k < n, vale ! ! !


n n−1 n−1
= + . (2.2.7)
k k−1 k
Come esercizio, utilizzando la (2.2.7) provare per induzione la formula binomiale (o formula di Newton)7
n !
X n k n−k
(a + b)n = a b , a, b ∈ R. (2.2.8)
k
k=0

Come casi particolari della (2.2.8):


• se a = b = 1 si ha
n !
X n
= 2n . (2.2.9)
k
k=0
n
Ricordando che se |A| = n allora k = |Cn,k | è pari al numero di sottoinsiemi di A di cardinalità k, la
(2.2.9) mostra che |P(A)| = 2n .
• ricordando la convenzione (2.2.6) per i casi p = 0 e p = 1, vale
n !
X n k
p (1 − p)n−k = 1, p ∈ [0, 1]. (2.2.10)
k
k=0

In altri termini, posto per semplicità


!
n k
pk := p (1 − p)n−k , k = 0, . . . , n,
k

si ha che p0 , . . . , pn sono numeri non-negativi con somma pari a 1. Quindi, per l’Osservazione 2.1.13,
ponendo P ({k}) = pk si definisce una misura di probabilità sullo spazio campionario Ω = {0, . . . , n},
detta probabilità binomiale.
Diamo un’interpretazione della probabilità binomiale nel seguente
7 Una dimostrazione alternativa, di carattere combinatorio, della formula di Newton è la seguente: il prodotto (a + b)(a + b) · · · (a + b)

di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk con 0 ≤ k ≤ n. Quanti sono i monomi di un certo tipo (cioè
con k fisso)? Il monomio an−k bk si ottiene scegliendoil valore b da k degli n fattori disponibili nel prodotto (a + b)(a + b) · · · (a + b) (e,
quindi, scegliendo a dai rimanenti n − k), ovvero in nk modi.
38 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Esempio 2.2.17 (Binomiale). [!]


Consideriamo un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N. Effettuiamo n estra-
zioni con reimmissione. Calcoliamo la probabilità dell’evento Ak che consiste nell’estrazione di esattamente
k palline bianche, con 0 ≤ k ≤ n.
Determiniamo lo spazio campionario: a priori non importa l’ordine di estrazione, ma osservando che
c’è il reinserimento (ossia la ripetizione di una possibile pallina già estratta), siamo portati a conside-
rare Ω = DRb+r,n . L’esito ω può essere identificato con la k-upla che identifica la sequenza, ordinata e
con eventuali ripetizioni, delle palline estratte (supponendo di aver numerato le palline per identificarle).
Caratterizziamo il generico esito ω ∈ Ak tramite le seguenti scelte successive:
i) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche estratte dalle b
presenti nell’urna: ci sono |DRb,k | modi possibili;
ii) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle n − k palline rosse estratte dalle r
presenti nell’urna: ci sono |DRr,n−k | modi possibili;
iii) scegliamo in quali delle n estrazioni sono state estratte le k palline bianche; ci sono |Cn,k | modi
possibili8 .
In definitiva
n bk r n−k
!
|DRb,k ||DRr,n−k |
P (Ak ) = |Cn,k | = ,
|DRb+r,n | k (b + r)n
o, equivalentemente, !
n k
P (Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r è la probabilità di estrarre una pallina bianca, secondo la probabilità uniforme.
Osservazione 2.2.18. Come spiegheremo meglio in seguito, la probabilità binomiale si può interpretare
come la probabilità di avere k successi ripetendo n volte un esperimento che ha solo due esiti: successo con
probabilità p e insuccesso con probabilità 1 − p. Per esempio, la probabilità di ottenere esattamente k teste
lanciando n volte una moneta è pari a nk pk (1 − p)n−k con p = 21 , ossia nk 21n .
 

Esempio 2.2.19 (Ipergeometrica). Consideriamo un’urna che contiene b palline bianche ed r palline rosse,
con b, r ∈ N. Effettuiamo n ≤ b + r estrazioni senza reimmissione. Calcoliamo la probabilità dell’evento Ak
che consiste nell’estrazione di esattamente k palline bianche, con max{0, n−r} ≤ k ≤ min{n, b}. La condizione
max{0, n − r} ≤ k ≤ min{n, b} equivale a richiedere che valgano simultaneamente le tre condizioni seguenti:
• 0 ≤ k ≤ n;
• k ≤ b, ovvero il numero di palline bianche estratte non superi b;
• n − k ≤ r, ovvero il numero di palline rosse estratte non superi r.
Determiniamo lo spazio campionario: dato che non importa l’ordine di estrazione possiamo considerare
Ω = Cb+r,n (alternativamente, possiamo scegliere Ω = Db+r,n ). L’esito ω corrisponde all’insieme delle palline
estratte (supponendo di aver numerato le palline per identificarle). Caratterizziamo il generico esito ω ∈ Ak
tramite le seguenti scelte successive:
i) scegliamo le k palline bianche estratte dalle b presenti nell’urna: ci sono |Cb,k | modi possibili;
ii) scegliamo le n − k palline rosse estratte dalle r presenti nell’urna: ci sono |Cr,n−k | modi possibili.
In definitiva
b r 
|Cb,k ||Cr,n−k | k n−k
P (Ak ) = = b+r 
, max{0, n − r} ≤ k ≤ min{n, b}.
|Cb+r,n |
n
8 Infatti ogni sottoinsieme di cardinalità k di I identifica k estrazioni delle n, e viceversa. Ad esempio, se n = 4 e k = 2, il
n
sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a estrazione, e viceversa.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 39

2.2.6 Esempi
Proponiamo una serie di esempi utili a prendere familiarità con i problemi di conteggio.

Esempio 2.2.20. Consideriamo un gruppo di k ≥ 2 persone nate nello stesso anno (di 365 giorni). Calcolare
la probabilità che almeno due persone del gruppo siano nate nello stesso giorno.
Soluzione. Possiamo riformulare il problema come segue: un’urna contiene 365 palline numerate da 1 a 365; la pallina numero
N corrisponde all’N -esimo giorno dell’anno; si estraggono con reimmissione k palline; qual è la probabilità che di estrarre due
volte lo stesso numero? Abbiamo dunque ricondotto il problema all’estrazione con reimmissione di k palline da un’urna che
ne contiene 365. Sappiamo che lo spazio campionario naturale è Ω = DR365,k . Sia A l’evento che ci interessa, ovvero A =
“almeno due persone sono nate nello stesso giorno”. Allora Ac ↔ D365,k e quindi

|D365,k | 365!
P (A) = 1 − P (Ac ) = 1 − = 1− .
|DR365,k | (365 − k)! · 365k

Si vede che P (A) ≈ 0.507 > 12 per k = 23 e P (A) ≈ 97% per k = 50.

Esempio 2.2.21. Si estraggono (senza reimmissione) 2 carte da un mazzo di 40 carte identificate dal seme
(spade, coppe, bastoni, denari) e dal tipo (asso, 2, 3, 4, 5, 6, 7, fante, cavallo, re). Calcoliamo la probabilità
dell’evento A definito in ognuno dei modi seguenti:

(1) le due carte sono, nell’ordine, una carta di denari e una di coppe;

(2) le due carte sono, nell’ordine, una carta di denari e un 7;

(3) le due carte sono una carta di denari e un 7, indipendentemente dall’ordine.


Soluzione.
(1) Poniamo Ω = D40,2 . L’esito ω = (ω1 , ω2 ) corrisponde alla coppia delle carte estratte. Caratterizziamo il generico esito
ω = (ω1 , ω2 ) ∈ A tramite le seguenti scelte successive:
i) scegliamo la prima carta estratta (ovvero ω1 ) fra le carte di denari: ci sono 10 scelte possibili;
ii) scegliamo la seconda carta estratta (ovvero ω2 ) fra le carte di coppe: ci sono 10 scelte possibili.
In definitiva
100 5
P (A) = = ≈ 6.4%.
|D40,2 | 78
Se invece non si fosse tenuto conto dell’ordine di estrazione, avremmo potuto considerare, in alternativa, lo spazio campionario
Ω = C40,2 . In tal caso l’esito ω = {ω1 , ω2 } corrisponde all’insieme delle carte estratte. Quindi, procedendo come prima,

100 5
= = 2P (A).
|C40,2 | 39

(2) Poniamo Ω = D40,2 . Non possiamo determinare |A| tramite le due scelte successive i)-ii) del punto (1), in quanto pro-
cedendo in questo modo conteremmo anche la coppia (7D, 7D) che invece deve essere esclusa visto che le carte non vengono
reinserite nel mazzo. Invece di applicare direttamente ad A il metodo delle scelte successive, notiamo che A è unione disgiunta
di A1 = D9,1 × D4,1 (la prima carta è una carta di denari diversa da 7 e la seconda carta è uno dei quattro 7) e A2 = D3,1 (la
prima carta è il 7 di denari e la seconda carta è uno dei rimanenti tre 7). Dunque

9·4 3 1
P (A) = P (A1 ) + P (A2 ) = + = .
|D40,2 | |D40,2 | 40
1 .
(3) Poiché non conta l’ordine P (A) è il doppio rispetto al caso (2), quindi P (A) = 20

Esempio 2.2.22. Si divida un mazzo di 40 carte in due mazzi da 20. Calcoliamo la probabilità dell’evento
A definito in ognuno dei modi seguenti:

(1) il primo mazzo contiene esattamente un 7;


40 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

(2) il primo mazzo contiene almeno un 7.


Soluzione. Poniamo Ω = C40,20 . L’esito ω può essere pensato come l’insieme delle carte del primo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo l’unico 7 che appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo, che non devono essere dei 7: ci sono |C36,19 | modi possibili.
In definitiva
4|C36,19 | 120
P (A) = = ≈ 25%.
|C40,20 | 481
(2) Abbiamo
|C36,20 |
P (A) = 1 − P (Ac ) = 1 − ≈ 95.7%. (2.2.11)
|C40,20 |
Per capire meglio, vediamo dei modi alternativi per risolvere il problema: potremmo tentare di caratterizzare il generico esito
ω ∈ A tramite le seguenti scelte successive:
i) scegliamo un 7 che sicuramente appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo fra le rimanenti 39: ci sono |C39,19 | modi possibili.
In questo caso troveremmo
4|C39,19 |
P (A) = =2
|C40,20 |
che è ovviamente un risultato sbagliato. L’errore sta nel fatto che le scelte successive non identificano univocamente ω, nel
senso che lo stesso ω viene “contato” più di una volta: per esempio, un ω che contiene il 7D (7 di denari) e il 7S (7 di spade)
viene individuato scegliendo 7D nella scelta i) e 7S nella scelta ii) ma anche invertendo i ruoli di 7D e 7S.
Se non vogliamo usare l’evento complementare, possiamo in alternativa calcolare |A| tramite il principio di somma, espri-
mendo A come unione degli eventi disgiunti Ak =“il primo mazzo contiene esattamente un numero k di 7”, per k = 1, 2, 3, 4. Il
generico esito ω ∈ Ak è determinato univocamente dalle seguenti scelte successive:
i) fra i 7 ne scegliamo k che sono quelli che appartengono al primo mazzo: ci sono |C4,k | modi possibili;
ii) scegliamo le rimanenti 20 − k del primo mazzo, che non devono essere dei 7: ci sono |C36,20−k | modi possibili.
Quindi
|C4,k ||C36,20−k |
P (Ak ) = , k = 1, 2, 3, 4,
|C40,20 |
e come risultato finale riotteniamo la (2.2.11).

Esempio 2.2.23. Da un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N, vengono estratte
senza reimmissione k palline, con k ≤ b+r. Calcoliamo la probabilità dell’evento Bk che consiste nell’estrarre
una pallina bianca alla k-esima estrazione.
Soluzione. Poniamo Ω = Db+r,k . L’esito ω può essere identificato con il vettore che indica la sequenza ordinata e senza
ripetizioni delle k estrazioni (supponendo di aver numerato le palline per identificarle). Allora

Bk ↔ {(ω1 , . . . , ωk ) | ωk “bianca”}.

Per determinare |Bk | utilizziamo il metodo delle scelte successive, caratterizzando una generica k-upla (ω1 , . . . , ωk ) tramite il
seguente schema:
i) scegliamo la pallina bianca della k-esima estrazione, ossia ωk : ci sono b modi possibili;
ii) scegliamo la sequenza (ordinata e senza ripetizioni) delle k −1 estrazioni precedenti: ci sono |Db+r−1,k−1 | modi possibili.
In definitiva, posto b + r = n, si ha
(n−1)!
b|Dn−1,k−1 | b (n−k)! b
P (Bk ) = = = .
|Dn,k | n! n
(n−k)!

Dunque P (Bk ) = b+rb coincide con la probabilità di estrarre una pallina bianca alla prima estrazione, ovvero P (B ) = P (B ).
k 1
Questo fatto si può spiegare osservando che Bk è in corrispondenza biunivoca con l’insieme {(ω1 , . . . , ωk ) | ω1 “bianca”}.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 41

Esempio 2.2.24. Si consideri un mazzo di 40 carte, da cui si estraggono senza reimmissione k carte, con
k ≤ 40. Calcoliamo la probabilità che alla k-esima estrazione venga estratta una carta di denari.
Soluzione. L’esempio è simile al precedente: posto Ω = D40,k e Ak = “si estrae una carta di denari alla k-esima estrazione”, la
probabilità di Ak è data da
10|D39,k−1 | 1
P (Ak ) = = .
|D40,k | 4

Esempio 2.2.25. Da un’urna che contiene b palline bianche ed r palline rosse, vengono estratte con reim-
missione 2 palline. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) le due palline hanno lo stesso colore;
(2) almeno una delle due palline è rossa.
Soluzione. Poniamo Ω = DRb+r,2 . L’esito ω può essere identificato con la coppia (ω1 , ω2 ) che indica la sequenza ordinata (e
con eventuale ripetizione) delle due estrazioni (supponendo di aver numerato le palline per identificarle).
(1) Abbiamo che A è unione disgiunta di A1 = DRb,2 (le due palline sono bianche) e A2 = DRr,2 (le due palline sono rosse).
Dunque
|DRb,2 | |DRr,2 | b2 + r 2
P (A) = P (A1 ) + P (A2 ) = + = .
|DRb+r,2 | |DRb+r,2 | (b + r)2
(2) Si ha P (A) = 1 − P (Ac ) con Ac = DRb,2 (le due palline sono bianche) e quindi

b2
P (A) = 1 − .
(b + r)2

Esempio 2.2.26. Consideriamo un mazzo di carte da poker da 52 carte, identificate dal seme (cuori ♥,
quadri ♦, fiori ♣, picche ♠) e dal tipo (un numero da 2 a 10 oppure J, Q, K, A). Calcoliamo la probabilità di
avere un tris servito, ovvero di ricevere dal mazziere 5 carte di cui 3 sono dello stesso tipo, mentre le altre
due di tipo diverso tra loro e dalle prime tre.
Soluzione. Poniamo Ω = C52,5 . Sia A l’evento di cui dobbiamo calcolare la probabilità, ovvero

A = “avere un tris servito”.

Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:


i) scegliamo il tipo delle carte che formano il tris: ci sono 13 tipi possibili;
ii) scegliamo i tre semi del tris: ci sono |C4,3 | scelte possibili;
iii) scegliamo i tipi delle altre 2 carte fra i rimanenti 12 tipi possibili: ci sono |C12,2 | scelte possibili;
iv) scegliamo il seme delle altre 2 carte fra i 4 possibili: ci sono 4 · 4 = 16 modi possibili.
In definitiva
13 · 4 · |C12,2 | · 16
P (A) = ≈ 2.11%.
|C52,5 |

Come abbiamo detto in precedenza, nonostante la maggior parte degli esperimenti aleatori descritti
dalla probabilità uniforme discreta possa essere formulata su uno dei tre spazi campionari DRn,k , Dn,k ,
Cn,k , ci sono casi in cui questo non è possibile. Tuttavia, è sempre possibile scomporre l’esperimento alea-
torio in opportuni sotto-esperimenti aleatori che possono essere formulati su DRn,k , Dn,k o Cn,k , di modo
che l’esperimento aleatorio di partenza possa essere descritto sul loro prodotto cartesiano. Vediamo più
precisamente come si procede nei tre esempi che seguono.
Esempio 2.2.27. Consideriamo un mazzo di 30 carte (per esempio, denari, coppe e spade). Dopo averlo
diviso in tre mazzi da 10 carte, calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) i tre assi sono in mazzi differenti;
42 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

(2) i tre assi sono nello stesso mazzo.


Soluzione. Poniamo Ω = C30,10 × C20,10 : l’esito ω = (ω1 , ω2 ) può essere pensato come la coppia in cui ω1 è l’insieme delle
carte del primo mazzo e ω2 è l’insieme delle carte del secondo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo i mazzi in cui sono gli assi: ci sono |P3 | = 6 modi possibili;
ii) scegliamo le rimanenti 9 carte del primo mazzo, che non devono essere degli assi: ci sono |C27,9 | modi possibili;
iii) scegliamo le rimanenti 9 carte del secondo mazzo, che non devono essere degli assi: ci sono |C18,9 | modi possibili.
In definitiva
6|C27,9 ||C18,9 | 50
P (A) = = ≈ 24.6%.
|C30,10 ||C20,10 | 203
(2) In modo analogo caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il mazzo in cui sono gli assi: ci sono 3 modi possibili;
ii) scegliamo le rimanenti 7 carte del mazzo in cui sono gli assi, che non devono essere degli assi: ci sono |C27,7 | modi
possibili;
iii) scegliamo le 10 carte di un secondo mazzo, che non devono essere degli assi: ci sono |C20,10 | modi possibili.
In definitiva
3|C27,7 ||C20,10 | 18
P (A) = = ≈ 8.8%.
|C30,10 ||C20,10 | 203

Esempio 2.2.28. Una moneta (non truccata) viene lanciata dieci volte. Dopodiché si lancia un dado a dieci
facce (su cui sono riportati i numeri interi da 1 a 10). Calcoliamo la probabilità dell’evento

A = “il lancio della moneta, il cui numero è fornito dall’esito del dado, ha dato testa”.

In altre parole, l’evento A si verifica se, dopo aver scelto a caso uno dei 10 lanci (tramite il lancio del dado),
il risultato di quel lancio è testa.
Soluzione. Intuitivamente la probabilità è 12 . Consideriamo Ω = DR2,10 × I10 (si noti che al posto dell’insieme I10 è possibile
utilizzare indifferentemente DR10,1 , D10,1 o C10,1 , dato che |I10 | = |DR10,1 | = |D10,1 | = |C10,1 |). L’esito ω = (ω1 , . . . , ω10 , k)
corrisponde alla sequenza ω1 , . . . , ω10 dei risultati dei lanci e alla scelta k del lancio fra i 10 effettuati. Caratterizziamo il
generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il numero k del lancio: ci sono 10 valori possibili;
ii) scegliamo il risultato degli altri 9 lanci: ci sono |DR2,9 | modi possibili.
In definitiva
10|DR2,9 | 10 · 29 1
P (A) = = = .
|DR2,10 × I10 | 10 · 210 2

Esempio 2.2.29.
i) In quanti modi è possibile sistemare 3 monete (distinte: chiamiamole per esempio m1 , m2 e m3 ) in 10
scatole, sapendo che ogni scatola può contenere solo una moneta?
ii) Una volta disposte le monete, qual è la probabilità che la prima scatola contenga una moneta?
iii) Rispondere ai quesiti precedenti nel caso in cui ogni scatola possa contenere al più 2 monete.
Soluzione. 1) Possiamo immaginare che l’esperimento si svolga come segue: un’urna contiene 10 palline numerate da 1 a
10; ogni pallina corrisponde ad una scatola (supponiamo che le scatole siano state anch’esse numerate da 1 a 10); quindi
si estraggono senza reimmissione tre palline: il numero della i-esima pallina estratta indica la scatola in cui verrà messa la
moneta mi , con i = 1, 2, 3. Abbiamo dunque ricondotto l’esperimento all’estrazione senza reimmissione di 3 palline da un’urna
che ne contiene 10. Sappiamo che lo spazio campionario naturale è Ω = D10,3 . Il punto 1) chiede di calcolare i “casi possibili”,
ovvero |D10,3 | = 10!
7! = 720.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 43

3 . Per dimostrarlo, indichiamo con A l’evento di cui vogliamo calcolare la probabilità,


2) Intuitivamente (?) la probabilità è 10
ovvero
A = “la prima scatola contiene una moneta” = “la pallina numero 1 è stata estratta”.
Si ha che
|A| |A|
P (A) = =
|D10,3 | 720
o, alternativamente,
|Ac | |Ac |
P (A) = 1 − P (Ac ) = 1 − = 1− .
|D10,3 | 720
Resta dunque da determinare |A| oppure |Ac |. Si noti che Ac è l’evento in cui le tre monete non sono messe nella prima scatola
e quindi equivale a disporre le 3 monete nelle rimanenti 9 scatole (equivalentemente, nelle tre estrazioni dall’urna, non esce la
pallina numero 1), ossia Ac ↔ D9,3 . Quindi |Ac | = |D9,3 |, da cui

|D9,3 | 7 3
P (A) = 1 − = 1− = .
|D10,3 | 10 10

Alternativamente, |A| può essere determinato con il metodo delle scelte successive procedendo come segue:
• scelgo la moneta da mettere nella prima scatola: 3 scelte possibili;
• scelgo dove mettere le restanti due monete nelle rimanenti nove scatole: |D9,2 | modi possibili.
Quindi |A| = 3|D9,2 |, perciò
3|DR9,2 | 3
P (A) = = .
720 10
3) Poniamo Ω = Ω1 ⊎ Ω2 , dove:
• Ω1 contiene i “casi possibili” in cui le prime due monete sono nella stessa scatola, e, di conseguenza, la terza moneta è
in una delle rimanenti nove scatole: ci sono 10 · 9 casi possibili di questo tipo, quindi |Ω1 | = 10 · 9;
• Ω2 contiene i “casi possibili” in cui le prime due monete sono in scatole diverse, mentre la terza moneta è in una
qualsiasi delle dieci scatole: ci sono |D10,2 | · 10 casi possibili di questo tipo, quindi |Ω2 | = |D10,2 | · 10.
Dato che Ω = Ω1 ⊎ Ω2 , abbiamo che

|Ω| = |Ω1 | + |Ω2 | = 10 · 9 + |D10,2 | · 10 = 990.

Riassumendo, in questa sezione abbiamo esaminato la probabilità uniforme discreta che è essenzial-
mente definita come rapporto fra “casi favorevoli” e “casi possibili”. Il calcolo della probabilità uniforme si
riduce a un problema di conteggio che può essere risolto con gli strumenti del calcolo combinatorio. In tale
contesto, un utile algoritmo per il conteggio di “casi favorevoli” e “casi possibili” è il cosiddetto “metodo
delle scelte successive”. Gli errori più comuni che si commettono nell’utilizzo di tale metodo sono:

• contare esiti che non esistono (vedi Esempio 2.2.21);

• contare più di una volta lo stesso esito (vedi Esempio 2.2.22);

• non contare tutti gli esiti.

Abbiamo anche visto che, nel caso della probabilità uniforme discreta, è spesso utile ripensare il fenomeno
aleatorio come un esperimento (o, eventualmente, una sequenza di esperimenti) in cui si estraggono (con
reimmissione, senza reimmissione, simultaneamente) k palline da un’urna che contiene n palline distinte.
Nell’ambito di questo tipo di problemi abbiamo infine introdotto due esempi notevoli di probabilità: la
binomiale e l’ipergeometrica.
44 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

2.3 Probabilità condizionata e indipendenza di eventi


I concetti di indipendenza e probabilità condizionata sono centrali nella Teoria della Probabilità. Po-
tremmo dire che finora abbiamo semplicemente rivisto alcuni concetti di calcolo combinatorio e teoria
della misura dandone l’interpretazione probabilistica. Ora, con l’indipendenza e la probabilità condiziona-
ta, introduciamo concetti completamente nuovi e peculiari della Teoria della Probabilità: essi permettono
di analizzare come l’informazione riguardo al verificarsi di un evento influenza la probabilità di un altro
evento.

2.3.1 Probabilità condizionata


Come già spiegato, la Teoria della Probabilità si occupa dei fenomeni il cui esito è incerto: ora l’in-
certezza su un fatto significa “mancanza di conoscenza parziale o totale” del fatto stesso. In altri termini,
l’incertezza è dovuta ad una mancanza di informazioni sul fenomeno poiché esso avverrà nel futuro (per
esempio, il prezzo di domani di un titolo azionario) oppure poiché è già avvenuto ma non è stato possibi-
le osservarlo (per esempio, l’estrazione di una carta che non ci viene mostrata oppure la traiettoria di un
elettrone). Chiaramente può accadere che alcune informazioni diventino disponibili e in tal caso lo spazio
di probabilità che descrive il fenomeno deve essere “aggiornato” per tener conto di esse. A questo scopo si
introduce il concetto di probabilità condizionata. Consideriamo dapprima il seguente
Esempio 2.3.1. [!] Da un’urna che contiene 2 palline bianche e 2 palline nere, si estraggono in sequenza e
senza reinserimento due palline:
i) calcolare la probabilità che la seconda pallina sia bianca;
ii) sapendo che la prima pallina estratta è nera, calcolare la probabilità che la seconda pallina sia bianca;
iii) sapendo che la seconda pallina estratta è nera, calcolare la probabilità che la prima pallina sia bianca.
Utilizzando il calcolo combinatorio, è abbastanza facile risolvere il quesito i). Consideriamo lo spazio cam-
pionario Ω = D4,2 delle possibili estrazioni, tenendo conto dell’ordine. Allora |Ω| = |D4,2 | = 12 e l’evento
A =“la seconda pallina è bianca” ha 6 elementi, quindi P (A) = 12 .
Il quesito ii) è elementare dal punto di vista intuitivo: poiché abbiamo l’informazione che la prima
pallina estratta è nera, alla seconda estrazione l’urna è composta da due palline bianche e una nera e
quindi la probabilità cercata è 32 . Condizionatamente all’informazione data, l’evento A ha ora probabilità
maggiore di 21 .
Al contrario, l’ultimo quesito non sembra avere una soluzione intuitiva. Si potrebbe pensare che la
seconda estrazione non influisce sulla prima perché avviene dopo ma ciò non è corretto. Poiché ci viene
data un’informazione sulla seconda estrazione, bisogna pensare che le due estrazioni siano già avvenute
e in tal caso l’informazione sull’esito della seconda estrazione influisce sulla probabilità dell’esito della prima:
infatti sapendo che la seconda estratta è una pallina nera, è come se nella prima estrazione tale pallina
nera fosse stata “prenotata” e non potesse essere estratta; quindi ci sono due possibilità su tre di estrarre
una pallina bianca. In effetti, anche utilizzando il calcolo combinatorio è facile provare che la probabilità
cercata è 32 .
Ora formalizziamo le idee precedenti.
Definizione 2.3.2 (Probabilità condizionata). In uno spazio di probabilità (Ω, F , P ) sia B un evento non
trascurabile, ossia tale che P (B) > 0. La probabilità di A condizionata a B è definita da
P (A ∩ B)
P (A | B) := , A ∈ F. (2.3.1)
P (B)
Osservazione 2.3.3. La Definizione 2.3.2 si motiva nel modo seguente: se sappiamo che l’evento B è acca-
duto allora lo spazio campionario si “riduce” da Ω a B e, condizionatamente a tale informazione, è naturale
definire la probabilità di A come in (2.3.1) poiché:
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 45

i) solo gli eventi di A che stanno anche in B possono accadere;


ii) poiché il nuovo spazio campionario è B, dobbiamo dividere per P (B) in modo che P (B | B) = 1.
Proposizione 2.3.4. Nello spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile. Si ha:
i) P (· | B) è una misura di probabilità su (Ω, F );
ii) se A ∩ B = ∅ allora P (A | B) = 0;
P (A)
iii) se A ⊆ B allora P (A | B) = P (B)
e di conseguenza P (A | B) ≥ P (A);

iv) se B ⊆ A allora P (A | B) = 1;
v) se P (A) = 0 allora P (A | B) = 0.
Dimostrazione. Le proprietà seguono direttamente dalla Definizione 2.3.2: provare i dettagli è un esercizio
molto utile e istruttivo.
Esempio 2.3.5. [!] Riprendiamo il punto ii) dell’Esempio 2.3.1 e consideriamo gli eventi B =“la prima
pallina estratta è nera” e A =“la seconda pallina estratta è bianca”. Per via intuitiva avevamo detto che
la probabilità di A condizionata a B è pari a 32 : ora calcoliamo P (A | B) utilizzando la Definizione 2.3.2.
Chiaramente P (B) = 21 , mentre sullo spazio campionario D4,2 ci sono 4 possibili estrazioni in cui la prima
4
pallina è nera e la seconda è bianca e quindi P (A ∩ B) = 12 = 13 . Ne viene che
P (A ∩ B) 2
P (A | B) = =
P (B) 3
che conferma il risultato intuitivo.
Ora risolviamo il punto i) dell’Esempio 2.3.1 utilizzando il concetto di probabilità condizionata per
evitare l’uso del calcolo combinatorio. La difficoltà del quesito è nel fatto che il risultato della seconda
estrazione dipende dal risultato della prima estrazione e quest’ultimo è incognito: per questo motivo, a
prima vista, sembra impossibile9 calcolare la probabilità dell’evento A. L’idea è di partizionare lo spazio
campionario e considerare separatamente i casi in cui B accade o meno per sfruttare la definizione di pro-
babilità condizionata: abbiamo già provato che P (A | B) = 32 e in modo analogo si vede che P (A | Bc ) = 13 .
Allora si ha
P (A) = P (A ∩ B) + P (A ∩ Bc )
= P (A | B)P (B) + P (A | Bc )P (Bc )
2 1 1 1 1
= · + · =
3 2 3 2 2
che conferma quanto già visto.
Proposizione 2.3.6 (Formula della probabilità totale). [!]
Per ogni evento B tale che 0 < P (B) < 1, vale
P (A) = P (A | B)P (B) + P (A | Bc )(1 − P (B)), A ∈ F. (2.3.2)
Più in generale, se (Bi )i∈I è una partizione10 finita o numerabile di Ω, con P (Bi ) > 0 per ogni i ∈ I, allora
vale X
P (A) = P (A | Bi )P (Bi ), A∈F (2.3.3)
i∈I
9 Un’indagine svolta al quarto anno di alcuni licei di Bologna ha evidenziato un numero significativo di studenti che, di fronte a
questo quesito hanno risposto che non è possibile calcolare la probabilità dell’evento A. Per mettere in crisi questo tipo di convinzione
si può far osservare agli studenti che non c’è ragione per cui le palline nere abbiano maggiore probabilità di essere estratte per seconde
e quindi intuitivamente deve valere P (A) = 12 .
10 Ossia (B )
i i∈I è una famiglia di eventi a due a due disgiunti, la cui unione è uguale a Ω. A volte (Bi )i∈I è chiamato un sistema di
alternative.
46 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Dimostrazione. Dimostriamo la (2.3.3), di cui la (2.3.2) è un caso particolare. Poiché


]
A= (A ∩ Bi ),
i∈I

per la σ -additività di P si ha X X
P (A) = P (A ∩ Bi ) = P (A | Bi )P (Bi ).
i∈I i∈I

Vediamo un altro esempio tipico di applicazione della Formula della probabilità totale.

Esempio 2.3.7. Consideriamo due urne: l’urna α contiene 3 palline bianche e 1 rossa; l’urna β contiene 1
pallina bianca e 1 rossa. Calcoliamo la probabilità che, scelta a caso un’urna ed estratta una pallina, essa
sia bianca.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità e con B l’evento in cui viene scelta l’urna
α. Sembra naturale porre
1 3 1
P (B) = , P (A | B) = , P (A | Bc ) = .
2 4 2
Allora per la (2.3.2) otteniamo
3 1 1 1 5
P (A) = · + · = .
4 2 2 2 8
Notiamo che abbiamo formalmente calcolato P (A) senza neppure specificare lo spazio di probabilità!

Seconda soluzione. Diamo ora una seconda soluzione più dettagliata: poniamo

Ω = {αb1 , αb2 , αb3 , αr, βb, βr}

dove αb1 è l’esito in cui viene scelta la prima urna ed estratta la prima pallina bianca e gli altri esiti sono definiti in modo
analogo. Chiaramente
A = {αb1 , αb2 , αb3 , βb}
ma in questo caso la probabilità corretta da utilizzare non è quella uniforme su Ω. Infatti B, l’evento in cui viene scelta l’urna
α, deve avere probabilità 21 e gli elementi di B sono equiprobabili: ne segue che P ({ω}) = 81 per ogni ω ∈ B. Analogamente
P (Bc ) = 12 e gli elementi di Bc sono equiprobabili da cui

1
P ({βb}) = P ({βr}) = .
4
Possiamo dunque calcolare
5
P (A) = P ({αb1 }) + P ({αb2 }) + P ({αb3 }) + P ({βb}) =
8
in accordo con quanto precedentemente trovato.

Esercizio 2.3.8. Si lancia un dado e di seguito si lancia una moneta un numero di volte pari al risultato del
lancio del dado. Qual è la probabilità di ottenere esattamente due teste?

Esempio 2.3.9. Un’urna contiene 6 palline bianche e 4 nere. Estraendo 2 palline senza reinserimento, qual
è la probabilità che siano entrambe bianche (evento A)?
Possiamo interpretare il quesito come un problema di conteggio, utilizzando la probabilità uniforme P
sullo spazio Ω = C10,2 delle combinazioni di due palline estratte fra le 10 disponibili. Allora si ha

6!
|C6,2 | 2!4! 6·5
P (A) = = 10!
= . (2.3.4)
|C10,2 | 2!8!
10 · 9
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 47

6
Ora notiamo che 10 = P (A1 ) dove A1 è l’evento “la prima pallina estratta è bianca”. D’altra parte, se A2
è l’evento “la seconda pallina estratta è bianca”, allora 95 è la probabilità di A2 condizionata ad A1 , ossia
5
9 = P (A2 | A1 ). In definitiva, osservando anche che A = A1 ∩ A2 , la (2.3.4) equivale a

P (A1 ∩ A2 ) = P (A1 )P (A2 | A1 )


e quindi ritroviamo proprio la formula (2.3.1) che definisce la probabilità condizionata.
Più in generale, dalla definizione di probabilità condizionata si ottiene direttamente il seguente utile
risultato.
Proposizione 2.3.10 (Formula di moltiplicazione). [!]
Siano A1 , . . . , An eventi tali che P (A1 ∩ · · · ∩ An−1 ) > 0. Vale la formula
P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 | A1 ) · · · P (An | A1 ∩ · · · ∩ An−1 ) (2.3.5)
Esercizio 2.3.11. Utilizzare la formula (2.3.5) per calcolare la probabilità che, estratte 3 carte da un mazzo
di 40, il valore di ognuna non sia superiore a 5.
Soluzione. Indicato con Ai , i = 1, 2, 3, l’evento “la i-esima carta estratta è minore o uguale a 5”, la probabilità cercata è uguale
a
20 19 18
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) = · · .
40 39 38
|C |
Risolvendo l’esercizio come un problema di conteggio, troveremmo la soluzione equivalente |C20,3 | .
40,3

Esempio 2.3.12. Calcoliamo la probabilità di fare un ambo al lotto con i numeri 1 e 3 (evento A), sapendo
che l’estrazione è già avvenuta e tre dei cinque numeri estratti sono dispari (evento B).
Soluzione. Poniamo Ω = C90,5 : l’esito ω = {ω1 , . . . , ω5 } può essere pensato come l’insieme dei numeri estratti. Si ha che ω ∈ A
se 1, 3 ∈ ω e dunque A ↔ C88,3 . Inoltre B ↔ C45,3 × C45,2 (corrispondente alla scelta di tre numeri dispari e due pari fra i 90)
e A ∩ B ↔ C43,1 × C45,2 (corrispondente alla scelta del terzo numero dispari, oltre a 1 e 3, e di due pari fra i 90). Allora si ha
|C88,3 | 43|C45,2 |
P (A) = ≈ 0.25% e P (A | B) = ≈ 0.3%.
|C90,5 | |C45,3 ||C45,2 |
Osservazione 2.3.13. In base alla formula (2.3.2) della probabilità totale, se 0 < P (B) < 1 possiamo determi-
nare univocamente P (A) a partire da P (B), P (A | B) e P (A | Bc ). Notiamo anche che la (2.3.2) implica che P (A)
appartiene all’intervallo di estremi P (A | B) e P (A | Bc ): quindi, indipendentemente dalla conoscenza di P (B),
si ha che P (A | B) e P (A | Bc ) forniscono delle stime del valore di P (A). In particolare se P (A | B) = P (A | Bc )
allora vale anche P (A) = P (A | B) o equivalentemente P (A ∩ B) = P (A)P (B).
Consideriamo ora un problema relativo alla rilevazione dell’opinione degli studenti sulla qualità della
didattica. Definiamo i seguenti eventi aleatori:
• A: un professore riceve un giudizio positivo nella rilevazione dell’opinione degli studenti;
• B: un professore è “bravo” (ammesso di sapere cosa ciò significhi).
Generalmente gli eventi A e B non coincidono: allora possiamo interpretare le probabilità condizionate
P (A | B) e P (B | A) nel modo seguente:
• P (A | B) è la probabilità che un professore “bravo” riceva un giudizio positivo;
• P (B | A) è la probabilità che un professore che riceve un giudizio positivo sia “bravo”.
Riflettendo attentamente sul significato di queste due probabilità condizionate, risulta chiaro che a volte si
può essere interessati a ricavarne una a partire dalla conoscenza dall’altra: tipicamente nella realtà, si può
avere una stima generale (in base a dati storici) di P (A | B) ed essere interessati a conoscere P (B | A) in base
al risultato della rilevazione appena effettuata. Una risposta a questo problema è data dal classico Teorema
di Bayes.
48 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Teorema 2.3.14 (Formula di Bayes). [!]


Siano A, B eventi non trascurabili. Vale

P (A | B)P (B)
P (B | A) = (2.3.6)
P (A)

Dimostrazione. La (2.3.6) equivale a

P (B | A)P (A) = P (A | B)P (B)

e segue direttamente dalla definizione di probabilità condizionata.

Esempio 2.3.15. Riprendiamo l’Esempio 2.3.7: sapendo che è stata estratta una pallina bianca, qual è la
probabilità che sia stata scelta l’urna α?
Soluzione. Come prima indichiamo con A l’evento “viene estratta una pallina bianca” e con B l’evento “viene scelta l’urna α”.
Avevamo già calcolato P (A) = 58 , mentre assumiamo P (A | B) = 43 e P (B) = 12 . Allora per la formula di Bayes abbiamo

P (A | B)P (B) 3
P (B | A) = = .
P (A) 5

Esercizio 2.3.16. Supposto P (A | B) , P (A | Bc ), provare che

P (A) − P (A | Bc )
P (B) = , (2.3.7)
P (A | B) − P (A | Bc )

e quindi è possibile determinare univocamente P (B) a partire da P (A), P (A | B) e P (A | Bc ).

Esercizio 2.3.17 (Rilevazione della didattica). Supponiamo di sapere che storicamente i professori “bravi”
ricevono un giudizio positivo nel 95% dei casi e i professori “meno bravi” ricevono un giudizio positivo nel
10% dei casi (alcuni professori sono furbi...). Se i giudizi sul corso di laurea sono positivi all’80%, qual è la
probabilità che

i) i professori che hanno ricevuto un giudizio positivo siano veramente “bravi”?

ii) i professori che hanno ricevuto un giudizio negativo in realtà siano “bravi”?

Si osservi che, combinando la formula di Bayes con la formula (2.3.7), otteniamo

P (A | B)P (B) P (A | B) (P (A) − P (A | Bc ))


P (B | A) = = .
P (A) P (A) (P (A | B) − P (A | Bc ))

2.3.2 Indipendenza di eventi


Definizione 2.3.18. In uno spazio di probabilità (Ω, F , P ), diciamo che due eventi A, B sono indipendenti in
P se
P (A ∩ B) = P (A)P (B). (2.3.8)

Il concetto di indipendenza è relativo alla misura di probabilità considerata11 . Esso esprime il fatto che
l’informazione sull’accadere dell’evento B non influenza la probabilità di A: infatti, se P (B) > 0, la (2.3.8) è
equivalente a
P (A | B) = P (A),
11 A volte è necessario dichiarare esplicitamente la misura di probabilità P considerata. Infatti nelle applicazioni possono intervenire
diverse misure di probabilità contemporaneamente: non è detto che due eventi indipendenti in una misura di probabilità lo siano in
un’altra misura di probabilità.
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 49

ossia
P (A ∩ B) P (A)
=
P (B) P (Ω)
che può essere interpretata come una relazione di proporzionalità

P (A ∩ B) : P (B) = P (A) : P (Ω).

Analogamente, se
P (A ∩ B) > P (A)P (B) (2.3.9)
allora A, B si dicono positivamente correlati in P poiché la (2.3.9) implica12

P (A | B) > P (A), P (B | A) > P (B),

ossia la probabilità di A aumenta condizionatamente all’informazione sull’avvenire di B e viceversa.

Osservazione 2.3.19. Chiaramente, il fatto che A, B siano indipendenti non significa che siano disgiunti,
anzi: se P (A) > 0, P (B) > 0 e vale la (2.3.8) allora anche P (A ∩ B) > 0 e quindi A ∩ B , ∅. D’altra parte, se
P (A) = 0 allora anche P (A ∩ B) = 0 (per la (2.1.5) e il fatto che A ∩ B ⊆ A) e quindi la (2.3.8) vale per ogni B,
ossia A è indipendente da ogni evento B.

Osservazione 2.3.20. Abbiamo definito il concetto di indipendenza ma non quello di dipendenza. Se due
eventi A, B non sono indipendenti non diciamo che sono dipendenti: definiremo in seguito un concetto di
dipendenza che è ben distinto e in qualche modo slegato da quello di indipendenza.

Esempio 2.3.21. Due atleti hanno rispettivamente la probabilità del 70% e 80% di battere un record in una
gara. Qual è la probabilità che almeno uno dei due batta il record?
Se A è l’evento “il primo atleta batte il record”, B è l’evento “il secondo atleta batte il record” e assumia-
mo che A e B siano indipendenti allora si ha

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =

(per l’indipendenza)

= P (A) + P (B) − P (A)P (B)


= 150% − 70% · 80% = 94%.

Esempio 2.3.22. Il fatto che due eventi siano indipendenti non significa che “non hanno nulla a che fare”.
Si consideri il lancio di due dadi e gli eventi “la somma dei lanci è 7” (evento A) e “il risultato del primo
lancio è 3”. Allora A e B sono indipendenti nella probabilità uniforme.

Esempio 2.3.23. Vedremo tra breve che il concetto di indipendenza risulta naturale per descrivere un espe-
rimento che viene ripetuto in modo che ogni ripetizione non influenzi la probabilità delle altre ripetizioni
(per esempio, un sequenza di lanci di un dado o di una moneta). In questo caso risulta naturale utilizzare
uno spazio campionario che sia un prodotto cartesiano. Per esempio, sia Ω = Ω1 × Ω2 finito, munito della
probabilità uniforme P : consideriamo A = E1 × Ω2 e B = Ω1 × E2 con Ei ⊆ Ωi , i = 1, 2. Allora

|E1 ||E2 | |E1 × Ω2 ||Ω1 × E2 |


P (A ∩ B) = P (E1 × E2 ) = = = P (A)P (B)
|Ω| |Ω|2

e quindi A e B sono indipendenti in P . Approfondiremo il legame fra i concetti di indipendenza e prodotto


di misure a partire dalla Sezione 3.3.
12 Nel caso in cui A, B non siano trascurabili in P .
50 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Esercizio 2.3.24. Al cinema due persone α, β decidono quale film vedere, tra due disponibili, in maniera
indipendente e con le seguenti probabilità:
1 1
P (α1 ) = , P (β1 ) =
3 4
dove α1 indica l’evento “α sceglie il primo film”. Calcolare la probabilità che α e β vedano lo stesso film.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità. Abbiamo

P (A) = P (α1 ∩ β1 ) + P (α2 ∩ β2 ) =

(per l’ipotesi di indipendenza e poiché P (α2 ) = 1 − P (α1 ))


7
= P (α1 )P (β1 ) + P (α2 )P (β2 ) = .
12
Questo esempio elementare mostra che è possibile calcolare la probabilità di un evento che dipende da eventi indipendenti,
a partire dalla conoscenza delle probabilità dei singoli eventi e, soprattutto, senza la necessità di costruire esplicitamente lo
spazio di probabilità.
Seconda soluzione. È anche utile procedere nel modo “classico”, risolvendo l’esercizio come un problema di conteggio: in questo
caso dobbiamo prima costruire lo spazio campionario

Ω = {(1, 1), (1, 2), (2, 1), (2, 2)}

dove (i, j) indica l’esito “α sceglie il film i e β sceglie il film j” con i, j = 1, 2. Per ipotesi conosciamo le probabilità degli eventi

α1 = {(1, 1), (1, 2)}, β1 = {(1, 1), (2, 1)},

tuttavia questo non è sufficiente a determinare univocamente la probabilità P , ossia a determinare le probabilità dei singoli
esiti. In effetti per fare ciò, è necessario utilizzare anche l’ipotesi di indipendenza (in P ) di α1 e β1 , da cui ricaviamo per
esempio
1
P ({(1, 1)}) = P (α1 ∩ β1 ) = P (α1 )P (β1 ) = .
12
Analogamente possiamo calcolare tutte le probabilità degli esiti e di conseguenza risolvere il problema. Notiamo che questa
procedura basata sul conteggio risulta più laboriosa e meno intuitiva.

Proposizione 2.3.25. Se A, B sono indipendenti allora anche A, Bc sono indipendenti.


Dimostrazione. Si ha

P (A ∩ Bc ) = P (A \ B) = P (A \ (A ∩ B)) =

(per la (2.1.6))

= P (A) − P (A ∩ B) =

(per l’ipotesi di indipendenza di A, B)

= P (A) − P (A)P (B) = P (A)P (Bc ).

Esercizio 2.3.26. Al cinema due persone α, β decidono quale film vedere fra tre disponibili, nel modo
seguente:
i) α sceglie un film a caso con le seguenti probabilità
1 1 1
P (α1 ) = , P (α2 ) = , P (α3 ) =
2 3 6
dove αi indica l’evento “α sceglie il film i-esimo” per i = 1, 2, 3;
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 51

ii) β lancia una moneta e se il risultato è “testa” allora sceglie lo stesso film di α, altrimenti sceglie un
film a caso, indipendentemente da α.
Calcoliamo la probabilità P (A) dove A è l’evento “α e β vedono lo stesso film”.
Soluzione. Indichiamo con T l’evento “il risultato del lancio della moneta è testa”. Si ha P (T ) = 12 e per ipotesi P (A | T ) = 1 e
P (βi | T c ) = 31 per i = 1, 2, 3. Inoltre, poiché P (· | T c ) è una misura di probabilità, si ha

3
X
P (A | T c ) = P (αi ∩ βi | T c ) =
i=1

(per l’ipotesi di indipendenza della scelta di α e β condizionatamente all’evento T c )


3
X
= P (αi | T c )P (βi | T c )
i=1
3
1X 1
= P (αi | T c ) = ,
3 3
i=1

3
P (αi | T c ) = 1 essendo P (· | T c ) una misura di probabilità. Allora per la (2.3.2) si ha
P
poiché
i=1

1 1 1 2
P (A) = P (A | T )P (T ) + P (A | T c )(1 − P (T )) = 1 · + · = .
2 3 2 3
Per esercizio, provare a calcolare la probabilità che α e β scelgano il primo film, ossia P (α1 ∩ β1 ).
Consideriamo ora il caso di più di due eventi.
Definizione 2.3.27. Sia (Ai )i∈I una famiglia di eventi. Diciamo che tali eventi sono indipendenti se vale
 
 \  Y
P  Aj  = P (Aj )
j∈J j∈J

per ogni J ⊆ I, con J finito.


Consideriamo tre eventi A, B, C: gli Esercizi 2.3.41 e 2.3.42 mostrano che in generale non c’è implicazione
fra la proprietà
P (A ∩ B ∩ C) = P (A)P (B)P (C) (2.3.10)
e le proprietà

P (A ∩ B) = P (A)P (B), P (A ∩ C) = P (A)P (C), P (B ∩ C) = P (B)P (C). (2.3.11)

In particolare, una famiglia di eventi a due a due indipendenti non è in generale una famiglia di eventi
indipendenti.
Concludiamo la sezione con un utile risultato. Data una successione di eventi (An )n≥1 , indichiamo con13
\[
(An i.o.) := Ak .
n≥1 k≥n

Si noti che
(An i.o.) = {ω ∈ Ω | ∀n ∈ N ∃k ≥ n tale che ω ∈ Ak },
ossia (An i.o.) è l’evento costituito dagli ω ∈ Ω che appartengono ad un numero infinito di An .
13 i.o. sta per infinitely often.
52 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Lemma 2.3.28 (Borel-Cantelli). [!] Sia (An )n≥1 una successione di eventi nello spazio (Ω, F , P ):
i) se X
P (An ) < +∞
n≥1
allora P (An i.o.) = 0;
ii) se gli An sono indipendenti e X
P (An ) = +∞
n≥1
allora P (An i.o.) = 1.
Dimostrazione. Per la continuità dall’alto di P si ha
[ !
P (An i.o.) = lim P Ak ≤
n→∞
k≥n

(per σ -subadditività, Proposizione 2.1.22-ii))


X
≤ lim P (Ak ) = 0
n→∞
k≥n

per ipotesi. Questo prova la prima parte della tesi.


Per quanto riguarda ii), proviamo che
[ !
P Ak = 1 (2.3.12)
k≥n
per ogni n ∈ N, da cui seguirà la tesi. Fissati n, N con n ≤ N , si ha
[N ! \N !
P Ak = 1 − P Ack =
k=n k=n
(per indipendenza)
N
Y
= 1− (1 − P (Ak )) ≥
k=n
(per la disuguaglianza elementare 1 − x ≤ e−x valida per x ∈ R)
N
X !
≥ 1 − exp − P (Ak ) .
k=n
La (2.3.12) segue passando al limite per N → ∞.
Riassumendo, la probabilità condizionata e l’indipendenza sono i primi concetti veramente nuovi, esclu-
sivi della teoria della probabilità e che non si incontrano in altre teorie matematicamente “affini” come la
teoria della misura o il calcolo combinatorio.
Lo scopo di entrambi i concetti è quello di esprimere la probabilità P (A ∩ B) in termini di probabilità
dei singoli eventi A e B. Ciò è ovviamente possibile se A, B sono indipendenti in P poiché in questo caso si
ha
P (A ∩ B) = P (A)P (B).
Più in generale, se non c’è indipendenza fra A e B possiamo scrivere
P (A ∩ B) = P (A | B)P (B)
Molti problemi si risolvono molto più facilmente usando le precedenti identità (e altre utili formule come
quella della probabilità totale, di moltiplicazione e di Bayes) invece del calcolo combinatorio.
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 53

2.3.3 Prove ripetute e indipendenti


Definizione 2.3.29. [!] In uno spazio di probabilità (Ω, F , P ), sia (Ch )h=1,...,n una famiglia finita di eventi
indipendenti ed equiprobabili, ossia tali che P (Ch ) = p ∈ [0, 1] per ogni h = 1, . . . , n. Allora diciamo che
(Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Intuitivamente possiamo immaginare di ripetere n volte un esperimento che può avere due esiti, succes-
so o insuccesso: Ch rappresenta l’evento “l’esperimento h-esimo ha successo”. Per esempio, in una sequenza
di n lanci di una moneta, Ch può rappresentare l’evento “al lancio numero h ottengo testa”.
Per ogni n ∈ N e p ∈ [0, 1], è sempre possibile costruire uno spazio discreto (Ω, P ) su cui è definita una
famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Il seguente risultato mostra anche
che su uno spazio di probabilità discreto non è possibile definire una successione (Ch )h∈N di prove ripetute e
indipendenti a meno che non sia banale, ossia con p = 0 oppure p = 1.
Proposizione 2.3.30. Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Si veda la Sezione 2.5.1.
Vediamo ora due esempi significativi.
Esempio 2.3.31 (Probabilità di primo successo alla prova k). [!]
Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti con probabilità p. L’evento “il primo successo
è alla k-esima prova” è definito da
Ak := C1c ∩ C2c ∩ · · · ∩ Ck−1
c
∩ Ck , 1 ≤ k ≤ n,
e per l’indipendenza vale
P (Ak ) = (1 − p)k−1 p, 1 ≤ k ≤ n. (2.3.13)
Per esempio, Ak rappresenta l’evento secondo cui, in una sequenza di n lanci di una moneta, si ottiene testa
per la prima volta al k-esimo lancio. Notiamo che P (Ak ) in (2.3.13) non dipende da n: intuitivamente, Ak
dipende solo da ciò che è successo fino alla k-esima prova ed è indipendente dal numero totale n di prove.
Esempio 2.3.32 (Probabilità di k successi su n prove). [!]
Consideriamo una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Calcoliamo la
probabilità dell’evento Ak “esattamente k prove hanno successo”.
1◦ modo: Con riferimento allo spazio canonico della Proposizione 2.3.30 e in particolare alla formula (2.5.1),
abbiamo Ak = Ωk . Dunque
!
X
k n−k n k
P (Ak ) = P ({ω}) = |Ωk |p (1 − p) = p (1 − p)n−k , 0 ≤ k ≤ n.
k
ω∈Ωk

Vedremo che P (Ak ) è legato al concetto di distribuzione binomiale nell’Esempio 2.4.17.


2◦ modo: L’evento Ak è del tipo
Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn
al variare di {i1 , . . . , ik }, famiglia di indici di In : le possibili scelte di tali indici sono esattamente |Cn,k |. Inoltre,
per l’indipendenza, si ha  
P Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn = pk (1 − p)n−k
e dunque ritroviamo il risultato
!
n k
P (Ak ) = p (1 − p)n−k , 0 ≤ k ≤ n. (2.3.14)
k
54 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Osservazione 2.3.33. Ripensiamo all’Esempio 2.2.17 relativo al calcolo della probabilità di estrarre (con
reinserimento) esattamente k palline bianche da un’urna che ne contiene b bianche e r rosse. Se Ch è l’evento
b
“la pallina della h-esima estrazione è bianca” allora p = P (Ch ) = b+r e la (2.3.14) fornisce la probabilità
cercata, in accordo con quanto avevamo ottenuto nell’Esempio 2.2.17 tramite il calcolo combinatorio.
Si noti che nell’approccio basato sul calcolo combinatorio si usa la probabilità uniforme, come sempre nei
problemi di conteggio. Invece, nell’approccio basato sulla famiglia di prove ripetute e indipendenti, impli-
citamente utilizziamo lo spazio canonico della Proposizione 2.3.30 senza tuttavia la necessità di dichiarare
esplicitamente lo spazio campionario e la misura di probabilità (che comunque non è quella uniforme).

2.3.4 Esempi
Proponiamo alcuni esempi ed esercizi riassuntivi su indipendenza e probabilità condizionata.
Esempio 2.3.34.

• Il signor Rossi ha due figli: qual è la probabilità che entrambi i figli siano maschi (evento A)?
Considerando come spazio campionario

Ω = {(M, M), (M, F), (F, M), (F, F)} (2.3.15)

con ovvio significato dei simboli, è chiaro che P (A) = 41 . La situazione è riassunta nella seguente
tabella in cui le celle rappresentano i quattro casi possibili e le relative probabilità sono indicate
all’interno dei cerchi: si ha A = {(M, M)}.

Maschio Femmina
1 1
Maschio (M, M) 4 (M, F) 4
1 1
Femmina (F, M) 4 (F, F) 4

• Il signor Rossi ha due figli. Sapendo che uno di questi è maschio (evento B), qual è la probabilità che
entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) purtroppo è sbagliata. Per rendersene conto è suf-
ficiente considerare ancora lo spazio campionario Ω: ora, avendo l’informazione che (F, F) non è
possibile (ossia ha probabilità nulla “condizionatamente” all’informazione data che è il verificarsi
dell’evento B) e supposto che gli esiti (M, M), (M, F), (F, M) siano equiprobabili, se ne conclude che
la probabilità cercata è pari a 31 . La tabella seguente mostra come si ridistribuisce la probabilità
condizionatamente all’informazione che si verifica B.

Maschio Femmina
1 1
Maschio (M, M) 3 (M, F) 3
1
Femmina (F, M) 3 (F, F) 0

• Il signor Rossi ha due figli. Sapendo che il primogenito è maschio (evento C, differente da B del punto
precedente), qual è la probabilità che entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) è corretta perché in questo caso FM e FF hanno
entrambe probabilità nulla (“condizionatamente” all’informazione data che è il verificarsi dell’evento
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 55

C). In altri termini, sapendo che il primogenito è maschio, tutto dipende dal fatto che il secondogenito
sia maschio o femmina, ossia da due eventi equiprobabili con probabilità pari a 21 . La tabella seguente
mostra come si ridistribuisce la probabilità condizionatamente all’informazione che si verifica C.

Maschio Femmina
1 1
Maschio (M, M) 2 (M, F) 2

Femmina (F, M) 0 (F, F) 0

Indicando con P la probabilità uniforme su Ω in (2.3.15), abbiamo


1 3 1
P (A) = P ({MM}) = , P (B) = P ({MM, MF, FM}) = , P (C) = P ({MM, MF}) = ,
4 4 2
e quindi, in base alla Definizione 2.3.2, vale

P (A) 1 P (A) 1
P (A | B) = = , P (A | C) = = ,
P (B) 3 P (C) 2

in accordo con quanto avevamo congetturato sopra per via intuitiva.


Esercizio 2.3.35. Dimostrare la Proposizione 2.3.4.
Esercizio 2.3.36. Usando la formula di Bayes provare che

P (A | B)P (B)
P (B | A) = (2.3.16)
P (A | B)P (B) + P (A | Bc )(1 − P (B))

e quindi è possibile determinare univocamente P (B | A) a partire da P (B), P (A | B) e P (A | Bc ).


Esercizio 2.3.37. Sappiamo che il 4% di una certa popolazione α è malato. Effettuando un test sperimentale
per rilevare se un individuo di α è malato, si osserva che il test ha la seguente affidabilità:
i) se l’individuo è malato, il test dà esito positivo nel 99% dei casi;
ii) se l’individuo è sano, il test dà esito positivo nel 2% dei casi.
In base a questi dati, qual è la probabilità che un individuo di α, positivo al test, sia veramente malato?
Supponiamo poi di utilizzare il test su un’altra popolazione β: considerando valide le stime di affidabilità
i) e ii), e osservando che il test dà esito positivo sul 6% della popolazione β, qual è la probabilità che un
individuo di β sia malato?
Soluzione. Indichiamo con T l’evento “il test su un individuo dà esito positivo” e con M l’evento “l’individuo è malato”. Per
ipotesi, P (M) = 4%, P (T | M) = 99% e P (T | M c ) = 2%. Allora per la (2.3.16) con B = M e A = T vale

P (M | T ) ≈ 67.35%

e dunque c’è un alto numero di “falsi positivi”. Questo è dovuto al fatto che la percentuale dei malati è relativamente bassa:
notiamo che in generale

P (T | M)P (M)
P (M | T ) = −→ 0+ per P (M) → 0+
P (T | M)P (M) + P (T | M c )(1 − P (M))

mentre P (M | T ) → 1− per P (M) → 1− . Osserviamo che in base ai dati possiamo anche calcolare, tramite la (2.3.2), la
percentuale dei test positivi
P (T ) = P (T | M)P (M) + P (T | M c )(1 − P (M)) ≈ 5.88%.
56 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Per quanto riguarda il secondo quesito, abbiamo che per ipotesi P (T | M) = 99% e P (T | M c ) = 2%. Se il dato osservato è
che P (T ) = 6% allora dalla (2.3.7) ricaviamo
P (T ) − P (T | M c )
P (M) = ≈ 4.12%
P (T | M) − P (T | M c )
Il risultato si può interpretare dicendo che, prese per valide le stime di affidabilità i) e ii) del test, si ha che su un 6% di test
positivi circa il 33% sono falsi positivi.

Esercizio 2.3.38. Provare nel dettaglio quanto affermato nell’Esempio 2.3.22.


Esercizio 2.3.39. In riferimento all’Esercizio 2.3.24, costruire una misura di probabilità Q su Ω, diversa da
P , rispetto alla quale valga ancora
1 1
Q(α1 ) = , Q(β1 ) =
3 4
ma α1 e β1 non siano indipendenti in Q.
Esercizio 2.3.40. Consideriamo un mazzo di 40 carte: verificare che, rispetto alla probabilità uniforme,
i) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre un 7” (evento B) non sono indipendenti;
ii) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre una carta di denari” (evento B) sono
indipendenti.
Esercizio 2.3.41 ((2.3.11) non implica (2.3.10)). Consideriamo il lancio di tre dadi e gli eventi Aij definiti
da “il risultato del dado i-esimo è uguale a quello del dado j-esimo”. Allora A12 , A13 , A23 sono a due a due
indipendenti ma non sono indipendenti.
Esercizio 2.3.42 ((2.3.10) non implica (2.3.11)). Consideriamo il lancio di due dadi e, posto Ω = I6 × I6 , gli
eventi

A = {(ω1 , ω2 ) | ω2 ∈ {1, 2, 5}}, B = {(ω1 , ω2 ) | ω2 ∈ {4, 5, 6}}, C = {(ω1 , ω2 ) | ω1 + ω2 = 9}.

Allora vale la (2.3.10) ma non la (2.3.11).


Esercizio 2.3.43. Supponiamo che n oggetti siano messi a caso in r scatole, con r ≥ 1. Calcoliamo la
probabilità che “esattamente k oggetti siano messi nella prima scatola” (evento Ak ).
Soluzione. Se Ch è l’evento “l’h-esimo oggetto viene messo nella prima scatola” allora p = P (Ch ) = 1r . Inoltre P (Ak ) è data
dalla (2.3.14).

2.4 Distribuzioni
In questa sezione ci occupiamo della costruzione e caratterizzazione delle misure sullo spazio Euclideo,
con particolare attenzione alle misure di probabilità su Rd , chiamate distribuzioni. Il risultato fondamentale
in questa direzione è il Teorema di Carathéodory che enunciamo nella Sezione 2.4.7 e utilizzeremo spesso
nel seguito. L’idea è di definire una distribuzione dapprima su una famiglia particolare A di sottoinsiemi
dello spazio campionario Ω (per esempio, la famiglia degli intervalli nel caso Ω = R) e poi estenderla su
un’opportuna σ -algebra che contiene A . Il problema della scelta di tale σ -algebra è legato alla cardinalità
di Ω: se Ω è finito o numerabile, dare una probabilità su Ω è equivalente ad assegnare le probabilità dei
singoli esiti (cf. Osservazione 2.1.13); di conseguenza è naturale assumere P(Ω) come σ -algebra degli
eventi. Il caso generale, come abbiamo già visto nell’Esempio 2.1.29, è decisamente più complesso; infatti
la cardinalità di P(Ω) può essere “troppo grande” perché sia possibile definire su di essa una misura di
probabilità14 .
14 Se la cardinalità di Ω è finita, diciamo |Ω| = n, allora P(Ω) = 2n e se Ω ha cardinalità numerabile allora P(Ω) ha la cardinalità
del continuo (di R). Tuttavia se Ω = R, per il Teorema di Cantor la cardinalità di P(R) è strettamente maggiore della cardinalità di R.
2.4. DISTRIBUZIONI 57

2.4.1 σ -algebra generata e completamento di uno spazio di probabilità


Consideriamo un generico insieme non vuoto Ω. Osserviamo che se (Fi )i∈I è una famiglia (non neces-
sariamente numerabile) di σ -algebre su Ω allora l’intersezione
\
Fi
i∈I

è ancora una σ -algebra. Questo giustifica la seguente

Definizione 2.4.1. Data una famiglia A di sottoinsiemi di Ω, indichiamo con σ (A ) l’intersezione di tutte
le σ -algebre che contengono A . Poiché σ (A ) è la più piccola σ -algebra che contiene A , diciamo che A è la
σ -algebra generata da A .

Esempio 2.4.2. Nel caso in cui A = {A} sia formata da un solo insieme A ⊆ Ω, scriviamo σ (A) invece di
σ ({A}). Notiamo che vale
σ (A) = {∅, Ω, A, Ac }.

L’intersezione di σ -algebre è ancora una σ -algebra, ma un risultato analogo non vale per l’unione: date
due σ -algebre F1 e F2 , si ha F1 ∪ F2 ⊆ σ (F1 ∪ F2 ) e inclusione può essere stretta.
In generale è difficile dare una rappresentazione esplicita della σ -algebra generata da una famiglia
A : chiaramente σ (A ) deve contenere i complementari e le unioni numerabili di elementi di A ma, come
vedremo nella prossima sezione, ci sono casi in cui con queste operazioni non si ottengono tutti gli elementi
di σ (A ). Per questo motivo è utile introdurre delle tecniche che permettano di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ): questo
tipo di risultati sono l’oggetto dell’Appendice A.1.

Osservazione 2.4.3 (Completamento di uno spazio di probabilità). Ricordiamo che uno spazio di pro-
babilità (Ω, F , P ) è completo se N ⊆ F ossia gli insiemi trascurabili (e quelli quasi certi) sono eventi. Si
può sempre “completare” uno spazio (Ω, F , P ) estendendo P alla σ -algebra σ (F ∪ N ) nel modo seguente.
Anzitutto si prova15 che σ (F ∪ N ) = Fˆ dove

Fˆ := {A ⊆ Ω | A △ B ∈ N per un certo B ∈ F }.

Qui A △ B = (A \ B) ∪ (B \ A) indica la differenza simmetrica di insiemi. Dato A ∈ Fˆ , poniamo Pˆ (A) := P (B)


dove B ∈ F è tale che A △ B ∈ N . Non è difficile verificare che:

• tale definizione è ben posta (non dipende dalla scelta di B);

• Pˆ è una misura di probabilità su (Ω, Fˆ );

• Pˆ (B) = P (B) per ogni B ∈ F ;

• (Ω, Fˆ , Pˆ ) è uno spazio completo.

Il completamento di uno spazio dipende dalla σ -algebra e dalla misura di probabilità fissate: al riguardo,
si veda l’Esercizio 2.4.14.
15 È chiaro che F ∪ N ⊆ Fˆ ⊆ σ (F ∪ N ) e quindi è sufficiente verificare che Fˆ è una σ -algebra per provare che Fˆ = σ (F ∪ N ). Ciò
segue dal fatto che:
i) Ac △ Bc = A △ B;
! !
S S S
ii) An △ Bn ⊆ (An △ Bn ) .
n∈N n∈N n∈N
58 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

2.4.2 σ -algebra di Borel


Introduciamo la σ -algebra che utilizzeremo sistematicamente quando lo spazio campionario è Rd . In
realtà, poiché non comporta alcuna difficoltà aggiuntiva e risulterà comodo in seguito, consideriamo il caso
in cui lo spazio campionario sia un generico spazio metrico (M, ϱ): al di là degli spazi Euclidei, un esempio
non banale è M = C[0, 1], lo spazio delle funzioni continue sull’intervallo [0, 1], munito della distanza del
massimo
ϱmax (f , g) = max |f (t) − g(t)|, f , g ∈ C[0, 1].
t∈[0,1]

In uno spazio metrico (M, ϱ), la σ -algebra di Borel Bϱ è la σ -algebra generata dalla topologia (la famiglia
degli aperti) indotta da ϱ.

Definizione 2.4.4 (σ -algebra di Borel). La σ -algebra di Borel Bϱ è la più piccola σ -algebra che contiene gli
aperti di (M, ϱ). Gli elementi di Bϱ sono chiamati Boreliani.

Notazione 2.4.5. Nel seguito indicheremo con Bd la σ -algebra di Borel nello spazio Euclideo Rd . È noto
che Bd è strettamente contenuta nella σ -algebra L dei misurabili secondo Lebesgue16 . Nel caso d = 1,
scriviamo semplicemente B invece di B1 .

Osservazione 2.4.6. [!] Per definizione, Bϱ contiene tutti i sottoinsiemi di M che si ottengono a partire
dagli aperti mediante le operazioni di passaggio al complementare e unione numerabile: per esempio, i
singoletti sono Boreliani17 , ossia {x} ∈ Bϱ per ogni x ∈ M.
Tuttavia, con le sole operazioni di passaggio al complementare e unione numerabile non si ottengono tutti gli
elementi di Bϱ . Addirittura in [12] si mostra che anche con una successione numerabile di operazioni di
passaggio al complementare e unione numerabile non si ottiene Bϱ . Più precisamente, data una famiglia
H di sottoinsiemi di uno spazio Ω, indichiamo con H ∗ la famiglia che contiene gli elementi di H , i
complementari degli elementi di H e le unioni numerabili di elementi di H . Inoltre definiamo H0 = H
e, per ricorrenza, la successione crescente di famiglie

Hn = Hn−1 , n ∈ N.

Per induzione si vede che Hn ⊆ σ (H ) per ogni n ∈ N; tuttavia (cfr. [12] p. 30) nel caso in cui Ω = R e H è
come nell’Esercizio 2.4.7-ii), si ha che
[∞
Hn
n=0

è strettamente incluso in B = σ (H ).

Esercizio 2.4.7. Sia d = 1. Provare che B = σ (H ) dove H è una qualsiasi delle seguenti famiglie di
sotto-insiemi di R:

i) H = { ]a, b] | a, b ∈ R, a < b};

ii) H = { ]a, b] | a, b ∈ Q, a < b} (si noti che H è numerabile e pertanto si dice che la σ -algebra B è
numerabilmente generata);

iii) H = { ] − ∞, a] | a ∈ R}.

Un risultato analogo vale in dimensione maggiore di uno, considerando i pluri-intervalli.


 
16 (Rd , L , Leb ) è il completamento (cfr. Osservazione 2.4.3) rispetto alla la misura di Lebesgue Leb di Rd , B , Leb .
d d d d
17 Infatti
\
{x} = D(x, 1/n)
n≥1
dove i dischi D(x, 1/n) := {y ∈ M | ϱ(x, y) < 1/n} ∈ Bϱ essendo aperti per definizione.
2.4. DISTRIBUZIONI 59

2.4.3 Distribuzioni
Sia Bϱ la σ -algebra di Borel su uno spazio metrico (M, ϱ). Chiaramente, il caso Euclideo M = Rd è di
particolare interesse e dovrà sempre essere tenuto come punto di riferimento.
Definizione 2.4.8 (Distribuzione). Una distribuzione è una misura di probabilità su (M, Bϱ ).
Per fissare le idee, è bene dare la seguente interpretazione “fisica” del concetto di distribuzione µ. Pen-
siamo allo spazio campionario Rd come all’insieme delle possibili posizioni nello spazio di una particella
che non è osservabile con precisione: allora H ∈ Bd si interpreta come l’evento secondo cui “la particella è
nel Boreliano H” e µ(H) è la probabilità che la particella sia in H.
Attenzione! Il concetto di distribuzione sarà compreso pienamente solo quando avremo introdotto le va-
riabili aleatorie: ora non abbiamo ancora le nozioni sufficienti per apprezzare fino in fondo le distribuzioni.
Pertanto ci limitiamo ad accennare alcuni esempi che riprenderemo con più calma in seguito.
Cominciamo col provare alcune proprietà generali delle distribuzioni.
Proposizione 2.4.9 (Regolarità interna ed esterna). Sia µ una distribuzione su (M, Bϱ ). Per ogni H ∈ Bϱ
si ha

µ(H) = sup{µ(C) | C ⊆ H, C chiuso}


= inf{µ(A) | A ⊇ H, A aperto}.

La dimostrazione della Proposizione 2.4.9 è rimandata alla Sezione 2.5.2. Una conseguenza immediata
è il seguente
Corollario 2.4.10. Due distribuzioni µ1 e µ2 su (M, Bϱ ) sono uguali se e solo se µ1 (H) = µ2 (H) per ogni
aperto H (oppure per ogni chiuso H).
Osservazione 2.4.11. Se µ è una distribuzione su (M, Bϱ ) allora

A := {x ∈ M | µ({x}) > 0}

è finito o al più numerabile. Infatti, poniamo

An = {x ∈ M | µ({x}) > 1/n}, n ∈ N.

Allora, per ogni x1 , . . . , xk ∈ An si ha


k
1 = µ(M) ≥ µ({x1 , . . . , xk }) ≥
n
S
e di conseguenza An ha al più n elementi. Allora la tesi segue dal fatto che A = An dove l’unione è finita
n≥1
o numerabile.
Il caso “estremo” in cui µ concentra tutta la misura in un solo punto è illustrato nell’esempio seguente.
Esempio 2.4.12. Fissato x0 ∈ Rd , la distribuzione delta di Dirac δx0 centrata in x0 , è definita da

1 se x0 ∈ H,

H ∈ Bd .

δx0 (H) = 
0 se x < H,

0

Si noti in particolare che δx0 ({x0 }) = 1 e si pensi all’interpretazione “fisica” di questo fatto.
Prima di considerare altri esempi notevoli di distribuzioni, osserviamo che combinando opportunamen-
te delle distribuzioni si ottiene ancora una distribuzione.
60 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Proposizione 2.4.13. Sia (µn )n∈N una successione di distribuzioni su (M, Bϱ ) e (pn )n∈N una successione di
numeri reali tali che
X∞
pn = 1 e pn ≥ 0, n ∈ N. (2.4.1)
n=1
Allora µ definita da

X
µ(H) := pn µn (H), H ∈ Bϱ ,
n=1
è una distribuzione.
Dimostrazione. È facile verificare che µ(∅) = 0 e µ(M) = 1. Rimane da provare la σ -additività: si ha
  ∞  
 ]  X  ] 
µ  Hk  = pn µn  Hk  =
k∈N n=1 k∈N

(per la σ -additività delle µn )



X ∞
X
= pn µn (Hk ) =
n=1 k=1

(riordinando i termini poiché si tratta di una serie a termini non-negativi)


X ∞
∞ X ∞
X
= pn µn (Hk ) = µ (Hk ) .
k=1 n=1 k=1

Esercizio 2.4.14. Ricordiamo il concetto di completamento di uno spazio, definito nell’Osservazione 2.4.3.
Su R consideriamo la distribuzione delta di Dirac δx centrata in x ∈ R, la σ -algebra banale {∅, R} e la
σ -algebra di Borel B. Provare che lo spazio (R, {∅, R}, δx ) è completo mentre lo spazio (R, B, δx ) non è
completo. Il completamento di (R, B, δx ) è lo spazio (R, P(R), δx ).

2.4.4 Distribuzioni discrete


D’ora in poi ci concentriamo sul caso M = Rd .
Definizione 2.4.15. Una distribuzione discreta è una distribuzione della forma

X
µ(H) := pn δxn (H), H ∈ Bd , (2.4.2)
n=1

dove (xn ) è una successione di punti distinti di Rd e (pn ) soddisfa le proprietà in (2.4.1).
Osservazione 2.4.16. Ad una distribuzione discreta della forma (2.4.2) è naturale associare la funzione

µ̄ : Rd −→ [0, 1],

definita da
µ̄(x) = µ({x}), x ∈ Rd ,
o più esplicitamente 
 pn

 se x = xn ,
µ̄(x) = 
0
 altrimenti.
2.4. DISTRIBUZIONI 61

Poiché X
µ(H) = µ̄(x), H ∈ Bd , (2.4.3)
x∈H∩{xn |n∈N}

la distribuzione µ è univocamente associata alla funzione µ̄ che viene a volte chiamata funzione di distribu-
zione di µ. Come vedremo nei prossimi esempi, in generale è molto più semplice assegnare la funzione di
distribuzione µ̄ che non la distribuzione stessa µ: infatti µ è una misura (ossia una funzione d’insieme) a
differenza di µ̄ che è una funzione su Rd .

Consideriamo alcuni esempi notevoli di distribuzioni discrete.

Esempio 2.4.17.

i) (Bernoulli) Sia p ∈ [0, 1]. La distribuzione di Bernoulli di parametro p si indica con Bep ed è definita
come combinazione lineare di due delta di Dirac:

Bep = pδ1 + (1 − p)δ0 .

Esplicitamente si ha



 0 se 0, 1 < H,

1 se 0, 1 ∈ H,

H ∈ B,

Bep (H) = 
se 1 ∈ H, 0 < H,



 p

1 − p se 0 ∈ H, 1 < H.
e la funzione di distribuzione è semplicemente

p

 se x = 1,
µ̄(x) = 
1 − p
 se x = 0.

ii) (Uniforme discreta) Sia H = {x1 , . . . , xn } un sottoinsieme finito di Rd . La distribuzione uniforme discreta
su H si indica con UnifH ed è definita da
n
1X
UnifH = δxk ,
n
k=1

ossia 
1


n se x ∈ H,
UnifH ({x}) = 
0
 altrimenti.

iii) (Binomiale) Siano n ∈ N e p ∈ [0, 1]. La distribuzione binomiale di parametri n e p è definita su R da


n !
X n k
Binn,p = p (1 − p)n−k δk ,
k
k=0

ossia la funzione di distribuzione è


 
n
 k pk (1 − p)n−k per k = 0, 1, . . . , n,


µ̄(k) = Binn,p ({k}) = 
0
 altrimenti.

Per un’interpretazione della distribuzione binomiale si ricordi l’Esempio 2.2.17.


62 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

iv) (Geometrica) Fissato p ∈ ]0, 1], la distribuzione geometrica di parametro p è definita da



X
Geomp = p(1 − p)k−1 δk ,
k=1

ossia la funzione di distribuzione è



p(1 − p)k−1 per k ∈ N,


µ̄(k) = Geomp ({k}) = 
0
 altrimenti.

Notiamo che

X ∞
X
p(1 − p)k−1 = p (1 − p)h =
k=1 h=0

(poiché per ipotesi 0 < p ≤ 1)


p
= = 1.
1 − (1 − p)
Per un’interpretazione della distribuzione geometrica si ricordi l’Esempio 2.3.31.
iv) (Poisson) La distribuzione di Poisson di parametro λ > 0, centrata in x ∈ R, è definita da

X λk
Poissonx,λ := e−λ δx+k . (2.4.4)
k!
k=0

Nel caso x = 0, si parla semplicemente di distribuzione di Poisson di parametro λ > 0 e la si indica


con Poissonλ : in questo caso la funzione di distribuzione è
 −λ k
 e k!λ per k ∈ N0 ,


µ̄(k) = Poissonλ ({k}) = 
0
 altrimenti.

2.4.5 Distribuzioni assolutamente continue


Consideriamo una funzione Bd -misurabile18
Z
γ : Rd −→ [0, +∞[ tale che γ(x)dx = 1. (2.4.5)
Rd

Allora µ definita da Z
µ(H) = γ(x)dx, H ∈ Bd , (2.4.6)
H

è una distribuzione. Infatti è ovvio che µ(∅) = 0 e µ(Rd ) = 1. Inoltre se (Hn )n∈N è una successione di
Boreliani disgiunti allora, per le proprietà dell’integrale di Lebesgue19 , si ha
]  Z XZ X
µ Hn = U γ(x)dx = γ(x)dx = µ(Hn ),
n≥1 Hn n≥1 Hn n≥1
n≥1

che prova che µ è σ -additiva.


18 Ossia tale che γ −1 (H) ∈ B per ogni H ∈ B.
d
19 In particolare, qui usiamo il Teorema di Beppo-Levi.
2.4. DISTRIBUZIONI 63

Definizione 2.4.18 (Distribuzione assolutamente continua). Una funzione Bd -misurabile γ che soddi-
sfi le proprietà in (2.4.5) è detta funzione di densità (o, semplicemente, densità). Diciamo che µ è una
distribuzione assolutamente continua su Rd , e scriviamo µ ∈ AC, se esiste una densità γ per cui valga la
(2.4.6).

Nel seguito utilizzeremo anche l’abbreviazione20 PDF per le funzioni di densità. Si noti l’analogia fra le
proprietà (2.4.5) di una densità γ e le proprietà (2.4.1).

Osservazione 2.4.19. [!] La PDF di una µ ∈ AC non è univocamente determinata: lo è a meno di insiemi di
Borel che hanno misura di Lebesgue nulla; infatti il valore dell’integrale in (2.4.6) non cambia modificando
γ su un insieme di misura nulla secondo Lebesgue.
Inoltre se γ1 , γ2 sono PDF di µ ∈ AC allora γ1 = γ2 q.o. (rispetto alla misura di Lebesgue). Infatti
poniamo
An = {x | γ1 (x) − γ2 (x) ≥ 1/n} ∈ Bd , n ∈ N.
Allora Z Z Z
Leb(An )
≤ (γ1 (x) − γ2 (x)) dx = γ1 (x)dx − γ2 (x)dx = µ(An ) − µ(An ) = 0,
n An An An

da cui Leb(An ) = 0 per ogni n ∈ N. Ne segue che anche



[
{x | γ1 (x) > γ2 (x)} = An
n=1

ha misura di Lebesgue nulla, ossia γ1 ≤ γ2 q.o. Analogamente si prova che γ1 ≥ γ2 q.o.

Osservazione 2.4.20. [!] Salvo diversamente specificato, quando considereremo un integrale di Lebesgue,
assumeremo sempre che la funzione integranda sia B-misurabile (e quindi, in particolare, misurabile se-
condo Lebesgue). Dunque nel seguito, a meno che non sia esplicitamente indicato, “misurabile” significa
“B-misurabile” e anche nella definizione di spazio Lp (spazio delle funzioni sommabili di ordine p) è as-
sunta implicitamente la B-misurabilità. Ciò risulta conveniente per molti motivi: per esempio, la com-
posizione di funzioni B-misurabili è ancora B-misurabile (fatto non necessariamente vero per funzioni
misurabili secondo Lebesgue).

Osservazione 2.4.21. [!] Se µ su Rd è assolutamente continua allora µ assegna probabilità nulla ai Boreliani
trascurabili secondo Lebesgue: precisamente si ha
Z
Lebd (H) = 0 =⇒ µ(H) = γ(x)dx = 0. (2.4.7)
H

In particolare, se H è finito o numerabile allora µ(H) = 0. In un certo senso le distribuzioni in AC sono


“complementari” alle distribuzioni discrete (ma attenzione all’Osservazione 2.4.23 seguente!): infatti que-
ste ultime assegnano probabilità positiva proprio ai singoli punti o a infinità numerabili di punti di Rd . La
(2.4.7) è una condizione necessaria21 affinché µ ∈ AC e fornisce un test pratico molto utile per verificare che
µ non ammette densità: se esiste H ∈ Bd tale che Lebd (H) = 0 e µ(H) > 0 allora µ < AC.

Ogni funzione di densità identifica una distribuzione: in pratica, assegnare una funzione di densità è
il modo più semplice e usato comunemente per definire una distribuzione assolutamente continua, come
mostrano i seguenti esempi notevoli.

Esempio 2.4.22.
20 PDF sta per “Probability Density Function” ed è anche il comando usato in Mathematica per le funzioni di densità.
21 In realtà, per il Teorema A.2.1.3 di Radon-Nikodym, la (2.4.7) è condizione necessaria e sufficiente per l’assoluta continuità.
64 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

i) (Uniforme) La distribuzione uniforme UnifK su K, dove K ∈ Bd ha misura di Lebesgue 0 < Lebd (K) <
∞, è la distribuzione con densità
1
γ= 1 .
Lebd (K) K

Allora Z
1 Lebd (H ∩ K)
UnifK (H) = dx = , H ∈ Bd .
H∩K Lebd (K) Lebd (K)

Cosa succede se Lebd (K) = ∞? È possibile definire una probabilità uniforme su Rd ?

ii) (Esponenziale) La distribuzione esponenziale Expλ di parametro λ > 0 è la distribuzione con densità

λe−λx se x ≥ 0,


γ(x) = 
0
 se x < 0.

Allora Z
Expλ (H) = λ e−λx dx, H ∈ B.
H∩[0,+∞[

Si noti che Expλ (R) = Expλ (R≥0 ) = 1 per ogni λ > 0.

iii) (Normale reale) La distribuzione normale reale Nµ,σ 2 di parametri µ ∈ R e σ > 0 è la distribuzione su B
con densità
1 1 x−µ 2
γ(x) = √ e− 2 ( σ ) , x ∈ R.
2πσ 2
Allora Z
1 1 x−µ 2
Nµ,σ 2 (H) = √ e− 2 (σ ) dx, H ∈ B.
2πσ 2 H

La N0,1 , corrispondente a µ = 0 e σ = 1, è detta distribuzione normale standard.

Osservazione 2.4.23. [!] Non tutte le distribuzioni sono del tipo analizzato finora (ossia discrete o assolu-
tamente continue). Per esempio in R2 si consideri il “segmento”

I = {(x, 0) | 0 ≤ x ≤ 1}

e la distribuzione
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,

dove Leb1 indica la misura di Lebesgue 1-dimensionale (o più precisamente la misura di Hausdorff22 1-
dimensionale in R2 ). Chiaramente µ < AC poiché µ(I) = 1 e I ha misura di Lebesgue nulla in R2 ; d’altra
parte µ non è una distribuzione discreta perché µ({(x, y)}) = 0 per ogni (x, y) ∈ R2 .
L’idea è che una distribuzione può concentrare la probabilità su sottoinsiemi di Rd di dimensione (nel
senso di Hausdorff23 ) minore di d: per esempio, una superficie sferica (che ha dimensione di Hausdorff
uguale a 2) in R3 . Le cose possono complicarsi ulteriormente poiché la dimensione di Hausdorff può essere
frazionaria (al riguardo si veda l’Esempio 2.4.36).
22 Si veda, per esempio, il Capitolo 2 in [46].
23 Cf. Capitolo 2.5 in [46].
2.4. DISTRIBUZIONI 65

2.4.6 Funzioni di ripartizione (CDF)


Il concetto di densità visto nella sezione precedente permette di identificare una distribuzione (che,
ricordiamolo, è una misura di probabilità) mediante una funzione su Rd (che, matematicamente, è più ma-
neggevole rispetto ad una misura): ovviamente ciò è possibile se la distribuzione è assolutamente continua.
Un risultato analogo vale per le distribuzioni discrete (cfr. Osservazione 2.1.13).
In questa sezione presentiamo un approccio molto più generale e introduciamo il concetto di funzione di
ripartizione che ci permetterà di identificare una generica distribuzione tramite una funzione. Per ora ci li-
mitiamo a considerare il caso uno-dimensionale: nella Sezione 2.4.9 tratteremo il caso multi-dimensionale.

Definizione 2.4.24. La funzione di ripartizione di una distribuzione µ su (R, B) è definita da

Fµ (x) := µ(] − ∞, x]), x ∈ R.

Utilizziamo anche l’abbreviazione24 CDF per le funzioni di ripartizione.

Esempio 2.4.25.

i) La CDF della delta di Dirac δx0 è



0 se x < x0 ,


F(x) = 
1
 se x ≥ x0 .

n
1 P
ii) La CDF della distribuzione discreta Unifn := n δk è
k=1



0 se x < 1,
k

F(x) = 
 n se k ≤ x < k + 1, per 1 ≤ k ≤ n − 1, (2.4.8)

1

se x ≥ n.

Si veda la Figura 2.1 per il caso n = 5.

Figura 2.1: Grafico della CDF di una v.a. con distibuzione Unif5

24 CDF sta per “Cumulative Distribution Function” ed è anche il comando usato in Mathematica per le funzioni di ripartizione.
66 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

iii) Come mostrato in Figura 2.2, le funzioni di densità e di ripartizione della distribuzione Unif[1,3] sono
rispettivamente 

0 x ≤ 1,
1 
 x−1

γ = 1[1,3] e F(x) =   2 1 < x ≤ 3,
2 
1

x > 3.

1.0

0.8

0.6

0.4

0.2

1 2 3 4

Figura 2.2: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Unif[1,3]

iv) Come mostrato in Figura 2.3 (nel caso λ = 2), le funzioni di densità e di ripartizione della distribu-
zione Expλ sono rispettivamente

γ(x) = λe−λx e F(x) = 1 − e−λx , x ≥ 0, (2.4.9)

e sono nulle per x < 0.

2.0

1.5

1.0

0.5

-1 1 2 3

Figura 2.3: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Exp2
2.4. DISTRIBUZIONI 67

Figura 2.4: A sinistra: grafico della densità normale standard. A destra: grafico della CDF normale stan-
dard. Notare la scala differente nell’asse delle ordinate.

v) La CFD di Nµ,σ 2 è
Z x  t−µ 2
1 − 21
F(x) = √ e σ dt, x ∈ R.
2πσ 2 −∞

Per la normale standard si ha


! !
1 x
F(x) = erf √ + 1 , x ∈ R,
2 2

dove Z x
2 2
erf(x) = √ e−t dt, x ∈ R,
π 0

è la funzione errore. La Figura 2.4 mostra la densità e la CDF della distribuzione normale standard.

Teorema 2.4.26. [!] La CDF Fµ di una distribuzione µ gode delle seguenti proprietà:

i) Fµ è monotona (debolmente) crescente;

ii) Fµ è continua a destra, ossia vale

Fµ (x) = Fµ (x+) := lim+ Fµ (y);


y→x

iii) vale
lim Fµ (x) = 0 e lim Fµ (x) = 1;
x→−∞ x→+∞

Dimostrazione. Per la i): se x ≤ y si ha ] − ∞, x] ⊆ ] − ∞, y] e quindi, per la monotonia di µ, Fµ (x) ≤ Fµ (y).


Per la ii): consideriamo una successione decrescente (xn )n∈N che tende a x per n → ∞: si ha
\
] − ∞, x] = ] − ∞, xn ]
n∈N
68 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

e quindi per la continuità dall’alto di µ (cf. Proposizione 2.1.31-iii))


Fµ (x) = µ(] − ∞, x]) = lim µ(] − ∞, xn ]) = lim Fµ (xn ).
n→∞ n→∞

La tesi segue dall’arbitrarietà della successione (xn )n∈N . I due limiti in iii) seguono rispettivamente dalla
continuità dall’alto e dal basso di µ.
Osservazione 2.4.27. [!] Nelle ipotesi della proposizione precedente, data la monotonia di Fµ , esiste anche
il limite da sinistra
Fµ (x−) := lim− Fµ (y),
y→x

ma in generale vale solo


Fµ (x−) ≤ Fµ (x), x ∈ R.
Infatti per ogni successione crescente (xn )n∈N che tende a x per n → ∞, si ha
[
] − ∞, xn ] = ] − ∞, x[
n∈N

e dunque in questo caso, per la continuità dal basso di P (cf. Proposizione 2.1.31-ii)), si ha
Fµ (x−) = µ(] − ∞, x[) e µ({x}) = ∆Fµ (x) := Fµ (x) − Fµ (x−). (2.4.10)
Dunque µ assegna probabilità positiva nei punti in cui Fµ è discontinua e in tali punti la probabilità è uguale al
salto di Fµ . D’altra parte, è facile vedere che una funzione monotona crescente
F : R −→ R
ammette solo un’infinità al più numerabile di punti di discontinuità. Infatti, posto
1
An = {x ∈ R | |x| ≤ n, ∆F(x) ≥ }, n ∈ N,
n
si ha che la cardinalità |An | è finita poiché
|An | X
≤ ∆F(x) ≤ F(n) − F(−n) < ∞.
n
x∈An

Poiché l’insieme dei punti di discontinuità di F è uguale all’unione degli An al variare di n ∈ N, si conferma
quanto già detto nell’Osservazione 2.4.11 ossia che per ogni distribuzione µ, l’insieme dei punti tali che µ({x}) >
0 è finito o al più numerabile.
Esercizio 2.4.28. Provare che la CDF della distribuzione normale Nµ,σ 2 è strettamente monotona crescente.

2.4.7 Teorema di estensione di Carathéodory


Ricordiamo il concetto di misura (Definizione 2.1.21) su un’algebra (Definizione 2.1.19). Uno dei risul-
tati su cui si fonda tutta la teoria della probabilità è il seguente
Teorema 2.4.29 (Teorema di Carathéodory). [!!!] Sia µ una misura σ -finita su un’algebra A . Esiste ed è
unica la misura σ -finita che estende µ alla σ -algebra generata da A .
Dimostrazione. La dimostrazione è lunga e articolata; nella Sezione 2.5.3 dimostriamo una versione più
generale del Teorema 2.4.29, che sarà più facile da applicare in seguito.
Il Teorema di Carathéodory è un risultato di esistenza dell’estensione di µ da A alla σ -algebra σ (A ) e
di unicità dell’estensione. È notevole il fatto che non sia richiesta alcuna ipotesi su Ω che è un qualunque
insieme non vuoto: infatti la dimostrazione è basata su argomenti puramente insiemistici.
2.4. DISTRIBUZIONI 69

2.4.8 Dalle CDF alle distribuzioni


La costruzione di un modello probabilistico su R (che rappresenti un fenomeno aleatorio, sia esso la
posizione di una particella in un modello della fisica oppure il prezzo di un titolo rischioso in un modello
della finanza oppure la temperatura in un modello meteorologico) consiste nell’assegnare una particolare
distribuzione. Dal punto di vista pratico e intuitivo, il primo passo è stabilire come la distribuzione assegna
la probabilità agli intervalli che sono gli eventi più semplici a cui pensare: avevamo fatto cosı̀ nell’Esempio
2.1.29, quando avevamo definito la distribuzione uniforme. In realtà sappiamo (dal Corollario 2.4.10) che
una distribuzione reale è identificata da come agisce sugli intervalli o equivalentemente, poiché

µ(]a, b]) = Fµ (b) − Fµ (a),

dalla funzione di ripartizione. Allora sembra naturale domandarsi se, data una funzione F che soddisfi le
proprietà che una CDF deve avere, esista una distribuzione µ che abbia F come CDF.
La risposta è affermativa ed è contenuta nel seguente Teorema 2.4.33 che dimostriamo come corollario
del Teorema 2.4.29 di Carathéodory. Facciamo prima qualche richiamo preliminare.

Definizione 2.4.30 (Funzione assolutamente continua (AC)). Una funzione F è assolutamente continua25
su [a, b] (in simboli, F ∈ AC[a, b]) se si scrive nella forma
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b], (2.4.11)
a

con γ ∈ L1 ([a, b]).

Il seguente risultato, la cui dimostrazione è data in appendice (cfr. Proposizione A.2.3.3), afferma che le
funzioni assolutamente continue sono derivabili quasi ovunque.

Proposizione 2.4.31. Sia F ∈ AC[a, b] come in (2.4.11). Allora F è derivabile q.o. e vale F ′ = γ q.o.: di
conseguenza si ha Zx
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b]. (2.4.12)
a

In altri termini, le funzioni assolutamente continue costituiscono la classe di funzioni per cui vale il teorema
fondamentale del calcolo integrale ossia, in parole povere, le fuzioni che sono uguali all’integrale della propria
derivata. È bene osservare che anche se F è derivabile q.o. con F ′ ∈ L1 ([a, b]), non è detto che valga la formula
(2.4.12). Un semplice contro-esempio è dato dalla funzione F = 1[1/2,1] : si ha F ′ = 0 q.o. su [0, 1] ma
Z 1
1 = F(1) − F(0) , F ′ (x)dx = 0.
0

Vedremo nell’Esempio 2.4.36, che F può anche essere continua, derivabile q.o. con F ′ ∈ L1 ([a, b]) e questo
ancora non assicura la validità della formula (2.4.12).

Esercizio 2.4.32. Si verifichi che la funzione




 0 x ≤ 0,
√


F(x) = 
 x 0 < x < 1,

1

x ≥ 1,

è assolutamente continua su [0, 1].


25 La vera definizione di funzione assolutamente continua è data nell’Appendice A.2.4: in realtà, la Definizione 2.4.30 è una
caratterizzazione equivalente dell’assoluta continuità.
70 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Il principale risultato di questa sezione è il seguente

Teorema 2.4.33. [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:

i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi

µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b; (2.4.13)

ii) se F verifica anche


lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞

(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;

iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è una densità di µF .

Dimostrazione. Si veda la Sezione 2.5.4.

Osservazione 2.4.34. È bene sottolineare che il Teorema 2.4.33 contiene anche un risultato di unicità, per
cui ad una CDF è associata un’unica misura per cui valga la (2.4.13). Per esempio, la misura associata alla
funzione F(x) = x è la misura di Lebesgue e lo stesso vale prendendo F(x) = x + c per ogni c ∈ R.

Osservazione 2.4.35. Ci sono due casi particolarmente importanti nelle applicazioni:

1) se F è costante a tratti e indichiamo con xn i punti di discontinuità di F (che, per l’Osservazione 2.4.27,
sono una quantità finita o al più numerabile) allora, per la (2.4.10), µF è la distribuzione discreta
X
µF = ∆F(xn )δxn
n

dove ∆F(xn ) indica l’ampiezza del salto di F in xn ;

2) se F è assolutamente continua allora µF ∈ AC con densità uguale alla derivata F ′ .

Esempio 2.4.36. La funzione di Vitali


V : R −→ [0, 1]
è continua, monotona crescente, tale che V (x) = 0 per x ≤ 0, V (x) = 1 per x ≥ 1 e con derivata prima V ′ che
esiste quasi ovunque ed è uguale a zero: per una costruzione della funzione di Vitali si veda, per esempio,
[46] pag.192. Poiché V soddisfa le ipotesi del Teorema 2.4.33, esiste ed è unica la distribuzione µV tale che
µV (]a, b]) = V (b) − V (a).
Poiché V è continua, si ha µV ({x}) = 0 per ogni x ∈ [0, 1] (cf. (2.4.10)) e quindi µV non è una distribuzione
discreta. Se fosse µV ∈ AC esisterebbe una densità γ tale che
Z x
V (x) = µV ([0, x]) = γ(y)dy, x ≥ 0.
0

Per la Proposizione 2.4.31 dovrebbe essere γ = V ′ = 0 quasi ovunque e ciò è assurdo. Dunque µV non
è neppure una distribuzione assolutamente continua, benché la sua CDF V sia continua e derivabile quasi
ovunque.
Per chi vuole approfondire la questione, il fatto è che µV assegna probabilità 1 all’insieme di Cantor (per
maggiori dettagli si veda p.37 in [46]) che è un sottoinsieme dell’intervallo [0, 1], che ha misura di Lebesgue
log 2
nulla e dimensione di Hausdorff pari a log 3 .
2.4. DISTRIBUZIONI 71

Figura 2.5: Grafico della funzione di Vitali

Esercizio 2.4.37. Sia data la funzione





 0 per x < 0,
x

F(x) = 
 3 per 0 ≤ x < 1,

1

per x ≥ 1.

Si verifichi che F è una CDF. Se µF è la distribuzione associata, si calcoli µF ([0, 1]), µF ([0, 1[) e µF (Q). Infine
si verifichi che µF = 32 δ1 + 31 Unif[0,1] .

Esercizio 2.4.38. Per ogni n ∈ N sia





 0 per x < 0,

 n
Fn (x) = 
 x per 0 ≤ x < 1,

1

per x ≥ 1.

Si provi che Fn è una CDF assolutamente continua e si determini la densità γn della distribuzione µn
associata. Posto
F(x) := lim Fn (x)
n→∞

si verifichi che F è una CDF e si determini la distribuzione associata. Posto

γ(x) := lim γn (x),


n→∞

la funzione γ è una densità?

Esercizio 2.4.39. Data una numerazione (qn )n∈N dei razionali di [0, 1], definiamo la distribuzione

2−n se x = qn ,


µ({x}) = 
0
 altrimenti.

La CDF Fµ è continua nel punto 1? Determinare Fµ (1) e Fµ (1−).


Soluzione. Se n̄ ∈ N è tale che qn̄ = 1 allora ∆Fµ (1) = 21n̄ . Poiché Fµ (1) = 1 allora Fµ (1−) = 1 − 21n̄ .
72 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

2.4.9 Funzioni di ripartizione su Rd


Il caso multi-dimensionale è analogo al caso scalare con qualche piccola differenza.
Definizione 2.4.40. La funzione di ripartizione di una distribuzione µ su (Rd , Bd ) è definita da

Fµ (x) := µ(] − ∞, x1 ] × · · · ×] − ∞, xd ]), x = (x1 , . . . , xd ) ∈ Rd . (2.4.14)

Esempio 2.4.41. Riportiamo i grafici di alcune CDF bidimensionali:


i) Dirac centrata in (1, 1) in Figura 2.6;

Figura 2.6: Grafico della CDF di Dirac bidimensionale centrata in (1, 1).

ii) Uniforme sul quadrato [0, 1] × [0, 1] in Figura 2.7. La densità è la funzione indicatrice γ = 1[0,1]×[0,1] ;
iii) Normale standard bidimensionale in Figura 2.8, con densità
2
x2 − y
e− 2 2
γ(x, y) = , (x, y) ∈ R2 .

Esempio 2.4.42. [!] Consideriamo la CDF bidimensionale

e−y(x+1) − 1
!
−y
F(x, y) = 1 − e + 1R≥0 ×R≥0 (x, y),
x+1

e supponiamo di sapere che F è assolutamente continua, ossia


Zx Zy
F(x, y) = γ(ξ, η)dξdη
−∞ −∞

per una certa γ ∈ mB + . Allora, come nel caso uno-dimensionale (cfr. Teorema 2.4.33-iii)), una densità per
F si ottiene semplicemente differenziando:

∂x ∂y F(x, y) = ye−xy 1R≥0 ×R≥0 (x, y).


2.4. DISTRIBUZIONI 73

Figura 2.7: Distribuzione Unif[0,1]×[0,1] : grafico della densità (a sinistra) e della CDF (a destra).

Figura 2.8: Distribuzione normale standard bidimensionale: grafico della densità (a sinistra) e della CDF
(a destra).
74 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Ora enunciamo un teorema che è la naturale estensione dei risultati visti in dimensione uno. Osservia-
mo prima che, fissati k ∈ {1, . . . , d}, a ≤ b reali e x ∈ Rd , vale
µ(] − ∞, x1 ] × · · · ×] − ∞, xk−1 ]×]a, b]×] − ∞, xk+1 ] × · · · ×] − ∞, xd ])
(k)
= Fµ (x1 , . . . , xk−1 , b, xk+1 , . . . , xd ) − Fµ (x1 , . . . , xk−1 , a, xk+1 , . . . , xd ) =: ∆]a,b] Fµ (x),
e più in generale
(1) (d)
µ(]a1 , b1 ] × · · · ×]ad , bd ]) = ∆]a · · · ∆]a Fµ (x). (2.4.15)
1 ,b1 ] d ,bd ]

Teorema 2.4.43. La CDF Fµ di una distribuzione d-dimensionale µ gode delle seguenti proprietà:
i) Monotonia: per ogni scelta di bk > ak ≥ −∞, 1 ≤ k ≤ d, si ha
(1) (d)
∆]a · · · ∆]a Fµ (x) ≥ 0; (2.4.16)
1 ,b1 ] d ,bd ]

ii) Continuità a destra: per ogni x ∈ Rd vale


lim Fµ (y) = Fµ (x),
y→x+

dove y → x+ significa che yk → xk+ per ogni k = 1, . . . , d;


iii) se xk → −∞ per un k = 1, . . . , d allora Fµ (x) → 0 e se xk → +∞ per ogni k = 1, . . . , d allora Fµ (x) → 1.
Viceversa, se
F : Rd −→ [0, 1]
è una funzione che gode delle proprietà i), ii) e iii) allora esiste una distribuzione su Rd tale che F = Fµ ,
ossia valga la (2.4.14).
Dimostrazione. La dimostrazione è del tutto analoga al caso uno-dimensionale. Notiamo solo che la (2.4.16)
segue direttamente dalla (2.4.15), essendo µ a valori non-negativi.
Osservazione 2.4.44. La proprietà (2.4.16) di monotonia non è del tutto banale. Nel caso d = 2, si scrive
esplicitamente nel modo seguente
(1) (2)
0 ≤ ∆]a ∆]a F(x) = F(b1 , b2 ) − F(b1 , a2 ) − (F(a1 , b2 ) − F(a1 , a2 ))
1 ,b1 ] 2 ,b2 ]
(2) (1)
= F(b1 , b2 ) − F(a1 , b2 ) − (F(b1 , a2 ) − F(a1 , a2 )) = ∆]a ∆]a F(x).
2 ,b2 ] 1 ,b1 ]

Per esempio, la funzione





1 se x1 , x2 ≥ 1,

2/3 se x1 ≥ 1 e 0 ≤ x2 < 1,


F(x1 , x2 ) = 
2/3 se x2 ≥ 1 e 0 ≤ x1 < 1,





0 altrimenti,
pur essendo “monotona in ogni direzione”, non verifica la i) del teorema precedente. In effetti si ha
(1) (2)
∆]1/2,1] ∆]1/2,1] F(x) = −1/3,
e quindi se esistesse la distribuzione relativa a F, essa assegnerebbe probabilità negativa al quadrato
]1/2, 1]×]1/2, 1] e ciò è ovviamente assurdo.
Esercizio 2.4.45. Siano I := [0, 1] × {0} ⊆ R2 e µ la distribuzione uniforme su I, definita da
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,
dove Leb1 indica la misura di Lebesgue uno-dimensionale26 . Si determini la CDF di µ.
26 Un po’ impropriamente, dato A ∈ B, stiamo identificando Leb (A) con Leb (A × {0}).
1 1
2.5. APPENDICE 75

2.4.10 Sintesi
Come si costruisce e definisce una misura di probabilità? Il primo strumento generale di teoria della
misura è il Teorema di Carathéodory in base al quale ogni misura definita su un’algebra A si estende in
modo unico alla σ -algebra generata da A . Per esempio, in base a tale teorema, la misura definita per ogni
intervallo [a, b] come la lunghezza b − a, si estende in modo unico alla misura di Lebesgue sulla σ -algebra
di Borel.  
Un ruolo particolarmente importante giocano le misure di probabilità definite su Rd , Bd , chiamate
anche distribuzioni. Fra di esse le distribuzioni discrete sono combinazioni lineari (anche numerabili) di
delta di Dirac: esempi notevoli sono le distribuzioni di Bernoulli, uniforme discreta, binomiale e di Pois-
son. Altre importanti distribuzioni sono quelle assolutamente continue, ossia quelle che si rappresentano in
termini di integrale di Lebesgue di una certa funzione, detta densità: esempi notevoli sono le distribuzioni
uniforme, esponenziale e normale (ma ne vedremo tante altre...).
Le distribuzioni discrete e quelle assolutamente continue sono definite in termini di funzioni reali: la
funzione di distribuzione nel primo caso e la densità nel secondo caso. Questo è un fatto rilevante perché è
molto più facile maneggiare una funzione di variabile reale (o, in generale, in Rd ) che non una distribuzione
(che è una misura e ha come argomento i Boreliani). D’altra parte esistono distribuzioni che non sono nè
discrete nè assolutamente continue.
Per caratterizzare una generica distribuzione in termini di una funzione reale abbiamo introdotto il
concetto di funzione di ripartizione (o CDF). Una CDF gode di alcune proprietà generali: nel caso uno-
dimensionale, una CDF è monotona crescente (e di conseguenza derivabile q.o.), continua a destra e ha limi-
te a +∞ e −∞ rispettivamente pari a 1 e 0. Abbiamo dimostrato che è equivalente assegnare una distribuzione
o la sua CDF.
Infine il fatto che una distribuzione µ abbia densità è equivalente al fatto che la sua CDF F sia assoluta-
mente continua, ossia al fatto che valga
Zx
µ(]a, x]) = F(x) − F(a) = F ′ (t)dt, a < x,
a

e in tal caso F′ è una densità di µ.

2.5 Appendice
2.5.1 Dimostrazione della Proposizione 2.3.30
Proposizione 2.3.30 Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Poniamo
Ω = {ω = (ω1 , . . . , ωn ) | ωi ∈ {0, 1}}
e consideriamo la partizione
n
[
Ω= Ωk , Ωk := {ω ∈ Ω | ω1 + · · · + ωn = k}. (2.5.1)
k=0

Chiaramente ogni ω appartiene ad uno e un solo Ωk e quindi Ωk ∩ Ωh = ∅ per k , h, e inoltre Ωk ↔ Cn,k


(l’elemento (ω1 , . . . , ωn ) di Ωk è univocamente individuato dalla scelta delle k fra n componenti che sono
uguali a 1) ossia !
n
|Ωk | = , k = 0, . . . , n. (2.5.2)
k
76 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Definiamo P ponendo
P ({ω}) = pk (1 − p)n−k ω ∈ Ωk , k = 0, . . . , n.
Allora P è una probabilità poiché
n n X n !
X X X n k
P (Ω) = P (Ωk ) = P ({ω}) = p (1 − p)n−k = 1,
k
k=0 k=0 ω∈Ωk k=0

per la (2.2.10).
Proviamo che gli eventi
Ch = {ω ∈ Ω | ωh = 1}, h = 1, . . . , n,
formano una famiglia di n prove ripetute e indipendenti con probabilità p. Infatti siano r ∈ N, r ≤ n, e
h1 , . . . , hr ∈ In distinti. Si ha27
 r  n
  r 
\  X  \ 
P  Chi  =
  P Ωk ∩  Chi 
 
i=1 k=r i=1
 r 
n
X \ 
= Ωk ∩  Chi  pk (1 − p)n−k =

k=r i=1

!
r
Chi è esattamente uguale a n−r
T 
(osservando che, analogamente alla (2.5.2), la cardinalità di Ωk ∩ k−r )
i=1
n !
X n−r k
= p (1 − p)n−k =
k−r
k=r

(col cambio di indice j = k − r)


n−r !
X n−r j
= pr p (1 − p)n−j−r = pr .
j
j=0

Dunque abbiamo provato che, per r = 1,

P (Ch ) = p, h = 1, . . . , n,

e per 1 < r ≤ n si ha  r 
\  r
Y  
r
P  Chi  = p =

 
 P Chi .
i=1 i=1
Quindi (Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Per quanto riguarda la seconda parte dell’enunciato: sia (Ck )k∈N una successione di eventi indipendenti
su uno spazio discreto (Ω, P ), tali che P (Ck ) = p ∈ [0, 1] per ogni k ∈ N. Non è restrittivo supporre p ≥ 12
perché altrimenti basta considerare la successione degli eventi complementari. In questo caso dimostriamo
che necessariamente p = 1. Infatti supponiamo per assurdo che sia p < 1. Fissiamo un generico esito ω ∈ Ω:
per c c
 ogni
 n ∈ N poniamo C̄n = Cn oppure C̄n = Cn a seconda che sia ω ∈ Cn oppure ω ∈ Cn . Notiamo che
1
P C̄n ≤ P (Cn ) poiché abbiamo assunto P (Cn ) = p ≥ 2 . Per ogni n ∈ N gli eventi C̄1 , . . . , C̄n sono indipendenti
e
\n
{ω} ⊆ C̄k
k=1
r
!
27 Si noti che l’indice nella sommatoria parte da r poiché Ω ∩ T
Chi = ∅ se k < r (perché?).
k
i=1
2.5. APPENDICE 77

da cui
n
Y  
P ({ω}) ≤ P C̄k ≤ pn .
k=1

Passando al limite in n otteniamo P ({ω}) = 0 e questo è assurdo per l’arbitrarietà di ω ∈ Ω.

2.5.2 Dimostrazione della Proposizione 2.4.9


Proposizione 2.4.9 Sia µ una distribuzione su uno spazio metrico (M, Bϱ ). Per ogni H ∈ Bϱ si ha

µ(H) = sup{µ(C) | C ⊆ H, C chiuso} (2.5.3)


= inf{µ(A) | A ⊇ H, A aperto}. (2.5.4)

A parole, si dice che ogni Boreliano è regolare internamente (per la (2.5.3)) ed esternamente (per la (2.5.4))
per µ.

Dimostrazione. Indichiamo con R l’insieme dei Boreliani regolari (internamente ed esternamente) per µ. È
chiaro che H ∈ R se e solo se per ogni ε > 0 esistono un chiuso C e un aperto A tali che

C ⊆ H ⊆ A, µ(A \ C) < ε.

Proviamo anzitutto che R è una σ -algebra:

• poiché l’insieme vuoto è aperto e chiuso, si ha ∅ ∈ R;

• se H ∈ R allora per ogni ε > 0 esistono un chiuso Cε e un aperto Aε tali che Cε ⊆ H ⊆ Aε e µ(Aε \Cε ) < ε.
Passando al complementare, si ha Acε ⊆ H c ⊆ Cεc , con Acε chiuso, Cεc aperto e Cεc \ Acε = Aε \ Cε . Questo
prova che H c ∈ R;

• sia (Hn )n∈N una successione in R e H =


S
Hn . Allora, per ogni ε > 0 esistono due successioni,
n≥1
ε
Sn,ε )n∈N di chiusi e (An,ε )n∈N di aperti, tali che Cn,ε ⊆ Hn ⊆ An,ε e µ(An,ε \ Cn,ε ) < 3n . Posto Aε =
(C
An,ε , si ha che Aε è aperto e H ⊆ Aε . D’altra parte, per la continuità dal basso di µ (cfr. Proposizione
n≥1
ε
2.1.31), esiste k ∈ N tale che µ(C \ Cε ) ≤ 2 dove

[ n
[
C := Cn,ε , Cε := An,ε .
n=1 n=1

Chiaramente, Cε è chiuso e Cε ⊆ H. Infine si ha


∞ ∞
X ε X ε ε
µ(Aε \ Cε ) ≤ µ(Aε \ C) + µ(C \ Cε ) ≤ µ(An,ε \ Cn,ε ) + ≤ + = ε.
2 3n 2
n=1 n=1

Questo prova che R è una σ -algebra. Proviamo ora che R contiene tutti i chiusi: dato C chiuso poniamo
ϱ(x, C) = inf ϱ(x, y) e
y∈C
An = {x ∈ M | ϱ(x, C) < 1/n}, n ∈ N.
T
Allora An è aperto e An ↘ C: infatti, se x ∈ n≥1 An allora ϱ(x, C) = 0 e quindi x ∈ C, essendo C chiuso.
Allora, per la continuità dall’alto di µ si ha limn→∞ µ(An ) = µ(C).
La tesi segue dal fatto che Bϱ è la più piccola σ -algebra che contiene gli aperti (e i chiusi) e quindi
Bϱ ⊆ R.
78 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory


Diamo una versione leggermente più generale (e decisamente più comoda da applicare) del Teorema
2.4.29: in questa sezione seguiamo la trattazione di [39]. Introduciamo la definizione di pre-misura su una
generica famiglia di sottoinsiemi di Ω.

Definizione 2.5.1 (Pre-misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una pre-misura
su A è una funzione
µ : A −→ [0, +∞]
tale che

i) µ(∅) = 0;

ii) µ è additiva su A nel senso che per ogni A, B ∈ A , disgiunti e tali che A ∪ B ∈ A , vale

µ (A ⊎ B) = µ(A) + µ(B);

iii) µ è σ -sub-additiva su A nel senso che per ogni A ∈ A e (An )n∈N successione di elementi in A , vale
[ X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n∈N

Si dice che µ è σ -finita se esiste una successione (An )n∈N in A tale che Ω =
S
An e µ(An ) < ∞ per ogni
n∈N
n ∈ N.

Definizione 2.5.2 (Semianello). Una famiglia A di sottoinsiemi di Ω è un semianello se:

i) ∅ ∈ A

ii) A è ∩-chiusa;

iii) per ogni A, B ∈ A la differenza B \ A è unione finita e disgiunta di insiemi di A .

Esempio 2.5.3. [!] La famiglia A degli intervalli limitati del tipo

]a, b], a, b ∈ R, a ≤ b,

è un semianello (ma non è un’algebra). La famiglia formata dalle unioni finite di intervalli (anche illimitati)
del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
è un’algebra (ma non è una σ -algebra). Tali famiglie generano la σ -algebra di Borel di R.

Ricordiamo che una misura µ è una funzione σ -additiva e tale che µ(∅) = 0 (cfr. Definizione 2.1.21).
Osserviamo che, per la Proposizione 2.1.31, µ è una pre-misura su un’algebra A se e solo se µ è una misura
su A . Inoltre il seguente lemma fornisce un risultato naturale la cui dimostrazione, che rinviamo alla fine
della sezione, non è del tutto ovvia.

Lemma 2.5.4. Se µ è una misura su un semianello A allora µ è una pre-misura su A .

Teorema 2.5.5 (Teorema di Carathéodory - versione generale). Sia µ una pre-misura σ -finita su un semia-
nello A . Esiste ed è unica la misura σ -finita che estende µ a σ (A ).

Osservazione 2.5.6. Il Teorema 2.4.29 è un corollario del Teorema 2.5.5: infatti ogni algebra è un semia-
nello e, per il Lemma 2.5.4, ogni misura su un semianello è una pre-misura.
2.5. APPENDICE 79

Dimostrazione del Teorema 2.5.5. L’unicità è un corollario del Teorema A.1.3 di Dynkin: per i dettagli, si
vedano il Corollario A.1.5 e l’Osservazione A.1.6. Qui proviamo l’esistenza dell’estensione: in questa di-
mostrazione non utilizziamo l’ipotesi che µ sia σ -finita; d’altra parte se µ è σ -finita allora anche la sua
estensione lo è. Dividiamo la prova in alcuni passi.
Passo 1. Introduciamo la famiglia dei ricoprimenti di B ⊆ Ω che siano finiti o numerabili e costituiti da
elementi di A : [
U (B) := {R ⊆ A | R al più numerabile e B ⊆ A}.
A∈R

Definiamo
µ∗ : P(Ω) −→ [0, +∞]
ponendo X
µ∗ (B) = inf µ(A), (2.5.5)
R ∈U (B)
A∈R

con la convenzione inf ∅ = +∞.

Lemma 2.5.7. µ∗ è una misura esterna ossia verifica le seguenti proprietà:

i) µ∗ (∅) = 0;

ii) µ∗ è monotona;

iii) µ∗ è σ -sub-additiva.

Inoltre µ∗ (A) = µ(A) per ogni A ∈ A .

Dimostrazione. Poiché ∅ ∈ A la i) è ovvia. Se B ⊆ C allora U (C) ⊆ U (B) da cui segue cheSµ∗ (B) ≤ µ∗ (C) e
questo prova la ii). Infine, data una successione (Bn )n∈N di sottoinsiemi di Ω e posto B = Bn , proviamo
n∈N
che X
µ∗ (B) ≤ µ∗ (Bn ).
n∈N

È sufficiente considerare il caso < ∞ per ogni n ∈ N, da cui segue in particolare che U (Bn ) , ∅.
µ∗ (Bn )
Allora, fissato ε > 0, per ogni n ∈ N esiste Rn ∈ U (Bn ) tale che
X ε
µ(A) ≤ µ∗ (Bn ) + n .
2
A∈Rn

Ora R := Rn ∈ U (B) e quindi


S
n∈N
X X X X
µ∗ (B) ≤ µ(A) ≤ µ(A) ≤ µ∗ (Bn ) + ε
A∈R n∈N A∈Rn n∈N

da cui la tesi per l’arbitrarietà di ε.


Infine proviamo che µ∗ coincide con µ su A . Per ogni A ∈ A si ha µ∗ (A) ≤ µ(A) per definizione. Viceversa,
poiché µ è σ -sub-additiva su A , per ogni R ∈ U (A) si ha
X
µ(A) ≤ µ(B)
B∈R

da cui segue che µ(A) ≤ µ∗ (A).


80 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Passo 2. Indichiamo con M (µ∗ ) la famiglia degli A ⊆ Ω tali che

µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), ∀E ⊆ Ω.

Gli elementi di M (µ∗ ) sono detti µ∗ -misurabili. Proveremo che M (µ∗ ) è una σ -algebra e µ∗ è una misura su
M (µ∗ ). Cominciamo col seguente risultato parziale.

Lemma 2.5.8. M (µ∗ ) è un’algebra.

Dimostrazione. Chiaramente ∅ ∈ M (µ∗ ) e M (µ∗ ) è chiusa rispetto al passaggio al complementare. Proviamo


che l’unione di A, B ∈ M (µ∗ ) appartiene a M (µ∗ ): per ogni E ⊆ Ω si ha

µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac )
= µ∗ (E ∩ A ∩ B) + µ∗ (E ∩ A ∩ Bc ) + µ∗ (E ∩ Ac ∩ B) + µ∗ (E ∩ Ac ∩ Bc )
| {z } | {z }
≥µ∗ (E∩A∪B) =µ∗ (E∩(A∪B)c )

poiché
(E ∩ A ∪ B) ⊆ (E ∩ A ∩ B) ∪ (E ∩ A ∩ Bc ) ∪ (E ∩ Ac ∩ B).
Questo prova che
µ∗ (E) ≥ µ∗ (E ∩ (A ∪ B)) + µ∗ (E ∩ (A ∪ B)c ).
D’altra parte µ∗ è sub-additiva e quindi A ∪ B ∈ M (µ∗ ).

Lemma 2.5.9. µ∗ è una misura su M (µ∗ ).

Dimostrazione. È sufficiente provare che µ∗ è σ -additiva su M (µ∗ ). Per ogni A, B ∈ M (µ∗ ) con A ∩ B = ∅, si
ha
µ∗ (A ⊎ B) = µ∗ ((A ⊎ B) ∩ A) + µ∗ ((A ⊎ B) ∩ Ac ) = µ∗ (A) + µ∗ (B).
Dunque µ∗ è additiva su M (µ∗ ). Inoltre, sappiamo già dal Punto 1 che µ∗ è σ -sub-additiva e dunque la tesi
segue dalla Proposizione 2.1.31.

Lemma 2.5.10. M (µ∗ ) è una σ -algebra.

Dimostrazione. Sappiamo già che M (µ∗ ) è ∩-chiusa. Se verifichiamo che M (µ∗ ) è una famiglia monotona
(cfr. Definizione A.1.1) la tesi seguirà dal Lemma A.1.2. A tal fine è sufficiente provare che se (An )n∈N è
una successione in M (µ∗ ) e An ↗ A allora A ∈ M (µ∗ ). Grazie alla sub-additività di µ∗ , basta provare che

µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), E ⊆ Ω. (2.5.6)

Poniamo A0 = ∅ e osserviamo che

µ∗ (E ∩ An ) = µ∗ ((E ∩ An ) ∩ An−1 ) + µ∗ ((E ∩ An ) ∩ Acn−1 )


= µ∗ (E ∩ An−1 ) + µ∗ (E ∩ (An \ An−1 )).

Di conseguenza si ha
n
X
µ∗ (E ∩ An ) = µ∗ (E ∩ (Ak \ Ak−1 )) (2.5.7)
k=1

e, per la monotonia di µ∗ ,

µ∗ (E) = µ∗ (E ∩ An ) + µ∗ (E ∩ Acn )
≥ µ∗ (E ∩ An ) + µ∗ (E ∩ Ac ) =
2.5. APPENDICE 81

(per la (2.5.7))
n
X
= µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ).
k=1

Mandando n all’infinito e usando la σ -sub-additività di µ∗ , si ha



X
µ∗ (E) ≥ µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ),
k=1

che prova la (2.5.6) e conclude la prova.

Passo 3. Come ultimo passo proviamo che

σ (A ) ⊆ M (µ∗ ).

Poiché M (µ∗ ) è una σ -algebra, è sufficiente provare che A ⊆ M (µ∗ ): inoltre, essendo µ∗ sub-additiva, basta
provare che per ogni A ∈ A e E ⊆ Ω, con µ∗ (E) < ∞, vale

µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ). (2.5.8)

Fissato ε > 0, esiste un ricoprimento (An )n∈N di E formato da elementi di A e tale che
X
µ(An ) ≤ µ∗ (E) + ε. (2.5.9)
n∈N

Poiché A è un semianello, si ha An ∩ A ∈ A e quindi, per il Lemma 2.5.7,

µ∗ (An ∩ A) = µ(An ∩ A). (2.5.10)


(n) (n)
D’altra parte, ancora per il fatto che A è un semianello, per ogni n ∈ N esistono B1 , . . . , Bk ∈ A tali che
n

kn
(n)
]
An ∩ Ac = An \ A = Bj .
j=1

Allora
 
]kn 
∗ c (n) 
∗
µ (An ∩ A ) = µ  Bj  ≤
 
 
j=1

(essendo µ∗ sub-additiva)

kn
(n)
X
≤ µ∗ (Bj ) =
j=1

(poiché µ∗ = µ su A per il Lemma 2.5.7)

kn
(n)
X
= µ(Bj ) =
j=1
82 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

(essendo µ additiva)

= µ(An ∩ Ac ). (2.5.11)

Ora proviamo la (2.5.8): per la σ -sub-additività di µ∗ si ha


X
µ∗ (E ∩ A) + µ∗ (E ∩ Ac ) ≤ (µ∗ (An ∩ A) + µ∗ (An ∩ Ac )) ≤
n∈N

(per la (2.5.10) e la (2.5.11))


X X
≤ (µ(An ∩ A) + µ(An ∩ Ac )) = µ(An ) ≤
n∈N n∈N

(per la (2.5.9))

≤ µ∗ (E) + ε.

La tesi segue dall’arbitrarietà di ε. Questo conclude la prova del Teorema 2.5.5.

Proviamo ora che la σ -algebra M (µ∗ ), costruita nel Passo 2 della dimostrazione del Teorema di Ca-
rathéodory, contiene gli insiemi trascurabili. Notiamo che in generale M (µ∗ ) è strettamente più grande di
σ (A ): è questo il caso della misura di Lebesgue se A è la famiglia degli intervalli limitati del tipo

]a, b], a, b ∈ R, a ≤ b.

In questo caso, σ (A ) è la σ -algebra di Borel e M (µ∗ ) è la σ -algebra dei misurabili secondo Lebesgue.
D’altra parte, vediamo anche che gli elementi di M (µ∗ ) differiscono da quelli di σ (A ) solo per insiemi
µ∗ -trascurabili.

Corollario 2.5.11. [!] Sotto le ipotesi del Teorema di Carathéodory, nello spazio con misura (Ω, M (µ∗ ), µ∗ )
si ha:

i) se µ∗ (M) = 0 allora M ∈ M (µ∗ ) e quindi (Ω, M (µ∗ ), µ∗ ) è uno spazio con misura completo;

ii) per ogni M ∈ M (µ∗ ), tale che µ∗ (M) < ∞, esiste A ∈ σ (A ) tale che M ⊆ A e µ∗ (A \ M) = 0.

Dimostrazione. Per la sub-additività e la monotonia di µ∗ , se µ∗ (M) = 0 e E ⊆ Ω si ha

µ∗ (E) ≤ µ∗ (E ∩ M) + µ∗ (E ∩ M c ) = µ∗ (E ∩ M c ) ≤ µ∗ (E),

e questo prova la i).


È chiaro che, per definizione di µ∗ , per ogni n ∈ N esiste An ∈ σ (A ) tale che M ⊆ An e

1
µ∗ (An ) ≤ µ∗ (M) + . (2.5.12)
n
An ∈ σ (A ), si ha M ⊆ A e, passando al limite in (2.5.12) e grazie alla continuità dall’alto di µ∗
T
Posto A =
n∈N
su M (µ∗ ), abbiamo µ∗ (A) = µ∗ (M). Allora, poiché M ∈ M (µ∗ ), si ha

µ∗ (A) = µ∗ (A ∩ M) + µ∗ (A ∩ M c ) = µ∗ (M) + µ∗ (A \ M)

da cui µ∗ (A \ M) = 0.

Concludiamo la sezione con la


2.5. APPENDICE 83

Dimostrazione del Lemma 2.5.4. Se µ è una misura sul semianello A allora le proprietà i) e ii) di pre-misura
sono ovvie. Proviamo che µ è monotona: se A, B ∈ A con A ⊆ B allora, per la proprietà iii) di semianello,
esistono C1 , . . . , Cn ∈ A tali che
]n
B\A = Ck .
k=1
Quindi si ha
µ(B) = µ(A ⊎ (B \ A)) = µ(A ⊎ C1 ⊎ · · · ⊎ Cn )
(per l’additività finita di µ)
n
X
= µ(A) + µ(Ck ) ≥ µ(A),
k=1

da cui la monotonia di µ.
La dimostrazione della proprietà iii), ossia la σ -sub-additività di µ, è una versione un po’ più complicata
della dimostrazione della Proposizione 2.1.22-ii): tutta la complicazione è dovuta al fatto che µ è definita
su un semianello (invece che su un’algebra come nella Proposizione 2.1.22) e questo limita le operazioni
insiemistiche che possiamo utilizzare. Siano A ∈ A e (An )n∈N successione in A tali che
[
A⊆ An .
n∈N

Poniamo A
e1 = A1 e
n−1
[ n−1
\
en = An \
A Ak = (An \ (An ∩ Ak )) , n ≥ 2. (2.5.13)
k=1 k=1
(n) (n)
Allora, per le proprietà ii) e iii) di semianello, esistono Jn ∈ N e C1 , . . . , CJn ∈ A tali che
Jn
(n)
]
en =
A Cj .
j=1

Ora, A
en ⊆ An e quindi, per monotonia e additività, si ha
Jn
(n)
X
µ(An ) ≥ µ(A
en ) = µ(Cj ). (2.5.14)
j=1

Inoltre, per la (2.5.13),


Jn
(n)
[ ] ]]
A⊆ An = en =
A Cj
n∈N n∈N n∈N j=1

e quindi
 
Jn 
 ] ] 
(n) 
µ(A) = µ  A ∩ Cj  =
 
 
n∈N j=1

(n)
(poiché A ∩ Cj ∈ A e, per ipotesi, µ è una misura e quindi, in particolare, σ -additiva)
Jn  
(n)
XX
= µ A ∩ Cj ≤
n∈N j=1
84 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

(per monotonia)
Jn  
(n)
XX
≤ µ Cj =
n∈N j=1

(per la (2.5.14))
X
≤ µ(An )
n∈N

e questo conclude la prova.

2.5.4 Dimostrazione del Teorema 2.4.33


Teorema 2.4.33 [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:

i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi

µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b;

ii) se F verifica anche


lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞

(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;

iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è densità di µF .

Dimostrazione. [Parte i)] Consideriamo il semianello A dell’Esempio 2.5.3, formato dagli intervalli limitati
del tipo
]a, b], a, b ∈ R, a ≤ b,
e su A definiamo µF ponendo
µF (]a, b]) = F(b) − F(a).
La tesi segue dal Teorema 2.5.5 di Carathéodory una volta provato che µF è una pre-misura σ -finita (cfr.
Definizione 2.5.1). Per definizione, µF (∅) = 0 e chiaramente µF è σ -finita. Inoltre µF è additiva poiché, se
]a, b], ]c, d] sono intervalli disgiunti tali che la loro unione è un intervallo allora necessariamente28 b = c,
cosicché

µF (]a, b]⊎]b, d]) = µF (]a, d]) = F(d) − F(a) = (F(b) − F(a)) + (F(d) − F(b)) = µF (]a, b]) + µF (]b, d]) .

Infine proviamo che µF è σS -sub-additiva. Basta considerare ]a, b] ∈ A e una successione (An )n∈N in A ,
del tipo An = ]an , bn ], tale che An = ]a, b] e provare che
n∈N


X
µF (A) ≤ µF (An ).
n=1

Fissiamo ε > 0: per la continuità a destra di F, esistono δ > 0 e una successione di numeri positivi (δn )n∈N
tali che
ε
F(a + δ) ≤ F(a) + ε, F(bn + δn ) ≤ F(bn ) + n . (2.5.15)
2
28 Non è restrittivo assumere a ≤ d.
2.5. APPENDICE 85

La famiglia (]an , bn + δn [)n∈N è un ricoprimento29 aperto del compatto [a + δ, b] e quindi ammette un sotto-
ricoprimento finito: per fissare le idee, indichiamo con (nk )k=1,...,N gli indici di tale sotto-ricoprimento.
Allora, per la prima disuguaglianza in (2.5.15), si ha
F(b) − F(a) ≤ ε + F(b) − F(a + δ)
≤ ε + µF (]a + δ, b]) ≤
(poiché µF è finitamente additiva e quindi anche finitamente sub-additiva)
N
X  
≤ε+ µF ]ank , bnk + δnk ]
k=1

X
≤ε+ (F(bn + δn ) − F(an )) ≤
n=1

(per la seconda disuguaglianza in (2.5.15))


∞ ∞
X ε X
≤ε+ + (F(bn ) − F(an ))
2n
n=1 n=1
X∞
= 2ε + (F(bn ) − F(an )) ,
n=1

e la tesi segue dall’arbitrarietà di ε > 0.


[Parte ii)] Poiché
µF (R) = lim F(x) − lim F(x) = 1,
x→+∞ x→−∞
dove la prima uguaglianza è per costruzione e la seconda per ipotesi, allora µF è una misura di probabilità
su R, ossia una distribuzione.
[Parte iii)] Se F è assolutamente continua, per la Proposizione 2.4.31, per ogni a < b si ha
Zb
µF (]a, b]) = F(b) − F(a) = F ′ (x)dx.
a

Notiamo che F ′ ≥ 0 q.o. perché limite del rapporto incrementale di una funzione monotona crescente:
passando al limite per a → −∞ e b → +∞, per il Teorema di Beppo-Levi, si ha
Z
1 = µF (R) = F ′ (x)dx
R

e quindi F′ è una densità. Consideriamo la distribuzione definita da


Z
µ(H) := F ′ (x)dx, H ∈ B.
H

Allora µF coincide con µ sul semianello A degli intervalli limitati del tipo ]a, b]. Poiché A genera B, per il
risultato di unicità del Teorema di Carathéodory, si ha µF = µ su B e quindi µF ∈ AC con densità F ′ .
Viceversa, se µF ∈ AC con densità γ allora
Zx
F(x) − F(a) = γ(t)dt, a < x,
a

e quindi F è assolutamente continua e, per la Proposizione 2.4.31, F ′ = γ q.o.


29 Poiché, per ogni n ∈ N, ]a , b + δ [ contiene ]a , b ].
n n n n n
86 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Capitolo 3

Variabili aleatorie

The theory of probability as a


mathematical discipline can and
should be developed from axioms in
exactly the same way as geometry
and algebra.

Andrej N. Kolmogorov

Le variabili aleatorie descrivono quantità che dipendono da un fenomeno o esperimento aleatorio: per esem-
pio, se l’esperimento è il lancio di due dadi, la quantità (variabile aleatoria) che interessa studiare potrebbe
essere il risultato della somma dei due lanci. Il fenomeno aleatorio è modellizzato con uno spazio di proba-
bilità (Ω, F , P ) (nell’esempio, lo spazio discreto Ω = I6 × I6 con la probabilità uniforme) e la quantità che
interessa è descritta dalla variabile aleatoria X che ad ogni esito ω ∈ Ω (ossia ad ogni possibile esito del
fenomeno aleatorio) associa il valore X(ω): nell’esempio, ω = (ω1 , ω2 ) ∈ I6 × I6 e X(ω) = ω1 + ω2 .

3.1 Variabili aleatorie


Consideriamo uno spazio di probabilità (Ω, F , P ) e fissiamo d ∈ N. Dati H ⊆ Rd e una funzione X :
Ω −→ Rd , indichiamo con
(X ∈ H) := {ω ∈ Ω | X(ω) ∈ H} = X −1 (H)
la contro-immagine di H mediante X. Intuitivamente (X ∈ H) rappresenta l’insieme degli esiti ω (ossia,
gli stati del fenomeno aleatorio) tali che X(ω) ∈ H. Riprendendo l’esempio del lancio dei dadi, se H = {7}
allora (X ∈ H) rappresenta l’evento “il risultato della somma del lancio di due dadi è 7” ed è costituito da
tutte le coppie (ω1 , ω2 ) tali che ω1 + ω2 = 7. Nel caso d = 1, useremo anche le seguenti notazioni:

(X > c) := {ω ∈ Ω | X(ω) > c}, (X = c) := {ω ∈ Ω | X(ω) = c}, c ∈ R.

Inoltre, se X, Y sono due funzioni da (Ω, F , P ) a valori in Rd , scriviamo

(X = Y ) := {ω ∈ Ω | X(ω) = Y (ω)}.

Si noti che non è detto che (X ∈ H) sia un evento, ossia non è detto che (X ∈ H) ∈ F (a parte il caso
banale degli spazi di probabilità discreti, in cui assumiamo che F = P(Ω) e quindi tutti i sottoinsiemi di
Ω sono eventi). In particolare, senza ipotesi ulteriori non ha senso scrivere P (X ∈ H). D’altra parte nelle
applicazioni si è interessati a calcolare la probabilità di (X ∈ H): ciò giustifica la seguente definizione di
variabile aleatoria.

87
88 CAPITOLO 3. VARIABILI ALEATORIE

Definizione 3.1.1. Una variabile aleatoria (abbreviato in v.a.) su (Ω, F , P ) a valori in Rd è una funzione

X : Ω −→ Rd

tale che (X ∈ H) ∈ F per ogni H ∈ Bd : scriviamo X ∈ mF e diciamo anche che X è F -misurabile. Indi-
chiamo con mF + la classe delle funzioni F -misurabili e non-negative; inoltre bF è la classe delle funzioni
F -misurabili e limitate. Nel caso particolare in cui (Ω, F ) = (Rn , Bn ), X è semplicemente una funzione
Borel-misurabile.
Osservazione 3.1.2. In questo capitolo ci limiteremo a considerare v.a. a valori in Rd . Tuttavia è bene
conoscere anche la seguente definizione generale: dato uno spazio misurabile (E, E ), una variabile aleatoria
su (Ω, F , P ) a valori in E è una funzione
X : Ω −→ E
F -misurabile nel senso che X −1 (E ) ⊆ F ossia (X ∈ H) ∈ F per ogni H ∈ E .
Come abbiamo spiegato sopra, nel caso di spazi discreti la condizione di misurabilità è automaticamente
soddisfatta e ogni funzione X : Ω −→ Rd è una v.a. In generale, la condizione (X ∈ H) ∈ F fa sı̀ che P (X ∈ H)
sia ben definito e quindi si possa parlare della probabilità che X assuma valori nel Boreliano H.
Osservazione 3.1.3. [!] Se
X : Ω −→ Rd
è una funzione qualsiasi, H ⊆ Rd e (Hi )i∈I è una famiglia qualsiasi di sottoinsiemi di Rd , allora si ha
 
 c [  [
−1 c −1 −1 
X (H ) = X (H) , X  Hi  =
 X −1 (Hi ) .
i∈I i∈I

Come conseguenza, si ha che n o


σ (X) := X −1 (Bd ) = X −1 (H) | H ∈ Bd
è una σ -algebra, chiamata σ -algebra generata da X. Osserviamo che X ∈ mF se e solo se σ (X) ⊆ F .
Esempio 3.1.4. Consideriamo X : I6 −→ R definita da

1 se n è pari,


X(n) = 
0 se n è dispari.

Possiamo interpretare X come la v.a. che indica se il risultato del lancio di un dado è un numero pari o
dispari. Allora si ha
σ (X) = {∅, Ω, {2, 4, 6}, {1, 3, 5}}
ossia σ (X) contiene proprio gli eventi “significativi” per la v.a. X. Nei modelli probabilistici per le appli-
cazioni, σ (X) è chiamata la σ -algebra delle informazioni su X e viene utilizzata per rappresentare l’insieme
delle informazioni riguardanti il valore aleatorio X. Ciò si spiega, almeno parzialmente, col fatto che σ (X)
contiene gli eventi del tipo (X ∈ H) con H ∈ B: questi sono gli eventi “rilevanti” ai fini di studiare la
quantità aleatoria X, nel senso che conoscere la probabilità di questi eventi equivale a conoscere con quale
probabilità X assuma i propri valori.
Lemma 3.1.5. Sia H è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd . Se X −1 (H ) ⊆ F allora
X ∈ mF .
Dimostrazione. Sia
E = {H ∈ Bd | X −1 (H) ∈ F }.
Allora E è una σ -algebra e poiché E ⊇ H per ipotesi, allora E ⊇ σ (H ) = Bd da cui la tesi.
3.1. VARIABILI ALEATORIE 89

Corollario 3.1.6. Siano Xk : Ω −→ R con k = 1, . . . , d. Le seguenti proprietà sono equivalenti:

i) X := (X1 , . . . , Xd ) ∈ mF ;

ii) Xk ∈ mF per ogni k = 1, . . . , d;

iii) (Xk ≤ x) ∈ F per ogni x ∈ R e k = 1, . . . , d.

Dimostrazione. È semplice provare che i) implica ii); il viceversa segue dal Lemma 3.1.5, dal fatto che

d
\
((X1 , . . . , Xd ) ∈ H1 × · · · × Hd ) = (Xk ∈ Hk )
k=1

e H := {H1 × · · · × Hd | Hk ∈ B} è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd .


Infine, ii) e iii) sono equivalenti ancora per il Lemma 3.1.5, poiché la famiglia degli intervalli del tipo
] − ∞, x] genera B (cfr. Esercizio 2.4.7-iii)).

Presentiamo ora i primi semplici esempi di v.a., scrivendo anche esplicitamente la σ -algebra σ (X)
generata da X e l’immagine X(Ω) = {X(ω) | ω ∈ Ω} che è l’insieme dei valori possibili di X.

Esempio 3.1.7.

i) Dato c ∈ Rd , consideriamo la funzione costante X ≡ c. Si ha

σ (X) = {∅, Ω}

e quindi X è una v.a. In questo caso X(Ω) = {c} e ovviamente c rappresenta l’unico valore che X può
assumere. Dunque si tratta di una variabile “non proprio aleatoria”.

ii) Dato un evento A ∈ F , la funzione indicatrice di A è definita da



1 ω ∈ A,


X(ω) = 1A (ω) = 
0 ω ∈ Ac .

X è una v.a. poiché


σ (X) = {∅, A, Ac , Ω},
e in questo caso X(Ω) = {0, 1}.

iii) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. S che conta il
numero di successi fra le n prove: in altri termini
n
X
S(ω) = 1Ch (ω), ω ∈ Ω.
h=1

Con riferimento allo spazio canonico della Proposizione 2.3.30 si ha anche


n
X
S(ω) = ωh , ω ∈ Ω.
h=1

e, ricordando la formula (2.5.1), abbiamo (S = k) = Ωk con k = 0, 1, . . . , n. Quindi σ (X) contiene ∅ e


tutte le unioni degli eventi Ω0 , . . . , Ωn . In questo caso S(Ω) = {0, 1, . . . , n}.
90 CAPITOLO 3. VARIABILI ALEATORIE

iv) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. T che indica il
“primo tempo” di successo fra le n prove: in altri termini

T (ω) = min{h | ω ∈ Ch }, ω ∈ Ω,

e poniamo per convenzione min ∅ = n + 1. In questo caso T (Ω) = {1, . . . , n, n + 1}. Con riferimento allo
spazio canonico della Proposizione 2.3.30, si ha anche

T (ω) = min{h | ωh = 1}, ω ∈ Ω.

σ (X) contiene ∅ e tutte le unioni degli eventi (T = 1), . . . , (T = n + 1). Notiamo che

(T = 1) = C1 , (T = n + 1) = C1c ∩ · · · ∩ Cnc

e, per 1 < k ≤ n,
(T = k) = C1c ∩ · · · ∩ Ck−1
c
∩ Ck .
Proposizione 3.1.8. Valgono le seguenti proprietà delle funzioni misurabili:
i) siano
X : Ω −→ Rd , f : Rd −→ Rn ,
con X v.a. e f ∈ mBd . Allora si ha
σ (f ◦ X) ⊆ σ (X), (3.1.1)
e di conseguenza f (X) ∈ mF ;
ii) se (Xn )n∈N è una successione in mF allora anche

inf Xn , sup Xn , lim inf Xn , lim sup Xn ,


n n n→∞ n→∞

appartengono a mF .
Dimostrazione. La (3.1.1) segue da f −1 (Bn ) ⊆ Bd e il fatto che f (X) ∈ mF ne è immediata conseguenza.
La ii) segue dal fatto che, per ogni a ∈ R, si ha
  [ ! \
inf Xn < a = (Xn < a), sup Xn < a = (Xn < a),
n n
n n

e
lim inf Xn = sup inf Xk , lim sup Xn = inf sup Xk .
n→∞ n k≥n n→∞ n k≥n

Osservazione 3.1.9. Dalla i) della Proposizione 3.1.8 segue in particolare che se X, Y ∈ mF e λ ∈ R allora
X + Y , XY , λX ∈ mF . Infatti basta osservare che X + Y , XY e λX sono funzioni continue (e quindi B-
misurabili) della coppia (X, Y ) che è una v.a. per il Corollario 3.1.6.
Inoltre, per ogni successione (Xn )n∈N di v.a. si ha

A := {ω ∈ Ω | esiste lim Xn (ω)} = {ω ∈ Ω | lim sup Xn (ω) = lim inf Xn (ω)} ∈ F . (3.1.2)
n→∞ n→∞ n→∞

Definizione 3.1.10 (Convergenza quasi certa). Se A in (3.1.2) è quasi certo, ossia P (A) = 1, allora si dice
che (Xn )n∈N converge quasi certamente.
Ricordiamo dall’Osservazione 2.4.3 che uno spazio (Ω, F , P ) è completo se N ⊆ F , ossia gli insiemi
trascurabili (e quasi certi) sono eventi. L’ipotesi di completezza è spesso utile come mostrano i seguenti
esempi.
3.1. VARIABILI ALEATORIE 91

Osservazione 3.1.11 (Proprietà quasi certe e completezza). Consideriamo una “proprietà” P = P(ω)
la cui validità dipende da ω ∈ Ω: per fissare le idee, nell’Osservazione 3.1.9 P(ω)=“esiste lim Xn (ω)”.
n→∞
Diciamo che P è quasi certa (o vale q.c.) se l’insieme

A := {ω ∈ Ω | P(ω) è vera}

è quasi certo: ciò significa che esiste C ∈ F tale che P (C) = 1 e C ⊆ A o, equivalentemente, esiste N
trascurabile tale che P(ω) è vera per ogni ω ∈ Ω \ N .
Nel caso di uno spazio completo, P vale q.c. se e solo se P (A) = 1. Se lo spazio non è completo, non
è detto che A ∈ F e quindi P (A) non è definita. Nel caso particolare dell’Osservazione 3.1.9, il fatto che
A ∈ F è conseguenza della (3.1.2) e del fatto che le Xn sono v.a.
Definizione 3.1.12 (Uguaglianza quasi certa). Date due funzioni (non necessariamente variabili aleatorie)

X, Y : Ω −→ Rd ,
q.c.
diciamo che X = Y quasi certamente, e scriviamo X = Y q.c. (o X = Y ), se l’insieme (X = Y ) è quasi certo.
Osservazione 3.1.13. Per l’Osservazione 2.1.18, in uno spazio completo
q.c.
X=Y ⇐⇒ P (X = Y ) = 1.

Senza l’ipotesi di completezza, non è detto che (X = Y ) sia un evento (a meno che, per esempio, X e Y non
siano entrambe v.a.). Di conseguenza P (X = Y ) non è ben definita e, senza l’ipotesi di completezza, non è
corretto affermare che X = Y q.c. equivale a P (X = Y ) = 1. Notiamo anche che, in uno spazio completo,
se X = Y q.c. e Y è una v.a. allora anche X è una v.a.: ciò non è necessariamente vero se lo spazio non è
completo.

3.1.1 Variabili aleatorie e distribuzioni


Sia
X : Ω −→ Rd
una variabile aleatoria sullo spazio di probabilità (Ω, F , P ). Ad X è associata in modo naturale la distribu-
zione definita da
µX (H) := P (X ∈ H), H ∈ Bd . (3.1.3)
È facile verificare che µX in (3.1.3) è una distribuzione, ossia una misura di probabilità su Rd : infatti si ha
µX (Rd ) = P (X ∈ Rd ) = 1 e inoltre, per ogni successione disgiunta (Hn )n∈N in Bd , si ha
∞   ∞  ∞ 
]   ]  ] 
−1 −1
µX  Hn  = P X  Hn  = P  X (Hn ) =
      
n=1 n=1 n=1

(per la σ -additività di P )

X   X∞
= P X −1 (Hn ) = µX (Hn ).
n=1 n=1

Definizione 3.1.14 (Legge, CDF e densità di una v.a.). Data una v.a.

X : Ω −→ Rd

su (Ω, F , P ), la distribuzione µX definita da (3.1.3) è detta distribuzione (o legge) di X. Per indicare che X
ha distribuzione µX scriveremo
X ∼ µX .
92 CAPITOLO 3. VARIABILI ALEATORIE

La funzione definita da1


FX (x) := P (X ≤ x), x ∈ Rd ,
è detta funzione di ripartizione o CDF di X. Notiamo che FX è la CDF di µX . Infine, se µX ∈ AC con densità
γX , diremo che X è assolutamente continua e ha densità γX : in tal caso vale
Z
P (X ∈ H) = γX (x)dx, H ∈ Bd .
H

Per comprendere la definizione precedente, suggeriamo di esaminare nel dettaglio il seguente

Esempio 3.1.15. [!] Sullo spazio di probabilità (Ω, F , P ) ≡ (R, B, Expλ ), dove λ > 0 è fissato, consideriamo
le v.a. 
−1 se ω ≤ 2,

2

X(ω) = ω , Y (ω) =  Z(ω) = ω, ω ∈ R.
1
 se ω > 2,

Per determinare la legge di X, calcoliamo la relativa CDF: per x < 0 si ha P (X ≤ x) = 0, mentre per x ≥ 0 si
ha
Z √x √
2
FX (x) = P (X ≤ x) = Expλ ({ω ∈ R | ω ≤ x}) = λe−λt dt = 1 − e−λ x .
0

Ne segue che X è assolutamente continua con densità



dF (x) λe−λ x
γX (x) = X = √ 1R≥0 (x).
dx 2 x

La v.a. Y assume solo due valori: −1 e 1. Inoltre


Z 2
P (Y = −1) = Expλ (] − ∞, 2]) = λe−λt dt = 1 − e−2λ ,
0
Z +∞
P (Y = 1) = Expλ (]2, +∞]) = λe−λt dt = e−2λ .
2

Ne segue che Y è una v.a. discreta con legge


 
Y ∼ 1 − e−2λ δ−1 + e−2λ δ1 .

Per esercizio, provare che Z ∼ Expλ .

Osservazione 3.1.16 (Esistenza). [!] Assegnata una distribuzione µ su Rd , esiste una v.a. X su uno spazio
di probabilità (Ω, F , P ) tale che µ = µX . Basta infatti considerare (Rd , Bd , µ) e la variabile aleatoria identità
X(ω) ≡ ω, per ogni ω ∈ Rd . D’altra parte, la scelta di (Ω, F , P ) e X non è unica: in altri termini, variabili
aleatorie differenti, anche definite su spazi di probabilità diversi, possono avere la medesima distribuzione.
Per esempio, consideriamo:

i) Lancio di un dado: Ω1 = I6 := {1, 2, 3, 4, 5, 6} con probabilità uniforme e X(ω) = ω;

ii) Lancio di due dadi: Ω2 = I6 × I6 con probabilità uniforme e Y (ω1 , ω2 ) = ω1 .

Allora X e Y hanno la stessa legge (che è la distribuzione uniforme discreta UnifI6 ) ma sono variabili aleatorie
differenti e definite su spazi di probabilità diversi.
d
1 Al solito, (X ≤ x) = T (X ≤ x ).
k k
k=1
3.1. VARIABILI ALEATORIE 93

Dunque la legge di una v.a non fornisce la conoscenza completa della v.a. stessa. Conoscere la distri-
buzione di una v.a. X significa conoscere “come è distribuita la probabilità fra i vari valori che X può
assumere” e questo, per molte applicazioni, è più che sufficiente; anzi, spesso i modelli probabilistici sono
definiti a partire dalla distribuzione (o, equivalentemente, assegnando la CFD oppure la densità, nel caso
assolutamente continuo) piuttosto che attraverso la definizione esplicita dello spazio di probabilità e della
v.a. considerata.
Definizione 3.1.17 (Uguaglianza in legge). Siano X, Y variabili aleatorie (non necessariamente sullo stesso
spazio di probabilità). Diciamo che X e Y sono uguali in legge (o distribuzione) se µX = µY . In tal caso,
scriviamo
d
X = Y.
Esercizio 3.1.18. Provare le seguenti affermazioni:
q.c. d
i) se X = Y allora X = Y ;
d
ii) esistono X, Y v.a. definite sullo stesso spazio (Ω, F , P ) tali che X = Y ma P (X = Y ) < 1;
d d
iii) se X = Y e f ∈ mB allora f ◦ X = f ◦ Y .
Soluzione.
i) Utilizziamo il fatto che P (X = Y ) = 1 e, ricordando l’Esercizio 2.1.28, per ogni z abbiamo

P (X ∈ H) = P ((X ∈ H) ∩ (X = Y )) = P ((Y ∈ H) ∩ (X = Y )) = P (Y ∈ H).

ii) In uno spazio (Ω, F , P ) siano A, B ∈ F tali che P (A) = P (B). Allora le v.a. indicatrici X = 1A e Y = 1B hanno entrambe
distribuzione di Bernoulli uguale a
P (A)δ1 + (1 − P (A)) δ0 ,
poiché assumono solo i valori 1 e 0 rispettivamente con probabilità P (A) e 1 − P (A). Per quanto riguarda la CDF, si ha



 0 se x < 0,
c ) se 0 ≤ x < 1,

FY (x) = FX (x) = P (X ≤ x) =  P (A



1 se x ≥ 1.

iii) Per ogni H ∈ B si ha


    
P (f ◦ X)−1 (H) = P X −1 f −1 (H) =

d
(poiché per ipotesi X = Y )
  
= P Y −1 f −1 (H) = P ((f ◦ Y )−1 (H)).

Esaminiamo ora alcuni esempi di distribuzioni di v.a. con particolare riferimento al caso di v.a. assolu-
tamente continue e discrete. Abbiamo già detto che X è assolutamente continua se
Z
P (X ∈ H) = γX (x)dx, H ∈ B,
H
R
dove la densità γX è una funzione B-misurabile, non-negativa (ossia γX ∈ mB + ) e tale che γX (x)dx = 1.
Rd
Diciamo che una v.a. X è discreta se la sua legge è una distribuzione discreta (cfr. Definizione 2.4.15),
ossia è una combinazione finita o numerabile di Delta di Dirac:
X
µX = pk δxk , (3.1.4)
k≥1
94 CAPITOLO 3. VARIABILI ALEATORIE

dove (xk ) è una successione di punti distinti di Rd e (pk ) è una successione di numeri non-negativi con
somma pari a uno. Se µ̄X indica la funzione di distribuzione di µX , allora si ha

P (X = xk ) = µ̄X (xk ) = pk , k ∈ N.

Osservazione 3.1.19. I grafici della densità γX (nel caso di distribuzioni assolutamente continue) e della
funzione di distribuzione µ̄X (nel caso di distribuzioni discrete) danno una rappresentazione semplice e
immediata di come è distribuita la probabilità fra i valori possibili di X: illustriamo questo fatto nella
sezione seguente con alcuni esempi.

3.1.2 Esempi di variabili aleatorie discrete


Esempio 3.1.20 (Binomiale). [!] Per una v.a S con distribuzione binomiale, S ∼ Binn,p (si veda l’Esempio
2.4.17-iii)), si ha !
n k
P (S = k) = p (1 − p)n−k , k = 0, 1, . . . , n. (3.1.5)
k
S rappresenta il “numero di successi in n prove ripetute e indipendenti con probabilità p” (cfr. Esempio
3.1.7-iii)). Esempi di variabili aleatori binomiali sono:
i) con riferimento all’Esempio 2.2.17, in cui si considera l’estrazione con reinserimento da un’urna che
contiene b palline bianche e r palline rosse, la v.a. S che rappresenta il “numero di palline bianche
estratte in n estrazioni” ha distribuzione Binn, b ;
b+r

ii) con riferimento all’Esempio 2.3.43, in cui si suppone di disporre a caso n oggetti in r scatole, la v.a. S
che rappresenta il “numero di oggetti nella prima scatola” ha distribuzione Binn, 1 .
r

In Figura 3.1, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Binn,p con
n = 40 e p = 10%: tale grafico permette di visualizzare molto chiaramente i valori possibili di X, ossia X(Ω),
in ascissa e le corrispondenti probabilità in ordinata.

Figura 3.1: Grafico della funzione di distribuzione di una variabile aleatoria binomiale

Esempio 3.1.21 (Overbooking). Supponiamo che la probabilità che un viaggiatore non si presenti all’im-
barco all’aeroporto sia pari al 10%, indipendentemente dagli altri viaggiatori. Quante prenotazioni per
un volo da 100 passeggeri si possono accettare volendo che la probabilità che tutti i viaggiatori presenti
all’imbarco trovino posto sia maggiore del 99%?
3.1. VARIABILI ALEATORIE 95

Soluzione. Supponiamo di accettare n prenotazioni e consideriamo la v.a. X “numero di passeggeri presenti all’imbarco”: allora
9 è la probabilità che un viaggiatore si presenti. Dobbiamo determinare il valore massimo di n tale che
X ∼ Binn,p dove p = 10

n
X
P (X > 100) = P (X = k) < 1%.
k=101

Si verifica direttamente2 che P (X > 100) = 0.57% se n = 104 e P (X > 100) = 1.67% se n = 105. Dunque possiamo accettare
104 prenotazioni.
λ
Esempio 3.1.22 (Poisson). Sia λ > 0 una costante fissata. Per ogni n ∈ N, n ≥ λ, poniamo qn = n e
consideriamo Xn ∼ Binn,qn . Per ogni k = 0, 1, . . . , n, poniamo

 k 
λ n−k
!
n k n! λ

pn,k := P (Xn = k) = qn (1 − qn )n−k = 1− (3.1.6)
k k!(n − k)! n n
 n
λ
λk n(n − 1) · · · (n − k + 1) 1 − n
= · ·
nk
k!  k
1− λ n

e osserviamo che
e−λ λk
lim pn,k = =: pk , k ∈ N0 .
n→∞ k!
Ritroviamo quindi la distribuzione di Poisson

X
Poissonλ = pk δk
k=0

dell’Esempio 2.4.17-iv).
Intuitivamente X ∼ Poissonλ può essere pensata come il limite di una successione di v.a. Xn ∼ Binn,qn .
In altri termini, la distribuzione di Poisson di parametro np approssima per n → +∞ (e p → 0+ ) la distribu-
zione binomiale Binn,p e pertanto scriviamo

Binn,p ≈ Poissonnp n → +∞, p → 0+ .

Questo risultato verrà formalizzato in seguito nell’Esempio 4.3.12. Notiamo che nella pratica, per n gran-
de, il valore di pn,k in (3.1.6) è “difficile” da calcolare a causa della presenza dei fattoriali3 nel coefficien-
te binomiale nk . Pertanto risulta utile utilizzare la distribuzione di Poisson come approssimazione della

binomiale.
In Figura 3.2, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Poissonλ
con λ = 3.

Esempio 3.1.23. Un macchinario produce bulloni e per ogni bullone prodotto c’è la probabilità dello 0.01%
che sia difettoso (indipendentemente dagli altri). Calcolare la probabilità che in una scatola da 1000 bulloni
ce ne siano meno di 3 difettosi.
2 Mostreremo più avanti (cfr. Osservazione 4.4.8) come è possibile semplificare il calcolo di P (X > 100) nel caso di X ∼ Bin
n,p con n
grande.
3 Per esempio 70! > 10100 . Per calcolare n! per n ≫ 1 si può utilizzare l’approssimazione di Stirling

√  n
n
n! ≈ 2πn .
e
96 CAPITOLO 3. VARIABILI ALEATORIE

Figura 3.2: Grafico della funzione di distribuzione di una variabile aleatoria di Poisson

Soluzione. La v.a. X che indica il numero di bulloni difettosi in una scatola da 1000 bulloni, ha distribuzione binomiale
Bin1000,p dove p = 0.01% è la probabilità che il singolo bullone sia difettoso. Allora

2 2 !
X X 1000 k
P (X < 3) = P (X = k) = p (1 − p)1000−k ≈ 99.9846%.
k
k=0 k=0

Utilizzando l’approssimazione con una v.a. di Poisson, diciamo Y ∼ Poissonλ dove λ = np = 0.1, otteniamo
2 2
X X λk
P (Y < 3) = P (Y = k) = e−λ ≈ 99.9845%.
k!
k=0 k=0

Esempio 3.1.24 (Geometrica). Per una v.a T con distribuzione geometrica di parametro p, T ∼ Geomp con
p ∈ ]0, 1], si ha4
P (T = k) = p(1 − p)k−1 , k ∈ N.
La v.a. T rappresenta il “primo tempo di successo” in una famiglia di prove ripetute e indipendenti con
probabilità p: al riguardo si ricordi l’Esempio 3.1.7-iv) e l’Esempio 2.3.31.
Proviamo ora una proprietà fondamentale della distribuzione geometrica, nota come proprietà di assenza
di memoria.
Teorema 3.1.25. Se T ∼ Geomp si ha

P (T > n) = (1 − p)n , n ∈ N, (3.1.7)

e vale la seguente proprietà di assenza di memoria:

P (T > n + k | T > n) = P (T > k), k, n ∈ N. (3.1.8)

Viceversa, se T è una v.a. a valori in N e vale la (3.1.8) allora T ∼ Geomp dove p = P (T = 1).
Dimostrazione. Se T ∼ Geomp allora per ogni n ∈ N vale

X ∞
X ∞
X
k−1
P (T > n) = P (T = k) = p(1 − p) = p(1 − p)h
k=n+1 k=n+1 h=n
4 Per convenzione poniamo 00 = 1.
3.1. VARIABILI ALEATORIE 97


X 1
= p(1 − p)n (1 − p)h = p(1 − p)n = (1 − p)n ,
1 − (1 − p)
h=0

e questo prova la (3.1.7). Allora, poiché (T > k + n) ⊆ (T > n), si ha


P (T > k + n) (1 − p)k+n
P (T > n + k | T > n) = = = (1 − p)k = P (T > k).
P (T > n) (1 − p)n
Viceversa, supponiamo che T sia una v.a. a valori in N per cui vale la (3.1.8). Notiamo che la (3.1.8) ha
senso sotto l’ipotesi implicita che P (T > n) > 0 per ogni n ∈ N e per k = 1 si ha
P (T > n + 1)
P (T > 1) = P (T > n + 1 | T > n) =
P (T > n)
da cui
P (T > n + 1) = P (T > n)P (T > 1)
e quindi
P (T > n) = P (T > 1)n .
Inoltre, posto p = P (T = 1) = 1 − P (T > 1), si ha
P (T = k) = P (T > k − 1) − P (T > k) = P (T > 1)k−1 − P (T > 1)k
= P (T > 1)k−1 (1 − P (T > 1)) = p(1 − p)k−1 ,
che prova la tesi.
Corollario 3.1.26. Siano T ∼ Geomp e n ∈ N. Vale
P (T = n + k | T > n) = P (T = k), k ∈ N,
ossia la legge della v.a. T rispetto alla probabilità P è uguale alla legge della v.a. (T − n) rispetto alla probabilità
condizionata P (· | T > n).
Dimostrazione. Si ha
P (T = n + k | T > n) = P (T > n + k − 1 | T > n) − P (T > n + k | T > n) =
(per il Teorema 3.1.25)
= P (T > k − 1) − P (T > k) = P (T = k).
Esercizio 3.1.27. In un gioco del lotto, una volta alla settimana si estraggono 5 numeri da un’urna che
contiene 90 palline numerate. Qual è la probabilità che il numero 13 non venga estratto per 52 settimane
consecutive? Sapendo che il 13 non è stato estratto per 52 settimane, qual è la probabilità che non sia
estratto per la 53esima settimana consecutiva?
|C | 5 la probabilità che in un’estrazione venga estratto il 13. Se T indica la prima
Soluzione. Indichiamo con p = |C89,4 | = 90
90,5
settimana in cui viene estratto il 13 allora per la (3.1.7) abbiamo
P (T > 52) = (1 − p)52 ≈ 5.11%
Equivalentemente avremmo potuto considerare la v.a. binomiale X ∼ Bin52,p che indica il numero di volte in cui, fra 52
estrazioni, viene estratto il 13 e calcolare !
52 0
P (X = 0) = p (1 − p)52
0
che dà lo stesso risultato. Per la seconda domanda, dobbiamo calcolare
85
P (T > 53 | T > 52) = P (T > 1) = ,
90
dove la prima uguaglianza segue dalla (3.1.8).
98 CAPITOLO 3. VARIABILI ALEATORIE

Esempio 3.1.28 (Ipergeometrica). Una variabile aleatoria X con distribuzione ipergeometrica rappresenta
il numero di palline bianche estratte in n estrazioni senza reimmissione da un’urna che contiene N palline
di cui b bianche: al riguardo si ricordi l’Esempio 2.2.19. In particolare, siano n, b, N ∈ N con n, b ≤ N . Allora
X ∼ Ipern,b,N se5
b N −b
k n−k
P (X = k) = N
k = 0, 1, . . . , n ∧ b. (3.1.9)
n

Esercizio 3.1.29. Sia (bN )N ∈N una successione in N0 tale che

bN
lim = p ∈ ]0, 1[.
N →∞ N

Se γN , N ∈ N, indica la funzione di distribuzione ipergeometrica di parametri n, bN , N , e γ indica la


funzione di distribuzione binomiale di parametri n e p, allora si ha

lim Ipern,bN ,N ({k}) = Binn,p ({k})


N →∞

per ogni n ∈ N e k = 0, 1, . . . , n. Intuitivamente, se il numero di palline bianche b e il numero totale di


palline N sono grandi, allora la reimmissione o meno di una pallina dopo l’estrazione modifica in modo
trascurabile la composizione dell’urna.
Soluzione. È un calcolo diretto: per maggiori dettagli si veda, per esempio, l’Osservazione 1.40 in [15].

3.1.3 Esempi di variabili aleatorie assolutamente continue


Esempio 3.1.30 (Esponenziale). Una v.a. con distribuzione esponenziale X ∼ Expλ gode di una proprietà
di assenza di memoria analoga a quella vista nel Teorema 3.1.25 per la distribuzione geometrica:

P (X > t + s | X > s) = P (X > t) , t, s ≥ 0. (3.1.10)

Infatti, poiché (X > t + s) ⊆ (X > s), si ha

P (X > t + s)
P (X > t + s | X > s) = =
P (X > s)

(per la (2.4.9))

e−λ(t+s)
= = e−λt = P (X > t) .
e−λs
La distribuzione esponenziale appartiene ad un’ampia famiglia di distribuzioni che introduciamo nel’E-
sempio 3.1.34.

Diamo un semplice ma utile risultato.

Proposizione 3.1.31 (Trasformazioni lineari e densità). Sia X una v.a. in Rd , assolutamente continua con
densità γX . Allora per ogni matrice A invertibile, di dimensione d × d, e b ∈ Rd , la v.a. Z := AX + b è
assolutamente continua con densità
1  
γZ (z) = γX A−1 (z − b) .
|det A|
5 Per convenzione poniamo n = 0 per k > n.
k
3.1. VARIABILI ALEATORIE 99

Dimostrazione. Per ogni H ∈ Bd si ha


  Z
−1
P (Z ∈ H) = P X ∈ A (H − b) = γX (x)dx =
A−1 (H−b)

(col cambio di variabili z = Ax + b)


Z
1  
= γX A−1 (z − b) dz
|det A| H

e questo prova la tesi.

Esempio 3.1.32 (Uniforme). Consideriamo un esempio di v.a. con distribuzione uniforme su K ∈ Bd con
misura di Lebesgue positiva come nell’Esempio 2.4.22-i). In particolare, sia K il triangolo in R2 di ver-
tici (0, 0), (1, 0) e (0, 1). Sia (X, Y ) ∼ UnifK , con densità γ(X,Y ) (x, y) = 21K (x, y): con la Proposizione 3.1.31
possiamo facilmente calcolare la densità di (X + Y , X − Y ). Infatti, essendo
! ! !
X +Y X 1 1
=A , A= ,
X −Y Y 1 −1

si ha det A = −2 e !!
2 z
γ(X+Y ,X−Y ) (z, w) = 1K A−1 = 1AK (z, w)
| det A| w
dove AK è il triangolo di vertici6 (0, 0), (1, 1) = A · (1, 0) e (1, −1) = A · (0, 1).

Esempio 3.1.33 (Normale). Ricordiamo che X ha distribuzione normale di parametri µ ∈ R e σ > 0, ossia
X ∼ Nµ,σ 2 , se
Z
1 1 x−µ 2
P (X ∈ H) = √ e− 2 ( σ ) dx, H ∈ B.
H 2πσ 2

Notiamo che P (X ∈ H) > 0 se e solo se Leb(H) > 0, essendo la densità un esponenziale e quindi strettamente
positiva. Ovviamente P (X = x) = 0 per ogni x ∈ R perché X è assolutamente continua.
Anche se X può assumere un qualsiasi valore reale, è bene sapere che la probabilità è sostanzialmente
concentrata intorno al valore µ. Infatti, si ha

P (|X − µ| ≤ σ ) ≈ 68.27%
P (|X − µ| ≤ 2σ ) ≈ 95.45% (3.1.11)
P (|X − µ| ≤ 3σ ) ≈ 99.73%

e questo significa che i valori estremi (neanche tanto lontani da µ) sono molto improbabili (si veda la7
Figura 3.3). Per questo motivo si usa dire che la densità Gaussiana ha le “code sottili”.
A prima vista, il fatto che i valori in (3.1.11) siano indipendenti da µ e σ può sembrare un po’ strano.
X−µ
D’altra parte P (|X − µ| ≤ λσ ) = P (|Z| ≤ λ) dove Z = σ e per la Proposizione 3.1.31 si ha

X ∼ Nµ,σ 2 =⇒ Z ∼ N0,1 .

In altre termini, si può sempre standardizzare una v.a. normale con una semplice trasformazione lineare.
!
6 Qui A · (1, 0) ≡ A 1 .
0
7 La Figura 3.3 è tratta da
commons.wikimedia.org/wiki/File:Standard deviation diagram.svg♯/media/File:Standard deviation diagram.svg
100 CAPITOLO 3. VARIABILI ALEATORIE

0.4
0.3
0.2
34.1% 34.1%
0.1

2.1% 2.1%
0.1% 13.6% 13.6% 0.1%
0.0

3 2 1 0 1 2 3

Figura 3.3: Probabilità nella distribuzione normale

Notiamo che la densità Gaussiana di Z ∼ N0,1 è una funzione pari e quindi, per ogni λ > 0 si ha
P (Z ≥ −λ) = P (−Z ≤ λ) = P (Z ≤ λ)
e di conseguenza
P (|Z| ≤ λ) = P (Z ≤ λ) − P (Z ≤ −λ)
= P (Z ≤ λ) − (1 − P (Z ≥ −λ))
= 2FZ (λ) − 1, (3.1.12)
dove FZ indica la CDF di Z.
Esempio 3.1.34 (Gamma). Ricordiamo la definizione della funzione Gamma di Eulero:
Z +∞
Γ (α) := xα−1 e−x dx, α > 0. (3.1.13)
0

Osserviamo che Γ assume valori positivi, Γ (1) = 1 e Γ (α + 1) = αΓ (α) poiché, integrando per parti, si ha
Z +∞ Z +∞
Γ (α + 1) = xα e−x dx = αxα−1 e−x dx = αΓ (α).
0 0

Ne segue in particolare che Γ (n + 1) = n! per ogni n ∈ N. Un altro valore notevole si ha per α = 21 :


  Z +∞ e−x
Γ 12 = √ dx =
0 x
(col cambio di variabile x = y 2 )
Z +∞ √
2
=2 e−y dy = π.
0

Notiamo anche che, fissato λ > 0, col cambio di variabile x = λt in (3.1.13) otteniamo
Z +∞
Γ (α) := λα t α−1 e−λt dt, α > 0.
0

Ne segue che la funzione


λα α−1 −λt
γα,λ (t) := t e 1R>0 (t), t ∈ R, (3.1.14)
Γ (α)
è una densità per ogni α > 0 e λ > 0.
3.1. VARIABILI ALEATORIE 101

0.20

0.15

0.15

0.10
0.10

0.05
0.05

5 10 15 20 5 10 15 20

Figura 3.4: A sinistra: grafico della densità γα,2 per α = 1 (linea continua), α = 4 (linea tratteggiata) α = 6
(linea punteggiata). A destra: grafico della densità γ2,λ per λ = 12 (linea continua), λ = 41 (linea tratteggiata)
λ = 61 (linea punteggiata).

Definizione 3.1.35. La distribuzione con densità γα,λ in (3.1.14) è detta distribuzione Gamma di parametri
α, λ > 0:
λα
Z
Gammaα,λ (H) = t α−1 e−λt dt, H ∈ B.
Γ (α) H∩R>0

Notiamo che la distribuzione Esponenziale è un caso particolare della Gamma con α = 1:

Gamma1,λ = Expλ .

La distribuzione Gamma gode della seguente proprietà di invarianza di scala:

Lemma 3.1.36. Se X ∼ Gammaα,λ e c > 0 allora cX ∼ Gammaα, λ . In particolare λX ∼ Gammaα,1 .


c

Dimostrazione. Utilizziamo la funzione di ripartizione per determinare la distribuzione di cX:


y
λα e−λt
Z
c
P (cX ≤ y) = P (X ≤ y/c) = dt =
0 Γ (α)t 1−α

(col cambio di variabile x = ct)

y λ
λα e − c x
Z
= dx = Gammaα, λ (] − ∞, y]).
0 cα Γ (α)x1−α c
102 CAPITOLO 3. VARIABILI ALEATORIE

3.1.4 Altri esempi di variabili aleatorie notevoli


Esempio 3.1.37 (Distribuzione χ2 ). Sia X ∼ N0,1 . Vogliamo determinare la distribuzione della v.a. Z = X 2
tramite lo studio della sua CDF FZ . Poiché Z ≥ 0 si ha FZ (x) = 0 per x ≤ 0, mentre per x > 0 si ha
 √ √ 
FZ (x) = P (X 2 ≤ x) = P − x ≤ X ≤ x =

(per simmetria)

Z x y2 √
1  
=2 √ e− 2 dy = 2 FX ( x) − FX (0)
0 2π

dove FX è la CDF di X. Ne risulta che FZ è assolutamente continua e quindi per il Teorema 2.4.33 la densità
di Z è data da
d d √ √ 1 1 x
FZ (x) = 2 FX ( x) = FX′ ( x) √ = √ e− 2 , x > 0.
dx dx x 2πx
Riconosciamo allora che
Z ∼ Γ1,1 .
2 2

La distribuzione Γ 1 , 1 viene detta distribuzione chi-quadro ed a volte è indicata col simbolo χ2 .


2 2

Proposizione 3.1.38. Siano


X : Ω −→ I e f : I −→ J
una v.a. sullo spazio (Ω, F , P ) a valori nell’intervallo reale I e una funzione continua e monotona stret-
tamente crescente (quindi invertibile) a valori nell’intervallo reale J. Allora la CDF della v.a. Y := f (X)

FY = FX ◦ f −1 (3.1.15)
dove FX indica la CDF di X.

Dimostrazione. La (3.1.15) segue semplicemente da


 
P (Y ≤ y) = P (f (X) ≤ y) = P X ≤ f −1 (y) = FX (f −1 (y)), y ∈ J,

dove nella seconda uguaglianza abbiamo usato il fatto che f è monotona crescente.

Esercizio 3.1.39. Determinare la densità di Y := eX dove X ∼ Unif[0,1] .

Corollario 3.1.40. [!] Se X è una v.a. a valori in un intervallo I con CDF FX continua e monotona
strettamente crescente su I, allora
FX (X) ∼ Unif[0,1] . (3.1.16)

Dimostrazione. Sia Y := FX (X). Chiaramente si ha FY (y) = 0 se y ≤ 0 e FY (y) = 1 se y ≥ 1 poiché FX assume


valori in [0, 1] per definizione ed è continua. Inoltre per la Proposizione 3.1.38 si ha FY (y) = y se 0 < y < 1,
da cui la tesi.

Il corollario precedente si applica per esempio a X ∼ Nµ,σ 2 con I = R e a X ∼ Gammaα,λ con I = R>0 .
   
1 1
Esercizio 3.1.41. Sia X ∼ 2 δ0 + Unif[0,1] . Si provi che FX (X) ∼ 2 δ 1 + Unif[ 1 ,1] e quindi l’ipotesi di
2 2
continuità di FX nel Corollario 3.1.40 non può essere rimossa.
3.1. VARIABILI ALEATORIE 103

Esempio 3.1.42. La Proposizione 3.1.38 viene solitamente utilizzata per costruire o simulare una v.a. con
assegnata CDF a partire da una v.a. uniforme. Infatti, se Y ∼ Unif[0,1] e F è una CDF monotona strettamente
crescente, allora la v.a.
X := F −1 (Y )
ha CDF uguale a F.
Per esempio, supponiamo di voler costruire una v.a. esponenziale a partire da una v.a. uniforme:
ricordando che
F(x) = 1 − e−λx , x ∈ R,
è la CDF della distribuzione Expλ , si ha
1
F −1 (y) = − log(1 − y), y ∈ ]0, 1[.
λ
Allora, per la Proposizione 3.1.38, se Y ∼ Unif]0,1[ si ha
1
− log(1 − Y ) ∼ Expλ .
λ
Il Corollario 3.1.40, e in particolare la (3.1.16), fornisce un metodo per generare al computer numeri aleatori
con un’assegnata CDF o densità a partire da numeri aleatori con distribuzione Unif[0,1] .
Il seguente risultato estende la Proposizione 3.1.31.
Proposizione 3.1.43. Se X ∈ AC è una v.a. reale con densità γX e f ∈ C 1 con f ′ , 0 allora Y := f (X) ∈ AC e
ha densità
γ (f −1 )
γY = X . (3.1.17)
f ′ (f −1 )
Dimostrazione. Ricordiamo anzitutto che le ipotesi su f implicano che f è invertibile ed esiste
 ′ 1
f −1 = ′ −1 . (3.1.18)
f (f )
Inoltre per ogni H ∈ B si ha
  Z
P (Y ∈ H) = P X ∈ f −1 (H) = γX (x)dx =
f −1 (H)

(col cambio di variabili y = f (x))


Z    ′
= γX f −1 (y) f −1 (y) dy =
H

(per la (3.1.18) e con γY definita come in (3.1.17))


Z
= γY (y)dy,
H

e questo prova che Y ∈ AC con densità γY in (3.1.17). Si noti che se f è monotona strettamente crescente
allora f ′ > 0 e il valore assoluto nella (3.1.17) è inutile. Tuttavia il risultato è valido anche per f monotona
strettamente decrescente e in tal caso il valore assoluto è necessario.
Esempio 3.1.44 (Distribuzione log-normale). Siano X ∼ N0,1 e f (x) = ex . Allora per la (3.1.17) la densità
della v.a. Y = eX è
1 (log y)2
γY (y) = √ e− 2 , y ∈ R>0 . (3.1.19)
y 2π
La funzione γY in (3.1.19) è detta densità della distribuzione log-normale: si noti che se Y ha distribuzione
log-normale allora log Y ha distribuzione normale.
104 CAPITOLO 3. VARIABILI ALEATORIE

Esempio 3.1.45 (Distribuzione normale bidimensionale). Siano X e Y v.a. che rappresentano la varia-
zione della temperatura a Bologna dall’inizio alla fine, rispettivamente, dei mesi di settembre e ottobre.
Assumiamo che (X, Y ) abbia densità normale bidimensionale

1 1 −1
γ(x, y) = √ e− 2 ⟨C (x,y),(x,y)⟩ , (x, y) ∈ R2
2π det C
dove !
2 1
C= .
1 3
Determiniamo:

i) P (Y < −1);

ii) P (Y < −1 | X < 0).


3x2 −2xy+2y 2
Si ha γ(x, y) = √1 e− 10 e
2 5π
Z Z −1
P (Y < −1) = γ(x, y)dydx ≈ 28%,
R −∞
P ((Y < −1) ∩ (X < 0))
P (Y < −1 | X < 0) = ≈ 39%,
P (X < 0)

essendo
Z 0 Z −1
P ((Y < −1) ∩ (X < 0)) = γ(x, y)dydx ≈ 19, 7%,
−∞ −∞
Z 0 Z
1
P (X < 0) = γ(x, y)dydx = .
−∞ R 2

3.2 Valore atteso


In questo paragrafo introduciamo il concetto di valore atteso o media di una variabile aleatoria. Se X è
una v.a. con distribuzione discreta finita
Xm
X∼ pk δxk ,
k=1

ossia P (X = xk ) = pk per k = 1, . . . , m, allora il valore atteso di X è semplicemente definito da


m
X m
X
E [X] := xk P (X = xk ) = xk p k . (3.2.1)
k=1 k=1

In altri termini, E [X] è una media dei valori di X pesata secondo la probabilità che tali valori siano assunti.
Se m = ∞ allora la somma in (3.2.1) diventa una serie ed occorre porre delle condizioni di convergenza.
Infine, nel caso in cui X assuma un’infinità più che numerabile di valori allora non è più possibile definire
E [X] come serie: nel caso generale, il valore atteso E [X] sarà definito come integrale di X rispetto alla
misura di probabilità P e indicato indifferentemente con
Z Z Z
XdP oppure X(ω)P (dω) oppure P (dω)X(ω).
Ω Ω Ω
3.2. VALORE ATTESO 105

Figura 3.5: Interpretazione dell’integrale astratto come somma di Riemann

Per dare la definizione precisa di valore atteso richiamiamo alcuni elementi della cosiddetta teoria del-
l’integrazione astratta su uno spazio di probabilità (Ω, F , P ), ricordando che una v.a. altro non è che una
funzione misurabile. Le dimostrazioni seguenti si adattano facilmente al caso di spazi misurabili σ -finiti
(fra cui Rd con la misura di Lebesgue).
Ci occuperemo di dare:

• la definizione teorica di integrale astratto nelle Sezioni 3.2.1, 3.2.2 e 3.2.3;

• una caratterizzazione operativa dell’integrale astratto e un metodo di calcolo esplicito nelle Sezioni
3.2.4 e 3.2.5.

3.2.1 Integrale di variabili aleatorie semplici


Per introdurre l’integrale astratto procediamo per gradi, partendo dal caso di funzioni (o variabili alea-
torie, nel caso di uno spazio di probabilità) “semplici” a valori reali fino al caso generale. Diciamo che una
funzione X su uno spazio misurabile (Ω, F , P ) è semplice se è misurabile e assume solo un numero finito di
valori distinti x1 , . . . , xm ∈ R: in tal caso possiamo scrivere
m
X
X= xk 1(X=xk ) ,
k=1

dove (X = x1 ), . . . , (X = xm ) ∈ F sono disgiunti. In questo caso definiamo l’integrale astratto di X nel modo
seguente
Z Xm
XdP := xk P (X = xk ). (3.2.2)
Ω k=1

Tale definizione corrisponde ad una somma di Riemann in cui ogni addendo xk P (X = xk ) rappresenta l’area
di un rettangolo calcolata come “base”דaltezza” dove la misura della base è P (X = xk ) e l’altezza xk è il
valore di X su (X = xk ): si veda la Figura 3.5. Allora per definizione si ha
Z
1A dP = P (A) (3.2.3)

106 CAPITOLO 3. VARIABILI ALEATORIE

per ogni A ∈ F . Per ogni X semplice e A ∈ F , useremo anche la notazione


Z Z
XdP := X1A dP .
A Ω

È chiaro che valgono le proprietà di


i) linearità: per ogni X, Y semplici e α, β ∈ R si ha
Z Z Z
(αX + βY ) dP = α XdP + β Y dP ; (3.2.4)
Ω Ω Ω

ii) monotonia: per ogni X, Y semplici tali che X ≤ Y P -q.c.8 si ha


Z Z
XdP ≤ Y dP . (3.2.5)
Ω Ω

Osserviamo che dalla proprietà ii) segue che se X = Y P -q.c. allora


Z Z
XdP = Y dP .
Ω Ω

Prima di dare la definizione generale di integrale, proviamo alcuni risultati preliminari.


Lemma 3.2.1 (Beppo-Levi). Sia (Xn )n∈N una successione di v.a. semplici tali che 0 ≤ Xn ↗ X P -q.c. Se X è
semplice allora Z Z
lim Xn dP = XdP . (3.2.6)
n→∞ Ω Ω

Dimostrazione. Per ipotesi esiste A ∈ F con P (Ω \ A) = 0, tale che 0 ≤ Xn (ω) ↗ X(ω) per ogni ω ∈ A. Fissato
ε > 0 e posto
An,ε := (X − Xn ≥ ε) ∩ A, n ∈ N,
per ipotesi si ha che An,ε è una successione decrescente con intersezione vuota, ossia An,ε ↘ ∅ per n → ∞.
Allora per la continuità dall’alto di P si ha lim P (An,ε ) = 0 e di conseguenza
n→∞
Z Z Z Z
0≤ (X − Xn )dP = (X − Xn )dP = (X − Xn )dP + (X − Xn )dP ≤ εP (Ω) + P (An,ε ) max X
A Ω Ω\An,ε An,ε Ω

da cui segue la (3.2.6). Notiamo esplicitamente che max X < ∞ poiché X è semplice per ipotesi.

Lemma 3.2.2. Siano (Xn )n∈N e (Yn )n∈N successioni di v.a. semplici tale che 0 ≤ Xn ↗ X e 0 ≤ Yn ↗ Y P -q.c.
Se X ≤ Y P -q.c. allora Z Z
lim Xn dP ≤ lim Yn dP .
n→∞ Ω n→∞ Ω

Dimostrazione. Fissato k ∈ N, la successione di funzioni semplici (Xk ∧ Yn )n∈N è tale che 0 ≤ Xk ∧ Yn ↗ Xk


P -q.c. per n che tende all’infinito. Pertanto abbiamo
Z Z Z
Xk dP = lim Xk ∧ Yn dP ≤ lim Yn dP
Ω n→∞ Ω n→∞ Ω

dove la prima uguaglianza segue dalla (3.2.6), mentre la disuguaglianza è dovuta al fatto che Xk ∧ Yn ≤ Yn .
Questo conclude la prova.
8 Nel senso che P (X > Y ) = 0.
3.2. VALORE ATTESO 107

3.2.2 Integrale di variabili aleatorie non-negative


Per estendere la definizione di integrale alle v.a. in mF + utilizziamo il seguente

Lemma 3.2.3. Per ogni X ∈ mF + esiste una successione monotona crescente (Xn )n∈N in mF + di v.a. semplici,
tale che Xn ↗ X ossia vale
lim Xn (ω) = X(ω), ω ∈ Ω.
n→∞

Dimostrazione. Definiamo una successione di funzioni “a scala” su [0, +∞[ nel modo seguente: per ogni
n ∈ N consideriamo la partizione di [0, +∞[ costituita dai punti

0 1 2 n2n
, , , . . . ,
2n 2n 2n 2n
e poniamo 
k−1

 2n
 se k−1
2n ≤ x <
k
2n per 1 ≤ k ≤ n2n ,
ϕn (x) =  (3.2.7)
n
 se x ≥ n.
Notiamo che 0 ≤ ϕn ≤ ϕn+1 per ogni n ∈ N e

1
x− ≤ ϕn (x) ≤ x, x ∈ [0, n],
2n
per cui
lim ϕn (x) = x, x ≥ 0.
n→∞

Allora la successione definita da Xn = ϕn (X) verifica la tesi.

Grazie al Lemma 3.2.2, la seguente definizione è ben posta, ossia indipendente dalla successione ap-
prossimante (Xn )n∈N .

Definizione 3.2.4 (Integrale astratto di variabili aleatorie non-negative). Per ogni X ∈ mF + definiamo
Z Z
XdP := lim Xn dP ≤ +∞ (3.2.8)
Ω n→∞ Ω

dove (Xn )n∈N è una successione in mF +


di v.a. semplici, tale che Xn ↗ X P -q.c. Se il limite in (3.2.8) è finito
diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ).

Osservazione 3.2.5. In base alla Definizione 3.2.4, le proprietà di linearità (3.2.4) e monotonia (3.2.5) si
estendono facilmente all’integrale di X ∈ mF + .

La definizione di integrale astratto è del tutto analoga a quella dell’integrale di Lebesgue. Anche in que-
sto caso il risultato centrale su cui si basa tutto lo sviluppo della teoria dell’integrazione è il fondamentale
risultato sulla convergenza monotona.

Teorema 3.2.6. [Teorema di Beppo-Levi] [!!!]


Se (Xn )n∈N è una successione in mF tale che 0 ≤ Xn ↗ X P -q.c., allora si ha
Z Z
lim Xn dP = XdP .
n→∞ Ω Ω

Dimostrazione. Fissato n ∈ N, costruiamo come nel Lemma 3.2.3 una successione Xn,k k∈N di v.a. semplici
in mF + , tale che Xn,k ↗ Xn e Xn − Xn,n ≤ n1 P -q.c. Inoltre poniamo

Yn = max{X1,n , . . . , Xn,n }, n ∈ N.
108 CAPITOLO 3. VARIABILI ALEATORIE

Notiamo che (Yn )n∈N è una successione di v.a. semplici in mF tale che 0 ≤ Yn ↗ X P -q.c. e quindi per
definizione Z Z
lim Yn dµ = Xdµ.
n→∞ Ω Ω
D’altra parte Yn ≤ Xn ≤ X P -q.c. per cui, per monotonia,
Z Z Z
Yn dP ≤ Xn dP ≤ XdP ,
Ω Ω Ω

e da questo segue la tesi.


Lemma 3.2.7. [Lemma di Fatou][!]
Sia (Xn )n∈N una successione di v.a. in mF + . Si ha
Z Z
lim inf Xn dP ≤ lim inf Xn dP .
Ω n→∞ n→∞ Ω

Dimostrazione. Ricordiamo che, per definizione,

lim inf Xn := sup Yn , Yn := inf Xk ,


n→∞ n∈N k≥n

e quindi Yn ↗ X := lim inf Xn . Allora si ha


n→∞
Z Z
lim inf Xn dP = lim Yn dP =
Ω n→∞ Ω n→∞

(per il Teorema di Beppo-Levi)


Z
= lim Yn dP ≤
n→∞ Ω

(per monotonia)
Z Z
≤ lim inf Xk dP = lim inf Xn dP ,
n→∞ k≥n Ω n→∞ Ω

da cui la tesi.

3.2.3 Integrale di variabili aleatorie a valori in Rd


Definizione 3.2.8 (Integrale astratto). Se RX ∈ mF è Ra valori reali consideriamo la parte positiva X + e la
parte negativa X − di X: se almeno uno fra Ω X + dP e Ω X − dP è finito, allora diciamo che X è integrabile e
poniamo Z Z Z
XdP := X + dP − X − dP ∈ [−∞, +∞].
Ω Ω Ω
R R
Se entrambi Ω X + dP e Ω X − dP sono finiti, allora diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ). In
questo caso si noti che Z Z Z
+
|X|dP = X dP + X − dP ∈ R.
Ω Ω Ω
Infine, se X = (X1 , . . . , Xd ) è a valori inRd ,allora diciamo che X è integrabile se ogni componente Xi è
integrabile e in tal caso poniamo
Z Z Z !
XdP = X1 dP , . . . , Xd dP ∈ [−∞, +∞]d .
Ω Ω Ω
3.2. VALORE ATTESO 109

Notiamo che vale la disuguaglianza triangolare: per ogni X ∈ L1 (Ω, P ) a valori reali si ha
Z Z Z Z Z Z
XdP = X + dP − X −
dP ≤ X +
dP + X −
dP = |X|dP .

Ω Ω Ω Ω Ω Ω

Notazione 3.2.9. Useremo la notazione


Z Z
X(ω)P (dω) := XdP
Ω Ω

nel caso in cui vogliamo mettere in evidenza la variabile d’integrazione. Per l’integrale rispetto alla misura
di Lebesgue scriveremo semplicemente
Z Z
f (x)dx invece di f dLeb.
Rd Rd

Proposizione 3.2.10. Valgono le seguenti proprietà:

i) Linearità: per ogni X, Y ∈ L1 (Ω, P ) e α, β ∈ R si ha


Z Z Z
(αX + βY ) dP = α XdP + β Y dP .
Ω Ω Ω

ii) Monotonia: per ogni X, Y ∈ L1 (Ω, P ) tali che X ≤ Y P -q.c. si ha


Z Z
XdP ≤ Y dP .
Ω Ω
R R
In particolare, se X = Y P -q.c. allora Ω XdP = Ω Y dP .

An dove (An )n∈N è una successione disgiunta in F . Se X ∈ mF + oppure


U
iii) σ -additività: sia A =
n∈N
X ∈ L1 (Ω, P ) allora si ha Z XZ
XdP = XdP .
A n∈N An

Dimostrazione. La dimostrazione delle tre proprietà è simile e quindi proviamo in maniera dettagliata solo
la i). Considerando separatamente la parte positiva e negativa delle v.a., è sufficiente considerare il caso
X, Y ∈ mF + e α, β ∈ R≥0 . Consideriamo le successioni approssimanti (Xn ) e (Yn ) costruite come nel Lemma
3.2.3: sfruttando la linearità del valore atteso nel caso di v.a. semplici, otteniamo per il Teorema di Beppo-
Levi
Z Z Z Z ! Z Z
(αX + βY )dP = lim (αXn + βYn )dP = lim α Xn dP + β Yn dP = α XdP + β Y dP .
Ω n→∞ Ω n→∞ Ω Ω Ω Ω

Concludiamo la sezione col classico

Teorema 3.2.11. [Teorema della convergenza dominata][!!]


Sia (Xn )n∈N una successione di v.a. su (Ω, F , P ), tale che Xn → X P -q.c. e |Xn | ≤ Y ∈ L1 (Ω, P ) per ogni n.
Allora si ha Z Z
lim Xn dP = XdP .
n→∞ Ω Ω
110 CAPITOLO 3. VARIABILI ALEATORIE

Dimostrazione. Passando al limite in |Xn | ≤ Y si ha anche |X| ≤ Y P -q.c. Allora si ha


Z Z
0 ≤ lim sup Xn dP −
XdP ≤
n→∞ Ω Ω

(per la disuguaglianza triangolare)


Z
≤ lim sup |Xn − X| dP =
n→∞ Ω
Z Z
= 2Y dP − lim inf (2Y − |Xn − X|) dP ≤
Ω n→∞ Ω

(per il Lemma di Fatou)


Z Z
≤ 2Y dP − lim inf (2Y − |Xn − X|) dP =
n→∞
ZΩ ZΩ
= 2Y dP − 2Y dP = 0.
Ω Ω

Vedremo in seguito una generalizzazione del teorema della convergenza dominata, il Teorema A.3.0.2
di Vitali. Il seguente corollario del Teorema 3.2.11 si prova facilmente per assurdo.

Corollario
R 3.2.12 (Assoluta continuità dell’integrale). Sia X ∈ L1 (Ω, P ). Per ogni ε > 0 esiste δ > 0 tale che
A
|X|dP < ε per ogni A ∈ F tale che P (A) < δ.

Diamo ora un semplice ma utile risultato.


R
Proposizione 3.2.13. [!] Data X ∈ mF , poniamo A = (X > 0). Se A
XdP = 0 allora X ≤ 0 P -q.c.
 
Dimostrazione. Consideriamo la successione crescente definita da An = X ≥ n1 per n ∈ N. Per la proprietà
di monotonia dell’integrale, si ha
Z Z Z
1 P (An )
0= XdP ≥ X1An dP ≥ 1An dP = ,
A A n A n

e quindi P (An ) = 0 per ogni n ∈ N. Per la continuità dal basso di P (cfr. Proposizione 2.1.31-ii)) ed essendo
[
(X > 0) = An ,
n∈N

segue che P (X > 0) = 0.


R
Corollario 3.2.14. Se X ∈ mF + è tale che Ω
XdP = 0 allora X = 0 P -q.c.

3.2.4 Integrazione con distribuzioni


In questa sezione esaminiamo l’integrale astratto rispetto ad una distribuzione, con particolare atten-
zione al caso delle distribuzioni discrete e assolutamente continue (o combinazioni di esse). Cominciamo
con un semplice
3.2. VALORE ATTESO 111

Esempio 3.2.15. [!] Consideriamo la distribuzione Delta di Dirac δx0 su (Rd , Bd ). Per ogni funzione f ∈
mBd vale Z
f (x)δx0 (dx) = f (x0 ).
Rd
Infatti f è uguale δx0 -quasi ovunque alla funzione semplice

f (x0 ) se x = x0 ,

fˆ(x) = 

0
 altrimenti.
R R
Ora, per la Proposizione 3.2.10-ii), se f = g µ-q.o. allora Ω f dµ = Ω gdµ: quindi si ha
Z Z
f (x)δx0 (dx) = fˆ(x)δx0 (dx) =
Rd Rd

(per definizione di integrale di funzione semplice)


= fˆ(x0 )δx0 ({x0 }) = f (x0 ).
Proposizione 3.2.16. Sia

X
µ= pn δxn
n=1

una distribuzione discreta su (Rd , Bd ) (cfr. Definizione 2.4.15). Se f ∈ mF + oppure f ∈ L1 (Rd , µ) allora si
ha Z X∞
f dµ = f (xn )pn .
Rd n=1
Dimostrazione. Segue direttamente applicando la Proposizione 3.2.10-iii) con An = {xn }.
Esempio 3.2.17. Per la distribuzione di Bernoulli, Bep = pδ1 + (1 − p)δ0 con 0 ≤ p ≤ 1, (cf. Esempio 2.4.17-i))
si ha semplicemente Z
f (x)Bep (dx) = pf (1) + (1 − p)f (0).
R
Per la distribuzione Poissonλ , con λ > 0, si ha

λk
Z X
f (x)Poissonλ (dx) = e−λ f (k),
R k!
k=0

ammesso che f sia non-negativa oppure sommabile (ossia che la somma converga assolutamente).
Esercizio 3.2.18. Provare che se α, β > 0, µ1 , µ2 sono distribuzioni su Rd e f ∈ L1 (Rd , µ1 ) ∩ L1 (Rd , µ2 ) allora
f ∈ L1 (Rd , αµ1 + βµ2 ) e vale
Z Z Z
f d(αµ1 + βµ2 ) = α f dµ1 + β f dµ2 .
Rd Rd Rd

Vediamo ora che nel caso di una distribuzione assolutamente continua, il calcolo dell’integrale astratto si
riconduce al calcolo di un integrale di Lebesgue pesato con la densità della distribuzione.
Proposizione 3.2.19. [!]
Sia µ una distribuzione assolutamente continua su Rd con densità γ. Allora f ∈ L1 (Rd , µ) se e solo se9
f γ ∈ L1 (Rd ) e in tal caso si ha Z Z
f (x)µ(dx) = f (x)γ(x)dx.
Rd Rd
9 L1 (Rd ) indica l’usuale spazio delle funzioni sommabili su Rd rispetto alla misura di Lebesgue, ossia L1 (Rd ) = L1 (Rd , Leb).
112 CAPITOLO 3. VARIABILI ALEATORIE

Dimostrazione. Consideriamo prima il caso in cui f è semplice su R, ossia f (R) = {α1 , . . . , αm } cosicché
m
X
f = αk 1Hk , Hk := {x ∈ R | f (x) = αk }, k = 1, . . . , m,
k=1

allora per linearità


Z m
X Z
f dµ = αk 1Hk dµ =
R k=1 R

(per la (3.2.3))
m
X
= αk µ(Hk ) =
k=1

(essendo µ ∈ AC con densità γ)


m
X Z m
X Z
= αk γ(x)dx = αk 1Hk (x)γ(x)dx =
k=1 Hk k=1 R

(per la linearità dell’integrale di Lebesgue)


Z
= f (x)γ(x)dx,
R

da cui la tesi.
Ora assumiamo f ≥ 0 e consideriamo fn := ϕn (f ) con ϕn come in (3.2.7). Per il Teorema di Beppo-Levi
abbiamo
Z Z
f dµ = lim fn dµ =
R n→∞ R

(per quanto appena provato, essendo fn semplice per ogni n ∈ N)


Z
= lim fn (x)γ(x)dx =
n→∞ R

(riapplicando il Teorema di Beppo-Levi all’integrale di Lebesgue e utilizzando il fatto che γ ≥ 0 per ipotesi
e di conseguenza (fn γ) è una successione monotona crescente di funzioni non-negative)
Z
= f (x)γ(x)dx.
R

Infine se f è una generica funzione in L1 (R, µ),


allora è sufficiente considerarne la parte positiva e negativa
alle quali si applica il risultato precedente. Allora la tesi segue dalla linearità dell’integrale e ragionando
componente per componente si conclude la prova della tesi anche nel caso d-dimensionale.
Esempio 3.2.20. Consideriamo la distribuzione normale standard N0,1 e le funzioni f (x) = x e g(x) = x2 .
Allora f , g ∈ L1 (R, N0,1 ) e vale
Z Z
1 x2
f (x)N0,1 (dx) = √ xe− 2 dx = 0,
2π R
ZR Z
1 x2
g(x)N0,1 (dx) = √ x2 e− 2 dx = 1.
R 2π R
3.2. VALORE ATTESO 113

Osservazione 3.2.21. [!]


La prova della Proposizione 3.2.19 è esemplare di una procedura di dimostrazione spesso utilizzata nel-
l’ambito della teoria dell’integrazione e della probabilità. Tale procedura, a volte chiamata procedura
standard, consiste nel verificare la validità della tesi in 4 passi:
1) il caso di funzioni o v.a. indicatrici: di solito è una verifica diretta basata sulla definizione di integrale
o valore atteso;
2) il caso di funzioni o v.a. semplici: si sfrutta la linearità dell’integrale o del valore atteso;
3) il caso di funzioni o v.a. non-negative: si usa un argomento di approssimazione basato sul Lemma
3.2.3 e sul Teorema di Beppo-Levi;
4) il caso di funzioni o v.a. sommabili: ci si riconduce al caso precedente per linearità, considerando
parte positiva e negativa.
Una formulazione più generale di questa procedura è data dal secondo Teorema di Dynkin (cfr. Teorema
A.1.8).
Concludiamo la sezione con un utile risultato che proveremo più avanti (cfr. Corollario 3.5.8).
Corollario 3.2.22. [!] Se µ, ν sono distribuzioni tali che
Z Z
f dµ = f dν
R R

per ogni f ∈ bC(R) allora µ ≡ ν. Qui bC(R) indica lo spazio delle funzioni continue e limitate.

3.2.5 Valore atteso e Teorema del calcolo della media


In teoria della probabilità, il valore atteso di una variabile aleatoria altro non è che il suo integrale
rispetto alla misura di probabilità. Diamo la definizione precisa.
Definizione 3.2.23. In uno spazio di probabilità (Ω, F , P ), il valore atteso di una v.a. integrabile X è
definito da Z Z
E [X] := XdP = X(ω)P (dω).
Ω Ω

Esempio 3.2.24. [!] A partire dalla definizione (3.2.2) di integrale astratto, è facile calcolare il valore atteso
in due casi particolari: le variabili aleatorie costanti e indicatrici. Si ha infatti

E [c] = c, c ∈ Rd ,
E [1A ] = P (A), A ∈ F.

Inoltre se X è una v.a. semplice della forma


m
X
X= xk 1(X=xk )
k=1

per linearità vale


m
X
E [X] = xk P (X = xk ).
k=1

Dunque in questo caso E [X] rappresenta una media dei valori di X pesata con le probabilità che questi valori
vengano assunti.
114 CAPITOLO 3. VARIABILI ALEATORIE

In generale, il calcolo di un valore atteso definito come integrale astratto (sullo spazio Ω) non è partico-
larmente agevole: il seguente risultato mostra che è possibile esprimere il valore atteso di una v.a. X come
integrale (sullo spazio Euclideo Rd ) rispetto alla distribuzione µX della v.a. stessa.
Teorema 3.2.25 (Teorema del calcolo della media). [!]
Siano
X : Ω −→ Rd e f : Rd −→ RN
rispettivamente una v.a. su (Ω, F , P ) con legge µX e una funzione Bd -misurabile, f ∈ mBd . Allora f ◦ X ∈
L1 (Ω, P ) se e solo se f ∈ L1 (Rd , µX ) e in tal caso vale
Z
E [f (X)] = f dµX . (3.2.9)
Rd

P
In particolare, se µX = pk δxk è una distribuzione discreta allora
k=1

X
E [f (X)] = f (xk )pk , (3.2.10)
k=1

mentre se µX è assolutamente continua con densità γX allora si ha


Z
E [f (X)] = f (x)γX (x)dx. (3.2.11)
Rd

Dimostrazione. Proviamo la (3.2.9) nel caso f = 1H con H ∈ Bd : si ha


Z
E [f (X)] = E [1H (X)] = P (X ∈ H) = µX (H) = 1H dµX .
Rd

Il caso generale segue applicando la procedura standard dell’Osservazione 3.2.21. Infine, in base alla
(3.2.9), la (3.2.10) segue dalla Proposizione 3.2.16 e la (3.2.11) segue dalla Proposizione 3.2.19.
Osservazione 3.2.26. Applicando il Teorema 3.2.25 nel caso particolare della funzione identità f (x) = x, si
ha che se X ∈ L1 (Ω, P ) allora Z
E [X] = xµX (dx).
Rd

Definizione 3.2.27 (Varianza). Sia X ∈ L2 (Ω, P ) una v.a. reale. Si definisce varianza di X il numero reale
non-negativo h i h i
var(X) := E (X − E [X])2 = E X 2 − E [X]2 .
p
La radice della varianza var(X) è chiamata deviazione standard.
La deviazione standard è una media della distanza di X dal proprio valore atteso. Per esempio, vedremo
nell’Esempio 3.2.30 che nel caso di una v.a. normale X ∈ Nµ,σ 2 , la deviazione standard è uguale a σ : in
effetti avevamo usato σ per definire gli intervalli di confidenza di X come in Figura 3.3.
Per linearità, per ogni a, b ∈ R si ha

var(aX + b) = a2 var(X).

Inoltre, per la Proposizione 3.2.13, si ha


q.c.
var(X) = 0 se e solo se X = E [X] .

Calcoliamo ora media e varianza di alcune v.a. discrete.


3.2. VALORE ATTESO 115

Esempio 3.2.28. [!]

i) se X ∼ δx0 con x0 ∈ Rd allora per le (3.2.9)-(3.2.10) si ha


Z
E [X] = yδx0 (dy) = x0 ,
Rd
Z
var(X) = (y − x0 )2 δx0 (dy) = 0.
Rd

1
ii) Se X ∼ Unifn allora ha funzione di distribuzione γ(k) = n per k ∈ In e vale
n n
X 1X 1 n(n + 1) n + 1
E [X] = kγ(k) = k= · = ,
n n 2 2
k=1 k=1
n 2 n
n+1 1X 2 n+1 2
h i X   
var(X) = E X 2 − E [X]2 = k 2 γ(k) − = k −
2 n 2
k=1 k=1
2
1 n(n + 1)(2n + 1) n+1 n2 − 1

= · − = .
n 6 2 12

iii) Se X ∼ Bep allora ha funzione di distribuzione γ definita da γ(1) = p, γ(0) = 1 − p e vale


n
X
E [X] = kγ(k) = 0 · (1 − p) + p = p,
k∈{0,1}
h i X
var(X) = E X 2 − E [X]2 = k 2 γ(k) − p2 = p(1 − p).
k∈{0,1}

iv) Se X ∼ Binn,p , con un conto diretto (si veda anche la Proposizione 3.6.3) si prova che

E [X] = np, var(X) = np(1 − p). (3.2.12)

k
v) Se X ∼ Poissonλ allora ha funzione di distribuzione γ definita da γ(k) = e−λ λk! per k ∈ N0 e vale
∞ ∞ ∞
X X λk X λk−1
E [X] = kγ(k) = ke−λ = λe−λ = λ.
k! (k − 1)!
k=0 k=1 k=1

Provare per esercizio che var(X) = λ.

vi) Se X ∼ Geomp allora ha funzione di distribuzione γ definita da γ(k) = p(1 − p)k−1 per k ∈ N e quindi
vale
∞ ∞ ∞ !
X X
k−1
X d k
E [X] = kγ(k) = p k(1 − p) =p − (1 − p)
dp
k=1 k=1 k=1
∞ !
d X d 1 1
= −p (1 − p)k = −p = ,
dp dp 1 − (1 − p) p
k=1

dove abbiamo usato un teorema di scambio di derivata con serie. In maniera analoga si prova che
1−p
var(X) = p2 .
116 CAPITOLO 3. VARIABILI ALEATORIE

Esempio 3.2.29. [!] Consideriamo un gioco d’azzardo in cui si lancia una moneta (non truccata): se viene
testa si vince un euro e se viene croce si perde un euro. Se X è la variabile aleatoria che rappresenta il
risultato della giocata, si ha
1 1
E [X] = 1 · + (−1) · = 0
2 2
e quindi si dice che il gioco è equo. Il gioco è equo anche se la vincita e la perdita fossero pari a 1000
euro, ma intuitivamente saremmo meno propensi a giocare perché percepiamo una rischiosità maggiore
(di perdere molti soldi). Matematicamente, questo si spiega col fatto che
h i 1 1
var(X) = E X 2 = 12 · + (−1)2 · = 1
2 2
mentre se Y rappresenta la v.a. nel caso in cui la posta in gioco è 1000 euro, si ha
h i 1 1
var(Y ) = E Y 2 = 10002 · + (−1000)2 · = 10002 .
2 2
In pratica, se due scommesse hanno lo stesso valore atteso, quella con varianza minore limita l’entità delle
potenziali perdite.
Consideriamo ora alcuni esempi di v.a. assolutamente continue.
Esempio 3.2.30. [!]
i) se X ∼ Unif[a,b] si ha
Z Z b
1 a+b
E [X] = yUnif[a,b] (dy) = , ydy =
R b−a a 2
!2 Zb !2
(b − a)2
Z
a+b 1 a+b
var(X) = y− Unif[a,b] (dy) = y− dy = .
R 2 b−a a 2 12

Confrontare questo risultato con l’analogo discreto visto nell’Esempio 3.2.28-i).


ii) se X ∼ Nµ,σ 2 con σ > 0 allora

(y−µ)2
Z Z
1 −
E [X] = yNµ,σ 2 (dy) = √ ye 2σ 2 dy =
R 2πσ 2 R
y−µ
(col cambio di variabili z = √ )
σ 2

1
Z  √  2 µ
Z
2
=√ µ + zσ 2 e−z dz = √ e−z dz = µ.
π R π R

In modo analogo si vede che Z


var(X) = (y − µ)2 Nµ,σ 2 (dy) = σ 2 .
R

iii) se X ∼ Gammaα,1 si ha
Z ∞ Z∞
1 Γ (α + 1)
E [X] = tγα,1 (t)dt = t α e−λt dt = = α,
0 Γ (α) 0 Γ (α)
Z ∞ Z ∞
h i 1 Γ (α + 2)
E X2 = t 2 γα,1 (t)dt = t 1+α e−λt dt = = α(α + 1)
0 Γ (α) 0 Γ (α)
3.2. VALORE ATTESO 117

da cui h i
var(X) = E X 2 − E [X]2 = α.
In generale, per il Lemma 3.1.36, se X ∼ Gammaα,λ si ha
α α
E [X] = , var(X) = .
λ λ2
In particolare, se X ∼ Expλ = Gamma1,λ allora
Z Z +∞
1
E [X] = yExpλ (dy) = λ ye−λy dy = ,
R 0 λ
Z +∞ 
1 2 1 2 −λy
Z 
1
 
var(X) = y− Expλ (dy) = λ y− e dy = 2 .
R λ 0 λ λ

3.2.6 Disuguaglianza di Jensen


Proviamo un’importante estensione alle funzioni convesse della disuguaglianza triangolare per il valore
atteso. Esempi tipici di funzioni convesse che utilizzeremo in seguito sono
i) f (x) = |x|p con p ∈ [1, +∞[,
ii) f (x) = eλx con λ ∈ R,
iii) f (x) = − log x per x ∈ R>0 .
Teorema 3.2.31 (Disuguaglianza di Jensen). [!!]
Siano −∞ ≤ a < b ≤ +∞ e
X : Ω −→ ]a, b[ e f : ]a, b[−→ R
rispettivamente una v.a. sullo spazio (Ω, F , P ) e una funzione convessa. Se X, f (X) ∈ L1 (Ω, P ) allora si ha

f (E [X]) ≤ E [f (X)] .

Dimostrazione. Ricordiamo che se f è convessa allora per ogni z ∈ ]a, b[ esiste m ∈ R tale che

f (w) ≥ f (z) + m(w − z), ∀w ∈ ]a, b[. (3.2.13)

Proviamo dopo la (3.2.13) e concludiamo prima la prova della disuguaglianza di Jensen. Posto z = E [X] (si
noti che E [X] ∈ ]a, b[ poiché X(Ω) ⊆ ]a, b[ per ipotesi) si ha

f (X(ω)) ≥ f (E [X]) + m(X(ω) − E [X]), ω ∈ Ω,

da cui, prendendo il valore atteso e usando la proprietà di monotonia,

E [f (X)] ≥ E [f (E [X]) + m(X − E [X])] =

(per linearità e per il fatto che E [c] = c per ogni costante c)

= f (E [X]) + mE [X − E [X]] = f (E [X]).

Proviamo ora la (3.2.13). Ricordiamo che f è convessa se vale

f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y), ∀x, y ∈ ]a, b[, λ ∈ [0, 1],

o equivalentemente, posto z = (1 − λ)x + λy,

(y − x)f (z) ≤ (y − z)f (x) + (z − x)f (y), x < z < y. (3.2.14)


118 CAPITOLO 3. VARIABILI ALEATORIE

Introduciamo la notazione
f (y) − f (x)
∆y,x = , a < x < y < b.
y −x
Non è difficile verificare10 che la (3.2.14) è equivalente a

∆z,x ≤ ∆y,x ≤ ∆y,z , x < z < y. (3.2.15)

La (3.2.15) implica11 che f è una funzione continua su ]a, b[ ed anche che le funzioni

z 7→ ∆z,x , per z > x, e z 7→ ∆y,z , per z < y,

sono monotone crescenti. Di conseguenza esistono i limiti12

D − f (z) := lim− ∆z,x ≤ lim+ ∆y,z =: D + f (z), z ∈ ]a, b[. (3.2.16)


x→z y→z

Ora se m ∈ [D − f (z), D + f (z)] si ha


∆z,x ≤ m ≤ ∆y,z , x < z < y,
che implica la (3.2.13).

Osservazione 3.2.32. La dimostrazione della disuguaglianza di Jensen è basata, oltre alle proprietà delle
funzioni convesse, soltanto sulle proprietà di monotonia, linearità e E [1] = 1 della media. In particolare
il fatto che E [1] = 1 è fondamentale: a differenza della disuguaglianza triangolare, la disuguaglianza di
Jensen non vale per un integrale o una somma generica.

3.2.7 Spazi Lp e disuguaglianze notevoli


Definizione 3.2.33. Sia (Ω, F , P ) uno spazio di probabilità e p ∈ [1, +∞[. La p-norma di una v.a. X è definita
da
1
∥X∥p := (E [|X|p ]) p .
Indichiamo con
Lp (Ω, P ) = {X ∈ mF | ∥X∥p < ∞}
lo spazio delle v.a. sommabili di ordine p.
q.c.
In realtà ∥ · ∥p non è una norma perché ∥X∥p = 0 implica X = 0 ma non X ≡ 0. In effetti vedremo nel
Teorema 3.2.39 che ∥ · ∥p è una semi-norma sullo spazio Lp (Ω, P ).
10 Proviamo per esempio la prima disuguaglianza:

f (z) − f (x) f (y) − f (x)


∆z,x ≤ ∆y,x ⇐⇒ ≤ ⇐⇒ (f (z) − f (x))(y − x) ≤ (f (y) − f (x))(z − x)
z−x y −x
che equivale alla (3.2.14).
11 Infatti da (3.2.15), in particolare da ∆
z,x ≤ ∆y,x , segue

f (y) − f (x)
f (z) ≤ f (x) + (z − x) −→ f (y) per z → y − .
y −x
Inoltre, fissato y0 ∈ ]y, b[, ancora dalla (3.2.15), in particolare da ∆y,z ≤ ∆y0 ,y , segue
f (z) ≥ f (y) − (y − z)∆y0 ,y −→ f (y) per z → y − .
Combinando le due disuguaglianze, si prova la continuità a sinistra di f . Per la continuità a destra si procede in modo analogo.
12 Per fissare le idee, si pensi a f (x) = |x| per cui si ha −1 = D − f (0) < D + f (0) = 1. Utilizzando la (3.2.16) si prova che l’insieme dei
punti z in cui D − f (z) < D + f (z), ossia in cui f non è derivabile, è al più numerabile.
3.2. VALORE ATTESO 119

Esempio 3.2.34. Se X ∼ Nµ,σ 2 allora X ∈ Lp (Ω, P ) per ogni p ≥ 1 poiché


Z
1 1 x−µ 2
p
E [|X| ] = |x|p √ e− 2 ( σ ) dx < ∞.
R 2πσ 2
È facile dare un esempio di X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ): è sufficiente considerare X(ω) =
Y (ω) = √1ω nello spazio ([0, 1], B, Leb). Diamo anche un esempio in uno spazio discreto.

Esempio 3.2.35. Consideriamo lo spazio di probabilità Ω = N con la misura di probabilità definita da


c
P ({n}) = , n ∈ N,
n3
dove c è la costante positiva13 che normalizza a 1 la somma dei P ({n}) in modo che P sia una misura di
probabilità. La v.a. X(n) = n è sommabile in P poiché
∞ ∞
X X c
E [X] = X(n)P ({n}) = n· < +∞.
n3
n=1 n=1

D’altra parte X < L2 (Ω, P ) poiché



h i X c
E X2 = n2 · 3 = +∞,
n
n=1

o, in altri termini, posto Y = X si ha che XY < L1 (Ω, P ).


Proposizione 3.2.36. Se 1 ≤ p1 ≤ p2 allora vale

∥X∥p1 ≤ ∥X∥p2

e quindi
Lp2 (Ω, P ) ⊆ Lp1 (Ω, P ).
L’Esempio 3.2.35 mostra che in generale l’inclusione è stretta.
Dimostrazione. La tesi è diretta conseguenza della disuguaglianza di Jensen con f (x) = xq , x ∈ [0, +∞[,
p
q = p2 ≥ 1: infatti abbiamo
1
p2
E [|X|p1 ] p1 ≤ E [|X|p2 ] .

Teorema 3.2.37 (Disuguaglianza di Hölder). [!]


Siano p, q > 1 esponenti coniugati, ossia tali che p1 + 1q = 1. Se X ∈ Lp (Ω, P ) e Y ∈ Lq (Ω, P ) allora XY ∈ L1 (Ω, P )
e vale
∥XY ∥1 ≤ ∥X∥p ∥Y ∥q . (3.2.17)
Dimostrazione. Proviamo la tesi nel caso ∥X∥p > 0 altrimenti è banale. In questo caso, la (3.2.17) equivale a

e = |X| .
h i
E X|Y
e | ≤ ∥Y ∥q , dove X
∥X∥p
h i
ep ≥ 0 e E X
Notiamo che X ep = 1: quindi consideriamo la probabilità Q con densità X
ep rispetto a P , definita
da h i
Q(A) = E X ep 1A , A ∈ F.
13 Per precisione, c = Zeta(3) ≈ 1.20206 dove Zeta indica la funzione zeta di Riemann.
120 CAPITOLO 3. VARIABILI ALEATORIE

Allora si ha
" #q " #q
P ep |Y | |Y |
h iq
P Q
E X|Y | = E X 1 e ) =E 1 e ) ≤
ep−1 (X>0 ep−1 (X>0
e
X X
(per la disuguaglianza di Jensen)

|Y |q
" #
≤ EQ 1(X>0 =
eq(p−1) e )
X
(poiché, essendo p, q coniugati, vale q(p − 1) = p)
" q #
Q |Y |
 
P q q
=E e ) = E |Y | 1(X>0
1(X>0 e ) ≤ ∥Y ∥q ,
Xe p

che prova la tesi.


Corollario 3.2.38 (Disuguaglianza di Cauchy-Schwarz). [!]
Si ha
|E [XY ]| ≤ ∥X∥2 ∥Y ∥2 (3.2.18)
q.c.
e nella (3.2.18) vale l’uguaglianza se e solo se esiste a ∈ R per cui X = aY .
q.c.
Dimostrazione. La (3.2.18) segue da |E [XY ]| ≤ E [|XY |] e dalla disuguaglianza di Hölder. Se X = aY per
un certo a ∈ R è facile verificare che vale l’uguaglianza in (3.2.18). Viceversa, non è restrittivo assumere
E [XY ] ≥ 0 (altrimenti basta considerare −X al posto di X) e ∥X∥2 , ∥Y ∥2 > 0 (altrimenti la tesi è ovvia): in
questo caso poniamo
e= X ,
X e= Y .
Y
∥X∥2 ∥Y ∥2
h i
Si ha ∥X∥
e 2 = ∥Y
e∥2 = 1 e inoltre, per ipotesi, E X e = 1. Allora
eY
h i h i h i h i
E (X e)2 = E X
e−Y e2 + E Y
e2 − 2E X e =0
eY

e q.c.
da cui X =Y e.

Teorema 3.2.39. Per ogni p ≥ 1, Lp (Ω, P ) è uno spazio vettoriale su cui ∥ · ∥p è una semi-norma, ossia vale
q.c.
i) ∥X∥p = 0 se e solo se X = 0;
ii) ∥λX∥p = |λ|∥X∥p per ogni λ ∈ R e X ∈ Lp (Ω, P );
iii) vale la disuguaglianza di Minkowski

∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p ,

per ogni X, Y ∈ Lp (Ω, P ).


Dimostrazione. Basta provare solo la iii). È chiaro che, se X ∈ Lp (Ω, P ) e λ ∈ R, allora λX ∈ Lp (Ω, P ). Inoltre,
poiché
(a + b)p ≤ 2p (a ∨ b)p ≤ 2p (ap + bp ) , a, b ≥ 0, p ≥ 1,
allora il fatto che X, Y ∈ Lp (Ω, P ) implica che (X +Y ) ∈ Lp (Ω, P ). Dunque Lp (Ω, P ) è uno spazio vettoriale. Le
proprietà i) e ii) seguono facilmente dalle proprietà generali della media. Per la iii) è sufficiente considerare
il caso p > 1: per la disuguaglianza triangolare si ha
h i h i
E [|X + Y |p ] ≤ E |X||X + Y |p−1 + E |Y ||X + Y |p−1 ≤
3.2. VALORE ATTESO 121

(per la disuguaglianza di Hölder, indicando con q l’esponente coniugato di p > 1)


  h i1
≤ ∥X∥p + ∥Y ∥p E |X + Y |(p−1)q q =

(poiché (p − 1)q = p)
1− 1
 
≤ ∥X∥p + ∥Y ∥p E [|X + Y |p ] p ,

da cui segue la disuguaglianza di Minkowski.

3.2.8 Covarianza e correlazione


Definizione 3.2.40 (Covarianza). La covarianza di due v.a. reali X, Y ∈ L2 (Ω, P ) è il numero reale

cov(X, Y ) := E [(X − E [X])(Y − E [Y ])] .

Esempio 3.2.41. Sia (X, Y ) con densità

γ(X,Y ) (x, y) = ye−xy 1R≥0 ×[1,2] (x, y).

Allora si ha
" "
3
E [X] = xγ(X,Y ) (x, y)dxdy = log 2, E [Y ] = yγ(X,Y ) (x, y)dxdy =
R2 R2 2
e "
3 3
 
cov(X, Y ) = (x − log 2) y − γ(X,Y ) (x, y)dxdy = 1 − log 2.
R2 2 2
In questa sezione usiamo le seguenti notazioni:
- eX := E [X] per l’attesa di X;
- σXY := cov(X, Y ) := e(X−eX )(Y −eY ) = eXY − eX eY per la covarianza di X, Y ;
p
- σX = var(X) per la deviazione standard di X, dove

var(X) = cov(X, X) = e(X−eX )2 = eX 2 − (eX )2 .

Osserviamo che:
i) per ogni c ∈ R si ha h i h i
var(X) = E (X − E [X])2 ≤ E (X − c)2
e vale l’uguaglianza se e solo se c = E [X]. Infatti
h i h i
E (X − c)2 = E (X − eX + eX − c)2
= σX2 + 2 E [X − eX ](eX − c) + (eX − c)2 = σX2 + (eX − c)2 ≥ σX2 .
| {z }
=0

ii) Se σX > 0 si può sempre “normalizzare” la v.a. X ponendo


X − eX
Z= ,
σX
in modo che E [Z] = 0 e var(Z) = 1.
122 CAPITOLO 3. VARIABILI ALEATORIE

iii) Vale
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ). (3.2.19)
Se cov(X, Y ) = 0 si dice che le v.a. X, Y sono scorrelate.
iv) La covarianza cov(·, ·) è un operatore bilineare e simmetrico su L2 (Ω, P )×L2 (Ω, P ), ossia per ogni X, Y , Z ∈
L2 (Ω, P ) e α, β ∈ R vale
cov(X, Y ) = cov(Y , X) e cov(αX + βY , Z) = αcov(X, Z) + βcov(Y , Z).
p
v) Per la disuguaglianza di Cauchy-Schwarz (3.2.18) si ha |cov(X, Y )| ≤ var(X)var(Y ) ossia
|σXY | ≤ σX σY (3.2.20)
q.c.
e si ha l’uguaglianza nella (3.2.20) se e solo se Y è funzione lineare di X nel senso che Y = āX + b̄: nel
caso in cui σX > 0, le costanti ā e b̄ sono date da
σ σ
ā = XY
2
, b̄ = eY − eX XY . (3.2.21)
σX σX2
Come vedremo nella Sezione 3.2.9, la retta di equazione y = āx + b̄ è detta retta di regressione, e
intuitivamente fornisce una rappresentazione della dipendenza lineare fra due campioni di dati.
Definizione 3.2.42 (Correlazione). Siano X, Y ∈ L2 (Ω, P ) tali che σX , σY > 0. Il coefficiente di correlazione di
X, Y è definito da
σ
ϱXY := XY .
σX σY
q.c.
Dalla (3.2.20) segue che ϱXY ∈ [−1, 1] e |ϱXY | = 1 se e solo se Y = āX + b̄: si noti che ā > 0 se ϱXY = 1 e ā < 0
se ϱXY = −1. Dunque il coefficiente di correlazione misura il grado di dipendenza lineare fra X e Y .
Sia ora X = (X1 , . . . , Xd ) ∈ L2 (Ω, P ) una v.a. a valori in Rd . La matrice di covarianza di X è la matrice d × d
simmetrica    
cov(X) = σXi Xj = E (X − E [X]) (X − E [X])∗ ,
i,j=1,...,d | {z } | {z }
d×1 1×d
dove M ∗ indica la trasposta della matrice M. Poiché
 2 
⟨cov(X)y, y⟩ = E (X − E [X])∗ y ≥ 0, y ∈ Rd ,

la matrice di covarianza è semi-definita positiva. Si noti che gli elementi della diagonale sono le varianze
σX2i per i = 1, . . . , d. Se σXi > 0 per ogni i = 1, . . . , d, definiamo la matrice di correlazione in modo analogo:
 
ϱ(X) = ϱXi Xj .
i,j=1,...,d

La matrice ϱ(X) è simmetrica, semi-definita positiva e gli elementi della diagonale sono uguali a uno: per
esempio nel caso d = 2, posto ϱ = ϱX1 X2 si ha

σX21
! !
1 ϱ ϱ σX1 σX2
ϱ(X) = cov(X) = .
ϱ 1 ϱ σX1 σX2 σX22

Infine se A è una matrice costante N ×d e b ∈ RN , allora la v.a. aleatoria Z := AX +b a valori in RN ha media


E [Z] = AE [X] + b,
e matrice di covarianza
cov(Z) = E [(AX + b − E [AX + b]) (AX + b − E [AX + b])∗ ] = Acov(X)A∗ .
3.2. VALORE ATTESO 123

Osservazione 3.2.43 (Decomposizione di Cholesky). [!] Una matrice simmetrica e semi-definita positiva
C si può fattorizzare nella forma C = AA∗ : ciò segue dal fatto che, per il Teorema spettrale,
√ C=U ∗
√DU con
−1 ∗ ∗
U ortogonale (ossia tale U = U ) e D matrice diagonale; dunque basta porre A = U DU dove D indica
la matrice diagonale i cui elementi sono le radici quadrate degli elementi di D (che sono reali non-negativi,
essendo C simmetrica e semi-definita positiva).
La fattorizzazione C = AA∗ non è unica: l’algoritmo di Cholesky permette di determinare una matrice
triangolare inferiore A per cui valga C = AA∗ . Per esempio, data la matrice di correlazione in dimensione
due !
1 ϱ
C=
ϱ 1
si ha la fattorizzazione di Cholesky C = AA∗ dove
!
1 p 0
A= .
ϱ 1 − ϱ2

3.2.9 Regressione lineare


In Statistica, si ha spesso a che fare con serie storiche (o campioni) di dati che forniscono la dinamica di
un certo fenomeno nel tempo (per esempio, una temperatura, il prezzo di un titolo finanziario, il numero
dei dipendenti di un’azienda etc.). Nel caso di dati uno-dimensionali, una serie storica è un vettore x =
(x1 , . . . , xM ) di RM . Possiamo pensare al vettore x come a una “realizzazione” di una variabile aleatoria
discreta X definita nel modo seguente:

X : IM −→ R, X(i) := xi , i ∈ IM .

Munendo lo spazio campionario IM della probabilità uniforme, media e varianza di X sono date da
M M
1 X 1 X
E [X] = xi , var(X) = (xi − E [x])2 .
M M
i=1 i=1

In Statistica, E [X] e var(X) sono chiamate la media campionaria e la varianza campionaria della serie storica
x e sono spesso indicate con E [x] e var(x) rispettivamente.
Siano ora x = (x1 , . . . , xM ) e y = (y1 , . . . , yM ) due serie storiche. Un semplice strumento per visualizzare
il grado di “dipendenza” fra x e y è il cosiddetto grafico di dispersione: in esso si rappresentano sul piano
cartesiano i punti di coordinate (xi , yi )i∈IM . Un esempio è dato in Figura 3.6.
La retta di regressione, tracciata nel grafico di dispersione in Figura 3.6, è la retta di equazione y = ax + b
dove a, b minimizzano le differenze fra axi + b e yi nel senso che rendono minimo l’errore quadratico
M
X
Q(a, b) = (axi + b − yi )2 .
i=1

Annullando il gradiente

 XM M
X 
(∂a Q(a, b), ∂b Q(a, b)) = 2 (axi + b − yi ) xi , 2 (axi + b − yi )
i=1 i=1

si determinano a, b: precisamente un semplice conto mostra che


σxy σxy
a= , b = E [y] − E [x] , (3.2.22)
σx2 σx2
124 CAPITOLO 3. VARIABILI ALEATORIE

30
30

25

20

20

10 15

10

Bologna
Jan Mar May Jul Sep Nov Jan -5 5 10 15 20 25 30

Figura 3.6: A sinistra: temperature nell’anno 2012 di Bologna (linea continua) e Città del Capo (linea
tratteggiata). A destra: grafico di dispersione delle temperature nell’anno 2012 di Bologna (in ascissa) e
Città del Capo (in ordinata).

dove σx2 = var(x) e


M
1 X
σxy = cov(x, y) = (xi − E [x]) (yi − E [y])
M
i=1

è la covarianza campionaria (o empirica) di x e y. Si noti l’analogia con le formule (3.2.21).


La covarianza σxy è proporzionale e ha lo stesso segno del coefficiente angolare della retta di regressione.
σxy è un indicatore della dipendenza lineare fra x e y: se σxy = 0, ossia x e y sono campioni scorrelati, non
c’è dipendenza lineare (ma potrebbe esserci dipendenza di altro tipo); se σxy > 0 i campioni dipendono
linearmente in modo positivo, la retta di regressione è crescente e questo indica che y tende a crescere al
crescere di x.
La quantità
σxy
ϱxy =
σx σy
è detta correlazione campionaria (o empirica) fra x e y. La correlazione ha il vantaggio di essere invariante
per cambi di scala: per ogni α, β > 0 la correlazione fra αx e βy è uguale alla correlazione fra x e y. Per la
disuguaglianza di Cauchy-Schwarz, si ha ϱxy ∈ [−1, 1]. Inoltre ϱxy = ±1 se e solo se Q(a, b) = 0 con a, b come
in (3.2.22).

3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta


In questa sezione consideriamo un vettore di v.a. X = (X1 , . . . , Xn ) sullo spazio (Ω, F , P ) ed esaminiamo
la relazione fra X e le sue componenti. Assumiamo che

Xi : Ω −→ Rdi , i = 1, . . . , n,

con di ∈ N e poniamo d = d1 + · · · + dn .

Notazione 3.2.44. Al solito indichiamo con µX e FX rispettivamente la distribuzione e la funzione di


ripartizione (CDF) di X. Esamineremo con particolare attenzione i casi in cui:

i) X è assolutamente continua: in tal caso indichiamo con γX la sua densità (che è definita univocamente
a meno di insiemi Lebesgue-trascurabili);
3.2. VALORE ATTESO 125

ii) X è discreta: in tal caso indichiamo con µ̄X la sua funzione di distribuzione definita da µ̄X (x) = P (X =
x).
Nel seguito useremo sempre notazioni vettoriali: in particolare, se x, y ∈ Rd allora x ≤ y significa xi ≤ yi per
ogni i = 1, . . . , d, e
] − ∞, x] := ] − ∞, x1 ] × · · · × ] − ∞, xd ].
Definizione 3.2.45. Si dice che µX e FX sono rispettivamente la distribuzione congiunta e la CDF congiunta
delle v.a. X1 , . . . , Xn . Analogamente, nel caso esistano, γX e µ̄X sono la densità congiunta e la funzione di
distribuzione congiunta di X1 , . . . , Xn .
Viceversa, le distribuzioni µXi , i = 1, . . . , n, delle v.a. X1 , . . . , Xn sono dette distribuzioni marginali di X.
Analogamente si parla di CDF marginali, densità marginali e funzioni di distribuzione marginali di X.
La seguente proposizione mostra che dalla congiunta si possono ricavare facilmente le marginali. Nel-
l’enunciato, per semplificare le notazioni, consideriamo solo le marginali per la prima componente X1 ma
un risultato analogo è valido per ogni componente.
Proposizione 3.2.46. [!] Sia X = (X1 , . . . , Xn ) una v.a. Si ha:

µX1 (H) = µX (H × Rd−d1 ), H ∈ Bd1 , (3.2.23)


d1
FX1 (x1 ) = FX (x1 , +∞, . . . , +∞), x1 ∈ R .

Inoltre, se X ∈ AC allora X1 ∈ AC e
Z
γX1 (x1 ) := γX (x1 , x2 , . . . , xn )dx2 · · · dxn , x1 ∈ Rd1 (3.2.24)
Rd−d1

è una densità di X1 . Se X è discreta allora X1 è discreta e si ha


X
µ̄X1 (x1 ) = µ̄X (x1 , x2 , . . . , xn ), x1 ∈ Rd1 . (3.2.25)
(x2 ,...,xn )∈Rd−d1

Dimostrazione. Basta osservare che

µX1 (H) = P (X1 ∈ H) = P (X ∈ H × Rd−d1 ) = µX (H × Rd−d1 ), H ∈ Bd1 .

Prendendo H = ] − ∞, x1 ] si dimostra la seconda uguaglianza. Inoltre, se X ∈ AC, per la (3.2.23) si ha

P (X1 ∈ H) = P (X ∈ H × Rd−d1 )
Z
= γX (x)dx =
H×Rd−d1

(per il classico Teorema di Fubini per l’integrale di Lebesgue, essendo γX non-negativa)


Z Z !
= γX (x1 , . . . , xn )dx2 · · · dxn dx1
H Rd−d1

che prova la (3.2.24). Infine si ha

µ̄X1 (x1 ) = P (X1 = x1 ) = P (X ∈ {x1 } × Rd−d1 ) =

(per la (2.4.3))
X X
= µ̄X (x) = µ̄X (x1 , x2 , . . . , xn ).
x∈{x1 }×Rd−d1 (x2 ,...,xn )∈Rd−d1
126 CAPITOLO 3. VARIABILI ALEATORIE

Osservazione 3.2.47 (Criterio di Sylvester). Ricordiamo che una matrice C di dimensione d × d è detta
definita positiva se vale
⟨Cx, x⟩ > 0, x ∈ Rd \ {0}.
In base all’utile criterio di Sylvester, una matrice reale simmetrica C è definita positiva se e solo se dk > 0
per ogni k = 1, . . . , d, dove dk indica il determinante della matrice ottenuta cancellando da C le ultime d − k
righe e le ultime d − k colonne.
Esempio 3.2.48. [!] Consideriamo una matrice simmetrica e definita positiva
!
v1 c
C= .
c v2

Per il criterio di Sylvester si ha


v1 > 0 e det C = v1 v2 − c2 > 0.
Allora C è invertibile con !
−1 1 v2 −c
C =
v1 v2 − c2 −c v1
e la funzione Gaussiana bidimensionale
1 1 −1
Γ (x) = √ e− 2 ⟨C x,x⟩ , x ∈ R2 ,
2π det C
è una densità poiché è una funzione positiva e vale
Z
Γ (x)dx = 1.
R2

La funzione Γ è detta densità della distribuzione normale bidimensionale: se X = (X1 , X2 ) ha densità Γ allora
si dice che X ha distribuzione normale bidimensionale e si scrive X ∼ N0,C .
In base alla Proposizione 3.2.46 le densità marginali di X1 e X2 sono rispettivamente
x2
Z
1 − 1
γX1 (x1 ) = Γ (x1 , x2 )dx2 = √ e 2v1 , x1 ∈ R,
R 2πv1
x2
Z
1 − 2
γX2 (x2 ) = Γ (x1 , x2 )dx1 = √ e 2v2 , x2 ∈ R,
R 2πv2
ossia X1 ∼ N0,v1 e X2 ∼ N0,v2 , indipendentemente dal valore di c ∈ R. D’altra parte vale
Z
cov(X1 , X2 ) = E [(X1 − E [X1 ])(X2 − E [X2 ])] = x1 x2 Γ (x1 , x2 )dx1 dx2 = c.
R2

Dunque la distribuzione congiunta fornisce informazioni non solo sulle singole distribuzioni marginali, ma
anche sulle relazioni fra le diverse componenti di X. Al contrario, a partire dalla conoscenza delle distribuzioni
marginali, X1 ∼ N0,v1 e X2 ∼ N0,v2 , non si può dire nulla sulla covarianza di X1 , X2 : in generale, non è
possibile ricavare la distribuzione congiunta dalle marginali. Al riguardo si veda anche l’Esempio 3.3.24.

3.3 Indipendenza
Nella teoria della probabilità, una delle questioni di maggior interesse teorico e applicativo riguarda l’e-
sistenza e il grado di dipendenza fra quantità aleatorie. Per esempio, abbiamo già visto che la correlazione
è un indice di un particolare tipo di dipendenza, quella lineare, fra variabili aleatorie. In questo paragra-
fo diamo una trattazione generale dell’argomento introducendo i concetti di dipendenza deterministica e
indipendenza stocastica.
3.3. INDIPENDENZA 127

3.3.1 Dipendenza deterministica e indipendenza stocastica


In questa prima sezione, per semplicità, ci limitiamo a considerare il caso di due v.a. reali X, Y sullo
spazio (Ω, F , P ). Poiché useremo sistematicamente il concetto di σ -algebra generata da X, ne ricordiamo la
definizione:
σ (X) = X −1 (B) = {(X ∈ H) | H ∈ B}.

Definizione 3.3.1. Diciamo che:

i) X e Y sono stocasticamente indipendenti in P se gli eventi (X ∈ H) e (Y ∈ K) sono indipendenti in P


per ogni H, K ∈ B. In altri termini, X e Y sono indipendenti in P se lo sono le rispettive σ -algebre
generate, nel senso che gli elementi di σ (X) e σ (Y ) sono a due a due indipendenti in P ;

ii) X dipende in modo deterministico da Y se sussiste la seguente inclusione

σ (X) ⊆ σ (Y ), (3.3.1)

ossia se X è σ (Y )-misurabile e in tal caso si scrive X ∈ mσ (Y ).

Osservazione 3.3.2. [!] Siano Y una v.a. e f ∈ mB. Come visto in (3.1.1), vale
 
σ (f (Y )) = (f ◦ Y )−1 (B) = Y −1 f −1 (B) ⊆ Y −1 (B) = σ (Y ).

da cui
σ (f (Y )) ⊆ σ (Y ). (3.3.2)
Quindi X := f (Y ) dipende in modo deterministico da Y . Dall’inclusione (3.1.9) si deduce anche il seguente
utile risultato: se f , g ∈ mB e X, Y sono v.a. indipendenti, allora anche le v.a. f (X), g(Y ) sono indipendenti.

Il seguente teorema chiarisce il significato dell’inclusione (3.3.1), caratterizzandola in termini di dipen-


denza funzionale di X da Y .

Teorema 3.3.3 (Teorema di Doob). [!!] Siano X, Y v.a. reali su (Ω, F , P ). Allora X ∈ mσ (Y ) se e solo se
esiste f ∈ mB tale che X = f (Y ).

Osservazione 3.3.4. Il Teorema di Doob rimane valido (con dimostrazione pressoché identica) nel caso in
cui X sia a valori in Rd e Y sia a valori in un generico spazio misurabile (E, E ). L’enunciato generale è il
seguente: X ∈ mσ (Y ) se e solo se esiste una funzione misurabile14 f : E −→ Rd tale che X = f (Y ).

X
 
(Ω, F ) Rd , Bd

Y f
(E, E )

Dimostrazione del Teorema 3.3.3. Se X = f (Y ) con f ∈ mB allora X ∈ mσ (Y ): ciò segue direttamente dalla
(3.3.2). Viceversa, sia X ∈ mσ (Y ). Utilizzando una trasformazione del tipo

1 1
Z= + arctan X
2 π
non è restrittivo assumere che X sia a valori in ]0, 1[.
14 f ∈ mE , ossia f −1 (H) ∈ E per ogni H ∈ B .
d
128 CAPITOLO 3. VARIABILI ALEATORIE

Consideriamo prima il caso in cui X è semplice, ossia X assume solo i valori distinti x1 , . . . , xm ∈ ]0, 1[ e
quindi si scrive nella forma
Xm
X= xk 1(X=xk ) .
k=1

Per ipotesi, si ha (X = xk ) = (Y ∈ Hk ) con Hk ∈ B, k = 1, . . . , m. Allora posto


m
X
f (y) = xk 1Hk (y), y ∈ R,
k=1

si ha
m
X m
X m
X
f (Y ) = xk 1Hk (Y ) = xk 1(Y ∈Hk ) = xk 1(X=xk ) = X.
k=1 k=1 k=1

Consideriamo ora il caso generale in cui X assume valori in ]0, 1[: per il Lemma 3.2.3 esiste una
successione (Xn )n≥1 di v.a. semplici e σ (Y )-misurabili tali che

0 ≤ Xn (ω) ↗ X(ω), ω ∈ Ω. (3.3.3)

Per quanto provato nel punto precedente, si ha Xn = fn (Y ) con fn ∈ mB a valori in [0, 1[. Definiamo

f (y) := lim sup fn (y), y ∈ R.


n→∞

Allora f ∈ mB (cfr. Proposizione 3.1.8) è limitata e per la (3.3.3) si ha

X(ω) = lim Xn (ω) = lim fn (Y (ω)) = f (Y (ω)), ω ∈ Ω.


n→∞ n→∞

Corollario 3.3.5. Siano X, Y , Z v.a. reali su (Ω, F , P ) con X ≥ Z. Se X, Z ∈ mσ (Y ) esistono f , g ∈ mB tali che
X = f (Y ), Z = g(Y ) e f ≥ g.

Dimostrazione. Nel caso Z ≡ 0 la tesi è conseguenza della costruzione di f fatta nella dimostrazione del
Teorema 3.3.3. Nel caso generale, poiché 0 ≤ X − Z ∈ mσ (Y ) esiste 0 ≤ h ∈ mB tale che X − Z = h(Y ). Inoltre
esiste f ∈ mσ (Y ) tale che Z + h(Y ) = X = f (Y ) e quindi Z = (f − h)(Y ) con f ≥ f − h ∈ mσ (Y ).

Per capire il concetto di dipendenza deterministica si esamini attentamente il seguente

Esercizio 3.3.6. [!] Consideriamo Ω = {1, 2, 3} e le v.a. X, Y di Bernoulli definite su Ω nel modo seguente
 
1 se ω ∈ {1, 2}, 1 se ω = 1,

 

X(ω) =  Y (ω) = 
0 se ω = 3,
 0 se ω ∈ {2, 3}.

Notiamo che
σ (X) = {∅, Ω, {1, 2}, {3}}, σ (Y ) = {∅, Ω, {1}, {2, 3}}.

i) Verificare direttamente che non esiste una funzione f tale che X = f (Y ).

ii) Le v.a. X e Y sono indipendenti rispetto alla probabilità uniforme?

iii) Esiste una misura di probabilità su Ω rispetto alla quale X e Y sono indipendenti?
3.3. INDIPENDENZA 129

Soluzione.
i) Se esistesse una tale funzione f allora si avrebbe
1 = X(2) = f (Y (2)) = f (0) = f (Y (3)) = X(3) = 0
che è assurdo. Dunque fra X e Y non c’è dipendenza deterministica. Notiamo che, in accordo col Teorema 3.3.3, non sussistono
relazioni di inclusione fra σ (X) e σ (Y ).
ii) X e Y non sono indipendenti nella probabilità uniforme perché gli eventi (X = 1) = {1, 2} e (Y = 0) = {2, 3} non sono
indipendenti in quanto
1
P ((X = 1) ∩ (Y = 0)) = P ({2}) =
3
ma
4
P (X = 1)P (Y = 0) = .
9
iii) Sı̀, per esempio la probabilità definita da P (1) = P (3) = 0 e P (2) = 1: più in generale, X e Y sono indipendenti rispetto
ad una probabilità tipo Delta di Dirac centrata in 1 o 2 o 3 (si veda al riguardo il punto i) dell’esercizio seguente).
Osservazione 3.3.7. [!] L’Esercizio 3.3.6 ci permette di ribadire che il concetto di indipendenza stocastica
è sempre relativo ad una particolare misura di probabilità fissata. Al contrario, la dipendenza deterministica
è una proprietà generale che non dipende dalla misura di probabilità considerata. In particolare, i concetti di
indipendenza stocastica e di dipendenza deterministica non sono “uno il contrario dell’altro”. Fra l’altro,
la dipendenza deterministica “va in una direzione”: se X dipende in modo deterministico da Y non è detto
che Y dipenda in modo deterministico da X.
Esercizio 3.3.8. Siano X, Y v.a. discrete su (Ω, P ). Provare le seguenti affermazioni:
q.c.
i) se X è costante quasi certamente, X = c, allora X, Y sono indipendenti;
ii) sia
f : X(Ω) −→ R
una funzione iniettiva. Allora X e f (X) sono indipendenti in P se e solo se X è costante q.c.
Soluzione.
i) Osservando che P (X ∈ H) ∈ {0, 1} per ogni H ∈ B, non è difficile provare la tesi.
ii) È sufficiente provare che se X e f (X) sono indipendenti allora X è costante q.c. Sia y ∈ X(Ω): essendo f iniettiva si ha
(X = y) = (f (X) = f (y)) o più esplicitamente
{ω ∈ Ω | X(ω) = y} = {ω ∈ Ω | f (X(ω)) = f (y)}.
Allora si ha  
P (X = y) = P (X = y) ∩ (f (X) = f (y)) = P (X = y)P (f (X) = f (y)) = P (X = y)2
da cui segue P (X = y) ∈ {0, 1} e dunque la tesi.

3.3.2 Misura prodotto e Teorema di Fubini


Per studiare in maniera più approfondita il concetto di indipendenza stocastica fra due o più variabili
aleatorie, presentiamo alcuni risultati preliminari sul prodotto di misure che svolgeranno un ruolo centrale
nel seguito. Dati due spazi misurabili finiti (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 ), consideriamo il prodotto cartesiano
Ω := Ω1 × Ω2 = {(x, y) | x ∈ Ω1 , y ∈ Ω2 },
e la famiglia dei rettangoli definita nel modo seguente
R := {A × B | A ∈ F1 , B ∈ F2 }.
Indichiamo con
F1 ⊗ F2 := σ (R)
la σ -algebra generata dai rettangoli, anche chiamata σ -algebra prodotto di F1 e F2 . Vale la seguente
generalizzazione del Corollario 3.1.6 e dell’Osservazione 3.1.9.
130 CAPITOLO 3. VARIABILI ALEATORIE

Corollario 3.3.9. Per k = 1, 2, siano Xk : Ωk −→ R funzioni sugli spazi misurabili (Ωk , Fk ). Le seguenti
proprietà sono equivalenti:
i) (X1 , X2 ) ∈ m(F1 ⊗ F2 );
ii) Xk ∈ mFk per k = 1, 2.
Inoltre, se vale i) o ii) allora per ogni f ∈ mB2 si ha che f (X1 , X2 ) ∈ m(F1 ⊗ F2 ).
Osservazione 3.3.10. Ogni disco di R2 è unione numerabile di rettangoli e di conseguenza B ⊗ B = B2 . Al
contrario, se Ld indica la σ -algebra dei misurabili secondo Lebesgue in Rd , allora L1 ⊗ L1 è strettamente
incluso in L2 . Infatti, per esempio, se H ⊆ R non è misurabile secondo Lebesgue, allora H × {0} ∈ L2 \
(L1 ⊗ L1 ).
Lemma 3.3.11. Sia
f : Ω1 × Ω2 −→ R
una funzione F1 ⊗ F2 -misurabile e limitata. Allora si ha:
i) f (·, y) ∈ mF1 per ogni y ∈ Ω2 ;
ii) f (x, ·) ∈ mF2 per ogni x ∈ Ω1 .
Dimostrazione. Sia H la famiglia delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i)
e ii). Allora H è una famiglia monotona di funzioni (cfr. Definizione A.1.7). La famiglia R è ∩-chiusa,
genera F1 ⊗ F2 ed è chiaro che 1A×B ∈ H per ogni (A × B) ∈ R. Allora la tesi segue dal secondo Teorema di
Dynkin (Teorema A.1.8).
Osservazione 3.3.12. Il classico Teorema di Fubini per l’integrale di Lebesgue afferma che se f = f (x, y) ∈
mL2 (ossia f è misurabile rispetto alla σ -algebra L2 dei Lebesgue-misurabili di R2 ) allora f (x, ·) ∈ mL1 per
quasi ogni x ∈ R. Si noti la differenza rispetto al Lemma 3.3.11 in cui si afferma che “f (x, ·) ∈ mF2 per ogni
x ∈ Ω1 ”. Ciò è dovuto al fatto che, come abbiamo già osservato, L1 ⊗ L1 è strettamente incluso in L2 . Per
maggiori dettagli rimandiamo alla sezione “Completion of product measure”, Cap.8 in [66].
Lemma 3.3.13. Se f è una funzione F1 ⊗ F2 -misurabile e limitata allora si ha:
R
i) x 7→ f (x, y)µ2 (dy) ∈ mF1 ;
Ω2
R
ii) y 7→ f (x, y)µ1 (dx) ∈ mF2 ;
Ω1

iii) vale Z Z ! Z Z !
f (x, y)µ2 (dy) µ1 (dx) = f (x, y)µ1 (dx) µ2 (dy).
Ω1 Ω2 Ω2 Ω1

Dimostrazione. Come nel lemma precedente, la tesi segue dal secondo Teorema di Dynkin applicato alla
famiglia H delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i), ii) e iii). Infatti H è
una famiglia monotona di funzioni e 1A×B ∈ H per ogni (A × B) ∈ R.
Proposizione 3.3.14 (Misura prodotto). La funzione definita da
Z Z ! Z Z !
µ(H) := 1H dµ2 dµ1 = 1H dµ1 dµ2 , H ∈ F1 ⊗ F2 ,
Ω1 Ω2 Ω2 Ω1

è l’unica misura finita su F1 ⊗ F2 tale che


µ(A × B) = µ1 (A)µ2 (B), A ∈ F1 , B ∈ F2 .
Scriviamo µ = µ1 ⊗ µ2 e diciamo che µ è la misura prodotto di µ1 e µ2 .
3.3. INDIPENDENZA 131

Dimostrazione. Il fatto che µ sia una misura segue dalla linearità dell’integrale e dal Teorema di Beppo-Levi.
L’unicità segue dal Corollario A.1.5, poiché R è ∩-chiusa e genera F1 ⊗ F2 .

Teorema 3.3.15 (Teorema di Fubini). [!!!] Sullo spazio prodotto (Ω1 × Ω2 , F1 ⊗ F2 , µ1 ⊗ µ2 ), sia f una
funzione (F1 ⊗ F2 )-misurabile a valori reali. Se f è non-negativa oppure sommabile (ossia, f ∈ L1 (Ω1 ×
Ω2 , µ1 ⊗ µ2 )) allora si ha:
Z Z Z !
f d(µ1 ⊗ µ2 ) = f (x, y)µ2 (dy) µ1 (dx)
Ω1 ×Ω2 Ω1 Ω2
Z Z ! (3.3.4)
= f (x, y)µ1 (dx) µ2 (dy).
Ω2 Ω1

Dimostrazione. La (3.3.4) è vera se f = 1A×B e quindi, per il secondo Teorema di Dynkin, anche per f
misurabile e limitata. Il Teorema di Beppo-Levi e la linearità dell’integrale assicurano la validità di (3.3.4)
rispettivamente per f non-negativa e f ∈ L1 .

Osservazione 3.3.16. Il Teorema 3.3.15 resta valido sotto l’ipotesi che gli spazi (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 )
siano σ -finiti. A partire dal Teorema 3.3.15, si definisce per induzione la misura prodotto di più di due
misure
µ1 ⊗ · · · ⊗ µn .

Esempio 3.3.17. Sia µ = Expλ ⊗ Bep la misura prodotto su R2 delle distribuzioni esponenziale Expλ e di
Bernoulli Bep . Per il Teorema di Fubini, il calcolo dell’integrale di f ∈ L1 (R2 , µ) si svolge nel modo seguente:
" Z Z !
f (x, y)µ(dx, dy) = f (x, y)Bep (dy) Expλ (dx)
R2
ZR R

= (pf (x, 1) + (1 − p)f (x, 0)) Expλ (dx)


R
Z +∞ Z +∞
−λx
= pλ f (x, 1)e dx + (1 − p)λ f (x, 0)e−λx dx.
0 0

3.3.3 Indipendenza fra σ -algebre


Poiché la definizione generale di indipendenza di v.a. è data in termini di indipendenza delle relative
σ -algebre generate, esaminiamo prima il concetto di indipendenza fra σ -algebre. Nel seguito (Ω, F , P ) è
uno spazio di probabilità fissato e I è una qualsiasi famiglia di indici.

Definizione 3.3.18. Diciamo che le famiglie di eventi Fi , con i ∈ I, sono indipendenti in P se vale
 n  n
\  Y
P  Ak  =
 P (Ak ),
k=1 k=1

per ogni scelta di un numero finito di indici i1 , . . . , in e Ak ∈ Fik per k = 1, . . . , n.

Esercizio 3.3.19. Sia σ (A) = {∅, Ω, A, Ac } la σ -algebra generata da A ∈ F . Dimostrare che A1 , . . . , An ∈ F


sono indipendenti in P (cfr. Definizione 2.3.27) se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .

A volte può essere utile il seguente corollario del Teorema di Dynkin.

Lemma 3.3.20. Siano A1 , . . . , An famiglie di eventi in (Ω, F , P ), chiuse rispetto all’intersezione. Allora
A1 , . . . , An sono indipendenti in P se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .
132 CAPITOLO 3. VARIABILI ALEATORIE

Dimostrazione. Proviamo il caso n = 2: la dimostrazione generale è analoga. Fissiamo A ∈ A1 e definiamo


le misure finite
µ(B) = P (A ∩ B), ν(B) = P (A)P (B), B ∈ σ (A2 ).
Per ipotesi µ = ν su A2 e inoltre µ(Ω) = P (A) = ν(Ω), quindi per il Corollario A.1.5 µ = ν su σ (A2 ) o, in altri
termini
P (A ∩ B) = P (A)P (B), B ∈ σ (A2 ).
Ora fissiamo B ∈ σ (A2 ) e definiamo le misure finite

µ(B) = P (A ∩ B), ν(B) = P (A)P (B), A ∈ σ (A1 ).

Abbiamo provato che µ = ν su A1 e ovviamente µ(Ω) = P (B) = ν(Ω), quindi ancora per il Corollario A.1.5
si ha µ = ν su σ (A1 ) che equivale alla tesi.

3.3.4 Indipendenza fra vettori aleatori


Assumiamo le ipotesi e notazioni della Sezione 3.2.10 e introduciamo l’importante concetto di indipen-
denza fra v.a.

Definizione 3.3.21 (Indipendenza di v.a.). Diciamo che le v.a. X1 , . . . , Xn , definite sullo spazio (Ω, F , P ),
sono indipendenti in P se le relative σ -algebre generate σ (X1 ), . . . , σ (Xn ) sono indipendenti in P o, equiva-
lentemente, se vale  n 
\  Yn
P  (Xi ∈ Hi ) =
 P (Xi ∈ Hi ), Hi ∈ Bdi , i = 1, . . . , n.
i=1 i=1

Osservazione 3.3.22. [!] Come conseguenza della (3.3.2), se X1 , . . . , Xn sono v.a. indipendenti su (Ω, F , P ) e
f1 , . . . , fn ∈ mB allora anche le v.a. f1 (X1 ), . . . , fn (Xn ) sono indipendenti in P : in altri termini, la proprietà di in-
dipendenza è invariante per trasformazioni di tipo deterministico (nello specifico, l’operazione di composizione
con funzioni misurabili).
Per esempio, supponiamo che X1 , . . . , Xn , Y1 , . . . , Ym siano v.a. reali e X := (X1 , . . . , Xn ) e Y := (Y1 , . . . , Ym )
siano indipendenti. Allora sono indipendenti anche le seguenti coppie di variabili aleatorie15

i) Xi e Yj per ogni i e j;

ii) Xi1 + Xi2 e Yj1 + Yj2 per ogni i1 , i2 , j1 , j2 ;

iii) Xi2 e Y per ogni i.

Il seguente risultato fornisce un’importante caratterizzazione della proprietà di indipendenza. Esso


mostra anche che, nel caso di v.a. indipendenti, la distribuzione congiunta può essere ricavata dalle distribuzioni
marginali. Per chiarezza d’esposizione, enunciamo prima il risultato nel caso particolare di due v.a. e in
seguito diamo il risultato generale.

Teorema 3.3.23. [!!] Siano X1 , X2 v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 e Rd2 . Le seguenti tre
proprietà sono equivalenti:

i) X1 , X2 sono indipendenti in P ;

ii) F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 )FX2 (x2 ) per ogni x1 ∈ Rd1 e x2 ∈ Rd2 ;

iii) µ(X1 ,X2 ) = µX1 ⊗ µX2 .

Inoltre, se (X1 , X2 ) ∈ AC allora le proprietà precedenti sono anche equivalenti a:


15 Per esercizio determinare le funzioni misurabili con cui si compongono X e Y .
3.3. INDIPENDENZA 133

iv) per quasi ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale

γ(X1 ,X2 ) (x1 , x2 ) = γX1 (x1 )γX2 (x2 ). (3.3.5)

Infine, se (X1 , X2 ) è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:
v) per ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale

µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ). (3.3.6)

Dimostrazione. [i) =⇒ ii)] Si ha

F(X1 ,X2 ) (x1 , x2 ) = P ((X1 ≤ x1 ) ∩ (X2 ≤ x2 )) =

(per l’ipotesi di indipendenza)

= P (X1 ≤ x1 )P (X2 ≤ x2 ) = FX1 (x1 )FX2 (x2 ).

[ii) =⇒ iii)] L’ipotesi F(X1 ,X2 ) = FX1 FX2 implica che le distribuzioni µ(X1 ,X2 ) e µX1 ⊗ µX2 coincidono sulla
famiglia dei pluri-intervalli ] − ∞, x1 ]× ] − ∞, x2 ]: la tesi segue dall’unicità dell’estensione della misura del
Teorema 2.4.29 di Carathéodory (oppure si veda il Corollario A.1.5, poiché la famiglia dei pluri-intervalli
è ∩-chiusa e genera Bd1 +d2 ).
[iii) =⇒ i)] Per ogni H ∈ Bd1 e K ∈ Bd2 si ha

P ((X1 ∈ H) ∩ (X2 ∈ K)) = µ(X1 ,X2 ) (H × K) =

(poiché per ipotesi µ(X1 ,X2 ) = µX1 ⊗ µX2 )

= µX1 (H)µX2 (K) = P (X1 ∈ H)P (X2 ∈ K)

da cui l’indipendenza di X1 e X2 .
Assumiamo ora che (X1 , X2 ) ∈ AC e quindi, per la Proposizione 3.2.46, anche X1 , X2 ∈ AC.
[i) =⇒ iv)] Per l’ipotesi di indipendenza, si ha
Z Z
P ((X1 , X2 ) ∈ H × K) = P (X1 ∈ H)P (X2 ∈ K) = γX1 (x1 )dx1 γX2 (x2 )dx2 =
H K

(per il Teorema di Fubini e con la notazione x = (x1 , x2 ) per il punto di Rd1 +d2 )
Z
= γX1 (x1 )γX2 (x2 )dx
H×K

e quindi γX1 γX2 è densità di (X1 , X2 ).


[iv) =⇒ i)] Si ha
Z
P ((X1 , X2 ) ∈ H × K) = γ(X1 ,X2 ) (x)dx =
H×K

(per ipotesi)
Z
= γX1 (x1 )γX2 (x2 )dx
H×K
134 CAPITOLO 3. VARIABILI ALEATORIE

(per il Teorema di Fubini)


Z Z
= γX1 (x1 )dx1 γX2 (x2 )dx2 = P (X1 ∈ H)P (X2 ∈ K),
H K

da cui l’indipendenza di X1 e X2 .
Infine assumiamo che la v.a. (X1 , X2 ) sia discreta e quindi, per la Proposizione 3.2.46, anche X1 , X2 lo
siano. La dimostrazione è del tutto analoga al caso precedente.
[i) =⇒ v)] Per l’ipotesi di indipendenza, si ha

µ̄(X1 ,X2 ) (x1 , x2 ) = P ((X1 = x1 ) ∩ (X2 = x2 )) = P (X1 = x1 )P (X2 = x2 ) = µ̄X1 (x1 )µ̄X2 (x2 )

da cui la (3.3.6).
[v) =⇒ i)] Si ha
X
P ((X1 , X2 ) ∈ H × K) = µ̄(X1 ,X2 ) (x1 , x2 ) =
(x1 ,x2 )∈H×K

(per ipotesi)
X
= µ̄X1 (x1 )µ̄X2 (x2 ) =
(x1 ,x2 )∈H×K

(essendo i termini della somma non-negativi)


X X
= µ̄X1 (x1 ) µ̄X2 (x2 ) = P (X1 ∈ H)P (X2 ∈ K),
x1 ∈H x2 ∈K

da cui l’indipendenza di X1 e X2 .
Il seguente esempio mostra due coppie di v.a. con uguali distribuzioni marginali ma diverse distribu-
zioni congiunte.
Esempio 3.3.24. [!] Consideriamo un’urna contenente n palline numerate. Siano:
i) X1 , X2 i risultati di due estrazioni successive con reinserimento;
ii) Y1 , Y2 i risultati di due estrazioni successive senza reinserimento.
È naturale assumere che le v.a. X1 , X2 abbiano distribuzione uniforme Unifn e siano indipendenti: per il
Teorema 3.3.23-v) la funzione di distribuzione congiunta è
1
µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ) = , (x1 , x2 ) ∈ In × In ,
n2
dove, al solito, In = {1, . . . , n}.
La v.a. Y1 ha distribuzione uniforme Unifn ma non è indipendente da Y2 . Per ricavare la funzione
di distribuzione congiunta utilizziamo la conoscenza della probabilità che la seconda estrazione sia y2 ,
condizionata al fatto che la prima pallina estratta sia y1 :

1
 n−1 se y2 ∈ In \ {y1 },


P (Y2 = y2 | Y1 = y1 ) = 
0
 se y2 = y1 .

Allora abbiamo
   
P (Y1 , Y2 ) = (y1 , y2 ) = P (Y1 = y1 ) ∩ (Y2 = y2 )
3.3. INDIPENDENZA 135

= P (Y2 = y2 | Y1 = y1 ) P (Y1 = y1 ) (3.3.7)

da cui 
1

 n(n−1)
 se y1 , y2 ∈ In , y1 , y2 ,
µ̄(Y1 ,Y2 ) (y1 , y2 ) = 
0
 altrimenti.
Sottolineiamo l’importanza del passaggio (3.3.7) in cui, non potendo sfruttare l’indipendenza, abbiamo
usato la formula di moltiplicazione (2.3.5). Avendo µ̄(Y1 ,Y2 ) , possiamo ora calcolare µ̄Y2 mediante la (3.2.25)
della Proposizione 3.2.46: per ogni y2 ∈ In abbiamo
X X 1 1
µ̄Y2 (y2 ) = µ̄(Y1 ,Y2 ) (y1 , y2 ) = = ,
n(n − 1) n
y1 ∈In y1 ∈In \{y2 }

ossia anche Y2 ∼ Unifn . In definitiva Y1 , Y2 hanno distribuzioni marginali uniformi come X1 , X2 , ma


differente distribuzione congiunta.
Il Teorema 3.3.23 si estende al caso di un numero finito di v.a. nel modo seguente:
Teorema 3.3.25. [!!] Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ) e d = d1 + · · · + dn , le seguenti tre proprietà sono equivalenti:
i) X1 , . . . , Xn sono indipendenti in P ;
ii) per ogni x = (x1 , . . . , xn ) ∈ Rd si ha
n
Y
FX (x1 , . . . , xn ) = FXi (xi ); (3.3.8)
i=1

iii) vale
µX = µX1 ⊗ · · · ⊗ µXn .

Inoltre, se X ∈ AC allora le proprietà precedenti sono anche equivalenti a:


iv) per quasi ogni x = (x1 , . . . , xn ) ∈ Rd vale
n
Y
γX (x) = γXi (xi ).
i=1

Infine, se X è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:
v) per ogni x ∈ Rd vale
n
Y
µ̄X (x) = µ̄Xi (xi ).
i=1

Nella Sezione 3.1.1 abbiamo provato che è possibile costruire uno spazio di probabilità su cui è definito
un vettore aleatorio (X1 , . . . , Xn ) con distribuzione assegnata (cfr. Osservazione 3.1.16). Come semplice
conseguenza si ha anche:
Corollario 3.3.26 (Esistenza di v.a. indipendenti). [!]
Siano µk distribuzioni su Rdk , k = 1, . . . , n. Esiste uno spazio di probabilità (Ω, F , P ) su cui sono definite
X1 , . . . , Xn v.a. tali che Xk ∼ µk per k = 1, . . . , n e siano indipendenti in P .
Dimostrazione. Consideriamo la distribuzione prodotto µ = µ1 ⊗ · · · ⊗ µn su Rd con d = d1 + · · · + dn . Per
l’Osservazione 3.1.16, la funzione identità X(ω) = ω è una v.a. su (Rd , Bd , µ) con X ∼ µ. Per il Teorema
3.3.25, le componenti di X verificano la tesi.
136 CAPITOLO 3. VARIABILI ALEATORIE

Osservazione 3.3.27. Nella dimostrazione precedente la costruzione di numero n di variabili aleatorie in-
dipendenti avviene prendendo come spazio campionario lo spazio Euclideo di dimensione almeno pari a n.
Questo fatto fa intuire che il problema della costruzione di una successione (o, ancor peggio, di una famiglia
non numerabile) di v.a. indipendenti non è altrettanto semplice perché, per analogia, lo spazio campionario
dovrebbe avere dimensione infinita.

3.3.5 Indipendenza e valore atteso


Vediamo un’importante conseguenza del Teorema 3.3.23.
Teorema 3.3.28. [!!] Siano X, Y v.a. reali indipendenti sullo spazio (Ω, F , P ). Se X, Y ≥ 0 oppure X, Y ∈
L1 (Ω, P ) allora si ha
E [XY ] = E [X] E [Y ] .
Dimostrazione. Si ha
Z
E [XY ] = xyµ(X,Y ) (d(x, y))
R2

(per la iii) del Teorema 3.3.23)


Z
= xy(µX ⊗ µY )(d(x, y))
R2

(per il Teorema di Fubini)


Z Z
= xµX (dx) yµY (dy) = E [X] E [Y ] .
R R

Osservazione 3.3.29. Si ricordi che, per l’Esercizio 3.2.35, in generale X, Y ∈ L1 (Ω, P ) non implica XY ∈
L1 (Ω, P ): tuttavia, per il Teorema 3.3.28, ciò è vero se X, Y sono indipendenti.
Corollario 3.3.30. Se X, Y ∈ L2 (Ω, P ) sono indipendenti allora sono scorrelate, ossia si ha

cov(X, Y ) = 0 e var(X + Y ) = var(X) + var(Y ). (3.3.9)

Dimostrazione. Se X, Y sono indipendenti anche Xe := X − E [X] e Y


e := Y − E [Y ] lo sono, per l’Osservazione
3.3.22: quindi si ha h i h i h i
cov(X, Y ) = E X e =E X
eY e E Y e = 0.

Ricordando la (3.2.19), si conclude che vale anche var(X + Y ) = var(X) + var(Y ).


Esempio 3.3.31. Un esempio di v.a. scorrelate ma non indipendenti è il seguente: sia Ω = {0, 1, 2} con la
probabilità uniforme P . Poniamo
 


1 ω = 0, 

0 ω = 0,
 
X(ω) = 0 ω = 1, Y (ω) = 1 ω = 1,
 

 

−1 ω = 2,
 0

ω = 2.

Allora si ha E [X] = 0 e XY = 0 da cui cov(X, Y ) = E [XY ]−E [X] E [Y ] = 0, ossia X, Y sono scorrelate. Tuttavia
1
P ((X = 1) ∩ (Y = 1)) = 0 e P (X = 1) = P (Y = 1) =
3
e quindi X, Y non sono indipendenti in P .
3.3. INDIPENDENZA 137

Esempio 3.3.32. [!] L’esempio precedente mostra che due v.a. scorrelate non sono necessariamente in-
dipendenti. Tuttavia nel caso della distribuzione normale bidimensionale (cfr. Esempio 3.2.48) vale il
seguente risultato: se (X1 , X2 ) ∼ N0,C e cov(X1 , X2 ) = 0 allora X1 , X2 sono indipendenti. Questo segue dal
Teorema 3.3.23-iv e dal fatto che se X1 , X2 sono scorrelate allora la densità congiunta è uguale al prodotto
delle densità marginali. Si noti che l’ipotesi che X1 , X2 abbiano distribuzione congiunta normale è cruciale:
al riguardo si veda l’Esempio 3.5.19.
Esempio 3.3.33. Consideriamo due v.a. indipendenti X ∼ N0,1 e Y ∼ Poissonλ . Per il Teorema 3.3.25, la
distribuzione congiunta di X, Y è
N0,1 ⊗ Poissonλ
e quindi, per ogni funzione misurabile e limitata, si ha
Z
f (x, y) N0,1 ⊗ Poissonλ (dx, dy) =

E [f (X, Y )] =
R2

(per il Teorema di Fubini)


Z Z
= f (x, y)N0,1 (dx)Poissonλ (dy)
R R
∞ x2
λn e− 2
X Z
−λ
=e f (x, n) √ dx.
n! R 2π
n=0
h i h i
Per esercizio, calcolare E eX+Y e E eXY .
Esempio 3.3.34. Consideriamo la distribuzione uniforme bidimensionale nel caso dei seguenti tre domini:
i) un quadrato: Q = [0, 1] × [0, 1];
ii) un cerchio: C = {(x, y) ∈ R2 | x2 + y 2 ≤ 1};
iii) un triangolo: T = {(x, y) ∈ R2≥0 | x + y ≤ 1}.
[Caso i)] La funzione di densità di (X, Y ) ∼ UnifQ è

γ(X,Y ) = 1[0,1]×[0,1] .

Quindi
Z
1
E [X] = x1[0,1]×[0,1] (x, y)dxdy = ,
R2 2
1 2
Z
1
 
var(X) = x−1[0,1]×[0,1] (x, y)dxdy = ,
2 2 12
ZR 
1 1
 
cov(X, Y ) = x− y − 1[0,1]×[0,1] (x, y)dxdy = 0,
R 2 2 2
e quindi X, Y sono scorrelate. Di più, siccome per la (3.2.24), la densità di X è
Z
γX = 1[0,1]×[0,1] (·, y)dy = 1[0,1]
R

e analogamente γY = 1[0,1] , si ha che X, Y sono indipendenti perché vale la (3.3.5).


[Caso ii)] La funzione di densità di (X, Y ) ∼ UnifC è
1
γ(X,Y ) = 1 .
π C
138 CAPITOLO 3. VARIABILI ALEATORIE

Quindi
Z
1
E [X] = x1 (x, y)dxdy = 0 = E [Y ] ,
π R2 C
Z
1 1
var(X) = x2 1C (x, y)dxdy = ,
π R2 4
Z
1
cov(X, Y ) = xy1C (x, y)dxdy = 0,
π R2

e quindi X, Y sono scorrelate. Tuttavia X, Y non sono indipendenti perché, per la (3.2.24), la densità di X è

2 1 − x2
Z
1
γX (x) = 1 (x, y)dy = 1[−1,1] (x), x ∈ R,
π R C π

2 1−y 2
e analogamente γY (y) = π 1[−1,1] (y): quindi la densità congiunta non è il prodotto delle marginali. In
alternativa, una verifica diretta mostra che
Z √
1 1 4π − 3 3 1
   
P X≥ = 1 1  (x)1C (x, y)dxdy = =P Y ≥ ,
2 π R2 2 ,+∞ 12π 2

1 1 3−3 3+π 1 1
       
P X≥ ∩ Y≥ = ,P X≥ P Y≥ .
2 2 12π 2 2
Questo esempio, come anche l’Esempio 3.3.31, mostra che la proprietà di indipendenza è più forte della
proprietà di scorrelazione.
[Caso iii)] La funzione di densità di (X, Y ) ∼ UnifT è

γ(X,Y ) = 21T .

Quindi
Z
1
E [X] = 2 x1T (x, y)dxdy = = E [Y ] ,
R2 3
1 2
Z
1
 
var(X) = 2 1T (x, y)dxdy =
x− ,
R2 3 18
Z 
1 1 1
 
cov(X, Y ) = 2 x− y − 1T (x, y)dxdy = − ,
R2 3 3 36

e dunque X, Y sono negativamente correlate (e perciò non indipendenti). Per la (3.2.24), la densità di X è
Z
γX (x) = 2 1T (x, y)dy = 2(1 − x)1[0,1] (x), x ∈ R.
R

3.4 Distribuzione e valore atteso condizionato ad un evento


In uno spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile, B ∈ F con P (B) > 0. Ricordiamo
che P (· | B) indica la probabilità condizionata a B, che è la misura di probabilità su (Ω, F ) definita da

P (A ∩ B)
P (A | B) = , A ∈ F.
P (B)
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 139

Definizione 3.4.1. Sia X una v.a. su (Ω, F , P ) a valori in Rd :


i) la distribuzione di X condizionata a B è la distribuzione di X relativa alla probabilità condizionata
P (· | B): essa è definita da
µX|B (H) := P (X ∈ H | B), H ∈ Bd ;

ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a B è il valore atteso di X rispetto alla probabilità condizio-
nata P (· | B): essa è definita da Z
E [X | B] := XdP (· | B).

Proposizione 3.4.2. [!] Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
1
E [f (X) | B] = f (X)dP (3.4.1)
P (B) B
Z
= f (x)µX|B (dx). (3.4.2)
Rd

Dimostrazione. È sufficiente provare la (3.4.1) per f = 1H con H ∈ Bd : il caso generale segue dalla proce-
dura standard dell’Osservazione 3.2.21. Essendo 1H (X) = 1(X∈H) , si ha
Z
h i P ((X ∈ H) ∩ B) 1
E 1(X∈H) | B = P (X ∈ H | B) = = 1 (X)dP .
P (B) P (B) B H

Per quanto riguarda la (3.4.2), notiamo che f (X) ∈ L1 (Ω, P (· | B)) poiché, per la (3.4.1), si ha
Z
1
E [|f (X)| | B] ≤ |f (X)| dP < ∞
P (B) Ω
per ipotesi. Allora la (3.4.2) segue dal Teorema 3.2.25 del calcolo della media.
Esercizio 3.4.3. Verificare che se X e B sono indipendenti in P allora

µX|B = µX e E [X | B] = E [X] .

Osservazione 3.4.4. Analogamente al concetto di distribuzione condizionata di X a B, si definisce la densità


condizionata di X a B che indicheremo con γX|B e la CDF condizionata di X a B che indicheremo con FX|B .
La distribuzione condizionata è lo strumento naturale per studiare problemi del tipo seguente.
Esempio 3.4.5. Da un’urna che contiene 90 palline numerate, si estraggono in sequenza e senza reinseri-
mento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il numero della prima e seconda
pallina estratta. Chiaramente si ha µX1 = UnifI90 e sappiamo che anche µX2 = UnifI90 (cfr. Esempio 3.3.24).
Ora aggiungiamo l’informazione che la prima pallina estratta abbia il numero k, ossia condizioniamo
all’evento B = (X1 = k): si ha

1
 89 , se h, k ∈ I90 , h , k,


P (X2 = h | X1 = k) = 
0
 altrimenti,

e quindi
µX2 |X1 =k = UnifI90 \{k} .
In definitiva, l’informazione aggiuntiva data dall’evento B, modifica la distribuzione di X2 .
Utilizzando la (3.4.2), per esercizio si calcoli var(X2 | X1 = k) per verificare che var(X2 | X1 = k) < var(X2 ):
intuitivamente ciò significa che l’incertezza sul valore di X2 diminuisce aggiungendo l’informazione (X1 =
k).
140 CAPITOLO 3. VARIABILI ALEATORIE

Il resto della sezione contiene altri esempi particolari.


Esempio 3.4.6. Siano T ∼ Expλ e B = (T > t0 ) con λ, t0 ∈ R>0 . Per determinare la distribuzione condizionata
µT |B , calcoliamo la CDF condizionata di T a B o equivalentemente

1 se t ≤ t0 ,


P (T > t | T > t0 ) = 
P (T > t − t0 ) se t > t0 ,

che segue dalla proprietà di assenza di memoria (3.1.10). Ne viene che µT |B è la distribuzione esponenziale
“traslata” che ha per densità
γT |B (t) = λe−λ(t−t0 ) 1[t0 ,+∞[ (t).

Esempio 3.4.7. Siano X ∈ N0,1 e B = (X ≥ 0). Allora P (B) = 1


2e, per H ∈ B, si ha
Z
P ((X ∈ H) ∩ B) 1 x2
µX|B (H) = P (X ∈ H | B) = = 2P (X ∈ H ∩ R≥0 ) = 2 √ e− 2 dx.
P (B) H∩R≥0 2π

In altri termini, µX|B è una distribuzione assolutamente continua e per ogni H ∈ B si ha


Z r
2 − x2
µX|B (H) = γX|B (x)dx, γX|B (x) := e 2 1R≥0 (x);
H π

per questo motivo la funzione γX|B è anche detta densità di X condizionata a B. Infine per la (3.4.2) si ha
Z +∞
E [X | B] = xµX|B (dx)
0
Z +∞
= xγX|B (x)dx
0
r  r
2 2 x=+∞ 2
− x2
= −e = .
π x=0 π
Esempio 3.4.8. Siano X, Y ∼ Bep , con 0 < p < 1, indipendenti e B = (X + Y = 1). Determiniamo:
i) la distribuzione condizionata µX|B ;
ii) media e varianza condizionate, E [X | B] e var(X | B).
Anzitutto sappiamo che X + Y ∼ Bin2,p e quindi P (B) = 2p(1 − p) > 0. Poiché X assume solo i valori 0 e 1,
calcoliamo
P ((X = 0) ∩ (X + Y = 1))
µX|B ({0}) =
2p(1 − p)
P ((X = 0) ∩ (Y = 1))
=
2p(1 − p)
P (X = 0)P (Y = 1) 1
= = .
2p(1 − p) 2

In definitiva µX = Bep ma, indipendentemente dal valore di p, µX|B = Be 1 ossia, condizionatamente all’evento
2
(X + Y = 1), X ha distribuzione di Bernoulli di parametro 12 . Allora, per la (3.4.2) e ricordando le formule
(3.2.12) per media e varianza di una variabile binomiale, si conclude che
1 1
E [X | B] = , var(X | B) = .
2 4
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 141

Un’interpretazione concreta è la seguente: come si può rendere equa una moneta truccata (senza pe-
raltro conoscere la probabilità p ∈ ]0, 1[ di ottenere testa)? Il risultato X di un lancio della moneta truccata
ha distribuzione Bep dove T := (X = 1) è l’evento “testa”. In base a quanto visto sopra, per rendere equa
la moneta è sufficiente lanciarla due volte, considerando valido il lancio solo se si ottiene esattamente una
testa: allora i due eventi T C oppure CT hanno probabilità 1/2, qualsiasi sia p ∈]0, 1[.

Esempio 3.4.9. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche,
2 nere e 2 rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte.
Determiniamo la distribuzione di X condizionata a (Y = 0) e l’attesa condizionata E [X | Y = 0]. Si ha

3
P (X = 0 | Y = 0) = 0, P (X = 1 | Y = 0) = ,
10
6 1
P (X = 2 | Y = 0) = , P (X = 0 | Y = 0) = ,
10 10
e
3
X 9
E [X | Y = 0] = kP (X = k | Y = 0) = .
5
k=0

Esempio 3.4.10. Sia (X, Y ) un vettore aleatorio assolutamente continuo con densità γ(X,Y ) e B = (Y ∈ K) con
K ∈ B tale che P (B) > 0. Allora, per ogni H ∈ B, si ha

P ((X ∈ H) ∩ (Y ∈ K))
µX|Y ∈K (H) = (3.4.3)
P (Y ∈ K)
µ(X,Y ) (H × K)
=
µY (K)
"
1
= γ (x, y)dxdy =
P (Y ∈ K) H×K (X,Y )

(per il Teorema di Fubini)


Z Z !
1
= γ(X,Y ) (x, y)dy dx
H P (Y ∈ K) K

da cui segue la formula Z


1
γX|Y ∈K (x) = γ(X,Y ) (x, y)dy (3.4.4)
P (Y ∈ K) K
per la densità di X condizionata all’evento (Y ∈ K). Notiamo che nel caso in cui K = R (e quindi (Y ∈ K) = Ω)
la (3.4.4) coincide con la formula (3.2.24) che esprime la densità marginale a partire dalla congiunta.
Come esempio particolare, consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ N0,C con
matrice di covarianza !
1 1
C=
1 2
e poniamo B = (Y > 0). Ricordando l’espressione (3.5.18) della densità Gaussiana bidimensionale, (X, Y )
ha densità uguale a
1 −x2 +xy− y 2
Γ (x, y) = e 2 .

Allora come in (3.4.3) si ha
Z Z +∞ !
1
µX|Y >0 (H) = Γ (x, y)dy dx, H ∈ B,
H P (Y > 0) 0
142 CAPITOLO 3. VARIABILI ALEATORIE

da cui si calcola l’espressione della densità di X condizionata a (Y > 0):


x2
 
Z +∞ e− 2 1 + erf √x
1 2
ΓX|Y >0 (x) = Γ (x, y)dy = √ , x ∈ R.
P (Y > 0) 0 2π

Notiamo che E [X] = 0 ma Z


1
E [X | Y > 0] = xΓX|Y >0 (x)dx = √ .
R π

3.5 Funzione caratteristica


Definizione 3.5.1 (Funzione caratteristica). Sia

X : Ω −→ Rd

una v.a. sullo spazio di probabilità (Ω, F , P ). La funzione

ϕX : Rd −→ C

definita da h i
ϕX (η) = E ei⟨η,X⟩ = E [cos⟨η, X⟩] + iE [sin⟨η, X⟩] , η ∈ Rd ,
è detta funzione caratteristica della v.a. X. Utilizziamo anche l’abbreviazione CHF per la funzione caratteri-
stica.

Osservazione 3.5.2. Per semplicità, useremo anche la notazione x · η ≡ ⟨x, η⟩ per il prodotto scalare in Rd .
Se X ∼ µX , per definizione si ha Z
ϕX (η) = eiη·x µX (dx).
Rd

P
Se X ha distribuzione discreta pn δxn allora ϕX è data dalla serie di Fourier
n=1


X
ϕX (η) = pn eiη·xn .
n=1

Ricordiamo che, data una funzione sommabile f ∈ L1 (Rd ), solitamente si indica con16
Z
ˆ
f (η) = eiη·x f (x)dx, (3.5.1)
Rd
16 In realtà, a seconda dei campi di applicazione, si utilizzano diverse convenzioni per la definizione della trasformata di Fourier:
per esempio, di solito nei corsi di analisi matematica si definisce
Z
fˆ(η) = e−iη·x f (x)dx
Rd
mentre nelle applicazioni all’ingegneria, a volte si usa la definizione
Z
1
fˆ(η) = d
eiη·x f (x)dx.
d
(2π) 2 R
Quest’ultima è anche la definizione utilizzata nel software Mathematica. Noi useremo sempre la (3.5.1) che è la definizione usata
abitualmente in teoria della probabilità. Occorre in particolare fare attenzione alla formula per l’inversione della trasformata di
Fourier che è diversa in base alla notazione utilizzata.
3.5. FUNZIONE CARATTERISTICA 143

la trasformata di Fourier della funzione f . Se X ∈ AC con densità γX allora


Z
ϕX (η) = eiη·x γX (x)dx,
Rd

ossia la funzione caratteristica ϕX = γ̂X è la trasformata di Fourier della densità di X.


Proposizione 3.5.3. Valgono le seguenti proprietà:
i) ϕX (0) = 1;
h i
ii) ϕX (η) ≤ E eiη·X = 1 per ogni η ∈ Rd ;
h i
iii) ϕX (η + h) − ϕX (η) ≤ E eih·X − 1 e quindi, per il Teorema della convergenza dominata, ϕX è unifor-
memente continua su Rd ;
iv) indicando con α ∗ la matrice trasposta di α, si ha
h i h ∗ i
ϕαX+b (η) = E ei⟨η,αX+b⟩ = ei⟨b,η⟩ E ei⟨α η,X⟩ = ei⟨b,η⟩ ϕX (α ∗ η); (3.5.2)

v) nel caso d = 1, ϕX (−η) = ϕ−X (η) = ϕX (η) dove z̄ indica il coniugato di z ∈ C. Di conseguenza, se X ha
distribuzione pari17 , ossia µX = µ−X , allora ϕX assume valori reali e in tal caso vale
Z Z
ϕX (η) = eiηx µX (dx) = cos(xη)µX (dx).
R R

Consideriamo ora alcuni esempi notevoli.


i) Se X ∼ δx0 , con x0 ∈ Rd , allora
ϕX (η) = eiη·x0 .

Osserviamo che in questo caso ϕX < L1 (Rd ) perché ϕX (η) ≡ 1 per ogni η ∈ Rd . Come caso particolare,
se X ∼ δ0 allora ϕX ≡ 1. Inoltre se X ∼ 21 (δ−1 + δ1 ) allora ϕX (η) = cos η.
ii) Se X ∼ Bep , con p ∈ [0, 1], allora
 
ϕX (η) = 1 + p eiη − 1 .
Inoltre, poiché X ∼ Binn,p è uguale in legge alla somma X1 + · · · + Xn di n v.a. di Bernoulli indipendenti
(cfr. Proposizione 3.6.3) allora
h i  h in   n
ϕX (η) = E eiη(X1 +···+Xn ) = E eiηX1 = 1 + p eiη − 1 . (3.5.3)

iii) Se X ∼ Poissonλ , con λ > 0, allora



X λk ikη   
ϕX (η) = e−λ e = exp λ eiη − 1 .
k!
k=0

iv) Se X ∼ Unif[−1,1] allora


sin η
ϕX (η) = , η ∈ R. (3.5.4)
η
Si veda la Figura 3.7 per il grafico della densità uniforme e della sua trasformata di Fourier. Anche in
questo caso ϕX < L1 (R) (si veda, per esempio, [44] Cap.5 Sez.12).
17 Ciò è vero in particolare se X ha densità γ che è una funzione pari, ossia γ (x) = γ (−x), x ∈ R.
X X X
144 CAPITOLO 3. VARIABILI ALEATORIE

1.0

0.8

0.6

0.4

0.2

-10 -5 5 10

-0.2

Figura 3.7: Grafico della densità uniforme su [−1, 1] (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)

v) Se X è una v.a. con distribuzione di Cauchy, ossia X ha densità


1
γX (x) = , x ∈ R, (3.5.5)
π (1 + x2 )
allora
ϕX (η) = e−|η| , η ∈ R. (3.5.6)
Si veda la Figura 3.8 per il grafico della densità di Cauchy e della sua trasformata di Fourier. Si noti
che in questo caso ϕX è una funzione continua ma non differenziabile nell’origine.

1.0

0.8

0.6

0.4

0.2

-6 -4 -2 2 4 6

Figura 3.8: Grafico della densità di Cauchy (3.5.5) (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)

vi) Se X ∼ Nµ,σ 2 , con µ ∈ R e σ ≥ 0, allora


1 2η2
ϕX (η) = eiηµ− 2 σ , η ∈ R. (3.5.7)

Osserviamo che per σ = 0 ritroviamo la CHF della delta di Dirac centrata in µ.


3.5. FUNZIONE CARATTERISTICA 145

Anzitutto proviamo la (3.5.7) nel caso standard µ = 0 e σ = 1. Preliminarmente osserviamo che


trattandosi della trasformata di Fourier di una funzione pari si ha (cfr. Proposizione 3.5.3-v))
x2
e− 2
Z
ϕX (η) = cos(ηx) √ dx.
R 2π
Ora calcoliamo la derivata di ϕX : utilizzando un teorema di scambio di segno di derivata-integrale
nella prima uguaglianza, si ha
x2
e− 2
Z
d
ϕ (η) = sin(ηx)(−x) √ dx
dη X R 2π
x2 2
d − x2
(poiché −xe− 2 = dx e )

x2
d e− 2
Z
= sin(ηx) √ dx =
R dx 2π

(integrando per parti )


x2
2 x=+∞ e− 2
Z
1

− x2
=√ sin(ηx)e − η cos(ηx) √ dx
2π x=−∞ R 2π
= −ηϕX (η).

In definitiva, ϕX è la soluzione del problema di Cauchy



d
 dη ϕX (η) = −ηϕX (η),



ϕX (0) = 1,

da cui si ha la tesi:
η2
ϕX (η) = e− 2 . (3.5.8)
Y −µ
Per il caso generale in cui Y ∼ Nµ,σ 2 , basta considerare X := σ ∼ N0,1 e combinare la (3.5.8) con la
(3.5.2).

vii) Se X ∼ Expλ , con λ ∈ R>0 , allora


Z +∞
λ
ϕX (η) = λ eiηx−λx dx = .
0 λ − iη

Esempio 3.5.4. [!] Siano N e Z1 , Z2 , . . . v.a. indipendenti con N ∼ Poissonλ e Zn identicamente distribuite
per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk se N ≥ 1.


k=1

Si ha
 P n 
h i X∞  iη Zk 
iηX
ϕX (η) = E e = E e 1(N =n)  =
 k=1 
 
n=0
146 CAPITOLO 3. VARIABILI ALEATORIE

(per l’indipendenza di N e Zk , k ≥ 1)
 P n 

X  iη Zk 
= E e k=1  P (N = n)
 
n=0

(perchè le Zk sono indipendenti e identicamente distribuite)



X in λn
= eλ(ϕZ1 (η)−1)
h
= e−λ E eiηZ1
n!
n=0

dove ϕZ1 indica la CHF di Z1 .

3.5.1 Il teorema di inversione


In questa sezione dimostriamo l’importante formula di inversione della funzione caratteristica (Teore-
ma 3.5.6). Cominciamo con un esercizio preliminare.
sin x
Esercizio 3.5.5. Proviamo che vale la seguente formula per l’integrale generalizzato di x :
Z +∞ Za
sin x sin x π
dx := lim dx = . (3.5.9)
0 x a→+∞ 0 x 2
Consideriamo la funzione
f (x, y) = e−xy sin x, x > 0, y > 0.
Poiché per ogni x, y, a > 0 vale
Z +∞
sin x
f (x, y)dy =,
0 x
Za
1 e−ay ye−ay
f (x, y)dx = 2
− 2
cos a − sin a,
0 1+y 1+y 1 + y2
per il Teorema di Fubini si ha
Za Z +∞ −ay Z +∞ −ay
sin x π e ye
dx = − cos a 2
dy − sin a dy, a > 0,
0 x 2 0 1 + y 0 1 + y2
1
e di conseguenza, poiché 1+y 2
≤ 1,
Z a Z +∞
sin x π 1+a
− ≤ (1 + y)e−ay dy = 2 , a > 0.

0 x 2 0 a
sin x
Questo prova la (3.5.9). Osserviamo che x è integrabile in senso generalizzato ma non è una funzione
sommabile.
Teorema 3.5.6 (Teorema di inversione). [!!]
Sia µ una distribuzione su (R, B) e
Z
ϕ(η) := eixη µ(dx), η ∈ R. (3.5.10)
R

Allora per ogni a < b si ha


R
e−iaη − e−ibη
Z
µ({a}) + µ({b}) 1
µ(]a, b[) + = lim ϕ(η)dη. (3.5.11)
2 R→+∞ 2π −R iη
3.5. FUNZIONE CARATTERISTICA 147

Inoltre se ϕ ∈ L1 (R) allora µ è assolutamente continua e ha per densità la funzione


Z
1
γ(x) := e−ixη ϕ(η)dη, x ∈ R. (3.5.12)
2π R

Osservazione 3.5.7. [!] Come conseguenza del Teorema 3.5.6, si ha che la CHF di una v.a. identifica la sua
legge: in altri termini, se X e Y sono v.a. con funzioni caratteristiche uguali,

ϕX (η) = ϕY (η), η ∈ R,

allora anche le relative leggi µX e µY coincidono

µX (H) = µY (H), H ∈ B.

Infatti per la (3.5.11) si ha µX (]a, b[) = µY (]a, b[) per ogni a, b ∈ R \ A dove

A := {x ∈ R | µX ({x}) + µY ({x}) > 0}.

D’altra parte, per l’Osservazione 2.4.11, A è finito o al più numerabile e quindi R \ A è denso in R: dal
Teorema di Caratheodory segue che µX ≡ µY .

Corollario 3.5.8. [!] Se µ, ν sono distribuzioni tali che


Z Z
f dµ = f dν
R R

per ogni f ∈ bC(R) allora µ ≡ ν. Analogamente, se X, Y sono v.a. tali che E [f (X)] = E [f (Y )] per ogni
f ∈ bC(R), allora X, Y sono uguali in legge.

Dimostrazione. Scegliendo f della forma f (x) = cos(xη) o f (x) = sin(xη), con η ∈ R, dall’ipotesi si deduce
che le CHF di µ e ν sono uguali. La tesi segue dal Teorema 3.5.6.

Osservazione 3.5.9. Sia µ una distribuzione con densità f tale che fˆ ∈ L1 (R): per il Teorema 3.5.6 anche γ
definita da (3.5.10)-(3.5.12) è densità di µ e quindi per l’Osservazione 2.4.19 si ha f = γ q.o. ossia
Z
1
f (x) = e−ixη fˆ(η)dη per quasi ogni x ∈ R, (3.5.13)
2π R

dove l’integrale nel membro a destra, come funzione di x, è limitato e uniformemente continuo su R (per
la Proposizione 3.5.3). La (3.5.13) è la classica formula di inversione della trasformata di Fourier.
Si noti che una densità f non è necessariamente limitata e continua (anzi, si può modificare su ogni
Boreliano Lebesgue-trascurabile, mantenendo invariata la sua trasformata di Fourier): tuttavia se fˆ ∈ L1 (R)
allora f è necessariamente uguale q.o. a una funzione limitata e continua.

Osservazione 3.5.10. In base al Teorema 3.5.6, se ϕX ∈ L1 (R) allora X ∈ AC e una densità di X è data dalla
formula di inversione Z
1
γX (x) = e−ixη ϕX (η)dη, x ∈ R.
2π R
La condizione ϕX ∈ L1 (R) è solo sufficiente ma non necessaria per l’assoluta continuità di µ. Infatti, per
l’Osservazione 3.5.9, se ϕX ∈ L1 (R) allora necessariamente la densità di X è uguale q.o. a una funzione
continua: tuttavia, per esempio, la distribuzione uniforme su [−1, 1] è assolutamente continua ma ha den-
sità γ(x) = 21 1[−1,1] (x) che non è uguale q.o. a una funzione continua; in effetti, la sua CHF in (3.5.4) non è
sommabile.
148 CAPITOLO 3. VARIABILI ALEATORIE

Dimostrazione del Teorema 3.5.6. Fissati a, b ∈ R con a < b, poniamo

b
e−iaη − e−ibη
Z
ga,b (η) := , e−ixη dx =
η ∈ R. (3.5.14)
a iη

Osserviamo che, per la disuguaglianza triangolare, ga,b (η) ≤ b − a. Dunque per il Teorema di Fubini, per
ogni R > 0 si ha
Z R Z Z R !
ixη
ga,b (η)ϕ(η)dη = ga,b (η)e dη µ(dx). (3.5.15)
−R R −R

Essendo coseno e seno rispettivamente funzioni pari18 e dispari, si ha



Z R Z R

!
π se x = a oppure x = b,
ixη sin((x − a)η) sin((x − b)η) 

ga,b (η)e dη = 2 − dη −→ Ga,b (x) := 2π se a < x < b,

−R 0 η η 

0

se x < a oppure x > b,
(3.5.16)
al limite per R → +∞: questo segue dal fatto che per la (3.5.9), vale19

π
Z R Z λR Z |λ|R

 2 se λ > 0,
sin λη sin η sin η 

dη = dη = sgn(λ) dη −→ 0 se λ = 0,

0 η 0 η 0 η 
 π

−2 se λ < 0.

Ora utilizziamo il Teorema 3.2.11 della convergenza dominata20 per passare al limite per R → +∞ in
(3.5.15) si ha
Z R Z Z Z Z
1 1 1 1
lim ga,b (η)ϕ(η)dη = Ga,b (x)µ(dx) = µ(dx) + µ(dx) + µ(dx)
R→+∞ 2π −R 2π R 2 {a} ]a,b[ 2 {b}

e questo prova la (3.5.11).



Proviamo la seconda parte della tesi: se ϕ ∈ L1 (R) allora, ricordando che ga,b (η)ϕ(η) ≤ (b − a)|ϕ(η)| e
applicando il Teorema della convergenza dominata per passare al limite in R nella (3.5.11), otteniamo
Z
1 1
g (η)ϕ(η)dη = µ(]a, b[) + µ({a, b}) ≥ µ({b}). (3.5.17)
2π R a,b 2

Ma la disuguaglianza in (3.5.17), ancora per il Teorema della convergenza dominata e passando al limite
per a → b− , implica che µ({b}) = 0 per ogni b ∈ R e quindi vale
Z
1
µ(]a, b[) = g (η)ϕ(η)dη =
2π R a,b
18 Di conseguenza l’integrale fra −R e R della funzione pari cos η moltiplicata per la funzione dispari 1 si annulla.
η
19 Definiamo la funzione segno nel modo seguente




1 se λ > 0,

sgn(λ) =  0 se λ = 0,



−1 se λ < 0.

Rr
20 Per la (3.5.16), il modulo dell’integrando in (3.5.15) è limitato da 2 sup sin η dη < +∞
η
r>0 0
3.5. FUNZIONE CARATTERISTICA 149

(utilizzando la seconda uguaglianza nella (3.5.14) e il Teorema di Fubini)


Zb Z ! Zb
1 −ixη
= e ϕ(η)dη dx = γ(x)dx,
a 2π R a

e quindi γ in (3.5.12) è una densità di µ.


Sia X = (X1 , . . . , Xn ) una v.a. La CHF di X è detta anche funzione caratteristica congiunta delle v.a.
X1 , . . . , Xn ; viceversa, ϕX1 , . . . , ϕXn sono dette CHF marginali di X.

Proposizione 3.5.11. Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ), si ha:
i) ϕXi (ηi ) = ϕX (0, . . . , 0, ηi , 0, . . . , 0);
ii) X1 , . . . , Xn sono indipendenti se e solo se
n
Y
ϕX (η) = ϕXi (ηi ), η = (η1 , . . . , ηn ).
i=1

Dimostrazione. La proprietà i) è immediata conseguenza della definizione di funzione caratteristica. Pro-


viamo la ii) solo nel caso n = 2. Se X1 , X2 sono indipendenti allora lo sono anche le v.a. eiη1 ·X1 , eiη2 ·X2 e
quindi si ha h i h i h i
ϕX (η1 , η2 ) = E eiη1 ·X1 +iη2 ·X2 = E eiη1 ·X1 E eiη2 ·X2 = ϕX1 (η1 )ϕX2 (η2 ).
d d
Viceversa, consideriamo due v.a. X e2 indipendenti e tali che X
e1 , X e1 = X1 e X
e2 = X2 . Allora si ha

ϕ(Xe1 ,Xe2 ) (η1 , η2 ) = ϕXe1 (η1 )ϕXe2 (η2 ) = ϕX1 (η1 )ϕX2 (η2 ) = ϕ(X1 ,X2 ) (η1 , η2 ).

Poiché (X1 , X2 ) e (X e2 ) hanno uguale CHF, per il Teorema 3.5.6, hanno anche uguale legge: da questo
e1 , X
segue che X1 , X2 sono indipendenti.

3.5.2 Distribuzione normale multidimensionale


Fissati µ ∈ Rd e C, matrice d ×d, simmetrica e definita positiva, definiamo la funzione di densità Gaussiana
d-dimensionale di parametri µ e C nel modo seguente:
1 1 −1
Γ (x) = p e− 2 ⟨C (x−µ),x−µ⟩ , x ∈ Rd . (3.5.18)
d
(2π) det C
Un calcolo diretto mostra che
Z
Γ (x)dx = 1, (3.5.19)
d
ZR
xi Γ (x)dx = µi , (3.5.20)
d
ZR  
(xi − µi ) xj − µj Γ (x)dx = Cij , (3.5.21)
Rd

per ogni i, j = 1, . . . , d. La (3.5.19) mostra semplicemente che Γ è una densità; le (3.5.20) e (3.5.21) motivano
la seguente
Definizione 3.5.12. Se X è una v.a. d-dimensionale con densità Γ in (3.5.18) allora diciamo che X ha
distribuzione multi-normale con media µ e matrice di covarianza C e scriviamo X ∼ Nµ,C .
150 CAPITOLO 3. VARIABILI ALEATORIE

Chiaramente, se X ∼ Nµ,C allora E [X] = µ per la (3.5.20) e cov(X) = C per la (3.5.21).

Proposizione 3.5.13. [!] La CHF di X ∼ Nµ,C è data da

1
ϕX (η) = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ , η ∈ Rd . (3.5.22)

Dimostrazione. Si tratta del calcolo della trasformata di Fourier di Γ in (3.5.18): esso è analogo al caso
uno-dimensionale (cfr. formula (3.5.7)).

Osserviamo che la CHF in (3.5.22) è una funzione Gaussiana in cui all’esponente appaiono un termine
lineare in η che dipende solo dal parametro di media µ e un termine quadratico in η che dipende solo dalla matrice
di covarianza C.
È notevole il fatto che, a differenza della densità Γ in cui compare l’inversa di C, nella funzione carat-
teristica ϕX compare la forma quadratica della matrice C stessa. Dunque affinché ϕX sia ben definita non
è necessario che C sia strettamente definita positiva. In effetti in molte applicazioni capita di avere matrici
di covarianza degeneri e pertanto risulta utile estendere la Definizione 3.5.12 nel modo seguente:

Definizione 3.5.14. Dati µ ∈ Rd e C matrice d × d, simmetrica e semi-definita positiva, diciamo che X ha


distribuzione multi-normale e scriviamo X ∼ Nµ,C , se la CHF di X è la ϕX in (3.5.22).

In base al Teorema 3.5.6, la definizione precedente è ben posta poiché la funzione caratteristica identi-
fica univocamente la distribuzione. Inoltre la Definizione 3.5.14 non è vuota nel senso che una v.a. X, che
abbia ϕX in (3.5.22) come funzione caratteristica, esiste: infatti per l’Osservazione 3.2.43, data C, matrice
d × d simmetrica e semi-definita positiva, esiste α tale che C = αα ∗ ; allora basta porre X = αZ + µ dove Z è
una v.a. multi-normale standard, ossia Z ∼ N0,I con I matrice identità d × d. Infatti per la (3.5.2) si ha

|α ∗ η |2 1
ϕαZ+µ (η) = eiη·µ ϕZ (α ∗ η) = eiη·µ− 2 = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ .

Utilizzando la funzione caratteristica è facile provare alcune proprietà fondamentali della distribuzione
normale, come per esempio l’invarianza per trasformazioni lineari. Nel seguito, quando usiamo notazioni
matriciali, il vettore aleatorio d-dimensionale X viene identificato con la matrice colonna d × 1.

Proposizione 3.5.15. [!] Siano X ∼ Nµ,C , una matrice α costante N × d e β ∈ RN con N ∈ N. Allora αX + β
è una v.a. con distribuzione normale N -dimensionale:

αX + β ∼ Nαµ+β,αCα ∗ . (3.5.23)

Dimostrazione. Calcoliamo la CHF di αX + β: per la Proposizione 3.5.3-iv) si ha

ϕαX+β (η) = ei⟨η,β⟩ ϕX (α ∗ η) =

(per l’espressione (3.5.22) della CHF di X calcolata in α ∗ η)


∗ η⟩− 1 ⟨Cα ∗ η,α ∗ η⟩
= ei⟨η,β⟩ ei⟨µ,α 2

1 ∗ η,η⟩
= ei⟨αµ+β,η⟩− 2 ⟨αCα ,

da cui la tesi.

Come conseguenze notevoli della (3.5.23) si ha che se (X, Y ) ha distribuzione normale bidimensionale
allora, per esempio, X e X + Y sono v.a. con distribuzione normale.
3.5. FUNZIONE CARATTERISTICA 151

Esempio 3.5.16. Siano X, Y ∼ N0,1 indipendenti e (u, v) ∈ R2 tale che u 2 + v 2 = 1. Proviamo che

Z := uX + vY ∼ N0,1 .

Una semplice applicazione del Teorema 3.3.23 mostra che (X, Y ) ∼ N0,I dove I indica la matrice identità
2 × 2; allora poiché !
X  
uX + vY = α , con α = u v ,
Y
la tesi segue dalla (3.5.23), essendo

var(Z) = αα ∗ = u 2 + v 2 = 1.

Esempio 3.5.17. Sia (X, Y , Z) ∼ Nµ,C con


 
 1 −1 1 
µ = (µX , µY , µZ ) , C = −1 2 −2 .
 
1 −2 2
 

Si noti che C ≥ 0 e det C = 0 (le ultime due righe di C sono linearmente dipendenti): dunque (X, Y , Z) non
ha densità. Tuttavia Y ∼ NµY ,2 e (X, Z) ∼ N(µX ,µZ ),Ĉ con
!
1 1
Ĉ = ,
1 2

e quindi Y e (X, Z) hanno densità Gaussiana. Per completezza riportiamo la matrice α della fattorizzazione
C = αα ∗ di Cholesky (cfr. Osservazione 3.2.43):
 
1 −1 1 
α = 0 1 −1 .
 
0 0 0
 

Proposizione 3.5.18. [!] Sia X = (X1 , . . . , Xd ) una v.a. con distribuzione normale d-dimensionale. Le v.a
X1 , . . . , Xd sono indipendenti se e solo se sono scorrelate, ossia cov (Xh , Xk ) = 0 per ogni h, k = 1, . . . , d.
Dimostrazione. Se X1 , . . . , Xd sono v.a. indipendenti allora cov (Xh , Xk ) = 0 per il Teorema 3.3.28. Viceversa,
poniamo µh = E [Xh ] e Chk = cov (Xh , Xk ): per la Proposizione 3.5.15, la v.a. Xh ha distribuzione normale con
CHF data da 1 2
ϕXh (ηh ) = eiµh ηh − 2 Chh ηh , ηh ∈ R.
D’altra parte, per ipotesi Chk = Ckh = 0 e quindi
d
iµ·η− 21
P
Chh ηh2 d
Y
ϕX (η) = e h=1 = ϕXh (ηh ), η = (η1 , . . . , ηd ) ∈ Rd ,
h=1

e quindi la tesi segue dalla Proposizione 3.5.11.


Esempio 3.5.19. In questo esempio mostriamo che, nella Proposizione 3.5.18, l’ipotesi che X1 , . . . , Xd ab-
biano distribuzione congiunta normale non si può rimuovere, dando un esempio di v.a. con distribuzioni
marginali normali che sono scorrelate ma non indipendenti.
Consideriamo due v.a. indipendenti, rispettivamente con distribuzione normale standard, X ∼ N0,1 ,
e di Bernoulli, Z ∼ µZ := 12 (δ−1 + δ1 ). Posto Y = ZX, proviamo che Y ∼ N0,1 : infatti, per l’ipotesi di
indipendenza, la distribuzione congiunta di X e Z è la distribuzione prodotto

N0,1 ⊗ µZ
152 CAPITOLO 3. VARIABILI ALEATORIE

e quindi per ogni f ∈ mB e limitata si ha


Z
f (zx) N0,1 ⊗ µZ (dx, dz) =

E [f (ZX)] =
R2
(per il Teorema di Fubini)
Z Z !
= f (zx)N0,1 (dx) µZ (dz)
R
Z R Z
1 1
= f (−x)N0,1 (dx) + f (x)N0,1 (dx)
2 R 2 R
Z
= f (x)N0,1 (dx).
R
In particolare, se f = 1H con H ∈ B, si ottiene
P (Y ∈ H) = N0,1 (H),
ossia Y ∼ N0,1 .
Proviamo ora che cov(X, Y ) = 0 ma X, Y non sono indipendenti. Si ha:
h i
cov(X, Y ) = E [XY ] = E ZX 2 =
(per l’indipendenza di X e Z)
h i
= E [Z] E X 2 = 0.
Verifichiamo che X, Y non sono indipendenti:
P ((X ∈ [0, 1]) ∩ (Y ∈ [0, 1])) = P ((X ∈ [0, 1]) ∩ (ZX ∈ [0, 1])) =
(poiché sull’evento (X ∈ [0, 1]) si ha (ZX ∈ [0, 1]) = (Z = 1) ∩ (X ∈ [0, 1]))
= P ((X ∈ [0, 1]) ∩ (Z = 1)) =
(per l’indipendenza di X e Z)
1
= P (X ∈ [0, 1]).
2
D’altra parte, essendo Y ∼ N0,1 , si ha P (Y ∈ [0, 1]) < 1
2 e quindi P ((X ∈ [0, 1])∩(Y ∈ [0, 1])) < P (X ∈ [0, 1])P (Y ∈
[0, 1]).
Questo esempio non contraddice la Proposizione 3.5.18 poiché X, Y non hanno distribuzione congiunta
normale. Infatti la CHF congiunta è data da
h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y )
h i h i
= E eiX(η1 −η2 ) 1(Z=−1) + E eiX(η1 +η2 ) 1(Z=1) =
(per l’indipendenza di X e Z)
1 h iX(η1 −η2 ) i 1 h iX(η1 +η2 ) i
= E e + E e =
2 2
(poiché X ∼ N0,1 )
2 2
eη1 η2 + e−η1 η2 − η1 +η2
!
1 − (η1 −η2 )2 −
(η1 +η2 )2
= e 2 +e 2 = e 2 ,
2 2
che non è la CHF di una normale bidimensionale. Incidentalmente questo prova anche che ϕ(X,Y ) (η1 , η2 ) ,
ϕX (η1 )ϕY (η2 ), ossia conferma che X, Y non sono indipendenti.
3.5. FUNZIONE CARATTERISTICA 153

3.5.3 Sviluppo in serie della funzione caratteristica e momenti


h Proviamo
i un interessante risultato che mostra che i momenti di una v.a. X ∈ Lp (Ω, P ), ossia i valori attesi
E X k delle potenze di X con k ≤ p, possono essere ottenuti derivando la CHF di X (si veda in particolare
l’Osservazione 3.5.21).

Teorema 3.5.20. [!] Sia X una v.a. reale appartenente a Lp (Ω, P ) con p ∈ N. Allora vale il seguente sviluppo
della CHF di X intorno all’origine:
h i
p
X E (iX)k
ϕX (η) = η k + o(η p ) per η → 0. (3.5.24)
k!
k=0

Dimostrazione. Ricordiamo la formula di Taylor con resto di Lagrange per f ∈ C p (R): per ogni η ∈ R esiste
λ ∈ [0, 1] tale che
p−1 (k)
X f (0) f (p) (λη) p
f (η) = ηk + η .
k! p!
k=0

Applichiamo tale formula alla funzione f (η) = eiηX e otteniamo


 
p
X (iX) k (iX)p eiληX − 1
eiηX = ηk + ηp,
k! p!
k=0

dove in questo caso λ ∈ [0, 1] dipende da X e quindi è aleatorio. Applicando il valore atteso all’ultima
identità otteniamo h i
p
X E (iX)k
ϕX (η) = η k + R(η)η p
k!
k=0

dove
1 h p  iληX i
R(η) = E (iX ) e − 1 −→ 0 per η → 0,
p!
per il Teorema della convergenza dominata, poiché per ipotesi
 
(iX p ) eiληX − 1 ≤ 2|X|p ∈ L1 (Ω, P ).

Osservazione 3.5.21. [!] Sia X ∈ Lp (Ω, P ). La (3.5.24) implica che ϕX è derivabile p volte nell’origine e
inoltre, per l’unicità dello sviluppo in serie di Taylor, vale

d k ϕX (η) h
k
i
|η=0 = E (iX) (3.5.25)
dη k

per ogni k = 0, . . . , p.

Osservazione 3.5.22. Supponiamo che X ∈ Lp (Ω, P ) per ogni p ∈ N e che ϕX sia una funzione analitica.
Allora a partire dai momenti di X è possibile ricavare ϕX e quindi la legge di X.

Esempio 3.5.23. Sia X una v.a. con distribuzione di Cauchy come in (3.5.5). Allora X < L1 (Ω, P ) e la CHF
ϕX in (3.5.6) non è differenziabile nell’origine.
154 CAPITOLO 3. VARIABILI ALEATORIE

Esempio 3.5.24. Data X ∼ Nµ,σ 2 si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poiché

σ 2 η2
ϕX (η) = eiµη− 2

allora con molta pazienza (oppure con un software di calcolo simbolico) possiamo calcolare:
 
ϕ ′ (η) = i µ + iησ 2 ϕ(η),
  2 
ϕ (2) (η) = i 2 σ 2 + µ + iησ 2 ϕ(η),
   2 
ϕ (3) (η) = i 3 µ + iησ 2 3σ 2 + µ + iησ 2 ϕ(η),
 
ϕ (4) (η) = i 4 µ4 + 2µ2 σ 2 (3 + 2iµη) + 2η 2 σ 6 (−3 − 2iµη) + 3σ 4 (1 − 2µη(µη − 2i)) + η 4 σ 8 ϕ(η),

da cui

ϕ ′ (0) = iµ,
 
ϕ (2) (0) = − µ2 + σ 2 ,
 
ϕ (3) (0) = −i µ3 + 3µσ 2 ,
ϕ (4) (0) = µ4 + 6µ2 σ 2 + 3σ 4 .

Allora per la (3.5.25) si ha

E [X] = µ,
h i
E X 2 = µ2 + σ 2 ,
h i
E X 3 = µ3 + 3µσ 2 ,
h i
E X 4 = µ4 + 6µ2 σ 2 + 3σ 4 .

Esempio 3.5.25. Data X ∼ Expλ si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poiché

λ
ϕX (η) =
λ − iη

allora abbiamo:

i k k!λ
ϕ (k) (η) = , k ∈ N,
(λ − iη)k+1

da cui

i k k!
ϕ (k) (0) = .
λk
Allora per la (3.5.25) si ha
h i k!
E Xk = k .
λ
3.6. COMPLEMENTI 155

3.6 Complementi
3.6.1 Somma di variabili aleatorie
Teorema 3.6.1. Siano X, Y ∈ AC su (Ω, F , P ) a valori in Rd , con densità congiunta γ(X,Y ) . Allora X + Y ∈ AC
e ha densità Z
γX+Y (z) = γ(X,Y ) (x, z − x)dx, z ∈ Rd . (3.6.1)
Rd
Inoltre se X, Y sono indipendenti allora
Z
γX+Y (z) = (γX ∗ γY ) (z) := γX (x)γY (z − x)dx, z ∈ Rd . (3.6.2)
Rd

ossia la densità di X + Y è la convoluzione delle densità di X e Y .


Analogamente, se X, Y sono v.a. discrete su (Ω, P ) a valori in Rd , con funzione di distribuzione congiunta
µ̄(X,Y ) , allora X + Y è una v.a. discreta con funzione di distribuzione
X
µ̄X+Y (z) = µ̄(X,Y ) (x, z − x), z ∈ Rd .
x∈X(Ω)

In particolare, se X, Y sono indipendenti allora


X
µ̄X+Y (z) = (µ̄X ∗ µ̄Y )(z) := µ̄X (x)µ̄Y (z − x), (3.6.3)
x∈X(Ω)

ossia µ̄X+Y è la convoluzione discreta delle funzioni di distribuzione µ̄X di X e µ̄Y di Y .


Dimostrazione. Per ogni H ∈ Bd si ha
Z
P (X + Y ∈ H) = E [1H (X + Y )] = 1H (x + y)γ(X,Y ) (x, y)dxdy =
Rd ×Rd

(col cambio di variabili z = x + y)


Z
= 1H (z)γ(X,Y ) (x, z − x)dxdz =
Rd ×Rd

(per il Teorema di Fubini)


Z Z !
= γ(X,Y ) (x, z − x)dx dz,
H Rd

e questo prova che la funzione γX+Y in (3.6.1) è una densità di X + Y . Infine la (3.6.2) segue dalla (3.6.1) e
dalla (3.3.5).
Per quanto riguarda il caso discreto, si ha
 
 [  
µ̄X+Y (z) = P (X + Y = z) = P  (X, Y ) = (x, z − x)  =

 
x∈X(Ω)

(per la σ -additività di P )
X
= µ̄(X,Y ) (x, z − x) =
x∈X(Ω)
156 CAPITOLO 3. VARIABILI ALEATORIE

(nel caso in cui X, Y siano indipendenti, per la (3.3.6))


X
= µ̄X (x)µ̄Y (z − x).
x∈X(Ω)

Esempio 3.6.2. Siano X, Y v.a. indipendenti su (Ω, F , P ) a valori in Rd . Procedendo come nella dimostra-
zione del Teorema 3.6.1, si prova che se X ∈ AC allora anche (X + Y ) ∈ AC e ha densità
Z
γX+Y (z) = γX (z − y)µY (dy), z ∈ Rd . (3.6.4)
Rd

Per esempio, siano X ∼ Nµ,σ 2 e Y ∼ Bep indipendenti. Allora X + Y è assolutamente continua e, posto

1 1 x−µ 2
Γµ,σ 2 (x) = √ e− 2 ( σ ) ,
2πσ 2
per la (3.6.4), X + Y ha densità
Z
γX+Y (z) = Γµ,σ 2 (z − y)Bep (dy)
Rd
= pΓµ,σ 2 (z − 1) + (1 − p)Γµ,σ 2 (z)
= pΓµ+1,σ 2 (z) + (1 − p)Γµ,σ 2 (z)

Più in generale, se Y è una v.a. discreta con distribuzione del tipo (3.1.4), ossia
X
pn δyn ,
n≥1

allora X + Y ha densità che è combinazione lineare di Gaussiane con la medesima varianza e con i poli
traslati di yn : X
γX+Y (z) = pn Γµ+yn ,σ 2 (z).
n≥1

3.6.2 Esempi notevoli


Proposizione 3.6.3 (Somma di Bernoulli indipendenti). Sia (Xi )i=1,...,n una famiglia di v.a. indipendenti
di Bernoulli, Xi ∼ Bep . Allora
S := X1 + · · · + Xn ∼ Binn,p . (3.6.5)
Di conseguenza se X ∼ Binn,p allora E [X] = E [S] e quindi

E [X] = nE [X1 ] = np, var(S) = nvar(X1 ) = np(1 − p). (3.6.6)

Inoltre se X ∼ Binn,p e Y ∼ Binm,p sono v.a. indipendenti allora X + Y ∼ Binn+m,p .

Dimostrazione. Posto
Ci = (Xi = 1), i = 1, . . . , n,
si ha che (Ci )i=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p. La v.a. S in
(3.6.5) indica il numero di successi fra le n prove (come nell’Esempio 3.1.7-iii)) e quindi, come abbiamo
già provato, S ∼ Binn,p . In alternativa, si può calcolare la funzione di distribuzione di S come convoluzione
discreta mediante la (3.6.3), ma i calcoli sono un po’ noiosi. Le formule (3.6.6) sono immediata conseguenza
3.6. COMPLEMENTI 157

della linearità dell’integrale e del fatto che la varianza di v.a. indipendenti è uguale alla somma delle singole
varianze (cfr. formula (3.3.9)).
Per provare la seconda parte dell’enunciato, consideriamo prima il caso in cui

X = X1 + · · · + Xn , Y = Y1 + · · · + Ym

con X1 , . . . , Xn , Y1 , . . . , Ym ∼ Bep indipendenti. Allora per quanto precedentemente provato si ha

X + Y = X1 + · · · + Xn + Y1 + · · · + Ym ∼ Binn+m,p .

d d
Consideriamo ora il caso generale in cui X ′ ∼ Binn,p e Y ′ ∼ Binm,p sono indipendenti: allora X ′ = X, Y ′ = Y
e la tesi segue dalla (3.6.3) poiché

µ̄X ′ +Y ′ = µ̄X ′ ∗ µ̄Y ′ = µ̄X ∗ µ̄Y = µ̄X+Y .

Esempio 3.6.4 (Modello binomiale). Uno dei più classici modelli utilizzati in finanza per descrivere l’e-
voluzione del prezzo di un titolo rischioso è il cosiddetto modello binomiale. Introduciamo una successione
(Xk ) di v.a. dove Xk rappresenta il prezzo del titolo al tempo k, con k = 0, 1, . . . , n: si assume che X0 ∈ R>0 e,
fissati due parametri 0 < d < u, si definisce ricorsivamente

Xk = u αk d 1−αk Xk−1 , k = 1, . . . , n,

dove le αk sono v.a. indipendenti di Bernoulli, αk ∼ Bep . In definitiva si ha



uXk−1

 con probabilità p,
Xk = 
dXk−1
 con probabilità 1 − p,

e
Xn = u Yn d n−Yn S0
n
P
dove Yn = αk ∼ Binn,p per la Proposizione 3.6.3. Allora vale
k=1
!
n k
P (Xn = u k d n−k X0 ) = P (Yn = k) = p (1 − p)n−k , k = 0, . . . , n,
k

sono le probabilità dei possibili prezzi al tempo n.

Esempio 3.6.5 (Somma di Poisson indipendenti). Siano λ1 , λ2 > 0 e X1 ∼ Poissonλ1 , X2 ∼ Poissonλ2


indipendenti. Allora X1 + X2 ∼ Poissonλ1 +λ2 .
Infatti, se µ̄1 , µ̄2 sono le funzioni di distribuzione di X1 , X2 , per il Teorema 3.6.1 si ha
n
X
µ̄X1 +X2 (n) = (µ̄1 ∗ µ̄2 )(n) = µ̄1 (k)µ̄2 (n − k) =
k=0

(gli estremi in cui varia k nella sommatoria sono determinati dal fatto che µ̄1 (k) , 0 solo se k ∈ N0 e
µ̄2 (n − k) , 0 solo se n − k ∈ N0 )
n k n
λ2n−k e−λ1 −λ2 X n k n−k e−(λ1 +λ2 )
!
−λ1 λ1 −λ2
X
= e e = λ λ = (λ1 + λ2 )n .
k! (n − k)! n! k 1 2 n!
k=0 k=0
158 CAPITOLO 3. VARIABILI ALEATORIE

12.5

12.0

11.5

11.0

10.5

10.0

9.5

0.2 0.4 0.6 0.8 1.0

Figura 3.9: Grafico di una traiettoria del processo binomiale

Esempio 3.6.6 (Somma di normali indipendenti). Se X ∼ Nµ,σ 2 e Y ∼ Nν,δ2 sono v.a. reali indipendenti,
allora
X + Y ∼ Nµ+ν,σ 2 +δ2 .
Infatti, per la (3.6.2) e posto
1 1 x−µ 2
γµ,σ 2 (x) := √ e− 2 ( σ ) , x ∈ R,
σ 2π
un calcolo diretto mostra che
γµ,σ 2 ∗ γν,δ2 = γµ+ν,σ 2 +δ2 .

Esempio 3.6.7 (Chi-quadro a n gradi di libertà). Come diretta conseguenza del Teorema 3.6.1, si verifica
che se X ∼ Gammaα,λ e Y ∼ Gammaβ,λ v.a. reali indipendenti, allora

X + Y ∼ Gammaα+β,λ . (3.6.7)

Come caso particolare si ha che se X, Y ∼ Expλ = Gamma1,λ sono v.a. indipendenti, allora

X + Y ∼ Gamma2,λ

con densità γX+Y (t) = λ2 te−λt 1R>0 (t).


Ricordiamo l’Esempio 3.1.37: la distribuzione chi-quadro χ2 := Gamma 1 , 1 è la distribuzione della
2 2
v.a. X 2 dove X ∼ N0,1 è una normale standard. Più in generale, date X1 , . . . , Xn v.a. indipendenti con
distribuzione N0,1 allora per la (3.6.7) si ha

Z := X12 + · · · + Xn2 ∼ Γ n , 1 . (3.6.8)


2 2

Le v.a. del tipo (3.6.8) intervengono in molte applicazioni e in particolare in statistica matematica (si veda,
per esempio, il Capitolo 8 in [15]). La distribuzione Γ n , 1 viene detta distribuzione chi-quadro a n gradi di
2 2
libertà ed è indicata con χ2 (n): dunque Z ∼ χ2 (n) se ha densità
x
1 e− 2
γn (x) = n   n 1R>0 (x). (3.6.9)
2 2 Γ n2 x1− 2
3.6. COMPLEMENTI 159

Più in generale, γn in (3.6.9) è una densità se n è un qualsiasi numero reale positivo, non necessariamente
intero.

Esempio 3.6.8. Studiamo la v.a. Z uguale alla “somma del lancio di due dadi”. Le v.a. che indicano
il risultato del lancio di ognuno dei due dadi hanno distribuzione uniforme Unif6 e sono indipendenti.
Allora se µ̄ indica la funzione di distribuzione di Unif6 , ossia µ̄(n) = 16 per n ∈ I6 = {1, . . . , 6}, per la (3.6.3) la
funzione di distribuzione di Z è data dalla convoluzione µ̄ ∗ µ̄:
X
(µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k), 2 ≤ n ≤ 12,
k

dove, affinché µ̄(k) e µ̄(n − k) siano non nulli, deve valere k ∈ I6 e n − k ∈ I6 ossia

(n − 6) ∨ 1 ≤ k ≤ (n − 1) ∧ 6.

Dunque
(n−1)∧6
X (n − 1) ∧ 6 − (n − 6) ∨ 1 + 1
P (Z = n) = (µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k) = .
36
k=(n−6)∨1

Proposizione 3.6.9 (Massimo e minimo di variabili indipendenti). Siano X1 , . . . , Xn v.a. reali indipenden-
ti. Posto
X = max{X1 , . . . , Xn } e Y = min{X1 , . . . , Xn },

si ha la seguente relazione fra le funzioni di ripartizione21


n
Y
FX (x) = FXk (x), x ∈ R, (3.6.10)
k=1
n 
Y 
FY (y) = 1 − 1 − FXk (y) , y ∈ R.
k=1

Dimostrazione. È sufficiente osservare che


n
\
(X ≤ x) = (Xk ≤ x), x ∈ R,
k=1

e quindi, sfruttando l’ipotesi di indipendenza,


 n  n n
\  Y Y
FX (x) = P (X ≤ x) = P  (Xk ≤ x) =
 P (Xk ≤ x) = FXk (x).
k=1 k=1 k=1

Per la seconda identità, si procede in maniera analoga utilizzando la relazione


n
\
(Y > x) = (Xk > x), x ∈ R.
k=1

21 Attenzione a non confondere la (3.6.10) e la (3.3.8)!


160 CAPITOLO 3. VARIABILI ALEATORIE

Esempio 3.6.10. Se Xk ∼ Expλk , k = 1, . . . , n, sono v.a. indipendenti allora

Y := min{X1 , . . . , Xn } ∼ Expλ1 +···+λn .

Infatti, ricordiamo che le funzioni di densità e di ripartizione della distribuzione Expλ sono rispettivamen-
te
γ(t) = λe−λt e F(t) = 1 − e−λt , t ≥ 0,
e sono nulle per t < 0. Allora per la Proposizione 3.6.9 si ha che
n 
Y  n
Y
FY (t) = 1 − 1 − FXk (t) = 1 − e−λk t , t ≥ 0,
k=1 k=1

che è proprio la CDF di Expλ1 +···+λn .


Esercizio 3.6.11. Sia X il massimo fra il risultato del lancio di due dadi. Determinare P (X ≥ 4).
Soluzione. Consideriamo le v.a. indipendenti Xi ∼ Unif6 , i = 1, 2, dei risultati dei due lanci di dado. Allora
X = max{X1 , X2 } e si ha

P (X ≥ 4) = 1 − P (X ≤ 3) = 1 − FX (3) =

(per la Proposizione 3.6.9)

= 1 − FX1 (3)FX1 (3) =

(ricordando la (2.4.8))

3 3 3
= 1− · = .
6 6 4
Esercizio 3.6.12. Provare che se Xi ∼ Geompi , i = 1, 2, sono indipendenti allora min{X1 , X2 } ∼ Geomp con
p = p1 + p2 − p1 p2 . Generalizzare il risultato al caso di n v.a. geometriche indipendenti.
Esercizio 3.6.13. Determinare la distribuzione di max{X, Y } e min{X, Y } dove X, Y sono v.a. indipendenti
con distribuzione X ∼ Unif[0,2] e Y ∼ Unif[1,3] .
Capitolo 4

Successioni di variabili aleatorie

The new always happens against the


overwhelming odds of statistical
laws and their probability, which for
all practical, everyday purposes
amounts to certainty; the new
therefore always appears in the guise
of a miracle.

Hannah Arendt

L’oggetto di questo capitolo sono le successioni di variabili aleatorie. Il problema dell’esistenza e co-
struzione di tali successioni non è ovvio e richiede strumenti avanzati che vanno al di là dello scopo del
presente testo: pertanto, dando per assunta l’esistenza, ci occuperemo solo di studiare varie nozioni di
convergenza per successioni di variabili aleatorie. Inoltre proveremo alcuni risultati classici, la Legge dei
grandi numeri e il Teorema centrale del limite, e ne analizzeremo alcune applicazioni fra cui l’importante
metodo numerico stocastico noto come metodo Monte Carlo.

4.1 Convergenza per successioni di variabili aleatorie


In questa sezione riepiloghiamo e confrontiamo varie definizioni di convergenza di successioni di varia-
bili aleatorie. Consideriamo uno spazio di probabilità (Ω, F , P ) su cui sono definite una successione di v.a.
(Xn )n∈N e una v.a. X valori in Rd :
i) (Xn )n∈N converge quasi certamente a X se1
 
P lim Xn = X = 1,
n→∞

ossia se
lim Xn (ω) = X(ω)
n→∞
per quasi ogni ω ∈ Ω. In tal caso scriviamo
q.c.
Xn −−−−→ X.
1 Si ricordi che, per l’Osservazione 3.1.9, l’insieme
 
lim Xn = X ≡ {ω ∈ Ω | lim Xn (ω) = X(ω)}
n→∞ n→∞
è un evento.

161
162 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

ii) Siano (Xn )n∈N e X rispettivamente una successione e una v.a. in Lp (Ω, P ) con p ≥ 1. Diciamo che
(Xn )n∈N converge a X in Lp se
lim E [|Xn − X|p ] = 0.
n→∞

In tal caso scriviamo


Lp
Xn −−−→ X.

iii) (Xn ) converge in probabilità a X se, per ogni ε > 0, vale

lim P (|Xn − X| ≥ ε) = 0.
n→∞

In tal caso scriviamo


P
Xn −−→ X.

iv) (Xn ) converge debolmente (o in legge o in distribuzione) a X se vale

lim E [f (Xn )] = E [f (X)]


n→∞

per ogni f ∈ bC dove bC = bC(Rd ) indica la famiglia delle funzioni continue e limitate da Rd a R. In
tal caso scriviamo
d
Xn −−−−→ X.

Osservazione 4.1.1 (Convergenza debole di distribuzioni). La convergenza debole non richiede che le va-
riabili Xn siano definite sullo stesso spazio di probabilità, ma dipende solo dalle distribuzioni delle variabili
stesse. Diciamo che una successione (µn )n∈N di distribuzioni su Rd converge debolmente alla distribuzione
µ e scriviamo
d
µn −−−−→ µ,
se vale Z Z
lim f dµn = f dµ per ogni f ∈ bC. (4.1.1)
n→∞ Rd Rd

Poiché Z
E [f (Xn )] = f dµXn ,
Rd

la convergenza debole di (Xn )n∈N equivale alla convergenza debole della successione (µXn )n∈N delle corri-
d d
spondenti distribuzioni: in altri termini, Xn −−−−→ X se e solo se µXn −−−−→ µX .

d
Esempio 4.1.2. [!] Sia (xn )n∈N una successione di numeri reali convergente a x ∈ R. Allora δxn −−−−→ δx
poiché, per ogni f ∈ bC, si ha
Z Z
f dδxn = f (xn ) −−−−−−→ f (x) = f dδx .
R n→∞ R

Tuttavia non è vero che


lim δxn (H) = δx (H)
n→∞

per ogni H ∈ B: per esempio, se xn = n1 e H = R>0 . Questo spiega perché nella definizione (4.1.1) di
convergenza di distribuzioni è naturale assumere f ∈ bC e non f = 1H per ogni H ∈ B.
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 163

Esempio 4.1.3. Siano date due successioni di numeri reali (an )n∈N e (σn )n∈N tali che an −→ a ∈ R e 0 <
d
σn −→ 0 per n → ∞. Se Xn ∼ Nan ,σn2 allora Xn −−−−→ X con X ∼ δa . Infatti, per ogni f ∈ bC(R), si ha
Z Z  x−a 2
1 − 12 n
E[f (Xn )] = f dNan ,σn2 = f (x) p e σn dx =
R R 2πσn2
x−an
(col cambio di variabili z = √ )
σn 2

Z  √  e−z2
= f an + zσn 2 √ dz,
R π

che tende ad f (a) = E[f (X)] per il Teorema della convergenza dominata.
Notiamo che se le variabili X e Xn , per ogni n ∈ N, sono definite sullo stesso spazio di probabilità
(Ω, F , P ), si ha anche convergenza in L2 : infatti Xn , X ∈ L2 (Ω, P ) e si ha
h i h i h i
E |Xn − X|2 ≤ 2E |Xn − an |2 + 2E |an − X|2
h i
= 2E |Xn − an |2 + 2|an − a|2
= 2σn2 + 2|an − a|2 −−−−−−→ 0.
n→∞

4.1.1 Disuguaglianza di Markov


Teorema 4.1.4 (Disuguaglianza di Markov). [!]
Per ogni X v.a. a valori in Rd , λ > 0 e p ∈ [0, +∞[, vale la disuguaglianza di Markov:

E [|X|p ]
P (|X| ≥ λ) ≤ . (4.1.2)
λp
In particolare, se Y ∈ L2 (Ω, P ) è una v.a. reale, vale la disuguaglianza di Chebyschev:

var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ . (4.1.3)
λ2
Dimostrazione. Per quanto riguarda la (4.1.2), se E [|X|p ] = +∞ non c’è nulla da provare, altrimenti per la
proprietà di monotonia si ha
h i h i
E [|X|p ] ≥ E |X|p 1(|X|≥λ) ≥ λp E 1(|X|≥λ) = λp P (|X| ≥ λ) .

La (4.1.3) segue dalla (4.1.2) ponendo p = 2 e X = Y − E [Y ], infatti


h i
E |Y − E [Y ]|2 var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ 2
= .
λ λ2

La disuguaglianza di Markov fornisce una stima per i valori estremi di X in termini della sua norma Lp .
Viceversa, si ha la seguente

Proposizione 4.1.5. Siano X una v.a. e f ∈ C 1 (R≥0 ) tale che f ′ ≥ 0 o f ′ ∈ L1 (R≥0 , µ|X| ). Allora
Z +∞
E [f (|X|)] = f (0) + f ′ (λ)P (|X| ≥ λ)dλ. (4.1.4)
0
164 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Dimostrazione. Si ha
Z +∞
E [f (|X|)] = f (y)µ|X| (dy) =
0
Z +∞ Zy !

= f (0) + f (λ)dλ µ|X| (dy) =
0 0

(per il Teorema di Fubini)


Z +∞ Z +∞
= f (0) + f ′ (λ) µ|X| (dy)dλ =
0 λ
Z +∞
= f (0) + f ′ (λ)P (|X| ≥ λ)dλ.
0

Esempio 4.1.6. Per f (x) = xp , p ≥ 1, dalla (4.1.4) abbiamo


Z +∞
E [|X|p ] = p λp−1 P (|X| ≥ λ) dλ. (4.1.5)
0

Di conseguenza, per provare che X ∈ Lp è sufficiente avere una buona stima di P (|X| ≥ λ), almeno per λ ≫ 1.

Esercizio 4.1.7. Provare la seguente generalizzazione della disuguaglianza di Markov: per ogni X v.a. a
valori in Rd , ε > 0 e f funzione reale su [0, +∞[ monotona (debolmente) crescente, vale

P (|X| ≥ ε)f (ε) ≤ E [f (|X|)] .

4.1.2 Relazioni fra le diverse definizioni di convergenza


Lemma 4.1.8. Sia (an )n∈N una successione in uno spazio topologico (E, T ). Se ogni sotto-successione
(ank )k∈N ammette una sotto-successione (ank )i∈N convergente al medesimo a ∈ E, allora anche (an )n∈N
i
converge ad a.

Dimostrazione. Per assurdo, se (an )n∈N non convergesse ad a allora esisterebbe U ∈ T tale che a ∈ U e una
sotto-successione (ank )k∈N tale che ank < U per ogni k ∈ N. In questo caso nessuna sotto-successione di
(ank )k∈N convergerebbe ad a, contraddicendo l’ipotesi.

Il seguente risultato riassume le relazioni fra i vari tipi di convergenza di successioni di v.a.: queste sono
rappresentate schematicamente nella Figura 4.1.

Teorema 4.1.9. Siano (Xn )n∈N una successione di v.a. e X una v.a. definite sullo stesso spazio di probabilità
(Ω, F , P ), a valori in Rd . Valgono le seguenti implicazioni:
q.c. P
i) se Xn −−−−→ X allora Xn −−→ X;
Lp P
ii) se Xn −−−→ X per qualche p ≥ 1 allora Xn −−→ X;
P q.c.
iii) se Xn −−→ X allora esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X;

P d
iv) se Xn −−→ X allora Xn −−−−→ X;
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 165

Lp
 
Xn −−−→ X

se |Xn |≤Y ∈Lp

q.c.
     
P d
Xn −−−−→ X Xn −−→ X Xn −−−−→ X

sotto-successione se X ∼ δc

Figura 4.1: Relazioni fra i vari tipi di convergenza di v.a.

P
v) se Xn −−→ X ed esiste Y ∈ Lp (Ω, P ) tale che |Xn | ≤ Y q.c., per ogni n ∈ N, allora Xn , X ∈ Lp (Ω, P ) e
Lp
Xn −−−→ X;
d P
vi) se Xn −−−−→ X, con X ∼ δc , c ∈ Rd , allora Xn −−→ X.

q.c.
Dimostrazione. i) Fissato ε > 0, se Xn −−−−→ X allora
q.c.
1(|Xn −X|≥ε) −−−−→ 0

e quindi per il Teorema della convergenza dominata si ha


h i
P (|Xn − X| ≥ ε) = E 1(|Xn −X|≥ε) −→ 0.

ii) Fissato ε > 0, per la disuguaglianza di Markov (4.1.2) si ha

E [|Xn − X|p ]
P (|Xn − X| ≥ ε) ≤
εp
da cui la tesi.
1
iii) Per ipotesi esiste una successione di indici (nk )k∈N , con nk → +∞, tale che P (Ak ) ≤ k2
dove
 
Ak := |X − Xnk | ≥ 1/k .

Poiché X
P (Ak ) < ∞,
k≥1

per il Lemma 2.3.28-i) di Borel-Cantelli si ha P (Ak i.o.) = 0. Dunque l’evento (Ak i.o.)c ha probabilità uno:
per definizione2 , per ogni ω ∈ (Ak i.o.)c esiste k̄ = k̄(ω) ∈ N tale che

1
|X(ω) − Xnk (ω)| < , k ≥ k̄
k
e di conseguenza vale
lim Xnk (ω) = X(ω)
k→∞

che prova la tesi.


2 Gli elementi di (A i.o.)c sono quelli che appartengono solo ad un numero finito di A .
k k
166 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

iv) Sia f ∈ bC. Per il punto iii), ogni sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N
i
q.c. q.c.
tale che Xnk −−−−→ X. Poiché f è continua, si ha anche f (Xnk ) −−−−→ f (X) e poiché f è limitata si applica il
i i
Teorema della convergenza dominata per avere
h  i
lim E f Xnk = E [f (X)] .
i→∞ i

Ora per il Lemma 4.1.8 (applicato alla successione an := E [f (Xn )] in R munito della topologia Euclidea) si
ha anche
lim E [f (Xn )] = E [f (X)]
n→∞
da cui la tesi.
v) Dato che |Xn | ≤ Y q.c. e Y ∈ Lp (Ω, P ), è chiaro che Xn ∈ Lp (Ω, P ). Per quanto riguarda X, dal punto iii)
q.c.
sappiamo che esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X. Dato che |Xnk | ≤ Y q.c., per k → ∞
Lp
si ottiene |X| ≤ Y q.c., quindi X ∈ Lp (Ω, P ). Infine, mostriamo che Xn −−−→ X. Sempre per il punto iii), ogni
q.c.
sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N tale che Xnk −−−−→ X. Per il Teorema
i i
Lp Lp
della convergenza dominata si ha che Xnk −−−→ X. Dal Lemma 4.1.8 segue che Xn −−−→ X.
i
vi) Dati c ∈ Rd ed ε > 0, sia fε ∈ bC, non-negativa e tale che fε (x) ≥ 1 se |x − c| > ε e fε (c) = 0. Si ha
h i
P (|Xn − X| ≥ ε) = P (|Xn − c| ≥ ε) = E 1(|Xn −c|≥ε) ≤ E [fε (Xn )] −−−−−−→ fε (c) = 0.
n→∞

Diamo alcuni controesempi relativi alle implicazioni studiate nel Teorema 4.1.9. Nei primi due esempi
consideriamo Ω = [0, 1] con la misura di Lebesgue.
Esempio 4.1.10. La successione Xn (ω) = n2 1[0, 1 ] (ω), per ogni ω ∈ [0, 1], converge a zero quasi certamente
n
(e di conseguenza anche in probabilità), ma E [|Xn |p ] = n2p−1 diverge per ogni p ≥ 1.
Esempio 4.1.11. Diamo un esempio di successione (Xn ) che converge in Lp (e quindi anche in probabilità)
con 1 ≤ p < ∞, ma non quasi certamente. Rappresentiamo ogni intero positivo n come n = 2k + ℓ, con
k = 0, 1, 2, . . . e ℓ = 0, . . . , 2k − 1. Notiamo che la rappresentazione è unica. Poniamo
" #
ℓ ℓ+1
Jn = k , k ⊆ [0, 1] e Xn (ω) = 1Jn (ω), ω ∈ [0, 1].
2 2
Per ogni p ≥ 1, vale
1
E [|Xn |p ] = E [Xn ] = Leb(Jn ) = ,
2k
Lp
e quindi Xn −−−→ 0 dato che k → ∞ quando n → ∞. D’altra parte, ciascun ω ∈ [0, 1] appartiene ad un
numero infinito di intervalli Jn e quindi la successione reale Xn (ω) non converge per ogni ω ∈ [0, 1].
Esempio 4.1.12. Data una variabile aleatoria X ∼ Be 1 , poniamo
2

X,

 se n pari,
Xn = 
1 − X,
 se n dispari.

d
Poiché (1 − X) ∼ Be 1 allora chiaramente Xn −−−−→ X. Tuttavia |Xn+1 − Xn | = |2X − 1| = 1 per ogni n ∈ N:
2
allora P (|Xn+1 − Xn | ≥ 1/2) = 1 per ogni n e quindi Xn non converge a X in probabilità (e, di conseguenza,
nemmeno in Lp o quasi certamente).
4.2. LEGGE DEI GRANDI NUMERI 167

Osservazione 4.1.13. Non esiste una metrica (e neppure una topologia) che induce la convergenza quasi
certa di variabili aleatorie: in caso contrario si potrebbe combinare il Lemma 4.1.8 con il punto iii) del
P q.c.
Teorema 4.1.9 per concludere che se Xn −−→ X allora Xn −−−−→ X, in contraddizione con l’Esempio 4.1.11.
Al contrario, le convergenze in Lp e in probabilità sono “metrizzabili”. Infatti, la convergenza in Lp è
1
semplicemente la convergenza relativa alla norma ∥X∥p = E [|X|p ] p nello spazio Lp (Ω, P ): è dunque un tipo
di convergenza definita solo per variabili sommabili di ordine p. Invece la convergenza in probabilità è
P
definita per variabili qualsiasi e si ha che Xn −−→ X se e solo se
" #
|X − Xn |
lim E = 0. (4.1.6)
n→∞ 1 + |X − Xn |

Proviamo questo fatto nell’ipotesi (non restrittiva) che X ≡ 0. Notiamo che per ogni ε > 0 si ha

|x| |x|
≤ 1 + ε1|x|<ε ≤ 1|x|≥ε + ε1|x|<ε .
1 + |x| 1 + |x| |x|≥ε
Applicando il valore atteso si ha
" #
|Xn |
E ≤ P (|Xn | ≥ ε) + εP (|Xn | < ε) ≤ P (|Xn | ≥ ε) + ε.
1 + |Xn |

P
Allora, nel caso in cui Xn −−→ 0, si ha " #
|Xn |
lim E ≤ε
n→∞ 1 + |Xn |
e la (4.1.6) segue dall’arbitrarietà di ε.
Viceversa, notiamo che
ε x x
1 ≤ 1 ≤
1 + ε x>ε 1 + x x>ε 1 + x
e quindi
ε |Xn |
1 ≤ .
1 + ε |Xn |>ε 1 + |Xn |
Applicando il valore atteso si ottiene
" #
ε |Xn |
P (|Xn | > ε) ≤ E
1+ε 1 + |Xn |

P
da cui la (4.1.6) implica che Xn −−→ 0.
Anche la convergenza debole è metrizzabile nello spazio delle distribuzioni: per approfondimenti si
vedano, per esempio, la monografie [13] e [36].

4.2 Legge dei grandi numeri


In questa sezione dimostriamo due versioni della Legge dei grandi numeri. Tale legge riguarda succes-
sioni di v.a. reali (Xn )n∈N , definite sullo stesso spazio di probabilità (Ω, F , P ), con l’ulteriore ipotesi che
siano indipendenti e identicamente distribuite (abbreviato in i.i.d.). Denotiamo con

Sn
Sn = X1 + · · · + Xn , Mn = , (4.2.1)
n
rispettivamente la somma e la media aritmetica di X1 , . . . , Xn .
168 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Teorema 4.2.1 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L2 (Ω, P ),
con valore atteso µ := E [X1 ] e varianza σ 2 := var(X1 ). Allora si ha
h i σ2
E (Mn − µ)2 = (4.2.2)
n
e di conseguenza la media aritmetica Mn converge in norma L2 (Ω, P ) alla v.a. costante uguale µ:

L2
Mn −−−→µ.

Osservazione 4.2.2. Combinando la (4.2.2) con la disuguaglianza di Markov si ha

σ2
P (|Mn − µ| ≥ ε) ≤ , ε > 0, n ∈ N,
nε2
e quindi Mn converge anche in probabilità a µ. Inoltre, dal Teorema 4.1.9-iv) segue che Mn converge anche
debolmente:
d
Mn −−−−→ µ.
Dimostrazione. Per linearità, si ha
n
1X
E [Mn ] = E [Xk ] = µ,
n
k=1
e quindi
h i var(X1 + · · · + Xn )
E (Mn − µ)2 = var(Mn ) = =
n2
(per l’indipendenza, ricordando la (3.2.19))

var(X1 ) + · · · + var(Xn ) σ 2
= = . (4.2.3)
n n

La convergenza di Mn in L2 (Ω, P ) implica la convergenza q.c. di una sotto-successione di Mn , per il


Teorema 4.1.9-iii). In realtà, con un po’ di lavoro in più è possibile verificare che la successione stessa Mn
converge q.c.: riportiamo la prova data in [35].
Teorema 4.2.3 (Legge forte dei grandi numeri). Nelle ipotesi del Teorema 4.2.1 si ha anche
q.c.
Mn −−−−→ µ.

Dimostrazione. A meno di traslare le variabili Xn non è restrittivo assumere µ = 0. Cominciamo col provare
che la sotto-successione Mn2 converge q.c.: infatti, per la (4.2.3), si ha
N  N N
X
2
 X h i X σ2
E  Mn2  = E Mn22 = , N ∈ N,
n2
n=1 n=1 n=1

e per il Teorema di Beppo-Levi ∞  ∞


X  X σ 2
2
E  Mn2  = <∞
n2
n=1 n=1
da cui
q.c.
Mn2 −−−−→ 0. (4.2.4)
4.2. LEGGE DEI GRANDI NUMERI 169

Ora cerchiamo di controllare


√ tutti i termini della successione Mn con termini del tipo Mn2 . Per ogni n ∈ N
indichiamo con pn = [ n] la parte intera della radice di n, cosicché si ha

pn2 ≤ n < (pn + 1)2 .

Per definizione di Mn vale


n
pn2 1 X
Mn − Mpn2 = Xk
n n 2
k=pn +1

da cui, come per la (4.2.3), si ha



2
!2 
 p n  n − pn2 2
E  Mn − Mpn2  = σ ≤
n n2

(poiché 0 ≥ n − (pn + 1)2 = n − pn2 − 2pn − 1)



2pn + 1 2 2 n + 1 2 3σ 2
≤ σ ≤ σ ≤ 3 .
n2 n2 n2
Ancora per il Teorema di Beppo-Levi si ha
∞ !2  X
X p 2
n
 ∞ 3σ 2
E  Mn − Mpn2  ≤ 3
<∞
n n 2
n=1 n=1

da cui
pn2 q.c.
Mn − Mpn2 −−−−→ 0.
n
q.c. pn2 q.c.
Ora Mpn2 −−−−→ 0 per la (4.2.4) e d’altra parte n → 1 per n → ∞: di conseguenza anche Mn −−−−→ 0 e questo
conclude la prova.

Esempio 4.2.4 (Strategia del raddoppio). Nel gioco della roulette si lancia una pallina che si può fermare
in una fra le 37 posizioni possibili, composte da 18 numeri rossi, 18 numeri neri e lo zero che è verde.
Consideriamo la strategia di gioco che consiste nel puntare sul rosso (la vincita è il doppio della giocata)
e raddoppiare la giocata ogni volta che si perde. Dunque alla prima giocata si punta 1 (ossia 20 ) Euro e,
in caso di perdita, alla seconda giocata si puntano 2 (ossia 21 ) Euro e cosı̀ via fino alla n-esima giocata in
cui, se si è sempre perso, si puntano 2n−1 Euro. A questo punto (ossia alla n-esima giocata avendo sempre
perso), l’ammontare giocato è pari a3

1 + 2 + · · · + 2n−1 = 2n − 1,

e ci sono due casi:

i) si perde e in tal caso la perdita complessiva è pari a 2n − 1;

ii) si vince e si incassano 2 · 2n−1 Euro. Il bilancio totale è dunque positivo ed è pari alla differenza fra la
vincita e l’ammontare giocato:
2n − (2n − 1) = 1.
n
3 Si ricordi che P ak = an+1 −1 per a , 1.
a−1
k=0
170 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

La probabilità di perdere per n volte consecutive è pari a pn , dove p = 19


37 è la probabilità che la pallina si
fermi sul nero o sul verde. Di conseguenza, la probabilità di vincere almeno una volta su n giocate è pari a
1 − pn .
Consideriamo ora il caso in cui decidiamo di attuare la strategia del raddoppio fino ad un massimo di
10 giocate. Precisamente indichiamo con X il guadagno/perdita che otteniamo giocando al raddoppio e
incassando 1 Euro se vinciamo entro la decima giocata oppure perdendo 210 − 1 = 1023 Euro nel caso di 10
perdite consecutive. Allora X è una v.a. di Bernoulli che assume i valori −1023 con probabilità p10 ≈ 0.13%
e 1 con probabilità 1 − p10 ≈ 99.87%. Dunque attuando la strategia del raddoppio abbiamo che vinciamo 1
Euro con grande probabilità a fronte di una perdita rilevante (1023 Euro) in casi molto rari.
Potremmo pensare allora di attuare la strategia del raddoppio ripetutamente per N volte: per capire se
è conveniente possiamo calcolare la media

0.13 99.87
E [X] ≈ −1023 · +1· ≈ −0.3
100 100
e interpretare tale risultato alla luce della Legge dei grandi numeri. Il fatto che E [X] sia pari a −0.3 significa
che se X1 , . . . , XN indicano i singoli guadagni/perdite allora complessivamente

X1 + · · · + XN

molto probabilmente sarà vicino a −0.3N . Questo è dovuto al fatto che il gioco non è equo per la presenza
dello zero (verde) per cui la probabilità di vincere puntando sul rosso è leggermente minore di 21 . In realtà
si può provare che se anche fosse p = 12 allora la strategia del raddoppio, col vincolo di raddoppiare al
massimo n volte, produrrebbe un guadagno medio nullo. Lo studio di questo tipo di problemi legati ai
giochi d’azzardo è all’origine di un ampio settore della Probabilità, la cosiddetta teoria delle martingale, che
insieme alle numerose applicazioni ha fondamentali e profondi risultati teorici.

4.2.1 Cenni al metodo Monte Carlo


La Legge dei grandi numeri è alla base di un metodo numerico probabilistico molto importante, noto
come metodo Monte Carlo. In molte applicazioni si è interessati a calcolare (o almeno approssimare nume-
ricamente) il valore atteso E [f (X)] dove X è una v.a. in Rd e f ∈ L2 (Rd , µX ) (e quindi f (X) ∈ L2 (Ω, P )). Per
esempio, nel caso d = 1, se X ∼ Unif[0,1] e f ∈ L2 ([0, 1]), allora
Z 1
f (x)dx = E [f (X)] .
0

Dunque un integrale (anche multi-dimensionale) ammette una rappresentazione probabilistica e il calcolo


di esso può essere ricondotto al calcolo di un valore atteso.
Ora supponiamo che (Xn )n∈N sia una successione di v.a. reali i.i.d. con la medesima distribuzione4 di
X. Per la Legge forte dei grandi numeri vale

f (X1 ) + · · · + f (Xm )
E[f (X)] = lim q.c.
m→∞ m
Questo risultato può essere tradotto in termini “pratici” nel modo seguente. Supponiamo di poter estrarre
casualmente un valore xn dalla v.a. Xn , per ogni n = 1, . . . , m con m ∈ N fissato, sufficientemente grande:
diciamo che xn è una realizzazione o simulazione della v.a. Xn . Allora un’approssimazione di E [f (X)] è data
dalla media aritmetica
m
1X
f (xn ). (4.2.5)
m
n=1
4 Si dice (X )
n n∈N è una successione di copie indipendenti di X.
4.2. LEGGE DEI GRANDI NUMERI 171

In (4.2.5) x1 , . . . , xm rappresentano m realizzazioni (simulazioni) indipendenti di X: in altri termini, xn è un


numero (non una v.a.) che è un particolare valore della v.a. Xn generato in modo indipendente da Xh per h , n.
La maggior parte dei software di calcolo scientifico possiede generatori di numeri aleatori per le principali
distribuzioni (uniforme, esponenziale, normale etc...). In definitiva, il metodo Monte Carlo permette di ap-
prossimare numericamente il valore atteso di una funzione di una v.a. di cui si sia in grado di generare (simulare)
dei valori casuali in modo indipendente.
I principali vantaggi rispetto ai metodi deterministici di integrazione numerica sono i seguenti:
i) per la convergenza del metodo non si richiedono ipotesi di regolarità sulla funzione f se non la somma-
bilità;
ii) l’ordine di convergenza del metodo è indipendente dalla dimensione d e l’implementazione in dimen-
sione maggiore di uno non comporta alcuna difficoltà aggiuntiva.
Le questioni della convergenza e della stima dell’errore numerico del metodo Monte Carlo saranno breve-
mente discusse nell’Osservazione 4.4.7. Il metodo Monte Carlo può anche essere applicato alla risoluzione
numerica di vari tipi di equazioni alle derivate parziali. Al momento il Monte Carlo è l’unico metodo numerico
conosciuto per risolvere problemi di grandi dimensioni che tipicamente sorgono nelle applicazioni reali. Esistono
molte monografie dedicate al Monte Carlo, fra cui segnaliamo [29]; una presentazione sintetica del metodo
si trova anche in [58].
La Figura 4.2 rappresenta l’istogramma di un vettore di 10.000 numeri casuali generati da una distri-
buzione N1,3 : si vede in figura come l’istogramma “approssima” il grafico (la linea continua) della densità
Gaussiana di N1,3 .

Figura 4.2: Istogramma di un vettore di 10.000 numeri casuali estratti dalla distribuzione N1,3 e grafico
della densità Gaussiana di N1,3

4.2.2 Polinomi di Bernstein


Forniamo una dimostrazione probabilistica del noto risultato di densità dei polinomi nello spazio C([0, 1])
delle funzioni continue sull’intervallo [0, 1], rispetto alla norma uniforme.
Proposizione 4.2.5. Data f ∈ C([0, 1]), definiamo il polinomio di Bernstein di grado n associato a f nel modo
seguente
n !
X n k
fn (p) = p (1 − p)n−k f (k/n) , p ∈ [0, 1]. (4.2.6)
k
k=0
172 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Allora si ha
lim ∥f − fn ∥∞ = 0,
n→∞
dove ∥f ∥∞ = max |f (p)|.
p∈[0,1]

Dimostrazione. Sia (Xn )n∈N una successione di v.a. reali i.i.d. aventi distribuzione Bep . Poniamo Mn =
X1 +···+Xn
n . Ricordiamo che, per la Proposizione 3.6.3, X1 + · · · + Xn ∼ Binn,p . Allora l’interpretazione probabi-
listica della formula (4.2.6) è
fn (p) = E [f (Mn )] , p ∈ [0, 1].
Ora osserviamo che
p(1 − p) 1
var (Mn ) =
≤ ,
n 4n
ed essendo E [Mn ] = p, per la disuguaglianza di Markov (4.1.3) si ha
1
P (|Mn − p| ≥ λ) ≤ , λ > 0. (4.2.7)
4nλ2
Poiché f è uniformemente continua su [0, 1], per ogni ε > 0 esiste λε tale che |f (x) − f (y)| ≤ ε se |x − y| ≤ λε .
Allora si ha
|f (p) − fn (p)| = |f (p) − E [f (Mn )]| ≤
(per la disuguaglianza di Jensen)
≤ E [|f (p) − f (Mn )|]
h i
≤ ε + E |f (p) − f (Mn )| 1(|Mn −p|≥λε )
≤ ε + 2∥f ∥∞ P (|Mn − p| ≥ λε ) .
Utilizzando la (4.2.7) si ottiene
lim sup ∥f − fn ∥∞ ≤ ε
n→∞
e la tesi segue dall’arbitrarietà di ε.

4.3 Condizioni necessarie e sufficienti per la convergenza debole


In questa sezione forniamo due condizioni necessarie e sufficienti per la convergenza debole di una
successione (Xn )n∈N di v.a. reali: la prima è espressa in termini delle CDF (FXn )n∈N e la seconda in termini
delle CHF (ϕXn )n∈N .

4.3.1 Convergenza di funzioni di ripartizione


Poiché ogni distribuzione è identificata dalla propria CDF, è naturale chiedersi se ci sia una relazione
fra la convergenza debole e la convergenza puntuale delle relative CDF. Consideriamo un paio di semplici
esempi.
Esempio 4.3.1. La successione delle distribuzioni uniformi Unif[0, 1 ] , con n ∈ N, converge debolmente alla
n
delta di Dirac δ0 poiché, per ogni f ∈ bC, si ha
Z Z 1 Z
n
f dUnif[0, 1 ] = n f (x)dx −−−−−−→ f (0) = f dδ0 .
R n
0 n→∞ R
D’altra parte, la successione delle CDF FUnif 1]
, rappresentata in Figura 4.3, converge puntualmente a Fδ0
[0, n
solo su R \ {0}: notiamo che 0 è l’unico punto di discontinuità di Fδ0 .
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 173

1.0

0.8

0.6

0.4

0.2

-2 -1 1 2

Figura 4.3: CDF delle distribuzioni Unif[0,1] (linea continua), Unif[0, 1 ] (linea tratteggiata) e Unif[0, 1 ] (linea
2 5
punteggiata).

Esempio 4.3.2. Non è difficile verificare che:

• se xn ↗ x0 allora Fδxn (x) −→ Fδx (x) per ogni x ∈ R;


0

• se xn ↘ x0 allora Fδxn (x) −→ Fδx (x) per ogni x ∈ R \ {x0 }.


0

Teorema 4.3.3. Siano (µn )n∈N una successione di distribuzioni reali e µ una distribuzione reale. Sono
equivalenti le seguenti affermazioni:
d
i) µn −−−−→ µ;

ii) Fµn (x) −−−−−−→ Fµ (x) per ogni x punto di continuità di Fµ .


n→∞

Dimostrazione. Ovviamente l’enunciato ha la seguente formulazione equivalente in termini di variabili


aleatorie: siano (Xn )n∈N una successione di v.a. reali e X una v.a. reale. Sono equivalenti le seguenti
affermazioni:
d
i) Xn −−−−→ X;

ii) FXn (x) −−−−−−→ FX (x) per ogni x punto di continuità di FX .


n→∞

[i) =⇒ ii)] Fissiamo x, punto di continuità di FX : allora per ogni ε > 0 esiste δ > 0 tale che FX (x) − FX (y) ≤ ε
se |x − y| ≤ δ. Sia f ∈ bC tale che |f | ≤ 1 e

1 per y ≤ x,


f (y) = 
0 per y ≥ x + δ.

Notiamo che h i
E [f (Xn )] ≥ E f (Xn )1(Xn ≤x) = P (Xn ≤ x) = FXn (x).
Allora abbiamo

lim sup FXn (x) ≤ lim sup E [f (Xn )] =


n→∞ n→∞

d
(per ipotesi, poiché Xn −−−−→ X)

= E [f (X)] ≤ FX (x + δ) ≤ FX (x) + ε.
174 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Analogamente, se f ∈ bC è tale che |f | ≤ 1 e



1 per y ≤ x − δ,


f (y) = 
0
 per y ≥ x,

allora h i
E [f (Xn )] ≤ E 1{Xn ≤x} = FXn (x).
Quindi abbiamo

lim inf FXn (x) ≥ lim inf E [f (Xn )] =


n→∞ n→∞

(per ipotesi)

= E [f (X)] ≥ FX (x − δ) ≥ FX (x) − ε.

La tesi segue dall’arbitrarietà di ε.


[ii) =⇒ i)] Dati a, b punti di continuità di FX , per ipotesi si ha
h i h i
E 1]a,b] (Xn ) = FXn (b) − FXn (a) −−−−−−→ FX (b) − FX (a) = E 1]a,b] (X) .
n→∞

Fissiamo R > 0 e f ∈ bC col supporto contenuto nel compatto [−R, R]. Poiché i punti di discontinuità di
FX sono al più un’infinità numerabile, f può essere approssimata uniformemente (in norma L∞ ) mediante
combinazioni lineari di funzioni del tipo 1]a,b] con a, b punti di continuità di FX . Ne viene che anche per
tale f vale
lim E [f (Xn )] = E [f (X)] .
n→∞

Infine, fissiamo ε > 0 e consideriamo R abbastanza grande in modo che FX (−R) ≤ ε e FX (R) ≥ 1 − ε:
assumiamo inoltre che R e −R siano punti di continuità di FX . Allora per ogni f ∈ bC vale

E [f (Xn ) − f (X)] = J1,n + J2,n + J3

dove
h i h i
J1,n = E f (Xn )1]−R,R] (Xn ) − E f (X)1]−R,R] (X) ,
h i
J2,n = E f (Xn )1]−R,R]c (Xn ) ,
h i
J3 = −E f (X)1]−R,R]c (X) .

Ora, per quanto provato sopra, si ha


lim J1,n = 0
n→∞
mentre, per ipotesi,
 
J2,n ≤ ∥f ∥∞ FXn (−R) + (1 − FXn (R)) −−−−−−→ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ ,
n→∞

e
|J3 | ≤ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ .
Questo conclude la prova.

Non è sufficiente che le CDF Fµn convergano ad una funzione continua per concludere che µn converge
debolmente, come mostra il seguente
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 175

Esempio 4.3.4. La successione di delta di Dirac δn non converge debolmente, tuttavia

Fδn (x) = 1[n,+∞[ (x) −−−−−−→ 0, x ∈ R,


n→∞

ossia Fδn converge puntualmente alla funzione identicamente nulla che, ovviamente, è continua su R ma
non è una CDF.

L’Esempio 4.3.4 non contraddice il Teorema 4.3.3 poiché la funzione limite delle Fδn non è una funzione
di ripartizione. Tale esempio mostra anche che è possibile che una successione di CDF converga ad una
funzione che non è una CDF.

4.3.2 Compattezza nello spazio delle distribuzioni


In questa sezione introduciamo la proprietà di tightness5 che fornisce una caratterizzazione della relati-
va compattezza nello spazio delle distribuzioni reali: essa garantisce che da una successione di distribuzioni
si possa estrarre una sotto-successione convergente debolmente. In particolare, la tightness evita situazioni
come quella dell’Esempio 4.3.4.

Definizione 4.3.5 (Tightness). Una famiglia di distribuzioni reali (µi )i∈I è tight se per ogni ε > 0 esiste
M > 0 tale che  
µi ] − ∞, −M] ∪ [M, +∞[ ≤ ε per ogni i ∈ I.

Esercizio 4.3.6. Provare che ogni famiglia costituita da una singola distribuzione reale è tight6 .

La proprietà di tightness si può anche attribuire a famiglie di v.a. (Xi )i∈I oppure di CDF (Fi )i∈I : esse
sono tight se lo sono le relative famiglie di distribuzioni, ossia vale

P (|Xi | ≥ M) ≤ ε per ogni i ∈ I,

e
Fi (−M) ≤ ε, Fi (M) ≥ 1 − ε per ogni i ∈ I.

Teorema 4.3.7 (Teorema di Helly). [!!] Ogni successione tight di distribuzioni reali (µn )n∈N ammette una
sotto-successione convergente debolmente ad una distribuzione µ.

Dimostrazione. Sia (µn )n∈N una successione tight di distribuzioni e sia (Fn )n∈N la successione delle relative
CDF. In base al Teorema 4.3.3, è sufficiente provare che esiste una CDF F ed una sotto-successione Fnk che
converge a F nei punti di continuità di F.
La costruzione di F è basata sull’argomento diagonale di Cantor. Consideriamo una enumerazione
(qh )h∈N dei numeri razionali. Poiché (Fn (q1 ))n∈N è una successione in [0, 1], essa ammette una sotto-
 
successione F1,n (q1 ) n∈N convergente a un valore che indichiamo con F(q1 ) ∈ [0, 1]. Ora F1,n (q2 ) n∈N

è una successione in [0, 1] che ammette una sotto-successione F2,n (q2 ) n∈N convergente a un valore che
indichiamo con F(q2 ) ∈ [0, 1]: notiamo che si ha anche

F2,n (q1 ) −−−−−−→ F(q1 )


n→∞

poiché F2,n è sotto-successione di F1,n . Ripetiamo l’argomento fino a costruire, per ogni k ∈ N, una

successione Fk,n n∈N tale che
Fk,n (qh ) −−−−−−→ F(qh ), ∀h ≤ k.
n→∞
5 Preferiamo non tradurre il termine tecnico “tight”. In alcuni testi, “famiglia tight” è tradotto con “famiglia tesa” o “famiglia
stretta”.
6 Più in generale, ogni distribuzione µ su uno spazio metrico separabile e completo (M, ϱ), è tight nel senso seguente: per ogni ε > 0
esiste un compatto K tale che µ(M \ K) < ε. Per la dimostrazione, si veda il Teorema 1.4 in [13].
176 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

In base all’argomento diagonale, consideriamo la sotto-successione Fnk := Fk,k : essa è tale che

Fnk (q) −−−−−−→ F(q), q ∈ Q.


n→∞

Completiamo la definizione di F ponendo

F(x) := inf F(q), x ∈ R \ Q.


x<q∈Q

Per costruzione F assume valori in [0, 1], è monotona (debolmente) crescente e continua a destra. Per
provare che F è una funzione di ripartizione, rimane da verificare che

lim F(x) = 0, lim F(x) = 1. (4.3.1)


x→−∞ x→+∞

Soltanto a questo punto7 e solo per provare la (4.3.1), utilizziamo l’ipotesi che (Fn )n∈N sia una successione
tight: fissato ε > 0, esiste M (non è restrittivo assumere M ∈ Q) tale che vale Fnk (−M) ≤ ε per ogni k ∈ N.
Dunque, per ogni x ≤ −M, si ha
F(x) ≤ F(−M) = lim Fnk (−M) ≤ ε.
k→∞

Analogamente si ha, per ogni x ≥ M, si ha

1 ≥ F(x) ≥ F(M) = lim Fnk (M) ≥ 1 − ε.


k→∞

La (4.3.1) segue dall’arbitrarietà di ε.


Infine concludiamo provando che Fnk converge a F nei suoi punti di continuità. Infatti, se F è continua
in x allora per ogni ε > 0 esistono a, b ∈ Q tali che a < x < b e

F(x) − ε ≤ F(y) ≤ F(x) + ε, y ∈ [a, b].

Allora si ha

lim inf Fnk (x) ≥ lim inf Fnk (a) = F(a) ≥ F(x) − ε,
k→∞ k→∞
lim sup Fnk (x) ≤ lim sup Fnk (b) = F(b) ≤ F(x) + ε,
k→∞ k→∞

da cui la tesi per l’arbitrarietà di ε.

4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy


In questa sezione esaminiamo il rapporto fra la convergenza debole di distribuzioni e la convergenza
puntuale delle relative CHF. Consideriamo il caso d = 1 anche se quanto segue può essere facilmente esteso
al caso multi-dimensionale.

Teorema 4.3.8 (Teorema di continuità di Lévy). [!!] Sia (µn )n∈N una successione di distribuzioni reali e
sia (ϕn )n∈N la successione delle corrispondenti funzioni caratteristiche. Vale:
d
i) se µn −−−−→ µ allora ϕn converge puntualmente alla CHF ϕ di µ, ossia ϕn (η) −−−−−−→ ϕ(η) per ogni η ∈ R;
n→∞

ii) viceversa, se ϕn converge puntualmente a una funzione ϕ continua in 0, allora ϕ è la CHF di una
d
distribuzione µ e vale µn −−−−→ µ.
7 Si ripensi alla successione dell’Esempio 4.3.4, definita da X ≡ n per n ∈ N: essa non ammette sotto-successioni convergenti
n
debolmente eppure si ha lim FXn (x) = F(x) ≡ 0 per ogni x ∈ R. Infatti (Xn )n∈N non è una successione tight di v.a.
n→∞
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 177

d
Dimostrazione. i) Per ogni η fissato, la funzione f (x) := eixη è continua e limitata: quindi, se µn −−−−→ µ allora
Z Z
ϕn (η) = f dµn −−−−−−→ f dµ = ϕ(η).
R n→∞ R

ii) Dimostriamo che se ϕn converge puntualmente a ϕ, con ϕ funzione continua in 0, allora (µn )n∈N è tight.
Osserviamo che ϕ(0) = 1 e, per l’ipotesi di continuità di ϕ in 0, vale

1 t
Z
(1 − ϕ(η)) dη −−−−−−+→ 0. (4.3.2)
t −t t→0

Sia ora t > 0: vale


Zt Zt
iηx
 2 sin(xt)
J1 (x, t) := 1−e dη = 2t − (cos(xη) + i sin(xη)) dη = 2t − =: J2 (x, t).
−t −t xt
Osserviamo che J2 (x, t) ≥ 0 poiché Z x
|sin x| = cos tdt ≤ |x|.

0
Allora, integrando rispetto a µn , da una parte si ha
Z Z
J2 (x, t)µn (dx) ≥ J2 (x, t)µn (dx) ≥
R t|x|≥2

sin(tx) 1 1
(poiché tx ≤ t|x|
≤ 2 se t|x| ≥ 2)
Z
2 2
   
≥ µn (dx) = µn − ∞, − ∪ , +∞ . (4.3.3)
t|x|≥2 t t

D’altra parte, per il Teorema di Fubini si ha

1 t 1 t
Z Z Z
J1 (x, t)µn (dx) = (1 − ϕn (η)) −−−−−−→ (1 − ϕ(η)) dη,
R t −t n→∞ t −t

per il Teorema della convergenza dominata. Dalla (4.3.2) segue che, per ogni ε > 0, esistono t > 0 e n̄ =
n̄(ε, t) ∈ N tali che Z
J (x, t)µ (dx) ≤ ε, n ≥ n̄.
1 n
R
Combinando questa stima con la (4.3.3), si conclude che
2 2
   
µn − ∞, − ∪ , +∞ ≤ ε, n ≥ n̄,
t t
e quindi (µn )n∈N è tight.
Ora concludiamo la dimostrazione. Data una sotto-successione µnk , per quanto appena provato, essa
è tight e quindi, per il Teorema di Helly, ammette un’ulteriore sotto-successione µnk che converge debol-
j
mente a una distribuzione µ. Per il punto i), ϕnk converge puntualmente alla CHF di µ: d’altra parte, per
j
ipotesi, ϕnk converge puntualmente ϕ e quindi ϕ è la CHF di µ. Riassumendo, ogni sotto-successione µnk
j
ammette una sotto-successione che converge debolmente alla distribuzione µ Rche ha CHF uguale a ϕ.
Sia ora f ∈ bC: per quanto appena provato, ogni sotto-successione di R f dµn ammette una sotto-
R R R
successione che converge a R f dµ. Per il Lemma 4.1.8, R f dµn converge a R f dµ. La tesi segue dal-
l’arbitrarietà di f .
178 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Esempio 4.3.9. L’ipotesi di continuità in 0 del Teorema di Lévy è necessaria. Infatti consideriamo Xn ∼ N0,n
con n ∈ N. Allora
nη 2
ϕXn (η) = e− 2

converge a zero per n → ∞ per ogni η , 0 e vale ϕXn (0) = 1. D’altra parte, per ogni x ∈ R si ha
Zx
1 y2
FXn (x) = √ e− 2n dy =
−∞ 2πn
y
(col cambio z = √ )
2n
Z √x
2n 1 2 1
= √ e−z dz −−−−−−→ ,
−∞ π n→∞ 2
e quindi, per il Teorema 4.3.3, Xn non converge debolmente.

4.3.4 Esempi notevoli di convergenza debole


In questa sezione esibiamo alcuni esempi notevoli di convergenza debole. Vedremo successioni di v.a.
discrete che convergono a v.a. assolutamente continue e, viceversa, successioni di v.a. assolutamente conti-
d
nue che convergono a v.a. discrete. Negli esempi seguenti la convergenza Xn −−−−→ X è dimostrata tramite
il
 Teorema
 di continuità di Lévy, ovvero studiando la convergenza puntuale della successione delle CHF
ϕXn .
n∈N
Esempio 4.3.10 (Dalla geometrica all’esponenziale). Consideriamo una successione di v.a. con distribu-
zione geometrica
Xn ∼ Geompn , n ∈ N,
dove 0 < pn < 1, per cui si ha
P (Xn = k) = pn (1 − pn )k−1 , k ∈ N.
Si calcola facilmente la CHF di Xn :
∞ ∞ 
X X k−1 eiη pn p
ϕXn (η) = eiηk pn (1 − pn )k−1 = eiη pn eiη (1 − pn ) = iη
= −iη n .
k=1 k=1
1 − e (1 − pn ) e − 1 + pn

Xn d
Verifichiamo ora che se npn −−−−−→ λ per un certo λ ∈ R>0 allora n −−−−→ X ∼ Expλ . Infatti si ha
n→∞
η pn
 X   
n
ϕ Xn (η) = E eiη n = ϕXn = η =
n n e −i n
− 1 + pn
(sviluppando in serie di Taylor l’esponenziale per n → ∞)
pn npn λ
= η
  = −−−−−−→ = ϕExpλ (η).
−i n + o n + pn −iη + o (1) + npn
1 n→∞ λ − iη

Esempio 4.3.11 (Dalla normale alla Delta di Dirac). Riprendiamo l’Esempio 4.1.3 e consideriamo una
successione (Xn )n∈N di v.a. con distribuzione normale Xn ∼ Nan ,σn2 dove an −→ a ∈ R e σn −→ 0. Grazie al
d
Teorema di continuità di Lévy è facile verificare che Xn −−−−→ X ∼ δa . Infatti
η 2 σn2
ϕXn (η) = eian η− 2 −−−−−−→ eiaη , η ∈ R,
n→∞
d
perciò dal Teorema di continuità di Lévy segue che Xn −−−−→ X ∼ δa , ossia Xn converge debolmente a una
v.a. con distribuzione Delta di Dirac centrata in a.
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 179

Esempio 4.3.12 (Dalla binomiale alla Poisson). Consideriamo una successione di v.a. con distribuzione
binomiale
Xn ∼ Binn,pn , n ∈ N.
d
Se npn −−−−−→ λ per un certo λ ∈ R>0 allora Xn −−−−→ X ∼ Poissonλ : infatti per la (3.5.3) e il Lemma 4.4.1, si
n→∞
ha
n  np  n iη
ϕXn (η) = 1 + pn eiη − 1 = 1 + n eiη − 1
 
−−−−−−→ eλ(e −1) = ϕPoissonλ (η).
n n→∞

Esempio 4.3.13 (Dalla binomiale alla normale). Sia Xn ∼ Binn,p . Ricordiamo (cfr. Proposizione 3.6.3) che
la distribuzione di Xn coincide con la distribuzione della somma di n v.a. di Bernoulli indipendenti. Allora,
come conseguenza diretta del Teorema centrale del limite (Teorema 4.4.4, che proveremo fra poco e la cui
dimostrazione si basa sul Teorema di continuità di Lévy), vale:
d
Zn −−−−→ X ∼ N0,1 ,
dove
Xn − µ n
Zn = , µn = E [Xn ] = np, σn2 = var(Xn ) = np(1 − p).
σn
Il risultato appena ottenuto può essere espresso informalmente dicendo che per ogni p ∈ ]0, 1[, la distribu-
zione Nnp,np(1−p) è una buona approssimazione di Binn,p per n abbastanza grande: si veda per esempio la
Figura 4.4 per un confronto fra i grafici della densità normale Nnp,np(1−p) e della funzione di distribuzione
binomiale Binn,p , per p = 0.5 e n = 20. Questo risultato sarà ripreso e spiegato con maggior precisione
nell’Osservazione 4.4.8.


● ●
0.15

● ●

0.10

● ●

0.05
● ●

● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20 25 30

Figura 4.4: Densità della distribuzione normale Nnp,np(1−p) e funzione di distribuzione binomiale Binn,p per
p = 0.5 e n = 20.

4.4 Legge dei grandi numeri e Teorema centrale del limite


In questa sezione presentiamo un approccio unificato alla dimostrazione della Legge debole dei grandi
numeri e del Teorema centrale del limite. Tale approccio è basato sul Teorema di continuità di Lévy e sul
Teorema 3.5.20 di sviluppabilità in serie di Taylor della funzione caratteristica. Ricordiamo la notazione
Sn
Sn = X1 + · · · + Xn , Mn = (4.4.1)
n
180 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

rispettivamente per la somma e la media aritmetica delle v.a. X1 , . . . , Xn . Vale il seguente risultato, ben noto
nel caso di successioni reali.
Lemma 4.4.1. Sia (zn )n∈N una successione di numeri complessi convergente a z ∈ C. Allora si ha
z n
 
lim 1 + n = ez .
n→∞ n
Dimostrazione. Seguiamo la prova di [22], Teorema 3.4.2. Proviamo anzitutto che per ogni w1 , . . . , wn , ζ1 , . . . , ζn ∈
C, con modulo minore o uguale a c, vale

Y n Yn Xn
wk − ζk ≤ cn−1 |wk − ζk |. (4.4.2)
k=1 k=1
k=1

La (4.4.2) è vera per n = 1 e in generale si prova per induzione osservando che



Y n Yn Y n−1 n−1
Y Y n−1 n−1
Y
wk − ζk ≤ wn wk − zn ζk + wn ζk − ζn ζk
k=1 k=1
k=1 k=1
k=1 k=1


Yn−1 n−1
Y
≤ c wk − ζk + cn−1 |wn − ζn |.
k=1 k=1

Poi osserviamo che per ogni w ∈ C con |w| ≤ 1 vale |ew − (1 + w)| ≤ |w|2 poichè

X wk X |w|k X1
w
|e − (1 + w)| = − (1 + w) ≤ = |w|2 ≤ |w|2 . (4.4.3)
k! k! k!
k≥0 k≥2 k≥2

Per provare la tesi, fissiamo R > |z|: per ogni n ∈ N abbastanza grande si ha anche R > |zn |. Applichiamo
la (4.4.2) con
z zn
wk = 1 + n , ζk = e n , k = 1, . . . , n;
n
R
osservando che |wk | ≤ 1 + |znn | ≤ e n , abbiamo
n
1 + zn n − ezn ≤ e Rn n−1
   X
zn

zn
1 + − e n ≤
n n

k=1

(per la (4.4.3))

R(n−1)
z 2 R2
≤e n n n ≤ eR
n n
da cui la tesi.
Teorema 4.4.2 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L1 (Ω, P ),
con valore atteso µ := E [X1 ]. Allora la media aritmetica Mn converge debolmente alla v.a. costante uguale a
µ:
d
Mn −−−−→ µ.
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
funzioni caratteristiche ϕMn converge puntualmente alla CHF della distribuzione δµ :

lim ϕMn (η) = eiµη , η ∈ R. (4.4.4)


n→∞
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 181

Abbiamo
 η 
ϕMn (η) = E ei n Sn =

(poiché le Xn sono i.i.d.)


 h η in
= E ei n X1 =

(per il Teorema 3.5.20 e l’ipotesi di sommabilità)


 !n
iµη 1
= 1+ +o −−−−−−→ eiµη
n n n→∞

grazie al Lemma 4.4.1. Questo prova la (4.4.4) e conclude la dimostrazione.


Osservazione 4.4.3. Le ipotesi del Teorema 4.4.2 sono più deboli rispetto alla Legge dei grandi numeri
nella versione del Teorema 4.2.1 in cui si assume che Xn ∈ L2 (Ω, P ). Con metodi più sofisticati è anche
possibile estendere il Teorema 4.2.3 ed ottenere la cosiddetta Legge forte dei grandi numeri di Kolmogorov:
se (Xn )n∈N è una successione di v.a. reali i.i.d. in L1 (Ω, P ) con valore atteso µ := E [X1 ], allora Mn converge
quasi certamente a µ. Per maggiori dettagli si veda, per esempio, [35].

Supponiamo ora che (Xn )n∈N sia una successione di v.a. reali i.i.d. in L2 (Ω, P ). Poniamo

µ := E [X1 ] e σ 2 := var(X1 ).

Ricordiamo che valore atteso e varianza della media aritmetica Mn in (4.2.1) sono dati rispettivamente da

σ2
E [Mn ] = µ e var(Mn ) = .
n
Consideriamo allora la media aritmetica normalizzata, definita da

en := Mpn − E [Mn ] = Mn − µ .
M
var(Mn ) √σ
n

Notiamo che
n
e n = Sn −
M √
µn
=√
1 X Xk − µ
. (4.4.5)
σ n n k=1 σ

Il Teorema centrale del limite8 afferma che, a prescindere dalla distribuzione delle Xn , la successione delle
medie aritmetiche normalizzate M en converge debolmente a una normale standard.

Teorema 4.4.4 (Teorema centrale del limite). [!!!] Per ogni successione (Xn )n∈N di v.a. reali i.i.d. in
L2 (Ω, P ) vale
Men −−−d−→ Z ∼ N0,1 . (4.4.6)
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
en converge puntualmente alla CHF della distribuzione N0,1 :
funzioni caratteristiche ϕM

η2

lim ϕM
en (η) = e 2 , η ∈ R. (4.4.7)
n→∞
8 Il nome Teorema centrale del limite è stato dato dal matematico ungherese George Pólya per sottolineare come tale teorema abbia
un ruolo centrale in Probabilità.
182 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Per la (4.4.5) si ha
 n 
 i √ηn P Xkσ−µ 
en (η) = E 
ϕM e
k=1  =
 

(poiché le Xn sono i.i.d.)


" η X −µ #!n
i√ 1
= E e n σ =

X1 −µ
(per il Teorema 3.5.20, essendo per ipotesi σ ∈ L2 (Ω, P ) con media nulla e varianza unitaria)
 !n
(iη)2 1 η2
= 1+ +o −−−−−−→ e− 2
2n n n→∞

grazie al Lemma 4.4.1. Questo prova la (4.4.7) e conclude la dimostrazione.


Osservazione 4.4.5. Nel caso particolare, nel caso in cui µ = 0 e σ = 1, la (4.4.6) diventa
S d
√n −−−−→ Z ∼ N0,1 .
n

Osservazione 4.4.6 (Teorema centrale del limite e Legge dei grandi numeri). Data l’espressione di M
en in
(4.4.5), il Teorema centrale del limite si riformula nel modo seguente:
σ
Mn ≃ µ + √ Z ∼ Nµ, σ 2 , per n ≫ 1, (4.4.8)
n n

dove il simbolo ≃ indica che Mn e µ + √σn Z hanno approssimativamente la stessa distribuzione. La (4.4.8)
fornisce un’approssimazione della distribuzione della v.a. Mn che precisa ed esplicita il risultato di conver-
genza della Legge dei grandi numeri.
Osservazione 4.4.7 (Teorema centrale del limite e metodo Monte Carlo). [!] Medie Mn di variabili i.i.d.,
definite come in (4.4.1), appaiono in modo naturale nel metodo Monte Carlo che abbiamo introdotto nella
Sezione 4.2.1. Sotto le ipotesi del Teorema centrale del limite, posto
!
σ  
pλ := P Mn − µ ≤ λ √ = P M en ≤ λ , λ > 0,
n
si ha la stima
pλ ≃ P (|Z| ≤ λ) , Z ∼ N0,1 .
Ora ricordiamo (cfr. (3.1.12)) che

P (|Z| ≤ λ) = 2F(λ) − 1, λ > 0,

con F in (4.4.10). Per la stima dell’errore numerico del metodo


 p+1  Monte Carlo, si parte dai valori di p usati
più comunemente, ossia p = 95% e p = 99%: posto λ = F −1
2 , si ottiene
! !
σ σ
P Mn − µ ≤ 1.96 √ ≃ 95% e P Mn − µ ≤ 2.57 √ ≃ 99%.
n n
Per questo motivo
σ σ
r95 := 1.96 √ e r99 := 2.57 √
n n
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 183

sono comunemente chiamati raggi degli intervalli di confidenza al 95% e al 99% per µ: se Mn rappresenta il
risultato (aleatorio) dell’approssimazione Monte Carlo del valore atteso µ, allora

[Mn − r95 , Mn + r95 ] e [Mn − r99 , Mn + r99 ]

sono gli intervalli (di estremi aleatori) a cui µ (che è il valore incognito che si intende approssimare)
appartiene con probabilità pari, rispettivamente, al 95% e 99%. In altri termini, è bene ricordare che il
risultato di un’approssimazione numerica col metodo Monte Carlo non è un singolo numero bensı̀ un intervallo di
confidenza.
Osservazione 4.4.8 (Teorema centrale del limite e somme di v.a. i.i.d.). Come già anticipato nell’Esempio
4.3.13, il Teorema centrale del limite è un valido strumento per approssimare la legge di v.a. definite come
somme di variabili i.i.d. Per esempio, sappiamo (cfr. Proposizione 3.6.3) che X ∼ Binn,p è uguale in legge a
X1 + · · · + Xn con Xj ∼ Bep i.i.d. Allora abbiamo la seguente approssimazione asintotica della CDF di X per
n → +∞:  
k − pn 
Z ∼ N0,1 .

P (X ≤ k) ≈ P Z ≤ p

 , (4.4.9)
np(1 − p)
La (4.4.9) segue semplicemente dal fatto che, posto µ = E [X1 ] = p e σ 2 = var(X1 ) = p(1 − p), per il Teorema
centrale del limite si ha ! !
X − µn k − µn k − µn
P (X ≤ k) = P √ ≤ √ ≈P Z ≤ √ .
σ n σ n σ n
La (4.4.9) equivale a  
 k − pn 
FX (k) ≈ F  p
 
np(1 − p)

dove FX indica la CDF di X ∼ Binn,p e


x z2
e− 2
Z
F(x) = √ dz (4.4.10)
−∞ 2π
è la CDF normale standard.
Sotto ipotesi più forti, una stima esplicita della velocità di convergenza nel Teorema centrale del limite è
data dal Teorema di Berry-Esseen che qui ci limitiamo ad enunciare9 .
Teorema 4.4.9 (Teorema di Berry-Esseen). Esiste una costante10 C < 1 tale che, se (Xn ) è una successione
di v.a. i.i.d. in L3 (Ω, P ) con
h i
E [X1 ] = 0, var(X1 ) := σ 2 , E |X1 |3 =: ϱ,

allora si ha

|Fn (x) − F(x)| ≤ √ , x ∈ R, n ∈ N,
σ3 n
dove Fn indica la CDF della media normalizzata M
en in (4.4.5) e F è la CDF normale standard in (4.4.10).

9 Per la dimostrazione si veda, per esempio, [22].


10 Non è noto il valore ottimale di C: al momento si sa che 0.4097 < C < 0.56.
184 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
Capitolo 5

Probabilità condizionata

We have not succeeded in answering


all our problems - indeed we
sometimes feel we have not
completely answered any of them.
The answers we have found have
only served to raise a whole set of
new questions. In some ways we feel
that we are as confused as ever, but
we think we are confused on a higher
level, and about more important
things.

Earl C. Kelley

In uno spazio di probabilità (Ω, F , P ), siano X una variabile aleatoria e G una sotto-σ -algebra di F .
In questo capitolo introduciamo i concetti di distribuzione e attesa di X condizionate a G . Ricordando
che una σ -algebra può essere interpretata come un insieme di “informazioni”, l’attesa di X condizionata a
G rappresenta la miglior stima del valore aleatorio X in base alle informazioni contenute in G . Tanto più G
è grande, tanto migliore e più dettagliata è la stima di X data dall’attesa condizionata: quest’ultima, dal
punto di vista matematico, è definita come una variabile aleatoria che gode di determinate proprietà. I
concetti di attesa e distribuzione condizionata sono alla base della teoria dei processi stocastici e di tutte
le applicazioni della teoria della probabilità in cui si vuole modellizzare un fenomeno aleatorio che evolve
nel tempo: in tal caso è necessario descrivere non solo l’evoluzione del valore aleatorio X ma anche quella
delle informazioni che, col passare del tempo, diventano disponibili e permettono di stimare X. In questo
capitolo, salvo diversamente specificato, X indica una variabile aleatoria a valori in Rd .

5.1 Il caso discreto


Introduciamo il concetto di condizionamento alla σ -algebra generata da una v.a. discreta: trattia-
mo questo caso molto particolare con uno scopo meramente introduttivo alla definizione generale che è
tecnicamente più complessa e sarà introdotta nelle sezioni successive.
Consideriamo una variabile aleatoria Y definita sullo spazio (Ω, F , P ) e assumiamo che Y sia discreta1
nel senso seguente:

1 L’ipotesi ii) non è realmente restrittiva: se Z verifica i) allora esiste una v.a. Y discreta tale che P (Y = y) > 0 per ogni y ∈ Y (Ω) e
Z = Y q.c.

185
186 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

i) i valori distinti assunti da Y formano un insieme di cardinalità al più numerabile: in altri termini,
l’immagine di Ω mediante Y è della forma Y (Ω) = (yn )n∈N con yn distinti;

ii) per ogni n ∈ N, l’evento Bn := (Y = yn ) non è trascurabile, ossia P (Bn ) > 0.

In queste ipotesi, la famiglia (Bn )n∈N forma una partizione finita o numerabile di Ω, i cui elementi sono even-
ti non trascurabili. Notiamo che σ (Y ), la σ -algebra generata da Y , è costituita dall’insieme vuoto, dagli
elementi della partizione (Bn )n∈N e dalle unioni di essi.

Definizione 5.1.1 (Probabilità condizionata).


  Nello spazio (Ω, F , P ) la probabilità condizionata alla v.a.
discreta Y è la famiglia P (· | Y ) = Pω (· | Y ) di misure di probabilità su (Ω, F ) definite da
ω∈Ω

Pω (A | Y ) := P (A | Y = Y (ω)), A ∈ F, (5.1.1)

dove P (· | Y = Y (ω)) indica la probabilità condizionata all’evento (Y = Y (ω)) (cfr. Definizione 2.3.2).

Osservazione 5.1.2. Per ogni A ∈ F , P (A | Y ) è una variabile aleatoria costante sugli elementi della parti-
zione (Bn )n∈N :
X
P (A | Y ) = P (A | Bn )1Bn .
n≥1

Poiché Pω (· | Y ) è una misura di probabilità per ogni ω ∈ Ω, sono definiti in modo naturale i concetti di
distribuzione e attesa condizionate a Y .

Definizione 5.1.3 (Distribuzione e attesa condizionata). Data X una v.a. su (Ω, F , P ) a valori in Rd ,

i) la distribuzione (o legge) di X condizionata a Y , indicata con µX|Y , è la distribuzione di X relativa alla


probabilità condizionata P (· | Y ):

µX|Y (H) := P (X ∈ H | Y ), H ∈ Bd ; (5.1.2)

ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a Y , indicata con E [X | Y ], è il valore atteso di X nella


probabilità condizionata P (· | Y ):
Z
E [X | Y ] := XdP (· | Y ). (5.1.3)

Osservazione 5.1.4. Si noti che la distribuzione e l’attesa condizionate dipendono da ω e quindi sono
quantità aleatorie, infatti:

i) il significato della definizione (5.1.2) è

µX|Y (H; ω) := Pω (X ∈ H | Y ), H ∈ Bd , ω ∈ Ω.

Di conseguenza:

i-a) per ogni ω ∈ Ω, µX|Y (·; ω) è una distribuzione su (Rd , Bd ): diciamo quindi che µX|Y è una distri-
buzione aleatoria;
i-b) per ogni H ∈ Bd , µX|Y (H) è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
µX|Y (H) = P (X ∈ H | Bn )1Bn ; (5.1.4)
n≥1
5.1. IL CASO DISCRETO 187

ii) il significato della definizione (5.1.3) è


Z
E [X | Y ] (ω) := XdPω (· | Y ), ω ∈ Ω.

Di conseguenza, E [X | Y ] è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
E [X | Y ] = E [X | Bn ] 1Bn , (5.1.5)
n≥1

dove, per la Proposizione 3.4.2, Z


1
E [X | Bn ] = XdP .
P (Bn ) Bn

Esempio 5.1.5. Riprendiamo l’Esempio 3.4.5: da un’urna che contiene n ≥ 2 palline numerate, si estrag-
gono in sequenza e senza reinserimento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il
numero della prima e seconda pallina estratta. Allora per ogni k ∈ In si ha

1
 n−1 , se h ∈ In \ {k},


µX2 |X1 =k ({h}) = 
0
 altrimenti,

o equivalentemente
µX2 |X1 = UnifIn \{X1 } .

Generalizziamo ora due ben noti strumenti fondamentali per il calcolo dell’attesa.

Teorema 5.1.6 (Teorema del calcolo della media). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Se
f ∈ mBd e f (X) ∈ L1 (Ω, P ) allora Z
E [f (X) | Y ] = f dµX|Y .
Rd

Dimostrazione. Per ogni ω ∈ Ω si ha


Z
E [f (X) | Y ] (ω) = f (X)dPω (· | Y ) =

(per il Teorema 3.2.25 del calcolo della media)


Z
= f (x)µX|Y (dx; ω).
Rd

Teorema 5.1.7 (Formula della probabilità totale). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Si ha
h i
µX = E µX|Y . (5.1.6)

Dimostrazione. Per ogni H ∈ Bd , per la (5.1.4) si ha


h i X X
E µX|Y (H) = P (X ∈ H | Bn )P (Bn ) = P ((X ∈ H) ∩ Bn ) = P (X ∈ H) = µX (H).
n≥1 n≥1
188 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Esempio 5.1.8. Il numero di mail di spam ricevute ogni giorno da una casella di posta è una v.a. con di-
stribuzione Poisson10 . Installando un software antispam è possibile dimezzare il numero medio di mail di
spam ricevute. Sapendo che tale software protegge solo l’80% delle caselle di posta di un’azienda, determi-
niamo la distribuzione e la media del numero di mail di spam ricevute ogni giorno da ogni casella di posta
dell’azienda.
Sia Y ∼ Bep , con p = 80%, la v.a. che vale 1 se una casella di posta è protetta e 0 altrimenti. Se X indica
il numero di mail di spam ricevute, si ha per ipotesi

µX|Y = Y Poisson5 + (1 − Y )Poisson10 .

Allora, per la Formula della probabilità totale (5.1.6), si ha


h i
µX = E µX|Y = pµX|Y =1 + (1 − p)µX|Y =0 = pPoisson5 + (1 − p)Poisson10

da cui
E [X] = pE [X | Y = 1] + (1 − p)E [X | Y = 0] = 80% · 5 + 20% · 10 = 6.
Infine, per il Teorema del calcolo della media si ha
Z
E [X | Y ] = xµX|Y (dx)
R
Z Z
=Y xPoisson5 (dx) + (1 − Y ) xPoisson10 (dx) = 5Y + 10(1 − Y ).
R R

Esempio 5.1.9. Supponiamo che µX|Y = ExpY con Y ∼ Geomp : allora si ha


Z +∞ h it=+∞
P (X ≥ x | Y ) = ExpY ([x, +∞[) = Y e−tY dt = −e−tY = e−xY ,
t=x
x

per ogni x ≥ 0. Quindi si ha


h i X p
E [P (X ≥ x | Y )] = E e−xY = e−nx p(1 − p)n−1 =
p − 1 + ex
n∈N

e d’altra parte, per la Formula della probabilità totale, vale

E [P (X ≥ x | Y )] = P (X ≥ x)

che fornisce l’espressione della CDF (e quindi della distribuzione) di X. Infatti, osservando che chiaramen-
te P (X ≥ x | Y ) = 1 se x < 0, si ha 
1 se x < 0,


P (X ≥ x) =  p
 p−1+ex se x ≥ 0,

da cui si deduce che X è una v.a. assolutamente continua con densità (si veda la Figura 5.1)

d 0 x se x < 0,


γX (x) = (1 − P (X ≥ x)) =  pe (5.1.7)
dx 
 x 2
se x ≥ 0.
(p−1+e )

Si può pensare a X come a una v.a. di tipo esponenziale con intensità2 stocastica. Questo esempio mostra
che tramite il concetto di distribuzione condizionata è possibile considerare modelli probabilistici in cui il
valore dei parametri è incerto o stocastico. Da qui viene la fondamentale importanza della distribuzione
condizionata in molte applicazioni e, in particolare, in statistica.
2 Nella distribuzione esponenziale Exp , il parametro λ > 0 è usualmente chiamato intensità.
λ
5.1. IL CASO DISCRETO 189

2.0

1.5

1.0

0.5

0.5 1.0 1.5 2.0

Figura 5.1: Grafico della densità in (5.1.7) per p=0.5

L’attesa condizionata gode di due proprietà che la caratterizzano univocamente.

Proposizione 5.1.10. [!] Date due variabili aleatorie X e Y su (Ω, F , P ), con X ∈ L1 (Ω, P ) e Y discreta,
poniamo Z = E [X | Y ]. Allora si ha:

i) Z ∈ mσ (Y );

ii) per ogni W ∈ bσ (Y ) vale


E [ZW ] = E [XW ] .

Inoltre, se Z ′ è una v.a. che verifica le proprietà i) e ii) allora Z ′ (ω) = Z(ω) per ogni ω ∈ Ω.

Dimostrazione. La i) è immediata conseguenza della (5.1.5). Per quanto riguarda la ii), per il Teorema 3.3.3
di Doob esiste f misurabile e limitata tale che W = f (Y ) o, più esplicitamente
X
W= f (yn )1Bn . (5.1.8)
n≥1

Allora per la (5.1.5) si ha


 
 X 
E [W Z] = E f (Y )
 E [X | Bn ] 1Bn 
n≥1
X h i
= f (yn )E [X | Bn ] E 1Bn =
n≥1

(per la (3.4.1))
X h i
= f (yn )E X1Bn = E [XW ] .
n≥1

Infine, se Z ′ gode delle proprietà i) e ii) allora Z ′ è della forma (5.1.8) e, per la ii) con W = 1Bn , si ha
h i h i
f (yn )P (Bn ) = E Z ′ 1Bn = E X1Bn

da cui segue f (yn ) = E [X | Bn ].


190 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Osservazione 5.1.11 (Funzione probabilità condizionata). [!] Sia Y una v.a. discreta a valori in uno
spazio misurabile (E, E ). Secondo la definizione (5.1.1), la probabilità condizionata è una famiglia di misure
di probabilità Pω (· | Y ) al variare di ω ∈ Ω e in tal senso può essere interpretata come una probabilità
aleatoria. È possibile dare una definizione alternativa di probabilità condizionata in cui P (· | Y ) dipende da
y ∈ Y (Ω) invece che da ω ∈ Ω: precisamente, si dice che la famiglia P (· | Y ) = (P (· | Y = y))y∈Y (Ω) di misure
di probabilità su (Ω, F ) è la funzione3 probabilità condizionata a Y . In modo analogo si definisce la funzione
legge della v.a. X condizionata a Y come
µX|Y (H; y) = P (X ∈ H | Y = y), H ∈ B, y ∈ Y (Ω),
e la funzione attesa condizionata come
Z
E [X | Y = y] = XdP (· | Y = y) =

(per la Proposizione 3.4.2)


Z
1
= XdP , y ∈ Y (Ω).
P (Y = y) (Y =y)

Ricordiamo anche la definizione di funzione di distribuzione di una variabile aleatoria discreta X, data
nell’Osservazione 2.4.16:
µ̄X (x) = P (X = x), x ∈ X(Ω).
Per analogia indichiamo con µ̄X|Y (x, y) = P (X = x | Y = y) la funzione di distribuzione di X condizionata a Y e
osserviamo che vale
P ((X = x) ∩ (Y = y)) µ̄(X,Y ) (x, y)
µ̄X|Y (x, y) = = , x ∈ X(Ω), y ∈ Y (Ω). (5.1.9)
P (Y = y) µ̄Y (y)
Esempio 5.1.12. Il numero di email ricevute ogni giorno è una v.a. Y ∼ Poissonλ con λ = 20. Ogni email ha
probabilità p = 15% di essere spam, indipendentemente dalle altre. Determiniamo la distribuzione della
v.a. X che indica il numero di email di spam ricevute ogni giorno.
Intuitivamente ci aspettiamo che X ∼ Poissonλp . In effetti, per ipotesi si ha

Binn,p ({k}) se k ≤ n,


P (X = k | Y = n) = 
0
 se k > n,

è la probabilità che, su n email ricevute, ce ne siano esattamente k di spam. Per la Formula della probabilità
totale si ha
X
P (X = k) = P (X = k | Y = n)P (Y = n)
n≥0
X n! λn
= pk (1 − p)n−k e−λ
k n!
n≥k
e−λ (λp)k X (1 − p)n−k λn−k
= =
k! (n − k)!
n≥k

(posto h = n − k)

e−λ (λp)k X (1 − p)h λh (λp)k


= = e−λp = Poissonλp ({k}).
k! h! k!
h≥0
3 Usiamo il termine funzione probabilità condizionata a Y per sottolineare il fatto che, secondo questa definizione, P (· | Y ) è una
funzione che ad ogni y ∈ Y (Ω) associa la misura di probabilità P (· | Y = y).
5.1. IL CASO DISCRETO 191

Osservazione 5.1.13. Consideriamo Y = 1B con B ∈ F tale che 0 < P (B) < 1: nelle applicazioni si interpreta
la σ -algebra generata da Y
σ (Y ) = {∅, Ω, B, Bc }
come “l’informazione riguardo al fatto che l’evento B sia avvenuto o meno”. Notiamo la differenza concet-
tuale fra:

i) condizionare a B, nel senso di condizionare al fatto che B è avvenuto;

ii) condizionare a Y , nel senso di condizionare al fatto di sapere se B sia avvenuto o meno.

Per questo motivo l’attesa condizionata E [X | Y ] è definita come in (5.1.5) ossia:



E [X | B] se ω ∈ B,


E [X | Y ] (ω) := 
E [X | Bc ] se ω ∈ Bc .

Intuitivamente, E [X | B] rappresenta l’attesa di X stimata in base all’osservazione che B è accaduto: pertanto


E [X | B] è un numero, un valore deterministico. Al contrario, si può pensare a E [X | Y ] come a una stima
futura di X che dipenderà dall’osservare se B avviene o no (oppure alla stima di X che è data da un individuo
che sa se B è avvenuto o no): per questo motivo E [X | Y ] è definita come una variabile aleatoria.

5.1.1 Esempi
Esempio 5.1.14. Calcoliamo E [X1 | Y ] dove X1 , . . . , Xn ∼ Bep , con 0 < p < 1, sono indipendenti e Y = X1 +
· · · + Xn . Poiché Y ∼ Binn,p , abbiamo

E [X1 | Y = k] = 0 · P (X1 = 0 | Y = k) + 1 · P (X1 = 1 | Y = k) =

(posto Z = X2 + · · · + Xn ∼ Binn−1,p )

P ((X1 = 1) ∩ (Z = k − 1))
= =
P (Y = k)

(per l’indipendenza di X1 e Z)

P (X1 = 1)P (Z = k − 1)
=
P (Y = k)
n−1 k−1
p p (1 − p)n−1−(k−1) k
= k−1 n k n−k
= , k = 0, . . . , n,
k p (1 − p)
n

è la funzione attesa di X1 condizionata a Y . Equivalentemente si ha

Y
E [X1 | Y ] = .
n
Esempio 5.1.15. L’urna A contiene n ∈ N palline di cui solo k1 ≤ n sono bianche. L’urna B contiene n ∈ N
palline di cui solo k2 ≤ n sono bianche. Si sceglie a caso un’urna e si effettua una successione di estrazioni
con reinserimento. Determiniamo la distribuzione del numero X di estrazioni necessarie per trovare la
prima pallina bianca.
Sia Y ∼ Bep , con p = 21 , la v.a. che vale 1 se viene scelta l’urna A e vale 0 altrimenti. Allora, ricordando
l’Esempio 3.1.24 sulla distribuzione geometrica, si ha

µX|Y = Y Geom k1 + (1 − Y )Geom k2 ,


n n
192 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

e per la formula della probabilità totale (5.1.6) si ha

1
 
µX = Geom k1 + Geom k2 .
2 n n

Infine
n(k1 + k2 )
E [X] = .
2k1 k2
Esempio 5.1.16. Siano Xi ∼ Poissonλi , i = 1, 2, indipendenti e Y := X1 + X2 . Sappiamo (cfr. Esempio 3.6.5)
che Y ∼ Poissonλ1 +λ2 . Proviamo che
µX1 |Y = BinY , λ1 .
λ1 +λ2

Indichiamo con µX1 |Y =· la funzione distribuzione di X1 condizionata a Y . Per k ∈ {0, 1, . . . , n}, si ha

P ((X1 = k) ∩ (Y = n))
µX1 |Y =n ({k}) = =
P (Y = n)

(per l’indipendenza di X1 e X2 )

e−λ1 λk1 e−λ2 λn−k


2
P (X1 = k)P (X2 = n − k) k! (n−k)!
= =
P (Y = n) e−λ1 −λ2 (λ1 +λ2 )n
n!

e d’altra parte µX1 |Y =n ({k}) = 0 per gli altri valori di k. Da ciò si conclude facilmente.

Esercizio 5.1.17. Siano Xi ∼ Geomp , i = 1, 2, indipendenti e Y := X1 + X2 . Provare che

i) µY ({n}) = (n − 1)p2 (1 − p)n−2 , per n ≥ 2;

ii) µX1 |Y = Unif{1,2,...,Y −1} .

5.2 Attesa condizionata


In uno spazio (Ω, F , P ) siano X una v.a. sommabile e G una sotto-σ -algebra di F . In questa sezione
diamo la definizione di attesa di X condizionata a G . Osserviamo che non è possibile in generale definire
E [X | G ] come nel caso discreto perché non è chiaro come partizionare lo spazio campionario Ω a partire da
G . Il problema è che una σ -algebra può avere una struttura molto complicata: si pensi, per esempio, alla
σ -algebra di Borel sullo spazio Euclideo. Inoltre, nel caso G = σ (Y ) con Y assolutamente continua, la defi-
nizione (5.1.1) perde significato perché ogni evento del tipo (Y = Y (ω)) è trascurabile. Per superare questi
problemi, la definizione generale di attesa condizionata è data in termini delle due proprietà fondamentali
della Proposizione 5.1.10. Il seguente risultato mostra che una v.a. che soddisfa tali proprietà esiste sempre
e, in un certo senso, è unica.

Teorema 5.2.1. Siano X ∈ L1 (Ω, F , P ) a valori in Rd e G una sotto-σ -algebra di F . Esiste una v.a. Z ∈
L1 (Ω, P ) a valori in Rd che soddisfa le seguenti proprietà:

i) Z ∈ mG ;

ii) per ogni v.a. W ∈ mG limitata, vale


E [ZW ] = E [XW ] . (5.2.1)

Inoltre se Z ′ verifica i) e ii) allora Z = Z ′ quasi certamente.


5.2. ATTESA CONDIZIONATA 193

Dimostrazione. (Unicità) Consideriamo il caso d = 1. Dimostriamo un risultato leggermente più generale


da cui segue facilmente l’unicità: siano X, X ′ v.a. sommabili, tali che X ≤ X ′ quasi certamente e siano Z, Z ′
v.a. che verificano le proprietà i) e ii) rispettivamente per X e X ′ . Allora Z ≤ Z ′ quasi certamente.
Infatti, poniamo
An = (Z − Z ′ ≥ 1/n) , n ∈ N.
Allora An ∈ G per la i), e vale
h i h i h i
0 ≥ E (X − X ′ )1An = E X1An − E X ′ 1An =

(per ii))
h i h i h i 1
= E Z1An − E Z ′ 1An = E (Z − Z ′ )1An ≥ P (An )
n
da cui P (An ) = 0 e, per la continuità dal basso di P , si ha anche P (Z > Z ′ ) = 0. Il caso d > 1 segue ragionando
componente per componente.
(Esistenza) Diamo una dimostrazione dell’esistenza basata su risultati di analisi funzionale, in particolare
relativi alla proiezione ortogonale in spazi di Hilbert. Consideriamo dapprima l’ipotesi più restrittiva che
X appartenga a L2 (Ω, F , P ) che è uno spazio di Hilbert col prodotto scalare

⟨X, Z⟩ = E [XZ] .

Anche L2 (Ω, G , P ) è uno spazio di Hilbert ed è un sotto-spazio chiuso di L2 (Ω, F , P ) poiché G ⊆ F . Allora
esiste la proiezione Z di X su L2 (Ω, G , P ) e per definizione si ha:

i) Z ∈ L2 (Ω, G , P ) e quindi in particolare Z è G -misurabile;

ii) per ogni W ∈ L2 (Ω, G , P ) si ha


E [(Z − X)W ] = 0. (5.2.2)

Dunque Z è proprio la v.a. cercata: dal punto di vista geometrico, Z è la v.a. G -misurabile che meglio
approssima X nel senso che, fra le v.a. G -misurabili, è la meno distante da X rispetto alla distanza di L2 .
Consideriamo ora X ∈ L1 (Ω, F , P ) tale che X ≥ 0 quasi certamente. Il caso di X a valori in Rd si prova
ragionando sulla parte positiva e negativa di ogni singola componente. La successione definita da

Xn = X ∧ n, n ∈ N,

è crescente, appartiene a L2 e tende puntualmente a X: ad ogni Xn associamo Zn definita come sopra,


ossia come proiezione di Xn su L2 (Ω, G , P ). Per quanto visto nella prima parte della dimostrazione, per
ogni n ∈ N vale 0 ≤ Zn ≤ Zn+1 quasi certamente: di conseguenza si ha anche che, a meno di un evento A
trascurabile, vale
0 ≤ Zn ≤ Zn+1 , ∀n ∈ N.
Definiamo
Z(ω) = sup Zn (ω), ω ∈ Ω \ A,
n∈N

e Z = 0 su A. Allora Z ∈ mG essendo limite puntuale di v.a. in mG . Inoltre, sia W limitata e G -misurabile:


a meno di considerare separatamente parte positiva e negativa, non è restrittivo considerare W ≥ 0. Per il
Teorema di Beppo-Levi, si ha

E [XW ] = lim E [Xn W ] = lim E [Zn W ] = E [ZW ] .


n→∞ n→∞
194 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Osservazione 5.2.2. [!] Per il secondo Teorema di Dynkin (Teorema A.1.8), la proprietà ii) del Teorema
5.2.1 equivale alla seguente proprietà, in generale più semplice da verificare:
ii-b) vale
E [Z1G ] = E [X1G ]
per ogni G ∈ A , dove A è una famiglia ∩-chiusa tale che σ (A ) = G .
Definizione 5.2.3 (Attesa condizionata). Siano X ∈ L1 (Ω, F , P ) e G una sotto-σ -algebra di F . Se Z
soddisfa le proprietà i) e ii) del Teorema 5.2.1 allora scriviamo

Z = E [X | G ] (5.2.3)

e diciamo che Z è una versione dell’attesa condizionata di X a G . In particolare, se G = σ (Y ) con Y v.a. su


(Ω, F , P ), scriviamo
Z = E [X | Y ]
invece di Z = E [X | σ (Y )].
Osservazione 5.2.4. [!] La (5.2.3) non è da intendersi come un’equazione, ossia come un’identità fra i membri
a destra e a sinistra dell’uguaglianza: al contrario, essa è una notazione, un simbolo che indica che Z gode
delle proprietà i) e ii) del Teorema 5.2.1 (e quindi è una versione dell’attesa condizionata di X a G ). L’attesa
condizionata è definita implicitamente, mediante le proprietà i) e ii), a meno di eventi trascurabili di G : in
altri termini se Z = E [X | G ] e Z ′ differisce da Z su un evento trascurabile di G , allora anche Z ′ = E [X | G ].
Per questo motivo si parla di versione dell’attesa condizionata, anche se nel seguito per semplicità diremo
impropriamente che Z è attesa condizionata di X a G . Però attenzione: se Z = E [X | G ] e Z ′ = Z q.c., non
è detto che Z ′ = E [X | G ]. Si tratta di una sottigliezza a cui si deve porre attenzione: modificando Z su un
evento C trascurabile ma tale che C < G si può perdere la proprietà di G -misurabilità.
Convenzione 5.2.5. [!] Nel seguito sarà utile considerare uguaglianze di attese condizionate. Per evitare
ambiguità useremo la seguente convenzione: se H ⊆ G la scrittura

E [X | H ] = E [X | G ]

significa che se Z = E [X | H ] allora Z = E [X | G ] (tuttavia può esistere una versione Z ′ di E [X | G ] che non
è attesa di X condizionata a H poiché Z ′ ∈ mG \ mH ). Si noti che le notazioni E [X | H ] = E [X | G ] e
E [X | G ] = E [X | H ] non sono equivalenti a meno che non sia H = G .
Osservazione 5.2.6. [!] Ci si può chiedere perché non si definisca l’attesa condizionata come classe di equi-
valenza, identificando le funzioni (variabili aleatorie) che sono uguali quasi certamente come si è soliti fare
nella teoria dell’analisi funzionale. Certamente la presentazione risulterebbe più elegante e si eviterebbe di
dover menzionare continuamente la versione (ossia il rappresentante della classe di equivalenza) dell’attesa
condizionata. Vorrei cercare di chiarire questa questione che è discussa anche nell’introduzione del libro di
Williams [76]. Anzitutto occorre considerare il fatto che l’identificazione per classi di equivalenza dipende
dalla misura di probabilità fissata: mentre in analisi funzionale la struttura di spazio misurabile è general-
mente fissata una volta per tutte, in teoria della probabilità è normale lavorare contemporaneamente con
diverse misure e σ -algebre. Di più, la situazione tipica è quella in cui tali misure, anche se definite sulla
stessa σ -algebra, non sono equivalenti (ossia non hanno gli stessi eventi trascurabili e certi): si pensi al caso
di una probabilità P e della probabilità condizionata P (· | B) con 0 < P (B) < 1 per la quale P (Bc | B) = 0. La
situazione si complica ulteriormente nella teoria dei processi stocastici in cui si considerano famiglie non
numerabili di σ -algebre e di misure di probabilità: in questo ambito, la definizione di variabile aleatoria
come classe di equivalenza semplicemente non è utilizzabile.
Osservazione 5.2.7. [!] Siano X, Y ∈ L2 (Ω, P ) e Z = E [X | Y ]. Allora

E [X − Z] = 0, cov (X − Z, Y ) = 0, (5.2.4)
5.2. ATTESA CONDIZIONATA 195

ossia X − Z ha media nulla ed è scorrelata da Y . La prima equazione segue dalla (5.2.2) con W = 1. Per la
seconda si ha

cov (X − Z, Y ) = E [(X − Z)Y ] − E [X − Z] E [Y ] = 0

poiché E [(X − Z)Y ] = 0 per la4 (5.2.1) con W = Y .

Esempio 5.2.8. [!] Consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ Nµ,C con

σX2
!
σXY
µ = (eX , eY ), C= ≥ 0.
σXY σY2

Proviamo che esistono a, b ∈ R tali che aY + b = E [X | Y ]. Se aY + b = E [X | Y ] allora a, b sono determinati


univocamente dalle equazioni in (5.2.4) che qui diventano

E [aY + b] = E [X] , cov (X − (aY + b), Y ) = 0.

Quindi
aeY + b = eX , aσY2 = σXY
da cui, supposto σY , 0,
σXY σXY
a= , b = eX − eY ,
σY2 σY2
che fornisce un’ulteriore interpretazione della retta di regressione vista nella Sezione 3.2.9. D’altra parte,
se a, b sono determinate in questo modo allora Z := aY + b = E [X | Y ] poiché:

i) chiaramente Z ∈ mσ (Y );

ii) X − Z e Y hanno distribuzione congiunta normale (poiché è (X − Z, Y ) è funzione lineare di (X, Y )) e


quindi non sono solo scorrelate ma anche indipendenti (cfr. Proposizione 3.5.18). Di conseguenza,
per ogni W ∈ mσ (Y ) (che quindi è indipendente da X − Z), si ha

E [(X − Z)W ] = (E [X] − E [Z]) E [W ] = 0.

Dunque la distribuzione multi-normale ha la notevole proprietà di avere le distribuzioni marginali (µX e µY ) e le


distribuzioni marginali condizionate (ossia µX|Y ) che sono ancora normali.

Nella prova del Teorema 5.2.1 abbiamo dimostrato anche il risultato seguente:

Corollario 5.2.9. Siano X ∈ mF + e G una sotto-σ -algebra di F . Esiste una v.a. Z che soddisfa le seguenti
proprietà:

i) Z ∈ mG + ;

ii) per ogni v.a. W ∈ mG + , vale


E [ZW ] = E [XW ] .

Inoltre se Z ′ verifica i) e ii) allora Z = Z ′ quasi certamente.

Il Corollario 5.2.9 permette di estendere la Definizione 5.2.3 di attesa condizionata alle v.a. integrabili
(non necessariamente sommabili).
4 Più precisamente, si veda la (5.2.2).
196 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

5.2.1 Proprietà dell’attesa condizionata


In questa sezione proviamo alcune proprietà dell’attesa condizionata. Consideriamo due v.a. reali X, Y ∈
L1 (Ω, F , P ) e G , H sotto-σ -algebre di F .

Teorema 5.2.10. Valgono le seguenti proprietà:

1) (Formula della probabilità totale)


E [X] = E [E [X | G ]] . (5.2.5)

2) Se X ∈ mG allora
X = E [X | G ] .

3) Se X e G sono indipendenti allora


E [X] = E [X | G ] .

4) (Linearità) per ogni a ∈ R si ha

aE [X | G ] + E [Y | G ] = E [aX + Y | G ] .

5) (Monotonia) Se P (X ≤ Y ) = 1 allora
E [X | G ] ≤ E [Y | G ] ,
nel senso che se Z = E [X | G ] e W = E [Y | G ] allora P (Z ≤ W ) = 1.

6) Se X è G -misurabile e limitata, si ha

XE [Y | G ] = E [XY | G ] . (5.2.6)

7) (Proprietà della torre) Se H ⊆ G , si ha5

E [E [X | G ] | H ] = E [X | H ] .

8) (Teorema di Beppo-Levi) Se 0 ≤ Xn ↗ X allora

lim E [Xn | G ] = E [X | G ] .
n→∞

9) (Lemma di Fatou) Se (Xn )n∈N è una successione di v.a. in mF + , allora


 
E lim inf Xn | G ≤ lim inf E [Xn | G ] .
n→∞ n→∞

10) (Teorema della convergenza dominata) Se (Xn )n∈N è una successione che converge q.c. a X e vale
|Xn | ≤ Y ∈ L1 (Ω, P ) q.c. per ogni n ∈ N, allora si ha

lim E [Xn | G ] = E [X | G ] .
n→∞

11) (Disuguaglianza di Jensen) Se ϕ è una funzione convessa tale che ϕ(X) ∈ L1 (Ω, P ), si ha

ϕ (E [X | G ]) ≤ E [ϕ(X) | G ] .
5 Vale anche
E [X | H ] = E [E [X | H ] | G ]
che segue direttamente dalla proprietà 2) e dal fatto che E [X | H ] ∈ mG poiché H ⊆ G .
5.2. ATTESA CONDIZIONATA 197

12) Per ogni p ≥ 1 si ha


∥E [X | G ]∥p ≤ ∥X∥p .

13) (Lemma di freezing) Siano G , H indipendenti, X ∈ mG e f = f (x, ω) ∈ m (B ⊗ H ) tale che f (X, ·) ∈


L1 (Ω, P ) oppure f ≥ 0. Allora si ha

E [f (X, ·) | G ] = F(X) dove F(x) := E [f (x, ·)] , (5.2.7)

o, con una scrittura più compatta,

E [f (X, ·) | G ] = E [f (x, ·)] |x=X .

14) (CHF condizionata e indipendenza) X e G sono indipendenti se e solo se


h i h i
E eiηX | G = E eiηX , η ∈ R,

ossia se la CHF ϕX e la CHF condizionata ϕX|G coincidono.

15) Se Z = E [X | G ] e Z ∈ mH con H ⊆ G allora Z = E [X | H ].

Dimostrazione. 1) Basta porre W = 1 nella (5.2.1).

2) Segue direttamente dalla definizione.

3) La v.a. costante Z := E [X] è chiaramente G -misurabile (perché σ (Z) = {∅, Ω}) e inoltre, per ogni v.a.
W ∈ mG limitata, per l’ipotesi di indipendenza vale

E [XW ] = E [X] E [W ] = E [E [X] W ] = E [ZW ] .

Questo prova che Z = E [X | G ].

4) Si tratta di dimostrare che se Z = E [X | G ] e W = E [Y | G ], nel senso che verificano le proprietà i) e ii)


del Teorema 5.2.1, allora aZ + W = E [aX + Y | G ]. È una semplice verifica lasciata per esercizio.

5) Questa proprietà è provata nella prima parte della dimostrazione del Teorema 5.2.1.

6) Sia Z = E [Y | G ]. Dobbiamo provare che XZ = E [XY | G ]:

i) X ∈ mG per ipotesi e quindi XZ ∈ mG ;


ii) data W ∈ mG limitata, si ha che anche XW ∈ mG limitata e quindi

E [(XZ)W ] = E [Z(XW )] =

(poiché Z = E [Y | G ])

= E [Y (XW )] = E [(XY )W )]

da cui la tesi.

7) Sia Z = E [X | H ]. Dobbiamo provare che Z = E [E [X | G ] | H ]. Per definizione

i) Z ∈ mH ;
ii) data W ∈ mH limitata, si ha
E [ZW ] = E [XW ] .
198 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

D’altra parte, se W ∈ mH allora W ∈ mG poiché H ⊆ G , e quindi

E [E [X | G ] W ] = E [XW ] .

Allora E [ZW ] = E [E [X | G ] W ] da cui la tesi.


8) Poniamo Yn := E [Xn | G ], n ≥ 1. Per la monotonia dell’attesa condizionata, 0 ≤ Yn ≤ Yn+1 q.c. e quindi
esiste q.c.
Y := lim E [Xn | G ] ,
n→∞
con Y ∈ mG +perché limite puntuale di v.a. G -misurabili. Inoltre, per ogni W ∈ mG + , si ha 0 ≤
Yn W ↗ Y W e 0 ≤ Xn W ↗ XW q.c.; quindi per il Teorema di Beppo-Levi si ha

E [Y W ] = lim E [Yn W ] = lim E [Xn X] = E [XW ] ,


n→∞ n→∞

che prova la tesi.


9)-10)-11) La dimostrazione è sostanzialmente analoga al caso deterministico.
12) Segue facilmente dalla disuguaglianza di Jensen con ϕ(x) = |x|p .
13) Sia M la famiglia delle funzioni f ∈ b(B⊗H ) che verificano la (5.2.7): M è una famiglia monotona di
funzioni (cfr. Definizione A.1.7), come si dimostra facilmente utilizzando il Teorema di Beppo-Levi
per l’attesa condizionata. Inoltre, la (5.2.7) vale per le funzioni della forma f (x, ω) = g(x)Y (ω) con
g ∈ bB e Y ∈ bH : infatti in questo caso si ha F(x) = g(x)E [Y ] e, per la proprietà (5.2.6),

E [g(X)Y | G ] = g(X)E [Y | G ] = g(X)E [Y ] = F(X).

Allora la tesi segue dal secondo Teorema di Dynkin (Teorema A.1.8).


14) Per ogni Y ∈ mG e η1 , η2 ∈ R, si ha
h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 X eiη2 Y =

(per definizione di attesa condizionata)


h h i i
= E E eiη1 X | G eiη2 Y =

(per ipotesi)
h i h i
= E eiη1 X E eiη2 Y = ϕX (η1 )ϕY (η2 )

e la tesi segue dalla Proposizione 3.5.11-ii).


15) È un semplice esercizio.

Una conseguenza immediata del punto 13) del Teorema 5.2.10 è la seguente versione particolare del
Lemma di freezing di cui diamo una dimostrazione alternativa più semplice.
Lemma 5.2.11 (Lemma di freezing). Sia G una sotto-σ -algebra di F . Se X ∈ mG , Y è una v.a. indipendente
da G e f ∈ mB2 è tale che f (X, Y ) ∈ L1 (Ω, P ), allora si ha

E [f (X, Y ) | G ] = F(X) dove F(x) := E [f (x, Y )] , (5.2.8)

o, con una scrittura più compatta,

E [f (X, Y ) | G ] = E [f (x, Y )] |x=X .


5.2. ATTESA CONDIZIONATA 199

Dimostrazione. Per il teorema di Fubini la funzione F in (5.2.8) è Borel misurabile e quindi F(X) ∈ mG .
Inoltre Y è indipendente da (W , X) per ogni W ∈ bG : allora si ha
Z
E [W f (X, Y )] = wf (x, y)µ(W ,X,Y ) (dw, dx, dy) =
R3

(per indipendenza)
Z
= wf (x, y)µ(W ,X) ⊗ µY (dw, dx, dy) =
R3

(per il teorema di Fubini)


Z Z !
= w f (x, y)µY (dy) µ(W ,X) (dw, dx)
2
ZR R

= wF(x)µ(W ,X) (dw, dx) = E [W F(X)]


R2

da cui la tesi.
Esempio 5.2.12. [!] Riprendiamo l’Esempio 3.5.4 e consideriamo N e Z1 , Z2 , . . . v.a. indipendenti con
N ∼ Poissonλ e Zn identicamente distribuite per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk

 se N ≥ 1.
k=1

Si ha
N 
h i Y 
ϕX (η) = E eiηX = E  eiηZk  =
k=1

(per la formula della probabilità totale (5.2.5))


 N 
 Y   N 
= E E  eiηZk | N  = E ϕZ1 (η)
k=1

dove nell’ultimo passaggio abbiamo utilizzato il Lemma di freezing e il fatto che, per l’indipendenza delle
v.a. Zk , si ha
 n 
Y 
E  e k  = ϕZ1 (η)n ,
iηZ
n ∈ N.
k=1

Allora si ha X λn
ϕX (η) = e−λ ϕZ1 (η)n = eλ(ϕZ1 (η)−1)
n!
n≥0

dove ϕZ1 indica la CHF di Z1 .

Esempio 5.2.13. Siano X, Y , U , V v.a. indipendenti con X, Y ∼ N0,1 e U 2 + V 2 , 0 q.c. Proviamo che

XU + Y V
Z := √ ∼ N0,1 .
U2 + V 2
200 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Infatti si ha
iη √XU +Y V
" #
ϕZ (η) = E e U 2 +V 2 =

(per la formula della probabilità totale (5.2.5))


" " XU +Y V ##
iη √
2 +V 2
=E E e U | (U , V ) =

(per il Lemma di freezing e l’Esempio 3.5.16)


" 2#
η η2
= E e− 2 = e− 2

da cui segue la tesi.

5.2.2 Funzione attesa condizionata


In questa sezione consideriamo il caso G = σ (Y ) con Y v.a. su (Ω, F , P ) a valori in uno spazio misurabile
(E, E ). In analogia con l’Osservazione 5.1.11, diamo una definizione alternativa di attesa condizionata come
funzione.
Sia X ∈ L1 (Ω, F , P ) a valori in Rd . Se Z = E [X | Y ] allora Z ∈ mσ (Y ) e quindi, per il Teorema 3.3.3
di Doob, esiste (e in generale non è unica) una funzione Φ ∈ mE tale che Z = Φ(Y ): per fissare le idee, si
osservi il grafico seguente

E [X | Y ]  
(Ω, F ) Rd , Bd

Y Φ
(E, E )

Definizione 5.2.14 (Funzione attesa condizionata). Sia


 
Φ : (E, E ) −→ Rd , Bd

una funzione tale che


i) Φ ∈ mE ;
ii) Φ(Y ) = E [X | Y ].
Allora diciamo che Φ è una versione della funzione attesa condizionata di X a Y e scriviamo

Φ(y) = E [X | Y = y] . (5.2.9)

Osservazione 5.2.15. La scrittura E [X | Y = y] in (5.2.9) non indica l’attesa di X condizionata all’evento (Y =


y) nel senso della Definizione 2.3.2. Infatti tale definizione richiede che (Y = y) non sia trascurabile mentre
in (5.2.9) Y è una v.a. generica: per esempio, se Y è una v.a. reale assolutamente continua allora l’evento
(Y = y) ha probabilità nulla per ogni y ∈ R. Pertanto la (5.2.9) non è da intendersi come un’equazione e
non identifica univocamente Φ: si tratta di una notazione per indicare che Φ è una qualsiasi funzione che
verifica le due proprietà i) e ii) della Definizione 5.2.14. In altri termini, una funzione misurabile Φ è una
versione della funzione attesa condizionata di X a Y se e solo se la variabile aleatoria Φ(Y ) è una versione
dell’attesa condizionata di X a Y .
5.2. ATTESA CONDIZIONATA 201

In definitiva, l’attesa condizionata a σ (Y ) può essere interpretata come variabile aleatoria oppure co-
me funzione: i due punti di vista sono sostanzialmente equivalenti e la scelta di quale adottare dipende
generalmente dal contesto.

Esempio 5.2.16. Nell’Esempio 5.2.8 abbiamo visto che se (X, Y ) ha distribuzione normale bidimensionale
allora esistono a, b ∈ R tali che ay + b = E [X | Y = y], ossia la funzione lineare Φ(y) = ay + b è una versione
della funzione attesa condizionata di X a Y .
Se f ∈ bBd e Y una v.a. in Rd , allora

f (y) = E [f (Y ) | Y = y] , y ∈ Rd .

5.2.3 Least Square Monte Carlo


Per quanto visto nella dimostrazione del Teorema 5.2.1, nello spazio delle variabili aleatorie di quadra-
to sommabili, l’attesa condizionata si può definire come proiezione ortogonale e quindi si esprime come
soluzione di un problema ai minimi quadrati. Precisamente vale la seguente

Proposizione 5.2.17 (Caratterizzazione dell’attesa condizionata in L2 ). Sia Z = E [X | G ] con X ∈ L2 (Ω, F , P )


e G sotto-σ -algebra di F . Allora vale
h i h i
E |X − Z|2 ≤ E |X − W |2 , W ∈ L2 (Ω, G , P ). (5.2.10)

Dimostrazione. Si ha
h i h i
E |X − W |2 | G = E |X − Z + Z − W |2 | G
h i h i
= E |X − Z|2 | G + E |Z − W |2 | G + 2E [⟨X − Z, Z − W ⟩ | G ] =

(essendo Z − W ∈ mG e per la (5.2.6))


h i
= E |X − Z|2 | G + |Z − W |2 + 2⟨E [X − Z | G ] , Z − W ⟩ =

(essendo E [X − Z | G ] = 0)
h i h i
= E |X − Z|2 | G + |Z − W |2 ≥ E |X − Z|2 | G .

Applicando il valore atteso si ottiene la (5.2.10).

Assegnata una funzione Borel-misurabile F tale che F(X, Y ) ∈ L2 (Ω, F , P ), un problema classico è quello
del calcolo dell’attesa condizionata
E [F(X, Y ) | Y ]
a partire dalla conoscenza della legge congiunta di X e Y . Il problema si riconduce al calcolo di una
versione Φ della funzione attesa condizionata, ossia Φ(y) = E [F(X, Y ) | Y = y]: per la (5.2.10) si ha6
h i h i
E |F(X, Y ) − Φ(Y )|2 = min E |F(X, Y ) − f (Y )|2 .
f ∈L2 (Rn ,Bn ,µY )

In altri termini, determinare Φ equivale a risolvere il problema ai minimi quadrati


h i
Φ = arg min E |F(X, Y ) − f (Y )|2 . (5.2.11)
f ∈L2 (Rn ,Bn ,µY )

6 Si ricordi che, per il teorema di Doob, ogni W ∈ L2 (Ω, σ (Y ), P ) si esprime nella forma W = f (Y ) per una certa f ∈ L2 (Rn , B , µ ).
n Y
202 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

A volte questo problema può essere risolto in modo esatto: è il caso dell’Esempio 5.2.8, in cui F(x, y) =
x e (X, Y ) ∼ Nµ,C . Spesso tuttavia è necessario ricorrere a metodi numerici. Nel caso in cui X, Y siano
indipendenti allora per il Lemma di freezing si ha semplicemente Φ(y) = E [F(X, y)], y ∈ R: quindi per
determinare Φ è sufficiente calcolare un valore atteso e ciò può essere fatto numericamente col metodo
Monte Carlo. Più in generale, esiste un’estensione di tale metodo, detta Least Square Monte Carlo (LSMC),
che è basata su una regressione multi-lineare del tipo visto nella Sezione 3.2.9.
Vediamo come si procede nel caso uno-dimensionale: consideriamo una base di L2 (R, B, µY ), per esem-
pio le funzioni polinomiali βk (y) := y k con k = 0, 1, 2, . . . , e fissato n ∈ N, poniamo

β = (β0 , β1 , . . . , βn ).

Approssimiamo in dimensione finita il problema (5.2.11) cercando una soluzione λ̄ ∈ Rn+1 di


 2 
min E ⟨β(Y ), λ⟩ − F(X, Y ) . (5.2.12)
λ∈Rn+1

Una volta determinato λ̄, l’approssimazione della funzione attesa condizionata in (5.2.11) è data da

Φ(y) ≃ ⟨β(y), λ̄⟩.

Risolviamo il problema (5.2.12) approssimando il valore atteso con il metodo Monte Carlo. Costruiamo
due vettori x, y ∈ RM le cui componenti sono ottenute simulando M valori delle variabili X e Y , con M
sufficientemente grande. Per fissare le idee, M può essere dell’ordine di 105 o maggiore, mentre al contrario
è sufficiente che il numero di elementi della base n sia piccolo, dell’ordine di qualche unità (per maggiori
dettagli si veda, per esempio, [30] o la monografia [29]). Posto
M 
X 2
Q(λ) := ⟨β(yk ), λ⟩ − F(xk , yk ) , λ ∈ Rn+1 ,
k=1

il valore atteso in (5.2.12) è approssimato da

Q(λ)
 2 
≈ E ⟨λ, β(Y )⟩ − F(X, Y ) , M ≫ 1.
M
Come nella Sezione 3.2.9, essendo Q una funzione quadratica di λ, il minimo si determina imponendo
∇Q(λ) = 0. In notazioni vettoriali si ha
Q(λ) = |Bλ − F|2
dove B = (bki ) con bki = βi (yk ) e F = (F(xk , yk )) per k = 1, . . . , M e i = 0, . . . , n. Quindi

∇Q(λ) = 2B∗ (Bλ − F)

e imponendo la condizione ∇Q(λ) = 0, nel caso la matrice B∗ B sia invertibile, si ottiene

λ̄ = (B∗ B)−1 B∗ F.

Il calcolo di λ̄ richiede l’inversione della matrice B∗ B che ha dimensione (n+1)×(n+1), da cui l’importanza
di mantenere n piccolo. Notiamo che invece B è una matrice di grandi dimensioni, M × (n + 1).
Come esempio, in Figura 5.2 mostriamo il grafico delle prime quattro approssimazioni LSMC, con base
polinomiale, della funzione attesa condizionata a Y
2
Φ(y) = E [F(X, Y ) | Y = y] , F(x, y) = max{1 − ex y , 0},

con (X, Y ) normale bidimensionale con media nulla, deviazioni standard σX = 0.8, σY = 0.5 e correlazione
ϱ = −0.7.
5.3. PROBABILITÀ CONDIZIONATA 203

-1

-1 0 1 2

Figura 5.2: Approssimazioni LSMC.

5.3 Probabilità condizionata


Siano (Ω, F , P ) uno spazio di probabilità e G una sotto-σ -algebra di F . Per ogni A ∈ F fissiamo una
versione ZA = E [1A | G ] dell’attesa di 1A condizionata a G . Sembrerebbe naturale definire la probabilità
condizionata a G ponendo
Pω (A | G ) = ZA (ω), ω ∈ Ω. (5.3.1)
In realtà, poiché ZA è determinata a meno di un evento P -trascurabile che dipende da A, non è detto (e in
generale non è vero) che Pω (· | G ) cosı̀ definita sia una misura di probabilità per ogni ω ∈ Ω.
Definizione 5.3.1 (Versione regolare della probabilità condizionata). Nello spazio  (Ω, F , P ), una versio-
ne regolare della probabilità condizionata a G è una famiglia P (· | G ) = Pω (· | G ) di misure di probabilità
ω∈Ω
su (Ω, F ) tale che, per ogni A ∈ F fissato, vale P (A | G ) = E [1A | G ] ossia
i) P (A | G ) è una v.a. G -misurabile;
ii) per ogni W ∈ bG vale
E [W P (A | G )] = E [W 1A ] .

L’esistenza di una versione regolare della probabilità condizionata è un problema tutt’altro che banale:
in [18], [19] p.624, [32] p.210, sono dati esempi di non esistenza. Condizioni su (Ω, F , P ) sufficienti7
a garantire l’esistenza di una versione regolare della probabilità condizionata sono state fornite da vari
autori: il risultato più classico al riguardo è il seguente Teorema 5.3.2. Ricordiamo che uno spazio polacco è
uno spazio metrico separabile8 e completo.
Teorema 5.3.2. Sia P una misura di probabilità definita su (Ω, B) dove Ω è uno spazio polacco e B è la
relativa σ -algebra di Borel. Per ogni sotto-σ -algebra G di B, esiste una versione regolare della probabilità
condizionata P (· | G ).
Dimostriamo il Teorema 5.3.2 nel caso particolare in cui Ω = Rd (cfr. Teorema 5.3.4): per la dimo-
strazione generale si veda, per esempio, [72] p.13 oppure [19] p.380. L’idea è di sfruttare l’esistenza di
un sottoinsieme A numerabile e denso in Ω, per definire dapprima una famiglia di misure di probabilità
(Pω (· | G ))ω∈A che verifichi la (5.3.1) e poi provare la tesi per densità di A in Ω.
7 Il problema di fornire condizioni necessarie e sufficienti è complesso e in parte ancora aperto: al riguardo si veda [25].
8 Uno spazio metrico S si dice separabile se esiste un sottoinsieme numerabile e denso in S .
204 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Esempio 5.3.3. Assumiamo esista P (· | G ). Se G ∈ G allora P (G | G ) assume solo i valori 0 e 1. Infatti si ha

P (G | G ) = E [1G | G ] = 1G .

Sia ora X una v.a. su (Ω, F , P ) a valori in Rd . Nel caso in cui esista una versione regolare P (· | G ) della
probabilità condizionata a G , si pone

µX|G (H) := P (X ∈ H | G ), H ∈ Bd .
 
Notiamo che, per definizione, µX|G = µX|G (·; ω) è una famiglia di distribuzioni in Rd e per questo
ω∈Ω
motivo è chiamata versione regolare della distribuzione di X condizionata a G .
Anche non assumendo l’esistenza di P (· | G ), possiamo comunque definire una versione regolare della
distribuzione di X condizionata a G basandoci sul concetto di attesa condizionata. È questo il contenuto
del seguente

Teorema 5.3.4 (Versione regolare della distribuzione condizionata). [!] In uno spazio di probabilità
(Ω, F , P ), siano X una v.a. a valori in Rd e G una sotto-σ -algebra di F . Allora esiste una famiglia µX|G =
 
µX|G (·; ω) di distribuzioni su Rd tali che, per ogni H ∈ Bd , valga9
ω∈Ω
h i
µX|G (H) = E 1(X∈H) | G . (5.3.2)

Diciamo che µX|G è una versione regolare della distribuzione di X condizionata a G .

Dimostrazione. Si veda la Sezione 5.4.1.

Osservazione 5.3.5. [!] Anche se l’esistenza di una versione regolare P (· | G ) della probabilità condizionata a G
non è garantita in generale, tuttavia con un piccolo abuso di notazione scriveremo indifferentemente µX|G (H)
o P (X ∈ H | G ) per indicare una versione regolare della distribuzione di X condizionata a G .
La dimostrazione del Teorema 5.3.4 sfrutta in maniera cruciale il fatto che X sia a valori in Rd per
utilizzare la densità di Qd in Rd . Il risultato si estende al caso di X a valori in uno spazio metrico polacco, come
per esempio lo spazio delle funzioni continue C([a, b]; R) con la norma del massimo: per la trattazione
generale si veda, per esempio, il Teorema 1.1.6 in [72].

Notazione 5.3.6. Nel seguito spesso ometteremo di indicare la dipendenza da ω ∈ Ω e scriveremo µX|G
invece di µX|G (·; ω), interpretando µX|G come una “distribuzione aleatoria”. Se G = σ (Y ) dove Y è una
qualsiasi v.a. su (Ω, F , P ), scriveremo µX|Y invece di µX|σ (Y ) .

Esempio 5.3.7. [!] Se X ∈ mG allora µX|G = δX . Infatti la famiglia (δX(ω) )ω∈Ω gode delle seguenti proprietà:

i) ovviamente δX(ω) è una distribuzione su Rd per ogni ω ∈ Ω;

ii) per ogni H ∈ Bd vale

δX (H) = 1H (X) =

(poiché X ∈ mG per ipotesi)

= E [1H (X) | G ] .
9 La (5.3.2) significa che, per ogni H ∈ B , si ha
d
i) µX|G (H) è una v.a. G -misurabile;
ii) per ogni W ∈ bG vale h i h i
E W µX|G (H) = E W 1(X∈H) .
5.3. PROBABILITÀ CONDIZIONATA 205

Teorema 5.3.8 (Teorema del calcolo della media). [!] In uno spazio di probabilità (Ω, F , P ), siano X una
v.a. a valori in Rd e G una sotto-σ -algebra di F . Se f ∈ mBd e f (X) ∈ L1 (Ω, P ) si ha
Z
f dµX|G = E [f (X) | G ] . (5.3.3)
Rd

Dimostrazione. La tesi si prova applicando la procedura standard dell’Osservazione 3.2.21, sfruttando la


linearità e il Teorema di Beppo-Levi per l’attesa condizionata. Basta considerare d = 1. Posto
Z
Z(ω) := f (x)µX|G (dx; ω), ω ∈ Ω,
R

dobbiamo provare che Z = E [f (X) | G ]. Ciò è vero per definizione (cfr. (5.3.2)) se f = 1H con H ∈ B.
Per linearità, la (5.3.3) si estende alle funzioni semplici. Inoltre, se f è a valori reali non-negativi, allora
si considera una successione approssimante 0 ≤ fn ↗ f di funzioni semplici e, applicando il Teorema di
Beppo-Levi prima nella versione classica10 e poi per l’attesa condizionata, si ha
Z Z
f dµX|G = lim fn dµX|G = lim E [fn (X) | G ] = E [f (X) | G ] .
R n→∞ R n→∞

Il caso di una f generica si tratta al solito separando la parte positiva e negativa e riutilizzando la linearità
dell’attesa condizionata.

Osservazione 5.3.9. [!] Il Teorema 5.3.8 chiarisce l’importanza del concetto di versione regolare della
distribuzione condizionata, poiché esso garantisce che l’integrale in (5.3.3) sia ben definito.

Esempio 5.3.10. Supponiamo che X ∼ NY ,1 dove Y ∼ Expλ con λ > 0 fissato. Allora per il Teorema 5.3.8
del calcolo della media si ha
(x−Y )2
Z
1
E [X | Y ] = x √ e− 2 dx = Y .
R 2π
Inoltre per la (5.2.5)

1
E [X] = E [E [X | Y ]] = E [Y ] =
λ
e

cov(X, Y ) = E [XY ] − E [X] E [Y ]


1
= E [E [XY | Y ]] − 2 =
λ
(per la (5.2.6))

1
= E [Y E [X | Y ]] −
λ2
h i 1 1
= E Y2 − 2 = 2.
λ λ
Teorema 5.3.11 (Formula della probabilità totale). [!] In uno spazio di probabilità (Ω, F , P ), siano X
una v.a. a valori in Rd e G una sotto-σ -algebra di F . Allora si ha
h i
µX = E µX|G . (5.3.4)
10 Qui utilizziamo il fatto che µ
X|G = µX|G (·; ω) è una distribuzione per ogni ω ∈ Ω.
206 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Dimostrazione. Per definizione, per ogni H ∈ Bd si ha


h i h h ii h i
E µX|G (H) = E E 1(X∈H) | G = E 1(X∈H) = µX (H).

Esempio 5.3.12. Riprendiamo l’Esempio 5.3.10: per la (5.3.4), per ogni H ∈ B si ha


h i
µX (H) = E µX|Y (H)
"Z #
1 − (x−Y )2
=E √ e 2 dx =
H 2π

(per il teorema di Fubini)


" #
(x−Y )2
Z Z
1 − 2
= √ E e dx = γ(x)dx
H 2π H

con +∞ (x−y)2
Z
1
γ(x) := √ e− 2 λe−λy dy
2π 0
che è quindi la densità di X.
Corollario 5.3.13. Siano X, Y v.a. su (Ω, F , P ), rispettivamente a valori in Rd e Rn . Allora si ha
h i
µ(X,Y ) (H × K) = E µX|Y (H)1(Y ∈K) , H ∈ Bd , K ∈ Bn , (5.3.5)
h i
ϕ(X,Y ) (η1 , η2 ) = E eiη2 ·Y ϕX|Y (η1 ) , η 1 ∈ Rd , η 2 ∈ Rn . (5.3.6)

La (5.3.5) mostra come si ricava la legge congiunta di X, Y a partire dalla legge condizionata µX|Y e dalla legge
marginale µY : infatti la v.a. µX|Y (H)1(Y ∈K) è funzione di Y e pertanto il valore atteso in (5.3.5) è calcolabile a
partire da µY . Analogamente la (5.3.6) mostra come si ricava la CHF congiunta di X, Y a partire dalla CHF
condizionata ϕX|Y e dalla legge marginale µY .
Dimostrazione del Corollario 5.3.13. Per definizione si ha
h i h h i i
E µX|Y (H)1(Y ∈K) = E E 1(X∈H) | Y 1(Y ∈K) =

(per la proprietà ii) del Teorema 5.2.1 con W = 1(Y ∈K) )


h i
= E 1(X∈H) 1(Y ∈K) = µ(X,Y ) (H × K).

Per quanto riguarda la (5.3.6), abbiamo


h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 ·X+iη2 ·Y
h h ii
= E E eiη1 ·X+iη2 ·Y | Y =

(per la (5.2.6))
h h ii
= E eiη2 ·Y E eiη1 ·X | Y
h i
= E eiη2 ·Y ϕX|Y (η1 ) .
5.3. PROBABILITÀ CONDIZIONATA 207

Esempio 5.3.14. Riprendiamo l’Esempio 5.3.10: per la (5.3.6) si ha


η2 η12
" #
h
iη2 Y
i
iη2 Y iη1 Y − 21 λ
ϕ(X,Y ) (η1 , η2 ) = E e ϕX|Y (η1 ) = E e e = e− 2 .
λ − i(η1 + η2 )

Esempio 5.3.15. Data una v.a. bidimensionale (X, Y ), supponiamo che Y ∼ Unif[0,1] e µX|Y = ExpY . Provia-
mo che (X, Y ) è assolutamente continua e determiniamo la densità congiunta di X, Y e la densità marginale
di X. Un’immediata conseguenza della (5.3.5) è la seguente formula per la CDF congiunta: dati x ∈ R≥0 e
y ∈ [0, 1], si ha
h i
P ((X ≤ x) ∩ (Y ≤ y)) = E ExpY (] − ∞, x])1(Y ≤y)
h  i
= E 1 − e−xY 1(Y ≤y)
Z y  e−xy − 1 + xy
= 1 − e−xt dt = .
0 x

Ne segue che la CDF di (X, Y ) è





0 se (x, y) ∈ R<0 × R<0 ,
 e−xy −1+xy

F(X,Y ) (x, y) = 
 x se (x, y) ∈ R≥0 × [0, 1],
 e−x −1+x


x se (x, y) ∈ R≥0 × [1, +∞[.

Da ciò si ricava11 la densità congiunta

γ(X,Y ) (x, y) = ∂x ∂y F(x, y) = ye−xy 1R≥0 ×[0,1] (x, y).

Per la densità marginale, si ha

e−x (ex − 1 − x)
γX (x) = ∂x P (X ≤ x) = ∂x F(x, 1) = 1R≥0 (x).
x2

5.3.1 Funzione distribuzione condizionata


Teorema 5.3.16 (Versione regolare della funzione distribuzione condizionata). [!] In uno spazio di pro-
babilità (Ω, F , P ), siano X una v.a. a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Allora
esiste una famiglia (µ(·; y))y∈E di distribuzioni su Rd tale che, per ogni H ∈ Bd ,
i) la funzione y 7→ µ(H; y) è E -misurabile;
ii) µ(H, Y ) = P (X ∈ H | Y ) ossia12 , per ogni W ∈ bσ (Y ) si ha
h i
E [W µ(H; Y )] = E W 1(X∈H) .

Diciamo che (µ(·; y))y∈E è una versione regolare della funzione distribuzione di X condizionata a Y e scriviamo

µ(·; y) = µX|Y =y .

Dimostrazione. La prova è leggermente più sofisticata ma sostanzialmente analoga a quella del Teorema
5.3.4: per questo motivo non la riportiamo e rimandiamo a [37], Teorema 6.3, per i dettagli.
11 Si ricordi che
Zx Zy
F(x, y) = γ(X,Y ) (ξ, η)dξdη.
−∞ −∞
12 Si ricordi la notazione dell’Osservazione 5.3.5.
208 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Osservazione 5.3.17. Se µ(·; y) = µX|Y =y allora (µX|Y (·; Y (ω)))ω∈Ω è una versione regolare della distribuzione
di X condizionata a Y nel senso del Teorema 5.3.4.
Esempio 5.3.18. Riprendiamo l’Esempio 5.3.7: se Y è una v.a. reale allora µY |Y = δY . In altri termini, la
distribuzione aleatoria δY è una versione regolare della distribuzione di Y condizionata ad Y .
Per esempio, se Y ∼ Unif[0,1] allora (δy )y∈R è una versione regolare della funzione distribuzione di Y
condizionata a Y . In realtà sarebbe sufficiente definire la versione regolare solo per y ∈ E = [0, 1]: il valore
assunto fuori da [0, 1] è irrilevante poiché Y assume valori in [0, 1] q.c.
Nell’Esempio 5.3.15, ExpY = µX|Y ossia ExpY è una versione regolare della distribuzione di X condizio-
nata a Y ∼ Unif[0,1] : equivalentemente (Expy )y∈[0,1] è una versione regolare della funzione distribuzione di
X condizionata a Y .
Ricordiamo la notazione (5.2.9), E [X | Y = y], per indicare la funzione attesa di X condizionata a Y . Vale
il seguente risultato analogo al Teorema 5.3.8.
Teorema 5.3.19 (Teorema del calcolo della media). In uno spazio di probabilità (Ω, F , P ), siano X una v.a.
a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P )
si ha Z
f dµX|Y =y = E [f (X) | Y = y] .
Rd

5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente con-
tinuo
Abbiamo visto nel Corollario 5.3.13 come ricavare la distribuzione congiunta a partire dalle marginali
condizionate. In questa sezione consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo
con densità γ(X,Y ) e ricaviamo l’espressione della densità marginale condizionata γX|Y .
Ricordiamo che, per il Teorema di Fubini,
Z
γY (y) := γ(X,Y ) (x, y)dx, y ∈ R, (5.3.7)
Rd

è una13 densità di Y e l’insieme


(γY > 0) := {y ∈ R | γY (y) > 0}
appartiene a B. Il seguente risultato fornisce la versione continua della formula (5.1.9).
Proposizione 5.3.20. [!] Sia (X, Y ) ∈ AC un vettore aleatorio con densità γ(X,Y ) . Allora la funzione
γ(X,Y ) (x, y)
γX|Y (x, y) := , x ∈ Rd , y ∈ (γY > 0), (5.3.8)
γY (y)
è una versione regolare della densità di X condizionata a Y nel senso che la famiglia (µ(·; y))y∈(γY >0) definita
da Z
µ(H; y) := γX|Y (x, y)dx, H ∈ Bd , y ∈ (γY > 0), (5.3.9)
H
è una versione regolare della funzione distribuzione di X condizionata a Y . Di conseguenza, per ogni f ∈
mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
f (x)γX|Y (x, y)dx = E [f (X) | Y = y] (5.3.10)
Rd
o equivalentemente Z
f (x)γX|Y (x, Y )dx = E [f (X) | Y ] . (5.3.11)
Rd
13 Ricordiamo (cfr. Osservazione 2.4.19) che la densità di una v.a. è definita a meno di insiemi di Borel di misura nulla secondo
Lebesgue.
5.3. PROBABILITÀ CONDIZIONATA 209

Dimostrazione. Si veda la Sezione 5.4.2.

Osservazione 5.3.21. [!] Segue dalla (5.3.8) la formula

γ(X,Y ) (x, y) = γX|Y (x, y)γY (y)

che esprime la densità congiunta come prodotto della marginale γY per la marginale condizionata γX|Y . Si
generalizza cosı̀ la formula
γ(X,Y ) (x, y) = γX (x)γY (y)
valida sotto la restrittiva ipotesi che X, Y siano indipendenti.

Esempio 5.3.22. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su

S = {(x, y) ∈ R2 | x > 0, y > 0, x2 + y 2 < 1}.

Determiniamo:

i) la distribuzione condizionata µX|Y ;

ii) E [X | Y ] e var(X | Y );

iii) la densità della v.a. E [X | Y ].

i) La densità congiunta è
4
γ(X,Y ) (x, y) = 1 (x, y)
π S
e la marginale di Y è p
4 1 − y2
Z
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y).
R π
Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = =p 1 √ 2 (x), y ∈ ]0, 1[,
γY (y) 1 − y 2 [0, 1−y ]
da cui riconosciamo che
µX|Y = Unif[0,√1−Y 2 ] . (5.3.12)

ii) Per la (5.3.12) si ha √


1−Y2 1−Y2
E [X | Y ] = , var(X | Y ) = .
2 12
In alternativa, in base alla (5.3.10) della Proposizione 5.3.20 si ha, per y ∈ ]0, 1[,
p
1 − y2
Z
E [X | Y = y] = xγX|Y (x, y)dx = ,
R 2
Z  p 2
 1 − y 2  1 − y2
var (X | Y = y) = x −
  γX|Y (x, y)dx = .
R 2  12

2
iii) Infine per determinare la densità della v.a. Z = 1−Y
2 utilizziamo la CDF: si ha P (Z ≤ 0) = 0, P (Z ≤
1/2) = 1 e per 0 < z < 1/2 vale
√ 
P (Z ≤ z) = P 1 − Y 2 ≤ 2z
 
= P Y 2 ≥ 1 − 4z2
210 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
 √ 
= P Y ≥ 1 − 4z2
Z √1−4z2 p
4 1 − y2
= 1− dy.
0 π

Derivando otteniamo la densità di Z:


32z2
γZ (z) = √ 1]0,1/2[ (z).
π 1 − 4z2
Corollario 5.3.23 (Formula della probabilità totale per la densità). Sia (X, Y ) ∈ AC un vettore aleatorio
con densità γ(X,Y ) . Vale
h i
γX = E γX|Y (·, Y ) . (5.3.13)

Dimostrazione. Per ogni f ∈ bB si ha

E [f (X)] = E [E [f (X) | Y ]] =

(per la (5.3.11))
"Z #
=E f (x)γX|Y (x, Y )dx =
Rd

(per il Teorema di Fubini)


Z h i
= f (x)E γX|Y (x, Y ) dx
Rd

e questo prova la tesi, data l’arbitrarietà di f .

Esempio 5.3.24. Siano X, Y v.a. reali. Supponiamo Y ∼ Expλ , con λ > 0, e che la densità di X condizionata
a Y sia di tipo esponenziale:
γX|Y (x, y) = ye−xy 1[0,+∞[ (x),
ossia µX|Y = ExpY . Determiniamo la densità di X: utilizzando la (5.3.13) si ha
h i
γX (x) = E Y e−xY 1[0,+∞ (x)
Z +∞
= ye−xy λe−λy dy1[0,+∞ (x)
0
λ
= 1[0,+∞ (x).
(x + λ)2

Si noti che X < L1 (Ω, P ).

Esempio 5.3.25. Riprendiamo l’Esempio 5.2.8 e consideriamo un vettore aleatorio normale bidimensionale
(X, Y ) ∼ Nµ,C con
σX2 σXY
!
µ = (µ1 , µ2 ), C= > 0.
σXY σY2
Determiniamo:

i) la funzione caratteristica ϕX|Y e la distribuzione µX|Y di X condizionata a Y ;

ii) E [X | Y ].
5.3. PROBABILITÀ CONDIZIONATA 211

i) La densità di X condizionata a Y è

γ(X,Y ) (x, y)
γX|Y (x, y) = , (x, y) ∈ R2 ,
γY (y)

da cui, con qualche calcolo, si trova


h i
ϕX|Y (η1 , Y ) = E eiη1 X | Y
Z
= eiη1 x γX|Y (x, Y )dx
R
σ2
! !
σXY
iη1 µ1 +(Y −µ2 ) − 21 η12 σX2 − XY
σY2 2
σY
=e ,

ossia
µX|Y = N σXY
2
σXY . (5.3.14)
µ1 +(Y −µ2 ) ,σX2 −
σY2 σY2

ii) Da (5.3.14) si ha
σXY
E [X | Y ] = µ1 + (Y − µ2 ) (5.3.15)
σY2
in accordo con quanto visto nell’Esempio 5.2.8. Lo stesso risultato si ottiene con la (5.3.10), calcolando
Z
σ
E [X | Y = y] = xγX|Y (x, y)dx = µ1 + (y − µ2 ) XY .
R σY2

Esempio 5.3.26. Sia (X1 , X2 , X3 ) un vettore aleatorio con distribuzione normale Nµ,C dove
 
1 1 0
µ = (0, 1, 0) , C = 1 2 1 .
 
0 1 3
 

Per determinare
E [(X1 , X2 , X3 ) | X3 ] ,
anzitutto osserviamo che (X1 , X3 ) ∼ N(0,0),C2 e (X2 , X3 ) ∼ N(1,0),C1 dove
! !
1 0 2 1
C2 = , C1 = .
0 3 1 3

Ricordando il Teorema 5.2.10-3) e osservando che X1 e X3 sono indipendenti poiché cov(X1 , X3 ) = 0,


abbiamo che E [X1 | X3 ] = E [X1 ] = 0. Inoltre, per la (5.3.15),

X3
E [X2 | X3 ] = 1 + .
3
Infine, ancora per Teorema 5.2.10-2), si ha E [X3 | X3 ] = X3 . In definitiva

X3
 
 
E [(X1 , X2 , X3 ) | X3 ] = E [X1 | X3 ] , E [X2 | X3 ] , E [X3 | X3 ] = 0, 1 + ,X .
3 3
Esempio 5.3.27. Il petrolio ricevuto da una raffineria contiene una concentrazione di detriti pari a Y
Kg/barile dove Y ∼ Unif[0,1] . Si stima che il processo di raffinazione porti la concentrazione di detriti
da Y a X con X ∼ Unif[0,αY ] dove α < 1 è un parametro positivo noto. Determiniamo:
212 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

i) le densità γ(X,Y ) e γX ;
ii) il valore atteso della concentrazione di detriti Y prima della raffinazione, dando per nota la concen-
trazione X dopo la raffinazione.
i) I dati del problema sono:
µY = Unif[0,1] , µX|Y = Unif[0,αY ] ,
ossia
1
γY (y) = 1[0,1] (y), γX|Y (x, y) = 1 (x), y ∈ ]0, 1].
αy [0,αy]
Dalla formula (5.3.8) per la densità condizionata ricaviamo
1
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = 1 (x, y)
αy ]0,αy[×]0,1[
e Z Z 1
1 log α − log x
γX (x) = γ(X,Y ) (x, y)dy = dy 1]0,α[ (x) = 1]0,α[ (x).
R x αy α
α

ii) Calcoliamo E [Y | X]. Si ha

γ(X,Y ) (x, y) 1
γY |X (y, x) = 1(γX >0) (x) = 1 (x, y) (5.3.16)
γX (x) y(log α − log x) ]0,αy[×]0,1[

da cui
Z Z 1
1 α−x
E [Y | X = x] = yγY |X (y, x)dy = 1 (x) dy = 1 (x).
R log α − log x ]0,α[ x α(log α − log x) ]0,α[
α

In definitiva si ha
α−X
E [Y | X] = .
α(log α − log X)
Notiamo che nella (5.3.16) abbiamo usato la relazione

γ(X,Y ) (x, y) γX|Y (x, y)


γY |X (y, x) = 1(γX >0) (x) = γY (y),
γX (x) γX (x)

che è una versione della formula di Bayes.


Esempio 5.3.28. Sia (X, Y ) un vettore aleatorio con distribuzione marginale µY = χ2 e distribuzione condi-
zionata µX|Y = N0, 1 . Ricordiamo che le relative densità sono
Y
r
1 −2
y y − x2 y
γY (y) = p e , γX|Y (x, y) = e 2 , y > 0.
2πy 2π

Allora la densità congiunta è data da

1 − (1+x2 )y
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = e 2 , y > 0,

e la marginale di X è Z +∞
1
γX (x) = γ(X,Y ) (x, y)dy = , x ∈ R,
0 π(1 + x2 )
ossia X ha distribuzione di Cauchy (cfr. (3.5.5)).
5.4. APPENDICE 213

5.4 Appendice
5.4.1 Dimostrazione del Teorema 5.3.4
Alla dimostrazione del Teorema 5.3.4 premettiamo il seguente risultato: diciamo che

F : Q −→ [0, 1]

è una funzione di ripartizione (o CDF) su Q se:


i) F è monotona crescente;
ii) F è continua a destra nel senso che, per ogni q ∈ Q, vale

F(q) = F(q+) := lim F(p); (5.4.1)


p↓q
p∈Q

iii) vale
lim F(q) = 0
q→−∞
e lim F(q) = 1.
q→+∞
(5.4.2)
q∈Q q∈Q

Lemma 5.4.1. Data una CDF F su Q, esiste una distribuzione µ su R tale che

F(q) = µ(] − ∞, q]), q ∈ Q. (5.4.3)

Dimostrazione. La funzione definita da14

F̄(x) := lim F(y), x ∈ R,


y↓x
y∈Q

è una CDF su R (provarlo per esercizio) e F = F̄ su Q. Allora per il Teorema 2.4.33 esiste una distribuzione
µ che verifica la (5.4.3).
Dimostrazione del Teorema 5.3.4. Basta considerare il caso d = 1. Per ogni q ∈ Q, fissiamo una versione
dell’attesa condizionata h i
F(q) := E 1(X≤q) | G
la cui esistenza è garantita dal Teorema 5.2.1. In realtà, F = F(q, ω) dipende anche da ω ∈ Ω ma per brevità
scriveremo F = F(q) considerando F(q) come variabile aleatoria (G -misurabile, per definizione). In base alle
proprietà dell’attesa condizionata e alla numerabilità di Q, si ha che P -quasi certamente F è una CDF su Q:
più precisamente, esiste un evento trascurabile C ∈ G tale che F = F(·, ω) è una CDF su Q per ogni ω ∈ Ω\C.
Infatti, se p, q ∈ Q con p ≤ q, allora 1(X≤p) ≤ 1(X≤q) e quindi
h i h i
F(p) = E 1(X≤p) | G ≤ E 1(X≤q) | G = F(q)

a meno di un evento G -misurabile trascurabile, per la proprietà di monotonia dell’attesa condizionata.


Analogamente si provano le proprietà (5.4.1) e (5.4.2) come conseguenza del Teorema della convergenza
dominata per l’attesa condizionata:
 per esempio, se (pn )n∈N è una successione in Q tale che pn ↓ q ∈ Q allora
la successione di v.a. 1(X≤pn ) è limitata e converge puntualmente
n∈N

lim 1(X≤pn ) (ω) = 1(X≤q) (ω), ω ∈ Ω,


n→∞

da cui h i h i
lim F(pn ) = lim E 1(X≤pn ) | G = E 1(X≤q) | G = F(q).
n→∞ n→∞
14 Il limite esiste per la monotonia di F.
214 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

In base al Lemma 5.4.1, per ogni ω ∈ Ω \ C esiste una distribuzione µ = µ(·, ω) (ma scriveremo semplice-
mente µ = µ(H), per H ∈ B) tale che
µ(] − ∞, p]) = F(p), p ∈ Q.
Per costruzione, µ è una distribuzione su R, a meno dell’evento trascurabile C ∈ G : in realtà possiamo
supporre che µ sia una distribuzione su tutto Ω ponendo, per esempio, µ(·, ω) ≡ δ0 per ω ∈ C. Proviamo ora
che µ soddisfa anche la (5.3.2): a tal fine utilizziamo il Teorema A.1.3 di Dynkin e poniamo
h i
M = {H ∈ B | µ(H) = E 1(X∈H) | G }.
La famiglia
A = {] − ∞, p] | p ∈ Q}
è ∩-chiusa, σ (A ) = B e, per costruzione, A ⊆ M . Se verifichiamo che M è una famiglia monotona, per il
Teorema di Dynkin ne verrà che M = B da cui la tesi. Ora si ha:
i) R ∈ M poiché 1R (X) ≡ 1 è G -misurabile e quindi coincide con la propria attesa condizionata. D’altra
parte, µ(R) = 1 su Ω e quindi µ(R) = E [1R (X) | G ];
ii) se H, K ∈ M e H ⊆ K, allora
µ(K \ H) = µ(K) − µ(H)
= E [1K (X) | G ] − E [1H (X) | G ] =
(per la linearità dell’attesa condizionata)
= E [1K (X) − 1H (X) | G ]
h i
= E 1K\H (X) | G ;

iii) sia (Hn )n∈N una successione crescente di elementi di M . Per la continuità dal basso delle distribuzio-
ni, si ha [
µ(H) = lim µ(Hn ), H := Hn .
n→∞
n≥1
D’altra parte, per il Teorema di Beppo-Levi per l’attesa condizionata, si ha
h i
lim µ(Hn ) = lim E 1Hn (X) | G = E [1H (X) | G ] .
n→∞ n→∞

5.4.2 Dimostrazione della Proposizione 5.3.20


Consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo con densità γ(X,Y ) .
Lemma 5.4.2. Per ogni g ∈ bBd+1 vale
Z Z
g(x, y)γ(X,Y ) (x, y)dxdy = 0. (5.4.4)
(γY =0) Rd

Dimostrazione. Sia γY la densità di Y in (5.3.7). Essendo γ(X,Y ) ≥ 0, per il Corollario 3.2.14 si ha


γY (y) = 0 =⇒ γ(X,Y ) (·, y) = 0 q.o.
Allora, per ogni g ∈ bBd+1 e per ogni y tale che γY (y) = 0, vale
Z
g(x, y)γ(X,Y ) (x, y)dx = 0,
Rd
da cui segue la (5.4.4).
5.4. APPENDICE 215

Dimostrazione della Proposizione 5.3.20. Dobbiamo provare che la famiglia (µ(·; y))y∈(γY >0) definita in (5.3.9)-
(5.3.8) è una versione regolare della funzione distribuzione di X condizionata a Y secondo la definizione del
Teorema 5.3.16.
Anzitutto µ(·; y) è una distribuzione: infatti γX|Y (·, y) in (5.3.8) è una densità poiché è una funzione
misurabile, non-negativa e tale che, per la (5.3.7), vale
Z Z
1
γX|Y (x, y)dx = γ (x, y)dx = 1.
Rd γY (y) Rd (X,Y )

Fissiamo H ∈ Bd . Per quanto riguarda la i) del Teorema 5.3.16, il fatto che y 7→ µ(H; y) ∈ mB segue
dal Teorema di Fubini e dal fatto che γX|Y è una funzione Borel-misurabile. Per quanto riguarda la ii) del
Teorema 5.3.16, consideriamo W ∈ bσ (Y ): per il Teorema di Doob, W = g(Y ) con g ∈ bB e quindi si ha
Z
E [W µ(H; Y )] = g(y)µ(H; y)γY (y)dy =
R

(per il Teorema di Fubini)


Z Z !
= g(y) γX|Y (x, y)dx γY (y)dy
(γY >0) H
Z Z
= g(y)γ(X,Y ) (x, y)dx dy =
(γY >0) H

(per la (5.4.4))
" h i
= g(y)1H (x)γ(X,Y ) (x, y)dx dy = E W 1(X∈H) .
Rd ×R
216 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
Parte II

Processi e calcolo stocastico - Work in


progress!

217
Capitolo 6

Processi stocastici

We are too small and the universe


too large and too interrelated for
thoroughly deterministic thinking.

Don S. Lemons, [48]

Le variabili aleatorie descrivono lo stato di un fenomeno aleatorio, per esempio una posizione non osser-
vabile con certezza di una particella in un modello della fisica. I processi stocastici descrivono la dinamica,
nel tempo o in dipendenza da altri parametri, del fenomeno aleatorio considerato. Un processo stocastico
può essere definito come una famiglia parametrizzata di variabili aleatorie, ognuna delle quali rappresen-
ta lo stato del fenomeno corrispondente ad un fissato valore dei parametri. In alternativa, un processo
stocastico può essere definito come una variabile aleatoria a valori in uno spazio funzionale, tipicamente
uno spazio di curve parametrizzate di Rd : ogni curva rappresenta una traiettoria o possibile evoluzione del
fenomeno in Rd al variare dei parametri. Abbiamo già incontrato un semplice processo stocastico nell’E-
sempio 3.6.4 in cui (Xn )n∈N rappresentava l’evoluzione nel tempo del prezzo di un titolo rischioso in un
modello finanziario.
La teoria dei processi stocastici è oggigiorno uno dei campi della matematica più ricchi e affascinanti:
segnaliamo l’eccellente articolo di rassegna [52] che, con dovizia di spunti, racconta la storia della ricerca
sui processi stocastici dalla metà del secolo scorso in poi.

6.1 Processi stocastici: legge e distribuzioni finito-dimensionali


In questa sezione diamo due definizioni equivalenti di processo stocastico. La prima definizione è abbastanza
semplice ed intuitiva; la seconda definizione è più astratta ma indispensabile per la prova dei risultati
fondamentali e generali sui processi stocastici. Introduciamo anche alcune nozioni accessorie: lo spazio
delle traiettorie, la legge e le distribuzioni finito-dimensionali. Nel seguito, I indica un generico insieme di
indici: per fissare le idee, spesso I sarà un intervallo reale.

Definizione 6.1.1 (Processo stocastico). Un processo stocastico è una famiglia indicizzata X = (Xt )t∈I di
variabili aleatorie definite su uno spazio di probabilità (Ω, F , P ) a valori in uno spazio misurabile (E, E ).
Nel caso in cui (E, E ) = (R, B) diciamo che X è un processo stocastico reale. Se I è finito o numerabile allora
diciamo che X è un processo stocastico discreto.

Per dare la seconda definizione di processo stocastico, occorre introdurre preliminarmente alcune nota-
zioni. Indichiamo con
RI = {x : I −→ R}

219
220 CAPITOLO 6. PROCESSI STOCASTICI

l’insieme delle funzioni da I in R. Per ogni x ∈ RI e t ∈ I, scriviamo xt invece di x(t) e diciamo che xt è la
componente t-esima di x: in questo modo interpretiamo RI come il prodotto cartesiano di R per un numero
|I| di volte (anche se I non è finito o numerabile). Per esempio, se I = {1, . . . , d} allora RI è identificabile con
Rd , mentre se I = N allora RN è l’insieme delle successioni x = (x1 , x2 , . . . ) di numeri reali. Un elemento
x ∈ RI può essere visto come una curva parametrizzata in R, dove I è l’insieme dei parametri.
Diciamo che RI è lo spazio delle traiettorie da I in R e x ∈ RI è una traiettoria reale. Non c’è nulla di
speciale nel considerare traiettorie reali: potremmo direttamente considerare Rd o addirittura un generico
spazio misurabile (E, E ) al posto di R. In tal caso, lo spazio delle traiettorie è E I , l’insieme delle funzioni
da I a valori in E. Tuttavia, per semplicità, almeno per il momento ci limiteremo a considerare E = R che
interviene nello studio dei processi stocastici reali.
Muniamo lo spazio delle traiettorie di una struttura di spazio misurabile. Su RI introduciamo una
σ -algebra che generalizza la σ -algebra prodotto definita nella Sezione 3.3.2. Chiamiamo cilindro finito-
dimensionale, o semplicemente cilindro, un sottoinsieme di RI di cui è “fissato” un numero finito di compo-
nenti.
Definizione 6.1.2 (Cilindro finito-dimensionali). Dati t ∈ I e H ∈ B, diciamo che l’insieme
Ct (H) := {x ∈ RI | xt ∈ H}
è un cilindro uno-dimensionale. Dati t1 , . . . , tn ∈ I distinti e H1 , . . . , Hn ∈ B, poniamo H = H1 × · · · × Hn e
diciamo che
n
\
I
Ct1 ,...,tn (H) := {x ∈ R | (xt1 , . . . , xtn ) ∈ H} = Cti (Hi ) (6.1.1)
i=1
è un cilindro finito-dimensionale. Indichiamo con C la famiglia dei cilindri finito-dimensionali e B I = σ (C )
la σ -algebra generata da tali cilindri.
La σ -algebra B I è un oggetto molto astratto e, almeno per il momento, non è importante cercare di
visualizzarla concretamente o comprenderne a fondo la struttura: alcune informazioni aggiuntive su B I
verranno fornite nell’Osservazione 6.1.10. Abbiamo introdotto B I al fine di dare la seguente definizione
alternativa.
Definizione 6.1.3 (Processo stocastico). Un processo stocastico reale X = (Xt )t∈I sullo spazio di probabilità
(Ω, F , P ) è una variabile aleatoria a valori nello spazio delle traiettorie (RI , B I ):
X : Ω −→ RI .
Osservazione 6.1.4. Il fatto che X sia una variabile aleatoria significa che vale la condizione di misurabilità
(X ∈ C) ∈ F per ogni C ∈ B I . (6.1.2)
A sua volta, la condizione (6.1.2) equivale1 al fatto che
(Xt ∈ H) ∈ F per ogni H ∈ B, t ∈ I, (6.1.3)
e quindi le Definizioni 6.1.1 e 6.1.3 sono equivalenti. Riassumendo, si può dire che un processo X è una
funzione
X : I × Ω −→ R
(t, ω) −→ Xt (ω)
tale che
1 Infatti, (X ∈ H) = (X ∈ C) dove C è il cilindro uno-dimensionale (ossia in cui è fissata solo una componente) definito da {x ∈ RI |
t
xt ∈ H}: quindi è chiaro che se X è un processo stocastico allora Xt ∈ mF per ogni t ∈ I. Viceversa, la famiglia
H := {C ∈ B I | X −1 (C) ∈ F }
è una σ -algebra che, per ipotesi, include i cilindri uno-dimensionali e quindi anche C (i cilindri sono intersezioni finite di cilindri
uno-dimensionali). Allora H ⊇ σ (C ) = B I .
6.1. PROCESSI STOCASTICI: LEGGE E DISTRIBUZIONI FINITO-DIMENSIONALI 221

• per ogni t ∈ I, la funzione ω 7→ Xt (ω) è una variabile aleatoria reale;


• per ogni ω ∈ Ω, la funzione t 7→ Xt (ω) è una traiettoria, ossia una curva parametrizzata da I a R. Ogni
esito ω ∈ Ω corrisponde a (e può essere identificato con) una traiettoria del processo.

Esempio 6.1.5. Ogni funzione f : I −→ R può essere vista come un processo stocastico “banale”. Basta
considerare uno spazio campionario costituito da un solo elemento, Ω = {ω}, e il processo definito da
Xt (ω) = f (t): tale processo ha una sola traiettoria che è la funzione f ed è facile verificare la condizione
di misurabilità (6.1.3). Viceversa, il concetto di processo stocastico generalizza quello di funzione perché
consente l’esistenza di molteplici traiettorie: in questo senso, un processo (Xt )t∈I si può interpretare come
una “funzione stocastica”, ossia una funzione che ad ogni indice t ∈ I associa il valore aleatorio Xt .
Dal punto di vista della Definizione 6.1.3 un processo stocastico è una variabile aleatoria e quindi
possiamo definirne la legge.
Definizione 6.1.6 (Legge). La distribuzione (o legge) del processo stocastico X è la misura di probabilità
su (RI , B I ) definita da
µX (C) = P (X ∈ C), C ∈ BI .
Osservazione 6.1.7 (Distribuzioni finito-dimensionali). Anche il concetto di legge di un processo sto-
castico è astratto e poco maneggevole: dal punto di vista operativo, uno strumento molto più efficace
sono le cosiddette distribuzioni finito-dimensionali che sono le distribuzioni µ(Xt ,...,Xtn ) dei vettori aleatori
1
(Xt1 , . . . , Xtn ) al variare delle scelte di un numero finito di indici t1 , . . . , tn ∈ I. La legge di X è univocamente
determinata dalle distribuzioni finito-dimensionali2 .
Esempio 6.1.8. Siano A, B ∼ N0,1 v.a. indipendenti. Consideriamo il processo stocastico X = (Xt )t∈R
definito da
Xt = At + B, t ∈ R.
Ogni traiettoria di X è una funzione lineare (una retta) su R. Non è immediato esplicitare la distribuzione
del processo ma è facile calcolare le distribuzioni finito-dimensionali, infatti fissati t1 , . . . , tn ∈ R si ha

Xt1  t1 1


   
!
 . 
 .  = α A  . . 
 .  , α =  .. .. 
  B  
Xtn tn 1

e quindi, per la Proposizione 3.5.23, (Xt1 , . . . , Xtn ) ∼ N0,αα ∗ .


Esempio 6.1.9 (Processo Gaussiano). Diciamo che un processo stocastico è Gaussiano se ha distribuzioni
finito-dimensionali normali. Se X = (Xt )t∈I è Gaussiano, consideriamo le funzioni di media e covarianza

m(t) := E [Xt ] , c(s, t) := cov(Xs , Xt ), s, t ∈ I.

Queste funzioni determinano le distribuzioni finito-dimensionali (e quindi anche la legge!) del processo poiché,
per ogni scelta t1 , . . . , tn ∈ I, si ha
(Xt1 , . . . , Xtn ) ∼ NM,C
2 La misura di un generico cilindro C
t1 ,...,tn (H) si esprime come
 
µX Ct1 ,...,tn (H) = µ(Xt ,...,Xt ) (H)
1 n
I
e quindi le distribuzioni finito-dimensionali identificano
  µX su C . D’altra parte, C è una famiglia ∩-chiusa e genera B : per il
I I
Corollario A.1.5 se due misure di probabilità su R , B coincidono su C allora sono uguali. In altri termini, se µ1 (C) = µ2 (C) per
ogni C ∈ C allora µ1 ≡ µ2 .
Vedremo che, grazie al Teorema di Carathéodory, una misura di probabilità si estende in modo unico da C a B I : questo è il contenuto
di uno dei primi risultati fondamentali sui processi stocastici, il Teorema di estensione di Kolmogorov, che esamineremo nella Sezione
6.4.
222 CAPITOLO 6. PROCESSI STOCASTICI

dove  
M = (m(t1 ), . . . , m(tn )) e C = c(ti , tj ) . (6.1.4)
i,j=1,...,n
 
Osserviamo che C = c(ti , tj ) è una matrice simmetrica e semi-definita positiva. Ovviamente, se I
i,j=1,...,n
è finito allora X non è altro che un vettore aleatorio con distribuzione multi-normale. Il processo dell’E-
sempio 6.1.8 è Gaussiano con media nulla e funzione di covarianza c(s, t) = st + 1. Anche il processo banale
dell’Esempio 6.1.5 è Gaussiano con funzione di media f (t) e funzione di covarianza identicamente nulla:
in questo caso, Xt ∼ δf (t) per ogni t ∈ I. Infine, un esempio fondamentale di processo Gaussiano è il moto
Browniano che definiremo nella Sezione 10.
Osservazione 6.1.10. [!] Esistono famiglie di traiettorie, anche molto significative, che non appartengono
alla σ -algebra B I . Il fatto è che ogni elemento di B I è caratterizzato da un’infinità al più numerabile di coor-
dinate3 e questo è fortemente limitativo nel caso in cui I non sia numerabile. Per esempio, se I = [0, 1] si
ha
C[0, 1] < B [0,1]
poiché la famiglia C[0, 1] delle funzioni continue non può essere caratterizzata, nello spazio di tutte le
funzioni da [0, 1] in R, imponendo condizioni su una quantità numerabile di coordinate4 . Per il medesimo
motivo, addirittura i singoletti {x} con x ∈ R[0,1] , i sottoinsiemi finiti di R[0,1] e famiglie significative come
per esempio n o
x ∈ R[0,1] | sup xt < 1
t∈[0,1]

non appartengono B [0,1] .


Questi esempi suscitano una certa perplessità nei confronti della σ -algebra B I che non è sufficiente-
mente ampia da contenere importanti famiglie di traiettorie. In effetti lo spazio campionario RI , di tutte
le funzioni da I in R, è talmente grande da essere difficilmente trattabile come spazio misurabile cosı̀ da
rendere difficile lo sviluppo di una teoria generale dei processi stocastici. Per questo motivo, non appena
possibile cercheremo di sostituire RI con uno spazio di traiettorie che, oltre a essere “più piccolo”, possegga
anche un’utile struttura di spazio metrico come, per esempio, lo spazio delle funzioni continue (cfr. Sezione
9.2).

6.2 Processi misurabili


Abbiamo dato due definizioni equivalenti di processo stocastico, ognuna delle quali ha pregi e difetti:
i) un processo stocastico è una famiglia indicizzata di variabili aleatorie (Definizione 6.1.1): un
processo X = Xt (ω) è una funzione
X : I × Ω −→ R
tale che, per ogni t ∈ I, Xt è una variabile aleatoria reale sullo spazio di probabilità (Ω, F , P );
3 Più precisamente, risolviamo l’Esercizio 1.4 in [7]: consideriamo I = [0, 1] (quindi lo spazio delle traiettorie RI è la famiglia delle
funzioni da [0, 1] a R). Data una successione τ = (tn )n≥1 ∈ [0, 1]N , identifichiamo τ con la mappa
τ : R[0,1] −→ RN , τ(x) := (xtn )n≥1 ,
e poniamo
M = {τ −1 (H) | τ ∈ [0, 1]N , H ∈ B N }, τ −1 (H) = {x ∈ R[0,1] | τ(x) ∈ H},
dove B N indica la σ -algebra generata dai cilindri finito-dimensionali in RN . Allora M ⊆ B [0,1] e contiene la famiglia dei cilindri
finito-dimensionali di R[0,1] , che è una famiglia ∩-chiusa che genera B [0,1] . Inoltre si prova che M è una famiglia monotona: segue
dal Lemma A.1.4 che M = B [0,1] ossia ogni elemento C ∈ B [0,1] è della forma C = τ −1 (H) per una certa successione τ in [0, 1] e
un certo H ∈ B N . In altri termini, C è caratterizzato da una scelta di una quantità numerabile di coordinate τ = (tn )n≥1 (oltre che da
H ∈ B N ).
4 Per assurdo, se fosse C[0, 1] = τ −1 (H), con τ = (t )
n n≥1 successione di coordinate in [0, 1] e H ∈ B , allora modificando x ∈ C[0, 1]
N
in un punto t < τ si dovrebbe ottenere ancora una funzione continua e questo è chiaramente falso.
6.3. UNICITÀ 223

ii) un processo stocastico è una variabile aleatoria a valori in uno spazio di traiettorie (Definizione
6.1.3): secondo questa definizione decisamente più astratta, un processo X = X(ω) è una variabile
aleatoria
X : Ω −→ RI
dallo spazio di probabilità (Ω, F , P ) a valori nello spazio delle traiettorie RI , munito della struttura
di spazio misurabile con la σ -algebra B I . Questa definizione si utilizza nella prova dei risultati più
generali e teorici anche se è una nozione meno operativa e più difficilmente applicabile allo studio di
esempi concreti.
Notiamo che le definizioni precedenti non richiedono alcuna ipotesi sul tipo di dipendenza di X rispetto
alla variabile t (per esempio, la misurabilità o qualche tipo di regolarità). Ovviamente il problema non si
pone nel caso in cui I sia un insieme generico, privo di qualsiasi struttura di spazio misurabile o metrico;
tuttavia se I è un intervallo reale allora è possibile dotare lo spazio prodotto I × Ω di una struttura di spazio
misurabile con la σ -algebra prodotto B ⊗ F .
Definizione 6.2.1 (Processo misurabile). Un processo stocastico misurabile è una funzione misurabile

X : (I × Ω, B ⊗ F ) −→ (R, B).

Per il Lemma 3.3.11, se X è un processo stocastico misurabile allora:


• Xt è una variabile aleatoria per ogni t ∈ I;
• la traiettoria t 7→ Xt (ω) è una funzione misurabile da I a R, per ogni ω ∈ Ω.
Se I ⊆ R è naturale interpretare t ∈ I come un indice temporale: allora, come vedremo nella Sezione 6.5, lo
spazio di probabilità si arricchirà di nuovi elementi (le filtrazioni) e un ruolo predominante sarà assunto
da una particolare classe di processi stocastici, le martingale. In questo contesto, rinforzeremo la nozione di
misurabilità introducendo il concetto di processo progressivamente misurabile (cfr. Definizione 11.2.26).
In letteratura ci si riferisce alla “Teoria Generale dei Processi Stocastici” per indicare il settore che si
occupa dello studio delle proprietà generali dei processi nel caso I = R≥0 : per un’introduzione sintetica si
veda, per esempio, il Capitolo 16 in [6] e il Capitolo 1 in [36].

6.3 Unicità
Esistono varie nozioni di equivalenza fra processi stocastici. Anzitutto, due processi X = (Xt )t∈I e
Y = (Yt )t∈I sono uguali in legge se hanno la stessa distribuzione (o, equivalentemente, se hanno le stes-
se distribuzioni finito-dimensionali): in questo caso X e Y potrebbero anche essere definiti su spazi di
probabilità differenti.
Nel caso in cui X e Y siano definiti sullo stesso spazio di probabilità (Ω, F , P ), possiamo dare altre
nozioni di equivalenza espresse in termini di uguaglianza delle traiettorie. Ricordiamo anzitutto che, in
uno spazio di probabilità (Ω, F , P ), un sottoinsieme A di Ω è quasi certo (rispetto a P ) se esiste un evento
C ⊆ A tale che P (C) = 1. Se lo spazio di probabilità è completo5 allora ogni insieme quasi certo A è un evento
e quindi è lecito scrivere P (A) = 1.
Definizione 6.3.1 (Modificazioni). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Diciamo che X
e Y sono modificazioni se P (Xt = Yt ) = 1 per ogni t ∈ I.
Osservazione 6.3.2. La definizione precedente può essere facilmente generalizzata al caso di X, Y generiche
funzioni da Ω a valori in RI : in questo caso (Xt = Yt ) non è necessariamente un evento e quindi diciamo che
X è una modificazione di Y se l’insieme (Xt = Yt ) è quasi certo. Ciò può essere utile se non si sa a priori che
X e/o Y sono processi stocastici.
5 Ricordiamo la definizione data nell’Osservazione 3.1.11: uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F dove N indica
la famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16).
224 CAPITOLO 6. PROCESSI STOCASTICI

Definizione 6.3.3 (Processi indistinguibili). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Dicia-
mo che X e Y sono indistinguibili se l’insieme

(X = Y ) := {ω ∈ Ω | Xt (ω) = Yt (ω) per ogni t ∈ I}

è quasi certo.

Osservazione 6.3.4. [!] Due processi X e Y sono indistinguibili se l’insieme delle traiettorie coincidenti è
quasi certo. Notiamo che, anche se X e Y sono processi stocastici, non è detto che (X = Y ) sia un evento.
Infatti, (X = Y ) = (X − Y )−1 ({0}) dove 0 indica la traiettoria identicamente nulla: tuttavia {0} < BI a meno
che I non sia finito o numerabile (cfr. Osservazione 6.1.10).
D’altra parte, se lo spazio (Ω, F , P ) è completo allora X e Y sono indistinguibili se e solo se P (X = Y ) = 1
poiché la completezza dello spazio garantisce che (X = Y ) ∈ F nel caso (X = Y ) sia quasi certo. Per questo
e altri motivi che spiegheremo in seguito, d’ora in poi assumeremo spesso che (Ω, F , P ) sia completo.

Osservazione 6.3.5. [!] Se X e Y sono modificazioni allora hanno le stesse distribuzioni finito-dimensionali
e quindi sono uguali in legge. Se X e Y sono indistinguibili allora sono anche modificazioni poiché per ogni
t ∈ I si ha (X = Y ) ⊆ (Xt = Yt ). Viceversa, X, Y modificazioni non sono necessariamente indistinguibili
poiché \
(X = Y ) = (Xt = Yt )
t∈I

ma se I non è numerabile tale intersezione potrebbe non appartenere a F oppure avere probabilità minore
di uno. Se I è finito o numerabile allora X, Y sono modificazioni se e solo se sono indistinguibili.

Diamo un esempio esplicito di processi che sono modificazioni ma non sono indistinguibili.

Esempio 6.3.6. [!] Consideriamo lo spazio campione Ω = [0, 1] con la misura di Lebesgue come misura di
probabilità. Siano I = [0, 1], X = (Xt )t∈I il processo identicamente nullo e Y = (Yt )t∈I il processo definito da

1 se ω = t,


Yt (ω) = 
0 se ω ∈ [0, 1] \ {t}.

Allora X e Y sono modificazioni poiché, per ogni t ∈ I,

(Xt = Yt ) = {ω ∈ Ω | ω , t} = [0, 1] \ {t}

ha misura di Lebesgue uguale a uno ossia è un evento certo. D’altra parte, tutte le traiettorie di X sono
differenti da quelle di Y in un punto.
Notiamo anche che X e Y sono uguali in legge ma X ha tutte le traiettorie continue e Y ha tutte le
traiettorie discontinue: dunque ci sono importanti proprietà delle traiettorie di un processo stocastico (come, per
esempio, la continuità), che non dipendono dalla distribuzione del processo.

Nel caso di processi continui si ha il seguente risultato particolare.

Proposizione 6.3.7. Sia I un intervallo reale e siano X = (Xt )t∈I e Y = (Yt )t∈I processi con traiettorie quasi
certamente continue6 . Se X è modificazione di Y allora X, Y sono indistinguibili.

Dimostrazione. Per ipotesi le traiettorie X(ω) e Y (ω) sono continue per ogni ω ∈ A con A quasi certo. Inoltre
P (Xt = Yt ) = 1 per ogni t ∈ I e di conseguenza l’insieme
\
C := A ∩ (Xt = Yt )
t∈I∩Q

6 L’insieme degli ω ∈ Ω tali che X(ω), Y (ω) sono funzioni continue di t è quasi certo.
6.4. ESISTENZA 225

è quasi certo. Per ogni t ∈ I esiste una successione approssimante (tn )n∈N in I ∩Q: per l’ipotesi di continuità,
per ogni ω ∈ C si ha
Xt (ω) = lim Xtn (ω) = lim Ytn (ω) = Yt (ω)
n→∞ n→∞

e questo prova che X, Y sono indistinguibili.

Osservazione 6.3.8. Il risultato della Proposizione 6.3.7 rimane valido per processi che siano solo continui
a destra o a sinistra.

6.4 Esistenza
In questa sezione proviamo che è “sempre” possibile costruire un processo stocastico che abbia assegnate
distribuzioni finito-dimensionali.
Facciamo un’osservazione preliminare. Se µt1 ,...,tn sono le distribuzioni finito-dimensionali di un proces-
so stocastico (Xt )t∈I allora si ha
 
µt1 ,...,tn (H1 × · · · × Hn ) = P (Xt1 ∈ H1 ) ∩ · · · ∩ (Xtn ∈ Hn ) , t1 , . . . , tn ∈ I, H1 , . . . , Hn ∈ B. (6.4.1)

Di conseguenza valgono le seguenti proprietà di consistenza: per ogni famiglia finita di indici t1 , . . . , tn ∈ I,
per ogni H1 , . . . , Hn ∈ B e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha

µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ), (6.4.2)


µt1 ,...,tn (H1 × · · · × Hn−1 × R) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ). (6.4.3)

A posteriori, è chiaro che (6.4.2)-(6.4.3) sono condizioni necessarie affinché le distribuzioni µt1 ,...,tn possano
essere le distribuzioni finito-dimensionali di un processo stocastico. Il seguente risultato mostra che tali
condizioni sono anche sufficienti.

Teorema 6.4.1 (Teorema di estensione di Kolmogorov). [!!!] Sia I un insieme. Supponiamo che, per ogni
famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn su Rn , e siano soddisfatte le proprietà
 
di consistenza (6.4.2)-(6.4.3). Allora esiste un’unica misura di probabilità µ su RI , B I che abbia µt1 ,...,tn
come distribuzioni finito-dimensionali, ossia tale che valga

µ(Ct1 ,...,tn (H)) = µt1 ,...,tn (H) (6.4.4)

per ogni famiglia finita di indici t1 , . . . , tn ∈ I e H = H1 × · · · × Hn ∈ Bn .

Osservazione 6.4.2. [!] Nelle ipotesi del teorema precedente, la misura µ si estende ulteriormente ad una
σ -algebra BµI che contiene B I e tale che lo spazio di probabilità (RI , BµI , µ) sia completo: ciò è conseguenza
del Corollario 2.5.11 e del metodo costruttivo utilizzato nella dimostrazione del Teorema di Carathéodory.
A volte, BµI è chiamata µ-completamento di B I .

Rimandiamo la dimostrazione del Teorema 6.4.1 alla Sezione 6.6 ed esaminiamo ora alcune notevoli
applicazioni.

Corollario 6.4.3 (Esistenza di processi con distribuzioni finito-dimensionali assegnate.). [!] Sia I un
insieme. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn
su Rn , e siano soddisfatte le proprietà di consistenza (6.4.2)-(6.4.3). Allora esiste un processo stocasti-
co X = (Xt )t∈I che è definito su uno spazio di probabilità completo e ha µt1 ,...,tn come distribuzioni finito-
dimensionali.
226 CAPITOLO 6. PROCESSI STOCASTICI

Dimostrazione. Si procede in maniera analoga al caso delle variabili aleatorie reali (cfr. Osservazione
3.1.16). Sia (Ω, F , P ) = (RI , BµI , µ) lo spazio di probabilità completo definito nell’Osservazione 6.4.2. La
funzione identità
X : (RI , BµI ) −→ (RI , B I )
definita da X(w) = w per ogni w ∈ RI , è un processo stocastico poiché X −1 (B I ) = B I ⊆ BµI . Inoltre, X
ha µt1 ,...,tn come distribuzioni finito-dimensionali poiché, per ogni cilindro finito-dimensionale Ct1 ,...,tn (H)
come in (6.1.1), si ha

µX (Ct1 ,...,tn (H)) = µ(X ∈ Ct1 ,...,tn (H)) =

(poiché X è la funzione identità)

= µ(Ct1 ,...,tn (H)) =

(per la (6.4.4))

= µt1 ,...,tn (H).

Consideriamo ora un processo stocastico X sullo spazio (Ω, F , P ). Indichiamo con µX la legge di X e
con BµI X il µX -completamento di B I (cfr. Osservazione 6.4.2).
Definizione 6.4.4 (Versione canonica di un processo stocastico). [!] La versione (o realizzazione) canonica
e sullo spazio di probabilità (RI , BµI , µX ), definito da X(w)
di X è il processo X, e = w per ogni w ∈ RI .
X

Osservazione 6.4.5. Per il Corollario 6.4.3, la realizzazione canonica di X ha la stessa legge di X. Inoltre X e
è definita sullo spazio di probabilità completo (R , BµX , µX ) in cui lo spazio campione è lo spazio funzionale
I I

RI (e non un generico insieme Ω): in particolare, gli esiti sono le traiettorie del processo.
Corollario 6.4.6 (Esistenza di processi Gaussiani). [!] Siano

m : I −→ R, c : I × I −→ R
 
funzioni tali che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, la matrice C = c(ti , tj ) sia simmetrica
i,j=1,...,n
e semi-definita positiva. Allora esiste un processo Gaussiano, definito su uno spazio di probabilità completo
(Ω, F , P ), con funzione di media m e funzione di covarianza c.
In particolare, scelto I = R≥0 , esiste un processo Gaussiano con funzioni di media m ≡ 0 e covarianza
c(s, t) = t ∧ s ≡ min{s, t}.
Dimostrazione. La famiglia di distribuzioni NM,C , con M, C come in (6.1.4), è ben definita grazie all’ipotesi
sulla funzione di covarianza c. Inoltre essa soddisfa le proprietà di consistenza (6.4.2)-(6.4.3), come si
verifica applicando la (6.4.1) con NM,C al posto di µt1 ,...,tn e (Xt1 , . . . , Xtn ) ∼ NM,C . Allora la prima parte della
tesi segue dal Corollario 6.4.3.  
Ora siano t1 , . . . , tn ∈ R≥0 : la matrice C = min{ti , tj } è ovviamente simmetrica ed è anche semi-
i,j=1,...,n
definita positiva poiché, per ogni η1 , . . . , ηn ∈ R, si ha
n
X n
X Z ∞
ηi ηj min{ti , tj } = ηi ηj 1[0,ti ] (s)1[0,tj ] (s)ds
i,j=1 i,j=1 0

n
 2
Z ∞ X 
= ηi 1[0,ti ] (s) ds ≥ 0.



0 i=1
6.5. FILTRAZIONI E MARTINGALE 227

Corollario 6.4.7 (Esistenza di successioni di v.a. indipendenti). [!] Sia (µn )n∈N una successione di di-
stribuzioni reali. Esiste una successione (Xn )n∈N di v.a. indipendenti definite su uno spazio di probabilità
completo (Ω, F , P ), tali che Xn ∼ µn per ogni n ∈ N.

Dimostrazione. Applichiamo il Corollario 6.4.3 con I = N. La famiglia di distribuzioni finito-dimensionali


definite da
µk1 ,...,kn := µk1 ⊗ · · · ⊗ µk1 , k1 , . . . , kn ∈ N,
verifica le proprietà di consistenza (6.4.2)-(6.4.3). Per il Corollario 6.4.3, esiste un processo (Xk )k∈N che ha
µk1 ,...,kn come distribuzioni finito-dimensionali. L’indipendenza segue dal Teorema 3.3.25 e dall’arbitrarietà
della scelta degli indici k1 , . . . , kn ∈ N.

Il Corollario 6.4.7 ammette la seguente versione leggermente più generale, la cui dimostrazione è lascia-
ta per esercizio. Il seguente risultato richiede una versione semplificata, rispetto al Corollario 6.4.3, della
proprietà di consistenza.

Corollario 6.4.8 (Esistenza di successioni di v.a. con distribuzione assegnata). [!] Sia data una succes-
sione (µn )n∈N dove µn è una distribuzione su Rn e vale

µn+1 (H × R) = µn (H), H ∈ Bn , n ∈ N.

Allora esiste una successione (Xn )n∈N di v.a. definite su uno spazio di probabilità completo (Ω, F , P ), tali
che (X1 , . . . , Xn ) ∼ µn per ogni n ∈ N.

6.5 Filtrazioni e martingale


In questa sezione consideriamo il caso particolare in cui I è un sottoinsieme di R, tipicamente

I = R≥0 oppure I = [0, 1] oppure I = N.

In questo caso è utile pensare a t come un parametro che rappresenta un istante di tempo.

Definizione 6.5.1 (Filtrazione). Siano I ⊆ R e (Ω, F , P ) uno spazio di probabilità. Una filtrazione (Ft )t∈I è
una famiglia crescente di sotto-σ -algebre di F , nel senso che vale

Fs ⊆ Ft ⊆ F , s, t ∈ I, s ≤ t.

In molte applicazioni le σ -algebre rappresentano insiemi di informazioni. Per quanto riguarda le


filtrazioni, l’idea è che

◦ la σ -algebra Ft rappresenta le informazioni disponibili all’istante t;

◦ la filtrazione (Ft )t∈I rappresenta il flusso di informazioni che aumenta col passare del tempo.

Abbiamo visto l’importanza del concetto di informazione nel calcolo delle probabilità: per esempio, la de-
finizione stessa di probabilità condizionata è sostanzialmente motivata dal problema di descrivere l’effetto
dell’informazione sulla probabilità degli eventi. Le filtrazioni costituiscono lo strumento matematico che
descrive in modo dinamico (in funzione del tempo) le informazioni disponibili e per questo motivo giocano
un ruolo fondamentale nella teoria dei processi stocastici. Con la seguente definizione si formalizza l’idea
che un processo stocastico sia osservabile in base alla informazioni di una certa filtrazione.

Definizione 6.5.2 (Processo adattato ad una filtrazione). Sia X = (Xt )t∈I un processo stocastico sullo spa-
zio con filtrazione (Ω, F , P , (Ft )t∈I ). Si dice che X è adattato alla filtrazione (Ft )t∈I se Xt ∈ mFt per ogni
t ∈ I.
228 CAPITOLO 6. PROCESSI STOCASTICI

Definizione 6.5.3 (Filtrazione generata da un processo). Ad ogni processo stocastico X = (Xt )t∈I sullo
spazio (Ω, F , P ) è associata la filtrazione definita in modo naturale da

GtX := σ (Xs , s ≤ t) ≡ σ (Xs−1 (H), s ≤ t, H ∈ B), t ∈ I. (6.5.1)

Essa è chiamata filtrazione generata da X.


Osservazione 6.5.4. Abbiamo indicato con G X la filtrazione generata da X perché vogliamo riservare il
simbolo F X per un’altra filtrazione che definiremo più avanti nella Sezione 11.2.2 e chiameremo filtrazione
standard per X. La filtrazione generata da X è la “minima” filtrazione che contiene le informazioni sul
processo X al variare del tempo: X è adattato a (Ft )t∈I se e solo se GtX ⊆ Ft per ogni t ∈ I.
Osservazione 6.5.5. Se X
e è la versione canonica di X (cfr. Definizione 6.4.4) allora

GtX = σ (Cs (H) | s ∈ I, s ≤ t, H ∈ B), t ∈ I,


e

ossia la filtrazione generata da X


e è quella generata dai cilindri finito-dimensionali (cfr. Definizione 6.1.2)
al variare di t.
Introduciamo ora una fondamentale classe di processi stocastici.
Definizione 6.5.6 (Martingala). [!!!] Sia X = (Xt )t∈I , con I ⊆ R, un processo stocastico sullo spazio con
filtrazione (Ω, F , P , (Ft )t∈I ). Si dice che X è una martingala se:
i) X è un processo sommabile, nel senso che Xt ∈ L1 (Ω, P ) per ogni t ∈ I;
ii) vale
Xt = E [XT | Ft ] , t, T ∈ I, t ≤ T . (6.5.2)

Se I è finito o numerabile diciamo che X è una martingala discreta.


Il concetto di martingala è centrale nella teoria dei processi stocastici e in molte applicazioni. La (6.5.2),
detta proprietà di martingala, significa che il valore attuale (al tempo t) del processo è la miglior stima del
valore futuro (in un tempo T ≥ t) condizionata alle informazioni attualmente disponibili. In economia, per
esempio, la proprietà di martingala si traduce nel fatto che se X rappresenta il prezzo di un bene, allora
tale prezzo è equo nel senso che è la miglior stima del valore futuro del bene in base alle informazioni
disponibili al momento.
Sia X una martingala su (Ω, F , P , (Ft )t∈I ): come conseguenza immediata della Definizione 6.5.6 e delle
proprietà dell’attesa condizionata si ha:
i) X è adattato alla filtrazione (Ft )t∈I ;
ii) X è costante in media poiché, applicando il valore atteso in ambo i membri della (6.5.2) si ha7

E [Xt ] = E [XT ] , t, T ∈ I.

Il termine martingala si riferiva originariamente ad una serie di strategie utilizzate dagli scommettitori
francesi nel XVIII secolo, fra cui la strategia del raddoppio a cui avevamo accennato nell’Esempio 4.2.4.
Esempio 6.5.7. [!] La sequenza nel tempo delle vincite e perdite in un gioco d’azzardo equo può essere
rappresentato con una martingala discreta: a volte si vince e a volte si perde ma, se il gioco è equo, vincite
e perdite in media si bilanciano.
Più precisamente, sia (Zn )n∈N una successione di v.a. i.i.d. con Zn ∼ qδ1 + (1 − q)δ−1 e 0 < q < 1 fissato.
Consideriamo il processo stocastico

Xn := Z1 + · · · + Zn , n ∈ N.
7 Ricordiamo che E [E [X | F ]] = E [X ] per definizione di attesa condizionata.
T t T
6.5. FILTRAZIONI E MARTINGALE 229

Qui Zn rappresenta la vincita o perdita alla n-esima giocata, q è la probabilità di vincita e Xn è il bilancio
dopo n giocate. Consideriamo la filtrazione (GnZ )n∈N delle informazioni sugli esiti delle giocate, GnZ =
σ (Z1 , . . . , Zn ). Allora si ha
h i h i
E Xn+1 | GnZ = E Xn + Zn+1 | GnZ =

(poiché Xn ∈ mGnZ e Zn+1 è indipendente da GnZ )

= Xn + E [Zn+1 ] = Xn + 2q − 1.

Dunque (Xn ) è una martingala se q = 12 ossia se il gioco è equo. Se q > 21 , ossia se la probabilità di vincere
h i
nelle singole giocate è maggiore rispetto alla probabilità di perdere, allora Xn < E Xn+1 | GnZ (e si dice che
(Xn ) è una sub-martingala): in questo caso si ha anche E [Xn ] < E [Xn+1 ], ossia il processo è crescente in media.
Questo esempio mostra che la proprietà di martingala non è una proprietà delle traiettorie del processo ma
dipende dalla misura di probabilità e dalla filtrazione considerate.
Esempio 6.5.8. Siano X ∈ L1 (Ω, P ) e (Ft )t∈I una filtrazione su (Ω, F , P ). Una semplice applicazione della
proprietà della torre mostra che il processo definito da Xt = E [X | Ft ], t ∈ I, è una martingala, infatti si ha

E [XT | Ft ] = E [E [X | FT ] | Ft ] = E [X | Ft ] = Xt , t, T ∈ I, t ≤ T .

Osservazione 6.5.9. [!] Useremo spesso


h i in seguito la seguente identità valida per una martingala X di
quadrato sommabile, ossia tale che E Xt2 < ∞ per t ∈ I:
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs , s ≤ t. (6.5.3)

Basta osservare che


h i h i
E (Xt − Xs )2 | Fs = E Xt2 − 2Xt Xs + Xs2 | Fs
h i
= E Xt2 | Fs − 2Xs E [Xt | Fs ] + Xs2 =

(per la proprietà di martingala)


h i
= E Xt2 | Fs − Xs2

da cui segue la (6.5.3).


Definizione 6.5.10. Sia X = (Xt )t∈I un processo stocastico sullo spazio con filtrazione (Ω, F , P , (Ft )t∈I ). Si
dice che X è una sub-martingala se:
i) X è un processo sommabile e adattato;
ii) vale
Xt ≤ E [XT | Ft ] , t, T ∈ I, t ≤ T .

Inoltre X è una super-martingala se −X è una sub-martingala.


Proposizione 6.5.11. [!] Se X è una martingala e ϕ : R −→ R è una funzione convessa e tale che ϕ(Xt ) ∈
L1 (Ω, P ) per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Se X è una sub-martingala e ϕ : R −→ R è una funzione convessa, crescente e tale che ϕ(Xt ) ∈ L1 (Ω, P )
per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Osservazione 6.5.12. Se X è una martingala allora |X| è una sub-martingala non-negativa. Tuttavia si faccia
attenzione che ciò non è necessariamente vero se X è una sub-martingala poiché x 7→ |x| non è crescente.
Inoltre, se X è una sub-martingala allora anche X + := X ∨ 0 = |X|+X
2 lo è.
230 CAPITOLO 6. PROCESSI STOCASTICI

Dimostrazione della Proposizione 6.5.11. La prima parte è un’immediata conseguenza della disuguaglianza
di Jensen. Analogamente, se X è una sub-martingala allora Xt ≤ E [XT | Ft ] per t ≤ T ed essendo ϕ crescente
si ha anche
ϕ(Xt ) ≤ ϕ (E [XT | Ft ]) ≤ E [ϕ(XT ) | Ft ]
dove per la seconda disuguaglianza abbiamo riapplicato Jensen.
In quest’ultima parte della sezione, consideriamo il caso particolare in cui I = N ∪ {0}. Sotto queste
ipotesi particolari diamo un risultato profondo, e valido anche in ambito molto più generale, sulla struttura
dei processi stocastici adattati: il Teorema di decomposizione di Doob. Prima introduciamo la seguente
Definizione 6.5.13 (Processo predicibile). Sia A = (An )n≥0 un processo stocastico discreto, definito sullo
spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Si dice che A è predicibile se:
i) A0 = 0;
ii) An ∈ mFn−1 per ogni n ∈ N.
Teorema 6.5.14 (Teorema di decomposizione di Doob). Sia X = (Xn )n≥0 un processo stocastico adattato e
sommabile sullo spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Esistono e sono unici q.c. una martingala M e un
processo predicibile A tali che
Xn = Mn + An , n ≥ 0. (6.5.4)
In particolare, se X è una martingala allora M ≡ X e A ≡ 0; se X è una sub-martingala allora il processo A
ha le traiettorie monotone crescenti q.c.
Dimostrazione. [Unicità] Se due processi M e A, con le proprietà dell’enunciato, esistono allora si ha

Xn+1 − Xn = Mn+1 − Mn + An+1 − An , n ≥ 0. (6.5.5)

Condizionando a Fn e sfruttando il fatto che X è adattato, M è una martingala e A è predicibile, si ha

E [Xn+1 | Fn ] − Xn = E [Mn+1 | Fn ] − Mn + An+1 − An = An+1 − An .

Di conseguenza, il processo A è univocamente determinato dalla formula ricorsiva



An+1 = An + E [Xn+1 | Fn ] − Xn , se n ∈ N,


(6.5.6)
A0 = 0.

Si noti che dalla (6.5.6) segue che se X è una sub-martingala allora il processo A ha le traiettorie monotone
crescenti q.c.
Inserendo la (6.5.6) nella (6.5.5) si trova anche

Mn+1 = Mn + Xn+1 − E [Xn+1 | Fn ] , se n ∈ N,


(6.5.7)
M0 = X0 .

[Esistenza] Basta provare che i processi M e A, definiti rispettivamente da (6.5.7) e (6.5.6), verificano le
proprietà dell’enunciato. Si tratta di una semplice verifica: per esempio, si prova facilmente per induzione
su n il fatto che A sia predicibile. Analogamente si prova che M è una martingala e vale la (6.5.4).
Esempio 6.5.15. [!] Sia X come nell’Esempio 6.5.7. Allora si calcolano facilmente i processi della decom-
posizione di Doob di X:
Mn = Xn − n(2q − 1), An = n(2q − 1).
1
Si noti che in questo caso il processo A è deterministico; inoltre X è una sub-martingala per q > 2 e in tal
caso (An )n≥0 è una successione monotona crescente.
6.6. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 231

6.6 Dimostrazione del Teorema di estensione di Kolmogorov


Lemma 6.6.1. La famiglia C dei cilindri finito-dimensionali è un semianello.
Dimostrazione. Ricordando la definizione (6.1.1) di cilindro finito-dimensionale
n
\
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ), (6.6.1)
i=1

e osservando che Ct (H) ∩ Ct (K) = Ct (H ∩ K) per ogni t ∈ I e H, K ∈ B, non è difficile provare che C è una
famiglia ∩-chiusa e ∅ ∈ C . Rimane da provare che la differenza di cilindri è unione finita e disgiunta di
cilindri: poiché C \ D = C ∩ D c , per C, D ∈ C , è sufficiente provare che il complementare di un cilindro è
unione disgiunta di cilindri.
Per un cilindro uno-dimensionale si ha
(Ct (H))c = Ct (H c ),

e quindi, per la (6.6.1),


 n 
c [ n
c [
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ) = Cti (Hic )
i=1 i=1

dove in generale l’unione non è disgiunta: tuttavia osserviamo che

Ct1 (H1 ) ∪ Ct2 (H2 ) = Ct1 ,t2 (H1 × H2 ) ⊎ Ct1 ,t2 (H1c × H2 ) ⊎ Ct1 ,t2 (H1 × H2c ),

e in generale
n
[ ]
Cti (Hi ) = Ct1 ,...,tn (K1 × · · · × Kn )
i=1
dove l’unione disgiunta è presa fra tutte le possibili combinazioni differenti di K1 × · · · × Kn dove Ki è Hi
oppure Hic , tranne il caso in cui Ki = Hic per ogni i = 1, . . . , n.
Definiamo µ su C come in (6.4.4), ossia

µ(Ct1 ,...,tn (H1 × · · · × Hn )) := µt1 ,...,tn (H1 × · · · × Hn ), t1 , . . . , tn ∈ I, H1 , · · · Hn ∈ B.

Se proviamo che µ è una pre-misura (ossia µ è additiva, σ -sub-additiva e tale che µ(∅) = 0) su C allora per
il Teorema 2.5.5 di Carathéodory µ si estende in modo unico ad una misura di probabilità su B I .
Chiaramente µ(∅) = 0 e non è difficile provare che µ è finitamente additiva. Per provare che µ è σ -
sub-additiva, consideriamo una successione (Cn )n∈N di cilindri disgiunti la cui unione è un cilindro C e
dimostriamo che8 X
µ(C) = µ(Cn ). (6.6.2)
n∈N
8 La (6.6.2) implica la σ -sub-addivitità: se A ∈ C e (A )
n n∈N è una successione di elementi in C tale che
[
A⊆ An
n∈N
basta porre C1 = A ∩ A1 ∈ C e
n−1
[
Cn = (A ∩ An ) \ Ak
k=1
con Cn che, per il Lemma 6.6.1, è unione finita e disgiunta di cilindri per ogni n ≥ 2. Allora dalla (6.6.2) segue che
X
µ(A) ≤ µ (An ) .
n∈N
232 CAPITOLO 6. PROCESSI STOCASTICI

A tal fine poniamo


n
]
Dn = C \ Ck , n ∈ N.
k=1

Per il Lemma 6.6.1 Dn è unione finita e disgiunta di cilindri: pertanto µ(Dn ) è ben definito (per l’additività
di µ) e vale
n
X
µ(C) = µ(Ck ) + µ(Dn ).
k=1

Allora basta provare che


lim µ(Dn ) = 0. (6.6.3)
n→∞

Chiaramente Dn ↘ ∅ per n → ∞. Dimostriamo la (6.6.3) per assurdo e, a meno di passare ad una sotto-
successione, supponiamo esista ε > 0 tale che µ(Dn ) ≥ ε per ogni n ∈ N: utilizzando un argomento di
compattezza, proviamo che in tal caso l’intersezione dei Dn non è vuota, da cui l’assurdo.
Sappiamo che Dn è un’unione finita e disgiunta di cilindri: poiché Dn ⊇ Dn+1 , eventualmente ripetendo9
gli elementi della successione, possiamo supporre

Nn
]
Dn = C
ek , ek = {x ∈ RI | (xt , . . . , xt ) ∈ Hk,1 × · · · × Hk,n }
C 1 n
k=1

per una certa successione (tn )n∈N in I e Hk,n ∈ B. Ora utilizziamo il seguente fatto di cui posticipiamo la
prova al termine della dimostrazione: è possibile costruire una successione (Kn )n∈N tale che:

◦ Kn ⊆ Rn è un sottoinsieme compatto di

Nn
[
Bn := (Hk,1 × · · · × Hk,n ); (6.6.4)
k=1

◦ Kn+1 ⊆ Kn × R;

◦ µt1 ,...,tn (Kn ) ≥ 2ε .

Dunque, concludiamo la prova di (6.6.3). Poiché Kn , ∅, per ogni n ∈ N esiste un vettore

(n) (n)
(y1 , . . . , yn ) ∈ Kn .

(n) (k )
Per compattezza, la successione (y1 )n∈N ammette una sotto-successione (y1 n )n∈N convergente a un pun-
(k ) (k )
to y1 ∈ K1 . Analogamente, la successione (y1 n , y2 n )n∈N ammette una sotto-successione convergente a
(y1 , y2 ) ∈ K2 . Ripetendo l’argomento, costruiamo una successione (yn )n∈N tale che (y1 , . . . , yn ) ∈ Kn per ogni
n ∈ N. Pertanto
{x ∈ RI | xtk = yk , k ∈ N} ⊆ Dn
per ogni n ∈ N e questo prova l’assurdo.
9 Definendo una nuova successione della forma

RI , . . . , RI , D1 , . . . , D1 , D2 , . . . , D2 , D3 . . .

in cui RI e gli elementi di (Dn )n∈N sono ripetuti un numero sufficiente di volte.
6.6. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 233

Infine, proviamo l’esistenza della successione (Kn )n∈N . Per ogni n ∈ N esiste10 un sottoinsieme compatto
en di Bn in (6.6.4) tale che µt ,...,t (Bn \ K ε
en ) ≤ n+1
K 1 n 2
. Posto
n
\
Kn := eh × Rn−h ),
(K (6.6.5)
h=1

si ha che Kn è un sottoinsieme compatto di Bn e Kn+1 ⊆ Kn × R. Ora osserviamo che


n
[
Bn \ Kn ⊆ eh × Rn−h )
Bn \ ( K
h=1
n
[
⊆ eh ) × Rn−h
(Bh \ K
h=1

e di conseguenza
n
X  
µt1 ,...,tn (Bn \ Kn ) ≤ eh ) × Rn−h
µt1 ,...,tn (Bh \ K
h=1
n
X
= µt1 ,...,th (Bh \ K
eh )
h=1
n
X ε ε
≤ h+1
≤ .
2 2
h=1

Allora si ha
ε
µt1 ,...,tn (Kn ) = µt1 ,...,tn (Bn ) − µt1 ,...,tn (Bn \ Kn ) ≥
,
2
poiché µt1 ,...,tn (Bn ) = µ(Dn ) ≥ ε per ipotesi. Questo conclude la dimostrazione. 2
Il Teorema di estensione di Kolmogorov si generalizza, con dimostrazione sostanzialmente identica, al
caso in cui le traiettorie siano a valori in uno spazio metrico (M, ϱ) separabile e completo11 . Ricordiamo
la notazione Bϱ per la σ -algebra di Borel su (M, ϱ). Inoltre indichiamo con Bϱ⊗n la σ -algebra prodotto di
Bϱ per n volte; MI è la famiglia delle funzioni da I a valori in M e BϱI è la σ -algebra generata dai cilindri
finito-dimensionali
Ct1 ,...,tn (H) := {x ∈ MI | (xt1 , . . . , xtn ) ∈ H}
dove t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .
Teorema 6.6.2 (Teorema di estensione di Kolmogorov). [!!!] Siano I un insieme e (M, ϱ) uno spazio me-
trico separabile e completo. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una
distribuzione µt1 ,...,tn su Mn , e siano soddisfatte le seguenti proprietà di consistenza: per ogni famiglia finita
di indici t1 , . . . , tn ∈ I, per ogni H1 , . . . , Hn ∈ Bϱ e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha

µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ),


µt1 ,...,tn (H1 × · · · × Hn−1 × M) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ).
10 Basta combinare la proprietà di regolarità interna di µ
t1 ,...,tn (cfr. Proposizione 2.4.9) col fatto che, per la continuità dal basso, per
ogni ε > 0 esiste un compatto K tale che µt1 ,...,tn (Rn \ K) < ε: si osservi che quest’ultimo fatto altro non è che la proprietà di tightness
della distribuzione µt1 ,...,tn (cfr. Definizione 4.3.5).
11 La prima parte della dimostrazione, basata sul Teorema di Carathéodory, è identica. Nella seconda parte, e in particolare nella
costruzione della successione di compatti Kn in (6.6.5), si sfrutta la proprietà di tightness: è qui che gioca un ruolo cruciale il fatto
che, nell’ipotesi che (M, ϱ) sia separabile e completo, ogni distribuzione su Bϱ è tight (si veda, per esempio, il Teorema 1.4 in [13]). Il
Teorema di Kolmogorov non si estende al caso di un generico spazio misurabile: al riguardo si veda, per esempio, [32] p. 214.
234 CAPITOLO 6. PROCESSI STOCASTICI
 
Allora esiste un’unica misura di probabilità µ su MI , BϱI che abbia µt1 ,...,tn come distribuzioni finito-
dimensionali, ossia tale che valga
µ(Ct1 ,...,tn (H)) = µt1 ,...,tn (H)
per ogni famiglia finita di indici t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .
6.7. RIASSUNTO DELLE NOTAZIONI 235

6.7 Riassunto delle notazioni


• RI = {x : I −→ R}: spazio delle traiettorie, I è l’insieme generico dei parametri, p.219

• Ct1 ,...,tn (H) := {x ∈ RI | xti ∈ Hi , i = 1, . . . , n}: cilindro finito-dimensionale con ti ∈ I e Hi ∈ B, p.220


• C : famiglia dei cilindri finito-dimensionali, p.220
• B I = σ (C ): σ -algebra generata dai cilindri finito-dimensionali, p.220
• BµI : completamento di B I rispetto alla misura di probabilità µ, p.225

• GtX = σ (Xs , s ≤ t): filtrazione generata dal processo X, p.228


236 CAPITOLO 6. PROCESSI STOCASTICI
Capitolo 7

Processi di Markov

Perder tempo a chi più sa più spiace.

Dante Alighieri

In questo capitolo introduciamo un’importante classe di processi stocastici caratterizzati da una pro-
prietà di “assenza di memoria” che li rende particolarmente maneggevoli e utili nelle applicazioni. In
questo capitolo assumiamo che l’insieme dei parametri sia I = R≥0 , interpretando t ∈ I come un istante
temporale.

7.1 Legge di transizione e processi di Feller


Definizione 7.1.1 (Legge di transizione). Una legge (o distribuzione) di transizione è una funzione

p = p(t, x; T , H), 0 ≤ t ≤ T , x ∈ R, H ∈ B,

che soddisfa le seguenti condizioni per ogni 0 ≤ t ≤ T :


i) per ogni x ∈ R, p(t, x; T , ·) è una distribuzione e p(t, x; t, ·) = δx ;
ii) per ogni H ∈ B, p(t, ·; T , H) ∈ mB.
Sia X = (Xt )t≥0 un processo stocastico sullo spazio (Ω, F , P ). Diciamo che X ha legge di transizione p se:
i) p è una legge di transizione;
ii) vale1
p(t, Xt ; T , H) = P (XT ∈ H | Xt ), 0 ≤ t ≤ T , H ∈ B.

Osservazione 7.1.2. La Definizione 7.1.1 si estende in modo ovvio al caso in cui, al posto di (R, B), si consi-
deri (Rd , Bd ) oppure un generico spazio metrico (M, ϱ) munito della σ -algebra di Borel Bϱ (cfr. Definizione
2.4.4).
Osservazione 7.1.3. Se X ha legge di transizione p allora per ogni ϕ ∈ bB si ha
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Xt ] . (7.1.1)
R
h i
1 Ricordiamo la convenzione secondo cui indichiamo con P (X ∈ H | X ) l’usuale attesa condizionata E 1
T t (XT ∈H) | Xt , come
nell’Osservazione 5.3.5.

237
238 CAPITOLO 7. PROCESSI DI MARKOV

La (7.1.1) segue dal Teorema 5.3.8 poiché p(t, Xt ; T , ·) è una versione regolare della distribuzione di XT
condizionata a Xt (cfr. Teorema 5.3.4). Analogamente p(t, x; T , ·) è una versione regolare della funzione
distribuzione di XT condizionata a Xt (cfr. Teorema 5.3.16) e quindi per il Teorema 5.3.19 si ha
Z
p(t, x; T , dy)ϕ(y) = E [ϕ (XT ) | Xt = x] . (7.1.2)
R

Notiamo che la funzione Z


u(x) := p(t, x; T , dy)ϕ(y), x ∈ R,
R
è B-misurabile e limitata: infatti, per la ii) della Definizione 7.1.1, u ∈ bB se ϕ = 1H e per approssimazione,
grazie al Lemma 3.2.3 e al Teorema di Beppo-Levi, lo è anche per ogni ϕ ∈ bB. In accordo con la notazione
(5.2.9), la formula (7.1.2) indica che u è una versione della funzione attesa di ϕ (XT ) condizionata a Xt .
Osservazione 7.1.4 (Legge di transizione omogenea nel tempo). Si dice che una legge di transizione p è
omogenea nel tempo se

p(t, x; T , H) = p(0, x; T − t, H), 0 ≤ t ≤ T , x ∈ R, H ∈ B.

Se X ha legge di transizione p omogenea nel tempo allora


Z
E [ϕ(XT ) | Xt = x] = p(t, x; T , dy)ϕ(y)
ZR
= p(0, x; T − t, dy)ϕ(y) = E [ϕ(XT −t ) | X0 = x] . (7.1.3)
R

La (7.1.3) significa che la funzione attesa di ϕ(XT ) condizionata a Xt è uguale alla funzione attesa condizio-
nata del processo traslato temporalmente al tempo iniziale2 .
Esempio 7.1.5 (Legge di transizione di Poisson). [!] Ricordiamo che Poissonx,λ indica la distribuzione
di Poisson di parametro λ > 0 e centrata in x ∈ R, definita in (2.4.4). La legge di transizione di Poisson di
parametro λ > 0, è definita da
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0

Le proprietà i) e ii) della Definizione 7.1.1 sono ovvie. La legge di transizione di Poisson è omogenea nel
tempo e invariante per traslazioni nel senso che vale

p(t, x; T , H) = p(0, 0; T − t, H − x), 0 ≤ t ≤ T , x ∈ R, H ∈ B.

Definizione 7.1.6 (Densità di transizione). Una legge di transizione p è assolutamente continua se, per
ogni 0 ≤ t < T e x ∈ R, esiste una densità Γ = Γ (t, x; T , ·) per cui vale
Z
p(t, x; T , H) = Γ (t, x; T , y)dy, H ∈ B.
H

Diciamo che Γ è una densità di transizione di p (o di X, nel caso in cui p sia la legge di transizione di un
processo X).
2 Se, per semplicità, indichiamo
Ex [Y ] = E [Y | X0 = x] ,
la (7.1.3) si scrive nella forma più compatta
E [ϕ (XT ) | Xt ] = EXt [ϕ (XT −t )] . (7.1.4)
Per chiarezza: il membro a destra della (7.1.4) è la funzione attesa di ϕ (XT −t ) condizionata a X0 , calcolata in Xt .
7.1. LEGGE DI TRANSIZIONE E PROCESSI DI FELLER 239

Osservazione 7.1.7. Una densità di transizione Γ = Γ (t, x; T , y) di un processo X è una funzione di quattro
variabili: la prima coppia (t, x) rappresenta il tempo e punto di partenza di X; la seconda coppia (T , y)
rappresenta il tempo e la posizione aleatoria d’arrivo di X. Per ogni ϕ ∈ bB si ha
Z
Γ (t, Xt ; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt ] ,
R
Z
Γ (t, x; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt = x] , x ∈ R.
R

Esempio 7.1.8 (Legge di transizione Gaussiana). [!] La legge di transizione Gaussiana è definita da
p(t, x; T , ·) = Nx,T −t per ogni 0 ≤ t ≤ T e x ∈ R. È una legge di transizione assolutamente continua poiché
Z
p(t, x; T , H) := Nx,T −t (H) = Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H

dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R, (7.1.5)
2π(T − t)
è la densità di transizione Gaussiana. È chiaro che p verifica le proprietà i) e ii) della Definizione 7.1.1.
Introduciamo ora una nozione di “dipendenza continua” della legge di transizione rispetto al dato
iniziale (t, x).
Definizione 7.1.9 (Proprietà di Feller). Une legge di transizione p gode della proprietà di Feller se per
ogni h > 0 e ϕ ∈ bC(R) la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
R

è continua. Un processo di Feller è un processo con legge di transizione che verifica la proprietà di Feller.
La proprietà di Feller equivale alla continuità nella convergenza debole della legge di transizione p =
p(t, x; t+h, ·) rispetto alla coppia (t, x) del tempo e punto iniziale: più precisamente, ricordando la definizione
di convergenza debole di distribuzioni (cfr. Osservazione 4.1.1), il fatto che X sia un processo di Feller con
legge di transizione p significa che
d
p(tn , xn ; tn + h, ·) −−−−→ p(t, x; t + h, ·)

per ogni successione (tn , xn ) che converge a (t, x) per n → +∞.


Nel caso p sia omogenea nel tempo, la proprietà di Feller si riduce alla continuità rispetto a x: precisa-
mente, p gode della proprietà di Feller se per ogni h > 0 e ϕ ∈ bC(R) la funzione
Z
x 7−→ p(0, x; h, dy)ϕ(y)
R

è continua. La proprietà di Feller gioca un ruolo importante nello studio dei processi di Markov (cfr.
Sezione 12) e delle proprietà di regolarità delle filtrazioni in tempo continuo (cfr. Sezioni 11.2.1).
Esempio 7.1.10. [!] Le leggi di transizione di Poisson e Gaussiana godono della proprietà di Feller (lo
vedremo negli Esempi 7.4.5 e 7.4.6): pertanto diremo che i relativi processi stocastici che introdurremo in
seguito, rispettivamente il processo di Poisson e il moto Browniano, sono processi di Feller.

Concludiamo la sezione con un utile risultato di carattere tecnico.


240 CAPITOLO 7. PROCESSI DI MARKOV

Proposizione 7.1.11. Se p è una legge di transizione per il processo X, definito sullo spazio (Ω, F , P ), allora
lo è anche per la sua versione canonica X
e (cfr. Definizione 6.4.4).

Dimostrazione. Ricordiamo che X e è definito sullo spazio di probabilità (RI , BµI , µX ), dove BµI indica il
X X
µX -completamento di B I , e X(w)
e = w per ogni w ∈ RI . Dati 0 ≤ t ≤ T e H ∈ B, poniamo Z := p(t, X et , T , H):
dobbiamo solo verificare che Z = µX (XT ∈ H | Xt ) ossia che
e e
h i
Z = E µX 1H (X
eT ) | X
et (7.1.6)

dove E µX [·] indica il valore atteso nella misura di probabilità µX . Chiaramente Z ∈ mσ (X


et ). Inoltre, se
W ∈ bσ (X
et ) allora per il teorema di Doob W = ϕ(X et ) con ϕ ∈ bB e si ha
h i
E µX [ZW ] = E µX p(t, X et ) =
et , T , H)ϕ(X

(poiché X e X
e sono uguali in legge)

= E P [p(t, Xt , T , H)ϕ(Xt )] =

(poiché p è legge di transizione di X)

= E P [1H (XT )ϕ(Xt )] =

(ancora per l’uguaglianza in legge di X e X)


e
h i
= E µX 1H (X
eT )ϕ(X
et ) .

Questo prova la (7.1.6).

7.2 Proprietà di Markov


Definizione 7.2.1 (Processo di Markov). Sia X = (Xt )t≥0 un processo stocastico adattato sullo spazio con
filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che X è un processo di Markov se ha una legge di transizione p tale
che3
p(t, Xt ; T , H) = P (XT ∈ H | Ft ), 0 ≤ t ≤ T , H ∈ B. (7.2.1)

La (7.2.1) è una proprietà di assenza di memoria: intuitivamente, esprime il fatto che la conoscenza di
tutta la traiettoria di X fino al tempo t oppure del solo valore Xt forniscono le stesse informazioni riguardo
alla distribuzione del valore futuro XT .

Proposizione 7.2.2 (Proprietà di Markov). Sia X = (Xt )t≥0 un processo stocastico adattato sullo spazio con
filtrazione (Ω, F , P , (Ft )t≥0 ), con legge di transizione p. Allora X è un processo di Markov se e solo se
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Ft ] , 0 ≤ t ≤ T , ϕ ∈ bB. (7.2.2)
R

Dimostrazione. Se X è un processo di Markov allora p(t, Xt ; T , ·) è una versione regolare della legge di XT
condizionata a Ft e la (7.2.2) segue dal Teorema 5.3.8, Il viceversa è ovvio, con la scelta ϕ = 1H , H ∈ B.
3 Qui, come nell’Osservazione 5.3.5, P (X ∈ · | F ) indica una versione regolare della distribuzione di X condizionata a F . La
h T i t T t
(7.2.1) equivale a p(t, Xt ; T , H) = E 1(XT ∈H) | Ft ossia p(t, Xt ; T , H) è una versione dell’attesa di 1(XT ∈H) condizionata a Ft .
7.2. PROPRIETÀ DI MARKOV 241

Osservazione 7.2.3. Combinando la (7.1.1) con la (7.2.2), a volte si usa scrivere4

E [ϕ(XT ) | Xt ] = E [ϕ(XT ) | Ft ] . (7.2.3)

La proprietà di Markov si può generalizzare nel modo seguente. Osserviamo che se t ≤ t1 < t2 e ϕ1 , ϕ2 ∈
bB allora, per la proprietà della torre, si ha
h i h h i i
E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Xt = E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Xt
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Xt =

(per la proprietà di Markov)


h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 | Xt =
h i
(per la proprietà di Markov applicata all’attesa condizionata esterna, essendo ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 fun-
zione limitata e Borel-misurabile di Xt1 per il Teorema di Doob)
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 | Ft =

(per la proprietà di Markov applicata all’attesa condizionata interna)


h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Ft
h h i i
= E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Ft
h i
= E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft .

Dunque vale
E [Y | Xt ] = E [Y | Ft ] (7.2.4)
nel senso della Convenzione 5.2.5, per Y = ϕ1 (Xt1 )ϕ2 (Xt2 ) con t ≤ t1 < t2 e ϕ1 , ϕ2 ∈ bB. Per induzione, non
è difficile provare che la (7.2.4) vale anche se
n
Y
Y= ϕk (Xtk ) (7.2.5)
k=1

per ogni t ≤ t1 < · · · < tn e ϕ1 , . . . , ϕn ∈ bB. Infine, per il secondo teorema di Dynkin6 (Teorema A.1.8), la
(7.2.4) è valida per ogni v.a. limitata e misurabile rispetto alla σ -algebra generata dalle v.a. del tipo Xs con
s ≥ t, che in analogia con la Definizione 6.5.3 indichiamo nel modo seguente
X
Gt,∞ := σ (Xs , s ≥ t). (7.2.6)

Gt,∞
X
rappresenta le informazioni future su X a partire dal tempo t. In definitiva abbiamo provato la seguente
estensione della proprietà di Markov.
4 La (7.2.3) non è un’uguaglianza ma una notazione che deve essere interpretata nel senso della Convenzione 5.2.5: precisamente,
la (7.2.3) significa che se Z = E [ϕ(XT ) | Xt ] allora Z = E [ϕ(XT ) | Ft ]. Tuttavia può esistere una versione Z ′ di E [ϕ(XT ) | Ft ] che non
è σ (Xt )-misurabile5 e quindi non è attesa di ϕ(XT ) condizionata a Xt . D’altra parte, se vale la (7.2.3) e Z ′ = E [ϕ(XT ) | Ft ] allora
Z ′ = f (Xt ) q.c. per una certa f ∈ mB: infatti, presa una versione Z di E [ϕ(XT ) | Xt ], per il Teorema di Doob, Z = f (Xt ) e per la (7.2.3)
(e l’unicità dell’attesa condizionata) Z = Z ′ q.c. Questi sottigliezze sono rilevanti quando si deve verificare in concreto la validità della
proprietà di Markov: l’Esempio 16.1.6 è illuminante in questo senso.
n
6 Usiamo il Teorema A.1.8 di Dynkin nel modo seguente: sia A la famiglia dei cilindri della forma C = T (X ∈ H ) al variare
tk k
k=1
di t ≤ t1 ≤ · · · ≤ tn e H1 , . . . , Hn ∈ B. Allora A è una famiglia ∩-chiusa di eventi. Sia H la famiglia delle v.a. limitate per cui vale la
(7.2.4): per il teorema di Beppo-Levi per l’attesa condizionata, H è una famiglia monotona; inoltre, scegliendo ϕk = 1Hk in (7.2.5), si
ha che H contiene le funzioni indicatrici di elementi di A . Allora il Teorema A.1.8 assicura che H contiene anche le v.a. limitate e
σ (A )-misurabili.
242 CAPITOLO 7. PROCESSI DI MARKOV

Teorema 7.2.4 (Proprietà di Markov estesa). [!] Se X è un processo di Markov su (Ω, F , P , (Ft )t≥0 ) si ha
X
E [Y | Xt ] = E [Y | Ft ] , Y ∈ bGt,∞ , (7.2.7)

nel senso della Convenzione 5.2.5.


Il seguente corollario esprime l’essenza della proprietà di Markov: il passato (ossia Ft ) e il futuro (ossia
Gt,∞
X
) sono indipendenti condizionatamente al presente (ossia σ (Xt ))7 .
Corollario 7.2.5. [!] Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Vale
X
E [Y | Xt ] E [Z | Xt ] = E [Y Z | Xt ] , Y ∈ bGt,∞ , Z ∈ bFt . (7.2.8)

Dimostrazione. Verifichiamo che E [Y | Xt ] E [Z | Xt ] è una versione dell’attesa di Y Z condizionata a Xt : la


proprietà di misurabilità E [Y | Xt ] E [Z | Xt ] ∈ mσ (Xt ) è ovvia. Data W ∈ bσ (Xt ), si ha

E [W E [Y | Xt ] E [Z | Xt ]] = E [E [W E [Y | Xt ] Z | Xt ]]
= E [W E [Y | Xt ] Z] =

(per la proprietà di Markov estesa (7.2.7))

= E [W E [Y | Ft ] Z]
= E [E [W Y Z | Ft ]] = E [W Y Z]

che prova la seconda proprietà della definizione di attesa condizionata.


Infine introduciamo la versione canonica di un processo di Markov. L’insistenza nel considerare la
versione canonica (cfr. Definizione 6.4.4) di un processo è giustificata dall’importanza della proprietà di
completezza dello spazio e dal fatto di poter identificare gli esiti con le traiettorie del processo: ciò sarà
ancor più chiaro quando, nella Sezione 12, esprimeremo la proprietà di Markov utilizzando un opportuno
operatore di traslazione temporale.
Proposizione 7.2.6 (Versione canonica di un processo di Markov). Sia X un processo di Markov X sullo
spazio (Ω, F , P , (Ft )t≥0 ) con legge di transizione p e sia X
e la versione canonica di X. Allora X
e è un processo
di Markov con legge di transizione p su (R , BµX , µX , G ) dove, al solito, G indica la filtrazione generata
I I X X
e e

da X
e (cfr. (6.5.1) e Osservazione 6.5.5).

Dimostrazione. Per la Proposizione 7.1.11 p è anche legge di transizione di X, e dunque occorre provare che,
per ogni 0 ≤ t ≤ T e H ∈ B, posto Z := p(t, X
et , T , H) si ha Z = µX (X eT ∈ H | Gt ) o equivalentemente che
X
e

 
Z = E µX 1H (X eT ) | GtXe

dove E µX [·] indica il valore atteso nella misura di probabilità µX . Ovviamente Z ∈ GtX e quindi rimane da
e

verificare che h i
E µX [ZW ] = E µX 1H (X
eT )W , W ∈ bGtX .
e

In realtà, grazie al secondo teorema di Dynkin8 è sufficiente considerare W della forma

W = ϕ(X et )
et , . . . , X
1 n

7 Più precisamente: se esiste una versione regolare della probabilità condizionata P (· | X ) (ciò è garantito se Ω è uno spazio polacco)
t
X , e Z = 1 , B ∈ F , diventa
allora la (7.2.8) con Y = 1A , A ∈ Gt,∞ B t
P (A | Xt )P (B | Xt ) = P (A ∩ B | Xt ).

8 Usiamo il Teorema A.1.8 di Dynkin in modo analogo a quanto fatto nella dimostrazione del Teorema 7.2.4.
7.3. PROCESSI A INCREMENTI INDIPENDENTI E MARTINGALE 243

con 0 ≤ t1 < · · · < tn ≤ t e ϕ ∈ bBn . A questo punto basta procedere come nella dimostrazione della
Proposizione 7.1.11:
h i
E µX [ZW ] = E µX p(t, X
et , T , H)ϕ(X et ) =
et , . . . , X
1 n

(poiché X e X
e sono uguali in legge)
h i
= E P p(t, Xt , T , H)ϕ(Xt1 , . . . , Xtn ) =

(per la proprietà di Markov di X)


h i
= E P 1H (XT )ϕ(Xt1 , . . . , Xtn ) =

(ancora per l’uguaglianza in legge di X e X)


e
h i
= E µX 1H (X
eT )ϕ(X et ) .
et , . . . , X
1 n

7.3 Processi a incrementi indipendenti e martingale


Consideriamo un processo X = (Xt )t≥0 sullo spazio (Ω, F , P , (Ft )t≥0 ).

Definizione 7.3.1 (Processo a incrementi indipendenti). Diciamo che X è un processo a incrementi indi-
pendenti se:

i) X è adattato a (Ft )t≥0 ;

ii) l’incremento XT − Xt è indipendente da Ft per ogni 0 ≤ t < T .

Proposizione 7.3.2. [!] Sia X = (Xt )t≥0 un processo a incrementi indipendenti allora X è un processo di
Markov con legge di transizione p = p(t, x; T , ·) uguale alla legge di

XTt,x := XT − Xt + x, 0 ≤ t ≤ T , x ∈ R.

Dimostrazione. Proviamo che p è una legge di transizione per X. Chiaramente p(t, x; T , ·) è una distribuzio-
ne. Inoltre, se µXT −Xt indica la legge di XT − Xt , allora per il Teorema di Fubini la funzione

x 7−→ p(t, x; T , H) = µXT −Xt (H − x)

è B-misurabile. Infine, fissato H ∈ B, p(t, Xt ; T , H) = P (XT ∈ H | Xt ) come conseguenza del fatto che per
ogni funzione ϕ ∈ bB si ha

E [ϕ(XT ) | Xt ] = E [ϕ(XT − Xt + Xt ) | Xt ] =

(per il Lemma 5.2.11 di freezing, poiché XT − Xt è indipendente da Xt e ovviamente Xt è σ (Xt )-misurabile)


Z
t,x
h i
= E ϕ(XT ) |x=Xt = p(t, Xt ; T , dy)ϕ(y).
R

Allo stesso modo si prova la proprietà di Markov (7.2.2) (e quindi la (7.2.1)), condizionando a Ft invece
che a Xt .
244 CAPITOLO 7. PROCESSI DI MARKOV

È interessante confrontare le definizioni di processo a incrementi indipendenti e di martingala. Co-


minciamo con l’osservare che se X è un processo a incrementi indipendenti allora, per ogni n ∈ N e
0 ≤ t0 < t1 < · · · < tn , gli incrementi Xtk − Xtk−1 sono indipendenti; in particolare, se X è di quadrato
sommabile, ossia Xt ∈ L2 (Ω, P ), allora gli incrementi sono scorrelati:

cov(Xtk − Xtk−1 , Xth − Xth−1 ) = 0, 1 ≤ k < h ≤ n.

Anche una martingala ha gli incrementi scorrelati (ma non necessariamente indipendenti).
Proposizione 7.3.3. Sia X una martingala di quadrato sommabile. Allora X ha incrementi scorrelati.
Dimostrazione. Siano t0 ≤ t1 ≤ t2 ≤ t3 . Si ha
h i
cov(Xt1 − Xt0 , Xt3 − Xt2 ) = E (Xt1 − Xt0 )(Xt3 − Xt2 )
h h ii
= E E (Xt1 − Xt0 )(Xt3 − Xt2 ) | Ft2
h h ii
= E (Xt1 − Xt0 )E Xt3 − Xt2 | Ft2 = 0.

Ogni martingala è sommabile e costante in media. Un processo a incrementi indipendenti non è neces-
sariamente sommabile, né costante in media, e quindi non è necessariamente una martingala. Tuttavia si
ha la seguente
Proposizione 7.3.4. Sia X un processo a incrementi indipendenti e sommabile. Allora il processo “com-
pensato” definito da X
et := Xt − E [Xt ] è una martingala.

Dimostrazione. Basta osservare che per ogni t ≤ T si ha


h i h i
E X eT | Ft = E X et | Ft + X
eT − X et =

(poiché anche X
e ha gli incrementi indipendenti)
h i
=E X et + X
eT − X et =

(poiché X
e ha media nulla)

=X
et .

Osservazione 7.3.5. La Proposizione 7.3.4 fornisce la decomposizione di Doob del processo X che si scrive
come somma X = X e + A: in questo caso il processo di drift At = E [Xt ] è deterministico.

7.4 Distribuzioni finito-dimensionali


Sia X un processo di Markov con distribuzione iniziale µ (ossia X0 ∼ µ) e legge di transizione p. Il
risultato seguente mostra che, a partire dalla conoscenza di µ e p, è possibile determinare le distribuzioni
finito-dimensionali (e quindi la legge) di X.
Proposizione 7.4.1 (Distribuzioni finito-dimensionali). [!] Sia X = (Xt )t≥0 un processo di Markov con
legge di transizione p e tale che X0 ∼ µ. Per ogni t0 , t1 , . . . , tn ∈ R con 0 = t0 < t1 < t2 < · · · < tn , e H ∈ Bn+1 si
ha Z n
Y
P ((Xt0 , Xt1 , . . . , Xtn ) ∈ H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ). (7.4.1)
H i=1
7.4. DISTRIBUZIONI FINITO-DIMENSIONALI 245

Dimostrazione. Per il Corollario A.1.5 è sufficiente provare la tesi con H = H0 × · · · × Hn con Hi ∈ B.


Procediamo per induzione: nel caso n = 1 si ha
h i
P ((Xt0 , Xt1 ) ∈ H0 × H1 ) = E 1H0 (Xt0 )1H1 (Xt1 )
h h ii
= E 1H0 (Xt0 )E 1H1 (Xt1 ) | Xt0
" Z #
= E 1H0 (Xt0 ) p(t0 , Xt0 ; t1 , dx1 ) =
H1

(per il Teorema di Fubini)


Z
= µ(dx0 )p(t0 , x0 ; t1 , dx1 ).
H0 ×H1

Supponiamo ora vera la (7.4.1) per n e proviamo il caso n + 1: per H ∈ Bn+1 e K ∈ B si ha


h h ii
P ((Xt0 , . . . , Xtn+1 ) ∈ H × K) = E 1H (Xt0 , . . . , Xtn )E 1K (Xtn+1 ) | Ftn =

(per la proprietà di Markov)


h h ii
= E 1H (Xt0 , . . . , Xtn )E 1K (Xtn+1 ) | Xtn
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; tn+1 , dxn+1 ) =
K

(per ipotesi induttiva e per il Teorema di Fubini)


Z n+1
Y
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ).
H×K i=1

Osservazione 7.4.2. Nel caso particolare µ = δx0 , con x0 ∈ R, la (7.4.1) diventa


n
Z Y
P ((Xt1 , . . . , Xtn ) ∈ H) = p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn . (7.4.2)
H i=1

Il seguente interessante risultato fornisce una condizione necessaria affinché una legge di transizione sia
la legge di transizione di un processo di Markov.

Proposizione 7.4.3 (Equazione di Chapman-Kolmogorov). [!!] Sia X un processo di Markov con legge di
transizione p. Per ogni 0 ≤ t1 < t2 < t3 e H ∈ B, si ha
Z
p(t1 , Xt1 ; t3 , H) = p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H). (7.4.3)
R

Dimostrazione. Intuitivamente, l’equazione di Chapman-Kolmogorov esprime il fatto che la probabilità di


muoversi dalla posizione x1 al tempo t1 ad una posizione in H al tempo t3 equivale alla probabilità di
muoversi ad una posizione x2 in un tempo intermedio t2 e poi da x2 ad H, integrando fra tutti i valori
possibili di x2 . Si ha
h i
p(t1 , Xt1 ; t3 , H) = E 1H (Xt3 ) | Xt1 =
246 CAPITOLO 7. PROCESSI DI MARKOV

(per la proprietà della torre)


h h i i
= E E 1H (Xt3 ) | Ft2 | Xt1 =

(per la proprietà di Markov (7.2.1))


h i
= E p(t2 , Xt2 ; t3 , H) | Xt1 =

(per la (7.1.1))
Z
= p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H).
R

Mostriamo ora che la Chapman-Kolmogorov è in realtà una condizione necessaria e sufficiente, nel senso
che è sempre possibile costruire un processo di Markov a partire da una legge iniziale e da una legge di
transizione p che verifichi la (7.4.3).
Proposizione 7.4.4. [!] Sia µ una distribuzione su R e sia p = p(t, x; T , H) una legge di transizione9 che
verifica l’equazione di Chapman-Kolmogorov
Z
p(t1 , x; t3 , H) = p(t1 , x; t2 , dy)p(t2 , y; t3 , H), (7.4.4)
R

per ogni 0 ≤ t1 < t2 < t3 , x ∈ R e H ∈ B. Allora esiste un processo di Markov X = (Xt )t≥0 con legge di
transizione p e tale che X0 ∼ µ.
Dimostrazione. Consideriamo la famiglia di distribuzioni finito-dimensionali definita mediante la (7.4.1):
precisamente, poniamo
Z n
Y
µt0 ,...,tn (H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn+1
H i=1

se 0 = t0 < t1 < t2 < · · · < tn e definiamo µt0 ,...,tn in modo che valga la (6.4.2) nel caso in cui t0 , . . . , tn non
siano ordinati in modo crescente. In questo modo la proprietà di consistenza (6.4.2) è automaticamente
soddisfatta per costruzione. D’altra parte, l’equazione di Chapman-Kolmogorov garantisce la validità della
seconda proprietà di consistenza (6.4.3) poiché, dopo aver ordinato in modo crescente i tempi, si ha

µt0 ,...,tk−1 ,tk ,tk+1 ,...,tn (H0 × · · · × Hk−1 × R × Hk+1 × · · · × Hn ) = µt0 ,...,tk−1 ,tk+1 ,...,tn (H0 × · · · × Hk−1 × Hk+1 × · · · × Hn ).

Essendo soddisfatte le ipotesi del Teorema di estensione di Kolmogorov, consideriamo il processo stoca-
stico X = (Xt )t≥0 costruito in maniera canonica come nel Corollario 6.4.3: X ha le distribuzioni finito-
dimensionali in (7.4.1) ed è definito sullo spazio con filtrazione (Ω, F , P , (GtX )t≥0 ) con Ω = R[0,+∞) : ricor-
diamo che, per l’Osservazione 6.5.4, la filtrazione (GtX )t≥0 è quella generata dai cilindri finito-dimensionali.
Rimane da provare che X è un processo di Markov con distribuzione di transizione p. Fissati 0 ≤ t < T e
ϕ ∈ bB, proviamo che Z h i
p(t, Xt ; T , dy)ϕ(y) = E ϕ(XT ) | GtX ,
R
verificando direttamente le proprietà dell’attesa condizionata. Posto
Z
Z= p(t, Xt ; T , dy)ϕ(y)
R
9 Ossia p verifica le proprietà i) e ii) della Definizione 7.1.1.
7.4. DISTRIBUZIONI FINITO-DIMENSIONALI 247

chiaramente Z ∈ mGtX . Per concludere, in base all’Osservazione 5.2.2, è sufficiente dimostrare che
E [1C ϕ(XT )] = E [1C Z]
dove C è un cilindro finito-dimensionale in GtX della forma in (6.1.1): in particolare, non è restrittivo
assumere C = Ct0 ,t1 ,...,tn (H) con H ∈ Bn+1 e tn = t. Questo ci permette di utilizzare le distribuzioni finito-
dimensionali in (7.4.1): infatti si ha
h i h i
E 1Ct ,...,tn (H) ϕ(XT ) = E 1H (Xt0 , Xt1 , . . . , Xtn )ϕ(XT )
0
Z n
Y Z
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ) p(tn , xn ; T , dy)ϕ(y)
H i=1 R
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; T , dy)ϕ(y)
R
h i
= E 1Ct ,...,tn (H) Z .
0

Questo conclude la prova.


Esempio 7.4.5 (Distribuzione di transizione di Poisson). Riprendiamo la legge di transizione di Poisson
di parametro λ > 0 dell’Esempio 7.1.5:
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0

L’equazione di Chapman-Kolmogorov si verifica con un conto simile10 a quello fatto nell’Esempio 3.6.5
sulla somma di v.a. di Poisson indipendenti. Il processo di Markov associato a p è detto processo di Poisson
e sarà studiato nel Capitolo 8. Per ogni ϕ ∈ bC e t > 0 la funzione
+∞
(λt)n
Z X
x 7−→ Poissonx,λt (dy)ϕ(y) = e−λt ϕ(x + n)
R n!
n=0

è continua e quindi il processo di Poisson è un processo di Feller.


Esempio 7.4.6 (Distribuzione di transizione Gaussiana). Riprendiamo la legge di transizione Gaussiana
dell’Esempio 7.1.8: Z
p(t, x; T , H) := Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H
10 Per 0 ≤ t < s < T , si ha

+∞
(λ(s − t))n
Z X
p(t, x; s, dy)p(s, y; T , H) = e−λ(s−t) p(s, x + n; T , H)
R n!
n=0
+∞
X (λ(s − t))n (λ(T − s))m
= e−λ(T −t) δ x+n+m (H) =
n! m!
n,m=0
(col cambio di indici i = n + m e j = n)
+∞ X
i
X (s − t)j (T − s)i−j
= e−λ(T −t) λi δ (H)
j! (i − j)! x+i
i=0 j=0
+∞ i i !
X λ X i
= e−λ(T −t) δx+i (H) (s − t)j (T − s)i−j
i! j
i=0 j=0
= p(t, x; T , H).
248 CAPITOLO 7. PROCESSI DI MARKOV

dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
è la densità di transizione Gaussiana. La legge di transizione Gaussiana soddisfa l’equazione di Chapman-
Kolmogorov come si verifica direttamente calcolando la convoluzione di due Gaussiane o, più facilmente,
il prodotto delle loro funzioni caratteristiche. Studieremo in seguito, nel Capitolo 10, il processo di Markov
associato a p, il cosiddetto moto Browniano. Per ogni ϕ ∈ bC e T > 0 la funzione
Z
x 7−→ Γ (0, x; T , y)ϕ(y)dy (7.4.5)
R

è continua e quindi il moto Browniano è un processo di Feller. In realtà, si verifica che la funzione in (7.4.5) è
C ∞ per ogni T > 0 e ϕ ∈ bB (non solo per ϕ ∈ bC): per questo motivo si dice che il moto Browniano verifica
la proprietà di Feller forte.
Osservazione 7.4.7 (Legge di transizione e semigruppi). Ad ogni legge di transizione p = p(t, x; T , ·) è

associata una famiglia p = pt,T 0≤t≤T di operatori lineari e limitati

pt,T : bB −→ bB

definiti da Z
pt,T ϕ := p(t, ·; T , dy)ϕ(y), ϕ ∈ bB. (7.4.6)
R
Si noti in particolare che pt,T ϕ ∈ bB per ogni ϕ ∈ bB e per la disuguaglianza triangolare si ha

∥pt,T ϕ∥∞ ≤ ∥ϕ∥∞ .

L’equazione di Chapman-Kolmogorov (7.4.4) corrisponde alla cosiddetta proprietà di semigruppo di p:

pt,s ◦ ps,T = pt,T , t ≤s ≤T.



Si dice che la famiglia p = pt,T 0≤t≤T è il semigruppo di operatori associato alla legge di transizione p.
Inoltre, si dice che p è un semigruppo omogeneo se pt,T = p0,T −t per ogni t ≤ T : in questo caso si usa scrivere
semplicemente pt al posto di p0,t .

7.5 Generatore infinitesimale


Sia X un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ). In numerose applicazioni interessa calcolare
l’attesa condizionata
E [ϕ(XT ) | Ft ] , 0≤t <T,
dove ϕ ∈ bB è un’assegnata funzione. Il problema non è banale perché l’attesa condizionata a Ft è una
variabile aleatoria che dipende dalle traiettorie di X fino al tempo t. Tuttavia, se X è un processo di Markov
con legge di transizione p allora, posto
Z
u(h, x) := p(t, x; t + h, dy)ϕ(y) h ≥ 0, x ∈ R, (7.5.1)
R

si ha
E [ϕ(XT ) | Ft ] = u(T − t, Xt ) (7.5.2)
e il problema si riduce al calcolo della funzione u. Questo è uno dei principali vantaggi dell’utilizzo dei
processi di Markov.
7.5. GENERATORE INFINITESIMALE 249

In questa sezione mostriamo che u in (7.5.1) è soluzione di un problema di Cauchy e ciò fornisce dei
metodi di calcolo, anche numerici, di u. Più precisamente, supponiamo che, sotto opportune ipotesi sulla
funzione ϕ, esista ∂h u(h, x) della forma

∂h u(h, x) = G u(h, x), h > 0, x ∈ R, (7.5.3)

dove G è un operatore che agisce sulla variabile x. Per motivare quest’ultima assunzione che per il momento
appare decisamente oscura, facciamo un’osservazione ed alcuni esempi.
Osservazione 7.5.1. Indichiamo con x = (x1 , . . . , xd ) il punto di Rd . Data una curva parametrizzata X ∈
C 1 (R; Rd ) e una funzione ϕ ∈ C 1 (Rd ), si ha
d
ϕ(X(t)) = X ′ (t) · ∇ϕ(X(t)).
dt
L’operatore del prim’ordine
d
X
G := X ′ (t) · ∇ = Xj′ (t)∂xj (7.5.4)
j=1

è la derivata direzionale di ϕ lungo la curva X. Analogamente, se X è un processo di Markov si ha

∂t u(t, x) = ∂t E [ϕ(Xt ) | X0 = x]

e l’operatore G in (7.5.3), ammesso che esista, si può interpretare come la derivata direzionale della media di
ϕ lungo le traiettorie di X che partono al tempo 0 da x. Possiamo aspettarci che le traiettorie del processo X
non siano abbastanza regolari (derivabili) da poter definire G come in (7.5.4). Pertanto, per farci un’idea di
quale forma possa assumere G in ambito stocastico, consideriamo un paio di esempi in cui è possibile fare
conti espliciti.
Esempio 7.5.2. Nel caso della distribuzione di transizione di Poisson, si ha
 

−λh
X (λh)n 
∂h u(h, x) = ∂h e
 ϕ(x + n) 
n! 
n≥0
X (λh)n X (λh)n
= −λe−λh ϕ(x + n) + e−λh ∂h ϕ(x + n) =
n! n!
n≥0 n≥0

(lo scambio serie-derivata è giustificato dal fatto che si tratta di una serie di potenze con raggio di conver-
genza infinito se ϕ ∈ bB)
X (λh)n−1
= −λu(h, x) + λe−λh ϕ(x + n)
(n − 1)!
n≥1
X (λh)n
= −λu(h, x) + λe−λh ϕ(x + n + 1)
(n)!
n≥0
= λ (u(h, x + 1) − u(h, x)) .

Dunque in questo caso G è definito da

G ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , x ∈ R.

Esempio 7.5.3. Nel caso della distribuzione di transizione Gaussiana dell’Esempio 7.1.8, osserviamo che Γ
in (7.1.5), definita da
(x−y)2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
250 CAPITOLO 7. PROCESSI DI MARKOV

è soluzione di un importante operatore alle derivate parziali noto come operatore del calore forward
1
∂ − ∂T .
2 yy
Spiegheremo più avanti (cfr. Osservazione 10.2.6) la sua importanza in fisica e in economia. Un calcolo
diretto mostra che, per ogni h > 0 e x, y ∈ R, si ha
h − (x − y)2
∂h Γ (0, x; h, y) = − Γ (0, x; h, y),
2h2
x−y
∂y Γ (0, x; h, y) = Γ (0, x; h, y),
h
h − (x − y)2
∂yy Γ (0, x; h, y) = ∂xx Γ (0, x; h, y) = − Γ (0, x; h, y),
h2
e di conseguenza, per ogni fissato x ∈ R, Γ (0, x; h, y) risolve l’equazione del calore nelle variabili (h, y):
1
∂h Γ (0, x; h, y) = ∂ Γ (0, x; h, y), h > 0, y ∈ R. (7.5.5)
2 yy
Per il teorema di scambio di segni di derivata e integrale, u in (7.5.1) appartiene a C ∞ (R>0 × R) e vale
Z
∂h u(h, x) = ∂h Γ (0, x; h, y)ϕ(y)dy =
R

(per la (7.5.5))
Z
1
= ∂ Γ (0, x; h, y)ϕ(y)dy
2 R yy
Z
1 1
= ∂xx Γ (0, x; h, y)ϕ(y)dy = ∂xx u(h, x).
2 R 2
Dunque in questo caso G è l’operatore di Laplace
1
G= ∂ .
2 xx
In generale, se vale la (7.5.3) allora u (e quindi l’attesa condizionata in (7.5.2)) si determina come
soluzione del seguente problema che si esprime equivalentemente in termini differenziali o integrali:
i) il problema di Cauchy con dato iniziale

∂h u(h, x) = G u(h, x), h > 0, x ∈ R,


u(0, x) = ϕ(x),

 x ∈ R;

ii) l’equazione integrale di Volterra


Z h
u(h, x) = ϕ(x) + G u(s, x)ds = 0, h ≥ 0, x ∈ R. (7.5.6)
0

Ricordiamo la notazione (7.4.6) per il semigruppo pt,T associato a p.


Definizione 7.5.4 (Generatore infinitesimale). L’operatore Gt definito da
pt,t+h ϕ(x) − ϕ(x)
Gt ϕ(x) := lim , (7.5.7)
h→0+ h
per ogni t ≥ 0, x ∈ R e ϕ ∈ bB per cui il limite esiste, è detto generatore infinitesimale del semigruppo p (o
della distribuzione di transizione p).
7.5. GENERATORE INFINITESIMALE 251

Se X è un processo di Markov con legge di transizione p, il rapporto incrementale in (7.5.7) calcolato in


x = Xt , si scrive nella forma " #
ϕ(Xt+h ) − ϕ(Xt )
E | Xt
h
e pertanto si interpreta come una derivata direzionale media di ϕ lungo le traiettorie di X:

Gt ϕ = ∂h pt,t+h ϕ |h=0 .

252 CAPITOLO 7. PROCESSI DI MARKOV
Capitolo 8

Processo di Poisson

Gli uomini passano, le idee restano e


continuano a camminare sulle
gambe di altri uomini.

Giovanni Falcone

Il processo di Poisson, che indicheremo (Nt )t≥0 , è il prototipo dei cosiddetti “processi di puro salto”.
Intuitivamente Nt indica il numero di volte nell’intervallo temporale [0, t] in cui si verifica un determinato
avvenimento (lo chiameremo episodio): per esempio, se il singolo episodio consiste nell’arrivo di un’email di
spam in un casella di posta, allora Nt rappresenta il numero di email di spam che arrivano nel periodo [0, t];
analogamente, Nt può indicare il numero di bambini nati in un certo paese o il numero di terremoti che si
verificano in una certa area geografica nel periodo [0, t].

8.1 Definizione
Riferendoci alla notazione generale della Definizione 6.1.3, nel seguito assumiamo I = R≥0 . Per co-
struire il processo di Poisson consideriamo una successione (τn )n∈N di v.a. indipendenti e identicamente
distribuite1 con distribuzione esponenziale, τn ∼ Expλ , di parametro λ > 0, definite su uno spazio di proba-
bilità completo (Ω, F , P ): qui τn rappresenta il tempo che intercorre fra l’episodio (n−1)-esimo e il successivo.
Poi definiamo la successione
T0 := 0, Tn := τ1 + · · · + τn , n ∈ N,
in cui Tn rappresenta l’istante in cui si verifica l’episodio n-esimo.

Lemma 8.1.1. Si ha2


Tn ∼ Gamman,λ n ∈ N. (8.1.1)
Inoltre, quasi certamente3 la successione (Tn )n≥0 è monotona crescente e

lim Tn = +∞. (8.1.2)


n→∞
1 Tale successione esiste per il Corollario 6.4.7.
2 Quindi T è assolutamente continua con densità
n

(λt)n−1
γn,λ (t) := λe−λt 1 (t), n ∈ N.
(n − 1)! R≥0

3 L’insieme degli ω ∈ Ω tali che T (ω) ≤ T


n n+1 (ω) per ogni n ∈ N e n→∞
lim Tn (ω) = +∞, è un evento di probabilità uno.

253
254 CAPITOLO 8. PROCESSO DI POISSON

Dimostrazione. La (8.1.1) segue dalla (3.6.7). La monotonia segue dal fatto che quasi certamente τn ≥ 0 per
ogni n ∈ N. Infine, la (8.1.2) segue dal Lemma 2.3.28 di Borel-Cantelli: infatti, per ogni ε > 0, vale
  \[
lim Tn = +∞ ⊇ ((τn > ε) i.o.) = (τk > ε)
n→∞
n≥1 k≥n

e gli eventi (τk > ε) sono indipendenti e tali che


X
P (τn > ε) = +∞.
n≥1

Definizione 8.1.2 (Processo di Poisson, I). Il processo di Poisson (Nt )t≥0 è definito da

X
Nt = n1[Tn ,Tn+1 [ (t), t ≥ 0. (8.1.3)
n=1

8 ●●

6 ●

4 ●

2 ●


2 4 6 8 10

Figura 8.1: Grafico di una traiettoria del processo di Poisson.

Daremo in seguito una caratterizzazione più generale del processo di Poisson (cfr. Definizione 8.2.3).
Per definizione Nt assume valori interi non-negativi e precisamente Nt = n se e solo se t appartiene all’inter-
vallo di estremi aleatori [Tn , Tn+1 [; pertanto si ha l’uguaglianza di eventi
(Nt = n) = (Tn ≤ t < Tn+1 ), n ∈ N ∪ {0}. (8.1.4)
In corrispondenza all’istante aleatorio Tn , in cui si verifica l’n-esimo episodio, il processo compie un salto
di ampiezza 1: la Figura 8.1 mostra il grafico di una traiettoria del processo di Poisson nell’intervallo
temporale [0, 10]. Ricordiamo che una traiettoria di N è una funzione del tipo t 7→ Nt (ω), definita da R≥0
a valori in N ∪ {0}, che si ottiene fissando un ω ∈ Ω; ad ogni ω ∈ Ω corrisponde una diversa traiettoria. In
definitiva, il valore aleatorio Nt è pari al numero di salti (ovvero al numero di episodi) fra 0 e t:
Nt = ♯{n ∈ N | Tn ≤ t}.
Proposizione 8.1.3. Il processo di Poisson (Nt )t≥0 gode delle seguenti proprietà:
i) quasi certamente le traiettorie sono funzioni continue a destra e monotone crescenti. Inoltre, per ogni
t > 0, vale4  
P lim Ns = Nt = 1; (8.1.5)
s→t
4 In altri termini, ogni t fissato è quasi certamente (ossia per quasi tutte le traiettorie) un punto di continuità per il processo di
Poisson. Questo apparente paradosso si spiega col fatto che quasi ogni traiettoria ha un’infinità al più numerabile di discontinuità,
essendo monotona crescente, e tali discontinuità sono disposte sull’intero intervallo [0, +∞[ che ha la cardinalità del continuo. Quindi
tutte le traiettorie sono discontinue ma ogni singolo punto t è di discontinuità per una famiglia trascurabile di traiettorie.
8.1. DEFINIZIONE 255

ii) Nt ∼ Poissonλt ossia


(λt)n
P (Nt = n) = e−λt , t ≥ 0, n ∈ N ∪ {0}. (8.1.6)
n!
Di conseguenza N0 = 0 q.c. e si ha
E [Nt ] = var(Nt ) = λt.
In particolare, il parametro λ, chiamato intensità del processo N , è uguale al numero atteso di salti
nell’intervallo unitario [0, 1];

iii) la funzione caratteristica di Nt è data da


iη −1)
ϕNt (η) = eλt(e , t ≥ 0, η ∈ R; (8.1.7)

Dimostrazione. i) Continuità a destra e monotonia seguono dalla definizione. Per ogni t > 0, poniamo
Nt− = lim Ns e ∆Nt = Nt − Nt− . Notiamo che ∆Nt ∈ {0, 1} q.c. e, fissato t > 0, l’insieme delle traiettorie che
s↗t
sono discontinue in t è dato da

[
(∆Nt = 1) = (Tn = t)
n=1

che è un evento trascurabile poiché le v.a. Tn sono assolutamente continue. Questo prova la (8.1.5).
ii) Per la (8.1.4) si ha

P (Nt = n) = P (Tn ≤ t < Tn+1 ) =

(poiché (t ≥ Tn+1 ) ⊆ (t ≥ Tn ))

= P (Tn ≤ t) − P (Tn+1 ≤ t) =

(poiché Tn ∼ Gamman,λ )
t t
(λs)n−1 (λs)n
Z Z
= λe−λs ds − λe−λs ds
0 (n − 1)! 0 n!

da cui, integrando per parti il secondo integrale, segue la (8.1.6).


iii) È un semplice calcolo: per la ii) si ha
h i X (λt)n iηn X (λteiη )n
E eiηNt = e−λt e = e−λt
n! n!
n≥0 n≥0

da cui la tesi.

Osservazione 8.1.4 (Esponente caratteristico). La funzione caratteristica del processo di Poisson ha un’in-
teressante proprietà di omogeneità rispetto al tempo: infatti, per la (8.1.7) la CHF di Nt è della forma
ϕNt (η) = etψ(η) dove
ψ(η) = λ(eiη − 1) (8.1.8)
è una funzione che dipende da η ma non da t. Di conseguenza la funzione ψ determina la CHF di Nt per
ogni t e per questo motivo è chiamata esponente caratteristico del processo di Poisson.

Esempio 8.1.5 (Processo di Poisson composto). [!] Il processo di Poisson N è il punto di partenza per la
costruzione di processi stocastici ancor più interessanti e utili nelle applicazioni. La prima generalizzazione
consiste nel rendere aleatoria l’ampiezza dei salti che in N è fissata uguale a 1.
256 CAPITOLO 8. PROCESSO DI POISSON


0.4

● 1
0.3

● ●

0.2 ●
● 0.2 0.4 0.6 0.8 1.0

0.1 ●

-1


0.2 0.4 0.6 0.8 1.0
●●
-0.1 ● -2
● ●

Figura 8.2: A sinistra: grafico di una traiettoria del processo di Poisson composto con λ = 10 e Zn ∼ N0,10−2 .
A destra: grafico di una traiettoria del processo di Poisson composto con λ = 1000 e Zn ∼ N0,10−2 .

Consideriamo uno spazio di probabilità su cui è definito un processo di Poisson N e una successio-
ne (Zn )n∈N di v.a. reali identicamente distribuite. Supponiamo che la famiglia costituita dalle (Zn )n∈N e
(τn )n∈N (le v.a. esponenziali che definiscono N ) sia una famiglia di v.a. indipendenti: questa costruzione
è possibile grazie al Corollario 6.4.7. Poniamo per convenzione Z0 = 0 e definiamo il processo di Poisson
composto nel modo seguente:
Nt
X
Xt = Zn , t ≥ 0.
n=0

Notiamo che il processo di Poisson è un caso particolare di X in cui Zn ≡ 1 per n ∈ N. In Figura 8.2
sono rappresentate due traiettorie del processo di Poisson composto con salti normali e diverse scelte del
parametro di intensità.
Sfruttando l’ipotesi di indipendenza è facile calcolare la CHF di Xt : in realtà è un calcolo già svolto
nell’Esercizio 3.5.4 dove avevamo provato che vale

ϕXt (η) = etψ(η) , ψ(η) = λ (ϕZ (η) − 1)

dove ϕZ (η) è la CHF di Z1 . Anche in questo caso la CHF di Xt è omogenea nel tempo e ψ è detto esponente
caratteristico del processo di Poisson composto. Come caso particolare, si ritrova la (8.1.8) se Zn ∼ δ1 ossia se i
salti sono unitari come nel processo di Poisson.

8.2 Proprietà di Markov e di Feller


Il seguente teorema fornisce due proprietà cruciali che caratterizzano il processo di Poisson.
 Diciamo

che Nt − Ns , con s < t, è un incremento del processo di Poisson. Ricordiamo anche la notazione GtN (cfr.
t≥0
(6.5.1)) per la filtrazione generata da N .

Teorema 8.2.1. [!] Per ogni 0 ≤ s < t si ha:

i) Nt − Ns ∼ Poissonλ(t−s) ;

ii) Nt − Ns è indipendente da GsN .

La i) implica che le v.a. Nt − Ns e Nt−s sono uguali in legge e per questo si dice che N ha gli incrementi
stazionari. La ii) afferma che N è un processo a incrementi indipendenti (cfr. Definizione 7.3.1).
8.2. PROPRIETÀ DI MARKOV E DI FELLER 257

La dimostrazione del Teorema 8.2.1 è rinviata alla Sezione 8.4.

Definizione 8.2.2 (Funzione càdlàg). Si dice che una funzione f da un intervallo I a valori reali è càdlàg
(dal francese “continue à droite, limite à gauche”) se in ogni punto è continua da destra e ha limite finito
da sinistra5 .

La definizione di processo di Poisson può essere generalizzata nel modo seguente.

Definizione 8.2.3 (Processo di Poisson, II). Sia (Ω, F , P ) spazio di probabilità su cui è definita una filtra-
zione (Ft )t≥0 . Un processo di Poisson di parametro λ > 0 su tale spazio è un processo stocastico (Nt )t≥0 tale
che:

i) N0 = 0 q.c.;

ii) le traiettorie di N sono càdlàg q.c.;

iii) N è adattato a (Ft )t≥0 , ossia Nt ∈ mFt per ogni t ≥ 0;

iv) se s < t allora Nt − Ns è indipendente da Fs ;

v) se s < t allora Nt − Ns ha distribuzione Poissonλ(t−s) .

Per il Teorema 8.2.1, il processo N definito in (8.1.3) è un processo di Poisson secondo la Definizione
8.2.3 con la filtrazione G N generata da N . Viceversa, si può provare che se N è un processo di Poisson
secondo la Definizione 8.2.3 allora le v.a. Tn , definite ricorsivamente da

T1 = inf{t ≥ 0 | ∆Nt = 1}, Tn+1 := inf{t > Tn | ∆Nt = 1},

sono indipendenti e hanno distribuzione Expλ : per maggiori dettagli si veda, per esempio, il Cap.5 in [6].
Si noti che nella Definizione 8.2.3 la filtrazione non è necessariamente quella generata dal processo.

Teorema 8.2.4 (Proprietà di Markov). [!] Il processo di Poisson N è un processo di Markov con distribu-
zione di transizione
p(t, x; T , ·) = Poissonx,λ(T −t) .
Inoltre N è un processo di Feller. Posto

NTt,x = NT − Nt + x, 0 ≤ t ≤ T , x ∈ R,

per ogni ϕ ∈ bB si ha
E [ϕ(NT ) | Ft ] = u(T − t, Nt )
dove la funzione
t,x
) = E ϕ(Nh0,x )
h i h i
u(h, x) := E ϕ(Nt+h

è soluzione del problema di Cauchy



∂h u(h, x) = G u(h, x), h > 0, x ∈ R,


u(0, x) = ϕ(x),

 x ∈ R;

relativo al generatore infinitesimale di N definito da

G ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , x ∈ R. (8.2.1)


5 Se I = [a, b], agli estremi assumiamo per definizione che lim f (x) = f (a) ed esista finito lim f (x).
x↘a x↗b
258 CAPITOLO 8. PROCESSO DI POISSON

Dimostrazione. La tesi è una immediata conseguenza della Proposizione 7.3.2 e di quanto visto nella Sezio-
ne 7.5 relativa al generatore infinitesimale di un processo di Markov. La proprietà di Feller è stata provata
nell’Esempio 7.4.5

Osservazione 8.2.5. Ricordiamo che per l’Osservazione 7.5.1 il generatore infinitesimale si può interpre-
tare come una derivata direzionale media. Intuitivamente, il fatto di mediare, ossia di considerare il valore
atteso nella definizione di G , fa sı̀ che la discontinuità delle singole traiettorie di N non dia problemi
nell’operazione di derivazione.

Diamo un’utile caratterizzazione del processo di Poisson.

Proposizione 8.2.6. [!] Sia N = (Nt )t≥0 un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ), che verifichi
le proprietà i), ii) e iii) della Definizione 8.2.3. Allora N è un processo di Poisson di parametro λ > 0 se e
solo se h i iη
E eiη(Nt −Ns ) | Fs = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R. (8.2.2)

Dimostrazione. Se N è un processo di Poisson allora per l’indipendenza e stazionarietà degli incrementi e


per la (8.1.7) si ha
h i h i h i iη
E eiη(Nt −Ns ) | Fs = E eiη(Nt −Ns ) = E eiηNt−s = eλ(e −1)(t−s) .

Viceversa, se N verifica la (8.2.2) e le proprietà i), ii) e iii) della Definizione 8.2.3, rimangono da provare
le proprietà iv) e v). Applicando il valore atteso alla (8.2.2) si ha
h i iη
E eiη(Nt −Ns ) = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R.

Allora la iv) è ovvia conseguenza del fatto che la funzione caratteristica determina la distribuzione; la
proprietà v) di indipendenza degli incrementi segue dal punto 14) del Teorema 5.2.10.

Osservazione 8.2.7 (Processo di Poisson a intensità stocastica). La caratterizzazione data nella Proposi-
zione 8.2.6 permette di definire un’ampia classe di processi di cui il Poisson è un caso molto particolare.
In uno spazio (Ω, F , P , (Ft )t≥0 ) consideriamo un processo N = (Nt )t≥0 che verifichi le proprietà i), ii) e iii)
della Definizione 8.2.3 e un processo (λt )t≥0 a valori non-negativi tale che per ogni t ≥ 0 valga
Z t
λt ∈ mF0 e λs ds < ∞ q.c.
0

Se Zt !
h i
iη(Nt −Ns ) iη
E e | Fs = exp (e − 1) λr dr , 0 ≤ s ≤ t, η ∈ R,
s

allora N è chiamato processo di Poisson a intensità stocastica λt . Per maggiori informazioni sui processi a
intensità stocastica e le relative importanti applicazioni, si veda per esempio [14].

8.3 Proprietà di martingala


Consideriamo un processo di Poisson N = (Nt )t≥0 sullo spazio (Ω, F , P , (Ft )t≥0 ). Notiamo che N non
è una martingala poiché E [Nt ] = λt è una funzione strettamente crescente e quindi il processo non è co-
stante in media. Tuttavia essendo un processo a incrementi indipendenti, dalla Proposizione 7.3.3 segue la
seguente
8.3. PROPRIETÀ DI MARTINGALA 259

0.2 0.4 0.6 0.8 1.0

-1

-2

-3

Figura 8.3: Grafico di una traiettoria del processo di Poisson compensato.

Proposizione 8.3.1 (Processo di Poisson compensato). Il processo di Poisson compensato, definito da


et := Nt − λt,
N t ≥ 0,

è una martingala.
Osserviamo esplicitamente che N e assume valori reali, al contrario di N che assume solo valori interi:
nella Figura 8.3 è rappresentata una traiettoria di un processo di Poisson compensato.
Teorema 8.3.2. Sia G in (8.2.1) il generatore infinitesimale del processo di Poisson N . Per ogni ϕ ∈ bB, il
processo
Zt
Mt := ϕ(Nt ) − ϕ(N0 ) − G ϕ(Ns )ds, t ≥ 0,
0
è una martingala.
Dimostrazione. La tesi si può considerare la “versione stocastica” dell’equazione di Volterra deterministica
(7.5.6) per u in (7.5.1) con p(0, x; h, ·) = Poissonx,λh . Integrando tale equazione fra 0 e T − t, con 0 ≤ t < T ,
otteniamo
Z T −t
0 = u(T − t, x) − ϕ(x) − G u(s, x)ds
0
Z T
= u(T − t, x) − ϕ(x) − G u(s − t, x)ds.
t

Sostituendo x = Nt nella precedente equazione ed utilizzando la proprietà di Markov, si ha


ZT
E [ϕ(NT ) | Ft ] − ϕ(Nt ) − E [G ϕ(Ns ) | Ft ] ds = 0. (8.3.1)
t

Una semplice verifica6 mostra che


ZT "Z T #
E [G ϕ(Ns ) | Ft ] ds = E G ϕ(Ns )ds | Ft (8.3.2)
t t
6 Verifichiamo che la v.a.
ZT
Z := E [G ϕ(Ns ) | Ft ] ds
t
260 CAPITOLO 8. PROCESSO DI POISSON

ossia vale un risultato di scambio di segni di integrale e attesa condizionata. Inserendo la (8.3.2) nella
(8.3.1) si ha
" ZT #
E ϕ(NT ) − ϕ(Nt ) − G ϕ(Ns )ds | Ft = E [MT − Mt | Ft ] = 0
t

che prova la proprietà di martingala di M.


Osservazione 8.3.3. Il Teorema 8.3.2 è valido sotto ipotesi meno restrittive di sommabilità di ϕ. Per esem-
pio, per ϕ(x) = x si ottiene Mt = Nt − λt che è il processo di Poisson compensato della Proposizione 8.3.1.
Più in generale, il Teorema 8.3.2 mostra come è possibile “compensare” un processo, definito componendo
una generica funzione ϕ con Nt , in modo da ottenere una martingala.

8.4 Appendice
Dimostriamo il Teorema 8.2.1. Se N è un processo di Poisson allora per ogni 0 ≤ s < t si ha:
i) Nt − Ns ∼ Poissonλ(t−s) ;

ii) Nt − Ns è indipendente da GsN .


Dividiamo la dimostrazione in due passi.
[Primo passo] Dimostriamo che, fissati s > 0 e k ∈ N ∪ {0}, il processo definito da
(s)
Nh = Ns+h − Ns , h ∈ R≥0 , (8.4.1)

è un processo di Poisson rispetto alla probabilità condizionata all’evento (Ns = k), ossia N (s) è un processo
di Poisson sullo spazio (Ω, F , P (· | Ns = k)).
A tal fine, definiamo i salti “traslati”
(s) (s)
T0 = 0, Tn = Tk+n − s, n ∈ N,

che, sull’evento A := (Ns = k) ≡ (Tk ≤ s < Tk+1 ), formano una successione crescente q.c. (si veda la Figura
8.4). Osserviamo che
RT
è una versione dell’attesa condizionata di G ϕ(Ns )ds a Ft . Anzitutto, osserviamo che E [G ϕ(Ns ) | Ft ] = G E [ϕ(Ns ) | Ft ] = G u(s −
t
t, Nt ) ∈ mFt da cui segue che anche Z ∈ mFt . Poi, per ogni G ∈ Ft abbiamo
"Z T #
E [Z1G ] = E G E [ϕ(Ns ) | Ft ] ds 1G =
t
(per il Teorema di Fubini e per il fatto che G è un operatore lineare che commuta col valore atteso)
ZT
= G E [E [ϕ(Ns ) | Ft ] 1G ] ds =
t
(per le proprietà dell’attesa condizionata)
ZT
= G E [ϕ(Ns )1G ] ds =
t
(riapplicando il Teorema di Fubini)
"Z T #
=E G ϕ(Ns )ds 1G .
t
8.4. APPENDICE 261

(s) (s)
0 T1 T2

Tk−1 Tk s Tk+1 Tk+2

(s)
Figura 8.4: Tempi di salto Tn e tempi di salto “traslati” Tn

 
(s) (s) (s)
(Nh = n) ∩ A = (Ns+h = n + k) ∩ A = (Tn+k ≤ s + h < Tn+k+1 ) ∩ A = Tn ≤ h < Tn+1 ∩ A

ossia, in accordo con la definizione di processo di Poisson nella forma (8.1.4), sull’evento A si ha
(s) (s) (s)
(Nh = n) = (Tn ≤ h < Tn+1 ), n ∈ N ∪ {0}.

Dunque è sufficiente verificare che i tempi


(s) (s) (s) (s)
τ1 := Tk+1 − s, τn := Tn − Tn−1 ≡ τk+n , n ≥ 2,

formino una successione di v.a. che, relativamente a P (· | Ns = k), hanno distribuzione Expλ e sono
indipendenti: pertanto, si tratta di provare che
 
\J  YJ
(s)
P  (τj ∈ Hj ) | Ns = k  = Expλ (Hj ) (8.4.2)
 
 
j=1 j=1

per ogni J ∈ N e H1 , . . . , HJ ∈ B(R≥0 ). La (8.4.2) equivale a


 
 \J  J
Y
P (Ns = k) ∩ (Tk+1 − s ∈ H1 ) ∩ (τk+j ∈ Hj ) = P (Ns = k) Expλ (Hj ). (8.4.3)
 
 
j=2 j=1

Sfruttando il fatto che (Ns = k) ∩ (Tk+1 − s ∈ H1 ) = (Tk ≤ s) ∩ (Tk+1 − s ∈ H1 ), Tk+1 = Tk + τk+1 e le v.a.
Tk , τk+1 , . . . , τk+J sono indipendenti in P , la (8.4.3) si riduce a

P ((Tk ≤ s) ∩ (Tk + τk+1 − s ∈ H1 )) = P (Ns = k)Expλ (H1 ). (8.4.4)

Ora è sufficiente considerare il caso in cui H1 è un intervallo, H1 = [0, c]: poiché Tk e τk+1 sono indipendenti
in P , la densità congiunta è data dal prodotto delle marginali e, ricordando il Lemma 8.1.1, si ha
Z s Z c+s−x !
−λy
P ((Tk ≤ s) ∩ (τk+1 ∈ [s − Tk , c + s − Tk ])) = λe dy Gammak,λ (dx)
0 s−x
Zs
= e−λ(c+s−x) (eλc − 1)Gammak,λ (dx)
0
(sλ)k −λ(c+s) λc
= e (e − 1) = Poissonλs ({k})Expλ ([0, c])
k!
che prova la (8.4.4) con H1 = [0, c].
[Secondo passo] Per il primo passo, Nt − Ns è un processo di Poisson condizionatamente a (Ns = k) e quindi
vale
P (Nt − Ns = n | Ns = k) = Poissonλ(t−s) ({n}) (8.4.5)
262 CAPITOLO 8. PROCESSO DI POISSON

per ogni s < t e n, k ∈ N ∪ {0}. Per la formula della probabilità totale si ha


X
P (Nt − Ns = n) = P (Nt − Ns = n | Ns = k)P (Ns = k) =
k≥0

(per la (8.4.5))
X
= Poissonλ(t−s) ({n})P (Ns = k) = Poissonλ(t−s) ({n}), (8.4.6)
k≥0

e questo prova la proprietà i). Inoltre, come conseguenza della (8.4.6), la formula (8.4.5) equivale a

P ((Nt − Ns = n) ∩ (Ns = k)) = P (Ns = k)P (Nt − Ns = n)

che prova che gli incrementi adiacenti Nt − Ns e Ns = Ns − N0 sono indipendenti in P .


Più in generale, verifichiamo che gli incrementi adiacenti Nt − Nr e Nr − Ns , con 0 ≤ s < r < t, sono
indipendenti in P . Ricordando la notazione (8.4.1), si ha
(s) (s) (s)
P ((Nt − Nr = n) ∩ (Nr − Ns = k)) = P ((Nt−s − Nr−s = n) ∩ (Nr−s = k)) =

(per la formula della probabilità totale)


(s) (s) (s)
X
= P ((Nt−s − Nr−s = n) ∩ (Nr−s = k) | Ns = j)P (Ns = j) =
j≥0

(qui usiamo il fatto che N (s) è un processo di Poisson condizionatamente a (Ns = j) e quindi, per quanto
(s) (s) (s) (s)
appena provato, gli incrementi Nt−s − Nr−s e Nr−s sono indipendenti in P (· | Ns = j). Inoltre, Nr−s = Nr − Ns e
(s) (s)
Ns sono indipendenti in P e perciò P (Nr−s = k | Ns = j) = P (Nr−s = k))
(s) (s) (s)
X
= P (Nt−s − Nr−s = n | Ns = j)P (Nr−s = k)P (Ns = j)
j≥0
(s) (s) (s)
= P (Nt−s − Nr−s = n)P (Nr−s = k)
= P (Nt − Nr = n)P (Nr − Ns = k).

Dunque abbiamo provato che, per 0 ≤ s < r < t, l’incremento Nt − Nr è indipendente da X := Nr e da


Y := Nr − Ns : di conseguenza, Nt − Nr è indipendente anche da Ns = X − Y e questo prova la proprietà ii). 2
Capitolo 9

Processi continui

Probability is not a mere


computation of odds on the dice or
more complicated variants; it is the
acceptance of the lack of certainty in
our knowledge and the development
of methods for dealing with our
ignorance.

Nassim Nicholas Taleb

La nozione di continuità per processi stocastici, benché intuitiva, nasconde qualche piccola insidia e va
pertanto analizzata con attenzione. In questo capitolo assumiamo che I sia un intervallo reale della forma
I = [0, T ] oppure I = R≥0 . Inoltre indichiamo con C(I) l’insieme delle funzioni continue da I a valori reali.

9.1 Continuità
Definizione 9.1.1 (Processo continuo q.c.). Un processo stocastico X = (Xt )t∈I sullo spazio (Ω, F , P ) è
continuo quasi certamente (q.c.) se la famiglia delle traiettorie continue

(X ∈ C(I)) := {ω ∈ Ω | X(ω) ∈ C(I)}

è un insieme quasi certo, ossia (X ∈ C(I)) ⊇ A con A ∈ F tale che P (A) = 1.

Osservazione 9.1.2 (Continuità e completezza). Se lo spazio (Ω, F , P ) è completo allora X è continuo


q.c. se e solo se P (X ∈ C(I)) = 1. Se (Ω, F , P ) non è completo, allora non è detto che (X ∈ C(I)) sia un
evento: infatti per definizione di processo stocastico si ha X −1 (H) ∈ F per ogni H ∈ B I ma C(I) < B I (cfr.
Osservazione 6.1.10) e quindi non è necessariamente vero che (X ∈ C(I)) ∈ F . Analogamente, in uno spazio
non completo, anche se X è continuo q.c., non è detto che quantità come

inf I + se I + := {t ∈ I | Xt > 0} , ∅,
Z 

M := sup Xt , J := Xt dt, T :=  (9.1.1)
t∈I I 0
 altrimenti,

siano variabili aleatorie.

Osservazione 9.1.3 (Continuità e continuità q.c.). Sia X un processo continuo q.c. definito sullo spazio
(Ω, F , P ) e sia A come nella Definizione 9.1.1. Allora X è indistinguibile da X̄ := X1A che ha tutte le

263
264 CAPITOLO 9. PROCESSI CONTINUI

traiettorie continue1 . Più esplicitamente, X̄ è definito da



X(ω) se ω ∈ A,


X̄(ω) = 
0
 altrimenti.

Diciamo che X̄ è una versione continua di X. Dunque, a meno di passare ad una versione continua, nel
seguito possiamo eliminare il “q.c.” e considerare processi continui invece di continui q.c.

A questo punto ci si può chiedere perché mai si sia introdotta la definizione di processo continuo q.c.
e non direttamente quella di processo continuo. Il fatto è che di solito si costruisce un processo stocastico,
per esempio il moto Browniano, a partire da una legge assegnata, mediante il Teorema di estensione di
Kolmogorov: in questo modo si riesce a dimostrare2 solo la continuità quasi certa delle traiettorie e quindi
solo in un secondo momento si passa alla versione continua.

Osservazione 9.1.4. Se X = (Xt )t∈I , con I = [0, 1], è un processo continuo allora M, J e T in (9.1.1) sono ben
definite e sono variabili aleatorie. Infatti basta osservare che

M= sup Xt .
t∈[0,1]∩Q

Inoltre J(ω) è ben definito per ogni ω ∈ Ω essendo tutte le traiettorie di X continue e vale
n
1X
J(ω) = lim X k (ω)
n→∞ n n
k=1

essendo l’integrale di una funzione continua uguale al limite delle somme di Riemann. Infine, (I + = ∅) =
(M ≤ 0) ∈ F e dunque anche [
(T < t) = (I + = ∅) ∪ (Xs > 0)
s∈Q∩[0,t[

appartiene a F per ogni 0 < t ≤ 1: questo basta a provare che T ∈ mF .

9.2 Spazio di Wiener e versione canonica di un processo continuo


In questa sezione ci concentriamo sul caso I = [0, 1]. Ricordiamo che C[0, 1] è uno spazio metrico
separabile e completo (ossia è uno spazio polacco) con la distanza uniforme

ϱmax (x, y) = max |xt − yt |, x, y ∈ C[0, 1].


t∈[0,1]

Consideriamo I = [0, 1] solo per semplicità: i risultati di questa sezione si estendono evidentemente al caso
in cui I = [0, T ] o anche I = R≥0 considerando la distanza
X 1
ϱmax (x, y) = min{1, max |xt − yt |}, x, y ∈ C(R≥0 ).
2n t∈[0,n]
n≥1

Indichiamo Bϱmax la σ -algebra di Borel introdotta nella Sezione 2.4.2.

Definizione 9.2.1 (Spazio di Wiener). Lo spazio misurabile (C(I), Bϱmax ) è detto spazio di Wiener.
1 Non possiamo usare (X ∈ C(I)) al posto di A perché se (Ω, F , P ) non è completo allora X1
(X∈C(I)) non sarebbe necessariamente
un processo stocastico.
2 In realtà il discorso è più sottile e verrà precisato nella Sezione 9.3.
9.2. SPAZIO DI WIENER E VERSIONE CANONICA DI UN PROCESSO CONTINUO 265

Secondo la definizione generale, un processo stocastico X = (Xt )t∈I è una funzione misurabile da (Ω, F )
a (RI , B I ). Mostriamo ora che se X è continuo allora è possibile sostituire il codominio (RI , B I ) con lo
spazio di Wiener. Questo fatto non è banale e merita di essere provato rigorosamente. Infatti, in base
all’Osservazione 6.1.10, lo stesso C[0, 1] non appartiene B [0,1] e quindi non è necessariamente vero che
X −1 (C[0, 1]) ∈ F per un generico processo X. Allo stesso modo, i singoletti {w} non sono elementi a B [0,1] e
quindi se
X : (Ω, F ) −→ (R[0,1] , B [0,1] )
è un processo stocastico, non necessariamente (X = w) appartiene a F . Al contrario, nello spazio (C[0, 1], Bϱmax )
i singoletti sono misurabili (sono dischi di raggio zero nella metrica uniforme), ossia {w} ∈ Bϱmax per ogni
w ∈ C[0, 1]. Per interpretare X come processo stocastico (funzione misurabile) a valori in (C[0, 1], Bϱmax )
occorre dunque verificare, in particolare, che (X = w) ∈ F per ogni w ∈ C[0, 1].
Proposizione 9.2.2. Sia X = (Xt )t∈[0,1] un processo stocastico continuo sullo spazio (Ω, F , P ). Allora la
mappa
X : (Ω, F ) −→ (C[0, 1], Bϱmax )
è misurabile e pertanto diciamo che X è un processo stocastico a valori nello spazio di Wiener.
Dimostrazione. Anzitutto mostriamo che Bϱmax è la σ -algebra generata dalla famiglia Ce dei cilindri della
forma3
et (H) := {x ∈ C[0, 1] | xt ∈ H},
C t ∈ [0, 1], H ∈ B. (9.2.1)
Infatti, i cilindri del tipo (9.2.1) con H aperto di R generano σ (Ce) e sono aperti rispetto a ϱmax : di conse-
guenza Bϱmax ⊇ σ (Ce).
Viceversa, poiché (C[0, 1], ϱmax ) è separabile, ogni aperto è unione numerabile di dischi aperti. Quindi
Bϱmax è generata dai dischi aperti che sono insiemi della forma
D(y, r) = {x ∈ C[0, 1] | ϱmax (x, y) < r},
dove y ∈ C[0, 1] è il centro e r > 0 è il raggio del disco. Ora ogni disco si ottiene mediante operazioni
numerabili di unione e intersezione di cilindri di Ce nel modo seguente
[ \
D(y, r) = {x ∈ C[0, 1] | |xt − yt | < r − n1 }.
n∈N t∈[0,1]∩Q

Quindi ogni disco appartiene a σ (Ce) e questo prova l’inclusione opposta.


Proviamo ora la tesi: per quanto appena provato, si ha
   
X −1 Bϱmax = X −1 σ (Ce) =

(poiché X è continuo)
= X −1 (σ (C )) ⊆ F
dove l’ultima inclusione è dovuta al fatto che X è un processo stocastico.
La Proposizione 9.2.2 permette di dare la seguente
Definizione 9.2.3 (Legge di un processo continuo). Sia X = (Xt )t∈[0,1] un processo continuo sullo spazio
(Ω, F , P ). La legge di X è la distribuzione µX definita su (C[0, 1], Bϱmax ) da
µX (H) = P (X ∈ H), H ∈ Bϱmax .
Dati due processi continui X = (Xt )t∈[0,1] e Y = (Yt )t∈[0,1] , se µX = µY allora diciamo che X e Y sono uguali
d
in legge e scriviamo X = Y .
3 Usiamo la “tilde” per distinguere i cilindri di funzioni continue dai cilindri di R[0,1] definiti in (6.1.1).
266 CAPITOLO 9. PROCESSI CONTINUI

Definizione 9.2.4 (Versione canonica di un processo continuo). Sia X = (Xt )t∈[0,1] un processo continuo
sullo spazio (Ω, F , P ). La versione canonica di X è il processo stocastico X
e definito da

e : (C[0, 1], B̂ϱ , µX ) −→ (C[0, 1], Bϱ ),


X X(w)
e := w,
max max

dove B̂ϱmax è il completamento di Bϱmax relativo alla misura µX (cfr. Osservazione 2.4.3).

Osservazione 9.2.5. Le principali proprietà di X


e sono:

i) X
e è uguale in legge a X;
e è definito su uno spazio metrico polacco: questo fatto è rilevante ai fini dell’esistenza della versione
ii) X
regolare della probabilità condizionata (cfr. Teorema 5.3.2) ed è cruciale nello studio delle equazio-
ni differenziali stocastiche. Nel Capitolo 17 faremo ampio uso della versione canonica di processi
continui;
e è definito su uno spazio di probabilità completo in cui gli esiti sono traiettorie, in particolare sono
iii) X
funzioni continue: t 7→ X et (w) ≡ w(t), t ∈ [0, 1]. Questo fatto permette, per esempio, di dare una
caratterizzazione intuitiva della proprietà di Markov forte (cfr. Sezione 12.2).
Osservazione 9.2.6 (Spazio di Skorokhod). Lo spazio di Skorokhod è una generalizzazione dello spazio di
Wiener che interviene nello studio dei processi stocastici discontinui (come, per esempio, il processo di
Poisson). Lo spazio di Skorokhod D(I) è formato dalle funzioni càdlàg (cfr. Definizione 8.2.2) da I in R
(o, più in generale, a valori in uno spazio metrico). Tutti i risultati di questa sezione si estendono al caso
di processi con traiettorie càdlàg q.c. In particolare, è possibile definire su D(I) una metrica, la distanza di
Skorokhod, con la quale D(I) è uno spazio polacco. Ovviamente C(I) è un sotto-spazio di D(I) e si dimostra
che le distanze uniforme e di Skorokhod sono equivalenti su C(I). Il testo [13] fornisce una trattazione
completa sullo spazio di Skorokhod e sulle proprietà di compattezza (tightness) di famiglie di misure di
probabilità su D(I), in analogia con quanto visto nella Sezione 4.3.2.

9.3 Teorema di continuità di Kolmogorov


Il Teorema di estensione di Kolmogorov stabilisce l’esistenza di un processo che abbia una legge asse-
gnata ma non fornisce informazioni sulla regolarità delle traiettorie. In effetti, l’Esempio 6.3.6 mostra che
non si può dir nulla sulla continuità delle traiettorie di un processo a partire dalla sua distribuzione: modi-
ficando4 un processo continuo si può renderlo discontinuo senza cambiarne la legge. Tuttavia se la legge di
un processo X verifica opportune condizioni allora è possibile dimostrare l’esistenza di una modificazione
continua di X: il risultato fondamentale al riguardo è il classico Teorema di continuità di Kolmogorov di cui
forniamo alcune versioni fra cui la più semplice è data dal seguente
Teorema 9.3.1 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈[0,1] un processo stocastico
reale definito su uno spazio di probabilità (Ω, F , P ). Se esistono tre costanti positive c, ε, p, con p > ε, tali
che
E [|Xt − Xs |p ] ≤ c|t − s|1+ε , t, s ∈ [0, 1], (9.3.1)
allora X ammette una modificazione X e con traiettorie α-Hölderiane per ogni α ∈ [0, ε [: precisamente, per
p
ε
ogni α ∈ [0, p [ e ω ∈ Ω esiste una costante positiva cα,ω , che dipende solo da α e ω, tale che

|X es (ω)| ≤ cα,ω |t − s|α ,


et (ω) − X t, s ∈ [0, 1].

Diamo una dimostrazione del Teorema 9.3.1, ispirata alle idee originali di Kolmogorov, alla fine della
sezione. Consideriamo prima alcuni esempi.
4 Qui “modificare un processo” significa prenderne una modificazione.
9.3. TEOREMA DI CONTINUITÀ DI KOLMOGOROV 267

Esempio 9.3.2. [!] Riprendiamo il Corollario 6.4.6 e consideriamo un processo Gaussiano (Xt )t∈[0,1] con
funzione di media m ≡ 0 e covarianza c(s, t) = s ∧ t. Per definizione, (Xt , Xs ) ∼ N0,Ct,s dove
!
t s∧t
Ct,s =
s∧t s

e quindi Xt − Xs ∼ N0,t+s−2s∧t . È facile provare una stima del tipo (9.3.1): anzitutto non è restrittivo

assumere s < t cosicché Xt − Xs = Z t − s con Z ∼ N0,1 ; allora, per ogni p > 0 si ha
p
E [|Xt − Xs |p ] = |t − s| 2 E [|Z|p ]

dove E [|Z|p ] < ∞ è una costante. Per il Teorema di continuità di Kolmogorov, X ammette una modificazione
e che è α-Hölderiana per ogni α < p/2−1 = 1 − 1 . Data l’arbitrarietà di p, si ha che X
X e è α-Hölderiana per
p 2 p
ogni α < 12 .

Esempio 9.3.3. [!] Proviamo ad applicare il criterio (9.3.1) di Kolmogorov ad un processo di Poisson N che
sappiamo avere le traiettorie discontinue: ricordando che Nt − Ns ∼ Poissonλ(t−s) , per p > 0 si ha


X (λ(t − s))n
E [|Nt − Ns |p ] = e−λ(t−s) np =
n!
n=0

(poiché il primo termine della serie è nullo)



X (λ(t − s))n
= e−λ(t−s) np
n!
n=1

X (λ(t − s))n
≥ e−λ(t−s)
n!
n=1
 
= e−λ(t−s) eλ(t−s) − 1 ≈ λ(t − s) + o(t − s)

per t − s → 0. Ne segue che la stima (9.3.1) non è vera per nessun valore di ε > 0.

Il Teorema 9.3.1 può essere esteso in diverse direzioni: quelle più interessanti riguardano la regolarità
di ordine superiore, l’estensione al caso di I multi-dimensionale e al caso di processi a valori in spazi di
Banach. In tempi relativamente recenti, è stato osservato che il Teorema di continuità di Kolmogorov è
essenzialmente un risultato di natura analitica che può essere dimostrato come corollario del Teorema di
immersione di Sobolev, in una versione molto generale per i cosiddetti spazi di Besov. Riportiamo qui
l’enunciato dato in [68].

Teorema 9.3.4 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈Rd un processo stocastico reale.
Se esistono k ∈ N0 , 0 < ε < p e δ > 0 tali che

E [|Xt − Xs |p ] ≤ c|t − s|d+ε+kp

per ogni t, s ∈ Rd con |t − s| < δ, allora X ammette una modificazione X


e le cui traiettorie sono differenziabili
fino all’ordine k, con derivate localmente α-Hölderiane per ogni α ∈ [0, pε [.

Il Teorema 9.3.4 si estende anche al caso in cui X sia un processo a valori in uno spazio di Banach: il
seguente esempio è particolarmente rilevante nello studio delle equazioni differenziali stocastiche.
268 CAPITOLO 9. PROCESSI CONTINUI

Esempio 9.3.5. Sia (Xtx )t∈[0,1] una famiglia di processi stocastici continui, indicizzata da x ∈ Rd : per quanto
 
visto nella Sezione 9.2, possiamo considerare X x come un processo a valori in C[0, 1], Bϱmax che è uno
spazio di Banach con la norma del massimo

∥X∥∞ := max |Xt |.


t∈[0,1]

Se vale h p i
E ∥X x − X y ∥∞ ≤ c|x − y|d+ε , x, y ∈ Rd ,

allora esiste una modificazione Xe (ossia X e tale che, per ogni x ∈ Rd , vale5 X
ex = X x q.c.) tale che

ety (ω)) ≤ c |x − y|α ,



Xetx (ω) − X x, y ∈ K,

per ogni K compatto di Rd e α < pε , con c > 0 che dipende solo da ω, α e K.

Dimostrazione del Teorema 9.3.1. Dobbiamo provare che, se X = (Xt )t∈[0,1] è un processo stocastico reale ed
esistono tre costanti p, ε, c > 0 tali che

E [|Xt − Xs |p ] ≤ c|t − s|1+ε , t, s ∈ [0, 1], (9.3.2)

allora X ammette una modificazione Xe con traiettorie α-Hölderiane per ogni α ∈ [0, ε [.
p
Suddividiamo la dimostrazione in quattro passi di cui il terzo è il più tecnico e può essere saltato ad una
prima lettura.
[Primo passo] Combiniamo la disuguaglianza di Markov (4.1.2) con la (9.3.2) per ottenere la stima

E [|Xt − Xs |p ] c|t − s|1+ε


P (|Xt − Xs | ≥ λ) ≤ ≤ , λ > 0. (9.3.3)
λp λp
Kolmogorov si rese conto che dalla (9.3.3) non è possibile ricavare direttamente una stima dell’incremento
Xt − Xs per ogni t, s a causa della non-numerabilità di [0, 1]. La sua idea fu allora di restringere dapprima t, s
alla famiglia numerabile dei razionali diadici di [0, 1] definiti da
[ n o
D= Dn , Dn = 2kn | k = 0, 1, . . . , 2n .
n≥1

Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N. Due elementi t, s ∈ Dn si dicono consecutivi se |t − s| = 2−n .
[Secondo passo] Stimiamo l’incremento Xt − Xs assumendo che t, s siano consecutivi di Dn : per la (9.3.3) si
ha  
P |X kn − X k−1
n
| ≥ 2 −nα
≤ c 2n(αp−1−ε) .
2 2

Allora, posto
  [  
−nα −nα
An = max |X k − X k−1 | ≥ 2 = |X k − X k−1 | ≥ 2 ,
1≤k≤2n 2n n 2 2n n
2
1≤k≤2n

per la sub-additività di P , si ha

2n
X   2n
X
P (An ) ≤ P |X k − X k−1 |≥2 −nα
≤ c 2n(αp−1−ε) = c 2n(αp−ε) .
2n n2
k=1 k=1
 
5 Nel senso che P Xex = X x , t ∈ [0, 1] =1.
t t
9.3. TEOREMA DI CONTINUITÀ DI KOLMOGOROV 269

Dunque, se α < pε , si ha
X
P (An ) < ∞
n≥1
e per il Lemma 2.3.28 di Borel-Cantelli P (An i.o.) = 0: questo significa che esiste N ∈ F , con P (N ) = 0, tale
che per ogni ω ∈ Ω \ N esiste nα,ω ∈ N per cui
max |X k (ω) − X k−1 (ω)| ≤ 2−nα , n ≥ nα,ω .
1≤k≤2n 2n n 2

Di conseguenza si ha anche che per ogni ω ∈ Ω \ N esiste cα,ω > 0 tale che
max |X k (ω) − X k−1 (ω)| ≤ cα,ω 2−nα , n ∈ N.
1≤k≤2n 2n n
2

[Terzo passo] Stimiamo l’incremento Xt − Xs con t, s ∈ D, costruendo un’opportuna catena di punti con-
secutivi che congiunge s a t, per poi utilizzare, tramite la disuguaglianza triangolare, la stima ottenuta al
passo precedente. Dunque siano t, s ∈ D con s < t: poniamo

n̄ = min{k | t, s ∈ Dk }, n = max{k | t − s < 2−k },


cosicché n < n̄. Inoltre, per k = n + 1, . . . , n̄, definiamo ricorsivamente la sequenza

sn = max{τ ∈ Dn | τ ≤ s}, sk = sk−1 + 2−k sgn(s − sk−1 )


dove sgn(x) = x
|x|
se x , 0 e sgn(0) = 0. Si definisce (tk )n≤k≤n̄ in modo analogo. Allora sk , tk ∈ Dk e vale

|sk − sk−1 | ≤ 2−k , |tk − tk−1 | ≤ 2−k , k = n + 1, . . . , n̄.


Inoltre si prova che |tn − sn | ≤ 2−n e vale

|s − sk | < 2−k , |t − tk | < 2−k , k = n, . . . , n̄,


da cui sn̄ = s e tn̄ = t. Allora abbiamo

X n̄
X
Xt − Xs = Xtn − Xsn + (Xtk − Xtk−1 ) − (Xsk − Xsk−1 )
k=n+1 k=n+1

e quindi, per ogni ω ∈ Ω \ N ,



X
−nα
|Xt (ω) − Xs (ω)| ≤ cα,ω 2 +2 cα,ω 2−kα
k=n+1

X
≤ 2cα,ω 2−kα
k=n
2cα,ω −nα
= 2 ,
1 − 2−α
′ |t − s|α per una certa costante positiva c′ .
da cui segue che |Xt − Xs | ≤ cα,ω α,ω
[Quarto passo] Abbiamo provato che per ogni ω ∈ Ω\N la traiettoria X(ω) è α-Hölderiana su D e quindi si
prolunga in modo unico ad una funzione α-Hölderiana su [0, 1], che indichiamo con X(ω). e Ora definiamo
il processo X e le cui traiettorie sono X(ω)
e se ω ∈ Ω \ N e sono identicamente nulle su N . Proviamo che X e è
una modificazione di X, ossia P (Xt = X et ) = 1 per ogni fissato t ∈ [0, 1]: ciò è ovvio se t ∈ D. D’altra parte, se
t ∈ [0, 1] \ D, consideriamo una successione (tn )n∈N in D che approssima t. Per la (9.3.3), Xtn converge a Xt
in probabilità e quindi anche puntualmente, a meno di passare ad una sotto-successione: poiché Xtn = X et
n
q.c., si ha anche Xt = X et q.c. e questo conclude la prova.
270 CAPITOLO 9. PROCESSI CONTINUI
Capitolo 10

Moto Browniano

In this section we will define


Brownian motion and construct it.
This event, like the birth of a child, is
messy and painful, but after a while
we will be able to have fun with our
new arrival.

Richard Durrett

Il moto Browniano è in assoluto il processo stocastico più importante. Deve il nome al botanico Robert
Brown per le sue osservazioni, attorno al 1820, sul movimento casuale di granelli di polline in sospensione
in una soluzione. Il moto Browniano fu utilizzato da Louis Bachelier nel 1900 nella sua tesi di dottorato
come modello per il prezzo dei titoli azionari e fu studiato da Albert Einstein in uno dei suoi famosi articoli
del 1905. La prima definizione matematica rigorosa di moto Browniano è dovuta a Norbert Wiener nel
1923.

10.1 Definizione
Definizione 10.1.1 (Moto Browniano). [!!!] Sia W = (Wt )t≥0 un processo stocastico reale definito su uno
spazio di probabilità con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che W è un moto Browniano se verifica le
seguenti proprietà:

i) W0 = 0 q.c.;

ii) W è continuo q.c.;

iii) W è adattato a (Ft )t≥0 , ossia Wt ∈ mFt per ogni t ≥ 0;

iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;

v) Wt − Ws ∼ N0,t−s per ogni t ≥ s ≥ 0.

Osservazione 10.1.2. Commentiamo brevemente le proprietà della Definizione 10.1.1: per la i) un moto
Browniano parte dall’origine. La ii) assicura che quasi tutte le traiettorie di W sono continue. Inoltre
W è adattato alla filtrazione (Ft ): questo significa che, in ogni fissato istante t, le informazioni in Ft sono
sufficienti ad osservare Wt . Le iv) e v) sono meno intuitive ma possono essere giustificate da alcune note
proprietà, osservabili a livello statistico, dei moti casuali. Come per il processo di Poisson, la iv) e v) sono
chiamate rispettivamente proprietà di indipendenza e stazionarietà degli incrementi (cfr. Definizione 7.3.1).

271
272 CAPITOLO 10. MOTO BROWNIANO

0.3

0.2

0.1

0.2 0.4 0.6 0.8 1.0

-0.1

-0.2

Figura 10.1: Grafico di una traiettoria di un moto Browniano.

In particolare, Wt − Ws è uguale in legge a Wt−s . In Figura 10.1 è rappresentato il grafico di una traiettoria
di un moto Browniano.
Osservazione 10.1.3. Nella Definizione 10.1.1 la filtrazione (Ft )t≥0 non è necessariamente quella generata
da W e indicata (GtW )t≥0 (cfr. Definizione 6.5.3). Chiaramente la proprietà iii) del moto Browniano implica
che GtW ⊆ Ft per ogni t ≥ 0. Vedremo nella Sezione 11.2 che è generalmente preferibile lavorare con
filtrazioni strettamente più grandi di G W affinché siano soddisfatte opportune ipotesi di carattere tecnico
fra cui, per esempio, la completezza.
Diamo un’utile caratterizzazione del moto Browniano.
Proposizione 10.1.4. [!] Un processo stocastico continuo q.c. W = (Wt )t≥0 è un moto Browniano relativa-
mente alla filtrazione (GtW )t≥0 generata da W se e solo se è un processo Gaussiano con funzione di media
nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Dimostrazione. Sia W un moto Browniano su (Ω, F , P , (GtW )t≥0 ). Per ogni 0 = t0 < t1 < · · · < tn , le variabili
aleatorie Zk := Wtk −Wtk−1 , hanno distribuzione normale; inoltre, per le proprietà iii) e v) del moto Brownia-
no, Zk è indipendente da GtW k−1
e quindi da Z1 , . . . , Zk−1 ∈ mGtW
k−1
. Questo prova che (Z1 , . . . , Zn ) è un vettore
multi-normale con componenti indipendenti. Anche (Wt1 , . . . , Wtn ) è multi-normale perché si ottiene da
(Z1 , . . . , Zn ) mediante la trasformazione lineare
h
X
Wth = Zk , h = 1, . . . , n,
k=1

e questo prova che W è un processo Gaussiano. Osserviamo anche che, assumendo s < t, si ha
cov(Ws , Wt ) = cov(Ws , Wt − Ws + Ws ) = cov(Ws , Wt − Ws ) + var(Ws ) = s
per l’indipendenza di Ws e Wt − Ws : questo prova che cov(Ws , Wt ) = s ∧ t.
Viceversa, sia W un processo Gaussiano con funzione di media nulla e funzione di covarianza cov(Ws , Wt ) =
s ∧t. Poiché E [W0 ] = var(W0 ) = 0 si ha W0 = 0 q.c. Le proprietà ii) e iii) della definizione di moto Browniano
sono ovvie. Per provare la v) basta osservare che, se s < t, si ha
var(Wt − Ws ) = var(Wt ) + var(Ws ) − 2cov(Wt , Ws ) = t + s − 2s ∧ t = t − s.
Infine, dati τ ≤ s < t, il vettore (Wt − Ws , Wτ ) ha distribuzione normale perché combinazione lineare di
(Wτ , Ws , Wt ) e
cov(Wt − Ws , Wτ ) = cov(Wt , Wτ ) − cov(Ws , Wτ ) = τ − τ = 0.
10.2. PROPRIETÀ DI MARKOV E DI FELLER 273

Di conseguenza, Wt − Ws e Wτ sono indipendenti: poiché W è Gaussiano, ne segue anche che Wt − Ws è


indipendente da (Wτ1 , . . . , Wτn ) per ogni τ1 , . . . , τn ≤ s. Allora, per il Lemma 3.3.20, Wt − Ws è indipendente
da GsW e questo dimostra la validità della proprietà iv).
Corollario 10.1.5. Dato un moto Browniano W , la sua versione canonica W f (cfr. Definizione 9.2.4) è defini-
ta sullo spazio campionario delle funzioni continue, è un moto Browniano rispetto alla filtrazione generata
G W e assume valori nello spazio di Wiener (quindi ha tutte le traiettorie continue). La legge di W f, come
f

misura di probabilità sui Boreliani di C[0, +∞[, è detta misura di Wiener.


Esistono numerose dimostrazioni dell’esistenza di un moto Browniano: qui vediamo il risultato come
un corollario dei Teoremi di estensione e continuità di Kolmogorov.
Teorema 10.1.6. Un moto Browniano esiste.
Dimostrazione. Il passo principale è la costruzione di un moto Browniano sull’intervallo temporale limitato
[0, 1]. Per il Teorema di estensione di Kolmogorov (in particolare, per il Corollario 6.4.6) esiste un processo
(0) (0) (0)
Gaussiano W (0) = (Wt )t∈[0,1] con funzione di media nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Per il Teorema di continuità di Kolmogorov e l’Esempio 9.3.2, W (0) ammette una modificazione continua
che, per la Proposizione 10.1.4, verifica le proprietà del moto Browniano su [0, 1].
Ora prendiamo una successione (W (n) )n∈N di copie indipendenti di W (0) . “Incolliamo” tali processi
(0)
definendo Wt = Wt per t ∈ [0, 1] e
[t]−1
(k)
X [t]
Wt = W1 + Wt−[t] , t > 1,
k=0

dove [t] indica la parte intera di t. Allora si prova facilmente che W è un moto Browniano.
Osservazione 10.1.7. Per quanto visto nell’Esempio 9.3.2, un moto Browniano ammette una modificazione
con traiettorie non solo continue ma anche localmente α-Hölderiane per ogni α < 21 . L’esponente α è stret-
tamente minore di 12 e tale risultato non è migliorabile: per maggiori dettagli rimandiamo, per esempio, al
Cap.7 in [6]. Un classico risultato, la Legge del logaritmo iterato, descrive precisamente il comportamento
asintotico degli incrementi Browniani: vale
|Wt |
lim sup q =1 q.c.
t→0+ 2t log log 1t

Di conseguenza, quasi certamente le traiettorie di un moto Browniano non sono differenziabili in nessun
punto: precisamente, esiste N ∈ F , con P (N ) = 0, tale che per ogni ω ∈ Ω \ N la funzione t 7→ Wt (ω) non è
differenziabile in nessun punto di [0, +∞[.

10.2 Proprietà di Markov e di Feller


Sia W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ). Fissati t ≥ 0 e x ∈ R, poniamo

WTt,x := WT − Wt + x, T ≥ t.
t,x
 
Il processo W t,x = WT è chiamato moto Browniano di punto iniziale x al tempo t poiché gode delle
T ≥t
seguenti proprietà:
i) Wtt,x = x;

ii) quasi certamente le traiettorie T 7→ WTt,x sono funzioni continue;


274 CAPITOLO 10. MOTO BROWNIANO

iii) WTt,x ∈ mFT per ogni T ≥ t;

iv) WTt,x − WSt,x è indipendente da FS per ogni t ≤ S ≤ T ;

v) WTt,x − WSt,x ∼ N0,T −S per ogni t ≤ S ≤ T .


Osservazione 10.2.1. Notiamo esplicitamente che la filtrazione (FT )T ≥t è strettamente più grande della
filtrazione generata da W t,x : per esempio, per T = t > 0 si ha ovviamente σ (Wtt,x ) = {∅, Ω} ⊂ σ (Wt ) ⊆ Ft .
Per la Proposizione 7.3.2 vale il seguente
Teorema 10.2.2 (Proprietà di Markov). [!]
Sia W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ). Allora W è un processo di Markov con densità di
transizione Gaussiana
(x−y)2
1 − 2(T −t)
Γ (t, x; T , y) = p e , 0 ≤ t < T , x, y ∈ R,
2π(T − t)

e di conseguenza per ogni ϕ ∈ bB si ha


Z
E [ϕ(WT ) | Ft ] = Γ (t, Wt ; T , y)ϕ(y)dy,
R

o equivalentemente
Z
E [ϕ(WT ) | Wt = x] = Γ (t, x; T , y)ϕ(y)dy. (10.2.1)
R

Nel prossimo enunciato Z


u(h, x) := Γ (0, x; h, y)ϕ(y)dy (10.2.2)
R
indica la funzione che appare nell’espressione (10.2.1) dell’attesa condizionata.
Teorema 10.2.3. [!] Se ϕ ∈ bC(R) allora u ∈ C ∞ (R>0 × R) ∩ C (R≥0 × R) e risolve il problema di Cauchy

1
∂h u(h, x) = 2 ∂xx u(h, x), h > 0, x ∈ R,


(10.2.3)
u(0, x) = ϕ(x)

 x ∈ R.

Dimostrazione. Abbiamo già provato nell’Esempio 7.5.3 che u ∈ C ∞ (R>0 × R) e risolve l’equazione differen-
ziale in (10.2.3), essendo G = 12 ∂xx il generatore infinitesimale della distribuzione di transizione Gaussiana.
D’altra parte, un conto analogo a quello svolto nell’Esempio 4.1.3, mostra che

lim u(h, x) = ϕ(y)


(h,x)→(0,y)
h>0

e quindi u ∈ C (R≥0 × R) e u(0, ·) = ϕ. Si noti che l’ipotesi ϕ ∈ bC(R) serve solo1 a dimostrare la continuità
di u(h, x) fino a h = 0.
Abbiamo provato nell’Esempio 7.4.6 la seguente
Proposizione 10.2.4. Il moto Browniano verifica la proprietà di Feller forte.
Osservazione 10.2.5. [!] L’attesa condizionata E [ϕ(WT ) | Ft ] può essere approssimata numericamente in
diversi modi:
1 u ∈ C ∞ (R × R) per ogni ϕ ∈ bB.
>0
10.2. PROPRIETÀ DI MARKOV E DI FELLER 275

• con il metodo Monte Carlo, sfruttando la rappresentazione come valore atteso in (10.2.2);

• con un metodo di integrazione numerica utilizzando la rappresentazione integrale in (10.2.2);

• con un metodo di approssimazione numerica per il problema di Cauchy (10.2.3).

Viceversa, la rappresentazione probabilistica (10.2.2) della soluzione del problema di Cauchy (10.2.3) apre
la strada all’utilizzo dei metodi numerici stocastici per la risoluzione di equazioni alle derivate parziali.
Ricordiamo che per l’Osservazione 7.5.1 il generatore infinitesimale può essere interpretato come una
derivata direzionale media di ϕ lungo le traiettorie Browniane T 7→ WTt,x che partono dal punto x: è interes-
sante il fatto che tale derivata direzionale media sia la derivata seconda rispetto al punto di partenza del
processo.

Osservazione 10.2.6 (Equazione del calore). L’operatore differenziale

1
H= ∂ − ∂h , (h, x) ∈ R2 ,
2 xx
che appare in (10.2.3) è chiamato operatore del calore forward: esso interviene nei modelli che descrivono il
fenomeno fisico della diffusione del calore in un corpo. Precisamente, la soluzione u(h, x) del problema di
Cauchy (10.2.3) rappresenta la temperatura, al tempo h e nella posizione x, di un corpo di lunghezza infinita di
cui è assegnata la temperatura ϕ al tempo iniziale 0.
Nella teoria delle equazioni differenziali, Γ è detta soluzione fondamentale dell’operatore del calore poiché,
tramite la formula risolutiva (10.2.2), fornisce la soluzione problema (10.2.3) per ogni dato iniziale ϕ.
Si dimostra anche che u in (10.2.2) è l’unica soluzione limitata di (10.2.3). Uno dei legami profondi fra
la teoria dei processi stocastici e quella delle equazioni alle derivate parziali è il fatto che la densità di
transizione di alcuni processi (ad esempio, il moto Browniano) è la soluzione fondamentale di un opportuno
operatore differenziale (l’operatore del calore nel caso del moto Browniano). Nella Sezione 19.2 diamo una
trattazione generale sulla risolubilità del problema di Cauchy per equazioni alle derivate parziali di tipo
parabolico e nel Capitolo 21 approfondiamo tale legame nel caso delle equazioni differenziali stocastiche.
L’operatore differenziale
1
H∗ = ∂xx + ∂t (10.2.4)
2
è chiamato operatore del calore backward e si ottiene formalmente da H per integrazione per parti:
" "
(Hf )gdxdt = f (H∗ g)dxdt

per ogni coppia di funzioni test f , g. Per questo motivo si dice anche che H∗ è l’operatore aggiunto di
H: esso interviene in modo naturale in finanza matematica, nella valutazione di certi strumenti finanziari
complessi, detti derivati, di cui è noto il valore futuro Φ e il prezzo attuale è dato dalla soluzione di un
problema di Cauchy per H∗ con dato finale Φ.

10.2.1 Distribuzioni finito-dimensionali


La proprietà di Markov permette di determinare l’espressione esplicita delle distribuzioni finito-di-
mensionali di W e, più precisamente, della densità del vettore (Wt1 , . . . , Wtn ). Come conseguenza della
Proposizione 7.4.1 (in particolare, la formula (7.4.2)) abbiamo il seguente

Teorema 10.2.7 (Distribuzioni finito-dimensionali). [!] Sia W = (Wt )t≥0 un moto Browniano. Per ogni
0 < t1 < · · · < tn , il vettore (Wt1 , . . . , Wtn ) ha distribuzione multi-normale con densità

γ(Wt
1
,...,Wtn ) (x1 , . . . , xn ) = Γ (0, 0; t1 , x1 )Γ (t1 , x1 ; t2 , x2 ) · · · Γ (tn−1 , xn−1 ; tn , xn ).
276 CAPITOLO 10. MOTO BROWNIANO

Esempio 10.2.8. [!] Siano W un moto Browniano reale e 0 < t < T . Abbiamo le seguenti espressioni per le
densità congiunte di Wt e WT :
(T x −2txy+ty ) 2 2
1 −
γ(Wt ,WT ) (t, x; T , y) = γ(WT ,Wt ) (T , y; t, x) = p e 2t(T −t) .
2π t(T − t)
Per la Proposizione 5.3.20 abbiamo le densità condizionate
γ(WT ,Wt ) (T , y; t, x)
γWT |Wt (T , y; t, x) = = Γ (t, x; T , y),
γWt (t, x)
2
T x− Tt y
( )
γ(Wt ,WT ) (t, x; T , y) 1 −
γWt |WT (t, x; T , y) = =q e 2t(T −t) .
γWT (T , y) t(T −t)
2π T

Dunque, in accordo col Teorema 10.2.2, abbiamo


µWT |Wt = NWt ,T −t .
Inoltre si ha anche
µWt |WT = N t W t(T −t) .
T T, T

10.3 Martingale Browniane


Proposizione 10.3.1. Il moto Browniano è una martingala.
Dimostrazione. Sia W un moto Browniano sullo spazio (Ω, F , P , (Ft )t≥0 ). Per la disuguaglianza di Hölder
si ha
h i1 √
E [|Wt |] ≤ E Wt2 2 = t
e quindi W è un processo sommabile. La tesi segue dalla Proposizione 7.3.4, essendo W un processo a
media costante nulla e incrementi indipendenti.
Esempio 10.3.2. [!] Due esempi notevoli di martingale costruite a partire da un moto Browniano sono:
i) la martingala quadratica
(1)
Mt = Wt2 − t;
ii) la martingala esponenziale
(2) σ2 t
Mt = eσ Wt − 2 ,
dove σ ∈ R è un parametro fissato.
Per 0 ≤ t ≤ T si ha
 
(1)
h i h i
E MT | Ft = E (WT − Wt + Wt )2 | Ft − T = E (WT − Wt )2 | Ft +2Wt E [WT − Wt | Ft ] +Wt2 − T = Wt2 − t.
| {z } | {z }
=T −t =0

La proprietà di martingala di M (2) si prova in modo analogo.


Diamo un’utile caratterizzazione del moto Browniano in termini di martingale esponenziali. Conside-
riamo il processo
η η2
Mt = eiηWt + 2 t (10.3.1)
dove i è l’unità immaginaria, W è un moto Browniano e η ∈ R. Per l’Esempio 10.3.2 Mη è una martingala e
viceversa vale la seguente
10.3. MARTINGALE BROWNIANE 277

Proposizione 10.3.3. Sia W un processo continuo definito sullo spazio (Ω, F , P , (Ft )) e tale che W0 = 0 q.c.
Se per ogni η ∈ R il processo M η in (10.3.1) è una martingala, allora W è un moto Browniano.

Dimostrazione. È sufficiente verificare che per 0 ≤ s ≤ t:

i) Wt − Ws ha distribuzione normale N0,t−s ;

ii) Wt − Ws è indipendente da Fs .
η
La proprietà di martingala di Mt equivale a
h i η2
E eiη(Wt −Ws ) | Fs = e− 2 (t−s) , η ∈ R.

Applicando il valore atteso ricaviamo la funzione caratteristica di Wt − Ws :


h i η2
E eiη(Wt −Ws ) = e− 2 (t−s) , η ∈ R,

da cui la tesi, anche in base al punto 14) del Teorema 5.2.10.

Il seguente risultato fornisce un metodo generale per costruire altre martingale componendo un moto
Browniano con una funzione f = f (t, x) sufficientemente regolare. Assumiamo su f anche una condizione
di crescita del tipo
α
|f (t, x)| ≤ cT ecT |x| , (t, x) ∈ [0, T ] × R, (10.3.2)
con cT costante positiva dipendente da T e α ∈ [0, 2[: ciò garantisce la sommabilità di f quando è integrata
contro la Gaussiana Γ . Nel seguente enunciato W indica un moto Browniano sullo spazio (Ω, F , P , (Ft )t≥0 )
e H∗ è l’operatore del calore backward in (10.2.4).

Teorema 10.3.4. [!] Sia f = f (t, x) ∈ C 1,2 (R≥0 × R) che verifica, insieme alle sue derivate prime e seconde, la
condizione di crescita (10.3.2). Allora il processo
Z t
Mt := f (t, Wt ) − (H∗ f )(s, Ws )ds, t ≥ 0,
0

è una martingala.

Dimostrazione. Per ogni s > t e x ∈ R, si ha


h i Z  
t,x
∂s E f (s, Ws ) = ∂s Γ (t, x; s, y)f (s, y) dy =
R

(essendo ∂s Γ (t, x; s, y) = 12 ∂yy Γ (t, x; s, y))


Z Z
1
= ∂yy Γ (t, x; s, y)f (s, y)dy + Γ (t, x; s, y)∂s f (s, y)dy =
R2 R

(integrando per parti nel primo integrale)


Z
= Γ (t, x; s, y)(H∗ f )(s, y)dy.
R

Posto x = Wt nella precedente formula, per la proprietà di Markov (nella forma (7.2.2)), si ha

∂s E [f (s, Ws ) | Ft ] = E [(H∗ f )(s, Ws ) | Ft ] .


278 CAPITOLO 10. MOTO BROWNIANO

Ora integriamo in s fra t e T per ottenere


Z T
E [f (T , WT ) | Ft ] − f (t, Wt ) = E [(H∗ f )(s, Ws ) | Ft ] ds.
t

È un semplice verifica2 il fatto che si possano scambiare i segni di integrale e attesa condizionata nel
membro a destra e quindi vale
Z T "Z T #
∗ ∗
E [(H f )(s, Ws ) | Ft ] ds = E (H f )(s, Ws )ds | Ft .
t t

Combinando le formule precedenti, otteniamo


" Z T #

E [MT − Mt | Ft ] ≡ E f (T , WT ) − f (t, Wt ) − (H f )(s, Ws )ds | Ft = 0
t

che conclude la prova.

2 Infatti Z ∈ mσ (W ) e per ogni G ∈ F si ha


t t
" ZT #
E [Z1G ] = E 1G E [(H∗ f )(s, Ws ) | Ft ] ds =
t
(per il Teorema di Fubini)
ZT
= E [1G E [(H∗ f )(s, Ws ) | Ft ]] ds
t
ZT
= E [1G (H∗ f )(s, Ws )] ds =
t
(riapplicando il Teorema di Fubini)
"Z T #
=E 1G (H∗ f )(s, Ws )ds .
t
Capitolo 11

Tempi d’arresto

n
B > n1
P
xi
i=1
(Be greater than average)

Kennedy Space Center

I tempi d’arresto sono uno strumento fondamentale nello studio dei processi stocastici: si tratta di
particolari tempi aleatori che soddisfano una proprietà di coerenza rispetto all’assegnata filtrazione delle
informazioni. I tempi d’arresto sono lo strumento cruciale per la prova di alcuni risultati profondi sulla
struttura delle martingale: il teorema di optional sampling, le disuguaglianze massimali e il lemma di
upcrossing. Le difficoltà principali della prova di questi risultati sono già evidenti in ambito discreto. Per
passare al tempo continuo sarà necessario introdurre ulteriori ipotesi sulle filtrazioni, le cosiddette ipotesi
usuali. La seconda parte del capitolo raccoglie alcuni risultati di carattere tecnico: si mostra come ampliare
le filtrazioni di processi di Markov e di altre classi importanti di processi stocastici, in modo da garantire le
ipotesi usuali mantenendo valide le proprietà dei processi.

11.1 Il caso discreto


In questa sezione consideriamo il caso in cui ci siano un numero finito di istanti temporali e per questo
fissiamo uno spazio di probabilità con filtrazione (Ω, F , P , (Fn )n=0,1,...,N ) con N ∈ N fissato.

Definizione 11.1.1 (Tempo d’arresto discreto). Un tempo d’arresto discreto è una variabile aleatoria

τ : Ω −→ {0, 1, . . . , N , ∞}

tale che
(τ = n) ∈ Fn , n = 0, . . . , N . (11.1.1)

Usiamo il simbolo “∞” per indicare un numero fissato non appartenente all’insieme {0, 1, . . . , N } degli
istanti temporali considerati: il motivo dell’utilizzo di tale simbolo sarà più chiaro in seguito, per esempio
nell’Esempio 11.1.3. Assumiamo ∞ > N cosicché

(τ ≥ n) := (τ = n) ∪ · · · ∪ (τ = N ) ∪ (τ = ∞)

per ogni n = 0, . . . , N .

Osservazione 11.1.2. Notiamo che:

279
280 CAPITOLO 11. TEMPI D’ARRESTO

i) la condizione (11.1.1) equivale a

(τ ≤ n) ∈ Fn , n = 0, 1, . . . , N ;

ii) si ha
(τ ≥ n + 1) = (τ ≤ n)c ∈ Fn , n = 0, . . . , N , (11.1.2)
e in particolare (τ = ∞) ∈ FN ;
iii) se τ, σ sono tempi d’arresto allora τ ∧ σ e τ ∨ σ sono tempi d’arresto poiché

(τ ∧ σ ≤ n) = (τ ≤ n) ∪ (σ ≤ n), (τ ∨ σ ≤ n) = (τ ≤ n) ∩ (σ ≤ n), n = 0, . . . , N ;

iv) i tempi costanti sono tempi d’arresto: precisamente, se τ ≡ k per un certo k ∈ {0, . . . , ∞}, allora τ è un
tempo d’arresto.
Esempio 11.1.3 (Tempo d’uscita). Dati X = (Xn )n=0,1,...,N , processo adattato a valori reali e H ∈ B, poniamo

J(ω) = {n | Xn (ω) < H}, ω ∈ Ω.

Il primo tempo d’uscita di X da H è definito da



min J(ω) se J(ω) , ∅,


τ(ω) = 
∞
 altrimenti.

D’ora in poi adotteremo la convenzione min ∅ = ∞ e quindi scriveremo in modo più compatto

τ = min{n | Xn < H}.

È facile vedere che τ è un tempo d’arresto: infatti (τ = 0) = (X0 < H) ∈ F0 e si ha

(τ = n) = (X0 ∈ H) ∩ · · · ∩ (Xn−1 ∈ H) ∩ (Xn < H) ∈ Fn , n = 1, . . . , N .

Al contrario, l’ultimo tempo di uscita



max J(ω) se J(ω) , ∅,


τ̄(ω) = 
∞
 altrimenti,

non è un tempo d’arresto.


Notazione 11.1.4. Dati un tempo d’arresto discreto τ e un processo stocastico X = (Xn )n=0,1,...,N , poniamo
Xτ := Xτ∧N ossia, per ogni ω ∈ Ω,

Xτ(ω) (ω) se τ(ω) ∈ {0, . . . , N },


(Xτ )(ω) := 
XN (ω)
 se τ(ω) = ∞,

Fτ := {A ∈ F | A ∩ (τ = n) ∈ Fn per ogni n = 0, . . . , N }. (11.1.3)

È facile provare che Fτ è una σ -algebra: infatti, per esempio, se A ∈ Fτ allora Ac ∩ (τ = n) = (τ = n) \


(A ∩ (τ = n)) ∈ Fn e quindi Ac ∈ Fτ . Notiamo che F∞ (ossia Fτ con τ ≡ ∞) è uguale a F .
La seguente proposizione raccoglie altre utili proprietà di Fτ .
11.1. IL CASO DISCRETO 281

Proposizione 11.1.5. Dati τ, σ tempi d’arresto discreti, si ha:


i) se τ ≡ k per un certo k ∈ {0, . . . , N } allora Fτ = Fk ;
ii) se τ ≤ σ allora Fτ ⊆ Fσ ;
iii) (τ ≤ σ ) ∈ Fτ ∩ Fσ ;
iv) se X = (Xn )n=0,...,N è un processo adattato allora Xτ ∈ mFτ .
Dimostrazione. La i) segue dal fatto che se τ ≡ k allora

A se k = n,


A ∩ (τ = n) = 
∅ se k , n.

Per quanto riguarda la ii) basta osservare che, dato n ∈ {0, . . . , N }, se τ ≤ σ allora (σ = n) ⊆ (τ ≤ n) e di
conseguenza per ogni A ∈ Fτ si ha
A ∩ (σ = n) = A ∩ (τ ≤ n) ∩ (σ = n) .
| {z } | {z }
∈Fn ∈Fn

La iii) segue dal fatto che, ricordando la (11.1.2),


(τ ≤ σ ) ∩ (τ = n) = (σ ≥ n) ∩ (τ = n) ∈ Fn ,
(τ ≤ σ ) ∩ (σ = n) = (τ ≤ n) ∩ (σ = n) ∈ Fn .
Infine, consideriamo H ∈ B: per provare che (Xτ ∈ H) ∈ Fτ basta osservare che
(Xτ ∈ H) ∩ (τ = n) = (Xn ∈ H) ∩ (τ = n) ∈ Fn , n = 0, . . . , N .
Questo prova la iv).
Definizione 11.1.6 (Processo stoppato). Dati un processo X = (Xn )n=0,...,N e un tempo d’arresto τ, il pro-
cesso stoppato X τ = (Xnτ )n=0,...,N è definito da
Xnτ = Xn∧τ , n = 0, . . . , N .
Proposizione 11.1.7. Si ha:
i) se X è adattato anche X τ lo è;
ii) se X è una sub-martingala anche X τ lo è.
Dimostrazione. La i) segue dal fatto che, per n = 0, . . . , N , si ha1
τ∧n
X
Xτ∧n = X0 + (Xk − Xk−1 )
k=1
n
X
= X0 + (Xk − Xk−1 )1(k≤τ) ,
k=1

e, per la (11.1.2), (k ≤ τ) ∈ Fk−1 . La ii) segue applicando l’attesa condizionata a Fn−1 all’identità
Xnτ − Xn−1
τ
= (Xn − Xn−1 )1(τ≥n) , n = 1, . . . , N ,
e ricordando che (τ ≥ n) ∈ Fn−1 .
0
1 Con la convenzione P · · · = 0
k=1
282 CAPITOLO 11. TEMPI D’ARRESTO

Dalla Proposizione 11.1.7 segue anche che se X è una martingala (o una super-martingala) anche X τ lo
è. Lasciamo per esercizio la prova del seguente
Lemma 11.1.8. Siano X ∈ L1 (Ω, F , P ) e Z ∈ L1 (Ω, G , P ), dove G è una sotto-σ -algebra di F . Allora2 Z ≤
E [X | G ] se e solo se
E [Z1G ] ≤ E [X1G ] per ogni G ∈ G .
Proposizione 11.1.9. Sia X = (Xn )n=0,1,...,N un processo sommabile e adattato su (Ω, F , P , (Fn )n=0,1,...,N ). Le
seguenti proprietà sono equivalenti:
i) X è una sub-martingala;
ii) per ogni coppia di tempi d’arresto σ , τ si ha

Xτ∧σ ≤ E [Xτ | Fσ ] ;

iii) per ogni tempo d’arresto τ0 il processo stoppato X τ0 è una sub-martingala.


Dimostrazione. [i) =⇒ ii)] Osserviamo che
X
Xτ = Xτ∧σ + (Xk − Xk−1 ) = (11.1.4)
σ <k≤τ

(ricordando che, per la Notazione 11.1.4, Xτ = Xτ∧N )


N
X
= Xτ∧σ + (Xk − Xk−1 )1(σ <k≤τ) .
k=1

Ora, per i punti ii) e iv) della Proposizione 11.1.5, Xτ∧σ ∈ mFτ∧σ ⊆ mFσ e quindi condizionando (11.1.4) a
Fσ si ha
N
X h i
E [Xτ | Fσ ] = Xτ∧σ + E (Xk − Xk−1 )1(σ <k≤τ) | Fσ .
k=1
h i
Per concludere è sufficiente provare che E (Xk − Xk−1 )1(σ <k≤τ) | Fσ ≥ 0 per k = 1, . . . , N o equivalentemente,
grazie al Lemma 11.1.8,
h i h i
E Xk−1 1(σ <k≤τ) 1G ≤ E Xk 1(σ <k≤τ) 1G , G ∈ Fσ , k = 1, . . . , N . (11.1.5)

La (11.1.5) segue dalla proprietà di sub-martingala di X una volta osservato che, per definizione di Fσ e
per l’Osservazione 11.1.2-ii), vale

(σ < k ≤ τ) ∩ G = (σ < k) ∩ G ∩ (τ ≥ k) .
| {z } | {z }
∈Fk−1 ∈Fk−1

[ii) =⇒ iii)] Per il punto ii) con τ = τ0 ∧ n e σ = n − 1 si ha


h i
Xτ0 ∧(n−1) ≤ E Xτ0 ∧n | Fn−1 , n = 1, . . . , N ,

da cui la proprietà di sub-martingala di X τ0 .


[iii) =⇒ i)] La tesi è immediata scegliendo τ0 ≡ ∞.
2 Z ≤ E [X | G ] significa Z ≤ Y q.c. se Y = E [X | G ].
11.1. IL CASO DISCRETO 283

11.1.1 Optional sampling, disuguaglianze massimali e lemma di upcrossing


Il seguente risultato è immediata conseguenza della Proposizione 11.1.9 (si ricordi anche la Notazione
11.1.4).
Teorema 11.1.10 (Teorema di optional sampling). [!!!] Sia X = (Xn )n=0,...,N una sub-martingala sullo
spazio (Ω, F , P , (Fn )n=0,...,N ). Se τ, σ sono tempi d’arresto discreti tali che σ ≤ τ allora

Xσ ≤ E [Xτ | Fσ ] . (11.1.6)

Se X è una martingala (rispettivamente, una super-martingala) allora la (11.1.6) diventa un’uguaglianza


(rispettivamente, si inverte il senso della disuguaglianza).
Proviamo ora due importanti conseguenze del Teorema di optional sampling:
• le disuguaglianze massimali di Doob che forniscono una stima del massimo di una martingala ossia di
“quanto grande” può essere una martingala;
• il Lemma di risalita (Upcrossing lemma) che fornisce una stima sul comportamento locale di una
martingala e in particolare di “quante volte può oscillare intorno ad un intervallo”.
Una caratteristica fondamentale di entrambi i risultati è di fornire stime che dipendono solo dal valore
finale della martingala e non dal numero N di istanti temporali considerato: questo fatto cruciale permetterà
di passare “facilmente” dal caso discreto a quello continuo come vedremo nel Capitolo 13.
Teorema 11.1.11 (Disuguaglianze massimali di Doob). [!!] Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Allora:
i) per ogni λ > 0 vale
E [|MN |]
 
P max |Mn | ≥ λ ≤ ; (11.1.7)
0≤n≤N λ
ii) per ogni p > 1 vale !p
p
 
p
E max |Mn | ≤ E [|MN |p ] . (11.1.8)
0≤n≤N p−1

Dimostrazione. La (11.1.7) è una versione della disuguaglianza di Markov (4.1.2), con p = 1, per le mar-
tingale discrete. Se M è una martingala allora, per la Proposizione 6.5.11, |M| è una sub-martingala non-
negativa: dunque basta provare la tesi nell’ipotesi che M sia una sub-martingala non-negativa. In tal caso
indichiamo con τ il primo istante in cui M supera il livello λ,

τ = min{n | Mn ≥ λ},

e poniamo
M̄ = max Mn .
0≤n≤N

Per l’Esempio 11.1.3 e l’Osservazione 11.1.2-ii), τ è un tempo d’arresto e vale (M̄ ≥ λ) ∈ Fτ∧N poiché

(M̄ ≥ λ) ∩ (τ ∧ N = n) = (τ ≤ N ) ∩ (τ ∧ N = n) = (τ = n) ∈ Fn , n = 0, . . . , N .

Allora si ha
h i h i
λP (M̄ ≥ λ) = E λ1(M̄≥λ) ≤ E Mτ∧N 1(M̄≥λ) ≤

(per il Teorema di optional sampling)


h i
≤ E E [MN | Fτ∧N ] 1(M̄≥λ) =
284 CAPITOLO 11. TEMPI D’ARRESTO

(poiché (M̄ ≥ λ) ∈ Fτ∧N )


h h ii h i
= E E MN 1(M̄≥λ) | Fτ∧N = E MN 1(M̄≥λ) (11.1.9)

da cui segue la (11.1.7).


p
Ora osserviamo che M̄ p = max Mn . Dalla (4.1.5) abbiamo
0≤n≤N

h i Z +∞  
p
E M̄ = p λp−1 P M̄ ≥ λ dλ ≤
0

(per la (11.1.9))
Z +∞ h i
≤p λp−2 E MN 1(M̄≥λ) dλ ≤
0

(per il teorema di Fubini)



 Z 
p−2 p h i
E MN M̄ p−1 ≤
 
≤ pE MN λ dλ =
0 p−1
p
(per la disuguaglianza di Hölder, essendo p−1 l’esponente coniugato di p)

p h p i 1 h i1− 1
≤ E MN p E M̄ p p
p−1
h i1− 1
da cui segue la (11.1.8) dividendo per E M̄ p p ed elevando alla p.

Corollario 11.1.12 (Disuguaglianze massimali di Doob). [!!] Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Per ogni tempo d’arresto discreto τ si ha:
i) per ogni λ > 0 vale
E [|Mτ |]
 
P max |Mn | ≥ λ ≤ ;
0≤n≤τ∧N λ
ii) per ogni p > 1 vale !p
p
 
E max |Mn |p ≤ E [|Mτ |p ] .
0≤n≤τ∧N p−1

Dimostrazione. É sufficiente applicare il Teorema 11.1.11 alla martingala stoppata M τ (cfr. Definizione
11.1.6 e Proposizione 11.1.7).
Proviamo ora un risultato, decisamente bizzarro e sorprendente, che giocherà un cruciale nello studio
delle proprietà di regolarità e di convergenza delle martingale: il Lemma di “risalita” (Upcrossing lemma).
Esso mostra che il numero di “oscillazioni” di una martingala è controllato dal suo valore atteso finale.
Questo risultato è inaspettato e va contro l’idea che potremmo esserci fatti di una martingala come un
processo le cui traiettorie sono fortemente “oscillanti” (si pensi, per esempio, al moto Browniano).
Per formalizzare il risultato, fissiamo a, b ∈ R con a < b. Il Lemma di risalita fornisce una stima del
numero di volte in cui una martingala “risale” da un valore minore di a a un valore maggiore di b. Più
precisamente, data una martingala M = (Mn )n=0,...,N sullo spazio (Ω, F , P , (Fn )n=0,...,N ), poniamo τ0 := 0 e,
ricorsivamente al variare di k ∈ N,

σk := min{n ∈ {τk−1 , . . . , N } | Mn ≤ a}, τk := min{n ∈ {σk , . . . , N } | Mn ≥ b},


11.1. IL CASO DISCRETO 285

assumendo al solito la convenzione min ∅ = ∞. Per definizione, τk ≥ σk ≥ τk−1 e σk , τk sono tempi d’arresto a
valori in {0, . . . , N , ∞}. Se τk (ω) ≤ N allora τk (ω) è l’istante della k-esima risalita della traiettoria M(ω); invece,
se τk (ω) = ∞ allora il numero totale di risalite della traiettoria M(ω) è minore di k. In definitiva il numero di
risalite di M su [a, b] è dato da
νa,b := max{k ∈ N ∪ {0} | τk ≤ N }. (11.1.10)
Un ingrediente fondamentale della prova del Lemma di risalita è il Teorema di optional sampling in base
al quale si ha h i h i
E Mτk ≤ E Mσk+1 , k ∈ N. (11.1.11)
Ora è bene ricordare che, per definizione (cfr. Notazione 11.1.4), Mτk ≡ Mτk ∧N cosicché Mτk = MN su
(τk = ∞): in particolare, non è detto che Mτk (ω) ≥ b se τk (ω) = ∞. Questa osservazione è importante perché,
tra un istante di risalita τk (ω) ≤ N e il successivo, la traiettoria M(ω) deve “ridiscendere” da Mτk (ω) ≥ b
a Mσk+1 (ω) ≤ a. Il Teorema di optional sampling dice che questo non può accadere “troppo spesso”: se
h i h i
fosse σk+1 ≤ N , per la (11.1.11) si avrebbe b ≤ E Mτk ≤ E Mσk+1 ≤ a e questo è assurdo per l’ipotesi a < b.
Dunque, per ogni k ∈ N, l’evento (τk = ∞) non può essere trascurabile e, come già detto, tale evento è
identificabile con l’insieme delle traiettorie che hanno meno di k risalite. In questo senso la proprietà di
martingala e il Teorema di optional sampling limitano il numero di possibili risalite, e quindi di oscillazioni,
di M su [a, b]. Ora è chiaro che νa,b ≤ N , anzi più precisamente νa,b ≤ N2 se N ≥ 2: il fatto sorprendente del
Lemma di risalita è che fornisce una stima di νa,b indipendente da N .
Lemma 11.1.13 (Lemma di risalita). [!!] Per ogni sub-martingala M = (Mn )n=0,...,N e a < b, si ha
  E [(MN − a)+ ]
E νa,b ≤
b−a
dove νa,b in (11.1.10) indica il numero di risalite di M su [a, b].
Dimostrazione. Poiché a, b sono fissati, nel corso della dimostrazione indichiamo νa,b semplicemente con ν.
Per definizione, τk ≤ N su (k ≤ ν) e τk = ∞ su (k > ν): pertanto, ricordando ancora che Mτ ≡ Mτ∧N per ogni
tempo d’arresto τ, si ha
N
X ν
X
(Mτk − Mσk ) = (Mτk − Mσk ) + Mτν+1 − Mσν+1 . (11.1.12)
k=1 k=1

Ora c’è un piccolo problema: l’ultimo termine Mτν+1 −Mσν+1 = MN −Mσν+1 può avere segno negativo (poiché
MN potrebbe anche essere minore di a). Per risolvere questo problema (vedremo tra poco quale sarà il
vantaggio) introduciamo il processo Y definito da Yn = (Mn − a)+ . Ricordiamo che Y è una sub-martingala
non-negativa (Proposizione 6.5.11) e il numero di risalite di M su [a, b] è uguale al numero di risalite di Y
su [0, b − a] poiché

σk = min{n ∈ {τk−1 , . . . , N } | Yn = 0}, τk = min{n ∈ {σk , . . . , N } | Yn ≥ b − a}.

Riscrivendo la (11.1.12) per Y , ora abbiamo


N
X ν
X ν
X
(Yτk − Yσk ) = (Yτk − Yσk ) + Yτν+1 − Yσν+1 ≥ (Yτk − Yσk ) ≥ (b − a)ν, (11.1.13)
k=1 k=1 k=1

poiché3 Yτν+1 − Yσν+1 ≥ 0. Per concludere, osserviamo che YN = YσN +1 e


N
X
YN ≥ YσN +1 − Yσ1 = (Yσk+1 − Yσk )
k=1
3 Si ha Y
τν+1 − Yσν+1 = YN ≥ 0 su (σν+1 ≤ N ) e Yτν+1 − Yσν+1 = 0 su (σν+1 = ∞).
286 CAPITOLO 11. TEMPI D’ARRESTO

N
X N
X
= (Yσk+1 − Yτk ) + (Yτk − Yσk ) ≥
k=1 k=1

(per la (11.1.13))

N
X
≥ (Yσk+1 − Yτk ) + (b − a)ν.
k=1

Applicando il valore atteso e il Teorema di optional sampling (la (11.1.11) con M = Y ) abbiamo infine la
tesi
E [YN ] ≥ E [(b − a)ν] .

Esercizio 11.1.14. Provare che, per ogni a < b, una funzione continua f : [0, 1] −→ R può avere solo un
numero finito di risalite su [a, b].

11.2 Il caso continuo


Lo studio dei tempi d’arresto nel caso continuo I = R≥0 richiede ulteriori ipotesi di carattere tecnico
sulle filtrazioni, le cosiddette “ipotesi usuali”, di cui discutiamo nelle prossime sezioni.

11.2.1 Ipotesi usuali e tempi d’arresto


Definizione 11.2.1 (Ipotesi usuali). Sia (Ft )t≥0 una filtrazione nello spazio completo (Ω, F , P ). Diciamo
che (Ft )t≥0 verifica le ipotesi usuali se:

i) è completa, ossia F0 (e quindi anche Ft per ogni t > 0) contiene la famiglia N degli eventi4 trascura-
bili;

ii) è continua a destra, ossia per ogni t ≥ 0 vale Ft = Ft+ dove


\
Ft+ := Ft+ε . (11.2.1)
ε>0

Esempio 11.2.2. Se X è adattato ad una filtrazione (Ft )t≥0 che verifica le ipotesi usuali, allora anche ogni
modificazione di X è adattata a (Ft )t≥0 . Senza l’ipotesi di completezza della filtrazione, l’affermazione è
falsa.

L’ipotesi di continuità a destra della filtrazione è molto più sottile: essa significa che la conoscenza delle
informazioni fino al tempo t, rappresentate da Ft , permette di conoscere cosa succede “subito dopo” t,
ossia Ft+ . Per capire meglio questo fatto, che ora può apparire oscuro, introduciamo i concetti di tempo
d’arresto in R≥0 e tempo d’uscita di un processo adattato.

Definizione 11.2.3 (Tempo d’arresto). In uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ), un tempo d’arresto
è una variabile aleatoria5
τ : Ω −→ R≥0 ∪ {∞}
tale che (τ < t) ∈ Ft per ogni t > 0.
4 Per ipotesi (Ω, F , P ) è completo e quindi ogni insieme trascurabile è un evento.
5 Ossia vale (τ ∈ H) ∈ F per ogni H ∈ B. Di conseguenza anche (τ = ∞) = (τ ∈ [0, ∞))c ∈ F .
11.2. IL CASO CONTINUO 287

Esempio 11.2.4 (Tempo di uscita). [!] Dati un processo X = (Xt )t≥0 e H ⊆ R poniamo

inf J(ω) se J(ω) , ∅,


τ(ω) =  dove J(ω) = {t ≥ 0 | Xt (ω) < H}.
∞
 se J(ω) = ∅,

Nel seguito scriveremo anche


τ = inf{t ≥ 0 | Xt < H}
assumendo per convenzione che l’estremo inferiore dell’insieme vuoto sia ∞ cosicché τ(ω) = ∞ se Xt (ω) ∈
H per ogni t ≥ 0. Diciamo che τ è il tempo di uscita di X da H.
Proposizione 11.2.5 (Tempo d’uscita da un chiuso). Se X è continuo6 e adattato a (Ft )t≥0 e H è chiuso
allora il tempo di uscita τ di X da H è un tempo d’arresto.
Dimostrazione. Poiché H c è aperto e X è continuo, per ogni t > 0 si ha
[
(τ < t) = (Xs ∈ H c )
s∈Q∩[0,t)

e la tesi segue dal fatto che (Xs ∈ H c) ∈ F t per s ≤ t poiché X è adattato a (Ft )t≥0 .
Dimostreremo più avanti, nell’Esempio 11.2.25, che anche il tempo d’uscita da un aperto è un tempo
d’arresto. Il risultato è vero anche per un Boreliano qualsiasi, ma è molto più difficile da provare (si veda,
per esempio, [6], Sezione 16.2).
Lemma 11.2.6. Se (Ft )t≥0 verifica le ipotesi usuali allora τ è un tempo d’arresto se e solo se (τ ≤ t) ∈ Ft per
ogni t ≥ 0.
Dimostrazione. Si ha [ 
(τ < t) = τ ≤ t − n1 .
n∈N
 
D’altra parte, τ ≤ t − 1
n ∈F 1 ⊆ Ft per ogni n ∈ N, da cui segue che τ è un tempo d’arresto.
t− n
Viceversa, se τ è un tempo d’arresto allora per ogni ε > 0 si ha
\ 
(τ ≤ t) = τ < t + n1 ∈ Ft+ε .
n∈N
1
n <ε

Quindi \
(τ ≤ t) ∈ Ft+ε = Ft
ε>0
grazie all’ipotesi di continuità a destra della filtrazione.
Osservazione 11.2.7. Se (Ft )t≥0 verifica le ipotesi usuali e τ è un tempo d’arresto allora
(τ = t) = (τ ≤ t) \ (τ < t) ∈ Ft .
Inoltre \ [
(τ = ∞) = (τ ≥ t) ∈ Ft .
t≥0 t≥0
Notiamo che l’unione di σ -algebre non è in generale una σ -algebra. Pertanto indichiamo con
[ !
F∞ := σ Ft (11.2.2)
t≥0

la più piccola σ -algebra che contiene Ft per ogni t ≥ 0. Chiaramente (τ = ∞) ∈ F∞ .


6 Il risultato vale anche se X è continuo a destra q.c.
288 CAPITOLO 11. TEMPI D’ARRESTO

Osservazione 11.2.8. [!] Commentiamo l’Esempio 11.2.4 alla luce del Lemma 11.2.6. Osserviamo che se
τ è il tempo di uscita di X da H allora Xτ sta sul bordo di H, Xτ ∈ ∂H, e quindi in particolare appartiene
ancora ad H, essendo H chiuso. Ora si noti la differenza fra gli eventi

(τ < t) = “X esce da H prima del tempo t”,


(τ ≤ t) = “X esce da H prima o subito dopo t”.

Intuitivamente, è plausibile che si possa dimostrare (è ciò che abbiamo fatto nel Lemma 11.2.6!) che (τ <
t) ∈ Ft ossia che il fatto che X esca da H prima del tempo t sia osservabile in base alla conoscenza di cosa è successo
fino al tempo t (cioè Ft , in particolare conoscendo la traiettoria del processo fino al tempo t). Al contrario,
sembra impossibile poter provare che (τ ≤ t) ∈ Ft considerando che, se τ(ω) = t, allora Xt (ω) ∈ ∂H e
potendo osservare la traiettoria di X solo fino al tempo t (ossia Ft ) non possiamo sapere se X(ω) continuerà
a rimanere dentro H oppure uscirà da H immediatamente dopo t. In effetti, per una filtrazione generica
(τ ≤ t) < Ft , ossia la condizione (τ < t) ∈ Ft è più debole di (τ ≤ t) ∈ Ft .
Tuttavia se (Ft )t≥0 verifica le ipotesi usuali (in particolare, la continuità da destra) allora le due con-
dizioni (τ < t) ∈ Ft e (τ ≤ t) ∈ Ft sono equivalenti (Lemma 11.2.6). Come avevamo anticipato, questo
significa che la continuità da destra della filtrazione fa sı̀ che conoscendo Ft possiamo anche sapere cosa
succede “subito dopo” il tempo t.

11.2.2 Ampliamento di filtrazioni e processi di Markov


Abbiamo spiegato l’importanza delle ipotesi usuali sulle filtrazioni e i motivi per cui in seguito è pre-
feribile assumere sistematicamente la validità di tali ipotesi. In questa sezione proviamo che è sempre
possibile modificare una filtrazione in modo che soddisfi le ipotesi usuali e, sotto opportune condizio-
ni, è anche possibile conservare alcune proprietà fondamentali (per esempio, la proprietà di Markov) dei
processi considerati.
Consideriamo uno spazio completo (Ω, F , P ) munito di una generica filtrazione (Ft )t≥0 e indichiamo
con N la famiglia degli eventi trascurabili. Si può sempre ampliare (Ft )t≥0 in modo che le ipotesi usuali
siano soddisfatte:
i) ponendo
F¯t := σ (Ft ∪ N ) , t ≥ 0,
definiamo la più piccola filtrazione7 in (Ω, F , P ), che completa ed estende (Ft )t≥0 .
ii) la filtrazione (Ft+ )t≥0 definita da (11.2.1) è continua a destra.
 
Combinando i punti i) e ii) (non importa in quale ordine), si ottiene la filtrazione F¯t+ che è la più
t≥0
piccola filtrazione che estende (Ft )t≥0 e verifica le ipotesi usuali.
 
Definizione 11.2.9 (Ampliamento standard di una filtrazione). La filtrazione F¯t+ è detta amplia-
t≥0
mento standard della filtrazione (Ft )t≥0 .
Ora consideriamo un processo stocastico X = (Xt )t≥0 su (Ω, F , P ) e usiamo al solito8 la notazione

GtX = σ (Xs , s ≤ t), t ≥ 0,

per indicare la filtrazione generata da X.

 standard di un processo). La filtrazione standard di un processo X, nel


Definizione 11.2.10 (Filtrazione

seguito indicata con F = Ft
X X
, è l’ampliamento standard di G X .
t≥0
7 Si ha ovviamente F¯ ⊆ F¯ se 0 ≤ t ≤ T . Inoltre F¯ ⊆ F per ogni t ≥ 0 grazie all’ipotesi di completezza di (Ω, F , P ).
t T t
8 Come in (6.5.1).
11.2. IL CASO CONTINUO 289

Supponiamo che X = (Xt )t≥0 sia un processo di Markov con legge di transizione p sullo spazio completo
con filtrazione (Ω, F , P , (Ft )t≥0 ). In generale non è un problema “rimpicciolire” la filtrazione: più preci-
samente, se (Gt )t≥0 è una filtrazione tale che GtX ⊆ Gt ⊆ Ft per ogni t ≥ 0, ossia (Gt )t≥0 è più piccola di
(Ft )t≥0 ma più grande di (GtX )t≥0 , allora è immediato verificare che X è un processo di Markov anche sullo
spazio (Ω, F , P , (Gt )t≥0 ). Il problema non è ovvio quando si vuole ampliare la filtrazione. I risultati seguenti
forniscono condizioni sotto le quali è possibile ampliare la filtrazione di un processo di Markov in modo
che verifichi le ipotesi usuali e rimanga valida la proprietà di Markov.
Proposizione 11.2.11. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , (Ft )t≥0 ). Allora X è un processo di Markov con legge di transizione p su
(Ω, F , P , (F¯t )t≥0 ).
Dimostrazione. Chiaramente X è adattato rispetto a F¯ quindi c’è solo da provare che

p(t, Xt ; T , H) = P (XT ∈ H | F¯t ), 0 ≤ t ≤ T , H ∈ B.

Posto Z = p(t, Xt ; T , H) si ha Z ∈ mσ (Xt ) ⊆ mF¯t ; in base alla definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ F¯t si ha h i
E [Z1G ] = E 1(XT ∈H) 1G . (11.2.3)
La (11.2.3) è vera se G ∈ Ft : d’altra parte (cfr. Osservazione 2.4.3) G ∈ F¯t = σ (Ft ∪ N ) se e solo se
G △ A ∈ N per un certo A ∈ Ft . Dunque si ha
h i h i
E [Z1G ] = E [Z1A ] = E 1(XT ∈H) 1A = E 1(XT ∈H) 1G .

È possibile ampliare la filtrazione in modo da renderla continua a destra e mantenere la proprietà di


Markov, assumendo ulteriori ipotesi di continuità delle traiettorie del processo (continuità a destra q.c.) e
di continuità della legge di transizione del processo (proprietà di Feller, Definizione 7.1.9).
Proposizione 11.2.12. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , (Ft )t≥0 ). Supponiamo che X sia un processo di Feller con traiettorie continue
a destra q.c. Allora X è un processo di Markov con legge di transizione p su (Ω, F , P , (Ft+ )t≥0 ).
Dimostrazione. Chiaramente X è adattato rispetto a (Ft+ )t≥0 quindi c’è solo da provare la proprietà di
Markov ossia che per ogni 0 ≤ t < T e ϕ ∈ bB valga
Z
Z = E [ϕ(XT ) | Ft+ ] dove Z := p(t, Xt ; T , dy)ϕ(y).
R

Per il teorema di Fubini, Z ∈ mFt ⊆ mFt+ . Quindi, per definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ Ft+ si abbia

E [ϕ(XT )1G ] = E [Z1G ] . (11.2.4)

Ora, sia h > 0 tale che t + h < T : si ha G ∈ Ft+h e quindi, per la proprietà di Markov di X rispetto a (Ft )t≥0 ,
si ha "Z #
E [ϕ(XT )1G ] = E p(t + h, Xt+h ; T , dy)ϕ(y)1G . (11.2.5)
R
Per la continuità da destra delle traiettorie di X e la proprietà di Feller di p, passando al limite per h → 0+
in (11.2.5) grazie al teorema della convergenza dominata si trova la (11.2.4).
Osservazione 11.2.13. [!] Combinando le Proposizioni 11.2.11 e 11.2.12 si ha il seguente risultato: se X è
un processo di Markov, continuo a destra e di Feller, sullo spazio completo (Ω, F , P , (Ft )t≥0 ) allora X è un processo
di Markov anche sullo spazio completo (Ω, F , P , (F¯t+ )t≥0 ) in cui valgono le ipotesi usuali.
290 CAPITOLO 11. TEMPI D’ARRESTO

Nel caso particolare in cui X sia un processo di Markov rispetto alla propria filtrazione standard F X si
prova che
FtX = σ (GtX ∪ N ), t ≥ 0. (11.2.6)
In altri termini, F X si ottiene completando la filtrazione generata da X e la proprietà di continuità a destra
è automaticamente soddisfatta.
 
Proposizione 11.2.14. [!] Se X un processo di Markov rispetto alla propria filtrazione standard FtX
t≥0
allora vale la (11.2.6).

Dimostrazione. La dimostrazione è basata sulla proprietà di Markov estesa del Teorema 7.2.4 in base al
quale si ha9 h i
ZE [Y | Xt ] = E ZY | FtX , Z ∈ bσ (GtX ∪ N ), Y ∈ bGt,∞
X
.
Poiché ogni versione di E [Y | Xt ] è σ (Xt )-misurabile
h e data il’unicità dell’attesa condizionata a meno di
eventi trascurabili, si deduce che ogni versione di E ZY | FtX è σ (GtX ∪ N )-misurabile: date le ipotesi su
Y e Z, tale proprietà di misurabilità vale anche se al posto di ZY mettiamo una qualsiasi variabile aleatoria
X ∪ N ). In particolare, per A ∈ F X ⊆ σ (G X ∪ N ) otteniamo
in bσ (G∞ t ∞
h i
1A = E 1A | FtX ∈ bσ (GtX ∪ N ).

Osservazione 11.2.15. [!] Combinando le Proposizioni 11.2.11, 11.2.12 e 11.2.14 si ha il seguente risultato:
sia X un processo di Markov rispetto alla propria filtrazione generata (GtX )t≥0 e supponiamo che X sia continuo
a destra e di Feller; allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Markov anche rispetto alla
filtrazione standard (FtX )t≥0 (che verifica le ipotesi usuali).

Consideriamo ora un processo di Markov X sullo spazio (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali
e ricordiamo la definizione (7.2.6) della σ -algebra Gt,∞
X
delle informazioni future su X a partire dal tempo
t.

Teorema 11.2.16 (Legge 0-1 di Blumenthal). [!] Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Se
A ∈ Ft ∩ Gt,∞
X
allora P (A | Xt ) = 1 oppure P (A | Xt ) = 0.

Dimostrazione. Notiamo esplicitamente che A non è necessariamente σ (Xt )-misurabile10 : se cosı̀ fosse, la
tesi sarebbe ovvia conseguenza dell’Esempio 5.3.3. D’altra parte, per il Corollario 7.2.5, Ft e Gt,∞
X
sono,
condizionatamente a Xt , indipendenti: ne viene che A è indipendente da sè stesso (condizionatamente a
Xt ) e quindi vale
P (A | Xt ) = P (A ∩ A | Xt ) = P (A | Xt )2 .
Da ciò si deduce che P (A | Xt ) può assumere solo i valori 0 oppure 1.

Esempio 11.2.17. [!] Riprendiamo l’Esempio 11.2.4 e supponiamo che τ sia il tempo di uscita da un chiuso
H, di un processo continuo di Markov X sullo spazio (Ω, F , P , (FtX )t≥0 ). Applichiamo la Legge 0-1 di
Blumenthal con t = 0: chiaramente (τ = 0) ∈ F0X = F0X ∩ F0,∞ X
poiché τ è un tempo d’arresto; qui (τ = 0)
indica l’evento secondo il quale il processo X esce immediatamente da H. Allora si ha P (τ = 0 | X0 ) = 0
oppure P (τ = 0 | X0 ) = 1, ossia quasi tutte le traiettorie di X escono subito da H oppure quasi nessuna.
Questo fatto è particolarmente interessante quando X0 appartiene al bordo di H.
9 Nel senso della Convenzione 5.2.5. Si noti che Z ∈ bσ (G X ∪ N ) ⊆ bF X .
t t
10 In altri termini, in generale σ (X ) è incluso strettamente in F ∩ F X poiché, per la continuità a destra di F X , si ha
t t t,∞
\
σ (Xt ) ⊆ X .
σ (Xs , t ≤ s ≤ t + ε) ⊆ Ft ∩ Ft,∞
ε>0
11.2. IL CASO CONTINUO 291

11.2.3 Ampliamento di filtrazioni e processi di Lévy


Studiamo ora il problema dell’ampliamento della filtrazione nel caso del processo di Poisson e del moto
Browniano. Per trattare l’argomento in modo unificato, introduciamo una classe di processi di cui il Poisson
e il Browniano sono casi particolari.

Definizione 11.2.18 (Processo di Lévy). Sia X = (Xt )t≥0 un processo stocastico reale definito su uno spazio
di probabilità completo con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che X è un processo di Lévy se verifica
le seguenti proprietà:

i) X0 = 0 q.c.;

ii) le traiettorie di X sono càdlàg q.c.;

iii) X è adattato a (Ft )t≥0 ;

iv) Xt − Xs è indipendente da Fs per ogni 0 ≤ s ≤ t;

v) gli incrementi Xt − Xs e Xt+h − Xs+h hanno la stessa legge per ogni 0 ≤ s ≤ t e h ≥ 0.

Osservazione 11.2.19. Le proprietà iv) e v) si esprimono dicendo che X ha gli incrementi indipendenti
e stazionari. È utile sapere che se un processo di Lévy è continuo q.c. allora necessariamente è un moto
Browniano con drift, ossia un processo della forma Xt = at + bWt con a, b ∈ R e W moto Browniano. Inoltre,
la CHF di un processo di Lévy X è della forma ϕXt (η) = etψ(η) dove ψ è detto esponente caratteristico di X
(si ricordi l’Osservazione 8.1.4 per il processo di Poisson) ed ammette una rappresentazione esplicita nota
come formula di Lévy-Khintchine che qui non riportiamo per brevità. Un testo di riferimento per la teoria
generale dei processi di Lévy è la monografia [1].

Proposizione 11.2.20. Sia X = (Xt )t≥0 un processo di Lévy sullo spazio completo (Ω, F , P , (Ft )t≥0 ). Allora
X è un processo di Lévy anche su (Ω, F , P , (F¯t )t≥0 ) e su (Ω, F , P , (Ft+ )t≥0 ).

Dimostrazione. Si tratta solo di verificare che, per ogni 0 ≤ s < t, l’incremento Xt − Xs è indipendente da F¯s
e da Fs+ , ossia vale
P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H), H ∈ B, (11.2.7)
se G ∈ F¯s ∪ Fs+ con P (G) > 0.
Consideriamo prima il caso G ∈ F¯s (sempre assumendo P (G) > 0). La (11.2.7) è vera se G ∈ Fs : d’al-
tra parte (cfr. Osservazione 2.4.3) G ∈ F¯s = σ (Fs ∪ N ) se e solo se G △ A ∈ N per un certo A ∈ Fs (e
necessariamente P (A) > 0 essendo P (G) > 0). Dunque si ha

P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H | A) = P (Xt − Xs ∈ H).

Consideriamo ora il caso G ∈ Fs+ con P (G) > 0. Qui usiamo il fatto che, per il Corollario 3.5.8, la (11.2.7)
è vera se e solo se vale
E [ϕ(Xt − Xs ) | G] = E [ϕ(Xt − Xs )] ,
per ogni ϕ ∈ bC. Osserviamo che, per ogni h > 0, G ∈ Fs+h e quindi G è indipendente da Xt+h − Xs+h : ne
viene
E [ϕ(Xt+h − Xs+h ) | G] = E [ϕ(Xt+h − Xs+h )]
e si conclude passando al limite per h → 0+ , per il teorema della convergenza dominata grazie alla
continuità da destra delle traiettorie di X e la continuità e limitatezza di ϕ.

Ricordiamo che, per la Proposizione 7.3.2, un processo di Lévy X è un processo di Markov con legge di
transizione p(t, x; T , ·) uguale alla distribuzione di XT − Xt + x. Inoltre vale il seguente

Teorema 11.2.21. Ogni processo di Lévy è un processo di Feller.


292 CAPITOLO 11. TEMPI D’ARRESTO

Dimostrazione. Se p indica la legge di transizione del processo di Lévy X, per ogni ϕ ∈ bC(R) e h > 0 si ha
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y) =
R
(poiché p(t, x; t +h, ·) è la distribuzione di Xt+h −Xt +x che è uguale in legge a Xh +x per la stazionarietà degli
incrementi)
Z
= p(0, x; h, dy)ϕ(y) = E [ϕ(Xh + x)]
R
e la continuità in (t, x) segue dal teorema della convergenza dominata di Lebesgue.
Combinando i risultati precedenti con l’Osservazione 11.2.15 si ha il seguente
Teorema 11.2.22. Sia X è un processo di Lévy sullo spazio completo (Ω, F , P ) munito della filtrazione
(GtX )t≥0 generata da X. Allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Lévy anche rispetto
alla filtrazione standard (FtX )t≥0 .
Come conseguenza della Legge 0-1 di Blumenthal del Teorema 11.2.16, si ha
Corollario 11.2.23 (Legge 0-1 di Blumenthal). [!] Sia X = (Xt )t≥0 un processo di Lévy. Per ogni A ∈ F0X si
ha P (A) = 0 oppure P (A) = 1.

11.2.4 Risultati generali sui tempi d’arresto


Riprendiamo lo studio dei tempi d’arresto a valori in R≥0 ∪ {∞} (cfr. Definizione 11.2.3), definiti su uno
spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) che soddisfa le ipotesi usuali. Lasciamo per esercizio la prova della
seguente
Proposizione 11.2.24. Valgono le seguenti proprietà:
i) se τ = t q.c. allora τ è un tempo d’arresto;
ii) se τ, σ sono tempi d’arresto allora anche τ ∧ σ e τ ∨ σ sono tempi d’arresto;
iii) se (τn )n≥1 è una successione crescente (ossia, τn ≤ τn+1 q.c. per ogni n ∈ N) allora sup τn è un tempo
n∈N
d’arresto;
iv) se (τn )n≥1 è una successione decrescente (ossia, τn ≥ τn+1 q.c. per ogni n ∈ N) allora inf τn è un tempo
n∈N
d’arresto;
v) se τ è un tempo d’arresto allora per ogni ε ≥ 0 anche τ + ε è un tempo d’arresto.
Esempio 11.2.25 (Tempo di uscita da un aperto). [!] Sia τ, definito come nell’Esempio 11.2.4, il primo
tempo di uscita di un processo X, adattato e continuo su (Ω, F , P , (Ft )t≥0 ), da un Boreliano H. Proviamo
che se H è aperto allora τ è un tempo d’arresto.
La tesi è conseguenza dell’uguaglianza
[ \  
(τ > t) = dist(Xs , H c ) ≥ n1 (11.2.8)
n∈N s∈Q∩[0,t)
 
poiché dist(Xs , H c ) ≥ n1 ∈ Fs per s ≤ t e quindi (τ ≤ t) = (τ > t)c ∈ Ft . Proviamo la (11.2.8): se ω appartiene
al membro destro allora esiste n ∈ N tale che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ Q∩[0, t); poiché X ha traiettorie
continue, ne viene che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ [0, t] e quindi, sempre per la continuità di X, deve
essere τ(ω) > t.
Viceversa, se τ(ω) > t allora l’insieme compatto K := {Xs (ω) | s ∈ [0, t]} è incluso in H: essendo H aperto
si ha che dist(K, H c ) > 0 e questo basta a concludere.
11.2. IL CASO CONTINUO 293

Consideriamo ora un processo stocastico X = (Xt )t≥0 sullo spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) che
verifica le ipotesi usuali. Per lo studio dei tempi d’arresto (e, più avanti, dell’integrazione stocastica) occorre
assumere un’ipotesi minimale di misurabilità di X rispetto alla variabile temporale, che rinforza il concetto
di processo adattato.

Definizione 11.2.26 (Processo progressivamente misurabile). Un processo X = (Xt )t≥0 è progressivamen-


te misurabile se, per ogni t > 0, la funzione (s, ω) 7→ Xs (ω) da [0, t]×Ω a R è misurabile rispetto alla σ -algebra
prodotto B ⊗ Ft .

In altri termini, X è progressivamente misurabile se, per ogni t > 0, la funzione g := X|[0,t]×Ω , definita da

g : ([0, t] × Ω, B ⊗ Ft ) −→ (R, B), g(s, ω) = Xs (ω), (11.2.9)

è (B ⊗ Ft )-misurabile.
Se X è progressivamente misurabile allora, per il Lemma 3.3.11, è adattato a (Ft )t≥0 . Viceversa, è stato
provato da Chung e Doob [16] che se X è adattato e misurabile11 allora possiede una modificazione progressi-
vamente misurabile (per una dimostrazione di questo fatto si veda, per esempio [51], Teorema T46 a p.68).
A noi basterà il seguente risultato molto più semplice:

Proposizione 11.2.27. Se X è adattato a (Ft )t≥0 e ha traiettorie continue a destra q.c. (oppure ha traiettorie
continue a sinistra q.c.) allora è progressivamente misurabile.

Dimostrazione. Consideriamo le successioni


∞ ∞
(n)
⃗ t(n) :=
X X
X X k−1
n
1[ k−1
n ,
k ) (t), X⃗t := X k 1[ k−1
n ,
k ) (t), t ∈ [0, T ], n ∈ N.
2 2 2n 2n 2 2n
k=1 k=1

(n)
⃗ (n) ∈ m(B ⊗ FT ) e X⃗ ∈ m(B ⊗ F
Poiché X è adattato, segue dal Corollario 3.3.9 che X 1 ). Se X ha
T+ 2n
traiettorie continue a sinistra q.c. allora X ⃗ (n) converge puntualmente (Leb ⊗ P )-q.o. a X su [0, T ] × Ω per
n → ∞: data l’arbitrarietà di T , ne viene che X è progressivamente misurabile.
(n)
Analogamente, se X ha traiettorie continue a destra q.c. allora X⃗ converge puntualmente (Leb⊗P )-q.o.
a X su [0, T ]×Ω per n → ∞: ne viene che, per ogni ε > 0, la mappa (t, ω) 7→ Xt (ω) è (B ⊗FT +ε )-misurabile su
[0, T ] × Ω. Per la continuità a destra della filtrazione si conclude che X è progressivamente misurabile.

Dato un tempo d’arresto τ, ricordiamo la definizione (11.2.2) di F∞ e, in analogia con la (11.1.3),


definiamo
Fτ := {A ∈ F∞ | A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0}.
Notiamo che Fτ è una σ -algebra e Fτ = Ft se τ è il tempo d’arresto costante uguale a t. Inoltre dato un
processo X = (Xt )t≥0 definiamo

Xτ(ω) (ω) se τ(ω) < ∞,


(Xτ )(ω) := 
0
 se τ(ω) = ∞.

Proposizione 11.2.28. Valgono le seguenti proprietà:

i) τ ∈ mFτ ;

ii) se τ ≤ σ allora Fτ ⊆ Fσ ;

iii) Fτ ∩ Fσ = Fτ∧σ ;
11 Ossia (t, ω) 7→ X (ω) è B ⊗ F -misurabile.
t
294 CAPITOLO 11. TEMPI D’ARRESTO

iv) se X è progressivamente misurabile allora Xτ ∈ mFτ ;


v) Fτ = Fτ+ := Fτ+ε ;
T
ε>0

Dimostrazione. i) Occorre mostrare che (τ ∈ H) ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B: la tesi segue


facilmente poiché per il Lemma 3.1.5 è sufficiente considerare H del tipo (−∞, s] con s ∈ R.
ii) Se τ ≤ σ allora (σ ≤ t) ⊆ (τ ≤ t): dunque per ogni A ∈ Fτ si ha

A ∩ (σ ≤ t) = A ∩ (τ ≤ t) ∩ (σ ≤ t) .
| {z } | {z }
∈Ft ∈Ft

iii) Per il punto ii) vale l’inclusione Fτ ∩ Fσ ⊇ Fτ∧σ . Viceversa, se A ∈ Fτ ∩ Fσ allora

A ∩ (τ ∧ σ ≤ t) = A ∩ ((τ ≤ t) ∪ (σ ≤ t)) = (A ∩ (τ ≤ t)) ∪ (A ∩ (σ ≤ t)) .


| {z } | {z }
∈Ft ∈Ft

iv) Dobbiamo provare che (Xτ ∈ H)∩(τ ≤ t) = (Xτ∧t ∈ H)∩(τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B. Poiché (τ ≤
t) ∈ Ft è sufficiente provare che Xτ∧t ∈ mFt : questo è conseguenza del fatto che Xτ∧t (ω) = (f ◦ g)(t, ω)
con f e g funzioni misurabili definite da

f : (Ω, Ft ) −→ ([0, t] × Ω, B ⊗ Ft ), f (t, ω) := (τ(ω) ∧ t, ω),

e g come in (11.2.9). La misurabilità di f segue dal Corollario 3.3.9 e dal fatto che, per i), (τ ∧ t) ∈
mFτ∧t ⊆ mFt ; g è misurabile poiché X è progressivamente misurabile.
v) L’inclusione Fτ ⊆ Fτ+ è ovvia per ii). Viceversa, se A ∈ Fτ+ allora per definizione A ∩ (τ + ε ≤ t) ∈ Ft
per ogni t ≥ 0 e ε > 0: quindi A ∩ (τ ≤ t − ε) ∈ Ft per ogni t ≥ 0 e ε > 0, o equivalentemente A ∩ (τ ≤
t) ∈ Ft+ε per ogni t ≥ 0 e ε > 0. Per l’ipotesi di continuità a destra della filtrazione, si ha quindi
A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 ossia A ∈ Fτ .
Capitolo 12

Proprietà di Markov forte

We may not be able to get certainty,


but we can get probability, and half
a loaf is better than no bread.

C. S. Lewis

In questo capitolo X = (Xt )t≥0 indica un processo di Markov con legge di transizione p sullo spazio
(Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali sulla filtrazione. La proprietà di Markov forte è una
estensione della proprietà di Markov in cui l’istante iniziale è un tempo d’arresto.
Ricordiamo (cfr. Definizione 7.1.9) che la legge di transizione p di un processo di Feller è tale che, per
ogni h > 0 e ϕ ∈ bC(R), la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
R

è continua.

12.1 Proprietà di Feller e di Markov forte


Definizione 12.1.1 (Proprietà di Markov forte). Diciamo che X soddisfa la proprietà di Markov forte se
per ogni τ tempo d’arresto finito q.c. e h ≥ 0 vale
p(τ, Xτ ; τ + h, H) = P (Xτ+h ∈ H | Fτ ) , H ∈ B, (12.1.1)
o, equivalentemente, vale
Z
p(τ, Xτ ; τ + h, dy)ϕ(y) = E [ϕ (Xτ+h ) | Fτ ] , ϕ ∈ bB. (12.1.2)
R

Teorema 12.1.2. Sia X un processo di Markov. Se X è un processo di Feller continuo a destra allora soddisfa
la proprietà di Markov forte.
Dimostrazione. Grazie al Corollario 3.5.8, per dimostrare la (12.1.1) è sufficiente provare la (12.1.2) con
ϕ ∈ bC. Dunque, dati h > 0 e ϕ ∈ bC, proviamo che, posto
Z
Z := p(τ, Xτ ; τ + h, dy)ϕ(y),
R

295
296 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE

si ha Z = E [ϕ (Xτ+h ) | Fτ ].
Verifichiamo le proprietà dell’attesa condizionata. Anzitutto Z ∈ mFτ poiché:
R
• Z = f (τ, Xτ ) con f (t, x) := p(t, x; t + h, dy)ϕ(y) funzione continua per la proprietà di Feller;
R

• Xτ ∈ mFτ per la Proposizione 11.2.28-iv), essendo X adattato e continuo a destra (quindi progressi-
vamente misurabile per la Proposizione 11.2.27).

In secondo luogo, proviamo che per ogni A ∈ Fτ si ha

E [Z1A ] = E [ϕ (Xτ+h ) 1A ] . (12.1.3)

Consideriamo prima il caso in cui τ assuma solo un’infinità numerabile di valori tk , k ∈ N: in questo caso
la (12.1.3) segue dal fatto che

X h i
E [Z1A ] = E Z1A∩(τ=tk )
k=1
 

X Z 
= E  p(tk , Xtk ; tk + h, dy)ϕ(y)1A∩(τ=tk )  =
 
 
k=1 R

(per la proprietà di Markov (7.2.2), poiché A ∩ (τ = tk ) ∈ Ftk )



X h i
= E ϕ(Xtk +h )1A∩(τ=tk ) = E [ϕ(Xτ+h )1A ] .
k=1

Nel caso generale, consideriamo la successione di tempi d’arresto che approssimano τ, definiti da

k k−1 k
 2n se 2n ≤ τ(ω) < 2n per k ∈ N,


τn (ω) = 
∞ se τ(ω) = ∞.

Per ogni n ∈ N, τn assume solo un’infinità numerabile di valori. Inoltre, τn ≥ τ e quindi se A ∈ Fτ allora
anche A ∈ Fτn e si ha
 
Z  h   i
E  p(τn , Xτn ; τn + h, dy)ϕ(y)1A  = E ϕ Xτn +h 1A .
 
 
R

Passando al limite in n → ∞ si ottiene la (12.1.3). Il passaggio al limite è giustificato dal teorema della con-
vergenza dominata e dal fatto che gli integrandi sono limitati e convergono puntualmente q.c.: nel membro
a destra, per la continuità da destra di X e la continuità di ϕ; nel membro a sinistra, per la continuità da
destra di X e la proprietà di Feller.

Osservazione 12.1.3. [!] In base al Teorema 12.1.2, il moto Browniano, il processo di Poisson e più in
generale i processi di Lévy (cfr. Definizione 11.2.18) godono della proprietà di Markov forte.

In analogia con i risultati della Sezione 10.2, vale la seguente

Proposizione 12.1.4. Siano W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ) e τ un tempo d’arresto
finito q.c. Allora il processo
Wtτ := Wt+τ − Wτ , t ≥ 0, (12.1.4)
è un moto Browniano su (Ω, F , P , (Ft+τ )t≥0 ). In particolare, W τ è indipendente da Fτ .
12.1. PROPRIETÀ DI FELLER E DI MARKOV FORTE 297

Dimostrazione. Per ogni η ∈ R, si ha


h τ i h i
E eiηWt | Fτ = E eiη(Wt+τ −Wτ ) | Fτ
h i
= eiηWτ E eiηWt+τ | Fτ
h i η 2 t2
= eiηWτ E eiηWt+τ | Wτ = e− 2

grazie alla proprietà di Markov forte nella forma (12.1.2). Dal Teorema 5.2.10-14) segue che Wtτ ∼ N0,t ed
è indipendente da Fτ . In modo simile si prova che Wtτ − Wsτ ∼ N0,t−s ed è indipendente da Fτ+s per ogni
0 ≤ s ≤ t.

12.1.1 Principio di riflessione


Consideriamo un moto Browniano W definito su (Ω, F , P , (Ft )t≥0 ): fissato t0 ≥ 0, diciamo che
 
ft := Wt∧t − Wt − Wt∧t ,
W t ≥ 0,
0 0

è il processo riflesso di W a partire da t0 . La Figura 12.1 rappresenta una traiettoria di W e del suo riflesso
f a partire da t0 = 0.2. Si verifica facilmente1 che anche W
W f è un moto Browniano su (Ω, F , P , (Ft )t≥0 ). È

0.2 0.4 0.6 0.8 1.0

-1

Figura 12.1: Grafico di una traiettoria Browniana e della sua riflessa a partire da t0 = 0.2

notevole il fatto che questo risultato si generalizza al caso in cui t0 è un generico tempo d’arresto.
Teorema 12.1.5 (Principio di riflessione). [!] Siano W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 )
e τ un tempo d’arresto. Allora il processo riflesso a partire da τ, definito da
ft := Wt∧τ − (Wt − Wt∧τ ) ,
W t ≥ 0,
è un moto Browniano su (Ω, F , P , (Ft )t≥0 ).
1 Per s ≤ t si ha

Wt
ft =  se t ≤ t0 ,
W 2W − W se t > t0 ,

t0 t
da cui W
ft ∈ mFt e



Wt − Ws se s, t ≤ t0 ,

Wt − Ws = Wt0 − Ws − (Wt − Wt0 ) se s < t0 < t,
f f 


−(Wt − Ws )

se t0 ≤ s, t,
da cui segue che W fs è indipendente da Fs ed ha distribuzione N0,t−s .
ft − W
298 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE

Dimostrazione. Basta provare la tesi su un intervallo temporale [0, T ] con T > 0 fissato e quindi non è
restrittivo assumere τ < ∞ cosicché è ben definito il moto Browniano W τ in (12.1.4). Osserviamo che
τ τ
Wt = Wt∧τ + Wt−τ 1(t≥τ) , ft = Wt∧τ − Wt−τ
W 1(t≥τ) .

La tesi segue dal fatto che, essendo un moto Browniano, W τ è uguale in legge a −W τ ed è indipendente da
Fτ e quindi da Wt∧τ e da τ: ne viene che W e Wf sono uguali in legge.

Consideriamo il processo del massimo di W , definito da

W̄t := max Ws , t ≥ 0.
s∈[0,t]

Corollario 12.1.6. [!] Per ogni a > 0 vale

P (W̄t ≥ a) = 2P (Wt ≥ a), t ≥ 0. (12.1.5)

Dimostrazione. Scomponiamo (W̄t ≥ a) nell’unione disgiunta

(W̄t ≥ a) = (Wt > a) ∪ (Wt ≤ a, W̄t ≥ a).

Introduciamo il tempo d’arresto


τa := inf{t ≥ 0 | Wt ≥ a}
f, riflesso di W a partire da τa . Allora si ha2
e il processo W

(Wt ≤ a, W̄t ≥ a) = (W
ft ≥ a)

e la tesi segue dal Principio di riflessione.

Osservazione 12.1.7. [!] Alcune conseguenze notevoli del Corollario 12.1.6 sono:

i) poiché P (|Wt | ≥ a) = 2P (Wt ≥ a), dalla (12.1.5) segue che W̄t e |Wt | sono uguali in legge;

ii) poiché (τa ≤ t) = (W̄t ≥ a), dalla (12.1.5) si ha


Z
2 2
P (τa ≤ t) = 2P (Wt ≥ a) = √ e−y dy, (12.1.6)
π √a
2t

da cui si deduce che


P (τa < +∞) = lim P (τa ≤ n) = 1
n→+∞

e, derivando la (12.1.6), si ottiene l’espressione della densità di τa :

a2
ae− 2t
γτa (t) = √ 1]0,+∞[ (t).
2πt 3/2

iii) per ogni ε > 0


P (Wt ≤ 0 ∀t ∈ [0, ε]) = P (W̄ε ≤ 0) = P (|Wε | ≤ 0) = 0.
2 Poniamo A = (W ≤ a, W̄ ≥ a) e B = (W
ft ≥ a). Se ω ∈ A allora τa (ω) ≤ t e quindi W
ft (ω) = 2Wτ (ω) (ω) − Wt = 2a − Wt ≥ a da cui
t t a
ω ∈ B. Viceversa, assumiamo W ft (ω) ≥ a: se fosse τa (ω) > t si avrebbe a ≤ W
ft (ω) = Wt (ω) che è assurdo. Allora deve essere τa (ω) ≤ t e
quindi ovviamente W̄t ≥ a e inoltre a ≤ W
ft (ω) = 2a − Wt (ω) da cui Wt (ω) ≥ a.
12.2. IL CASO OMOGENEO 299

12.2 Il caso omogeneo


Nel seguito I = R≥0 e supponiamo che X sia la versione canonica di un processo di Markov con legge di
transizione p omogenea nel tempo. Ricordiamo che X è definito sullo spazio completo (RI , BµI , µ, F X ) dove µ
è la legge del processo X e F X è la filtrazione standard di X (cfr. Definizione 11.2.10). Inoltre Xt (ω) = ω(t)
per ogni t ≥ 0 e ω ∈ RI .
Per esprimere in maniera più efficace la proprietà di Markov, introduciamo la famiglia di traslazioni
(θt )t≥0 definite da
θt : RI −→ RI , (θt ω)(s) = ω(t + s), s ≥ 0, ω ∈ RI .
Intuitivamente, l’operatore di traslazione θt “taglia e rimuove” la parte di traiettoria ω fino al tempo t.
Data una v.a. Y , indichiamo con Y ◦ θt la v.a. traslata definita da

(Y ◦ θt )(ω) := Y (θt (ω)), ω ∈ RI .

Notiamo che (Xs ◦ θt )(ω) = ω(t + s) = Xt+s (ω) o, più semplicemente,

Xs ◦ θt = Xt+s .

Nel seguente enunciato Ex [Y ] ≡ E [Y | X0 = x] indica una versione della funzione attesa di Y condizionata
a X0 (cfr. Definizione 5.2.14) e F0,∞
X
= σ (Xs , s ≥ 0) (cfr. definizione (7.2.6)).
Teorema 12.2.1 (Proprietà di Markov forte nel caso omogeneo). [!] Sia X la versione canonica di un
processo di Markov forte con legge di transizione omogenea nel tempo. Per ogni tempo d’arresto τ, finito
X
q.c., e per ogni Y ∈ bF0,∞ si ha
EXτ [Y ] = E [Y ◦ θτ | Fτ ] . (12.2.1)
Dimostrazione. Per chiarezza, osserviamo esplicitamente che il membro sinistro della (12.2.1) indica la
funzione Ex [Y ] calcolata in x = Xτ . Se X soddisfa la proprietà di Markov forte (12.1.2) si ha

E [ϕ (Xh ) ◦ θτ | Fτ ] = E [ϕ (Xτ+h ) | Fτ ]
Z
= p(τ, Xτ ; τ + h, dy)ϕ(y) =
R

(per l’ipotesi di omogeneità)


Z
= p(0, Xτ ; h, dy)ϕ(y) = EXτ [ϕ(Xh )]
R

che prova la (12.2.1) per Y = ϕ(Xh ) con h ≥ 0 e ϕ ∈ bB. Il caso generale si prova come il Teorema 7.2.4,
estendendo prima la (12.2.1) al caso
Yn
Y= ϕi (Xhi )
i=1
con 0 ≤ h1 < · · · < hn e ϕ1 , . . . , ϕn ∈ bB, e infine utilizzando il secondo teorema di Dynkin.
Tutti i risultati sui processi di Markov visti finora si estendono al caso multi-dimensionale (ossia, al caso
di processi a valori in Rd ) senza alcuna difficoltà. Il seguente Teorema 12.2.2 è preliminare allo studio della
relazione fra i processi di Markov e le funzioni armoniche: ricordiamo che una funzione armonica è una
soluzione dell’operatore di Laplace o più in generale di un’equazione differenziale alle derivate parziali di
tipo ellittico. Assumiamo le seguenti ipotesi generali:
• D è un aperto di Rd ;
• X è la versione canonica di un processo di Markov forte a valori in Rd ;
300 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE

• X è continuo e ha legge di transizione p omogenea nel tempo;

• X0 ∈ D q.c.;

• τD < ∞ q.c. dove τD è il tempo di uscita di X da D (cfr. Esempio 11.2.25).

Indichiamo con ∂D il bordo di D e osserviamo che, in base alle ipotesi assunte, XτD ∈ ∂D q.c. Nel seguente
enunciato Ex [·] ≡ E [· | X0 = x] indica la funzione attesa condizionata a X0 .

Teorema 12.2.2. Sia ϕ ∈ bB(∂D). Se3


h i
u(x) = Ex ϕ(XτD ) (12.2.2)

allora si ha:
X
i) il processo (u(Xt∧τD ))t≥0 è una martingala rispetto alla filtrazione (Ft∧τ ) ;
D t≥0

ii) per ogni y ∈ D e ε > 0 tale che D(y, ε) := {z ∈ Rd | |z − y| < ε} ⊆ D vale


h  i
u(x) = Ex u XτD(y,ε) (12.2.3)

dove τD(y,ε) indica il tempo di uscita di X da D(y, ε).

Dimostrazione. La dimostrazione è basata sull’osservazione cruciale che se τ è un tempo d’arresto e τ ≤ τD ,


allora vale
XτD ◦ θτ = XτD . (12.2.4)

Più esplicitamente, per ogni ω ∈ RI vale

(XτD ◦ θτ )(ω) = XτD (θτ (ω)) = XτD (ω)

poiché la traiettoria ω e la traiettoria θτ (ω), ottenuta tagliando e rimuovendo la parte di ω fino all’istante
τ(ω), escono per la prima volta da D nello stesso punto XτD (ω).
Proviamo la i): per 0 ≤ s ≤ t si ha
h i h h i i
E u(Xt∧τD ) | Fs∧τD = E EXt∧τ ϕ(XτD ) | Fs∧τD =
D

X
(per la proprietà di Markov forte (12.2.1), poiché ϕ(XτD ) ∈ bF0,∞ )
h h i i
= E E ϕ(XτD ) ◦ θt∧τD | Ft∧τD | Fs∧τD =

(per la (12.2.4) con τ = t ∧ τD )


h h i i
= E E ϕ(XτD ) | Ft∧τD | Fs∧τD =

(poiché Fs∧τD ⊆ Ft∧τD )


h i
= E ϕ(XτD ) | Fs∧τD =

(riapplicando la proprietà di Markov forte (12.2.1))


h i
= EXs∧τ ϕ(XτD ) = u(Xs∧τD ).
D

3 La (12.2.2) significa che u è una versione della funzione attesa di ϕ(X ) condizionata a X .
τD 0
12.2. IL CASO OMOGENEO 301

Ora proviamo la ii). Se x < D(y, ε), τD(y,ε) = 0 e la tesi è ovvia conseguenza dell’Esempio 5.2.16. Se
x ∈ D(y, ε), osserviamo che τD(y,ε) ≤ τD < ∞ q.c. poiché X è continuo e applicando il Teorema di optional
sampling, nella forma del Teorema 13.5.4, alla martingala Mt := u(Xt∧τD ) abbiamo
h i
M0 = E MτD(y,ε) | F0X

ossia h i
u(X0 ) = E u(XτD(y,ε) ) | X0
che prova la (12.2.3).
302 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
Capitolo 13

Martingale continue

We balance probabilities and choose


the most likely. It is the scientific use
of the imagination.

Arthur Conan Doyle

In questo capitolo estendiamo dal discreto al continuo alcuni importanti risultati come il teorema di
optional sampling e le disuguaglianze massimali di Doob per le martingale. La strategia generale consiste
di tre passaggi:
• i risultati vengono prima estesi dal caso discreto, in cui il numero di istanti temporali è finito, al caso
in cui gli istanti temporali siano i cosiddetti razionali diadici definiti da
[ n o n o
D := Dn , Dn := 2kn | k ∈ N0 = 0, 21n , 22n , 23n , . . . .
n≥1

Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N e D è un insieme numerabile e denso in R≥0 ;


• sotto l’ipotesi di continuità da destra delle traiettorie è pressoché immediato estendere la validità dei
risultati dai diadici al continuo;
• infine si mostra che l’ipotesi di continuità delle traiettorie non è essenzialmente restrittiva poiché
ogni martingala ammette una modificazione con traiettorie càdlàg: la dimostrazione è basata sulle di-
suguaglianze massimali di Doob (che permettono di provare che le traiettorie non divergono quasi
sicuramente) e sul lemma di risalita (che permette di provare che le traiettorie non oscillano quasi si-
curamente). Il terzo ingrediente fondamentale è il teorema di convergenza di Vitali (Teorema A.3.0.2)
che garantisce la sussistenza della proprietà di martingala nei passaggi al limite.
Nella seconda parte del capitolo introduciamo alcuni notevoli spazi di martingale che giocheranno un
ruolo centrale nella teoria dell’integrazione stocastica. Diamo anche la definizione di martingala locale, una
nozione che generalizza quella di martingala indebolendo le ipotesi di sommabilità.

13.1 Optional sampling e continuità


Consideriamo uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) che soddisfa le ipotesi usuali. Nel seguito,
fissato T > 0, usiamo la notazione
[ n o
D(T ) := DT ,n , DT ,n := T2nk | k = 0, 1, . . . , 2n , n ∈ N. (13.1.1)
n≥1

303
304 CAPITOLO 13. MARTINGALE CONTINUE

Lemma 13.1.1 (Disuguaglianze massimali di Doob sui diadici). Sia X = (Xt )t≥0 una martingala o una
sub-martingala non-negativa. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.2)
t∈D (T ) λ
  !p
p p
E [|XT |p ] .

E  sup |Xt |  ≤
 
t∈D (T ) p−1

Dimostrazione. Se X è una martingala allora |X| è una sub-martingala non-negativa per Proposizione 6.5.11.
Dunque è sufficiente provare la tesi per X sub-martingala non-negativa. Fissato T > 0, per ogni n ∈ N consi-
deriamo il processo (Xt )t∈DT ,n che è una sub-martingala non-negativa discreta relativamente alla filtrazione
(Ft )t∈DT ,n e poniamo
Mn := sup Xt , M := sup Xt .
t∈DT ,n t∈D (T )

Fissiamo ε > 0. Ricordando che DT ,n ⊆ DT ,n+1 , per il Teorema di Beppo-Levi si ha1

P (M > λ − ε) = lim P (Mn > λ − ε) ≤


n→∞

(per la disuguaglianza massimale di Doob per le sub-martingale discrete, Teorema 11.1.11)


E [XT ]
≤ .
λ−ε
La (13.1.2) segue dall’arbitrarietà di ε.
p p p p
Sia ora p > 1. Poiché DT ,n ⊆ DT ,n+1 e Mn = sup Xt , si ha 0 ≤ Mn ↗ M = sup Xt per n → ∞. Allora
t∈DT ,n t∈D (T )
per il teorema di Beppo-Levi si ha
h pi
E [M p ] = lim E Mn ≤
n→∞

(per la disuguaglianza massimale di Doob per le sub-martingale discrete, Teorema 11.1.11)


!p
p h pi
≤ E XT .
p−1

Negli enunciati seguenti assumeremo sempre l’ipotesi di continuità a destra dei processi: come vedremo
nella Sezione 13.2, tale ipotesi può essere rimossa poiché ogni martingala ammette una modificazione
càdlàg.
Teorema 13.1.2 (Disuguaglianze massimali di Doob). [!!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.3)
t∈[0,T ] λ
  !p
p p
E [|XT |p ] .
 
E  sup |Xt |  ≤ (13.1.4)
t∈[0,T ] p − 1
1 Si noti che
h i h i
P (M > λ − ε) = E 1(M>λ−ε) = lim E 1(Mn >λ−ε) = lim P (Mn > λ − ε),
n→∞ n→∞
poiché la successione 1(Mn >λ−ε) è monotona crescente.
13.1. OPTIONAL SAMPLING E CONTINUITÀ 305

Dimostrazione. La tesi è immediata conseguenza del Lemma 13.1.1 poiché se X ha traiettorie continue a
destra si ha sup |Xt | = sup |Xt |.
t∈[0,T ] t∈D (T )

In analogia col caso discreto, si ha il seguente semplice


Corollario 13.1.3 (Disuguaglianze massimali di Doob). [!!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni λ > 0, p > 1 e τ tempo d’arresto tale che τ ≤ T q.c. per
un certo T , si ha
!
E [|Xτ |]
P sup |Xt | ≥ λ ≤ ,
t∈[0,τ] λ
  !p
p p
E [|Xτ |p ] .
 
E  sup |Xt |  ≤
t∈[0,τ] p − 1

Dimostrazione. Vedremo in seguito (cfr. Corollario 13.4.1) che stoppando una martingala continua a destra
si ottiene ancora una martingala. Allora la tesi segue dal Teorema 13.1.2 applicato a (Xt∧τ )t≥0 .
Per estendere alcuni risultati su tempi d’arresto e martingale dal caso discreto a quello continuo, è utile
il seguente risultato tecnico di approssimazione.
Lemma 13.1.4. Dato un tempo d’arresto τ : Ω −→ [0, +∞] esiste una successione (τn )n∈N di tempi d’arresto
discreti (cfr. Definizione 11.1.1)
τn : Ω −→ { 2kn | k = 1, 2, . . . , n2n }
tali che:
i) τn −→ τ per n → ∞;
ii) τn+1 (ω) ≤ τn (ω) se n > τ(ω).
Dimostrazione. Per ogni n ∈ N poniamo

k k−1 k
 2n se 2n ≤ τ(ω) <

 2n per k ∈ {1, 2, . . . , n2n },
τn (ω) = 
n
 se τ(ω) ≥ n.

Per ogni ω ∈ Ω e n ∈ N tali che τ(ω) < n si ha

τn (ω) − 21n ≤ τ(ω) ≤ τn (ω)

e da questo seguono la i) e la ii). Infine, per ogni fissato n ∈ N, τn è un tempo d’arresto discreto rispetto
alla filtrazione definita da F k per k = 0, 1, . . . , n2n , poiché si ha
2n
   
τn = k
2n = ∈F k ,
k−1
2n ≤τ < k
2nk = 0, 1, . . . , n2n − 1,
2n
   c
(τn = n) = τ ≥ n − 21n = τ < n − 21n ∈ F 1 ⊆ Fn .
n− 2n

Osservazione 13.1.5. In base alla ii) del Lemma 13.1.4, se τ(ω) < ∞, la successione approssimante (τn (ω))n∈N
ha la proprietà di essere monotona decrescente almeno per n abbastanza grande. D’altra parte, se τ(ω) = ∞
allora τn (ω) = n.
Diamo una prima versione del teorema di optional sampling: ne vedremo una seconda, con ipotesi più
deboli sui tempi d’arresto, nel Teorema 13.5.4.
306 CAPITOLO 13. MARTINGALE CONTINUE

Teorema 13.1.6 (Teorema di optional sampling). [!!!] Sia X = (Xt )t≥0 una sub-martingala continua a
destra. Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 ≤ T per un certo T > 0, allora si ha
h i
Xτ1 ≤ E Xτ2 | Fτ1 .

Dimostrazione. Supponiamo che X sia una martingala continua a destra2 . Consideriamo le successioni
(τi,n )n∈N , i = 1, 2, costruite come nel Lemma 13.1.4, di tempi d’arresto discreti tali che τi,n −−−−−→ τi : per
n→∞
costruzione si ha anche τ1,n ≤ τ2,n per ogni n ∈ N. Poniamo inoltre τ̄i,n = τi,n ∧ T . Per la proprietà di
monotonia di τ̄i,n (cfr. Lemma 13.1.4-ii)) e la continuità a destra di X, si ha Xτ̄i,n −−−−−→ Xτi . D’altra parte,
n→∞
per la versione discreta del Teorema di optional sampling (cfr. Teorema 11.1.10) si ha
h i
Xτ̄i,n = E XT | Fτ̄i,n (13.1.5)

e quindi per la Proposizione A.3.0.7 (e l’Osservazione A.3.0.8) le successioni (Xτ̄i,n )n∈N sono uniformemente
integrabili. Ne viene che, per il Teorema A.3.0.2 di convergenza di Vitali, si ha anche convergenza in
L1 (Ω, P ):
L1
Xτ̄i,n −−−−−→ Xτi , i = 1, 2. (13.1.6)
n→∞
Ancora per il Teorema 11.1.10 di optional sampling si ha
h i
Xτ̄1,n = E Xτ̄2,n | Fτ̄1,n

da cui, condizionando a Fτ̄1 e usando la proprietà della torre, si ha


h i h i
E Xτ̄1,n | Fτ̄1 = E Xτ̄2,n | Fτ̄1 .

La tesi segue passando al limite per n → ∞, grazie alla (13.1.6)


h e ricordando
i che la convergenza in L1 (Ω, P )
di Xτ̄i,n implica la convergenza delle attese condizionate E Xτ̄i,n | Fτ1 (cfr. punto 12 del Teorema 5.2.10).
Nel caso in cui X è una sub-martingala, la dimostrazione è completamente analoga tranne per il fatto che
non si può dedurre l’uniforme integrabilità direttamente dalla (13.1.5) ma occorre utilizzare un argomento
leggermente più sottile: per i dettagli rimandiamo a [3], Teorema 5.13.
Il seguente utile risultato mostra che, se si considerano anche i tempi aleatori (che siano tempi d’arresto
limitati), allora la proprietà di martingala è equivalente alla proprietà di essere costante in media.
Teorema 13.1.7. Sia X = (Xt )t≥0 un processo adattato e sommabile (ossia tale che Xt ∈ L1 (Ω, P ) per ogni
t ≥ 0). Allora X è una martingala se e solo se E [Xτ ] = E [X0 ] per ogni τ tempo d’arresto limitato (ossia tale
che τ ≤ T per un certo T > 0).
Dimostrazione. Se X è una martingala continua a destra3 allora è costante in media sui tempi d’arresto
limitati per il Teorema 13.1.6 di optional sampling. Viceversa, essendo X adattato per ipotesi, rimane solo
da verificare che
E [Xt 1A ] = E [Xs 1A ] , s ≤ t, A ∈ Fs .
A tal fine si considera
τ := s1A + t1Ac
che si verifica facilmente essere un tempo d’arresto limitato. Allora per ipotesi vale
E [X0 ] = E [Xτ ] = E [Xs 1A ] + E [Xt 1Ac ] ,
E [X0 ] = E [Xt ] = E [Xt 1A ] + E [Xt 1Ac ] ,
e sottraendo un’equazione dall’altra si ottiene la tesi.
2 Tale ipotesi può essere rimossa poiché ogni martingala ammette una modificazione càdlàg (cfr. Sezione 13.2).
3 Questa ipotesi non è restrittiva poiché vedremo nella Sezione 13.2 che ogni martingala ammette una modificazione càdlàg.
13.2. MARTINGALE CÀDLÀG 307

13.2 Martingale càdlàg


In questa sezione proviamo che ogni martingala ammette una modificazione con traiettorie càdlàg e dunque
l’ipotesi di continuità a destra assunta negli enunciati della sezione precedente può essere rimossa. Provia-
mo dapprima che una martingala può avere solo discontinuità di prima specie (salti di ampiezza finita) sui
razionali diadici di R≥0 .

Lemma 13.2.1. Sia X = (Xt )t∈D una martingala. Esiste un evento trascurabile N tale che, per ogni t ≥ 0, i
limiti
lim− Xs (ω), lim+ Xs (ω) (13.2.1)
s→t s→t
s∈D s∈D

esistono e sono finiti per ogni ω ∈ Ω \ N . Inoltre, se sup E [|Xt |] < ∞ allora esiste ed è finito anche il limite
t∈D

lim Xt (ω). (13.2.2)


t→+∞
t∈D

Dimostrazione. L’idea della prova è la seguente. Il fatto che i limiti in (13.2.1) divergano o non esistano
è possibile solo in due casi: se sup |Xt (ω)| = ∞ oppure se esiste un intervallo non banale [a, b] che è “at-
t∈D
traversato” da X un numero infinito di volte. La disuguaglianza massimale di Doob e il lemma di risalita
escludono rispettivamente queste due eventualità o, più precisamente, implicano che si verificano solo per
ω appartenente ad un evento trascurabile.
Consideriamo prima il caso in cui κ := sup E [|Xt |] < ∞. Fissato n ∈ N, applichiamo la disuguaglianza
t∈D
massimale (11.1.7) e il Lemma 11.1.13 di risalita alla sub-martingala discreta non-negativa (|Xt |)t∈Dn ∩[0,n] :
per ogni λ > 0 e 0 ≤ a < b, abbiamo

 E [(|Xn | − a)+ ]
!
E [|Xn |] κ  κ
P max |Xt | ≥ λ ≤ ≤ , E νn,a,b ≤ ≤ ,
t∈Dn ∩[0,n] λ λ b−a b−a

dove νn,a,b è il numero di risalite di (|Xt |)t∈Dn ∩[0,n] su [a, b]. Passando al limite per n → ∞ e usando il teorema
di Beppo-Levi, abbiamo
!
κ   κ
P sup |Xt | ≥ λ ≤ , E νa,b ≤ ,
t∈D λ b −a

dove νa,b è il numero di risalite di (|Xt |)t∈D su [a, b]. Questo implica l’esistenza di due eventi trascurabili N0
e Na,b per cui vale
sup |Xt | < ∞ su Ω \ N0 , νa,b < ∞ su Ω \ Na,b .
t∈D

Anche l’evento [
N := Na,b ∪ N0
a,b∈Q
0≤a<b

è trascurabile: per ogni ω ∈ Ω \ N si ha che sup |Xt (ω)| < ∞ e, su ogni intervallo con estremi razionali
t∈D
non-negativi, ci sono solo un numero finito di risalite di |X(ω)|; di conseguenza i limiti in (13.2.1)-(13.2.2)
esistono e sono finiti su Ω \ N .
Consideriamo ora il caso in cui X è una martingala generica. Per ogni n ∈ N, possiamo applicare
quanto appena provato al processo stoppato (Xt∧n )t∈D . Infatti è immediato verificare che (Xt∧n )t∈D è una
martingala e vale
sup E [|Xt∧n |] ≤ E [|Xn |]
t∈D
308 CAPITOLO 13. MARTINGALE CONTINUE

come conseguenza del fatto che, per la Proposizione 6.5.11, (|Xt∧n |)t∈D è una sub-martingala.
Dunque i limiti in (13.2.1) esistono e sono finiti quasi certamente per t ≤ n. La tesi segue dall’arbitrarietà
di n ∈ N.

L’argomento usato nella seconda parte della dimostrazione del Lemma 13.2.1 si adatta facilmente per
provare il seguente

Teorema 13.2.2. [!] Sia X = (Xn )n∈N una martingala discreta tale che sup E [|Xn |] < ∞. Allora, per quasi
n∈N
ogni ω ∈ Ω, esiste ed è finito il limite
X∞ (ω) := lim Xn (ω).
n→∞

Teorema 13.2.3. [!] Ogni martingala X = (Xt )t≥0 su (Ω, F , P , (Ft )t≥0 ) ammette una modificazione che è
ancora una martingala con traiettorie càdlàg.

Dimostrazione. Per il Lemma 13.2.1 le traiettorie di (Xt )t∈D hanno limiti finiti da destra e sinistra quasi
certamente. Allora è ben definito il processo
et := lim Xs ,
X t ≥ 0,
+
s→t
s∈D

che ha traiettorie càdlàg per costruzione. Proviamo che


et = E [XT | Ft ] ,
X 0≤t ≤T, (13.2.3)

da cui seguirà che X et = Xt q.c., ossia X


e è una modificazione di X, e di conseguenza anche che X e è una
martingala.
Proviamo la (13.2.3) verificando le due proprietà dell’attesa condizionata. Anzitutto, per definizione
et ∈ mFt+ = mFt grazie alle ipotesi usuali. In secondo luogo, essendo X una martingala, per ogni A ∈ Ft
X
si ha
E [Xs 1A ] = E [XT 1A ] , s ∈ [t, T ]. (13.2.4)
h i
Passando al limite in (13.2.4) per s → t + , con s ∈ D ∩ (t, T ], si ha E X et 1A = E [XT 1A ] che prova la (13.2.3). Il
passaggio al limite è giustificato dal Teorema A.3.0.2 di convergenza di Vitali poiché Xs = E [XT | Fs ], con
s ∈ D ∩ (t, T ], è uniformemente integrabile per la Proposizione A.3.0.7.

Esempio 13.2.4. Per ogni variabile aleatoria sommabile X esiste una versione càdlàg della martingala Mt :=
E [X | Ft ].

Osservazione 13.2.5. [!] Alla luce del Teorema 13.2.3 d’ora in poi, data una martingala, assumiamo impli-
citamente di considerarne sempre una versione càdlàg.

13.3 Martingale continue di quadrato sommabili: lo spazio M c,2


In questa sezione introduciamo lo spazio dei processi su cui costruiremo l’integrale stocastico e provia-
mo che si tratta di uno spazio di Banach.

Definizione 13.3.1. Fissato T > 0, indichiamo con MTc,2 lo spazio delle martingale continue X = (Xt )t∈[0,T ]
di quadrato sommabili, ossia tali che
q h i
∥X∥T := ∥XT ∥L2 (Ω,P ) = E XT2 < ∞.

Indichiamo con M c,2 lo spazio delle martingale continue X = (Xt )t≥0 tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0.
13.4. MARTINGALE LOCALI: LO SPAZIO M C,LOC 309

Osservazione 13.3.2. Notiamo che ∥ · ∥T è una semi-norma in MTc,2 , nel senso che ∥X∥T = 0 se e solo se X è
indistinguibile dal processo identicamente nullo. Questo fatto è conseguenza dell’ipotesi di continuità di X
e della disuguaglianza massimale di Doob in base alla quale si ha
 
h i
2
E  sup Xt  ≤ 4E XT2 = 4∥X∥2T .
 

t∈[0,T ]

Identificando i processi indistinguibili di MTc,2 e quindi considerando MTc,2 come lo spazio delle classi di
equivalenza di processi (nel senso dell’indistinguibilità), si ottiene uno spazio normato completo.

Proposizione 13.3.3. (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.

Dimostrazione. Sia (Xn )n∈N una successione di Cauchy in MTc,2 rispetto a ∥ · ∥T . Basta mostrare che (Xn )n∈N
ammette una sotto-successione convergente in MTc,2 .
Per la disuguaglianza massimale di Doob (13.1.3), per ogni ε > 0 e n, m ∈ N si ha
   
  E |Xn,T − Xm,T |
P  sup |Xn,t − Xm,t | ≥ ε ≤
 ≤
t∈[0,T ] ε

(per la disuguaglianza di Hölder)


h i1
E |Xn,T − Xm,T |2 2 ∥Xn − Xm ∥T
≤ = .
ε ε
Di conseguenza, per ogni k ∈ N esiste nk ∈ N tale che
 
 1  1
P  sup |Xn,t − Xm,t | ≥  ≤ k ,
 n, m ≥ nk ,
t∈[0,T ] k 2

e per il Lemma 2.3.28 di Borel-Cantelli Xnk ,· converge uniformemente su [0, T ] quasi certamente: il valore
limite, che indichiamo con X, è un processo continuo (possiamo porre a zero le traiettorie non continue).
 Fissiamo
 t ∈ [0, T ]: per la disuguaglianza di Doob (13.1.4), anche la successione di variabili aleatorie
Xnk ,t è di Cauchy in L2 (Ω, P ) che è uno spazio completo e, per l’unicità del limite, converge a Xt nel
k∈N
senso che  2 
lim E Xt − Xnk ,t = 0. (13.3.1)
k→∞

In particolare, se t = T , si ha
lim X − Xnk T = 0.
k→∞

Infine proviamo che X è una martingala. Per 0 ≤ s ≤ t ≤ T e G ∈ Fs si ha


h i h i
E Xnk ,t 1G = E Xnk ,s 1G

poiché Xnk ∈ MTc,2 . Passando al limite per n → ∞ grazie alla (13.3.1) si ha E [Xt 1G ] = E [Xs 1G ] che prova la
tesi.

13.4 Martingale locali: lo spazio M c,loc


Una delle principali motivazioni per l’introduzione dei tempi d’arresto è il fatto che essi permettono
l’utilizzo di tecniche, cosiddette “di localizzazione”, che permettono di indebolire fortemente le ipotesi di
310 CAPITOLO 13. MARTINGALE CONTINUE

sommabilità di alcune classi di processi stocastici. In questa sezione analizziamo il caso specifico delle
martingale.
Consideriamo uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali. Il concetto
di martingala locale estende quello di martingala rimuovendo la condizione di sommabilità del processo.
In questo modo si possono includere importanti classi di processi (per esempio, gli integrali stocastici) che
sono martingale solo se stoppate (o “localizzate”). Osserviamo anzitutto che, come nel caso discreto (cfr.
Proposizione 11.1.7), la proprietà di martingala si conserva stoppando il processo.

Corollario 13.4.1 (Martingala stoppata). Siano X = (Xt )t≥0 una martingala (càdlàg) e τ0 un tempo d’arre-
sto. Allora anche il processo stoppato (Xt∧τ0 )t≥0 è una martingala.

Dimostrazione. Essendo X càdlàg e adattato per ipotesi, per la Proposizione 11.2.28 si ha Xt∧τ0 ∈ mFt∧τ0 ⊆
h i
mFt . Inoltre, per il Teorema 13.1.6 Xt∧τ0 = E Xt | Ft∧τ0 ∈ L1 (Ω, P ) per ogni t ≥ 0. Ancora per il Teorema
h i
13.1.6, per ogni tempo d’arresto limitato τ si ha E Xτ∧τ0 = E [X0 ] e quindi la tesi segue dal Teorema 13.1.7.

Definizione 13.4.2 (Martingala locale). Un processo X = (Xt )t≥0 è una martingala locale se è X0 ∈ mF0 ed
esiste una successione crescente (τn )n∈N di tempi d’arresto, detta successione localizzante per X, tale che:

i) τn ↗ ∞ per n → ∞;

ii) per ogni n ∈ N, il processo stoppato e traslato (Xt∧τn − X0 )t≥0 è una martingala.

Indichiamo con M c,loc lo spazio delle martingale locali continue.

Per il Corollario 13.4.1 ogni martingala (càdlàg) è una martingala locale con successione localizzante
τn ≡ ∞.

Esempio 13.4.3. Consideriamo il processo costante X = (Xt )t≥0 con Xt ≡ X0 ∈ mF0 per ogni t ≥ 0. Se
X0 ∈ L1 (Ω, P ) allora X è una martingala. Se X0 < L1 (Ω, P ), il processo X non è una martingala a causa della
mancanza di sommabilità ma è ovviamente una martingala locale: infatti, posto τn ≡ ∞, si ha Xt∧τn −X0 ≡ 0.

Esempio 13.4.4. Sia W un moto Browniano su (Ω, F , P , (Ft )t≥0 ) e Y ∈ mF0 . Allora il processo

Xt := Y Wt

è adattato. Inoltre, se Y ∈ L1 (Ω, P ), essendo Wt = Wt − W0 e Y indipendenti, si ha anche Xt ∈ L1 (Ω, P ) per


ogni t ≥ 0 e
E [Y Wt | Fs ] = Y E [Wt | Fs ] = Y Ws , s ≤ t,
da cui segue che X è una martingala.
Senza ulteriori ipotesi su Y a parte la F0 -misurabilità, il processo X può non essere una martingala per
la mancanza di sommabilità ma è comunque una martingala locale: l’idea è di rimuovere le traiettorie in
cui Y è “troppo grande” ponendo 
0 se |Y | > n,


τn := 
∞ se |Y | ≤ n,

che definisce una successione crescente di tempi d’arresto (si noti che (τn ≤ t) = (|Y | > n) ∈ F0 ⊆ Ft ). Allora,
per ogni n ∈ N, il processo
t 7→ Xt∧τn = Xt 1(τn =∞) = Wt Y 1(|Y |≤n)
è una martingala poiché è del tipo Wt Ȳ con Ȳ = Y 1(|Y |≤n) variabile aleatoria limitata.

Osservazione 13.4.5. Se X è una martingala locale con successione localizzante (τn )n∈N allora:
13.5. MARTINGALE UNIFORMEMENTE IN L2 311

i) X ha una modificazione con traiettorie càdlàg che si costruisce a partire dall’esistenza di una modi-
ficazione càdlàg di ogni martingala Xt∧τn . Nel seguito, il fatto che X sia càdlàg sarà implicitamente
assunto per ipotesi;
ii) X è adattato poiché X0 ∈ mF0 per definizione e Xt − X0 è limite puntuale di Xt∧τn − X0 che è mFt -
misurabile per definizione di martingala;
iii) a priori Xt non gode di nessuna proprietà di sommabilità;
iv) se X ha traiettorie càdlàg allora esiste una successione localizzante (τ̄n )n∈N tale che

|τ̄n | ≤ n, Xt∧τ̄n ≤ n, t ≥ 0, n ∈ N.

Infatti, per la Proposizione 11.2.5, il tempo di uscita σn di |X| dall’intervallo [−n, n] è un tempo d’ar-
resto; inoltre, poiché X è càdlàg (e quindi ogni traiettoria di X è limitata su ogni intervallo temporale
compatto) si ha σn ↗ ∞. Allora
τ̄n := τn ∧ σn ∧ n
è una successione localizzante per X: in particolare, poiché Xt∧τn − X0 è una martingala, per il
Corollario 13.4.1 anche Xt∧τ̄n − X0 = X(t∧τ̄n )∧(σn ∧n) − X0 lo è;

v) se esiste Y ∈ L1h(Ω, P ) tale che i|Xt | ≤ Y per ogni t ≥ 0, allora X è una martingala: infatti per s ≤ t si ha
Xs∧τn − X0 = E Xt∧τn − X0 | Fs che, grazie all’ipotesi di sommabilità, equivale a
h i
Xs∧τn = E Xt∧τn | Fs . (13.4.1)

La tesi segue passando al limite per n → ∞ e utilizzando il Teorema della convergenza dominata
per l’attesa condizionata. In particolare, ogni martingala locale limitata è una martingala. Il pas-
saggio al limite in (13.4.1) è una questione molto delicata: per esempio, esistono martingale locali
uniformemente integrabili che non sono martingale4 ;
vi) se X ≥ 0 allora X è una super-martingala: basta ragionare come nel punto precedente utilizzando il
lemma di Fatou invece del Teorema della convergenza dominata.

13.5 Martingale uniformemente in L2


In questa sezione proviamo un’ulteriore versione del teorema di optional sampling. Sia (Ω, F , P , (Ft )t≥0 )
uno spazio con filtrazione che soddisfa le ipotesi usuali. Per trattare il caso in cui l’indice temporale varia
in R≥0 introduciamo una condizione di sommabilità che permetterà, con argomenti basati sull’utilizzo di
tempi d’arresto, di ricondursi facilmente al caso [0, T ].
Definizione 13.5.1. Sia p ≥ 1. Diciamo che un processo X = (Xt )t≥0 è uniformemente in Lp se

sup E [|Xt |p ] < ∞.


t≥0

Proposizione 13.5.2. Sia X = (Xt )t≥0 una martingala. Sono equivalenti le seguenti affermazioni:
i) X è uniformemente in L2 ;
ii) esiste una v.a. X∞ ∈ L2 (Ω, P ) e F∞ -misurabile5 , tale che

Xt = E [X∞ | Ft ] , t ≥ 0.
4 Si veda, per esempio, il Capitolo 2 in [20].
5 Si ricordi la definizione di F in (11.2.2).

312 CAPITOLO 13. MARTINGALE CONTINUE

In tal caso vale anche " #


h i
E sup Xt2 2
≤ 4E X∞ . (13.5.1)
t≥0

Dimostrazione. [ii) ⇒ i)] Per la disuguaglianza di Jensen si ha


h i h i h h ii h i
E Xt2 = E E [X∞ | Ft ]2 ≤ E E X∞ 2 2
| Ft = E X∞ < ∞. (13.5.2)

[i) ⇒ ii)] Consideriamo la martingala discreta (Xn )n∈N . Per il Teorema 13.2.2, per quasi ogni ω ∈ Ω esiste ed
è finito il limite
X∞ (ω) := lim Xn (ω)
n→∞
e poniamo X∞ (ω) = 0 per gli ω per cui tale limite non esiste o non è finito. Chiaramente X∞ ∈ mF∞ e
inoltre X∞ ∈ L2 (Ω, P ) poiché per il lemma di Fatou vale
h i h i h i
2
E X∞ ≤ lim E Xn2 ≤ sup E Xt2 < ∞
n→∞ t≥0

per ipotesi. Grazie all’Osservazione A.3.0.10, (Xn )n∈N è uniformemente integrabile e quindi per il Teorema
A.3.0.2 di Vitali si ha anche che Xn converge a X∞ in L1 (Ω, P ): da questo segue anche che

Xn = E [X∞ | Fn ] , n ∈ N; (13.5.3)

infatti, usando la definizione di attesa condizionata, è sufficiente osservare che per ogni A ∈ Fn si ha

0 = lim E [(Xn − XN )1A ] = E [(Xn − X∞ )1A ] .


N →∞

Allora, dato t ≥ 0 e preso n ≥ t, si ha

Xt = E [Xn | Ft ] = E [E [X∞ | Fn ] | Ft ] = E [X∞ | Ft ] .

Infine, per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha


 
h i
E  sup Xt  ≤ 4E Xn2 ≤
2
 
t∈[0,n]

(per la (13.5.3) e procedendo come nella prova della (13.5.2))


h i
2
≤ 4E X∞

e la (13.5.1) segue passando al limite per n → +∞, per il Teorema di Beppo-Levi.


h i
Esempio 13.5.3. Un moto Browniano reale W non è uniformemente in L2 poiché E Wt2 = t. Tuttavia, per
ogni fissato T > 0, il processo Xt := Wt∧T è una martingala uniformemente in L2 con X∞ = WT .
Il prossimo risultato è una versione del Teorema di optional sampling per martingale uniformemente
in L2 . Tale condizione di sommabilità è necessaria come risulta evidente dal seguente esempio: dati un
moto Browniano reale W e a > 0, consideriamo il tempo d’arresto τa = inf{t ≥ 0 | Wt ≥ a}. Abbiamo visto
nell’Osservazione 12.1.7-ii) che τa < ∞ q.c. ma
h i
0 = W0 < E Wτa = a.

Teorema 13.5.4 (Teorema di optional sampling). [!!] Sia X = (Xt )t≥0 una martingala (càdlàg) uniforme-
mente in L2 . Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 < ∞ allora si ha
h i
Xτ1 = E Xτ2 | Fτ1 .
13.5. MARTINGALE UNIFORMEMENTE IN L2 313

Dimostrazione. Cominciamo col provare che se X = (Xt )t≥0 è una sub-martingala càdlàg uniformemente in
L2 , allora per ogni tempo d’arresto τ finito q.c. (ossia P (τ < ∞) = 1) vale

X0 ≤ E [Xτ | F0 ] . (13.5.4)

Osserviamo anzitutto che se τ è un tempo d’arresto finito q.c. allora Xτ ∈ L2 (Ω, P ) per la (13.5.1). Ap-
plicando il Teorema 13.1.6 di optional sampling con la successione di tempi d’arresto limitati τ ∧ n, si
ha
X0 ≤ E [Xτ∧n | F0 ] . (13.5.5)
Passando al limite per n → ∞ si ha (13.5.4): il passaggio al limite nel membro a destra della (13.5.5) è
giustificato dal teorema della convergenza dominata poiché

|Xτ∧n | ≤ 1 + sup Xt2 ∈ L1 (Ω, P )


t≥0

grazie alla (13.5.1).


Per provare la tesi è sufficiente verificare che per ogni A ∈ Fτ1 vale
h i h i
E Xτ1 1A = E Xτ2 1A . (13.5.6)

Consideriamo
τ := τ1 1A + τ2 1Ac
che è un tempo d’arresto poiché

(τ < t) = (A ∩ (τ1 < t)) ∪ (Ac ∩ (τ2 < t)) ∈ Ft , t ≥ 0.

Allora per la (13.5.4) si ha


h i h i
E [X0 ] = E [Xτ ] = E Xτ1 1A + E Xτ2 1Ac ,
h i h i h i
E [X0 ] = E Xτ1 = E Xτ1 1A + E Xτ1 1Ac ,

da cui la (13.5.6).
314 CAPITOLO 13. MARTINGALE CONTINUE
Capitolo 14

Teoria della variazione

In questo capitolo facciamo alcuni richiami di teoria dell’integrazione deterministica secondo Riemann-
Stieltjes e Lebesgue-Stieltjes. Le traiettorie del moto Browniano (e, in generale, delle martingale) non han-
no la regolarità sufficiente per poter utilizzare tali teorie al fine di definire l’integrale Browniano in senso
deterministico, traiettoria per traiettoria. Questo fatto viene precisato tramite i concetti di variazione pri-
ma e seconda (o quadratica) di una funzione che sono cruciali nella costruzione dell’integrale stocastico.
Successivamente introduciamo un’importante classe di processi stocastici chiamati semi-martingale. Una
semi-martingala è la somma di una martingala locale con un processo le cui traiettorie hanno variazione
prima limitata: sotto opportune ipotesi, tale decomposizione è unica. Proviamo una versione particola-
re del fondamentale Teorema di decomposizione di Doob-Meyer: se X è una martingala allora X 2 è una
semi-martingala, ossia può essere decomposto nella somma di una martingala con un processo a variazio-
ne limitata: quest’ultimo è il cosiddetto processo variazione quadratica di X. I risultati di questo capitolo
sono alla base della definizione di integrale stocastico che daremo in seguito.

14.1 Integrale di Riemann-Stieltjes


In questa sezione richiamiamo alcuni risultati classici sull’integrazione in ambito deterministico. Fissa-
to T > 0, una partizione dell’intervallo [0, T ] è un insieme del tipo π = {t0 , t1 , . . . , tN } con 0 = t0 < t1 < · · · <
tN = T . Indichiamo con PT l’insieme delle partizioni di [0, T ]. Data una funzione

g : [0, T ] −→ Rd

la variazione prima di g su π ∈ PT è definita da


N
X
V (g; π) = |g(tk ) − g(tk−1 )| .
k=1

Definizione 14.1.1 (Funzione BV). Si dice che g ha variazione limitata su [0, T ], e si scrive g ∈ BVT , se

VT (g) := sup V (g; π) < ∞.


π∈PT

Si dice che
g : R≥0 −→ Rd
è localmente a variazione limitata, e si scrive g ∈ BV, se g|[0,T ] ∈ BVT per ogni T > 0.

Si noti che la funzione t 7→ Vt (g) è crescente e non-negativa.

315
316 CAPITOLO 14. TEORIA DELLA VARIAZIONE

Esempio 14.1.2. i) Sia d = 1. Se g è una funzione monotona su [0, T ] allora g ∈ BVT . Infatti se, per
esempio, g è crescente allora
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| = (g(tk ) − g(tk−1 )) = g(T ) − g(0)
k=1 k=1

per ogni π ∈ PT . Nel caso d = 1 la monotonia è pressoché una caratterizzazione: è noto che g ∈ BVT
se e solo se g è differenza di funzioni monotone crescenti, g = g+ − g− . Inoltre, se g è continua allora
anche g+ e g− lo sono.
ii) Non è difficile mostrare che, se g è continua allora

VT (g) = lim V (g; π) (14.1.1)


|π|→0

dove
|π| := max |tk − tk−1 |
1≤k≤N

è detto parametro di finezza di π. Interpretando t 7→ g(t) come una traiettoria (o curva parametrizzata)
in Rd , il fatto che g ∈ BVT significa che g è una traiettoria rettificabile (ossia, con lunghezza appros-
simabile mediante spezzate) e, per definizione, VT (g) è la lunghezza di g. La (14.1.1) non vale se g è
discontinua: per esempio, fissato s ∈ ]0, T [, la funzione

1 se t = s,


g(t) = 
0 se t ∈ [0, s[∪ ]s, T ],

è tale che V (g; π) = 2 per ogni π ∈ PT tale che s ∈ π e V (g; π) = 0 per ogni π ∈ PT tale che s < π.
iii) Se g ∈ Lip([0, T ]; Rd ), ossia esiste una costante c tale che |g(t) − g(s)| ≤ c|t − s| per ogni t, s ∈ [0, T ], allora
g ∈ BVT poiché
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| ≤ c (tk − tk−1 ) = cT
k=1 k=1
per ogni π ∈ PT .
iv) Se g è una funzione integrale del tipo
Z t
g(t) = u(s)ds, t ∈ [0, T ],
0

con u ∈ L1 ([0, T ]; Rd ) allora g ∈ BVT poiché


N Z tk
N Z
X X tk
V (g; π) = u(s)ds ≤ |u(s)|ds = ∥u∥L1 ,
k=1 tk−1 tk−1
k=1

per ogni π ∈ PT .
v) Non è difficile provare che la funzione

0 se t = 0,


g(t) = 
t sin 1t
 se 0 < t ≤ T ,

è continua ma non ha variazione limitata.


14.1. INTEGRALE DI RIEMANN-STIELTJES 317

Introduciamo ora l’integrale di Riemann-Stieltjes. Data π = {t0 , . . . , tN } ∈ PT , indichiamo con Tπ la


famiglia delle scelte di punti relative a π: un elemento di Tπ è della forma

τ = {τ1 , . . . , τN }, τk ∈ [tk−1 , tk ], k = 1, . . . , N .

Date due funzioni f , g : [0, T ] −→ R, π ∈ PT e τ ∈ Tπ , diciamo che


N
X
S(f , g; π, τ) := f (τk )(g(tk ) − g(tk−1 ))
k=1

è la somma di Riemann-Stieltjes di f rispetto a g, relativamente alla partizione π e alla scelta di punti τ.


Proposizione 14.1.3 (Integrale di Riemann-Stieltjes). Per ogni f ∈ C[0, T ] e g ∈ BVT esiste ed è finito il
limite
lim S(f , g; π, τ). (14.1.2)
|π|→0

Tale limite è chiamato integrale di Riemann-Stieltjes di f rispetto a g su [0, T ] ed indicato con


ZT ZT
f dg oppure f (t)dg(t).
0 0

Più precisamente, per ogni ε > 0 esiste δε > 0 tale che


ZT

S(f , g; π, τ) − f dg < ε
0

per ogni π ∈ PT , con |π| < δε , e τ ∈ Tπ .


Dimostrazione. Usiamo il criterio di Cauchy e mostriamo che per ogni ε > 0 esiste δε > 0 tale che

S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) < ε

per ogni π′ , π′′ ∈ PT tali che |π′ |, |π′′ | < δε e per ogni τ ′ ∈ Tπ′ e τ ′′ ∈ Tπ′′ .
Poniamo π = π′ ∪ π′′ = {t0 , . . . , tN }. Poiché f è uniformemente continua sul compatto [0, T ], fissato ε > 0
esiste δε > 0 tale che, per |π′ |, |π′′ | < δε , si ha

N
X
S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) ≤ ε |g(tk ) − g(tk−1 )| ≤ εV (g; π)
k=1

da cui segue la tesi.


Vediamo alcuni casi particolari in cui si riesce a calcolare un integrale di Riemann-Stieltjes a partire
dalla definizione generale (14.1.2).
Esempio 14.1.4. Fissato t̄ ∈ ]0, T [, sia 
0 se t ∈ [0, t̄[,


g(t) = 
1 se t ∈ [t̄, T ].

Per ogni f ∈ C[0, T ], π = {t0 , . . . , tN } ∈ PT e τ ∈ Tπ , sia k̄ l’indice per cui vale t̄ ∈ ]tk̄−1 , tk̄ ]. Allora si ha

S(f , g; π, τ) = f (τk̄ ) (g(tk̄ ) − g(tk̄−1 )) = f (τk̄ ) −−−−−→ f (t̄).


|π|→0

Dunque
Z T
f dg = f (t̄).
0
318 CAPITOLO 14. TEORIA DELLA VARIAZIONE

Si noti che Z T Z
f (t)dg(t) = f (t)δt̄ (dt)
0 [0,T ]
dove il membro a destra è l’integrale rispetto alla misura delta di Dirac centrata in t̄.
Esempio 14.1.5. Sia Z t
g(t) = u(s)ds, t ∈ [0, T ],
0
la funzione integrale (di Lebesgue) dell’Esempio 14.1.2-iv), con u ∈ L1 ([0, T ]; R). A meno di considerare
separatamente la parte positiva e negativa di u, non è restrittivo assumere u ≥ 0. Date π ∈ PT e f ∈ C[0, T ],
consideriamo la particolare scelta di punti
τk ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ]

Allora si ha
N
X
S(f , g; π, τ) = f (τk )(g(tk ) − g(tk−1 ))
k=1
N
X Z tk
= f (τk ) u(s)ds
k=1 tk−1

XN Z tk Z T
≤ f (s)u(s)ds = f (s)u(s)ds.
k=1 tk−1 0

Si prova una disuguaglianza analoga con la scelta


τk ∈ arg max f , k = 1, . . . , N .
[tk−1 ,tk ]

e, passando al limite per |π| → 0, si conclude che


ZT Z T
f (t)dg(t) = f (t)u(t)dt.
0 0

Il risultato generale che fornisce le regole di calcolo per l’integrale di Riemann-Stieltjes è la seguente
importante formula di Itô.
Teorema 14.1.6 (Formula di Itô deterministica). Per ogni F = F(t, x) ∈ C 1 ([0, T ] × R) e g ∈ BVT ∩ C[0, T ]
vale ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∂x F)(t, g(t))dg(t)
0 0
Dimostrazione. Per ogni π = {t0 , . . . , tN } ∈ PT si ha
N
X
F(T , g(T )) − F(0, g(0)) = (F(tk , g(tk )) − F(tk−1 , g(tk−1 ))) =
k=1

(per il teorema del valor medio e la continuità di g, con τ ′ , τ ′′ ∈ Tπ )


N 
X 
= (∂t F)(τk′ , g(τk′′ ))(tk − tk−1 ) + (∂x F)(τk′ , g(τk′′ )) (g(tk ) − g(tk−1 ))
k=1

da cui la tesi, passando al limite per |π| → 0.


14.2. INTEGRALE DI LEBESGUE-STIELTJES 319

Osservazione 14.1.7. Nel caso in cui F dipenda solo da x, la formula di Itô diventa
ZT
F(g(T )) − F(g(0)) = F ′ (g(t))dg(t)
0

che viene a volte scritta, soprattutto nell’ambito del calcolo stocastico (cfr. Notazione 15.3.4), con la
cosiddetta “notazione differenziale”
dF(g(t)) = F ′ (g(t))dg(t). (14.1.3)
Quest’ultima formalmente ricorda l’usuale regola di derivazione di funzione composta.
Nel caso multi-dimensionale in cui g = (g1 , . . . , gd ) sia a valori in Rd , posto ∇x = (∂x1 , . . . , ∂xd ), la formula
di Itô diventa
ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t)
0 0
Z T d Z
X T
= (∂t F)(t, g(t))dt + (∂xi F)(t, g(t))dgi (t)
0 i=1 0

o in notazione differenziale

dF(t, g(t)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t).

Esempio 14.1.8. Consideriamo alcuni esempi di applicazione della formula di Itô:


i) se F(t, x) = x si ha
Z T
g(T ) − g(0) = dg
0
che generalizza il teorema fondamentale del calcolo integrale;
ii) se F(t, x) = f (t)x, con f ∈ C 1 [0, T ], si ha
Z T Z T
f (T )g(T ) − f (0)g(0) = f ′ (t)g(t)dt + f (t)dg(t)
0 0

che generalizza la formula di integrazione per parti. In forma differenziale abbiamo

d(f (t)g(t)) = f ′ (t)g(t)dt + f (t)dg(t) (14.1.4)

che formalmente ricorda la formula per la derivata di un prodotto;


iii) se F(t, x) = x2 si ha
T
g 2 (T ) − g 2 (0)
Z
g(t)dg(t) = .
0 2

14.2 Integrale di Lebesgue-Stieltjes


Ricordiamo che una funzione g ∈ BV ∩ C(R≥0 ), a valori reali, si decompone nella differenza g = g+ − g−
con g+ , g− funzioni crescenti e continue. Per il Teorema 2.4.33, a g+ e g− sono associate due misure su1
(R≥0 , B) che indichiamo rispettivamente µ+g e µ−g , per le quali vale

µ±g ([a, b]) = µ±g (]a, b]) = g± (b) − g± (a), a ≤ b.


1 Definiamo le misure su R
≥0 poiché lo spazio dei reali non-negativi sarà nel seguito l’insieme degli indici temporali dei processi
stocastici. Per applicare il Teorema 2.4.33, possiamo prolungare le funzioni g+ , g− in modo che siano continue e costanti per t ≤ 0.
Tutti i risultati della sezione valgono ovviamente su (R, B).
320 CAPITOLO 14. TEORIA DELLA VARIAZIONE

In realtà per applicare il Teorema 2.4.33 sarebbe sufficiente assumere g continua da destra (come nel-
l’Esempio 14.1.4 in cui µg = δt̄ ). Tuttavia, per semplificare la trattazione, assumeremo g continua anche
perché in seguito studieremo l’integrale stocastico solo con integratori continui. Indichiamo

|µg | := µ+g + µ−g

la misura somma di µ+g e µ−g . Inoltre, per ogni H ∈ B tale che almeno uno fra µ+g (H) e µ−g (H) sia finito,
poniamo
µg (H) = µ+g (H) − µ−g (H). (14.2.1)
Diciamo che µg è una misura con segno poiché può assumere anche valori negativi, compreso −∞.

Definizione 14.2.1 (Misura di Lebesgue-Stieltjes). Data g ∈ BV ∩ C(R≥0 ), diciamo che µg in (14.2.1) è


la misura di Lebesgue-Stieltjes associata a g. Per ogni H ∈ B e f ∈ L1 (H, |µg |), definiamo l’integrale di
Lebesgue-Stieltjes di f rispetto a g su H come
Z Z Z
f dµg := f dµ+g − f dµ−g .
H H H

L’integrale di Lebesgue-Stieltjes generalizza l’integrale di Riemann-Stieltjes, estendendo la classe delle


funzioni integrabili.

Proposizione 14.2.2 (Riemann-Stieltjes vs Lebesgue-Stieltjes). Per ogni f ∈ C(R≥0 ), g ∈ BV ∩ C(R≥0 ) e


T > 0, si ha ZT Z
f dg = f dµg .
0 [0,T ]

Dimostrazione. Data π = {t0 , . . . , tN } ∈ PT , consideriamo le funzioni semplici


N
X
fπ± (t) = f (τk± )1[tk−1 ,tk [ (t)
k=1

con
τk+ ∈ arg max f , τk− ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ] [tk−1 ,tk ]

Allora si ha
N
X Z Z Z N
X
f (τk− ) (g+ (tk ) − g+ (tk−1 )) = fπ− dµ+g ≤ f dµ+g ≤ fπ+ dµ+g = f (τk+ ) (g+ (tk ) − g+ (tk−1 )) .
k=1 [0.T ] [0,T ] [0.T ] k=1

Passando al limite per |π| → 0, otteniamo


Z T Z
f dg+ = f dµ+g
0 [0,T ]

e la prova si conclude procedendo in maniera analoga con g− .

Diamo un risultato tecnico che sarà utilizzato in seguito (si veda, per esempio, il Teorema 16.2.1).

Proposizione 14.2.3. In uno spazio (Ω, F , P , (Ft )t≥0 ) in cui sono valide le ipotesi usuali, siano:

• τ un tempo d’arresto finito, ossia tale che τ < ∞ q.c.;

• A un processo continuo, crescente e adattato con A0 = 0;


14.3. SEMI-MARTINGALE 321

• X una variabile aleatoria sommabile e non negativa.

Allora si ha "Z τ # "Z τ #


E XdAt = E E [X | Ft ] dAt
0 0

che più precisamente significa che vale l’identità


"Z τ # "Z τ #
E XdAt = E Mt dAt
0 0

per ogni M che sia una versione càdlàg della martingala E [X | Ft ].

Dimostrazione. Assumiamo dapprima che A e X siano limitati q.c. da un certo N ∈ N. Fissato n ∈ N,


poniamo τk = kτ
n per k = 0, . . . , n. Si ha
 n 
"Z τ #
X  
E XdAt = E  X Aτk − Aτk−1 
0 k=1
 n 
 X h i 
= E   E X | Fτk Aτk − Aτk−1 
k=1
 n 
 X  
= E   Mτk Aτk − Aτk−1 
k=1
"Z τ #
(n)
=E Mt dAt
0

dove
n
(n)
X
Mt = M0 + Mτk 1]τk−1 ,τk ] (t).
k=1

Per la continuità a destra di M, si ha


(n)
lim Mt (ω) = Mt (ω)
n→∞

per quasi ogni ω tale che t ≤ τ(ω). Data la limitatezza di X e quindi di M, la tesi segue dal teorema della
convergenza dominata. In generale, è sufficiente applicare quanto appena provato a X ∧ N , A ∧ N e usare il
teorema di Beppo-Levi al tendere di N → ∞.

14.3 Semi-martingale
Definizione 14.3.1. Diciamo che un processo X = (Xt )t≥0 è

• crescente se le traiettorie t 7→ Xt (ω) sono funzioni crescenti2 per quasi ogni ω ∈ Ω;

• localmente a variazione limitata se X(ω) ∈ BV per quasi ogni ω ∈ Ω (cfr. Definizione 14.1.1). Per bre-
vità spesso ometteremo l’aggettivo “localmente” e parleremo semplicemente di processi a variazione
limitata, usando ancora la notazione BV per indicare la famiglia di tali processi;

• una semi-martingala se è della forma X = M + A dove M è una martingala locale e A è un processo


adattato, a variazione limitata e tale che A0 = 0.
2 Ossia X (ω) ≤ X (ω) se s ≤ t.
s t
322 CAPITOLO 14. TEORIA DELLA VARIAZIONE

L’interesse per le semi-martingale è dovuto al fatto che utilizzeremo tali processi come integratori nel-
l’integrale stocastico di Itô. Ci limiteremo a considerare semi-martingale continue, ossia processi della
forma X = M + A con M ∈ M c,loc (cfr. Definizione 13.4.2) e A continuo, adattato e a variazione limitata.
Esempio 14.3.2. Siano x, µ, σ ∈ R e W un moto Browniano standard. Il moto Browniano con drift

Xt := x + µt + σ Wt , t ≥ 0,

è una semi-martingala continua con decomposizione X = M + A dove Mt = x + σ Wt e At = µt. Proveremo


nel Corollario 14.3.7 che la decomposizione di una semi-martingala continua è unica.
Osservazione 14.3.3. Un risultato profondo, il Teorema di decomposizione di Doob-Meyer, afferma che
ogni sub-martingala càdlàg è una semi-martingala: la dimostrazione non è elementare come nel caso
discreto, esaminato nel Teorema 6.5.14.
In [62], Cap. IV Teorema 71, si prova che se X è una martingala locale continua, X ∈ M c,loc , con X0 = 0
e 0 < α < 21 allora il processo |X|α non è una semi-martingala a meno che X non sia identicamente nullo.

14.3.1 Il moto Browniano come semi-martingala


Un moto Browniano W è una martingala continua e quindi anche una semi-martingala. Per mostrare
che la sua parte BV è nulla (e quasi tutte le traiettorie di W non sono BV), introduciamo il concetto di
variazione seconda (o quadratica) di una funzione g relativa alla partizione π = {t0 , t1 , . . . , tN } ∈ PT :
N
(2)
X
VT (g; π) := |g(tk ) − g(tk−1 )|2 . (14.3.1)
k=1

Proposizione 14.3.4. Se g ∈ BVT ∩ C[0, T ] allora


(2)
lim VT (g; π) = 0.
|π|→0

Dimostrazione. Essendo g uniformemente continua sull’intervallo compatto [0, T ], per ogni ε > 0 esiste
δε > 0 tale che
max |g(tk ) − g(tk−1 )| < ε
1≤k≤N
per ogni π ∈ PT tale che |π| < δε . Di conseguenza
N
(2)
X
VT (g; π) ≤ ε |g(tk ) − g(tk−1 )| ≤ εVT (g).
k=1

Esempio 14.3.5. [!] Se W un moto Browniano reale allora


(2)
lim VT (W ; π) = T in L2 (Ω, P ), (14.3.2)
|π|→0

e di conseguenza quasi certamente le traiettorie di W non hanno variazione limitata.


Per provare la (14.3.2), data una partizione π = {t0 , t1 , . . . , tN } ∈ PT , poniamo

δk = tk − tk−1 , ∆k = Wtk − Wtk−1 , k = 1, . . . , N ,


h i
e osserviamo che E ∆4k = 3δk2 e
h i h  i h  h ii
E ∆2k − δk = 0, E ∆2h − δh ∆2k − δk = E ∆2h − δh E ∆2k − δk | Fth = 0 (14.3.3)
14.3. SEMI-MARTINGALE 323

se h < k. Allora si ha

N 
2 
" 2 #
(2)
X  
2
E VT (W ; π) − T = E  ∆k − δk  

 
k=1
N
X  2  X h  i
= E ∆2k − δk +2 E ∆2h − δh ∆2k − δk =
k=1 h<k

(sviluppando il primo quadrato e osservando che i termini della seconda somma sono nulli per la (14.3.3))
N
X h i
= E ∆4k − 2∆2k δk + δk2 =
k=1

(ancora per le (14.3.3))


N
X N
X
= 2δk2 ≤ 2|π| δk = 2|π|T
k=1 k=1

da cui la tesi.

14.3.2 Semi-martingale a variazione limitata


Nell’Esempio 14.3.5 abbiamo ripetutamente utilizzato la proprietà di martingala per provare che W
ha variazione quadratica positiva e quindi non ha variazione prima limitata. In effetti, questo risultato si
estende a tutta la classe delle martingale locali continue le cui traiettorie non hanno variazione limitata a
meno che non siano identicamente nulle.
Teorema 14.3.6. [!] Sia X = (Xt )t≥0 una martingala locale continua, X ∈ M c,loc . Se X ∈ BV allora X è
indistinguibile dal processo identicamente uguale a X0 .
Dimostrazione. A meno di una traslazione, possiamo considerare X0 = 0. Dapprima proviamo la tesi nel ca-
so in cui X è una martingala continua limitata e con variazione prima limitata: precisamente, supponiamo
che esista una costante K tale che
sup (|Xt | + Vt (X)) ≤ K.
t≥0
Fissato T > 0 e π ∈ PT , poniamo

∆k = Xtk − Xtk−1 , ∆π = max |Xtk − Xtk−1 |.


1≤k≤N

Osserviamo che per l’identità (6.5.3) vale


 2  h i
E Xtk − Xtk−1 | Ftk−1 = E Xt2k − Xt2k−1 | Ftk−1

e, per l’uniforme continuità delle traiettorie,

lim ∆π (ω) = 0, 0 ≤ ∆π (ω) ≤ 2K, ω ∈ Ω. (14.3.4)


|π|→0

Allora si ha
N  N 
h i X   X  2 
E XT2 = E  Xt2k − Xt2k−1  = E  Xtk − Xtk−1  ≤ E [∆π VT (X; π)] ≤ KE [∆π ]
k=1 k=1
324 CAPITOLO 14. TEORIA DELLA VARIAZIONE
h i
che, per |π| → 0, tende a zero per la (14.3.4) grazie al teorema della convergenza dominata. Dunque E XT2 =
0 e per la disuguaglianza massimale di Doob
" #
h i
E sup Xt2 ≤ 4E XT2 = 0.
0≤t≤T

Di conseguenza, per continuità, quasi tutte le traiettorie di X sono identicamente nulle su [0, T ]. Data
l’arbitrarietà di T si conclude che X è indistinguibile dal processo nullo.
Nel caso generale, consideriamo una successione localizzante τ̄n per cui Yn,t := Xt∧τ̄n ∈ BV. Ritocchiamo
tale successione definendo i tempi d’arresto

σn = inf{t ≥ 0 | |Yn,· | + Vt (Yn,· ) ≥ n}.

Anche τn := τ̄n ∧σn ∧n è una successione localizzante per X: inoltre, Xt∧τn è una martingala continua, limita-
ta, costante per t ≥ n e con variazione prima limitata da n. Per quanto provato sopra, Xt∧τn è indistinguibile
dal processo nullo e la tesi segue passando al limite per n → ∞.

Corollario 14.3.7. Sia X una semi-martingala continua. È unica la rappresentazione X = M + A, con M ∈


M c,loc e A continuo, adattato, a variazione limitata e tale che A0 = 0.

Dimostrazione. Se X = M ′ + A′ è un’altra rappresentazione allora si ha che M − M ′ = A′ − A è una martingala


locale continua e localmente a variazione limitata. Per il Teorema 14.3.6, M è indistinguibile da M ′ e A è
indistinguibile da A′ .

Osservazione 14.3.8. Senza l’ipotesi di continuità, in generale la decomposizione di una semi-martingala


non è unica. Per esempio, il processo di Poisson N è crescente e quindi BV: allora N = M + A con A := N e
M := 0 oppure si ha anche la decomposizione con At := λt e Mt := Nt − λt, dove M è il processo di Poisson
compensato (cfr. Proposizione 8.3.1).

14.4 Decomposizione di Doob e processo variazione quadratica


In questa sezione presentiamo un risultato che è alla base della teoria dell’integrazione stocastica: per
ogni martingala locale continua X esiste un processo crescente, detto processo variazione quadratica e indi-
cato con ⟨X⟩, che “compensa” la sub-martingala locale X 2 nel senso che X 2 − ⟨X⟩ è una martingala locale
continua. Il processo ⟨X⟩ può essere costruito traiettoria per traiettoria come limite della variazione secon-
da (14.3.1) per |π| → 0: ciò è coerente con quanto visto nell’Esempio 14.3.5 relativo al moto Browniano W
per il quale si ha ⟨W ⟩t = t e il processo Wt2 − t è una martingala continua.
Ricordiamo che M c,2 indica lo spazio delle martingale continue X tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0
(cfr. Definizione 13.3.1) e M c,loc indica lo spazio delle martingale locali continue (cfr. Definizione 13.4.2).

Teorema 14.4.1 (Processo variazione quadratica). [!!] Per ogni X ∈ M c,2 esistono e sono unici (a meno di
indistinguibilità) due processi M e ⟨X⟩ tali che:

i) M è una martingala continua;

ii) ⟨X⟩ è un processo adattato, continuo e crescente3 , tale che ⟨X⟩0 = 0;

iii) si ha la decomposizione
Xt2 = Mt + ⟨X⟩t , t ≥ 0;
3 Chiaramente ⟨X⟩ è anche sommabile poiché ⟨X⟩ = X 2 − M con X ∈ L2 (Ω, P ) per ipotesi e M ∈ L1 (Ω, P ) per definizione di
t t t t t
martingala.
14.4. DECOMPOSIZIONE DI DOOB E PROCESSO VARIAZIONE QUADRATICA 325

iv) vale h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] , t ≥ s ≥ 0. (14.4.1)
La (14.4.1) è la prima versione di un’importante identità chiamata isometria di Itô (cfr. Sezione 15.2.1).
Più in generale, se X ∈ M c,loc allora valgono ancora la ii) e la iii), mentre la i) viene sostituita da
i’) M ∈ M c,loc .
Il processo ⟨X⟩ è chiamato processo variazione quadratica di X: per ogni t > 0 si ha
2n 
X 2
⟨X⟩t = lim X tkn − X t(k−1) (14.4.2)
n→∞ 2 2n
k=1

in probabilità.
Infine, data una semi-martingala continua della forma S = X + A, con X ∈ M c,loc e A ∈ BV adattato, per
ogni t > 0 si ha
2n 
X 2
⟨S⟩t := lim S tkn − S t(k−1) = ⟨X⟩t (14.4.3)
n→∞ 2 2n
k=1
in probabilità: diciamo che ⟨S⟩ è il processo variazione quadratica di S.
La dimostrazione del Teorema 14.4.1 è rimandata alla Sezione 14.6.
Osservazione 14.4.2. Grazie al Teorema 13.1.6 di optional sampling, l’importante identità (14.4.1) si ge-
neralizza al caso in cui al posto di t, s ci sono rispettivamente due tempi d’arresto limitati τ, σ tali che
σ ≤ τ ≤ T q.c. per un certo T > 0.
Osservazione 14.4.3. Il Teorema 14.4.1 è un caso particolare di un risultato profondo e più generale, noto
come Teorema di decomposizione di Doob-Meyer, che afferma che ogni sub-martingala X càdlàg di classe D
(ossia tale che la famiglia delle v.a. Xτ , al variare di τ tempo d’arresto, sia uniformemente integrabile) si scrive in
modo unico nella forma X = M + A con M martingala continua e A processo crescente e tale che A0 = 0.
Tale risultato è stato provato per la prima volta da Meyer negli anni ’60 del secolo scorso e da allora sono
state fornite molte altre dimostrazioni. Una prova particolarmente sintetica è stata recentemente proposta
in [10]: l’idea molto intuitiva è di discretizzare il processo X sui diadici, utilizzare la versione discreta del
Teorema di decomposizione di Doob (cfr. Teorema 6.5.14) e infine provare con il Lemma 14.6.1 di Komlos
che la successione delle decomposizioni discrete converge alla decomposizione cercata.
Proposizione 14.4.4 (Processo co-variazione). Siano X, Y ∈ M c,loc a valori reali. Il processo co-variazione di
X e Y , definito da
⟨X + Y ⟩ − ⟨X − Y ⟩
⟨X, Y ⟩ := , (14.4.4)
4
è l’unico (a meno di indistinguibilità) processo tale che
i) ⟨X, Y ⟩ ∈ BV è adattato, continuo e tale che ⟨X, Y ⟩0 = 0;
ii) XY − ⟨X, Y ⟩ ∈ M c,loc ed è una vera martingala nel caso in cui X, Y ∈ M c,2 .
Se X, Y ∈ M c,2 si ha
E [(Xt − Xs )(Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] , t ≥ s ≥ 0, (14.4.5)
e vale
2n 
X  
⟨X, Y ⟩t = lim X tkn − X t(k−1) Y tkn − Y t(k−1) , t ≥ 0, (14.4.6)
n→∞ 2 2n 2 2n
k=1
in probabilità.
326 CAPITOLO 14. TEORIA DELLA VARIAZIONE

Dimostrazione. Data l’uguaglianza elementare

(X + Y )2 − (X − Y )2
XY =
4
è facile verificare che il processo ⟨X, Y ⟩ definito come in (14.4.4) verifica le proprietà i) e ii). L’unicità segue
direttamente dal Teorema 14.3.6. La (16.4.1) segue dall’identità

E [(Xt − Xs )(Yt − Ys ) | Fs ] = E [Xt Yt − Xs Ys | Fs ]

e dalla proprietà di martingala di XY − ⟨X, Y ⟩. La (14.4.6) è una semplice conseguenza della (14.4.4),
applicata a X + Y e X − Y , e della Proposizione 16.2.4.
Osservazione 14.4.5. Per unicità si ha ⟨X, X⟩ = ⟨X⟩. Le seguenti proprietà sono dirette conseguenze della
definizione (14.4.4) di co-variazione e della (14.4.6):
i) simmetria: ⟨X, Y ⟩ = ⟨Y , X⟩;
ii) bi-linearità: ⟨αX + βY , Z⟩ = α⟨X, Z⟩ + β⟨Y , Z⟩, per α, β ∈ R;

iii) Cauchy-Schwarz: |⟨X, Y ⟩| ≤ ⟨X⟩⟨Y ⟩.
Poiché la variazione quadratica di una funzione BV continua è nulla (cfr. Proposizione 14.3.4), la
definizione di variazione quadratica si estende alle semi-martingale continue in modo naturale.
Definizione 14.4.6 (Matrice di co-variazione di una semi-martingala). Data una semi-martingala conti-
nua S = X +A, con X ∈ M c,loc e A ∈ BV adattato, poniamo ⟨S⟩ := ⟨X⟩ e diciamo che ⟨S⟩ è il processo variazione
quadratica di S.
Analogamente, se S = (S 1 , . . . , S d ) è una semi-martingala continua d-dimensionale con decomposizione
S = X + A, diciamo che la matrice simmetrica di dimensione d × d definita da
 
⟨S⟩ := ⟨X i , X j ⟩
i,j=1,...,d

è la matrice di co-variazione di S.

14.5 Moto Browniano multi-dimensionale


Definizione 14.5.1 (Moto Browniano d-dimensionale). Sia W = (Wt1 , . . . , Wtd )t≥0 un processo stocastico a
valori in Rd definito su uno spazio di probabilità con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che W è un
moto Browniano d-dimensionale se verifica le seguenti proprietà:
i) W0 = 0 q.c.;
ii) W è continuo q.c.;
iii) W è adattato a (Ft )t≥0 ;
iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;
v) Wt − Ws ∼ N0,(t−s)I per ogni t ≥ s ≥ 0, dove I indica la matrice identità d × d.
Un moto Browniano multi-dimensionale è un vettore di moti Browniani reali indipendenti: vale infatti
la seguente
Proposizione 14.5.2. Se W = (W 1 , . . . , W d ) è un moto Browniano d-dimensionale su (Ω, F , P , (Ft )t≥0 ) allo-
ra:
14.5. MOTO BROWNIANO MULTI-DIMENSIONALE 327

i) W i è un moto Browniano reale su (Ω, F , P , (Ft )t≥0 ) per ogni i = 1, . . . , d;


j j
ii) Wti − Wsi e Wt − Ws sono variabili indipendenti per ogni i , j e t ≥ s ≥ 0;

iii) la matrice di co-variazione di W è ⟨W ⟩t = tI ossia, con la notazione differenziale,

d⟨W i , W j ⟩t = δij dt (14.5.1)

dove δij è la delta di Kronecker



1 se i = j,


δij = 
0 se i , j;

iv) se A è una matrice ortogonale d×d allora il processo definito da Bt := AWt è ancora un moto Browniano
d-dimensionale. Se invece A è una generica matrice N × d allora B soddisfa le proprietà i), ii), iii) e
iv) della Definizione 14.5.1 e Bt − Bs ∼ N0,(t−s)C per ogni 0 ≤ s ≤ t, dove C = AA∗ . La matrice di co-
variazione di B coincide con la matrice di covarianza, ⟨B⟩t = cov(Bt ) = tC . Diciamo che B è un moto
Browniano correlato N -dimensionale.

Dimostrazione. Le proprietà i) e ii) seguono dal fatto che, per t > s ≥ 0, l’incremento Wt − Ws ha densità
Gaussiana
|x|2
d x2
1 − 2(t−s)
Y 1 i
− 2(t−s)
d
e = p e , x ∈ Rd ,
(2π(t − s)) 2 i=1 2π(t − s)
che è il prodotto di Gaussiane standard uno-dimensionali: in particolare, l’indipendenza segue dal Teore-
ma 3.3.23-iv).
Per quanto riguarda iii), per il punto i) si ha ⟨W i ⟩t = ⟨W i , W i ⟩t = t per ogni i = 1, . . . , d. Per i , j è un
semplice esercizio4 provare che W i W j è una martingala e quindi ⟨W i , W j ⟩t = 0.
Il punto iv) è una semplice verifica in cui si utilizza la Proposizione 3.5.15.

La Proposizione 10.3.3 si generalizza al caso multi-dimensionale: consideriamo il processo

η |η|2
Mt := ei⟨η,Wt ⟩+ 2 t (14.5.2)

dove i è l’unità immaginaria, W è un moto Browniano d-dimensionale e η ∈ Rd .

Proposizione 14.5.3. Sia W un processo continuo d-dimensionale definito sullo spazio (Ω, F , P , (Ft )) e
tale che W0 = 0 q.c. Se per ogni η ∈ Rd il processo M η in (14.5.2) è una martingala, allora W è un moto
Browniano.

Esempio 14.5.4. [!] Sia W un moto Browniano bidimensionale. Posto


!
1 p 0
A=
ϱ 1 − ϱ2
4 Per t ≥ s ≥ 0, si ha
     
j  j j j
E Wti Wt | Fs = E Wti − Wsi Wt | Fs + Wsi E Wt | Fs = Wsi Ws

poiché
  j    j  
j j h
E Wti − Wsi Wt | Fs = E Wti − Wsi Wt − Ws | Fs + Ws E Wti − Wsi | Fs
i

  j 
j
= E Wti − Wsi Wt − Ws = 0

per l’indipendenza degli incrementi.


328 CAPITOLO 14. TEORIA DELLA VARIAZIONE

con ϱ ∈ [−1, 1], si ha


!
1∗ ϱ
C = AA = .
ϱ 1

Il moto Browniano correlato bidimensionale B := AW è tale che


q
B1t = Wt1 , B2t = ϱWt1 + 1 − ϱ2 Wt2 ,

sono moti Browniani reali e vale


cov(B1t , B2t ) = ⟨B1 , B2 ⟩t = ϱt.

14.6 Dimostrazione del Teorema di decomposizione di Doob


Per dimostrare il Teorema 14.4.1 adattiamo un argomento proposto in [10], basato su un interessante
e utile risultato di analisi funzionale. Il classico Teorema di Bolzano-Weierstrass assicura che da ogni suc-
cessione limitata in uno spazio Euclideo è possibile estrarre una sotto-successione convergente. Anche se
tale risultato non si estende al caso infinito-dimensionale, il lemma seguente mostra che è sempre possibile
costruire una successione convergente di combinazioni convesse (le sotto-successioni sono particolari com-
binazioni convesse) degli elementi della successione di partenza. Più precisamente, data una successione
(fn )n∈N in uno spazio di Hilbert, indichiamo con

Cn = {λn fn + · · · + λN fN | N ≥ n, λn , . . . , λN ≥ 0, λn + · · · + λN = 1}

la famiglia delle combinazioni convesse di un numero finito di elementi di (fk )k≥n .

Lemma 14.6.1 (Lemma di Komlos [41]). Sia (fn )n∈N una successione limitata in uno spazio di Hilbert.
Allora esiste una successione convergente (gn )n∈N , con gn ∈ Cn .

Dimostrazione. Se ∥fn ∥ ≤ K per ogni n ∈ N allora, per la disuguaglianza triangolare, ∥g∥ ≤ K per ogni g ∈ Cn .
Dunque, posto
an := inf ∥g∥, n ∈ N,
g∈Cn

si ha an ≤ an+1 e a := sup an ≤ K. Allora per ogni n ∈ N esiste gn ∈ Cn tale che ∥gn ∥ ≤ a + n1 . D’altra parte,
n∈N g +g
per ogni ε > 0 esiste nε ∈ N tale che n 2 m ≥ a − ε per ogni n ≥ m ≥ nε : questo semplicemente perché
gn +gm
2 ∈ Cn e per definizione di a. Allora, per ogni n, m ≥ nε , si ha

1 2
 
∥gn − gm ∥2 = 2∥gn ∥2 + 2∥gm ∥2 − ∥gn + gm ∥2 ≤ 4 a + − 4(a − ε)2
n

che prova che (gn )n∈N è una successione di Cauchy e quindi convergente.

Dimostrazione del Teorema 14.4.1. L’unicità segue direttamente dal Teorema 14.3.6 poiché se M ′ e A′ verifi-
cano le i), ii) e iii) allora M −M ′ è una martingala continua a variazione limitata che parte da 0. Dimostriamo
l’esistenza assumendo dapprima che X = (Xt )t∈[0,1] sia una martingala continua e limitata:

sup |Xt | ≤ K (14.6.1)


t∈[0,1]

per una certa costante positiva K. Questa è la parte difficile della dimostrazione, in cui emergono le idee
principali. Procediamo per passi.
14.6. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 329

[Passo 1] Fissato n ∈ N, introduciamo le seguenti notazione per semplificare i calcoli sui diadici di [0, 1]:
k
X 2
Xn,k = X k ,
n
An,k = Xn,i − Xn,i−1 , Fn,k := F k , k = 0, 1, . . . , 2n .
2 2n
i=1

Chiaramente k 7→ Xn,k e k 7→ An,k sono processi adattati alla filtrazione discreta (Fn,k )k=0,1,...,2n e k 7→ An,k è
crescente. Inoltre il processo
2
Mn,k := Xn,k − An,k , k = 0, 1, . . . , 2n
è una martingala discreta. Infatti si ha
h i
E An,k − An,k−1 | Fn,k−1 = E Xn,k − Xn,k−1 2 | Fn,k−1 =
  

(per la (6.5.3))
h i
2 2
= E Xn,k − Xn,k−1 | Fn,k−1 (14.6.2)

da cui la proprietà di martingala di Mn,k .


[Passo 2] Questo è il punto cruciale della dimostrazione: proviamo che
h i
sup E A2n,2n ≤ 36K 4 . (14.6.3)
n∈N

Notiamo che, per ogni fissato n ∈ N, il valore finale An,2n del processo An,· è chiaramente in L2 (Ω, P ),
essendo una somma finita di termini che sono limitati per ipotesi: tuttavia il numero di tali termini aumenta
esponenzialmente in n e questo spiega la difficoltà nella dimostrazione di (14.6.3) che è una stima uniforme
in n ∈ N. Qui utilizziamo in modo essenziale la proprietà di martingala e la limitatezza di X (si noti che
nelle ipotesi generali X è di quadrato sommabile ma in (14.6.3) compaiono potenze di X di ordine quattro).
Si ha
2n
X 2n X
X 2n
4 2 2
A2n,2n = Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 Xn,h − Xn,h−1
k=1 k=1 h=k+1
2n
X 2n
X
4 2 
= Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 An,2n − An,k . (14.6.4)
k=1 k=1

Applichiamo il valore atteso, stimiamo puntualmente la prima somma di (14.6.4) con la (14.6.1) e appli-
chiamo la proprietà della torre nella seconda somma:
2 n 2 n
h i X h  i X h i
E A2n,2n ≤ 2K 2 E Xn,k − Xn,k−1 2 + 2 E Xn,k − Xn,k−1 2 E An,2n − An,k | Fn,k =
 
k=1 k=1

2
(per la proprietà di martingala (14.6.2) di Mn,k = Xn,k − An,k )

X h 2n
 h 2 ii
2
E Xn,k − Xn,k−1 2 E Xn,2 2
n − Xn,k | Fn,k
 
= 2K E An,2n + 2 ≤
k=1

2 2 2
(poiché Xn,2n − Xn,k ≤ 2K )

h i1
≤ 6K 2 E An,2n ≤ 6K 2 E A2n,2n 2
 
330 CAPITOLO 14. TEORIA DELLA VARIAZIONE

avendo nell’ultimo passaggio applicato la disuguaglianza di Hölder. Questo conclude la prova della (14.6.3).
[Passo 3] Estendiamo la martingala discreta Mn,· a tutto [0, 1] ponendo

(n)
:= E Mn,2n | Ft ,
 
Mt t ∈ [0, 1].
h i
k−1 k
Per ogni t ∈ 2n , 2n si ha, per la proprietà della torre,

(n)
= E E Mn,2n | Fn,k | Ft
   
Mt
= E Mn,k | Ft
 
h i
2
= E Xn,k − An,k | Ft
h i
2
− Xn,k − Xn,k−1 2 | Ft − An,k−1

= E Xn,k
2
= E 2Xn,k Xn,k−1 | Ft − Xn,k−1
 
− An,k−1
2
= 2Xt Xn,k−1 − Xn,k−1 − An,k−1 .

Allora dalla continuità di X segue che anche M (n) è un processo continuo. Inoltre, per il Punto 2 la
successione
(n)
M1 = X12 − An,2n
(n)
è limitata in L2 (Ω, P ). Si potrebbe dimostrare che (M1 )n∈N è di Cauchy e converge in norma L2 (e quindi
in probabilità) ma la prova diretta di questo fatto è un po’ tecnica e laboriosa. Pertanto qui preferiamo
prendere una scorciatoia appoggiandoci sul Lemma 14.6.1 di Komlos: per ogni n ∈ N esistono dei pesi
(n) (n)
λn , . . . , λNn non-negativi e la cui somma è pari a uno, tali che posto

en,t = λ(n)
M
(n) (n) (Nn )
n Mt + · · · + λ N n Mt , t ∈ [0, 1],

en,1 converge in L2 (Ω, P ) ad una variabile aleatoria Z. Sia M una versione càdlàg della martingala
si ha che M
definita da
Mt := E [Z | Ft ] , t ∈ [0, 1].
Poiché t 7→ M
en,t è una martingala continua per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha
  
2    
en,1 − M1 2 = 4E M
en,1 − Z 2 .

E  sup Mn,t − Mt  ≤ 4E M
 e
t∈[0,1]

Dunque, a meno di passare ad una sotto-successione, si ha

en,t (ω) − Mt (ω) 2 = 0,



lim sup M ω ∈ Ω \ F,
n→∞ t∈[0,1]

con F trascurabile, da cui si deduce l’esistenza di una versione continua di M. Di conseguenza anche il
processo
At := Xt2 − Mt
è continuo.
Per mostrare che A è crescente fissiamo anzitutto due diadici s, t ∈ [0, 1] con s ≤ t: allora esiste n̄ tale che
s, t ∈ Dn per ogni n ≥ n̄, ossia s = 2knn e t = 2hnn per certi kn , hn ∈ {0, 1, . . . , 2n }. Ora per costruzione
2 2
Xn,k n
− Mn,kn = An,kn ≤ An,hn = Xn,h n
− Mn,hn
14.6. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 331

e un’analoga disuguaglianza vale anche per ogni combinazione convessa, quindi al limite si ha As (ω) ≤
At (ω) per ogni ω ∈ Ω \ F. Dalla densità dei diadici in [0, 1] e dalla continuità di A, segue che A è crescente
q.c. Infine proviamo la (14.4.1): per la (6.5.3) si ha
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs
= E [Mt − Ms | Fs ] + E [At − As | Fs ]
= E [At − As | Fs ] .

[Passo 4] Supponiamo ora che X = (Xt )t≥0 sia una martingala continua, non necessariamente limitata, ma
tale che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0. Utilizziamo una procedura di localizzazione e definiamo la successione
di tempi d’arresto
τn = inf{t | |Xt | ≥ n} ∧ n, n ∈ N.
Per la continuità di X si ha τn ↗ ∞ per n → ∞. Per il Corollario 13.4.1, Xt∧τn è una martingala continua,
limitata e costante per t ≥ n: allora si applicano gli argomenti dei punti precedenti per dimostrare che
esistono una martingala continua e di quadrato sommabile M (n) e un processo continuo e crescente A(n) tali
che
2 (n) (n)
Xt∧τ n
= Mt + A t , t ≥ 0.
(n) (m) (n) (m) (n)
Per unicità, per ogni m > n si ha Mt = Mt e At = At per t ∈ [0, τn ]: dunque la definizione Mt := Mt
(n)
e At := At per ogni n tale che τn ≥ t, è ben posta. Chiaramente M, A sono processi continui, A è crescente
e M è una martingala: infatti, se 0 ≤ s ≤ t, per ogni n tale che τn ≥ t si ha
h i
Ms∧τn = E Mt∧τn | Fs .

Quindi si può concludere ragionando come nella dimostrazione del Teorema 13.1.6, essendo la famiglia
{Mt∧τn | n ∈ N} uniformemente integrabile per la disuguaglianza di Doob
 
h i
E  sup |Ms |  ≤ 4E Mt2
2
 

s∈[0,t]

e l’Osservazione A.3.0.10.
La medesima successione localizzante può essere utilizzata per trattare il caso in cui X ∈ M c,loc e in
questo caso è ovvio che M ∈ M c,loc .
[Passo 5] Con gli strumenti che abbiamo ora a disposizione, la dimostrazione delle formule (14.4.2) e
(14.4.3) richiederebbe dei conti abbastanza lunghi e noiosi. Poiché non utilizzeremo tali formule nel segui-
to, preferiamo posticipare questa dimostrazione al momento in cui avremo a disposizione la formula di Itô
e tutto sarà più facile: si veda la Proposizione 16.2.4.
332 CAPITOLO 14. TEORIA DELLA VARIAZIONE
Capitolo 15

Integrazione stocastica secondo Itô

One needs for stochastic integration


a six months course to cover only the
definitions. What is there to do?

Paul-André Meyer

In questo capitolo costruiamo l’integrale stocastico


Zt
Xt := us dBs , t ≥ 0,
0

definito come processo stocastico X = (Xt )t≥0 al variare dell’estremo di integrazione. Assumeremo op-
portune ipotesi sul processo integrando u e sul processo integratore B. Il prototipo di integratore è il moto
Browniano: poiché le traiettorie di un moto Browniano non hanno variazione limitata, non possiamo adot-
tare la teoria deterministica dell’integrazione secondo Lebesgue-Stieltjes e definire l’integrale traiettoria
per traiettoria. Seguiremo invece la costruzione dovuta a Kiyosi Itô (1915-2008) che è basata sulla teo-
ria della variazione presentata nel Capitolo 14 e sfrutta l’ipotesi cruciale che il processo integrando u sia
progressivamente misurabile. La costruzione dell’integrale stocastico è per certi versi analoga a quella del-
l’integrale di Lebesgue ma è decisamente più lunga e laboriosa: si parte dai processi u “semplici”, ossia
costanti a tratti, fino ad arrivare a u progressivamente misurabile con traiettorie che verificano una debole
ipotesi di sommabilità rispetto alla variabile temporale. Un’importante tappa intermedia è quella in cui u
è un “processo di quadrato sommabile” (cfr. Definizione 15.1.1); in tal caso, l’integrale stocastico gode di
alcune proprietà notevoli: è una martingala continua di quadrato sommabile, ossia appartiene allo spazio
M c,2 , vale la cosiddetta isometria di Itô e infine il processo variazione quadratica è dato esplicitamente da
Zt
⟨X⟩t = us2 d⟨B⟩s , t ≥ 0.
0

L’ultima parte del capitolo è dedicata alla definizione di integrale stocastico nel caso in cui B sia una semi-
martingala continua. Introdurremo anche l’importante classe dei processi di Itô che sono semi-martingale
continue che si esprimono in modo unico come somma di un integrale di Lebesgue (di un processo pro-
gressivamente misurabile e sommabile) con un integrale stocastico Browniano.

15.1 Integrale rispetto al moto Browniano


A scopo introduttivo, esaminiamo il caso particolare in cui B sia un moto Browniano reale definito
su uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ). Per superare il problema dell’irregolarità delle traiettorie

333
334 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Browniane, l’idea è di selezionare opportunamente la classe dei processi integrandi per poter sfruttare
alcune proprietà di carattere probabilistico.

Definizione 15.1.1. Indichiamo con L2 la classe dei processi u = (ut )t≥0 tali che:

i) u è progressivamente misurabile;

ii) per ogni T ≥ 0 vale


"Z T #
E ut2 dt < ∞. (15.1.1)
0

La i) è più di una semplice condizione di misurabilità congiunta in (t, ω) (che sarebbe naturale poiché
stiamo definendo un integrale): essa contiene anche l’ipotesi cruciale che sia rispettata la struttura di “in-
formazioni” della filtrazione considerata. Per esempio, nel caso u sia continuo, la i) equivale al fatto che u
sia un processo adattato. Per inciso, noi tratteremo solo il caso di integratori continui: è possibile definire
l’integrale stocastico anche rispetto a processi càdlàg, come il processo di Poisson, ma in tal caso è op-
portuno richiedere una condizione ancora più stringente sull’integrando che, sostanzialmente, deve essere
approssimabile con processi continui da sinistra1 .
Come per l’integrale di Lebesgue, anche la costruzione dell’integrale stocastico avviene per passi, con-
siderando inizialmente dei processi “semplici”.

Definizione 15.1.2. Diciamo che u ∈ L2 è semplice se si scrive nella forma

N
X
ut = αk 1[tk−1 ,tk [ (t), t ≥ 0, (15.1.2)
k=1

con 0 ≤ t0 < t1 < · · · < tN e dove α1 , . . . , αN sono variabili aleatorie tali che P (αk , αk+1 ) > 0 per k = 1, . . . , N −1.
Per ogni T ≥ tN poniamo
Z T N
X  
ut dBt := αk Btk − Btk−1
0 k=1

e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z tN
ut dBt := ut 1[a,b[ (t)dBt . (15.1.3)
a 0

In questa parte introduttiva non ci preoccupiamo di chiarire tutti i dettagli della definizione di inte-
grale, come per esempio il fatto che la (15.1.3) sia ben posta perchè è indipendente, a meno di processi
indistinguibili, dalla rappresentazione (15.1.2) del processo u.

Osservazione 15.1.3. Un processo semplice è costante a tratti come funzione del tempo e ha traiettorie che
dipendono dai coefficienti α1 , . . . , αN che sono aleatori. Dal fatto che u ∈ L2 seguono alcune proprietà delle
variabili α1 , . . . , αN :

i) poiché u è progressivamente misurabile, per ogni t ∈ [tt−k , tk [ si ha αk = ut ∈ mFt e quindi in partico-


lare
αk ∈ mFtk−1 , k = 1, . . . , N ; (15.1.4)
1 Il processo di Poisson ha variazione limitata e quindi non sarebbe un problema definire il relativo integrale stocastico nel senso
di Lebesgue-Stieltjes: tuttavia, se l’integrando non è continuo da sinistra l’integrale perde la fondamentale proprietà di essere una
martingala (locale): per una spiegazione intuitiva di questo fatto si veda la Sezione 2.1 in [20].
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 335

ii) per l’ipotesi di integrabilità (15.1.1) vale


"Z tN # N
X "Z tN #
E ut2 dt = E αk2 1[tk−1 ,tk [ (t)dt
0 k=1 0

XN h i
= E αk2 (tk − tk−1 ) < +∞
k=1

e quindi α1 , . . . , αN ∈ L2 (Ω, P ).

Proviamo ora alcune fondamentali proprietà dell’integrale stocastico appena definito.

Teorema 15.1.4. [!] Dati u, v ∈ L2 semplici, consideriamo i processi


Z t Z t
Xt := us dBs , Yt := vs dBs , t ≥ 0.
0 0

Per 0 ≤ s ≤ t ≤ T valgono le seguenti proprietà:

i) X è una martingala continua di quadrato sommabile, X ∈ M c,2 , e si ha


"Z t #
E ur dBr | Fs = 0; (15.1.5)
s

ii) vale l’isometria di Itô


 Zt !2  "Z t #
ur dBr | Fs  = E ur2 dr | Fs
 
E  (15.1.6)
s s

e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr dr | Fs , (15.1.7)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.1.8)
s t

iii) il processo co-variazione di X e Y (cfr. Proposizione 14.4.4) è dato da


Z t
⟨X, Y ⟩t = us vs ds, t ≥ 0. (15.1.9)
0

Infine, valgono anche le versioni non condizionate delle formule (15.1.5), (15.1.6), (15.1.7) e (15.1.8).

Dimostrazione. Osserviamo anzitutto che le formule (15.1.5), (15.1.6), (15.1.7), (15.1.8) e (15.1.9) equival-
gono rispettivamente a

E [Xt − Xs | Fs ] = 0, (15.1.10)
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.
336 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Proviamo la (15.1.5) che equivale alla proprietà di martingala E [Xt | Fs ] = Xs : riferendoci alla (15.1.2) e
ricordando la notazione (15.1.3), non è restrittivo supporre s = tk e t = th per certi k, h con k < h ≤ N . Si ha
"Z t #
h i h
E Xth | Ftk = Xtk + E ur dBr | Ftk
tk
h
X h   i
= Xtk + E αi Bti − Bi−1 | Ftk =
i=k+1

(per la (15.1.4) e la proprietà della torre)


h
X h h i i
= Xtk + E αi E Bti − Bti−1 | Fti−1 | Ftk = Xtk
i=k+1

dove l’ultima uguaglianza segue dall’indipendenza e stazionarietà degli incrementi Browniani per cui si ha
h i h i
E Bti − Bti−1 | Fti−1 = E Bti − Bti−1 = 0

per ogni i = 1, . . . , N .
Per quanto riguarda l’isometria di Itô, sempre nell’ipotesi che s = tk e t = th , si ha
 Zt !2   2 
ur dBr | Fs  = E Xth − Xtk | Ftk
 
E 
s

h
2 
 X    
= E  αi Bti − Bi−1  | Ftk 
  
 
i=k+1
h
1
X   2  X h     i
= E αi2 Bti − Bti−1 | Ftk + E αi Bti − Bti−1 αj Btj − Btj−1 | Ftk =
2
i=k+1 k+1≤i<j≤h

(per la (15.1.4) e la proprietà della torre)


h
X   2  
= E αi2 E Bti − Bti−1 | Fti−1 | Ftk
i=k+1
1 X h   h i i
+ E αi Bti − Bti−1 αj E Btj − Btj−1 | Ftj−1 | Ftk =
2
k+1≤i<j≤h

(poiché Btj − Btj−1 è indipendente da Ftj−1 )

h
X h i
= E αi2 (ti − ti−1 ) | Ftk
i=k+1
h
X "Z t #
= E αi2 1[ti−1 ,ti [ (r)dr | Fs
i=k+1 s
"Z t #
=E ur2 dr | Fs .
s

La (15.1.7) si prova in modo analogo. Riguardo alla (15.1.8), basta osservare che
"Z t ZT # "Z T ZT #
E ur dBr vr dBr | Fs = E ur 1[s,t[ (r)dBr vr 1[t,T [ (r)dBr | Fs =
s t s s
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 337

(per la (15.1.7))
"Z T #
=E ur vr 1[s,t[ (r)1[t,T [ (r)dr = 0.
s

Infine, il processo ⟨X, Y ⟩ in (15.1.9) è adattato, continuo, BV e tale che ⟨X, Y ⟩0 = 0. Ricordando la
Proposizione 14.4.4, per provare che ⟨X, Y ⟩ è il processo co-variazione di X e Y basta verificare che XY −
⟨X, Y ⟩ è una martingala. Per 0 ≤ s ≤ t si ha

E [Xt Yt | Fs ] = Xs Ys + E [(Xt − Xs )(Yt − Ys ) | Fs ] + 2Xs E [Yt − Ys | Fs ] =

(per la (15.1.7) ed essendo E [Yt − Ys | Fs ] = 0 per la (15.1.10))


"Z t #
= Xs Ys + E ur vr dr | Fs
s
= Xs Ys + E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ]

da cui la tesi.
Grazie all’isometria di Itô (15.1.6), l’integrale stocastico si estende al caso di integrandi in L2 con
una procedura di approssimazione tramite processi semplici. Vale il seguente risultato di densità, la cui
dimostrazione è rimandata alla Sezione 15.1.1.
Lemma 15.1.5. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici di L2 che
converge a u in norma L2 (Ω × [0, T ]):
"Z T #
2
lim E us − un,s ds = 0. (15.1.11)
n→∞ 0

Dato u ∈ L2 consideriamo una successione approssimante (un )n∈N di processi semplici come nel Lemma
15.1.5 per un T > 0 fissato. Allora (un )n∈N è una successione di Cauchy in L2 ([0, T ] × Ω) e per l’isometria di
Itô si ha  Z !2 
 T ZT "Z T #
un,s − um,s 2 ds = 0.
 
lim E  un,s dBs − um,s dBs  = lim E
n,m→∞ 0 0 n,m→∞ 0

Ne segue che la successione degli integrali stocastici è di Cauchy in L2 (Ω, P ) e quindi esiste
Z T Z T
us dBs := lim un,s dBs .
0 n→∞ 0

Con questa procedura si definisce l’integrale stocastico come classe in equivalenza in L2 (Ω, P ) per un T fis-
sato. Vedremo nella Sezione 15.2.3 che, grazie alla disuguaglianza massimale di Doob, è possibile costruire
l’integrale come processo stocastico (al variare dell’estremo di integrazione) definendolo come limite nello
spazio delle martingale M c,2 . Per approssimazione si prova che le proprietà del Teorema 15.1.4 rimangono
valide sotto l’ipotesi che u ∈ L2 .
Nella Sezione 15.2.4 estenderemo ulteriormente l’integrale al caso di integrandi in u ∈ L2loc , ossia u
progressivamente misurabile che soddisfa la condizione di integrabilità
Z T
ut2 dt < ∞ T > 0, q.c. (15.1.12)
0

che è notevolmente più debole della (15.1.1): per esempio, ogni processo u adattato e continuo appartiene
a L2loc poiché l’integrale in (15.1.12), sul compatto [0, T ], è finito grazie alla continuità di ogni singola
338 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

traiettoria di u. D’altra parte, ut = exp(B4t ) appartiene a L2loc ma non2 a L2 . Il Teorema 15.1.4 non si estende
al caso di u ∈ L2loc , tuttavia proveremo che in tal caso il processo integrale è una martingala locale.

15.1.1 Dimostrazione del Lemma 15.1.5


Per dimostrare la densità della classe dei processi semplici nello spazio L2 usiamo la seguente conse-
guenza della Proposizione A.2.3.3, ossia la cosiddetta “proprietà di continuità in media” delle funzioni
sommabili.
Corollario 15.1.6 (Continuità in media). Se f ∈ L1 (R) allora per quasi ogni x ∈ R si ha

1 x+h
Z
lim |f (x) − f (y)|dy = 0.
h→0 h x

Dimostriamo il Lemma 15.1.5 inizialmente assumendo che u sia continuo. Fissato T > 0, al variare di
n ∈ N, indichiamo con
Tk
tn,k = n , k = 0, . . . , 2n , (15.1.13)
2
i diadici di [0, T ] e definiamo il processo semplice
2n
X
un,t = αn,k 1[tn,k−1 ,tn,k [ , αn,k = utn,k−1 1{|ut |≤n} , t ∈ [0, T ].
n,k−1
k=1

Allora la (15.1.11) segue dal teorema della convergenza dominata.


Per concludere basta provare che ogni u ∈ L2 può essere approssimata in norma L2 ([0, T ] × Ω) con una
successione (un )n∈N di processi continui di L2 . A tal fine, definiamo3
?t
un,t := us ds, 0 < t ≤ T , n ∈ N.
(t− n1 )∨0
Notiamo che un è continuo e adattato (e quindi progressivamente misurabile). Inoltre si ha
"Z T Z ? 2 
 T  t
#
2  
E ut − un,t dt = E  
 (ut − us )ds dt  ≤
0 0 (t− n1 )∨0
(per la disuguglianza di Jensen)
Z T ? t

 2 
≤ E  (ut − us ) ds dt 
0 (t− n1 )∨0
Z T? t h i
= E (ut − us )2 ds dt. (15.1.14)
0 (t− n1 )∨0
Ora, per il Corollario 15.1.6 si ha
? t h i
lim E (ut − us )2 ds = 0 q.o.
n→∞
(t− n1 )∨0
e quindi si può passare al limite in (15.1.14) per n → ∞ e concludere utilizzando il teorema della conver-
genza dominata di Lebesgue.
2
"Z T # Z ZT
4 4 1 − x2
E e2Bt dt = e2x √ e 2t dtdx = +∞.
0 R 0 2πt
>
3 Qui b u ds = 1
Rb
a s
u ds per a < b.
b−a a s
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 339

15.2 Integrale rispetto a martingale continue di quadrato sommabile


Assumiamo che il processo integratore B appartenga alla classe M c,2 , ossia B è una martingala continua
tale che Bt ∈ L2 (Ω, P ) per ogni t ≥ 0. La costruzione dell’integrale stocastico è analoga al caso del moto
Browniano con qualche tecnicismo in più.
Indichiamo con ⟨B⟩ il processo variazione quadratica definito nel Teorema 14.4.1: ⟨B⟩ è un processo
continuo e crescente che definisce un misura di Lebesgue-Stieltjes (cfr. Sezione 14.2) il cui integrale è
indicato con Z b
f (t)d⟨B⟩t , 0 ≤ a ≤ b.
a
Per esempio, se B è un moto Browniano allora ⟨B⟩t = t e la corrispondente misura di Lebesgue-Stieltjes è
semplicemente la misura di Lebesgue, come visto nella Sezione 15.1.
Definizione 15.2.1. Indichiamo con L2B la classe dei processi u = (ut )t≥0 tali che:
i) u è progressivamente misurabile;
ii) per ogni T ≥ 0 vale
"Z T #
E ut2 d⟨B⟩t < ∞. (15.2.1)
0

Generalmente il processo B sarà fissato una volte per tutte e quindi, se non c’è pericolo di confusione,
scriveremo semplicemente L2 invece di L2B .
In un secondo momento, indeboliremo la condizione di sommabilità ii) richiedendo che u appartenga
alla classe seguente.
Definizione 15.2.2. Indichiamo con L2B,loc (o, più semplicemente, L2loc ) la classe dei processi u tali che
i) u è progressivamente misurabile;
ii’) per ogni T ≥ 0 vale
Z T
ut2 d⟨B⟩t < ∞ q.c. (15.2.2)
0

La ii’) è una condizione molto debole di sommabilità che è verificata automaticamente se, per esempio,
u ha traiettorie continue o, più in generale, localmente limitate (si noti che il dominio di integrazione in
(15.2.2) è compatto).

15.2.1 Integrale di processi indicatori


Consideriamo una classe molto particolare di integrandi che, rispetto alla variabile temporale, sono
funzioni indicatrici di un intervallo. Chiamiamo processo indicatore un processo stocastico della forma

ut = α1[t0 ,t1 [ (t), t ≥ 0, (15.2.3)

dove α è una variabile aleatoria Ft0 -misurabile e limitata (ossia tale che |α| ≤ c q.c. con c costante positiva)
e t1 > t0 ≥ 0.
Osservazione 15.2.3. Ogni processo indicatore u appartiene a L2 : infatti u è càdlàg e adattato, quindi
progressivamente misurabile; inoltre u soddisfa la (15.2.1) poiché
"Z T #
h  i h i
E ut2 d⟨B⟩t = E α 2 ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 ≤ c2 E ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 < ∞
0

per ogni T ≥ 0.
340 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

La definizione di integrale stocastico di un processo indicatore è elementare e completamente esplicita:


esso viene definito, traiettoria per traiettoria, moltiplicando α per un incremento di B.

Definizione 15.2.4 (Integrale stocastico di processi indicatori). Siano u il processo indicatore in (15.2.3)
e B ∈ M c,2 . Per ogni T ≥ t1 poniamo
ZT  
ut dBt := α Bt1 − Bt0 (15.2.4)
0

e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z t1
ut dBt := ut 1[a,b[ (t)dBt . (15.2.5)
a 0

Osservazione 15.2.5. [!] Se [t0 , t1 [∩[a, b[, ∅, l’integrale nel membro destro della (15.2.5) è definito dal-
la (15.2.4) interpretando ut 1[a,b[ (t) come il processo semplice α1[t0 ∨a,t1 ∧b[ (t) e scegliendo T = t1 . In caso
contrario si intende che l’integrale è nullo per definizione.

Osservazione 15.2.6. Essendo definito in termini di incrementi di B, l’integrale stocastico non dipende dal
valore iniziale B0 . Inoltre X è un processo adattato e continuo.

Nel prossimo risultato stabiliamo alcune proprietà fondamentali dell’integrale stocastico. La secon-
da parte della dimostrazione è basata sulla notevole identità (14.4.1), valida per ogni B ∈ M c,2 , che qui
richiamiamo: h i
E (Bt − Bs )2 | Fs = E [⟨B⟩t − ⟨B⟩s | Fs ] , 0 ≤ s ≤ t. (15.2.6)

In tutto il capitolo insistiamo molto nel fornire l’espressione esplicita della variazione quadratica dell’inte-
grale stocastico o della co-variazione di due integrali: il motivo è che esse compaiono nel più importante
strumento per il calcolo degli integrali stocastici, la formula di Itô, che presenteremo nel Capitolo 16.
Il Teorema 15.1.4 ha la seguente naturale estensione.

Teorema 15.2.7. [!] Siano


Z t Z t
Xt := us dBs , Yt := vs dBs , t ≥ 0,
0 0

dove u, v sono processi indicatori e B ∈ M c,2 . Per 0 ≤ s ≤ t ≤ T valgono le seguenti proprietà:

i) X è una martingala continua di quadrato sommabile, X ∈ M c,2 , e si ha


"Z t #
E ur dBr | Fs = 0; (15.2.7)
s

ii) vale l’isometria di Itô


 Zt !2  "Z t #
2
ur dBr | Fs  = E ur d⟨B⟩r | Fs
 
E   (15.2.8)
s s

e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr d⟨B⟩r | Fs , (15.2.9)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.2.10)
s t
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 341

iii) il processo co-variazione di X e Y è dato da


Z t
⟨X, Y ⟩t = us vs ⟨B⟩s , t ≥ 0. (15.2.11)
0

Dimostrazione. Per l’Osservazione 15.2.5 non è restrittivo assumere u = α1[s,t[ e v = β1[s,t[ con α, β ∈ mFs
limitate.
i) Allora si ha "Z t#
E ur dBr | Fs = E [α (Bt − Bs ) | Fs ] = αE [Bt − Bs | Fs ] = 0
s
dove abbiamo sfruttato il fatto che α ∈ mFs e la proprietà di martingala di B. Questo prova la (15.2.7)
che equivale alla proprietà di martingala di X. Chiaramente XT ∈ L2 (Ω, P ) per ogni T ≥ 0 poiché XT è il
prodotto di α, variabile aleatoria limitata, per un incremento di B che è di quadrato sommabile.
ii) Proviamo direttamente la (15.2.9): si ha
"Z t Zt #
h i
E ur dBr vr dBr | Fs = E αβ(Bt − Bs )2 | Fs
s s
h i
= αβE (Bt − Bs )2 | Fs =

(per la formula cruciale (15.2.6))


= αβE [⟨B⟩t − ⟨B⟩s | Fs ]
= E [αβ(⟨B⟩t − ⟨B⟩s ) | Fs ]
"Z t #
=E ur vr d⟨B⟩r | Fs .
s

La dimostrazione della (15.2.9) è analoga.


iii) Il processo ⟨X, Y ⟩ in (15.2.11) è adattato, continuo e localmente a variazione limitata poiché differenza
di processi crescenti
Zt Zt
+
⟨X, Y ⟩t = (us vs ) d⟨B⟩s − (us vs )− d⟨B⟩s .
0 0
Inoltre ⟨X, Y ⟩0 = 0. Per concludere basta provare che XY − ⟨X, Y ⟩ è una martingala: si ha
Zt ! Zt !
Xt Y t = Xs + ur dBr Ys + vr dBr
s s
Z t Z t Z t Z t
= Xs Ys + ur dBr vr dBr + Xs vr dBr + Ys ur dBr
s s s s

e quindi
"Z t Z t # "Z t # "Z t #
E [Xt Yt | Fs ] = Xs Ys + E ur dBr vr dBr | Fs + Xs E vr dBr | Fs + Ys E ur dBr | Fs =
s s s s

(per la (15.2.9) e la (15.2.7))


"Z t #
= Xs Ys + E ur vr d⟨B⟩r | Fs
s

da cui segue
E [Xt Yt − ⟨X, Y ⟩t | Fs ] = Xs Ys − ⟨X, Y ⟩s .
342 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Osservazione 15.2.8. Le formule (15.2.7), (15.2.8), (15.2.9), (15.2.10) e (15.2.11) si riscrivono rispettiva-
mente nella forma

E [Xt − Xs | Fs ] = 0,
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.

Applicando il valore atteso, si ottengono anche le versioni non condizionate dell’isometria di Itô:
 Zt !2  "Z t #
ur2 d⟨B⟩r ,
 
E  ur dBr  = E (15.2.12)
s s
"Z t Zt # "Z t #
E ur dBr vr dBr = E ur vr d⟨B⟩r ,
s s s
"Z t Z T #
E ur dBr vr dBr = 0, (15.2.13)
s t

e la (15.2.11) con u = v diventa


Z t
⟨X⟩t = us2 ⟨B⟩s , t ≥ 0.
0

15.2.2 Integrale di processi semplici


In questa sezione estendiamo la classe dei processi integrandi ai processi semplici: essi sono somme di
processi indicatori come quelli considerati nella sezione precedente. Per linearità la definizione di integrale
stocastico si estende, traiettoria per traiettoria, in modo elementare ed esplicito. Rimangono valide le
proprietà fondamentali dell’integrale: la proprietà di martingala e l’isometria di Itô.

Definizione 15.2.9 (Processo semplice). Un processo semplice u è un processo della forma

N
X
ut = uk,t , uk,t := αk 1[tk−1 ,tk [ (t), (15.2.14)
k=1

dove:

i) 0 ≤ t0 < t1 < · · · < tN ;

ii) αk è una variabile aleatoria Ftk−1 -misurabile e limitata per ogni k = 1, . . . , N .

Si può richiedere anche che P (αk , αk+1 ) > 0, per k = 1, . . . , N − 1, in modo che la rappresentazione
(15.2.14) di u sia unica.

Definizione 15.2.10 (Integrale stocastico di processi semplici). Sia u un processo semplice della forma
(15.2.14) e sia B ∈ M c,2 . L’integrale stocastico di u rispetto a B è il processo stocastico
Z t N Z
X t N
X  
us dBs := uk,s dBs = αk Bt∧tk − Bt∧tk−1 .
0 k=1 0 k=1

Teorema 15.2.11. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v siano processi semplici.
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 343

Dimostrazione. La continuità e la proprietà di martingala (15.2.7) sono immediate per linearità. Per quanto
riguarda l’isometria di Itô (15.2.9), anzitutto possiamo scrivere v nella forma (15.2.14) rispetto alla stessa
scelta di t0 , . . . , tN , per certi vk,t = βk 1[tk−1 ,tk [ (t): notiamo che

N
X N
X N
X
ut vt = uk,t vh,t = αk βk 1[tk−1 ,tk [ (t). (15.2.15)
k=1 h=1 k=1

Allora si ha
N Z N Z t

"Z t Z t #
X t X 
E ur dBr vr dBr | Fs = E  uk,r dBr vh,r dBr | Fs 
s s s
k=1 s h=1
N
X "Z t Zt #
= E uk,r dBr vk,r dBr | Fs
k=1 s s
X "Z th Z tk #
+2 E uh,r 1[s,t[ (r)dBr vk,r 1[s,t[ (r)dBr | Fs =
h<k th−1 tk−1

(per la (15.2.8) e la (15.2.10))

N
X "Z t #
= E uk,r vk,r d⟨B⟩r | Fs =
k=1 s

(per la (15.2.15))
"Z t #
=E ur vr d⟨B⟩r | Fs .
s

Infine il fatto che ⟨X, Y ⟩ in (15.2.11) sia il processo co-variazione di X e Y si prova come nella dimostrazione
del Teorema 15.2.7-iii).

15.2.3 Integrale di processi in L2


In questa sezione estendiamo la classe dei processi integrandi sfruttando la densità dei processi semplici
in L2 ≡ L2B (cfr. Definizione 15.2.1). L’integrale stocastico è ora definito come limite in M c,2 e quindi,
ricordando l’Osservazione 13.3.2, come classe di equivalenza e non più traiettoria per traiettoria. Tuttavia
rimangono valide le proprietà fondamentali dell’integrale: la proprietà di martingala e l’isometria di Itô.
Il Lemma 15.1.5 ha la seguente generalizzazione che si prova con un artificio tecnico: l’idea è di fare un
cambio di variabile temporale per “riallineare” il processo continuo e crescente ⟨B⟩t al caso Browniano in
cui ⟨B⟩t ≡ t; per i dettagli rimandiamo al Lemma 2.2.7 in [38].

Lemma 15.2.12. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici tali che
"Z T #
2
lim E us − un,s d⟨B⟩s = 0.
n→∞ 0

Ricordiamo la convenzione in base alla quale MTc,2 è lo spazio delle classi di equivalenza (secondo
l’indistinguibilità) delle martingale continue X = (Xt )t∈[0,T ] di quadrato sommabile, munito della norma
q h i
∥X∥T := E XT2 .
344 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Per la Proposizione 13.3.3, (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.


Vediamo ora come definire l’integrale stocastico di u ∈ L2 . Fissato T > 0 e data una successione
approssimante (un )n∈N di processi semplici come nel Lemma 15.2.12, indichiamo con
Z t
Xn,t = un,s dBs , t ∈ [0, T ], (15.2.16)
0

la successione dei relativi integrali stocastici. Per il Teorema 15.2.11 Xn ∈ MTc,2 e per l’isometria di Itô
(15.2.8) si ha
 Z !2 
 T
"Z T #
2

∥Xn − Xm ∥T = E  (un,t − um,t )dBt  = E (un,t − um,t )2 d⟨B⟩t .
0 0

Ne segue che (Xn )n∈N è una successione di Cauchy in (MTc,2 , ∥ · ∥T ) e quindi esiste

X := lim Xn in MTc,2 . (15.2.17)


n→∞

Proposizione 15.2.13 (Integrale stocastico di processi in L2 ). Il processo limite X = (Xt )t∈[0,T ] in (15.2.17)
è indipendente dalla successione approssimante ed è chiamato processo integrale stocastico di u rispetto a B
su [0, T ] e indicato con
Zt
Xt = us dBs , t ∈ [0, T ].
0

Dimostrazione. Sia X il limite in (15.2.17) definito a partire dalla successione approssimante (un )n∈N . Sia
(vn )n∈N un’altra successione approssimante per u e
Z t
Yn,t = vn,s dBs , t ∈ [0, T ]. (15.2.18)
0

Allora ∥Yn − X∥T ≤ ∥Yn − Xn ∥T + ∥Xn − X∥T e basta osservare che, ancora per l’isometria di Itô, si ha
 Z !2 
 T
"Z T #

∥Yn − Xn ∥2T = E  (vn,t − un,t )dBt  = E
 2
(vn,t − un,t ) d⟨B⟩t −−−−−→ 0.
0 0 n→∞

Osservazione 15.2.14. [!] Per costruzione, l’integrale stocastico secondo Itô


Z t
Xt = us dBs , (15.2.19)
0

con u ∈ L2 e B ∈ M c,2 , è una classe di equivalenza in M c,2 : ogni rappresentante di tale classe è una martin-
gala continua, univocamente determinata a meno di processi indistinguibili. Da questo punto di vista, a
meno che non sia stata operata una particolare scelta del rappresentante, le singole traiettorie del processo
integrale stocastico non sono definite e non ha senso considerare o voler calcolare Xt (ω) per un particolare
ω ∈ Ω.

Teorema 15.2.15. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v ∈ L2 .

Dimostrazione. Siano (un )n∈N e (vn )n∈N successioni di processi semplici, approssimanti rispettivamente u
e v in (MTc,2 , ∥ · ∥T ). Indichiamo con (Xn )n∈N e (Yn )n∈N i corrispondenti integrali stocastici in (15.2.16) e
(15.2.18). Le (15.2.7) e (15.2.8) sono diretta conseguenza del fatto che Xn,t → Xt in L2 (Ω, P ) (e quindi
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 345

anche in L1 (Ω, P )) e Xn,t Yn,t → Xt Yt in L1 (Ω, P ) unitamente al fatto generale che4 se Zn → Z in L1 (Ω, P )
allora E [Zn | G ] → E [Z | G ] in L1 (Ω, P ). La dimostrazione della (15.2.11) è identica a quella del Teorema
15.2.7-iii).
Osservazione 15.2.16. [!] Siano B ∈ M c,2 e u ∈ L2B . Per il Teorema 15.2.15, l’integrale X in (15.2.19)
appartiene a M c,2 e quindi può essere usato come integratore. Poiché
Zt
⟨X⟩t = us2 d⟨B⟩s ,
0

si ha che v ∈ L2X se v è progressivamente misurabile e vale


"Z t # "Z t #
2 2 2
E vs d⟨X⟩s = E vs us d⟨B⟩s < ∞
0 0

per ogni t ≥ 0. In tal caso si ha


Z t Z t
vs dXs = vs us dBs
0 0
come si può verificare direttamente per u, v semplici e, in generale, per approssimazione.
In particolare, se B è un moto Browniano allora la misura di Lebesgue-Stieltjes associata a ⟨X⟩ è assolu-
tamente continua rispetto alla misura di Lebesgue, con densità u 2 .
Diamo ora due proposizioni i cui enunciati sembrano quasi ovvi ma in realtà, alla luce dell’Osservazione
15.2.14, richiedono una dimostrazione rigorosa. Entrambi i risultati si provano con una procedura, tecnica
e un po’ noiosa, di approssimazione.
Proposizione 15.2.17. [!] Supponiamo che u, v ∈ L2 siano modificazioni su un evento F nel senso che, per
ogni t ∈ [0, T ], ut (ω) = vt (ω) per quasi ogni ω ∈ F. Allora i relativi processi integrali
Zt Zt
Xt = us dBs , Yt = vs dBs ,
0 0

sono indistinguibili su F, ossia sup |Xt (ω) − Yt (ω)| = 0 per quasi ogni ω ∈ F.
t∈[0,T ]

Dimostrazione. Consideriamo le approssimazioni un e vn definite come nel Lemma 15.2.12. Per costruzio-
ne, per ogni n ∈ N e t ∈ [0, T ], un,t = vn,t quasi certamente su F. Ne segue che anche i relativi integrali
(Xn,t )t∈[0,T ] in (15.2.16) e (Yn,t )t∈[0,T ] in (15.2.18) sono modificazioni su F. Passando al limite in n, si deduce
che (Xt )t∈[0,T ] e (Yt )t∈[0,T ] sono modificazioni su F: la tesi segue dalla proprietà di continuità di X e Y .
Osservazione 15.2.18. Supponiamo che, per un certo T > 0, valga
ZT ZT
ut dBt = vt dBt
0 0

dove u, v ∈ L2 e B è un moto Browniano. Allora P (u = v q.o. su [0, T ]) = 1 ossia quasi tutte le traiettorie di
u e v sono uguali quasi ovunque su [0, T ]. Infatti, per l’isometria di Itô si ha
"Z T  Z !2 
 T
#

2
E (ut − vt ) dt = E  (ut − vt )dBt  = 0
0 0

da cui la tesi.
4 Per la disuguaglianza di Jensen, si ha

E [|E [Zn | G ] − E [Z | G ]|] ≤ E [E [|Zn − Z| | G ]] = E [|Zn − Z|] .


346 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Proposizione 15.2.19 (Integrale con estremo d’integrazione aleatorio). [!] Sia X in (15.2.19) il processo
integrale stocastico
 diu ∈ L2 rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo
T > 0. Allora ut 1(t≤τ) ∈ L2 e vale
t≥0
Z τ Z T
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0

Dimostrazione. Osserviamo anzitutto che, per la Proposizione 15.2.17, se F ∈ Ft allora


Z T Z T
1F us dBs = 1F us dBs q.c. (15.2.20)
t t

La condizione di misurabilità su F è fondamentale perché assicura che l’integrale nel membro a destra di
(15.2.20) sia ben definito, essendo l’integrando progressivamente misurabile su [t, T ].
Ora ricordiamo la notazione (15.1.13), tn,k := T2nk , per i diadici di [0, T ] e utilizziamo l’usuale discretiz-
zazione di τ:
X2n
τn = tn,k 1Fn,k
k=1
con  
T
k = 2, . . . , 2n .

Fn,1 = 0 ≤ τ ≤ 2n , Fn,k = tn,k−1 < τ ≤ tn,k ,
Notiamo che (Fn,k )k=1,...,2n forma una partizione di Ω con Fn,k ∈ Ftn,k e (τn )n∈N è una successione decrescente
di tempi d’arresto che converge a τ. Per continuità si ha Xτn → Xτ . Inoltre, posto
Z T Z T
Y= us 1(s≤τ) dBs , Yn = us 1(s≤τn ) dBs ,
0 0

usando l’isometria di Itô è facile provare che Yn → Y in L2 (Ω, P ) e quindi anche quasi certamente.
Per provare la tesi, ossia il fatto che Xτ = Y q.c., è quindi sufficiente verificare che Xτn = Yn q.c. per ogni
n ∈ N. Ora, su Fn,k si ha
ZT ZT
Xτn = Xtn,k = us dBs − us dBs ,
0 tn,k

e quindi
Z T 2n
X Z T
Xτn = us dBs − 1Fn,k us dBs . (15.2.21)
0 k=1 tn,k

D’altra parte
Z T  
Yn = us 1 − 1(s>τn ) dBs
0
Z T 2n Z
X T
= us dBs − us 1Fn,k dBs =
0 k=1 tn,k

(per la (15.2.20), con probabilità uno)


Z T 2n
X Z T
= us dBs − 1Fn,k us dBs
0 k=1 tn,k

che, combinata con la (15.2.21), prova la tesi.


15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 347

0.04
0.4

0.03
0.2

0.02
200 400 600 800 1000

-0.2 0.01

-0.4
200 400 600 800 1000

Figura 15.1: A sinistra: grafico di una traiettoria di un moto Browniano W . A destra: grafico della relativa
Rt
traiettoria di At = 0 Ws2 ds, corrispondente al processo in (15.2.22) con u = W e B moto Browniano.

15.2.4 Integrale di processi in L2loc


Definiamo l’integrale stocastico di processi in L2loc . Indebolendo la condizione di sommabilità dell’in-
tegrando, si perdono alcune delle proprietà fondamentali dell’integrale, fra cui la proprietà di martin-
gala e l’isometria di Itô. Proveremo che l’integrale è una martingala locale e forniremo un “surrogato”
dell’isometria di Itô, il Lemma 15.2.24.
Ricordiamo che u ∈ L2loc se è progressivamente misurabile e, per ogni t > 0,
Zt
At := us2 d⟨B⟩s < ∞ q.c. (15.2.22)
0

Il processo A cosı̀ definito è continuo, adattato e crescente; inoltre A è non-negativo poiché A0 = 0 (si veda
la Figura 15.1).
Fissiamo T > 0 e consideriamo la successione di tempi d’arresto definita da

τn = T ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N. (15.2.23)

Per continuità di A, si ha τn ↗ T e quindi la successione di eventi Fn := (τn = T ) è tale che

Fn ↗ Ω.

Troncando u al tempo τn , definiamo il processo

un,t := ut 1(t≤τn ) , t ∈ [0, T ],

che è progressivamente misurabile e tale che


"Z t # "Z t∧τn #
2
E un,s d⟨B⟩s = E us2 d⟨B⟩s ≤ n, t ∈ [0, T ].
0 0

Quindi un ∈ L2 e il relativo integrale


Z t
2
Xn,t := un,s dBs , t ∈ [0, T ], (15.2.24)
0

appartiene a M c,2 in base al Teorema 15.2.15. Inoltre su Fn si ha

un,t = un+h,t = ut , t ∈ [0, T ], n, h ∈ N,


348 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

 
e pertanto i processi Xn,t t∈[0,n] e Xn+h,t t∈[0,n] sono indistinguibili su Fn grazie alla Proposizione 15.2.17.
Allora la seguente definizione è ben posta:

Definizione 15.2.20 (Integrale stocastico di processi in L2loc ). L’integrale stocastico di u ∈ L2loc rispetto
a B ∈ M c,2 su [0, T ] è il processo continuo e adattato X = (Xt )t∈[0,T ] che su Fn è indistinguibile da Xn in
(15.2.24) per ogni n ∈ N. Al solito, scriviamo
Z t
Xt = us dBs , t ∈ [0, T ]. (15.2.25)
0

Osservazione 15.2.21. Come già osservato in precedenza, l’integrale stocastico è definito come classe di
equivalenza di processi indistinguibili. La definizione precedente e in particolare la notazione (15.2.25)
sono ben poste nel senso che se X e X̄ indicano rispettivamente i processi integrali stocastici di u rispetto a
B sugli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ allora, con una procedura d’approssimazione a partire dai processi
semplici, si dimostra che X e X̄|[0,T ] sono processi indistinguibili. Di conseguenza è ben definito il processo
integrale stocastico secondo Itô di u rispetto a B indicato con
Z t
Xt = us dBs , t ≥ 0.
0

Vedremo in seguito, nella Proposizione 15.2.25, che vale anche


Z t Z t
us dBs = lim un,s dBs
0 n→∞ 0

con convergenza in probabilità.

La Proposizione 15.2.19 ha la seguente semplice generalizzazione.

Proposizione 15.2.22 (Integrale con estremo d’integrazione aleatorio). Sia X il processo integrale stoca-
stico di u ∈ L2loc rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo T > 0. Allora
 
ut 1(t≤τ) ∈ L2loc e vale
t≥0
Zτ ZT
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0
 
Dimostrazione. È chiaro che ut 1(t≤τ) ∈ L2loc . Sia (τn )n∈N la successione di tempi d’arresto in (15.2.23).
t≥0
Per definizione sull’evento Fn = (τn = T ) si ha

Xτ = us 1(s≤τn ) dBs =
0

(per la Proposizione 15.2.19, poiché us 1(s≤τn ) ∈ L2 )


Z T
= us 1(s≤τn ) 1(s≤τ) dBs =
0

(poiché su Fn si ha τn = T ≥ τ)
Z T
= us 1(s≤τ) dBs .
0

La tesi segue dall’arbitrarietà di n.


15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 349

Estendendo la classe di integrandi da L2 a L2loc , si perde la proprietà di martingala, tuttavia si ha il


seguente

Teorema 15.2.23. [!] Siano


Z t Z t
Xt = us dBs , Yt = vs dBs
0 0

con u, v ∈ L2loc e B ∈ M c,2 . Allora:

i) X è una martingala locale continua, ossia X ∈ M c,loc , e

τn := n ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N,

con A in (15.2.22), è una successione localizzante per X (cfr. Definizione 13.4.2);

ii) il processo co-variazione di X e Y è


Z t
⟨X, Y ⟩t = us vs d⟨B⟩s , t ≥ 0.
0

Dimostrazione. Per la Proposizione 15.2.22 (con la scelta τ = t ∧ τn e T = t), per ogni t ≥ 0 si ha


Z t
Xt∧τn = us 1(s≤τn ) dBs q.c.
0

e quindi, per continuità, Xt∧τn è una versione dell’integrale stocastico del processo us 1(s≤τn ) che appartiene
a L2 . Ne segue che Xt∧τn è una martingala continua e quindi X è una martingala locale con successione
localizzante (τn )n∈N .
Rt
Ora poniamo At = us vs d⟨B⟩s e
0

τn = n ∧ inf{t ≥ 0 | ⟨X⟩t + ⟨Y ⟩t ≥ n}, n ∈ N.

Per il Teorema 15.2.15 (si ricordi la (15.2.11)) e la disuguaglianza di Cauchy-Schwarz dell’Osservazione


14.4.5-iii), si ha che il processo
Z t
(XY − A)t∧τn = Xt∧τn Yt∧τn − At∧τn = Xt∧τn Yt∧τn − us vs 1(s≤τn ) d⟨B⟩s
0

è una martingala: ne viene che XY −A ∈ M c,loc con successione localizzante (τn )n∈N e quindi A = ⟨X, Y ⟩.

Per l’integrale stocastico di u ∈ L2loc non si ha più a disposizione uno strumento fondamentale come
l’isometria di Itô: in molte situazioni essa può essere convenientemente sostituita dal seguente lemma.

Lemma 15.2.24. [!] Siano


Z t Z t
Xt = us dBs , ⟨X⟩t = us2 d⟨B⟩s ,
0 0

con u ∈ L2loc e B ∈ M c,2 . Per ogni t, ε, δ > 0 vale

δ
P (|Xt | ≥ ε) ≤ P (⟨X⟩t ≥ δ) + .
ε2
350 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Dimostrazione. Poniamo
τδ = inf{s > 0 | ⟨X⟩s ≥ δ}, δ > 0.
Fissati t, ε > 0, si ha

P (|Xt | ≥ ε) = P ((|Xt | ≥ ε) ∩ (τδ ≤ t)) + P ((|Xt | ≥ ε) ∩ (τδ > t)) ≤

(poiché (τδ ≤ t) = (⟨X⟩t ≥ δ))

≤ P (⟨X⟩t ≥ δ) + P ((|Xt | ≥ ε) ∩ (τδ > t))

e quindi rimane da provare che


δ
P ((|Xt | ≥ ε) ∩ (τδ > t)) ≤ .
ε2
Ora si ha
Z Z
t t
! ! ! !

P us dBs ≥ ε ∩ (t < τδ ) = P us 1(s<τδ ) dBs ≥ ε ∩ (t < τδ )
0 0
Z
t !

≤ P us 1(s<τδ ) dBs ≥ ε ≤
0

(per la disuguaglianza (4.1.3) di Chebyschev)


 Z 2 
1  t 
≤ 2 E  us 1(s<τδ ) dBs  =
ε 0

(per l’isometria di Itô, poiché us 1(s<τδ ) ∈ L2 )


"Z t #
1 δ
= E us2 1(s<τδ ) d⟨B⟩s ≤ 2 .
ε2 0 ε

15.2.5 Integrale stocastico e integrale di Riemann-Stieltjes


Il seguente risultato mostra che l’integrale stocastico di u ∈ L2loc può anche essere definito per approssi-
mazione, come avevamo fatto per u ∈ L2 , a patto di usare la convergenza in probabilità invece che in norma
L2 (Ω, P ).
Proposizione 15.2.25. Siano u, un ∈ L2loc , n ∈ N, tali che
Z t
P
|un,s − us |2 d⟨B⟩s −−−−−→ 0. (15.2.26)
0 n→∞

Allora Z t Z t
P
un,s dBs −−−−−→ us dBs .
0 n→∞ 0

Dimostrazione. Fissato ε > 0, per il Lemma 15.2.24 con δ = ε3 si ha


Z
t
! Zt !
2 3
lim P (un,s − us )dBs ≥ ε ≤ lim P |un,s − us | d⟨B⟩s ≥ ε + ε = ε
n→∞ 0 n→∞ 0

grazie all’ipotesi (15.2.26).


15.3. INTEGRALE RISPETTO A SEMI-MARTINGALE CONTINUE 351

Come semplice applicazione della Proposizione 15.2.25 proviamo che, nel caso in cui l’integrando sia un
processo continuo, l’integrale stocastico è in effetti il limite in probabilità delle somme di Riemann-Stieltjes
in cui l’integrando è valutato nell’estremo sinistro di ogni intervallo della partizione: ciò è coerente con la
costruzione dell’integrale secondo Itô che sfrutta in maniera cruciale l’ipotesi di progressiva misurabilità
dell’integrando. Il seguente risultato è anche alla base dei metodi di approssimazione numerica per l’integrale
stocastico.
Corollario 15.2.26. [!] Siano u un processo continuo e adattato, B ∈ M c,2 e (πn )n∈N una successione di
partizioni di [0, t], con πn = (tn,k )k=0,...,mn , tale che lim |πn | = 0. Allora
n→∞

mn
X   P Zt
utn,k−1 Btn,k − Btn,k−1 −−−−−→ us dBs .
n→∞ 0
k=1

Dimostrazione. Posto
mn
X
un,s = utn,k−1 1[tn,k−1 ,tn,k [ (s)
k=1

si ha che un ∈ L2loc e
mn
X   Z t
utn,k−1 Btn,k − Btn,k−1 = un,s dBs .
k=1 0

Inoltre, per la continuità di u e il teorema della convergenza dominata, si ha


Z t
lim |un,s − us |2 d⟨B⟩s = 0 q.c.
n→∞ 0

La tesi segue dalla Proposizione 15.2.25.


Un’utile conseguenza del Corollario 15.2.26 è il seguente
Corollario 15.2.27. [!] Per i = 1, 2, sia Z t
Xti = usi dBis
0
d
con u i , processo continuo e adattato, e Bi ∈ M c,2 definiti su (Ωi , F i , P i ). Se (u 1 , B1 ) = (u 2 , B2 ) allora si ha
d
anche (u 1 , B1 , X 1 ) = (u 2 , B2 , X 2 ).
Un risultato analogo vale sotto ipotesi molto più generali: al riguardo si veda, per esempio, l’Esercizio
V.5.16 in [64].

15.3 Integrale rispetto a semi-martingale continue


Nelle sezioni precedenti abbiamo supposto che il processo integratore B fosse una martingala continua
di quadrato sommabile. Ora estendiamo la definizione di integrale stocastico al caso in cui l’integratore, qui
indicato con S, sia una semi-martingala continua: precisamente, per la Definizione 14.3.1, S è un processo
adattato e continuo della forma
S = A+B
dove A ∈ BV è tale che A0 = 0 e B ∈ M c,loc . Usiamo la notazione
Zt
ur dSr
0
352 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

per indicare l’integrale stocastico del processo u rispetto a S: esso è definito come somma
Zt Zt Zt
ur dSr := ur dAr + ur dBr
0 0 0

dove i due integrali nel membro a destra hanno il significato che ora spieghiamo.
Sia µA la misura di Lebesgue-Stieltjes5 associata ad A e definita traiettoria per traiettoria: indichiamo
con Zt Z
ur dAr := ur µA (dr)
0 [0,t]

il relativo integrale di Lebesgue-Stieltjes. Affinché tale integrale sia ben definito, imponiamo che u ∈ L2S,loc
secondo la seguente
Definizione 15.3.1. L2S,loc è la classe dei processi u progressivamente misurabili e tali che
Z Z t
|ur ||µA |(dr) + ur2 d⟨B⟩r < ∞ q.c.
[0,t] 0

per ogni t ≥ 0.

Per quanto riguarda l’integrale rispetto a B ∈ M c,loc , si può utilizzare un procedimento di localizzazione
del tutto analogo6 a quello della Sezione 15.2.4. In definitiva, ricordando la Definizione 14.4.6 di variazione
quadratica di una semi-martingala, si ha la seguente
Proposizione 15.3.2. Siano S = A + B una semi-martingala continua e u ∈ L2S,loc . Il processo integrale
stocastico Zt Zt Zt
Xt := ur dSr = ur dAr + ur dBr , t ≥ 0,
0 0 0
5 Secondo la Definizione 14.2.1, µ è una misura con segno.
A
6 Sia (τ )
n n∈N una successione localizzante per B: come nell’Osservazione 13.4.5-iv) possiamo supporre |Bt∧τn | ≤ n cosicché Bn :=
(Bt∧τn )t≥0 ∈ M c,2 . Se u ∈ L2S,loc allora
Zt Zt
ur2 d⟨Bn ⟩r ≤ ur2 d⟨B⟩r < ∞ q.c.
0 0
e quindi u ∈ L2B ,loc e l’integrale
n Zt
Yn,t := ur dBn,r
0
è ben definito. Sull’evento Fn,T := (T ≤ τn ) si ha q.c.

sup Yn,t − Ym,t = 0, m ≥ n.
0≤t≤T
Ciò è vero se u è semplice e, come la Proposizione 15.2.17, si dimostra in generale per approssimazione. Poiché Fn,T ↗ FT con
P (FT ) = 1, definiamo l’integrale
Zt
Yt = ur dBr , 0≤t ≤T,
0
come la classe di equivalenza dei processi continui e adattati che, per ogni n ∈ N, sono indistinguibili da (Yn,t )t∈[0,T ] su Fn,T . Se
Y e Ȳ indicano rispettivamente i processi integrali stocastici di u relativi agli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ , allora Y e Ȳ |[0,T ]
sono indistinguibili su [0, T ]. Quindi è ben definito il processo integrale stocastico secondo Itô di u ∈ L2S,loc rispetto a B ∈ M c,loc , che
indichiamo Z t
Yt = ur dBr , t ≥ 0.
0
Si ha che Y ∈ M c,loc con processo variazione quadratica
Zt
⟨Y ⟩t = ur2 d⟨B⟩r , t ≥ 0,
0
e una successione localizzante per Y è data da τ̄n = τn ∧ τn′ dove τn′ = inf{t ≥ 0 | ⟨I⟩t ≥ n}.
15.3. INTEGRALE RISPETTO A SEMI-MARTINGALE CONTINUE 353

è una semi-martingala continua con processo variazione quadratica


Zt
⟨X⟩t = ur2 d⟨B⟩r , t ≥ 0. (15.3.1)
0

Nella prossima sezione trattiamo il caso particolare in cui At = t e B sia un moto Browniano.

15.3.1 Processi di Itô uno-dimensionali


Un processo di Itô è una particolare semi-martingala continua che è somma di un integrale di Lebesgue
e di uno stocastico. In questa sezione W indica un moto Browniano reale.
Definizione 15.3.3 (Processo di Itô). [!] Un processo di Itô è un processo della forma
Zt Zt
Xt = X0 + us ds + vs dWs , (15.3.2)
0 0

dove:
i) X0 ∈ mF0 ;
ii) u ∈ L1loc , ossia u è progressivamente misurabile e tale che
Z t
|us |ds < ∞, q.c.
0

per ogni t ≥ 0;
iii) v ∈ L2loc , ossia v è progressivamente misurabile e tale che7
Z t
|vs |2 ds < ∞ q.c.
0

per ogni t ≥ 0.
Notazione 15.3.4 (Notazione differenziale). [!] Per indicare il processo di Itô in (15.3.2) si usa spesso la
cosiddetta “notazione differenziale”:
dXt = ut dt + vt dWt . (15.3.3)
Questa notazione, oltre ad essere più compatta, ha il pregio di evocare le espressioni del calcolo differenzia-
le classico. Ovviamente, in termini rigorosi, dXt non è una “derivata” o un “differenziale del processo X”,
oggetti che non sono stati definiti, ma è un simbolo che ha senso solo all’interno dell’espressione (15.3.3):
tale espressione, a sua volta, è una scrittura il cui significato preciso è dato dall’equazione integrale (15.3.2).
Quando si parla di calcolo differenziale stocastico ci si riferisce a questo tipo di calcolo simbolico il cui ve-
ro significato è dato dalle relative espressioni integrali: dunque si tratta in realtà di un calcolo integrale
stocastico.
Il processo in (15.3.2) è una semi-martingala continua e quindi può fungere a sua volta da integratore,
infatti si ha X = A + M dove:
- il processo
Z t
At := us ds
0
è continuo, adattato e a variazione limitata per l’Esempio 14.1.2-iv), ed è chiamato drift di X;
7 Si ricordi che ⟨W ⟩ = s.
s
354 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

- il processo integrale stocastico


Z t
Mt := X0 + vs dWs
0
è una martingala locale continua ed è chiamato parte diffusiva o diffusione di X.

Per la (15.3.1), il processo variazione quadratica di X è


Z t
⟨X⟩t = vs2 ds,
0

ossia d⟨X⟩t = vt2 dt in notazione differenziale.


Osservazione 15.3.5. [!] La rappresentazione di un processo di Itô è unica nel senso seguente: se X è il
processo in (15.3.3) e vale
dXt = ut′ dt + vt′ dWt ,
con u ′ ∈ L1loc e v ′ ∈ L2loc , allora
P (v = v ′ q.o.) = P (u = u ′ q.o.) = 1.
In particolare, se u, u ′ , v, v ′ sono continui allora u è indistinguibile da u ′ e v è indistinguibile da v ′ .
Infatti, il processo
Zt Zt Zt Zt
Mt := vs dWs − vs′ dWs = us′ ds − us ds
0 0 0 0
è una martingala locale continua, a variazione limitata che, per il Teorema 14.3.6, è indistinguibile dal
processo identicamente nullo. Consideriamo
Z t
τn := n ∧ inf{t ≥ 0 | At ≥ n}, At := (vs − vs′ )2 ds, n ∈ N,
0

l’usuale successione localizzante per M. Allora si ha


 Zτ !2   Zn !2 
n
 ′   ′ 
0 = E  (vs − vs )dWs  = E  (vs − vs )1[0,τn ] (s)dWs 
0 0
"Z n #
′ 2
=E (vs − vs ) 1[0,τn ] (s)ds
0

dove la seconda e terza uguaglianza sono dovute rispettivamente alla Proposizione 15.2.22 e all’isometria
di Itô. Passando al limite per n → ∞, per il Teorema di Beppo-Levi, si ha
"Z ∞ #
′ 2
E (vs − vs ) ds = 0
0

da cui P (v = v ′ q.o.) = 1. D’altra parte, per la Proposizione A.2.3.2 si ha che anche P (u = u ′ q.o.) = 1.
Capitolo 16

Formula di Itô

To put meaning in one’s life may end


in madness,
But life without meaning is the
torture
Of restlessness and vague desire-
It is a boat longing for the sea and
yet afraid.

Edgar Lee Master, Spoon River


Anthology

La formula di Itô è il risultato centrale del calcolo differenziale stocastico. In questo capitolo ne presen-
tiamo diverse versioni che generalizzano la formula di Itô per l’integrale di Riemann-Stieltjes del Teorema
14.1.6 e forniscono le regole generali del calcolo stocastico.

16.1 Formula di Itô per semi-martingale continue


Sebbene il caso delle semi-martingale sia molto generale, diamo subito questa versione della formula
di Itô perché ha il pregio di avere un’espressione compatta e una dimostrazione intuitiva. Ricordiamo che
una semi-martingala continua è un processo adattato e continuo della forma X = A + M con A ∈ BV tale che
A0 = 0 e M ∈ M c,loc , ossia M è una martingala locale continua secondo la Definizione 13.4.2. Indichiamo
con ⟨X⟩ il processo variazione quadratica di X: per il Teorema 14.4.1, vale ⟨X⟩ ≡ ⟨M⟩ dove ⟨M⟩ è l’unico
processo continuo e crescente tale che ⟨M⟩0 = 0 e M 2 − ⟨M⟩ è una martingala locale.
Per esempio, se X è un moto Browniano allora A ≡ 0 e il processo variazione quadratica è deterministico:
⟨X⟩t = t per t ≥ 0. Più in generale, se X è un processo di Itô della forma dXt = ut dt + vt dWt (cfr. Definizione
15.3.3) allora d⟨X⟩t = vt2 dt.

Teorema 16.1.1 (Formula di Itô). [!!!] Sia X una semi-martingala continua e sia F ∈ C 2 (R). Allora quasi
certamente, per ogni t ≥ 0 si ha
Z t Z t
′ 1
F(Xt ) = F(X0 ) + F (Xs )dXs + F ′′ (Xs )d⟨X⟩s (16.1.1)
0 2 0

o, con la notazione differenziale,

1
dF(Xt ) = F ′ (Xt )dXt + F ′′ (Xt )d⟨X⟩t . (16.1.2)
2

355
356 CAPITOLO 16. FORMULA DI ITÔ

Idea della dimostrazione. Data una partizione π = {t0 , . . . , tN } di [0, t], si scrive la differenza F(Xt )−F(X0 ) come
somma telescopica e poi si sviluppa in serie di Taylor al second’ordine: si ottiene

N 
X 
F(Xt ) − F(X0 ) = F(Xtk ) − F(Xtk )
k=1
N
X   1X N  2
= F ′ (Xtk−1 ) Xtk − Xtk−1 + F ′′ (Xtk−1 ) Xtk − Xtk−1 + “resto”.
2
k=1 k=1

Infine si prova che, in senso opportuno, esistono i limiti

N
X   Z t

F (Xtk−1 ) Xtk − Xtk−1 −→ F ′ (Xs )dXs ,
k=1 0
N
X  2 Zt
′′
F (Xtn,k−1 ) Xtk − Xtk−1 −→ F ′′ (Xs )d⟨X⟩s
k=1 0

per |π| che tende a zero e il termine di resto è trascurabile. La dimostrazione completa, tecnicamente più
complessa, è data nella Sezione 16.4.

Osservazione 16.1.2. Rispetto alla versione deterministica (14.1.3), nella formula di Itô (16.1.2) appare un
termine aggiuntivo dovuto alla variazione quadratica di X: esso è moltiplicato per il fattore 21 che deriva
dall’espansione in serie di Taylor di F.

In maniera simile si prova la seguente versione più generale della formula di Itô.

Teorema 16.1.3 (Formula di Itô). Sia X una semi-martingala continua e sia F = F(t, x) ∈ C 1,2 (R≥0 × R).
Allora quasi certamente, per ogni t ≥ 0 si ha
Z t Z t Z t
1
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂xx F)(s, Xs )d⟨X⟩s
0 0 2 0

o, con la notazione differenziale,


1
dF(t, Xt ) = ∂t F(t, Xt )dt + (∂x F)(t, Xt )dXt + (∂xx F)(t, Xt )d⟨X⟩t .
2

16.1.1 Formula di Itô per il moto Browniano


Scriviamo la formula di Itô per un moto Browniano reale W ed esaminiamo qualche esempio. Ricordia-
mo che il processo variazione quadratica di W è semplicemente ⟨W ⟩t = t.

Corollario 16.1.4 (Formula di Itô per il moto Browniano). [!] Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Z t Z t Z t
1
F(t, Wt ) = F(0, W0 ) + (∂t F)(s, Ws )ds + (∂x F)(s, Ws )dWs + (∂xx F)(s, Ws )ds
0 0 2 0

o, con la notazione differenziale,


1
 
dF(t, Wt ) = ∂t F + ∂xx F (t, Wt )dt + (∂x F)(t, Wt )dWt .
2
Esempio 16.1.5.
16.1. FORMULA DI ITÔ PER SEMI-MARTINGALE CONTINUE 357

i) se F(t, x) = f (t)x, con f ∈ C 1 (R), si ha

∂t F(t, x) = f ′ (t)x, ∂x F(t, x) = f (t), ∂xx F(t, x) = 0.

Allora si ha Z t Z t
f (t)Wt = f ′ (s)Ws ds + f (s)dWs
0 0
che corrisponde alla formula di integrazione per parti deterministica dell’Esempio 14.1.8-ii). In
forma differenziale, abbiamo equivalentemente

d(f (t)Wt ) = f ′ (t)Wt dt + f (t)dWt

che ricorda l’usuale formula per la derivazione di un prodotto;


ii) se F(t, x) = x2 si ha
∂t F(t, x) = 0, ∂x F(t, x) = 2x, ∂xx F(t, x) = 2,
e quindi
Z t
Wt2 = 2 Ws dWs + t
0
o, in forma differenziale,
dWt2 = 2Wt dWt + dt;

iii) se F(t, x) = eat+σ x , con a, σ ∈ R, si ha

∂t F(t, x) = aF(t, x), ∂x F(t, x) = σ F(t, x), ∂xx F(t, x) = σ 2 F(t, x),

e quindi, posto Xt = eat+σ Wt , otteniamo


Zt Zt
σ2 t
Z
Xt = 1 + a Xs ds + σ Xs dWs + X ds
0 0 2 0 s

ossia  2
dXt = a + σ2 Xt dt + σ Xt dWt .
2
Con la scelta a = − σ2 il drift del processo si annulla e otteniamo
Z t
Xt = 1 + σ Xs dWs
0

σ2 t
che è una martingala continua. In effetti Xt = eσ Wt − 2 è la martingala esponenziale introdotta nell’Os-
servazione 10.3.2.
Esempio 16.1.6. [!] Posto Z t
Xt := Ws ds (16.1.3)
0
si ha Xt ∼ N0, t3 . Infatti, per la formula di Itô vale
3

d(tWt ) = tdWt + Wt dt

da cui Z t Z t
Xt = tWt − sdWs = (t − s)dWs .
0 0
358 CAPITOLO 16. FORMULA DI ITÔ

Notiamo che l’espressione di X in (16.1.3) è quella di un processo di Itô, mentre


Zt
(t − s)dWs
0

non è scritto nella forma di processo di Itô: per aggirare questo problema, definiamo il processo di Itô
Zt
(a)
Yt := (a − s)dWs
0

dipendente dal parametro a ∈ R. Sappiamo che


(a)
Yt ∼ N0, t3 +at(a−t)
3

(t)
e la tesi segue dal fatto che Xt = Yt .
Osservazione 16.1.7. [!] La formula di Itô mostra che ogni processo stocastico X = (Xt )t≥0 della forma Xt =
F(t, Wt ), con F sufficientemente regolare, è un processo di Itô secondo la Definizione 15.3.3: in particolare,
X è una semi-martingala e la formula di Itô fornisce l’espressione esplicita della decomposizione (unica a
meno di processi indistinguibili) di X nella somma X = A + M dove il processo a variazione limitata
Z t
1

At := ∂t F + ∂xx F (s, Ws )ds
0 2

è il drift di X e la martingala locale1


Z t
Mt := X0 + (∂x F)(s, Ws )dWs
0

è la parte diffusiva di X.
Si noti che se F risolve l’equazione del calore
1
∂t F(t, x) + ∂xx F(t, x) = 0, t > 0, x ∈ R, (16.1.4)
2
allora il drift di X si annulla e pertanto X è una martingala locale. Viceversa, se X è una martingala locale
allora per l’Osservazione 15.3.5 si ha che
1
(∂t F + ∂xx F)(t, Wt ) = 0 (16.1.5)
2
nel senso dell’indistinguibilità e da questo segue2 che F risolve l’equazione del calore (16.1.4).

16.1.2 Formula di Itô per processi di Itô


Sia X un processo di Itô della forma

dXt = µt dt + σt dWt (16.1.6)


1 Essendo M = X − A, ciò è in accordo col Teorema 10.3.4.
2 L’uguaglianza (16.1.5) di processi stocastici equivale all’equazione (16.1.4): basta osservare che se f è una funzione continua tale
che f (Wt ) = 0 q.c. per un t > 0 allora f ≡ 0: infatti se fosse f (x̄) > 0 per un x̄ ∈ R allora si avrebbe anche f (x) > 0 per |x − x̄| < r per un
certo r > 0 sufficientemente piccolo; ciò porta ad un assurdo poiché, essendo la densità Gaussiana strettamente positiva, si avrebbe
h i
0 < E f (Wt )1(|Wt −x̄|<r) = 0.
16.1. FORMULA DI ITÔ PER SEMI-MARTINGALE CONTINUE 359

con µ ∈ L1loc e σ ∈ L2loc . Nella Sezione 15.3.1 abbiamo visto che X è una semi-martingala continua con
variazione quadratica
Zt
⟨X⟩t = σs2 ds
0
ossia d⟨X⟩t = σt2 dt. Dunque si ha la seguente ulteriore versione della formula di Itô.
Corollario 16.1.8 (Formula di Itô per processi di Itô). [!] Sia X il processo di Itô in (16.1.6). Per ogni
F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Zt Zt
1 t
Z
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂ F)(s, Xs )σs2 ds (16.1.7)
0 0 2 0 xx
o equivalentemente

σt2
!
dF(t, Xt ) = ∂t F + µt ∂x F + ∂xx F (t, Xt )dt + σt ∂x F(t, Xt )dWt .
2

Esempio 16.1.9. [!] Calcoliamo il differenziale stocastico del processo


Rt
Yt = et 0
Ws dWs
.

Anzitutto notiamo che non possiamo utilizzare la formula di Itô per il moto Browniano del Corollario
16.1.4 perché Yt non è funzione di Wt ma dipende da (Ws )s∈[0,t] , ossia da tutta la traiettoria di W nell’inter-
vallo [0, t]. Il criterio generale con cui procedere per applicare correttamente la formula di Itô è quello di
analizzare anzitutto come Yt dipenda dalla variabile t, distinguendo la dipendenza di tipo “deterministico”
da quella di tipo “stocastico”: in questo esempio, evidenziamo in grassetto la dipendenza deterministica
Zt !
t 7→ exp t Ws dWs
0

e la dipendenza stocastica
Z t !
t 7→ exp t Ws dWs
0
per stabilire che
Z t
Yt = F(t, Xt ), F(t, x) = etx , Xt = Ws dWs ,
0
e quindi dXt = Wt dWt e d⟨X⟩t = Wt2 dt. Allora possiamo applicare la formula di Itô (16.1.7): abbiamo

∂t F(t, x) = xF(t, x), ∂x F(t, x) = tF(t, x), ∂xx F(t, x) = t 2 F(t, x),

e quindi
(tWt )2
!
dYt = Xt + Yt dt + tWt Yt dWt .
2
Esempio 16.1.10. [!] Consideriamo un processo di Itô a coefficienti deterministici
Zt Zt
Xt = x + µ(s)ds + σ (s)dWs
0 0

con x ∈ R, µ ∈ L1loc (R≥0 ) e σ ∈ L2loc (R≥0 ). Come applicazione della formula di Itô (16.1.7) proviamo che
Zt Zt
Xt ∼ Nm(t),C (t) , m(t) := x + µ(s)ds, C (t) := σ 2 (s)ds,
0 0
360 CAPITOLO 16. FORMULA DI ITÔ

per ogni t ≥ 0. Infatti possiamo facilmente calcolare la funzione caratteristica di X: anzitutto per ogni
η ∈ R si ha

η2
!
iηXt iηXt
de =e iηdXt − d⟨X⟩t
2
η 2 σ 2 (t)
= eiηXt (a(t, η)dt + iησ (t)dWt ) , a(t, η) := iηµ(t) − .
2
Applicando il valore atteso ed essendo nulla l’attesa dell’integrale stocastico, si ha
"Z t #
ϕXt (η) = eiηx + E a(s, η)eiηXs ds
0
Z t
= eiηx + a(s, η)ϕXs (η)ds;
0

equivalentemente, t 7→ ϕXt (η) risolve il problema di Cauchy



d
 dt ϕXt (η) = a(t, η)ϕXt (η),


ϕX0 (η) = eiηx ,

da cui segue che


η 2
ϕXt (η) = eiηm(t)− 2 C (t)
e quindi la tesi.

16.2 Alcune conseguenze della formula di Itô


16.2.1 Disuguaglianze di Burkholder-Davis-Gundy
Proviamo alcune classiche disuguaglianze che sono uno strumento basilare nello studio delle martingale
e delle equazioni differenziali stocastiche.
Teorema 16.2.1 (Burkholder-Davis-Gundy). [!] Per ogni p > 0 esistono due costanti positive cp , Cp tali che
vale  
   
p/2  p  p/2
cp E ⟨X⟩τ ≤ E  sup |Xt |  ≤ Cp E ⟨X⟩τ , (16.2.1)
t∈[0,τ]

per ogni martingala locale continua X tale che X0 = 0 q.c. e per ogni tempo d’arresto τ finito (ossia tale che
τ < ∞ q.c.). In (16.2.1), ⟨X⟩ indica il processo variazione quadratica di X.
Dimostrazione. Dimostriamo solo il caso p ≥ 2 in cui è possibile dare una prova elementare basata sulla
formula di Itô. Per il caso generale si veda, per esempio, la Proposizione 3.26 in [38]. Il caso p = 2 segue
dall’isometria di Itô (14.4.1) e quindi è sufficiente considerare p > 2.  
p/2
Cominciamo col dimostrare la seconda disuguaglianza. Non è restrittivo assumere E ⟨X⟩τ > 0 altri-
menti non c’è nulla da provare. Poniamo
X̄τ = sup |Xt |
t∈[0,τ]

e assumiamo per il momento che X̄τ ≤ n q.c. per un certo n ∈ N. Allora per la disuguaglianza massimale
di Doob, Corollario 13.1.3, si ha
h pi
E X̄τ ≤ cp E [|Xτ |p ] =
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 361

(per la formula di Itô, osservando che la funzione x 7→ |x|p è di classe C 2 poiché p ≥ 2)


"Z τ "Z τ
cp
# #
p−1 p−2
= cp E p|Xt | dXt + E p(p − 1)|Xt | d⟨X⟩t =
0 2 0

(essendo il primo termine nullo perché l’integrale stocastico è una martingala, data l’ipotesi di limitatezza
di X̄τ )
"Z τ #
′ p−2
= cp E |Xt | d⟨X⟩t
0
"Z τ #
′ p−2
≤ cp E X̄τ d⟨X⟩t
0
h p−2 i
= cp′ E X̄T ⟨X⟩T ≤

p p
(per la disuguaglianza di Hölder con esponenti p−2 e 2)

h p i p−2  2
p/2 p
≤ cp′ E X̄τ p E ⟨X⟩τ

e da questa disuguaglianza segue facilmente la tesi. Per rimuovere l’ipotesi di limitatezza, è sufficiente
applicare il risultato appena provato al tempo d’arresto τn = inf{t ≥ 0 | |Xt | ≥ n} ∧ τ e poi passare al limite
per n → ∞ utilizzando il teorema di Beppo-Levi.
Proviamo ora la prima disuguaglianza: con l’usuale argomento di localizzazione basato sul teorema di
Beppo-Levi,
h p inon è restrittivo assumere che τ, X̄τ e ⟨X⟩τ siano limitatipda una costante positiva. Assumiamo
anche E X̄τ > 0 altrimenti non c’è nulla da provare. Poniamo r = 2 > 1 e A = ⟨X⟩. Per la formula di Itô
deterministica, Teorema 14.1.6 e formula (14.1.4), si ha

dArt = rAr−1
t dAt ,
 
r
dAt = d At Ar−1
t = At dAr−1
t + Ar−1
t dAt ,

e inserendo la prima nella seconda uguaglianza si ha

1
dArt = At dAtr−1 + dArt
r
ossia Z τ
(r − 1)Arτ =r At dAr−1
t .
0

Essendo anche Z τ Z τ
Arτ = Aτ dAr−1
t = Aτ dAr−1
t ,
0 0

otteniamo infine Z τ
Arτ =r (Aτ − At ) dAr−1
t .
0

Allora si ha
"Z τ #
E [Arτ ] = rE (Aτ − At ) dAr−1
t =
0
362 CAPITOLO 16. FORMULA DI ITÔ

(per la Proposizione 14.2.3 e poiché At = E [At | Ft ])


"Z τ #
= rE E [Aτ − At | Ft ] dAr−1
t =
0

(per le (14.4.1) e (6.5.3) (si veda anche l’Osservazione 14.4.2), ricordando la notazione A = ⟨X⟩)
"Z
h τ i
#
= rE E Xτ2 − Xt2 | Ft d⟨X⟩r−1
t
0
"Z τ #
h i
≤ rE E X̄τ2 | Ft d⟨X⟩tr−1 =
0

(ancora per la Proposizione 14.2.3)


"Z τ #
h i
= rE X̄τ2 d⟨X⟩r−1
t = rE X̄τ2 ⟨X⟩τr−1 .
0

r
Per concludere basta applicare la disuguaglianza di Hölder con esponenti r, r−1 e infine dividere per
r−1
E [⟨X⟩rτ ] r .

Si ha il seguente immediato

Corollario 16.2.2. [!] Siano σ ∈ L2 e W un moto Browniano reale. Per ogni p ≥ 2 e T > 0 si ha
Z p #
t
" "Z T #
p−2
p
E sup σs dWs ≤ cp T E
2 |σs | ds (16.2.2)
0≤t≤T 0 0

dove cp è una costante positiva che dipende solo da p.

Dimostrazione. Basta3 considerare p > 2. Applicando la disuguaglianza di Burkholder-Davis-Gundy alla


martingala continua
Zt
Xt = σs dWs , X̄T = sup |Xt | ,
0 0≤t≤T

otteniamo
 
 Z
T !p/2 
h pi p/2  
E X̄T ≤ cp E ⟨X⟩T ≤ cp E  σt2 dt 

0

p p
e la tesi segue applicando la disuguaglianza di Hölder con esponenti 2 e p−2 .

Osservazione 16.2.3. Assumiamo


Z t "Z T #
p
Xt := σs dWs con E |σs | ds < ∞.
0 0

Combinando la stima (16.2.2) col Teorema di continuità di Kolmogorov si ha che il processo integrale X
ammette una versione con traiettorie α-Hölderiane per ogni α ∈ [0, 12 − p2 [.
3 Il caso p = 2 corrisponde all’isometria di Itô.
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 363

16.2.2 Processo variazione quadratica


Dimostriamo la formula (14.4.2) che avevamo lasciato in sospeso.

Proposizione 16.2.4. Sia X una martingala locale continua con processo variazione quadratica ⟨X⟩. Si ha

2n 
X 2
⟨X⟩t = lim X tkn − X t(k−1) , t ≥ 0,
n→∞ 2 2n
k=1

in probabilità. Inoltre, se S = A + X è una semi-martingala continua, con A ∈ BV e X ∈ M c,loc , si ha

2n 
X 2
⟨X⟩t = lim S tkn − S t(k−1) , t ≥ 0, (16.2.3)
n→∞ 2 2n
k=1

in probabilità.

Dimostrazione. Indichiamo al solito con tn,k = 2tkn , k = 0, . . . , 2n , i razionali diadici dell’intervallo [0, t]. Sup-
poniamo dapprima che X sia una martingala locale continua limitata, |X| ≤ K con K costante positiva.
Fissati n ∈ N e k ∈ {1, . . . , 2n }, consideriamo il processo

Ys := Xs − Xtn,k−1 , s ≥ tn,k−1 ,

e osserviamo che ⟨Y ⟩s = ⟨X⟩s − ⟨X⟩tn,k−1 : infatti, basta osservare che


 
Ys2 − ⟨X⟩s − ⟨X⟩tn,k−1 = Xs2 − ⟨X⟩s + Ms , Ms := −2Xs Xtn,k−1 + Xt2n,k−1 + ⟨X⟩tn,k−1 ,

e si verifica facilmente che (Ms )s≥tn,k−1 è una martingala. Applicando la formula di Itô si ha

dYs2 = 2Ys dYs + d⟨Y ⟩s

e in forma integrale su [tn,k , tn,k−1 ]

 2 Z tn,k  
Xtn,k − Xtn,k−1 = 2 Xs − Xtn,k−1 dYs + ⟨X⟩tn,k − ⟨X⟩tn,k−1
tn,k−1

ossia
 2   Z tn,k  
Xtn,k − Xtn,k−1 − ⟨X⟩tn,k − ⟨X⟩tn,k−1 = 2 Xs − Xtn,k−1 dYs .
tn,k−1

Sommando in k otteniamo
2n 
X 2 2n Z
X tn,k  
Rn := Xtn,k − Xtn,k−1 − ⟨X⟩t = 2 Xs − Xtn,k−1 dYs .
k=1 k=1 tn,k−1

Grazie all’isometria di Itô nella forma (15.2.12) e (15.2.13) (si ricordi anche il Teorema 15.2.15), si ha

h i 2n
X
Z tn,k  2

2  
E Rn = 4 E  Xs − Xtn,k−1 d⟨Y ⟩s 
k=1 tn,k−1
Z 2n 
 t X  2 
= 4E  Xs − Xtn,k−1 1[tn,k−1 ,tn,k ] (s)d⟨Y ⟩s 
0k=1
364 CAPITOLO 16. FORMULA DI ITÔ
h i
e passando al limite, per il teorema della convergenza dominata, si ha lim E R2n = 0. Dunque, in questo
n→∞
caso particolare si prova la convergenza in norma L2 che ovviamente implica la convergenza in probabilità.
Per rimuovere l’ipotesi di limitatezza di X, è sufficiente usare un argomento di localizzazione provando
la tesi per la martingala limitata Xt∧τn , con

τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n}, n ∈ N,

per poi far tendere n ad infinito: con questa procedura si riesce a dimostrare la convergenza in probabilità.
La dimostrazione della (16.2.3) è simile ed è omessa.

16.3 Il caso multi-dimensionale


In questa sezione vediamo brevemente come definire l’integrale stocastico di processi multi-dimensio-
nali, esaminando in particolare il moto Browniano e i processi di Itô. Per semplicità, trattiamo solo il
caso in cui l’integratore è in M c,2 anche se tutti i risultati seguenti si estendono ad integratori che siano
semi-martingale continue. Nel seguito d e N indicano due numeri naturali.

Definizione 16.3.1. Sia B = (B1 , . . . , Bd ) ∈ M c,2 un processo d-dimensionale. Consideriamo un processo


u = (u ij ) a valori nello spazio delle matrici di dimensione N × d. Scriviamo u ∈ L2B (o semplicemente u ∈ L2 )
se u ij ∈ L2Bj per ogni i = 1, . . . , N e j = 1, . . . , d. La classe L2loc ≡ L2B,loc è definita in modo analogo. L’integrale
stocastico di u rispetto a B è il processo N -dimensionale, definito componente per componente da
 
Zt X d Z t
ij j

us dBs :=  us dBs 
 
0  0 
j=1 i=1,...,N

al variare di t ≥ 0.

Teorema 16.3.2. [!] Siano


Z t Z t
Xt = us dB1s , Yt = vs dB2s ,
0 0

con B1 , B2 processi uno-dimensionali in M c,2 e u, v processi uno-dimensionali rispettivamente in L2B1 ,loc e


L2B2 ,loc . Allora:

i) si ha
Z t
⟨X, Y ⟩t = us vs d⟨B1 , B2 ⟩s ; (16.3.1)
0

ii) se u ∈ L2B1 e v ∈ L2B2 allora vale la seguente versione dell’isometria di Itô


"Z T Z T # "Z T #
E us dB1s vs dB2s | Ft = E 1 2
us vs d⟨B , B ⟩s | Ft , 0≤t ≤T. (16.3.2)
t t t

Dimostrazione. Nel caso in cui u e v siano processi indicatori, la (16.3.2) si prova ripetendo la dimostrazione
del Teorema 15.2.7-ii) con l’unica differenza che, al posto della (15.2.6), occorre utilizzare la (14.4.5) nella
forma h i h i
E (B1T − B1t )(B2T − B2t ) | Ft = E ⟨B1 , B2 ⟩T − ⟨B1 , B2 ⟩t | Ft , 0≤t ≤T.

La dimostrazione della (16.3.1) è completamente analoga al caso in cui B1 = B2 .


16.3. IL CASO MULTI-DIMENSIONALE 365

Corollario 16.3.3. Se W = (W 1 , . . . , W d ) è un moto Browniano d-dimensionale (cfr. Definizione 14.5.1) su


(Ω, F , P , (Ft )t≥0 ) allora per ogni u, v ∈ L2W si ha
"Z T Z T # "Z T #
j
E us dWsi vs dWs | Ft = δij E us vs ds | Ft , 0 ≤ t ≤ T , i, j = 1, . . . , d. (16.3.3)
t t t

Dimostrazione. La (16.3.3) segue direttamente dalla (16.3.2) e dal punto iii) della Proposizione 14.5.2.

Osservazione 16.3.4. Le componenti della matrice di co-variazione (cfr. Definizione 14.4.6) del processo
integrale
Zt
Xt = us dBs
0
sono
d Z t d Z t
ij jk
X X
⟨X⟩t = ⟨ usih dBhs , us dBks ⟩ =
h=1 0 k=1 0

(per la (16.3.1))

d Z t
jk
X
= usih us d⟨Bh , Bk ⟩s (16.3.4)
h,k=1 0

per i, j = 1, . . . , N .

16.3.1 Processi di Itô multi-dimensionali


Definizione 16.3.5 (Processo di Itô). [!] Sia W un moto Browniano d-dimensionale. Un processo di Itô
N -dimensionale è un processo della forma
Z t Z t
Xt = X0 + us ds + vs dWs (16.3.5)
0 0

dove:

i) X0 ∈ mF0 è una v.a. N -dimensionale;

ii) u è un processo N -dimensionale in L1loc , ossia u è progressivamente misurabile e tale che, per ogni
t ≥ 0, Zt
|us |ds < ∞, q.c.
0

iii) v è un processo in L2loc a valori nello spazio delle matrici N × d, ossia v è progressivamente misurabile
e tale che, per ogni t ≥ 0,
Zt
|vs |2 ds < ∞ q.c.
0

dove |v| indica la norma di Hilbert-Schmidt della matrice v, ossia la norma Euclidea in RN ×d , definita
da
N X
X d
|v|2 = (v ij )2 .
i=1 j=1
366 CAPITOLO 16. FORMULA DI ITÔ

Con la notazione differenziale scriviamo

dXt = ut dt + vt dWt .

Combinando la (16.3.4) col fatto che ⟨W ⟩t = tI otteniamo la seguente


Proposizione 16.3.6. Sia X il processo di Itô in (16.3.5). La matrice di co-variazione di X è
Zt
⟨X⟩t = vs vs∗ ds, t ≥ 0,
0

o, in notazione differenziale,
d
ij
X
d⟨X i , X j ⟩t = Ct dt, C ij = (vv ∗ )ij = v ik v jk . (16.3.6)
k=1

Proposizione 16.3.7 (Isometria di Itô). Per ogni v ∈ L2 ,


matrice di dimensione N ×d, e W moto Browniano
d-dimensionale vale  Z t 2  "Z t #
  2
E  vs dWs  = E
|v| ds .
0 0

Dimostrazione. Si ha
 Z t 2  N  d Z 2 
 t  
ij j
  X   X
E  vs dWs  = E  vs dWs  
 
0  0  
i=1 j=1

(per la (16.3.3))
N X
d  Zt !2 
ij j
X  
= E  vs dWs 
i=1 j=1 0

(per l’isometria di Itô scalare)


N X
d "Z t #
ij
X
= E (vs )2 ds .
i=1 j=1 0

Esempio 16.3.8. Nel caso più semplice in cui u, v sono costanti si ha

Xt = X0 + ut + vWt ,

ossia X è un moto Browniano correlato con drift.

16.3.2 Formula di Itô multi-dimensionale


La seguente versione multi-dimensionale della formula di Itô si prova in modo simile al caso scalare.
Teorema 16.3.9 (Formula di Itô per semi-martingale continue). Siano X = (X 1 , . . . , X d ) una semi-martingala
continua d-dimensionale e F = F(t, x) ∈ C 1,2 (R≥0 × Rd ). Allora quasi certamente, per ogni t ≥ 0 si ha

t d Z t d Z
1X t
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + (∂xi xj F)(s, Xs )d⟨X i , X j ⟩s
0 0 2 0
j=1 i,j=1
16.3. IL CASO MULTI-DIMENSIONALE 367

o, con la notazione differenziale,


d d
X j 1X
dF(t, Xt ) = ∂t F(t, Xt )dt + (∂xj F)(t, Xt )dXt + (∂xi xj F)(t, Xt )d⟨X i , X j ⟩t .
2
j=1 i,j=1

Di seguito esaminiamo due casi particolarmente importanti in cui usiamo le espressioni (14.5.1) e
(16.3.6) delle co-variazioni ⟨X i , X j ⟩:
i) se W è un moto Browniano d-dimensionale (cfr. Definizione 14.5.1) si ha

d⟨W i , W j ⟩t = δij dt (16.3.7)

dove δij è la delta di Kronecker;


ii) se X è un processo di Itô della forma

dXt = µt dt + σt dWt (16.3.8)

con µ processo N -dimensionale in L1loc e σ matrice N × d in L2loc , allora


ij
d⟨X i , X j ⟩t = Ct dt, C ij = (σ σ ∗ )ij , (16.3.9)

ossia, ricordando la notazione ⟨X⟩ per la matrice di co-variazione di X (cfr. Definizione 14.4.6),

d⟨X⟩t = Ct dt.

Corollario 16.3.10 (Formula di Itô per il moto Browniano). Sia W un moto Browniano d-dimensionale.
Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × Rd ) si ha
Z t d Z t Z t
X j 1
F(t, Wt ) = F(0, 0) + (∂t F)(s, Ws )ds + (∂xj F)(s, Ws )dWs + (∆F)(s, Ws )ds
0 0 2 0
j=1

dove ∆ è l’operatore di Laplace in Rd :


d
X
∆= ∂xj xj .
j=1

Con la notazione differenziale si ha


1
 
dF(t, Wt ) = ∂t F + ∆F (t, Wt )dt + (∇x F)(t, Wt )dWt ,
2
 
dove ∇x = ∂x1 , . . . , ∂xd indica il gradiente spaziale.

Esempio 16.3.11. Calcoliamo il differenziale stocastico di |Wt |2 dove W è un moto Browniano N -dimensionale.
In questo caso
F(x) = |x|2 = x12 + · · · + xd2 , ∂xi F(x) = 2xi , ∂xi xj F(x) = 2δij ,
dove δij è la delta di Kronecker. Dunque si ha

N
X
d|Wt |2 = N dt + 2Wt dWt = N dt + 2 Wti dWti .
i=1

Ne segue che il processo Xt = |Wt |2 − N t è una martingala.


368 CAPITOLO 16. FORMULA DI ITÔ

Corollario 16.3.12 (Formula di Itô per processi di Itô). [!] Sia X un processo di Itô in RN della forma
(16.3.8). Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × RN ) si ha
t N Z t N Z
1 X t ij
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + Cs (∂xi xj F)(s, Xs )ds
0 0 2 0
j=1 i,j=1

dove C = σ σ ∗ . Con la notazione differenziale si ha


 
N N d
N X
 1 X ij X j
 X jk
dF(t, Xt ) = ∂t F + Cs ∂xi xj F + µt ∂xj F  (t, Xt )dt + σt ∂xj F(t, Xt )dWtk .
 
 2 
i,j=1 j=1 j=1 k=1

Esempio 16.3.13 (Martingala esponenziale). Sia


dMt = σt dWt
con σ di dimensione N × d e W moto Browniano d-dimensionale. Ricordiamo che la matrice di co-
variazione di M è d⟨M⟩t = σt σt∗ dt. Fissato η ∈ RN poniamo
1
 
Zt = exp ⟨η, Mt ⟩ − ⟨⟨M⟩t η, η⟩
2
1 t
Z !

= exp ⟨η, Mt ⟩ − ⟨σ σ η, η⟩ds .
2 0 s s

Applichiamo la formula di Itô con F(x) = e⟨x,η⟩ e


1
dXt = dMt − σt σt∗ ηdt.
2
Si ha Zt = F(Xt ) e
∂xi F(x) = ηi F(x), ∂xi xj F(x) = ηi ηj F(x),
da cui
N X
d
1
 
ij j
X
dZt = Xt ηdXt + ⟨σt σt∗ η, η⟩dt = Xt ηdMt = Xt ηi σt dWt .
2
i=1 j=1

Ne viene in particolare che Z è una martingala locale positiva (e quindi una super-martingala per l’Osser-
vazione 13.4.5-vi)).
Osservazione 16.3.14 (Regole formali per il calcolo delle co-variazioni). [!] Sia X il processo di Itô in
(16.3.8) con componenti
d
X
dXti = µit dt + σtik dWtk , i = 1, . . . , N . (16.3.10)
k=1
Per determinare icoefficienti
 delle derivate seconde nella formula di Itô occorre calcolare la matrice di co-
variazione ⟨X⟩ = ⟨X i , X j ⟩ che sappiamo essere data da d⟨X⟩t = σt σt∗ dt per la (16.3.9). Dal punto di vista
pratico il calcolo di σ σ ∗ può essere oneroso ed è quindi preferibile utilizzare le seguenti regole formali di
calcolo: si scrive
d⟨X i , X j ⟩ = dX i ∗ dX j
e si calcola il prodotto “∗′′ nel membro a destra come un prodotto dei “polinomi” dX i in (16.3.10) secondo
le seguenti regole di calcolo
j
dt ∗ dt = dt ∗ dWti = dWti ∗ dt = 0, dWti ∗ dWt = δij dt,
dove δij è la delta di Kronecker.
16.3. IL CASO MULTI-DIMENSIONALE 369

Esempio 16.3.15. Supponiamo N = d = 2 in (16.3.10) e calcoliamo il differenziale stocastico del prodotto


di Zt = Xt1 Xt2 . Si ha Zt = F(Xt ) dove F(x1 , x2 ) = x1 x2 e

∂x1 F(x) = x2 , ∂x2 F(x) = x1 , ∂x1 x1 F(x) = ∂x2 x2 F(x) = 0, ∂x1 x2 F(x) = ∂x2 x1 F(x) = 1.

Di conseguenza

d(Xt1 Xt2 ) = Xt1 dXt2 + Xt2 dXt1 + d⟨X 1 , X 2 ⟩t


 
= Xt1 dXt2 + Xt2 dXt1 + σt11 σt21 + σt12 σt22 dt.

Inoltre, per quanto riguarda la variazione quadratica di X 1 , si ha


 
d⟨X 1 ⟩t = (σt11 )2 + (σt12 )2 dt.

Diamo la versione multi-dimensionale del Corollario 16.2.2 sulle stime Lp per l’integrale stocastico.
Omettiamo la dimostrazione che è simile al caso scalare.

Corollario 16.3.16. [!] Siano σ ∈ L2 , matrice N ×d-dimensionale, e W un moto Browniano d-dimensionale.


Per ogni p ≥ 2 e T > 0 si ha Z p #
t
" "Z T #
p−2
p
E sup σs dWs ≤ cT E 2 |σs | ds
0≤t≤T 0 0

dove |σ | indica la norma di Hilbert-Schmidt4 di σ e c è una costante positiva che dipende solo da p, N e d.

16.3.3 Caratterizzazione di Lévy del moto Browniano


Ricordiamo l’espressione (16.3.7) delle co-variazioni di un moto Browniano W . È notevole il fatto che le
co-variazioni e la proprietà di martingala caratterizzino il moto Browniano come mostra il seguente classico

Teorema 16.3.17 (Caratterizzazione di Lévy del moto Browniano). Sia X un processo d-dimensionale
definito sullo spazio (Ω, F , P , (Ft )) e tale che X0 = 0 q.c. Allora X è un moto Browniano se e solo se X è una
martingala locale continua tale che
⟨X i , X j ⟩t = δij t, t ≥ 0. (16.3.11)

Dimostrazione. Usiamo la Proposizione 14.5.3 e verifichiamo che, per ogni η ∈ Rd , il processo esponenziale

η |η|2
Mt := eiη·Xt + 2 t

è una martingala. Per la formula di Itô abbiamo


 
 |η|2 d
η η 1X i j 

dMt = Mt  dt + iη · dXt − ηi ηj d⟨X , X ⟩t  =

 2 2 
i,j=1

(per l’ipotesi (16.3.11))


η
= Mt iη · dXt

e quindi, per il Teorema 15.2.23, M η è una martingala locale continua. D’altra parte M η è anche una vera
martingala essendo un processo limitato, da cui la tesi.
4 Ossia la norma Euclidea in RN ×d .
370 CAPITOLO 16. FORMULA DI ITÔ

Corollario 16.3.18. Sia σ = (σ 1 , . . . , σ d ) un processo d-dimensionale progressivamente misurabile e tale che


|σt | = 1 per t ≥ 0 quasi certamente. Per ogni un moto Browniano d-dimensionale W , il processo
Z t
Bt := σs dWs
0

è un moto Browniano reale.

Dimostrazione. Per il Teorema 15.2.15 B è una martingala continua e vale


Z t
⟨B⟩t = |σs |2 ds = t.
0

La tesi segue dal Teorema 16.3.17.

Definizione 16.3.19. Sia σ un processo progressivamente misurabile a valori nello spazio delle matrici di
dimensione N × d, le cui righe σ i sono tali che |σti | = 1 per t ≥ 0 quasi certamente. Dato un moto Browniano
W , il processo
Zt
Bt := σs dWs
0
è chiamato moto Browniano correlato.

Per il Corollario 16.3.18, ogni componente di B è un moto Browniano reale e per la (16.3.9) si ha
Z t
i j ij
⟨B , B ⟩t = ϱs ds
0

dove ϱt = σt σt∗ è detta matrice di correlazione di B. Inoltre vale


Z t
cov(Bt ) = E [ϱs ] ds,
0

poiché
 d Z d Z t

j

j
 X t X jh 
cov(Bit , Bt ) = E Bit Bt = E  σsik dWsk σs dWsh  =
k=1 0 0 h=1

(per l’isometria di Itô, Proposizione 16.3.7)


Z d  Z
 t X jk 
t 
ij

ik
= E  σs σs ds = E ϱs ds.
 
0 k=1 0

Nel caso in cui σ sia ortogonale si ha σ ∗ = σ −1 e quindi σ i · σ j = δij per ogni coppia di righe: in questo caso
particolare B è un moto Browniano standard secondo la Definizione 14.5.1.

16.4 Dimostrazione della formula di Itô


Dimostriamo il Teorema 16.1.1. Sia X = A + M una semi-martingala continua a valori reali dove A è un
processo adattato, continuo e localmente a variazione limitata e M ∈ M c,loc . Nel Teorema 14.4.1 abbiamo
definito il processo variazione quadratica ⟨M⟩ come l’unico (a meno di indistinguibilità) processo adattato,
16.4. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 371

continuo, crescente tale che ⟨M⟩0 = 0 e M 2 − ⟨M⟩ ∈ M c,loc . Inoltre, se M è di quadrato sommabile, ossia
M ∈ M c,2 , allora si hanno le importanti identità
h i h i
E (Mt − Ms )2 | Fs = E Mt2 − Ms2 | Fs (16.4.1)
= E [⟨M⟩t − ⟨M⟩s | Fs ] , 0 ≤ s ≤ t. (16.4.2)

Anche se è un calcolo che abbiamo già svolto, è utile ricordare che la (16.4.1) viene semplicemente da
h i h i
E (Mt − Ms )2 | Fs = E Mt2 − 2Mt Ms + Ms2 | Fs
h i
= E Mt2 | Fs − 2Ms E [Mt | Fs ] + Ms2 =

(per la proprietà di martingala di M)


h i
= E Mt2 | Fs − Ms2 .

Invece la (16.4.2) equivale alla proprietà di martingala di M 2 − ⟨M⟩. La dimostrazione della formula di Itô
si basa essenzialmente su queste due identità. Un ulteriore ingrediente è la stima uniforme (14.6.3) della
norma L2 della variazione quadratica di M sui diadici.
Dividiamo la prova del Teorema 16.1.1 in quattro passi.
[Primo passo] Consideriamo la semi-martingala continua X = A+M. Poiché la (16.1.1) è un’uguaglianza di
processi continui, è sufficiente dimostrare che si tratta di modificazioni: in altri termini, possiamo ragionare
per t > 0 fissato. Poniamo

τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n, ⟨X⟩s ≥ n, Vs (A) ≥ n}, n ∈ N,

dove Vs (A) indica il processo variazione prima di A su [0, s] (cfr. Definizione 14.1.1). Per continuità, τn ↗ ∞
q.c. e quindi basta provare la formula di Itô per Xt∧τn per ogni n ∈ N: equivalentemente, basta provare per
ogni fissato N̄ ∈ N vale la (16.1.1) nel caso in cui i processi |X|, |M|, A, ⟨X⟩ e V (A) siano limitati da N̄ . In tal
caso, non è restrittivo assumere che la funzione F abbia supporto compatto, eventualmente modificandola
fuori da [−N̄ , N̄ ]. In un primo momento, assumiamo anche che F ∈ C 3 (R).
Usiamo la notazione (13.1.1) per i diadici

D(t) = {tn,k = tk
2n | k = 0, . . . , 2n , n ∈ N}

di [0, t] e indichiamo con ∆n,k Y = Ytn,k − Ytn,k−1 l’incremento di un generico processo Y . Inoltre, poniamo
Fn,k := Ftn,k e
δn (Y ) = sup |Ys − Yr |, n ∈ N.
s,r∈D(t)
|s−r|< 1n
2

Sviluppando in serie di Taylor al second’ordine con resto secondo Lagrange, otteniamo

2n 
X 
F(Xt ) − F(X0 ) = F(Xtn,k ) − F(Xtn,k−1 )
k=1
2n 2n
X 1 X ′′
F ′ (Xtn,k−1 )∆n,k X + F (Xtn,k−1 ) ∆n,k X 2 + Rn

= (16.4.3)
2
k=1 k=1

con
2n
X
′′′ 3
|Rn | ≤ ∥F ∥∞ ∆n,k X . (16.4.4)
k=1
372 CAPITOLO 16. FORMULA DI ITÔ

Nei prossimi due passi stimiamo i singoli termini in (16.4.3) per mostrare che convergono ai corrispondenti
termini in (16.1.1) e Rn −→ 0 per n → ∞.
[Secondo passo] Per quanto riguarda la prima somma in (16.4.3), abbiamo
2n
X
F ′ (Xtn,k−1 )∆n,k X = In1,A + In1,M
k=1

dove, per la Proposizione 14.1.3,


2n
X Z t
In1,A := F ′ (Xtn,k−1 )∆n,k A −→ F ′ (Xs )dAs (16.4.5)
k=1 0

quasi certamente per n → ∞, con l’integrale inteso nel senso di Riemann-Stieltjes (o nel senso di Lebesgue-
Stieltjes, per la Proposizione 14.2.2) e
2n
X Z t
In1,M := F ′ (Xtn,k−1 )∆n,k M −→ F ′ (Xs )dMs
k=1 0

in probabilità, per il Corollario 15.2.26.


[Terzo passo] Per quanto riguarda la seconda somma in (16.4.3), abbiamo
2n
X
F ′′ (Xtn,k−1 )(∆n,k X)2 = In2,A + 2In2,AM + In2,M
k=1

dove
2n
X 2n
X 2n
X
In2,A := ′′ 2
F (Xtn,k−1 )(∆n,k A) , In2,AM := ′′
F (Xtn,k−1 )(∆n,k A)(∆n,k M), In2,M := F ′′ (Xtn,k−1 )(∆n,k M)2 .
k=1 k=1 k=1

Ora si ha
|In2,A | ≤ ∥F ′′ ∥∞ δn (A)Vt (A) ≤ N̄ ∥F ′′ ∥∞ δn (A) −→ 0
quasi certamente per n → ∞, per l’uniforme continuità delle traiettorie di A su [0, t]. Un risultato analogo
si ha per In2,AM . Ricordando che per definizione ⟨X⟩ = ⟨M⟩, rimane da provare che
Zt
In2,M −→ F ′′ (Xs )d⟨M⟩s .
0

Poiché analogamente a (16.4.5) si ha quasi certamente


2n
X Z t
F ′′ (Xtn,k−1 )∆n,k ⟨M⟩ −→ F ′′ (Xs )d⟨M⟩s ,
k=1 0

dimostriamo che
2n
X  
F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ −→ 0
k=1
 
in norma L2 (Ω, P ). Posto Gn,k = F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ , sviluppando il quadrato della somma,
abbiamo
 n
2
2   2n 
X   X 
2
E  Gn,k   = E  Gn,k 
   
 
k=1 k=1
16.4. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 373

poiché i doppi prodotti si annullano: infatti, se h < k, si ha


h h ii
E Gn,h Gn,k = E Gn,h F ′′ (Xtn,k−1 )E (∆n,k M)2 − ∆n,k ⟨M⟩ | Fn,k−1 = 0
 

per la (16.4.2). Ora, per la disuguaglianza elementare (x + y)2 ≤ 2x2 + 2y 2 , abbiamo


 2n   2n 
X  X  
2 
E  Gn,k  ≤ 2∥F ′′ ∥∞ E 
  (∆n,k M)4 + (∆n,k ⟨M⟩)2 
k=1 k=1
2n
 
 X 
′′ 2 2
≤ 2∥F ∥∞ E δn (M)
 (∆n,k M) + δn (M)Vt (⟨M⟩) ≤
k=1

(applicando la disuguaglianza di Hölder al primo termine)

2  12
  n 

 h i 12 X 2  


′′ 4 2
≤ 2∥F ∥∞ E δn (M) E  (∆n,k M)   + N̄ E [δn (⟨M⟩)] −→ 0

 
 
  

   
k=1

per n → ∞, poiché:
h i
• δn (M) ≤ 2N̄ e δn (M) → 0 q.c. per l’uniforme continuità di M su [0, t]: di conseguenza E δn4 (M) → 0
per il teorema della convergenza dominata. In modo analogo, E [δn (⟨M⟩)] → 0;
 n !2 
2
2
(∆n,k M)  ≤ 16N̄ 4 per la stima (14.6.3).
 P 
• sup E 
n∈N k=1

In base alla (16.4.4), la prova del fatto che


h i
lim E |Rn |2 = 0
n→∞

è del tutto analoga.


[Quarto passo] Concludiamo la prova rimuovendo l’ipotesi di regolarità aggiuntiva su F. Data F ∈ C 2 (R)
con supporto compatto, consideriamo una successione (Fn )n∈N di funzioni C 3 che convergono uniforme-
mente a F insieme con le derivate prime e seconde. Applichiamo la formula di Itô a Fn e mandiamo n a
infinito: si ha Fn (Xs ) → F(Xs ) per ogni s ∈ [0, t]. Per il teorema della convergenza dominata si ha q.c.
Z t Z t
lim (Fn′ (Xs ) − F ′ (Xs )) dAs = lim (Fn′′ (Xs ) − F ′′ (Xs )) d⟨X⟩s = 0
n→∞ 0 n→∞ 0

e per l’isometria di Itô


 Zt !2  "Z t #
 
 ′ ′  ′ ′ 2
lim E  (Fn (Xs ) − F (Xs )) dMs  = lim E
 Fn (Xs ) − F (Xs ) d⟨M⟩s = 0.
n→∞  0 n→∞ 0
374 CAPITOLO 16. FORMULA DI ITÔ
Capitolo 17

Equazioni differenziali stocastiche

It seems fair to say that all


differential equations are better
models of the world when a
stochastic term is added and that
their classical analysis is useful only
if it is stable in an appropriate sense
to such perturbations.

David Mumford

A partire da questo capitolo iniziamo lo studio delle equazioni differenziali stocastiche. In tutto il
capitolo N , d ∈ N e T > t0 ≥ 0 sono numeri fissati.
Un’equazione differenziale stocastica (nel seguito abbreviata in SDE dalla locuzione anglosassone “sto-
chastic differential equation”) è un’espressione della forma

dXt = b(t, Xt )dt + σ (t, Xt )dWt (17.0.1)

dove W è un moto Browniano d-dimensionale e

b = b(t, x) : [t0 , T ] × RN −→ RN , σ = σ (t, x) : [t0 , T ] × RN −→ RN ×d , (17.0.2)

sono funzioni misurabili1 : b è chiamato coefficiente di drift e σ coefficiente di diffusione dell’SDE.

Definizione 17.0.1 (Soluzione debole). Sia W un moto Browniano d-dimensionale sullo spazio con fil-
trazione (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali e sia Z ∈ mFt0 tale che |Z| < +∞ q.c. Dicia-
mo che X è soluzione debole dell’SDE di coefficienti b, σ relativa a (W , Ft ) e con dato iniziale Z e scriviamo
X ∈ SDE(b, σ , W , Ft , Z), se X = (Xt )t∈[t0 ,T ] è un processo continuo, definito sullo stesso spazio di W e tale
che:

i) X è adattato a (Ft )t∈[t0 ,T ] ;

ii) vale
Z T Z T
|b(t, Xt )|dt + |σ (t, Xt )|2 dt < ∞ q.c. (17.0.3)
t0 t0
1 Più in generale, è possibile studiare equazioni i cui coefficienti dipendano in modo stocastico dalla variabile temporale. Questo
tipo di equazioni intervengono, per esempio, nello studio di problemi di controllo ottimo e filtraggio stocastico. Noi ci limiteremo a
considerare coefficienti deterministici. Rimandiamo, per esempio, a [42] per la trattazione generale. In (17.0.2) RN ×d indica lo spazio
delle matrici (N × d)-dimensionali.

375
376 CAPITOLO 17. EQUAZIONI DIFFERENZIALI STOCASTICHE

iii) quasi certamente vale2


Z t Z t
Xt = Z + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ]. (17.0.4)
t0 t0

Si noti che il dato iniziale è assunto q.c.: quindi, se X ∈ SDE(b, σ , W , Ft , Z) e Z = Z ′ q.c. allora si ha
anche X ∈ SDE(b, σ , W , Ft , Z ′ ).

17.1 Risolubilità forte e debole


Esistono vari approcci allo studio delle SDE. In particolare, il problema dell’esistenza di soluzioni o
risolubilità dell’SDE ammette diverse formulazioni.

• Problema della risolubilità in senso debole: diciamo che l’SDE di coefficienti b, σ è risolubile in sen-
so debole se, assegnata una distribuzione µ su BN , esiste uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 )
in cui valgono le ipotesi usuali e su cui sono definiti un moto Browniano W e un processo X tali che
X ∈ SDE(b, σ , W , Ft , Xt0 ) con Xt0 ∼ µ.

• Problema della risolubilità in senso forte: diciamo che l’SDE di coefficienti b, σ è risolubile in sen-
so forte se, assegnati un moto Browniano d-dimensionale W definito sullo spazio con filtrazione
(Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali e una variabile aleatoria Z ∈ mFt0 tale che |Z| < +∞
q.c., esiste X ∈ SDE(b, σ , W , FtW ,Z , Z) dove (FtW ,Z )t∈[t0 ,T ] è la filtrazione standard di W e Z, ossia il
minimo ampliamento della filtrazione generata da W e Z che soddisfa le ipotesi usuali: in questo
caso diciamo che X è una soluzione forte dell’SDE di coefficienti b, σ .

Le soluzioni forti si distinguono da quelle deboli della Definizione 17.0.1 per la proprietà di essere adattate
alla filtrazione standard F W ,Z . Si noti che F W ,Z è la minima filtrazione rispetto alla quale si può definire
una soluzione debole: ne segue che ogni soluzione forte è anche debole. Si ha inoltre la seguente

Proposizione 17.1.1. Se un’SDE è risolubile in senso forte allora lo è anche in senso debole.

Dimostrazione. Sia µ un’assegnata distribuzione su BN . Costruiamo uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 )
in cui valgono le ipotesi usuali e su cui sono definiti un moto Browniano W e una variabile aleatoria
Z ∈ mFt0 tale che |Z| < +∞ q.c. e Z ∼ µ. Una volta fatto ciò, l’ipotesi di risolubilità in senso forte dell’SDE
implicherà l’esistenza di una soluzione X ∈ SDE(b, σ , W , FtW ,Z , Z).
Consideriamo un moto Browniano d-dimensionale B definito  sullo
 spazio (Ω1 , G∞
B , P , (G B )
1 t t≥0 ) dove
Gt = σ (Bs , s ≤ t) indica la filtrazione generata da B e G∞ = σ Gt , t ≥ 0 . Inoltre sia Z una variabile aleatoria,
B B B e
definita su un altro spazio (Ω2 , σ (Z),
e P2 ), tale che Z
e ∼ µ. Poniamo:

• Ω = Ω1 × Ω2 ;

• P = P1 ⊗ P2 , la misura prodotto estesa al completamento3 F di G∞


B ⊗ σ (Z);
e

• Gt = GtB ⊗ σ (Z)
e per t ≥ 0;
2 Ossia esiste una versione dell’integrale stocastico
Zt
σ (s, Xs )dWs
t0
tale che la (17.0.4) valga per ogni t ∈ [t0 , T ] quasi certamente.
3 Si ricordi l’Osservazione 2.4.3: si ha F = σ (N ∪ (G B ⊗ σ (Z)))
e dove

B ⊗ σ (Z)
N := {A ⊆ Ω1 × Ω2 | A ⊆ N per un certo N ∈ G∞ e tale che P (N ) = 0}.
17.1. RISOLUBILITÀ FORTE E DEBOLE 377

• Wt (ω1 , ω2 ) = Bt (ω1 ) e Z(ω1 , ω2 ) = Z(ω


e 2 ) per (ω1 , ω2 ) ∈ Ω1 × Ω2 .
Con un po’ di pazienza si verifica che:
• W è un moto Browniano su (Ω, F , P , (Gt )t≥0 );
• Z ∈ mG0 (da cui segue che Z ∈ mGt ed è indipendente da Wt nella misura P per ogni t ≥ 0);
• Z ∼ µ.
Poniamo Ft := σ (Gt+ ∪ N ) per t ≥ 0. Per la Proposizione 11.2.20, W è un moto Browniano anche sullo
spazio (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali.
Osservazione 17.1.2. [!] La condizione di misurabilità nella definizione di soluzione forte (ossia, il fatto
che una soluzione forte sia adattata alla filtrazione standard F W ,Z ) è cruciale. Ribadiamo che F W ,Z è
la più piccola filtrazione rispetto alla quale si può definire una soluzione debole X dell’SDE e quindi la
condizione di essere adattata a F W ,Z è la più restrittiva possibile su X.
Un caso particolarmente importante è quando il dato iniziale è deterministico, ossia Z ∈ RN : allora
F ,Z = F W e X è adattato alla filtrazione standard Browniana F W . Ciò significa che al Browniano W ,
W

tramite l’SDE di coefficienti b, σ , è associato un processo (la soluzione) X che è un “funzionale” di W , nel
senso che Xt si può esprimere in funzione di (Ws )s≤t . Questa osservazione è rilevante poiché in diverse
applicazioni, come per esempio nella teoria dei segnali, W rappresenta un insieme di dati osservati che
sono utilizzati come “input” di un modello o sistema dinamico (formalizzato dall’SDE) che produce come
“output” la soluzione X in funzione dei dati di partenza.
Anche se sembra contro-intuitivo esistono SDE del tipo (17.0.1), con dato iniziale deterministico, che
non ammettono soluzioni adattate alla filtrazione standard F W di un opportuno moto Browniano W : in altri
termini, in alcuni casi una soluzione X dell’SDE necessita di maggiore aleatorietà di quella contenuta in W .
Un famoso esempio al riguardo è stato esibito da Tanaka [73] (si veda anche [77]): qui descriviamo l’idea
generale e rimandiamo alla Sezione 9.2.1 in [58] o all’Esempio 3.5, Capitolo 5 in [38] per i dettagli.
Esempio 17.1.3. Consideriamo l’SDE scalare (ossia con N = d = 1)
dXt = σ (Xt )dWt (17.1.1)
con drift e dato iniziale nulli, b = Z = 0, e coefficiente di diffusione

1 se x ≥ 0,


σ (x) = sgn(x) := 
−1 se x < 0.

Per provare che l’SDE (17.1.1) è risolubile in senso debole, consideriamo un moto Browniano X definito
sullo spazio (Ω, F , P , (FtX )t≥0 ). Il processo
Zt
Wt := σ (Xs )dXs , t ≥ 0, (17.1.2)
0
è una martingala continua con variazione quadratica ⟨W ⟩t = t e di conseguenza, per il Teorema 16.3.17,
anche W è un moto Browniano su (Ω, F , P , (FtX )t≥0 ). Dalla definizione dWt = σ (Xt )dXt otteniamo
dXt = σ 2 (Xt )dXt = σ (Xt )dWt
che significa che X è soluzione dell’SDE (17.1.1) relativa a W , ossia X ∈ SDE(0, σ , W , FtX , 0). Il punto cru-
ciale è che si può dimostrare4 che W definito da (17.1.2) è adattato alla filtrazione standard F |X| generata
dal processo in valore assoluto |X|: se X fosse adattato a F W allora dovrebbe essere adattato anche a F |X|
e ciò è assurdo. Questo esempio può sembrare un po’ patologico perché il coefficiente σ è una funzione
discontinua: più recentemente Barlow [4] ha dimostrato che per ogni α < 21 esiste una funzione σ che è α-
Hölderiana, limitata dall’alto e dal basso da costanti positive, e tale che l’SDE (17.1.1) è risolubile in senso
debole ma non in senso forte.
4 Qui si utilizza la formula di Meyer-Tanaka: si veda, per esempio, la Sezione 5.3.2 in [58] o la Sezione 2.11 in [20].
378 CAPITOLO 17. EQUAZIONI DIFFERENZIALI STOCASTICHE

In definitiva, un’SDE può essere risolubile debolmente senza esserlo in senso forte: la risolubilità debole
è meno restrittiva perché dà la libertà di scelta dello spazio, del moto Browniano e della filtrazione rispetto
a cui scrivere l’SDE. Al contrario, nella formulazione forte lo spazio, il moto Browniano W e il dato iniziale
Z sono assegnati a priori e la soluzione è vincolata ad essere adattata alla filtrazione standard F W ,Z .

17.2 Unicità forte e debole


Cosı̀ come per l’esistenza, esistono anche differenti nozioni di unicità per la soluzione di un’SDE. La
prima definizione è quella nota nella letteratura anglosassone come “pathwise uniqueness”.

Definizione 17.2.1 (Unicità in senso forte o traiettoria per traiettoria). Si dice che c’è unicità in senso
forte per l’SDE di coefficienti b, σ se il fatto che X ∈ SDE(b, σ , W , Ft , Z), Y ∈ SDE(b, σ , W , Gt , Z) implica che
X e Y sono processi indistinguibili.

Nella definizione precedente i due processi X e Y sono definiti sullo stesso spazio di probabilità (Ω, F , P )
e sono soluzioni deboli dell’SDE relative a (W , Ft ) e (W , Gt ) dove W è un moto Browniano rispetto ad en-
trambe le filtrazioni (Ft )t≥0 e (Gt )t≥0 che possono essere differenti. Se per un’SDE c’è risolubilità ed unicità
in senso forte allora ogni5 soluzione debole è anche forte, ossia è necessariamente adattata alla filtrazione
standard F W ,Z .

Definizione 17.2.2 (Unicità in senso debole o in legge). Si dice che c’è unicità in senso debole per l’SDE
d
di coefficienti b, σ se il fatto che X ∈ SDE(b, σ , W , Ft , Xt0 ) e Y ∈ SDE(b, σ , B, Gt , Yt0 ) con Xt0 = Yt0 implica che
(X, W ) e (Y , B) sono uguali in legge o, equivalentemente, hanno le stesse distribuzioni finito-dimensionali.

Nella definizione di unicità in senso debole, i processi X e Y possono essere definiti su spazi di proba-
bilità differenti ed essere soluzioni relative a moti Browniani (W , Ft ) e (B, Gt ) distinti.

Esempio 17.2.3. Proviamo che per l’SDE dell’Esempio 17.1.3 c’è unicità in senso debole ma non forte. Se
W è un moto Browniano sullo spazio (Ω, F , P , (Ft )t≥0 ) e X è soluzione debole dell’SDE (17.1.1) relativa
a (W , Ft ) allora per il Teorema 16.3.17 di caratterizzazione di Lévy anche X è un moto Browniano sullo
stesso spazio e quindi, grazie anche al seguente Lemma 17.2.5, c’è unicità in senso debole. Tuttavia se X è
la soluzione debole costruita nell’Esempio 17.1.3, possiamo verificare che anche −X è soluzione dell’SDE e
quindi non c’è unicità in senso forte: infatti, poiché σ (−x) = −σ (x) se x , 0, si ha
Z t Z t Z t
σ (−Xs )dWs = − σ (Xs )dWs + 2 1(Xs =0) dWs
0 0 0
Zt
=− σ (Xs )dWs q.c.
0

poiché, per l’isometria di Itô,


 Zt !2  Z t
  h i
E  1(Xs =0) dWs  = E 1(Xs =0) ds = 0.
0 0

Qui abbiamo usato il fatto che P (Xs = 0) = 0 poiché X è un moto Browniano.

Proviamo ora che l’unicità forte implica quella debole: questo risultato sembra naturale ma ha una
dimostrazione tutt’altro che banale e abbastanza tecnica che si consiglia di saltare ad una prima lettura.
Tutta la difficoltà sta nel fatto che l’unicità forte riguarda soluzioni definite sullo stesso spazio mentre per
provare l’unicità debole si ha a che fare con soluzioni possibilmente definite su spazi differenti.
5 Se X ∈ SDE(b, σ , W , F , Z), per la risolubilità in senso forte esiste anche Y ∈ SDE(b, σ , W , F W ,Z , Z) e X, Y sono indistinguibili.
t t
17.2. UNICITÀ FORTE E DEBOLE 379

Teorema 17.2.4. [!] Se c’è unicità in senso forte per l’SDE di coefficienti b, σ allora c’è anche unicità in
senso debole.

Dimostrazione. Per semplicità consideriamo t0 = 0. L’idea è di ambientare il problema in uno spazio canoni-
co di riferimento, lo spazio di Wiener delle traiettorie continue. Precisamente, data X ∈ SDE(b, σ , W , Ft , X0 ),
soluzione dell’SDE sull’intervallo [0, T ], indichiamo con (X,eWf) la versione canonica di (X, W ) (cfr. Defini-
zione 9.2.4):

(X,
eW f) : (ΩN × Ωd , B(N ×d) , P) −→ (ΩN × Ωd , B(N ×d) ), Ωi := C([0, T ]; Ri ), i = N , d, (17.2.1)

dove P := µ(X,W ) indica la legge di (X, W ) e B(N ×d) è l’usuale σ -algebra di Borel su Ω := ΩN × Ωd .
Come primo passo proviamo un lemma che mostra che l’unicità in senso debole ammette una formula-
zione equivalente che è più semplice da verificare in quanto coinvolge solo dati iniziali deterministici.

Lemma 17.2.5. Per l’SDE di coefficienti b, σ si ha unicità in senso debole se, per ogni x ∈ RN , il fatto che
X ∈ SDE(b, σ , W , Ft , x) e Y ∈ SDE(b, σ , B, Gt , x) implica che (X, W ) e (Y , B) sono uguali in legge.

Sia X ∈ SDE(b, σ , W , Ft , X0 ). Per provare il lemma lavoriamo nello spazio di Wiener (Ω, B(N ×d) ) e con-
dizioniamo al dato iniziale per passare dalla misura P in cui il dato è aleatorio ad una misura in cui è
deterministico. Qui usiamo il fatto  cruciale  che Ω è uno spazio polacco e quindi per il Teorema 5.3.2 esiste
una versione regolare P(· | Xe0 ) = Pw (· | X
e0 ) della probabilità P condizionata al valore (aleatorio) iniziale
w∈Ω
X0 . Ricordiamo che, per P-quasi ogni w ∈ Ω, Pw (· | X
e e0 ) è una distribuzione su B(N ×d) e vale
h i
e0 ) = E 1H | X
P(H | X e0 , H ∈ B(N ×d) .

Indichiamo con wN il vettore delle prime N componenti della traiettoria w ∈ Ω: si noti che, per definizione
di versione canonica di X, si ha semplicemente X(w) e = wN . Ora per P-quasi ogni w ∈ Ω, nella misura
Pw (· | X
e0 ) si ha che il processo (X,
eW f) ha la stessa legge di (X̂, W ) dove X̂ ∈ SDE(b, σ , W , Ft , wN (0)): segue dal
Corollario 15.2.27 che, per P-quasi ogni w ∈ Ω, nella misura Pw (· | X e0 ), X
e è soluzione dell’SDE di coefficienti
b, σ relativa a W f e con dato iniziale X e0 (w) = wN (0).
Con analoga costruzione indichiamo con Q e Q(· | Y e0 ) rispettivamente la legge e la legge condizionata
di Y ∈ SDE(b, σ , B, Gt , Y0 ). Per l’ipotesi di unicità in legge con dati iniziali deterministici, si ha Pw (· | X e0 ) =
d
e0 ) per quasi ogni w ∈ Ω in P e Q. Nel caso in cui X0 = Y0 , con la formula della probabilità totale del
Qw (· | Y
Teorema 5.3.11 si prova che P = Q e questo conclude la dimostrazione del Lemma 17.2.5.
Ora siano X ∈ SDE(b, σ , W , Ft , x) e Y ∈ SDE(b, σ , B, Gt , x) con x ∈ RN fissato: dobbiamo provare che
d
l’ipotesi di unicità forte implica (X, W ) = (Y , B). L’idea è di costruire delle versioni di X e Y che siano
soluzioni dell’SDE sullo stesso spazio e relativamente allo stesso Browniano. A tal fine costruiamo uno
spazio di Wiener su cui siano definiti tre processi: un moto Browniano e le versioni di X e Y .
Consideriamo la versione canonica di (X, W ) in (17.2.1).  Per il Teorema 5.3.4 (e la successiva Osserva-
zione 5.3.5) esiste una versione regolare µX| f = µX|
eW eWf(·; w) della legge di X
e condizionata a W
f: per ogni
w∈Ω
w ∈ Ω, µX| f(·; w) è una distribuzione sui Boreliani B(N ) di ΩN tale che
eW
h i
µX|
eW f(H; w) = E 1(X∈H)
e |W
f, H ∈ B(N ) .

In particolare µX| 6
f(H; w) è σ (W )-misurabile e quindi, per la versione funzionale del Teorema 3.3.3 di
eW
f
Doob, è funzione misurabile di Wf: essendo W
f(w) = wd (dove wd indica il vettore delle ultime d componenti
6 Ricordiamo l’enunciato del Teorema 3.3.3: siano X, Y v.a. reali su (Ω, F , P ). Allora X ∈ mσ (Y ) se e solo se esiste f ∈ mB tale che
X = f (Y ). Il teorema si estende, con dimostrazione pressoché identica, al caso in cui X sia a valori in uno spazio metrico polacco
munito della σ -algebra di Borel e Y sia a valori in un generico spazio misurabile. Per i dettagli si veda, per esempio, il Lemma 1.13 a
pag.7 in [37].
380 CAPITOLO 17. EQUAZIONI DIFFERENZIALI STOCASTICHE

della traiettoria
 w ∈ Ω, cosicché w = (wN , wd )) possiamo dunque, con un ovvio
 cambio di notazione, scrivere
µX|
eW f = µX|eWf(·; wd ) . In modo analogo definiamo la famiglia µYe|Be = µYe|Be(·; wd ) di distribuzioni
wd ∈Ωd wd ∈Ωd
sui Boreliani B(N ) di ΩN .
 
Ora consideriamo lo spazio di Wiener ΩN × ΩN × Ωd , B(N ×N ×d) su cui definiamo la misura di proba-
bilità Q ponendo
Z
Q(H × K × A) = µX|
eW f(H; ·)µY e(K; ·)dµW
e|B f, H, K ∈ B(N ) , A ∈ B(d) , (17.2.2)
A

dove µW f è la misura di Wiener su B(d) , ossia la legge di un moto Browniano d-dimensionale. Infine introdu-
ciamo il processo canonico (X̄, Ȳ , W̄ ) definito come funzione identità su ΩN ×ΩN ×Ωd , ossia X̄(w1 , w2 , w3 ) =
w1 , Ȳ (w1 , w2 , w3 ) = w2 e W̄ (w1 , w2 , w3 ) = w3 , avendo indicato con w = (w1 , w2 , w3 ) il generico elemento di
ΩN × ΩN × Ωd . Ponendo rispettivamente H = ΩN oppure K = ΩN in (17.2.2), si verifica che
d d
(X, W ) = (X̄, W̄ ), (Y , B) = (Ȳ , W̄ ),

da cui si ricava in particolare che W̄ è un moto Browniano nella misura Q e, per il Corollario 15.2.27, che
X̄ e Ȳ sono entrambe soluzioni dell’SDE di coefficienti b, σ relative a W̄ e con dato iniziale x. Per l’unicità
in senso forte si ha che X̄ e Ȳ sono indistinguibili nella misura Q e quindi

d d d
(X, W ) = (X̄, W̄ ) = (Ȳ , W̄ ) = (Y , B)

che conclude la prova.


Concludiamo il capitolo riportando il seguente interessante risultato (Teorema XI.1.7 in [64] e la suc-
cessiva osservazione).
Teorema 17.2.6. [!] Se c’è unicità in senso forte per l’SDE di coefficienti b, σ allora ogni soluzione debole è
anche forte.
Capitolo 18

Soluzioni forti

Proviamo alcuni risultati classici sulla risolubilità ed unicità in senso forte dell’equazione differenziale
stocastica (SDE)
dXt = b(t, Xt )dt + σ (t, Xt )dWt (18.0.1)
sotto ipotesi standard di regolarità (Lipschitzianità locale) e crescita lineare dei coefficienti. In tutto il
capitolo [0, T ] è intervallo temporale fissato e d, N ∈ N sono rispettivamente la dimensione del Browniano
W e della soluzione X di (18.0.1). I risultati principali di questo capitolo riguardano:
• l’unicità in senso forte, Teorema 18.1.5;
• la risolubilità in senso forte e la proprietà di flusso, Teorema 18.2.2;
• la proprietà di Markov, Teorema 18.3.1
• le stime di sommabilità Lp ed esponenziale, Teoremi 18.4.1 e 18.4.3;
• le stime di dipendenza dal dato iniziale, regolarità delle traiettorie, proprietà di Feller e di Markov
forte, Teorema 18.5.1 e Corollario 18.5.2.
Infine, nella Sezione 18.6 esaminiamo il caso notevole delle SDE lineari.

18.1 Unicità
Definizione 18.1.1 (Ipotesi standard). Il coefficienti b, σ verificano le ipotesi standard su [0, T ] se esistono
due costanti positive c1 , c2 tali che

|b(t, x)| + |σ (t, x)| ≤ c1 (1 + |x|), (18.1.1)



b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ c2 |x − y|, (18.1.2)

per ogni t ∈ [0, T ] e x, y ∈ RN .


Le (18.1.1) e (18.1.2) sono rispettivamente ipotesi di crescita lineare e Lischitzianità globale in x, uni-
formi in t ∈ [0, T ]. Notiamo che se esiste x ∈ RN tale che b(·, x), σ (·, x) ∈ L∞ ([0, T ]) allora la (18.1.2) implica
la (18.1.1). Nel seguito indeboliremo la (18.1.2) richiedendo la Lischitzianità locale in x.
Useremo ripetutamente il seguente classico
Lemma 18.1.2 (Gronwall). Sia v ∈ bB una funzione non-negativa che verifica la stima integrale
Zt
v(t) ≤ a + b v(s)ds, t ∈ [0, T ],
0

381
382 CAPITOLO 18. SOLUZIONI FORTI

per certi a, b ∈ R≥0 . Allora si ha


v(t) ≤ aebt , t ∈ [0, T ].
Convenzione 18.1.3. Nel seguito proveremo varie stime in cui appaiono delle costanti: per indicare che
una costante c dipende solo ed esclusivamente dai valori di altri parametri α1 , . . . , αn scriveremo c = c(α1 , . . . , αn ).
Lemma 18.1.4. Siano X, Y processi adattati e continui q.c., T > 0 e p ≥ 2. Allora:
• se b, σ verificano la condizione (18.1.1) di crescita lineare, esiste una costante positiva c̄1 = c̄1 (T , d, N , p, c1 ),
tale che
Z p #
t
" Zt Z t1 " #!
p−2
1 + E sup |Xr |p ds

E sup b(s, Xs )ds + σ (s, Xs )dWs ≤ c̄1 (t1 − t0 ) 2 (18.1.3)
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s

per ogni 0 ≤ t0 ≤ t1 ≤ T ;
• se b, σ verificano la condizione (18.1.2) di Lischitzianità globale, esiste una costante positiva c̄2 =
c̄2 (T , d, N , p, c2 ) tale che
Z p #
t
" Zt Z t1 " #
p−2
E sup |Xr − Yr |p ds

E sup (b(s, Xs ) − b(s, Ys )) ds + (σ (s, Xs ) − σ (s, Ys )) dWs ≤ c̄2 (t1 −t0 ) 2
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s
(18.1.4)
per ogni 0 ≤ t0 ≤ t1 ≤ T .
Dimostrazione. Ricordiamo la disuguaglianza elementare

|x1 + · · · + xn |p ≤ np−1 (|x1 |p + · · · |xn |p ) , x1 , . . . , xn ∈ RN , n ∈ N. (18.1.5)

Per la disuguaglianza di Hölder si ha


Z p #
t
" "Z t #
1
p−1 p
E sup b(s, Xs )ds ≤ (t1 − t0 ) E |b(s, Xs )| ds ≤
t0 ≤t≤t1 t0 t0

(per la (18.1.1))
Z t1
p
≤ (t1 − t0 )p−1 c1 E [(1 + |Xs |)p ] ds
t0

(per la (18.1.5))
Z t1
p−1 p
≤2 (t1 − t0 )p−1 c1 (1 + E [|Xs |p ]) ds
t0
Z t1 " #!
p
≤ 2p−1 (t1 − t0 )p−1 c1 1 + E sup |Xr |p ds.
t0 t0 ≤r≤s

Analogamente, per la disuguaglianza di Burkholder-Davis-Gundy, nella versione del Corollario 16.3.16,


esiste una costante c = c(d, N , p) tale che
Z p #
t
" "Z t #
p−2 1
|σ (s, Xs )|p ds ≤

E sup σ (s, Xs )dWs ≤ c(t1 − t0 ) 2 E
t0 ≤t≤t1 t0 t0

(procedendo come nella stima precedente)


p−2
Z t1 " #!
p
≤ c(t1 − t0 ) 2 2p−1 c1 1 + E sup |Xr |p ds.
t0 t0 ≤r≤s
18.1. UNICITÀ 383

Questo prova la (18.1.3).


Ancora per la disuguaglianza di Hölder si ha
Z p #
t
" "Z t #
1
p−1 p
E sup (b(s, Xs ) − b(s, Ys )) ds ≤ (t1 − t0 ) E |b(s, Xs ) − b(s, Ys )| ds ≤
t0 ≤t≤t1 t0 t0

(per la (18.1.2))
Z t1
p
≤ (t1 − t0 )p−1 c2 E [|Xs − Ys |p ] ds
t0
Z t1 " #
p
≤ (t1 − t0 )p−1 c2 E sup |Xr − Yr | ds. p
t0 t0 ≤r≤s

Analogamente, per il Corollario 16.3.16, si ha


Z p #
t
" "Z t #
p−2 1
p
E sup (σ (s, Xs ) − σ (s, Ys )) dWs ≤ cp (t1 − t0 ) E
2 |σ (s, Xs ) − σ (s, Ys )| ds ≤
t0 ≤t≤t1 t0 t0

(procedendo come nella stima precedente, per la (18.1.2))

p−2
Z t1 " #
p
≤ cp (t1 − t0 ) 2 c2 E sup |Xr − Yr |p ds.
t0 t0 ≤r≤s

Questo prova la (18.1.4).

Il seguente risultato vale sotto l’ipotesi, più debole della (18.1.2), di Lischitzianità locale in x.

Teorema 18.1.5 (Unicità in senso forte). [!] Assumiamo che per ogni n ∈ N esista una costante κn tale che

b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ κn |x − y|, (18.1.6)

per ogni t ∈ [t0 , T ] e x, y ∈ RN tali che |x|, |y| ≤ n. Allora per l’SDE (17.0.4) si ha unicità in senso forte, nel
senso che due qualsiasi soluzioni dell’SDE relative allo stesso Browniano W sono indistinguibili.

Dimostrazione. Siano X, Y due soluzioni dell’SDE (17.0.4). Utilizziamo un argomento1 di localizzazione:


poniamo
τn = inf{t ∈ [t0 , T ] | |Xt | ∨ |Yt | ≥ n}, n ∈ N,
con la convenzione min ∅ = T . Si noti che τn = t0 su (|Z| > n). Essendo per ipotesi X, Y adattati e continui
q.c. e |Z| < ∞ q.c., τn è una successione crescente di tempi d’arresto a valori in [t0 , T ], tale che τn ↗ T q.c.
Poniamo
bn (t, x) = b(t, x)1[t0 ,τn] (t), σn (t, x) = σ (t, x)1[t0 ,τn] (t), n ∈ N. (18.1.7)
I processi Xt∧τn , Yt∧τn soddisfano quasi certamente l’equazione
Z t∧τn Z t∧τn
Xt∧τn − Yt∧τn = (b(s, Xs ) − b(s, Ys )) ds + (σ (s, Xs ) − σ (s, Ys )) dWs
t0 t0

1 L’argomento di localizzazione è necessario anche sotto l’ipotesi di Lischitzianità globale perché l’idea è di applicare il lemma di
Gronwall alla funzione  
v(t) = E  sup |Xs − Ys |2 
 
t0 ≤s≤t
assumendo che v sia limitata.
384 CAPITOLO 18. SOLUZIONI FORTI
Z t  Z t 
= bn (s, Xs∧τn ) − bn (s, Ys∧τn ) ds + σn (s, Xs∧τn ) − σn (s, Ys∧τn ) dWs . (18.1.8)
t0 t0

Inoltre si ha

bn (s, Xs∧τn ) − bn (s, Ys∧τn ) = bn (s, Xs∧τn ) − bn (s, Ys∧τn ) 1(|Z|≤n) ≤

(poichè |Xs∧τn |, |Ys∧τn | ≤ n su (|Z| ≤ n) per s ∈ [t0 , T ])



≤ κn Xs∧τn − Xs∧τn (18.1.9)

e una stima analoga si ha con σn al posto di bn . Ora poniamo


" #
2
vn (t) = E sup Xs∧τn − Ys∧τn , t ∈ [t0 , T ].
t0 ≤s≤t

Da (18.1.8) e (18.1.9), procedendo esattamente come nella prova della stima (18.1.4) con p = 2, otteniamo
Z t
vn (t) ≤ c̄ v(s)ds, t ∈ [t0 , T ],
t0

per una costante positiva c̄ = c̄(T , d, N , κn ). Poiché X e Y sono processi continui q.c. e adattati (e quindi
progressivamente misurabili), il teorema di Fubini assicura che v è una funzione misurabile su [t0 , T ], ossia
vn ∈ mB. Inoltre vn è limitata, precisamente |vn | ≤ 4n2 , per costruzione. Dal lemma di Gronwall otteniamo
che vn ≡ 0 e quindi  
 2 
E  sup Xt∧τn − Yt∧τn  = vn (T ) = 0.
t0 ≤t≤T

Passando al limite per n → ∞, per il teorema di Beppo-Levi, si ha che X e Y sono indistinguibili su


[t0 , T ].

18.2 Esistenza
Siamo interessati a studiare la risolubilità in senso forte che, per quanto visto nella Sezione 17.1, richiede
che la soluzione sia adattata alla filtrazione standard del Browniano e del dato iniziale. Preliminarmente
introduciamo alcune notazioni e facciamo qualche osservazione sulle filtrazioni Browniane.
Sia W un moto Browniano definito sullo spazio completo (Ω, F , P , (Ft )t≥0 ). Fissato t0 ≥ 0, indichiamo
con
W ,t
Gt 0 = σ (Ws − Wt0 , t0 ≤ s ≤ t), t ≥ t0 ,
la σ -algebra generata dagli incrementi2 Browniani nell’intervallo [t0 , t]. È facile verificare che il processo
t
Wt 0 := Wt − Wt0 , t ≥ t0 ,
W ,t
è un moto Browniano sullo spazio (Ω, F , P , (Gt 0 )t≥t0 ). Per il Teorema 11.2.22, W t0 è anche un moto
Browniano rispetto alla filtrazione completata che coincide con la filtrazione standard di W t0 ,
W ,t
 W ,t 
Ft 0 = σ G t 0 ∪ N , t ≥ t0 ,
2 Si noti che
Wt − Ws = Wt − Wt0 − (Ws − Wt0 ), t0 ≤ s ≤ t.
18.2. ESISTENZA 385

e verifica le ipotesi usuali. Nel caso in cui t0 > 0, è comodo estendere le definizioni precedenti ponendo
W ,t0 W ,t0 t
Gt := Ft := σ (N ), Wt 0 = 0, t ∈ [0, t0 ].

Notiamo esplicitamente che vale l’inclusione (stretta se t0 > 0)


W ,t0
Ft ⊆ FtW , t ≥ 0,

dove F W indica la filtrazione standard di W . Una proprietà non sorprendente ma cruciale è data dal
seguente
W ,t0
Lemma 18.2.1. Per ogni t ≥ 0 le σ -algebre Ft0 e Ft sono indipendenti.

Dimostrazione. La tesi è ovvia se t ≤ t0 . Invece se t > t0 , per definizione di moto Browniano, Ft0 è indi-
pendente da ogni v.a. della forma ϕ(Wt1 − Wt0 , . . . , Wtn − Wtn−1 ) con t0 ≤ t1 < · · · < tn ≤ t e ϕ ∈ bB. Allora
W ,t
segue dal secondo teorema di Dynkin3 che Ft0 è indipendente da Gt 0 . Infine, la tesi segue dal fatto che
G ∈ FTW ,t = σ (GTW ,t ∪ N ) se e solo se G △ A ∈ N per un certo A ∈ GTW ,t .

Abbiamo già provato nel Teorema 18.1.5 che si ha unicità in senso forte per l’SDE sotto le ipotesi
standard (18.1.1)-(18.1.2). Ora proviamo un risultato di risolubilità in senso forte.

Teorema 18.2.2 (Esistenza di soluzioni forti). [!] Supponiamo che i coefficienti b, σ soddisfino le ipotesi
standard4 (18.1.1)-(18.1.2) su [t0 , T ]×RN . Sia W un moto Browniano definito sullo spazio (Ω, F , P , (Ft )t≥0 )
in cui valgono le ipotesi usuali. Valgono i seguenti risultati:
t ,x t ,x
i) per ogni x ∈ RN , esiste la soluzione forte X t0 ,x = (Xt 0 )t∈[t0 ,T ] dell’SDE (18.0.1) con dato iniziale Xt00 =
x ∈ RN . Inoltre, per ogni t ∈ [t0 , T ] si ha
t ,x W ,t0
(x, ω) 7−→ ψt0 ,t (x, ω) := Xt 0 (ω) ∈ m(BN ⊗ Ft ); (18.2.1)

ii) per ogni Z ∈ mFt0 , tale che |Z| < +∞ q.c., il processo X t0 ,Z definito da

t ,Z
Xt 0 (ω) := ψt0 ,t (Z(ω), ω), ω ∈ Ω, t ∈ [t0 , T ], (18.2.2)

è soluzione forte dell’SDE (18.0.1) con dato iniziale Z. Inoltre vale la proprietà di flusso:
t ,Z
t ,Z t,Xt 0
XT0 = XT , t0 ≤ t ≤ T , q.c. (18.2.3)

Dimostrazione. Dividiamo la prova in alcuni passi.


(1) Proviamo l’esistenza della soluzione di (18.0.1) su [t0 , T ] col dato iniziale deterministico Xt0 = x ∈
RN .Utilizziamo il metodo delle approssimazioni successive e definiamo ricorsivamente la successione di
processi di Itô
(0)
Xt ≡ x,
Z t Z t
(n) (n−1) (n−1)
Xt =x+ b(s, Xs )ds + σ (s, Xs )dWs , n ∈ N, (18.2.4)
t0 t0

3 Usiamo il Teorema A.1.8 di Dynkin in modo analogo a quanto fatto nella dimostrazione del Teorema 7.2.4.
4 In realtà, utilizzando un argomento di localizzazione come nella prova del Teorema 18.1.5, è sufficiente assumere l’ipotesi (18.1.6)
(Lipschitzianità locale) al posto della (18.1.2).
386 CAPITOLO 18. SOLUZIONI FORTI

per t ∈ [t0 , T ]. La successione è ben definita e X (n) è adattato e continuo q.c. per ogni n. Inoltre, con un
(n) (n) W ,t
argomento induttivo5 in n si prova che Xt = Xt (x, ω) ∈ m(BN ⊗ Ft 0 ) per ogni n ≥ 0 e t ∈ [t0 , T ].
Proviamo per induzione la stima

cn (t1 − t0 )n
" #
(n) (n−1) 2
E sup |Xt − Xt | ≤ , t1 ∈ [t0 , T ], n ∈ N, (18.2.5)
t0 ≤t≤t1 n!

con c = c(T , d, N , x, c1 , c2 ) > 0 dove c1 , c2 sono le costanti delle ipotesi standard sui coefficienti. Sia n = 1: per
la (18.1.3) si ha
Z 2 
t
" #  Zt
(1) (0) 2
σ (s, x)dWs  ≤ c̄1 (1 + |x|2 )(t1 − t0 ).
 
E sup |Xt − Xt | = E  sup b(s, x)ds +

t0 ≤t≤t1 t0 ≤t≤t1 t0 t0

Supposta vera la (18.2.5) per n, proviamola per n + 1: si ha


Z  2 
t
" #   Z t 
(n+1) (n) 2  (n) (n−1) (n) (n−1) 
E sup |Xt − Xt | = E  sup
 b(s, Xs ) − b(s, Xs ) ds + σ (s, Xs ) − σ (s, Xs ) dWs  ≤
t0 ≤t≤t1 t0 ≤t≤t1 t0
t0

(per la (18.1.4))
Z t1 " #
(n) (n−1) 2
≤ c̄2 E sup |Xr − Xr | ds ≤
t0 t0 ≤r≤s

(per ipotesi induttiva, con c = c̄2 ∨ c̄1 (1 + |x|2 ))


Z t1
(s − t0 )n
≤ cn+1 ds
t0 n!

e questo prova la (18.2.5).


Combinando la disuguaglianza di Markov con la (18.2.5) otteniamo
   
1  n
 (n) (n−1) 2n  (n) (n−1) 2  (4cT )
P  sup |Xt − Xt | ≥ n  ≤ 2 E  sup |Xt − Xt |  ≤ , n ∈ N.
 
t0 ≤t≤T 2 t0 ≤t≤T n!

Allora, per il Lemma 2.3.28 di Borel-Cantelli si ha


 
 (n) (n−1) 1 
P  sup |Xt − Xt |≥ n i.o = 0
t0 ≤t≤T 2

ossia, per quasi ogni ω ∈ Ω esiste nω ∈ N tale che

(n) (n−1) 1
sup |Xt (ω) − Xt (ω)| ≤ , n ≥ nω .
t0 ≤t≤T 2n

Essendo
n
(n) (k) (k−1)
X
Xt =x+ (Xt − Xt )
k=1
(n)
si ha che, quasi certamente, Xt converge uniformemente in t ∈ [t0 , T ] per n → +∞ ad un limite che
(n)
indichiamo con Xt : per esprimere questo fatto, in simboli scriviamo Xt ⇒ Xt q.c. Notiamo che X =
5 La misurabilità in (x, ω) è ovvia per n = 0. Assumendo la tesi vera per n − 1, è sufficiente approssimare l’integrando in (18.2.4) con
processi semplici e utilizzare il Corollario 15.2.26, ricordando che la convergenza in probabilità mantiene la proprietà di misurabilità.
18.2. ESISTENZA 387

(Xt )t∈[t0 ,T ] è un processo continuo q.c. (grazie alla convergenza uniforme) e adattato: inoltre, Xt = Xt (x, ω) ∈
W ,t (n)
m(BN ⊗ Ft 0 ) per ogni t ∈ [t0 , T ] perché tale proprietà di misurabilità vale per Xt per ogni n ∈ N.
Per la (18.1.1) ed essendo X continuo q.c. è chiaro che la condizione (17.0.3) è soddisfatta. Per verificare
che, quasi certamente, vale
Z t Z t
Xt = x + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ],
t0 t0

è sufficiente osservare che:


(n) (n)
• per la proprietà di Lipschitzianità di b e σ uniforme in t, si ha che b(t, Xt ) ⇒ b(t, Xt ) e σ (t, Xt ) ⇒
σ (t, Xt ) q.c. da cui
Z t Z t
(n)
lim b(s, Xs )ds = b(s, Xs )ds q.c.
n→+∞ t0 t0
Z t 2
(n)
lim σ (s, X s ) − σ (s, X )
s ds = 0
q.c. (18.2.6)
n→+∞

t0

• per la Proposizione 15.2.25, la (18.2.6) implica che


Z t Z t
(n)
lim σ (s, Xs )dWs = b(s, Xs )dWs q.c.
n→+∞ t0 t0

Questo conclude la prova dell’esistenza nel caso del dato iniziale deterministico.
(2) Consideriamo ora il caso di un dato iniziale aleatorio Z ∈ mFt0 tale che |Z| < +∞ q.c. Sia f = f (x, ω)
la funzione su RN × Ω definita da
Zt Zt
t0 ,x t0 ,x t0 ,x
f (x, ·) := sup Xt − x − b(s, Xs )ds − σ (s, Xs )dWs .
t0 ≤t≤T t0 t0

W ,t t ,· W ,t
Notiamo che f ∈ m(BN ⊗ FT 0 ) poiché Xt 0 ∈ m(BN ⊗ Ft 0 ) per ogni t ∈ [t0 , T ]. Inoltre, per ogni x ∈ RN
si ha f (x, ·) = 0 q.c. e quindi anche F(x) := E [f (x, ·)] ≡ 0. Allora vale

0 = F(Z) = E [f (x, ·)] |x=Z =


W ,t0 W ,t0
(per il Lemma di freezing, Teorema 5.2.10-13), poiché Z ∈ mFt0 , f ∈ m(BN ⊗ FT ) con Ft0 e Ft
σ -algebre indipendenti per il Lemma 18.2.1 e f ≥ 0)
h i
= E f (Z, ·) | Ft0 .

Applicando il valore atteso abbiamo anche

E [f (Z, ·)] = 0

e quindi X t0 ,Z in (18.2.2) è soluzione dell’SDE (17.0.4) e lo è anche in senso forte perché è chiaramente
adattato a F W ,Z .
(3) Per 0 ≤ t0 ≤ t ≤ T , con uguaglianze che valgono quasi certamente, si ha
Z T Z T
t ,Z t ,Z t ,Z
XT0 =Z+ b(s, Xs 0 )ds + σ (s, Xs 0 )dWs
t0 t0
388 CAPITOLO 18. SOLUZIONI FORTI
Z t Z t
t ,Z t ,Z
=Z+ b(s, Xs 0 )ds + σ (s, Xs 0 )dWs
t0 t0
ZT ZT
t ,Z t ,Z
+ b(s, Xs 0 )ds + σ (s, Xs 0 )dWs
t t
Z T Z T
t ,Z t ,Z t ,Z
= Xt 0 + b(s, Xs 0 )ds + σ (s, Xs 0 )dWs ,
t t
t ,Z
ossia X t0 ,Z è soluzione dell’SDE (18.0.1) con dato iniziale Xt 0 al tempo t. D’altra parte, per quanto provato
t ,Z
0 t ,Z
al punto (2), anche X t,Xt è soluzione dell’SDE (18.0.1) con dato iniziale Xt 0 al tempo t. Dall’unicità della
soluzione segue la (18.2.3) e questo conclude la prova del teorema.

18.3 Proprietà di Markov


Teorema 18.3.1 (Proprietà di Markov). Supponiamo che i coefficienti b, σ verifichino le ipotesi di crescita
lineare (18.1.1) e Lipschitzianità locale (18.1.6). Per ogni 0 ≤ t ≤ s ≤ T e x ∈ RN , sia p = p(t, x; s, ·) la
legge della soluzione dell’SDE (18.0.1) con condizione iniziale x al tempo t, calcolata al tempo s. Se X ∈
SDE(b, σ , W , Ft , Z) allora X è un processo di Markov con legge di transizione p.
Dimostrazione. Sia X soluzione dell’SDE
Zt Zt
Xt = Z + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ], (18.3.1)
t0 t0

relativa al moto Browniano W sullo spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali
e con dato iniziale Z ∈ mFt0 tale che |Z| < +∞ q.c. Per 0 ≤ t ≤ s ≤ T e x ∈ RN , sia p(t, x; s, ·) la legge della
soluzione Xst,x dell’SDE con condizione iniziale x al tempo t, calcolata al tempo s. Osserviamo che p è una
legge di transizione secondo la Definizione 7.1.1. Infatti, si ha:
i) per ogni x ∈ RN , per definizione, p(t, x; s, ·) è una distribuzione tale che p(t, x; t, ·) = δx ;
ii) per ogni H ∈ BN   h  i
x 7→ p(t, x; s, H) = P Xst,x ∈ H = E 1H Xst,x ∈ mBN
grazie alla proprietà di misurabilità (18.2.1) e al teorema di Fubini.
Proviamo che X in (18.3.1) ha legge di transizione p: in base alla Definizione 7.1.1, si tratta di verificare che
p(t, Xt ; s, H) = P (Xs ∈ H | Xt ), 0 ≤ t0 ≤ t ≤ s ≤ T , H ∈ BN .
Si ha
P (Xs ∈ H | Xt ) = E [1H (Xs ) | Xt ] =
(per la proprietà di flusso (18.2.3))
t,X
h i
= E 1H (Xs t ) | Xt =

(per il Lemma di freezing, essendo Xt ∈ mFt e quindi, per il Lemma 18.2.1, indipendente da FsW ,t e
(x, ω) 7→ 1H (Xst,x (ω)) ∈ m(BN × FsW ,t ) grazie alla (18.2.1))
h i
= E 1H (Xst,x ) |x=Xt = p(t, Xt ; s, H).
Infine, basta ripetere i passaggi precedenti, condizionando a Ft invece che a Xt , per provare la proprietà di
Markov
p(t, Xt ; s, H) = P (Xs ∈ H | Ft ), 0 ≤ t0 ≤ t ≤ s ≤ T , H ∈ BN .
18.4. STIME A PRIORI DI SOMMABILITÀ 389

18.4 Stime a priori di sommabilità


In questa sezione proviamo alcune “stime a priori” per le soluzioni dell’SDE (18.3.1). Si tratta di stime
che valgono sotto condizioni che, in generale, non sono sufficienti a garantire l’esistenza della soluzione
stessa che viene assunta come ipotesi.
Teorema 18.4.1 (Stime a priori in Lp ). Sia X ∈ SDE(b, σ , W , Ft , Z), soluzione dell’SDE (18.3.1) con b, σ che
soddisfano l’ipotesi (18.1.1) di crescita lineare. Per ogni p ≥ 2 esiste una costante positiva c = c(T , d, N , p, c1 ),
tale che  
p
E  sup |Xt |  ≤ c(1 + E [|Z|p ]).
 
(18.4.1)
t0 ≤t≤T

Dimostrazione. Procediamo come nella dimostrazione del Teorema 18.1.5 utilizzando un argomento di
localizzazione e il lemma di Gronwall. Nel seguito assumiamo E [|Z|p ] < ∞ altrimenti la tesi è ovvia.
Poniamo

τn = inf{t ∈ [t0 , T ] | |Xt | ≥ n}, n ∈ N,

con la convenzione min ∅ = T . Essendo |Z| < +∞ e X continuo q.c., si ha che τn è una successione crescente
di tempi d’arresto tali che τn ↗ T q.c. Con bn , σn come in (18.1.7), abbiamo
Z t∧τn Z t∧τn
Xt∧τn = Z + b(s, Xs )ds + σ (s, Xs )dWs
t0 t0
Z t Z t
=Z+ bn (s, Xs∧τn )ds + σn (s, Xs∧τn )dWs .
t0 t0

I coefficienti bn = bn (t, x) e σn = σn (t, x), pur essendo stocastici, verificano la condizione di crescita li-
neare (18.1.1) con la stessa costante c1 : la dimostrazione della stima (18.1.3) si può ripetere in modo
sostanzialmente identico al caso di b, σ deterministici, per ottenere
" # Z t1 " #! !
vn (t1 ) := E sup |Xt∧τn |p ≤ 2p−1 E [|Z|p ] + c̄1 1 + E sup |Xr∧τn |p ds , t1 ∈ [t0 , T ],
t0 ≤t≤t1 t0 t0 ≤r≤s
| {z }
=vn (s)

o equivalentemente
Z t1 !
p
vn (t1 ) ≤ c 1 + E [|Z| ] + vn (s)ds , t1 ∈ [t0 , T ],
t0
con c costante positiva che dipende solo da T , d, N , p, c1 e non da n. Osserviamo che vn è una funzione
misurabile e limitata poichè |Xt∧τn | ≤ |Z|1(|Z|≥n) + n1(|Z|<n) e quindi vn (t) ≤ E [(|Z| + n)p ] < +∞: allora per il
lemma di Gronwall abbiamo
 
p 
E  sup Xt∧τn  = vn (T ) ≤ cec(T −t0 ) (1 + E [|Z|p ]) ,

t0 ≤t≤T

da cui, passando al limite per n che tende all’infinito, segue la (18.4.1) grazie al teorema di Beppo-Levi.
Nel caso in cui il coefficiente diffusivo sia limitato, vale una stima di sommabilità più forte di quella del
Teorema 18.4.1. Proviamo un risultato preliminare e di interesse indipendente.
Lemma 18.4.2. Sia σ ∈ L2 tale che |σt |2 ≤ κ q.c. per t ∈ [0, T ]. Allora per il processo
Zt
Mt := σs dWs
0
390 CAPITOLO 18. SOLUZIONI FORTI

vale la stima !
λ2
P sup |Mt | ≥ λ ≤ 2N e− 2N κT , λ > 0.
0≤t≤T

Dimostrazione. Consideriamo prima il caso N = 1. Per ogni α > 0 il processo


Z t
(α) α 2 ⟨M⟩
Zt = eαMt − 2 t , ⟨M⟩t = σs2 ds,
0

è una martingala, come si verifica facilmente con la formula di Itô, e ⟨M⟩t ≤ κt q.c. Inoltre, per λ > 0 e
t ∈ [0, T ], vale
  (α) α 2 κT
 
(Mt ≥ λ) = eαMt ≥ eαλ ⊆ Zt ≥ eαλ− 2 .

Allora si ha
! !
2 κT
(α) αλ− α
P sup Mt ≥ λ ≤ P sup Zt ≥e 2 ≤
0≤t≤T 0≤t≤T

(per la disuguaglianza massimale di Doob, Teorema 13.1.2)

α 2 κT α 2 κT
 
(α)
≤ e−αλ+ 2 E ZT = e−αλ+ 2

(α) (α)
dove nell’ultima uguaglianza abbiamo utilizzato la proprietà di martingala E[ZT ] = E[Z0 ] = 1. Sceglien-
do α in modo da minimizzare l’ultimo termine6 , otteniamo
!
λ2
P sup Mt ≥ λ ≤ e− 2κT
0≤t≤T

Una stima analoga vale per −M e questo prova la tesi nel caso scalare.
Nel caso multi-dimensionale, basta notare che
! !
i λ
sup |Mt | ≥ λ ⊆ sup |Mt | ≥ √
0≤t≤T 0≤t≤T N

per almeno una componente M i , con i ∈ {1, . . . , N }, di M. Allora si ha


! XN !
λ
P sup |Mt | ≥ λ ≤ P sup |Mti | ≥ √
0≤t≤T i=1 0≤t≤T N

da cui la tesi.

Teorema 18.4.3 (Stima a priori esponenziale). Assumiamo le ipotesi del Teorema 18.2.2 e supponiamo
che il coefficiente σ sia limitato da una costante κ, ossia |σ (t, x)| ≤ κ per (t, x) ∈ [t0 , T ] × RN . Allora esistono
due costanti positive α e c, dipendenti solo da T , κ, c1 e N , tali che se X è soluzione dell’SDE (18.3.1) si ha
 
2 h 2i
E eα X̄T ≤ cE ec|Z| , X̄T := sup |Xt |.
t0 ≤t≤T

α 2 κT
6 La funzione α 7→ e−αλ+ 2 λ .
raggiunge il suo minimo in ᾱ = κT
18.4. STIME A PRIORI DI SOMMABILITÀ 391

Dimostrazione. Consideriamo prima il caso in cui il dato iniziale è deterministico, Z ≡ x ∈ RN , e poniamo


Z
t
M̄T = sup σ (s, Xs )dWs .
t0 ≤t≤T t0

Dato δ > 0, su (M̄T < δ) a meno di un evento trascurabile si ha


Zt
|Xt | < |x| + c1 T + c1 sup |Xs |ds + δ, t ∈ [t0 , T ],
t0 t0 ≤r≤s

da cui, per il lemma di Gronwall,


X̄T < (|x| + c1 T + δ)ec1 T .
Di conseguenza    
X̄T ≥ (|x| + c1 T + δ)ec1 T ⊆ M̄T ≥ δ
e per il Lemma 18.4.2 esiste una costante positiva c, dipendente solo da N , κ e T , tale che
  δ2
P X̄T ≥ (|x| + c1 T + δ)ec1 T ≤ ce− c . (18.4.2)

Poniamo λ = (|x| + c1 T + δ)ec1 T e osserviamo che


λ −c1 T
δ = λe−c1 T − |x| − c1 T ≥ e se λ ≥ λ̄ := 2ec1 T (|x| + c1 T ) . (18.4.3)
2
Allora, combinando (18.4.2) e (18.4.3), abbiamo
  λ2
P X̄T ≥ λ ≤ ce− c , λ ≥ λ̄, (18.4.4)

con c costante positiva dipendente solo da T , κ, c1 e N . Ora applichiamo la Proposizione 4.1.5 con f (λ) =
2
eαλ , dove la costante α > 0 sarà determinata in seguito: vale
  Z∞
α X̄T2 2  
E e = 1 + 2α λeαλ P X̄T ≥ λ dλ ≤
0

(per la (18.4.4))
Z λ̄ Z +∞
2 2 1
≤ 1 + 2α λeαλ dλ + 2αc λeλ (α− c ) dλ =
0 λ̄
1
(posto α = 2c )
λ̄2 λ̄2
= e 2c + ce− 2c ,

da cui, ricordando l’espressione di λ̄ in (18.4.3), si ha la tesi nel caso Z = x ∈ RN .


In generale, consideriamo la funzione
t ,x
F(x, ω) = sup |Xt 0 (ω)|2 , (x, ω) ∈ RN × Ω.
t0 ≤t≤T

W ,t0
Per il Teorema 18.2.2 X̄T2 = F(Z, ·) q.c. e per il lemma di freezing, essendo F ∈ m(BN ⊗ FT ), si ha
h i h i 2
E eαF(Z,·) | Z = E eαF(x,·) |x=Z ≤ cec|Z|

grazie alla stima provata nel caso del dato iniziale deterministico. Per concludere, basta applicare il valore
atteso.
392 CAPITOLO 18. SOLUZIONI FORTI

18.5 Regolarità e dipendenza dal dato iniziale


Teorema 18.5.1 (Stime di regolarità e dipendenza dal dato iniziale). Sotto le ipotesi standard (18.1.1)-
(18.1.2), siano X t0 ,Z0 e X t1 ,Z1 soluzioni dell’SDE (18.0.1), rispettivamente con dati iniziali (t0 , Z0 ) e (t1 , Z1 )
con 0 ≤ t0 ≤ t1 ≤ t2 ≤ T . Allora per ogni p ≥ 2 esiste una costante positiva c = c(T , d, N , p, c1 , c2 ) tale che
 
t1 ,Z1 p  p p

t0 ,Z0

 p p
E  sup Xt − Xs  ≤ cE [|Z0 − Z1 | ] + c (1 + E [|Z1 | ]) |t1 − t0 | 2 + |T − t2 | 2 . (18.5.1)
 
t2 ≤t,s≤T

Dimostrazione. Per la disuguaglianza elementare (18.1.5) si ha


 p   p 
X t0 ,Z0 − Xst1 ,Z1  ≤ 3p−1 E  sup X t0 ,Z0 − X t0 ,Z1 
 
E  sup t   t t 
t2 ≤t,s≤T t2 ≤t≤T
   p 
t1 ,Z1 p 

p−1  t0 ,Z1 p−1  X t1 ,Z1 − Xst1 ,Z1  .(18.5.2)
+ 3 E  sup Xt − Xt  + 3 E  sup
  
t 
t2 ≤t≤T t2 ≤t,s≤T

Ancora per la (18.1.5) e la (18.1.4) si ha


" # Zt
t ,Z p p−2

t ,Z
v(t) := E sup Xs 0 0 − Xs 0 1 ≤ 2p−1 E [|Z0 − Z1 |p ] + 2p−1 c̄2 T 2 v(s)ds,
t0 ≤s≤t t0

e, per il lemma di Gronwall,


 p 
X t0 ,Z0 − X t0 ,Z1  ≤ v(T ) ≤ cE [|Z0 − Z1 |p ]

E  sup t t  (18.5.3)
t2 ≤t≤T

con c che dipende solo da p, T e c2 .


D’altra parte, per la proprietà di flusso abbiamo
 p   t ,Z
p 
t1 ,Xt 0 1

 t0 ,Z1 t 1 ,Z1
 1 t 1 ,Z1

E  sup Xt − Xt  = E  sup X − Xt  ≤

  t
t2 ≤t≤T t2 ≤t≤T

(per la (18.5.3))
 p 
t ,Z
≤ cE Xt10 1 − Z1 ≤

(per la (18.1.3))

p−2
Z t1 " #!
t ,Z
≤ cc̄1 |t1 − t0 | 2 1 + E sup |Xr 0 1 |p ds ≤
t0 t0 ≤r≤s

(per la stima Lp (18.4.1), con una nuova costante c = C(T , d, N , p, c1 , c2 ))


p
≤ c(1 + E [|Z1 |p ])|t1 − t0 | 2 .

L’ultimo termine della (18.5.2) si stima in modo completamente analogo e questo conclude la prova.

Corollario 18.5.2 (Proprietà di Feller e di Markov forte). Sotto le ipotesi standard (18.1.1)-(18.1.2), se
X ∈ SDE(b, σ , W , Ft , Z) allora X è un processo di Feller e soddisfa la proprietà di Markov forte.
18.6. EQUAZIONI STOCASTICHE LINEARI 393

Dimostrazione. Per il Teorema 18.3.1, X è un processo di Markov con legge di transizione p = p(t, x; T , ·)
dove, per ogni t, T ≥ 0 con t ≤ T e x ∈ RN , p(t, x; T , ·) è la legge della v.a. XTt,x . Per la (18.5.1) e il Teorema 9.3.1
di continuità di Kolmogorov (nella versione multi-dimensionale del Teorema 9.3.4), il processo (t, x, T ) 7→
XTt,x ammette una modificazione X et,x con traiettorie localmente α-Hölderiane per ogni α ∈ [0, 1[ rispetto
T
alla cosiddetta distanza “parabolica”: precisamente, per ogni α ∈ [0, 1[, n ∈ N e ω ∈ Ω esiste cα,n,ω > 0 tale
che  α
eus,y (ω) ≤ cα,n,ω |x − y| + |t − s| 12 + |r − u| 12 ,

Xert,x (ω) − X

per ogni t, s, r, u ∈ [0, T ] tali che t ≤ r, s ≤ u, e per ogni x, y ∈ RN tali che |x|, |y| ≤ n. Di conseguenza, per ogni
ϕ ∈ bC(RN ) e h > 0, la funzione
Z
et,x )
h i
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y) = E ϕ(Xt+h
RN

è continua grazie al teorema della convergenza dominata e questo prova che X è un processo di Feller. La
proprietà di Markov forte segue dal Teorema 12.1.2.

18.6 Equazioni stocastiche lineari


Consideriamo un’SDE della forma

dXt = (BXt + b)dt + σ dWt (18.6.1)

dove B ∈ RN ×N , b ∈ RN , σ ∈ RN ×d e W è un moto Browniano d-dimensionale. La (18.6.1) è un’SDE della


forma (18.0.1) con i coefficienti b(t, x) = Bx + b e σ (t, x) = σ che sono funzioni lineari della variabile x (in
realtà il coefficiente di diffusione è addirittura costante) e pertanto diciamo che (18.6.1) è un’SDE lineare. I
risultati generali, Teoremi 18.1.5 e 18.2.2, garantiscono l’esistenza e unicità in senso forte della soluzione.
Il teorema seguente fornisce l’espressione esplicita della soluzione.

Teorema 18.6.1. La soluzione X x = (Xtx )t≥0 di (18.6.1) con dato iniziale X0x = x ∈ RN è data da
Z t Z t !
Xtx = etB x + e−sB bds + e−sB σ dWs . (18.6.2)
0 0

Di conseguenza, Xtx ∼ Nmt (x),Ct dove


Z t ! Z t
tB
mt (x) = e x+ e −sB
bds , Ct = esB σ (esB σ )∗ ds.
0 0

Dimostrazione. Per provare che X x in (18.6.2) risolve l’SDE (18.6.1) è sufficiente applicare la formula di Itô
usando l’espressione Xtx = etB Ytx dove

dYtx = e−tB bdt + e−tB σ dWt , Y0x = x.

Ricordiamo ora che, poiché Y x è un processo di Itô a coefficienti deterministici, per la versione multi-
dimensionale dell’Esempio 16.1.10 si ha
Z t Z t

Ytx ∼ Nµt (x),Ct , µt (x) = x + e −sB
bds, Ct = e−sB σ σ ∗ e−sB ds.
0 0

La tesi segue facilmente poiché X x è una trasformazione lineare di Y x .


394 CAPITOLO 18. SOLUZIONI FORTI

Osservazione 18.6.2. Più in generale, la soluzione X t,x = (XTt,x )T ≥t di (18.6.1), con condizione iniziale Xtt,x =
x, è data da Z T Z !T
XTt,x = e(T −t)B x + e−(s−t)B bds + e−(s−t)B σ dWs ∼ NmT −t (x),CT −t .
t t

Se la matrice di covarianza CT −t è definita positiva per T > t allora il processo X ha densità di transizione
Gaussiana
N
(2π)− 2 1
 
Γ (t, x; T , y) = √ exp − ⟨CT−1−t (y − mT −t (x)), (y − mT −t (x))⟩ , t < T , x, y ∈ RN .
det CT −t 2

Sia
N
1X
Ax := (σ σ ∗ )ij ∂xi xj + ⟨Bx + b, ∇⟩
2
i,j=1
N N N
1X ∗
X X
= (σ σ )ij ∂xi xj + bij xj ∂xi + bi ∂xi
2
i,j=1 i,j=1 i=1

l’operatore alle derivate parziali che compare nella formula di Itô per X: in analogia con quanto visto nella
Sezione 10.2 per il moto Browniano, Ax è il generatore infinitesimale (anche chiamato, operatore caratteristi-
co) del processo di Markov X. Come nell’Osservazione 10.2.6, la funzione (t, x) 7→ Γ (t, x; T , y) è la soluzione
fondamentale dell’operatore ∂t + Ax , detto operatore di Kolmogorov backward di X, con polo in (T , y) e vice-
versa (T , y) 7→ Γ (t, x; T , y) è la soluzione fondamentale dell’operatore −∂T +Ay∗ , detto operatore di Kolmogorov
forward di X, con polo in (t, x).

Esempio 18.6.3 (Equazione di Langevin). [!] Consideriamo l’SDE in R2



dVt = dWt ,


(18.6.3)
dXt = Vt dt,

che è la versione semplificata dell’equazione di Langevin [47] utilizzata in fisica per descrivere il moto
aleatorio di una particella nello spazio delle fasi: Vt e Xt rappresentano rispettivamente la velocità e la
posizione della particella. Paul Langevin fu il primo, nel 1908, ad applicare le leggi di Newton al moto
casuale Browniano studiato da Einstein pochi anni prima. Lemons [48] fornisce un interessante resoconto
degli approcci di Einstein e Langevin.
Riferendoci alla notazione generale (18.6.1) abbiamo d = 1 < N = 2 e
! !
0 0 1
B= , σ= .
1 0 0

Poiché B2 = 0, la matrice B è nilpotente e !


1 0
etB = .
t 1
Inoltre, posto z = (v, x), si ha
mt (z) = etB z = (v, x + tv),
e
t2 
 
Z t Z t ! ! !
sB ∗ sB∗ 1 0 1 0 1 s  t
Ct = e σσ e ds = ds =  t 2 2  .
t3 
0 0 s 1 0 0 0 1
2 3
18.6. EQUAZIONI STOCASTICHE LINEARI 395

Si noti che Ct è definita positiva per ogni t > 0 e quindi (V , X) ha densità di transizione

3 1 −1
 
(T −t)B (T −t)B
Γ (t, z; T , ζ) = exp − ⟨C (ζ − e z), (ζ − e z)⟩
π(T − t)2 2 T −t
per t < T e z = (v, x), ζ = (η, ξ) ∈ R2 , dove
4
− t62
!
Ct−1 = t .
− t62 12
t3

Inoltre, (t, v, x) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov backward


1
∂ + v∂x + ∂t (18.6.4)
2 vv
e (T , η, ξ) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov forward
1
∂ − η∂ξ − ∂T . (18.6.5)
2 ηη
Gli operatori in (18.6.4) e (18.6.5) non sono uniformemente parabolici poiché la matrice della parte del
second’ordine !
1 0
σσ∗ =
0 0
è degenere; tuttavia essi hanno una soluzione fondamentale Gaussiana come l’operatore del calore. Kol-
mogorov [40] fu il primo a determinare la soluzione fondamentale di (18.6.4) (si veda anche l’introduzione
del lavoro di Hörmander’s [33]). In finanza l’operatore backward (18.6.4) interviene nella valutazione di
alcuni strumenti derivati complessi, come per esempio le cosiddette opzioni Asiatiche.
Esempio 18.6.4. [!] Nell’Esempio 16.1.6 avevamo visto che
Zt
Xt := Ws ds
0

ha distribuzione normale, precisamente Xt ∼ N0, t3 . Diamo una dimostrazione alternativa di questo fatto:
3
osserviamo anzitutto che X è un processo di Itô ma non è soluzione di un’SDE della forma (17.0.1)-(17.0.2)
dove i coefficienti b, σ sono funzioni deterministiche. Al contrario, la coppia (W , X) è soluzione dell’SDE
lineare (18.6.3): risolvendo tale equazione si determina la distribuzione congiunta di W e X (che è normale
bidimensionale come nell’Esempio 18.6.3) e da ciò si ricava la distribuzione di X.
È interessante osservare che (W , X) è un processo di Markov (rispetto alla filtrazione Browniana F W )
per il Teorema 18.3.1. Al contrario, X non è un processo di Markov rispetto a F W : se lo fosse, dovrebbe
valere h i
E [XT | Xt ] = E XT | FtW , t ≤T, (18.6.6)
h i
e di conseguenza (si ricordi l’Osservazione 7.2.3!) ogni versione di E XT | FtW dovrebbe essere uguale q.c. a
una funzione misurabile di Xt . Ora, un semplice conto mostra che
"Z T #
h i
W W
E XT | Ft = Xt + E Ws ds | Ft
t
"Z T #
= Xt + E (Ws − Wt )ds + (T − t)Wt | FtW = Xt + (T − t)Wt .
t

Se valesse la (18.6.6), allora dovrebbe esistere f ∈ mB tale che Wt = f (Xt ) q.c. ma questo è assurdo: in-
fatti se Wt = f (Xt ) q.c. allora µWt |Xt = δf (Xt ) e ciò contrasta con il fatto che (Wt , Xt ) ha densità Gaussiana
bidimensionale.
396 CAPITOLO 18. SOLUZIONI FORTI
Capitolo 19

Problema di Cauchy per equazioni


paraboliche

In questo capitolo presentiamo in maniera sintetica alcuni risultati di base sul problema di Cauchy per
equazioni differenziali alle derivate parziali (abbreviato nel seguito in PDE, dalla locuzione anglosassone
“partial differential equations”) di tipo parabolico. Le monografie di Friedman [27], Ladyzhenskaia, Solon-
nikov e Ural’tseva [43], Oleinik and Radkevic [57] anche se un po’ datate, sono classici testi di riferimento
per una trattazione più completa e approfondita.
Fissato T > 0, indichiamo con (t, x) il punto di ]0, T [×RN e consideriamo l’equazione L u(t, x) = 0 dove
L è un operatore alle derivate parziali del second’ordine della forma
N N
1X X
L =: cij (t, x)∂xi xj + bj (t, x)∂xj + a(t, x) − ∂t . (19.0.1)
2
i,j=1 j=1

Assumiamo siano soddisfatte le seguenti ipotesi minimali:


Ipotesi 19.0.1.
i) I coefficienti cij = cij (t, x), bi = bi (t, x) e a = a(t, x) sono funzioni misurabili a valori reali per ogni
i, j = 1, . . . , N ;
ii) la matrice C (t, x) := (cij (t, x)) è simmetrica e semi-definita positiva per ogni (t, x) ∈]0, T [×RN . Per
questo si dice che L è un operatore di tipo parabolico;
iii) il coefficiente a è superiormente limitato: esiste a0 ∈ R tale che

a(t, x) ≤ a0 , (t, x) ∈]0, T [×RN .

Indichiamo con C 1,2 (]0, T [×RN ) lo spazio delle funzioni differenziabili con continuità in ]0, T [×RN al
prim’ordine nella variabile t e fino al second’ordine nelle variabili x. Siamo interessati a studiare l’esistenza
e l’unicità delle soluzioni del seguente problema.
Definizione 19.0.2 (Problema di Cauchy). Una soluzione classica del problema di Cauchy per L su [0, T [×RN
è una funzione u ∈ C 1,2 (]0, T [×RN ) ∩ C([0, T [×RN ) tale che

L u = f , in ]0, T [×RN ,


(19.0.2)
u(0, ·) = ϕ, in RN ,

dove f e ϕ sono funzioni assegnate, chiamate rispettivamente termine noto e dato iniziale del problema.

397
398 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

19.1 Principio del massimo e unicità


Un classico esempio dovuto a Tychonoff [74] mostra che il problema (19.0.2) per l’operatore del calore
ammette infinite soluzioni: infatti si verifica che, oltre alla soluzione identicamente nulla, anche le funzioni
del tipo

X x2k k − 1α
uα (t, x) := ∂ e t , α > 1, (19.1.1)
(2k)! t
k=0
sono soluzioni classiche del problema di Cauchy

1
 2 ∂xx uα − ∂t uα = 0 in R>0 × R,


uα (0, ·) = 0 in R.

Tuttavia le soluzioni in (19.1.1) sono in un certo senso “patologiche”, oscillano cambiando segno infinite
volte e hanno una crescita molto rapida per |x| → ∞. Alla luce dell’esempio di Tychonoff, lo studio dell’uni-
cità della soluzione del problema (19.0.2) consiste nel determinare opportune classi di funzioni, dette classi
di unicità per L , all’interno delle quali la soluzione, se esiste, è unica.
Proveremo che una classe di unicità è data dalle funzioni che crescono non troppo rapidamente all’in-
finito nel senso che soddisfano la stima
2
|u(t, x)| ≤ CeC|x| , (t, x) ∈]0, T [×RN , (19.1.2)
con C costante positiva. Questo risultato, contenuto nel Teorema 19.1.7, si prova sotto condizioni molto
generali, assumendo l’Ipotesi 19.0.1 e la seguente
Ipotesi 19.1.1. Esiste una costante M tale che
|cij (t, x)| ≤ M, |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M(1 + |x|2 ), (t, x) ∈]0, T [×RN , i, j = 1, . . . , N .

È possibile determinare un’altra classe di unicità imponendo altre condizioni di crescita sui coefficienti.
Ipotesi 19.1.2. Esiste una costante M tale che
|cij (t, x)| ≤ M(1 + |x|2 ), |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M, (t, x) ∈]0, T [×RN , i, j = 1, . . . , N .
Il Teorema 19.1.9 mostra che, sotto le Ipotesi 19.0.1 e 19.1.2, una classe di unicità è data dalle funzioni
con crescita al più polinomiale, che soddisfano una stima del tipo
|u(t, x)| ≤ C(1 + |x|p ), (t, x) ∈]0, T [×RN , (19.1.3)
per certe costanti positive C e p.
Notiamo esplicitamente che le ipotesi precedenti sono talmente deboli da non garantire in generale
l’esistenza della soluzione. Sotto ipotesi molto più forti che implicano la risolubilità del problema di Cauchy,
proveremo in seguito (cfr. Teorema 17.2.6) che anche la famiglia delle funzioni non-negative è una classe
di unicità per L .

19.1.1 Problema di Cauchy-Dirichlet


In questa sezione studiamo l’operatore L in (19.0.1) su un “cilindro” della forma
DT = ]0, T [×D
dove D è un dominio (insieme aperto e connesso) limitato di RN . Indichiamo con ∂D la frontiera di D e
diciamo che
∂p DT := ({0} × D) ∪ ([0, T [×∂D)
| {z } | {z }
base bordo laterale
19.1. PRINCIPIO DEL MASSIMO E UNICITÀ 399

è la frontiera parabolica di DT . Come in precedenza, C 1,2 (DT ) è lo spazio delle funzioni differenziabili con
continuità in DT al prim’ordine nella variabile t e fino al second’ordine nelle variabili x.
Definizione 19.1.3 (Problema di Cauchy-Dirichlet). Una soluzione classica del problema di Cauchy-Dirichlet
per L su DT è una funzione u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) tale che

L u = f , in DT ,


(19.1.4)
u = ϕ, in ∂p DT ,

dove f ∈ C(DT ) e ϕ ∈ C(∂p DT ) sono funzioni assegnate, chiamate rispettivamente termine noto e dato al
bordo del problema.
Il risultato principale della sezione, da cui segue l’unicità della soluzione classica del problema (19.1.4)
(cfr. Corollario 19.1.5), è il seguente
Teorema 19.1.4 (Principio del massimo debole). Sotto l’Ipotesi 19.0.1, se u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) è
tale che L u ≥ 0 in DT e u ≤ 0 su ∂p DT , allora si ha u ≤ 0 su DT .
Dimostrazione. Osserviamo anzitutto che non è restrittivo assumere a0 < 0 nell’Ipotesi 19.0.1. Se non lo
fosse, basterebbe provare la tesi per la funzione

uλ (t, x) := e−λt u(t, x) (19.1.5)

che soddisfa
L uλ − λuλ = e−λt L u, (19.1.6)
scegliendo λ > a0 .
Dunque assumiamo a0 < 0, indichiamo con D̄T = DT ∪ ∂DT la chiusura di DT e supponiamo per assurdo
che u(t0 , x0 ) > 0 in un punto (t0 , x0 ) ∈ DT . Allora per un certo (t1 , x1 ) ∈ D̄t0 \ ∂p Dt0 avremmo

u(t1 , x1 ) = max u ≥ u(t0 , x0 ) > 0,


D̄t0

e
∇2 u(t1 , x1 ) := (∂xi xj u(t1 , x1 )) ≤ 0, ∂xk u(t1 , x1 ) = 0, ∂t u(t1 , x1 ) ≥ 0,
per ogni k = 1, . . . , N . Allora esiste una matrice simmetrica e semi-definita positiva M = (mij ) tale che
N  N 
X  X 
2 2
−∇ u(t1 , x1 ) = M =  mih mhj  =  mih mjh 
h=1 i,j h=1 i,j

e quindi
N N N
1X X X
L u(t1 , x1 ) = − cij (t1 , x1 ) mih mjh + bj (t1 , x1 )∂xj u(t1 , x1 ) + a(t1 , x1 )u(t1 , x1 ) − ∂t u(t1 , x1 )
2
i,j=1 h=1 j=1
N N
1XX
=− cij (t1 , x1 )mih mjh +a(t1 , x1 )u(t1 , x1 ) − ∂t u(t1 , x1 )
2
h=1 i,j=1
| {z }
≥0 poiché C =(cij )≥0

≤ a(t1 , x1 )u(t1 , x1 ) < 0,

e questo contraddice l’ipotesi L u ≥ 0 in DT .


400 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

Corollario 19.1.5 (Principio del confronto). Assumiamo l’Ipotesi 19.0.1. Siano u, v ∈ C 1,2 (DT ) ∩ C(DT ∪
∂p DT ) tali che L u ≤ L v in DT e u ≥ v su ∂p DT . Allora u ≥ v in DT . In particolare, se esiste, la soluzione
classica del problema di Cauchy-Dirichlet (19.1.4) è unica.
Dimostrazione. Basta applicare il principio del massimo debole alla funzione v − u.
Il seguente utile risultato fornisce una stima del massimo della soluzione del problema di Cauchy-
Dirichlet (19.1.4) in funzione del termine noto f e del dato al bordo ϕ.
Teorema 19.1.6. Se l’operatore L soddisfa l’Ipotesi 19.0.1 allora per ogni u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) vale
 
a+0 T
 
sup |u| ≤ e  sup |u| + T sup |L u| ,
  a+0 := max{0, a0 }. (19.1.7)
DT ∂p DT D T

Dimostrazione. Consideriamo prima il caso a0 ≤ 0 e quindi a+0 = 0. Supponiamo che u e L u siano limitate
rispettivamente su ∂p DT e DT , altrimenti non c’è nulla da provare. Posto

w(t) = sup |u| + t sup |L u|, t ∈ [0, T ],


∂p DT DT

abbiamo
L w = aw − sup |L u| ≤ L u, L (−w) = −aw + sup |L u| ≥ L u,
DT DT

e −w ≤ u ≤ w su ∂p DT . Allora la stima (19.1.7) segue dal principio del confronto, Corollario 19.1.5.
Sia ora a0 > 0. Consideriamo uλ in (19.1.5) con λ = a0 : per quanto appena provato, vale

sup |uλ | ≤ sup |uλ | + T sup |(L − a0 )uλ |.


DT ∂p DT DT

Allora, essendo a0 > 0, otteniamo

e−a0 T sup |u| ≤ sup |e−a0 t u(t, x)| ≤ sup |uλ | + T sup |(L − a0 )uλ | ≤
DT (t,x)∈DT ∂p DT DT

(per la (19.1.6))

≤ sup |e−a0 t u(t, x)| + T sup |e−a0 t L u(t, x)| ≤


(t,x)∈∂p DT (t,x)∈DT

(poiché a0 > 0)

≤ sup |u| + T sup |L u|,


∂p DT DT

da cui segue la tesi.

19.1.2 Problema di Cauchy


Proviamo risultati analoghi a quelli della sezione precedente per il problema di Cauchy (19.0.2).
Teorema 19.1.7 (Principio del massimo debole). Assumiamo le Ipotesi 19.0.1 e 19.1.1. Se u ∈ C 1,2 (]0, T [×RN )∩
C([0, T [×RN ) è tale che 
L u ≤ 0, in ]0, T [×RN ,


(19.1.8)
u(0, ·) ≥ 0, in RN ,


19.1. PRINCIPIO DEL MASSIMO E UNICITÀ 401

e verifica la stima
2
u(t, x) ≥ −CeC|x| , (t, x) ∈ [0, T [×RN , (19.1.9)
per una costante positiva C, allora u ≥ 0 in [0, T [×RN . Di conseguenza, esiste al più una sola soluzione
classica u ∈ C 1,2 (]0, T [×RN ) ∩ C([0, T [×RN ) del problema di Cauchy (19.0.2) che verifica la stima (19.1.2) di
crescita all’infinito.
Proviamo prima il seguente
Lemma 19.1.8. Sotto l’Ipotesi 19.0.1, se u ∈ C 1,2 (]0, T [×RN ) ∩ C([0, T [×RN ) verifica (19.1.8) ed è tale che

lim inf inf u(t, x) ≥ 0, (19.1.10)


|x|→∞ t∈]0,T [

allora u ≥ 0 su [0, T [×RN .


Dimostrazione. Come nella prova del Teorema 19.1.4, non è restrittivo assumere a0 < 0 cosicché, per ogni
ε > 0, si ha 
L (u + ε) ≤ 0, in ]0, T [×RN ,


u(0, ·) + ε > 0, in RN .

Fissiamo (t0 , x0 ) ∈]0, T [×RN . Grazie alla condizione (19.1.10), esiste R > |x0 | tale che

u(t, x) + ε > 0, t ∈ ]0, T [, |x| = R,

e dal principio del massimo debole del Teorema 19.1.4, applicato sul cilindro

DT = ]0, T [×{|x| < R},

si deduce che u(t0 , x0 ) + ε ≥ 0. Ne segue che u(t0 , x0 ) ≥ 0, data l’arbitrarietà di ε.


Dimostrazione del Teorema 19.1.7. Proviamo che u ≥ 0 su una striscia ]0, T0 [×RN con T0 > 0 che dipende
solo dalla costante M dell’Ipotesi 19.1.1 e dalla costante C in (19.1.9): se necessario, basta poi applicare
ripetutamente tale risultato per provare la tesi sulla striscia ]0, T [×RN .
Anzitutto, per capire l’idea generale, diamo la prova nel caso particolare dell’operatore del calore
1
L = ∆ − ∂t ,
2
1
Fissato γ > C, poniamo T0 = 4γ e consideriamo la funzione

γ|x|2
!
1
v(t, x) := N
exp , (t, x) ∈ [0, T0 [×RN ,
(1 − 2γt) 2 1 − 2γt

tale che
2
L v(t, x) = 0 e v(t, x) ≥ eγ|x| .
Dal Lemma 19.1.8 deduciamo che u + εv ≥ 0 per ogni ε > 0, da cui la tesi.
Il caso generale è solo tecnicamente più complicato e sfrutta l’Ipotesi 19.1.1 sui coefficienti dell’opera-
tore. Fissato γ > C e due costanti α, β ∈ R che determineremo in seguito, consideriamo la funzione

γ|x|2
!
1
v(t, x) = exp + βt , 0≤t≤ , x ∈ RN .
1 − αt 2α

Poiché
N
Lv 2γ 2 γ 2γ X αγ|x|2
= ⟨C x, x⟩ + tr C + bi x i + a − − β,
v (1 − αt)2 1 − αt 1 − αt (1 − αt)2
i=1
402 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

per l’Ipotesi 19.1.1 è possibile scegliere α, β abbastanza grandi in modo che

Lv
≤ 0. (19.1.11)
v
Posto w := uv , per la condizione (19.1.9), si ha
 
 
lim inf  inf w(t, x) ≥ 0,

|x|→∞ 1
0≤t≤ 2α

e w soddisfa l’equazione

N N
1X X Lu
cij ∂xi xj w + b̂i ∂xi w + âw − ∂t w = ≤ 0,
2 v
i,j=1 i=1

dove
N ∂x j v
X Lv
b̂i = bi + cij , â = .
v v
j=1

Poiché â ≤ 0 per la (19.1.11), possiamo applicare il Lemma 19.1.8 per concludere che w (quindi anche u) è
non-negativa.

Teorema 19.1.9 (Principio del massimo debole). Assumiamo le Ipotesi 19.0.1 e 19.1.2. Se u ∈ C 1,2 (]0, T [×RN )∩
C([0, T [×RN ) verifica (19.1.8) e la stima

u(t, x) ≥ −C(1 + |x|p ), (t, x) ∈ [0, T [×RN , (19.1.12)

per certe costanti positive C e p, allora u ≥ 0 in [0, T [×RN . Di conseguenza, esiste al più una sola soluzione
classica del problema di Cauchy (19.0.2) che verifica la stima (19.1.3) di crescita polinomiale all’infinito.

Dimostrazione. Proviamo solo il caso a0 < 0. Si considera la funzione


 q
v(t, x) = eαt κt + |x|2

e si verifica che per ogni q > 0 è possibile scegliere α, κ tali che L v < 0 su ]0, T [×RN . Allora per p < 2q e
per ogni ε > 0 si ha L (u +εv) < 0 su ]0, T [×RN e, grazie alla condizione (19.1.12), si può applicare il Lemma
19.1.8 per dedurre che u + εv ≥ 0 su ]0, T [×RN . La tesi segue dall’arbitrarietà di ε.

Proviamo ora l’analogo del Teorema 19.1.6: il seguente risultato fornisce delle stime, in norma L∞ , di
dipendenza della soluzione in termini del dato iniziale e del termine noto. Queste stime giocano un ruolo
cruciale, per esempio, nella prova della stabilità di alcuni metodi numerici.

Teorema 19.1.10. Se l’operatore L soddisfa l’Ipotesi 19.0.1 e una fra le Ipotesi 19.1.1 e 19.1.2, allora per
ogni u ∈ C 1,2 (]0, T [×RN ) ∩ C([0, T [×RN ) vale
 
−a+0 T 
 
sup |u| ≤ e sup |u(0, ·)| + T sup |L u| ,

  a+0 := max{0, a0 }.
[0,T [×R N R N N]0,T [×R

Dimostrazione. Se a0 < 0 allora, posto

w± = sup |u(0, ·)| + t sup |L u| ± u, in ]0, T [×RN ,


RN ]0,T [×RN
19.2. SOLUZIONE FONDAMENTALE 403

si ha 


L w± ≤ − sup |L u| ± L u ≤ 0, in ]0, T [×RN ,
]0,T [×RN


on RN ,

w± (0, ·) ≥ 0,

e chiaramente w± verifica la stima (19.1.12) (e quindi anche la (19.1.9)). A seconda delle ipotesi assunte,
segue dal Teorema 19.1.7 oppure 19.1.9 che w± ≥ 0 in [0, T [×RN e questo prova la tesi. D’altra parte, se
a0 ≥ 0 allora basta procedere come nella dimostrazione del Teorema 19.1.6.

19.2 Soluzione fondamentale


In questa sezione diamo un risultato di esistenza di soluzioni classiche del problema di Cauchy per
l’operatore L in (19.0.1). Il concetto cruciale a questo riguardo è quello di soluzione fondamentale.
Definizione 19.2.1 (Soluzione fondamentale). Una soluzione fondamentale per l’operatore L in [0, T [×RN
è una funzione Γ = Γ (t0 , x0 ; t, x), definita per 0 ≤ t0 < t < T e x0 , x ∈ RN , tale che per ogni ϕ ∈ bC(RN ) la
funzione1 Z
u(t, x) := ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 , t ∈]t0 , T [, x ∈ RN , (19.2.1)
RN
è soluzione classica, secondo la Definizione 19.0.2, del problema di Cauchy

L u = 0 in ]t0 , T [×RN ,


(19.2.2)
u(t0 , ·) = ϕ in RN .

Una tecnica classica per dimostrare l’esistenza della soluzione fondamentale è il metodo della parametrice
introdotto da E.E. Levi in [50] e poi sviluppato da molti altri autori. Si tratta di una procedura costruttiva
abbastanza lunga e complessa che si basa sulla seguente2 Ipotesi 19.2.2 sull’operatore L . Per specifica-
re le condizioni di regolarità sui coefficienti di L , introduciamo lo spazio bC α (]0, T [×RN ) delle funzioni
continue, limitate e uniformemente Hölderiane nella variabile x di esponente α ∈]0, 1[ con la norma
|g(t, x) − g(t, y)|
[g]α := sup |g| + sup < ∞.
]0,T [×RN 0<t<T |x − y|α
x,y

Ipotesi 19.2.2.
i) cij , bi , a ∈ bC α (]0, T [×RN ) per un certo α ∈]0, 1[ e per ogni i, j = 1, . . . , N ;
ii) la matrice C := (cij )1≤i,j≤N è simmetrica e soddisfa la seguente condizione di uniforme parabolicità:
esiste una costante λ0 > 1 tale che
1 2
|η| ≤ ⟨C (t, x)η, η⟩ ≤ λ0 |η|2 , (t, x) ∈]0, T [×RN , η ∈ RN . (19.2.3)
λ0
Per comodità, assumiamo λ0 abbastanza grande in modo che λ0 ≥ [cij ]α , [bi ]α , [a]α per ogni i, j =
1, . . . , N .
Osservazione 19.2.3. Poniamo
N N
1X X
A := cij (t, x)∂xi xj + bj (t, x)∂xj + a(t, x)
2
i,j=1 j=1

cosicché L = A − ∂t e assumiamo valida l’Ipotesi 19.2.2. Allora sono equivalenti:


1 Prolungata a [t , T [×RN ponendo u(t , ·) = ϕ.
0 0
2 È possibile assumere ipotesi leggermente più deboli: al riguardo si veda la Sezione 6.4 in [28].
404 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

i) u ∈ C 1,2 (]t0 , T [×RN ) ed è soluzione classica dell’equazione L u = 0 su ]t0 , T [×RN ;


ii) u ∈ C(]t0 , T [×RN ), è differenziabile con continuità fino al second’ordine nelle variabili x e soddisfa
l’equazione integro-differenziale
Zt
u(t, x) = u(t1 , x) + A u(s, x)ds, t 0 < t 1 < t < T , x ∈ RN .
t1

Nel seguente teorema, consideriamo il problema di Cauchy con termine noto f che soddisfa le seguenti
condizioni di crescita e di Hölderianità locale.
Ipotesi 19.2.4. f ∈ C(]t0 , T [×RN ) ed esiste β > 0 tale che:
i)
2
c1 ec2 |x|
|f (t, x)| ≤ , (t, x) ∈]t0 , T [×RN , (19.2.4)
(t − t0 )1−β
1
dove c1 , c2 sono costanti positive con c2 < 4λ0 T ;

ii) per ogni n ∈ N, esiste una costante κn tale che


|x − y|β
|f (t, x) − f (t, y)| ≤ κn β
, t0 < t < T , |x|, |y| ≤ n. (19.2.5)
(t − t0 )1− 2

Il risultato principale del capitolo è il seguente


Teorema 19.2.5. [!!!] Sotto l’Ipotesi 19.2.2, esiste una soluzione fondamentale Γ per l’operatore L in
[0, T [×RN . Inoltre:
i) Γ = Γ (t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Per ogni
(t0 , x0 ) ∈ [0, T [×RN , Γ (t0 , x0 ; ·, ·) ∈ C 1,2 (]t0 , T [×RN ) e valgono le seguenti stime Gaussiane: per ogni
λ > λ0 , dove λ0 è la costante dell’Ipotesi 19.2.2, esiste una costante positiva c = c(T , N , λ, λ0 ) tale che
Γ (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) , (19.2.6)
c
∂xi Γ (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (19.2.7)
t − t0
∂x x Γ (t0 , x0 ; t, x) + |∂t Γ (t0 , x0 ; t, x)| ≤ c G (λ(t − t0 ), x − x0 )

i j
(19.2.8)
t − t0
per ogni (t, x) ∈]t0 , T [×RN , dove G è la funzione Gaussiana in (19.3.1); inoltre, esistono due costanti
positive λ̄, c̄ che dipendono solo da T , N , λ0 e per cui vale
 
Γ (t0 , x0 ; t, x) ≥ c̄ G λ̄(t − t0 ), x − x0 (19.2.9)

per ogni (t, x) ∈]t0 , T [×RN ;


ii) per ogni f che soddisfa l’Ipotesi 19.2.4 e ϕ ∈ bC(RN ), la funzione
Z Z tZ
u(t, x) = ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 − f (s, y)Γ (s, y; t, x)dyds, t ∈]t0 , T [, x ∈ RN , (19.2.10)
RN t0 RN

è soluzione classica del problema di Cauchy



L u = f in ]t0 , T [×RN ,


(19.2.11)
u(t0 , ·) = ϕ in RN .

La (19.2.10) è usualmente chiamata formula di Duhamel;


19.3. IL METODO DELLA PARAMETRICE 405

iii) vale l’equazione di Chapman-Kolmogorov


Z
Γ (t0 , x0 ; t, x) = Γ (t0 , x0 ; s, y)Γ (s, y; t, x)dy, 0 ≤ t0 < s < t < T , x, x0 ∈ RN ;
RN

iv) se il coefficiente a è costante si ha


Z
Γ (t0 , x0 ; t, x)dx0 = ea(t−t0 ) , t ∈]t0 , T [, x ∈ RN , (19.2.12)
RN

e in particolare se a ≡ 0 allora Γ (t0 , ·; t, x) è una densità.


Dimostriamo il Teorema 19.2.5 nella Sezione 19.3, insieme a numerosi risultati preliminari.

19.2.1 Operatori backward e forward


19.2.2 Soluzioni non-negative del problema di Cauchy

19.3 Il metodo della parametrice


In questa sezione proviamo il Teorema 19.2.5. Consideriamo L in (19.0.1) e assumiamo che verifichi
l’Ipotesi 19.2.2. L’idea principale del metodo della parametrice è di costruire una soluzione fondamentale
per approssimazioni successive utilizzando come primo termine di approssimazione la cosiddetta parame-
trice: essa è la soluzione fondamentale Gaussiana di un operatore del calore ottenuto da L calcolando i
coefficienti in un punto fissato y, lasciando libera la variabile temporale.
Notazione 19.3.1. Data una matrice C costante N × N , simmetrica e definita positiva, poniamo
1 1 −1
G(C, x) = p e− 2 ⟨C x,x⟩ , x ∈ RN .
N
(2π) det C

Notiamo che
N
1X
Cij ∂xi xj G(tC, x) = ∂t G(tC, x), t > 0, x ∈ RN .
2
i,j=1

Nel caso in cui C sia la matrice identità, C = IN , per semplicità scriviamo

1 |x|2
G(t, x) ≡ G(tIN , x) = N
e− 2t , t > 0, x ∈ RN , (19.3.1)
(2πt) 2

per l’usuale Gaussiana standard, soluzione dell’equazione del calore 21 ∆G(t, x) = ∂t G(t, x).

Fissato y ∈ RN , introduciamo l’operatore Ly ottenuto calcolando i coefficienti di L in y e annullando i


termini di ordine inferiore al secondo:
N
1X
Ly := cij (t, y)∂xi xj − ∂t .
2
i,j=1

L’operatore Ly agisce nelle variabili (t, x) e ha i coefficienti che dipendono solo dalla variabile temporale t,
essendo y fissato. Si verifica che la soluzione fondamentale di Ly ha la seguente espressione esplicita
Z t
Γy (t0 , x0 ; t, x) = G(Ct0 ,t (y), x − x0 ), Ct0 ,t (y) := C (s, y)ds, (19.3.2)
t0
406 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

per 0 ≤ t0 < t < T e x0 , x ∈ RN . Definiamo la parametrice per L come

P(t0 , x0 ; t, x) := Γx0 (t0 , x0 ; t, x), 0 ≤ t0 < t < T , x0 , x ∈ RN . (19.3.3)

Secondo il metodo della parametrice si cerca la soluzione fondamentale di L nella forma


Z tZ
Γ (t0 , x0 ; t, x) = P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds (19.3.4)
t0 RN

dove Φ è una funzione incognita da determinare imponendo che valga3 L Γ (t0 , x0 ; t, x) = 0. Formalmente,
da (19.3.4) si ha4
Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x) (19.3.5)
t0 RN

da cui si ricava l’equazione per Φ


Z tZ
Φ(t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds (19.3.6)
t0 RN

valida per 0 ≤ t0 < t < T e x0 , x ∈ RN . Per approssimazioni successive si ottiene



X
Φ(t0 , x0 ; t, x) = (L P)k (t0 , x0 ; t, x) (19.3.7)
k=1

dove

(L P)1 (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x),


Z tZ
(19.3.8)
(L P)k+1 (t0 , x0 ; t, x) = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds, k ∈ N.
t0 RN

Nella Sezione 19.3.2 proviamo la seguente

Proposizione 19.3.2. La serie in (19.3.7) converge e definisce Φ = Φ(t0 , x0 ; t, x) che è una funzione continua
di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN , e risolve l’equazione (19.3.6). Inoltre, per ogni λ > λ0 esiste una
costante positiva c = c(T , N , λ, λ0 ) tale che

c
|Φ(t0 , x0 ; t, x)| ≤ α G(λ(t − t0 ), x − x0 ), (19.3.9)
(t − t0 )1− 2
α
c |x − y| 2
Φ(t0 , x0 ; t, x) − Φ(t0 , x0 ; t, y) ≤ α (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 )) (19.3.10)
(t − t0 )1− 4

per ogni 0 ≤ t0 < t < T e x, y, x0 ∈ RN .


3 Si ricordi che L agisce nelle variabili (t, x).
4 L’ultimo termine nel membro a destra della (19.3.5) deriva dall’applicare ∂ all’estremo dell’integrale in ds di (19.3.4) da cui si
t
otterrebbe Z
Φ(t0 , x0 ; t, y)P(t, y; t, x)dy = Φ(t0 , x0 ; t, x)
RN
poiché formalmente P(t, y; t, x)dy = δx (dy) dove δx indica la delta di Dirac centrata in x.
19.3. IL METODO DELLA PARAMETRICE 407

19.3.1 Stime Gaussiane


In questa sezione proviamo alcune stime preliminari per nuclei Gaussiani.
Notazione 19.3.3. Assumiamo la Convenzione 18.1.3 per indicare la dipendenza delle costanti. Inoltre,
poiché dovremo provare numerose stime, per comodità nelle dimostrazioni indicheremo con c una costante
generica il cui valore può variare da riga a riga: dove necessario, specificheremo esplicitamente le quantità
da cui c dipende.
Lemma 19.3.4. Per ogni p > 0 e λ > λ0 esiste una costante c = c(p, N , λ, λ0 ) tale che
!p
|x|
√ G(λ0 t, x) ≤ c G(λt, x), t > 0, x ∈ RN .
t
|x|
Dimostrazione. Posto per semplicità z = √ , abbiamo
t
!N
zp z2
!
p λ
z G(λ0 t, x) = N
exp − = g(z)G(λt, x)
(2πλ0 t) 2 2λ0 λ0

dove
1 1 κz2
g(z) := zp e− − > 0,
2 , κ= z ∈ R+ ,
λ0 λ
q
p
 p p
assume il massimo globale in z0 = κ in cui vale g(z0 ) = eκ 2 .

Lemma 19.3.5. Consideriamo L in (19.0.1) e assumiamo che verifichi l’Ipotesi 19.2.2. Per G e Γy , definiti
rispettivamente in (19.3.1) e (19.3.2), vale

1  t−t 
G λ0
0
, x − x0 ≤ Γy (t0 , x0 ; t, x) ≤ λN
0 G (λ0 (t − t0 ), x − x0 ) (19.3.11)
λN
0

per ogni 0 ≤ t0 < t < T e x, x0 , y ∈ RN , dove λ0 è la costante dell’Ipotesi 19.2.2. Inoltre, per ogni λ > λ0 esiste
una costante positiva c = c(T , N , λ, λ0 ) tale che
c
∂xi Γy (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (19.3.12)
t − t0
∂x x Γy (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) ,

i j
(19.3.13)
t − t0
c
∂x x x Γy (t0 , x0 ; t, x) ≤ G (λ(t − t0 ), x − x0 ) , (19.3.14)
i j k
(t − t0 )3/2

Γy (t0 , x0 ; t, x) − Γη (t0 , x0 ; t, x) ≤ c|y − η|α G (λ(t − t0 ), x − x0 ) , (19.3.15)
c|y − η|α
∂xi Γy (t0 , x0 ; t, x) − ∂xi Γη (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (19.3.16)
t − t0
α
∂x x Γy (t0 , x0 ; t, x) − ∂x x Γη (t0 , x0 ; t, x) ≤ c|y − η| G (λ(t − t0 ), x − x0 ) ,

i j i j
(19.3.17)
t − t0

per ogni 0 ≤ t0 < t < T , x, x0 , y, η ∈ RN e i, j, k = 1, . . . , N .


Dimostrazione. Per la definizione di Ct0 ,t (y) in (19.3.2) e per l’ipotesi di uniforme parabolicità (19.2.3) si ha

t − t0 2
|η| ≤ ⟨Ct0 ,t (y)η, η⟩ ≤ λ0 (t − t0 )|η|2 (19.3.18)
λ0
408 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

e di conseguenza vale

|η|2 λ0 |η|2
≤ ⟨Ct−1,t (y)η, η⟩ ≤ (19.3.19)
λ0 (t − t0 ) 0 t − t0
e anche
!N
t − t0
≤ det Ct0 ,t (y) ≤ λN N
0 (t − t0 ) . (19.3.20)
λ0

La (19.3.19) segue dal fatto che se A, B sono matrici simmetriche e definite positive allora la disuguaglianza
fra forme quadratiche A ≤ B (ossia ⟨Aη, η⟩ ≤ ⟨Bη, η⟩ per ogni η ∈ RN ) implica B−1 ≤ A−1 . La (19.3.20)
segue dal fatto che il minimo e massimo autovalore di una matrice simmetrica C sono rispettivamente
min⟨Cη, η⟩ e max⟨Cη, η⟩ =: ∥C∥ dove ∥C∥ è la norma spettrale di C. Notiamo che le (19.3.18)-(19.3.19) si
|η|=1 |η|=1
riscrivono rispettivamente nella forma
t − t0 1 λ
≤ ∥Ct0 ,t (y)∥ ≤ λ0 (t − t0 ), ≤ ∥Ct−1
0 ,t
(y)∥ ≤ 0 . (19.3.21)
λ0 λ0 (t − t0 ) t − t0

Le stime (19.3.11) seguono allora direttamente dalla definizione di Γy (t0 , x0 ; t, x).


Per quanto riguarda la (19.3.12), posto ∇x = (∂x1 , . . . , ∂xN ), si ha

∇x Γy (t0 , x0 ; t, x) = |Ct−1
0 ,t
(y)(x − x0 )|Γy (t0 , x0 ; t, x)
≤ ∥Ct−1
0 ,t
(y)∥ |x − x0 |Γy (t0 , x0 ; t, x) ≤

(per la seconda stima in (19.3.21))


!
λ0 |x − x0 |
≤√ √ Γy (t0 , x0 ; t, x) ≤
t − t0 t − t0

(per la (19.3.11) e il Lemma 19.3.4)


c
≤√ G(λ(t − t0 ), x − x0 ).
t − t0

Le (19.3.13) e (19.3.14) si provano in modo completamente analogo.


Usando l’espressione esplicita di Γy , la (19.3.15) è diretta conseguenza delle seguenti stime:

1 1 c|y − η|α
p − p ≤ p , (19.3.22)
det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y)

1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ c|y − η|α e− 2λ(t−t0 ) . (19.3.23)

Per quanto riguarda la (19.3.22), si ha



1 1 1 det Ct0 ,t (y) − det Ct0 ,t (η)
p −p = p p p p ≤
det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y) + det Ct0 ,t (η)

(per la (19.3.20))

λN
0
det Ct0 ,t (y) − det Ct0 ,t (η)
≤p
det Ct0 ,t (y) (t − t0 )N
19.3. IL METODO DELLA PARAMETRICE 409

λN
! !
0 1 1
=p det Ct0 ,t (y) − det Ct0 ,t (y) ≤
det Ct0 ,t (y) t − t0 t − t0

(poiché | det A − det B| ≤ c∥A − B∥ dove ∥ · ∥ indica la norma spettrale e c è una costante che dipende solo da
∥A∥, ∥B∥ e dalla dimensione delle matrici)

c 1 
≤p
Ct0 ,t (y) − Ct0 ,t (η)
det C (y) t − t0 t0 ,t

e la (19.3.22) segue dall’Ipotesi 19.2.2, in particolare dalla condizione di Hölderianità dei coefficienti cij .
Per quanto riguarda la (19.3.23), per il teorema del valor medio e la (19.3.19) si ha
1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ ⟨C −1 (y)x, x⟩ − ⟨C −1 (η)x, x⟩ e− 2λ0 (t−t0 )

t0 ,t t0 ,t
2
− 2λ |x|(t−t
≤ ∥Ct−1
0 ,t
(y) − Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤

(per l’identità A−1 − B−1 = A−1 (B − A)B−1 )


2
− 2λ |x|(t−t
≤ c∥Ct−1
0 ,t
(y)∥ ∥Ct0 ,t (y) − Ct0 ,t (η)∥ ∥Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤
(per la (19.3.21))

1   |x|2 − |x|2
≤ c C (y) − Ct0 ,t (η) e 2λ0 (t−t0 ) ≤
t − t0 t0 ,t t − t0
(per l’ipotesi di di Hölderianità dei coefficienti cij e per il Lemma 19.3.4)
2
|x|
− 2λ(t−t
≤ c|y − η|α e 0)

e questo è sufficiente a provare la (19.3.23) e quindi la (19.3.15).


La prova delle stime (19.3.16) e (19.3.17) è simile: per esempio, si ha

∇x Γy (t0 , x0 ; t, x) − ∇x Γη (t0 , x0 ; t, x) = Ct−1 0 ,t
(y)(x − x0 )Γy (t0 , x0 ; t, x) − Ct−10 ,t
(η)(x − x0 )Γη (t0 , x0 ; t, x)
 
≤ Ct−1 0 ,t
(y) − C −1
t0 ,t (η) (x − x 0 Γy (t0 , x0 ; t, x)
)

+ C −1 (η)(x − x ) Γ (t , x ; t, x) − Γ (t , x ; t, x)
t0 ,t 0 y 0 0 η 0 0

e la (19.3.16) si prova con argomenti simili a quelli usati in precedenza. In modo analogo si prova la
(19.3.17).

19.3.2 Dimostrazione della Proposizione 19.3.2


Grazie al Lemma 19.3.5 possiamo stimare i termini (L P)k in (19.3.8) del metodo della parametrice.
Lemma 19.3.6. Per ogni λ > λ0 esiste una costante positiva c = c(T , N , λ, λ0 ) tale che
mk
|(L P)k (t0 , x0 ; t, x)| ≤ αk
G(λ(t − t0 ), x − x0 ) (19.3.24)
(t − t0 )1− 2

per ogni k ∈ N, 0 ≤ t0 < t < T e x, x0 ∈ RN , dove


  k
cΓE α2
mk =  
ΓE αk
2

e ΓE indica la funzione Gamma di Eulero.


410 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

Dimostrazione. Anzitutto osserviamo che per l’Ipotesi 19.2.2 si ha



cij (t, x) − cij (t, x0 ) ≤ λ0 |x − x0 |α , 0 ≤ t < T , x, x0 ∈ RN , i, j = 1, . . . , N . (19.3.25)
Per k = 1 abbiamo

|L P(t0 , x0 ; t, x)| = (L − Lx0 )P(t0 , x0 ; t, x)
N N
1 X   X
b (t, x)∂ Γ (t , x ; t, x)
≤ cij (t, x) − cij (t, x0 ) ∂xi xj Γx0 (t0 , x0 ; t, x) + i xi x0 0 0
2
i,j=1 i=1

+ |a(t, x)|Γx0 (t0 , x0 ; t, x).

Il primo termine è il più delicato: per le stime (19.3.25) e (19.3.13), per λ′ = λ02+λ si ha
α
cij (t, x) − cij (t, x0 ) ∂x x Γx (t0 , x0 ; t, x) ≤ c |x − x0 | G(λ′ (t − t0 ), x − x0 ) ≤
 
i j 0
t − t0
(per il Lemma 19.3.4)
c
≤ α G(λ(t − t0 ), x − x0 ).
(t − t0 )1− 2
Gli altri termini si stimano facilmente usando l’ipotesi di limitatezza dei coefficienti e la stima (19.3.12)
delle derivate prime:
!
1
bi (t, x)∂xi Γx0 (t0 , x0 ; t, x) + |a(t, x)|Γx0 (t0 , x0 ; t, x) ≤ c √ + 1 G(λ(t − t0 ), x − x0 ).
t − t0
Questo è sufficiente a provare la (19.3.24) nel caso k = 1.
Ora procediamo per induzione e, supposta vera la tesi per k, la proviamo per k + 1:
Z tZ
(L P) (t , x ; s, y) L P(s, y; t, x) dyds
|(L P)k+1 (t0 , x0 ; t, x)| ≤ k 0 0
t0 RN
Z t Z
mk m1
≤ αk α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 )1− 2 (t − s)1− 2 RN

(per l’equazione di Chapman-Kolmogorov (7.4.4))


Zt
mk m1
= G(λ(t − t0 ), x − x0 ) αk α
ds
t0 (s − t0 )1− 2 (t − s)1− 2
e la tesi segue dalle proprietà della funzione Gamma di Eulero.
Osservazione 19.3.7. L’equazione di Chapman-Kolmogorov è uno strumento cruciale nel metodo della
parametrice: essa si prova con un calcolo diretto o, in alternativa, come conseguenza del risultato di unicità
del Teorema 19.1.7. Infatti, per t0 < s < t < T e x, x0 , y ∈ RN , si ha che le funzioni u1 (t, x) := G(t − t0 , x − x0 ) e
Z
u2 (t, x) = G(s − t0 , y − x0 )G(t − s, x − y)dy
RN

sono entrambe soluzioni limitate del problema di Cauchy



1
 2 ∆u − ∂t u = 0

 in ]s, T [×RN ,
u(s, y) = G(s − t0 , y − x0 ) per y ∈ RN ,

e quindi sono uguali.


19.3. IL METODO DELLA PARAMETRICE 411

Lemma 19.3.8. Sia κ > 0. Dato κ1 ∈]0, κ[ esiste una costante positiva c tale che valga
|η−x0 |2 |y−x0 |2
e−κ t ≤ ce−κ1 t (19.3.26)

per ogni t > 0 e x0 , y, η ∈ RN tali che |y − η|2 ≤ t.

Dimostrazione. Anzitutto, per ogni ε > 0 e a, b ∈ R, valgono le disuguaglianze elementari

b2
2|ab| ≤ εa2 + ,
ε
e
1 2
 
2 2
(a + b) ≤ (1 + ε)a + 1 + b .
ε
La (19.3.26) segue dal fatto che

|y − x0 |2 |η − x0 |2 1 |y − η|2 ((1 + ε)κ1 − κ) |η − x0 |2


 
κ1 −κ ≤ κ1 1 + + ≤
t t ε t t

(poiché |y − η|2 ≤ t per ipotesi e per ε sufficientemente piccolo, essendo κ1 < κ)

1
 
≤ κ1 1 + .
ε

Dimostrazione della Proposizione 19.3.2. Per ogni λ > λ0 si ha



X
|Φ(t0 , x0 ; t, x)| ≤ |(L P)k (t0 , x0 ; t, x)| ≤
k=1

(per la stima (19.3.24))



X mk
≤ αk
G(λ(t − t0 ), x − x0 )
(t − t0 )1− 2
k=1
c
≤ α G(λ(t − t0 ), x − x0 )
(t − t0 )1− 2

mk r k−1 ha raggio di convergenza in-
P
con c = c(T , N , λ, λ0 ) costante positiva, poiché la serie di potenze
k=1
finito. Questo prova la (19.3.9). La convergenza della serie è uniforme in (t0 , x0 , t, x) se t − t0 ≥ δ > 0, per
ogni δ > 0 sufficientemente piccolo, e di conseguenza Φ(t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per
0 ≤ t0 < t < T e x, x0 ∈ RN . Inoltre, scambiando i segni di serie ed integrale, si ha
Z tZ ∞ Z tZ
X
Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds
t0 RN k=1 t0 RN

X
= (L P)k (t0 , x0 ; t, x)
k=2
= Φ(t0 , x0 ; t, x) − L P(t0 , x0 ; t, x)

e quindi Φ risolve l’equazione (19.3.6).


412 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

Per quanto riguarda la (19.3.10), dimostriamo prima la stima

|L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y)| ≤


c |x − y|α/2 (19.3.27)
≤ (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1−α/4

per ogni λ > λ0 , 0 ≤ t0 < t < T e x, y, x0 ∈ RN , con c = c(T , N , λ, λ0 ) > 0. Ora, se |x − y|2 > t − t0 allora la
(19.3.27) segue direttamente dalla (19.3.24) con k = 1.
Per studiare il caso |x − y|2 ≤ t − t0 , osserviamo che

L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y) = (L − Lx0 )P(t0 , x0 ; t, x) − (L − Lx0 )P(t0 , x0 ; t, y) = F1 + F2

dove
N
1 X 
F1 = (cij (t, x) − cij (t, x0 ))∂xi xj P(t0 , x0 ; t, x) − (cij (t, y) − cij (t, x0 ))∂yi yj P(t0 , x0 ; t, y)
2
i,j=1
N
1X
= (cij (t, x) − cij (t, y))∂xi xj P(t0 , x0 ; t, x)
2
i,j=1
| {z }
G1
N
1X  
+ (cij (t, y) − cij (t, x0 )) ∂xi xj P(t0 , x0 ; t, x) − ∂yi yj P(t0 , x0 ; t, y) ,
2
i,j=1
| {z }
G2
N 
X 
F2 = bj (t, x)∂xj P(t0 , x0 ; t, x) − bj (t, y)∂yj P(t0 , x0 ; t, y) + a(t, x)P(t0 , x0 ; t, x) − a(t, y)P(t0 , x0 ; t, y).
j=1

Per l’ipotesi di Hölderianità dei coefficienti e la stima Gaussiana (19.3.13), sotto la condizione |x −y|2 ≤ t −t0
si ha α
c |x − y|α c |x − y| 2
|G1 | ≤ G (λ(t − t0 ), x − x0 ) ≤ α G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− 4
Per quanto riguarda G2 , usiamo ancora l’Hölderianità dei coefficienti e combiniamo il teorema del valor
medio (con η che appartiene al segmento di estremi x, y) con la stima Gaussiana (19.3.14) delle derivate
terze: otteniamo
c |x − y| λ + λ0
 
|G2 | ≤ |y − x0 |α 3
G (t − t0 ), η − x 0 ≤
(t − t0 ) 2 2

(essendo |x − y|2 ≤ t − t0 e per il Lemma 19.3.8)


α
c |x − y| 2 λ + λ0
 
≤ α |y − x0 |α G (t − t0 ), y − x0 ≤
(t − t0 )1+ 4 2

(per il Lemma 19.3.4)


α
c |x − y| 2
≤ α G (λ(t − t0 ), y − x0 ) .
(t − t0 )1− 4
19.3. IL METODO DELLA PARAMETRICE 413

Una stima simile si ottiene per F2 , utilizzando l’Hölderianità dei coefficienti bj e a. Questo conclude la
prova della (19.3.27).
Proviamo ora la (19.3.10) usando il fatto che Φ risolve l’equazione (19.3.6), per cui si ha

Φ(t0 , x0 ; t, x) − Φ(t0 , x0 ; t, y) = L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y)


Z tZ
+ Φ(t0 , x0 ; s, η) (L P(s, η; t, x) − L P(s, η; t, y)) dηds .
t0 RN
| {z }
=:I(t0 ,x0 ;t,x,y)

Grazie alla (19.3.27) è sufficiente stimare il termine I(t0 , x0 ; t, x, y): ancora per le stime (19.3.9) e (19.3.27)
otteniamo
α
Zt c |x − y| 2
I(t0 , x0 ; t, x, y) ≤ ·
1− α 1− α
t0 (s − t0 ) 2 (t − s) 4
Z
· G(λ(s − t0 ), η − x0 ) (G(λ(t − s), x − η) + G(λ(t − s), y − η)) dηds =
RN

(per l’equazione di Chapman-Kolmogorov)


Zt
c |x − y|α/2
= 1− α
ds (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
1− α
t0 (s − t0 ) 2 (t − s) 4
c |x − y|α/2
= 3α
(G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1− 4

data la formula generale


Z t
1 ΓE (1 − β) ΓE (1 − γ)
ds = (t − t0 )1−β−γ (19.3.28)
t0 (s − t0 )β (t − s)γ ΓE (2 − β − γ)

valida per ogni β, γ < 1.

19.3.3 Stime del potenziale


Assumiamo l’Ipotesi 19.2.2 e ricordiamo la definizione (19.3.3) di parametrice. In questa sezione con-
sideriamo il cosiddetto potenziale
Z tZ
Vf (t, x) := f (s, y)P(s, y; t, x)dyds, (t, x) ∈]t0 , T [×RN , (19.3.29)
t0 RN

dove f ∈ C(]t0 , T [×RN ) soddisfa l’Ipotesi 19.2.4 di crescita e Hölderianità locale. Nel seguito sarà utile la
seguente
Osservazione 19.3.9. Poniamo
(x−y)2
Z
I(t, x) = e− t dy, t > 0, x ∈ R.
R

Per il classico teorema di scambio di segni di derivata e integrale, per ogni k ∈ N esistono e sono continue
le derivate
|x−y|2 |x−y|2
Z Z
k k − t
∂x I(t, x) = ∂x e dy, ∂t I(t, x) = ∂t e− t dy.
RN RN
414 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

Il risultato principale della sezione è la seguente

Proposizione 19.3.10. La definizione (19.3.29) è ben posta e Vf ∈ C(]t0 , T [×RN ). Inoltre, per ogni i, j =
1, . . . , N esistono e sono continue su ]t0 , T [×RN le derivate
Z tZ
∂xi Vf (t, x) = f (s, y)∂xi P(s, y; t, x)dyds, (19.3.30)
t0 R N
Z tZ
∂xi xj Vf (t, x) = f (s, y)∂xi xj P(s, y; t, x)dyds, (19.3.31)
t0 RN
Z tZ
∂t Vf (t, x) = f (t, x) + f (s, y)∂t P(s, y; t, x)dyds. (19.3.32)
t0 RN

Dimostrazione. Poniamo
Z
I(s; t, x) := f (s, y)Γy (s, y; t, x)dy, t 0 ≤ s < t < T , x ∈ RN ,
RN

cosicché Z t
Vf (t, x) = I(s; t, x)ds.
t0

Per la stima (19.3.11) e l’ipotesi (19.2.4), si ha

c1 λN |x−y|2
Z
0 c2 |y|2 − 2λ
|I(s; t, x)| ≤ e 0 (t−s) dy =
N
(s − t0 )1−β (2πλ0 (t − s)) 2 RN

x−y
(col cambio di variabili z = √ e posto c0 = c1 λN π−N /2 )
2λ0 (t−s)

Z √ 2
c0 c2 x−z 2λ0 (t−s) −|z|2
= e dz ≤
(s − t0 )1−β RN

(posto κ = 1 − 4c2 λ0 T > 0 per ipotesi)


2
ce2c2 |x|
Z
c0 2 2
≤ e2c2 |x| e−κ|z| dz ≤ (19.3.33)
(s − t0 )1−β RN (s − t0 )1−β

con c = c(λ0 , T , N , c1 , c2 ) costante positiva opportuna. Ne segue che la funzione Vf ∈ C(]t0 , T [×RN ) è ben
definita e 2
Vf (t, x) ≤ c(t − t0 )β e2c2 |x| , t0 < t < T , x ∈ RN , (19.3.34)
con β > 0.
[Prova della (19.3.30)] Per l’Osservazione 19.3.9, per t0 ≤ s < t < T si ha
Z
∂xi I(s; t, x) = f (s, y)∂xi P(s, y; t, x)dy ≤
RN

(procedendo come nella prova di (19.3.33), utilizzando la stima (19.3.12))


2
ce2c2 |x|
≤ √ .
(s − t0 )1−β t − s
19.3. IL METODO DELLA PARAMETRICE 415

Questo è sufficiente a provare la (19.3.30) e inoltre, per la (19.3.28) si ha


2
ce2c2 |x|
∂xi Vf (t, x) ≤ 1
, t 0 < t < T , x ∈ RN .
(t − t0 ) 2 −β

[Prova della (19.3.31)] La prova dell’esistenza della derivata seconda è più complessa poiché ripetendo
1
l’argomento precedente con la stima (19.3.13) si otterrebbe un termine singolare del tipo t−s che non è som-
mabile nell’intervallo [t0 , t]. In maniera più attenta è possibile provare delle stime più precise e uniformi
su ]t0 , T [×Dn per ogni n ∈ N fissato, dove Dn := {|x| ≤ n}.
Supponiamo x ∈ Dn . Anzitutto, come nell’Osservazione 19.3.9, per ogni s < t si ha
Z
∂xi xj I(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy = J(s; t, x) + H(s; t, x)
RN

dove
Z Z
J(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy, H(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy.
Dn+1 RN \Dn+1

Decomponiamo J nella somma di tre termini, J = J1 + J2 + J3 , dove5


Z
J1 (s; t, x) = (f (s, y) − f (s, x)) ∂xi xj Γy (s, y; t, x)dy,
Dn+1
Z    
J2 (s; t, x) = f (s, x) ∂xi xj Γy (s, y; t, x) − ∂xi xj Γη (s, y; t, x) |η=x dy,
Dn+1
Z  
J3 (s; t, x) = f (s, x) ∂xi xj Γη (s, y; t, x) |η=x dy.
Dn+1

Per l’ipotesi di Hölderianità locale di f , essendo x, y ∈ Dn+1 , e la stima (19.3.13), si ha

|x − y|β
Z
c
|J1 (s; t, x)| ≤ β
G (λ(t − s), x − y) dy ≤
(s − t0 )1− 2 Dn+1 t − s
(per il Lemma 19.3.4)
Z
c c
≤ β β
G (2λ(t − s), x − y) dy ≤ β β
,
1− 2 1− 2 1− 2
(s − t0 ) (t − s) Dn+1 (s − t0 ) (t − s)1− 2
con c costante positiva che dipende da κn in (19.2.5), oltre che da T , N , λ e λ0 . Procedendo in modo simile,
utilizzando la (19.3.17) e la (19.2.4), si ha
2 2
cec2 |x| |y − x|α cec2 |x|
Z
|J2 (s; t, x)| ≤ G (λ(t − s), x − y) dy ≤ α .
(s − t0 )1−β Dn+1 t − s (s − t0 )1−β (t − s)1− 2
Ora, notiamo che
∂xi Γη (s, y; t, x) = −∂yj Γη (s, y; t, x)
e quindi
Z   Z  
∂xi xj Γη (s, y; t, x) |η=x dy = − ∂yi xj Γη (s, y; t, x) |η=x dy =
Dn+1 Dn+1
 
5 Per chiarezza, il termine ∂
xi xj Γη (s, y; t, x) |η=x si ottiene applicando prima le derivate ∂xi xj Γη (s, y; t, x), tenendo η fissato, e poi
calcolando il risultato ottenuto in η = x. Si noti che, sotto l’Ipotesi 19.2.2, Γη (s, y; t, x) come funzione di η non è differenziabile.
416 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

(per il teorema della divergenza, indicando con ν la normale esterna a Dn+1 e con dσ (y) la misura di
superficie sul bordo ∂Dn+1 )
Z  
=− ∂xj Γη (s, y; t, x) |η=x ν(y)dσ (y)
∂Dn+1

da cui, ancora per la (19.3.12) e la (19.2.4), si ottiene


2 2
cec2 |x| cec2 |x|
Z
1
|J3 (s; t, x)| ≤ √ G (λ(t − s), x − y) dσ (y) ≤ √ .
(s − t0 )1−β ∂Dn+1 t−s (s − t0 )1−β t − s

Infine, per la (19.3.13) si ha


Z
c
|H(s; t, x)| ≤ |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s

(essendo |x − y| ≥ 1 poiché |y| ≥ n + 1 e |x| ≤ n)

|x − y|2
Z
≤c |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s

(per il Lemma 19.3.4, con λ′ > λ, e l’ipotesi (19.2.4) sulla crescita di f )


2
cec|x|
Z
c 2
≤ ec2 |y| G (λ′ (t − s), x − y) dy ≤
(s − t0 )1−β RN (s − t0 )1−β

con c > 0 opportuna, ricordando che c2 < 4λ1 T per ipotesi e scegliendo λ′ − λ0 sufficientemente piccolo. In
0
definitiva, abbiamo provato che, per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato, esiste una costante c tale
che Z
c
|∂xi xj I(s; t, x)| = f (s, y)∂xi xj P(s, y; t, x)dy ≤ β γ
(19.3.35)
R N 1−
(s − t0 ) 2 (t − s)1− 2
dove γ = α ∧ β, da cui anche
c
|∂xi xj Vf (t, x)| ≤ 1 β γ
(t − t0 ) 2 − 2 − 2
grazie alla (19.3.28). Questo conclude la dimostrazione della formula (19.3.31).
[Prova della (19.3.32)] Preliminarmente osserviamo che, come nell’Osservazione 19.3.9, vale
Z
|∂t I(s; t, x)| = f (s, y)∂t Γy (s, y; t, x)dy =

RN

(poiché Γy è soluzione fondamentale di Ly )



Z N
1 X
= f (s, y) cij (t, y)∂xi xj Γy (s, y; t, x)dy ≤
RN 2
i,j=1

(procedendo come nella prova di (19.3.35) e usando l’ipotesi di limitatezza dei coefficienti)
c
≤ γ . (19.3.36)
(s − t0 )1−β (t − s)1− 2
19.3. IL METODO DELLA PARAMETRICE 417

per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato. Ora, si ha

Vf (t + h, x) − Vf (t, x)
Z t Z t+h
I(s; t + h, x) − I(s; t, x) 1
= ds + I(s; t + h, x)ds =: I1 (t, x) + I2 (t, x).
h t0 h h t

Per il teorema del valor medio, esiste t̂s ∈ [t, t + h] tale che
Z t Z t
I1 (t, x) = ∂t I(s; t̂s , x)ds −−−−−→ ∂t I(s; t, x)ds
t0 h→0 t0

dove il passaggio al limite è giustificato dal teorema della convergenza dominata grazie alla stima (19.3.36).
Per quanto riguarda I2 , si ha
Z t+h Z t+h
1 1
I2 (t, x) − f (t, x) = (I(s; t + h, x) − f (s, x)) ds + (f (s, x) − f (t, x))ds
h t h t

dove il secondo integrale nel membro destro tende a zero per h → 0 essendo f continua, mentre per sti-
mare il primo integrale assumiamo x ∈ Dn e procediamo come nella prova della (19.3.31): precisamente,
scriviamo

1 t+h 1 t+h
Z Z Z
(I(s; t + h, x) − f (s, x)) ds = (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds
h t h t Dn+1
| {z }
=:J1 (t,x)
Z t+h Z
1
+ (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds .
h t RN \Dn+1
| {z }
=:J2 (t,x)

Assumiamo h > 0 per semplicità: per l’ipotesi di Hölderianità di f e la stima (19.3.11) di Γy , si ha

t+h Z
λN κn+1
Z
|J1 (t, x)| ≤ |x − y|β G (λ0 (t + h − s), x − y) dyds ≤
h t Dn+1

(per il Lemma 19.3.4)


Z t+h Z
c β
≤ (t + h − s) 2 G (λ0 (t + h − s), x − y) dy ds −−−−−−+→ 0.
h t Dn+1 h→0
| {z }
≤1

D’altra parte, grazie all’ipotesi (19.2.4) di crescita su f e alla (19.3.11), si verifica facilmente che
Z t+h Z
c 2
|J2 (t, x)| ≤ ec2 |y| G (λ0 (t + h − s), x − y) dyds −−−−−−+→ 0.
h t |x−y|>1 h→0

Questo è sufficiente a concludere la prova della proposizione.

19.3.4 Dimostrazione del Teorema 19.2.5


Dividiamo la prova in alcuni passi.
418 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

Passo 1. Per costruzione e per le proprietà di Φ della Proposizione 19.3.2, Γ = Γ (t0 , x0 ; t, x) in (19.3.4) è una
funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Dimostriamo che Γ è soluzione di L . Grazie
alle stime di Φ della Proposizione 19.3.2, applicando la Proposizione 19.3.10 otteniamo
Z tZ
∂xi Γ (t0 , x0 ; t, x) = ∂xi P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)∂xi P(s, y; t, x)dyds,
t0 RN
Z tZ
∂xi xj Γ (t0 , x0 ; t, x) = ∂xi xj P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds,
t0 RN
Z tZ
∂t Γ (t0 , x0 ; t, x) = Φ(t0 , x0 ; s, y)∂t P(s, y; t, x)dyds + Φ(t0 , x0 ; t, x),
t0 RN

per t0 < t < T , x, x0 ∈ RN . Allora si ha


Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x)
t0 RN

da cui si deduce che


L Γ (t0 , x0 ; t, x) = 0, 0 ≤ t0 < t < T , x, x0 ∈ RN , (19.3.37)
poiché, per la Proposizione 19.3.2, Φ risolve l’equazione (19.3.6).
Passo 2. Proviamo la stima Gaussiana dall’alto (19.2.6). Per la definizione (19.3.4) di Γ si ha
Z tZ
Φ(t , x ; s, y) P(s, y; t, x)dyds ≤
|Γ (t0 , x0 ; t, x)| ≤ P(t0 , x0 ; t, x) + 0 0
t0 RN

(per la (19.3.9) e la (19.3.11))

≤ λN G (λ(t − t0 ), x − x0 )
Zt Z
c
+ 1− α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 ) 2 RN

(per l’equazione di Chapman-Kolmogorov)


α
≤ λN G (λ(t − t0 ), x − x0 ) + c(t − t0 ) 2 G(λ(t − t0 ), x − x0 ) (19.3.38)

e questo prova in particolare la stima dall’alto (19.2.6). La (19.2.7) si dimostra in modo completamente
analogo.
Proviamo ora la (19.2.8). Ripetendo la dimostrazione della (19.3.35) con Φ(t0 , x0 ; s, y) al posto di f (s, y) e
utilizzando le stime della Proposizione 19.3.2, si prova l’esistenza di una costante positiva c = c(T , N , λ, λ0 )
tale che
Z
c

N Φ(t ,
0 0x ; s, y)∂ xi xj P(s, y; t, x)dy (s − t )1− α4 (t − s)1− α4 G(λ(t − t0 ), x − x0 ),
≤ t0 ≤ s < t < T , x, x0 ∈ RN .
R 0
(19.3.39)
Dunque per la (19.3.4) e (19.3.31), si ha
Z t Z
∂x x Γ (t0 , x0 ; t, x) ≤ ∂x x P(t0 , x0 ; t, x) +
Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds ≤
i j i j t0 RN

(per la (19.3.13) e la (19.3.39))


!
1 1
≤c + G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− α2
19.3. IL METODO DELLA PARAMETRICE 419

Passo 3. Dimostriamo che Γ è soluzione fondamentale di L . Data ϕ ∈ bC(RN ), consideriamo la funzione u


in (19.2.1). Grazie alle stime (19.2.6)-(19.2.8) si ha
Z
L u(t, x) = ϕ(ξ)L Γ (t0 , ξ; t, x)dξ = 0, 0 ≤ t0 < t < T , x ∈ RN ,
RN

per la (19.3.37). Per quanto riguarda il dato iniziale, abbiamo


Z Z Z tZ
u(t, x) = ϕ(ξ)P(t0 , ξ; t, x)dξ + ϕ(ξ) Φ(t0 , ξ; s, y)P(s, y; t, x)dyds dξ .
RN RN t0 RN
| {z } | {z }
J(t,x) H(t,x)

Ora, fissato x0 ∈ RN ,
Z   Z
J(t, x) = ϕ(ξ) Γξ (t0 , ξ; t, x) − Γx0 (t0 , ξ; t, x) dξ + ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ
RN RN
| {z }
J1 (t,x)

e, per la (19.3.15), si ha
Z
|J1 (t, x)| ≤ c |ϕ(ξ)||ξ − x0 |α G (λ(t − t0 ), x − ξ) dξ −−−−−−−−−−−−→ 0,
RN (t,x)→(t0 ,x0 )
Z
ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ −−−−−−−−−−−−→ ϕ(x0 ).
RN (t,x)→(t0 ,x0 )

I passaggi al limite si giustificano come nell’Esempio 4.1.3 e, in termini probabilistici, corrispondono alla
convergenza debole della distribuzione normale alla delta di Dirac, al tendere della varianza a zero. D’altra
parte, per la (19.3.38)
Z
α
|H(t, x)| ≤ c(t − t0 ) 2 ϕ(x0 )G(λ(t − t0 ), x − x0 )dx0 −−−−−−−−−−−→ 0.
RN (t,x)→(t0 ,x̄)

Questo prova che u ∈ C([t0 , T [×RN ) e quindi è soluzione classica del problema di Cauchy (19.2.2).
Passo 4. Proviamo che u in (19.2.10) è soluzione classica del problema di Cauchy non omogeneo (19.2.11).
Usiamo la definizione di Γ in (19.3.4) e ci concentriamo sul termine
Z tZ Z tZ
f (s, y)Γ (s, y; t, x)dyds = f (s, y)P(s, y; t, x)dyds
t0 RN t0 RN
Z tZ Z tZ
+ f (s, y) Φ(s, y; τ, η)P(τ, η; t, x)dηdτdyds =
t0 RN s RN

(con la notazione (19.3.29), posto Φ(s, y; τ, η) = 0 per τ ≤ s e scambiando l’ordine di integrazione dell’ultimo
integrale)

= Vf (t, x) + VF (t, x)

dove Z τZ
F(τ, η) := f (s, y)Φ(s, y; τ, η)dyds.
t0 RN
420 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE

Proviamo fra poco che F soddisfa l’Ipotesi 19.2.4 ed è quindi possibile applicare a Vf e VF la Proposizione
19.3.10 da cui otteniamo
  Z tZ
L Vf (t, x) + VF (t, x) = −f (t, x) − F(t, x) + (f (s, y) + F(s, y)) L P(s, y; t, x)dyds
t0 RN
Z tZ
= −f (t, x) + f (s, y)I(s, y; t, x)dyds
t0 RN

dove Z tZ
I(s, y; t, x) := −Φ(s, y; t, x) + L P(s, y; t, x) + Φ(s, y; τ, η)L P(τ, η; t, x)dηdτ ≡ 0
s RN
per la (19.3.6). Questo prova che

L u(t, x) = f (t, x), 0 ≤ t0 < t < T , x, x0 ∈ RN .

Verifichiamo che F soddisfa l’Ipotesi 19.2.4: per la (19.3.9), le ipotesi su f e la (19.3.28), si ha


2
Z τ Z cec2 |y| c 2
F(τ, η) ≤ β
G(λ(τ − s), η − y)dyds ≤ α+β
ec|η| .
t0 RN 1− 2 1− α2 1− 2
(s − t0 ) (τ − s) (τ − t0 )

Inoltre, per la (19.3.10) si ha


Z τZ 2
α ec2 |y|
F(τ, η) − F(τ, η ′ ) ≤ c|η − η ′ | 2 β
(G(λ(τ − s), η − y) + G(λ(τ − s), η ′ − y)) dyds
t0 RN 1− 2 1− α4
(s − t0 ) (τ − s)
α
c|η − η ′ | 2  2 ′ 2
≤ α+2β
ec|η| + ec|η | .
1− 4
(τ − t0 )

Infine, usando la stima dall’alto (19.2.6) di Γ e procedendo come nella prova della stima (19.3.34), si
prova che
Z tZ
f (s, y)Γ (s, y; t, x)dyds −−−−−−−−−−−→ 0,
t0 RN (t,x)→(t0 ,x̄)

per ogni x̄ ∈ RN . Questo conclude la prova del fatto che u in (19.2.10) è soluzione classica del problema di
Cauchy non omogeneo (19.2.11).
Passo 5. L’equazione di Chapman-Kolmogorov e la formula (19.2.12) si provano come nell’Osservazione
19.3.7, come conseguenza del risultato di unicità del Teorema 19.1.7. In particolare, per quanto provato
nei punti precedenti, se a è costante, le funzioni
Z
a(t−t0 )
u1 (t, x) := e , u2 (t, x) := Γ (t0 , x0 ; t, x)dx0
RN

sono entrambe soluzioni del problema di Cauchy



L u = 0 in ]t0 , T [×RN ,


u(t0 , ·) = 1 in RN ,

e quindi coincidono.
Passo 6. Come ultimo passo proviamo la stima dal basso di Γ in (19.2.9). Si tratta di un risultato non
banale, per il quale adattiamo una tecnica introdotta da D.G. Aronson che sfrutta alcune classiche stime di
19.3. IL METODO DELLA PARAMETRICE 421

J. Nash: per maggiori dettagli rimandiamo anche alla Sezione 2 in [24]. Qui, al posto delle stime di Nash
utilizziamo altre stime ricavate direttamente dal metodo della parametrice.
Anzitutto, proviamo che Γ ≥ 0: per assurdo, se fosse Γ (t0 , x0 ; t1 , x1 ) < 0 per certi x0 , x1 ∈ RN e 0 ≤ t0 <
t1 < T , allora per continuità si avrebbe

Γ (t0 , y; t1 , x1 ) < 0, |y − x0 | < r,

con r > 0 opportuno. Consideriamo ϕ ∈ bC(RN ) tale che ϕ(y) > 0 per |y − x0 | < r e ϕ(y) ≡ 0 per |y − x0 | ≥ r:
la funzione Z
u(t, x) := ϕ(y)Γ (t0 , y; t, x)dy, t ∈]t0 , T [, x ∈ RN ,
RN
è limitata grazie alla stima (19.3.38) di Γ , è tale che u(t1 , x1 ) < 0 ed è soluzione classica del problema di
Cauchy (19.2.2). Questo è assurdo perché contraddice il principio del massimo, Teorema 19.1.7.
Ora osserviamo che per ogni λ > 1 si ha
t
 
G(λt, x) ≤ G , x
λ
√ q
se |x| < cλ t dove cλ = λλN 2 −1 log λ. Allora, per la definizione (19.3.4) si ha

Z Z
t
Γ (t0 , x0 ; t, x) ≥ P(t0 , x0 ; t, x) − Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds ≥
t0 RN

(per la (19.3.11) e procedendo come nella prova della (19.3.38))


1 t − t0
  α
≥ NG , x − x0 − c(t − t0 ) 2 G (λ(t − t0 ), x − x0 ) =
λ λ

(se |x − x0 | ≤ cλ t − t0 )
t − t0
 α
 
≥ λ−N − c(t − t0 ) 2 G , x − x0
λ
1 t − t0
 
≥ G , x − x0 (19.3.40)
2λN λ
 − 2
se 0 < t − t0 ≤ Tλ := 2cλN α ∧ T .
Dati x, x0 ∈ RN e 0 ≤ t0 < t < T , sia m ∈ N la parte intera di

 4|x − x0 |2 T 
 

max  c2 (t − t ) , T .

λ 0 λ

Poniamo
t − t0 x − x0
tk = t0 + k , x k = x0 + k , k = 1, . . . , m,
m+1 m+1
e osserviamo che, grazie alla scelta di m, si ha
t − t0 T
tk+1 − tk = ≤ ≤ Tλ . (19.3.41)
m+1 m+1
q
cλ t−t0
Inoltre, se yk ∈ D(xk , r) := {y ∈ RN | |xk − y| < r} per ogni k = 1, . . . , m allora, scelto r = 4 m+1 , si ha
r r
|x − x0 | c t − t0 t − t0
|yk+1 − yk | ≤ 2r + |xk+1 − xk | = 2r + ≤ 2r + λ = cλ (19.3.42)
m+1 2 m+1 m+1
422 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE


= cλ tk+1 − tk . (19.3.43)

Applicando ripetutamente l’equazione di Chapman-Kolmogorov si ha


Z m−1
Y
Γ (t0 , x0 ; t, x) = Γ (t0 , x0 ; t1 , y1 ) Γ (tk , yk ; tk+1 , yk+1 )Γ (tm , ym ; t, x)dy1 . . . dym ≥
RN m k=1

(usando il fatto che Γ ≥ 0)


Z m−1
Y
≥ Γ (t0 , x0 ; t1 , y1 ) 1D(xk ,r) (yk )Γ (tk , yk ; tk+1 , yk+1 )1D(xm ,r) (ym )Γ (tm , ym ; t, x)dy1 . . . dym ≥
RN m k=1

(poiché, per le (19.3.41) e (19.3.43), vale la stima (19.3.40))


Z !
1 t − t0
≥ G , y − x 0 ·
(2λN )m+1 RN m λ(m + 1) 1
m−1 ! !
Y t − t0 t − t0
· 1D(xk ,r) (yk )G , yk+1 − yk 1D(xm ,r) (ym )G , x − ym dy1 . . . dym ≥
λ(m + 1) λ(m + 1)
k=1

(indicando con ωN il volume della palla unitaria in RN , per la (19.3.42))


! N2 (m+1)
 λcλ2
 
1  m λ(m + 1)
ωN r N

≥ N m+1
exp −
 (m + 1) .
(2λ ) 2π(t − t0 ) 2

Ne segue l’esistenza di una costante c = c(N , T , α, λ, λ0 ) tale che

1
Γ (t0 , x0 ; t, x) ≥ N
e−cm
c(t − t0 ) 2

e per la scelta di m questo basta a provare la tesi e concludere la dimostrazione del Teorema 19.2.5.
Capitolo 20

Soluzioni deboli di SDE: il problema


della martingala

[39], Chap.26
[60] Sect.3.6

20.1 Teorema di Girsanov

423
424 CAPITOLO 20. SOLUZIONI DEBOLI DI SDE: IL PROBLEMA DELLA MARTINGALA
Capitolo 21

Relazione fra SDE e PDE

21.1 Equazione di Kolmogorov backward


21.2 Equazione di Kolmogorov forward
Supponiamo che l’SDE (17.0.1) sia risolubile nel senso che, per ogni (t0 , x0 ) ∈ [0, +∞[×RN esista una
t ,x t ,x
soluzione X t0 ,x0 = (Xt 0 0 )t≥t0 con dato iniziale Xt00 0 = x0 relativa ad un moto Browniano fissato. Assu-

miamo inoltre che b, σ ∈ Lloc . All’equazione (17.0.1) è formalmente associato l’operatore differenziale del
second’ordine a coefficienti variabili
N N
1X ∗
X
At = (σ (t, x)σ (t, x))ij ∂xi xj + bi (t, x)∂xi
2
i,j=1 i=1

che appare nella formula di Itô per X ed è chiamato operatore caratteristico dell’SDE (17.0.1).
Consideriamo una funzione test ϕ = ϕ(t, x) ∈ C0∞ (R×RN ), col supporto compatto contenuto in ]t0 , T [×RN :
per la formula di Itô si ha
Z T Z T
t ,x0 t ,x0 t ,x0 t ,x0
0 = ϕ(T , XT0 ) − ϕ(t0 , x0 ) = (∂t + At ) ϕ(t, Xt 0 )dt + ∇ϕ(t, Xt 0 )σ (t, Xt 0 )dWt .
t0 t0

Applicando il valore atteso, otteniamo


"Z T # Z T Z
t ,x
0=E (∂t + At ) ϕ(t, Xt 0 0 )dt = (∂t + At ) ϕ(t, x)p(t0 , x0 ; t, dx)dt (21.2.1)
t0 t0 RN

t ,x
dove al solito p(t0 , x0 ; t, dx) indica la legge della v.a. Xt 0 0 . Ricordiamo (cfr. Teorema 18.3.1) che, sotto
opportune ipotesi, p è la legge di transizione di ogni soluzione X dell’SDE: p(t0 , Xt0 ; t, dx) = µXt |Xt per
0
t ≥ t0 .
Per la (21.2.1), per ogni t0 ≥ 0 vale
"
(∂t + At ) ϕ(t, x)p(t0 , x0 ; t, dx)dt = 0, ϕ ∈ C0∞ (]t0 , +∞[×RN ). (21.2.2)
RN +1

La (21.2.2) si esprime dicendo che p(t0 , x0 ; t, dx) è soluzione distribuzionale dell’equazione forward di Kol-
mogorov

(−∂t + At∗ ) p(t0 , x0 ; t, dx) = 0, t > t0 , x ∈ RN . (21.2.3)

425
426 CAPITOLO 21. RELAZIONE FRA SDE E PDE

Qui At∗ indica l’operatore aggiunto formale di At , definito da


N N
1X X
At∗ f (t, x) = ∗
∂xi xj (σ (t, x)σ (t, x)f (t, x))ij − ∂xi (bi (t, x)f (t, x)),
2
i,j=1 i=1

che si ottiene per integrazione per parti: per ogni ϕ, ψ ∈ C0∞ (RN +1 ) vale
" "
((∂t + At ) ϕ(t, x)) ψ(x)dxdt = ϕ(t, x) (−∂t + At∗ ) ψ(x)dxdt.
RN +1 RN +1

L’equazione forward di Kolmogorov (21.2.3) è risolta da p(t0 , x0 ; t, dx) nelle variabili (t, x): in realtà, p non ha
la regolarità necessaria a scrivere l’equazione in senso classico, anzi p(t0 , x0 ; t, ·) non è neppure una funzione
della variabile x ma solo una distribuzione, ossia una misura di probabilità. Per questo motivo, l’equazione
(21.2.3) è da intendersi in senso distribuzionale e il suo significato rigoroso è espresso dalla (21.2.2).
L’equazione (21.2.3) è il punto di partenza per lo studio dell’esistenza e regolarità della densità di p
tramite tecniche analitiche (il risultato classico più importante in questo ambito è il famoso Teorema di
Hörmander [34]) e probabilistiche, il cosiddetto calcolo di Malliavin per il quale si veda, per esempio, [55]).
Si noti che se p è assolutamente continua con densità Γ , ossia
Z
p(t0 , x0 ; t, H) = Γ (t0 , x0 ; t, x)dx, H ∈ BN ,
H

allora Γ (t0 , x0 ; t, x) è soluzione debole della (21.2.3) ossia vale


"
(∂t + At ) ϕ(t, x)Γ (t0 , x0 ; t, x)dxdt = 0, ϕ ∈ C0∞ (]t0 , +∞[×RN ).
RN +1

In tal caso, si dice anche che (t, x) 7→ Γ (t0 , x0 ; t, x) è soluzione fondamentale dell’operatore forward −∂t + At∗ con
polo in (t0 , x0 ).

21.3 Integrale stocastico backward


21.4 SPDE di Krylov
21.5 Teorema di Gyöngy
Capitolo 22

Metodi numerici stocastici

427
428 CAPITOLO 22. METODI NUMERICI STOCASTICI
Capitolo 23

Applicazioni

Il non poter essere soddisfatto da


alcuna cosa terrena, nè, per dir cosı̀,
dalla terra intera; considerare
l’ampiezza inestimabile dello spazio,
il numero e la mole maravigliosa dei
mondi, e trovare che tutto è poco e
piccino alla capacità dell’animo
proprio; immaginarsi il numero dei
mondi infinito, e l’universo infinito,
e sentire che l’animo e il desiderio
nostro sarebbe ancora più grande che
siı̀ fatto universo; e sempre accusare
le cose d’insufficienza e di nullità, e
patire mancamento e vòto, e però
noia, pare a me il maggior segno di
grandezza e di nobiltà, che si vegga
della natura umana.

Giacomo Leopardi

23.1 Valutazione di derivati finanziari


[21], [58]

23.2 Filtraggio stocastico

429
430 CAPITOLO 23. APPLICAZIONI
Appendice A

A.1 Teoremi di Dynkin


Indichiamo con Ω un generico insieme non vuoto. Come anticipato nella Sezione 2.4.1, è difficile dare
una rappresentazione esplicita della σ -algebra σ (A ) generata da una famiglia A di sottoinsiemi di Ω.
I risultati di questa sezione, dal carattere piuttosto tecnico, permettono di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ).

Definizione A.1.1 (Famiglia monotona di insiemi). Una famiglia M di sottoinsiemi di Ω è una famiglia
monotona se gode delle seguenti proprietà:

i) Ω ∈ M ;

ii) se A, B ∈ M e A ⊆ B, allora B \ A ∈ M ;

iii) se (An )n∈N è una successione crescente di elementi di M , allora An ∈ M .


S
n∈N

Ogni σ -algebra è una famiglia monotona mentre il viceversa non è necessariamente vero poiché la pro-
prietà iii) di “chiusura rispetto all’unione numerabile” vale solo per successioni crescenti, ossia tali che
An ⊆ An+1 per ogni n ∈ N. Tuttavia si ha il seguente risultato.

Lemma A.1.2. Se la famiglia monotona M è ∩-chiusa1 allora è una σ -algebra.

Dimostrazione. Se M è monotona verifica le prime due proprietà della definizione di σ -algebra: rimane
solo da provare la ii-b) della Definizione 2.1.1, ossia che l’unione numerabile di elementi di M appartiene
ad M . Anzitutto, dati A, B ∈ M , poiché
A ∪ B = (Ac ∩ Bc )c ,
l’ipotesi di chiusura rispetto all’intersezione implica che A ∪ B ∈ M . Ora, data una successione (An )n∈N di
elementi di M , definiamo la successione
n
[
Ān := Ak , n ∈ N,
k=1

che è crescente e tale che Ān ∈ M per quanto appena dimostrato. Allora si conclude che
[ [
An = Ān ∈ M
n∈N n∈N

per la iii) della Definizione A.1.1.


1 Ossia tale che A ∩ B ∈ M per ogni A, B ∈ M .

431
432 APPENDICE A.

Osserviamo che l’intersezione di famiglie monotone è una famiglia monotona. Data una famiglia A
di sottoinsiemi di Ω, indichiamo con M (A ) l’intersezione di tutte le famiglie monotone che contengono
A : diciamo cheM (A ) è la famiglia monotona generata da A , ossia la più piccola famiglia monotona che
contiene A .
Teorema A.1.3 (Primo Teorema di Dynkin). [!] Sia A una famiglia di sottoinsiemi di Ω. Se A è ∩-chiusa
allora M (A ) = σ (A ).
Dimostrazione. σ (A ) è monotona e quindi σ (A ) ⊇ M (A ). Viceversa, se proviamo che M (A ) è ∩-chiusa
allora dal Lemma A.1.2 seguirà che M (A ) è una σ -algebra e quindi σ (A ) ⊆ M (A ).
Proviamo dunque che M (A ) è ∩-chiusa. Poniamo

M1 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ A },

e proviamo che M1 è una famiglia monotona: poiché A ⊆ M1 , ne seguirà M (A ) ⊆ M1 e quindi M (A ) =


M1 . Abbiamo:
i) Ω ∈ M1 ;
ii) per ogni A, B ∈ M1 con A ⊆ B, vale

(B \ A) ∩ I = (B ∩ I) \ (A ∩ I) ∈ M (A ), I ∈A,

e quindi B \ A ∈ M1 ;
iii) sia (An ) una successione crescente in M1 e indichiamo con A l’unione degli An . Allora abbiamo
[
A∩I = (An ∩ I) ∈ M (A ), I ∈A,
n≥1

e quindi A ∈ M1 .
Questo prova che M (A ) = M1 . Ora poniamo

M2 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ M (A )}.

Abbiamo provato sopra che A ⊆ M2 . Inoltre, in modo analogo possiamo provare che M2 è una famiglia
monotona: ne viene che M (A ) ⊆ M2 e quindi M (A ) = M2 ossia M (A ) è ∩-chiusa.
Segue immediatamente dal Teorema A.1.3 il seguente
Corollario A.1.4. Sia M una famiglia monotona. Se M contiene una famiglia ∩-chiusa A , allora contiene
anche σ (A ).
Come secondo corollario dimostriamo la parte sull’unicità del Teorema 2.4.29 di Carathéodory (si veda
l’Osservazione A.1.6).
Corollario A.1.5. [!] Siano µ, ν misure finite su (Ω, σ (A )) dove A è una famiglia ∩-chiusa e tale che Ω ∈ A .
Se µ(A) = ν(A) per ogni A ∈ A allora µ = ν.
Dimostrazione. Sia
M = {A ∈ σ (A ) | P (A) = Q(A)}.
Verifichiamo che M è una famiglia monotona: dal primo Teorema di Dynkin seguirà che M ⊇ M (A ) =
σ (A ) da cui la tesi.
Delle tre condizioni della Definizione A.1.1, la i) è vera per ipotesi. Per quanto riguarda la ii), se A, B ∈
M con A ⊆ B allora si ha
µ(B \ A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B \ A)
A.2. ASSOLUTA CONTINUITÀ 433

e quindi (B \ A) ∈ M . Infine, se (An )n∈N è una successione crescente in M e A =


S
An , allora per la
n∈N
continuità dal basso delle misure (cfr. Proposizione 2.1.31) si ha

µ(A) = lim µ(An ) = lim ν(An ) = ν(A)


n→∞ n→∞

da cui A ∈ M e questo conclude la prova.

Osservazione A.1.6. La parte sull’unicità del Teorema 2.4.29 di Carathéodory segue facilmente dal Corol-
lario A.1.5: la tesi è che se µ, ν sono misure σ -finite su un’algebra A e coincidono su A allora coincidono
anche su σ (A ).
Per ipotesi, esiste una successione (An )n∈N in A tale che µ(An ) = ν(An ) < ∞ e Ω =
S
An . Fissato n ∈ N,
n∈N
poiché A è ∩-chiusa, utilizzando il Corollario A.1.5 si prova facilmente che

µ(A ∩ An ) = ν(A ∩ An ), ∀A ∈ σ (A ).

Passando al limite in n, la tesi segue dalla continuità dal basso delle misure.

Definizione A.1.7 (Famiglia monotona di funzioni). Una famiglia H di funzioni limitate, definite da un
insieme Ω a valori reali, è monotona se gode delle seguenti proprietà:

i) H è uno spazio vettoriale reale;

ii) la funzione costante 1 appartiene ad H ;

iii) se (Xn )n∈N è una successione di funzioni non-negative di H tale che Xn ↗ X con X limitata, allora
X∈H .

Teorema A.1.8 (Secondo Teorema di Dynkin). [!] Sia A una famiglia ∩-chiusa di sottoinsiemi di Ω. Se
H è una famiglia monotona che contiene le funzioni indicatrici di elementi di A , allora H contiene anche
tutte le funzioni limitate e σ (A )-misurabili.

Dimostrazione. Poniamo
M = {H ⊆ Ω | 1H ∈ H }.
Per ipotesi, A ⊆ M e, usando il fatto che H è una famiglia monotona, è facile provare che M è una
famiglia monotona di insiemi. Allora M ⊇ M (A ) = σ (A ), dove l’uguaglianza è conseguenza del primo
Teorema di Dynkin. Dunque H contiene le funzioni indicatrici di elementi di σ (A ).
Data X ∈ mσ (A ), non-negativa e limitata, per Lemma 3.2.3 esiste una successione (Xn )n∈N di funzioni
semplici σ (A )-misurabili e non-negative tali che Xn ↗ X. Ogni Xn è combinazione lineare di funzioni
indicatrici di elementi di σ (A ) e quindi appartiene ad H , essendo H uno spazio vettoriale: per la proprietà
iii) di H , si ha che X ∈ H . Infine, per provare che ogni funzione σ (A )-misurabile e limitata appartiene ad
H , è sufficiente decomporla nella somma della sua parte positiva e negativa.

A.2 Assoluta continuità


A.2.1 Teorema di Radon-Nikodym
In questa sezione approfondiamo il concetto di assoluta continuità fra misure di cui avevamo considerato
un caso particolare (l’assoluta continuità rispetto alla misura di Lebesgue) nella Sezione 2.4.5. Come ri-
sultato principale proviamo che l’esistenza della densità è condizione necessaria e sufficiente per l’assoluta
continuità: questo è il contenuto del classico Teorema di Radon-Nikodym.
434 APPENDICE A.

Definizione A.2.1.1. Siano µ, ν misure σ -finite su (Ω, F ). Diciamo che ν è µ-assolutamente continua su
F , e scriviamo ν ≪ µ, se ogni insieme µ-trascurabile di F è anche ν-trascurabile. Quando è importante
specificare la σ -algebra considerata, si scrive anche

ν ≪F µ.

Ovviamente se F1 ⊆ F2 sono σ -algebre, allora ν ≪F2 µ implica ν ≪F1 µ ma non è vero il viceversa.

Esempio A.2.1.2. La Definizione 2.4.18 di assoluta continuità è un caso particolare della definizione pre-
cedente: infatti se µ è una distribuzione assolutamente continua allora µ(H) = 0 per ogni H ∈ B tale che
Leb(H) = 0 o, in altri termini,
µ ≪B Leb
ossia µ è assolutamente continua rispetto alla misura di Lebesgue.

Teorema A.2.1.3 (Teorema di Radon-Nikodym). [!] Se µ, ν sono misure σ -finite su (Ω, F ) e ν ≪ µ, allora
esiste g ∈ mF + tale che Z
ν(A) = gdµ, A ∈ F. (A.2.1)
A

g ∈ mF + verifica (A.2.1), allora g = e


Inoltre se e g quasi ovunque rispetto a µ. Si dice che g è la densità (o la
derivata di Radon-Nikodym) di ν rispetto a µ e si scrive

dν dν
dν = gdµ oppure g= oppure g= | .
dµ dµ F

Osservazione A.2.1.4. Siano µ, ν misure come nell’enunciato precedente, definite su (Ω, F ), e f ∈ mF + :


approssimando f con una successione crescente di funzioni semplici non-negative come nel Lemma 3.2.3,
grazie al Teorema di Beppo-Levi si ha
Z Z
f dν = lim fn dν =
Ω n→∞ Ω


(per la (A.2.1) ed indicando con dµ la derivata di Radon-Nikodym di ν rispetto a µ)
Z

= lim fn dµ =
n→∞ Ω dµ

(riapplicando il Teorema di Beppo-Levi)


Z

= f dµ.
Ω dµ

Vale dunque la seguente formula per il cambio di misura di integrazione


Z Z

f dν = f dµ
Ω Ω dµ

per ogni f ∈ mF + .

g ∈ mF + verificano la (A.2.1), allora si ha


Dimostrazione del Teorema A.2.1.3. [Unicità] Se g,e
Z
(g − e
g )dµ = 0, A ∈ F. (A.2.2)
A
A.2. ASSOLUTA CONTINUITÀ 435

g > 0} ∈ F , deve essere µ(A) = 0 ossia g ≤ e


In particolare, posto A = {g − e g µ-q.o. perché in caso contrario si
avrebbe Z
(g − e
g )dµ > 0
A
che contraddice la (A.2.2). Analogamente si prova che g ≥ e
g µ-q.o.
[Esistenza] Supponiamo dapprima che µ, ν siano finite. Diamo una dimostrazione basata sul Teorema
di rappresentazione di Riesz2 per i funzionali lineari e continui su uno spazio di Hilbert. Consideriamo
l’operatore lineare Z
L(f ) := f dµ

definito sullo spazio di Hilbert L2 (Ω, F , µ + ν) munito dell’usuale prodotto scalare


Z
⟨f , g⟩ = f gd(µ + ν).

L’operatore L è limitato e quindi continuo: infatti, applicando la disuguaglianza triangolare e poi la


disuguaglianza di Hölder, si ha
Z Z q
|L(f )| ≤ |f |dµ ≤ |f |d(µ + ν) ≤ ∥f ∥L2 (µ + ν)(Ω).
Ω Ω

Allora per il Teorema di Riesz esiste ϕ ∈ L2 (Ω, F , µ + ν) tale che


Z Z
f dµ = f ϕd(µ + ν), f ∈ L2 (Ω, F , µ + ν). (A.2.3)
Ω Ω

Proviamo che 0 < ϕ < 1 µ-quasi ovunque: a tal fine, poniamo A0 = {ϕ < 0}, A1 = {ϕ > 1} e fi = 1Ai ∈
L2 (Ω, F , µ + ν), per i = 0, 1. Se fosse µ(Ai ) > 0, dalla (A.2.3) si avrebbe
Z Z Z
µ(A0 ) = f0 dµ = ϕd(µ + ν) ≤ ϕdµ < 0,
Ω A0 A0
Z Z Z
µ(A1 ) = f1 dµ = ϕd(µ + ν) ≥ ϕdµ > µ(A1 ),
Ω A1 A1

che è assurdo.
Ora, la (A.2.3) equivale a
Z Z
f ϕdν = f (1 − ϕ)dµ, f ∈ L2 (Ω, F , µ + ν),
Ω Ω

e per il Lemma 3.2.3 e il Teorema di Beppo-Levi (che si applica poiché 0 < ϕ < 1 µ-quasi ovunque e quindi
anche ν-quasi ovunque), tale uguaglianza si estende ad ogni f ∈ mF + . In particolare, per f = 1ϕA si ottiene
Z
1−ϕ
ν(A) = dµ, A ∈ F.
A ϕ
2
Teorema A.2.1.5 (Teorema di rappresentazione di Riesz). Se L è un operatore lineare e continuo su uno spazio di Hilbert (H, ⟨·, ·⟩),
allora esiste ed è unico y ∈ H tale che
L(x) = ⟨x, y⟩, x ∈ H.

Per la dimostrazione del Teorema A.2.1.5, e più in generale per un’introduzione semplice ma completa agli spazi di Hilbert, si veda il
Capitolo 4 in [66].
436 APPENDICE A.

1−ϕ
Questo prova la tesi con g = ϕ ∈ mF + .
Consideriamo ora il caso generale in cui µ, ν siano σ -finite. Allora esiste una successione crescente
(An )n∈N in F , che ricopre Ω e tale che (µ + ν)(An ) < ∞ per ogni n ∈ N. Consideriamo le misure finite

µn (A) := µ(A ∩ An ), νn (A) := ν(A ∩ An ), A ∈ F , n ∈ N.

È facile vedere che νn ≪ µn e quindi esiste gn ∈ mF + tale che νn = gn dµn . Inoltre come nella dimostrazione
dell’unicità, si prova che gn = gm su An per n ≤ m. Allora consideriamo g ∈ mF + definita da g = gn su An .
Per ogni A ∈ F si ha Z Z
ν(A ∩ An ) = νn (A) = gn dµn = f dµ
A A∩An

e la tesi segue passando al limite per n → +∞.

A.2.2 Rappresentazione di aperti di R mediante intervalli


Lemma A.2.2.1. Ogni aperto A di R si scrive come unione numerabile di intervalli aperti disgiunti:
]
A= ]an , bn [. (A.2.4)
n≥1

Dimostrazione. Sia A un aperto di R. Dato x ∈ A poniamo

ax = inf{a ∈ R | esiste b tale che x ∈ ]ax , b[ ⊆ A} e bx = sup{b ∈ R |]ax , b[ ⊆ A}.

Allora è chiaro che x ∈ Ix := ]ax , bx [ ⊆ A. D’altra parte, se x, y ∈ A e x , y allora si ha che Ix ∩ Iy = ∅ oppure


Ix ≡ Iy . Infatti, se per assurdo fosse Ix ∩ Iy , ∅ e Ix , Iy allora I := Ix ∪ Iy sarebbe un intervallo aperto, incluso
in A e tale che x ∈ Ix ⊂ I: ciò contraddirebbe la definizione di ax e bx .
Abbiamo quindi provato che A si scrive come unione di intervalli aperti disgiunti: ognuno di essi
contiene un razionale differente e quindi si tratta di un’unione numerabile.
Osservazione A.2.2.2. [!] Come conseguenza del Lemma A.2.2.1, abbiamo che se µ è una distribuzione su
R e A è un aperto, allora per la (A.2.4) si ha
X
µ(A) = µ(]an , bn [).
n≥1

Unendo questo risultato al Corollario 2.4.10, si conclude che due distribuzioni µ1 e µ2 su R sono uguali se
e solo se µ1 (I) = µ2 (I) per ogni intervallo aperto I.
Il Lemma A.2.2.1 non si estende al caso multi-dimensionale (o, peggio ancora, al caso di uno spazio
metrico generico). Sembrerebbe naturale poter sostituire gli intervalli di R con i dischi. Tuttavia, cosı̀
facendo il risultato diventa falso anche in dimensione uno (almeno se si suppone che il raggio dei dischi
debba essere finito): basta considerare, per esempio, A = ]0, +∞[. Analogamente, un’unione disgiunta di
dischi aperti di R2 è un insieme connesso se e solo se consiste di un solo disco: quindi non c’è speranza di
rappresentare un generico aperto connesso di R2 come unione numerabile di dischi aperti disgiunti.
Nella dimostrazione del Lemma A.2.2.1 abbiamo usato la densità dei razionali in R: data la sottigliezza
degli argomenti, occorre fare attenzione a ciò che sembra intuitivo, come mostra il seguente
Esempio A.2.2.3. Sia (xn )n∈N una enumerazione dei punti di H := ]0, 1[∩Q ∈ B. Fissato ε ∈ ]0, 1[, sia (rn )n∈N
una successione di numeri reali positivi tali che la serie
X ε
rn < .
2
n≥1
A.2. ASSOLUTA CONTINUITÀ 437

Poniamo [
A := ]xn − rn , xn + rn [∩]0, 1[.
n≥1

Allora A è aperto, H ⊆ A e per la sub-additività (cfr. Proposizione 2.1.22-ii))


X
Leb(A) ≤ Leb(]xn − rn , xn + rn [) < ε.
n≥1

Ne segue anche che A è strettamente incluso ]0, 1[ (perché ha misura di Lebesgue minore di 1) pur essendo
aperto e denso in ]0, 1[.

A.2.3 Derivabilità di funzioni integrali


Il punto di partenza dei risultati di questa sezione è il classico Teorema di Lebesgue sulla derivabilità
delle funzioni monotone.

Teorema A.2.3.1 (di Lebesgue). [!!] Ogni funzione monotona (debolmente) crescente

F : [a, b] −→ R

è derivabile q.o. e vale


Z b
F ′ (x)dx ≤ F(b) − F(a). (A.2.5)
a

La disuguaglianza in (A.2.5) può essere stretta (si pensi alle funzioni costanti a tratti): la funzione di
Vitali dell’Esempio 2.4.36 è monotona, continua e verifica la (A.2.5) con la disuguaglianza stretta.
La dimostrazione standard del Teorema A.2.3.1 è basata sul Teorema di ricoprimento di Vitali e si può
trovare in [7], Teorema 14.18. Un’altra dimostrazione più diretta ma sotto l’ipotesi aggiuntiva di continuità,
è dovuta a Riesz (cfr. Capitolo 1.3 in [65]).

Proposizione A.2.3.2. Se γ ∈ L1 ([a, b]) e vale


Zx
γ(t)dt = 0 per ogni x ∈ [a, b],
a

allora γ = 0 q.o.

Dimostrazione. Dall’ipotesi segue anche che


Zx Zx Z x0
γ(t)dt = γ(t)dt − γ(t)dt = 0 a ≤ x0 < x ≤ b.
x0 a a

Inoltre, per il Lemma A.2.2.1 ogni aperto A ⊆ [a, b] si scrive nella forma (A.2.4) e quindi
Z ∞ Z
X bn
γ(t)dt = γ(t)dt = 0. (A.2.6)
A n=1 an

Ora sia H ∈ B, con H ⊆ [a, b]: per la Proposizione 2.4.9 sulla regolarità delle misure di Borel, per ogni n ∈ N
esiste un aperto An tale che H ⊆ An e Leb(An \ H) ≤ n1 . Allora si ha
Z Z Z
γ(t)dt = γ(t)dt − γ(t)dt =
H An An \H
438 APPENDICE A.

(per la (A.2.6))
Z
=− γ(t)dt −−−−−−−→ 0
An \H n→+∞
R
per il teorema della convergenza dominata. Dunque H γ(t)dt = 0 per ogni H ∈ B.
Allora, per ogni n ∈ N, poniamo Hn = {x ∈ [a, b] | γ(x) ≥ n1 } ∈ B: si ha
Z
Leb(Hn )
0= γ(t)dt ≥
Hn n

da cui Leb(Hn ) = 0 e quindi anche



[
{x ∈ [a, b] | γ(x) > 0} = Hn
n=1
ha misura di Lebesgue nulla, ossia γ ≤ 0 q.o. Analogamente si prova che γ ≥ 0 q.o. e questo conclude la
prova.
Proposizione A.2.3.3. Se Z x
F(x) = F(a) + γ(t)dt, x ∈ [a, b],
a
con γ ∈ L1 ([a, b]), allora esiste F ′ = γ q.o.
Dimostrazione. A meno di considerare separatamente parte positiva e negativa di γ, possiamo assumere
γ ≥ 0 q.o. (e quindi F monotona crescente). Osserviamo anzitutto che F è continua poiché3
Z x+h
F(x + h) − F(x) = γ(t)dt −−−−→ 0
x h→0

per il Teorema della convergenza dominata.


Assumiamo dapprima anche che γ ∈ L∞ : allora si ha
Z x+h
F(x + h) − F(x) = 1
γ(t)dt ≤ ∥γ∥∞
h h x

e d’altra parte, per il Teorema A.2.3.1 di Lebesgue, essendo F monotona crescente, si ha che esiste
F(x + h) − F(x)
lim = F ′ (x) q.o.
h→0 h
Dunque, ancora per il Teorema della convergenza dominata, per a < x0 < x < b abbiamo
Zx Zx
F(t + h) − F(t)
F ′ (t)dt = lim dt
x0 h→0 x0 h
Z x+h Z x0 +h !
1
= lim F(t)dt − F(t)dt
h→0 h x x0

(poiché F è continua)

= F(x) − F(x0 ).
3 Se h < 0 poniamo per definizione
Z x+h Zx
γ(t)dt = − γ(t)dt.
x x+h
A.2. ASSOLUTA CONTINUITÀ 439

Ne segue che
Z x
(F ′ (t) − γ(t)) dt = 0, x ∈ [a, b]
a

e quindi, per la Proposizione A.2.3.2, F ′ = γ q.o.


Consideriamo ora il caso in cui γ ∈ L1 ([a, b]). Per n ∈ N, consideriamo la successione

γ(t) se 0 ≤ γ(t) ≤ n,


γn (t) = 
0
 se γ(t) > n.

Allora si ha F = Fn + Gn dove
Z x Z x
Fn (x) = γn (t)dt, Gn (x) = (γ(t) − γn (t)) dt.
a a

Da una parte, Gn è una funzione crescente (e quindi derivabile q.o. con Gn′ ≥ 0) poiché γ − γn ≥ 0 e d’altra
parte, per quanto appena provato, esiste Fn′ = γn q.o. Quindi si ha

F ′ = γn + G ′ ≥ γn q.o.

e, passando al limite per n → ∞, F ′ ≥ γ q.o. Allora vale


Z b Z b
F ′ (t)dt ≥ γ(t)dt = F(b) − F(a).
a a

Ma la disuguaglianza opposta viene dal Teorema A.2.3.1 di Lebesgue (si veda la (A.2.5)) e quindi
Z b
F ′ (t)dt = F(b) − F(a).
a

Allora si ha ancora Z b
(F ′ (t) − γ(t)) dt = 0
a

e, poiché F ′ ≥ γ q.o., si conclude che F ′ = γ q.o.

A.2.4 Assoluta continuità di funzioni


Definizione A.2.4.1 (Funzione assolutamente continua). Si dice che

F : [a, b] −→ R

è assolutamente continua, e si scrive F ∈ AC([a, b]), se, per ogni ε > 0 esiste δ > 0 tale che

N
X
|F(bn ) − F(an )| < ε (A.2.7)
n=1

per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che

N
X
(bn − an ) < δ.
n=1
440 APPENDICE A.

Esercizio A.2.4.2. Provare che se F ∈ AC([a, b]) allora, per ogni ε > 0 esiste δ > 0 tale che

X
|F(bn ) − F(an )| < ε
n=1

per ogni successione di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che



X
(bn − an ) < δ.
n=1

L’importanza delle funzioni assolutamente continue sta nel fatto che sono le funzioni per cui vale il
teorema fondamentale del calcolo integrale. Il principale risultato di questa sezione è il seguente
Teorema A.2.4.3. [!] Una funzione F è assolutamente continua su [a, b] se e solo se F è derivabile q.o. con
F ′ ∈ L1 ([a, b]) e vale Z x
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b].
a

Alla dimostrazione del Teorema A.2.4.3 premettiamo alcuni risultati preliminari. Anzitutto ricordiamo
la
Definizione A.2.4.4 (Funzione a variazione limitata). Si dice che

F : [a, b] −→ R

è a variazione limitata, e si scrive F ∈ BV([a, b]), se


b
_ q
X
(F) := sup |F(tk ) − F(tk−1 )| < ∞
a σ ∈P[a,b] k=1

dove P[a,b] indica l’insieme delle partizioni σ dell’intervallo [a, b], ossia delle scelte di un numero finito di
punti σ = {t0 , t1 , . . . , tq } tali che
a = t0 < t1 < · · · < tq = b.
Una presentazione dei principali risultati sulle funzioni a variazione limitata si trova in [45]. Qui
ricordiamo solo che per ogni F ∈ BV([a, b]) si ha
b
_ c
_ b
_
(F) = (F) + (F), c ∈ ]a, b[, (A.2.8)
a a c

e inoltre F si scrive come differenza di funzioni monotone crescenti nel modo seguente: per x ∈ [a, b]
x
_
F(x) = u(x) − v(x), u(x) := (F), v(x) := u(x) − F(x). (A.2.9)
a

Lemma A.2.4.5. Se F ∈ AC([a, b]) allora F ∈ BV([a, b]) e nella decomposizione (A.2.9), le funzioni u, v sono
monotone crescenti e assolutamente continue.
Dimostrazione. Poiché F ∈ AC([a, b]), esiste δ > 0 tale che
N
X
|F(bn ) − F(an )| < 1
n=1
A.2. ASSOLUTA CONTINUITÀ 441

per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che
N
X
(bn − an ) < δ.
n=1

Questo implica che F ∈ BV su ogni sotto-intervallo di [a, b] di lunghezza minore o uguale a δ. Allora il fatto
che F ∈ BV([a, b]) segue dalla (A.2.8), suddividendo [a, b] in un numero finito di intervalli di lunghezza
minore o uguale a δ.
Proviamo ora che u ∈ AC([a, b]) (e quindi anche v ∈ AC([a, b])). Per ipotesi F ∈ AC([a, b]) e quindi dato
ε > 0 esiste δ > 0 come nella Definizione A.2.4.1. Siano [an , bn ] ⊆ [a, b], n = 1, . . . , N , intervalli disgiunti tali
che
XN
(bn − an ) < δ.
n=1
Si ha
N
X X bn
N _ N
X qn
X
(u(bn ) − u(an )) = (F) = sup F(tn,k ) − F(tn,k−1 ) < ε
n=1 n=1 an n=1 σ ∈P[an ,bn ] k=1

poiché, in base alla (A.2.7), si ha


qn
N X
X
F(tn,k ) − F(tn,k−1 ) < ε
n=1 k=1
per ogni partizione (tn,0 , . . . , tn,qn ) ∈ P[an ,bn ] .
Dimostrazione del Teorema A.2.4.3. Se F ammette una rappresentazione del tipo
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b],
a

con γ ∈ L1 ([a, b]) allora chiaramente F è assolutamente continua per il Teorema della convergenza dominata
di Lebesgue. Inoltre F ′ = γ q.o. per la Proposizione A.2.3.3.
Viceversa, se F ∈ AC([a, b]), per il Lemma A.2.4.5 non è restrittivo assumere anche che F sia monotona
crescente. Allora possiamo considerare la misura µF definita come nel Teorema 2.4.33-i):

µF (]x, y]) = F(y) − F(x), a ≤ x < y ≤ b.

Vogliamo provare che µF è assolutamente continua rispetto alla misura di Lebesgue ossia µF ≪ Leb. Con-
sideriamo B ∈ B tale che Leb(B) = 0: per definizione di misura di Lebesgue4 , per ogni δ > 0 esiste una
successione (]an , bn ])n∈N di intervalli disgiunti tale che

[
A ⊇ B, Leb(A) < δ, A := ]an , bn ]. (A.2.10)
n=1

Di conseguenza, per ogni ε > 0 esistono δ > 0 e A come in (A.2.10) per cui si ha

µF (B) ≤ µF (A ∩ [a, b]) ≤ ε,

dove la prima disuguaglianza è per la monotonia di µF e la seconda viene dal fatto che F ∈ AC([a, b])
e Leb(A) < δ (si ricordi l’Esercizio A.2.4.2). Data l’arbitrarietà di ε, si conclude che µF (B) = 0 e quindi
µF ≪ Leb.
4 Ricordiamo che (cfr. (2.5.5))
Leb(B) = inf{Leb(A) | B ⊆ A ∈ U }
dove U indica la famiglia delle unioni numerabili di intervalli disgiunti della forma ]a, b].
442 APPENDICE A.

Per il Teorema A.2.1.3 di Radon-Nikodym, esiste γ ∈ L1 ([a, b]) tale che


Zx
F(x) − F(a) = µF (]a, x]) = γ(t)dt, x ∈ [a, b],
a

e grazie alla Proposizione A.2.3.3 concludiamo che F′ = γ q.o.

A.3 Uniforme integrabilità


Forniamo uno strumento utile allo studio delle successioni di variabili aleatorie, il Teorema di Vitali:
si tratta di una generalizzazione del Teorema della convergenza dominata di Lebesgue. In questa sezione
X = (Xt )t∈I è una famiglia di v.a. sullo spazio (Ω, F , P ) a valori in Rd , con I insieme qualsiasi di indici.
Diciamo che X è un processo stocastico.
Definizione A.3.0.1 (Uniforme integrabilità). Un processo stocastico (Xt )t∈I sullo spazio (Ω, F , P ) è uni-
formemente integrabile se vale h i
lim sup E |Xt |1(|Xt |≥R) = 0,
R→∞ t∈I
h i
o, in altri termini, se per ogni ε > 0 esiste R > 0 tale che E |Xt |1(|Xt |≥R) < ε per ogni t ∈ I.
q.c.
Teorema A.3.0.2 (Teorema di convergenza di Vitali). Se Xn −−−−→ X e (Xn )n∈N è uniformemente integrabile
allora E [|Xn − X|] −→ 0.
h i
Dimostrazione. Proviamo la tesi nel caso X = 0. Fissato ε > 0, esiste R > 0 tale che E |Xn |1(|Xn |≥R) < 2ε per
ogni
h n ∈ N; inoltre,
i per il teorema della convergenza dominata esiste n̄, che dipende da ε e R, tale che
E |Xn |1(|Xn |<R) < 2ε per ogni n ≥ n̄. In definitiva
h i h i
E [|Xn |] = E |Xn |1(|Xn |≥R) + E |Xn |1(|Xn |<R) < ε

per ogni n ≥ n̄.


In generale, vedremo fra poco nel Corollario A.3.0.5, che la somma di processi uniformemente integra-
bili è uniformemente integrabile. Dunque per riportarsi al caso precedente basta considerare il processo
q.c.
Yn = Xn − X che è uniformemente integrabile e tale Yn −−−−→ 0.
Diamo una caratterizzazione dell’uniforme integrabilità.
Definizione A.3.0.3 (Uniforme assoluta continuità). Un processo (Xt )t∈I sullo spazio (Ω, F , P ) è unifor-
memente assolutamente continuo se per ogni ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F
tale che P (A) < δ.
Proposizione A.3.0.4. Sono equivalenti:
i) il processo (Xt )t∈I è uniformemente integrabile;
ii) il processo (Xt )t∈I è uniformemente assolutamente continuo e sup E [|Xt |] < ∞.
t∈I

Dimostrazione. Se (Xt )t∈I è uniformemente integrabile esiste R > 0 tale che


h i
sup E |Xt |1(|Xt |≥R) ≤ 1.
t∈I

Allora si ha h i
E [|Xt |] ≤ 1 + E |Xt |1(|Xt |≤R) ≤ 1 + R.
A.3. UNIFORME INTEGRABILITÀ 443
h i
Analogamente, dato ε > 0 esiste R tale che E |Xt |1(|Xt |≥R) < 2ε per ogni t ∈ I: allora per ogni A ∈ F tale che
ε
P (A) < 2R , si ha
h i h i ε
E [|Xt |1A ] = E |Xt |1A∩(|Xt |≥R) + E |Xt |1A∩(|Xt |<R) < + RP (A) < ε.
2
Viceversa, per ipotesi, dato ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F tale che P (A) < δ.
Per la disuguaglianza di Markov, esiste R tale che
1
P (|Xt | ≥ R) ≤ sup E [|Xt |] < δ
R t∈I
e di conseguenza h i
E |Xt |1(|Xt |≥R) < ε
per ogni t ∈ I.
Corollario A.3.0.5. Se (Xt )t∈I e (Yt )t∈I sono uniformemente integrabili allora (Xt + Yt )t∈I è uniformemente
integrabile.
Dimostrazione. Utilizzando la caratterizzazione della Proposizione A.3.0.4, si tratta di una semplice verifi-
ca.
Diamo ora qualche esempio.
Proposizione A.3.0.6. Se esiste Y ∈ L1 (Ω, P ) tale che |Xt | ≤ Y per ogni t ∈ I allora (Xt )t∈I è uniformemente
integrabile.
Dimostrazione. Sia ε > 0: per l’assoluta continuità del valore atteso (Corollario 3.2.12), esiste δ > 0 tale che
E [|Y |1A ] < ε per ogni A ∈ F tale che P (A) < δ. Ora, per la disuguaglianza di Markov si ha
E [|Xt |] E [|Y |] E [|Y |]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Allora h i h i
E |Xt |1(|Xt ≥R|) ≤ E |Y |1(|Xt ≥R|) < ε.

Dalla Proposizione A.3.0.6 deduciamo che:


• un processo formato da una sola v.a. X sommabile è uniformemente integrabile;
• il teorema della convergenza dominata è un corollario del Teorema di Vitali.
Proposizione A.3.0.7. Siano X ∈ L1 (Ω, F , P ) e (Ft )t∈I una famiglia di sotto-σ -algebre di F . Il processo
definito da Xt = E [X | Ft ] è uniformemente integrabile.
Dimostrazione. La prova è analoga a quella del Lemma A.3.0.6. Fissato ε > 0, sia δ > 0 tale che E [|X|1A ] < ε
per ogni A ∈ F tale che P (A) < δ. Combinando le disuguaglianze di Markov e di Jensen abbiamo
E [|Xt |] E [|X|] E [|X|]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Ancora per la disuguaglianza di Jensen si ha
h i h i
E |Xt |1(|Xt |≥R) ≤ E E [|X| | Ft ] 1(|Xt |≥R) =

(per le proprietà dell’attesa condizionata, essendo 1(|Xt |≥R) ∈ bFt )


h i
= E |X|1(|Xt |≥R) < ε.
444 APPENDICE A.

Osservazione A.3.0.8. [!] La Proposizione A.3.0.7 si applica spesso nello studio della convergenza di par-
ticolari processi stocastici detti martingale. La situazione tipica è quella in cui si ha una successione (Xn )n∈N
che converge puntualmente; se Xn è della forma Xn = E [X | Fn ] per una certa X ∈ L1 (Ω, P ) e una famiglia
(Fn )n∈N di sotto-σ -algebre di F , allora per la Proposizione A.3.0.7, (Xn )n∈N è uniformemente integrabile.
Il Teorema di convergenza di Vitali garantisce che (Xn )n∈N converge anche in norma L1 (Ω, P ).

Proposizione A.3.0.9. Se esiste una funzione

ϕ : R≥0 −→ R≥0
ϕ(r)
crescente, tale che lim r = +∞ e sup E [ϕ(|Xt |)] < ∞ allora (Xt )t∈I è uniformemente integrabile.
r→+∞ t∈I

ϕ(r) 1
Dimostrazione. Per ogni ε > 0 esiste rε > 0 tale che r > ε per ogni r ≥ rε . Allora, per R > rε si ha
" #
h i |Xt |
E |Xt |1(|Xt |≥R) = E ϕ(|Xt |)1(|Xt |≥R) ≤ ε sup E [ϕ(|Xt |)]
ϕ(|Xt |) t∈I

da cui la tesi per l’arbitrarietà di ε.

Osservazione A.3.0.10. Applichiamo la Proposizione A.3.0.9 con ϕ(r) = r p per un p > 1: si ha che se (Xt )t∈I
è limitata in norma Lp (Ω, P ), ossia sup E [|Xt |p ] < ∞, allora è uniformemente integrabile.
t∈I
Appendice B

Temi d’esame risolti

445
446 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2016 –

1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:

i) la probabilità di estrarre una pallina bianca;


ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:

i) la durata media (in giorni) della lampadina;


ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione

x2 − 2x + C = 0

abbia, con probabilità uno, due soluzioni reali. Per tale valore di λ si determini la densità di una
delle soluzioni dell’equazione.
4. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:

i) la funzione caratteristica congiunta ϕ(X,Y ) ;


ii) la funzione caratteristica ϕX+Y della somma X + Y ;
iii) la funzione caratteristica ϕXY e la distribuzione del prodotto XY ;
iv) facoltativo: provare che X e XY sono indipendenti.
447

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2016 –

1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:
i) la probabilità di estrarre una pallina bianca;
ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.

Soluzione.
i) la probabilità di estrarre una pallina bianca è 12 perché ci sono 3 palline bianche in totale su 6 con
uguale probabilità di essere estratte; oppure indicando con b l’evento di estrarre una pallina bianca e
con A, B gli eventi relativi alle scelte delle urne, si ha
1 1 2 1 1
P (b) = P (b | A)P (A) + P (b | B)P (B) = · + · = .
3 2 3 2 2
i) per la formula di Bayes si ha
P (b | A)P (A) 1
P (A | b) = = .
P (b) 3
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:
i) la durata media (in giorni) della lampadina;
ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.

Soluzione.
i)-ii) Sia T la v.a. aleatoria che indica il giorno in cui la lampadina si fulmina. Allora T ∼ Geomp (cfr.
Esempio 3.1.24). Quindi la durata media (in giorni) della lampadina è
1
E [T ] = = 1000.
p
Inoltre la probabilità che la lampadina duri almeno un anno è (cfr. Teorema 3.1.25)

P (T > 365) = (1 − p)365 ≈ 69.4%

iii) Indichiamo con X il numero di lampadine, fra le 10000 montate, che si fulminano in un giorno. Allora
X ∼ Bin10000,p (cfr. Esempio 3.1.20). Dobbiamo determinare il minimo N tale che

P (X ≤ N ) ≥ 99%.

Ora si ha (si potrebbe anche usare l’approssimazione con la Poisson, cfr. Esempio 3.1.23):
N !
X 10000 k
P (X ≤ N ) = p (1 − p)n−k .
k
k=0
448 APPENDICE B. TEMI D’ESAME RISOLTI

Un calcolo esplicito mostra che

P (X ≤ 17) = 98.57%, P (X ≤ 18) = 99.28%,

quindi N = 18.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione

x2 − 2x + C = 0

abbia, con probabilità uno, soluzioni reali. Per tale valore di λ si determini la densità di una delle
soluzioni dell’equazione.

Soluzione. L’equazione ha soluzioni reali se ha il discriminante non negativo:

∆ = 4 − 4C ≥ 0

ossia C ≤ 1. Dunque se λ ≤ 1 l’equazione ha soluzioni reali con probabilità uno, mentre se λ > 1 allora
la probabilità che l’equazione non abbia soluzioni reali è pari a Unifλ (]1, λ]) = λ−1
λ > 0. Dunque il valore
massimo cercato è λ = 1.

Consideriamo la soluzione X = 1 + 1 − C e calcoliamone la funzione di ripartizione. Anzitutto se C ∼
Unif[0,1] allora X assume valori in [1, 2]: dunque per x ∈ [1, 2] si ha
√ 
P (X ≤ x) = P 1 − C ≤ x − 1
 
= P C ≥ 1 − (x − 1)2
Z1
= dy = (x − 1)2 .
1−(x−1)2

Derivando si ottiene la densità di X:

γX (x) = (2x − 2)1[1,2] (x), x ∈ R.

3. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:


i) la funzione caratteristica congiunta ϕ(X,Y ) ;
ii) la funzione caratteristica ϕX+Y della somma X + Y ;
iii) la funzione caratteristica ϕXY e la distribuzione del prodotto XY ;
iv) facoltativo: provare che X e XY sono indipendenti.

Soluzione.
i) Essendo v.a. indipendenti, la funzione caratteristica congiunta è il prodotto delle marginali:
h i h i h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y ) = E eiη1 X E eiη2 Y = cos(η1 ) cos(η2 ),

poiché
h i 1 
ϕY (η) = ϕX (η) = E eiηX = eiη + e−iη = cos η.
2
ii) ancora per l’indipendenza, la funzione caratteristica della somma è
h i h i h i
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = (cos η)2 .
449

iii) si ha
h i "
ϕXY (η) = E eiηXY = eiηxy (µ ⊗ µ) (dx, dy) =
R2

(per il Teorema di Fubini)


Z Z !
iηxy
= e µ(dx) µ(dy)
R R
Z
= cos(ηy)µ(dy)
R
1
= (cos η + cos(−η)) = cos η.
2
Dunque XY ha la stessa funzione caratteristica di X e quindi anche la stessa distribuzione µ.
iv) per provare che X e XY sono indipendenti calcoliamo la funzione caratteristica di X e XY , e verifichia-
mo che è uguale al prodotto delle funzioni caratteristiche marginali:
h i "
i(η1 X+η2 XY )
ϕ(X,XY ) (η1 , η2 ) = E e = eix(η1 +η2 y) (µ ⊗ µ) (dx, dy) =
R2

(per il Teorema di Fubini)


Z Z !
ix(η1 +η2 y)
= e µ(dx) µ(dy)
R R
Z 
1 
= e−i(η1 +η2 y) + e−i(η1 +η2 y) µ(dy)
2 R
1  −i(η1 −η2 ) −i(η1 +η2 ) i(η1 −η2 ) i(η1 +η2 ) 
= e +e +e +e
4
= cos(η1 ) cos(η2 ) = ϕX (η1 )ϕXY (η2 ).
450 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2017 –

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:

i) P (A ∪ B);
ii) P (A ∪ B ∪ C).
2. Verificare che la funzione

γ(x, y) = (x + y)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 ,

è una densità. Siano X, Y v.a. con densità congiunta γ: determinare


i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:
i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.
4. Sia Y = Y (t) la soluzione del problema di Cauchy

Y ′ (t) = AY (t),


Y (0) = y0 ,

dove A ∼ Nµ,σ 2 e y0 > 0.

i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y (t);


ii) scrivere l’espressione della funzione caratteristica ϕA della v.a. A e da essa ricavare
h i
E eA = ϕA (−i),

e quindi calcolare E [Y (t)];


iii) le v.a. Y (1) e Y (2) sono indipendenti?
451

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2017 –

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:

i) P (A ∪ B);
ii) P (A ∪ B ∪ C).

Soluzione.

i) Si ha
1 3
P (A ∪ B) = 1 − P (Ac ∩ Bc ) = 1 − P (Ac )P (Bc ) = 1 − = .
4 4
Oppure in alternativa, ricordando che il simbolo ⊎ indica l’unione disgiunta, si ha

P (A ∪ B) = P (A ⊎ (B ∩ Ac )) = P (A) + P (B ∩ Ac ) =

(per l’indipendenza di B e Ac )

1 1 1 3
= + · = .
2 2 2 4

ii) Analogamente si ha

1 7
P (A ∪ B ∪ C) = 1 − P (Ac ∩ Bc ∩ C c ) = 1 − P (Ac )P (Bc )P (C c ) = 1 − = ,
8 8
oppure

P (A ∪ B ∪ C) = P (A ∪ B) + P (C ∩ (A ∪ B)c ) =

(per il punto i))

3
= + P (C ∩ Ac ∩ Bc ) =
4
(per l’ipotesi di indipendenza)

3 3 1 7
= + P (C)P (Ac )P (Bc ) = + = .
4 4 8 8

2. Verificare che la funzione

γ(x, y) = (x + y)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 ,

è una densità. Siano X, Y v.a. con densità congiunta γ: determinare

i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
452 APPENDICE B. TEMI D’ESAME RISOLTI

Soluzione. La funzione γ è non-negativa e vale


" #x=y=1
x2 y + xy 2
"
γ(x, y)dxdy = =1
R2 2 x=y=0

e quindi è una densità. Inoltre:

i) La densità di X è Z
1
 
γX (x) := γ(x, y)dy = x + 1[0,1] (x), x ∈ R.
R 2
In modo analogo si calcola γY e si verifica che X, Y non sono indipendenti poiché γ , γX γY ;
ii) si ha
Z 1Z 1
1
E [XY ] = xy(x + y)dxdy = ;
0 0 3

iii) per il Teorema 3.6.1, la densità di X + Y vale


Z
γX+Y (z) = γ(x, z − x)dx, z ∈ [0, 2].
R

Imponendo la condizione (x, z − x) ∈ [0, 1] × [0, 1], si ha



z 2
Z 
 se z ∈ [0, 1],
γ(x, z − x)dx = 
R

z(2 − z) se z ∈ [1, 2].

3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:

i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.

Soluzione.

i) Una permutazione con i come punto fisso equivale ad una permutazione dei restanti (n − 1) elementi
(n−1)!
quindi ci sono (n − 1)! tali permutazioni (indipendentemente da i), dunque P (Ai ) = n! = n1 .
ii) Procedendo come nel punto precedente, per i , j si ha

(n − 2)! 1 1
P (Ai ∩ Aj ) = = , = P (Ai )P (Aj )
n! n(n − 1) n2

e dunque gli eventi non sono indipendenti.


iii) Occorre determinare il valore atteso della variabile aleatoria

1A1 + 1A2 + · · · + 1An .

Per linearità del valore atteso, questo è pari a n · n1 = 1.


453

4. Sia Y = Y (t) la soluzione del problema di Cauchy



Y ′ (t) = AY (t),


Y (0) = y0 ,

dove A ∼ Nµ,σ 2 e y0 > 0.


i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y (t);
ii) scrivere l’espressione della funzione caratteristica ϕA della v.a. A e da essa ricavare
h i
E eA = ϕA (−i),

e quindi calcolare E [Y (t)];


iii) le v.a. Y (1) e Y (2) sono indipendenti?

Soluzione.
i) Si ha
Y (t) = y0 etA
e quindi Y (t) ha distribuzione log-normale. Più precisamente, per ogni y > 0 vale
! !
1 y 1 y
P (Y (t) ≤ y) = P A ≤ log = FA log
t y0 t y0

dove FA è la CDF di A. Derivando si ricava la densità di Y (t) che è nulla per y ≤ 0 e vale
!
d 1 1 y
γ(y) = P (Y (t) ≤ y) = FA′ log
dy ty t y0
2
1 ( 1t log yy0 −µ)

= √ e 2σ 2 ,
ty 2πσ 2

per y > 0.
ii) Ricordando la (3.5.7) si ha
h i σ2
E eA = ϕA (−i) = eµ+ 2 .
Poiché tA ∼ Ntµ,t 2 σ 2 si ha
h i t2 σ 2
E [Y (t)] = E y0 etA = y0 etµ+ 2 .

iii) Osserviamo che


h i 9σ 2
E [Y (1)Y (2)] = y02 E e3A = y02 e3µ+ 2
è differente da
h i h i σ2 4σ 2
E [Y (1)] E [Y (2)] = y02 E eA E e2A = y02 eµ+ 2 e2µ+ 2
tranne nel caso in cui σ = 0 (in cui chiaramente Y (1), Y (2) sono indipendenti).
454 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2017 –

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ). Determinare se:

i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.
2. Dato γ ∈ R, consideriamo la funzione

µγ (n) = (1 − γ)γ n , n ∈ N0 := N ∪ {0}.

i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che

X 1
xn = , |x| < 1;
1−x
n=0

ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].
3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:
i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?
455

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2017 –

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ). Determinare se:


i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.

Soluzione.
i) È il contenuto della Proposizione 2.3.25, in base alla quale A, B ∈ F sono indipendenti se e solo se lo
sono Ac , B oppure A, Bc oppure Ac , Bc ;
ii) in base al punto i), per dimostrare che A e B ∪ C sono indipendenti, è sufficiente verificare che A
e (B ∪ C)c = Bc ∩ C c siano indipendenti oppure che A e B ∩ C siano indipendenti: per l’ipotesi di
indipendenza di A, B, C si ha

P (A ∩ (B ∩ C)) = P (A)P (B)P (C) = P (A)P (B ∩ C)

da cui la tesi.
iii) in generale A ∪ C e B ∪ C non sono indipendenti; per far vedere ciò, usiamo ancora la Proposizione
2.3.25 e verifichiamo che A ∩ C e B ∩ C non sono, in generale, indipendenti: infatti si ha

P ((A ∩ C) ∩ (B ∩ C)) = P (A ∩ B ∩ C) = P (A)P (B)P (C),

ma

P (A ∩ C)P (B ∩ C) = P (A)P (B)P (C)2 .

2. Dato γ ∈ R, consideriamo la funzione

µγ (n) = (1 − γ)γ n , n ∈ N0 := N ∪ {0}.

i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che

X 1
xn = , |x| < 1;
1−x
n=0

ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].

Soluzione.
i) I valori µγ (n) devono essere non-negativi da cui 0 < γ < 1. Per tali valori di γ si ha che µγ è una
funzione di distribuzione poiché

X ∞
X
µγ (n) = (1 − γ) γ n = 1.
n=0 n=0
456 APPENDICE B. TEMI D’ESAME RISOLTI

ii) X è divisibile per m se esiste k ∈ N0 tale che X = km. Poiché P (X = km) = (1 − γ)γ km , allora la
probabilità cercata è
∞ ∞
X X 1−γ
P (X = km) = (1 − γ) γ km = .
1 − γm
k=0 k=0

iii) La v.a. Y = X + 1 è tale che

P (Y = n) = P (X = n − 1) = (1 − γ)γ n−1 , n ∈ N.

Quindi Y ∼ Geom1−γ .
iv) Per il punto iii) si ha
1 γ
E[X] = E[Y ] − 1 = −1 = .
1−γ 1−γ

3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:

i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?

Soluzione.

i) Sappiamo (cfr. Esempio 3.6.7) che se X, Y ∼ Expλ ≡ Gamma1,λ sono v.a. indipendenti, allora

X + Y ∼ Gamma2,λ

con densità
γX+Y (z) = λ2 ze−λz 1R>0 (z).

Calcoliamo ora la densità di X − Y come convoluzione delle densità di X e −Y . Per far ciò, anzitutto
calcoliamo la densità di −Y : si ha P (−Y ≤ y) = 1 se y ≥ 0 e, per y < 0,
Z∞ Zy
P (−Y ≤ y) = P (Y ≥ −y) = λe−λx dx = λeλz dt
−y −∞

da cui
γ−Y (y) = λeλy 1R<0 (y).
Ora
Z
λ −λ|w|
γX−Y (w) = (γX ∗ γ−Y ) (w) = γX (x)γ−Y (w − x)dx = e , w ∈ R.
R 2

λ
ii) Ricordando che ϕX (η) = λ−iη , per l’indipendenza di X e Y si ha

h i h i h i λ2
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = ,
(λ − iη)2

e analogamente
h i λ2 λ2
ϕX−Y (η) = E eiη(X−Y ) = = 2 .
(λ − iη)(λ + iη) λ + η 2
457

iii) X + Y e X − Y sono indipendenti se e solo se

ϕ(X+Y ,X−Y ) (η1 , η2 ) = ϕX+Y (η1 )ϕX−Y (η2 ).

Abbiamo già l’espressione di ϕX+Y e ϕX−Y dal punto ii). Calcoliamo


h i
ϕ(X+Y ,X−Y ) (η1 , η2 ) = E eiη1 (X+Y )+iη2 (X−Y )
h i
= E eiX(η1 +η2 )+iY (η1 −η2 ) =

(per l’indipendenza di X e Y )
h i h i λ λ
= E eiX(η1 +η2 ) E eiY (η1 −η2 ) = .
λ − i(η1 + η2 ) λ − i(η1 − η2 )

Ne viene che X + Y e X − Y non sono indipendenti.


458 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2017 –

NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.

1. Due urne contengono ciascuna 1 pallina bianca e 4 nere.


i) Estratte 3 palline dalla prima urna e tre palline dalla seconda urna, calcolare la probabilità che
almeno una di esse sia bianca.
ii) Si mettano tutte le palline nella stessa urna (che quindi contiene 2 palline bianche e 8 nere) e si
estraggano 6 palline. Calcolare la probabilità che almeno una di esse sia bianca.
iii) Come nel punto ii) assumendo che l’estrazione avvenga con reinserimento, ossia estraendo una
pallina alla volta e rimettendola nell’urna. Calcolare la probabilità che il colore di almeno una
delle sei palline estratte sia bianco.
2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.

i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
459

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2017 –

NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.

1. Due urne contengono ciascuna 1 pallina bianca e 4 nere.


i) Estratte 3 palline dalla prima urna e tre palline dalla seconda urna, calcolare la probabilità che
almeno una di esse sia bianca.
ii) Si mettano tutte le palline nella stessa urna (che quindi contiene 2 palline bianche e 8 nere) e si
estraggano 6 palline. Calcolare la probabilità che almeno una di esse sia bianca.
iii) Come nel punto ii) assumendo che l’estrazione avvenga con reinserimento, ossia estraendo una
pallina alla volta e rimettendola nell’urna. Calcolare la probabilità che il colore di almeno una
delle sei palline estratte sia bianco.

Soluzione.
3
i) La probabilità di estrarre una pallina bianca dalla prima urna (evento A) è pari a 5 e ugualmente per
la seconda urna (evento B). Inoltre A e B sono indipendenti. Allora

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
21
= P (A) + P (B) − P (A)P (B) = = 0.84.
25
ii) Numeriamo le due palline bianche (pallina 1 e pallina 2) e indichiamo con Ai , i = 1, 2, l’evento secondo
6
cui fra le 6 palline estratte c’è la pallina i. Allora si ha P (A1 ) = P (A2 ) = 10 , P (A1 | A2 ) = 59 e

P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )


13
= P (A1 ) + P (A2 ) − P (A1 | A2 )P (A2 ) = ≈ 0.87.
15
In alternativa, possiamo considerare la v.a. X ∼ Ipern,b,N con distribuzione ipergeometrica, secondo la
formula (3.1.9) con b = 2, N = 10 e n = 6. Allora X indica il numero di palline bianche estratte. La
probabilità cercata è
13
P (X = 1) + P (X = 2) = .
15
iii) In questo caso, possiamo considerare la v.a. S ∼ Binn,p con distribuzione binomiale, secondo la formula
2
(3.1.5) con n = 6 e p = 10 . Allora S indica il numero di palline bianche estratte. La probabilità cercata

X6
P (S = i) ≈ 0.74.
i=1

2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.
i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .

Soluzione.
460 APPENDICE B. TEMI D’ESAME RISOLTI

i) Si ha
P (X + Y ≤ z) = P ((X + Y ≤ z) ∩ (Y = 0)) + P ((X + Y ≤ z) ∩ (Y = 1))
(per l’indipendenza di X e Y )
= P (X ≤ z)P (Y = 0) + P (X ≤ z − 1)P (Y = 1)
= (1 − p)P (X ≤ z) + pP (X ≤ z − 1),
e inoltre ricordiamo che P (X ≤ z) = 1 − e−λz . Allora si ha



 0   se z < 0,
−λz

FX+Y (z) := P (X + Y ≤ z) =  (1 − p) 1 − e se 0 ≤ z ≤ 1,

    
(1 − p) 1 − e−λz + p 1 − e−λ(z−1)

se z > 1.

Analogamente, si ha
FXY (z) := P (XY ≤ z) = P ((XY ≤ z) ∩ (Y = 0)) + P ((XY ≤ z) ∩ (Y = 1))
(per l’indipendenza di X e Y )
= P (0 ≤ z)P (Y = 0) + P (X ≤ z)P (Y = 1)

0  se z < 0,


= 
−λz
(1 − p) + p 1 − e
 se z ≥ 0.

ii) La funzione FX+Y è assolutamente continua e la densità di X + Y si ricava semplicemente derivando


(cfr. Teorema 2.4.33):


 0 se z < 0,
d 

−λz
FX+Y (z) =  (1 − p)λe se 0 ≤ z ≤ 1,

dz 
(1 − p)λe−λz + pλe−λ(z−1) se z > 1.


La funzione FXY è discontinua in 0 e quindi la v.a. XY non è assolutamente continua: anzi si ha (cfr.
(2.4.10))
P (XY = 0) = FXY (0) − FXY (0−) = 1 − p.
iii) Per l’indipendenza (cfr. Proposizione 3.5.11) si ha
λ
ϕX+Y (η) = ϕX (η)ϕY (η) = (1 + p(eiη − 1)).
λ − iη
Inoltre
h i "  
iηXY
ϕXY (η) = E e = eiηxy Expλ ⊗ Bep (dx, dy) =
R2
(per il Teorema di Fubini)
Z Z !
= eiηxy Bep (dy) Expλ (dx)
ZR  R 
= 1 − p + peiηx Expλ (dx)
R
λ
= 1−p+p .
λ − iη
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
Soluzione. Si veda l’Esempio 3.2.35.
461

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2017 –

1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:

i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:

i) la distribuzione di Z;
ii) se X e Z sono indipendenti.
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.

i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.


ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?
4. Determinare i valori di a, b ∈ R tale che la funzione

F(x) = a arctan x + b

sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .
462 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2017 –

1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:
i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).

Soluzione.
i) Si ha
3 3
P ((X = 1) ∩ (Y = 0)) = 7
= .
35
3

ii) Poiché
5
3 2
P (Y = 0) = 7
=
7
3
si ha
P ((X = 1) ∩ (Y = 0)) 3
P (X = 1 | Y = 0) = = .
P (Y = 0) 10
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:
i) la distribuzione di Z;
ii) se X e Z sono indipendenti.

Soluzione.
i) Z può assumere solo i valori 0, 1 e vale

P (Z = 1) = P ((X = 0) ∩ (Y = 0)) = (1 − p)2

da cui
Z ∼ (1 − p)2 δ1 + (1 − (1 − p)2 )δ0 .
ii) X e Z non sono indipendenti poiché, per esempio, si ha

P ((X = 0) ∩ (Z = 1)) = P (Y = 0) = 1 − p

e
P (X = 0)P (Z = 1) = (1 − p)3 .
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.
i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.
463

ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?

Soluzione.
i) Indichiamo con E l’evento “l’analisi economica dell’Italia ha esito positivo”. Per la Formula della
probabilità totale si ha

P (E) = P (E | A)P (A) + P (E | B)P (B) + P (E | C)P (C)


1
= (99% + 80% + 30%) ≈ 70%.
3
1
ii) Si tratta di calcolare P (C | E c ): sapendo che P (C) = 3 e

P (E c | C) = 1 − P (E | C) = 70%,

per la Formula di Bayes si ha

P (E c | C)P (C)
P (C | E c ) = ≈ 77%.
P (E c )

4. Determinare i valori di a, b ∈ R tale che la funzione

F(x) = a arctan x + b

sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .
1 1
Soluzione. Affinché siano verificate le proprietà di una CDF, deve essere a = π eb= 2. La densità si
determina semplicemente derivando F:

1
γ(x) = F ′ (x) = .
π(1 + x2 )
|x|
La v.a. X non è sommabile poiché la funzione π(1+x2 )
< L1 (R).
464 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2017 –

1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie a caso un’urna e si estrae una pallina: osservato che
tale pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?
2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le
une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.

i) Determinare P (NA = k).


ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una
variabile aleatoria di Poisson, N ∼ Poissonλ con λ > 0: determinare la probabilità che ci sia una
sola stella in A.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco

D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.

i) Determinare la densità di (X, Y ) e se X, Y sono indipendenti;


ii) scrivere l’espressione (non importa calcolare gli integrali) di P (X > 12 ) e P (X > 1
2 | Y > 0).
465

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2017 –

1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie un’urna e si estrae una pallina: osservato che tale
pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?

Soluzione. Consideriamo gli eventi:

– A: scegliendo un’urna ed estraendo una pallina, essa è rossa;


– B: scegliendo a caso un’urna, essa contiene due palline rosse.

Siamo interessati a calcolare P (B | A) e per il Teorema di Bayes abbiamo

P (A | B)P (B) 1 · 13 2
P (B | A) = = 1 = .
P (A) 2
3

2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le


une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.

i) Determinare P (NA = k).


ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una
variabile aleatoria di Poisson, N ∼ Poissonλ con λ > 0: determinare la probabilità che ci sia una
sola stella in A.

Soluzione.
2
i) Poiché la distribuzione della posizione è uniforme, ogni stella ha probabilità p = 3 di essere in A
indipendentemente dalle altre. Allora

N 2k
!
P (NA = k) = BinN ,p (k) = .
k 3N

ii) Per la formula della probabilità totale, la probabilità cercata è


∞ ∞
X e−λ λN X 2N λN 2λ 2λ
P (NA = 1) = e−λ = e− 3 .
N! 3N N ! 3
N =0 N =1

3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco

D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.

i) Determinare la densità di (X, Y ) e se X, Y sono indipendenti;


ii) scrivere l’espressione (non importa calcolare gli integrali) di P (X > 12 ) e P (X > 1
2 | Y > 0).

Soluzione.
466 APPENDICE B. TEMI D’ESAME RISOLTI

i) La densità congiunta è
1
γ(X,Y ) (x, y) = 1 (x, y).
π D
Allora
2√
Z
γX (x) = γ(X,Y ) (x, y)dy = 1 − x2 1[−1,1] (x)
R π
e in modo analogo si calcola γY e si verifica facilmente che X, Y non sono indipendenti.
ii) si ha
  Z1
1
P X>2 = γX (x)dx,
1
2
  P ((X > 1 ) ∩ (Y > 0)) 2
1 2
P X> 2 |Y >0 = = Leb({(x, y) ∈ D | x > 12 , y > 0}).
P (Y > 0) π
467

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2017 –

1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.
2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.
3. Sia (X, Y ) ∼ N0,C con !
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:
i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;
ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .
4. Sia X una v.a. reale con densità γX .
i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .
5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che

E [X | B] = E [X] .
468 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2017 –

1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.

Soluzione.
i) Indichiamo con D l’evento di cui dobbiamo calcolare la probabilità. La probabilità che una scatola
prodotta da A abbia esattamente un prodotto difettoso è pA = Bin10,0.5% ({1}) ≈ 4.78%. Analogamen-
te pB = Bin10,0.1% ({1}) ≈ 0.99%. Allora, con notazioni il cui significato dovrebbe essere evidente, la
probabilità cercata è

P (D) = P (D | A)P (A) + P (D | B)P (B) = pA ∗ 30% + pB ∗ 70% ≈ 2.13%.

ii) Per la formula di Bayes, si ha

P (D | A)P (A) pA ∗ 30%


P (A | D) = = ≈ 67.39%.
P (D) 2.13%

iii) La probabilità che è un singolo prodotto sia difettoso è pari a

pD = 0.5% ∗ 30% + 0.1% ∗ 70% ≈ 0.22%.

Allora la probabilità cercata è pari a Bin10,pD ({1}) ≈ 2.15%.


2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.

Soluzione. Indichiamo con X l’evento “un’email è spam” e con S l’evento “un’email è sospetta”. Per ipotesi
si ha
P (X) = 60%, P (S | X) = 90%, P (S | X c ) = 1%.
Allora per la formula di Bayes otteniamo

P (S | X)P (X)
P (X | S) = =
P (S)

(per la formula della probabilità totale)

P (S | X)P (X)
= ≈ 99.26%.
P (S | X)P (X) + P (S | X c )P (X c )
469

3. Sia (X, Y ) ∼ N0,C con


!
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:

i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;


ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .

Soluzione.

i) Si ha ! ! !
X +Y X 1 1
=α , α= ,
X −Y Y 1 −1
e quindi (X + Y , X − Y ) ∼ N0,αCα ∗ . Inoltre
!
2(1 + ϱ) 0
αCα ∗ =
0 2(1 − ϱ)

da cui segue che X + Y e X − Y sono indipendenti per ogni ϱ ∈ [−1, 1];


ii) Da i) segue anche che X + Y ∼ N0,2(1+ϱ) e quindi X + Y ∈ AC per ϱ ∈] − 1, 1] con densità normale
2
1 − z
γX+Y (z) = p e 4(1+ϱ) , z ∈ R.
2 π(1 + ϱ)

4. Sia X una v.a. reale con densità γX .

i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .

Soluzione.

i) Chiaramente γ ≥ 0 e vale
Z Z Z ! Z
1
γ(x)dx = γX (x)dx + γX (−x)dx = γX (x)dx = 1.
R 2 R R R

ii) Si ha
h i
ϕY (η) = E eiηY
Z
γ (x) + γX (−x)
= eiηx X dx
R 2
1
= (ϕX (η) + ϕX (−η)) = Re (ϕX (η)) .
2
470 APPENDICE B. TEMI D’ESAME RISOLTI

iii) Siano X1 e X2 v.a. indipendenti, uguali in legge a X. Allora

ϕX1 +X2 (η) = ϕX1 (η)ϕX2 (η) = ϕX (η)2 .

5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che

E [X | B] = E [X] .

Soluzione. Si ha
Z
1 1
E [X | B] = XdP = E [X1B ] =
P (B) B P (B)

(per l’indipendenza di X e B)

1
= E [X] E [1B ] = E [X] .
P (B)
471

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2018 –

1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:

i) la funzione di distribuzione congiunta di X e Y ;


ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.

3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.
4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
 
1 0 0 
C = 0 1 −1 .
 
0 −1 1
 

Dati i vettori aleatori Y := (X1 , X2 ) e Z := (X2 , X3 ), si determini:


i) la distribuzione di Y e Z, specificando se sono assolutamente continui;
ii) se Y e Z sono indipendenti;
iii) le funzioni caratteristiche ϕY e ϕZ .
5. Sia X ∼ Nµ,1 con µ ∈ R e sia ϕX (η) la CHF di X.
h i
i) Dato c ∈ R, si calcoli E ecX : a tal fine si scelga un opportuno valore complesso ηc per cui vale
h i
E ecX = ϕX (ηc ).
ii) Data Y ∼ Unifn , con n ∈ N, indipendente da X, si scriva la distribuzione congiunta di X e Y . Si
h Xi
calcoli E e Y .
X
iii) Posto Z = Y, si determini la CDF di Z. Nel caso in cui Z ∈ AC, se ne determini la densità.
472 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2018 –

1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:
i) la funzione di distribuzione congiunta di X e Y ;
ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?

Soluzione.
1
i) Per h, k ∈ I10 si ha P (X = h) = 10 ossia X ∼ Unif10 e

3


 39 se h = k,
P (Y = k | X = h) =  4

 39 se h , k.

Allora la funzione di distribuzione di (X, Y ) è data da



1


 130 se h = k,
µ̄(X,Y ) (h, k) = P ((X = h) ∩ (Y = k)) = P (Y = k | X = h) P (X = h) =  2 .

 195 se h , k.

ii) Si ha
10
X 2 X 2
P (X < Y ) = µ̄(X,Y ) (h, k) = (k − 1) = · 45.
195 195
1≤h<k≤10 k=2

iii) La funzione di distribuzione di Y si ottiene da


10 10
1 X 1 3 4 1
X  
µ̄Y (k) = µ̄(X,Y ) (h, k) = P (Y = k | X = h)) = +9· =
10 10 39 39 10
h=1 h=1

ossia anche Y ∼ Unif10 . Ne viene anche che X, Y non sono indipendenti poiché la funzione di
distribuzione congiunta non è il prodotto delle marginali (cfr. Teorema 3.3.23).
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.
k!
Soluzione. Basta considerare una qualsiasi funzione misurabile tale che f (k) = λk
per k ∈ N: per esempio si
può prendere f costante a tratti.
3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.

Soluzione. Osserviamo che X = max{Q, 1 − Q} e 21 ≤ X ≤ 1. Determiniamo la CDF di X: per 1


2 ≤ x ≤ 1 si ha
   
P (X ≤ x) = P (Q ≤ x) ∩ (Q ≥ 21 ) + P (1 − Q ≤ x) ∩ (Q ≤ 21 )
= P ( 12 ≤ Q ≤ x) + P (1 − x ≤ Q ≤ 21 ) = 2x − 1.

Ne viene che X ∈ AC e precisamente X ∼ Unif 1 . In particolare E [X] = 34 .


2 ,1
473

4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con


 
1 0 0 
C = 0 1 −1 .
 
0 −1 1
 

Dati i vettori aleatori Y := (X1 , X2 ) e Z := (X2 , X3 ), si determini:

i) la distribuzione di Y e Z, specificando se sono assolutamente continui;


ii) se Y e Z sono indipendenti;
iii) le funzioni caratteristiche ϕY e ϕZ .

Soluzione.

i) Poiché ! !
1 0 0 0 1 0
Y= X, Z= X
0 1 0 0 0 1
si ha Y ∼ N0,CY e Z ∼ N0,CZ con
! !
1 0 1 −1
CY = , CZ = .
0 1 −1 1

Ne viene che Y è assolutamente continuo, mentre Z non lo è perché CZ è singolare.


ii) Per vedere che Y e Z non sono indipendenti basta osservare che, per ogni H ∈ B1 , si ha

P ((Y ∈ R × H) ∩ (Z ∈ H × R)) = P (X2 ∈ H),

e
P (Y ∈ R × H) = P (X2 ∈ H) = P (Z ∈ H × R).

iii) Si ha
1 2 2 1 2 2
ϕY (η1 , η2 ) = e− 2 (η1 +η1 ) , ϕZ (η1 , η2 ) = e− 2 (η1 +η1 −2η1 η2 ) .

5. Sia X ∼ Nµ,1 con µ ∈ R e sia ϕX (η) la CHF di X.


h i
i) Dato c ∈ R, si calcoli E ecX : a tal fine si scelga un opportuno valore complesso ηc per cui vale
h i
E ecX = ϕX (ηc ).
ii) Data Y ∼ Unifn , con n ∈ N, indipendente da X, si scriva la distribuzione congiunta di X e Y . Si
h Xi
calcoli E e Y .
X
iii) Posto Z = Y, si determini la CDF di Z. Nel caso in cui Z ∈ AC, se ne determini la densità.

Soluzione.

i) Posto ηc = −ic si ha
h i c2
E ecX = ϕX (−ic) = ecµ+ 2 .

ii) Per l’indipendenza, si ha µ(X,Y ) = Nµ,1 ⊗ Unifn e


 X " x
E eY = e y Nµ,1 ⊗ Unifn (dx, dy) =
R2
474 APPENDICE B. TEMI D’ESAME RISOLTI

(per il Teorema di Fubini)


n Z
1X x
= e k Nµ,1 (dx) =
n R
k=1

(per quanto visto nel punto i) con c = 1k )


n
1 X µk + 12
= e 2k .
n
k=1

iii) Per la formula della probabilità totale, si ha


n
X
FZ (z) = P (Z ≤ z) = P (Z ≤ z | Y = k) P (Y = k)
k=1
n n Z kz
1X 1X
= P (X ≤ kz) = Γ (x − µ)dx
n n −∞
k=1 k=1

x2
dove Γ (x) = √1 e− 2 è la densità normale standard. Z ∈ AC poiché FZ ∈ C ∞ (R) e vale

n
1X
FZ′ (z) = kΓ (kz − µ).
n
k=1
475

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2018 –

1. Si effettuano estrazioni, senza reinserimento, da un mazzo di 40 carte. Si determini:

i) la probabilità che le prime due carte abbiano lo stesso seme;


ii) la distribuzione della v.a. N che indica il numero della prima estrazione in cui si ha un asso.

2. Siano F una CDF e α > 0.


i) Si provi che F α è ancora una CDF;
ii) sia F la CDF di Expλ : si determini la densità della v.a. con CDF F α ;
iii) sia F la CDF della distribuzione discreta Unifn , con n ∈ N fissato. Per α che tende a +∞, F α tende
a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della
normale standard?
3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?

i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità

2xy se 0 < x < 1, 0 < y <

 √1 ,
f (x, y) =  x
0
 altrimenti.

i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.


ii) Le variabili aleatorie X e Y hanno media e varianza finite?
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga

Z = X cos α + Y sin α.

Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.
476 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2018 –

1. Si effettuano estrazioni, senza reinserimento, da un mazzo di 40 carte. Si determini:

i) la probabilità che le prime due carte abbiano lo stesso seme;


ii) la distribuzione della v.a. N che indica il numero della prima estrazione in cui si ha un asso.

Soluzione.
9
i) 39 ;
4
ii) P (N = 1) = 40 e per 1 < n ≤ 36
4 D36,n−1
P (N = n) =
D
40,n

dove D36,n−1 rappresenta le disposizioni delle prime n − 1 estrazioni di carte diverse dagli assi e D40,n
tutte le possibili disposizioni delle prime n estrazioni.

2. Siano F una CDF e α > 0.

i) Si provi che F α è ancora una CDF;


ii) sia F la CDF di Expλ : si determini la densità della v.a. con CDF F α ;
iii) sia F la CDF della distribuzione discreta Unifn , con n ∈ N fissato. Per α che tende a +∞, F α tende
a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della
normale standard?

Soluzione.

i) Per ogni α > 0 la funzione f (x) = xα è continua, monotona crescente su [0, 1], f (0) = 0 e f (1) = 1. Ne
segue che le proprietà di monotonia, continuità a destra e i limiti a ±∞ si conservano componendo f
con una CDF F.
 α
ii) La funzione F α (t) = 1 − e−λt 1R≥0 (t) è assolutamente continua e derivando si ottiene la densità

γ(t) = αλe−λt (1 − e−λt )α−1 1R≥0 (t).

ii) Poiché F(x) < 1 per x < n e F(x) = 1 per x ≥ n, si ha



0 se x < n,

α

G(x) = lim F (x) = 
α→+∞ 1 se x ≥ n,

ossia G è la CDF della Delta di Dirac centrata in n. Se F è la CDF della normale standard si ha
0 < F(x) < 1 per ogni x ∈ R e quindi, per α → +∞, F α tende puntualmente alla funzione identicamente
nulla che non è una CDF.

3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?

i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
477

sin η
Soluzione. i) non implica ii): per esempio, X ∼ Unif[−1,1] è assolutamente continua ma ϕX (η) = η non è
sommabile come si può verificare direttamente oppure col Teorema di inversione. Invece ii) implica i) per il
Teorema di inversione.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità

2xy se 0 < x < 1, 0 < y <

 √1 ,
f (x, y) =  x
0
 altrimenti.
i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.
ii) Le variabili aleatorie X e Y hanno media e varianza finite?

Soluzione.
i) Si ha
R √1
 0 x 2xydy = 1 se 0 < x < 1,


fX (x) = 

0 altrimenti,
 1
 R 2
 0y 2xydx = 13 se y > 1,



 y
fY (y) = 
R 1
 2xydx = y se 0 < y < 1,
0



 0 se y < 0.
X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
ii) X ∼ Unif[0,1] e quindi ha media e varianza finite. La densità di Y è limitata sui compatti ed è uguale a
y −3 per y > 1. Ne viene che Y ha media finita e varianza infinita.
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga
Z = X cos α + Y sin α.
Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.

Soluzione.
i) Determiniamo la distribuzione di Z calcolandone la CHF:
h i
ϕZ (η) = E eiη(X cos α+Y sin α) =

(per l’ipotesi di indipendenza)


Z 2π Z Z
1
= eiη(x cos t+y sin t) N0,1 (dx)N0,1 (dy)dt =
2π 0 R R
(nota la CHF della normale standard)
Z 2π
1 1 2 2 2 η2
= e− 2 η (cos t+sin t ) dt = e− 2
2π 0
e quindi Z ∼ N0,1 .
478 APPENDICE B. TEMI D’ESAME RISOLTI

ii)
h i
cov(X, Z) = E [XZ] = E X 2 cos α + XY sin α =

(per l’ipotesi di indipendenza)


h i
= E X 2 E [cos α] = 0
h i
poiché E X 2 = var(X) = 1 e
Z 2π
1
E [cos α] = cos tdt = 0.
2π 0

iii) Si ha
h i h i
ϕ(X,Z) (1, 1) = E ei(X+Z) = E eiX(1+cos α)+iY sin α

(per l’ipotesi di indipendenza)


Z 2π Z Z
1
= eix(1+cos t)+iy sin t N0,1 (dx)N0,1 (dy)dt
2π 0 R R
Z 2π
1 1 2
− 21 sin2 t
= e− 2 (1+cos t) dt
2π 0

e−1
Z
= e− cos t dt.
2π 0

Allora X e Z non sono indipendenti perché altrimenti dovrebbe essere

ϕ(X,Z) (1, 1) = ϕX (1)ϕZ (1) = e−1 .


479

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Maggio 2018 –

1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .

2. In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra


le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa.
i) Supposto N = 100, si determini (o si spieghi come è possibile determinare) il massimo valore
n̄ ∈ N tale che
P (N1 ≥ n̄) ≥ 90%.

ii) Assumendo che N ∼ Poisson100 , si scriva una formula per calcolare

P (N1 ≥ 15).

3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.
4. Siano X e Y v.a. con densità congiunta

1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [

i) Si calcolino le densità marginali.


ii) Le v.a. Z := eX e W := eY sono indipendenti?
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:

i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .
480 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Maggio 2018 –

1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .

Soluzione.
i) Per la formula della probabilità totale si ha
90 90
X X 90 − k 1 1
P (A) = P (A | p1 = k)P (p1 = k) = · = .
89 90 2
k=1 k=1

ii) 1A ha distribuzione di Bernoulli, 1A ∼ Be 1 .


2
iii)
90
P ((p1 ≥ 45) ∩ A) X 90 − k 1
P (p1 ≥ 45 | A) = =2 · ≈ 25.8%.
P (A) 89 90
k=45

2. In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra


le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa.
i) Supposto N = 100, si determini (o si spieghi come è possibile determinare) il massimo valore
n̄ ∈ N tale che
P (N1 ≥ n̄) ≥ 90%.
ii) Assumendo che N ∼ Poisson100 , si scriva una formula per calcolare
P (N1 ≥ 15).

Soluzione.
i) Ogni cliente ha la probabilità di 15 di andare alla prima cassa, indipendentemente dagli altri, e quindi
N1 ∼ Bin100, 1 . Allora occorre determinare il massimo valore di n tale che
5

100
100 1 k 4 100−k
X !   
90% ≤ P (N1 ≥ n) = .
k 5 5
k=n

Si trova che P (N1 ≥ 16) ≈ 87.1% e P (N1 ≥ 15) ≈ 91.9%, quindi n̄ = 15.
ii) Si ha

X
P (N1 ≥ 15) = P (N1 ≥ 15 | N = h)P (N = h)
h=0
h
∞ X
h 1 k 4 h−k e−100 100h
X !   
= ≈ 89.5%.
k 5 5 h!
h=15 k=15
481

3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.

Soluzione. Per esempio  sgn(x)


 √|x|

 se x , 0,
f (x) = 
0 se x = 0.

Si ha Z 1
1
E [f (X)] = f (x)dx = 0
2 −1
e
i Z 1
h
2 1
var(f (X)) = E f (X) = dx = +∞.
−1 |x|

4. Siano X e Y v.a. con densità congiunta


1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [
i) Si calcolino le densità marginali.
ii) Le v.a. Z := eX e W := eY sono indipendenti?

Soluzione.
i) Si ha
Z Z 1
λ 1
γX (x) = γ(X,Y ) (x, y)dy = dy = − log x, x ∈ ]0, 1[,
R x y
λ
Z Z λy
1 i h
γY (y) = γ(X,Y ) (x, y)dx = dx = λ, y ∈ 0, λ1 .
R 0 y
Quindi γX (x) = log x · 1]0,1[ (x) e γY (y) = λ1]0, 1 [ (y).
λ
ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:

i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .

Soluzione.
i) La CDF di X 2 è data da


Z z √
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = λ1 e−λ1 t dt = 1 − e−λ1 z
0

se z ≥ 0 e FX 2 ≡ 0 su ] − ∞, 0]. Trattandosi di una funzione AC, ricaviamo la densità di X 2


differenziando √
d λ1 e−λ1 z
γX 2 (z) = F 2 (z) = √ 1R≥0 (z).
dz X 2 z
482 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Per l’indipendenza si ha

λ1 λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = .
(λ1 − iη1 )(λ2 − iη2 )

iii) Analogamente
λ1 λ2
ϕX+Y (η) = ϕX (η)ϕY (η) = .
(λ1 − iη)(λ2 − iη)
483

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2018 –

Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.

1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?

2. Sia data la funzione  α


β − e−x se x ≥ 0,


F(x) = 
0
 se x < 0.

i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.

3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2

i) Provare che le v.a.


Z := X − Y , W := T X + (1 − T )Y ,
hanno distribuzione normale;
ii) si calcoli cov(Z, W );
iii) si determini la CHF congiunta ϕ(Z,W ) ;
iv) le v.a. Z e W sono indipendenti?
484 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2018 –

Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.

1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?

Soluzione.
i) X2 ha distribuzione uniforme su I10 = {n ∈ N | n ≤ 10}, ossia X2 ∼ UnifI10 : per verificarlo in modo
rigoroso si può procedere come nell’Esempio 3.3.24 oppure con la Formula della probabilità totale:

P (X2 = n) = P (X2 = n | X1 = n)P (X1 = n) + P (X2 = n | X1 , n)P (X1 , n)


3 1 4 9 1
= · + · = , n ∈ I10 .
39 10 39 10 10
ii) Risolviamo il quesito in due modi: utilizzando la probabilità condizionata e in particolare la formula
(2.3.5) si ha
4 24 23
P (A) = P (X1 ≤ 4)P (X2 ≥ 5 | X1 ≤ 4)P (X3 ≥ 5 | (X1 ≤ 4) ∩ (X2 ≥ 5)) = · · .
10 39 38
Si ottiene lo stesso risultato col metodo delle scelte successive: osserviamo che occorre usare le disposi-
zioni perché siamo interessati all’ordine di estrazione delle carte. Dunque
16 · |D24,2 |
P (A) = .
|D40,3 |

Poi B = B0 ⊎B1 dove B0 è l’evento “nessuna carta estratta ha valore minore o uguale a 4” e B1 è l’evento
“esattamente una carta estratta ha valore minore o uguale a 4”. Si ha P (B) = P (B0 ) + P (B1 ) e
|C24,3 | |D24,3 |
P (B0 ) = =
|C40,3 | |D40,3 |
16 · |C24,2 | 3 · 16 · |D24,2 |
P (B1 ) = = .
|C40,3 | |D40,3 |
Il fattore “3” che appare nell’ultima espressione è dovuto al fatto che, se usiamo le disposizioni, allora
dobbiamo tenere conto dell’ordine e pertanto dobbiamo anche fare la scelta della posizione (fra le tre
possibili) della carta che ha valore minore o uguale a 4.
485

iii) A ⊆ B e quindi A∩B = A. Ma P (A∩B) = P (A) , P (A)P (B) e quindi non si tratta di eventi indipendenti.
P (A)
Inoltre si ha P (A | B) = P (B) .
iv) X2 e N non sono indipendenti perché, per esempio, (X2 = 4) ∩ (N = 0) = ∅ ma

P (X2 = 4)P (N = 0) , 0.

2. Sia data la funzione  α


β − e−x se x ≥ 0,


F(x) = 
0
 se x < 0.

i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.

Soluzione.
i) Se α = 0 e β = 1 + 1e allora F è la CDF della distribuzione Delta di Dirac centrata in 0. Gli altri valori
per cui F è una CDF sono α > 0 e β = 1;
ii) se α > 0 e β = 1 allora
1
P (X ≤ 0) = F(0) = 0, P (X ≥ 1) = 1 − F(1) = .
e
Se α = 0 e β = 1 + 1e allora P (X ≤ 0) = 1 e P (X ≥ 1) = 0.
iii) X ∈ AC se α > 0 e β = 1 e in tal caso una densità si determina derivando F:
 α
αxα−1 e−x se x > 0,



γ(x) = F (x) = 
0
 se x < 0.

iv) Se α = 2 si ha Z +∞ √
h
−1
i 2
E X =2 e−x dx = π.
0
Determiniamo la CDF di Z: anzitutto P (Z ≤ 1) = 0 e per z > 1 si ha
√ √ √
P (X 2 + 1 ≤ z) = P (− z − 1 ≤ X ≤ z − 1) = P (X ≤ z − 1) = 1 − e1−z .

Allora la densità di Z è
γZ (z) = e1−z 1[1,+∞[ (z).
3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2

i) Provare che le v.a.


Z := X − Y , W := T X + (1 − T )Y ,
hanno distribuzione normale;
ii) si calcoli cov(Z, W );
iii) si determini la CHF congiunta ϕ(Z,W ) ;
486 APPENDICE B. TEMI D’ESAME RISOLTI

iv) le v.a. Z e W sono indipendenti?

Soluzione.

i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X  
Z =α , α = 1 −1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto

N0,1 ⊗ N0,1 ⊗ Be 1
2

e quindi per ogni f ∈ mB e limitata si ha


Z  
E [f (W )] = f (tx + (1 − t)y) N0,1 ⊗ N0,1 ⊗ Be 1 (dx, dy, dt) =
2
R3

(per il Teorema di Fubini)


Z Z Z ! !
= f (tx + (1 − t)y)N0,1 (dx) N0,1 (dy) Be 1 (dt)
2
R R R
Z Z ! Z Z !
1 1
= f (x)N0,1 (dx) N0,1 (dy) + f (y)N0,1 (dx) N0,1 (dy)
2 R R 2 R R
Z Z
1 1
= f (x)N0,1 (dx) + f (y)N0,1 (dy)
2 R 2 R
Z
= f (x)N0,1 (dx).
R

Quindi W ∼ N0,1 .
ii) Si ha

cov(Z, W ) = E [(X − Y )(T X + (1 − T )Y )]


h i h i
= E T X 2 + E [(1 − 2T )XY ] − E (1 − T )Y 2 =

(per l’indipendenza di X, Y , T )
h i h i
= E [T ] E X 2 − E [1 − T ] E Y 2 = 0.

iii) La CHF congiunta è data da


h i
ϕ(Z,W ) (η1 , η2 ) = E ei(η1 (X−Y )+η2 (T X+(1−T )Y ))
h i h i
= E ei(η1 (X−Y )+η2 X) 1(T =1) + E ei(η1 (X−Y )+η2 Y ) 1(T =0) =

(per l’indipendenza di X, Y , T )

1 h i(η1 +η2 )X i h −iη1 Y i 1 h iη1 X i h i(η2 −η1 )Y i


= E e E e + E e E e =
2 2
487

(poiché X, Y ∼ N0,1 )

η12
e− 2
!
(η1 +η2 )2 (y1 −η2 )2
− −
= e 2 +e 2 ,
2

che non è la CHF di una normale bidimensionale. Questo prova anche che

ϕ(Z,W ) (η1 , η2 ) , ϕZ (η1 )ϕW (η2 )

e quindi Z, W non sono indipendenti.


488 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2018 –

1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:
i) la probabilità che, lanciando i dadi una volta, vinca A;
ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).
2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.
i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.
3. Sia X una v.a. con CDF 


0 x < 0,

F(x) = λx 0 ≤ x < 1,



1

x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .

4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .
489

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2018 –

1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:

i) la probabilità che, lanciando i dadi una volta, vinca A;


ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).

Soluzione.

i) Siano NA e NB i numeri ottenuti nel primo lancio di dadi: allora

7
1 4 3 2 1 10
X  
P (NA > NB ) = P (NA > k | NB = k)P (NB = k) = + + + = =: p.
6 6 6 6 6 36
k=2

ii) La v.a. T che indica il primo istante in cui A vince ha distribuzione geometrica di parametro p: quindi

P (T ≤ 10) = 1 − P (T > 10) = 1 − (1 − p)10 ≈ 96%.

iii) Come nel punto i), si calcola


5
P (NA = NB ) =
36
5 10
 
e quindi la probabilità cercata è 36 .
iv) se N rappresenta il numero di vincite di A nei primi dieci lanci, allora N ∼ Bin10,p e quindi E [N ] =
100
36 .

2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.

i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.

Soluzione.

i) Se M è l’evento “contrarre la malattia” e V è l’evento “essere vaccinato”, si ha

P (M) = P (M | V )P (V ) + P (M | V c )(1 − P (V ))

da cui
P (M) − P (M | V c )
P (V ) = ≈ 89%
P (M | V ) − P (M | V c )
490 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Per il Teorema di Bayes, si ha


P (M | V )P (V )
P (V | M) = ≈ 0.09%
P (M)
3. Sia X una v.a. con CDF 


0 x < 0,

F(x) = λx 0 ≤ x < 1,



1

x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .

Soluzione.
i) No, P (X = 1) = F(1) − F(1−) = 1 − λ > 0. Riconosciamo che X ∼ λUnif[0,1] + (1 − λ)δ1 .
ii) Calcoliamo la CDF di Z. Per z ∈ [0, 1] si ha
P (Z ≤ z) = P ((Z ≤ z) ∩ (X < 1)) + P ((Z ≤ z) ∩ (X ≥ 1))
= P ((X ≤ z) ∩ (X < 1)) + P ((Y ≤ z) ∩ (X ≥ 1))
(per l’indipendenza)
= λz + P (Y ≤ z)P (X ≥ 1) = λz + z(1 − λ) = z.
Di conseguenza Z ∼ Unif[0,1] .
4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .

Soluzione.
i) La densità di (X, Y ) è
1
γ(X,Y ) (x, y) = 1 (x, y), T = {x, y ∈ R | x, y ≥ 0, x + y ≤ 2}.
2 T
Si ha Z Z 2−x
1 2−x
γX (x) = γ(X,Y ) (x, y)dy = 1 (x)dy = 1 (x).
R 0 2 [0,2] 2 [0,2]
Il calcolo di γY è analogo.
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha Z Z
1 z
γZ (z) = γ(X,Y ) (x, z − x)dx = 1T (x, z − x)dx = 1[0,2] (z).
R 2 R 2
Quindi Z2 2
z 4
E [Z] = dz = .
0 2 3
491

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2018 –

1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:
i) A1 = le due palline della prima estrazione sono bianche;
ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.
2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.
i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.
3. Sia (X, Y , Z) ∼ N0,C con
 
1 1 0 
C = 1 2 −1 .
 
0 −1 2
 

Determinare:
i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?
 
4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .

i) Si calcoli media, varianza e CHF di Xn .


X −1 d
ii) Si calcoli la CHF di Zn := √n e si deduca che Zn −−−−→ 0 per il Teorema di continuità di Lévy.
n−1
L2
iii) Vale anche Zn −−−→ 0 ?
P
iv) [Facoltativo] Vale anche Zn −−→ 0 ?
5. Verificare che la funzione 
4y

 se x > 0 e 0 < y < e−x ,
γ(x, y) = 
0
 altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
492 APPENDICE B. TEMI D’ESAME RISOLTI

i) Determinare le densità marginali γX e γY .


ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).
493

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2018 –

1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:

i) A1 = le due palline della prima estrazione sono bianche;


ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.

Soluzione.

|C3,2 | (3) 1
i) P (A1 ) = = 2 = 35 .
|C15,2 | (152)
|C3,2 |+|C6,2 |+|C6,2 | (32)+2(62) 11
ii) P (A2 ) = = 15 = 35 .
|C15,2 | (2)
iii) se B = “le due palline della seconda estrazione sono bianche” allora

P (A3 ) = P (B | A1 )P (A1 ) = 0.

iv) se Ci = “le due palline della i-esima estrazione sono rosse” allora

C4,2 C6,2 4 6
2 2 1
P (A4 ) = P (C1 ∩ C2 ) = P (C2 | C1 )P (C1 ) = =
13 15
= .
C C
13,2 15,2 91
2 2

2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.

i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.

Soluzione.

i) Xn è una v.a. di Bernoulli e, per la formula della probabilità totale, si ha


10 10
X 1 X
P (Xn = 1) = P (Xn = 1 | Yn = i)P (Yn = i) = pi =: p.
10
i=1 i=1

Dunque Xn ∼ Bep .
494 APPENDICE B. TEMI D’ESAME RISOLTI

ii) N ∼ Geomp e quindi E [N ] = p1 .


iii) Si ha (cfr. Teorema 3.1.25)
P (N > 100) = (1 − p)100 .

3. Sia (X, Y , Z) ∼ N0,C con


 
1 1 0 
C = 1 2 −1 .
 
0 −1 2
 

Determinare:

i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?

Soluzione. Osserviamo che (X, Y ) ∼ N0,D con


!
1 1
D=
1 2

e quindi:
!
  X
i) essendo X + Y = 1 1 , si ha X + Y ∼ N0,5 poiché
Y
!
  1
A= 1 1 D = 5.
1

ii)
1
ϕ(X,Y ) (η) = e− 2 ⟨Dη,η⟩ , η ∈ R2 .

iii) se (X, Y ) e Z fossero indipendenti, allora lo sarebbero anche Y e Z, ma cov(Y , Z) = −1.


 
4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .

i) Si calcoli media, varianza e CHF di Xn .


X −1 d
ii) Si calcoli la CHF di Zn := √n e si deduca che Zn −−−−→ 0 per il Teorema di continuità di Lévy.
n−1
L2
iii) Vale anche Zn −−−→ 0 ?
P
iv) [Facoltativo] Vale anche Zn −−→ 0 ?

Soluzione.

i) Si ha
1 1
  h i
E [Xn ] = 0 · 1 − + n · = 1, var(Xn ) = E (Xn − 1)2 = n − 1.
n n
Inoltre
h i 1 1
ϕXn (η) = E eiηXn = 1 − + eiηn .
n n
495

ii) Si ha
η  √η 
−i √ i X
ϕZn (η) = e n−1 E e n−1 n
η
!
−i √ η
=e n−1 ϕXn √
n−1
η η 
1 1 in √n−1

−i √
=e n−1 1− + e −−−−−−→ 1.
n n n→∞

Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi.
iii) Si ha
h i 1
∥Zn ∥22 = E Zn2 = var(Xn ) = 1
n−1
e quindi non si ha convergenza in L2 (Ω, P ).
iv) Si ha convergenza in probabilità per il punto vi) del Teorema 4.1.9.
5. Verificare che la funzione 
4y

 se x > 0 e 0 < y < e−x ,
γ(x, y) = 
0
 altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
i) Determinare le densità marginali γX e γY .
ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).

Soluzione. La funzione γ è non-negativa e misurabile con


Z Z +∞ Z e−x Z +∞
γ(x, y)dxdy = 4ydydx = 2e−2x dx = 1.
R2 0 0 0

i) Abbiamo appena calcolato


Z Z e−x
γX (x) = γ(x, y)dy = 4ydy = 2e−2x 1]0,+∞[ (x)
R 0

da cui si riconosce che X ∼ Exp2 . Poi osserviamo che


γ(x, y) = 4y1]0,− log y[ (x)1]0,1[ (y)
da cui Z Z − log y
γY (y) = γ(x, y)dx = 4y1]0,1[ (y)dx = −4y log y 1]0,1[ (y).
R 0
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
γ(x, y) 1
γX|Y (x, y) = 1 (y) = − 1 (x)1]0,1[ (y)
γY (y) (γY >0) log y ]0,− log y[
e quindi X ha densità condizionata uniforme su ]0, − log Y [.
iv) Per quanto visto al punto iii), si ha
− log Y (log Y )2
E [X | Y ] = , var(X | Y ) = .
2 12
496 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2019 –

1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora  α
Zα = X 2 + Y 2 , α > 0.

iii) scrivere la CDF di Zα e disegnarne il grafico;


iv) stabilire se Zα ∈ AC e in tal caso scriverne la densità;
v) determinare i valori di α > 0 per cui Z1 è sommabile e per tali valori calcolare il valore atteso.
α

4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:
i) la CDF della v.a. nX1 per n ∈ N;
ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.
5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:
i) la densità congiunta γ(S,T ) e marginale γS ;
ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).
497

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2019 –

1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.

Soluzione.
i) Sia A =“è estratta la moneta d’argento”. Allora per k = 0, 1, . . . , n si ha
!
n k
P (X = k | A) = Binn,p (k) = p (1 − p)n−k .
k

ii) Per la formula della probabilità totale, si ha


1 1 
P (X = k) = (P (X = k | Ac ) + P (X = k | A)) = Binn, 1 (k) + Binn,p (k) (B.0.1)
2 2 2

iii) Anzitutto
1 1
 
n
P (X = n) = + p .
2 2n
Per il Teorema di Bayes, si ha
P (X = n | A)P (A) pn
P (A | X = n) = = 1
.
P (X = n) 2n + pn

iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.1) si ha
1 n
 
E [X] = + np .
2 2
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.

Soluzione.
i) Imponendo Z
1= γ(x)dx = 2b
R
si ha b = 21 . Inoltre γ ≥ 0 se e solo se ax ≥ − 12 per ogni x ∈ [−1, 1] da cui si ricava la condizione
− 12 ≤ a ≤ 12 .
498 APPENDICE B. TEMI D’ESAME RISOLTI

1.0

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

-1.0 -0.5 0.5 1.0 1.5 2.0 -1.0 -0.5 0.5 1.0 1.5 2.0

Figura B.1: A sinistra: grafico di F per α > 1. A destra: grafico di F per 0 < α < 1.

ii) La CHF è data da Z 1


1 sin η sin η − η cos η
 
eiηx ax + dx = + 2ia
−1 2 η η2
e ha valori reali se a = 0.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora  α
Zα = X 2 + Y 2 , α > 0.

iii) scrivere la CDF di Zα e disegnarne il grafico;


iv) stabilire se Zα ∈ AC e in tal caso scriverne la densità;
1
v) determinare i valori di α > 0 per cui Zα è sommabile e per tali valori calcolare il valore atteso.

Soluzione.
i) γ(X,Y ) = π1 1C e E [X] = 0.
ii) Se X e X − Y fossero indipendenti allora si avrebbe
h i 1
0 = E [X] E [X − Y ] = E [X(X − Y )] = E X 2 − E [XY ] = ,
4
dove i valori attesi si determinano con un semplice calcolo come nell’Esempio 3.3.34.
iii) Si ha 
0 se t ≤ 0,


F(t) := P (Zα ≤ t) = 
1 se t ≥ 1

e, per 0 < t < 1,  


1 1
P (Zα ≤ t) = P X 2 + Y 2 ≤ t α = t α
1
dove la probabilità è calcolata come rapporto fra l’area del cerchio di raggio t 2α e quello di raggio
unitario: si veda la Figura B.1.
499
Rt
iv) F è assolutamente continua perché è derivabile q.o. e vale F(t) = 0
F ′ (s)ds (cfr. Definizione 2.4.30).
Una densità di Zα è data da
1 1
F ′ (t) = t α −1 1]0,1[ (t).
α
v) Si ha
1
h
−1
i Z F ′ (t)
E Zα = dt < ∞
0 t
h i
1 1
se 2 − α < 1 ossia 0 < α < 1. In tal caso E Zα−1 = 1−α .

4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:

i) la CDF della v.a. nX1 per n ∈ N;


ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.

Soluzione.

i) Si ha 

0 se x ≤ 0,
x
  
x

FnX1 (x) = P X1 ≤ = λn se 0 < x < λn,
n 

1 se x ≥ λn.

ii) Per la Proposizione 3.6.9, si ha




 0 se x ≤ 0,
x n

n  
 
FYn (x) = 1 − (1 − FnX1 (x)) = 
 1 − 1 − λn se 0 < x < λn,

1 se x ≥ λn.

iii) Si ha 
0

 se x ≤ 0,
lim FYn (x) =  x
n→∞ 1 − e − λ
 se x > 0,
d
e quindi per il Teorema 4.3.3 Yn −−−−→ Y ∼ Exp 1 per n → ∞.
λ

5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:

i) la densità congiunta γ(S,T ) e marginale γS ;


ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).

Soluzione.
500 APPENDICE B. TEMI D’ESAME RISOLTI

i) Per ipotesi γT (t) = te−t 1R≥0 (t) e γS|T (s, t) = 1t 1[t,2t] (s). Dalla formula (5.3.8) per la densità condizio-
nata ricaviamo

γ(S,T ) (s, t) = γS|T (s, t)γT (t) = e−t 1[t,2t]×R≥0 (s, t) = e−t 1R≥0 ×[s/2,s] (s, t)

e Z Z s  s 
γS (s) = γ(S,T ) (s, t)dt = e−t dt 1R≥0 (s) = e− 2 − e−s 1R≥0 (s).
R s/2

ii) Si ha
2
1 2
Z  
P (S < 2) = γS (s)ds = 1 − ≈ 40%,
0 e
Z 2 Z +∞
1 2(e − 2)
E [T | S < 2] = tγ(S,T ) (s, t)dtds = ≈ 0.84.
P (S < 2) 0 0 e−1

iii) Anzitutto
γ(S,T ) (s, t) e−t
γT |S (t, s) = 1(γS >0) (s) = − 2s
1R≥0 ×[s/2,s] (s, t).
γS (s) e − e−s
Allora si ha Z +∞
1 S
 
E [T | S] = t γT |S (t, S)dt = − S/2 +S +2 .
0 2 e −1
501

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2019 –

1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).
2. Sia (X, Y , Z) ∼ Nµ,C con
   
0  1 0 −1
µ = 1 , C =  0 2 2  .
   
2 −1 2 3
   

i) Si determini la CHF di (X, Y );


ii) le v.a. X + Y e Z sono indipendenti?
3. Sia B ∼ Unif[−2,2] . Determinare la probabilità che l’equazione di secondo grado

x2 + 2Bx + 1 = 0
abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n

i) Per ogni n ∈ N, determinare la distribuzione di Xn . Le v.a. X e Xn sono indipendenti?


ii) calcolare E [X], E [Xn ], var(X) e var(Xn );
iii) Xn converge a X in L2 (Ω, P )?
d
iv) Xn −−−−→ X?
P
v) Facoltativo: Xn −−→ X?
5. Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T ∼ Exp1 . Si
attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro.
i) Si determini la CDF di X, calcolando FX (x) separatamente per x ≤ 3 e x > 3;
ii) X è assolutamente continua?
iii) si calcoli E [X];
iv) si calcoli E [X | T ];
v) Facoltativo: X è discreta?
502 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2019 –

1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).

Soluzione. Lo spazio campione di tutte le scelte possibili degli studenti è Ω = DR3,9 , da cui |Ω| = 39 . Si
ricordi che Ω è lo spazio delle funzioni da I9 a I3 e ogni funzione corrisponde ad una scelta possibile dei nove
studenti.

i) Si determinano in C modi possibili i tre studenti che scelgono il primo professore e di conseguenza
9,3

9 6
C9,3 DR2,6 2
P (A) = = 3 9 ≈ 27%.
DR3,9 3

Si ha equivalentemente P (A) = Bin9, 1 ({3}).


3

ii) Si determinano in C9,3 modi possibili i tre studenti che scelgono il primo professore e in C6,3 modi
possibili i tre studenti che scelgono il secondo professore: di conseguenza

C9,3 C6,3 9 6
P (B) = = 3 3 ≈ 8.5%.
DR
3,9 39

iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 31%.
P (A)
iv) Si procede in maniera analoga al punto ii) ma con la differenza che occorre aggiungere un fattore 3!
per il fatto che non viene specificato l’ordine di scelta dei professori. In definitiva

C9,2 C7,3 9 6
P (C) = 3! = 6 3 3 ≈ 38%.
DR
3,9 39

2. Sia (X, Y , Z) ∼ Nµ,C con


   
0  1 0 −1
µ = 1 , C =  0 2 2  .
   
2 −1 2 3
   
503

i) Si determini la CHF di (X, Y );


ii) le v.a. X + Y e Z sono indipendenti?

Soluzione.
! !
0 1 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
1 0 2
1 2 2
ϕ(X,Y ) (η1 , η2 ) = eiη2 − 2 (η1 +2η2 ) .

ii) (X + Y , Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di


conseguenza, X + Y e Z sono indipendenti se e solo se sono scorrelate: poiché

cov(X + Y , Z) = cov(X, Z) + cov(Y , Z) = −1 + 2,

allora X + Y e Z non sono indipendenti.


3. Sia B ∼ Unif[−2,2] . Determinare la probabilità che l’equazione di secondo grado

x2 + 2Bx + 1 = 0

abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?

Soluzione. Si ha ∆ = 4B2 − 4. Le soluzioni sono reali se e solo se ∆ ≥ 0 ossia |B| ≥ 1: ora si ha semplicemente
P (|B| ≥ 1) = 21 . Inoltre le soluzioni sono coincidenti se e solo se |B| = 1, quindi con probabilità nulla.
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n

i) Per ogni n ∈ N, determinare la distribuzione di Xn . Le v.a. X e Xn sono indipendenti?


ii) Calcolare E [X], E [Xn ], var(X) e var(Xn );
iii) Xn converge a X in L2 (Ω, P )?
d
iv) Xn −−−−→ X?
P
v) Facoltativo: Xn −−→ X?

Soluzione.
i) Integrando la densità congiunta si vede che Xn ∼ Unif[−1− 1 ,1+ 1 ] . La densità congiunta è il prodotto
n n
delle densità marginali e quindi le X e Xn sono indipendenti.
 2
ii) È noto che E [X] = E [Xn ] = 0, var(X) = 13 e var(Xn ) = 31 1 + n1 .
iii) Si ha
h i h i h i
E (X − Xn )2 = E X 2 + E Xn2 − 2E [XXn ] =

(per l’indipendenza)

1 1 1 2
 
= var(X) + var(Xn ) = + 1+
3 3 n

e quindi non c’è convergenza in L2 (Ω, P ).


504 APPENDICE B. TEMI D’ESAME RISOLTI

iv) Data l’espressione della CHF uniforme, si ha che


1 1
eiη (1+ n ) − e−iη (1+ n )
ϕXn (η) =  
2iη 1 + n1

converge puntualmente a ϕX per n → ∞. In alternativa, senza usare l’espressione esplicita delle CHF,
basta semplicemente notare che
Z 1 Z 1
iηy 1
lim ϕXn (η) = lim e γXn (y)dy = eiηy dy = ϕX (η).
n→∞ n→∞ −1 2 −1

per il Teorema della convergenza dominata. In ogni caso, per il Teorema di continuità di Lévy si ha
d
che Xn −−−−→ X.
v) Xn non converge in probabilità a X, poiché per ogni 0 < ε < 1
"
P (|X − Xn | ≥ ε) = γ(X,Xn ) (x, y)dxdy
|x−y|>ε

non tende a zero per n → ∞: è sufficiente osservare la Figura B.2 dove in blu è rappresentato il
supporto della densità di (X, Xn ) e in arancione la striscia {(x, y) ∈ R2 | |x − y| < ε}.

-1

-2
-2 -1 0 1 2

Figura B.2:

5. Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T ∼ Exp1 . Si


attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro.

i) Si determini la CDF di X, calcolando FX (x) separatamente per x < 3 e x ≥ 3;


ii) X è assolutamente continua?
iii) si calcoli E [X];
iv) si calcoli E [X | T ];
v) Facoltativo: X è discreta?

Soluzione. Osserviamo che


X = min{T , 3} = T 1(T ≤3) + 31(T >3) .
505

i) Si ha P (X ≤ 0) = 0 e

P (X ≤ x) = P ((X ≤ x) ∩ (T ≤ 3)) + P ((X ≤ x) ∩ (T > 3))



P (T ≤ x) = 1 − e−x se 0 ≤ x < 3,


=
1
 se x ≥ 3.

ii) X non è assolutamente continua perché la CDF è discontinua nel punto 3.


iii) Si ha
h i Z3
E [X] = E T 1(T ≤3) + 31(T >3) = te−t dt + 3P (T > 3) = 1 − e−3 .
0

iv) X è σ (T )-misurabile perché è funzione (misurabile) di T . Di conseguenza

E [X | T ] = X = min{T , 3}.

v) X non è discreta poiché P (X = 3) = P (T ≥ 3) è positiva e strettamente minore di 1, e P (X = x) = 0 per


ogni x , 3.
506 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2019 – Primo appello –

1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.

i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa?


ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta
dall’urna A sia anch’essa rossa?
iii) Qual è la probabilità che le due palline estratte siano dello stesso colore?

2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.

i) Si determini la probabilità che una bottiglia sia idonea.


ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.
iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determi-
nare la distribuzione di Xn e di (Xn , Xn+1 ).
iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e
la media di N .
v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee.

3. Si verifichi che la funzione


e−x
γ(x, y) = 1 (x, y), A = {(x, y) ∈ R2 | x + y > 0, 0 < y < 1},
e−1 A
è una densità e si consideri (X, Y ) con densità γ(X,Y ) = γ.

i) Giustificare la validità della formula (senza svolgere i calcoli)





0 se x ≤ −1,
 (1+x)e−x

γX (x) =  se − 1 < x < 0,
 e−xe−1

se x ≥ 0,


e−1

e stabilire se X e Y sono indipendenti;


ii) determinare la densità di Y 2 ;
iii) determinare la densità condizionata γX|Y .

4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.

Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
507

ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.
5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:

i) le CDF di Tmax e Tmin ;


ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 secondi, assu-
1
mendo λ1 = λ2 = 10 ;
iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secondi, assumendo
1
λ1 = λ2 = 10 ;
iv) E [t ∨ T2 ] per ogni t > 0 e, tramite il Lemma di freezing, E [Tmax | T1 ].
508 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2019 – Primo appello –

1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.

i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa?


ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta
dall’urna A sia anch’essa rossa?
iii) Qual è la probabilità che le due palline estratte siano dello stesso colore?

Soluzione. Introduciamo gli eventi:

RA = “la pallina estratta dall’urna A è rossa”,


VA = “la pallina estratta dall’urna A è verde” = RcA ,
RB = “la pallina estratta dall’urna B è rossa”,
VB = “la pallina estratta dall’urna B è verde” = RcB .

i) Per la Formula della probabilità totale si ha

3 1 2 1 5
P (RB ) = P (RB | RA )P (RA ) + P (RB | VA )P (VA ) = · + · = .
7 2 7 2 14

ii) Per la formula di Bayes si ha


3
P (RB | RA )P (RA ) 7 · 21 3
P (RA |RB ) = = 5
= .
P (RB ) 14
5

iii) Ancora per la Formula della probabilità totale, se E indica l’evento di cui è richiesta la probabilità

3 1 5 1 4
P (E) = P (E | RA )P (RA ) + P (E | VA )P (VA ) = · + · = .
7 2 7 2 7

2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.

i) Si determini la probabilità che una bottiglia sia idonea.


ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.
iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determi-
nare la distribuzione di Xn e di (Xn , Xn+1 ).
iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e
la media di N .
v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee.
509

Soluzione.
i) Sia Ti , i = 1, 2, 3, l’evento “l’i-esimo test è superato”, e T = T1 ∩ T2 ∩ T3 . Per la Formula di moltiplica-
zione si ha
90 · 95 · 99
P (T ) = P (T1 )P (T2 | T1 )P (T3 | T1 ∩ T2 ) = ≈ 85%.
1003
ii) Per la formula di Bayes, si ha
P (T c | T1c )P (T1c ) 1 · 10%
P (T1c | T c ) = = ≈ 65%
P (T c ) 1 − P (T )

iii) Xn ∼ Bep con p = P (T ). Per l’indipendenza, (X1 , X2 ) ∼ Bep ⊗ Bep .


1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Si ha (cfr. Teorema 3.1.25)
P (N > 100) = (1 − (1 − p))100 = p100 .
3. Si verifichi che la funzione
e−x
γ(x, y) = 1 (x, y), A = {(x, y) ∈ R2 | x + y > 0, 0 < y < 1},
e−1 A
è una densità e si consideri (X, Y ) con densità γ(X,Y ) = γ.
i) Giustificare la validità della formula (senza svolgere i calcoli)



0 se x ≤ −1,
 (1+x)e−x

γX (x) =  se − 1 < x < 0,
 e−xe−1



e−1 se x ≥ 0,

e stabilire se X e Y sono indipendenti;


ii) determinare la densità di Y 2 ;
iii) determinare la densità condizionata γX|Y .

Soluzione. La funzione γ è misurabile, non-negativa e con integrale pari a uno.


i) Basta utilizzare la formula Z
γX (x) = γ(X,Y ) (x, y)dy.
R
Calcolando anche la densità marginale
ey
Z
γY (y) = γ(X,Y ) (x, y)dx = 1 (y),
R e − 1 [0,1]
si riconosce che X, Y non sono indipendenti poiché la densità congiunta non è il prodotto delle margi-
nali.
ii) Calcoliamo prima la CDF per 0 < z < 1:
√ √
z
√ ey e z −1
Z
FY 2 (z) = P (Y 2 ≤ z) = P (Y ≤ z) = dy = .
0 e−1 e−1
Derivando si ottiene √
e z
γY 2 (z) = √ 1[0,1] (z).
2(e − 1) z
510 APPENDICE B. TEMI D’ESAME RISOLTI

iii) Si ha
γ(X,Y ) (x, y)
γX|Y (x, y) = 1(γY >0) (y) = e−(x+y) 1A (x, y).
γY (y)

4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.

Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.

Soluzione.

i) Si ha
h i 1 Z +∞ t dt
E Yn2 = 2 (t − 1)2 e− nα α =
n 0 n
t
(col cambio di variabili τ = nα )

+∞
n2α 2n2a − 2nα + 1
Z
= (τ − n−α )2 e−τ dτ =
n2 0 n2

che tende a zero per n → ∞. Più semplicemente, senza calcolare esplicitamente l’integrale, si ha
+∞ +∞
n2α
Z Z
−α 2 −τ c
0≤ 2 (τ − n ) e dτ ≤ −→ 0, c= (τ + 1)2 e−τ dτ.
n 0 n2−2α 0

ii) Si ha
1
ϕXn (η) =
1 − iηnα
da cui, per α = 1,

η e− n 1

 
ϕYn (η) = e− n ϕXn = −→ .
n 1 − iη 1 − iη
d
Dunque per α = 1 si ha Yn −−−−→ Y ∼ Exp1 .

5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:

i) le CDF di Tmax e Tmin ;


ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 secondi, assu-
1
mendo λ1 = λ2 = 10 ;
iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secondi, assumendo
1
λ1 = λ2 = 10 ;
iv) E [t ∨ T2 ] per ogni t > 0 e, tramite il Lemma di freezing, E [Tmax | T1 ].

Soluzione.
511

i) Per la Proposizione 3.6.9 sul massimo e minimo di variabili indipendenti si ha la seguente relazione
fra le funzioni di ripartizione
  
FTmax (t) = FT1 (t)FT2 (t) = 1 − e−λ1 t 1 − e−λ2 t , t ≥ 0,
  
FTmin (t) = 1 − 1 − FT1 (t) 1 − FT2 (t) = 1 − e−(λ1 +λ2 )t , t ≥ 0.

ii) la probabilità cercata è FTmin (10) ≈ 86%;


iii) la probabilità cercata è FTmax (10) ≈ 40%;
iv) si ha
Z +∞
E [t ∨ T2 ] = (t ∨ s)λ2 e−λ2 s ds
0
t +∞
e−λ2 t
Z Z
−λ2 s
= tλ2 e ds + sλ2 e−λ2 s ds = t + .
0 t λ2

Per il Lemma di freezing (cfr. Teorema 5.2.10), si ha

e−λ2 T1
E [Tmax | T1 ] = T1 + .
λ2
512 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2019 – Secondo appello –

1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:

i) di estrarre una pallina bianca alla seconda estrazione;


ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene
estratta una pallina bianca;
iii) dopo tre estrazioni, di aver estratto tutte palline bianche;
iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore.

2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con


 
 2 1 −1
C =  1 1 −1 .
 
−1 −1 1
 

Dati i vettori aleatori Y := (X1 , X3 ) e Z := (X2 , 2X3 ), si determini:

i) le distribuzioni di Y e Z, specificando se sono assolutamente continui;


ii) Y e Z sono indipendenti?
iii) la funzione caratteristica ϕZ specificando se è una funzione sommabile su R2 .

3. Data X ∈ N0,1 , si consideri la successione


r
1 1
Xn = − 1 + X, n ∈ N.
n n

Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞

4. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T ∼ µ := 1


2 (δ−1 + δ1 ). Assu-
miamo che X, Y e T siano indipendenti.

i) Provare che le v.a.


Z := X + Y , W := X + T Y ,
hanno la stessa legge;
ii) Z e W sono indipendenti?
iii) si determini la CHF congiunta ϕ(Z,W ) .
513

5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini
i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].
514 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2019 – Secondo appello –

1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:

i) di estrarre una pallina bianca alla seconda estrazione;


ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene
estratta una pallina bianca;
iii) dopo tre estrazioni, di aver estratto tutte palline bianche;
iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore.

Soluzione. Indichiamo con Bn l’evento “la pallina estratta all’n-esima estrazione è bianca”, con n ∈ N.
Analogamente siano definiti Nn e Rn .

i) per la Formula della probabilità totale si ha

P (B2 ) = P (B2 | B1 )P (B1 ) + P (B2 | R1 )P (R1 ) + P (B2 | N1 )P (N1 )


5 1 4 1 4 1 1
= · + · + · = .
13 3 13 3 13 3 3

ii) Per la Formula di Bayes si ha


4 1
P (B2 | R1 ) 13 · 3 4
P (R1 | B2 ) = P (R1 ) = 1
= .
P (B2 ) 3
13

iii) Per la Formula di moltiplicazione si ha

1 5 6 5
P (B1 ∩ B2 ∩ B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) = · · = .
3 13 14 91
15
iv) Per il punto iii), la probabilità che tutte le palline abbiano lo stesso colore è 91 . La probabilità cercata
15
è quindi 1 − 91 .

2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con


 
 2 1 −1
C =  1 1 −1 .
 
−1 −1 1
 

Dati i vettori aleatori Y := (X1 , X3 ) e Z := (X2 , 2X3 ), si determini:

i) le distribuzioni di Y e Z, specificando se sono assolutamente continui;


ii) Y e Z sono indipendenti?
iii) la funzione caratteristica ϕZ specificando se è una funzione sommabile su R2 .

Soluzione.
515

i) Poiché
!
1 0 0
Y = αX, α= ,
0 0 1
!
0 1 0
Z = βX, β= ,
0 0 2

si ha Y ∼ N0,αCα ∗ e Z ∼ N0,βCβ ∗ con


! !
2 −1 1 −2
αCα ∗ = , βCβ ∗ = .
−1 2 −2 4

Ne viene che Y è assolutamente continuo, mentre Z non lo è perché βCβ ∗ è singolare.


ii) Y e Z non sono indipendenti: osserviamo infatti che hanno la seconda componente proporzionale;
quindi, posto f (x1 , x2 ) = x2 si ha
h i
E [f (Y )f (Z)] = 2E X32 = 2

ma E [f (Y )] = E [f (Z)] = 0.
iii) Poiché Z ∼ N0,βCβ ∗ si ha
1 2 2
ϕZ (η1 , η2 ) = e− 2 (η1 +4η2 −4η1 η2 ) .
ϕZ non è sommabile altrimenti, per il teorema di inversione, Z sarebbe assolutamente continua.

3. Data X ∈ N0,1 , si consideri la successione


r
1 1
Xn = − 1 + X, n ∈ N.
n n
Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞

Soluzione.

i) Si ha Xn ∼ N 1 ,1+ 1 . Poiché
n n

η η 2 η 2
1
ϕXn (η) = ei n − 2 (1+ n ) −−−−−→ e− 2 = ϕX (η),
n→∞

d
per il Teorema di continuità di Lévy si ha che Xn −−−−→ X.
ii) Si ha  r  2  r 2
h i  1  1    1  1  h i
2
E (Xn − X) = E  −  1 + + 1 X   = 2 +  1 + + 1 E X 2 −−−−−→ 4
 
 n n  n n n→∞

e quindi non c’è convergenza in L2 .


516 APPENDICE B. TEMI D’ESAME RISOLTI

iii) Per ogni ω ∈ Ω si ha


Xn (ω) −−−−−→ −X(ω)
n→∞

e quindi non c’è convergenza q.c.: Xn converge a X solo sull’evento trascurabile (X = 0).

4. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T ∼ µ := 1


2 (δ−1 + δ1 ). Assu-
miamo che X, Y e T siano indipendenti.

i) Provare che le v.a.


Z := X + Y , W := X + T Y ,
hanno la stessa legge;
ii) Z e W sono indipendenti?
iii) si determini la CHF congiunta ϕ(Z,W ) .

Soluzione.

i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X  
Z =α , α= 1 1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto

N0,1 ⊗ N0,1 ⊗ µ

e quindi per ogni f ∈ mB e limitata si ha


Z
f (x + ty) N0,1 ⊗ N0,1 ⊗ µ (dx, dy, dt) =

E [f (W )] =
R3

(per il Teorema di Fubini)


Z Z Z ! !
= f (x + ty)N0,1 (dx) N0,1 (dy) µ(dt)
R R R
Z Z ! Z Z !
1 1
= f (x + y)N0,1 (dx) N0,1 (dy) + f (x − y)N0,1 (dx) N0,1 (dy)
2 R R 2 R R

(col cambio di variabili z = −y nel secondo integrale)


Z
= f (x + y)N0,1 (dx)N0,1 (dy) = E [f (Z)] .
R2

Ne segue che Z e W hanno entrambe distribuzione N0,2 .


ii) Poiché

cov(Z, W ) = E [(X + Y )(X + T Y )]


h i h i
= E X 2 + E [(1 + T )XY ] + E T Y 2 = 1

per l’indipendenza di X, Y , T , allora Z e W non sono indipendenti.


517

iii) La CHF congiunta è data da


h i
ϕ(Z,W ) (η1 , η2 ) = E ei(η1 (X+Y )+η2 (X+T Y ))
h i h i
= E ei(η1 +η2 )(X+Y ) 1(T =1) + E ei(η1 +η2 )X+i(η1 −η2 )Y 1(T =−1) =

(per l’indipendenza di X, Y , T )

1  h i(η1 +η2 )(X+Y ) i h i h i


= E e + E ei(η1 +η2 )X E ei(η1 −η2 )Y =
2
(poiché X, Y ∼ N0,1 e X + Y ∼ N0,2 )

1 −(η1 +η2 )2 −η 2 −η 2
 
= e +e 1 2 .
2

5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini

i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].

Soluzione.
i) N è una v.a. discreta che assume solo valori in N: vale
Zn
P (N = n) = P (n − 1 ≤ T < n) = λe−λt dt = e−λn (eλ − 1) =: pn , n ∈ N.
n−1

Allora

X
N∼ pn δ n
n=1

e la CDF di N è 


 0 se x < 0,
FN (x) = 
P n
 pk

 se n − 1 ≤ x < n.
k=1

ii) Si ha

X eλ
E [N ] = npn = ,
n=1
eλ − 1
h i
E N 1(T >1) ∞
X 2eλ − 1
E [N | T > 1] = = eλ npn = .
P (T > 1)
n=2
eλ − 1

iii) osserviamo che N è σ (T )-misurabile perché è funzione (misurabile) di T : precisamente N = 1 + [T ]


dove [x] indica la funzione parte intera di x ∈ R. Di conseguenza

E [N | T ] = N .
518 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2019 –

1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:

i) per quali a, b ≥ 0, la funzione γ è una densità;


ii) la densità di X e Y supponendo che γ sia densità di (X, Y );
iii) per quali a, b ≥ 0 le v.a. X e Y sono indipendenti.
4. Sia (X, Y , Z) ∼ Nµ,C con
   
1 2 0 0 
µ = 2 , C = 0 2 −1 .
   
3 0 −1 2
   

i) Si determini la CHF di (X, Y );


ii) le v.a. X e Y − Z sono indipendenti?
5. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ Unif[0,n] .
i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche ϕXn e si stabili-
sca se (Xn )n∈N converge debolmente;
ii) (Xn )n∈N converge q.c.?
519

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2019 –

1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.

Soluzione.
i) Sia A =“è scelto il primo dado”. Allora per k = 0, 1, . . . , n si ha
!
n k 1
P (X = k | A) = Binn,p (k) = p (1 − p)n−k , p= .
k 2

ii) Per la formula della probabilità totale, si ha


1 1 
P (X = k) = (P (X = k | Ac ) + P (X = k | A)) = Binn, 2 (k) + Binn, 1 (k) (B.0.2)
2 2 3 2

iii) Anzitutto
1 2n 1
!
P (X = n) = + .
2 3n 2n
Per il Teorema di Bayes, si ha
1
P (X = n | A)P (A) 2n
P (A | X = n) = = 2n
.
P (X = n) 3n + 21n

iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.2) si ha
1 2n n
 
E [X] = + .
2 3 2
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.

Soluzione.
i) Se B è l’evento “avere buoni rendimenti scolastici” e S è l’evento “svolgere attività sportiva”, si ha
P (B) = P (B | S)P (S) + P (B | S c )(1 − P (S))
da cui
P (B) − P (B | S c )
P (S) = = 75%
P (B | S) − P (B | S c )
520 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Per il Teorema di Bayes, si ha


P (B | S)P (S)
P (S | B) = ≈ 79%
P (B)
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:
i) per quali a, b ≥ 0, la funzione γ è una densità;
ii) la densità di X e Y supponendo che γ sia densità di (X, Y );
iii) per quali a, b ≥ 0 le v.a. X e Y sono indipendenti.

Soluzione.
i) γ è una funzione misurabile con "
γ(x, y)dxdy = 1
R2
per ogni a, b ≥ 0. Inoltre, poiché a, b ≥ 0, si ha
γ(x, y) ≥ γ(−1, −1) = −a − b + 1, (x, y) ∈ [−1, 1] × [−1, 1]
e quindi γ ≥ 0 se a + b ≤ 1.
ii) Z 1 Z 1
ax + 1 by + 1
γX (x) = γ(x, y)dy = 1[−1,1] (x), γY (y) = γ(x, y)dx = 1[−1,1] (y).
−1 2 −1 2
iii) (X, Y ) sono indipendenti se e solo se γ(x, y) = γX (x)γY (y) ossia
(ax + 1)(by + 1) = ax + by + 1
ossia abxy = 0 ossia a = 0 oppure b = 0.
4. Sia (X, Y , Z) ∼ Nµ,C con
   
1 2 0 0 
µ = 2 , C = 0 2 −1 .
   
3 0 −1 2
   

i) Si determini la CHF di (X, Y );


ii) le v.a. X e Y − Z sono indipendenti?

Soluzione.
! !
1 2 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
2 0 2
2 2
ϕ(X,Y ) (η1 , η2 ) = ei(η1 +2η2 )−(η1 +η2 ) .

ii) (X, Y − Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di
conseguenza, X e Y − Z sono indipendenti se e solo se sono scorrelate: poiché
cov(X, Y − Z) = cov(X, Y ) − cov(X, Z) = 0,
allora X e Y − Z sono indipendenti.
521

5. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ Unif[0,n] .


i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche ϕXn e si stabili-
sca se (Xn )n∈N converge debolmente;
ii) (Xn )n∈N converge q.c.?

Soluzione.
i) Si ha 
h
iηXn 1
i 
 se η = 0,
ϕXn (η) = E e = iηn
 e iηn−1
 altrimenti.

Si noti che ϕXn è una funzione continua poiché, per ogni n ∈ N, si ha

eiηn − 1
lim = 1.
η→0 iηn

Allora 
1 se η = 0,


lim ϕXn (η) = 
n→∞ 0 altrimenti.

che non è continua in η = 0. Dunque per il Teorema 4.3.8 di continuità di Lévy, la successione (Xn )n∈N
non converge debolmente.
ii) Poiché (Xn )n∈N non converge debolmente, per il Teorema 4.1.9, non si ha neppure la convergenza q.c.
522 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2019 –

1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:
i) che la prima pallina estratta sia nera;
ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
 
 2 1 −1
C =  1 1 0  .
 
−1 0 1
 

Si determini per quali a ∈ R:

i) Y := (aX1 + X2 , X3 ) è una v.a. assolutamente continua;


ii) aX1 + X2 e X3 sono indipendenti;
iii) la funzione caratteristica ϕY è una funzione sommabile su R2 .
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:

i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .

4. i) Per quali valori di a, b ∈ R la funzione

γ(x) = (2ax + b)1[0,1] (x), x ∈ R,

è una densità?
ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.

iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.
523

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2019 –

1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:

i) che la prima pallina estratta sia nera;


ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.

Soluzione.

i) Consideriamo i seguenti eventi: N 1=“la prima pallina estratta è nera”, T T =“il risultato dei due lanci
di moneta sono due teste”, CT =“il risultato del primo lancio di moneta è croce e del secondo è testa” e
analogamente definiamo CC e T C. Per la Formula della probabilità totale si ha

P (N 1) = P (N 1 | T T )P (T T ) + P (N 1 | CC)P (CC) + P (N 1 | CT ∪ T C)P (CT ∪ T C)


4 1 4 1 4 2 21
= · + · + · = .
11 4 11 4 10 4 55

ii) Per la Formula di Bayes si ha

P (N 1 | T T )P (T T ) 16
P (CT ∪ T C ∪ CC | N 1) = 1 − P (T T | N 1) = 1 − = .
P (N 1) 21

iii) Poniamo P¯ = P (· | CT ∪ T C). Per la formula di moltiplicazione si ha

4 3 2
P¯ (N 1 ∩ N 2) = P¯ (N 1)P¯ (N 2 | N 1) = · = .
10 9 15

2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con


 
 2 1 −1
C =  1 1 0  .
 
−1 0 1
 

Si determini per quali a ∈ R:

i) Y := (aX1 + X2 , X3 ) è una v.a. assolutamente continua;


ii) aX1 + X2 e X3 sono indipendenti;
iii) la funzione caratteristica ϕY è una funzione sommabile su R2 .

Soluzione.

i) Poiché
!
a 1 0
Y = αX, α= ,
0 0 1
524 APPENDICE B. TEMI D’ESAME RISOLTI

si ha Y ∼ N0,αCα ∗ con
!
1 + 2a + 2a2 −a
αCα ∗ = , det(αCα ∗ ) = (1 + a)2 .
−a 1

Solo per a = −1 la matrice αCα ∗ è singolare e per tale valore di a la v.a. Y non è assolutamente
continua.
ii) data l’espressione della matrice di covarianza αCα ∗ , si ha che aX1 + X2 e X3 sono scorrelate (e quindi
indipendenti) se a = 0.
iii) Poiché Y ∼ N0,αCα ∗ si ha
1 ∗ η,α ∗ η⟩
ϕY (η) = e− 2 ⟨Cα .
ϕY non è sommabile se a = −1 altrimenti, per il teorema di inversione, Y sarebbe assolutamente
continua.
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:
i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .

Soluzione.
i) Per l’indipendenza, si ha
"
E [Z] = xy Nµ,σ 2 ⊗ Bep (dx, dy) =
R2

(per il Teorema di Fubini)


Z Z
=p xNµ,σ 2 (dx) + (1 − p) Nµ,σ 2 (dx) = pµ + (1 − p).
R R

ii) Si ha

FZ (z) = P (Z ≤ z) = P ((Z ≤ z) ∩ (Y = 1)) + P ((Z ≤ z) ∩ (Y = 0)) =

(per l’indipendenza di X e Y )

= P (X ≤ z)P (Y = 1) + P (1 ≤ z)P (Y = 0) = pFX (z) + (1 − p)1[1,+∞[ (z).

Poiché FZ ha un salto in z = 1 di ampiezza 1 − p, la v.a. Z non è assolutamente continua.


iii) Si ha
h i h i h i σ 2 η2
ϕZ (η) = E eiηZ = pE eiηX + (1 − p)E eiη = pϕX (η) + (1 − p)eiη , ϕX (η) = eiµη− 2 .

Per il Teorema 3.5.20 si ha


h i
E Z 2 = −∂2η ϕZ (η)|η=0 = p(µ2 + σ 2 ) + (1 − p).

4. i) Per quali valori di a, b ∈ R la funzione

γ(x) = (2ax + b)1[0,1] (x), x ∈ R,

è una densità?
525

ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.
iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.

Soluzione.
i) Deve essere Z Z 1
1= γ(x)dx = (2ax + b)dx = a + b
R 0
da cui b = 1 − a. Inoltre γ deve essere non-negativa: se a ≥ 0 allora il minimo di γ è assunto per x = 0
e si ha la condizione 1 − a ≥ 0; se a < 0 allora il minimo di γ è assunto per x = 1 e si ha la condizione
a + 1 ≥ 0. In definitiva, per |a| ≤ 1 e b = 1 − a, γ è una densità.
ii) Si ha 

 0 se x < 0,


R √x

P ( nX1 ≤ x) = 
 n x2 √
0 2ydy = n se 0 ≤ x < n,




1 se x ≥ n.

Per la Proposizione 3.6.9, si ha




0 se x < 0,
n

 
 2 n √

FYn (x) = 1 − (1 − F nX1 (x)) = 1 − 1 − xn se 0 ≤ x < n,

 √
1 se x ≥ n.

iii) Si ha 
0

 se x < 0,
lim FYn (x) = FY (x) :=  2
n→∞ 1 − e−x
 se x ≥ 0,
d 2
e quindi per il Teorema 4.3.3 Yn −−−−→ Y per n → ∞ con Y che ha densità γY (x) = FY′ (x) = 2xe−x 1[0,+∞[ (x).
526 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2020 –

1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.
2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:
i) la probabilità che un bullone sia idoneo;
ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.
3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0
i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
4. Siano X e Y v.a. con densità congiunta

e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]
i) Si calcolino le densità marginali.
ii) Le v.a. Z := eX e W := eY sono indipendenti?
iii) Si calcoli E [Y | X > 0].
5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;
iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.
527

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2020 –

1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.

Soluzione. Consideriamo gli eventi A=“il vaccino è efficace contro il virus α” e B=“il vaccino è efficace
contro il virus β”. Sappiamo che P (A) = 55%, P (B) = 65% e P (A ∪ B) = 80%. Allora

P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 40%.

2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:

i) la probabilità che un bullone sia idoneo;


ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.

Soluzione.

i) Sia Ti , i = 1, 2, l’evento “l’i-esimo test è superato” e T = T1 ∩ T2 . Per la Formula di moltiplicazione si


ha
90 · 95
p := P (T ) = P (T1 )P (T2 | T1 ) = = 85.5%;
1002
ii) per la formula di Bayes e poiché P (T c | T1 ) = P (T2c | T1 ) = 5%, si ha

P (T c | T1 )P (T1 ) 5% · 90%
P (T1 | T c ) = = ≈ 31%;
P (T c ) 14.5%

iii) N ∼ Bin100,p ;
1
iv) M ∼ Geom1−p e E [M] = 1−p .

3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0

i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
528 APPENDICE B. TEMI D’ESAME RISOLTI

Soluzione. Calcoliamo la derivata


pex
Fp′ (x) = 1R≥0 (x)
(p − 1 + ex )2
da cui si vede che Fp è monotona crescente per p ≥ 0 e descrescente per p < 0. Fp con p = 0 è la CDF della
delta di Dirac centrata in zero. Se p > 0 allora Fp è una funzione assolutamente continua su R:
Z x
Fp (x) = Fp′ (y)dy, x ∈ R.
0

Infine Fp (x) ≡ 0 per x < 0 e


lim Fp (x) = 1.
x→∞

Applichiamo il Teorema 4.3.3: per pn −→ 0+ , si ha

Fp (x) −→ F0 (x), x ∈ R \ {0}

con 0 unico punto di discontinuità di F0 : quindi µpn converge debolmente alla delta di Dirac centrata in
zero. Se pn −→ 1, allora
Fp (x) −→ F1 (x) = 1 − e−x , x∈R
e quindi µpn converge debolmente a Exp1 .
4. Siano X e Y v.a. con densità congiunta

e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]

i) Si calcolino le densità marginali.


ii) Le v.a. Z := eX e W := eY sono indipendenti?
iii) Si calcoli E [Y | X > 0].

Soluzione.
i) Si ha

e−|x| − e−2|x|
Z
γX (x) = γ(X,Y ) (x, y)dy = ,
R |x| log 4
Z
1
γY (y) = γ(X,Y ) (x, y)dx = 1 .
R y log 2 ]1,2](y)

ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
1
iii) Per simmetria P (X > 0) = 2 e si ha
Z Z 2 Z +∞
1 y 1
E [Y | X > 0] = Y dP = 2 e−y|x| dxdy = .
P (X > 0) (X>0) 1 log 4 0 log 2

5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
529

ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;


iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.

Soluzione. Sia Nn−m il numero di chiamate ricevute dall’ora n all’ora m. Allora N8−9 ∼ Poisson2 .
i) N8−10 = N8−9 + N9−10 ∼ Poisson4 per l’ipotesi di indipendenza (Esempio 3.6.5);
ii)
3
X 4k
P (N8−10 ≥ 4) = 1 − P (N8−10 ≤ 3) = 1 − e−4 ;
k!
k=0

iii) per l’indipendenza


 1
2
 X 2 k
P ((N8−9 ≥ 2) ∩ (N9−10 ≥ 2)) = 1 − e−2  ;

k! 
k=0

iv)
P (N8−10 ≥ 4)
P (N8−10 ≥ 4 | N8−10 ≥ 2) =
P (N8−10 ≥ 2)
e le probabilità si calcolano come nel punto ii);
v)
P ((N8−10 ≥ 4) ∩ (N8−9 ≥ 2))
P (N8−10 ≥ 4 | N8−9 ≥ 2) =
P (N8−9 ≥ 2)
1 X
= P (N9−10 ≥ 4 − k)P (N8−9 = k).
P (N8−9 ≥ 2)
k≥2
530 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2020 –
1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2
i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che
lim ϕ(X,X) (η1 , η2 ) = 0?
|(η1 ,η2 )|→+∞

iii) (Y , X) e (X, X) sono indipendenti?


3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1  √   1

Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n

i) Si calcoli media e varianza di Xn .


d
ii) Si calcoli la CHF di Xn e si deduca che Xn −−−−→ 0.
L2
iii) Vale anche Xn −−−→ 0 ?
5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,

la Gaussiana standard.
i) Verificare che la funzione
γ(x, y) = 1H (x, y), H := {(x, y) ∈ R2 | 0 ≤ x ≤ Γ (y)}
è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.8) per la densità condizionata
γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)
si calcoli γX|Y e il valore atteso condizionato E [X n | Y ] con n ∈ N.
531

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2020 –

1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).

Soluzione. Lo spazio campione di tutte le disposizioni possibili delle monete è Ω = DR3,6 , da cui |Ω| = 36 . Si
ricordi che Ω è lo spazio delle funzioni da I6 a I3 e ogni funzione corrisponde ad una disposizione possibile
delle sei monete.

i) Si determinano in C modi possibili le due monete nella prima scatola e di conseguenza
6,2

6 4
C6,2 DR2,4 2
P (A) = = 2 6 ≈ 33%.
DR3,6 3

Si ha equivalentemente P (A) = Bin6, 1 ({2}).


3

ii) Si determinano in C6,2 modi possibili le due monete nella prima scatola e in C4,2 modi possibili le
due monete nella seconda scatola: di conseguenza

C6,2 C4,2 6 4
P (B) = = 2 2 ≈ 12%.
DR 3,6 36

iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 37.5%.
P (A)
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2

i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che

lim ϕ(X,X) (η1 , η2 ) = 0?


|(η1 ,η2 )|→+∞

iii) (Y , X) e (X, X) sono indipendenti?

Soluzione.
! ! ! !
Y X 0 1 2 0
i) Poiché =α con α = , si ha (X, Y ) ∈ N(0,0),C1 con C1 = αCα ∗ = .
X Y 1 0 0 1
532 APPENDICE B. TEMI D’ESAME RISOLTI
!
1 1
ii) In modo analogo si mostra che (X, X) ∈ N(0,0),C2 con C2 = . In questo caso la matrice di
1 1
covarianza è degenere e (X, X) non è assolutamente continua. Si ha
1 2 2
ϕ(X,X) (η1 , η2 ) = e− 2 (η1 +2η1 η2 +η2 )

e ϕ(X,X) (η1 , −η1 ) = 1 per ogni η1 ∈ R (da cui segue che ϕ(X,X) non tende a 0 all’infinito).
iii) Se (Y , X) e (X, X) fossero indipendenti allora lo sarebbero anche le loro seconde componenti che sono
entrambe uguali a X.
3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.

Soluzione. σ (X) è la σ -algebra i cui elementi sono ∅ e le unioni di

(X = 2) = {(1, 1)},
(X = 3) = {(1, 2), (2, 1)},
(X = 4) = {(1, 3), (3, 1), (2, 2)},
(X = 5) = {(2, 3), (3, 2)},
(X = 6) = {(3, 3)}.

L’evento (X1 = 1) < σ (X): intuitivamente non posso conoscere l’esito del primo lancio sapendo la somma dei
due lanci.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1  √   1

Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n

i) Si calcoli media e varianza di Xn .


d
ii) Si calcoli la CHF di Xn e si deduca che Xn −−−−→ 0.
L2
iii) Vale anche Xn −−−→ 0 ?

Soluzione.
i) Si ha
Z  Z 1
1 n n 2 1 1
  
2
E [Xn ] = 0, var(Xn ) = x µn (dx) = 1 + 1 − x dx = 1 + 2 1 − .
R n 2 −1 3n n
n

ii) Ricordando l’espressione della CHF uniforme si ha


 η η
1  iη √n −iη √n  1 ei n − e−i n

ϕXn (η) = e +e + 1− −−−−−−→ 1.
2n n iη n2 n→∞

Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi per il Teorema
di continuità di Lévy.
iii) Non si ha convergenza in L2 (Ω, P ) poiché, per quanto visto al punto i),

∥Xn ∥2L2 (Ω,P ) = var(Xn ) −−−−−−→ 1.


n→∞
533

5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,

la Gaussiana standard.
i) Verificare che la funzione

γ(x, y) = 1H (x, y), H := {(x, y) ∈ R2 | 0 ≤ x ≤ Γ (y)}

è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.8) per la densità condizionata

γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)

si calcoli γX|Y e il valore atteso condizionato E [X n | Y ] con n ∈ N.

Soluzione.

i) γ è una funzione misurabile, non-negativa e


" Z Z Γ (y) Z
γ(x, y)dxdy = dxdy = Γ (y)dy = 1.
R2 R 0 R

ii) Si ha
Z q  √ 
γX (x) = γ(x, y)dy = 2 −2 log x 2π 1]0, √1 ] (x),

ZR
γY (y) = γ(x, y)dx = Γ (y).
R

X e Y non sono indipendenti poiché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
1
γX|Y (x, y) = 1 (x, y)
Γ (y) H
e Z Z Γ (y)
n n 1 1 n
E [X | Y ] = x γX|Y (x, y) = xn dx = Γ (y).
R Γ (y) 0 n+1
534 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2020 –

1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:

i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).
Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:
iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.

2. Sia (X, Y ) una variabile aleatoria con distribuzione UnifH dove

H = {(x, y) ∈ R2 | 1 − e−|x| < y < 1}.

Si determini:
i) le densità congiunte e marginali di (X, Y );
ii) se X e Y sono indipendenti;
R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).

3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n

i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?
535

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2020 –

1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:

i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).

Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:

iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.

Soluzione.

i) Si ha σ (X) = {∅, N, 2N, 2N + 1}, dove 2N indica l’insieme dei numeri naturali pari, e σ (Y ) = P(N).
ii) No, per il Teorema 3.3.3 di Doob poiché σ (Y ) non è inclusa in σ (X). Si può anche provare direttamente
la tesi per assurdo in modo analogo all’Esercizio 3.3.6.
iii) Si ha µX = qδ1 + (1 − q)δ−1 e µY = Geomp .
iv) Vale 


 0 se x < −1,

FX (x) =  1−q se − 1 ≤ x < 1,



1 se x ≥ 1.

v) No, poiché per esempio si ha

P ((X = 1) ∩ (Y = 1)) = P (2N ∩ {1}) = 0 , P (X = 1)P (Y = 1) = pq.

2. Sia (X, Y ) una variabile aleatoria con distribuzione UnifH dove

H = {(x, y) ∈ R2 | 1 − e−|x| < y < 1}.

Si determini:

i) le densità congiunte e marginali di (X, Y );


ii) se X e Y sono indipendenti;
R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).

Soluzione.
536 APPENDICE B. TEMI D’ESAME RISOLTI

i) Poiché Z
e−|x| dx = 2
R
si ha
1
γ(X,Y ) = 1 .
2 H
Inoltre
1
e−|x|
Z Z
1
γX (x) = γ(X,Y ) (x, y)dy = dy = ,
R 2 1−e−|x| 2
Z Z − log(1−y)
1
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y) dy = −1]0,1[ (y) log(1 − y).
R 2 log(1−y)

ii) X e Y non sono indipendenti perché la densità congiunta non è il prodotto delle densità marginali.
iii) E [(X, Y )] = (E [X] , E [Y ]) con
Z
E [X] = xγX (x)dx = 0,
R
Z Z 1
3
E [Y ] = yγY (y)dy = y (− log(1 − y)) dy = .
R 0 4

iv) per la Proposizione 5.3.20, per 0 < y < 1, si ha

γ(X,Y ) (x, y) 1
γX|Y (x, y) = =− 1 (x, y), x ∈ R.
γY (y) 2 log(1 − y) H

Allora
Z Z − log(1−Y )
1 1
var(X | Y ) = x2 γX|Y (x, Y )dx = − x2 dx = log2 (1 − Y ).
R 2 log(1 − Y ) log(1−Y ) 3

3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n

i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?

Soluzione.
i) Per l’indipendenza si ha µ(Xn ,Y ) = N1, 1 ⊗ Bep ;
n

ii) ancora per l’indipendenza di Xn e Y , si ha


h i h i
E [Zn ] = E (−1)Y Xn = E (−1)Y E [Xn ] = 1 − 2p.

Inoltre
h Y i
ϕZn (η) = E eiη(−1) Xn
537
"
y
= eiη(−1) x N1, 1 ⊗ Bep (dx, dy) =
n
R2

(per il teorema di Fubini)


Z Z !
iη(−1)y x
= e Bep (dy) N1, 1 (dx)
n
R R
Z Z
=p e−iηx N1, 1 (dx) + (1 − p) eiηx N1, 1 (dx)
n n
R R
η2 η2
−iη− 2n iη− 2n
= pe + (1 − p)e ;

Zn è assolutamente continua poiché ϕZn è una funzione sommabile (cfr. Teorema 3.5.6);
iii) la convergenza in legge di Zn segue dal Teorema 4.3.8 di continuità di Lévy: si ha

lim ϕZn (η) = pe−iη + (1 − p)eiη


n→∞

che è la CHF della distribuzione pδ−1 + (1 − p)δ1 che non è assolutamente continua.
538 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2021 –

1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.
2. Sia (X, Y , Z) ∼ Nµ,C con
   
1 2 0 0 
µ = 2 , C = 0 1 −1 .
   
3 0 −1 1
   

Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.
539

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2021 –

1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.

Soluzione. Sia Rn l’evento “la n-esima carta estratta è rossa” e analogamente si definisca Nn .
i) Per la formula della probabilità totale si ha
10 1 9 1
P (N2 ) = P (N2 | R1 )P (R1 ) + P (N2 | N1 )P (N1 ) = · + · .
21 2 19 2

ii) Per la formula di Bayes si ha


10 1
P (N2 | R1 ) 21 · 2
P (R1 | N2 ) = P (R1 ) = 10 1 9
.
P (N2 ) 21 · 2+ 19 · 12

iii) Per la formula di moltiplicazione si ha


1 9 8 2
P (N1 ∩ N2 ∩ N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 ∩ N2 ) = · · = .
2 19 18 19
2
iv) La probabilità cercata è 1 − 19 .
2. Sia (X, Y , Z) ∼ Nµ,C con
   
1 2 0 0 
µ = 2 , C = 0 1 −1 .
   
3 0 −1 1
   

Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.

Soluzione.
i) Si ha (Y , Z) ∼ Nµ̄,C̄ con
! !
2 1 −1
µ̄ = , C̄ =
3 −1 1
e quindi
1 2
ϕ(Y ,Z) (η1 , η2 ) = ei(2η1 +3η2 )− 2 (η1 −η2 ) .
540 APPENDICE B. TEMI D’ESAME RISOLTI

ii) (X, Y +Z) ha distribuzione normale bidimensionale perché è trasformazione lineare di (X, Y , Z). Allora
X e Y + Z sono indipendenti se e solo se sono scorrelate. Poiché

cov(X, Y + Z) = cov(X, Y ) + cov(X, Z) = 0,

X e Y + Z sono indipendenti.
iii) Vale  
X   
Y + Z = A Y  , A= 0 1 1
 
Z
 

e quindi Y + Z ∼ NAµ,ACA∗ = δ5 .
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.

Soluzione.
i) Calcoliamo la CDF di Xn : FXn (y) = 0 se y ≤ 0, mentre per y > 0 si ha
1 1
FXn (y) = P (Xn ≤ y) = P (X ≤ (ny) n ) = 1 − e−λ(ny) .
n

La funzione FXn ∈ AC e derivandola si ottiene una densità:


1 1
γXn (y) = λ(ny) n −1 e−λ(ny) 1R≥0 (y).
n

ii) Si ha  
F(y) := lim FXn (y) = 1 − e−λ 1R>0 (y).
n→∞
Per ogni λ > 0, la funzione F non è una CDF (perché non converge a 1 per y → +∞): segue dal Teorema
4.3.3 che Xn non può convergere debolmente.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.

Soluzione.
i) Per ipotesi γS|T (s, t) = 1[t,t+1] (s). Per l’Osservazione 5.3.21, si ha

γ(S,T ) (s, t) = γS|T (s, t)γT (t) = 1[t,t+1] (s)1[0,1] (t) = 1[0,1] (s)1[0,s] (t) + 1[1,2] (s)1[s−1,1] (t).

Allora Z
γS (s) = γ(S,T ) (s, t)dt = s1[0,1] (s) + (2 − s)1[1,2] (s).
R
Infine
Z Z 1 Z 2
2
E [S] = sγS (s)ds = s ds + s(2 − s)ds = 1.
R 0 1
541

ii) Consideriamo λ > 0 generico. Per l’ipotesi di indipendenza si ha

γ(S,τ) (s, t) = γS (s)λe−λt 1R≥0 (t),

e quindi
Z Z +∞
P (τ ≥ S) = γS (s)λe−λt dtds
R s
Z 1 Z +∞ Z 2 Z +∞
−λt
= s λe dtds + (2 − s) λe−λt dtds
0 s 1 s
Z1 Z 2
= se−λs ds + (2 − s)e−λs ds
0 1
!2
eλ − 1
= .
λeλ

In particolare, per λ = 1 si ha
1 2
 
P (τ ≥ S) = 1 − ≈ 40%.
e
542 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2021 –

1. Quattro persone A, B, C, D lanciano un dado a testa. Determinare la probabilità che:

i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.

2. i) Verificare che la funzione


1
γ(x) = 1]0,+∞[ (x)
(x + 1)2
è una densità;
ii) sia X una variabile aleatoria con densità γ. Determinare una funzione ϕ tale che ϕ(X) ∼ Expλ
con λ > 0.

3. Sullo spazio di probabilità R, B, N0,1 consideriamo la successione di variabili aleatorie definite da




1
Xn = 1 , n ∈ N,
pn [n−1,n]

dove
pn := N0,1 ([n − 1, n]).
Determinare:

i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .

4. Siano X, Y variabili indipendenti con distribuzione Expλ . Determinare:


i) la CHF congiunta ϕ(X,Y ) ;
ii) la CHF ϕX+Y della somma;
iii) la CHF ϕXY del prodotto (non importa svolgere il calcolo fino all’espressione esplicita).
543

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2021 –

1. Quattro persone A, B, C, D lanciano un dado a testa. Determinare la probabilità che:


i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.

Soluzione.
 4
1
i) la probabilità cercata vale 6 ;
 4
ii) la probabilità cercata vale 6 · 5 · 16 ;
 4
iii) la probabilità cercata vale 4 · 16 .

2. i) Verificare che la funzione


1
γ(x) = 1]0,+∞[ (x)
(x + 1)2
è una densità;
ii) sia X una variabile aleatoria con densità γ. Determinare una funzione ϕ tale che ϕ(X) ∼ Expλ
con λ > 0.

Soluzione.
i) La funzione γ è misurabile, non negativa e tale che
Z Z +∞ Z +∞
1 1
γ(x)dx = 2
dx = dz = 1,
R 0 (x + 1) 1 z2
e quindi è una densità.
ii) Dato y > 0 e assumendo ϕ invertibile, calcoliamo
Z ϕ −1 (y) Z ϕ −1 (y)+1
1 1 1
P (ϕ(X) ≤ y) = P (X ≤ ϕ −1 (y)) = dx = dz = 1 − −1 .
0 (x + 1)2 1 z2 ϕ (y) + 1

Imponendo che P (ϕ(X) ≤ y) = 1 − e−λy otteniamo


1
= e−λy
ϕ −1 (y) + 1
1
da cui ϕ(x) = λ log(x + 1).
3. Sullo spazio di probabilità R, B, N0,1 consideriamo la successione di variabili aleatorie definite da


1
Xn = 1 , n ∈ N,
pn [n−1,n]
dove
pn := N0,1 ([n − 1, n]).
Determinare:
544 APPENDICE B. TEMI D’ESAME RISOLTI

i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .

Soluzione.
1
i) Xn assume solo i valori 0 e pn e quindi ha una distribuzione di tipo Bernoulli: precisamente, Xn ∼
pn δ 1 + (1 − pn )δ0 .
pn

ii) per ogni ϕ continua e limitata si ha


lim E [ϕ(Xn )] = lim (pn ϕ(1/pn ) + (1 − pn )ϕ(0)) = ϕ(0)
n→∞ n→∞

e quindi Xn converge debolmente ad una variabile aleatoria con distribuzione δ0 ;


iii) per ogni ω ∈ R si ha
lim Xn (ω) = 0
n→∞
e quindi Xn converge puntualmente (e quindi quasi certamente) alla variabile aleatoria identicamente
nulla;
iv) si ha E [Xn ] = 1 e quindi non si ha convergenza in L1 che contraddirrebbe il punto precedente.
4. Siano X, Y variabili indipendenti con distribuzione Expλ . Determinare:
i) la CHF congiunta ϕ(X,Y ) ;
ii) la CHF ϕX+Y della somma;
iii) la CHF ϕXY del prodotto (non importa svolgere il calcolo fino all’espressione esplicita).

Soluzione.
i) Per l’indipendenza, la CHF congiunta è il prodotto delle marginali
λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = ;
(λ − iη1 )(λ − iη2 )
ii) analogamente si ha
h i λ2
ϕX+Y (η) = E eiη(X+Y ) = ϕX (η)ϕY (η) = ;
(λ − iη)2
iii) si ha
h i
ϕXY (η) = E eiηXY =
(poiché, per l’indipendenza, (X, Y ) ∼ Expλ ⊗ Expλ )
"
= eiηxy Expλ ⊗ Expλ (d(x, y))
R2
(per il Teorema di Fubini)
Z Z !
iηxy
= e Expλ (dx) Expλ (dy)
ZR R
λ
= Expλ (dy)
R λ − iηy
+∞
λ2
Z
= e−λy dy.
0 λ − iηy
545

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Maggio 2021 –

1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:

i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.

2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:
i) qual è la probabilità che almeno 9 di essi siano immuni?
ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?

3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},

i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.

4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.
546 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Maggio 2021 –

1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:

i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.

Soluzione.

i)
P (S ∩ C) = P (S) + P (C) − P (S ∪ C) = 25%.

ii)
P (S \ C) = P (S) − P (S ∩ C) = 25%.

iii)
P ((S ∪ C)c ) = 1 − P (S ∪ C) = 40%.

2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:

i) qual è la probabilità che almeno 9 di essi siano immuni?


ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?

Soluzione.

i) I dati del problema sono

P (X) = P (Y ) = 0.4, P (Z) = 0.2, P (I | X) = 0.95, P (I | Y ) = 0.8, P (I | Z) = 0.2

con evidente significato degli eventi X, Y , Z, I. Per la formula della probabilità totale, la probabilità
che un individuo sia immune è

P (I) = P (I | X)P (X) + P (I | Y )P (Y ) + P (I | Z)P (Z) = 0.75.

La probabilità cercata è quindi

Bin10,p (9) + Bin10,p (10) ≈ 0.24, p := P (I).


547

ii) La probabilità che un individuo immune sia stato vaccinato è pari a

P (V | I) = P (X | I) + P (Y | I) =

(per la formula di Bayes)

P (I | X)P (X) P (I | Y )P (Y )
= + ≈ 0.93.
P (I) P (I)

La probabilità che tutti siano stati vaccinati è (0, 93)10 ≈ 0.5.

3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},

i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.

Soluzione.

i) Si ha
Z Z 1Z 2x

γλ (x, y)dxdy = λydydx = .
R2 0 0 3

Allora, essendo anche misurabile e non-negativa, la funzione γ 3 è una densità.


2

ii) Si ha, per x ∈ [0, 1],


Z 2x
γX (x) = γ 3 (x, y)dy = 3x2 1[0,1] (x),
2
0
Z 1
3y y
 
γY (y) = γ 3 (x, y)dx = 1 − 1[0,2] (y).
y 2 2 2
2

Inoltre, per z ∈ [0, 1], √



Z z
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = 3x2 dx
0
da cui derivando
3√
γX 2 (z) =
z1[0,1] (z).
2

iii) Se X 2 e Y fossero indipendenti allora lo sarebbero anche X 2 ≡ X e Y ma ciò non è vero per il punto
ii), essendo la densità congiunta diversa dal prodotto delle marginali.
iv) Si ha
γλ (x, y) 1
γX|Y (x, y) = = y 1(0< 2 <x<1)
y
γY (y) 1− 2
da cui si riconosce che la legge condizionata è uniforme, µX|Y = Unif[ Y ,1] .
2
548 APPENDICE B. TEMI D’ESAME RISOLTI

4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.

Soluzione.

i) Sappiamo che X1 assume i valori 0, 1 e Sn Binn,p : calcoliamo

P (X1 = 1) ∩ (Sn = k) P (X1 = 1) ∩ (X2 + · · · + Xn = k − 1)


P (X1 = 1 | Sn = k) = =
P (Sn = k) P (Sn = k)

(per indipendenza)

pBinn−1,p (k − 1) k
= = .
Binn,p (k) n

Dunque µX1 |Sn = Be Sn .


n
Sn
ii) Dal punto precedente segue che Yn = n e quindi per la legge dei grandi numeri Yn converge a E [X1 ] = p
in norma L2 e quasi certamente.
iii) Se k > n allora Xk e Sn sono indipendenti e quindi E [Xk | Sn ] = E [Xk ] = p.
549

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2021 –

1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.

2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.

i) Provare che Z è ben definita quasi certamente;


ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?

3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:

1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )

i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.
550 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2021 –

1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.

Soluzione.
i) Per la formula della probabilità totale si ha
1
P (N ) = P (N | T )P (T ) + P (N | C)P (C) = (P (N | T ) + P (N | C))
2
dove N è l’evento “la pallina p è nera”, T è l’evento “il risultato del lancio della moneta è testa” e C è
l’evento “il risultato del lancio della moneta è croce”. Ancora per la formula della probabilità totale, se
NU indica l’evento “dall’urna U si estrae una pallina nera”, si ha
10 3 9 2 4
P (N | T ) = P (N | T | NU )P (NU ) + P (N | T | NUc ) (1 − P (NU )) = · + · = ,
12 5 12 5 5
4 9 3 2 7
P (N | C) = P (N | C | NV )P (NV ) + P (N | C | NVc ) (1 − P (NV )) = · + · = .
6 11 6 11 11
In definitiva
1 4 7 79
 
P (N ) = + = .
2 5 11 110
ii) Per la formula di Bayes
4 1
P (N | T )P (T ) 5·2 44
P (T | N ) = = 79
= .
P (N ) 110
79

iii) Si ha
2
P (N ∩ T ) = P (N | T )P (T ) = .
5

2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.
i) Provare che Z è ben definita quasi certamente;
ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?
551

Soluzione.

i) Z è ben definita se min{X, Y } , 0: ora si ha

P (min{X, Y } = 0) = P ((X ≤ 0) ∪ (Y ≤ 0)) ≤ P (X ≤ 0) + P (Y ≤ 0) = 0.

1
ii) si ha P (Z = 1) = P (X ≤ Y ) = 2 per simmetria oppure calcolando
Z +∞ Z y
1
P (X ≤ Y ) = λe−λx dxλe−λy dy = ;
0 0 2

1
iii) essendo Z ≥ 1 q.c. si ha P (Z ≤ t) = 0 per t < 1; abbiamo già provato che P (Z = 1) = 2 e per t > 1 si ha

P (Z ≤ t) = P (Z ≤ 1) + P (1 < Z ≤ t)
!
1 X
= +P 1 < ≤t
2 min{X, Y }
1
= + P (Y < X ≤ tY )
2
Z +∞ Z ty
1 t
= + λe−λx dxλe−λy dy = ;
2 0 y t + 1

iv) Z non è assolutamente continua per ii) e non è discreta poiché la sua CDF non è costante a tratti.

3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:

1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )

i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.

Soluzione.

i) Si ha
h i
ϕYn (η) = E eiηnX1 = ϕX1 (nη) = e−n|η| ,
h i
ϕZn (η) = E eiη(X1 +···+Xn ) =
552 APPENDICE B. TEMI D’ESAME RISOLTI

(per indipendenza)
n
Y h i
= E eiηXk =
k=1

(essendo le Xk identicamente distribuite)

= (ϕX1 (η))n = e−n|η| .

Avendo la stessa CHF, per il teorema di inversione Yn e Zn hanno la stessa legge. Yn e Zn non sono
uguali q.c. Per esempio, nel caso n = 2, Y2 = Z2 q.c. equivale a X1 = X2 q.c. ma ciò non è vero: per
esempio, per l’indipendenza, P ((X1 < 0) ∩ (X2 > 0)) = P (X1 < 0)P (X2 > 0) > 0.
ii) Procediamo come nell’Esempio 3.5.4:
 P n 

h
iηWλ
i X  iη Xk 
ϕWλ (η) = E e = E e k=1 1(N =n)  =

 
n=0

(per indipendenza di N , X1 , X2 , . . . )
 P n 

X  iη Xk 
= E e  P (N = n)
 k=1 
 
n=0

X e−λ λn
= (ϕX1 (η))n
n!
n=0
 
= exp λ(e−|η| − 1) .

iii) Per ogni η ∈ R si ha


lim ϕWλ (η) = 1
λ→0+

e quindi, per il Teorema di continuità di Lévy, Wλ converge debolmente ad una v.a. con distribuzione
delta di Dirac centrata in 0. D’altra parte, si ha

1 se η = 0,


lim ϕWλ (η) = 
λ→+∞ 0 se η , 0,

e dunque non si può avere convergenza debole perchè il limite delle CHF è una funzione discontinua
in 0 (si veda punto i) del Teorema di continuità di Lévy).
553

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2021 –

1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.

2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
1  1 0 −1
µ = 2 , C =  0 1 −1 .
   
3 −1 −1 2
   

Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .

3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:
i) la densità di X;
ii) se X e Y sono indipendenti;
iii) la densità di Y condizionata a X;
h i h i
iv) E Y 2 e E Y 2 | X .

4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
ii) Si calcoli E [Yn ] e E [Zn ].
iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?
554 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2021 –

1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.

Soluzione.
i) Sia Gi , i = 1, 2, 3, l’evento “si ha sentenza di condanna all’i-esimo grado”, e G = G1 ∩ G2 ∩ G3 . Per la
Formula di moltiplicazione si ha
70 · 80 · 90
P (G) = P (G1 )P (G2 | G1 )P (G3 | G1 ∩ G2 ) = = 50.4%.
1003

ii) Si ha
P (G)
P (G2c ∪ G3c | G1 ) = 1 − P (G2 ∩ G3 | G1 ) = 1 − = 28%.
P (G1 )
iii) Xn ∼ Bep con p = P (G). Per l’indipendenza, (Xn , Xn+1 ) ∼ Bep ⊗ Bep e Xn + Xn+1 ∼ Bin2,p .
1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Per il Teorema 3.1.25 si ha
P (N ≤ 5) = 1 − p5 ≈ 96.7%.

2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
1  1 0 −1
µ = 2 , C =  0 1 −1 .
   
3 −1 −1 2
   

Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .

Soluzione.
555

i) Si ha (X2 , X3 ) ∼ Nµ̄,C̄ con


! !
2 1 −1
µ̄ = , C̄ = .
3 −1 2

ii) Si ha
1
ϕX (η) = ei(η1 +2η2 +3η3 )− 2 ⟨Cη,η⟩ .

La matrice C è degenere (det C = 0) e quindi X non ha densità.

iii) Vale
 
X2 − X3 = AX, A= 0 1 −1

e quindi X2 − X3 ∼ N−1,ACA∗ = N−1,5 .

3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:

i) la densità di X;

ii) se X e Y sono indipendenti;

iii) la densità di Y condizionata a X;


h i h i
iv) E Y 2 e E Y 2 | X .

Soluzione.

i) La densità congiunta è γ(X,Y ) = 12 1Q dove

Q = {(x, y) ∈ R2 | |x + y| ≤ 1, |x − y| ≤ 1}.

Quindi, osservando la Figura B.3 se x ∈ [0, 1] si ha

Z Z 1−x
1
γX (x) = γ(X,Y ) (x, y)dy = dy = 1 − x,
R 2 x−1

mentre se x ∈ [−1, 0] si ha

Z x+1
1
γX (x) = dy = x + 1
2 −1−x

e γX (x) = 0 per |x| > 1.


556 APPENDICE B. TEMI D’ESAME RISOLTI

y=x+1

1.0

y=x-1
0.5

-1.5 -1.0 -0.5 0.5 1.0 1.5

-0.5

y=1-x
-1.0

y=-x-1

Figura B.3:

ii) Per simmetria si calcola anche γY e si vede facilmente che X, Y non sono indipendenti poiché la densità
congiunta non è il prodotto delle marginali.
iii) Se x ∈]0, 1] si ha

γ(X,Y ) (x, y) 1 1
γY |X (x, y) = = 1 (x, y) = 1 (y)
γX (x) 2(1 − x) Q 2(1 − x) [x−1,1−x]

e se x ∈ [−1, 0[
1 1
γY |X (x, y) = 1Q (x, y) = 1 (y).
2(x + 1) 2(x + 1) [−1−x,x+1]

iv) Si ha
h i Z1 Z 0
1
2 2
E Y = y (1 − y)dy + y 2 (1 + y)dy = .
0 −1 6
D’altra parte
h i Z
E Y2 | X = y 2 γY |X (X, y)dy
R
1−X X+1
y2 y2
Z Z
= 1[0,1] (X) dy + 1[−1,0] (X) dy
X−1 2(1 − X) −X−1 2(X + 1)
(X − 1)2 (X + 1)2
= 1[0,1] (X) + 1[−1,0] (X).
3 3

4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
557

ii) Si calcoli E [Yn ] e E [Zn ].


iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?

Soluzione.
i) Calcoliamo le CDF:
 


 0 se y ≤ 0, 

0 se z ≤ 0,
 n n
 1
FYn (y) = P (Xn ≤ (n + 1)y) =  1 se y ≥ n+1 , FZn (z) = P (Xn ≤ z ) = 1 se z ≥ n n ,
 

 n+1 
 zn
y altrimenti, altrimenti.

 

n n

Derivando tali funzioni, si trovano le densità:

n+1
γYn (y) = 1 n (y), γZn (z) = zn−1 1[0,n1/n ] (z).
n [0, n+1 ]

ii) Yn ∼ Unif[0, n
] da cui
n+1
n
E [Yn ] = .
2(n + 1)
Invece
1 n
Z nn
n n n+1
E [Zn ] = z dz = .
0 n+1
iii) Si ha 

 0 se y ≤ 0, 

 0

 se z ≤ 0,
FYn (y) −−−−−−→  1 se y ≥ 1, FZn (z) −−−−−−→ 

n→∞   n→∞  1 se z > 1,
y altrimenti,

e quindi, per il Teorema 4.3.3, Yn converge debolmente ad una v.a. con legge Unif[0,1] e Zn converge
debolmente ad una v.a. con legge delta di Dirac centrata in 1. Si noti che il limite puntuale delle FZn
non è continua a destra nel punto z = 1.
iv) Sı̀ per il Teorema 4.1.9-vi).
558 APPENDICE B. TEMI D’ESAME RISOLTI
Appendice C

Tavole riassuntive delle principali


distribuzioni

Nome Simbolo Funzione di distribuzione µ̄(k) Attesa Varianza Funzione caratteristica Proprietà: vedi pag.

Delta di Dirac δx0 1{x0 } (k) x0 0 eix0 η 59, 65, 111



p
 se k = 1  
1 + p eiη − 1

Bernoulli Bep p p(1 − p) 61, 93, 111, 156
1 − p se k = 0

1 n+1 n2 −1 eiη (einη −1)


Uniforme Unifn n 1In (k) 2 12 61
n(eiη −1)

  n
n k n−k ,
Binomiale Binn,p k p (1 − p) 0≤k≤n np np(1 − p) 1 + p eiη − 1 38, 61, 94

iη −1
e−λ λk
Poisson Poissonλ k! , k ∈ N0 λ λ eλ(e ) 61, 95, 111, 115

1 1−p p
Geometrica Geomp p(1 − p)k−1 , k ∈ N p p2
96, 98
e−iη −1+p

(kb)(Nn−k
−b
) bn bn(N −b)(N −n)
Ipergeometrica Ipern,b,N N , 0 ≤ k ≤ n∧b N N 2 (N −1)
vedi file Mathematica 38, 98
(n)

559
560 APPENDICE C. TAVOLE RIASSUNTIVE DELLE PRINCIPALI DISTRIBUZIONI

Nome Simbolo Densità: γ(x) = Attesa Varianza Funzione caratteristica Pro

1 a+b (b−a)2 eibη −eiaη


Uniforme su [a, b] Unif[a,b] b−a 1[a,b] (x) 2 12 iη(b−a)
63,

1 1 λ
Esponenziale Expλ λe−λx 1R≥0 λ λ2 λ−iη 63,

1 x−µ 2 σ 2 η2
Normale reale Nµ,σ 2 √ 1 e− 2 ( σ ) µ σ2 eiµη− 2 63,
2πσ 2

λα e−λx λ α
 
α α
Gamma Gammaα,λ 1
Γ (α)x1−α R>0
(x) λ λ2 λ−iη 100

−x n
Chi-quadro a n gradi χ2 (n) = Gamma n , 1 n
1 e 2
1− n
1R>0 (x) n 2n (1 − 2iη)− 2 158
2 2 2 2 Γ n2
( ) x 2
Indice analitico

Bd , 58 congiunta, 125
F∞ , 287 del massimo, 159
Fτ , 293 di v.a., 92
G X , 228 marginale, 125
N , 24 Chapman-Kolmogorov, 245
σ -algebra, 20 CHF, 142
di Borel, 58 congiunta, 149
generata marginale, 149
da insiemi, 57 Cholesky, 123
da una v.a., 88 cilindro finito-dimensionale, 220
bC, 113, 162 coefficiente
bF , 88 di correlazione, 122
mF , 88 combinazioni, 34
mF + , 88 completamento, 57
continuità in media, 338
algebra, 25 convergenza
ampliamento standard, 288 debole, 162
arg max, 15 di distribuzioni, 162
arg min, 15 in Lp , 161
assenza di memoria, 96, 98 in probabilità, 161
assoluta continuità puntuale, 161
dell’integrale, 110
q.c., 90
assolutamente continua
convoluzione, 155
distribuzione, 63
correlazione, 122
funzione, 69, 439
campionaria, 124
attesa, 104
covarianza, 121
condizionata, 139, 186, 192, 194
campionaria, 124
funzione, 190, 200
criterio di Sylvester, 126
Bernstein, 171
Berry-Esseen, 183 decomposizione di Cholesky, 123
Blumenthal, 290 delta
Borel-Cantelli, 52 di Kronecker, 327
Burkholder-Davis-Gundy, 360 delta di Dirac, 59
densità
càdlàg, 257 condizionata, 139, 208
calore, 275 congiunta, 125
Cantor, 70 di transizione, 238
CDF, 65 marginale, 125
condizionata, 139 trasformazione lineare di, 98

561
562 INDICE ANALITICO

derivata di Radon-Nikodym, 434 massimale di Doob, 283, 284, 304, 305


deviazione standard, 114 triangolare, 109
diadici, 268 Doob, 127
differenza simmetrica, 57
disposizioni equazione
con ripetizione, 33 di Chapman-Kolmogorov, 245
semplici, 33 equazione del calore, 275
distribuzione, 56 erf, 67
χ2 , 102 esito, 21
χ2 (n), 158 esperimento aleatorio, 20
assolutamente continua, 63 esponente caratteristico, 255, 291
binomiale, 38, 61, 94 evento, 21
approssimazione, 179, 183
chi-quadro, 102, 158 famiglia
condizionata, 139, 186 ∩-chiusa, 20
funzione, 190, 207 ∪-chiusa, 20
versione regolare, 204 σ -∩-chiusa, 20
congiunta, 125 σ -∪-chiusa, 20
del massimo, 159 di prove ripetute e indipendenti, 53
delta di Dirac, 59, 178 monotona
di Bernoulli, 61 di funzioni, 433
di Cauchy, 144 di insiemi, 431
di Poisson, 62, 95, 179 Feller, 239
di transizione, 237 fenomeno aleatorio, 20
di Poisson, 238 filtrazione, 227
Gaussiana, 239 G X , 228
di un processo stocastico, 221 generata, 228
discreta, 60 standard, 288
esponenziale, 64, 178 formula
Gamma, 100, 101, 158 binomiale, 37
geometrica, 62, 96, 178 della probabilità totale, 45, 187, 196, 205,
ipergeometrica, 38, 98 210
log-normale, 103 di Bayes, 48, 212
marginale, 125 di moltiplicazione, 47
normale, 64, 99, 178 di Newton, 37
bidimensionale, 126, 137 Fourier, 143
multidimensionale, 149 freezing, 197, 198
standard, 64 funzione
uniforme a variazione limitata, 440
discreta, 61 assolutamente continua, 69, 439
multidimensionale, 64, 99 càdlàg, 257
distribuzioni finito-dimensionali, 221 caratteristica, 142
Disuguaglianza di distribuzione, 61
di Burkholder-Davis-Gundy, 360 condizionata, 190
di Cauchy-Schwarz, 120, 122 congiunta, 125
di Chebyschev, 163 marginale, 125
di Hölder, 119 di ripartizione, 65, 72
di Jensen, 117 congiunta, 125
condizionata, 196 marginale, 125
di Markov, 163 di Vitali, 70
di Minkowski, 120 errore (erf), 67
INDICE ANALITICO 563

Gamma di Eulero, 100 LSMC, 201


indicatrice, 15
integrabile, 108 Markov, 237
semplice, 105 martingala, 228
sommabile, 108 Browniana, 276
discreta, 228
Gamma di Eulero, 100 esponenziale, 276, 357
generatore infinitesimale, 250 quadratica, 276
grafico di dispersione, 123 matrice
definita positiva, 126
Hilbert-Schmidt, 365 di correlazione, 122
di covarianza, 122
i.i.d., 167 semi-definita positiva, 122
incrementi indipendenti, 243 media, 110, 113
indipendenza aritmetica
di eventi, 48 normalizzata, 181
di v.a., 127 campionaria, 123
insieme media aritmetica, 168, 180
di Cantor, 70 memoria, 96, 98
quasi certo, 24 metodo Monte Carlo, 170, 182
trascurabile, 24 minimi quadrati, 201
integrale astratto, 107, 108 misura, 21, 25
intensità, 188, 255 σ -finita, 21
stocastica, 188, 258 di probabilità, 21
intervallo di confidenza, 183 di Wiener, 273
isometria di Itô, 325 esterna, 79
Itô finita, 21
isometria, 325 prodotto, 130
modello binomiale, 157
Jensen, 117, 196 modificazione, 223
momento, 153
Kolmogorov, 225, 233 Monte Carlo, 170
Kronecker, 327 Least Square, 201
moto Browniano, 248, 271
Lévy, 176, 291, 369
con drift, 322
legge, 91
correlato, 370
condizionata, 186
dei grandi numeri, 180 norma di Hilbert-Schmidt, 365
del logaritmo iterato, 273
di transizione, 237 operatore
di un processo continuo, 265 del calore
di un processo stocastico, 221 backward, 275
legge 0-1 di Blumenthal, 290 forward, 275
legge debole di Laplace, 250
dei grandi numeri, 168 optional sampling, 283, 306, 312
legge forte
dei grandi numeri, 168 parte positiva, 15
Lemma partizione, 315
di Borel-Cantelli, 52 partizione diadica, 303
di Fatou, 108 permutazioni, 34
condizionato, 196 Poisson, 254
di freezing, 197, 198 polinomi di Bernstein, 171
564 INDICE ANALITICO

pre-misura, 78 quasi certamente, 91


principio del massimo, 399
probabilità, 21 Radon-Nikodym, 434
condizionata, 44, 186 razionali diadici, 303
funzione, 190 regressione, 122
versione regolare, 203 retta di regressione, 122, 123
uniforme, 23 roulette, 169
procedura standard, 113
semianello, 78
processi
semigruppo, 248
indistinguibili, 224
simbolo di Kronecker, 327
modificazioni, 223
Skorokhod, 266
uguali in legge, 223
soluzione fondamentale, 275
processo
somma di variabili aleatorie, 155
a incrementi indipendenti, 243
spazio
adattato, 227
campionario, 21
continuo, 263
delle traiettorie, 219
legge, 265
continue, 264
versione canonica, 266
di Wiener, 264
di Feller, 239
di probabilità, 21
di Lévy, 291
completo, 24, 91, 224
di Markov, 237 discreto, 21
di Poisson, 247, 253, 254, 257 di Skorokhod, 266
a intensità stocastica, 258 misurabile, 20
compensato, 259 polacco, 203, 264
composto, 255 strategia del raddoppio, 169
Gaussiano, 221, 226 sub-martingala, 229
misurabile, 223 super-martingala, 229
moto Browniano, 271 Sylvester, 126
progressivamente misurabile, 293
stocastico, 219, 220 tempo
discreto, 219 d’uscita, 287
uniformemente integrabile, 442 tempo d’arresto
versione canonica, 226, 266 discreto, 279
processo stocastico, 442 Teorema
prodotto scalare, 15 centrale del limite, 181
progressivamente misurabile, 293 del calcolo della media, 114, 187, 205
proprietà della convergenza dominata, 109
della torre, 196 condizionato, 196
di assenza di memoria, 96 di Beppo-Levi, 107
di Feller, 239 condizionato, 196
forte, 248 di Berry-Esseen, 183
di Markov, 240, 273 di Carathéodory, 68, 78
estesa, 242 di continuità di Kolmogorov, 266, 267
forte, 295 di continuità di Lévy, 176
di martingala, 228 di convergenza di Vitali, 442
di semigruppo, 248 di Doob, 127
proprietà quasi certa, 91 di estensione di Kolmogorov, 225, 233
prove ripetute e indipendenti, 53 di Fubini, 131
di Helly, 175
q.c., 16, 91 di inversione, 146
q.o., 16 di optional sampling, 283, 306, 312
INDICE ANALITICO 565

valore atteso, 110, 113


di Radon-Nikodym, 434 variabile aleatoria, 88
di rappresentazione di Riesz, 435 assolutamente continua, 92
Teorema di varianza, 114, 121
Lévy, 369 campionaria, 123
tightness, 175 variazione
traiettoria, 221 prima, 315
trasformata di Fourier, 143 versione canonica
di un processo continuo, 266
uguaglianza di un processo di Markov, 242
in legge, 93 di un processo stocastico, 226
q.c., 91 versione regolare della distribuzione
uniforme integrabilità, 442 condizionata, 204
Vitali, 28, 442
v.a., 16, 88
assolutamente continua, 92 Wiener, 264
566 INDICE ANALITICO
Bibliografia

[1] D. Applebaum, Lévy processes and stochastic calculus, vol. 93 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2004.
[2] P. Baldi, Introduzione alla probabilità con elementi di statistica - Seconda edizione, McGraw-Hill, 2012.
[3] , Stochastic calculus, Universitext, Springer, Cham, 2017. An introduction through theory and
exercises.
[4] M. T. Barlow, One-dimensional stochastic differential equations with no strong solution, J. London Math.
Soc. (2), 26 (1982), pp. 335–347.
[5] R. F. Bass, Probabilistic techniques in analysis, Probability and its Applications (New York), Springer-
Verlag, New York, 1995.
[6] , Stochastic processes, vol. 33 of Cambridge Series in Statistical and Probabilistic Mathematics,
Cambridge University Press, Cambridge, 2011.
[7] , Real Analysis for Graduate Students, 2013. Disponibile su http://bass.math.uconn.edu/real.
html.
[8] F. Baudoin, Diffusion processes and stochastic calculus, EMS Textbooks in Mathematics, European
Mathematical Society (EMS), Zürich, 2014.
[9] H. Bauer, Probability theory, vol. 23 of De Gruyter Studies in Mathematics, Walter de Gruyter & Co.,
Berlin, 1996. Translated from the fourth (1991) German edition by Robert B. Burckel and revised by
the author.
[10] M. Beiglböck, W. Schachermayer, and B. Veliyev, A short proof of the Doob-Meyer theorem, Stochastic
Process. Appl., 122 (2012), pp. 1204–1209.
[11] F. Biagini and M. Campanino, Elements of probability and statistics, vol. 98 of Unitext, Springer, [Cham],
2016. An introduction to probability with de Finetti’s approach and to Bayesian statistics, Translated
from the 2006 Italian original, La Matematica per il 3+2.
[12] P. Billingsley, Probability and measure, Wiley Series in Probability and Mathematical Statistics, John
Wiley & Sons, Inc., New York, third ed., 1995. A Wiley-Interscience Publication.
[13] , Convergence of probability measures, Wiley Series in Probability and Statistics: Probability and
Statistics, John Wiley & Sons, Inc., New York, second ed., 1999. A Wiley-Interscience Publication.
[14] P. Brémaud, Point processes and queues, Springer-Verlag, New York-Berlin, 1981. Martingale dynamics,
Springer Series in Statistics.
[15] F. Caravenna and P. Dai Pra, Probabilità - Un’introduzione attraverso modelli e applicazioni, Springer,
2013.

567
568 BIBLIOGRAFIA

[16] K. L. Chung and J. L. Doob, Fields, optionality and measurability, Amer. J. Math., 87 (1965), pp. 397–
424.
[17] D. Costantini, Introduzione alla probabilità, Testi e manuali della scienza contemporanea. Serie di
logica matematica, Bollati Boringhieri, 1977.
[18] J. Dieudonné, Sur le théorème de Lebesgue-Nikodym. III, Ann. Univ. Grenoble. Sect. Sci. Math. Phys.
(N.S.), 23 (1948), pp. 25–53.
[19] J. L. Doob, Stochastic processes, John Wiley & Sons, Inc., New York; Chapman & Hall, Limited, London,
1953.
[20] R. Durrett, Stochastic calculus, Probability and Stochastics Series, CRC Press, Boca Raton, FL, 1996.
A practical introduction.
[21] , Essentials of stochastic processes, Springer Texts in Statistics, Springer, Cham, 2016. Third edition
[of MR2933766].
[22] R. Durrett, Probability: theory and examples, vol. 49 of Cambridge Series in Statistical and Probabili-
stic Mathematics, Cambridge University Press, Cambridge, 2019. Disponibile su https://services.
math.duke.edu/˜rtd/PTE/pte.html.
[23] V. D’Urso and F. Giusberti, Esperimenti di psicologia - seconda edizione, Zanichelli, 2000.
[24] E. B. Fabes and D. W. Stroock, A new proof of Moser’s parabolic Harnack inequality using the old ideas of
Nash, Arch. Rational Mech. Anal., 96 (1986), pp. 327–338.
[25] A. M. Faden, The existence of regular conditional probabilities: necessary and sufficient conditions, Ann.
Probab., 13 (1985), pp. 288–298.
[26] W. Feller, An introduction to probability theory and its applications. Vol. II, Second edition, John Wiley
& Sons, Inc., New York-London-Sydney, 1971.
[27] A. Friedman, Partial differential equations of parabolic type, Prentice-Hall, Inc., Englewood Cliffs, N.J.,
1964.
[28] , Stochastic differential equations and applications, Dover Publications, Inc., Mineola, NY, 2006.
Two volumes bound as one, Reprint of the 1975 and 1976 original published in two volumes.
[29] P. Glasserman, Monte Carlo methods in financial engineering, vol. 53 of Applications of Mathematics
(New York), Springer-Verlag, New York, 2004. Stochastic Modelling and Applied Probability.
[30] P. Glasserman and B. Yu, Number of paths versus number of basis functions in American option pricing,
Ann. Appl. Probab., 14 (2004), pp. 2090–2119.
[31] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, 2016. Disponibile su http:
//www.deeplearningbook.org.
[32] P. R. Halmos, Measure Theory, D. Van Nostrand Company, Inc., New York, N. Y., 1950.
[33] L. Hörmander, Hypoelliptic second order differential equations, Acta Math., 119 (1967), pp. 147–171.
[34] L. Hörmander, Hypoelliptic second order differential equations, Acta Math., 119 (1967), pp. 147–171.
[35] J. Jacod and P. Protter, Probability essentials, Universitext, Springer-Verlag, Berlin, 2000.
[36] J. Jacod and A. N. Shiryaev, Limit theorems for stochastic processes, vol. 288 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, second ed., 2003.
BIBLIOGRAFIA 569

[37] O. Kallenberg, Foundations of modern probability, Probability and its Applications (New York),
Springer-Verlag, New York, second ed., 2002.
[38] I. Karatzas and S. E. Shreve, Brownian motion and stochastic calculus, vol. 113 of Graduate Texts in
Mathematics, Springer-Verlag, New York, second ed., 1991.
[39] A. Klenke, Probability theory, Universitext, Springer, London, second ed., 2014. A comprehensive
course.
[40] A. N. Kolmogorov, Selected works of A. N. Kolmogorov. Vol. III, Kluwer Academic Publishers Group,
Dordrecht, 1993. Edited by A. N. Shiryayev.
[41] J. Komlós, A generalization of a problem of Steinhaus, Acta Math. Acad. Sci. Hungar., 18 (1967), pp. 217–
229.
[42] N. V. Krylov, Controlled diffusion processes, vol. 14 of Stochastic Modelling and Applied Probability,
Springer-Verlag, Berlin, 2009. Translated from the 1977 Russian original by A. B. Aries, Reprint of the
1980 edition.
[43] O. A. Ladyzhenskaia, V. A. Solonnikov, and N. N. Ural’tseva, Linear and quasilinear equations of
parabolic type, Translations of Mathematical Monographs, Vol. 23, American Mathematical Society,
Providence, R.I., 1968. Translated from the Russian by S. Smith.
[44] E. Lanconelli, Lezioni di Analisi Matematica 1, Pitagora Editrice Bologna, 1994.
[45] , Lezioni di Analisi Matematica 2, Pitagora Editrice Bologna, 1995.
[46] , Lezioni di Analisi Matematica 2 - Seconda parte, Pitagora Editrice Bologna, 1997.
[47] P. Langevin, Sur la théorie du mouvement Brownien, C.R. Acad. Sci. Paris, 146 (1908), pp. 530–532.
[48] D. S. Lemons, An introduction to stochastic processes in physics, Johns Hopkins University Press, Balti-
more, MD, 2002. Containing “On the theory of Brownian motion” by Paul Langevin, translated by
Anthony Gythiel.
[49] G. Letta, Probabilità elementare. Compendio di teorie. Problemi risolti, Zanichelli, 1993.
[50] E. E. Levi, Sulle equazioni lineari totalmente ellittiche alle derivate parziali, Rend. Circ. Mat. Palermo, 24
(1907), pp. 275–317.
[51] P.-A. Meyer, Probability and potentials, Blaisdell Publishing Co. Ginn and Co., Waltham,
Mass.-Toronto, Ont.-London, 1966.
[52] P.-A. Meyer, Stochastic processes from 1950 to the present, J. Électron. Hist. Probab. Stat., 5 (2009), p. 42.
Translated from the French [MR1796860] by Jeanine Sedjro.
[53] D. Mumford, The dawning of the age of stochasticity, Atti Accad. Naz. Lincei Cl. Sci. Fis. Mat. Natur.
Rend. Lincei (9) Mat. Appl., (2000), pp. 107–125. Mathematics towards the third millennium (Rome,
1999).
[54] J. Neveu, Mathematical foundations of the calculus of probability, Translated by Amiel Feinstein, Holden-
Day, Inc., San Francisco, Calif.-London-Amsterdam, 1965.
[55] D. Nualart, The Malliavin calculus and related topics, Probability and its Applications (New York),
Springer-Verlag, Berlin, second ed., 2006.
[56] B. Oksendal, Stochastic differential equations, Universitext, Springer-Verlag, Berlin, fifth ed., 1998. An
introduction with applications.
570 BIBLIOGRAFIA

[57] O. A. Oleinik and E. V. Radkevic, Second order equations with nonnegative characteristic form, Plenum
Press, New York-London, 1973. Translated from the Russian by Paul C. Fife.
[58] A. Pascucci, PDE and martingale methods in option pricing, vol. 2 of Bocconi & Springer Series, Springer,
Milan; Bocconi University Press, Milan, 2011.
[59] J. A. Paulos, A mathematician reads the newspaper, Basic Books, New York, 2013. Paperback edition of
the 1995 original with a new preface.
[60] G. A. Pavliotis, Stochastic processes and applications, vol. 60 of Texts in Applied Mathematics, Springer,
New York, 2014. Diffusion processes, the Fokker-Planck and Langevin equations.
[61] N. Pintacuda, Probabilità, Zanichelli, 1995.
[62] P. E. Protter, Stochastic integration and differential equations, vol. 21 of Stochastic Modelling and
Applied Probability, Springer-Verlag, Berlin, 2005. Second edition. Version 2.1, Corrected third
printing.
[63] C. E. Rasmussen and C. K. I. Williams, Gaussian Processes for Machine Learning, MIT Press, 2006.
Disponibile su http://www.gaussianprocess.org/gpml/.
[64] D. Revuz and M. Yor, Continuous martingales and Brownian motion, vol. 293 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, third ed., 1999.
[65] F. Riesz and B. Sz.-Nagy, Functional analysis, Frederick Ungar Publishing Co., New York, 1955.
Translated by Leo F. Boron.
[66] W. Rudin, Real and complex analysis, McGraw-Hill Book Co., New York, third ed., 1987.
[67] D. Salsburg, The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century, Henry
Holt and Company, 2002.
[68] R. L. Schilling, Sobolev embedding for stochastic processes, Expo. Math., 18 (2000), pp. 239–242.
[69] A. N. Shiryaev, Probability. 1, vol. 95 of Graduate Texts in Mathematics, Springer, New York, third ed.,
2016. Translated from the fourth (2007) Russian edition by R. P. Boas and D. M. Chibisov.
[70] Y. G. Sinai, Probability theory, Springer Textbook, Springer-Verlag, Berlin, 1992. An introductory
course, Translated from the Russian and with a preface by D. Haughton.
[71] D. W. Stroock, Partial differential equations for probabilists, vol. 112 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2012. Paperback edition of the 2008 original.
[72] D. W. Stroock and S. R. S. Varadhan, Multidimensional diffusion processes, Classics in Mathematics,
Springer-Verlag, Berlin, 2006. Reprint of the 1997 edition.
[73] H. Tanaka, Note on continuous additive functionals of the 1-dimensional Brownian path, Z.
Wahrscheinlichkeitstheorie und Verw. Gebiete, 1 (1962/63), pp. 251–257.
[74] A. Tychonoff, Théorèmes d’unicité pour l’equation de la chaleur, Math. Sbornik, 42 (1935), pp. 199–216.
[75] G. Vitali, Sul problema della misura dei gruppi di punti di una retta, Bologna, Tip. Gamberini e
Parmeggiani., (1905).
[76] D. Williams, Probability with martingales, Cambridge Mathematical Textbooks, Cambridge University
Press, Cambridge, 1991.
[77] A. K. Zvonkin, A transformation of the phase space of a diffusion process that will remove the drift, Mat.
Sb. (N.S.), 93(135) (1974), pp. 129–149, 152.

Potrebbero piacerti anche