Pascucci - Analisi Stocastica

Teoria della Probabilità
Andrea Pascucci1
13 febbraio 2023
1 Email: andrea.pascucci@unibo.it Dipartimento di Matematica, Università di Bologna, Piazza di Porta S. Donato 5,

40126 Bologna, Italy
2
Indice
1 Introduzione 11
Una rivoluzione della matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
La probabilità nel passato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
La probabilità nel presente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Nota bibliografica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Alcuni simboli e notazioni usati frequentemente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
I Variabili aleatorie e distribuzioni 19

2 Misure e spazi di probabilità 21
2.1 Spazi misurabili e spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Spazi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.3 Algebre e σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4 Additività finita e σ -additività . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Spazi finiti e problemi di conteggio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Cardinalità di insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna . . . . . . . . . . . . . . 33
2.2.3 Metodo delle scelte successive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.4 Disposizioni e combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.5 Probabilità binomiale e ipergeometrica. . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.6 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Probabilità condizionata e indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.2 Indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.3 Prove ripetute e indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3.4 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.4.1 σ -algebra generata e completamento di uno spazio di probabilità . . . . . . . . . . . . 59
2.4.2 σ -algebra di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.4.3 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.4.4 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4.5 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4.6 Funzioni di ripartizione (CDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.4.7 Teorema di estensione di Carathéodory . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.4.8 Dalle CDF alle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.4.9 Funzioni di ripartizione su Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.4.10 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3
4 INDICE
2.5 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.1 Dimostrazione della Proposizione 2.3.30 . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory . . . . . . . . . . . . . . . . . . . 80
2.5.4 Dimostrazione del Teorema 2.4.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3 Variabili aleatorie 89
3.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.1 Variabili aleatorie e distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.1.2 Esempi di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.1.3 Esempi di variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . 100
3.1.4 Altri esempi di variabili aleatorie notevoli . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.2 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.2.1 Integrale di variabili aleatorie semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.2.2 Integrale di variabili aleatorie non-negative . . . . . . . . . . . . . . . . . . . . . . . . 109
3.2.3 Integrale di variabili aleatorie a valori in Rd . . . . . . . . . . . . . . . . . . . . . . . . 111
3.2.4 Integrazione con distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.2.5 Valore atteso e Teorema del calcolo della media . . . . . . . . . . . . . . . . . . . . . . 115
3.2.6 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.2.7 Spazi Lp e disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.2.8 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.2.9 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta . . . . . . . . . . . 127
3.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.3.1 Dipendenza deterministica e indipendenza stocastica . . . . . . . . . . . . . . . . . . 129
3.3.2 Misura prodotto e Teorema di Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.3.3 Indipendenza fra σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3.3.4 Indipendenza fra vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.3.5 Indipendenza e valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.4 Distribuzione e valore atteso condizionato ad un evento . . . . . . . . . . . . . . . . . . . . . 141
3.5 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
3.5.1 Il teorema di inversione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
3.5.2 Distribuzione normale multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.5.3 Sviluppo in serie della funzione caratteristica e momenti . . . . . . . . . . . . . . . . 156
3.6 Complementi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
3.6.1 Somma di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
3.6.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4 Successioni di variabili aleatorie 165

4.1 Convergenza per successioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 165
4.1.1 Disuguaglianza di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
4.1.2 Relazioni fra le diverse definizioni di convergenza . . . . . . . . . . . . . . . . . . . . 168
4.2 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
4.2.1 Cenni al metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
4.2.2 Polinomi di Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
4.3 Condizioni necessarie e sufficienti per la convergenza debole . . . . . . . . . . . . . . . . . . 176
4.3.1 Convergenza di funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . 176
4.3.2 Compattezza nello spazio delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . 179
4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy . . . . . . . . 180
4.3.4 Esempi notevoli di convergenza debole . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
4.4 Legge dei grandi numeri e Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . 183
INDICE 5
5 Probabilità condizionata 189

5.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
5.1.1 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
5.2 Attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.2.1 Proprietà dell’attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
5.2.2 Attesa condizionata e cambi di misura di probabilità . . . . . . . . . . . . . . . . . . . 204
5.2.3 Funzione attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
5.2.4 Least Square Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
5.3 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
5.3.1 Funzione distribuzione condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente continuo . . 213
5.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.4.1 Dimostrazione del Teorema 5.3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
II Processi e calcolo stocastico 221

6 Processi stocastici 225
6.1 Processi stocastici: legge e distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . 225
6.1.1 Processi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
6.2 Unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
6.3 Esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
6.4 Filtrazioni e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
6.5 Dimostrazione del Teorema di estensione di Kolmogorov . . . . . . . . . . . . . . . . . . . . 237
6.6 Riassunto delle notazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
6.7 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
7 Processi di Markov 243

7.1 Legge di transizione e processi di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
7.2 Proprietà di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
7.3 Processi a incrementi indipendenti e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . 249
7.4 Leggi finito-dimensionali ed equazione di Chapman-Kolmogorov . . . . . . . . . . . . . . . . 251
7.5 Operatore caratteristico ed equazioni di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 255
7.5.1 Il caso locale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
7.5.2 Equazione di Kolmogorov backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
7.5.3 Equazione di Kolmogorov forward (o di Fokker-Planck) . . . . . . . . . . . . . . . . . 261
7.6 Processi di Markov e diffusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
7.7 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
8 Processo di Poisson 267

8.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
8.2 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
8.3 Proprietà di martingala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
9 Processi continui 277

9.1 Continuità e continuità q.c. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
9.2 Versione canonica di un processo continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
9.3 Teorema di continuità di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
9.4 Diffusioni e PDE paraboliche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
9.5 Dimostrazione del Teorema di continuità di Kolmogorov . . . . . . . . . . . . . . . . . . . . . 284
6 INDICE
10 Moto Browniano 287

10.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
10.2 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
10.3 Spazio di Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
10.4 Martingale Browniane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
11 Tempi d’arresto 295

11.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
11.1.1 Optional sampling, disuguaglianze massimali e lemma di upcrossing . . . . . . . . . 299
11.2 Il caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
11.2.1 Ipotesi usuali e tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
11.2.2 Ampliamento di filtrazioni e processi di Markov . . . . . . . . . . . . . . . . . . . . . 305
11.2.3 Ampliamento di filtrazioni e processi di Lévy . . . . . . . . . . . . . . . . . . . . . . . 308
11.2.4 Risultati generali sui tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
12 Proprietà di Markov forte 313

12.1 Proprietà di Feller e di Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
12.2 Principio di riflessione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
12.3 Il caso omogeneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
13 Martingale continue 321

13.1 Optional sampling e continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
13.2 Martingale càdlàg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
13.3 Martingale continue di quadrato sommabili: lo spazio M c,2 . . . . . . . . . . . . . . . . . . . 327
13.4 Martingale locali: lo spazio M c,loc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
13.5 Martingale uniformemente in L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
14 Teoria della variazione 333

14.1 Integrale di Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
14.2 Integrale di Lebesgue-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
14.3 Semimartingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
14.3.1 Il moto Browniano come semimartingala . . . . . . . . . . . . . . . . . . . . . . . . . . 340
14.3.2 Semimartingale a variazione limitata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
14.4 Decomposizione di Doob e processo variazione quadratica . . . . . . . . . . . . . . . . . . . . 342
14.5 Dimostrazione del Teorema di decomposizione di Doob . . . . . . . . . . . . . . . . . . . . . 343
15 Integrazione stocastica secondo Itô 349

15.1 Integrale rispetto al moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
15.1.1 Dimostrazione del Lemma 15.1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
15.2 Integrale rispetto a martingale continue di quadrato sommabile . . . . . . . . . . . . . . . . 355
15.2.1 Integrale di processi indicatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
15.2.2 Integrale di processi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
15.2.3 Integrale di processi in L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
15.2.4 Integrale di processi in L2loc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
15.2.5 Integrale stocastico e integrale di Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . 366
15.3 Integrale rispetto a semimartingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
15.3.1 Processi di Itô reali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
INDICE 7
16 Formula di Itô 371

16.1 Formula di Itô per semimartingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
16.1.1 Formula di Itô per il moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
16.1.2 Formula di Itô per processi di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
16.2 Alcune conseguenze della formula di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
16.2.1 Disuguaglianze di Burkholder-Davis-Gundy . . . . . . . . . . . . . . . . . . . . . . . . 376
16.2.2 Processo variazione quadratica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
16.3 Dimostrazione della formula di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
17 Il caso multidimensionale 385

17.1 Matrice di covariazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
17.2 Moto Browniano multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
17.3 Processi di Itô multidimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
17.4 Formula di Itô multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
17.5 Caratterizzazione di Lévy e moto Browniano correlato . . . . . . . . . . . . . . . . . . . . . . 393
18 Cambi di misura e rappresentazione di martingale 397

18.1 Cambi di misura e processi di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
18.1.1 Un’applicazione: la valutazione neutrale al rischio di derivati finanziari . . . . . . . . 399
18.2 Stime di sommabilità per martingale esponenziali . . . . . . . . . . . . . . . . . . . . . . . . 400
18.3 Teorema di Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
18.4 Approssimazione mediante martingale esponenziali . . . . . . . . . . . . . . . . . . . . . . . 405
18.5 Rappresentazione delle martingale Browniane . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
19 Equazioni differenziali stocastiche 411

19.1 Soluzioni di SDE: nozioni di esistenza e unicità . . . . . . . . . . . . . . . . . . . . . . . . . . 411
19.2 Ipotesi standard e stime preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
19.3 Stime a priori di sommabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
20 Formule di Feynman-Kac 421

20.1 Operatore caratteristico di una SDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
20.2 Tempo di uscita da un dominio limitato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
20.3 Il caso autonomo: il problema di Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
20.4 Il caso evolutivo: il problema di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
21 Equazioni stocastiche lineari 431

21.1 Soluzione e legge di transizione di una SDE lineare . . . . . . . . . . . . . . . . . . . . . . . . 431
21.2 Assoluta continuità e controllabilità di un sistema lineare . . . . . . . . . . . . . . . . . . . . 434
21.3 Condizione di Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
21.4 Condizione di Hörmander . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
21.5 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
22 Soluzioni forti 443

22.1 Unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
22.2 Esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
22.3 Proprietà di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448
22.4 Dipendenza continua dai parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
8 INDICE
23 Soluzioni deboli 453

23.1 Trasferimento di soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
23.2 Soluzioni deboli vs forti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
23.3 Problema della martingala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
23.4 Risolubilità debole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
23.5 Unicità in legge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
23.6 Unicità forte: regolarizzazione con rumore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
24 Complementi 461
24.1 Equazioni stocastiche backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
24.2 Filtraggio stocastico ed equazione del calore stocastica . . . . . . . . . . . . . . . . . . . . . . 463
24.3 Integrale stocastico backward e SPDE di Krylov . . . . . . . . . . . . . . . . . . . . . . . . . . 465
24.4 Proiezione Markoviana e Teorema di Gyöngy . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
25 Metodi numerici stocastici 467

25.1 Metodo di Eulero per equazioni ordinarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.1.1 Schemi di ordine superiore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.2 Metodo di Eulero per equazioni stocastiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.2.1 Schema di Milstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.3 Metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.3.1 Simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.3.2 Applicazioni alla risoluzione numerica di PDE . . . . . . . . . . . . . . . . . . . . . . 467
25.3.3 Analisi dell’errore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
26 Esistenza e unicità per PDE paraboliche 469

26.1 Equazioni di Kolmogorov backward e forward . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
26.2 Unicità: il principio del massimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
26.2.1 Problema di Cauchy-Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
26.2.2 Problema di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
26.3 Esistenza: la soluzione fondamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
26.4 Il metodo della parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
26.4.1 Stime Gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
26.4.3 Stime del potenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
A 497
A.1 Teoremi di Dynkin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
A.2 Assoluta continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
A.2.1 Teorema di Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
A.2.2 Rappresentazione di aperti di R mediante intervalli . . . . . . . . . . . . . . . . . . . 502
A.2.3 Derivabilità di funzioni integrali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
A.2.4 Assoluta continuità di funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
A.3 Uniforme integrabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508
B Temi d’esame risolti 511

Dicembre 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
Gennaio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516
Febbraio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 520
Giugno 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524
Luglio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527
Settembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
INDICE 9
Dicembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533

Gennaio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537
Febbraio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
Maggio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
Luglio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
Settembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554
Dicembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557
Gennaio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562
Febbraio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567
Maggio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572
Giugno 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578
Settembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584
Dicembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588
Gennaio 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592
Febbraio 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
Dicembre 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 600
Gennaio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
Febbraio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608
Maggio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 611
Luglio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615
Settembre 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 619
Dicembre 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
Gennaio 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 628
Febbraio 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632
Maggio 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636
Luglio 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
Settembre 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644
Dicembre 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 648
Gennaio 2023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
Febbraio 2023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656
C Tavole riassuntive delle principali distribuzioni 661
Indice analitico 663
Riferimenti bibliografici 667

10 INDICE
Capitolo 1
Introduzione
“For over two millennia, Aristotle’s logic has ruled over the thinking of western intellectuals. All precise theo-
ries, all scientific models, even models of the process of thinking itself, have in principle conformed to the straight-
jacket of logic. But from its shady beginnings devising gambling strategies and counting corpses in medieval
London, probability theory and statistical inference now emerge as better foundations for scientific models, espe-
cially those of the process of thinking and as essential ingredients of theoretical mathematics, even the foundations
of mathematics itself. We propose that this sea change in our perspective will affect virtually all of mathematics in
the next century.”
D. Mumford, The Dawning of the Age of Stochasticity [84]
“In conclusione, cosa ci hanno mostrato Tversky e Kahneman1 con la loro convincente serie di esperimenti?
Che l’essere umano, anche quello intelligente, colto e perfino con delle nozioni di statistica, non è un animale
probabilistico. La teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico, non è
insegnata nelle scuole, a volte non è capita molto bene neppure da coloro che dovrebbero applicarla.”
V. D’Urso, F. Giusberti, Esperimenti di psicologia [36]
Una rivoluzione della matematica

Nella matematica “classica” (quella che tuttora costituisce la maggior parte dei contenuti insegnati nel-
le scuole superiori e università) i concetti matematici rappresentano e descrivono quantità deterministiche:
quando si parla, per esempio, di una variabile reale o di un oggetto geometrico si pensa rispettivamente
a un numero che può essere ben determinato e a una figura che può essere definita analiticamente e rap-
presentata in modo esatto. Da sempre, la matematica è ritenuto il linguaggio e lo strumento più potente
con cui descrivere i fenomeni fisici e naturali in modo da interpretare e acquisire conoscenze su molte-
plici aspetti della realtà. Ma i modelli che la matematica può fornire sono sempre semplificazioni e non
forniscono quasi mai una descrizione completa del fenomeno che si vuole studiare.
Consideriamo il seguente esempio banale: se vado al supermercato e compro un 1Kg di farina, posso
essere soddisfatto dal fatto di sapere che il pacco pesa 1Kg perché c’è scritto sulla confezione; se non mi
fido, posso pesarlo con la mia bilancia e scoprire che magari non è esattamente 1Kg ma qualche grammo
in più o in meno; poi potrei anche chiedermi se la mia bilancia sia veramente affidabile e precisa fino al
grammo e quindi rassegnarmi al fatto che forse non saprò mai il vero peso del pacco di farina. In questo
caso ovviamente poco importa... Tuttavia l’esempio aiuta a capire che molti fenomeni (o forse tutta la
realtà) possono essere interpretati come la somma o combinazione di più fattori classificabili in fattori
1 Premio Nobel per l’economia nel 2002.
11
12 CAPITOLO 1. INTRODUZIONE
deterministici (nel senso di osservabili a livello macroscopico) e fattori stocastici (nel senso di casuali, aleatori,
non osservabili o non prevedibili).
Il termine “stocastico” deriva dal greco στόχος che significa bersaglio (del tiro a segno) o, in senso figu-
rato, congettura. A volte, come nell’esempio della farina, il fattore deterministico è prevalente nel senso che,
per vari motivi, non val la pena considerare altri fattori e si preferisce trascurarli oppure non si hanno gli
strumenti per includerli nella propria analisi: in questo modo forse semplicistico, per analogia, si potrebbe
descrivere l’approccio della fisica classica e di tutte le teorie formulate prima del XX secolo che puntano a
dare una descrizione a livello macroscopico e osservabile. D’altra parte, esistono molti fenomeni in cui il
fattore stocastico non solo non è trascurabile ma è addirittura dominante: un esempio eclatante è fornito
dalle principali teorie della fisica moderna, in particolare la meccanica quantistica. Rimanendo vicini alla
realtà quotidiana, ormai non esiste ambito applicativo della matematica in cui si possa trascurare il fatto-
re stocastico: dall’economia alla medicina, dall’ingegneria alla meteorologia, i modelli matematici devono
necessariamente includere l’incertezza; infatti il fenomeno in oggetto può essere intrinsecamente aleatorio
come il prezzo di un titolo azionario o il segnale in un sistema di riconoscimento vocale o guida automa-
tica, oppure può non essere osservabile con precisione o di difficile interpretazione come un segnale radio
disturbato, un’immagine tomografica o la posizione di una particella subatomica.
C’è anche un livello più generale in cui non si può ignorare il ruolo della probabilità nello sviluppo
della società odierna: si tratta di quella che è ormai ritenuta un’emergenza educativa, l’esigenza sempre
più pressante che si diffondano e rafforzino le conoscenze di tipo probabilistico. Una vera e propria opera
di alfabetizzazione in questo campo può evitare che banali misconcezioni, come per esempio quella dei
numeri “ritardatari” nel gioco del lotto, abbiano gli effetti devastanti a livello sociale ed economico che
oggi osserviamo: basti pensare che, in base ai dati ufficiali dei Monopoli di Stato, i soldi spesi dagli italiani
per giochi d’azzardo (e parliamo solo dei giochi legali) nel 2017 hanno superato il tetto dei 100 miliardi di
euro, il quadruplo rispetto al 2004.
Un segnale positivo è dato dall’evoluzione dell’insegnamento della probabilità nelle scuole superiori:
fino a pochi anni fa la probabilità era assente dai programmi scolastici ed ora sta velocemente incremen-
tando la propria presenza nei libri di testo e nelle prove d’esame, provocando anche un certo sconcerto
nel corpo docente a causa di un cosı̀ rapido aggiornamento dei contenuti. È bene sottolineare che la ma-
tematica stocastica (la probabilità) non vuole destituire la matematica classica ma ha in quest’ultima le
proprie fondamenta e la potenzia approfondendo i legami con le altre discipline scientifiche. Paradossal-
mente, il mondo della formazione superiore e universitaria sembra avere un’inerzia maggiore per cui tende
a rallentare il processo di passaggio dal pensiero deterministico a quello stocastico. In parte questo è com-
prensibile: la difesa dello status quo è ciò che normalmente avviene di fronte ad ogni profonda rivoluzione
scientifica e, a tutti gli effetti, stiamo parlando di una vera e propria rivoluzione, silenziosa e irreversibile, che
coinvolge tutti gli ambiti della matematica. A questo riguardo è illuminante la frase, posta all’inizio di que-
sta introduzione, del matematico anglo-statunitense David Mumford, medaglia Fields2 nel 1974 per i suoi
studi nel campo della geometria algebrica. Nell’articolo da cui è stata tratta la frase, Mumford conferma il
fatto che la teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico3 .
2 L’International Medal for Outstanding Discoveries in Mathematics, o più semplicemente medaglia Fields, è un premio riconosciu-
to a matematici che non abbiano superato l’età di 40 anni in occasione del Congresso internazionale dei matematici della International
Mathematical Union (IMU), che si tiene ogni quattro anni. È spesso considerata come il più alto riconoscimento che un matematico
possa ricevere: assieme al premio Abel è da molti definita il “Premio Nobel per la Matematica”, sebbene l’accostamento sia improprio
per varie ragioni, tra cui il limite di età insito nel conferimento della medaglia Fields (fonte Wikipedia).
3 The classical subdivisions of mathematics are geometry, algebra, and analysis. The perception of space (through senses and mu-
scular interaction) is the primitive element of our experience on which geometry is based. Analysis, I would argue, is the outgrowth of
the human experience of force and its children, acceleration and oscillation. Algebra seems to stem from the grammar of actions, i.e.,
the fact that we carry out actions in specific orders, concatenating one after the other, and making various ”higher order“ actions out
of simpler more basic ones. I believe there is a fourth branch of human experience which creates reproducible mental objects, hence
creates math: our experience of thought itself through our conscious observation of our mind at work. The division of mathematics
corresponding to this realm of experience is not logic but probability and statistics. (D. Mumford, [84])
13
La probabilità nel passato

Il termine probabilità deriva dal latino probabilitas che descrive la caratteristica di una persona (per
esempio, il testimone in un processo) di essere affidabile, credibile, onesto (probus). Questo differisce in
parte dal significato moderno di probabilità intesa come studio di metodi per quantificare e stimare gli
eventi casuali. Benché lo studio dei fenomeni in situazione d’incertezza abbia suscitato interesse in tutte le
epoche (a partire dai giochi d’azzardo), la teoria della probabilità come disciplina matematica ha origini
relativamente recenti. I primi studi di probabilità risalgono al XVI secolo: se ne occuparono, fra i primi,
Gerolamo Cardano (1501-1576) e Galileo Galilei (1564-1642).
Tradizionalmente la nascita del concetto moderno di probabilità viene attribuita a Blaise Pascal (1623-
1662) e Pierre de Fermat (1601-1665). In realtà il dibattito sulla natura stessa della probabilità è stato
molto lungo e articolato; esso ha interessato trasversalmente i campi della conoscenza dalla matematica
alla filosofia, e si è protratto fino ai giorni nostri producendo diverse interpretazioni e impostazioni. Per
maggiore chiarezza e precisione, è opportuno anzitutto distinguere la Teoria della Probabilità (che si occupa
della formalizzazione matematica dei concetti e dello sviluppo della teoria a partire da alcuni assunti) dalla
Statistica (che si occupa della determinazione o della stima della probabilità degli eventi aleatori, anche
utilizzando i risultati della Teoria della Probabilità). In questa breve premessa ci limitiamo a riassumere
in estrema sintesi alcune delle principali interpretazioni del concetto di probabilità: alcune di esse sono
maggiormente motivate dal calcolo e altre dalla teoria della probabilità. Partiamo dal considerare alcuni
eventi aleatori, posti in ordine crescente di complessità:
• E1 = “lanciando una moneta, si ottiene testa”;
• E2 = “il sig. Rossi non avrà incidenti in auto nei prossimi 12 mesi”;
• E3 = “entro 10 anni ci saranno auto a guida completamente autonoma”.
Esaminiamo tali eventi alla luce di alcune interpretazioni del concetto di probabilità:
• definizione classica: la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il
numero dei casi possibili. Per esempio, nel caso E1 la probabilità è pari a 12 = 50%. È la definizione
più antica di probabilità, attribuita a Pierre Simon Laplace (1749-1827). Questa definizione si limita
a considerare i fenomeni che ammettono un numero finito di casi possibili e nei quali i casi siano
equiprobabili: con questa interpretazione non è chiaro come studiare gli eventi E2 e E3 ;
• definizione frequentista (o statistica): si suppone che l’evento consista nel successo di un esperimento
riproducibile un numero indefinito di volte (per esempio, se l’esperimento è il lancio di una moneta,
l’evento potrebbe essere “ottenere testa”). Se Sn indica il numero di successi su n esperimenti, si
definisce (sarebbe meglio dire, si calcola) la probabilità come
Sn
lim .
n→∞ n
Alla base di questa definizione c’è la Legge empirica del caso (che, in termini teorici, corrisponde alla
Legge dei grandi numeri) per cui, per esempio, nel caso del lancio di una moneta si osserva empi-
ricamente che Snn approssima il valore 50% per n che tende all’infinito. La definizione frequentista
amplia notevolmente il campo di applicazione a tutti gli ambiti (fisica, economia, medicina etc) in cui
si posseggano dati statistici riguardanti eventi passati che si sono verificati in condizioni analoghe:
per esempio, si può calcolare la probabilità dell’evento E2 con una stima statistica in base a dati sto-
rici (come normalmente fanno le compagnie assicuratrici). L’approccio frequentista non permette di
studiare il terzo evento che non è l’esito di un “esperimento aleatorio riproducibile”;
• definizione soggettiva (o Bayesiana4 ): la probabilità è definita come una misura del grado di convin-
zione che un soggetto ha riguardo al verificarsi di un evento. In questo approccio, la probabilità non
4 Thomas Bayes (1701-1761).
è una proprietà intrinseca e oggettiva dei fenomeni casuali ma dipende dalla valutazione di un sog-
getto. Operativamente5 , la probabilità di un evento è definita come il prezzo che un individuo ritiene
equo pagare per ricevere 1 se l’evento si verifica e 0 se l’evento non si verifica: per esempio, la probabilità
di un evento è pari al 70% per un individuo che ritiene equo scommettere 70 per ricevere 100 nel
caso l’evento si verifichi e perdere tutto in caso contrario. La definizione è resa significativa assumen-
do un criterio di coerenza o razionalità dell’individuo che deve attribuire le probabilità in modo tale
che non sia possibile ottenere una vincita o una perdita certa (nel gergo finanziario odierno, si par-
lerebbe di assenza di possibilità di arbitraggio); occorre poi porre particolare attenzione per evitare
paradossi del tipo seguente: nell’esempio del lancio di una moneta, un individuo può essere disposto
a scommettere 1 euro per riceverne 2 in caso di “testa” e 0 in caso di “croce” (e quindi attribuendo
probabilità pari al 50% all’evento “testa”) ma lo stesso individuo potrebbe non essere disposto a gio-
care 1 milione di euro sulla stessa scommessa. L’approccio soggettivo è stato proposto e sviluppato da
Frank P. Ramsey (1903-1930), Bruno de Finetti (1906-1985) e successivamente da Leonard J. Savage
(1917-1971): esso generalizza i precedenti e permette di definire anche la probabilità di eventi come
E3 .
Il dibattito sulle possibili interpretazioni della probabilità si è protratto per lungo tempo ed è tuttora
aperto. Ma nella prima metà del secolo scorso c’è stato un punto di svolta decisivo, dovuto al lavoro del
matematico russo Andrej N. Kolmogorov (1903-1987). Egli per primo ha gettato le basi per la formaliz-
zazione matematica della probabilità, inserendola a pieno titolo nel novero delle discipline matematiche.
Kolmogorov ha messo in secondo piano i difficili problemi del fondamento logico e del dualismo fra la
visione oggettiva e soggettiva, concentrandosi sullo sviluppo della probabilità come teoria matematica. Il
contributo di Kolmogorov è fondamentale perché, aggirando i problemi epistemologici, ha sprigionato tut-
ta la potenza del ragionamento astratto e logico-deduttivo applicato allo studio della probabilità e ha cosı̀
agevolato il passaggio dal calcolo della probabilità alla teoria della probabilità. A partire dal lavoro di Kol-
mogorov e grazie al contributo di molti grandi matematici del secolo scorso, sono stati conseguiti risultati
profondi e aperti campi di ricerca ancora completamente inesplorati.
Ora è bene sottolineare che la formalizzazione matematica della probabilità richiede un considerevole
grado di astrazione. Pertanto, è assolutamente naturale che la teoria della probabilità risulti ostica, se
non incomprensibile, al primo impatto. Kolmogorov utilizza il linguaggio della teoria della misura: un
evento è identificato con un insieme E i cui elementi rappresentano singoli esiti possibili del fenomeno
aleatorio considerato; la probabilità P = P (E) è una misura, ossia una funzione d’insieme che gode di alcune
proprietà: per fissare le idee, si pensi alla misura di Lebesgue. L’utilizzo del linguaggio astratto della teoria
della misura è guardato da alcuni (anche da alcuni matematici) con sospetto perché sembra indebolire
l’intuizione. Tuttavia questo è il prezzo inevitabile che si deve pagare per poter sfruttare tutta la potenza
del ragionamento astratto e sintetico che è poi la vera forza dell’approccio matematico.
In queste libro presentiamo i primi rudimenti di teoria della probabilità secondo l’impostazione assio-
matica di Kolmogorov. Ci limiteremo a introdurre ed esaminare i concetti di spazio di probabilità, distribu-
zione e variabile aleatoria. Facendo un parallelo fra probabilità e analisi matematica, il contenuto di questo
testo corrisponde grossomodo all’introduzione dei numeri reali in un primo corso di analisi matematica:
ciò significa che faremo solo i primissimi passi nel vasto campo della Teoria della Probabilità.
La probabilità nel presente

Come affermato nella frase di David Mumford posta all’inizio dell’introduzione, al giorno d’oggi la
teoria della probabilità è considerata un ingrediente essenziale per lo sviluppo teorico della matematica e per
i fondamenti della matematica stessa. A titolo d’esempio, l’importante articolo di rassegna [82] racconta, con
dovizia di particolari, gli incredibili sviluppi della ricerca nella teoria processi stocastici dalla metà del
secolo scorso in poi.
5 Per quantificare, ossia tradurre in numero, il grado di convinzione di un soggetto su un evento, l’idea è di esaminare come il
soggetto agisce in una scommessa riguardante l’evento considerato.
15
Dal punto di vista applicativo, la teoria della probabilità è lo strumento utilizzato per modellizzare e
gestire il rischio in tutti gli ambiti in cui si studiano fenomeni in condizioni d’incertezza. Facciamo qualche
esempio:
• Fisica e Ingegneria dove si fa ampio uso dei metodi numerici stocastici di tipo Monte Carlo, forma-
lizzati fra i primi da Enrico Fermi e John von Neumann;
• Economia e Finanza, a partire dalla famosa formula di Black-Scholes-Merton per la quale gli autori
hanno ricevuto il premio Nobel. La modellistica finanziaria richiede generalmente un background
matematico-probabilistico-numerico avanzato: il contenuto di questo libro corrisponde grossomodo
all’Appendice A.1 di [94];
• Telecomunicazioni: la NASA utilizza il metodo di Kalman-Bucy per filtrare i segnali provenienti da

satelliti e sonde inviati nello spazio. Da [88], pag.2: “In 1960 Kalman and in 1961 Kalman and Bucy
proved what is now known as the Kalman-Bucy filter. Basically the filter gives a procedure for estimating
the state of a system which satisfies a “noisy” linear differential equation, based on a series of “noisy” obser-
vations. Almost immediately the discovery found applications in aerospace engineering (Ranger, Mariner,
Apollo etc.) and it now has a broad range of applications. Thus the Kalman-Bucy filter is an example of
a recent mathematical discovery which has already proved to be useful - it is not just “potentially” use-
ful. It is also a counterexample to the assertion that “applied mathematics is bad mathematics” and to the
assertion that “the only really useful mathematics is the elementary mathematics”. For the Kalman-Bucy
filter - as the whole subject of stochastic differential equations - involves advanced, interesting and first class
mathematics”.
• Medicina e Botanica: il più importante processo stocastico, il moto Browniano, prende il nome da
Robert Brown, un botanico che verso il 1830 osservò il movimento irregolare di particelle colloidali
in sospensione. Il moto Browniano è stato utilizzato da Louis Jean Baptist Bachelier nel 1900 nella
sua tesi di dottorato di ricerca per modellizzare i prezzi delle azioni ed è stato oggetto di uno dei più
famosi lavori di Albert Einstein pubblicato nel 1905. La prima definizione matematicamente rigorosa
di moto Browniano è stata data da Norbert Wiener nel 1923.
• Genetica: è la scienza che studia la trasmissione dei caratteri e i meccanismi con i quali questi vengo-
no ereditati. Gregor Johann Mendel (1822-1884), monaco agostiniano ceco considerato il precursore
della moderna genetica, diede un fondamentale contributo di tipo metodologico applicando per la
prima volta il calcolo delle probabilità allo studio dell’ereditarietà biologica.
• Informatica: i computer quantistici sfruttano le leggi della meccanica quantistica per l’elaborazione
dei dati. In un computer attuale l’unità di informazione è il bit: mentre possiamo sempre determinare
lo stato di un bit e stabilire con precisione se è 0 o 1, non possiamo determinare con altrettanta
precisione lo stato di un qubit, l’unità di informazione quantistica, ma solo le probabilità che assuma
i valori 0 e 1.
• Giurisprudenza: il verdetto emesso da un giudice di un tribunale si basa sulla probabilità di colpe-

volezza dell’imputato stimata a partire dalle informazioni fornite dalle indagini. In questo ambito
il concetto di probabilità condizionata gioca un ruolo fondamentale e un suo uso non corretto è alla
base di clamorosi errori giudiziari: alcuni di essi sono raccontati in [95].
• Meteorologia: per la previsione oltre il quinto giorno è fondamentale poter disporre di modelli me-
teorologici di tipo probabilistico; i modelli probabilistici girano generalmente nei principali centri
meteo internazionali perché necessitano di procedure statistico-matematiche molto complesse e one-
rose a livello computazionale. A partire dal 2020 il Data Center del Centro europeo per le previsioni
meteorologiche a medio termine (European Center Medium Weather Forecast, in sigla ECMWF) ha sede
a Bologna.
• Applicazioni militari: da [108] p.139: “In 1938, Kolmogorov had published a paper that established the
basic theorems for smoothing and predicting stationary stochastic processes. An interesting comment on
the secrecy of war efforts comes from Norbert Wiener (1894-1964) who, at the Massachusetts Institute of
Technology, worked on applications of these methods to military problems during and after the war. These
results were considered so important to America’s Cold War efforts that Wiener’s work was declared top
secret. But all of it, Wiener insisted, could have been deduced from Kolmogorov’s early paper.”
Infine la probabilità è alla base dello sviluppo delle più recenti tecnologie di Machine Learning e tutte le re-
lative applicazioni all’intelligenza artificiale, auto a guida autonoma, riconoscimento vocale e di immagini
etc (si veda, per esempio, [51] e [102]). Al giorno d’oggi, una conoscenza avanzata di Teoria della Probabi-
lità è il requisito minimo per chiunque voglia occuparsi di matematica applicata in uno degli ambiti sopra
menzionati.
Per concludere, penso si possa convenire sul fatto che se studiamo matematica è anzitutto perché ci piace
e non tanto perché ci garantirà un lavoro futuro. Certamente la matematica non ha bisogno di giustificarsi
con le applicazioni. Ma è anche vero che non viviamo sulla luna e un lavoro prima o poi dovremo trovarlo.
Allora è importante conoscere le applicazioni reali della matematica: esse sono numerose, richiedono cono-
scenze avanzate, assolutamente non banali tanto da poter soddisfare anche il gusto estetico di un cosiddetto
“matematico puro”. Infine, per chi volesse cimentarsi con la ricerca pura, la teoria della probabilità è cer-
tamente uno dei campi più affascinanti e meno esplorati, in cui il contributo delle migliori giovani menti è
fondamentale e fortemente auspicabile.
Nota bibliografica
Esistono molti eccellenti testi di introduzione alla Teoria della Probabilità: fra i miei preferiti, e che sono
stati la maggiore fonte di ispirazione e di idee, ci sono quelli di Bass [11], Durrett [35], Klenke [59] e Wil-
liams [126]. Di seguito elenco in ordine alfabetico altri importanti testi di riferimento: Baldi [5], Bass [9],
Bauer [14], Biagini e Campanino [17], Billingsley [18], Caravenna e Dai Pra [25], Feller [42], Jacod e Protter
[55], Kallenberg [57], Letta [75], Neveu [85], Pintacuda [97], Shiryaev [112], Sinai [113]. Questo libro può
essere considerato un ulteriore tentativo di raccogliere in maniera ordinata, sintetica e completa le nozioni
basilari di probabilità in modo da agevolare studi successivi più avanzati. Fra le numerose monografie di
introduzione alla ricerca nel campo della teoria dei processi stocastici e del calcolo differenziale stocastico,
mi limito a citare Baldi [6], Bass [10], Baudoin [13], Doob [33], Durrett [34], Friedman [46], Karatzas e
Shreve [58], Mörters e Peres [83], Revuz e Yor [103], Schilling [110], Stroock [115].
17
Alcuni simboli e notazioni usati frequentemente

• A := B significa che A è, per definizione, uguale a B
U
• indica l’unione disgiunta
S
• An ↗ A indica che (An )n∈N è una successione crescente di insiemi tale che A = An
n∈N
T
• An ↘ A indica che (An )n∈N è una successione decrescente di insiemi tale che A = An
n∈N
• ♯A oppure |A| indica la cardinalità dell’insieme A. A ↔ B se |A| = |B|
• Bd = B(Rd ) è la σ -algebra di Borel in Rd ; B := B1
• mF (risp. mF + , bF ) la classe delle funzioni F -misurabili (risp. F -misurabili e non-negative, F -

misurabili e limitate)
• N famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16)
• insiemi numerici:
– numeri naturali: N = {1, 2, 3, ...}, N0 = N ∪ {0}, In := {1, . . . , n} per n ∈ N

¯ = R ∪ {±∞}, reali positivi R>0 = ]0, +∞[, non-negativi R≥0 = [0, +∞[
– numeri reali R, reali estesi R
• Lebd indica la misura di Lebesgue d-dimensionale; Leb := Leb1
• funzione indicatrice di un insieme A


1 se x ∈ A


1A (x) := 
0
 altrimenti
• prodotto scalare Euclideo:
d
X
⟨x, y⟩ = x · y = xi y i , x = (x1 , . . . , xd ), y = (y1 , . . . , yd ) ∈ Rd
i=1
Nelle operazioni matriciali, il vettore d-dimensionale x viene identificato con la matrice colonna d ×1.
• massimo e minimo di numeri reali:
x ∧ y = min{x, y}, x ∨ y = max{x, y}
• parte positiva e negativa:

x+ = x ∨ 0, x− = (−x) ∨ 0
• argomento del massimo e del minimo di f : A −→ R:
arg max f (x) = {y ∈ A | f (y) ≥ f (x) per ogni x ∈ A}

x∈A
arg min f (x) = {y ∈ A | f (y) ≤ f (x) per ogni x ∈ A}
x∈A
Abbreviazioni
v.a. = variabile aleatoria
q.c. = quasi certamente. Una certa proprietà vale q.c. se esiste N ∈ N (insieme trascurabile) tale che la
proprietà è vera per ogni ω ∈ Ω \ N
q.o. = quasi ovunque (rispetto alla misura di Lebesgue)
Segnaliamo l’importanza dei risultati con i seguenti simboli:

[!] significa che bisogna porre molta attenzione e cercare di capire bene, perché si sta introducendo un
concetto importante, un’idea o una tecnica nuova
[!!] significa che il risultato è molto importante
[!!!] significa che il risultato è fondamentale
Parte I
Variabili aleatorie e distribuzioni
19
Capitolo 2
Misure e spazi di probabilità
The philosophy of the foundations of

probability must be divorced from
mathematics and statistics, exactly
as the discussion of our intuitive
space concept is now divorced from
geometry.
William Feller
Si parla genericamente di Probabilità in riferimento a fenomeni incerti, il cui esito non è noto con
sicurezza. Come sottolinea Costantini [28], non è semplice dare una definizione generale e negli ultimi
secoli molti studiosi hanno cercato risposte a domande del tipo:
1) cos’è la Probabilità?
2) come si calcola1 la Probabilità?
3) come “funziona”2 la Probabilità?
D’altra parte, solo in tempi relativamente recenti si è iniziato a comprendere la differente natura di tali
quesiti e il fatto che debbano essere indagati con metodi e strumenti specifici di discipline diverse e ben
distinte:
1) in Filosofia si indaga il concetto di Probabilità e il suo possibile significato, cercando di darne una
definizione e studiarne la natura da un punto di vista generale. L’approccio filosofico ha portato a
interpretazioni e definizioni anche molto differenti;
2) la Statistica è la disciplina che studia i metodi per la stima e la valutazione della Probabilità a partire
da osservazioni e dati disponibili sul fenomeno aleatorio considerato;
3) la Teoria della Probabilità è la disciplina puramente matematica che applica il ragionamento astratto
e logico-deduttivo per formalizzare la Probabilità e le sue regole, partendo da assiomi e definizioni
primitive (come lo sono, per analogia, i concetti di punto e di retta in Geometria).
1 Sono molti i casi in cui è importante calcolare o almeno stimare la probabilità di un evento incerto. Per esempio, un giocatore
d’azzardo è interessato a conoscere la probabilità di ottenere una certa mano al gioco del Poker; una compagnia di assicurazioni deve
stimare la probabilità che un proprio assicurato abbia uno o più incidenti nel corso di un anno; un’industria che produce auto vuole
stimare la probabilità che il prezzo dell’acciaio non superi un certo valore; una compagnia aerea può fare overbooking in base alla
probabilità che un certo numero di viaggiatori non si presenti all’imbarco.
2 In altri termini, è possibile formalizzare i principi e le regole generali della Probabilità in termini matematici rigorosi, in analogia
con quanto si fa per esempio nella geometria Euclidea?
21
22 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Quando si affronta per la prima volta lo studio della Probabilità, confusione e fraintendimenti possono de-
rivare dal non distinguere adeguatamente i diversi approcci (filosofico, statistico e matematico). In questo
testo assumiamo esclusivamente il punto di vista matematico: il nostro scopo è fornire un’introduzione alla
Teoria della Probabilità.
2.1 Spazi misurabili e spazi di probabilità

La Teoria della Probabilità studia i fenomeni il cui esito è incerto: questi vengono detti fenomeni aleatori
(o esperimenti aleatori). Esempi banali di fenomeni aleatori sono il lancio di una moneta o l’estrazione di
una carta da un mazzo. Gli esiti di un fenomeno aleatorio non sono necessariamente tutti “equivalenti”
nel senso che, per qualche motivo, un esito può essere più “probabile” (plausibile, verosimile, atteso etc)
di un altro. Si noti che, poiché per definizione nessuno degli esiti possibili può essere scartato a priori,
la Teoria della Probabilità non si propone di prevedere l’esito di un fenomeno aleatorio (cosa impossibile!)
ma stimare, nel senso di misurare, il grado di attendibilità (la probabilità) dei singoli esiti possibili o della
combinazione di alcuni di essi. Questo è il motivo per cui gli strumenti matematici e il linguaggio su cui
si basa la moderna Teoria della Probabilità sono quelli della teoria della misura che è anche il punto di
partenza della nostra trattazione. La Sezione 2.1.1 è dedicata al richiamo delle prime definizioni e concetti
di teoria della misura; nella successiva Sezione 2.1.2 ne diamo l’interpretazione probabilistica.
2.1.1 Spazi misurabili

Definizione 2.1.1 (Spazio misurabile). Uno spazio misurabile è una coppia (Ω, F ) dove:
i) Ω è un insieme non vuoto;
ii) F è una σ -algebra su Ω, ossia F è una famiglia non vuota di sottoinsiemi di Ω che soddisfa le seguenti
proprietà:
ii-a) se A ∈ F allora Ac := Ω \ A ∈ F ;
ii-b) l’unione numerabile di elementi di F appartiene ad F .
La proprietà ii-a) si esprime dicendo che F è una famiglia chiusa rispetto al passaggio al complementare;
la proprietà ii-b) si esprime dicendo che F è una famiglia σ -∪-chiusa (chiusa rispetto all’unione numerabile).
Osservazione 2.1.2. Dalla proprietà ii-b) segue anche che se A, B ∈ F allora A ∪ B ∈ F , ossia F è ∪-chiusa
(chiusa rispetto all’unione finita). Infatti dati A, B ∈ F , si può costruire la successione C1 = A, Cn = B per
ogni n ≥ 2; allora
∞
[
A∪B = Cn ∈ F .
n=1
Una σ -algebra F è non vuota per definizione e quindi esiste A ∈ F e, per la ii-a), si ha Ac ∈ F : allora anche
Ω = A ∪ Ac ∈ F e, ancora per ii-a), ∅ ∈ F . Osserviamo che {∅, Ω} è la più piccola σ -algebra su Ω; viceversa,
l’insieme delle parti P(Ω) è la più grande σ -algebra su Ω.
Notiamo anche che l’intersezione finita o numerabile di elementi di una σ -algebra F appartiene a F :
infatti se (An ) è una famiglia finita o numerabile in F , combinando le proprietà ii-a) e ii-b), si ha che
\ [ c
An = Acn ∈ F.
n n
Di conseguenza, si dice che F è ∩-chiusa e σ -∩-chiusa.

2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 23
Definizione 2.1.3 (Misura). Una misura sullo spazio misurabile (Ω, F ) è una funzione
µ : F −→ [0, +∞]
tale che:
iii-a) µ(∅) = 0;
iii-b) µ è σ -additiva su F , ossia per ogni successione (An )n∈N di elementi disgiunti di F vale3
∞  ∞
]  X
µ  An  =
 µ (An ) .
n=1 n=1
Osservazione 2.1.4. Ogni misura µ è additiva nel senso che, per ogni famiglia finita A1 , . . . , An di insiemi
disgiunti in F , vale  n 
]  X n
µ  Ak  = µ (Ak ) .
k=1 k=1
Infatti, posto Ak = ∅ per k > n, si ha
 n  ∞ 
]  ] 
µ  Ak  = µ  Ak  =
k=1 k=1
(per la σ -additività)
∞
X
= µ (Ak ) =
k=1
(per il fatto che µ(∅) = 0)

n
X
= µ (Ak ) .
k=1
Definizione 2.1.5. Una misura µ su (Ω, F ) si dice finita se µ(Ω) < ∞ e si dice σ -finita se esiste una succes-
sione (An ) in F tale che [
Ω= An e µ(An ) < +∞, n ∈ N.
n∈N
Esempio 2.1.6. Il primo esempio di misura σ -finita che si incontra nei corsi di analisi matematica è la
misura di Lebesgue; essa è definita sullo spazio Euclideo d-dimensionale, Ω = Rd , munito della σ -algebra
degli insiemi misurabili secondo Lebesgue.
2.1.2 Spazi di probabilità

Definizione 2.1.7 (Spazio di probabilità). Uno spazio con misura (Ω, F , µ) in cui µ(Ω) = 1 è detto spazio
di probabilità: in questo caso, di solito utilizziamo la lettera P al posto di µ e diciamo che P è una misura di
probabilità (o semplicemente una probabilità).
In uno spazio di probabilità (Ω, F , P ), ogni elemento ω ∈ Ω è detto esito; ogni A ∈ F è chiamato evento
e il numero P (A) è detto probabilità di A. Inoltre diciamo che Ω è lo spazio campionario e F è la σ -algebra
degli eventi.
Nel caso in cui Ω sia finito o numerabile, assumiamo sempre F = P(Ω) e diciamo che (Ω, P(Ω), P ) (o,
più semplicemente, (Ω, P )) è uno spazio di probabilità discreto. Se invece Ω non è numerabile, parliamo di
spazio di probabilità continuo (o generale).
3 Ricordiamo che il simbolo U indica l’unione disgiunta. Osserviamo che U A ∈ F poiché F è una σ -algebra.
n
n∈N
Esempio 2.1.8. [!] Consideriamo il fenomeno aleatorio del lancio di un dado regolare a sei facce. Lo spazio
campionario
Ω = {1, 2, 3, 4, 5, 6}
rappresenta gli stati possibili (esiti) dell’esperimento aleatorio considerato. Intuitivamente, un evento è
un’affermazione relativa all’esito dell’esperimento, per esempio:
i) A = “il risultato del lancio è un numero dispari”;
ii) B = “il risultato del lancio è il numero 4”;
iii) C = “il risultato del lancio è maggiore di 7”.
Ad ogni affermazione corrisponde un sottoinsieme di Ω:
i) A = {1, 3, 5};
ii) B = {4};
iii) C = ∅.
Questo spiega perché matematicamente abbiamo definito un evento come un sottoinsieme di Ω. In parti-
colare, B è detto un evento elementare poiché è costituito da un singolo esito. È bene porre attenzione nel
distinguere l’esito 4 dall’evento elementare {4}.
Le operazioni logiche fra eventi hanno una traduzione in termini di operazioni insiemistiche, per esempio:
• “A oppure B” corrisponde a A ∪ B;
• “A e B” corrisponde a A ∩ B;
• “non A” corrisponde a Ac = Ω \ A;
• “A ma non B” corrisponde a A \ B.
Esempio 2.1.9. Un corridore ha la probabilità del 30% di vincere la gara dei 100 metri, la probabilità del
40% di vincere la gara dei 200 metri e la probabilità del 50% di vincere almeno una delle due gare. Qual è
la probabilità che vinca entrambe le gare?
Posto
i) A = “il corridore vince la gara dei 100 metri”,
ii) B = “il corridore vince la gara dei 200 metri”,
i dati del problema sono: P (A) = 30%, P (B) = 40% e P (A ∪ B) = 50%. Si chiede di determinare P (A ∩ B).
Usando le operazioni insiemistiche (al riguardo si veda anche il successivo Lemma 2.1.25) si prova che
P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 20%.
Osservazione 2.1.10. Lo spazio campionario Ω è, per definizione, un generico insieme non vuoto: è lecito
domandarsi che senso abbia assumere un tale grado di generalità. In effetti vedremo che nei problemi più
classici Ω sarà semplicemente un insieme finito oppure lo spazio Euclideo Rd . Tuttavia, nelle applicazioni
più interessanti può anche capitare che Ω sia uno spazio funzionale (come, per esempio, lo spazio delle
funzioni continue). Spesso Ω avrà anche una certa struttura, per esempio quella di spazio metrico, per avere
a disposizione alcuni strumenti utili allo sviluppo della teoria.
Esempio 2.1.11 (Probabilità uniforme discreta). Sia Ω finito. Per ogni A ⊆ Ω indichiamo con |A| la
cardinalità di A e poniamo
|A|
P (A) = . (2.1.1)
|Ω|
Allora P è una misura di probabilità, detta probabilità uniforme, e per definizione vale
1
P ({ω}) = , ω ∈ Ω,
|Ω|
ossia ogni esito è “equiprobabile”. La probabilità uniforme corrisponde al concetto classico di probabilità
secondo Laplace, come ricordato nella premessa. Per esempio, nel caso del lancio di un dado regolare a sei
facce, è naturale considerare la probabilità uniforme
1
P ({ω}) = , ω ∈ Ω := {1, 2, 3, 4, 5, 6}.
6
Osservazione 2.1.12. Uno spazio di probabilità in cui ogni evento elementare è equiprobabile e ha proba-
bilità positiva, è necessariamente finito. Di conseguenza, per esempio, non è possibile definire la probabilità
uniforme su N: infatti dovrebbe essere P ({n}) = 0 per ogni n ∈ N e di conseguenza, per la σ -additività, anche
P (N) = 0 che è assurdo.
Osservazione 2.1.13. [!] In uno spazio di probabilità discreto (Ω, P ), consideriamo la funzione
p : Ω −→ [0, 1], p(ω) = P ({ω}), ω ∈ Ω.
È chiaro che p è una funzione non-negativa che gode della proprietà
X X
p(ω) = P ({ω}) = P (Ω) = 1. (2.1.2)
ω∈Ω ω∈Ω
Si noti che le somme in (2.1.2) sono serie a termini non-negativi e pertanto il loro valore non dipende
dall’ordine degli addendi. La seconda uguaglianza in (2.1.2) è conseguenza della σ -additività di P .
Possiamo dire che esiste
P una relazione biunivoca fra p e P nel senso che, data una qualsiasi funzione
non-negativa p tale che p(ω) = 1, e posto
ω∈Ω
X
P (A) := p(ω), A ⊆ Ω,
ω∈A
si ha che P è una probabilità discreta su Ω.

In altri termini, una probabilità discreta è definita univocamente dalle probabilità dei singoli eventi elemen-
tari. Dal punto di vista operativo, è molto più semplice definire la probabilità dei singoli eventi elementari
(ossia p) che non definire esplicitamente P assegnando la probabilità di tutti gli eventi. Si pensi che, per
esempio, se Ω ha cardinalità 100 allora p è definita dai cento valori p(ω), con ω ∈ Ω, mentre P è definita su
P(Ω) che ha cardinalità 2100 ≈ 1030 .
Osservazione 2.1.14 (Probabilità nella scuola secondaria). [!] L’osservazione precedente ci suggerisce un
modo ragionevole e sintetico per introdurre il concetto di probabilità nella scuola secondaria: anzitutto,
in base ai programmi ministeriali, almeno fino al quart’anno di scuola secondaria superiore è sufficiente
considerare il caso di spazi campionari finiti (o, al massimo, numerabili)
Ω = {ω1 , . . . , ωN },
con N ∈ N, descrivendo i concetti di esito ed evento come nell’Esempio 2.1.8. Poi si può spiegare che intro-
durre una misura di probabilità P su Ω significa assegnare le probabilità dei singoli esiti: precisamente, si
fissano alcuni numeri p1 , . . . , pN tali che
p1 , . . . , pN ≥ 0 e p1 + · · · + pN = 1, (2.1.3)
dove pi indica la probabilità dell’i-esimo evento elementare, ossia
pi = P ({ωi }), i = 1, . . . , N .
Infine, per definizione, per ogni evento A si pone

X
P (A) = P ({ω}). (2.1.4)
ω∈A
Questa definizione di spazio di probabilità (Ω, P ) è equivalente alla definizione generale (Definizione 2.1.7,
ovviamente nel caso di Ω finito). La cosiddetta probabilità classica o uniforme è quella in cui gli esiti sono
equiprobabili, p1 = p2 = · · · = pN , per cui dalla (2.1.3) si deduce che il loro valore comune è N1 . Dunque
la probabilità classica è solo un caso molto particolare, anche se significativo, fra le infinite misure di
probabilità che si possono scegliere: in quel caso, chiaramente la (2.1.4) si riduce alla formula dei “casi
favorevoli su casi possibili”.
Esempio 2.1.15. Diamo una soluzione alternativa al problema dell’Esempio 2.1.9. Possiamo usare come
spazio campionario Ω = {vv, vp, pv, pp}, dove vv è l’esito in cui il corridore vince entrambe le gare, vp è
l’esito in cui il corridore vince la prima gara e perde la seconda, e cosı̀ via: quindi A = {vv, vp} e B = {vv, pv}.
Se p = p(ω) indica la probabilità dei singoli esiti, in base ai dati del problema otteniamo il sistema lineare



 p(vv) + p(vp) = 30%

p(vv) + p(pv) = 40%




p(vv) + p(vp) + p(pv) = 50%

da cui ricaviamo p(vv) = P (A ∩ B) = 20%, p(vp) = 10%, p(pv) = 20% e p(pp) = 1 − p(vv) − p(vp) − p(pv) = 50%.
Concludiamo la sezione con un paio di definizioni che useremo spesso in seguito.
Definizione 2.1.16 (Insiemi trascurabili e quasi certi). In uno spazio di probabilità (Ω, F , P ) diciamo che:
• un sottoinsieme N di Ω è trascurabile per P se N ⊆ A con A ∈ F tale che P (A) = 0;
• un sottoinsieme C di Ω è quasi certo per P se il suo complementare è trascurabile o, equivalentemente,

se esiste B ∈ F tale che B ⊆ C e P (B) = 1.
Indichiamo con N la famiglia degli insiemi trascurabili in (Ω, F , P ).
Gli insiemi trascurabili e quasi certi non sono necessariamente eventi e quindi in generale la probabilità
P (A) non è definita per A trascurabile o quasi certo.
Definizione 2.1.17 (Spazio completo). Uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F .
Osservazione 2.1.18. In uno spazio completo gli insiemi trascurabili (e di conseguenza anche i quasi certi)
per P sono eventi. Pertanto in uno spazio completo si ha che
• N è trascurabile se e solo se P (N ) = 0;
• C è quasi certo se e solo se P (C) = 1.
Chiaramente la proprietà di completezza dipende dalla misura di probabilità considerata. Vedremo in se-
guito che è sempre possibile “completare” uno spazio di probabilità (cfr. Osservazione 2.4.3) e spiegheremo
l’importanza della proprietà di completezza (si vedano, per esempio, le Osservazioni 3.1.11 e 3.1.14).
2.1.3 Algebre e σ -algebre

Il suffisso “σ -” (per esempio, in σ -algebra o σ -additività) è usato per specificare che una definizione o
una proprietà è valida per quantità numerabili e non solo finite. In analogia con il concetto di σ -algebra,
diamo la seguente utile
Definizione 2.1.19 (Algebra). Un’algebra è una famiglia non vuota A di sottoinsiemi di Ω tale che:
i) A è chiusa rispetto al passaggio al complementare;
ii) A è ∪-chiusa (ossia chiusa rispetto all’unione finita).
Ogni σ -algebra è un’algebra. Se A, B ∈ A allora A ∩ B = (Ac ∪ Bc )c ∈ A e di conseguenza A è ∩-chiusa.
Esempio 2.1.20. [!] In R si consideri la famiglia A formata dalle unioni finite di intervalli (non necessaria-
mente limitati) del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
dove per convenzione
]a, a] = ∅, ]a, b] = {x ∈ R | x > a}
nel caso b = +∞.
Si i
Notiamo che A è un’algebra ma non una σ -algebra poiché, per esempio, 0, 1 − n1 = ]0, 1[ < A .
n≥1
Poiché ci sarà utile considerare misure definite su algebre, diamo la seguente estensione del concetto di
misura (cfr. Definizione 2.1.3).
Definizione 2.1.21 (Misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una misura su A è
una funzione
µ : A −→ [0, +∞]
tale che:
i) µ(∅) = 0;
ii) µ è σ -additiva su A nel senso che per ogni successione (An )n∈N di elementi disgiunti di A , tale che
An ∈ A , vale
U
A :=
n∈N
∞
X
µ (A) = µ (An ) .
n=1
Proviamo alcune proprietà basilari delle misure (e quindi, in particolare, delle misure di probabilità).
Proposizione 2.1.22. Sia µ una misura su un’algebra A . Valgono le seguenti proprietà:
i) Monotonia: per ogni A, B ∈ A tali che A ⊆ B vale
µ(A) ≤ µ(B), (2.1.5)
e, se inoltre µ(A) < ∞, vale

µ(B \ A) = µ(B) − µ(A). (2.1.6)
In particolare, se P è una misura di probabilità si ha
P (Ac ) = 1 − P (A); (2.1.7)
ii) σ -subadditività: per ogni A ∈ A e (An )n∈N successione in A , vale

[ ∞
X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n=1
Dimostrazione. Proviamo la i): se A ⊆ B allora, per l’additività di µ ed essendo B \ A ∈ A , si ha
µ(B) = µ(A ⊎ (B \ A)) = µ(A) + µ(B \ A).
Dal fatto che µ(B \ A) ≥ 0 segue la (2.1.5) e, nel caso particolare in cui µ(A) < ∞, segue anche la (2.1.6).
Per provare la ii), poniamo
n
[
e1 := A1 ∩ A,
A en+1 := A ∩ An+1 \
A Ak .
k=1
Osserviamo che A en ⊆ An . Inoltre gli insiemi Aen appartengono all’algebra A poiché sono ottenuti con
operazioni finite da elementi di A e, per ipotesi, vale
]
en = A ∈ A .
A
n∈N
Allora, per monotonia si ha

 
 ] 
µ(A) = µ  en  =
A 
n∈N
(per σ -additività e poi ancora per monotonia)

∞
X ∞
X
= en ) ≤
µ(A µ (An ) .
n=1 n=1
Esempio 2.1.23. La (2.1.7) è utile per risolvere problemi del tipo seguente: calcoliamo la probabilità di
ottenere almeno un 6 lanciando 8 volte un dado. Definiamo Ω come l’insieme delle possibili sequenze di
lanci: allora |Ω| = 68 . Possiamo determinare la probabilità dell’evento che ci interessa (chiamiamolo A) più
facilmente considerando Ac , ossia l’insieme delle sequenze che non contengono 6: infatti si avrà |Ac | = 58 e
quindi per la (2.1.7)
58
P (A) = 1 − P (Ac ) = 1 − 8 .
6
Esercizio 2.1.24. Siano A, B eventi certi, ossia tali che P (A) = P (B) = 1. Provare che anche A ∩ B è un evento
certo.
Lemma 2.1.25. Sia A un’algebra. Una funzione
µ : A −→ [0, +∞]
tale che µ(∅) = 0, è additiva se e solo se vale
µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B), A, B ∈ F . (2.1.8)
Dimostrazione. Se µ è additiva allora
µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B \ A) + µ(A ∩ B) = µ(A) + µ(B).
Viceversa, dalla (2.1.8) con A, B disgiunti si ha l’additività di µ.

Osservazione 2.1.26. Nel caso di misure di probabilità, la (2.1.8) si riscrive utilmente nella forma
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (2.1.9)
Esempio 2.1.27. Lanciando due dadi, qual è la probabilità che almeno uno dei due lanci abbia un risultato
minore o uguale a 3?
Poniamo In = {k ∈ N | k ≤ n} e consideriamo lo spazio campionario Ω = I6 × I6 delle possibili coppie di
risultati dei lanci. Sia A = I3 × I6 (e rispettivamente B = I6 × I3 ) l’evento in cui il risultato del primo dado
(rispettivamente del secondo dado) sia minore o uguale a 3. Ci è chiesto di calcolare la probabilità di A ∪ B.
Notiamo che A, B non sono disgiunti e nella probabilità uniforme P , contando gli elementi, abbiamo
3·6 1 3·3 1
P (A) = P (B) = = , P (A ∩ B) = = .
6·6 2 6·6 4
Allora per la (2.1.9) otteniamo
3
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = .
4
Osservazione 2.1.28. La (2.1.8) si generalizza facilmente al caso di tre insiemi A1 , A2 , A3 ∈ F :
P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ∪ A3 ) − P ((A1 ∩ A2 ) ∪ (A1 ∩ A3 ))

= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+ P (A1 ∩ A2 ∩ A3 ).
In generale, si prova per induzione la seguente formula

 n  n
[  X X
P  Ak  =

 
 (−1)k−1 P (Ai1 ∩ · · · ∩ Aik )
k=1 k=1 {i1 ,...,ik }⊆{1,...,n}
dove l’ultima somma è intesa su tutti i sottoinsiemi di {1, . . . , n} con k elementi.

Esempio 2.1.29. Siano A, B eventi in (Ω, F , P ). Se P (A) = 1 allora P (A ∩ B) = P (B). Infatti per l’additività
finita di P si ha
P (B) = P (A ∩ B) + P (Ac ∩ B) = P (A ∩ B)
poiché, per la (2.1.5), P (Ac ∩ B) ≤ P (Ac ) = 0.
2.1.4 Additività finita e σ -additività

In uno spazio di probabilità generale, la σ -additività è una proprietà più forte dell’additività. Capiremo
fra poco, con la Proposizione 2.1.32, l’importanza di richiedere la σ -additività nella definizione di misura
di probabilità: questo è un punto abbastanza delicato come vediamo nel prossimo esempio.
Esempio 2.1.30 (Probabilità uniforme continua). Supponiamo di voler definire il concetto di probabilità
uniforme sull’intervallo reale Ω = [0, 1]. Dal punto di vista intuitivo, risulta naturale porre
P ([a, b]) = b − a, 0 ≤ a ≤ b ≤ 1. (2.1.10)
Allora ovviamente P (Ω) = 1 e la probabilità dell’evento [a, b] (che può essere interpretato come l’evento
“un punto scelto a caso in [0, 1] appartiene ad [a, b]”) dipende solo dalla lunghezza di [a, b] ed è invariante
per traslazione. Notiamo che P ({x}) = P ([x, x]) = 0 per ogni x ∈ [0, 1], ossia ogni esito ha probabilità nulla,
e P altro non è che la misura di Lebesgue. Giuseppe Vitali provò nel 1905 (cf. [125]) che non è possibile
estendere la misura di Lebesgue a tutto l’insieme delle parti P(Ω) o, in altri termini, non esiste P definita
sull’insieme delle parti di [0, 1], che sia σ -additiva e soddisfi la (2.1.10). Se questo è vero ne viene che, nel
caso di spazi di probabilità generali, diventa necessario introdurre una σ -algebra di eventi su cui definire P :
in generale, tale σ -algebra sarà più piccola dell’insieme delle parti di Ω.
Nel nostro contesto, il risultato di Vitali può essere enunciato nel modo seguente: non esiste una misura
di probabilità P su ([0, 1], P([0, 1])) che sia invariante per traslazioni, ossia tale che P (A) = P (Ax ) per ogni
A ⊆ [0, 1] e x ∈ [0, 1], dove
Ax = {y ∈ [0, 1] | y = a + x oppure y = a + x − 1 per un certo a ∈ A}.
La dimostrazione procede per assurdo ed è basata sull’assioma della scelta. Consideriamo su [0, 1] la rela-
zione di equivalenza x ∼ y se e solo se (x − y) ∈ Q: per l’assioma della scelta, da ogni classe di equivalenza
è possibile selezionare un rappresentante e fatto ciò, indichiamo con A l’insieme formato da tali rappre-
sentanti. Ora, per ipotesi, P (Aq ) = P (A) per ogni q ∈ Q ∩ [0, 1] e inoltre Aq ∩ Ap = ∅ per q , p in Q ∩ [0, 1].
Dunque otteniamo ]
[0, 1] = Aq
q∈Q∩[0,1]
e se P fosse σ -additiva, si avrebbe

X X
1 = P ([0, 1]) = P (Aq ) = P (A).
q∈Q∩[0,1] q∈Q∩[0,1]
Tuttavia l’ultima somma può solo assumere il valore 0 (nel caso in cui P (A) = 0) oppure divergere (nel caso
in cui P (A) > 0) e ciò porta ad un assurdo. Si noti che l’assurdo è conseguenza della richiesta di additività
numerabile (ossia σ -additività) di P .
Notazione 2.1.31. Nel seguito scriveremo
An ↗ A e Bn ↘ B
S
per indicare che (An )n∈N è una successione crescente di insiemi tale che A = An , e (Bn )n∈N è una
T n∈N
successione decrescente di insiemi tale che B = Bn .
n∈N
La σ -additività ha le seguenti importanti caratterizzazioni.
Proposizione 2.1.32. [!] Sia A un’algebra su Ω e
µ : A −→ [0, +∞]
una funzione additiva. Le seguenti proprietà sono equivalenti:
i) µ è σ -additiva;
ii) µ è σ -subadditiva4 ;
iii) µ è continua dal basso, ossia per ogni successione (An )n∈N in A tale che An ↗ A, con A ∈ A , vale
lim µ(An ) = µ (A) .

n→∞
4 Per ogni A ∈ A e per ogni successione (A )
n n∈N di elementi di A tale che A ⊆
S
An , vale
n∈N
∞
X
µ(A) ≤ µ (An ) .
n=1
Inoltre, se vale i) allora si ha anche

iv) µ è continua dall’alto, ossia per ogni successione (Bn )n∈N in A , tale che µ(B1 ) < ∞ e Bn ↘ B ∈ A , vale
lim µ(Bn ) = µ (B) .

n→∞
Infine, se µ(Ω) < ∞ allora i), ii), iii) e iv) sono equivalenti.
Dimostrazione. Preliminarmente osserviamo che µ è monotona: questo si prova come la Proposizione 2.1.22-
i).
[i) ⇒ ii)] È il contenuto della Proposizione 2.1.22-ii).
[ii) ⇒ iii)] Sia A ∋ An ↗ A ∈ A . Per monotonia si ha
lim µ(An ) ≤ µ(A).

n→∞
D’altra parte, poniamo

C1 = A1 , Cn+1 = An+1 \ An , n ∈ N.
Allora (Cn ) è una successione disgiunta in A e vale
]
µ(A) = µ Ck ≤
k≥1
(per la σ -subadditività di µ)
∞
X n
X
≤ µ(Ck ) = lim µ(Ck ) =
n→∞
k=1 k=1
(per l’additività finita di µ)
= lim µ(An ).
n→∞
[iii) ⇒ i)] Sia (An )n∈N una successione di elementi disgiunti di A , tale che A := An ∈ A . Posto
U
n∈N
n
[
Ān = Ak ,
k=1
si ha Ān ↗ A e Ān ∈ A per ogni n. Allora, per l’ipotesi di continuità dal basso di µ, si ha
µ(A) = lim µ(Ān ) =

n→∞

n
X ∞
X
= lim µ(Ak ) = µ(Ak ),
n→∞
k=1 k=1
osservando che il limite delle somme parziali esiste, finito o no, poiché µ ha valori non-negativi.
[iii) ⇒ iv)] Supponiamo valga la iii). Se Bn ↘ B allora An := B1 \ Bn è tale che An ↗ A := B1 \ B. Se µ(B1 ) < ∞,
per la proprietà (2.1.6) che vale sotto la sola ipotesi di additività, si ha5
µ (B) = µ (B1 \ A)
∞ ∞ ∞ ∞
5 Nel dettaglio: si ha B \ S A = B ∩ T Ac = T (B ∩ Ac ) = T B .
1 n 1 n 1 n n
n=1 n=1 n=1 n=1
= µ(B1 ) − µ(A) =
(per l’ipotesi di continuità dal basso di µ)
= µ(B1 ) − lim µ(An ) = lim (µ(B1 ) − µ(An )) = lim µ(Bn ).

n→∞ n→∞ n→∞
[iv) ⇒ iii)] Sotto l’ipotesi che µ(Ω) < ∞, il fatto che iv) implichi iii) si dimostra come nel punto prece-
dente ponendo Bn = Ω \ An e utilizzando il fatto che se (An )n∈N è crescente allora (Bn )n∈N è decrescente e
ovviamente µ(B1 ) < ∞.
2.2 Spazi finiti e problemi di conteggio

In questa sezione assumiamo che Ω sia finito e consideriamo alcuni problemi in cui si usa la probabilità
discreta uniforme dell’Esempio 2.1.11. Questi vengono detti problemi di conteggio perché, ricordando la
(2.1.1), il calcolo delle probabilità si riconduce alla determinazione della cardinalità degli eventi.
Il calcolo combinatorio è lo strumento matematico che permette di svolgere questi calcoli. Sebbene si
tratti di problemi che hanno una formulazione elementare (data in termini di monete, dadi, carte etc) spesso
il calcolo può risultare molto complicato e può intimorire al primo impatto. Su questo aspetto è importante
sdrammatizzare perché si tratta di una complicazione di tipo tecnico più che sostanziale, che non deve
creare un’ingiustificata preoccupazione. Inoltre la probabilità uniforme discreta è soltanto un caso molto
particolare il cui interesse è decisamente limitato e marginale rispetto alla teoria della probabilità nel suo
complesso. Per questi motivi, a meno che non ci sia un interesse specifico per l’argomento, questa sezione
può essere saltata o letta molto velocemente in prima istanza.
2.2.1 Cardinalità di insiemi

Cominciamo col ricordare alcune nozioni di base sulla cardinalità di insiemi finiti. Nel seguito usiamo
la seguente
Notazione 2.2.1.
In = {k ∈ N | k ≤ n} = {1, 2, . . . , n}, n ∈ N.
Si dice che un insieme A ha cardinalità n ∈ N, e si scrive |A| = n oppure ♯A = n, se esiste una funzione
biettiva da In ad A. Inoltre per definizione |A| = 0 se A = ∅. Scriviamo A ↔ B se |A| = |B|. In questa sezione
consideriamo solo insiemi con cardinalità finita.
Provare per esercizio le seguenti proprietà:
i) |A| = |B| se e solo se esiste una funzione biettiva da A a B;
ii) se A, B sono disgiunti allora

|A ⊎ B| = |A| + |B|
e più in generale tale proprietà si estende al caso di un’unione disgiunta finita;
iii) per ogni A, B vale

|A × B| = |A||B| (2.2.1)
La (2.2.1) si può provare usando la ii) ed il fatto che
]
A×B = {x} × B
x∈A
dove l’unione è disgiunta e |{x} × B| = |B| per ogni x ∈ A;

2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 33
iii) indichiamo con AB l’insieme delle funzioni da B ad A. Allora si ha

AB = |A||B| (2.2.2)
poiché AB ↔ A × · · · × A.
| {z }
|B| volte
2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna

Quando si utilizza il calcolo combinatorio per lo studio di un esperimento aleatorio, la scelta dello
spazio campionario è importante perché può semplificare il conteggio dei casi possibili e dei casi favore-
voli. La scelta più conveniente, da questo punto di vista, dipende in generale dal fenomeno aleatorio in
considerazione. Tuttavia, è spesso utile ripensare l’esperimento aleatorio (o, eventualmente, ciascun sotto-
esperimento aleatorio in cui può essere scomposto) come un’opportuna estrazione di palline da un’urna
(con remissione, senza reimmmissione, simultanea) che ora descriviamo.
Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en . Si estraggono k palline dall’urna
in uno dei tre modi seguenti:
1) estrazione con reimmissione, con k ∈ N, in cui, per l’estrazione successiva, la pallina estratta viene
reinserita nell’urna;
2) estrazione senza reimmissione, con k ∈ {1, . . . , n}, in cui la pallina estratta non viene reinserita nell’urna;
3) estrazione simultanea, con k ∈ {1, . . . , n}, in cui le k palline vengono estratte simultaneamente.
Si noti che:
• nell’estrazione con reimmissione il numero totale di palline nell’urna e la sua composizione si man-
tengono costanti nelle successive estrazioni; dato che si estrae una pallina per volta, si tiene conto
dell’ordine di estrazione; inoltre è possibile che ci siano delle ripetizioni, ovvero è possibile estrarre più
volte la stessa pallina;
• nell’estrazione senza reimmissione ad ogni estrazione il numero totale di palline nell’urna si riduce di
un’unità e quindi ogni volta si modifica la composizione dell’urna stessa; anche in questo caso si tiene
conto dell’ordine di estrazione; invece le ripetizioni non sono più possibili (infatti una volta estratta,
la pallina non viene più reinserita nell’urna);
• l’estrazione simultanea corrisponde all’estrazione senza reimmissione in cui non si tiene conto dell’or-
dine di estrazione.
Possiamo dunque riassumere quanto detto finora nel seguente schema:
Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione Estrazione
Si tiene conto dell’ordine senza con
reimmissione reimmissione
Estrazione
Non si tiene conto dell’ordine
simultanea
−
Tabella 2.1: Classificazione del tipo di estrazioni da un’urna

Torneremo in seguito sul quarto caso corrispondente alla casella vuota e, in particolare, sul perché non
sia stato considerato (si veda l’Osservazione 2.2.13). Per ognuno dei tre tipi di estrazione descritti sopra
vogliamo determinare uno spazio campionario Ω, con cardinalità più piccola possibile, che permetta di
descrivere tale esperimento aleatorio. Affronteremo tale questione nella Sezione 2.2.4 in cui vedremo che
Ω sarà dato rispettivamente da:
1) l’insieme DRn,k delle disposizioni con ripetizione di k elementi di {e1 , . . . , en }, nel caso dell’estrazione con
reimmissione;
2) l’insieme Dn,k delle disposizioni semplici di k elementi di {e1 , . . . , en }, nel caso dell’estrazione senza
reimmissione;
3) l’insieme Cn,k delle combinazioni di k elementi di {e1 , . . . , en }, nel caso dell’estrazione simultanea.
Prima di introdurre questi tre insiemi fondamentali, illustriamo un metodo generale che utilizzeremo per
determinare la cardinalità di DRn,k , Dn,k , Cn,k e di altri insiemi finiti.
2.2.3 Metodo delle scelte successive

In questa sezione illustriamo un algoritmo, noto come metodo delle scelte successive (o schema delle scelte
successive o anche principio fondamentale del calcolo combinatorio), che permette di determinare la cardinalità
di un insieme una volta caratterizzati univocamente i suoi elementi tramite un numero finito di scelte
successive.
Metodo delle scelte successive. Dato un insieme finito A di cui si vuole determinare la cardinalità |A|, si
procede come segue:
1) al primo passo, si considera una partizione di A in n1 ∈ N sottoinsiemi A1 , . . . , An1 , tutti aventi la stessa
cardinalità; tale partizione è ottenuta facendo una “scelta”, ovvero distinguendo gli elementi di A in base
ad una proprietà che essi possiedono;
2) al secondo passo, per ogni i = 1, . . . , n1 , si procede come al punto 1) con l’insieme Ai al posto di A, conside-
rando una partizione Ai,1 , . . . , Ai,n2 di Ai in n2 sottoinsiemi tutti aventi la stessa cardinalità, con n2 ∈ N
che non dipende da i;
3) si procede in questo modo fino a quando, dopo un numero finito k ∈ N di passi, gli elementi della partizione
hanno cardinalità è pari a 1.
La cardinalità di A è allora data da
|A| = n1 n2 · · · nk .
Per esempio, applichiamo il metodo delle scelte successive per dimostrare la validità della formula

AB = |A||B| .
Sia n = |A| la cardinalità di A e indichiamo con a1 , . . . , an i suoi elementi. Analogamente, sia k = |B| la
cardinalità di B e indichiamo con b1 , . . . , bk i suoi elementi. Dato che AB è l’insieme delle funzioni da B ad
A, possiamo caratterizzare univocamente ogni funzione in AB tramite le seguenti k = |B| scelte successive:
1) come prima scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b1 ; abbia-
mo n = |A| possibilità (quindi n1 = n), ossia questa prima scelta determina una partizione di A in n
sottoinsiemi (non serve scrivere quali sono questi sottoinsiemi, ma solo quanto vale n1 );
2) come seconda scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b2 ;
abbiamo n = |A| possibilità (quindi n2 = n);
3) · · ·
4) come k-esima e ultima scelta (con k = |B|) fissiamo il valore che le funzioni di AB assumono in
corrispondenza di bk ; abbiamo n = |A| possibilità (quindi nk = n).
Dal metodo delle scelte successive si deduce che

AB = |A| · · · |A| = |A||B| .
| {z }
k = |B| volte
Nel seguito, quando applicheremo il metodo delle scelte successive, procederemo come nei punti 1)-4),
limitandoci a dire quale scelta viene effettuata ad ogni passo e quante possibilità (o modi) ci sono per
fare questa scelta; mentre non faremo riferimento alla partizione che ogni scelta determina, dato che è in
generale chiaro quale essa sia.
2.2.4 Disposizioni e combinazioni

In questa sezione consideriamo un insieme con n ∈ N elementi
E = {e1 , e2 , . . . , en }
che rappresenta un’urna, contenente n palline numerate, con la quale si effettuano gli esperimenti aleatori
di estrazione.
Definizione 2.2.2 (Disposizioni con ripetizione). Dato k ∈ N, diciamo che
DRn,k := E × · · · × E = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E}
| {z }
k volte

è l’insieme delle disposizioni con ripetizione di k elementi di E. Per la (2.2.2) vale DRn,k = nk .
L’insieme DRn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni con reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, DRn,k esprime i modi in cui possiamo scegliere, in maniera ordinata e ripetuta, k oggetti presi
da un insieme di n oggetti.
Esempio 2.2.3. Sia E = {a, b, c}. Allora |DR3,2 | = 32 e precisamente
DR3,2 = {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.
Esempio 2.2.4. Determiniamo i “casi possibili” dei seguenti esperimenti aleatori (le soluzioni sono a fondo
pagina6 ):
i) si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto italiano (che ha 21
lettere);
ii) si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere tra 1, 2 o X;
iii) si lancia 10 volte un dado (non truccato) a sei facce.
Definizione 2.2.5 (Disposizioni semplici). Dato k ≤ n, diciamo che
Dn,k = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E, distinti}
è l’insieme delle disposizioni semplici di k elementi di E. Vale

n!
Dn,k = n(n − 1) · · · (n − k + 1) = . (2.2.3)
(n − k)!

6 Soluzioni relative all’Esempio 2.2.4: i) DR 8 13 10
21,8 = 21 ; ii) DR3,13 = 3 ; iii) DR6,10 = 6 .
L’insieme Dn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni senza reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, Dn,k esprime i modi in cui possiamo disporre, in maniera ordinata e non ripetuta, un numero
k di oggetti scelti da un insieme di n oggetti.
La formula (2.2.3) si può dimostrare tramite il metodo delle scelte successive, caratterizzando il generico
elemento (ω1 , . . . , ωk ) di Dn,k come segue:
1) come prima scelta fissiamo ω1 : abbiamo n = |E| possibilità e quindi n1 = n;
2) come seconda scelta fissiamo ω2 , diverso da ω1 : abbiamo n − 1 possibilità e quindi n2 = n − 1;
3) · · ·
4) come k-esima e ultima scelta fissiamo ωk : abbiamo n − k + 1 possibilità, dato che abbiamo già scelto
ω1 , . . . , ωk−1 e quindi nk = n − k + 1.
Dal metodo delle scelte successive si deduce dunque la validità di (2.2.3).

3!
Esempio 2.2.6. Sia E = {a, b, c}. Allora |D3,2 | = 1! = 6 e precisamente
D3,2 = {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.
Esempio 2.2.7. Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione) al gioco
del lotto (in cui si estraggono senza reimmissione cinque numeri dai primi novanta naturali), supponendo
di giocare un’unica cinquina (ad esempio la sequenza ordinata 13, 5, 45, 21, 34)? Quanto vale invece la
probabilità di fare una cinquina semplice (per cui non conta l’ordine di estrazione)?
Soluzione. La probabilità di fare una cinquina secca è semplicemente D 1 ≈ 1.89 · 10−10 .
| 90,5 |
Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti modi differenti si possono ordinare 5
|D |
numeri, pari a D5,5 = 5!. Allora la probabilità di una cinquina semplice dopo 5 estrazioni è D 5,5 ≈ 2.27 · 10−8 .
| 90,5 |
Definizione 2.2.8 (Permutazioni). Indichiamo con Pn := Dn,n l’insieme delle permutazioni di n oggetti.
Vale
|Pn | = n!
L’insieme Pn esprime i modi in cui possiamo riordinare, ossia disporre in maniera ordinata e non
ripetuta, un numero n di oggetti.
Definizione 2.2.9 (Combinazioni). Dato k ≤ n, indichiamo con Cn,k l’insieme delle combinazioni di k
elementi di E, definito come la famiglia dei sottoinsiemi di E di cardinalità k:
Cn,k = {A ⊆ F | |A| = k} .
L’insieme Cn,k è lo spazio campionario naturale per descrivere l’esito dell’estrazione simultanea di k
palline da un’urna che ne contiene n: ogni elemento {ω1 , . . . , ωk } indica un gruppo di k palline estratte.
Più in generale, Cn,k esprime tutti i gruppi di k oggetti scelti da un insieme di n oggetti, in maniera non
ordinata e non ripetuta.
Esempio 2.2.10. Sia E = {a, b, c}. Allora |C3,2 | = 3 e precisamente
C3,2 = {{a, b}, {a, c}, {b, c}}.
Proposizione 2.2.11. Si ha !
|Dn,k | n! n
Cn,k = = = . (2.2.4)
|Pk | k!(n − k)! k
Dimostrazione. A differenza del calcolo di |DRn,k | e |Dn,k |, non è possibile scomporre il calcolo di |Cn,k | in una
sequenza di scelte successive. Tuttavia, dimostrare la (2.2.4) equivale a dimostrare la seguente uguaglianza:
|Dn,k | = |Cn,k | |Pk |. (2.2.5)
Dimostriamo la (2.2.5) applicando il metodo delle scelte successive all’insieme Dn,k , caratterizzando il
generico elemento ω = (ω1 , . . . , ωk ) di Dn,k in base al seguente schema:
1) come prima scelta fissiamo il sottoinsieme {ω1 , . . . , ωk } di E formato dalle componenti di ω: abbiamo
|Cn,k | possibilità e quindi n1 = |Cn,k |;
2) come seconda e ultima scelta fissiamo la permutazione dei k elementi ω1 , . . . , ωk che descrive l’ordine
in cui sono disposti in ω: abbiamo |Pk | possibilità e quindi n2 = |Pk |.
Dal metodo delle scelte successive si deduce la validità di (2.2.5) e dunque di (2.2.4).
Gli insiemi DRn,k , Dn,k (e dunque anche Pn = Dn,n ) e Cn,k sono importanti non solo perché sono gli spazi
campionari dei tre esperimenti aleatori introdotti nella Sezione 2.2.2, ma anche perché le cardinalità di tali
insiemi spesso corrispondono ai numeri n1 , n2 , . . . , nk del metodo delle scelte successive; per esempio, per il
calcolo di |Dn,k | in (2.2.5) abbiamo scelto n1 = |Cn,k | ed n2 = |Pk |.
Possiamo completare la tabella della Sezione 2.2.2, riportando anche gli spazi campionari e le loro
cardinalità (ovvero i “casi possibili”).
Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk
Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k |
= nk

|Ω| = k!
Tabella 2.2: Classificazione del tipo di estrazioni da un’urna e relazione con disposizioni e combinazioni
Riportiamo qui di seguito alcune osservazioni conclusive riguardanti la Tabella 2.2.
Osservazione 2.2.12. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sarebbe sufficiente
considerare solamente i primi due: l’estrazione senza reimmissione e l’estrazione con reimmissione. Infatti
l’estrazione simultanea può essere vista come un caso particolare dell’estrazione senza reimmissione in cui
non si tiene conto dell’ordine. Più precisamente, ad ogni elemento di Cn,k , ovvero ad ogni sottoinsieme di
k palline scelta fra n, corrispondono k! elementi (o k-uple) di Dn,k , di conseguenza vale che
casi favorevoli in Cn,k k! (casi favorevoli in Cn,k ) casi favorevoli in Dn,k

= = .
casi possibili in Cn,k k! (casi possibili in Cn,k ) casi possibili in Dn,k
Osservazione 2.2.13. La casella vuota nella tabella sopra riportata corrisponde all’insieme delle cosiddet-
te combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non ordinati ed eventualmente ripetuti,
di k oggetti scelti da un insieme di n oggetti. L’esperimento aleatorio corrispondente è l’estrazione con
reimmissione in cui non si tiene conto dell’ordine: questo esperimento aleatorio può essere descritto an-
che dallo spazio campionario DRn,k munito della probabilità uniforme discreta. Al contrario, sullo spazio
delle combinazioni con ripetizione la probabilità non può essere quella uniforme discreta. Infatti ad ogni
combinazione con ripetizione non corrisponde sempre lo stesso numero di elementi di DRn,k (come invece
accade nel caso di Cn,k e Dn,k ) e la costante di proporzionalità dipende da quante ripetizioni ci sono all’in-
terno della combinazione: le combinazioni con più ripetizioni sono meno probabili. Per questa ragione su
tale spazio non vale la formula “casi favorevoli/casi possibili”, ovvero non si possono usare le tecniche del
calcolo combinatorio.
Esempio 2.2.14. Riconsideriamo il calcolo della probabilità di una cinquina semplice al gioco del lotto:
poiché non conta l’ordine di estrazione dei numeri, siamo nel caso dell’estrazione simultanea, quindi è
naturale considerare Ω = C90,5 . In effetti la probabilità della cinquina è |C 1 | che coincide con il risultato
90,5
5!
che avevamo già trovato usando le disposizioni semplici, ossia .
|D90,5 |
Esercizio 2.2.15. Calcoliamo la probabilità di ottenere una cinquina semplice dopo k ≥ 5 estrazioni.
Soluzione. Poniamo Ω = C90,k . Indichiamo con A l’evento che ci interessa, ossia la famiglia degli insiemi di k numeri in cui 5
sono fissati e i rimanenti k − 5 sono qualsiasi fra i restanti 85 numeri. Allora si ha
|C85,k−5 |
P (A) = .
|C90,k |
Per esempio, P (A) ≈ 6 · 10−6 per k = 10 e P (A) ≈ 75% per k = 85.
Esercizio 2.2.16. Consideriamo un mazzo di 40 carte. Calcoliamo la probabilità dell’evento A definito in

ognuno dei modi seguenti:
(1) in 5 estrazioni senza reimmissione si ottengono 5 denari;
(2) in 5 estrazioni con reimmissione si ottengono 5 denari;
(3) in 5 estrazioni senza reimmissione si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme, anche
diversi fra loro.
Soluzione. (1) L’estrazione è senza reimmissione, ma l’evento A = “si ottengono 5 denari” non tiene conto dell’ordine. Quindi
tale estrazione può essere vista anche come un’estrazione simultanea. Perciò possiamo scegliere come spazio campionario
Ω = C40,5 (scegliere Ω = D40,5 andrebbe comunque bene). L’esito ω = {ω1 , ω2 , ω3 , ω4 , ω5 } corrisponde dunque all’insieme
delle carte estratte. Allora A ↔ C10,5 (le possibile scelte, non ordinate e non ripetute, di 5 denari) e quindi
10
P (A) = 5 ≈ 0.04 %.
40
5
(2) Questa volta l’estrazione è con reimmissione, quindi occorre considerare Ω = DR40,5 (in realtà, anche in questo caso
l’evento A non tiene conto dell’ordine; tuttavia quando c’è ripetizione l’unico spazio che possiamo scegliere per poter utilizzare
le tecniche del calcolo combinatorio è lo spazio delle disposizioni con ripetizione). L’esito ω può essere identificato con la
sequenza (ω1 , ω2 , ω3 , ω4 , ω5 ), ordinata e con possibili ripetizioni, delle carte estratte. In questo caso A ↔ DR10,5 (le possibile
scelte, ordinate e ripetute, di 5 denari) e quindi
105
P (A) = 5 ≈ 0.1 %.
40
(3) In questo caso l’estrazione è senza reimmissione e l’evento A = “si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme,
anche diversi fra loro” tiene conto dell’ordine, quindi lo spazio campionario naturale è Ω = D40,5 . Abbiamo che A ↔ DR4,5
(si sceglie in modo ordinato la sequenza dei semi delle 5 carte estratte) e quindi
|DR4,5 |
P (A) = ≈ 10−3 %.
|D40,5 |
2.2.5 Probabilità binomiale e ipergeometrica.

Presentiamo ora due esempi fondamentali che, come vedremo più avanti, sono legati a due misure di
probabilità molto importanti, la binomiale e l’ipergeometrica. Cominciamo col ricordare alcune proprietà
del coefficiente binomiale. Assumiamo per convenzione
0! = 1 e 00 = 1. (2.2.6)
Ricordiamo che per k, n ∈ N0 , con k ≤ n, !

n n!
= .
k k!(n − k)!
Dalla definizione segue direttamente che
! ! ! ! !
n n n n n
= , = = 1, = n.
k n−k 0 n 1
Inoltre, per k, n ∈ N con k < n, vale ! ! !

n n−1 n−1
= + . (2.2.7)
k k−1 k
Come esercizio, utilizzando la (2.2.7) provare per induzione la formula binomiale (o formula di Newton)7
n !
X n k n−k
(a + b)n = a b , a, b ∈ R. (2.2.8)
k
k=0
Come casi particolari della (2.2.8):

• se a = b = 1 si ha
n !
X n
= 2n . (2.2.9)
k
k=0
n
Ricordando che se |A| = n allora k = |Cn,k | è pari al numero di sottoinsiemi di A di cardinalità k, la
(2.2.9) mostra che |P(A)| = 2n .
• ricordando la convenzione (2.2.6) per i casi p = 0 e p = 1, vale
n !
X n k
p (1 − p)n−k = 1, p ∈ [0, 1]. (2.2.10)
k
k=0
In altri termini, posto per semplicità

!
n k
pk := p (1 − p)n−k , k = 0, . . . , n,
k
si ha che p0 , . . . , pn sono numeri non-negativi con somma pari a 1. Quindi, per l’Osservazione 2.1.13,
ponendo P ({k}) = pk si definisce una misura di probabilità sullo spazio campionario Ω = {0, . . . , n},
detta probabilità binomiale.
Diamo un’interpretazione della probabilità binomiale nel seguente
7 Una dimostrazione alternativa, di carattere combinatorio, della formula di Newton è la seguente: il prodotto (a + b)(a + b) · · · (a + b)
di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk con 0 ≤ k ≤ n. Quanti sono i monomi di un certo tipo (cioè
con k fisso)? Il monomio an−k bk si ottiene scegliendoil valore b da k degli n fattori disponibili nel prodotto (a + b)(a + b) · · · (a + b) (e,
quindi, scegliendo a dai rimanenti n − k), ovvero in nk modi.
Esempio 2.2.17 (Binomiale). [!]

Consideriamo un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N. Effettuiamo n estra-
zioni con reimmissione. Calcoliamo la probabilità dell’evento Ak che consiste nell’estrazione di esattamente
k palline bianche, con 0 ≤ k ≤ n.
Determiniamo lo spazio campionario: a priori non importa l’ordine di estrazione, ma osservando che
c’è il reinserimento (ossia la ripetizione di una possibile pallina già estratta), siamo portati a conside-
rare Ω = DRb+r,n . L’esito ω può essere identificato con la k-upla che identifica la sequenza, ordinata e
con eventuali ripetizioni, delle palline estratte (supponendo di aver numerato le palline per identificarle).
Caratterizziamo il generico esito ω ∈ Ak tramite le seguenti scelte successive:
i) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche estratte dalle b
presenti nell’urna: ci sono |DRb,k | modi possibili;
ii) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle n − k palline rosse estratte dalle r
presenti nell’urna: ci sono |DRr,n−k | modi possibili;
iii) scegliamo in quali delle n estrazioni sono state estratte le k palline bianche; ci sono |Cn,k | modi
possibili8 .
In definitiva
n bk r n−k
!
|DRb,k ||DRr,n−k |
P (Ak ) = |Cn,k | = ,
|DRb+r,n | k (b + r)n
o, equivalentemente, !
n k
P (Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r è la probabilità di estrarre una pallina bianca, secondo la probabilità uniforme.
Osservazione 2.2.18. Come spiegheremo meglio in seguito, la probabilità binomiale si può interpretare
come la probabilità di avere k successi ripetendo n volte un esperimento che ha solo due esiti: successo con
probabilità p e insuccesso con probabilità 1 − p. Per esempio, la probabilità di ottenere esattamente k teste
lanciando n volte una moneta è pari a nk pk (1 − p)n−k con p = 21 , ossia nk 21n .

Esempio 2.2.19 (Ipergeometrica). Consideriamo un’urna che contiene b palline bianche ed r palline rosse,
con b, r ∈ N. Effettuiamo n ≤ b + r estrazioni senza reimmissione. Calcoliamo la probabilità dell’evento Ak
che consiste nell’estrazione di esattamente k palline bianche, con max{0, n−r} ≤ k ≤ min{n, b}. La condizione
max{0, n − r} ≤ k ≤ min{n, b} equivale a richiedere che valgano simultaneamente le tre condizioni seguenti:
• 0 ≤ k ≤ n;
• k ≤ b, ovvero il numero di palline bianche estratte non superi b;
• n − k ≤ r, ovvero il numero di palline rosse estratte non superi r.
Determiniamo lo spazio campionario: dato che non importa l’ordine di estrazione possiamo considerare
Ω = Cb+r,n (alternativamente, possiamo scegliere Ω = Db+r,n ). L’esito ω corrisponde all’insieme delle palline
estratte (supponendo di aver numerato le palline per identificarle). Caratterizziamo il generico esito ω ∈ Ak
tramite le seguenti scelte successive:
i) scegliamo le k palline bianche estratte dalle b presenti nell’urna: ci sono |Cb,k | modi possibili;
ii) scegliamo le n − k palline rosse estratte dalle r presenti nell’urna: ci sono |Cr,n−k | modi possibili.
In definitiva
b r
|Cb,k ||Cr,n−k | k n−k
P (Ak ) = = b+r
, max{0, n − r} ≤ k ≤ min{n, b}.
|Cb+r,n |
n
8 Infatti ogni sottoinsieme di cardinalità k di I identifica k estrazioni delle n, e viceversa. Ad esempio, se n = 4 e k = 2, il
n
sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a estrazione, e viceversa.
2.2.6 Esempi
Proponiamo una serie di esempi utili a prendere familiarità con i problemi di conteggio.
Esempio 2.2.20. Consideriamo un gruppo di k ≥ 2 persone nate nello stesso anno (di 365 giorni). Calcolare
la probabilità che almeno due persone del gruppo siano nate nello stesso giorno.
Soluzione. Possiamo riformulare il problema come segue: un’urna contiene 365 palline numerate da 1 a 365; la pallina numero
N corrisponde all’N -esimo giorno dell’anno; si estraggono con reimmissione k palline; qual è la probabilità che di estrarre due
volte lo stesso numero? Abbiamo dunque ricondotto il problema all’estrazione con reimmissione di k palline da un’urna che
ne contiene 365. Sappiamo che lo spazio campionario naturale è Ω = DR365,k . Sia A l’evento che ci interessa, ovvero A =
“almeno due persone sono nate nello stesso giorno”. Allora Ac ↔ D365,k e quindi
|D365,k | 365!
P (A) = 1 − P (Ac ) = 1 − = 1− .
|DR365,k | (365 − k)! · 365k
Si vede che P (A) ≈ 0.507 > 12 per k = 23 e P (A) ≈ 97% per k = 50.
Esempio 2.2.21. Si estraggono (senza reimmissione) 2 carte da un mazzo di 40 carte identificate dal seme
(spade, coppe, bastoni, denari) e dal tipo (asso, 2, 3, 4, 5, 6, 7, fante, cavallo, re). Calcoliamo la probabilità
dell’evento A definito in ognuno dei modi seguenti:
(1) le due carte sono, nell’ordine, una carta di denari e una di coppe;
(2) le due carte sono, nell’ordine, una carta di denari e un 7;
(3) le due carte sono una carta di denari e un 7, indipendentemente dall’ordine.

Soluzione.
(1) Poniamo Ω = D40,2 . L’esito ω = (ω1 , ω2 ) corrisponde alla coppia delle carte estratte. Caratterizziamo il generico esito
ω = (ω1 , ω2 ) ∈ A tramite le seguenti scelte successive:
i) scegliamo la prima carta estratta (ovvero ω1 ) fra le carte di denari: ci sono 10 scelte possibili;
ii) scegliamo la seconda carta estratta (ovvero ω2 ) fra le carte di coppe: ci sono 10 scelte possibili.
In definitiva
100 5
P (A) = = ≈ 6.4%.
|D40,2 | 78
Se invece non si fosse tenuto conto dell’ordine di estrazione, avremmo potuto considerare, in alternativa, lo spazio campionario
Ω = C40,2 . In tal caso l’esito ω = {ω1 , ω2 } corrisponde all’insieme delle carte estratte. Quindi, procedendo come prima,
100 5
= = 2P (A).
|C40,2 | 39
(2) Poniamo Ω = D40,2 . Non possiamo determinare |A| tramite le due scelte successive i)-ii) del punto (1), in quanto pro-
cedendo in questo modo conteremmo anche la coppia (7D, 7D) che invece deve essere esclusa visto che le carte non vengono
reinserite nel mazzo. Invece di applicare direttamente ad A il metodo delle scelte successive, notiamo che A è unione disgiunta
di A1 = D9,1 × D4,1 (la prima carta è una carta di denari diversa da 7 e la seconda carta è uno dei quattro 7) e A2 = D3,1 (la
prima carta è il 7 di denari e la seconda carta è uno dei rimanenti tre 7). Dunque
9·4 3 1
P (A) = P (A1 ) + P (A2 ) = + = .
|D40,2 | |D40,2 | 40
1 .
(3) Poiché non conta l’ordine P (A) è il doppio rispetto al caso (2), quindi P (A) = 20
Esempio 2.2.22. Si divida un mazzo di 40 carte in due mazzi da 20. Calcoliamo la probabilità dell’evento
A definito in ognuno dei modi seguenti:
(1) il primo mazzo contiene esattamente un 7;

(2) il primo mazzo contiene almeno un 7.

Soluzione. Poniamo Ω = C40,20 . L’esito ω può essere pensato come l’insieme delle carte del primo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo l’unico 7 che appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo, che non devono essere dei 7: ci sono |C36,19 | modi possibili.
In definitiva
4|C36,19 | 120
P (A) = = ≈ 25%.
|C40,20 | 481
(2) Abbiamo
|C36,20 |
P (A) = 1 − P (Ac ) = 1 − ≈ 95.7%. (2.2.11)
|C40,20 |
Per capire meglio, vediamo dei modi alternativi per risolvere il problema: potremmo tentare di caratterizzare il generico esito
ω ∈ A tramite le seguenti scelte successive:
i) scegliamo un 7 che sicuramente appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo fra le rimanenti 39: ci sono |C39,19 | modi possibili.
In questo caso troveremmo
4|C39,19 |
P (A) = =2
|C40,20 |
che è ovviamente un risultato sbagliato. L’errore sta nel fatto che le scelte successive non identificano univocamente ω, nel
senso che lo stesso ω viene “contato” più di una volta: per esempio, un ω che contiene il 7D (7 di denari) e il 7S (7 di spade)
viene individuato scegliendo 7D nella scelta i) e 7S nella scelta ii) ma anche invertendo i ruoli di 7D e 7S.
Se non vogliamo usare l’evento complementare, possiamo in alternativa calcolare |A| tramite il principio di somma, espri-
mendo A come unione degli eventi disgiunti Ak =“il primo mazzo contiene esattamente un numero k di 7”, per k = 1, 2, 3, 4. Il
generico esito ω ∈ Ak è determinato univocamente dalle seguenti scelte successive:
i) fra i 7 ne scegliamo k che sono quelli che appartengono al primo mazzo: ci sono |C4,k | modi possibili;
ii) scegliamo le rimanenti 20 − k del primo mazzo, che non devono essere dei 7: ci sono |C36,20−k | modi possibili.
Quindi
|C4,k ||C36,20−k |
P (Ak ) = , k = 1, 2, 3, 4,
|C40,20 |
e come risultato finale riotteniamo la (2.2.11).
Esempio 2.2.23. Da un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N, vengono estratte
senza reimmissione k palline, con k ≤ b+r. Calcoliamo la probabilità dell’evento Bk che consiste nell’estrarre
una pallina bianca alla k-esima estrazione.
Soluzione. Poniamo Ω = Db+r,k . L’esito ω può essere identificato con il vettore che indica la sequenza ordinata e senza
ripetizioni delle k estrazioni (supponendo di aver numerato le palline per identificarle). Allora
Bk ↔ {(ω1 , . . . , ωk ) | ωk “bianca”}.
Per determinare |Bk | utilizziamo il metodo delle scelte successive, caratterizzando una generica k-upla (ω1 , . . . , ωk ) tramite il
seguente schema:
i) scegliamo la pallina bianca della k-esima estrazione, ossia ωk : ci sono b modi possibili;
ii) scegliamo la sequenza (ordinata e senza ripetizioni) delle k −1 estrazioni precedenti: ci sono |Db+r−1,k−1 | modi possibili.
In definitiva, posto b + r = n, si ha
(n−1)!
b|Dn−1,k−1 | b (n−k)! b
P (Bk ) = = = .
|Dn,k | n! n
(n−k)!
Dunque P (Bk ) = b+rb coincide con la probabilità di estrarre una pallina bianca alla prima estrazione, ovvero P (B ) = P (B ).
k 1
Questo fatto si può spiegare osservando che Bk è in corrispondenza biunivoca con l’insieme {(ω1 , . . . , ωk ) | ω1 “bianca”}.
Esempio 2.2.24. Si consideri un mazzo di 40 carte, da cui si estraggono senza reimmissione k carte, con
k ≤ 40. Calcoliamo la probabilità che alla k-esima estrazione venga estratta una carta di denari.
Soluzione. L’esempio è simile al precedente: posto Ω = D40,k e Ak = “si estrae una carta di denari alla k-esima estrazione”, la
probabilità di Ak è data da
10|D39,k−1 | 1
P (Ak ) = = .
|D40,k | 4
Esempio 2.2.25. Da un’urna che contiene b palline bianche ed r palline rosse, vengono estratte con reim-
missione 2 palline. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) le due palline hanno lo stesso colore;
(2) almeno una delle due palline è rossa.
Soluzione. Poniamo Ω = DRb+r,2 . L’esito ω può essere identificato con la coppia (ω1 , ω2 ) che indica la sequenza ordinata (e
con eventuale ripetizione) delle due estrazioni (supponendo di aver numerato le palline per identificarle).
(1) Abbiamo che A è unione disgiunta di A1 = DRb,2 (le due palline sono bianche) e A2 = DRr,2 (le due palline sono rosse).
Dunque
|DRb,2 | |DRr,2 | b2 + r 2
P (A) = P (A1 ) + P (A2 ) = + = .
|DRb+r,2 | |DRb+r,2 | (b + r)2
(2) Si ha P (A) = 1 − P (Ac ) con Ac = DRb,2 (le due palline sono bianche) e quindi
b2
P (A) = 1 − .
(b + r)2
Esempio 2.2.26. Consideriamo un mazzo di carte da poker da 52 carte, identificate dal seme (cuori ♥,
quadri ♦, fiori ♣, picche ♠) e dal tipo (un numero da 2 a 10 oppure J, Q, K, A). Calcoliamo la probabilità di
avere un tris servito, ovvero di ricevere dal mazziere 5 carte di cui 3 sono dello stesso tipo, mentre le altre
due di tipo diverso tra loro e dalle prime tre.
Soluzione. Poniamo Ω = C52,5 . Sia A l’evento di cui dobbiamo calcolare la probabilità, ovvero
A = “avere un tris servito”.
Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:

i) scegliamo il tipo delle carte che formano il tris: ci sono 13 tipi possibili;
ii) scegliamo i tre semi del tris: ci sono |C4,3 | scelte possibili;
iii) scegliamo i tipi delle altre 2 carte fra i rimanenti 12 tipi possibili: ci sono |C12,2 | scelte possibili;
iv) scegliamo il seme delle altre 2 carte fra i 4 possibili: ci sono 4 · 4 = 16 modi possibili.
In definitiva
13 · 4 · |C12,2 | · 16
P (A) = ≈ 2.11%.
|C52,5 |
Come abbiamo detto in precedenza, nonostante la maggior parte degli esperimenti aleatori descritti
dalla probabilità uniforme discreta possa essere formulata su uno dei tre spazi campionari DRn,k , Dn,k ,
Cn,k , ci sono casi in cui questo non è possibile. Tuttavia, è sempre possibile scomporre l’esperimento alea-
torio in opportuni sotto-esperimenti aleatori che possono essere formulati su DRn,k , Dn,k o Cn,k , di modo
che l’esperimento aleatorio di partenza possa essere descritto sul loro prodotto cartesiano. Vediamo più
precisamente come si procede nei tre esempi che seguono.
Esempio 2.2.27. Consideriamo un mazzo di 30 carte (per esempio, denari, coppe e spade). Dopo averlo
diviso in tre mazzi da 10 carte, calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) i tre assi sono in mazzi differenti;
(2) i tre assi sono nello stesso mazzo.

Soluzione. Poniamo Ω = C30,10 × C20,10 : l’esito ω = (ω1 , ω2 ) può essere pensato come la coppia in cui ω1 è l’insieme delle
carte del primo mazzo e ω2 è l’insieme delle carte del secondo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo i mazzi in cui sono gli assi: ci sono |P3 | = 6 modi possibili;
ii) scegliamo le rimanenti 9 carte del primo mazzo, che non devono essere degli assi: ci sono |C27,9 | modi possibili;
iii) scegliamo le rimanenti 9 carte del secondo mazzo, che non devono essere degli assi: ci sono |C18,9 | modi possibili.
In definitiva
6|C27,9 ||C18,9 | 50
P (A) = = ≈ 24.6%.
|C30,10 ||C20,10 | 203
(2) In modo analogo caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il mazzo in cui sono gli assi: ci sono 3 modi possibili;
ii) scegliamo le rimanenti 7 carte del mazzo in cui sono gli assi, che non devono essere degli assi: ci sono |C27,7 | modi
possibili;
iii) scegliamo le 10 carte di un secondo mazzo, che non devono essere degli assi: ci sono |C20,10 | modi possibili.
In definitiva
3|C27,7 ||C20,10 | 18
P (A) = = ≈ 8.8%.
|C30,10 ||C20,10 | 203
Esempio 2.2.28. Una moneta (non truccata) viene lanciata dieci volte. Dopodiché si lancia un dado a dieci
facce (su cui sono riportati i numeri interi da 1 a 10). Calcoliamo la probabilità dell’evento
A = “il lancio della moneta, il cui numero è fornito dall’esito del dado, ha dato testa”.
In altre parole, l’evento A si verifica se, dopo aver scelto a caso uno dei 10 lanci (tramite il lancio del dado),
il risultato di quel lancio è testa.
Soluzione. Intuitivamente la probabilità è 12 . Consideriamo Ω = DR2,10 × I10 (si noti che al posto dell’insieme I10 è possibile
utilizzare indifferentemente DR10,1 , D10,1 o C10,1 , dato che |I10 | = |DR10,1 | = |D10,1 | = |C10,1 |). L’esito ω = (ω1 , . . . , ω10 , k)
corrisponde alla sequenza ω1 , . . . , ω10 dei risultati dei lanci e alla scelta k del lancio fra i 10 effettuati. Caratterizziamo il
generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il numero k del lancio: ci sono 10 valori possibili;
ii) scegliamo il risultato degli altri 9 lanci: ci sono |DR2,9 | modi possibili.
In definitiva
10|DR2,9 | 10 · 29 1
P (A) = = = .
|DR2,10 × I10 | 10 · 210 2
Esempio 2.2.29.
i) In quanti modi è possibile sistemare 3 monete (distinte: chiamiamole per esempio m1 , m2 e m3 ) in 10
scatole, sapendo che ogni scatola può contenere solo una moneta?
ii) Una volta disposte le monete, qual è la probabilità che la prima scatola contenga una moneta?
iii) Rispondere ai quesiti precedenti nel caso in cui ogni scatola possa contenere al più 2 monete.
Soluzione. 1) Possiamo immaginare che l’esperimento si svolga come segue: un’urna contiene 10 palline numerate da 1 a
10; ogni pallina corrisponde ad una scatola (supponiamo che le scatole siano state anch’esse numerate da 1 a 10); quindi
si estraggono senza reimmissione tre palline: il numero della i-esima pallina estratta indica la scatola in cui verrà messa la
moneta mi , con i = 1, 2, 3. Abbiamo dunque ricondotto l’esperimento all’estrazione senza reimmissione di 3 palline da un’urna
che ne contiene 10. Sappiamo che lo spazio campionario naturale è Ω = D10,3 . Il punto 1) chiede di calcolare i “casi possibili”,
ovvero |D10,3 | = 10!
7! = 720.
3 . Per dimostrarlo, indichiamo con A l’evento di cui vogliamo calcolare la probabilità,

2) Intuitivamente (?) la probabilità è 10
ovvero
A = “la prima scatola contiene una moneta” = “la pallina numero 1 è stata estratta”.
Si ha che
|A| |A|
P (A) = =
|D10,3 | 720
o, alternativamente,
|Ac | |Ac |
P (A) = 1 − P (Ac ) = 1 − = 1− .
|D10,3 | 720
Resta dunque da determinare |A| oppure |Ac |. Si noti che Ac è l’evento in cui le tre monete non sono messe nella prima scatola
e quindi equivale a disporre le 3 monete nelle rimanenti 9 scatole (equivalentemente, nelle tre estrazioni dall’urna, non esce la
pallina numero 1), ossia Ac ↔ D9,3 . Quindi |Ac | = |D9,3 |, da cui
|D9,3 | 7 3
P (A) = 1 − = 1− = .
|D10,3 | 10 10
Alternativamente, |A| può essere determinato con il metodo delle scelte successive procedendo come segue:
• scelgo la moneta da mettere nella prima scatola: 3 scelte possibili;
• scelgo dove mettere le restanti due monete nelle rimanenti nove scatole: |D9,2 | modi possibili.
Quindi |A| = 3|D9,2 |, perciò
3|DR9,2 | 3
P (A) = = .
720 10
3) Poniamo Ω = Ω1 ⊎ Ω2 , dove:
• Ω1 contiene i “casi possibili” in cui le prime due monete sono nella stessa scatola, e, di conseguenza, la terza moneta è
in una delle rimanenti nove scatole: ci sono 10 · 9 casi possibili di questo tipo, quindi |Ω1 | = 10 · 9;
• Ω2 contiene i “casi possibili” in cui le prime due monete sono in scatole diverse, mentre la terza moneta è in una
qualsiasi delle dieci scatole: ci sono |D10,2 | · 10 casi possibili di questo tipo, quindi |Ω2 | = |D10,2 | · 10.
Dato che Ω = Ω1 ⊎ Ω2 , abbiamo che
|Ω| = |Ω1 | + |Ω2 | = 10 · 9 + |D10,2 | · 10 = 990.
Riassumendo, in questa sezione abbiamo esaminato la probabilità uniforme discreta che è essenzial-
mente definita come rapporto fra “casi favorevoli” e “casi possibili”. Il calcolo della probabilità uniforme si
riduce a un problema di conteggio che può essere risolto con gli strumenti del calcolo combinatorio. In tale
contesto, un utile algoritmo per il conteggio di “casi favorevoli” e “casi possibili” è il cosiddetto “metodo
delle scelte successive”. Gli errori più comuni che si commettono nell’utilizzo di tale metodo sono:
• contare esiti che non esistono (vedi Esempio 2.2.21);
• contare più di una volta lo stesso esito (vedi Esempio 2.2.22);
• non contare tutti gli esiti.
Abbiamo anche visto che, nel caso della probabilità uniforme discreta, è spesso utile ripensare il fenomeno
aleatorio come un esperimento (o, eventualmente, una sequenza di esperimenti) in cui si estraggono (con
reimmissione, senza reimmissione, simultaneamente) k palline da un’urna che contiene n palline distinte.
Nell’ambito di questo tipo di problemi abbiamo infine introdotto due esempi notevoli di probabilità: la
binomiale e l’ipergeometrica.
2.3 Probabilità condizionata e indipendenza di eventi

I concetti di indipendenza e probabilità condizionata sono centrali nella Teoria della Probabilità. Po-
tremmo dire che finora abbiamo semplicemente rivisto alcuni concetti di calcolo combinatorio e teoria
della misura dandone l’interpretazione probabilistica. Ora, con l’indipendenza e la probabilità condiziona-
ta, introduciamo concetti completamente nuovi e peculiari della Teoria della Probabilità: essi permettono
di analizzare come l’informazione riguardo al verificarsi di un evento influenza la probabilità di un altro
evento.
2.3.1 Probabilità condizionata

Come già spiegato, la Teoria della Probabilità si occupa dei fenomeni il cui esito è incerto: ora l’in-
certezza su un fatto significa “mancanza di conoscenza parziale o totale” del fatto stesso. In altri termini,
l’incertezza è dovuta ad una mancanza di informazioni sul fenomeno poiché esso avverrà nel futuro (per
esempio, il prezzo di domani di un titolo azionario) oppure poiché è già avvenuto ma non è stato possibi-
le osservarlo (per esempio, l’estrazione di una carta che non ci viene mostrata oppure la traiettoria di un
elettrone). Chiaramente può accadere che alcune informazioni diventino disponibili e in tal caso lo spazio
di probabilità che descrive il fenomeno deve essere “aggiornato” per tener conto di esse. A questo scopo si
introduce il concetto di probabilità condizionata. Consideriamo dapprima il seguente
Esempio 2.3.1. [!] Da un’urna che contiene 2 palline bianche e 2 palline nere, si estraggono in sequenza e
senza reinserimento due palline:
i) calcolare la probabilità che la seconda pallina sia bianca;
ii) sapendo che la prima pallina estratta è nera, calcolare la probabilità che la seconda pallina sia bianca;
iii) sapendo che la seconda pallina estratta è nera, calcolare la probabilità che la prima pallina sia bianca.
Utilizzando il calcolo combinatorio, è abbastanza facile risolvere il quesito i). Consideriamo lo spazio cam-
pionario Ω = D4,2 delle possibili estrazioni, tenendo conto dell’ordine. Allora |Ω| = |D4,2 | = 12 e l’evento
A =“la seconda pallina è bianca” ha 6 elementi, quindi P (A) = 12 .
Il quesito ii) è elementare dal punto di vista intuitivo: poiché abbiamo l’informazione che la prima
pallina estratta è nera, alla seconda estrazione l’urna è composta da due palline bianche e una nera e
quindi la probabilità cercata è 32 . Condizionatamente all’informazione data, l’evento A ha ora probabilità
maggiore di 21 .
Al contrario, l’ultimo quesito non sembra avere una soluzione intuitiva. Si potrebbe pensare che la
seconda estrazione non influisce sulla prima perché avviene dopo ma ciò non è corretto. Poiché ci viene
data un’informazione sulla seconda estrazione, bisogna pensare che le due estrazioni siano già avvenute
e in tal caso l’informazione sull’esito della seconda estrazione influisce sulla probabilità dell’esito della prima:
infatti sapendo che la seconda estratta è una pallina nera, è come se nella prima estrazione tale pallina
nera fosse stata “prenotata” e non potesse essere estratta; quindi ci sono due possibilità su tre di estrarre
una pallina bianca. In effetti, anche utilizzando il calcolo combinatorio è facile provare che la probabilità
cercata è 32 .
Ora formalizziamo le idee precedenti.
Definizione 2.3.2 (Probabilità condizionata). In uno spazio di probabilità (Ω, F , P ) sia B un evento non
trascurabile, ossia tale che P (B) > 0. La probabilità di A condizionata a B è definita da
P (A ∩ B)
P (A | B) := , A ∈ F. (2.3.1)
P (B)
Osservazione 2.3.3. La Definizione 2.3.2 si motiva nel modo seguente: se sappiamo che l’evento B è acca-
duto allora lo spazio campionario si “riduce” da Ω a B e, condizionatamente a tale informazione, è naturale
definire la probabilità di A come in (2.3.1) poiché:
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 47
i) solo gli eventi di A che stanno anche in B possono accadere;

ii) poiché il nuovo spazio campionario è B, dobbiamo dividere per P (B) in modo che P (B | B) = 1.
Proposizione 2.3.4. Nello spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile. Si ha:
i) P (· | B) è una misura di probabilità su (Ω, F );
ii) se A ∩ B = ∅ allora P (A | B) = 0;
P (A)
iii) se A ⊆ B allora P (A | B) = P (B)
e di conseguenza P (A | B) ≥ P (A);
iv) se B ⊆ A allora P (A | B) = 1;
v) se P (A) = 0 allora P (A | B) = 0.
Dimostrazione. Le proprietà seguono direttamente dalla Definizione 2.3.2: provare i dettagli è un esercizio
molto utile e istruttivo.
Esempio 2.3.5. [!] Riprendiamo il punto ii) dell’Esempio 2.3.1 e consideriamo gli eventi B =“la prima
pallina estratta è nera” e A =“la seconda pallina estratta è bianca”. Per via intuitiva avevamo detto che
la probabilità di A condizionata a B è pari a 32 : ora calcoliamo P (A | B) utilizzando la Definizione 2.3.2.
Chiaramente P (B) = 21 , mentre sullo spazio campionario D4,2 ci sono 4 possibili estrazioni in cui la prima
4
pallina è nera e la seconda è bianca e quindi P (A ∩ B) = 12 = 13 . Ne viene che
P (A ∩ B) 2
P (A | B) = =
P (B) 3
che conferma il risultato intuitivo.
Ora risolviamo il punto i) dell’Esempio 2.3.1 utilizzando il concetto di probabilità condizionata per
evitare l’uso del calcolo combinatorio. La difficoltà del quesito è nel fatto che il risultato della seconda
estrazione dipende dal risultato della prima estrazione e quest’ultimo è incognito: per questo motivo, a
prima vista, sembra impossibile9 calcolare la probabilità dell’evento A. L’idea è di partizionare lo spazio
campionario e considerare separatamente i casi in cui B accade o meno per sfruttare la definizione di pro-
babilità condizionata: abbiamo già provato che P (A | B) = 32 e in modo analogo si vede che P (A | Bc ) = 13 .
Allora si ha
P (A) = P (A ∩ B) + P (A ∩ Bc )
= P (A | B)P (B) + P (A | Bc )P (Bc )
2 1 1 1 1
= · + · =
3 2 3 2 2
che conferma quanto già visto.
Proposizione 2.3.6 (Formula della probabilità totale). [!]
Per ogni evento B tale che 0 < P (B) < 1, vale
P (A) = P (A | B)P (B) + P (A | Bc )(1 − P (B)), A ∈ F. (2.3.2)
Più in generale, se (Bi )i∈I è una partizione10 finita o numerabile di Ω, con P (Bi ) > 0 per ogni i ∈ I, allora
vale X
P (A) = P (A | Bi )P (Bi ), A∈F (2.3.3)
i∈I
9 Un’indagine svolta al quarto anno di alcuni licei di Bologna ha evidenziato un numero significativo di studenti che, di fronte a
questo quesito hanno risposto che non è possibile calcolare la probabilità dell’evento A. Per mettere in crisi questo tipo di convinzione
si può far osservare agli studenti che non c’è ragione per cui le palline nere abbiano maggiore probabilità di essere estratte per seconde
e quindi intuitivamente deve valere P (A) = 12 .
10 Ossia (B )
i i∈I è una famiglia di eventi a due a due disgiunti, la cui unione è uguale a Ω. A volte (Bi )i∈I è chiamato un sistema di
alternative.
Dimostrazione. Dimostriamo la (2.3.3), di cui la (2.3.2) è un caso particolare. Poiché

]
A= (A ∩ Bi ),
i∈I
per la σ -additività di P si ha X X
P (A) = P (A ∩ Bi ) = P (A | Bi )P (Bi ).
i∈I i∈I
Vediamo un altro esempio tipico di applicazione della Formula della probabilità totale.
Esempio 2.3.7. Consideriamo due urne: l’urna α contiene 3 palline bianche e 1 rossa; l’urna β contiene 1
pallina bianca e 1 rossa. Calcoliamo la probabilità che, scelta a caso un’urna ed estratta una pallina, essa
sia bianca.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità e con B l’evento in cui viene scelta l’urna
α. Sembra naturale porre
1 3 1
P (B) = , P (A | B) = , P (A | Bc ) = .
2 4 2
Allora per la (2.3.2) otteniamo
3 1 1 1 5
P (A) = · + · = .
4 2 2 2 8
Notiamo che abbiamo formalmente calcolato P (A) senza neppure specificare lo spazio di probabilità!
Seconda soluzione. Diamo ora una seconda soluzione più dettagliata: poniamo
Ω = {αb1 , αb2 , αb3 , αr, βb, βr}
dove αb1 è l’esito in cui viene scelta la prima urna ed estratta la prima pallina bianca e gli altri esiti sono definiti in modo
analogo. Chiaramente
A = {αb1 , αb2 , αb3 , βb}
ma in questo caso la probabilità corretta da utilizzare non è quella uniforme su Ω. Infatti B, l’evento in cui viene scelta l’urna
α, deve avere probabilità 21 e gli elementi di B sono equiprobabili: ne segue che P ({ω}) = 81 per ogni ω ∈ B. Analogamente
P (Bc ) = 12 e gli elementi di Bc sono equiprobabili da cui
1
P ({βb}) = P ({βr}) = .
4
Possiamo dunque calcolare
5
P (A) = P ({αb1 }) + P ({αb2 }) + P ({αb3 }) + P ({βb}) =
8
in accordo con quanto precedentemente trovato.
Esercizio 2.3.8. Si lancia un dado e di seguito si lancia una moneta un numero di volte pari al risultato del
lancio del dado. Qual è la probabilità di ottenere esattamente due teste?
Esempio 2.3.9. Un’urna contiene 6 palline bianche e 4 nere. Estraendo 2 palline senza reinserimento, qual
è la probabilità che siano entrambe bianche (evento A)?
Possiamo interpretare il quesito come un problema di conteggio, utilizzando la probabilità uniforme P
sullo spazio Ω = C10,2 delle combinazioni di due palline estratte fra le 10 disponibili. Allora si ha
6!
|C6,2 | 2!4! 6·5
P (A) = = 10!
= . (2.3.4)
|C10,2 | 2!8!
10 · 9
6
Ora notiamo che 10 = P (A1 ) dove A1 è l’evento “la prima pallina estratta è bianca”. D’altra parte, se A2
è l’evento “la seconda pallina estratta è bianca”, allora 95 è la probabilità di A2 condizionata ad A1 , ossia
5
9 = P (A2 | A1 ). In definitiva, osservando anche che A = A1 ∩ A2 , la (2.3.4) equivale a
P (A1 ∩ A2 ) = P (A1 )P (A2 | A1 )

e quindi ritroviamo proprio la formula (2.3.1) che definisce la probabilità condizionata.
Più in generale, dalla definizione di probabilità condizionata si ottiene direttamente il seguente utile
risultato.
Proposizione 2.3.10 (Formula di moltiplicazione). [!]
Siano A1 , . . . , An eventi tali che P (A1 ∩ · · · ∩ An−1 ) > 0. Vale la formula
P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 | A1 ) · · · P (An | A1 ∩ · · · ∩ An−1 ) (2.3.5)
Esercizio 2.3.11. Utilizzare la formula (2.3.5) per calcolare la probabilità che, estratte 3 carte da un mazzo
di 40, il valore di ognuna non sia superiore a 5.
Soluzione. Indicato con Ai , i = 1, 2, 3, l’evento “la i-esima carta estratta è minore o uguale a 5”, la probabilità cercata è uguale
a
20 19 18
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) = · · .
40 39 38
|C |
Risolvendo l’esercizio come un problema di conteggio, troveremmo la soluzione equivalente |C20,3 | .
40,3
Esempio 2.3.12. Calcoliamo la probabilità di fare un ambo al lotto con i numeri 1 e 3 (evento A), sapendo
che l’estrazione è già avvenuta e tre dei cinque numeri estratti sono dispari (evento B).
Soluzione. Poniamo Ω = C90,5 : l’esito ω = {ω1 , . . . , ω5 } può essere pensato come l’insieme dei numeri estratti. Si ha che ω ∈ A
se 1, 3 ∈ ω e dunque A ↔ C88,3 . Inoltre B ↔ C45,3 × C45,2 (corrispondente alla scelta di tre numeri dispari e due pari fra i 90)
e A ∩ B ↔ C43,1 × C45,2 (corrispondente alla scelta del terzo numero dispari, oltre a 1 e 3, e di due pari fra i 90). Allora si ha
|C88,3 | 43|C45,2 |
P (A) = ≈ 0.25% e P (A | B) = ≈ 0.3%.
|C90,5 | |C45,3 ||C45,2 |
Osservazione 2.3.13. In base alla formula (2.3.2) della probabilità totale, se 0 < P (B) < 1 possiamo determi-
nare univocamente P (A) a partire da P (B), P (A | B) e P (A | Bc ). Notiamo anche che la (2.3.2) implica che P (A)
appartiene all’intervallo di estremi P (A | B) e P (A | Bc ): quindi, indipendentemente dalla conoscenza di P (B),
si ha che P (A | B) e P (A | Bc ) forniscono delle stime del valore di P (A). In particolare se P (A | B) = P (A | Bc )
allora vale anche P (A) = P (A | B) o equivalentemente P (A ∩ B) = P (A)P (B).
Consideriamo ora un problema relativo alla rilevazione dell’opinione degli studenti sulla qualità della
didattica. Definiamo i seguenti eventi aleatori:
• A: un professore riceve un giudizio positivo nella rilevazione dell’opinione degli studenti;
• B: un professore è “bravo” (ammesso di sapere cosa ciò significhi).
Generalmente gli eventi A e B non coincidono: allora possiamo interpretare le probabilità condizionate
P (A | B) e P (B | A) nel modo seguente:
• P (A | B) è la probabilità che un professore “bravo” riceva un giudizio positivo;
• P (B | A) è la probabilità che un professore che riceve un giudizio positivo sia “bravo”.
Riflettendo attentamente sul significato di queste due probabilità condizionate, risulta chiaro che a volte si
può essere interessati a ricavarne una a partire dalla conoscenza dall’altra: tipicamente nella realtà, si può
avere una stima generale (in base a dati storici) di P (A | B) ed essere interessati a conoscere P (B | A) in base
al risultato della rilevazione appena effettuata. Una risposta a questo problema è data dal classico Teorema
di Bayes.
Teorema 2.3.14 (Formula di Bayes). [!]

Siano A, B eventi non trascurabili. Vale
P (A | B)P (B)
P (B | A) = (2.3.6)
P (A)
Dimostrazione. La (2.3.6) equivale a
P (B | A)P (A) = P (A | B)P (B)
e segue direttamente dalla definizione di probabilità condizionata.
Esempio 2.3.15. Riprendiamo l’Esempio 2.3.7: sapendo che è stata estratta una pallina bianca, qual è la
probabilità che sia stata scelta l’urna α?
Soluzione. Come prima indichiamo con A l’evento “viene estratta una pallina bianca” e con B l’evento “viene scelta l’urna α”.
Avevamo già calcolato P (A) = 58 , mentre assumiamo P (A | B) = 43 e P (B) = 12 . Allora per la formula di Bayes abbiamo
P (A | B)P (B) 3
P (B | A) = = .
P (A) 5
Esercizio 2.3.16. Supposto P (A | B) , P (A | Bc ), provare che
P (A) − P (A | Bc )
P (B) = , (2.3.7)
P (A | B) − P (A | Bc )
e quindi è possibile determinare univocamente P (B) a partire da P (A), P (A | B) e P (A | Bc ).
Esercizio 2.3.17 (Rilevazione della didattica). Supponiamo di sapere che storicamente i professori “bravi”
ricevono un giudizio positivo nel 95% dei casi e i professori “meno bravi” ricevono un giudizio positivo nel
10% dei casi (alcuni professori sono furbi...). Se i giudizi sul corso di laurea sono positivi all’80%, qual è la
probabilità che
i) i professori che hanno ricevuto un giudizio positivo siano veramente “bravi”?
ii) i professori che hanno ricevuto un giudizio negativo in realtà siano “bravi”?
Si osservi che, combinando la formula di Bayes con la formula (2.3.7), otteniamo
P (A | B)P (B) P (A | B) (P (A) − P (A | Bc ))

P (B | A) = = .
P (A) P (A) (P (A | B) − P (A | Bc ))
2.3.2 Indipendenza di eventi

Definizione 2.3.18. In uno spazio di probabilità (Ω, F , P ), diciamo che due eventi A, B sono indipendenti in
P se
P (A ∩ B) = P (A)P (B). (2.3.8)
Il concetto di indipendenza è relativo alla misura di probabilità considerata11 . Esso esprime il fatto che
l’informazione sull’accadere dell’evento B non influenza la probabilità di A: infatti, se P (B) > 0, la (2.3.8) è
equivalente a
P (A | B) = P (A),
11 A volte è necessario dichiarare esplicitamente la misura di probabilità P considerata. Infatti nelle applicazioni possono intervenire
diverse misure di probabilità contemporaneamente: non è detto che due eventi indipendenti in una misura di probabilità lo siano in
un’altra misura di probabilità.
ossia
P (A ∩ B) P (A)
=
P (B) P (Ω)
che può essere interpretata come una relazione di proporzionalità
P (A ∩ B) : P (B) = P (A) : P (Ω).
Analogamente, se
P (A ∩ B) > P (A)P (B) (2.3.9)
allora A, B si dicono positivamente correlati in P poiché la (2.3.9) implica12
P (A | B) > P (A), P (B | A) > P (B),
ossia la probabilità di A aumenta condizionatamente all’informazione sull’avvenire di B e viceversa.
Osservazione 2.3.19. Chiaramente, il fatto che A, B siano indipendenti non significa che siano disgiunti,
anzi: se P (A) > 0, P (B) > 0 e vale la (2.3.8) allora anche P (A ∩ B) > 0 e quindi A ∩ B , ∅. D’altra parte, se
P (A) = 0 allora anche P (A ∩ B) = 0 (per la (2.1.5) e il fatto che A ∩ B ⊆ A) e quindi la (2.3.8) vale per ogni B,
ossia A è indipendente da ogni evento B.
Osservazione 2.3.20. Abbiamo definito il concetto di indipendenza ma non quello di dipendenza. Se due
eventi A, B non sono indipendenti non diciamo che sono dipendenti: definiremo in seguito un concetto di
dipendenza che è ben distinto e in qualche modo slegato da quello di indipendenza.
Esempio 2.3.21. Due atleti hanno rispettivamente la probabilità del 70% e 80% di battere un record in una
gara. Qual è la probabilità che almeno uno dei due batta il record?
Se A è l’evento “il primo atleta batte il record”, B è l’evento “il secondo atleta batte il record” e assumia-
mo che A e B siano indipendenti allora si ha
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =
(per l’indipendenza)
= P (A) + P (B) − P (A)P (B)

= 150% − 70% · 80% = 94%.
Esempio 2.3.22. Il fatto che due eventi siano indipendenti non significa che “non hanno nulla a che fare”.
Si consideri il lancio di due dadi e gli eventi “la somma dei lanci è 7” (evento A) e “il risultato del primo
lancio è 3”. Allora A e B sono indipendenti nella probabilità uniforme.
Esempio 2.3.23. Vedremo tra breve che il concetto di indipendenza risulta naturale per descrivere un espe-
rimento che viene ripetuto in modo che ogni ripetizione non influenzi la probabilità delle altre ripetizioni
(per esempio, un sequenza di lanci di un dado o di una moneta). In questo caso risulta naturale utilizzare
uno spazio campionario che sia un prodotto cartesiano. Per esempio, sia Ω = Ω1 × Ω2 finito, munito della
probabilità uniforme P : consideriamo A = E1 × Ω2 e B = Ω1 × E2 con Ei ⊆ Ωi , i = 1, 2. Allora
|E1 ||E2 | |E1 × Ω2 ||Ω1 × E2 |

P (A ∩ B) = P (E1 × E2 ) = = = P (A)P (B)
|Ω| |Ω|2
e quindi A e B sono indipendenti in P . Approfondiremo il legame fra i concetti di indipendenza e prodotto

di misure a partire dalla Sezione 3.3.
12 Nel caso in cui A, B non siano trascurabili in P .
Esercizio 2.3.24. Al cinema due persone α, β decidono quale film vedere, tra due disponibili, in maniera
indipendente e con le seguenti probabilità:
1 1
P (α1 ) = , P (β1 ) =
3 4
dove α1 indica l’evento “α sceglie il primo film”. Calcolare la probabilità che α e β vedano lo stesso film.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità. Abbiamo
P (A) = P (α1 ∩ β1 ) + P (α2 ∩ β2 ) =
(per l’ipotesi di indipendenza e poiché P (α2 ) = 1 − P (α1 ))

7
= P (α1 )P (β1 ) + P (α2 )P (β2 ) = .
12
Questo esempio elementare mostra che è possibile calcolare la probabilità di un evento che dipende da eventi indipendenti,
a partire dalla conoscenza delle probabilità dei singoli eventi e, soprattutto, senza la necessità di costruire esplicitamente lo
spazio di probabilità.
Seconda soluzione. È anche utile procedere nel modo “classico”, risolvendo l’esercizio come un problema di conteggio: in questo
caso dobbiamo prima costruire lo spazio campionario
Ω = {(1, 1), (1, 2), (2, 1), (2, 2)}
dove (i, j) indica l’esito “α sceglie il film i e β sceglie il film j” con i, j = 1, 2. Per ipotesi conosciamo le probabilità degli eventi
α1 = {(1, 1), (1, 2)}, β1 = {(1, 1), (2, 1)},
tuttavia questo non è sufficiente a determinare univocamente la probabilità P , ossia a determinare le probabilità dei singoli
esiti. In effetti per fare ciò, è necessario utilizzare anche l’ipotesi di indipendenza (in P ) di α1 e β1 , da cui ricaviamo per
esempio
1
P ({(1, 1)}) = P (α1 ∩ β1 ) = P (α1 )P (β1 ) = .
12
Analogamente possiamo calcolare tutte le probabilità degli esiti e di conseguenza risolvere il problema. Notiamo che questa
procedura basata sul conteggio risulta più laboriosa e meno intuitiva.
Proposizione 2.3.25. Se A, B sono indipendenti allora anche A, Bc sono indipendenti.

Dimostrazione. Si ha
P (A ∩ Bc ) = P (A \ B) = P (A \ (A ∩ B)) =
(per la (2.1.6))
= P (A) − P (A ∩ B) =
(per l’ipotesi di indipendenza di A, B)
= P (A) − P (A)P (B) = P (A)P (Bc ).
Esercizio 2.3.26. Al cinema due persone α, β decidono quale film vedere fra tre disponibili, nel modo
seguente:
i) α sceglie un film a caso con le seguenti probabilità
1 1 1
P (α1 ) = , P (α2 ) = , P (α3 ) =
2 3 6
dove αi indica l’evento “α sceglie il film i-esimo” per i = 1, 2, 3;
ii) β lancia una moneta e se il risultato è “testa” allora sceglie lo stesso film di α, altrimenti sceglie un
film a caso, indipendentemente da α.
Calcoliamo la probabilità P (A) dove A è l’evento “α e β vedono lo stesso film”.
Soluzione. Indichiamo con T l’evento “il risultato del lancio della moneta è testa”. Si ha P (T ) = 12 e per ipotesi P (A | T ) = 1 e
P (βi | T c ) = 31 per i = 1, 2, 3. Inoltre, poiché P (· | T c ) è una misura di probabilità, si ha
3
X
P (A | T c ) = P (αi ∩ βi | T c ) =
i=1
(per l’ipotesi di indipendenza della scelta di α e β condizionatamente all’evento T c )

3
X
= P (αi | T c )P (βi | T c )
i=1
3
1X 1
= P (αi | T c ) = ,
3 3
i=1
3
P (αi | T c ) = 1 essendo P (· | T c ) una misura di probabilità. Allora per la (2.3.2) si ha
P
poiché
i=1
1 1 1 2
P (A) = P (A | T )P (T ) + P (A | T c )(1 − P (T )) = 1 · + · = .
2 3 2 3
Per esercizio, provare a calcolare la probabilità che α e β scelgano il primo film, ossia P (α1 ∩ β1 ).
Consideriamo ora il caso di più di due eventi.
Definizione 2.3.27. Sia (Ai )i∈I una famiglia di eventi. Diciamo che tali eventi sono indipendenti se vale
 
 \  Y
P  Aj  = P (Aj )
j∈J j∈J
per ogni J ⊆ I, con J finito.

Consideriamo tre eventi A, B, C: gli Esercizi 2.3.41 e 2.3.42 mostrano che in generale non c’è implicazione
fra la proprietà
P (A ∩ B ∩ C) = P (A)P (B)P (C) (2.3.10)
e le proprietà
P (A ∩ B) = P (A)P (B), P (A ∩ C) = P (A)P (C), P (B ∩ C) = P (B)P (C). (2.3.11)
In particolare, una famiglia di eventi a due a due indipendenti non è in generale una famiglia di eventi
indipendenti.
Concludiamo la sezione con un utile risultato. Data una successione di eventi (An )n≥1 , indichiamo con13
\[
(An i.o.) := Ak .
n≥1 k≥n
Si noti che
(An i.o.) = {ω ∈ Ω | ∀n ∈ N ∃k ≥ n tale che ω ∈ Ak },
ossia (An i.o.) è l’evento costituito dagli ω ∈ Ω che appartengono ad un numero infinito di An .
13 i.o. sta per infinitely often.
Lemma 2.3.28 (Borel-Cantelli). [!] Sia (An )n≥1 una successione di eventi nello spazio (Ω, F , P ):
i) se X
P (An ) < +∞
n≥1
allora P (An i.o.) = 0;
ii) se gli An sono indipendenti e X
P (An ) = +∞
n≥1
allora P (An i.o.) = 1.
Dimostrazione. Per la continuità dall’alto di P si ha
[ !
P (An i.o.) = lim P Ak ≤
n→∞
k≥n
(per σ -subadditività, Proposizione 2.1.22-ii))

X
≤ lim P (Ak ) = 0
n→∞
k≥n
per ipotesi. Questo prova la prima parte della tesi.

Per quanto riguarda ii), proviamo che
[ !
P Ak = 1 (2.3.12)
k≥n
per ogni n ∈ N, da cui seguirà la tesi. Fissati n, N con n ≤ N , si ha
[N ! \N !
P Ak = 1 − P Ack =
k=n k=n
(per indipendenza)
N
Y
= 1− (1 − P (Ak )) ≥
k=n
(per la disuguaglianza elementare 1 − x ≤ e−x valida per x ∈ R)
N
X !
≥ 1 − exp − P (Ak ) .
k=n
La (2.3.12) segue passando al limite per N → ∞.
Riassumendo, la probabilità condizionata e l’indipendenza sono i primi concetti veramente nuovi, esclu-
sivi della teoria della probabilità e che non si incontrano in altre teorie matematicamente “affini” come la
teoria della misura o il calcolo combinatorio.
Lo scopo di entrambi i concetti è quello di esprimere la probabilità P (A ∩ B) in termini di probabilità
dei singoli eventi A e B. Ciò è ovviamente possibile se A, B sono indipendenti in P poiché in questo caso si
ha
P (A ∩ B) = P (A)P (B).
Più in generale, se non c’è indipendenza fra A e B possiamo scrivere
P (A ∩ B) = P (A | B)P (B)
Molti problemi si risolvono molto più facilmente usando le precedenti identità (e altre utili formule come
quella della probabilità totale, di moltiplicazione e di Bayes) invece del calcolo combinatorio.
2.3.3 Prove ripetute e indipendenti

Definizione 2.3.29. [!] In uno spazio di probabilità (Ω, F , P ), sia (Ch )h=1,...,n una famiglia finita di eventi
indipendenti ed equiprobabili, ossia tali che P (Ch ) = p ∈ [0, 1] per ogni h = 1, . . . , n. Allora diciamo che
(Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Intuitivamente possiamo immaginare di ripetere n volte un esperimento che può avere due esiti, succes-
so o insuccesso: Ch rappresenta l’evento “l’esperimento h-esimo ha successo”. Per esempio, in una sequenza
di n lanci di una moneta, Ch può rappresentare l’evento “al lancio numero h ottengo testa”.
Per ogni n ∈ N e p ∈ [0, 1], è sempre possibile costruire uno spazio discreto (Ω, P ) su cui è definita una
famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Il seguente risultato mostra anche
che su uno spazio di probabilità discreto non è possibile definire una successione (Ch )h∈N di prove ripetute e
indipendenti a meno che non sia banale, ossia con p = 0 oppure p = 1.
Proposizione 2.3.30. Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Si veda la Sezione 2.5.1.
Vediamo ora due esempi significativi.
Esempio 2.3.31 (Probabilità di primo successo alla prova k). [!]
Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti con probabilità p. L’evento “il primo successo
è alla k-esima prova” è definito da
Ak := C1c ∩ C2c ∩ · · · ∩ Ck−1
c
∩ Ck , 1 ≤ k ≤ n,
e per l’indipendenza vale
P (Ak ) = (1 − p)k−1 p, 1 ≤ k ≤ n. (2.3.13)
Per esempio, Ak rappresenta l’evento secondo cui, in una sequenza di n lanci di una moneta, si ottiene testa
per la prima volta al k-esimo lancio. Notiamo che P (Ak ) in (2.3.13) non dipende da n: intuitivamente, Ak
dipende solo da ciò che è successo fino alla k-esima prova ed è indipendente dal numero totale n di prove.
Esempio 2.3.32 (Probabilità di k successi su n prove). [!]
Consideriamo una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Calcoliamo la
probabilità dell’evento Ak “esattamente k prove hanno successo”.
1◦ modo: Con riferimento allo spazio canonico della Proposizione 2.3.30 e in particolare alla formula (2.5.1),
abbiamo Ak = Ωk . Dunque
!
X
k n−k n k
P (Ak ) = P ({ω}) = |Ωk |p (1 − p) = p (1 − p)n−k , 0 ≤ k ≤ n.
k
ω∈Ωk
Vedremo che P (Ak ) è legato al concetto di distribuzione binomiale nell’Esempio 2.4.17.

2◦ modo: L’evento Ak è del tipo
Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn
al variare di {i1 , . . . , ik }, famiglia di indici di In : le possibili scelte di tali indici sono esattamente |Cn,k |. Inoltre,
per l’indipendenza, si ha
P Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn = pk (1 − p)n−k
e dunque ritroviamo il risultato
!
n k
P (Ak ) = p (1 − p)n−k , 0 ≤ k ≤ n. (2.3.14)
k
Osservazione 2.3.33. Ripensiamo all’Esempio 2.2.17 relativo al calcolo della probabilità di estrarre (con
reinserimento) esattamente k palline bianche da un’urna che ne contiene b bianche e r rosse. Se Ch è l’evento
b
“la pallina della h-esima estrazione è bianca” allora p = P (Ch ) = b+r e la (2.3.14) fornisce la probabilità
cercata, in accordo con quanto avevamo ottenuto nell’Esempio 2.2.17 tramite il calcolo combinatorio.
Si noti che nell’approccio basato sul calcolo combinatorio si usa la probabilità uniforme, come sempre nei
problemi di conteggio. Invece, nell’approccio basato sulla famiglia di prove ripetute e indipendenti, impli-
citamente utilizziamo lo spazio canonico della Proposizione 2.3.30 senza tuttavia la necessità di dichiarare
esplicitamente lo spazio campionario e la misura di probabilità (che comunque non è quella uniforme).
2.3.4 Esempi
Proponiamo alcuni esempi ed esercizi riassuntivi su indipendenza e probabilità condizionata.
Esempio 2.3.34.
• Il signor Rossi ha due figli: qual è la probabilità che entrambi i figli siano maschi (evento A)?
Considerando come spazio campionario
Ω = {(M, M), (M, F), (F, M), (F, F)} (2.3.15)
con ovvio significato dei simboli, è chiaro che P (A) = 41 . La situazione è riassunta nella seguente
tabella in cui le celle rappresentano i quattro casi possibili e le relative probabilità sono indicate
all’interno dei cerchi: si ha A = {(M, M)}.
Maschio Femmina
1 1
Maschio (M, M) 4 (M, F) 4
1 1
Femmina (F, M) 4 (F, F) 4
• Il signor Rossi ha due figli. Sapendo che uno di questi è maschio (evento B), qual è la probabilità che
entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) purtroppo è sbagliata. Per rendersene conto è suf-
ficiente considerare ancora lo spazio campionario Ω: ora, avendo l’informazione che (F, F) non è
possibile (ossia ha probabilità nulla “condizionatamente” all’informazione data che è il verificarsi
dell’evento B) e supposto che gli esiti (M, M), (M, F), (F, M) siano equiprobabili, se ne conclude che
la probabilità cercata è pari a 31 . La tabella seguente mostra come si ridistribuisce la probabilità
condizionatamente all’informazione che si verifica B.
Maschio Femmina
1 1
1
• Il signor Rossi ha due figli. Sapendo che il primogenito è maschio (evento C, differente da B del punto
precedente), qual è la probabilità che entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) è corretta perché in questo caso FM e FF hanno
entrambe probabilità nulla (“condizionatamente” all’informazione data che è il verificarsi dell’evento
C). In altri termini, sapendo che il primogenito è maschio, tutto dipende dal fatto che il secondogenito
sia maschio o femmina, ossia da due eventi equiprobabili con probabilità pari a 21 . La tabella seguente
mostra come si ridistribuisce la probabilità condizionatamente all’informazione che si verifica C.
Maschio Femmina
1 1
Indicando con P la probabilità uniforme su Ω in (2.3.15), abbiamo

1 3 1
P (A) = P ({MM}) = , P (B) = P ({MM, MF, FM}) = , P (C) = P ({MM, MF}) = ,
4 4 2
e quindi, in base alla Definizione 2.3.2, vale
P (A) 1 P (A) 1
P (A | B) = = , P (A | C) = = ,
P (B) 3 P (C) 2
in accordo con quanto avevamo congetturato sopra per via intuitiva.

Esercizio 2.3.35. Dimostrare la Proposizione 2.3.4.
Esercizio 2.3.36. Usando la formula di Bayes provare che
P (A | B)P (B)
P (B | A) = (2.3.16)
P (A | B)P (B) + P (A | Bc )(1 − P (B))
e quindi è possibile determinare univocamente P (B | A) a partire da P (B), P (A | B) e P (A | Bc ).

Esercizio 2.3.37. Sappiamo che il 4% di una certa popolazione α è malato. Effettuando un test sperimentale
per rilevare se un individuo di α è malato, si osserva che il test ha la seguente affidabilità:
i) se l’individuo è malato, il test dà esito positivo nel 99% dei casi;
ii) se l’individuo è sano, il test dà esito positivo nel 2% dei casi.
In base a questi dati, qual è la probabilità che un individuo di α, positivo al test, sia veramente malato?
Supponiamo poi di utilizzare il test su un’altra popolazione β: considerando valide le stime di affidabilità
i) e ii), e osservando che il test dà esito positivo sul 6% della popolazione β, qual è la probabilità che un
individuo di β sia malato?
Soluzione. Indichiamo con T l’evento “il test su un individuo dà esito positivo” e con M l’evento “l’individuo è malato”. Per
ipotesi, P (M) = 4%, P (T | M) = 99% e P (T | M c ) = 2%. Allora per la (2.3.16) con B = M e A = T vale
P (M | T ) ≈ 67.35%
e dunque c’è un alto numero di “falsi positivi”. Questo è dovuto al fatto che la percentuale dei malati è relativamente bassa:
notiamo che in generale
P (T | M)P (M)
P (M | T ) = −→ 0+ per P (M) → 0+
P (T | M)P (M) + P (T | M c )(1 − P (M))
mentre P (M | T ) → 1− per P (M) → 1− . Osserviamo che in base ai dati possiamo anche calcolare, tramite la (2.3.2), la
percentuale dei test positivi
P (T ) = P (T | M)P (M) + P (T | M c )(1 − P (M)) ≈ 5.88%.
Per quanto riguarda il secondo quesito, abbiamo che per ipotesi P (T | M) = 99% e P (T | M c ) = 2%. Se il dato osservato è
che P (T ) = 6% allora dalla (2.3.7) ricaviamo
P (T ) − P (T | M c )
P (M) = ≈ 4.12%
P (T | M) − P (T | M c )
Il risultato si può interpretare dicendo che, prese per valide le stime di affidabilità i) e ii) del test, si ha che su un 6% di test
positivi circa il 33% sono falsi positivi.
Esercizio 2.3.38. Provare nel dettaglio quanto affermato nell’Esempio 2.3.22.

Esercizio 2.3.39. In riferimento all’Esercizio 2.3.24, costruire una misura di probabilità Q su Ω, diversa da
P , rispetto alla quale valga ancora
1 1
Q(α1 ) = , Q(β1 ) =
3 4
ma α1 e β1 non siano indipendenti in Q.
Esercizio 2.3.40. Consideriamo un mazzo di 40 carte: verificare che, rispetto alla probabilità uniforme,
i) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre un 7” (evento B) non sono indipendenti;
ii) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre una carta di denari” (evento B) sono
indipendenti.
Esercizio 2.3.41 ((2.3.11) non implica (2.3.10)). Consideriamo il lancio di tre dadi e gli eventi Aij definiti
da “il risultato del dado i-esimo è uguale a quello del dado j-esimo”. Allora A12 , A13 , A23 sono a due a due
indipendenti ma non sono indipendenti.
Esercizio 2.3.42 ((2.3.10) non implica (2.3.11)). Consideriamo il lancio di due dadi e, posto Ω = I6 × I6 , gli
eventi
A = {(ω1 , ω2 ) | ω2 ∈ {1, 2, 5}}, B = {(ω1 , ω2 ) | ω2 ∈ {4, 5, 6}}, C = {(ω1 , ω2 ) | ω1 + ω2 = 9}.
Allora vale la (2.3.10) ma non la (2.3.11).

Esercizio 2.3.43. Supponiamo che n oggetti siano messi a caso in r scatole, con r ≥ 1. Calcoliamo la
probabilità che “esattamente k oggetti siano messi nella prima scatola” (evento Ak ).
Soluzione. Se Ch è l’evento “l’h-esimo oggetto viene messo nella prima scatola” allora p = P (Ch ) = 1r . Inoltre P (Ak ) è data
dalla (2.3.14).
2.4 Distribuzioni
In questa sezione ci occupiamo della costruzione e caratterizzazione delle misure sullo spazio Euclideo,
con particolare attenzione alle misure di probabilità su Rd , chiamate distribuzioni. Il risultato fondamentale
in questa direzione è il Teorema di Carathéodory che enunciamo nella Sezione 2.4.7 e utilizzeremo spesso
nel seguito. L’idea è di definire una distribuzione dapprima su una famiglia particolare A di sottoinsiemi
dello spazio campionario Ω (per esempio, la famiglia degli intervalli nel caso Ω = R) e poi estenderla su
un’opportuna σ -algebra che contiene A . Il problema della scelta di tale σ -algebra è legato alla cardinalità
di Ω: se Ω è finito o numerabile, dare una probabilità su Ω è equivalente ad assegnare le probabilità dei
singoli esiti (cf. Osservazione 2.1.13); di conseguenza è naturale assumere P(Ω) come σ -algebra degli
eventi. Il caso generale, come abbiamo già visto nell’Esempio 2.1.30, è decisamente più complesso; infatti
la cardinalità di P(Ω) può essere “troppo grande” perché sia possibile definire su di essa una misura di
probabilità14 .
14 Se la cardinalità di Ω è finita, diciamo |Ω| = n, allora P(Ω) = 2n e se Ω ha cardinalità numerabile allora P(Ω) ha la cardinalità
del continuo (di R). Tuttavia se Ω = R, per il Teorema di Cantor la cardinalità di P(R) è strettamente maggiore della cardinalità di R.
2.4. DISTRIBUZIONI 59
2.4.1 σ -algebra generata e completamento di uno spazio di probabilità

Consideriamo un generico insieme non vuoto Ω. Osserviamo che se (Fi )i∈I è una famiglia (non neces-
sariamente numerabile) di σ -algebre su Ω allora l’intersezione
\
Fi
i∈I
è ancora una σ -algebra. Questo giustifica la seguente
Definizione 2.4.1. Data una famiglia A di sottoinsiemi di Ω, indichiamo con σ (A ) l’intersezione di tutte
le σ -algebre che contengono A . Poiché σ (A ) è la più piccola σ -algebra che contiene A , diciamo che A è la
σ -algebra generata da A .
Esempio 2.4.2. Nel caso in cui A = {A} sia formata da un solo insieme A ⊆ Ω, scriviamo σ (A) invece di
σ ({A}). Notiamo che vale
σ (A) = {∅, Ω, A, Ac }.
L’intersezione di σ -algebre è ancora una σ -algebra, ma un risultato analogo non vale per l’unione: date
due σ -algebre F1 e F2 , si ha F1 ∪ F2 ⊆ σ (F1 ∪ F2 ) e inclusione può essere stretta.
In generale è difficile dare una rappresentazione esplicita della σ -algebra generata da una famiglia
A : chiaramente σ (A ) deve contenere i complementari e le unioni numerabili di elementi di A ma, come
vedremo nella prossima sezione, ci sono casi in cui con queste operazioni non si ottengono tutti gli elementi
di σ (A ). Per questo motivo è utile introdurre delle tecniche che permettano di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ): questo
tipo di risultati sono l’oggetto dell’Appendice A.1.
Osservazione 2.4.3 (Completamento di uno spazio di probabilità). Ricordiamo che uno spazio di pro-
babilità (Ω, F , P ) è completo se N ⊆ F ossia gli insiemi trascurabili (e quelli quasi certi) sono eventi. Si
può sempre “completare” uno spazio (Ω, F , P ) estendendo P alla σ -algebra σ (F ∪ N ) nel modo seguente.
Anzitutto si prova15 che σ (F ∪ N ) = F¯ dove
F¯ := {A ⊆ Ω | A △ B ∈ N per un certo B ∈ F }.
Qui A △ B = (A \ B) ∪ (B \ A) indica la differenza simmetrica di insiemi. Estendiamo P a F¯ , ponendo

P (A) := P (B) per ogni A ∈ F¯ dove B ∈ F è tale che A △ B ∈ N . Allora si ha:
• tale definizione è ben posta (non dipende dalla scelta di B);
• P è una misura di probabilità su (Ω, F¯ );
• P (B) = P (B) per ogni B ∈ F ;
• (Ω, F¯ , P ) è uno spazio completo.
Il completamento di uno spazio dipende dalla σ -algebra e dalla misura di probabilità fissate: al riguardo,
si veda l’Esercizio 2.4.14.
15 È chiaro che F ∪ N ⊆ F¯ ⊆ σ (F ∪ N ) e quindi è sufficiente verificare che F¯ è una σ -algebra per provare che F¯ = σ (F ∪ N ). Ciò
segue dal fatto che:
i) Ac △ Bc = A △ B;
! !
S S S
ii) An △ Bn ⊆ (An △ Bn ) .
n∈N n∈N n∈N
2.4.2 σ -algebra di Borel

Introduciamo la σ -algebra che utilizzeremo sistematicamente quando lo spazio campionario è Rd . In
realtà, poiché non comporta alcuna difficoltà aggiuntiva e risulterà comodo in seguito, consideriamo il caso
in cui lo spazio campionario sia un generico spazio metrico (M, ϱ): al di là degli spazi Euclidei, un esempio
non banale è M = C[0, 1], lo spazio delle funzioni continue sull’intervallo [0, 1], munito della distanza del
massimo
ϱmax (f , g) = max |f (t) − g(t)|, f , g ∈ C[0, 1].
t∈[0,1]
In uno spazio metrico (M, ϱ), la σ -algebra di Borel Bϱ è la σ -algebra generata dalla topologia (la famiglia
degli aperti) indotta da ϱ.
Definizione 2.4.4 (σ -algebra di Borel). La σ -algebra di Borel Bϱ è la più piccola σ -algebra che contiene gli
aperti di (M, ϱ). Gli elementi di Bϱ sono chiamati Boreliani.
Notazione 2.4.5. Nel seguito indicheremo con Bd la σ -algebra di Borel nello spazio Euclideo Rd . È noto
che Bd è strettamente contenuta nella σ -algebra L dei misurabili secondo Lebesgue16 . Nel caso d = 1,
scriviamo semplicemente B invece di B1 .
Osservazione 2.4.6. [!] Per definizione, Bϱ contiene tutti i sottoinsiemi di M che si ottengono a partire
dagli aperti mediante le operazioni di passaggio al complementare e unione numerabile: per esempio, i
singoletti sono Boreliani17 , ossia {x} ∈ Bϱ per ogni x ∈ M.
Tuttavia, con le sole operazioni di passaggio al complementare e unione numerabile non si ottengono tutti gli
elementi di Bϱ . Addirittura in [18] si mostra che anche con una successione numerabile di operazioni di
passaggio al complementare e unione numerabile non si ottiene Bϱ . Più precisamente, data una famiglia
H di sottoinsiemi di uno spazio Ω, indichiamo con H ∗ la famiglia che contiene gli elementi di H , i
complementari degli elementi di H e le unioni numerabili di elementi di H . Inoltre definiamo H0 = H
e, per ricorrenza, la successione crescente di famiglie
∗
Hn = Hn−1 , n ∈ N.
Per induzione si vede che Hn ⊆ σ (H ) per ogni n ∈ N; tuttavia (cfr. [18] p. 30) nel caso in cui Ω = R e H è
come nell’Esercizio 2.4.7-ii), si ha che
[∞
Hn
n=0
è strettamente incluso in B = σ (H ).
Esercizio 2.4.7. Sia d = 1. Provare che B = σ (H ) dove H è una qualsiasi delle seguenti famiglie di
sotto-insiemi di R:
i) H = { ]a, b] | a, b ∈ R, a < b};
ii) H = { ]a, b] | a, b ∈ Q, a < b} (si noti che H è numerabile e pertanto si dice che la σ -algebra B è
numerabilmente generata);
iii) H = { ] − ∞, a] | a ∈ R}.
Un risultato analogo vale in dimensione maggiore di uno, considerando i pluri-intervalli.

16 (Rd , L , Leb ) è il completamento (cfr. Osservazione 2.4.3) rispetto alla la misura di Lebesgue Leb di Rd , B , Leb .
d d d d
17 Infatti
\
{x} = D(x, 1/n)
n≥1
dove i dischi D(x, 1/n) := {y ∈ M | ϱ(x, y) < 1/n} ∈ Bϱ essendo aperti per definizione.
2.4.3 Distribuzioni
Sia Bϱ la σ -algebra di Borel su uno spazio metrico (M, ϱ). Chiaramente, il caso Euclideo M = Rd è di
particolare interesse e dovrà sempre essere tenuto come punto di riferimento.
Definizione 2.4.8 (Distribuzione). Una distribuzione è una misura di probabilità su (M, Bϱ ).
Per fissare le idee, è bene dare la seguente interpretazione “fisica” del concetto di distribuzione µ. Pen-
siamo allo spazio campionario Rd come all’insieme delle possibili posizioni nello spazio di una particella
che non è osservabile con precisione: allora H ∈ Bd si interpreta come l’evento secondo cui “la particella è
nel Boreliano H” e µ(H) è la probabilità che la particella sia in H.
Attenzione! Il concetto di distribuzione sarà compreso pienamente solo quando avremo introdotto le va-
riabili aleatorie: ora non abbiamo ancora le nozioni sufficienti per apprezzare fino in fondo le distribuzioni.
Pertanto ci limitiamo ad accennare alcuni esempi che riprenderemo con più calma in seguito.
Cominciamo col provare alcune proprietà generali delle distribuzioni.
Proposizione 2.4.9 (Regolarità interna ed esterna). Sia µ una distribuzione su (M, Bϱ ). Per ogni H ∈ Bϱ
si ha
µ(H) = sup{µ(C) | C ⊆ H, C chiuso}

= inf{µ(A) | A ⊇ H, A aperto}.
La dimostrazione della Proposizione 2.4.9 è rimandata alla Sezione 2.5.2. Una conseguenza immediata
è il seguente
Corollario 2.4.10. Due distribuzioni µ1 e µ2 su (M, Bϱ ) sono uguali se e solo se µ1 (H) = µ2 (H) per ogni
aperto H (oppure per ogni chiuso H).
Osservazione 2.4.11. Se µ è una distribuzione su (M, Bϱ ) allora
A := {x ∈ M | µ({x}) > 0}
è finito o al più numerabile. Infatti, poniamo
An = {x ∈ M | µ({x}) > 1/n}, n ∈ N.
Allora, per ogni x1 , . . . , xk ∈ An si ha

k
1 = µ(M) ≥ µ({x1 , . . . , xk }) ≥
n
S
e di conseguenza An ha al più n elementi. Allora la tesi segue dal fatto che A = An dove l’unione è finita
n≥1
o numerabile.
Il caso “estremo” in cui µ concentra tutta la misura in un solo punto è illustrato nell’esempio seguente.
Esempio 2.4.12. Fissato x0 ∈ Rd , la distribuzione delta di Dirac δx0 centrata in x0 , è definita da

1 se x0 ∈ H,

H ∈ Bd .

δx0 (H) = 
0 se x < H,

0
Si noti in particolare che δx0 ({x0 }) = 1 e si pensi all’interpretazione “fisica” di questo fatto.
Prima di considerare altri esempi notevoli di distribuzioni, osserviamo che combinando opportunamen-
te delle distribuzioni si ottiene ancora una distribuzione.
Proposizione 2.4.13. Sia (µn )n∈N una successione di distribuzioni su (M, Bϱ ) e (pn )n∈N una successione di
numeri reali tali che
X∞
pn = 1 e pn ≥ 0, n ∈ N. (2.4.1)
n=1
Allora µ definita da
∞
X
µ(H) := pn µn (H), H ∈ Bϱ ,
n=1
è una distribuzione.
Dimostrazione. È facile verificare che µ(∅) = 0 e µ(M) = 1. Rimane da provare la σ -additività: si ha
  ∞  
 ]  X  ] 
µ  Hk  = pn µn  Hk  =
k∈N n=1 k∈N
(per la σ -additività delle µn )

∞
X ∞
X
= pn µn (Hk ) =
n=1 k=1
(riordinando i termini poiché si tratta di una serie a termini non-negativi)

X ∞
∞ X ∞
X
= pn µn (Hk ) = µ (Hk ) .
k=1 n=1 k=1
Esercizio 2.4.14. Ricordiamo il concetto di completamento di uno spazio, definito nell’Osservazione 2.4.3.
Su R consideriamo la distribuzione delta di Dirac δx centrata in x ∈ R, la σ -algebra banale {∅, R} e la
σ -algebra di Borel B. Provare che lo spazio (R, {∅, R}, δx ) è completo mentre lo spazio (R, B, δx ) non è
completo. Il completamento di (R, B, δx ) è lo spazio (R, P(R), δx ).
2.4.4 Distribuzioni discrete

D’ora in poi ci concentriamo sul caso M = Rd .
Definizione 2.4.15. Una distribuzione discreta è una distribuzione della forma
∞
X
µ(H) := pn δxn (H), H ∈ Bd , (2.4.2)
n=1
dove (xn ) è una successione di punti distinti di Rd e (pn ) soddisfa le proprietà in (2.4.1).
Osservazione 2.4.16. Ad una distribuzione discreta della forma (2.4.2) è naturale associare la funzione
µ̄ : Rd −→ [0, 1],
definita da
µ̄(x) = µ({x}), x ∈ Rd ,
o più esplicitamente 
 pn

 se x = xn ,
µ̄(x) = 
0
 altrimenti.
Poiché X
µ(H) = µ̄(x), H ∈ Bd , (2.4.3)
x∈H∩{xn |n∈N}
la distribuzione µ è univocamente associata alla funzione µ̄ che viene a volte chiamata funzione di distribu-
zione di µ. Come vedremo nei prossimi esempi, in generale è molto più semplice assegnare la funzione di
distribuzione µ̄ che non la distribuzione stessa µ: infatti µ è una misura (ossia una funzione d’insieme) a
differenza di µ̄ che è una funzione su Rd .
Consideriamo alcuni esempi notevoli di distribuzioni discrete.
Esempio 2.4.17.
i) (Bernoulli) Sia p ∈ [0, 1]. La distribuzione di Bernoulli di parametro p si indica con Bep ed è definita
come combinazione lineare di due delta di Dirac:
Bep = pδ1 + (1 − p)δ0 .
Esplicitamente si ha



 0 se 0, 1 < H,

1 se 0, 1 ∈ H,

H ∈ B,

Bep (H) = 
se 1 ∈ H, 0 < H,



 p

1 − p se 0 ∈ H, 1 < H.
e la funzione di distribuzione è semplicemente

p

 se x = 1,
µ̄(x) = 
1 − p
 se x = 0.
ii) (Uniforme discreta) Sia H = {x1 , . . . , xn } un sottoinsieme finito di Rd . La distribuzione uniforme discreta
su H si indica con UnifH ed è definita da
n
1X
UnifH = δxk ,
n
k=1
ossia 
1


n se x ∈ H,
UnifH ({x}) = 
0
 altrimenti.
iii) (Binomiale) Siano n ∈ N e p ∈ [0, 1]. La distribuzione binomiale di parametri n e p è definita su R da

n !
X n k
Binn,p = p (1 − p)n−k δk ,
k
k=0
ossia la funzione di distribuzione è


n
 k pk (1 − p)n−k per k = 0, 1, . . . , n,


µ̄(k) = Binn,p ({k}) = 
0
 altrimenti.
Per un’interpretazione della distribuzione binomiale si ricordi l’Esempio 2.2.17.

iv) (Geometrica) Fissato p ∈ ]0, 1], la distribuzione geometrica di parametro p è definita da

∞
X
Geomp = p(1 − p)k−1 δk ,
k=1
ossia la funzione di distribuzione è


p(1 − p)k−1 per k ∈ N,


µ̄(k) = Geomp ({k}) = 
0
 altrimenti.
Notiamo che
∞
X ∞
X
p(1 − p)k−1 = p (1 − p)h =
k=1 h=0
(poiché per ipotesi 0 < p ≤ 1)

p
= = 1.
1 − (1 − p)
Per un’interpretazione della distribuzione geometrica si ricordi l’Esempio 2.3.31.
iv) (Poisson) La distribuzione di Poisson di parametro λ > 0, centrata in x ∈ R, è definita da
∞
X λk
Poissonx,λ := e−λ δx+k . (2.4.4)
k!
k=0
Nel caso x = 0, si parla semplicemente di distribuzione di Poisson di parametro λ > 0 e la si indica

con Poissonλ : in questo caso la funzione di distribuzione è
 −λ k
 e k!λ per k ∈ N0 ,


µ̄(k) = Poissonλ ({k}) = 
0
 altrimenti.
2.4.5 Distribuzioni assolutamente continue

Consideriamo una funzione Bd -misurabile18
Z
γ : Rd −→ [0, +∞[ tale che γ(x)dx = 1. (2.4.5)
Rd
Allora µ definita da Z
µ(H) = γ(x)dx, H ∈ Bd , (2.4.6)
H
è una distribuzione. Infatti è ovvio che µ(∅) = 0 e µ(Rd ) = 1. Inoltre se (Hn )n∈N è una successione di
Boreliani disgiunti allora, per le proprietà dell’integrale di Lebesgue19 , si ha
] Z XZ X
µ Hn = U γ(x)dx = γ(x)dx = µ(Hn ),
n≥1 Hn n≥1 Hn n≥1
n≥1
che prova che µ è σ -additiva.

18 Ossia tale che γ −1 (H) ∈ B per ogni H ∈ B.
d
19 In particolare, qui usiamo il Teorema di Beppo-Levi.
Definizione 2.4.18 (Distribuzione assolutamente continua). Una funzione Bd -misurabile γ che soddi-
sfi le proprietà in (2.4.5) è detta funzione di densità (o, semplicemente, densità). Diciamo che µ è una
distribuzione assolutamente continua su Rd , e scriviamo µ ∈ AC, se esiste una densità γ per cui valga la
(2.4.6).
Nel seguito utilizzeremo anche l’abbreviazione20 PDF per le funzioni di densità. Si noti l’analogia fra le
proprietà (2.4.5) di una densità γ e le proprietà (2.4.1).
Osservazione 2.4.19. [!] La PDF di una µ ∈ AC non è univocamente determinata: lo è a meno di insiemi di
Borel che hanno misura di Lebesgue nulla; infatti il valore dell’integrale in (2.4.6) non cambia modificando
γ su un insieme di misura nulla secondo Lebesgue.
Inoltre se γ1 , γ2 sono PDF di µ ∈ AC allora γ1 = γ2 q.o. (rispetto alla misura di Lebesgue). Infatti
poniamo
An = {x | γ1 (x) − γ2 (x) ≥ 1/n} ∈ Bd , n ∈ N.
Allora Z Z Z
Leb(An )
≤ (γ1 (x) − γ2 (x)) dx = γ1 (x)dx − γ2 (x)dx = µ(An ) − µ(An ) = 0,
n An An An
da cui Leb(An ) = 0 per ogni n ∈ N. Ne segue che anche

∞
[
{x | γ1 (x) > γ2 (x)} = An
n=1
ha misura di Lebesgue nulla, ossia γ1 ≤ γ2 q.o. Analogamente si prova che γ1 ≥ γ2 q.o.
Osservazione 2.4.20. [!] Salvo diversamente specificato, quando considereremo un integrale di Lebesgue,
assumeremo sempre che la funzione integranda sia B-misurabile (e quindi, in particolare, misurabile se-
condo Lebesgue). Dunque nel seguito, a meno che non sia esplicitamente indicato, “misurabile” significa
“B-misurabile” e anche nella definizione di spazio Lp (spazio delle funzioni sommabili di ordine p) è as-
sunta implicitamente la B-misurabilità. Ciò risulta conveniente per molti motivi: per esempio, la com-
posizione di funzioni B-misurabili è ancora B-misurabile (fatto non necessariamente vero per funzioni
misurabili secondo Lebesgue).
Osservazione 2.4.21. [!] Se µ su Rd è assolutamente continua allora µ assegna probabilità nulla ai Boreliani
trascurabili secondo Lebesgue: precisamente si ha
Z
Lebd (H) = 0 =⇒ µ(H) = γ(x)dx = 0. (2.4.7)
H
In particolare, se H è finito o numerabile allora µ(H) = 0. In un certo senso le distribuzioni in AC sono

“complementari” alle distribuzioni discrete (ma attenzione all’Osservazione 2.4.23 seguente!): infatti que-
ste ultime assegnano probabilità positiva proprio ai singoli punti o a infinità numerabili di punti di Rd . La
(2.4.7) è una condizione necessaria21 affinché µ ∈ AC e fornisce un test pratico molto utile per verificare che
µ non ammette densità: se esiste H ∈ Bd tale che Lebd (H) = 0 e µ(H) > 0 allora µ < AC.
Ogni funzione di densità identifica una distribuzione: in pratica, assegnare una funzione di densità è
il modo più semplice e usato comunemente per definire una distribuzione assolutamente continua, come
mostrano i seguenti esempi notevoli.
Esempio 2.4.22.
20 PDF sta per “Probability Density Function” ed è anche il comando usato in Mathematica per le funzioni di densità.
21 In realtà, per il Teorema A.2.1.3 di Radon-Nikodym, la (2.4.7) è condizione necessaria e sufficiente per l’assoluta continuità.
i) (Uniforme) La distribuzione uniforme UnifK su K, dove K ∈ Bd ha misura di Lebesgue 0 < Lebd (K) <
∞, è la distribuzione con densità
1
γ= 1 .
Lebd (K) K
Allora Z
1 Lebd (H ∩ K)
UnifK (H) = dx = , H ∈ Bd .
H∩K Lebd (K) Lebd (K)
Cosa succede se Lebd (K) = ∞? È possibile definire una probabilità uniforme su Rd ?
ii) (Esponenziale) La distribuzione esponenziale Expλ di parametro λ > 0 è la distribuzione con densità

λe−λx se x ≥ 0,


γ(x) = 
0
 se x < 0.
Allora Z
Expλ (H) = λ e−λx dx, H ∈ B.
H∩[0,+∞[
Si noti che Expλ (R) = Expλ (R≥0 ) = 1 per ogni λ > 0.
iii) (Normale reale) La distribuzione normale reale Nµ,σ 2 di parametri µ ∈ R e σ > 0 è la distribuzione su B
con densità
1 1 x−µ 2
γ(x) = √ e− 2 ( σ ) , x ∈ R.
2πσ 2
Allora Z
1 1 x−µ 2
Nµ,σ 2 (H) = √ e− 2 (σ ) dx, H ∈ B.
2πσ 2 H
La N0,1 , corrispondente a µ = 0 e σ = 1, è detta distribuzione normale standard.
Osservazione 2.4.23. [!] Non tutte le distribuzioni sono del tipo analizzato finora (ossia discrete o assolu-
tamente continue). Per esempio in R2 si consideri il “segmento”
I = {(x, 0) | 0 ≤ x ≤ 1}
e la distribuzione
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,
dove Leb1 indica la misura di Lebesgue 1-dimensionale (o più precisamente la misura di Hausdorff22 1-
dimensionale in R2 ). Chiaramente µ < AC poiché µ(I) = 1 e I ha misura di Lebesgue nulla in R2 ; d’altra
parte µ non è una distribuzione discreta perché µ({(x, y)}) = 0 per ogni (x, y) ∈ R2 .
L’idea è che una distribuzione può concentrare la probabilità su sottoinsiemi di Rd di dimensione (nel
senso di Hausdorff23 ) minore di d: per esempio, una superficie sferica (che ha dimensione di Hausdorff
uguale a 2) in R3 . Le cose possono complicarsi ulteriormente poiché la dimensione di Hausdorff può essere
frazionaria (al riguardo si veda l’Esempio 2.4.36).
22 Si veda, per esempio, il Capitolo 2 in [70].
23 Cf. Capitolo 2.5 in [70].
2.4.6 Funzioni di ripartizione (CDF)

Il concetto di densità visto nella sezione precedente permette di identificare una distribuzione (che,
ricordiamolo, è una misura di probabilità) mediante una funzione su Rd (che, matematicamente, è più ma-
neggevole rispetto ad una misura): ovviamente ciò è possibile se la distribuzione è assolutamente continua.
Un risultato analogo vale per le distribuzioni discrete (cfr. Osservazione 2.1.13).
In questa sezione presentiamo un approccio molto più generale e introduciamo il concetto di funzione
di ripartizione che ci permetterà di identificare una generica distribuzione tramite una funzione. Per ora ci
limitiamo a considerare il caso unodimensionale: nella Sezione 2.4.9 tratteremo il caso multidimensionale.
Definizione 2.4.24. La funzione di ripartizione di una distribuzione µ su (R, B) è definita da
Fµ (x) := µ(] − ∞, x]), x ∈ R.
Utilizziamo anche l’abbreviazione24 CDF per le funzioni di ripartizione.
Esempio 2.4.25.
i) La CDF della delta di Dirac δx0 è


0 se x < x0 ,


F(x) = 
1
 se x ≥ x0 .
n
1 P
ii) La CDF della distribuzione discreta Unifn := n δk è
k=1



0 se x < 1,
k

F(x) = 
 n se k ≤ x < k + 1, per 1 ≤ k ≤ n − 1, (2.4.8)

1

se x ≥ n.
Si veda la Figura 2.1 per il caso n = 5.
Figura 2.1: Grafico della CDF di una v.a. con distibuzione Unif5
24 CDF sta per “Cumulative Distribution Function” ed è anche il comando usato in Mathematica per le funzioni di ripartizione.
iii) Come mostrato in Figura 2.2, le funzioni di densità e di ripartizione della distribuzione Unif[1,3] sono
rispettivamente 

0 x ≤ 1,
1 
 x−1

γ = 1[1,3] e F(x) =   2 1 < x ≤ 3,
2 
1

x > 3.
1.0
0.8
0.6
0.4
0.2
1 2 3 4
Figura 2.2: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Unif[1,3]
iv) Come mostrato in Figura 2.3 (nel caso λ = 2), le funzioni di densità e di ripartizione della distribu-
zione Expλ sono rispettivamente
γ(x) = λe−λx e F(x) = 1 − e−λx , x ≥ 0, (2.4.9)
e sono nulle per x < 0.
2.0
1.5
1.0
0.5
-1 1 2 3
Figura 2.3: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Exp2
Figura 2.4: A sinistra: grafico della densità normale standard. A destra: grafico della CDF normale stan-
dard. Notare la scala differente nell’asse delle ordinate.
v) La CFD di Nµ,σ 2 è
Z x t−µ 2
1 − 21
F(x) = √ e σ dt, x ∈ R.
2πσ 2 −∞
Per la normale standard si ha

! !
1 x
F(x) = erf √ + 1 , x ∈ R,
2 2
dove Z x
2 2
erf(x) = √ e−t dt, x ∈ R,
π 0
è la funzione errore. La Figura 2.4 mostra la densità e la CDF della distribuzione normale standard.
Teorema 2.4.26. [!] La CDF Fµ di una distribuzione µ gode delle seguenti proprietà:
i) Fµ è monotona (debolmente) crescente;
ii) Fµ è continua a destra, ossia vale
Fµ (x) = Fµ (x+) := lim+ Fµ (y);

y→x
iii) vale
lim Fµ (x) = 0 e lim Fµ (x) = 1;
x→−∞ x→+∞
Dimostrazione. Per la i): se x ≤ y si ha ] − ∞, x] ⊆ ] − ∞, y] e quindi, per la monotonia di µ, Fµ (x) ≤ Fµ (y).

Per la ii): consideriamo una successione decrescente (xn )n∈N che tende a x per n → ∞: si ha
\
] − ∞, x] = ] − ∞, xn ]
n∈N
e quindi per la continuità dall’alto di µ (cf. Proposizione 2.1.32-iii))

Fµ (x) = µ(] − ∞, x]) = lim µ(] − ∞, xn ]) = lim Fµ (xn ).
n→∞ n→∞
La tesi segue dall’arbitrarietà della successione (xn )n∈N . I due limiti in iii) seguono rispettivamente dalla
continuità dall’alto e dal basso di µ.
Osservazione 2.4.27. [!] Nelle ipotesi della proposizione precedente, data la monotonia di Fµ , esiste anche
il limite da sinistra
Fµ (x−) := lim− Fµ (y),
y→x
ma in generale vale solo

Fµ (x−) ≤ Fµ (x), x ∈ R.
Infatti per ogni successione crescente (xn )n∈N che tende a x per n → ∞, si ha
[
] − ∞, xn ] = ] − ∞, x[
n∈N
e dunque in questo caso, per la continuità dal basso di P (cf. Proposizione 2.1.32-ii)), si ha
Fµ (x−) = µ(] − ∞, x[) e µ({x}) = ∆Fµ (x) := Fµ (x) − Fµ (x−). (2.4.10)
Dunque µ assegna probabilità positiva nei punti in cui Fµ è discontinua e in tali punti la probabilità è uguale al
salto di Fµ . D’altra parte, è facile vedere che una funzione monotona crescente
F : R −→ R
ammette solo un’infinità al più numerabile di punti di discontinuità. Infatti, posto
1
An = {x ∈ R | |x| ≤ n, ∆F(x) ≥ }, n ∈ N,
n
si ha che la cardinalità |An | è finita poiché
|An | X
≤ ∆F(x) ≤ F(n) − F(−n) < ∞.
n
x∈An
Poiché l’insieme dei punti di discontinuità di F è uguale all’unione degli An al variare di n ∈ N, si conferma
quanto già detto nell’Osservazione 2.4.11 ossia che per ogni distribuzione µ, l’insieme dei punti tali che µ({x}) >
0 è finito o al più numerabile.
Esercizio 2.4.28. Provare che la CDF della distribuzione normale Nµ,σ 2 è strettamente monotona crescente.
2.4.7 Teorema di estensione di Carathéodory

Ricordiamo il concetto di misura (Definizione 2.1.21) su un’algebra (Definizione 2.1.19). Uno dei risul-
tati su cui si fonda tutta la teoria della probabilità è il seguente
Teorema 2.4.29 (Teorema di Carathéodory). [!!!] Sia µ una misura σ -finita su un’algebra A . Esiste ed è
unica la misura σ -finita che estende µ alla σ -algebra generata da A .
Dimostrazione. La dimostrazione è lunga e articolata; nella Sezione 2.5.3 dimostriamo una versione più
generale del Teorema 2.4.29, che sarà più facile da applicare in seguito.
Il Teorema di Carathéodory è un risultato di esistenza dell’estensione di µ da A alla σ -algebra σ (A ) e
di unicità dell’estensione. È notevole il fatto che non sia richiesta alcuna ipotesi su Ω che è un qualunque
insieme non vuoto: infatti la dimostrazione è basata su argomenti puramente insiemistici.
2.4.8 Dalle CDF alle distribuzioni

La costruzione di un modello probabilistico su R (che rappresenti un fenomeno aleatorio, sia esso la
posizione di una particella in un modello della fisica oppure il prezzo di un titolo rischioso in un modello
della finanza oppure la temperatura in un modello meteorologico) consiste nell’assegnare una particolare
distribuzione. Dal punto di vista pratico e intuitivo, il primo passo è stabilire come la distribuzione assegna
la probabilità agli intervalli che sono gli eventi più semplici a cui pensare: avevamo fatto cosı̀ nell’Esempio
2.1.30, quando avevamo definito la distribuzione uniforme. In realtà sappiamo (dal Corollario 2.4.10) che
una distribuzione reale è identificata da come agisce sugli intervalli o equivalentemente, poiché
µ(]a, b]) = Fµ (b) − Fµ (a),
dalla funzione di ripartizione. Allora sembra naturale domandarsi se, data una funzione F che soddisfi le
proprietà che una CDF deve avere, esista una distribuzione µ che abbia F come CDF.
La risposta è affermativa ed è contenuta nel seguente Teorema 2.4.33 che dimostriamo come corollario
del Teorema 2.4.29 di Carathéodory. Facciamo prima qualche richiamo preliminare.
Definizione 2.4.30 (Funzione assolutamente continua (AC)). Una funzione F è assolutamente continua25
su [a, b] (in simboli, F ∈ AC[a, b]) se si scrive nella forma
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b], (2.4.11)
a
con γ ∈ L1 ([a, b]).
Il seguente risultato, la cui dimostrazione è data in appendice (cfr. Proposizione A.2.3.3), afferma che le
funzioni assolutamente continue sono derivabili quasi ovunque.
Proposizione 2.4.31. Sia F ∈ AC[a, b] come in (2.4.11). Allora F è derivabile q.o. e vale F ′ = γ q.o.: di
conseguenza si ha Zx
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b]. (2.4.12)
a
In altri termini, le funzioni assolutamente continue costituiscono la classe di funzioni per cui vale il teorema
fondamentale del calcolo integrale ossia, in parole povere, le fuzioni che sono uguali all’integrale della propria
derivata. È bene osservare che anche se F è derivabile q.o. con F ′ ∈ L1 ([a, b]), non è detto che valga la formula
(2.4.12). Un semplice contro-esempio è dato dalla funzione F = 1[1/2,1] : si ha F ′ = 0 q.o. su [0, 1] ma
Z 1
1 = F(1) − F(0) , F ′ (x)dx = 0.
0
Vedremo nell’Esempio 2.4.36, che F può anche essere continua, derivabile q.o. con F ′ ∈ L1 ([a, b]) e questo
ancora non assicura la validità della formula (2.4.12).
Esercizio 2.4.32. Si verifichi che la funzione



 0 x ≤ 0,
√


F(x) = 
 x 0 < x < 1,

1

x ≥ 1,
è assolutamente continua su [0, 1].

25 La vera definizione di funzione assolutamente continua è data nell’Appendice A.2.4: in realtà, la Definizione 2.4.30 è una
caratterizzazione equivalente dell’assoluta continuità.
Il principale risultato di questa sezione è il seguente
Teorema 2.4.33. [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:
i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi
µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b; (2.4.13)
ii) se F verifica anche

lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞
(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;
iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è una densità di µF .
Osservazione 2.4.34. È bene sottolineare che il Teorema 2.4.33 contiene anche un risultato di unicità, per
cui ad una CDF è associata un’unica misura per cui valga la (2.4.13). Per esempio, la misura associata alla
funzione F(x) = x è la misura di Lebesgue e lo stesso vale prendendo F(x) = x + c per ogni c ∈ R.
Osservazione 2.4.35. Ci sono due casi particolarmente importanti nelle applicazioni:
1) se F è costante a tratti e indichiamo con xn i punti di discontinuità di F (che, per l’Osservazione 2.4.27,
sono una quantità finita o al più numerabile) allora, per la (2.4.10), µF è la distribuzione discreta
X
µF = ∆F(xn )δxn
n
dove ∆F(xn ) indica l’ampiezza del salto di F in xn ;
2) se F è assolutamente continua allora µF ∈ AC con densità uguale alla derivata F ′ .
Esempio 2.4.36. La funzione di Vitali

V : R −→ [0, 1]
è continua, monotona crescente, tale che V (x) = 0 per x ≤ 0, V (x) = 1 per x ≥ 1 e con derivata prima V ′ che
esiste quasi ovunque ed è uguale a zero: per una costruzione della funzione di Vitali si veda, per esempio,
[70] pag.192. Poiché V soddisfa le ipotesi del Teorema 2.4.33, esiste ed è unica la distribuzione µV tale che
µV (]a, b]) = V (b) − V (a).
Poiché V è continua, si ha µV ({x}) = 0 per ogni x ∈ [0, 1] (cf. (2.4.10)) e quindi µV non è una distribuzione
discreta. Se fosse µV ∈ AC esisterebbe una densità γ tale che
Z x
V (x) = µV ([0, x]) = γ(y)dy, x ≥ 0.
0
Per la Proposizione 2.4.31 dovrebbe essere γ = V ′ = 0 quasi ovunque e ciò è assurdo. Dunque µV non
è neppure una distribuzione assolutamente continua, benché la sua CDF V sia continua e derivabile quasi
ovunque.
Per chi vuole approfondire la questione, il fatto è che µV assegna probabilità 1 all’insieme di Cantor (per
maggiori dettagli si veda p.37 in [70]) che è un sottoinsieme dell’intervallo [0, 1], che ha misura di Lebesgue
log 2
nulla e dimensione di Hausdorff pari a log 3 .
Figura 2.5: Grafico della funzione di Vitali
Esercizio 2.4.37. Sia data la funzione




 0 per x < 0,
x

F(x) = 
 3 per 0 ≤ x < 1,

1

per x ≥ 1.
Si verifichi che F è una CDF. Se µF è la distribuzione associata, si calcoli µF ([0, 1]), µF ([0, 1[) e µF (Q). Infine
si verifichi che µF = 32 δ1 + 31 Unif[0,1] .
Esercizio 2.4.38. Per ogni n ∈ N sia




 0 per x < 0,

 n
Fn (x) = 
 x per 0 ≤ x < 1,

1

per x ≥ 1.
Si provi che Fn è una CDF assolutamente continua e si determini la densità γn della distribuzione µn
associata. Posto
F(x) := lim Fn (x)
n→∞
si verifichi che F è una CDF e si determini la distribuzione associata. Posto
γ(x) := lim γn (x),

n→∞
la funzione γ è una densità?
Esercizio 2.4.39. Data una numerazione (qn )n∈N dei razionali di [0, 1], definiamo la distribuzione

2−n se x = qn ,


µ({x}) = 
0
 altrimenti.
La CDF Fµ è continua nel punto 1? Determinare Fµ (1) e Fµ (1−).

Soluzione. Se n̄ ∈ N è tale che qn̄ = 1 allora ∆Fµ (1) = 21n̄ . Poiché Fµ (1) = 1 allora Fµ (1−) = 1 − 21n̄ .
2.4.9 Funzioni di ripartizione su Rd

Il caso multidimensionale è analogo al caso scalare con qualche piccola differenza.
Definizione 2.4.40. La funzione di ripartizione di una distribuzione µ su (Rd , Bd ) è definita da
Fµ (x) := µ(] − ∞, x1 ] × · · · ×] − ∞, xd ]), x = (x1 , . . . , xd ) ∈ Rd . (2.4.14)
Esempio 2.4.41. Riportiamo i grafici di alcune CDF bidimensionali:

i) Dirac centrata in (1, 1) in Figura 2.6;
Figura 2.6: Grafico della CDF di Dirac bidimensionale centrata in (1, 1).
ii) Uniforme sul quadrato [0, 1] × [0, 1] in Figura 2.7. La densità è la funzione indicatrice γ = 1[0,1]×[0,1] ;
iii) Normale standard bidimensionale in Figura 2.8, con densità
2
x2 − y
e− 2 2
γ(x, y) = , (x, y) ∈ R2 .
2π
Esempio 2.4.42. [!] Consideriamo la CDF bidimensionale
e−y(x+1) − 1
!
−y
F(x, y) = 1 − e + 1R≥0 ×R≥0 (x, y),
x+1
e supponiamo di sapere che F è assolutamente continua, ossia

Zx Zy
F(x, y) = γ(ξ, η)dξdη
−∞ −∞
per una certa γ ∈ mB + . Allora, come nel caso unodimensionale (cfr. Teorema 2.4.33-iii)), una densità per
F si ottiene semplicemente differenziando:
∂x ∂y F(x, y) = ye−xy 1R≥0 ×R≥0 (x, y).

Figura 2.7: Distribuzione Unif[0,1]×[0,1] : grafico della densità (a sinistra) e della CDF (a destra).
Figura 2.8: Distribuzione normale standard bidimensionale: grafico della densità (a sinistra) e della CDF
(a destra).
Ora enunciamo un teorema che è la naturale estensione dei risultati visti in dimensione uno. Osservia-
mo prima che, fissati k ∈ {1, . . . , d}, a ≤ b reali e x ∈ Rd , vale
µ(] − ∞, x1 ] × · · · ×] − ∞, xk−1 ]×]a, b]×] − ∞, xk+1 ] × · · · ×] − ∞, xd ])
(k)
= Fµ (x1 , . . . , xk−1 , b, xk+1 , . . . , xd ) − Fµ (x1 , . . . , xk−1 , a, xk+1 , . . . , xd ) =: ∆]a,b] Fµ (x),
e più in generale
(1) (d)
µ(]a1 , b1 ] × · · · ×]ad , bd ]) = ∆]a · · · ∆]a Fµ (x). (2.4.15)
1 ,b1 ] d ,bd ]
Teorema 2.4.43. La CDF Fµ di una distribuzione d-dimensionale µ gode delle seguenti proprietà:
i) Monotonia: per ogni scelta di bk > ak ≥ −∞, 1 ≤ k ≤ d, si ha
(1) (d)
∆]a · · · ∆]a Fµ (x) ≥ 0; (2.4.16)
1 ,b1 ] d ,bd ]
ii) Continuità a destra: per ogni x ∈ Rd vale

lim Fµ (y) = Fµ (x),
y→x+
dove y → x+ significa che yk → xk+ per ogni k = 1, . . . , d;

iii) se xk → −∞ per un k = 1, . . . , d allora Fµ (x) → 0 e se xk → +∞ per ogni k = 1, . . . , d allora Fµ (x) → 1.
Viceversa, se
F : Rd −→ [0, 1]
è una funzione che gode delle proprietà i), ii) e iii) allora esiste una distribuzione su Rd tale che F = Fµ ,
ossia valga la (2.4.14).
Dimostrazione. La dimostrazione è del tutto analoga al caso unodimensionale. Notiamo solo che la (2.4.16)
segue direttamente dalla (2.4.15), essendo µ a valori non-negativi.
Osservazione 2.4.44. La proprietà (2.4.16) di monotonia non è del tutto banale. Nel caso d = 2, si scrive
esplicitamente nel modo seguente
(1) (2)
0 ≤ ∆]a ∆]a F(x) = F(b1 , b2 ) − F(b1 , a2 ) − (F(a1 , b2 ) − F(a1 , a2 ))
1 ,b1 ] 2 ,b2 ]
(2) (1)
= F(b1 , b2 ) − F(a1 , b2 ) − (F(b1 , a2 ) − F(a1 , a2 )) = ∆]a ∆]a F(x).
2 ,b2 ] 1 ,b1 ]
Per esempio, la funzione




1 se x1 , x2 ≥ 1,

2/3 se x1 ≥ 1 e 0 ≤ x2 < 1,


F(x1 , x2 ) = 
2/3 se x2 ≥ 1 e 0 ≤ x1 < 1,





0 altrimenti,
pur essendo “monotona in ogni direzione”, non verifica la i) del teorema precedente. In effetti si ha
(1) (2)
∆]1/2,1] ∆]1/2,1] F(x) = −1/3,
e quindi se esistesse la distribuzione relativa a F, essa assegnerebbe probabilità negativa al quadrato ]1/2, 1]×]1/2, 1]
e ciò è ovviamente assurdo.
Esercizio 2.4.45. Siano I := [0, 1] × {0} ⊆ R2 e µ la distribuzione uniforme su I, definita da
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,
dove Leb1 indica la misura di Lebesgue unodimensionale26 . Si determini la CDF di µ.
26 Un po’ impropriamente, dato A ∈ B, stiamo identificando Leb (A) con Leb (A × {0}).
1 1
2.5. APPENDICE 77
2.4.10 Sintesi
Come si costruisce e definisce una misura di probabilità? Il primo strumento generale di teoria della
misura è il Teorema di Carathéodory in base al quale ogni misura definita su un’algebra A si estende in
modo unico alla σ -algebra generata da A . Per esempio, in base a tale teorema, la misura definita per ogni
intervallo [a, b] come la lunghezza b − a, si estende in modo unico alla misura di Lebesgue sulla σ -algebra
di Borel.
Un ruolo particolarmente importante giocano le misure di probabilità definite su Rd , Bd , chiamate
anche distribuzioni. Fra di esse le distribuzioni discrete sono combinazioni lineari (anche numerabili) di
delta di Dirac: esempi notevoli sono le distribuzioni di Bernoulli, uniforme discreta, binomiale e di Pois-
son. Altre importanti distribuzioni sono quelle assolutamente continue, ossia quelle che si rappresentano in
termini di integrale di Lebesgue di una certa funzione, detta densità: esempi notevoli sono le distribuzioni
uniforme, esponenziale e normale (ma ne vedremo tante altre...).
Le distribuzioni discrete e quelle assolutamente continue sono definite in termini di funzioni reali: la
funzione di distribuzione nel primo caso e la densità nel secondo caso. Questo è un fatto rilevante perché è
molto più facile maneggiare una funzione di variabile reale (o, in generale, in Rd ) che non una distribuzione
(che è una misura e ha come argomento i Boreliani). D’altra parte esistono distribuzioni che non sono nè
discrete nè assolutamente continue.
Per caratterizzare una generica distribuzione in termini di una funzione reale abbiamo introdotto il
concetto di funzione di ripartizione (o CDF). Una CDF gode di alcune proprietà generali: nel caso unodi-
mensionale, una CDF è monotona crescente (e di conseguenza derivabile q.o.), continua a destra e ha limite
a +∞ e −∞ rispettivamente pari a 1 e 0. Abbiamo dimostrato che è equivalente assegnare una distribuzione o
la sua CDF.
Infine il fatto che una distribuzione µ abbia densità è equivalente al fatto che la sua CDF F sia assoluta-
mente continua, ossia al fatto che valga
Zx
µ(]a, x]) = F(x) − F(a) = F ′ (t)dt, a < x,
a
e in tal caso F′ è una densità di µ.
2.5 Appendice
2.5.1 Dimostrazione della Proposizione 2.3.30
Proposizione 2.3.30 Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Poniamo
Ω = {ω = (ω1 , . . . , ωn ) | ωi ∈ {0, 1}}
e consideriamo la partizione
n
[
Ω= Ωk , Ωk := {ω ∈ Ω | ω1 + · · · + ωn = k}. (2.5.1)
k=0
Chiaramente ogni ω appartiene ad uno e un solo Ωk e quindi Ωk ∩ Ωh = ∅ per k , h, e inoltre Ωk ↔ Cn,k

(l’elemento (ω1 , . . . , ωn ) di Ωk è univocamente individuato dalla scelta delle k fra n componenti che sono
uguali a 1) ossia !
n
|Ωk | = , k = 0, . . . , n. (2.5.2)
k
Definiamo P ponendo
P ({ω}) = pk (1 − p)n−k ω ∈ Ωk , k = 0, . . . , n.
Allora P è una probabilità poiché
n n X n !
X X X n k
P (Ω) = P (Ωk ) = P ({ω}) = p (1 − p)n−k = 1,
k
k=0 k=0 ω∈Ωk k=0
per la (2.2.10).
Proviamo che gli eventi
Ch = {ω ∈ Ω | ωh = 1}, h = 1, . . . , n,
formano una famiglia di n prove ripetute e indipendenti con probabilità p. Infatti siano r ∈ N, r ≤ n, e
h1 , . . . , hr ∈ In distinti. Si ha27
 r  n
  r 
\  X  \ 
P  Chi  =
  P Ωk ∩  Chi 
 
i=1 k=r i=1
 r 
n
X \ 
= Ωk ∩  Chi  pk (1 − p)n−k =

k=r i=1

!
r
Chi è esattamente uguale a n−r
T
(osservando che, analogamente alla (2.5.2), la cardinalità di Ωk ∩ k−r )
i=1
n !
X n−r k
= p (1 − p)n−k =
k−r
k=r
(col cambio di indice j = k − r)

n−r !
X n−r j
= pr p (1 − p)n−j−r = pr .
j
j=0
Dunque abbiamo provato che, per r = 1,
P (Ch ) = p, h = 1, . . . , n,
e per 1 < r ≤ n si ha  r 
\  r
Y
r
P  Chi  = p =

 
 P Chi .
i=1 i=1
Quindi (Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Per quanto riguarda la seconda parte dell’enunciato: sia (Ck )k∈N una successione di eventi indipendenti
su uno spazio discreto (Ω, P ), tali che P (Ck ) = p ∈ [0, 1] per ogni k ∈ N. Non è restrittivo supporre p ≥ 12
perché altrimenti basta considerare la successione degli eventi complementari. In questo caso dimostriamo
che necessariamente p = 1. Infatti supponiamo per assurdo che sia p < 1. Fissiamo un generico esito ω ∈ Ω:
per c c
ogni
n ∈ N poniamo C̄n = Cn oppure C̄n = Cn a seconda che sia ω ∈ Cn oppure ω ∈ Cn . Notiamo che
1
P C̄n ≤ P (Cn ) poiché abbiamo assunto P (Cn ) = p ≥ 2 . Per ogni n ∈ N gli eventi C̄1 , . . . , C̄n sono indipendenti
e
\n
{ω} ⊆ C̄k
k=1
r
!
27 Si noti che l’indice nella sommatoria parte da r poiché Ω ∩ T
Chi = ∅ se k < r (perché?).
k
i=1
2.5. APPENDICE 79
da cui
n
Y
P ({ω}) ≤ P C̄k ≤ pn .
k=1
Passando al limite in n otteniamo P ({ω}) = 0 e questo è assurdo per l’arbitrarietà di ω ∈ Ω.

Proposizione 2.4.9 Sia µ una distribuzione su uno spazio metrico (M, Bϱ ). Per ogni H ∈ Bϱ si ha
µ(H) = sup{µ(C) | C ⊆ H, C chiuso} (2.5.3)

= inf{µ(A) | A ⊇ H, A aperto}. (2.5.4)
A parole, si dice che ogni Boreliano è regolare internamente (per la (2.5.3)) ed esternamente (per la (2.5.4))
per µ.
Dimostrazione. Indichiamo con R l’insieme dei Boreliani regolari (internamente ed esternamente) per µ. È
chiaro che H ∈ R se e solo se per ogni ε > 0 esistono un chiuso C e un aperto A tali che
C ⊆ H ⊆ A, µ(A \ C) < ε.
Proviamo anzitutto che R è una σ -algebra:
• poiché l’insieme vuoto è aperto e chiuso, si ha ∅ ∈ R;
• se H ∈ R allora per ogni ε > 0 esistono un chiuso Cε e un aperto Aε tali che Cε ⊆ H ⊆ Aε e µ(Aε \Cε ) < ε.
Passando al complementare, si ha Acε ⊆ H c ⊆ Cεc , con Acε chiuso, Cεc aperto e Cεc \ Acε = Aε \ Cε . Questo
prova che H c ∈ R;
• sia (Hn )n∈N una successione in R e H =

S
Hn . Allora, per ogni ε > 0 esistono due successioni,
n≥1
ε
Sn,ε )n∈N di chiusi e (An,ε )n∈N di aperti, tali che Cn,ε ⊆ Hn ⊆ An,ε e µ(An,ε \ Cn,ε ) < 3n . Posto Aε =
(C
An,ε , si ha che Aε è aperto e H ⊆ Aε . D’altra parte, per la continuità dal basso di µ (cfr. Proposizione
n≥1
ε
2.1.32), esiste k ∈ N tale che µ(C \ Cε ) ≤ 2 dove
∞
[ n
[
C := Cn,ε , Cε := An,ε .
n=1 n=1
Chiaramente, Cε è chiuso e Cε ⊆ H. Infine si ha

∞ ∞
X ε X ε ε
µ(Aε \ Cε ) ≤ µ(Aε \ C) + µ(C \ Cε ) ≤ µ(An,ε \ Cn,ε ) + ≤ + = ε.
2 3n 2
n=1 n=1
Questo prova che R è una σ -algebra. Proviamo ora che R contiene tutti i chiusi: dato C chiuso poniamo
ϱ(x, C) = inf ϱ(x, y) e
y∈C
An = {x ∈ M | ϱ(x, C) < 1/n}, n ∈ N.
T
Allora An è aperto e An ↘ C: infatti, se x ∈ n≥1 An allora ϱ(x, C) = 0 e quindi x ∈ C, essendo C chiuso.
Allora, per la continuità dall’alto di µ si ha limn→∞ µ(An ) = µ(C).
La tesi segue dal fatto che Bϱ è la più piccola σ -algebra che contiene gli aperti (e i chiusi) e quindi
Bϱ ⊆ R.
2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory

Diamo una versione leggermente più generale (e decisamente più comoda da applicare) del Teorema
2.4.29: in questa sezione seguiamo la trattazione di [59]. Introduciamo la definizione di pre-misura su una
generica famiglia di sottoinsiemi di Ω.
Definizione 2.5.1 (Pre-misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una pre-misura
su A è una funzione
µ : A −→ [0, +∞]
tale che
i) µ(∅) = 0;
ii) µ è additiva su A nel senso che per ogni A, B ∈ A , disgiunti e tali che A ∪ B ∈ A , vale
µ (A ⊎ B) = µ(A) + µ(B);
iii) µ è σ -sub-additiva su A nel senso che per ogni A ∈ A e (An )n∈N successione di elementi in A , vale
[ X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n∈N
Si dice che µ è σ -finita se esiste una successione (An )n∈N in A tale che Ω =
S
An e µ(An ) < ∞ per ogni
n∈N
n ∈ N.
Definizione 2.5.2 (Semianello). Una famiglia A di sottoinsiemi di Ω è un semianello se:
i) ∅ ∈ A
ii) A è ∩-chiusa;
iii) per ogni A, B ∈ A la differenza B \ A è unione finita e disgiunta di insiemi di A .
Esempio 2.5.3. [!] La famiglia A degli intervalli limitati del tipo
]a, b], a, b ∈ R, a ≤ b,
è un semianello (ma non è un’algebra). La famiglia formata dalle unioni finite di intervalli (anche illimitati)
del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
è un’algebra (ma non è una σ -algebra). Tali famiglie generano la σ -algebra di Borel di R.
Ricordiamo che una misura µ è una funzione σ -additiva e tale che µ(∅) = 0 (cfr. Definizione 2.1.21).
Osserviamo che, per la Proposizione 2.1.32, µ è una pre-misura su un’algebra A se e solo se µ è una misura
su A . Inoltre il seguente lemma fornisce un risultato naturale la cui dimostrazione, che rinviamo alla fine
della sezione, non è del tutto ovvia.
Lemma 2.5.4. Se µ è una misura su un semianello A allora µ è una pre-misura su A .
Teorema 2.5.5 (Teorema di Carathéodory - versione generale). Sia µ una pre-misura σ -finita su un semia-
nello A . Esiste ed è unica la misura σ -finita che estende µ a σ (A ).
Osservazione 2.5.6. Il Teorema 2.4.29 è un corollario del Teorema 2.5.5: infatti ogni algebra è un semia-
nello e, per il Lemma 2.5.4, ogni misura su un semianello è una pre-misura.
2.5. APPENDICE 81
Dimostrazione del Teorema 2.5.5. L’unicità è un corollario del Teorema A.1.3 di Dynkin: per i dettagli, si
vedano il Corollario A.1.5 e l’Osservazione A.1.6. Qui proviamo l’esistenza dell’estensione: in questa di-
mostrazione non utilizziamo l’ipotesi che µ sia σ -finita; d’altra parte se µ è σ -finita allora anche la sua
estensione lo è. Dividiamo la prova in alcuni passi.
Passo 1. Introduciamo la famiglia dei ricoprimenti di B ⊆ Ω che siano finiti o numerabili e costituiti da
elementi di A : [
U (B) := {R ⊆ A | R al più numerabile e B ⊆ A}.
A∈R
Definiamo
µ∗ : P(Ω) −→ [0, +∞]
ponendo X
µ∗ (B) = inf µ(A), (2.5.5)
R ∈U (B)
A∈R
con la convenzione inf ∅ = +∞.
Lemma 2.5.7. µ∗ è una misura esterna ossia verifica le seguenti proprietà:
i) µ∗ (∅) = 0;
ii) µ∗ è monotona;
iii) µ∗ è σ -sub-additiva.
Inoltre µ∗ (A) = µ(A) per ogni A ∈ A .
Dimostrazione. Poiché ∅ ∈ A la i) è ovvia. Se B ⊆ C allora U (C) ⊆ U (B) da cui segue cheSµ∗ (B) ≤ µ∗ (C) e
questo prova la ii). Infine, data una successione (Bn )n∈N di sottoinsiemi di Ω e posto B = Bn , proviamo
n∈N
che X
µ∗ (B) ≤ µ∗ (Bn ).
n∈N
È sufficiente considerare il caso µ∗ (Bn ) < ∞ per ogni n ∈ N, da cui segue in particolare che U (Bn ) , ∅. Allora,
fissato ε > 0, per ogni n ∈ N esiste Rn ∈ U (Bn ) tale che
X ε
µ(A) ≤ µ∗ (Bn ) + n .
2
A∈Rn
Ora R := Rn ∈ U (B) e quindi

S
n∈N
X X X X
µ∗ (B) ≤ µ(A) ≤ µ(A) ≤ µ∗ (Bn ) + ε
A∈R n∈N A∈Rn n∈N
da cui la tesi per l’arbitrarietà di ε.

Infine proviamo che µ∗ coincide con µ su A . Per ogni A ∈ A si ha µ∗ (A) ≤ µ(A) per definizione. Viceversa,
poiché µ è σ -sub-additiva su A , per ogni R ∈ U (A) si ha
X
µ(A) ≤ µ(B)
B∈R
da cui segue che µ(A) ≤ µ∗ (A).

Passo 2. Indichiamo con M (µ∗ ) la famiglia degli A ⊆ Ω tali che
µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), ∀E ⊆ Ω.
Gli elementi di M (µ∗ ) sono detti µ∗ -misurabili. Proveremo che M (µ∗ ) è una σ -algebra e µ∗ è una misura su
M (µ∗ ). Cominciamo col seguente risultato parziale.
Lemma 2.5.8. M (µ∗ ) è un’algebra.
Dimostrazione. Chiaramente ∅ ∈ M (µ∗ ) e M (µ∗ ) è chiusa rispetto al passaggio al complementare. Proviamo

che l’unione di A, B ∈ M (µ∗ ) appartiene a M (µ∗ ): per ogni E ⊆ Ω si ha
µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac )
= µ∗ (E ∩ A ∩ B) + µ∗ (E ∩ A ∩ Bc ) + µ∗ (E ∩ Ac ∩ B) + µ∗ (E ∩ Ac ∩ Bc )
| {z } | {z }
≥µ∗ (E∩A∪B) =µ∗ (E∩(A∪B)c )
poiché
(E ∩ A ∪ B) ⊆ (E ∩ A ∩ B) ∪ (E ∩ A ∩ Bc ) ∪ (E ∩ Ac ∩ B).
Questo prova che
µ∗ (E) ≥ µ∗ (E ∩ (A ∪ B)) + µ∗ (E ∩ (A ∪ B)c ).
D’altra parte µ∗ è sub-additiva e quindi A ∪ B ∈ M (µ∗ ).
Lemma 2.5.9. µ∗ è una misura su M (µ∗ ).
Dimostrazione. È sufficiente provare che µ∗ è σ -additiva su M (µ∗ ). Per ogni A, B ∈ M (µ∗ ) con A ∩ B = ∅, si
ha
µ∗ (A ⊎ B) = µ∗ ((A ⊎ B) ∩ A) + µ∗ ((A ⊎ B) ∩ Ac ) = µ∗ (A) + µ∗ (B).
Dunque µ∗ è additiva su M (µ∗ ). Inoltre, sappiamo già dal Punto 1 che µ∗ è σ -sub-additiva e dunque la tesi
segue dalla Proposizione 2.1.32.
Lemma 2.5.10. M (µ∗ ) è una σ -algebra.
Dimostrazione. Sappiamo già che M (µ∗ ) è ∩-chiusa. Se verifichiamo che M (µ∗ ) è una famiglia monotona
(cfr. Definizione A.1.1) la tesi seguirà dal Lemma A.1.2. A tal fine è sufficiente provare che se (An )n∈N è
una successione in M (µ∗ ) e An ↗ A allora A ∈ M (µ∗ ). Grazie alla sub-additività di µ∗ , basta provare che
µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), E ⊆ Ω. (2.5.6)
Poniamo A0 = ∅ e osserviamo che
µ∗ (E ∩ An ) = µ∗ ((E ∩ An ) ∩ An−1 ) + µ∗ ((E ∩ An ) ∩ Acn−1 )

= µ∗ (E ∩ An−1 ) + µ∗ (E ∩ (An \ An−1 )).
Di conseguenza si ha
n
X
µ∗ (E ∩ An ) = µ∗ (E ∩ (Ak \ Ak−1 )) (2.5.7)
k=1
e, per la monotonia di µ∗ ,
µ∗ (E) = µ∗ (E ∩ An ) + µ∗ (E ∩ Acn )
≥ µ∗ (E ∩ An ) + µ∗ (E ∩ Ac ) =
2.5. APPENDICE 83
(per la (2.5.7))
n
X
= µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ).
k=1
Mandando n all’infinito e usando la σ -sub-additività di µ∗ , si ha

∞
X
µ∗ (E) ≥ µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ),
k=1
che prova la (2.5.6) e conclude la prova.
Passo 3. Come ultimo passo proviamo che
σ (A ) ⊆ M (µ∗ ).
Poiché M (µ∗ ) è una σ -algebra, è sufficiente provare che A ⊆ M (µ∗ ): inoltre, essendo µ∗ sub-additiva, basta
provare che per ogni A ∈ A e E ⊆ Ω, con µ∗ (E) < ∞, vale
µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ). (2.5.8)
Fissato ε > 0, esiste un ricoprimento (An )n∈N di E formato da elementi di A e tale che
X
µ(An ) ≤ µ∗ (E) + ε. (2.5.9)
n∈N
Poiché A è un semianello, si ha An ∩ A ∈ A e quindi, per il Lemma 2.5.7,
µ∗ (An ∩ A) = µ(An ∩ A). (2.5.10)

(n) (n)
D’altra parte, ancora per il fatto che A è un semianello, per ogni n ∈ N esistono B1 , . . . , Bk ∈ A tali che
n
kn
(n)
]
An ∩ Ac = An \ A = Bj .
j=1
Allora
 
]kn 
∗ c (n) 
∗
µ (An ∩ A ) = µ  Bj  ≤
 
 
j=1
(essendo µ∗ sub-additiva)
kn
(n)
X
≤ µ∗ (Bj ) =
j=1
(poiché µ∗ = µ su A per il Lemma 2.5.7)
kn
(n)
X
= µ(Bj ) =
j=1
(essendo µ additiva)
= µ(An ∩ Ac ). (2.5.11)
Ora proviamo la (2.5.8): per la σ -sub-additività di µ∗ si ha

X
µ∗ (E ∩ A) + µ∗ (E ∩ Ac ) ≤ (µ∗ (An ∩ A) + µ∗ (An ∩ Ac )) ≤
n∈N
(per la (2.5.10) e la (2.5.11))

X X
≤ (µ(An ∩ A) + µ(An ∩ Ac )) = µ(An ) ≤
n∈N n∈N
(per la (2.5.9))
≤ µ∗ (E) + ε.
La tesi segue dall’arbitrarietà di ε. Questo conclude la prova del Teorema 2.5.5.
Proviamo ora che la σ -algebra M (µ∗ ), costruita nel Passo 2 della dimostrazione del Teorema di Ca-
rathéodory, contiene gli insiemi trascurabili. Notiamo che in generale M (µ∗ ) è strettamente più grande di
σ (A ): è questo il caso della misura di Lebesgue se A è la famiglia degli intervalli limitati del tipo
]a, b], a, b ∈ R, a ≤ b.
In questo caso, σ (A ) è la σ -algebra di Borel e M (µ∗ ) è la σ -algebra dei misurabili secondo Lebesgue.
D’altra parte, vediamo anche che gli elementi di M (µ∗ ) differiscono da quelli di σ (A ) solo per insiemi
µ∗ -trascurabili.
Corollario 2.5.11. [!] Sotto le ipotesi del Teorema di Carathéodory, nello spazio con misura (Ω, M (µ∗ ), µ∗ )
si ha:
i) se µ∗ (M) = 0 allora M ∈ M (µ∗ ) e quindi (Ω, M (µ∗ ), µ∗ ) è uno spazio con misura completo;
ii) per ogni M ∈ M (µ∗ ), tale che µ∗ (M) < ∞, esiste A ∈ σ (A ) tale che M ⊆ A e µ∗ (A \ M) = 0.
Dimostrazione. Per la sub-additività e la monotonia di µ∗ , se µ∗ (M) = 0 e E ⊆ Ω si ha
µ∗ (E) ≤ µ∗ (E ∩ M) + µ∗ (E ∩ M c ) = µ∗ (E ∩ M c ) ≤ µ∗ (E),
e questo prova la i).

È chiaro che, per definizione di µ∗ , per ogni n ∈ N esiste An ∈ σ (A ) tale che M ⊆ An e
1
µ∗ (An ) ≤ µ∗ (M) + . (2.5.12)
n
An ∈ σ (A ), si ha M ⊆ A e, passando al limite in (2.5.12) e grazie alla continuità dall’alto di µ∗
T
Posto A =
n∈N
su M (µ∗ ), abbiamo µ∗ (A) = µ∗ (M). Allora, poiché M ∈ M (µ∗ ), si ha
µ∗ (A) = µ∗ (A ∩ M) + µ∗ (A ∩ M c ) = µ∗ (M) + µ∗ (A \ M)
da cui µ∗ (A \ M) = 0.
Concludiamo la sezione con la

2.5. APPENDICE 85
Dimostrazione del Lemma 2.5.4. Se µ è una misura sul semianello A allora le proprietà i) e ii) di pre-misura
sono ovvie. Proviamo che µ è monotona: se A, B ∈ A con A ⊆ B allora, per la proprietà iii) di semianello,
esistono C1 , . . . , Cn ∈ A tali che
]n
B\A = Ck .
k=1
Quindi si ha
µ(B) = µ(A ⊎ (B \ A)) = µ(A ⊎ C1 ⊎ · · · ⊎ Cn )
n
X
= µ(A) + µ(Ck ) ≥ µ(A),
k=1
da cui la monotonia di µ.
La dimostrazione della proprietà iii), ossia la σ -sub-additività di µ, è una versione un po’ più complicata
della dimostrazione della Proposizione 2.1.22-ii): tutta la complicazione è dovuta al fatto che µ è definita
su un semianello (invece che su un’algebra come nella Proposizione 2.1.22) e questo limita le operazioni
insiemistiche che possiamo utilizzare. Siano A ∈ A e (An )n∈N successione in A tali che
[
A⊆ An .
n∈N
Poniamo A
e1 = A1 e
n−1
[ n−1
\
en = An \
A Ak = (An \ (An ∩ Ak )) , n ≥ 2. (2.5.13)
k=1 k=1
(n) (n)
Allora, per le proprietà ii) e iii) di semianello, esistono Jn ∈ N e C1 , . . . , CJn ∈ A tali che
Jn
(n)
]
en =
A Cj .
j=1
Ora, A
en ⊆ An e quindi, per monotonia e additività, si ha
Jn
(n)
X
µ(An ) ≥ µ(A
en ) = µ(Cj ). (2.5.14)
j=1
Inoltre, per la (2.5.13),

Jn
(n)
[ ] ]]
A⊆ An = en =
A Cj
n∈N n∈N n∈N j=1
e quindi
 
Jn
 ] ] 
(n) 
µ(A) = µ  A ∩ Cj  =
 
 
n∈N j=1
(n)
(poiché A ∩ Cj ∈ A e, per ipotesi, µ è una misura e quindi, in particolare, σ -additiva)
Jn
(n)
XX
= µ A ∩ Cj ≤
n∈N j=1
(per monotonia)
Jn
(n)
XX
≤ µ Cj =
n∈N j=1
(per la (2.5.14))
X
≤ µ(An )
n∈N
e questo conclude la prova.
2.5.4 Dimostrazione del Teorema 2.4.33

Teorema 2.4.33 [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:
i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi
µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b;
ii) se F verifica anche

lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞
(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;
iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è densità di µF .
Dimostrazione. [Parte i)] Consideriamo il semianello A dell’Esempio 2.5.3, formato dagli intervalli limitati
del tipo
]a, b], a, b ∈ R, a ≤ b,
e su A definiamo µF ponendo
µF (]a, b]) = F(b) − F(a).
La tesi segue dal Teorema 2.5.5 di Carathéodory una volta provato che µF è una pre-misura σ -finita (cfr.
Definizione 2.5.1). Per definizione, µF (∅) = 0 e chiaramente µF è σ -finita. Inoltre µF è additiva poiché, se
]a, b], ]c, d] sono intervalli disgiunti tali che la loro unione è un intervallo allora necessariamente28 b = c,
cosicché
µF (]a, b]⊎]b, d]) = µF (]a, d]) = F(d) − F(a) = (F(b) − F(a)) + (F(d) − F(b)) = µF (]a, b]) + µF (]b, d]) .
Infine proviamo che µF è σS -sub-additiva. Basta considerare ]a, b] ∈ A e una successione (An )n∈N in A ,
del tipo An = ]an , bn ], tale che An = ]a, b] e provare che
n∈N
∞
X
µF (A) ≤ µF (An ).
n=1
Fissiamo ε > 0: per la continuità a destra di F, esistono δ > 0 e una successione di numeri positivi (δn )n∈N
tali che
ε
F(a + δ) ≤ F(a) + ε, F(bn + δn ) ≤ F(bn ) + n . (2.5.15)
2
28 Non è restrittivo assumere a ≤ d.
2.5. APPENDICE 87
La famiglia (]an , bn + δn [)n∈N è un ricoprimento29 aperto del compatto [a + δ, b] e quindi ammette un sotto-
ricoprimento finito: per fissare le idee, indichiamo con (nk )k=1,...,N gli indici di tale sotto-ricoprimento.
Allora, per la prima disuguaglianza in (2.5.15), si ha
F(b) − F(a) ≤ ε + F(b) − F(a + δ)
≤ ε + µF (]a + δ, b]) ≤
(poiché µF è finitamente additiva e quindi anche finitamente sub-additiva)
N
X
≤ε+ µF ]ank , bnk + δnk ]
k=1
∞
X
≤ε+ (F(bn + δn ) − F(an )) ≤
n=1
(per la seconda disuguaglianza in (2.5.15))

∞ ∞
X ε X
≤ε+ + (F(bn ) − F(an ))
2n
n=1 n=1
X∞
= 2ε + (F(bn ) − F(an )) ,
n=1
e la tesi segue dall’arbitrarietà di ε > 0.

[Parte ii)] Poiché
µF (R) = lim F(x) − lim F(x) = 1,
x→+∞ x→−∞
dove la prima uguaglianza è per costruzione e la seconda per ipotesi, allora µF è una misura di probabilità
su R, ossia una distribuzione.
[Parte iii)] Se F è assolutamente continua, per la Proposizione 2.4.31, per ogni a < b si ha
Zb
µF (]a, b]) = F(b) − F(a) = F ′ (x)dx.
a
Notiamo che F ′ ≥ 0 q.o. perché limite del rapporto incrementale di una funzione monotona crescente:
passando al limite per a → −∞ e b → +∞, per il Teorema di Beppo-Levi, si ha
Z
1 = µF (R) = F ′ (x)dx
R
e quindi F′ è una densità. Consideriamo la distribuzione definita da

Z
µ(H) := F ′ (x)dx, H ∈ B.
H
Allora µF coincide con µ sul semianello A degli intervalli limitati del tipo ]a, b]. Poiché A genera B, per il
risultato di unicità del Teorema di Carathéodory, si ha µF = µ su B e quindi µF ∈ AC con densità F ′ .
Viceversa, se µF ∈ AC con densità γ allora
Zx
F(x) − F(a) = γ(t)dt, a < x,
a
e quindi F è assolutamente continua e, per la Proposizione 2.4.31, F ′ = γ q.o.

29 Poiché, per ogni n ∈ N, ]a , b + δ [ contiene ]a , b ].
n n n n n
Capitolo 3
Variabili aleatorie
The theory of probability as a

mathematical discipline can and
should be developed from axioms in
exactly the same way as geometry
and algebra.
Andrej N. Kolmogorov
Le variabili aleatorie descrivono quantità che dipendono da un fenomeno o esperimento aleatorio: per esem-
pio, se l’esperimento è il lancio di due dadi, la quantità (variabile aleatoria) che interessa studiare potrebbe
essere il risultato della somma dei due lanci. Il fenomeno aleatorio è modellizzato con uno spazio di proba-
bilità (Ω, F , P ) (nell’esempio, lo spazio discreto Ω = I6 × I6 con la probabilità uniforme) e la quantità che
interessa è descritta dalla variabile aleatoria X che ad ogni esito ω ∈ Ω (ossia ad ogni possibile esito del
fenomeno aleatorio) associa il valore X(ω): nell’esempio, ω = (ω1 , ω2 ) ∈ I6 × I6 e X(ω) = ω1 + ω2 .
3.1 Variabili aleatorie

Consideriamo uno spazio di probabilità (Ω, F , P ) e fissiamo d ∈ N. Dati H ⊆ Rd e una funzione X :
Ω −→ Rd , indichiamo con
(X ∈ H) := {ω ∈ Ω | X(ω) ∈ H} = X −1 (H)
la contro-immagine di H mediante X. Intuitivamente (X ∈ H) rappresenta l’insieme degli esiti ω (ossia, gli
stati del fenomeno aleatorio) tali che X(ω) ∈ H. Riprendendo l’esempio del lancio dei dadi, se H = {7} allora
(X ∈ H) rappresenta l’evento “il risultato della somma del lancio di due dadi è 7” ed è costituito da tutte le
coppie (ω1 , ω2 ) tali che ω1 + ω2 = 7. Nel caso d = 1, useremo anche le seguenti notazioni:
(X > c) := {ω ∈ Ω | X(ω) > c}, (X = c) := {ω ∈ Ω | X(ω) = c}, c ∈ R.
Inoltre, se X, Y sono due funzioni da (Ω, F , P ) a valori in Rd , scriviamo
(X = Y ) := {ω ∈ Ω | X(ω) = Y (ω)}.
Si noti che non è detto che (X ∈ H) sia un evento, ossia non è detto che (X ∈ H) ∈ F (a parte il caso
banale degli spazi di probabilità discreti, in cui assumiamo che F = P(Ω) e quindi tutti i sottoinsiemi di
Ω sono eventi). In particolare, senza ipotesi ulteriori non ha senso scrivere P (X ∈ H). D’altra parte nelle
applicazioni si è interessati a calcolare la probabilità di (X ∈ H): ciò giustifica la seguente definizione di
variabile aleatoria.
89
90 CAPITOLO 3. VARIABILI ALEATORIE
Definizione 3.1.1. Una variabile aleatoria (abbreviato in v.a.) su (Ω, F , P ) a valori in Rd è una funzione
X : Ω −→ Rd
tale che (X ∈ H) ∈ F per ogni H ∈ Bd : scriviamo X ∈ mF e diciamo anche che X è F -misurabile. Indichiamo
con mF + la classe delle funzioni F -misurabili e non-negative; inoltre bF è la classe delle funzioni F -
misurabili e limitate. Nel caso particolare in cui (Ω, F ) = (Rn , Bn ), X è semplicemente una funzione Borel-
misurabile.
Osservazione 3.1.2. In questo capitolo ci limiteremo a considerare v.a. a valori in Rd . Tuttavia è bene
conoscere anche la seguente definizione generale: dato uno spazio misurabile (E, E ), una variabile aleatoria
su (Ω, F , P ) a valori in E è una funzione
X : Ω −→ E
F -misurabile nel senso che X −1 (E ) ⊆ F ossia (X ∈ H) ∈ F per ogni H ∈ E .
Come abbiamo spiegato sopra, nel caso di spazi discreti la condizione di misurabilità è automaticamente
soddisfatta e ogni funzione X : Ω −→ Rd è una v.a. In generale, la condizione (X ∈ H) ∈ F fa sı̀ che P (X ∈ H)
sia ben definito e quindi si possa parlare della probabilità che X assuma valori nel Boreliano H.
Osservazione 3.1.3. [!] Se
X : Ω −→ Rd
è una funzione qualsiasi, H ⊆ Rd e (Hi )i∈I è una famiglia qualsiasi di sottoinsiemi di Rd , allora si ha
 
c [  [
−1 c −1 −1 
X (H ) = X (H) , X  Hi  =
 X −1 (Hi ) .
i∈I i∈I
Come conseguenza, si ha che n o

σ (X) := X −1 (Bd ) = X −1 (H) | H ∈ Bd
è una σ -algebra, chiamata σ -algebra generata da X. Osserviamo che X ∈ mF se e solo se σ (X) ⊆ F .
Esempio 3.1.4. Consideriamo X : I6 −→ R definita da

1 se n è pari,


X(n) = 
0 se n è dispari.

Possiamo interpretare X come la v.a. che indica se il risultato del lancio di un dado è un numero pari o
dispari. Allora si ha
σ (X) = {∅, Ω, {2, 4, 6}, {1, 3, 5}}
ossia σ (X) contiene proprio gli eventi “significativi” per la v.a. X. Nei modelli probabilistici per le appli-
cazioni, σ (X) è chiamata la σ -algebra delle informazioni su X e viene utilizzata per rappresentare l’insieme
delle informazioni riguardanti il valore aleatorio X. Ciò si spiega, almeno parzialmente, col fatto che σ (X)
contiene gli eventi del tipo (X ∈ H) con H ∈ B: questi sono gli eventi “rilevanti” ai fini di studiare la
quantità aleatoria X, nel senso che conoscere la probabilità di questi eventi equivale a conoscere con quale
probabilità X assuma i propri valori.
Lemma 3.1.5. Sia H è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd . Se X −1 (H ) ⊆ F allora
X ∈ mF .
Dimostrazione. Sia
E = {H ∈ Bd | X −1 (H) ∈ F }.
Allora E è una σ -algebra e poiché E ⊇ H per ipotesi, allora E ⊇ σ (H ) = Bd da cui la tesi.
3.1. VARIABILI ALEATORIE 91
Corollario 3.1.6. Siano Xk : Ω −→ R con k = 1, . . . , d. Le seguenti proprietà sono equivalenti:
i) X := (X1 , . . . , Xd ) ∈ mF ;
ii) Xk ∈ mF per ogni k = 1, . . . , d;
iii) (Xk ≤ x) ∈ F per ogni x ∈ R e k = 1, . . . , d.
Dimostrazione. È semplice provare che i) implica ii); il viceversa segue dal Lemma 3.1.5, dal fatto che
d
\
((X1 , . . . , Xd ) ∈ H1 × · · · × Hd ) = (Xk ∈ Hk )
k=1
e H := {H1 × · · · × Hd | Hk ∈ B} è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd .

Infine, ii) e iii) sono equivalenti ancora per il Lemma 3.1.5, poiché la famiglia degli intervalli del tipo
] − ∞, x] genera B (cfr. Esercizio 2.4.7-iii)).
Presentiamo ora i primi semplici esempi di v.a., scrivendo anche esplicitamente la σ -algebra σ (X)
generata da X e l’immagine X(Ω) = {X(ω) | ω ∈ Ω} che è l’insieme dei valori possibili di X.
Esempio 3.1.7.
i) Dato c ∈ Rd , consideriamo la funzione costante X ≡ c. Si ha
σ (X) = {∅, Ω}
e quindi X è una v.a. In questo caso X(Ω) = {c} e ovviamente c rappresenta l’unico valore che X può
assumere. Dunque si tratta di una variabile “non proprio aleatoria”.
ii) Dato un evento A ∈ F , la funzione indicatrice di A è definita da


1 ω ∈ A,


X(ω) = 1A (ω) = 
0 ω ∈ Ac .

X è una v.a. poiché

σ (X) = {∅, A, Ac , Ω},
e in questo caso X(Ω) = {0, 1}.
iii) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. S che conta il
numero di successi fra le n prove: in altri termini
n
X
S(ω) = 1Ch (ω), ω ∈ Ω.
h=1
Con riferimento allo spazio canonico della Proposizione 2.3.30 si ha anche

n
X
S(ω) = ωh , ω ∈ Ω.
h=1
e, ricordando la formula (2.5.1), abbiamo (S = k) = Ωk con k = 0, 1, . . . , n. Quindi σ (X) contiene ∅ e

tutte le unioni degli eventi Ω0 , . . . , Ωn . In questo caso S(Ω) = {0, 1, . . . , n}.
iv) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. T che indica il
“primo tempo” di successo fra le n prove: in altri termini
T (ω) = min{h | ω ∈ Ch }, ω ∈ Ω,
e poniamo per convenzione min ∅ = n + 1. In questo caso T (Ω) = {1, . . . , n, n + 1}. Con riferimento allo
spazio canonico della Proposizione 2.3.30, si ha anche
T (ω) = min{h | ωh = 1}, ω ∈ Ω.
σ (X) contiene ∅ e tutte le unioni degli eventi (T = 1), . . . , (T = n + 1). Notiamo che
(T = 1) = C1 , (T = n + 1) = C1c ∩ · · · ∩ Cnc
e, per 1 < k ≤ n,
(T = k) = C1c ∩ · · · ∩ Ck−1
c
∩ Ck .
Proposizione 3.1.8. Valgono le seguenti proprietà delle funzioni misurabili:
i) siano
X : Ω −→ Rd , f : Rd −→ Rn ,
con X v.a. e f ∈ mBd . Allora si ha
σ (f ◦ X) ⊆ σ (X), (3.1.1)
e di conseguenza f (X) ∈ mF ;
ii) se (Xn )n∈N è una successione in mF allora anche
inf Xn , sup Xn , lim inf Xn , lim sup Xn ,

n n n→∞ n→∞
appartengono a mF .
Dimostrazione. La (3.1.1) segue da f −1 (Bn ) ⊆ Bd e il fatto che f (X) ∈ mF ne è immediata conseguenza.
La ii) segue dal fatto che, per ogni a ∈ R, si ha
[ ! \
inf Xn < a = (Xn < a), sup Xn < a = (Xn < a),
n n
n n
e
lim inf Xn = sup inf Xk , lim sup Xn = inf sup Xk .
n→∞ n k≥n n→∞ n k≥n
Osservazione 3.1.9. Dalla i) della Proposizione 3.1.8 segue in particolare che se X, Y ∈ mF e λ ∈ R allora
X + Y , XY , λX ∈ mF . Infatti basta osservare che X + Y , XY e λX sono funzioni continue (e quindi B-
misurabili) della coppia (X, Y ) che è una v.a. per il Corollario 3.1.6.
Inoltre, per ogni successione (Xn )n∈N di v.a. si ha
A := {ω ∈ Ω | esiste lim Xn (ω)} = {ω ∈ Ω | lim sup Xn (ω) = lim inf Xn (ω)} ∈ F . (3.1.2)
n→∞ n→∞ n→∞
Definizione 3.1.10 (Convergenza quasi certa). Se A in (3.1.2) è quasi certo, ossia P (A) = 1, allora si dice
che (Xn )n∈N converge quasi certamente.
Ricordiamo dall’Osservazione 2.4.3 che uno spazio (Ω, F , P ) è completo se N ⊆ F , ossia gli insiemi
trascurabili (e quasi certi) sono eventi. L’ipotesi di completezza è spesso utile come mostrano i seguenti
esempi.
Osservazione 3.1.11 (Proprietà quasi certe e completezza). Consideriamo una “proprietà” P = P(ω)
la cui validità dipende da ω ∈ Ω: per fissare le idee, nell’Osservazione 3.1.9 P(ω)=“esiste lim Xn (ω)”.
n→∞
Diciamo che P è quasi certa (o vale q.c.) se l’insieme
A := {ω ∈ Ω | P(ω) è vera}
è quasi certo: ciò significa che esiste C ∈ F tale che P (C) = 1 e C ⊆ A o, equivalentemente, esiste N
trascurabile tale che P(ω) è vera per ogni ω ∈ Ω \ N .
Nel caso di uno spazio completo, P vale q.c. se e solo se P (A) = 1. Se lo spazio non è completo, non
è detto che A ∈ F e quindi P (A) non è definita. Nel caso particolare dell’Osservazione 3.1.9, il fatto che
A ∈ F è conseguenza della (3.1.2) e del fatto che le Xn sono v.a.
Definizione 3.1.12 (Uguaglianza quasi certa). Date due funzioni (non necessariamente variabili aleatorie)
X, Y : Ω −→ Rd ,
q.c.
diciamo che X = Y quasi certamente, e scriviamo X = Y q.c. (o X = Y ), se l’insieme (X = Y ) è quasi certo.
Osservazione 3.1.13. Per l’Osservazione 2.1.18, in uno spazio completo
q.c.
X=Y ⇐⇒ P (X = Y ) = 1.
Senza l’ipotesi di completezza, non è detto che (X = Y ) sia un evento (a meno che, per esempio, X e Y non
siano entrambe v.a.). Di conseguenza P (X = Y ) non è ben definita e, senza l’ipotesi di completezza, non è
corretto affermare che X = Y q.c. equivale a P (X = Y ) = 1. Notiamo anche che, in uno spazio completo,
se X = Y q.c. e Y è una v.a. allora anche X è una v.a.: ciò non è necessariamente vero se lo spazio non è
completo.
Osservazione 3.1.14. [!] Sia (Xn )n∈N una successione di v.a. che converge quasi certamente sull’evento A
definito come in (3.1.2). Poniamo
X(ω) := lim Xn (ω), ω ∈ A,
n→∞
e, per convenzione, X(ω) = 0 per ogni ω ∈ Ω \ A. Allora X è una variabile aleatoria. Notiamo che, nel caso
in cui lo spazio non sia completo, è possibile modificare X su un insieme trascurabile e non misurabile: in
tal modo si può ottenere una funzione Y che non è una v.a. (ossia Y non è una misurabile) ed è tale che
(Xn )n∈N converge a Y quasi certamente. In altri termini, in uno spazio non completo la convergenza quasi certa
non conserva la proprietà di misurabilità.
3.1.1 Variabili aleatorie e distribuzioni

Sia
X : Ω −→ Rd
una variabile aleatoria sullo spazio di probabilità (Ω, F , P ). Ad X è associata in modo naturale la distribu-
zione definita da
µX (H) := P (X ∈ H), H ∈ Bd . (3.1.3)
È facile verificare che µX in (3.1.3) è una distribuzione, ossia una misura di probabilità su Rd : infatti si ha
µX (Rd ) = P (X ∈ Rd ) = 1 e inoltre, per ogni successione disgiunta (Hn )n∈N in Bd , si ha
∞   ∞  ∞ 
]   ]  ] 
−1 −1
µX  Hn  = P X  Hn  = P  X (Hn ) =
      
n=1 n=1 n=1
(per la σ -additività di P )
∞
X X∞
= P X −1 (Hn ) = µX (Hn ).
n=1 n=1
Definizione 3.1.15 (Legge, CDF e densità di una v.a.). Data una v.a.
X : Ω −→ Rd
su (Ω, F , P ), la distribuzione µX definita da (3.1.3) è detta distribuzione (o legge) di X. Per indicare che X ha
distribuzione µX scriveremo
X ∼ µX .
La funzione definita da1
FX (x) := P (X ≤ x), x ∈ Rd ,
è detta funzione di ripartizione o CDF di X. Notiamo che FX è la CDF di µX . Infine, se µX ∈ AC con densità
γX , diremo che X è assolutamente continua e ha densità γX : in tal caso vale
Z
P (X ∈ H) = γX (x)dx, H ∈ Bd .
H
Per comprendere la definizione precedente, suggeriamo di esaminare nel dettaglio il seguente

Esempio 3.1.16. [!] Sullo spazio di probabilità (Ω, F , P ) ≡ (R, B, Expλ ), dove λ > 0 è fissato, consideriamo
le v.a. 
−1 se ω ≤ 2,

2

X(ω) = ω , Y (ω) =  Z(ω) = ω, ω ∈ R.
1
 se ω > 2,
Per determinare la legge di X, calcoliamo la relativa CDF: per x < 0 si ha P (X ≤ x) = 0, mentre per x ≥ 0 si
ha
Z √x √
2
FX (x) = P (X ≤ x) = Expλ ({ω ∈ R | ω ≤ x}) = λe−λt dt = 1 − e−λ x .
0
Ne segue che X è assolutamente continua con densità

√
dF (x) λe−λ x
γX (x) = X = √ 1R≥0 (x).
dx 2 x
La v.a. Y assume solo due valori: −1 e 1. Inoltre
Z 2
P (Y = −1) = Expλ (] − ∞, 2]) = λe−λt dt = 1 − e−2λ ,
0
Z +∞
P (Y = 1) = Expλ (]2, +∞]) = λe−λt dt = e−2λ .
2
Ne segue che Y è una v.a. discreta con legge

Y ∼ 1 − e−2λ δ−1 + e−2λ δ1 .
Per esercizio, provare che Z ∼ Expλ .
Osservazione 3.1.17 (Esistenza). [!] Assegnata una distribuzione µ su Rd , esiste una v.a. X su uno spazio
di probabilità (Ω, F , P ) tale che µ = µX . Basta infatti considerare (Rd , Bd , µ) e la variabile aleatoria identità
X(ω) ≡ ω, per ogni ω ∈ Rd . D’altra parte, la scelta di (Ω, F , P ) e X non è unica: in altri termini, variabili
aleatorie differenti, anche definite su spazi di probabilità diversi, possono avere la medesima distribuzione.
Per esempio, consideriamo:
d
1 Al solito, (X ≤ x) = T (X ≤ x ).
k k
k=1
i) Lancio di un dado: Ω1 = I6 := {1, 2, 3, 4, 5, 6} con probabilità uniforme e X(ω) = ω;

ii) Lancio di due dadi: Ω2 = I6 × I6 con probabilità uniforme e Y (ω1 , ω2 ) = ω1 .
Allora X e Y hanno la stessa legge (che è la distribuzione uniforme discreta UnifI6 ) ma sono variabili aleatorie
differenti e definite su spazi di probabilità diversi.
Dunque la legge di una v.a non fornisce la conoscenza completa della v.a. stessa. Conoscere la distri-
buzione di una v.a. X significa conoscere “come è distribuita la probabilità fra i vari valori che X può
assumere” e questo, per molte applicazioni, è più che sufficiente; anzi, spesso i modelli probabilistici sono
definiti a partire dalla distribuzione (o, equivalentemente, assegnando la CFD oppure la densità, nel caso
assolutamente continuo) piuttosto che attraverso la definizione esplicita dello spazio di probabilità e della
v.a. considerata.
Definizione 3.1.18 (Uguaglianza in legge). Siano X, Y variabili aleatorie (non necessariamente sullo stesso
spazio di probabilità). Diciamo che X e Y sono uguali in legge (o distribuzione) se µX = µY . In tal caso,
scriviamo
d
X = Y.
Esercizio 3.1.19. Provare le seguenti affermazioni:
q.c. d
i) se X = Y allora X = Y ;
d
ii) esistono X, Y v.a. definite sullo stesso spazio (Ω, F , P ) tali che X = Y ma P (X = Y ) < 1;
d d
iii) se X = Y e f ∈ mB allora f ◦ X = f ◦ Y .
Soluzione.
i) Utilizziamo il fatto che P (X = Y ) = 1 e, ricordando l’Esercizio 2.1.29, per ogni z abbiamo
P (X ∈ H) = P ((X ∈ H) ∩ (X = Y )) = P ((Y ∈ H) ∩ (X = Y )) = P (Y ∈ H).
ii) In uno spazio (Ω, F , P ) siano A, B ∈ F tali che P (A) = P (B). Allora le v.a. indicatrici X = 1A e Y = 1B hanno entrambe
distribuzione di Bernoulli uguale a
P (A)δ1 + (1 − P (A)) δ0 ,
poiché assumono solo i valori 1 e 0 rispettivamente con probabilità P (A) e 1 − P (A). Per quanto riguarda la CDF, si ha



 0 se x < 0,
c ) se 0 ≤ x < 1,

FY (x) = FX (x) = P (X ≤ x) =  P (A



1 se x ≥ 1.

iii) Per ogni H ∈ B si ha

P (f ◦ X)−1 (H) = P X −1 f −1 (H) =
d
(poiché per ipotesi X = Y )

= P Y −1 f −1 (H) = P ((f ◦ Y )−1 (H)).
Esaminiamo ora alcuni esempi di distribuzioni di v.a. con particolare riferimento al caso di v.a. assolu-
tamente continue e discrete. Abbiamo già detto che X è assolutamente continua se
Z
P (X ∈ H) = γX (x)dx, H ∈ B,
H
R
dove la densità γX è una funzione B-misurabile, non-negativa (ossia γX ∈ mB + ) e tale che γX (x)dx = 1.
Rd
Diciamo che una v.a. X è discreta se la sua legge è una distribuzione discreta (cfr. Definizione 2.4.15),
ossia è una combinazione finita o numerabile di Delta di Dirac:
X
µX = pk δxk , (3.1.4)
k≥1
dove (xk ) è una successione di punti distinti di Rd e (pk ) è una successione di numeri non-negativi con
somma pari a uno. Se µ̄X indica la funzione di distribuzione di µX , allora si ha
P (X = xk ) = µ̄X (xk ) = pk , k ∈ N.
Osservazione 3.1.20. I grafici della densità γX (nel caso di distribuzioni assolutamente continue) e della
funzione di distribuzione µ̄X (nel caso di distribuzioni discrete) danno una rappresentazione semplice e
immediata di come è distribuita la probabilità fra i valori possibili di X: illustriamo questo fatto nella
sezione seguente con alcuni esempi.
3.1.2 Esempi di variabili aleatorie discrete

Esempio 3.1.21 (Binomiale). [!] Per una v.a S con distribuzione binomiale, S ∼ Binn,p (si veda l’Esempio
2.4.17-iii)), si ha !
n k
P (S = k) = p (1 − p)n−k , k = 0, 1, . . . , n. (3.1.5)
k
S rappresenta il “numero di successi in n prove ripetute e indipendenti con probabilità p” (cfr. Esempio
3.1.7-iii)). Esempi di variabili aleatori binomiali sono:
i) con riferimento all’Esempio 2.2.17, in cui si considera l’estrazione con reinserimento da un’urna che
contiene b palline bianche e r palline rosse, la v.a. S che rappresenta il “numero di palline bianche
estratte in n estrazioni” ha distribuzione Binn, b ;
b+r
ii) con riferimento all’Esempio 2.3.43, in cui si suppone di disporre a caso n oggetti in r scatole, la v.a. S
che rappresenta il “numero di oggetti nella prima scatola” ha distribuzione Binn, 1 .
r
In Figura 3.1, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Binn,p con
n = 40 e p = 10%: tale grafico permette di visualizzare molto chiaramente i valori possibili di X, ossia X(Ω),
in ascissa e le corrispondenti probabilità in ordinata.
Esempio 3.1.22 (Overbooking). Supponiamo che la probabilità che un viaggiatore non si presenti all’im-
barco all’aeroporto sia pari al 10%, indipendentemente dagli altri viaggiatori. Quante prenotazioni per
un volo da 100 passeggeri si possono accettare volendo che la probabilità che tutti i viaggiatori presenti
all’imbarco trovino posto sia maggiore del 99%?
Soluzione. Supponiamo di accettare n prenotazioni e consideriamo la v.a. X “numero di passeggeri presenti all’imbarco”: allora
9 è la probabilità che un viaggiatore si presenti. Dobbiamo determinare il valore massimo di n tale che
X ∼ Binn,p dove p = 10
n
X
P (X > 100) = P (X = k) < 1%.
k=101
Si verifica direttamente2 che P (X > 100) = 0.57% se n = 104 e P (X > 100) = 1.67% se n = 105. Dunque possiamo accettare
104 prenotazioni.
2 Mostreremo più avanti (cfr. Osservazione 4.4.8) come è possibile semplificare il calcolo di P (X > 100) nel caso di X ∼ Bin
n,p con n
grande.
Figura 3.1: Grafico della funzione di distribuzione di una variabile aleatoria binomiale
Esempio 3.1.23 (Poisson). Sia λ > 0 una costante fissata. Per ogni n ∈ N, n ≥ λ, poniamo qn = λn e
consideriamo Xn ∼ Binn,qn . Per ogni k = 0, 1, . . . , n, poniamo
k
λ n−k
!
n k n! λ

pn,k := P (Xn = k) = qn (1 − qn )n−k = 1− (3.1.6)
k k!(n − k)! n n
λ n

λk n(n − 1) · · · (n − k + 1) 1 − n
= · ·
nk
k! k
1 − λn
e osserviamo che
e−λ λk
lim pn,k = =: pk , k ∈ N0 .
n→∞ k!
Ritroviamo quindi la distribuzione di Poisson
∞
X
Poissonλ = pk δk
k=0
dell’Esempio 2.4.17-iv).
Intuitivamente X ∼ Poissonλ può essere pensata come il limite di una successione di v.a. Xn ∼ Binn,qn .
In altri termini, la distribuzione di Poisson di parametro np approssima per n → +∞ (e p → 0+ ) la distribu-
zione binomiale Binn,p e pertanto scriviamo
Binn,p ≈ Poissonnp n → +∞, p → 0+ .
Questo risultato verrà formalizzato in seguito nell’Esempio 4.3.12. Notiamo che nella pratica, per n gran-
de, il valore di pn,k in (3.1.6) è “difficile” da calcolare a causa della presenza dei fattoriali3 nel coefficien-
te binomiale nk . Pertanto risulta utile utilizzare la distribuzione di Poisson come approssimazione della

binomiale.
In Figura 3.2, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Poissonλ
con λ = 3.
3 Per esempio 70! > 10100 . Per calcolare n! per n ≫ 1 si può utilizzare l’approssimazione di Stirling
√ n
n
n! ≈ 2πn .
e
Figura 3.2: Grafico della funzione di distribuzione di una variabile aleatoria di Poisson
Esempio 3.1.24. Un macchinario produce bulloni e per ogni bullone prodotto c’è la probabilità dello 0.01%
che sia difettoso (indipendentemente dagli altri). Calcolare la probabilità che in una scatola da 1000 bulloni
ce ne siano meno di 3 difettosi.
Soluzione. La v.a. X che indica il numero di bulloni difettosi in una scatola da 1000 bulloni, ha distribuzione binomiale
Bin1000,p dove p = 0.01% è la probabilità che il singolo bullone sia difettoso. Allora
2 2 !
X X 1000 k
P (X < 3) = P (X = k) = p (1 − p)1000−k ≈ 99.9846%.
k
k=0 k=0
Utilizzando l’approssimazione con una v.a. di Poisson, diciamo Y ∼ Poissonλ dove λ = np = 0.1, otteniamo
2 2
X X λk
P (Y < 3) = P (Y = k) = e−λ ≈ 99.9845%.
k!
k=0 k=0
Esempio 3.1.25 (Geometrica). Per una v.a T con distribuzione geometrica di parametro p, T ∼ Geomp con
p ∈ ]0, 1], si ha4
P (T = k) = p(1 − p)k−1 , k ∈ N.
La v.a. T rappresenta il “primo tempo di successo” in una famiglia di prove ripetute e indipendenti con
probabilità p: al riguardo si ricordi l’Esempio 3.1.7-iv) e l’Esempio 2.3.31.
Proviamo ora una proprietà fondamentale della distribuzione geometrica, nota come proprietà di assenza
di memoria.
Teorema 3.1.26. Se T ∼ Geomp si ha
P (T > n) = (1 − p)n , n ∈ N, (3.1.7)
e vale la seguente proprietà di assenza di memoria:
P (T > n + k | T > n) = P (T > k), k, n ∈ N. (3.1.8)
Viceversa, se T è una v.a. a valori in N e vale la (3.1.8) allora T ∼ Geomp dove p = P (T = 1).
4 Per convenzione poniamo 00 = 1.
Dimostrazione. Se T ∼ Geomp allora per ogni n ∈ N vale

∞
X ∞
X ∞
X
P (T > n) = P (T = k) = p(1 − p)k−1 = p(1 − p)h
k=n+1 k=n+1 h=n
∞
X 1
= p(1 − p)n (1 − p)h = p(1 − p)n = (1 − p)n ,
1 − (1 − p)
h=0
e questo prova la (3.1.7). Allora, poiché (T > k + n) ⊆ (T > n), si ha
P (T > k + n) (1 − p)k+n
P (T > n + k | T > n) = = = (1 − p)k = P (T > k).
P (T > n) (1 − p)n
Viceversa, supponiamo che T sia una v.a. a valori in N per cui vale la (3.1.8). Notiamo che la (3.1.8) ha
senso sotto l’ipotesi implicita che P (T > n) > 0 per ogni n ∈ N e per k = 1 si ha
P (T > n + 1)
P (T > 1) = P (T > n + 1 | T > n) =
P (T > n)
da cui
P (T > n + 1) = P (T > n)P (T > 1)
e quindi
P (T > n) = P (T > 1)n .
Inoltre, posto p = P (T = 1) = 1 − P (T > 1), si ha
P (T = k) = P (T > k − 1) − P (T > k) = P (T > 1)k−1 − P (T > 1)k

= P (T > 1)k−1 (1 − P (T > 1)) = p(1 − p)k−1 ,
che prova la tesi.

Corollario 3.1.27. Siano T ∼ Geomp e n ∈ N. Vale
P (T = n + k | T > n) = P (T = k), k ∈ N,
ossia la legge della v.a. T rispetto alla probabilità P è uguale alla legge della v.a. (T − n) rispetto alla probabilità
condizionata P (· | T > n).
P (T = n + k | T > n) = P (T > n + k − 1 | T > n) − P (T > n + k | T > n) =
(per il Teorema 3.1.26)
= P (T > k − 1) − P (T > k) = P (T = k).
Esercizio 3.1.28. In un gioco del lotto, una volta alla settimana si estraggono 5 numeri da un’urna che
contiene 90 palline numerate. Qual è la probabilità che il numero 13 non venga estratto per 52 settimane
consecutive? Sapendo che il 13 non è stato estratto per 52 settimane, qual è la probabilità che non sia
estratto per la 53esima settimana consecutiva?
|C | 5 la probabilità che in un’estrazione venga estratto il 13. Se T indica la prima
Soluzione. Indichiamo con p = |C89,4 | = 90
90,5
settimana in cui viene estratto il 13 allora per la (3.1.7) abbiamo
P (T > 52) = (1 − p)52 ≈ 5.11%

Equivalentemente avremmo potuto considerare la v.a. binomiale X ∼ Bin52,p che indica il numero di volte in cui, fra 52
estrazioni, viene estratto il 13 e calcolare !
52 0
P (X = 0) = p (1 − p)52
0
che dà lo stesso risultato. Per la seconda domanda, dobbiamo calcolare
85
P (T > 53 | T > 52) = P (T > 1) = ,
90
dove la prima uguaglianza segue dalla (3.1.8).
Esempio 3.1.29 (Ipergeometrica). Una variabile aleatoria X con distribuzione ipergeometrica rappresenta
il numero di palline bianche estratte in n estrazioni senza reimmissione da un’urna che contiene N palline
di cui b bianche: al riguardo si ricordi l’Esempio 2.2.19. In particolare, siano n, b, N ∈ N con n, b ≤ N . Allora
X ∼ Ipern,b,N se5
b N −b
k n−k
P (X = k) = N
k = 0, 1, . . . , n ∧ b. (3.1.9)
n
Esercizio 3.1.30. Sia (bN )N ∈N una successione in N0 tale che

bN
lim = p ∈ ]0, 1[.
N →∞ N
Se γN , N ∈ N, indica la funzione di distribuzione ipergeometrica di parametri n, bN , N , e γ indica la
funzione di distribuzione binomiale di parametri n e p, allora si ha
lim Ipern,bN ,N ({k}) = Binn,p ({k})

N →∞
per ogni n ∈ N e k = 0, 1, . . . , n. Intuitivamente, se il numero di palline bianche b e il numero totale di

palline N sono grandi, allora la reimmissione o meno di una pallina dopo l’estrazione modifica in modo
trascurabile la composizione dell’urna.
Soluzione. È un calcolo diretto: per maggiori dettagli si veda, per esempio, l’Osservazione 1.40 in [25].
3.1.3 Esempi di variabili aleatorie assolutamente continue

Esempio 3.1.31 (Esponenziale). Una v.a. con distribuzione esponenziale X ∼ Expλ gode di una proprietà
di assenza di memoria analoga a quella vista nel Teorema 3.1.26 per la distribuzione geometrica:
P (X > t + s | X > s) = P (X > t) , t, s ≥ 0. (3.1.10)
Infatti, poiché (X > t + s) ⊆ (X > s), si ha
P (X > t + s)
P (X > t + s | X > s) = =
P (X > s)
(per la (2.4.9))
e−λ(t+s)
= = e−λt = P (X > t) .
e−λs
La distribuzione esponenziale appartiene ad un’ampia famiglia di distribuzioni che introduciamo nel’E-
sempio 3.1.35.
Diamo un semplice ma utile risultato.
5 Per convenzione poniamo n = 0 per k > n.
k
Proposizione 3.1.32 (Trasformazioni lineari e densità). Sia X una v.a. in Rd , assolutamente continua con
densità γX . Allora per ogni matrice A invertibile, di dimensione d × d, e b ∈ Rd , la v.a. Z := AX + b è
assolutamente continua con densità
1
γZ (z) = γX A−1 (z − b) .
|det A|
Dimostrazione. Per ogni H ∈ Bd si ha

Z
−1
P (Z ∈ H) = P X ∈ A (H − b) = γX (x)dx =
A−1 (H−b)
(col cambio di variabili z = Ax + b)

Z
1
= γX A−1 (z − b) dz
|det A| H
e questo prova la tesi.
Esempio 3.1.33 (Uniforme). Consideriamo un esempio di v.a. con distribuzione uniforme su K ∈ Bd con
misura di Lebesgue positiva come nell’Esempio 2.4.22-i). In particolare, sia K il triangolo in R2 di ver-
tici (0, 0), (1, 0) e (0, 1). Sia (X, Y ) ∼ UnifK , con densità γ(X,Y ) (x, y) = 21K (x, y): con la Proposizione 3.1.32
possiamo facilmente calcolare la densità di (X + Y , X − Y ). Infatti, essendo
! ! !
X +Y X 1 1
=A , A= ,
X −Y Y 1 −1
si ha det A = −2 e !!
2 z
γ(X+Y ,X−Y ) (z, w) = 1 A−1 = 1AK (z, w)
| det A| K w
dove AK è il triangolo di vertici6 (0, 0), (1, 1) = A · (1, 0) e (1, −1) = A · (0, 1).
Esempio 3.1.34 (Normale). Ricordiamo che X ha distribuzione normale di parametri µ ∈ R e σ > 0, ossia
X ∼ Nµ,σ 2 , se
Z
1 1 x−µ 2
P (X ∈ H) = √ e− 2 ( σ ) dx, H ∈ B.
H 2πσ 2
Notiamo che P (X ∈ H) > 0 se e solo se Leb(H) > 0, essendo la densità un esponenziale e quindi strettamente
positiva. Ovviamente P (X = x) = 0 per ogni x ∈ R perché X è assolutamente continua.
Anche se X può assumere un qualsiasi valore reale, è bene sapere che la probabilità è sostanzialmente
concentrata intorno al valore µ. Infatti, si ha
P (|X − µ| ≤ σ ) ≈ 68.27%
P (|X − µ| ≤ 2σ ) ≈ 95.45% (3.1.11)
P (|X − µ| ≤ 3σ ) ≈ 99.73%
e questo significa che i valori estremi (neanche tanto lontani da µ) sono molto improbabili (si veda la7
Figura 3.3). Per questo motivo si usa dire che la densità Gaussiana ha le “code sottili”.
!
6 Qui A · (1, 0) ≡ A 1 .
0
7 La Figura 3.3 è tratta da
commons.wikimedia.org/wiki/File:Standard_deviation_diagram.svg♯/media/File:Standard_deviation_diagram.svg
0.4
0.3
0.2
34.1% 34.1%
0.1
2.1% 2.1%
0.1% 13.6% 13.6% 0.1%
0.0
3 2 1 0 1 2 3
Figura 3.3: Probabilità nella distribuzione normale
A prima vista, il fatto che i valori in (3.1.11) siano indipendenti da µ e σ può sembrare un po’ strano.
X−µ
D’altra parte P (|X − µ| ≤ λσ ) = P (|Z| ≤ λ) dove Z = σ e per la Proposizione 3.1.32 si ha
X ∼ Nµ,σ 2 =⇒ Z ∼ N0,1 .
In altre termini, si può sempre standardizzare una v.a. normale con una semplice trasformazione lineare.
Notiamo che la densità Gaussiana di Z ∼ N0,1 è una funzione pari e quindi, per ogni λ > 0 si ha
P (Z ≥ −λ) = P (−Z ≤ λ) = P (Z ≤ λ)
e di conseguenza
P (|Z| ≤ λ) = P (Z ≤ λ) − P (Z ≤ −λ)
= P (Z ≤ λ) − (1 − P (Z ≥ −λ))
= 2FZ (λ) − 1, (3.1.12)
dove FZ indica la CDF di Z.

Esempio 3.1.35 (Gamma). Ricordiamo la definizione della funzione Gamma di Eulero:
Z +∞
Γ (α) := xα−1 e−x dx, α > 0. (3.1.13)
0
Osserviamo che Γ assume valori positivi, Γ (1) = 1 e Γ (α + 1) = αΓ (α) poiché, integrando per parti, si ha
Z +∞ Z +∞
Γ (α + 1) = xα e−x dx = αxα−1 e−x dx = αΓ (α).
0 0
Ne segue in particolare che Γ (n + 1) = n! per ogni n ∈ N. Un altro valore notevole si ha per α = 21 :

Z +∞ −x

1 e
Γ 2 = √ dx =
0 x
(col cambio di variabile x = y 2 )

Z +∞ √
2
=2 e−y dy = π.
0
0.20
0.15
0.15
0.10
0.10
0.05
0.05
5 10 15 20 5 10 15 20
Figura 3.4: A sinistra: grafico della densità γα,2 per α = 1 (linea continua), α = 4 (linea tratteggiata) α = 6
(linea punteggiata). A destra: grafico della densità γ2,λ per λ = 12 (linea continua), λ = 41 (linea tratteggiata)
λ = 61 (linea punteggiata).
Notiamo anche che, fissato λ > 0, col cambio di variabile x = λt in (3.1.13) otteniamo
Z +∞
Γ (α) := λα t α−1 e−λt dt, α > 0.
0
Ne segue che la funzione

λα α−1 −λt
γα,λ (t) := t e 1R>0 (t), t ∈ R, (3.1.14)
Γ (α)
è una densità per ogni α > 0 e λ > 0.
Definizione 3.1.36. La distribuzione con densità γα,λ in (3.1.14) è detta distribuzione Gamma di parametri
α, λ > 0:
λα
Z
Gammaα,λ (H) = t α−1 e−λt dt, H ∈ B.
Γ (α) H∩R>0
Notiamo che la distribuzione Esponenziale è un caso particolare della Gamma con α = 1:
Gamma1,λ = Expλ .
La distribuzione Gamma gode della seguente proprietà di invarianza di scala:

Lemma 3.1.37. Se X ∼ Gammaα,λ e c > 0 allora cX ∼ Gammaα, λ . In particolare λX ∼ Gammaα,1 .
c
Dimostrazione. Utilizziamo la funzione di ripartizione per determinare la distribuzione di cX:

y
λα e−λt
Z
c
P (cX ≤ y) = P (X ≤ y/c) = dt =
0 Γ (α)t 1−α
(col cambio di variabile x = ct)

y λ
λα e − c x
Z
= dx = Gammaα, λ (] − ∞, y]).
0 c Γ (α)x1−α
α c
3.1.4 Altri esempi di variabili aleatorie notevoli

Esempio 3.1.38 (Distribuzione χ2 ). Sia X ∼ N0,1 . Vogliamo determinare la distribuzione della v.a. Z = X 2
tramite lo studio della sua CDF FZ . Poiché Z ≥ 0 si ha FZ (x) = 0 per x ≤ 0, mentre per x > 0 si ha
√ √
FZ (x) = P (X 2 ≤ x) = P − x ≤ X ≤ x =
(per simmetria)
√
Z x y2 √
1
=2 √ e− 2 dy = 2 FX ( x) − FX (0)
0 2π
dove FX è la CDF di X. Ne risulta che FZ è assolutamente continua e quindi per il Teorema 2.4.33 la densità
di Z è data da
d d √ √ 1 1 x
FZ (x) = 2 FX ( x) = FX′ ( x) √ = √ e− 2 , x > 0.
dx dx x 2πx
Riconosciamo allora che
Z ∼ Γ1,1 .
2 2
La distribuzione Γ 1 , 1 viene detta distribuzione chi-quadro ed a volte è indicata col simbolo χ2 .

2 2
Proposizione 3.1.39. Siano

X : Ω −→ I e f : I −→ J
una v.a. sullo spazio (Ω, F , P ) a valori nell’intervallo reale I e una funzione continua e monotona stret-
tamente crescente (quindi invertibile) a valori nell’intervallo reale J. Allora la CDF della v.a. Y := f (X)
è
FY = FX ◦ f −1 (3.1.15)
dove FX indica la CDF di X.
Dimostrazione. La (3.1.15) segue semplicemente da

P (Y ≤ y) = P (f (X) ≤ y) = P X ≤ f −1 (y) = FX (f −1 (y)), y ∈ J,
dove nella seconda uguaglianza abbiamo usato il fatto che f è monotona crescente.
Esercizio 3.1.40. Determinare la densità di Y := eX dove X ∼ Unif[0,1] .
Corollario 3.1.41. [!] Se X è una v.a. a valori in un intervallo I con CDF FX continua e monotona
strettamente crescente su I, allora
FX (X) ∼ Unif[0,1] . (3.1.16)
Dimostrazione. Sia Y := FX (X). Chiaramente si ha FY (y) = 0 se y ≤ 0 e FY (y) = 1 se y ≥ 1 poiché FX assume
valori in [0, 1] per definizione ed è continua. Inoltre per la Proposizione 3.1.39 si ha FY (y) = y se 0 < y < 1,
da cui la tesi.
Il corollario precedente si applica per esempio a X ∼ Nµ,σ 2 con I = R e a X ∼ Gammaα,λ con I = R>0 .

1 1
Esercizio 3.1.42. Sia X ∼ 2 δ0 + Unif[0,1] . Si provi che FX (X) ∼ 2 δ 1 + Unif[ 1 ,1] e quindi l’ipotesi di
2 2
continuità di FX nel Corollario 3.1.41 non può essere rimossa.
Esempio 3.1.43. La Proposizione 3.1.39 viene solitamente utilizzata per costruire o simulare una v.a. con
assegnata CDF a partire da una v.a. uniforme. Infatti, se Y ∼ Unif[0,1] e F è una CDF monotona strettamente
crescente, allora la v.a.
X := F −1 (Y )
ha CDF uguale a F.
Per esempio, supponiamo di voler costruire una v.a. esponenziale a partire da una v.a. uniforme:
ricordando che
F(x) = 1 − e−λx , x ∈ R,
è la CDF della distribuzione Expλ , si ha
1
F −1 (y) = − log(1 − y), y ∈ ]0, 1[.
λ
Allora, per la Proposizione 3.1.39, se Y ∼ Unif]0,1[ si ha
1
− log(1 − Y ) ∼ Expλ .
λ
Il Corollario 3.1.41, e in particolare la (3.1.16), fornisce un metodo per generare al computer numeri aleatori
con un’assegnata CDF o densità a partire da numeri aleatori con distribuzione Unif[0,1] .
Il seguente risultato estende la Proposizione 3.1.32.
Proposizione 3.1.44. Se X ∈ AC è una v.a. reale con densità γX e f ∈ C 1 con f ′ , 0 allora Y := f (X) ∈ AC e
ha densità
γ (f −1 )
γY = X . (3.1.17)
f ′ (f −1 )
Dimostrazione. Ricordiamo anzitutto che le ipotesi su f implicano che f è invertibile ed esiste

′ 1
f −1 = . (3.1.18)
f ′ (f −1 )
Inoltre per ogni H ∈ B si ha

Z
P (Y ∈ H) = P X ∈ f −1 (H) = γX (x)dx =
f −1 (H)
(col cambio di variabili y = f (x))

Z ′
= γX f −1 (y) f −1 (y)dy =
H
(per la (3.1.18) e con γY definita come in (3.1.17))

Z
= γY (y)dy,
H
e questo prova che Y ∈ AC con densità γY in (3.1.17). Si noti che se f è monotona strettamente crescente
allora f ′ > 0 e il valore assoluto nella (3.1.17) è inutile. Tuttavia il risultato è valido anche per f monotona
strettamente decrescente e in tal caso il valore assoluto è necessario.
Esempio 3.1.45 (Distribuzione log-normale). Siano X ∼ N0,1 e f (x) = ex . Allora per la (3.1.17) la densità
della v.a. Y = eX è
1 (log y)2
γY (y) = √ e− 2 , y ∈ R>0 . (3.1.19)
y 2π
La funzione γY in (3.1.19) è detta densità della distribuzione log-normale: si noti che se Y ha distribuzione
log-normale allora log Y ha distribuzione normale.
Esempio 3.1.46 (Distribuzione normale bidimensionale). Siano X e Y v.a. che rappresentano la varia-
zione della temperatura a Bologna dall’inizio alla fine, rispettivamente, dei mesi di settembre e ottobre.
Assumiamo che (X, Y ) abbia densità normale bidimensionale
1 1 −1
γ(x, y) = √ e− 2 ⟨C (x,y),(x,y)⟩ , (x, y) ∈ R2
2π det C
dove !
2 1
C= .
1 3
Determiniamo:
i) P (Y < −1);
ii) P (Y < −1 | X < 0).
3x2 −2xy+2y 2
Si ha γ(x, y) = √1 e− 10 e
2 5π
Z Z −1
P (Y < −1) = γ(x, y)dydx ≈ 28%,
R −∞
P ((Y < −1) ∩ (X < 0))
P (Y < −1 | X < 0) = ≈ 39%,
P (X < 0)
essendo
Z 0 Z −1
P ((Y < −1) ∩ (X < 0)) = γ(x, y)dydx ≈ 19, 7%,
−∞ −∞
Z0 Z
1
P (X < 0) = γ(x, y)dydx = .
−∞ R 2
3.2 Valore atteso

In questo paragrafo introduciamo il concetto di valore atteso o media di una variabile aleatoria. Se X è
una v.a. con distribuzione discreta finita
Xm
X∼ pk δxk ,
k=1
ossia P (X = xk ) = pk per k = 1, . . . , m, allora il valore atteso di X è semplicemente definito da

m
X m
X
E [X] := xk P (X = xk ) = xk p k . (3.2.1)
k=1 k=1
In altri termini, E [X] è una media dei valori di X pesata secondo la probabilità che tali valori siano assunti.
Se m = ∞ allora la somma in (3.2.1) diventa una serie ed occorre porre delle condizioni di convergenza.
3.2. VALORE ATTESO 107
Infine, nel caso in cui X assuma un’infinità più che numerabile di valori allora non è più possibile definire
E [X] come serie: nel caso generale, il valore atteso E [X] sarà definito come integrale di X rispetto alla
misura di probabilità P e indicato indifferentemente con
Z Z Z
XdP oppure X(ω)P (dω) oppure P (dω)X(ω).
Ω Ω Ω
Per dare la definizione precisa di valore atteso richiamiamo alcuni elementi della cosiddetta teoria del-
l’integrazione astratta su uno spazio di probabilità (Ω, F , P ), ricordando che una v.a. altro non è che una
funzione misurabile. Le dimostrazioni seguenti si adattano facilmente al caso di spazi misurabili σ -finiti
(fra cui Rd con la misura di Lebesgue).
Ci occuperemo di dare:
• la definizione teorica di integrale astratto nelle Sezioni 3.2.1, 3.2.2 e 3.2.3;
• una caratterizzazione operativa dell’integrale astratto e un metodo di calcolo esplicito nelle Sezioni
3.2.4 e 3.2.5.
3.2.1 Integrale di variabili aleatorie semplici

Per introdurre l’integrale astratto procediamo per gradi, partendo dal caso di funzioni (o variabili alea-
torie, nel caso di uno spazio di probabilità) “semplici” a valori reali fino al caso generale. Diciamo che una
funzione X su uno spazio misurabile (Ω, F , P ) è semplice se è misurabile e assume solo un numero finito di
valori distinti x1 , . . . , xm ∈ R: in tal caso possiamo scrivere
m
X
X= xk 1(X=xk ) ,
k=1
dove (X = x1 ), . . . , (X = xm ) ∈ F sono disgiunti. In questo caso definiamo l’integrale astratto di X nel modo
seguente
Z Xm
XdP := xk P (X = xk ). (3.2.2)
Ω k=1
Tale definizione corrisponde ad una somma di Riemann in cui ogni addendo xk P (X = xk ) rappresenta l’area
di un rettangolo calcolata come “base”×“altezza” dove la misura della base è P (X = xk ) e l’altezza xk è il
valore di X su (X = xk ): si veda la Figura 3.5. Allora per definizione si ha
Z
1A dP = P (A) (3.2.3)
Ω
per ogni A ∈ F . Per ogni X semplice e A ∈ F , useremo anche la notazione

Z Z
XdP := X1A dP .
A Ω
È chiaro che valgono le proprietà di
i) linearità: per ogni X, Y semplici e α, β ∈ R si ha

Z Z Z
(αX + βY ) dP = α XdP + β Y dP ; (3.2.4)
Ω Ω Ω
Figura 3.5: Interpretazione dell’integrale astratto come somma di Riemann
ii) monotonia: per ogni X, Y semplici tali che X ≤ Y P -q.c.8 si ha

Z Z
XdP ≤ Y dP . (3.2.5)
Ω Ω
Osserviamo che dalla proprietà ii) segue che se X = Y P -q.c. allora

Z Z
XdP = Y dP .
Ω Ω
Prima di dare la definizione generale di integrale, proviamo alcuni risultati preliminari.
Lemma 3.2.1 (Beppo-Levi). Sia (Xn )n∈N una successione di v.a. semplici tali che 0 ≤ Xn ↗ X P -q.c. Se X è
semplice allora Z Z
lim Xn dP = XdP . (3.2.6)
n→∞ Ω Ω
Dimostrazione. Per ipotesi esiste A ∈ F con P (Ω \ A) = 0, tale che 0 ≤ Xn (ω) ↗ X(ω) per ogni ω ∈ A. Fissato
ε > 0 e posto
An,ε := (X − Xn ≥ ε) ∩ A, n ∈ N,
per ipotesi si ha che An,ε è una successione decrescente con intersezione vuota, ossia An,ε ↘ ∅ per n → ∞.
Allora per la continuità dall’alto di P si ha lim P (An,ε ) = 0 e di conseguenza
n→∞
Z Z Z Z
0≤ (X − Xn )dP = (X − Xn )dP = (X − Xn )dP + (X − Xn )dP ≤ εP (Ω) + P (An,ε ) max X
A Ω Ω\An,ε An,ε Ω
da cui segue la (3.2.6). Notiamo esplicitamente che max X < ∞ poiché X è semplice per ipotesi.
Ω
Lemma 3.2.2. Siano (Xn )n∈N e (Yn )n∈N successioni di v.a. semplici tale che 0 ≤ Xn ↗ X e 0 ≤ Yn ↗ Y P -q.c.
Se X ≤ Y P -q.c. allora Z Z
lim Xn dP ≤ lim Yn dP .
n→∞ Ω n→∞ Ω
8 Nel senso che P (X > Y ) = 0.
Dimostrazione. Fissato k ∈ N, la successione di funzioni semplici (Xk ∧ Yn )n∈N è tale che 0 ≤ Xk ∧ Yn ↗ Xk

P -q.c. per n che tende all’infinito. Pertanto abbiamo
Z Z Z
Xk dP = lim Xk ∧ Yn dP ≤ lim Yn dP
Ω n→∞ Ω n→∞ Ω
dove la prima uguaglianza segue dalla (3.2.6), mentre la disuguaglianza è dovuta al fatto che Xk ∧ Yn ≤ Yn .
Questo conclude la prova.
3.2.2 Integrale di variabili aleatorie non-negative

Per estendere la definizione di integrale alle v.a. in mF + utilizziamo il seguente
Lemma 3.2.3. Per ogni X ∈ mF + esiste una successione monotona crescente (Xn )n∈N in mF + di v.a. semplici,
tale che Xn ↗ X ossia vale
lim Xn (ω) = X(ω), ω ∈ Ω.
n→∞
Dimostrazione. Definiamo una successione di funzioni “a scala” su [0, +∞[ nel modo seguente: per ogni
n ∈ N consideriamo la partizione di [0, +∞[ costituita dai punti
0 1 2 n2n
, , , . . . ,
2n 2n 2n 2n
e poniamo 
k−1

 2n
 se k−1
2n ≤ x <
k
2n per 1 ≤ k ≤ n2n ,
ϕn (x) =  (3.2.7)
n
 se x ≥ n.
Notiamo che 0 ≤ ϕn ≤ ϕn+1 per ogni n ∈ N e
1
x− ≤ ϕn (x) ≤ x, x ∈ [0, n],
2n
per cui
lim ϕn (x) = x, x ≥ 0.
n→∞
Allora la successione definita da Xn = ϕn (X) verifica la tesi.
Grazie al Lemma 3.2.2, la seguente definizione è ben posta, ossia indipendente dalla successione ap-
prossimante (Xn )n∈N .
Definizione 3.2.4 (Integrale astratto di variabili aleatorie non-negative). Per ogni X ∈ mF + definiamo
Z Z
XdP := lim Xn dP ≤ +∞ (3.2.8)
Ω n→∞ Ω
dove (Xn )n∈N è una successione in mF + di v.a. semplici, tale che Xn ↗ X P -q.c. Se il limite in (3.2.8) è finito
diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ).
Osservazione 3.2.5. In base alla Definizione 3.2.4, le proprietà di linearità (3.2.4) e monotonia (3.2.5) si
estendono facilmente all’integrale di X ∈ mF + .
La definizione di integrale astratto è del tutto analoga a quella dell’integrale di Lebesgue. Anche in que-
sto caso il risultato centrale su cui si basa tutto lo sviluppo della teoria dell’integrazione è il fondamentale
risultato sulla convergenza monotona.
Teorema 3.2.6. [Teorema di Beppo-Levi] [!!!]

Se (Xn )n∈N è una successione in mF tale che 0 ≤ Xn ↗ X P -q.c., allora si ha
Z Z
lim Xn dP = XdP .
n→∞ Ω Ω

Dimostrazione. Fissato n ∈ N, costruiamo come nel Lemma 3.2.3 una successione Xn,k k∈N di v.a. semplici
in mF + , tale che Xn,k ↗ Xn e Xn − Xn,n ≤ n1 P -q.c. Inoltre poniamo
Yn = max{X1,n , . . . , Xn,n }, n ∈ N.
Notiamo che (Yn )n∈N è una successione di v.a. semplici in mF tale che 0 ≤ Yn ↗ X P -q.c. e quindi per
definizione Z Z
lim Yn dµ = Xdµ.
n→∞ Ω Ω
D’altra parte Yn ≤ Xn ≤ X P -q.c. per cui, per monotonia,

Z Z Z
Yn dP ≤ Xn dP ≤ XdP ,
Ω Ω Ω
e da questo segue la tesi.
Lemma 3.2.7. [Lemma di Fatou][!]

Sia (Xn )n∈N una successione di v.a. in mF + . Si ha
Z Z
lim inf Xn dP ≤ lim inf Xn dP .
Ω n→∞ n→∞ Ω
Dimostrazione. Ricordiamo che, per definizione,
lim inf Xn := sup Yn , Yn := inf Xk ,

n→∞ n∈N k≥n
e quindi Yn ↗ X := lim inf Xn . Allora si ha

n→∞
Z Z
lim inf Xn dP = lim Yn dP =
Ω n→∞ Ω n→∞
(per il Teorema di Beppo-Levi)

Z
= lim Yn dP ≤
n→∞ Ω
(per monotonia)
Z Z
≤ lim inf Xk dP = lim inf Xn dP ,
n→∞ k≥n Ω n→∞ Ω
da cui la tesi.
3.2.3 Integrale di variabili aleatorie a valori in Rd

Definizione 3.2.8 (Integrale astratto). Se RX ∈ mF è Ra valori reali consideriamo la parte positiva X + e la
parte negativa X − di X: se almeno uno fra Ω X + dP e Ω X − dP è finito, allora diciamo che X è integrabile e
poniamo Z Z Z
+
XdP := X dP − X − dP ∈ [−∞, +∞].
Ω Ω Ω
R R
Se entrambi Ω X + dP
e Ω
X − dP sono finiti, allora diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ). In
questo caso si noti che Z Z Z
+
|X|dP = X dP + X − dP ∈ R.
Ω Ω Ω
Infine, se X = (X1 , . . . , Xd ) è a valori in Rd , allora diciamo che X è integrabile se ogni componente Xi è

integrabile e in tal caso poniamo
Z Z Z !
XdP = X1 dP , . . . , Xd dP ∈ [−∞, +∞]d .
Ω Ω Ω
Notiamo che vale la disuguaglianza triangolare: per ogni X ∈ L1 (Ω, P ) a valori reali si ha
Z Z Z Z Z Z
XdP = X + dP − −
X dP ≤
+
X dP + −
X dP = |X|dP .

Ω Ω Ω Ω Ω Ω
Notazione 3.2.9. Useremo la notazione

Z Z
X(ω)P (dω) := XdP
Ω Ω
nel caso in cui vogliamo mettere in evidenza la variabile d’integrazione. Per l’integrale rispetto alla misura
di Lebesgue scriveremo semplicemente
Z Z
f (x)dx invece di f dLeb.
Rd Rd
Proposizione 3.2.10. Valgono le seguenti proprietà:
i) Linearità: per ogni X, Y ∈ L1 (Ω, P ) e α, β ∈ R si ha

Z Z Z
(αX + βY ) dP = α XdP + β Y dP .
Ω Ω Ω
ii) Monotonia: per ogni X, Y ∈ L1 (Ω, P ) tali che X ≤ Y P -q.c. si ha

Z Z
XdP ≤ Y dP .
Ω Ω
R R
In particolare, se X = Y P -q.c. allora Ω XdP = Ω Y dP .
An dove (An )n∈N è una successione disgiunta in F . Se X ∈ mF + oppure

U
iii) σ -additività: sia A =
n∈N
X ∈ L1 (Ω, P ) allora si ha Z XZ
XdP = XdP .
A n∈N An
Dimostrazione. La dimostrazione delle tre proprietà è simile e quindi proviamo in maniera dettagliata solo
la i). Considerando separatamente la parte positiva e negativa delle v.a., è sufficiente considerare il caso
X, Y ∈ mF + e α, β ∈ R≥0 . Consideriamo le successioni approssimanti (Xn ) e (Yn ) costruite come nel Lemma
3.2.3: sfruttando la linearità del valore atteso nel caso di v.a. semplici, otteniamo per il Teorema di Beppo-
Levi
Z Z Z Z ! Z Z
(αX + βY )dP = lim (αXn + βYn )dP = lim α Xn dP + β Yn dP = α XdP + β Y dP .
Ω n→∞ Ω n→∞ Ω Ω Ω Ω
Concludiamo la sezione col classico
Teorema 3.2.11. [Teorema della convergenza dominata][!!]

Sia (Xn )n∈N una successione di v.a. su (Ω, F , P ), tale che Xn → X P -q.c. e |Xn | ≤ Y ∈ L1 (Ω, P ) per ogni n.
Allora si ha Z Z
lim Xn dP = XdP .
n→∞ Ω Ω
Dimostrazione. Passando al limite in |Xn | ≤ Y si ha anche |X| ≤ Y P -q.c. Allora si ha

Z Z
0 ≤ lim sup Xn dP − XdP ≤
n→∞ Ω Ω
(per la disuguaglianza triangolare)

Z
≤ lim sup |Xn − X| dP =
n→∞ Ω
Z Z
= 2Y dP − lim inf (2Y − |Xn − X|) dP ≤
Ω n→∞ Ω
(per il Lemma di Fatou)

Z Z
≤ 2Y dP − lim inf (2Y − |Xn − X|) dP =
n→∞
ZΩ ZΩ
= 2Y dP − 2Y dP = 0.
Ω Ω
Vedremo in seguito una generalizzazione del teorema della convergenza dominata, il Teorema A.3.0.2
di Vitali. Il seguente corollario del Teorema 3.2.11 si prova facilmente per assurdo.
Corollario
R 3.2.12 (Assoluta continuità dell’integrale). Sia X ∈ L1 (Ω, P ). Per ogni ε > 0 esiste δ > 0 tale che
A
|X|dP < ε per ogni A ∈ F tale che P (A) < δ.
Diamo ora un semplice ma utile risultato.

R
Proposizione 3.2.13. [!] Data X ∈ mF , poniamo A = (X > 0). Se XdP = 0 allora X ≤ 0 P -q.c.
A

Dimostrazione. Consideriamo la successione crescente definita da An = X ≥ n1 per n ∈ N. Per la proprietà
di monotonia dell’integrale, si ha
Z Z Z
1 P (An )
0= XdP ≥ X1An dP ≥ 1An dP = ,
A A n A n
e quindi P (An ) = 0 per ogni n ∈ N. Per la continuità dal basso di P (cfr. Proposizione 2.1.32-ii)) ed essendo
[
(X > 0) = An ,
n∈N
segue che P (X > 0) = 0.

R
Corollario 3.2.14. Se X ∈ mF + è tale che Ω
XdP = 0 allora X = 0 P -q.c.
3.2.4 Integrazione con distribuzioni

In questa sezione esaminiamo l’integrale astratto rispetto ad una distribuzione, con particolare atten-
zione al caso delle distribuzioni discrete e assolutamente continue (o combinazioni di esse). Cominciamo
con un semplice
Esempio 3.2.15. [!] Consideriamo la distribuzione Delta di Dirac δx0 su (Rd , Bd ). Per ogni funzione f ∈
mBd vale Z
f (x)δx0 (dx) = f (x0 ).
Rd
Infatti f è uguale δx0 -quasi ovunque alla funzione semplice

f (x0 ) se x = x0 ,

ˆ

f (x) = 
0
 altrimenti.
R R
Ora, per la Proposizione 3.2.10-ii), se f = g µ-q.o. allora Ω f dµ = Ω gdµ: quindi si ha
Z Z
f (x)δx0 (dx) = fˆ(x)δx0 (dx) =
Rd Rd
(per definizione di integrale di funzione semplice)
= fˆ(x0 )δx0 ({x0 }) = f (x0 ).
Proposizione 3.2.16. Sia

∞
X
µ= pn δxn
n=1
una distribuzione discreta su (Rd , Bd ) (cfr. Definizione 2.4.15). Se f ∈ mF + oppure f ∈ L1 (Rd , µ) allora si
ha Z ∞
X
f dµ = f (xn )pn .
Rd n=1
Dimostrazione. Segue direttamente applicando la Proposizione 3.2.10-iii) con An = {xn }.

Esempio 3.2.17. Per la distribuzione di Bernoulli, Bep = pδ1 + (1 − p)δ0 con 0 ≤ p ≤ 1, (cf. Esempio 2.4.17-i))
si ha semplicemente Z
f (x)Bep (dx) = pf (1) + (1 − p)f (0).
R
Per la distribuzione Poissonλ , con λ > 0, si ha
∞
λk
Z X
f (x)Poissonλ (dx) = e−λ f (k),
R k!
k=0
ammesso che f sia non-negativa oppure sommabile (ossia che la somma converga assolutamente).
Esercizio 3.2.18. Provare che se α, β > 0, µ1 , µ2 sono distribuzioni su Rd e f ∈ L1 (Rd , µ1 ) ∩ L1 (Rd , µ2 ) allora
f ∈ L1 (Rd , αµ1 + βµ2 ) e vale
Z Z Z
f d(αµ1 + βµ2 ) = α f dµ1 + β f dµ2 .
Rd Rd Rd
Vediamo ora che nel caso di una distribuzione assolutamente continua, il calcolo dell’integrale astratto si
riconduce al calcolo di un integrale di Lebesgue pesato con la densità della distribuzione.
Proposizione 3.2.19. [!]
Sia µ una distribuzione assolutamente continua su Rd con densità γ. Allora f ∈ L1 (Rd , µ) se e solo se9
f γ ∈ L1 (Rd ) e in tal caso si ha Z Z
f (x)µ(dx) = f (x)γ(x)dx.
Rd Rd
Dimostrazione. Consideriamo prima il caso in cui f è semplice su R, ossia f (R) = {α1 , . . . , αm } cosicché
m
X
f = αk 1Hk , Hk := {x ∈ R | f (x) = αk }, k = 1, . . . , m,
k=1
allora per linearità

Z m
X Z
f dµ = αk 1Hk dµ =
R k=1 R
(per la (3.2.3))
m
X
= αk µ(Hk ) =
k=1
(essendo µ ∈ AC con densità γ)

m
X Z m
X Z
= αk γ(x)dx = αk 1Hk (x)γ(x)dx =
k=1 Hk k=1 R
(per la linearità dell’integrale di Lebesgue)

Z
= f (x)γ(x)dx,
R
da cui la tesi.
Ora assumiamo f ≥ 0 e consideriamo fn := ϕn (f ) con ϕn come in (3.2.7). Per il Teorema di Beppo-Levi
abbiamo
Z Z
f dµ = lim fn dµ =
R n→∞ R
(per quanto appena provato, essendo fn semplice per ogni n ∈ N)

Z
= lim fn (x)γ(x)dx =
n→∞ R
9 L1 (Rd ) indica l’usuale spazio delle funzioni sommabili su Rd rispetto alla misura di Lebesgue, ossia L1 (Rd ) = L1 (Rd , Leb).
(riapplicando il Teorema di Beppo-Levi all’integrale di Lebesgue e utilizzando il fatto che γ ≥ 0 per ipotesi
e di conseguenza (fn γ) è una successione monotona crescente di funzioni non-negative)
Z
= f (x)γ(x)dx.
R
Infine se f è una generica funzione in L1 (R, µ), allora è sufficiente considerarne la parte positiva e negativa
alle quali si applica il risultato precedente. Allora la tesi segue dalla linearità dell’integrale e ragionando
componente per componente si conclude la prova della tesi anche nel caso d-dimensionale.
Esempio 3.2.20. Consideriamo la distribuzione normale standard N0,1 e le funzioni f (x) = x e g(x) = x2 .
Allora f , g ∈ L1 (R, N0,1 ) e vale
Z Z
1 x2
f (x)N0,1 (dx) = √ xe− 2 dx = 0,
2π R
ZR Z
1 x2
g(x)N0,1 (dx) = √ x2 e− 2 dx = 1.
R 2π R
Osservazione 3.2.21. [!]

La prova della Proposizione 3.2.19 è esemplare di una procedura di dimostrazione spesso utilizzata nel-
l’ambito della teoria dell’integrazione e della probabilità. Tale procedura, a volte chiamata procedura
standard, consiste nel verificare la validità della tesi in 4 passi:
1) il caso di funzioni o v.a. indicatrici: di solito è una verifica diretta basata sulla definizione di integrale
o valore atteso;
2) il caso di funzioni o v.a. semplici: si sfrutta la linearità dell’integrale o del valore atteso;
3) il caso di funzioni o v.a. non-negative: si usa un argomento di approssimazione basato sul Lemma
3.2.3 e sul Teorema di Beppo-Levi;
4) il caso di funzioni o v.a. sommabili: ci si riconduce al caso precedente per linearità, considerando
parte positiva e negativa.
Una formulazione più generale di questa procedura è data dal secondo Teorema di Dynkin (cfr. Teorema
A.1.8).
Concludiamo la sezione con un utile risultato che proveremo più avanti (cfr. Corollario 3.5.8).
Corollario 3.2.22. [!] Se µ, ν sono distribuzioni tali che

Z Z
f dµ = f dν
R R
per ogni f ∈ bC(R) allora µ ≡ ν. Qui bC(R) indica lo spazio delle funzioni continue e limitate.
3.2.5 Valore atteso e Teorema del calcolo della media

In teoria della probabilità, il valore atteso di una variabile aleatoria altro non è che il suo integrale
rispetto alla misura di probabilità. Diamo la definizione precisa.
Definizione 3.2.23. In uno spazio di probabilità (Ω, F , P ), il valore atteso di una v.a. integrabile X è
definito da Z Z
E [X] := XdP = X(ω)P (dω).
Ω Ω
Esempio 3.2.24. [!] A partire dalla definizione (3.2.2) di integrale astratto, è facile calcolare il valore atteso
in due casi particolari: le variabili aleatorie costanti e indicatrici. Si ha infatti
E [c] = c, c ∈ Rd ,
E [1A ] = P (A), A ∈ F.
Inoltre se X è una v.a. semplice della forma

m
X
X= xk 1(X=xk )
k=1
per linearità vale

m
X
E [X] = xk P (X = xk ).
k=1
Dunque in questo caso E [X] rappresenta una media dei valori di X pesata con le probabilità che questi valori
vengano assunti.
In generale, il calcolo di un valore atteso definito come integrale astratto (sullo spazio Ω) non è partico-
larmente agevole: il seguente risultato mostra che è possibile esprimere il valore atteso di una v.a. X come
integrale (sullo spazio Euclideo Rd ) rispetto alla distribuzione µX della v.a. stessa.
Teorema 3.2.25 (Teorema del calcolo della media). [!]
Siano
X : Ω −→ Rd e f : Rd −→ RN
rispettivamente una v.a. su (Ω, F , P ) con legge µX e una funzione Bd -misurabile, f ∈ mBd . Allora f ◦ X ∈
L1 (Ω, P ) se e solo se f ∈ L1 (Rd , µX ) e in tal caso vale
Z
E [f (X)] = f dµX . (3.2.9)
Rd
∞
P
In particolare, se µX = pk δxk è una distribuzione discreta allora
k=1
∞
X
E [f (X)] = f (xk )pk , (3.2.10)
k=1
mentre se µX è assolutamente continua con densità γX allora si ha

Z
E [f (X)] = f (x)γX (x)dx. (3.2.11)
Rd
Dimostrazione. Proviamo la (3.2.9) nel caso f = 1H con H ∈ Bd : si ha

Z
E [f (X)] = E [1H (X)] = P (X ∈ H) = µX (H) = 1H dµX .
Rd
Il caso generale segue applicando la procedura standard dell’Osservazione 3.2.21. Infine, in base alla
(3.2.9), la (3.2.10) segue dalla Proposizione 3.2.16 e la (3.2.11) segue dalla Proposizione 3.2.19.
Osservazione 3.2.26. Applicando il Teorema 3.2.25 nel caso particolare della funzione identità f (x) = x, si
ha che se X ∈ L1 (Ω, P ) allora Z
E [X] = xµX (dx).
Rd
Definizione 3.2.27 (Varianza). Sia X ∈ L2 (Ω, P ) una v.a. reale. Si definisce varianza di X il numero reale
non-negativo h i h i
var(X) := E (X − E [X])2 = E X 2 − E [X]2 .
p
La radice della varianza var(X) è chiamata deviazione standard.
La deviazione standard è una media della distanza di X dal proprio valore atteso. Per esempio, vedremo
nell’Esempio 3.2.31 che nel caso di una v.a. normale X ∈ Nµ,σ 2 , la deviazione standard è uguale a σ : in
effetti avevamo usato σ per definire gli intervalli di confidenza di X come in Figura 3.3.
Osservazione 3.2.28. Più in generale, la varianza è ben definita per X ∈ L1 (Ω, P ), con valore minore o
uguale a +∞.
Per linearità, per ogni a, b ∈ R si ha
var(aX + b) = a2 var(X).
Inoltre, per la Proposizione 3.2.13, si ha

q.c.
var(X) = 0 se e solo se X = E [X] .
Calcoliamo ora media e varianza di alcune v.a. discrete.

Esempio 3.2.29. [!]
i) se X ∼ δx0 con x0 ∈ Rd allora per le (3.2.9)-(3.2.10) si ha

Z
E [X] = yδx0 (dy) = x0 ,
d
ZR
var(X) = (y − x0 )2 δx0 (dy) = 0.
Rd
1
ii) Se X ∼ Unifn allora ha funzione di distribuzione γ(k) = n per k ∈ In e vale
n n
X 1X 1 n(n + 1) n + 1
E [X] = kγ(k) = k= · = ,
n n 2 2
k=1 k=1
n 2 n
n+1 1X 2 n+1 2
h i X
var(X) = E X 2 − E [X]2 = k 2 γ(k) − = k −
2 n 2
k=1 k=1
1 n(n + 1)(2n + 1) n + 1 2 n2 − 1

= · − = .
n 6 2 12
iii) Se X ∼ Bep allora ha funzione di distribuzione γ definita da γ(1) = p, γ(0) = 1 − p e vale

n
X
E [X] = kγ(k) = 0 · (1 − p) + p = p,
k∈{0,1}
h i X
var(X) = E X 2 − E [X]2 = k 2 γ(k) − p2 = p(1 − p).
k∈{0,1}
iv) Se X ∼ Binn,p , con un conto diretto (si veda anche la Proposizione 3.6.3) si prova che
E [X] = np, var(X) = np(1 − p). (3.2.12)

k
v) Se X ∼ Poissonλ allora ha funzione di distribuzione γ definita da γ(k) = e−λ λk! per k ∈ N0 e vale
∞ ∞ ∞
X X λk X λk−1
E [X] = kγ(k) = ke−λ = λe−λ = λ.
k! (k − 1)!
k=0 k=1 k=1
Provare per esercizio che var(X) = λ.
vi) Se X ∼ Geomp allora ha funzione di distribuzione γ definita da γ(k) = p(1 − p)k−1 per k ∈ N e quindi
vale
∞ ∞ ∞ !
X X
k−1
X d k
E [X] = kγ(k) = p k(1 − p) =p − (1 − p)
dp
k=1 k=1 k=1
∞ !
d X d 1 1
= −p (1 − p)k = −p = ,
dp dp 1 − (1 − p) p
k=1
dove abbiamo usato un teorema di scambio di derivata con serie. In maniera analoga si prova che
1−p
var(X) = p2 .
Esempio 3.2.30. [!] Consideriamo un gioco d’azzardo in cui si lancia una moneta (non truccata): se viene
testa si vince un euro e se viene croce si perde un euro. Se X è la variabile aleatoria che rappresenta il
risultato della giocata, si ha
1 1
E [X] = 1 · + (−1) · = 0
2 2
e quindi si dice che il gioco è equo. Il gioco è equo anche se la vincita e la perdita fossero pari a 1000
euro, ma intuitivamente saremmo meno propensi a giocare perché percepiamo una rischiosità maggiore
(di perdere molti soldi). Matematicamente, questo si spiega col fatto che
h i 1 1
var(X) = E X 2 = 12 · + (−1)2 · = 1
2 2
mentre se Y rappresenta la v.a. nel caso in cui la posta in gioco è 1000 euro, si ha
h i 1 1
var(Y ) = E Y 2 = 10002 · + (−1000)2 · = 10002 .
2 2
In pratica, se due scommesse hanno lo stesso valore atteso, quella con varianza minore limita l’entità delle
potenziali perdite.
Consideriamo ora alcuni esempi di v.a. assolutamente continue.
Esempio 3.2.31. [!]
i) se X ∼ Unif[a,b] si ha
Z Zb
1 a+b
E [X] = yUnif[a,b] (dy) = ydy = ,
R b−a a 2
!2 Zb !2
(b − a)2
Z
a+b 1 a+b
var(X) = y− Unif[a,b] (dy) = y− dy = .
R 2 b−a a 2 12
Confrontare questo risultato con l’analogo discreto visto nell’Esempio 3.2.29-i).

ii) se X ∼ Nµ,σ 2 con σ > 0 allora
(y−µ)2
Z Z
1 −
E [X] = yNµ,σ 2 (dy) = √ ye 2σ 2 dy =
R 2πσ 2 R
y−µ
(col cambio di variabili z = √ )
σ 2
1
Z √ −z2 µ
Z
2
=√ µ + zσ 2 e dz = √ e−z dz = µ.
π R π R
In modo analogo si vede che Z

var(X) = (y − µ)2 Nµ,σ 2 (dy) = σ 2 .
R
iii) se X ∼ Gammaα,1 si ha
Z ∞ Z∞
1 Γ (α + 1)
E [X] = tγα,1 (t)dt = t α e−λt dt = = α,
0 Γ (α) 0 Γ (α)
Z ∞ Z ∞
h i 1 Γ (α + 2)
E X2 = t 2 γα,1 (t)dt = t 1+α e−λt dt = = α(α + 1)
0 Γ (α) 0 Γ (α)
da cui h i
var(X) = E X 2 − E [X]2 = α.
In generale, per il Lemma 3.1.37, se X ∼ Gammaα,λ si ha
α α
E [X] = , var(X) = .
λ λ2
In particolare, se X ∼ Expλ = Gamma1,λ allora
Z Z +∞
1
E [X] = ye−λy dy = ,
yExpλ (dy) = λ
R 0 λ
Z +∞
1 2 1 2 −λy
Z
1

var(X) = y− Expλ (dy) = λ y− e dy = 2 .
R λ 0 λ λ
3.2.6 Disuguaglianza di Jensen

Proviamo un’importante estensione alle funzioni convesse della disuguaglianza triangolare per il valore
atteso. Esempi tipici di funzioni convesse che utilizzeremo in seguito sono
i) f (x) = |x|p con p ∈ [1, +∞[,
ii) f (x) = eλx con λ ∈ R,
iii) f (x) = − log x per x ∈ R>0 .
Teorema 3.2.32 (Disuguaglianza di Jensen). [!!]

Siano −∞ ≤ a < b ≤ +∞ e
X : Ω −→ ]a, b[ e f : ]a, b[−→ R
rispettivamente una v.a. sullo spazio (Ω, F , P ) e una funzione convessa. Se X, f (X) ∈ L1 (Ω, P ) allora si ha
f (E [X]) ≤ E [f (X)] .
Dimostrazione. Ricordiamo che se f è convessa allora per ogni z ∈ ]a, b[ esiste m ∈ R tale che
f (w) ≥ f (z) + m(w − z), ∀w ∈ ]a, b[. (3.2.13)
Proviamo dopo la (3.2.13) e concludiamo prima la prova della disuguaglianza di Jensen. Posto z = E [X] (si
noti che E [X] ∈ ]a, b[ poiché X(Ω) ⊆ ]a, b[ per ipotesi) si ha
f (X(ω)) ≥ f (E [X]) + m(X(ω) − E [X]), ω ∈ Ω,
da cui, prendendo il valore atteso e usando la proprietà di monotonia,
E [f (X)] ≥ E [f (E [X]) + m(X − E [X])] =
(per linearità e per il fatto che E [c] = c per ogni costante c)
= f (E [X]) + mE [X − E [X]] = f (E [X]).
Proviamo ora la (3.2.13). Ricordiamo che f è convessa se vale
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y), ∀x, y ∈ ]a, b[, λ ∈ [0, 1],
o equivalentemente, posto z = (1 − λ)x + λy,
(y − x)f (z) ≤ (y − z)f (x) + (z − x)f (y), x < z < y. (3.2.14)
Introduciamo la notazione
f (y) − f (x)
∆y,x = , a < x < y < b.
y −x
Non è difficile verificare10 che la (3.2.14) è equivalente a
∆z,x ≤ ∆y,x ≤ ∆y,z , x < z < y. (3.2.15)
La (3.2.15) implica11 che f è una funzione continua su ]a, b[ ed anche che le funzioni
z 7→ ∆z,x , per z > x, e z 7→ ∆y,z , per z < y,
sono monotone crescenti. Di conseguenza esistono i limiti12
D − f (z) := lim− ∆z,x ≤ lim+ ∆y,z =: D + f (z), z ∈ ]a, b[. (3.2.16)

x→z y→z
Ora se m ∈ [D − f (z), D + f (z)] si ha

∆z,x ≤ m ≤ ∆y,z , x < z < y,
che implica la (3.2.13).
10 Proviamo per esempio la prima disuguaglianza:
f (z) − f (x) f (y) − f (x)

∆z,x ≤ ∆y,x ⇐⇒ ≤ ⇐⇒ (f (z) − f (x))(y − x) ≤ (f (y) − f (x))(z − x)
z−x y −x
che equivale alla (3.2.14).
11 Infatti da (3.2.15), in particolare da ∆
z,x ≤ ∆y,x , segue
f (y) − f (x)
f (z) ≤ f (x) + (z − x) −→ f (y) per z → y − .
y −x
Inoltre, fissato y0 ∈ ]y, b[, ancora dalla (3.2.15), in particolare da ∆y,z ≤ ∆y0 ,y , segue
f (z) ≥ f (y) − (y − z)∆y0 ,y −→ f (y) per z → y − .
Combinando le due disuguaglianze, si prova la continuità a sinistra di f . Per la continuità a destra si procede in modo analogo.
12 Per fissare le idee, si pensi a f (x) = |x| per cui si ha −1 = D − f (0) < D + f (0) = 1. Utilizzando la (3.2.16) si prova che l’insieme dei
punti z in cui D − f (z) < D + f (z), ossia in cui f non è derivabile, è al più numerabile.
Osservazione 3.2.33. La dimostrazione della disuguaglianza di Jensen è basata, oltre alle proprietà delle
funzioni convesse, soltanto sulle proprietà di monotonia, linearità e E [1] = 1 della media. In particolare
il fatto che E [1] = 1 è fondamentale: a differenza della disuguaglianza triangolare, la disuguaglianza di
Jensen non vale per un integrale o una somma generica.
3.2.7 Spazi Lp e disuguaglianze notevoli

Definizione 3.2.34. Sia (Ω, F , P ) uno spazio di probabilità e p ∈ [1, +∞[. La p-norma di una v.a. X è definita
da
1
∥X∥p := (E [|X|p ]) p .
Indichiamo con
Lp (Ω, P ) = {X ∈ mF | ∥X∥p < ∞}
lo spazio delle v.a. sommabili di ordine p.
q.c.
In realtà ∥ · ∥p non è una norma perché ∥X∥p = 0 implica X = 0 ma non X ≡ 0. In effetti vedremo nel
Teorema 3.2.40 che ∥ · ∥p è una semi-norma sullo spazio Lp (Ω, P ).
Esempio 3.2.35. Se X ∼ Nµ,σ 2 allora X ∈ Lp (Ω, P ) per ogni p ≥ 1 poiché

Z
1 1 x−µ 2
p
E [|X| ] = |x|p √ e− 2 ( σ ) dx < ∞.
R 2πσ 2
È facile dare un esempio di X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ): è sufficiente considerare X(ω) =
Y (ω) = √1ω nello spazio ([0, 1], B, Leb). Diamo anche un esempio in uno spazio discreto.
Esempio 3.2.36. Consideriamo lo spazio di probabilità Ω = N con la misura di probabilità definita da

c
P ({n}) = , n ∈ N,
n3
dove c è la costante positiva13 che normalizza a 1 la somma dei P ({n}) in modo che P sia una misura di
probabilità. La v.a. X(n) = n è sommabile in P poiché
∞ ∞
X X c
E [X] = X(n)P ({n}) = n· < +∞.
n3
n=1 n=1
D’altra parte X < L2 (Ω, P ) poiché

∞
h i X c
E X2 = n2 · 3 = +∞,
n
n=1
o, in altri termini, posto Y = X si ha che XY < L1 (Ω, P ).
Proposizione 3.2.37. Se 1 ≤ p1 ≤ p2 allora vale
∥X∥p1 ≤ ∥X∥p2
e quindi
Lp2 (Ω, P ) ⊆ Lp1 (Ω, P ).
L’Esempio 3.2.36 mostra che in generale l’inclusione è stretta.
13 Per precisione, c = Zeta(3) ≈ 1.20206 dove Zeta indica la funzione zeta di Riemann.
Dimostrazione. La tesi è diretta conseguenza della disuguaglianza di Jensen con f (x) = xq , x ∈ [0, +∞[,
p
q = p2 ≥ 1: infatti abbiamo
1
p2
E [|X|p1 ] p1 ≤ E [|X|p2 ] .
Teorema 3.2.38 (Disuguaglianza di Hölder). [!]

Siano p, q > 1 esponenti coniugati, ossia tali che p1 + 1q = 1. Se X ∈ Lp (Ω, P ) e Y ∈ Lq (Ω, P ) allora XY ∈ L1 (Ω, P )
e vale
∥XY ∥1 ≤ ∥X∥p ∥Y ∥q . (3.2.17)
Dimostrazione. Proviamo la tesi nel caso ∥X∥p > 0 altrimenti è banale. In questo caso, la (3.2.17) equivale a
e = |X| .
h i
E X|Y
e | ≤ ∥Y ∥q , dove X
∥X∥p
h i
ep ≥ 0 e E X
Notiamo che X ep = 1: quindi consideriamo la probabilità Q con densità X
ep rispetto a P , definita
da h i
Q(A) = E X ep 1A , A ∈ F.
Allora si ha
" #q " #q
e | q = EP Xep |Y | 1 e |Y |
h i
E P X|Y = E Q
1 e ) ≤
ep−1 (X>0)
X ep−1 (X>0
X
(per la disuguaglianza di Jensen)
|Y |q
" #
Q
≤E 1 e ) =
eq(p−1) (X>0
X
(poiché, essendo p, q coniugati, vale q(p − 1) = p)
" q #
Q |Y |

P q q
=E e ) = E |Y | 1(X>0
1(X>0 e ) ≤ ∥Y ∥q ,
Xe p
che prova la tesi.

Corollario 3.2.39 (Disuguaglianza di Cauchy-Schwarz). [!]
Si ha
|E [XY ]| ≤ ∥X∥2 ∥Y ∥2 (3.2.18)
q.c.
e nella (3.2.18) vale l’uguaglianza se e solo se esiste a ∈ R per cui X = aY .
q.c.
Dimostrazione. La (3.2.18) segue da |E [XY ]| ≤ E [|XY |] e dalla disuguaglianza di Hölder. Se X = aY per
un certo a ∈ R è facile verificare che vale l’uguaglianza in (3.2.18). Viceversa, non è restrittivo assumere
E [XY ] ≥ 0 (altrimenti basta considerare −X al posto di X) e ∥X∥2 , ∥Y ∥2 > 0 (altrimenti la tesi è ovvia): in
questo caso poniamo
e= X ,
X e= Y .
Y
∥X∥2 ∥Y ∥2
h i
Si ha ∥X∥
e 2 = ∥Ye∥2 = 1 e inoltre, per ipotesi, E X e = 1. Allora
eY
h i h i h i h i
E (X e)2 = E X
e−Y e2 + E Y
e2 − 2E X e =0
eY
e q.c.
da cui X =Y e.
Teorema 3.2.40. Per ogni p ≥ 1, Lp (Ω, P ) è uno spazio vettoriale su cui ∥ · ∥p è una semi-norma, ossia vale
q.c.
i) ∥X∥p = 0 se e solo se X = 0;
ii) ∥λX∥p = |λ|∥X∥p per ogni λ ∈ R e X ∈ Lp (Ω, P );
iii) vale la disuguaglianza di Minkowski
∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p ,
per ogni X, Y ∈ Lp (Ω, P ).

Dimostrazione. Basta provare solo la iii). È chiaro che, se X ∈ Lp (Ω, P ) e λ ∈ R, allora λX ∈ Lp (Ω, P ). Inoltre,
poiché
(a + b)p ≤ 2p (a ∨ b)p ≤ 2p (ap + bp ) , a, b ≥ 0, p ≥ 1,
allora il fatto che X, Y ∈ Lp (Ω, P ) implica che (X +Y ) ∈ Lp (Ω, P ). Dunque Lp (Ω, P ) è uno spazio vettoriale. Le
proprietà i) e ii) seguono facilmente dalle proprietà generali della media. Per la iii) è sufficiente considerare
il caso p > 1: per la disuguaglianza triangolare si ha
h i h i
E [|X + Y |p ] ≤ E |X||X + Y |p−1 + E |Y ||X + Y |p−1 ≤
(per la disuguaglianza di Hölder, indicando con q l’esponente coniugato di p > 1)

h i1
≤ ∥X∥p + ∥Y ∥p E |X + Y |(p−1)q q =
(poiché (p − 1)q = p)
1− 1

≤ ∥X∥p + ∥Y ∥p E [|X + Y |p ] p ,
da cui segue la disuguaglianza di Minkowski.
3.2.8 Covarianza e correlazione

Definizione 3.2.41 (Covarianza). La covarianza di due v.a. reali X, Y ∈ L2 (Ω, P ) è il numero reale
cov(X, Y ) := E [(X − E [X])(Y − E [Y ])] .
Esempio 3.2.42. Sia (X, Y ) con densità
γ(X,Y ) (x, y) = ye−xy 1R≥0 ×[1,2] (x, y).
Allora si ha
" "
3
E [X] = xγ(X,Y ) (x, y)dxdy = log 2, E [Y ] = yγ(X,Y ) (x, y)dxdy =
R2 R2 2
e "
3 3

cov(X, Y ) = (x − log 2) y − γ(X,Y ) (x, y)dxdy = 1 − log 2.
R2 2 2
In questa sezione usiamo le seguenti notazioni:
- eX := E [X] per l’attesa di X;
- σXY := cov(X, Y ) := e(X−eX )(Y −eY ) = eXY − eX eY per la covarianza di X, Y ;
p
- σX = var(X) per la deviazione standard di X, dove
var(X) = cov(X, X) = e(X−eX )2 = eX 2 − (eX )2 .
Osserviamo che:
i) per ogni c ∈ R si ha h i h i
var(X) = E (X − E [X])2 ≤ E (X − c)2
e vale l’uguaglianza se e solo se c = E [X]. Infatti

h i h i
E (X − c)2 = E (X − eX + eX − c)2
= σX2 + 2 E [X − eX ](eX − c) + (eX − c)2 = σX2 + (eX − c)2 ≥ σX2 .
| {z }
=0
ii) Se σX > 0 si può sempre “normalizzare” la v.a. X ponendo
X − eX
Z= ,
σX
in modo che E [Z] = 0 e var(Z) = 1.
iii) Vale
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ). (3.2.19)
Se cov(X, Y ) = 0 si dice che le v.a. X, Y sono scorrelate.
iv) La covarianza cov(·, ·) è un operatore bilineare e simmetrico su L2 (Ω, P )×L2 (Ω, P ), ossia per ogni X, Y , Z ∈
L2 (Ω, P ) e α, β ∈ R vale
cov(X, Y ) = cov(Y , X) e cov(αX + βY , Z) = αcov(X, Z) + βcov(Y , Z).
p
v) Per la disuguaglianza di Cauchy-Schwarz (3.2.18) si ha |cov(X, Y )| ≤ var(X)var(Y ) ossia
|σXY | ≤ σX σY (3.2.20)
q.c.
e si ha l’uguaglianza nella (3.2.20) se e solo se Y è funzione lineare di X nel senso che Y = āX + b̄: nel
caso in cui σX > 0, le costanti ā e b̄ sono date da
σXY σXY
ā = , b̄ = eY − eX . (3.2.21)
σX2 σX2
Come vedremo nella Sezione 3.2.9, la retta di equazione y = āx + b̄ è detta retta di regressione, e
intuitivamente fornisce una rappresentazione della dipendenza lineare fra due campioni di dati.
Definizione 3.2.43 (Correlazione). Siano X, Y ∈ L2 (Ω, P ) tali che σX , σY > 0. Il coefficiente di correlazione di
X, Y è definito da
σ
ϱXY := XY .
σX σY
q.c.
Dalla (3.2.20) segue che ϱXY ∈ [−1, 1] e |ϱXY | = 1 se e solo se Y = āX + b̄: si noti che ā > 0 se ϱXY = 1 e ā < 0
se ϱXY = −1. Dunque il coefficiente di correlazione misura il grado di dipendenza lineare fra X e Y .
Sia ora X = (X1 , . . . , Xd ) ∈ L2 (Ω, P ) una v.a. a valori in Rd . La matrice di covarianza di X è la matrice d × d
simmetrica
cov(X) = σXi Xj = E (X − E [X]) (X − E [X])∗ ,
i,j=1,...,d | {z } | {z }
d×1 1×d
dove M∗ indica la trasposta della matrice M. Poiché
2
⟨cov(X)y, y⟩ = E (X − E [X])∗ y ≥ 0, y ∈ Rd ,
la matrice di covarianza è semi-definita positiva. Si noti che gli elementi della diagonale sono le varianze σX2i
per i = 1, . . . , d. Se σXi > 0 per ogni i = 1, . . . , d, definiamo la matrice di correlazione in modo analogo:

ϱ(X) = ϱXi Xj .
i,j=1,...,d
La matrice ϱ(X) è simmetrica, semi-definita positiva e gli elementi della diagonale sono uguali a uno: per
esempio nel caso d = 2, posto ϱ = ϱX1 X2 si ha
σX21
! !
1 ϱ ϱ σX1 σX2
ϱ(X) = cov(X) = .
ϱ 1 ϱ σX1 σX2 σX22
Infine se A è una matrice costante N × d e b ∈ RN , allora la v.a. aleatoria Z := AX + b a valori in RN ha media
E [Z] = AE [X] + b,
e matrice di covarianza
cov(Z) = E [(AX + b − E [AX + b]) (AX + b − E [AX + b])∗ ] = Acov(X)A∗ .
Osservazione 3.2.44 (Decomposizione di Cholesky). [!] Una matrice simmetrica e semi-definita positiva
C si può fattorizzare nella forma C = AA∗ : ciò segue dal fatto che, per il Teorema spettrale,
√ C=U ∗
√DU con
−1 ∗ ∗
U ortogonale (ossia tale U = U ) e D matrice diagonale; dunque basta porre A = U DU dove D indica
la matrice diagonale i cui elementi sono le radici quadrate degli elementi di D (che sono reali non-negativi,
essendo C simmetrica e semi-definita positiva).
La fattorizzazione C = AA∗ non è unica: l’algoritmo di Cholesky permette di determinare una matrice
triangolare inferiore A per cui valga C = AA∗ . Per esempio, data la matrice di correlazione in dimensione
due !
1 ϱ
C=
ϱ 1
si ha la fattorizzazione di Cholesky C = AA∗ dove
!
1 p 0
A= .
ϱ 1 − ϱ2
3.2.9 Regressione lineare

In Statistica, si ha spesso a che fare con serie storiche (o campioni) di dati che forniscono la dinamica di
un certo fenomeno nel tempo (per esempio, una temperatura, il prezzo di un titolo finanziario, il numero
dei dipendenti di un’azienda etc.). Nel caso di dati unodimensionali, una serie storica è un vettore x =
(x1 , . . . , xM ) di RM . Possiamo pensare al vettore x come a una “realizzazione” di una variabile aleatoria
discreta X definita nel modo seguente:
X : IM −→ R, X(i) := xi , i ∈ IM .
Munendo lo spazio campionario IM della probabilità uniforme, media e varianza di X sono date da
M M
1 X 1 X
E [X] = xi , var(X) = (xi − E [x])2 .
M M
i=1 i=1
In Statistica, E [X] e var(X) sono chiamate la media campionaria e la varianza campionaria della serie storica
x e sono spesso indicate con E [x] e var(x) rispettivamente.
Siano ora x = (x1 , . . . , xM ) e y = (y1 , . . . , yM ) due serie storiche. Un semplice strumento per visualizzare
il grado di “dipendenza” fra x e y è il cosiddetto grafico di dispersione: in esso si rappresentano sul piano
cartesiano i punti di coordinate (xi , yi )i∈IM . Un esempio è dato in Figura 3.6.
30
30
25
20
20
10 15
10
Bologna
Jan Mar May Jul Sep Nov Jan -5 5 10 15 20 25 30
Figura 3.6: A sinistra: temperature nell’anno 2012 di Bologna (linea continua) e Città del Capo (linea
tratteggiata). A destra: grafico di dispersione delle temperature nell’anno 2012 di Bologna (in ascissa) e
Città del Capo (in ordinata).
La retta di regressione, tracciata nel grafico di dispersione in Figura 3.6, è la retta di equazione y = ax + b
dove a, b minimizzano le differenze fra axi + b e yi nel senso che rendono minimo l’errore quadratico
M
X
Q(a, b) = (axi + b − yi )2 .
i=1
Annullando il gradiente
XM M
X
(∂a Q(a, b), ∂b Q(a, b)) = 2 (axi + b − yi ) xi , 2 (axi + b − yi )
i=1 i=1
si determinano a, b: precisamente un semplice conto mostra che

σxy σxy
a= , b = E [y] − E [x] , (3.2.22)
σx2 σx2
dove σx2 = var(x) e

M
1 X
σxy = cov(x, y) = (xi − E [x]) (yi − E [y])
M
i=1
è la covarianza campionaria (o empirica) di x e y. Si noti l’analogia con le formule (3.2.21).

La covarianza σxy è proporzionale e ha lo stesso segno del coefficiente angolare della retta di regressione.
σxy è un indicatore della dipendenza lineare fra x e y: se σxy = 0, ossia x e y sono campioni scorrelati, non
c’è dipendenza lineare (ma potrebbe esserci dipendenza di altro tipo); se σxy > 0 i campioni dipendono
linearmente in modo positivo, la retta di regressione è crescente e questo indica che y tende a crescere al
crescere di x.
La quantità
σxy
ϱxy =
σx σy
è detta correlazione campionaria (o empirica) fra x e y. La correlazione ha il vantaggio di essere invariante
per cambi di scala: per ogni α, β > 0 la correlazione fra αx e βy è uguale alla correlazione fra x e y. Per la
disuguaglianza di Cauchy-Schwarz, si ha ϱxy ∈ [−1, 1]. Inoltre ϱxy = ±1 se e solo se Q(a, b) = 0 con a, b come
in (3.2.22).
3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta

In questa sezione consideriamo un vettore di v.a. X = (X1 , . . . , Xn ) sullo spazio (Ω, F , P ) ed esaminiamo
la relazione fra X e le sue componenti. Assumiamo che
Xi : Ω −→ Rdi , i = 1, . . . , n,
con di ∈ N e poniamo d = d1 + · · · + dn .
Notazione 3.2.45. Al solito indichiamo con µX e FX rispettivamente la distribuzione e la funzione di
ripartizione (CDF) di X. Esamineremo con particolare attenzione i casi in cui:
i) X è assolutamente continua: in tal caso indichiamo con γX la sua densità (che è definita univocamente
a meno di insiemi Lebesgue-trascurabili);
ii) X è discreta: in tal caso indichiamo con µ̄X la sua funzione di distribuzione definita da µ̄X (x) = P (X =
x).
Nel seguito useremo sempre notazioni vettoriali: in particolare, se x, y ∈ Rd allora x ≤ y significa xi ≤ yi per
ogni i = 1, . . . , d, e
] − ∞, x] := ] − ∞, x1 ] × · · · × ] − ∞, xd ].
Definizione 3.2.46. Si dice che µX e FX sono rispettivamente la distribuzione congiunta e la CDF congiunta
delle v.a. X1 , . . . , Xn . Analogamente, nel caso esistano, γX e µ̄X sono la densità congiunta e la funzione di
distribuzione congiunta di X1 , . . . , Xn .
Viceversa, le distribuzioni µXi , i = 1, . . . , n, delle v.a. X1 , . . . , Xn sono dette distribuzioni marginali di X.
Analogamente si parla di CDF marginali, densità marginali e funzioni di distribuzione marginali di X.
La seguente proposizione mostra che dalla congiunta si possono ricavare facilmente le marginali. Nel-
l’enunciato, per semplificare le notazioni, consideriamo solo le marginali per la prima componente X1 ma
un risultato analogo è valido per ogni componente.
Proposizione 3.2.47. [!] Sia X = (X1 , . . . , Xn ) una v.a. Si ha:
µX1 (H) = µX (H × Rd−d1 ), H ∈ Bd1 , (3.2.23)

d1
FX1 (x1 ) = FX (x1 , +∞, . . . , +∞), x1 ∈ R .
Inoltre, se X ∈ AC allora X1 ∈ AC e
Z
γX1 (x1 ) := γX (x1 , x2 , . . . , xn )dx2 · · · dxn , x1 ∈ Rd1 (3.2.24)
Rd−d1
è una densità di X1 . Se X è discreta allora X1 è discreta e si ha

X
µ̄X1 (x1 ) = µ̄X (x1 , x2 , . . . , xn ), x1 ∈ Rd1 . (3.2.25)
(x2 ,...,xn )∈Rd−d1
Dimostrazione. Basta osservare che
µX1 (H) = P (X1 ∈ H) = P (X ∈ H × Rd−d1 ) = µX (H × Rd−d1 ), H ∈ Bd1 .
Prendendo H = ] − ∞, x1 ] si dimostra la seconda uguaglianza. Inoltre, se X ∈ AC, per la (3.2.23) si ha
P (X1 ∈ H) = P (X ∈ H × Rd−d1 )
Z
= γX (x)dx =
H×Rd−d1
(per il classico Teorema di Fubini per l’integrale di Lebesgue, essendo γX non-negativa)

Z Z !
= γX (x1 , . . . , xn )dx2 · · · dxn dx1
H Rd−d1
che prova la (3.2.24). Infine si ha
µ̄X1 (x1 ) = P (X1 = x1 ) = P (X ∈ {x1 } × Rd−d1 ) =
(per la (2.4.3))
X X
= µ̄X (x) = µ̄X (x1 , x2 , . . . , xn ).
x∈{x1 }×Rd−d1 (x2 ,...,xn )∈Rd−d1
Osservazione 3.2.48 (Criterio di Sylvester). Ricordiamo che una matrice C di dimensione d × d è detta
definita positiva se vale
⟨Cx, x⟩ > 0, x ∈ Rd \ {0}.
In base all’utile criterio di Sylvester, una matrice reale simmetrica C è definita positiva se e solo se dk > 0
per ogni k = 1, . . . , d, dove dk indica il determinante della matrice ottenuta cancellando da C le ultime d − k
righe e le ultime d − k colonne.
Esempio 3.2.49. [!] Consideriamo una matrice simmetrica e definita positiva

!
v1 c
C= .
c v2
Per il criterio di Sylvester si ha

v1 > 0 e det C = v1 v2 − c2 > 0.
Allora C è invertibile con !
1 v2 −c
C−1 =
v1 v2 − c2 −c v1
e la funzione Gaussiana bidimensionale
1 1 −1
Γ (x) = √ e− 2 ⟨C x,x⟩ , x ∈ R2 ,
2π det C
3.3. INDIPENDENZA 129
è una densità poiché è una funzione positiva e vale

Z
Γ (x)dx = 1.
R2
La funzione Γ è detta densità della distribuzione normale bidimensionale: se X = (X1 , X2 ) ha densità Γ allora si
dice che X ha distribuzione normale bidimensionale e si scrive X ∼ N0,C .
In base alla Proposizione 3.2.47 le densità marginali di X1 e X2 sono rispettivamente
Z x 2
1 − 1
γX1 (x1 ) = Γ (x1 , x2 )dx2 = √ e 2v1 , x1 ∈ R,
R 2πv1
x2
Z
1 − 2
γX2 (x2 ) = Γ (x1 , x2 )dx1 = √ e 2v2 , x2 ∈ R,
R 2πv2
ossia X1 ∼ N0,v1 e X2 ∼ N0,v2 , indipendentemente dal valore di c ∈ R. D’altra parte vale

Z
cov(X1 , X2 ) = E [(X1 − E [X1 ])(X2 − E [X2 ])] = x1 x2 Γ (x1 , x2 )dx1 dx2 = c.
R2
Dunque la distribuzione congiunta fornisce informazioni non solo sulle singole distribuzioni marginali, ma
anche sulle relazioni fra le diverse componenti di X. Al contrario, a partire dalla conoscenza delle distribuzioni
marginali, X1 ∼ N0,v1 e X2 ∼ N0,v2 , non si può dire nulla sulla covarianza di X1 , X2 : in generale, non è
possibile ricavare la distribuzione congiunta dalle marginali. Al riguardo si veda anche l’Esempio 3.3.24.
3.3 Indipendenza
Nella teoria della probabilità, una delle questioni di maggior interesse teorico e applicativo riguarda l’e-
sistenza e il grado di dipendenza fra quantità aleatorie. Per esempio, abbiamo già visto che la correlazione
è un indice di un particolare tipo di dipendenza, quella lineare, fra variabili aleatorie. In questo paragra-
fo diamo una trattazione generale dell’argomento introducendo i concetti di dipendenza deterministica e
indipendenza stocastica.
3.3.1 Dipendenza deterministica e indipendenza stocastica

In questa prima sezione, per semplicità, ci limitiamo a considerare il caso di due v.a. reali X, Y sullo
spazio (Ω, F , P ). Poiché useremo sistematicamente il concetto di σ -algebra generata da X, ne ricordiamo la
definizione:
σ (X) = X −1 (B) = {(X ∈ H) | H ∈ B}.
Definizione 3.3.1. Diciamo che:
i) X e Y sono stocasticamente indipendenti in P se gli eventi (X ∈ H) e (Y ∈ K) sono indipendenti in P

per ogni H, K ∈ B. In altri termini, X e Y sono indipendenti in P se lo sono le rispettive σ -algebre
generate, nel senso che gli elementi di σ (X) e σ (Y ) sono a due a due indipendenti in P ;
ii) X dipende in modo deterministico da Y se sussiste la seguente inclusione
σ (X) ⊆ σ (Y ), (3.3.1)
ossia se X è σ (Y )-misurabile e in tal caso si scrive X ∈ mσ (Y ).

Osservazione 3.3.2. [!] Siano Y una v.a. e f ∈ mB. Come visto in (3.1.1), vale

σ (f (Y )) = (f ◦ Y )−1 (B) = Y −1 f −1 (B) ⊆ Y −1 (B) = σ (Y ).
da cui
σ (f (Y )) ⊆ σ (Y ). (3.3.2)
Quindi X := f (Y ) dipende in modo deterministico da Y . Dall’inclusione (3.1.9) si deduce anche il seguente
utile risultato: se f , g ∈ mB e X, Y sono v.a. indipendenti, allora anche le v.a. f (X), g(Y ) sono indipendenti.
Il seguente teorema chiarisce il significato dell’inclusione (3.3.1), caratterizzandola in termini di dipen-

denza funzionale di X da Y .
Teorema 3.3.3 (Teorema di Doob). [!!] Siano X, Y v.a. reali su (Ω, F , P ). Allora X ∈ mσ (Y ) se e solo se
esiste f ∈ mB tale che X = f (Y ).
Osservazione 3.3.4. Il Teorema di Doob rimane valido (con dimostrazione pressoché identica) nel caso in
cui X sia a valori in Rd e Y sia a valori in un generico spazio misurabile (E, E ). L’enunciato generale è il
seguente: X ∈ mσ (Y ) se e solo se esiste una funzione misurabile14 f : E −→ Rd tale che X = f (Y ).
X

(Ω, F ) Rd , Bd
Y f
(E, E )
Dimostrazione del Teorema 3.3.3. Se X = f (Y ) con f ∈ mB allora X ∈ mσ (Y ): ciò segue direttamente dalla
(3.3.2). Viceversa, sia X ∈ mσ (Y ). Utilizzando una trasformazione del tipo
1 1
Z= + arctan X
2 π
non è restrittivo assumere che X sia a valori in ]0, 1[.
Consideriamo prima il caso in cui X è semplice, ossia X assume solo i valori distinti x1 , . . . , xm ∈ ]0, 1[ e
quindi si scrive nella forma
X m
X= xk 1(X=xk ) .
k=1
Per ipotesi, si ha (X = xk ) = (Y ∈ Hk ) con Hk ∈ B, k = 1, . . . , m. Allora posto

m
X
f (y) = xk 1Hk (y), y ∈ R,
k=1
si ha
m
X m
X m
X
f (Y ) = xk 1Hk (Y ) = xk 1(Y ∈Hk ) = xk 1(X=xk ) = X.
k=1 k=1 k=1
Consideriamo ora il caso generale in cui X assume valori in ]0, 1[: per il Lemma 3.2.3 esiste una
successione (Xn )n≥1 di v.a. semplici e σ (Y )-misurabili tali che
0 ≤ Xn (ω) ↗ X(ω), ω ∈ Ω. (3.3.3)

14 f ∈ mE , ossia f −1 (H) ∈ E per ogni H ∈ B .
d
Per quanto provato nel punto precedente, si ha Xn = fn (Y ) con fn ∈ mB a valori in [0, 1[. Definiamo
f (y) := lim sup fn (y), y ∈ R.

n→∞
Allora f ∈ mB (cfr. Proposizione 3.1.8) è limitata e per la (3.3.3) si ha
X(ω) = lim Xn (ω) = lim fn (Y (ω)) = f (Y (ω)), ω ∈ Ω.

n→∞ n→∞
Corollario 3.3.5. Siano X, Y , Z v.a. reali su (Ω, F , P ) con X ≥ Z. Se X, Z ∈ mσ (Y ) esistono f , g ∈ mB tali che
X = f (Y ), Z = g(Y ) e f ≥ g.
Dimostrazione. Nel caso Z ≡ 0 la tesi è conseguenza della costruzione di f fatta nella dimostrazione del
Teorema 3.3.3. Nel caso generale, poiché 0 ≤ X − Z ∈ mσ (Y ) esiste 0 ≤ h ∈ mB tale che X − Z = h(Y ). Inoltre
esiste f ∈ mσ (Y ) tale che Z + h(Y ) = X = f (Y ) e quindi Z = (f − h)(Y ) con f ≥ f − h ∈ mσ (Y ).
Per capire il concetto di dipendenza deterministica si esamini attentamente il seguente
Esercizio 3.3.6. [!] Consideriamo Ω = {1, 2, 3} e le v.a. X, Y di Bernoulli definite su Ω nel modo seguente
 
1 se ω ∈ {1, 2}, 1 se ω = 1,

 

X(ω) =  Y (ω) =
0 se ω = 3, 0 se ω ∈ {2, 3}.
 

Notiamo che
σ (X) = {∅, Ω, {1, 2}, {3}}, σ (Y ) = {∅, Ω, {1}, {2, 3}}.
i) Verificare direttamente che non esiste una funzione f tale che X = f (Y ).
ii) Le v.a. X e Y sono indipendenti rispetto alla probabilità uniforme?
iii) Esiste una misura di probabilità su Ω rispetto alla quale X e Y sono indipendenti?
Soluzione.
i) Se esistesse una tale funzione f allora si avrebbe
1 = X(2) = f (Y (2)) = f (0) = f (Y (3)) = X(3) = 0
che è assurdo. Dunque fra X e Y non c’è dipendenza deterministica. Notiamo che, in accordo col Teorema 3.3.3, non sussistono
relazioni di inclusione fra σ (X) e σ (Y ).
ii) X e Y non sono indipendenti nella probabilità uniforme perché gli eventi (X = 1) = {1, 2} e (Y = 0) = {2, 3} non sono
indipendenti in quanto
1
P ((X = 1) ∩ (Y = 0)) = P ({2}) =
3
ma
4
P (X = 1)P (Y = 0) = .
9
iii) Sı̀, per esempio la probabilità definita da P (1) = P (3) = 0 e P (2) = 1: più in generale, X e Y sono indipendenti rispetto
ad una probabilità tipo Delta di Dirac centrata in 1 o 2 o 3 (si veda al riguardo il punto i) dell’esercizio seguente).
Osservazione 3.3.7. [!] L’Esercizio 3.3.6 ci permette di ribadire che il concetto di indipendenza stocastica
è sempre relativo ad una particolare misura di probabilità fissata. Al contrario, la dipendenza deterministica
è una proprietà generale che non dipende dalla misura di probabilità considerata. In particolare, i concetti di
indipendenza stocastica e di dipendenza deterministica non sono “uno il contrario dell’altro”. Fra l’altro,
la dipendenza deterministica “va in una direzione”: se X dipende in modo deterministico da Y non è detto
che Y dipenda in modo deterministico da X.
Esercizio 3.3.8. Siano X, Y v.a. discrete su (Ω, P ). Provare le seguenti affermazioni:

q.c.
i) se X è costante quasi certamente, X = c, allora X, Y sono indipendenti;
ii) sia
f : X(Ω) −→ R
una funzione iniettiva. Allora X e f (X) sono indipendenti in P se e solo se X è costante q.c.
Soluzione.
i) Osservando che P (X ∈ H) ∈ {0, 1} per ogni H ∈ B, non è difficile provare la tesi.
ii) È sufficiente provare che se X e f (X) sono indipendenti allora X è costante q.c. Sia y ∈ X(Ω): essendo f iniettiva si ha
(X = y) = (f (X) = f (y)) o più esplicitamente
{ω ∈ Ω | X(ω) = y} = {ω ∈ Ω | f (X(ω)) = f (y)}.
Allora si ha
P (X = y) = P (X = y) ∩ (f (X) = f (y)) = P (X = y)P (f (X) = f (y)) = P (X = y)2
da cui segue P (X = y) ∈ {0, 1} e dunque la tesi.
3.3.2 Misura prodotto e Teorema di Fubini

Per studiare in maniera più approfondita il concetto di indipendenza stocastica fra due o più variabili
aleatorie, presentiamo alcuni risultati preliminari sul prodotto di misure che svolgeranno un ruolo centrale
nel seguito. Dati due spazi misurabili finiti (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 ), consideriamo il prodotto cartesiano
Ω := Ω1 × Ω2 = {(x, y) | x ∈ Ω1 , y ∈ Ω2 },
e la famiglia dei rettangoli definita nel modo seguente
R := {A × B | A ∈ F1 , B ∈ F2 }.
Indichiamo con
F1 ⊗ F2 := σ (R)
la σ -algebra generata dai rettangoli, anche chiamata σ -algebra prodotto di F1 e F2 . Vale la seguente
generalizzazione del Corollario 3.1.6 e dell’Osservazione 3.1.9.
Corollario 3.3.9. Per k = 1, 2, siano Xk : Ωk −→ R funzioni sugli spazi misurabili (Ωk , Fk ). Le seguenti
proprietà sono equivalenti:
i) (X1 , X2 ) ∈ m(F1 ⊗ F2 );
ii) Xk ∈ mFk per k = 1, 2.
Inoltre, se vale i) o ii) allora per ogni f ∈ mB2 si ha che f (X1 , X2 ) ∈ m(F1 ⊗ F2 ).
Osservazione 3.3.10. Ogni disco di R2 è unione numerabile di rettangoli e di conseguenza B ⊗ B = B2 . Al
contrario, se Ld indica la σ -algebra dei misurabili secondo Lebesgue in Rd , allora L1 ⊗ L1 è strettamente
incluso in L2 . Infatti, per esempio, se H ⊆ R non è misurabile secondo Lebesgue, allora H × {0} ∈ L2 \
(L1 ⊗ L1 ).
Lemma 3.3.11. Sia
f : Ω1 × Ω2 −→ R
una funzione F1 ⊗ F2 -misurabile e limitata. Allora si ha:
i) f (·, y) ∈ mF1 per ogni y ∈ Ω2 ;
ii) f (x, ·) ∈ mF2 per ogni x ∈ Ω1 .

Dimostrazione. Sia H la famiglia delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i)
e ii). Allora H è una famiglia monotona di funzioni (cfr. Definizione A.1.7). La famiglia R è ∩-chiusa,
genera F1 ⊗ F2 ed è chiaro che 1A×B ∈ H per ogni (A × B) ∈ R. Allora la tesi segue dal secondo Teorema di
Dynkin (Teorema A.1.8).
Osservazione 3.3.12. Il classico Teorema di Fubini per l’integrale di Lebesgue afferma che se f = f (x, y) ∈
mL2 (ossia f è misurabile rispetto alla σ -algebra L2 dei Lebesgue-misurabili di R2 ) allora f (x, ·) ∈ mL1 per
quasi ogni x ∈ R. Si noti la differenza rispetto al Lemma 3.3.11 in cui si afferma che “f (x, ·) ∈ mF2 per ogni
x ∈ Ω1 ”. Ciò è dovuto al fatto che, come abbiamo già osservato, L1 ⊗ L1 è strettamente incluso in L2 . Per
maggiori dettagli rimandiamo alla sezione “Completion of product measure”, Cap.8 in [107].
Lemma 3.3.13. Se f è una funzione F1 ⊗ F2 -misurabile e limitata allora si ha:
R
i) x 7→ f (x, y)µ2 (dy) ∈ mF1 ;
Ω2
R
ii) y 7→ f (x, y)µ1 (dx) ∈ mF2 ;
Ω1
iii) vale Z Z ! Z Z !
f (x, y)µ2 (dy) µ1 (dx) = f (x, y)µ1 (dx) µ2 (dy).
Ω1 Ω2 Ω2 Ω1
Dimostrazione. Come nel lemma precedente, la tesi segue dal secondo Teorema di Dynkin applicato alla
famiglia H delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i), ii) e iii). Infatti H è
una famiglia monotona di funzioni e 1A×B ∈ H per ogni (A × B) ∈ R.
Proposizione 3.3.14 (Misura prodotto). La funzione definita da
Z Z ! Z Z !
µ(H) := 1H dµ2 dµ1 = 1H dµ1 dµ2 , H ∈ F1 ⊗ F2 ,
Ω1 Ω2 Ω2 Ω1
è l’unica misura finita su F1 ⊗ F2 tale che
µ(A × B) = µ1 (A)µ2 (B), A ∈ F1 , B ∈ F2 .
Scriviamo µ = µ1 ⊗ µ2 e diciamo che µ è la misura prodotto di µ1 e µ2 .

Dimostrazione. Il fatto che µ sia una misura segue dalla linearità dell’integrale e dal Teorema di Beppo-Levi.
L’unicità segue dal Corollario A.1.5, poiché R è ∩-chiusa e genera F1 ⊗ F2 .
Teorema 3.3.15 (Teorema di Fubini). [!!!] Sullo spazio prodotto (Ω1 × Ω2 , F1 ⊗ F2 , µ1 ⊗ µ2 ), sia f una
funzione (F1 ⊗ F2 )-misurabile a valori reali. Se f è non-negativa oppure sommabile (ossia, f ∈ L1 (Ω1 ×
Ω2 , µ1 ⊗ µ2 )) allora si ha:
Z Z Z !
f d(µ1 ⊗ µ2 ) = f (x, y)µ2 (dy) µ1 (dx)
Ω1 ×Ω2 Ω1 Ω2
Z Z ! (3.3.4)
= f (x, y)µ1 (dx) µ2 (dy).
Ω2 Ω1
Dimostrazione. La (3.3.4) è vera se f = 1A×B e quindi, per il secondo Teorema di Dynkin, anche per f
misurabile e limitata. Il Teorema di Beppo-Levi e la linearità dell’integrale assicurano la validità di (3.3.4)
rispettivamente per f non-negativa e f ∈ L1 .
Osservazione 3.3.16. Il Teorema 3.3.15 resta valido sotto l’ipotesi che gli spazi (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 )
siano σ -finiti. A partire dal Teorema 3.3.15, si definisce per induzione la misura prodotto di più di due
misure
µ1 ⊗ · · · ⊗ µn .
Esempio 3.3.17. Sia µ = Expλ ⊗ Bep la misura prodotto su R2 delle distribuzioni esponenziale Expλ e di
Bernoulli Bep . Per il Teorema di Fubini, il calcolo dell’integrale di f ∈ L1 (R2 , µ) si svolge nel modo seguente:
" Z Z !
f (x, y)µ(dx, dy) = f (x, y)Bep (dy) Expλ (dx)
R2 R R
Z
= (pf (x, 1) + (1 − p)f (x, 0)) Expλ (dx)
R
Z +∞ Z +∞
= pλ f (x, 1)e−λx dx + (1 − p)λ f (x, 0)e−λx dx.
0 0
3.3.3 Indipendenza fra σ -algebre

Poiché la definizione generale di indipendenza di v.a. è data in termini di indipendenza delle relative
σ -algebre generate, esaminiamo prima il concetto di indipendenza fra σ -algebre. Nel seguito (Ω, F , P ) è
uno spazio di probabilità fissato e I è una qualsiasi famiglia di indici.
Definizione 3.3.18. Diciamo che le famiglie di eventi Fi , con i ∈ I, sono indipendenti in P se vale
 n  n
\  Y
P  Ak  =

 
 P (Ak ),
k=1 k=1
per ogni scelta di un numero finito di indici i1 , . . . , in e Ak ∈ Fik per k = 1, . . . , n.
Esercizio 3.3.19. Sia σ (A) = {∅, Ω, A, Ac } la σ -algebra generata da A ∈ F . Dimostrare che A1 , . . . , An ∈ F

sono indipendenti in P (cfr. Definizione 2.3.27) se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .
A volte può essere utile il seguente corollario del Teorema di Dynkin.
Lemma 3.3.20. Siano A1 , . . . , An famiglie di eventi in (Ω, F , P ), chiuse rispetto all’intersezione. Allora
A1 , . . . , An sono indipendenti in P se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .
Dimostrazione. Proviamo il caso n = 2: la dimostrazione generale è analoga. Fissiamo A ∈ A1 e definiamo

le misure finite
µ(B) = P (A ∩ B), ν(B) = P (A)P (B), B ∈ σ (A2 ).
Per ipotesi µ = ν su A2 e inoltre µ(Ω) = P (A) = ν(Ω), quindi per il Corollario A.1.5 µ = ν su σ (A2 ) o, in altri
termini
P (A ∩ B) = P (A)P (B), B ∈ σ (A2 ).
Ora fissiamo B ∈ σ (A2 ) e definiamo le misure finite
µ(B) = P (A ∩ B), ν(B) = P (A)P (B), A ∈ σ (A1 ).
Abbiamo provato che µ = ν su A1 e ovviamente µ(Ω) = P (B) = ν(Ω), quindi ancora per il Corollario A.1.5
si ha µ = ν su σ (A1 ) che equivale alla tesi.
3.3.4 Indipendenza fra vettori aleatori

Assumiamo le ipotesi e notazioni della Sezione 3.2.10 e introduciamo l’importante concetto di indipen-
denza fra v.a.
Definizione 3.3.21 (Indipendenza di v.a.). Diciamo che le v.a. X1 , . . . , Xn , definite sullo spazio (Ω, F , P ),
sono indipendenti in P se le relative σ -algebre generate σ (X1 ), . . . , σ (Xn ) sono indipendenti in P o, equiva-
lentemente, se vale  n 
\  Yn
P  (Xi ∈ Hi ) =
 P (Xi ∈ Hi ), Hi ∈ Bdi , i = 1, . . . , n.
i=1 i=1
Osservazione 3.3.22. [!] Come conseguenza della (3.3.2), se X1 , . . . , Xn sono v.a. indipendenti su (Ω, F , P ) e
f1 , . . . , fn ∈ mB allora anche le v.a. f1 (X1 ), . . . , fn (Xn ) sono indipendenti in P : in altri termini, la proprietà di in-
dipendenza è invariante per trasformazioni di tipo deterministico (nello specifico, l’operazione di composizione
con funzioni misurabili).
Per esempio, supponiamo che X1 , . . . , Xn , Y1 , . . . , Ym siano v.a. reali e X := (X1 , . . . , Xn ) e Y := (Y1 , . . . , Ym )
siano indipendenti. Allora sono indipendenti anche le seguenti coppie di variabili aleatorie15
i) Xi e Yj per ogni i e j;
ii) Xi1 + Xi2 e Yj1 + Yj2 per ogni i1 , i2 , j1 , j2 ;
iii) Xi2 e Y per ogni i.
Il seguente risultato fornisce un’importante caratterizzazione della proprietà di indipendenza. Esso

mostra anche che, nel caso di v.a. indipendenti, la distribuzione congiunta può essere ricavata dalle distribuzioni
marginali. Per chiarezza d’esposizione, enunciamo prima il risultato nel caso particolare di due v.a. e in
seguito diamo il risultato generale.
Teorema 3.3.23. [!!] Siano X1 , X2 v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 e Rd2 . Le seguenti tre
proprietà sono equivalenti:
i) X1 , X2 sono indipendenti in P ;
ii) F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 )FX2 (x2 ) per ogni x1 ∈ Rd1 e x2 ∈ Rd2 ;
iii) µ(X1 ,X2 ) = µX1 ⊗ µX2 .
Inoltre, se (X1 , X2 ) ∈ AC allora le proprietà precedenti sono anche equivalenti a:
iv) per quasi ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale
γ(X1 ,X2 ) (x1 , x2 ) = γX1 (x1 )γX2 (x2 ). (3.3.5)
Infine, se (X1 , X2 ) è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:
v) per ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale
µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ). (3.3.6)
Dimostrazione. [i) =⇒ ii)] Si ha
F(X1 ,X2 ) (x1 , x2 ) = P ((X1 ≤ x1 ) ∩ (X2 ≤ x2 )) =

15 Per esercizio determinare le funzioni misurabili con cui si compongono X e Y .
(per l’ipotesi di indipendenza)
= P (X1 ≤ x1 )P (X2 ≤ x2 ) = FX1 (x1 )FX2 (x2 ).
[ii) =⇒ iii)] L’ipotesi F(X1 ,X2 ) = FX1 FX2 implica che le distribuzioni µ(X1 ,X2 ) e µX1 ⊗ µX2 coincidono sulla
famiglia dei pluri-intervalli ] − ∞, x1 ]× ] − ∞, x2 ]: la tesi segue dall’unicità dell’estensione della misura del
Teorema 2.4.29 di Carathéodory (oppure si veda il Corollario A.1.5, poiché la famiglia dei pluri-intervalli
è ∩-chiusa e genera Bd1 +d2 ).
[iii) =⇒ i)] Per ogni H ∈ Bd1 e K ∈ Bd2 si ha
P ((X1 ∈ H) ∩ (X2 ∈ K)) = µ(X1 ,X2 ) (H × K) =
(poiché per ipotesi µ(X1 ,X2 ) = µX1 ⊗ µX2 )
= µX1 (H)µX2 (K) = P (X1 ∈ H)P (X2 ∈ K)
da cui l’indipendenza di X1 e X2 .
Assumiamo ora che (X1 , X2 ) ∈ AC e quindi, per la Proposizione 3.2.47, anche X1 , X2 ∈ AC.
[i) =⇒ iv)] Per l’ipotesi di indipendenza, si ha
Z Z
P ((X1 , X2 ) ∈ H × K) = P (X1 ∈ H)P (X2 ∈ K) = γX1 (x1 )dx1 γX2 (x2 )dx2 =
H K
(per il Teorema di Fubini e con la notazione x = (x1 , x2 ) per il punto di Rd1 +d2 )
Z
= γX1 (x1 )γX2 (x2 )dx
H×K
e quindi γX1 γX2 è densità di (X1 , X2 ).

[iv) =⇒ i)] Si ha
Z
P ((X1 , X2 ) ∈ H × K) = γ(X1 ,X2 ) (x)dx =
H×K
(per ipotesi)
Z
= γX1 (x1 )γX2 (x2 )dx
H×K
(per il Teorema di Fubini)

Z Z
= γX1 (x1 )dx1 γX2 (x2 )dx2 = P (X1 ∈ H)P (X2 ∈ K),
H K
Infine assumiamo che la v.a. (X1 , X2 ) sia discreta e quindi, per la Proposizione 3.2.47, anche X1 , X2 lo
siano. La dimostrazione è del tutto analoga al caso precedente.
[i) =⇒ v)] Per l’ipotesi di indipendenza, si ha
µ̄(X1 ,X2 ) (x1 , x2 ) = P ((X1 = x1 ) ∩ (X2 = x2 )) = P (X1 = x1 )P (X2 = x2 ) = µ̄X1 (x1 )µ̄X2 (x2 )
da cui la (3.3.6).
[v) =⇒ i)] Si ha
X
P ((X1 , X2 ) ∈ H × K) = µ̄(X1 ,X2 ) (x1 , x2 ) =
(x1 ,x2 )∈H×K
(per ipotesi)
X
= µ̄X1 (x1 )µ̄X2 (x2 ) =
(x1 ,x2 )∈H×K
(essendo i termini della somma non-negativi)

X X
= µ̄X1 (x1 ) µ̄X2 (x2 ) = P (X1 ∈ H)P (X2 ∈ K),
x1 ∈H x2 ∈K
Il seguente esempio mostra due coppie di v.a. con uguali distribuzioni marginali ma diverse distribu-
zioni congiunte.
Esempio 3.3.24. [!] Consideriamo un’urna contenente n palline numerate. Siano:
i) X1 , X2 i risultati di due estrazioni successive con reinserimento;
ii) Y1 , Y2 i risultati di due estrazioni successive senza reinserimento.
È naturale assumere che le v.a. X1 , X2 abbiano distribuzione uniforme Unifn e siano indipendenti: per il
Teorema 3.3.23-v) la funzione di distribuzione congiunta è
1
µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ) = , (x1 , x2 ) ∈ In × In ,
n2
dove, al solito, In = {1, . . . , n}.
La v.a. Y1 ha distribuzione uniforme Unifn ma non è indipendente da Y2 . Per ricavare la funzione
di distribuzione congiunta utilizziamo la conoscenza della probabilità che la seconda estrazione sia y2 ,
condizionata al fatto che la prima pallina estratta sia y1 :

1
 n−1 se y2 ∈ In \ {y1 },


P (Y2 = y2 | Y1 = y1 ) = 
0
 se y2 = y1 .
Allora abbiamo

P (Y1 , Y2 ) = (y1 , y2 ) = P (Y1 = y1 ) ∩ (Y2 = y2 )
= P (Y2 = y2 | Y1 = y1 ) P (Y1 = y1 ) (3.3.7)
da cui 
1

 n(n−1)
 se y1 , y2 ∈ In , y1 , y2 ,
µ̄(Y1 ,Y2 ) (y1 , y2 ) = 
0
 altrimenti.
Sottolineiamo l’importanza del passaggio (3.3.7) in cui, non potendo sfruttare l’indipendenza, abbiamo
usato la formula di moltiplicazione (2.3.5). Avendo µ̄(Y1 ,Y2 ) , possiamo ora calcolare µ̄Y2 mediante la (3.2.25)
della Proposizione 3.2.47: per ogni y2 ∈ In abbiamo
X X 1 1
µ̄Y2 (y2 ) = µ̄(Y1 ,Y2 ) (y1 , y2 ) = = ,
n(n − 1) n
y1 ∈In y1 ∈In \{y2 }
ossia anche Y2 ∼ Unifn . In definitiva Y1 , Y2 hanno distribuzioni marginali uniformi come X1 , X2 , ma

differente distribuzione congiunta.
Il Teorema 3.3.23 si estende al caso di un numero finito di v.a. nel modo seguente:
Teorema 3.3.25. [!!] Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ) e d = d1 + · · · + dn , le seguenti tre proprietà sono equivalenti:
i) X1 , . . . , Xn sono indipendenti in P ;
ii) per ogni x = (x1 , . . . , xn ) ∈ Rd si ha

n
Y
FX (x1 , . . . , xn ) = FXi (xi ); (3.3.8)
i=1
iii) vale
µX = µX1 ⊗ · · · ⊗ µXn .
Inoltre, se X ∈ AC allora le proprietà precedenti sono anche equivalenti a:
iv) per quasi ogni x = (x1 , . . . , xn ) ∈ Rd vale

n
Y
γX (x) = γXi (xi ).
i=1
Infine, se X è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:
v) per ogni x ∈ Rd vale

n
Y
µ̄X (x) = µ̄Xi (xi ).
i=1
Nella Sezione 3.1.1 abbiamo provato che è possibile costruire uno spazio di probabilità su cui è definito
un vettore aleatorio (X1 , . . . , Xn ) con distribuzione assegnata (cfr. Osservazione 3.1.17). Come semplice
conseguenza si ha anche:
Corollario 3.3.26 (Esistenza di v.a. indipendenti). [!]

Siano µk distribuzioni su Rdk , k = 1, . . . , n. Esiste uno spazio di probabilità (Ω, F , P ) su cui sono definite
X1 , . . . , Xn v.a. tali che Xk ∼ µk per k = 1, . . . , n e siano indipendenti in P .
Dimostrazione. Consideriamo la distribuzione prodotto µ = µ1 ⊗ · · · ⊗ µn su Rd con d = d1 + · · · + dn . Per

l’Osservazione 3.1.17, la funzione identità X(ω) = ω è una v.a. su (Rd , Bd , µ) con X ∼ µ. Per il Teorema
3.3.25, le componenti di X verificano la tesi.
Osservazione 3.3.27. Nella dimostrazione precedente la costruzione di numero n di variabili aleatorie in-
dipendenti avviene prendendo come spazio campionario lo spazio Euclideo di dimensione almeno pari a n.
Questo fatto fa intuire che il problema della costruzione di una successione (o, ancor peggio, di una famiglia
non numerabile) di v.a. indipendenti non è altrettanto semplice perché, per analogia, lo spazio campionario
dovrebbe avere dimensione infinita.
3.3.5 Indipendenza e valore atteso

Vediamo un’importante conseguenza del Teorema 3.3.23.
Teorema 3.3.28. [!!] Siano X, Y v.a. reali indipendenti sullo spazio (Ω, F , P ). Se X, Y ≥ 0 oppure X, Y ∈
L1 (Ω, P ) allora si ha
E [XY ] = E [X] E [Y ] .
Z
E [XY ] = xyµ(X,Y ) (d(x, y))
R2
(per la iii) del Teorema 3.3.23)

Z
= xy(µX ⊗ µY )(d(x, y))
R2

Z Z
= xµX (dx) yµY (dy) = E [X] E [Y ] .
R R
Osservazione 3.3.29. Si ricordi che, per l’Esercizio 3.2.36, in generale X, Y ∈ L1 (Ω, P ) non implica XY ∈
L1 (Ω, P ): tuttavia, per il Teorema 3.3.28, ciò è vero se X, Y sono indipendenti.
Corollario 3.3.30. Se X, Y ∈ L2 (Ω, P ) sono indipendenti allora sono scorrelate, ossia si ha
cov(X, Y ) = 0 e var(X + Y ) = var(X) + var(Y ). (3.3.9)
Dimostrazione. Se X, Y sono indipendenti anche Xe := X − E [X] e Y

e := Y − E [Y ] lo sono, per l’Osservazione
3.3.22: quindi si ha h i h i h i
cov(X, Y ) = E X e =E X
eY e E Y e = 0.
Ricordando la (3.2.19), si conclude che vale anche var(X + Y ) = var(X) + var(Y ).
Esempio 3.3.31. Un esempio di v.a. scorrelate ma non indipendenti è il seguente: sia Ω = {0, 1, 2} con la
probabilità uniforme P . Poniamo
 


1 ω = 0, 

0 ω = 0,
 
X(ω) = 0 ω = 1, Y (ω) = 1 ω = 1,
 

 

−1 ω = 2, 0 ω = 2.
 
Allora si ha E [X] = 0 e XY = 0 da cui cov(X, Y ) = E [XY ]−E [X] E [Y ] = 0, ossia X, Y sono scorrelate. Tuttavia
1
P ((X = 1) ∩ (Y = 1)) = 0 e P (X = 1) = P (Y = 1) =
3
e quindi X, Y non sono indipendenti in P .
Esempio 3.3.32. [!] L’esempio precedente mostra che due v.a. scorrelate non sono necessariamente in-
dipendenti. Tuttavia nel caso della distribuzione normale bidimensionale (cfr. Esempio 3.2.49) vale il
seguente risultato: se (X1 , X2 ) ∼ N0,C e cov(X1 , X2 ) = 0 allora X1 , X2 sono indipendenti. Questo segue dal
Teorema 3.3.23-iv e dal fatto che se X1 , X2 sono scorrelate allora la densità congiunta è uguale al prodotto
delle densità marginali. Si noti che l’ipotesi che X1 , X2 abbiano distribuzione congiunta normale è cruciale:
al riguardo si veda l’Esempio 3.5.19.
Esempio 3.3.33. Consideriamo due v.a. indipendenti X ∼ N0,1 e Y ∼ Poissonλ . Per il Teorema 3.3.25, la
distribuzione congiunta di X, Y è
N0,1 ⊗ Poissonλ
e quindi, per ogni funzione misurabile e limitata, si ha

Z
f (x, y) N0,1 ⊗ Poissonλ (dx, dy) =

E [f (X, Y )] =
R2

Z Z
= f (x, y)N0,1 (dx)Poissonλ (dy)
R R
∞ x2
λn e− 2
X Z
−λ
=e f (x, n) √ dx.
n! R 2π
n=0
h i h i
Per esercizio, calcolare E eX+Y e E eXY .
Esempio 3.3.34. Consideriamo la distribuzione uniforme bidimensionale nel caso dei seguenti tre domini:
i) un quadrato: Q = [0, 1] × [0, 1];
ii) un cerchio: C = {(x, y) ∈ R2 | x2 + y 2 ≤ 1};
iii) un triangolo: T = {(x, y) ∈ R2≥0 | x + y ≤ 1}.
[Caso i)] La funzione di densità di (X, Y ) ∼ UnifQ è
γ(X,Y ) = 1[0,1]×[0,1] .
Quindi
Z
1
E [X] = x1[0,1]×[0,1] (x, y)dxdy = ,
R2 2
1 2
Z
1

var(X) = x−1[0,1]×[0,1] (x, y)dxdy = ,
2 2 12
ZR
1 1

cov(X, Y ) = x− y − 1[0,1]×[0,1] (x, y)dxdy = 0,
R2 2 2
e quindi X, Y sono scorrelate. Di più, siccome per la (3.2.24), la densità di X è
Z
γX = 1[0,1]×[0,1] (·, y)dy = 1[0,1]
R
e analogamente γY = 1[0,1] , si ha che X, Y sono indipendenti perché vale la (3.3.5).

[Caso ii)] La funzione di densità di (X, Y ) ∼ UnifC è
1
γ(X,Y ) = 1 .
π C
Quindi
Z
1
E [X] = x1 (x, y)dxdy = 0 = E [Y ] ,
π R2 C
Z
1 1
var(X) = x2 1C (x, y)dxdy = ,
π R2 4
Z
1
cov(X, Y ) = xy1C (x, y)dxdy = 0,
π R2
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 141
e quindi X, Y sono scorrelate. Tuttavia X, Y non sono indipendenti perché, per la (3.2.24), la densità di X è
√
2 1 − x2
Z
1
γX (x) = 1 (x, y)dy = 1[−1,1] (x), x ∈ R,
π R C π
√
2 1−y 2
e analogamente γY (y) = π 1[−1,1] (y): quindi la densità congiunta non è il prodotto delle marginali. In
alternativa, una verifica diretta mostra che
Z √
1 1 4π − 3 3 1

P X≥ = 1 1
(x)1C (x, y)dxdy = =P Y ≥ ,
2 π R2 2 ,+∞ 12π 2
√
1 1 3−3 3+π 1 1

P X≥ ∩ Y≥ = ,P X≥ P Y≥ .
2 2 12π 2 2
Questo esempio, come anche l’Esempio 3.3.31, mostra che la proprietà di indipendenza è più forte della
proprietà di scorrelazione.
[Caso iii)] La funzione di densità di (X, Y ) ∼ UnifT è
γ(X,Y ) = 21T .
Quindi
Z
1
E [X] = 2 x1T (x, y)dxdy = = E [Y ] ,
R2 3
1 2
Z
1

var(X) = 2 1T (x, y)dxdy =
x− ,
R2 3 18
Z
1 1 1

cov(X, Y ) = 2 x− y − 1T (x, y)dxdy = − ,
R2 3 3 36
e dunque X, Y sono negativamente correlate (e perciò non indipendenti). Per la (3.2.24), la densità di X è
Z
γX (x) = 2 1T (x, y)dy = 2(1 − x)1[0,1] (x), x ∈ R.
R
3.4 Distribuzione e valore atteso condizionato ad un evento

In uno spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile, B ∈ F con P (B) > 0. Ricordiamo
che P (· | B) indica la probabilità condizionata a B, che è la misura di probabilità su (Ω, F ) definita da
P (A ∩ B)
P (A | B) = , A ∈ F.
P (B)
Definizione 3.4.1. Sia X una v.a. su (Ω, F , P ) a valori in Rd :

i) la distribuzione di X condizionata a B è la distribuzione di X relativa alla probabilità condizionata
P (· | B): essa è definita da
µX|B (H) := P (X ∈ H | B), H ∈ Bd ;
ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a B è il valore atteso di X rispetto alla probabilità condizio-
nata P (· | B): essa è definita da Z
E [X | B] := XdP (· | B).
Ω
Proposizione 3.4.2. [!] Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
1
E [f (X) | B] = f (X)dP (3.4.1)
P (B) B
Z
= f (x)µX|B (dx). (3.4.2)
Rd
Dimostrazione. È sufficiente provare la (3.4.1) per f = 1H con H ∈ Bd : il caso generale segue dalla proce-
dura standard dell’Osservazione 3.2.21. Essendo 1H (X) = 1(X∈H) , si ha
Z
h i P ((X ∈ H) ∩ B) 1
E 1(X∈H) | B = P (X ∈ H | B) = = 1 (X)dP .
P (B) P (B) B H
Per quanto riguarda la (3.4.2), notiamo che f (X) ∈ L1 (Ω, P (· | B)) poiché, per la (3.4.1), si ha
Z
1
E [|f (X)| | B] ≤ |f (X)| dP < ∞
P (B) Ω
per ipotesi. Allora la (3.4.2) segue dal Teorema 3.2.25 del calcolo della media.
Esercizio 3.4.3. Verificare che se X e B sono indipendenti in P allora
µX|B = µX e E [X | B] = E [X] .
Osservazione 3.4.4. Analogamente al concetto di distribuzione condizionata di X a B, si definisce la densità
condizionata di X a B che indicheremo con γX|B e la CDF condizionata di X a B che indicheremo con FX|B .
La distribuzione condizionata è lo strumento naturale per studiare problemi del tipo seguente.
Esempio 3.4.5. Da un’urna che contiene 90 palline numerate, si estraggono in sequenza e senza reinseri-
mento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il numero della prima e seconda
pallina estratta. Chiaramente si ha µX1 = UnifI90 e sappiamo che anche µX2 = UnifI90 (cfr. Esempio 3.3.24).
Ora aggiungiamo l’informazione che la prima pallina estratta abbia il numero k, ossia condizioniamo
all’evento B = (X1 = k): si ha

1
 89 , se h, k ∈ I90 , h , k,


P (X2 = h | X1 = k) = 
0
 altrimenti,
e quindi
µX2 |X1 =k = UnifI90 \{k} .
In definitiva, l’informazione aggiuntiva data dall’evento B, modifica la distribuzione di X2 .
Utilizzando la (3.4.2), per esercizio si calcoli var(X2 | X1 = k) per verificare che var(X2 | X1 = k) < var(X2 ):
intuitivamente ciò significa che l’incertezza sul valore di X2 diminuisce aggiungendo l’informazione (X1 =
k).
Il resto della sezione contiene altri esempi particolari.
Esempio 3.4.6. Siano T ∼ Expλ e B = (T > t0 ) con λ, t0 ∈ R>0 . Per determinare la distribuzione condizionata
µT |B , calcoliamo la CDF condizionata di T a B o equivalentemente

1 se t ≤ t0 ,


P (T > t | T > t0 ) = 
P (T > t − t0 ) se t > t0 ,

che segue dalla proprietà di assenza di memoria (3.1.10). Ne viene che µT |B è la distribuzione esponenziale
“traslata” che ha per densità
γT |B (t) = λe−λ(t−t0 ) 1[t0 ,+∞[ (t).
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 143
Esempio 3.4.7. Siano X ∈ N0,1 e B = (X ≥ 0). Allora P (B) = e, per H ∈ B, si ha

1
2
Z
P ((X ∈ H) ∩ B) 1 x2
µX|B (H) = P (X ∈ H | B) = = 2P (X ∈ H ∩ R≥0 ) = 2 √ e− 2 dx.
P (B) H∩R≥0 2π
In altri termini, µX|B è una distribuzione assolutamente continua e per ogni H ∈ B si ha

Z r
2 − x2
µX|B (H) = γX|B (x)dx, γX|B (x) := e 2 1R≥0 (x);
H π
per questo motivo la funzione γX|B è anche detta densità di X condizionata a B. Infine per la (3.4.2) si ha
Z +∞
E [X | B] = xµX|B (dx)
0
Z +∞
= xγX|B (x)dx
0
r r
2 2 x=+∞ 2
− x2
= −e = .
π x=0 π
Esempio 3.4.8. Siano X, Y ∼ Bep , con 0 < p < 1, indipendenti e B = (X + Y = 1). Determiniamo:
i) la distribuzione condizionata µX|B ;
ii) media e varianza condizionate, E [X | B] e var(X | B).
Anzitutto sappiamo che X + Y ∼ Bin2,p e quindi P (B) = 2p(1 − p) > 0. Poiché X assume solo i valori 0 e 1,
calcoliamo
P ((X = 0) ∩ (X + Y = 1))
µX|B ({0}) =
2p(1 − p)
P ((X = 0) ∩ (Y = 1))
=
2p(1 − p)
P (X = 0)P (Y = 1) 1
= = .
2p(1 − p) 2
In definitiva µX = Bep ma, indipendentemente dal valore di p, µX|B = Be 1 ossia, condizionatamente all’evento
2
(X + Y = 1), X ha distribuzione di Bernoulli di parametro 12 . Allora, per la (3.4.2) e ricordando le formule
(3.2.12) per media e varianza di una variabile binomiale, si conclude che
1 1
E [X | B] = , var(X | B) = .
2 4
Un’interpretazione concreta è la seguente: come si può rendere equa una moneta truccata (senza pe-
raltro conoscere la probabilità p ∈ ]0, 1[ di ottenere testa)? Il risultato X di un lancio della moneta truccata
ha distribuzione Bep dove T := (X = 1) è l’evento “testa”. In base a quanto visto sopra, per rendere equa
la moneta è sufficiente lanciarla due volte, considerando valido il lancio solo se si ottiene esattamente una
testa: allora i due eventi T C oppure CT hanno probabilità 1/2, qualsiasi sia p ∈]0, 1[.
Esempio 3.4.9. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche,
2 nere e 2 rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte.
Determiniamo la distribuzione di X condizionata a (Y = 0) e l’attesa condizionata E [X | Y = 0]. Si ha
3
P (X = 0 | Y = 0) = 0, P (X = 1 | Y = 0) = ,
10
6 1
P (X = 2 | Y = 0) = , P (X = 0 | Y = 0) = ,
10 10
e
3
X 9
E [X | Y = 0] = kP (X = k | Y = 0) = .
5
k=0
Esempio 3.4.10. Sia (X, Y ) un vettore aleatorio assolutamente continuo con densità γ(X,Y ) e B = (Y ∈ K) con
K ∈ B tale che P (B) > 0. Allora, per ogni H ∈ B, si ha
P ((X ∈ H) ∩ (Y ∈ K))
µX|Y ∈K (H) = (3.4.3)
P (Y ∈ K)
µ(X,Y ) (H × K)
=
µY (K)
"
1
= γ (x, y)dxdy =
P (Y ∈ K) H×K (X,Y )

Z Z !
1
= γ(X,Y ) (x, y)dy dx
H P (Y ∈ K) K
da cui segue la formula

Z
1
γX|Y ∈K (x) = γ(X,Y ) (x, y)dy (3.4.4)
P (Y ∈ K) K
per la densità di X condizionata all’evento (Y ∈ K). Notiamo che nel caso in cui K = R (e quindi (Y ∈ K) = Ω)
la (3.4.4) coincide con la formula (3.2.24) che esprime la densità marginale a partire dalla congiunta.
Come esempio particolare, consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ N0,C con
matrice di covarianza !
1 1
C=
1 2
e poniamo B = (Y > 0). Ricordando l’espressione (3.5.18) della densità Gaussiana bidimensionale, (X, Y ) ha
densità uguale a
1 −x2 +xy− y 2
Γ (x, y) = e 2 .
2π
Allora come in (3.4.3) si ha
Z Z +∞ !
1
µX|Y >0 (H) = Γ (x, y)dy dx, H ∈ B,
H P (Y > 0) 0
da cui si calcola l’espressione della densità di X condizionata a (Y > 0):
x2

Z +∞ e− 2 1 + erf √x
1 2
ΓX|Y >0 (x) = Γ (x, y)dy = √ , x ∈ R.
P (Y > 0) 0 2π
Notiamo che E [X] = 0 ma

Z
1
E [X | Y > 0] = xΓX|Y >0 (x)dx = √ .
R π
3.5. FUNZIONE CARATTERISTICA 145
3.5 Funzione caratteristica

Definizione 3.5.1 (Funzione caratteristica). Sia
X : Ω −→ Rd
una v.a. sullo spazio di probabilità (Ω, F , P ). La funzione
ϕX : Rd −→ C
definita da h i
ϕX (η) = E ei⟨η,X⟩ = E [cos⟨η, X⟩] + iE [sin⟨η, X⟩] , η ∈ Rd ,
è detta funzione caratteristica della v.a. X. Utilizziamo anche l’abbreviazione CHF per la funzione caratteri-
stica.
Osservazione 3.5.2. Per semplicità, useremo anche la notazione x · η ≡ ⟨x, η⟩ per il prodotto scalare in Rd .
Se X ∼ µX , per definizione si ha Z
ϕX (η) = eiη·x µX (dx).
Rd
∞
P
Se X ha distribuzione discreta pn δxn allora ϕX è data dalla serie di Fourier
n=1
∞
X
ϕX (η) = pn eiη·xn .
n=1
Ricordiamo che, data una funzione sommabile f ∈ L1 (Rd ), solitamente si indica con16
Z
fˆ(η) = eiη·x f (x)dx, (3.5.1)
Rd
la trasformata di Fourier della funzione f . Se X ∈ AC con densità γX allora

Z
ϕX (η) = eiη·x γX (x)dx,
Rd
ossia la funzione caratteristica ϕX = γ̂X è la trasformata di Fourier della densità di X.

i) ϕX (0) = 1;
h i
ii) ϕX (η) ≤ E eiη·X = 1 per ogni η ∈ Rd ;
16 In realtà, a seconda dei campi di applicazione, si utilizzano diverse convenzioni per la definizione della trasformata di Fourier:
per esempio, di solito nei corsi di analisi matematica si definisce
Z
fˆ(η) = e−iη·x f (x)dx
Rd
mentre nelle applicazioni all’ingegneria, a volte si usa la definizione
Z
1
fˆ(η) = d
eiη·x f (x)dx.
d
(2π) 2 R
Quest’ultima è anche la definizione utilizzata nel software Mathematica. Noi useremo sempre la (3.5.1) che è la definizione usata
abitualmente in teoria della probabilità. Occorre in particolare fare attenzione alla formula per l’inversione della trasformata di
Fourier che è diversa in base alla notazione utilizzata.
h i
iii) ϕX (η + h) − ϕX (η) ≤ E eih·X − 1 e quindi, per il Teorema della convergenza dominata, ϕX è unifor-
memente continua su Rd ;
iv) indicando con α ∗ la matrice trasposta di α, si ha
h i h ∗ i
ϕαX+b (η) = E ei⟨η,αX+b⟩ = ei⟨b,η⟩ E ei⟨α η,X⟩ = ei⟨b,η⟩ ϕX (α ∗ η); (3.5.2)
v) nel caso d = 1, ϕX (−η) = ϕ−X (η) = ϕX (η) dove z̄ indica il coniugato di z ∈ C. Di conseguenza, se X ha
distribuzione pari17 , ossia µX = µ−X , allora ϕX assume valori reali e in tal caso vale
Z Z
iηx
ϕX (η) = e µX (dx) = cos(xη)µX (dx).
R R
Consideriamo ora alcuni esempi notevoli.

i) Se X ∼ δx0 , con x0 ∈ Rd , allora
ϕX (η) = eiη·x0 .

Osserviamo che in questo caso ϕX < L1 (Rd ) perché ϕX (η) ≡ 1 per ogni η ∈ Rd . Come caso particolare,
se X ∼ δ0 allora ϕX ≡ 1. Inoltre se X ∼ 21 (δ−1 + δ1 ) allora ϕX (η) = cos η.
ii) Se X ∼ Bep , con p ∈ [0, 1], allora

ϕX (η) = 1 + p eiη − 1 .
Inoltre, poiché X ∼ Binn,p è uguale in legge alla somma X1 + · · · + Xn di n v.a. di Bernoulli indipendenti
(cfr. Proposizione 3.6.3) allora
h i h in n
ϕX (η) = E eiη(X1 +···+Xn ) = E eiηX1 = 1 + p eiη − 1 . (3.5.3)
iii) Se X ∼ Poissonλ , con λ > 0, allora

∞
X λk ikη
ϕX (η) = e−λ e = exp λ eiη − 1 .
k!
k=0
iv) Se X ∼ Unif[−1,1] allora

sin η
ϕX (η) = , η ∈ R. (3.5.4)
η
Si veda la Figura 3.7 per il grafico della densità uniforme e della sua trasformata di Fourier. Anche in
questo caso ϕX < L1 (R) (si veda, per esempio, [68] Cap.5 Sez.12).
v) Se X è una v.a. con distribuzione di Cauchy, ossia X ha densità
1
γX (x) = , x ∈ R, (3.5.5)
π (1 + x2 )
allora
ϕX (η) = e−|η| , η ∈ R. (3.5.6)
Si veda la Figura 3.8 per il grafico della densità di Cauchy e della sua trasformata di Fourier. Si noti
che in questo caso ϕX è una funzione continua ma non differenziabile nell’origine.
17 Ciò è vero in particolare se X ha densità γ che è una funzione pari, ossia γ (x) = γ (−x), x ∈ R.
X X X
1.0
0.8
0.6
0.4
0.2
-10 -5 5 10
-0.2
Figura 3.7: Grafico della densità uniforme su [−1, 1] (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)
1.0
0.8
0.6
0.4
0.2
-6 -4 -2 2 4 6
Figura 3.8: Grafico della densità di Cauchy (3.5.5) (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)
vi) Se X ∼ Nµ,σ 2 , con µ ∈ R e σ ≥ 0, allora

1 2η2
ϕX (η) = eiηµ− 2 σ , η ∈ R. (3.5.7)
Osserviamo che per σ = 0 ritroviamo la CHF della delta di Dirac centrata in µ.

Anzitutto proviamo la (3.5.7) nel caso standard µ = 0 e σ = 1. Preliminarmente osserviamo che
trattandosi della trasformata di Fourier di una funzione pari si ha (cfr. Proposizione 3.5.3-v))
x2
e− 2
Z
ϕX (η) = cos(ηx) √ dx.
R 2π
Ora calcoliamo la derivata di ϕX : utilizzando un teorema di scambio di segno di derivata-integrale
nella prima uguaglianza, si ha
x2
e− 2
Z
d
ϕ (η) = sin(ηx)(−x) √ dx
dη X R 2π
x2 2
d − x2
(poiché −xe− 2 = dx e )
x2
d e− 2
Z
= sin(ηx) √ dx =
R dx 2π
(integrando per parti )
x2
2 x=+∞ e− 2
Z
1

− x2
=√ sin(ηx)e − η cos(ηx) √ dx
2π x=−∞ R 2π
= −ηϕX (η).
In definitiva, ϕX è la soluzione del problema di Cauchy


d
 dη ϕX (η) = −ηϕX (η),



ϕX (0) = 1,

da cui si ha la tesi:
η2
ϕX (η) = e− 2 . (3.5.8)
Y −µ
Per il caso generale in cui Y ∼ Nµ,σ 2 , basta considerare X := σ ∼ N0,1 e combinare la (3.5.8) con la
(3.5.2).
vii) Se X ∼ Expλ , con λ ∈ R>0 , allora

Z +∞
λ
ϕX (η) = λ eiηx−λx dx = .
0 λ − iη
Esempio 3.5.4. [!] Siano N e Z1 , Z2 , . . . v.a. indipendenti con N ∼ Poissonλ e Zn identicamente distribuite
per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk se N ≥ 1.


k=1
Si ha
 P n 
h i X∞  iη Zk 
ϕX (η) = E eiηX = E e k=1 1(N =n)  =
 
 
n=0
(per l’indipendenza di N e Zk , k ≥ 1)
 P n 
∞
X  iη Zk 
= E e k=1  P (N = n)
 
n=0
(perchè le Zk sono indipendenti e identicamente distribuite)

∞
X in λn
= eλ(ϕZ1 (η)−1)
h
= e−λ E eiηZ1
n!
n=0
dove ϕZ1 indica la CHF di Z1 .

3.5.1 Il teorema di inversione

In questa sezione dimostriamo l’importante formula di inversione della funzione caratteristica (Teore-
ma 3.5.6). Cominciamo con un esercizio preliminare.
sin x
Esercizio 3.5.5. Proviamo che vale la seguente formula per l’integrale generalizzato di x :
Z +∞ Z a
sin x sin x π
dx := lim dx = . (3.5.9)
0 x a→+∞ 0 x 2
Consideriamo la funzione
f (x, y) = e−xy sin x, x > 0, y > 0.
Poiché per ogni x, y, a > 0 vale
Z +∞
sin x
f (x, y)dy = ,
0 x
Za
1 e−ay ye−ay
f (x, y)dx = − cos a − sin a,
0 1 + y2 1 + y2 1 + y2
per il Teorema di Fubini si ha

Za Z +∞ −ay Z +∞ −ay
sin x π e ye
dx = − cos a 2
dy − sin a dy, a > 0,
0 x 2 0 1 + y 0 1 + y2
1
e di conseguenza, poiché 1+y 2
≤ 1,
Z a Z +∞
sin x π 1+a
− ≤ (1 + y)e−ay dy = 2 , a > 0.

0 x 2 0 a
sin x
Questo prova la (3.5.9). Osserviamo che x è integrabile in senso generalizzato ma non è una funzione
sommabile.
Teorema 3.5.6 (Teorema di inversione). [!!]

Sia µ una distribuzione su (R, B) e
Z
ϕ(η) := eixη µ(dx), η ∈ R. (3.5.10)
R
Allora per ogni a < b si ha

R
e−iaη − e−ibη
Z
µ({a}) + µ({b}) 1
µ(]a, b[) + = lim ϕ(η)dη. (3.5.11)
2 R→+∞ 2π −R iη
Inoltre se ϕ ∈ L1 (R) allora µ è assolutamente continua e ha per densità la funzione

Z
1
γ(x) := e−ixη ϕ(η)dη, x ∈ R. (3.5.12)
2π R
Osservazione 3.5.7. [!] Come conseguenza del Teorema 3.5.6, si ha che la CHF di una v.a. identifica la sua
legge: in altri termini, se X e Y sono v.a. con funzioni caratteristiche uguali,
ϕX (η) = ϕY (η), η ∈ R,
allora anche le relative leggi µX e µY coincidono
µX (H) = µY (H), H ∈ B.
Infatti per la (3.5.11) si ha µX (]a, b[) = µY (]a, b[) per ogni a, b ∈ R \ A dove
A := {x ∈ R | µX ({x}) + µY ({x}) > 0}.
D’altra parte, per l’Osservazione 2.4.11, A è finito o al più numerabile e quindi R \ A è denso in R: dal
Teorema di Caratheodory segue che µX ≡ µY .
Corollario 3.5.8. [!] Se µ, ν sono distribuzioni tali che
Z Z
f dµ = f dν
R R
per ogni f ∈ bC(R) allora µ ≡ ν. Analogamente, se X, Y sono v.a. tali che E [f (X)] = E [f (Y )] per ogni
f ∈ bC(R), allora X, Y sono uguali in legge.
Dimostrazione. Scegliendo f della forma f (x) = cos(xη) o f (x) = sin(xη), con η ∈ R, dall’ipotesi si deduce
che le CHF di µ e ν sono uguali. La tesi segue dal Teorema 3.5.6.
Osservazione 3.5.9. Sia µ una distribuzione con densità f tale che fˆ ∈ L1 (R): per il Teorema 3.5.6 anche γ
definita da (3.5.10)-(3.5.12) è densità di µ e quindi per l’Osservazione 2.4.19 si ha f = γ q.o. ossia
Z
1
f (x) = e−ixη fˆ(η)dη per quasi ogni x ∈ R, (3.5.13)
2π R
dove l’integrale nel membro a destra, come funzione di x, è limitato e uniformemente continuo su R (per
la Proposizione 3.5.3). La (3.5.13) è la classica formula di inversione della trasformata di Fourier.
Si noti che una densità f non è necessariamente limitata e continua (anzi, si può modificare su ogni
Boreliano Lebesgue-trascurabile, mantenendo invariata la sua trasformata di Fourier): tuttavia se fˆ ∈ L1 (R)
allora f è necessariamente uguale q.o. a una funzione limitata e continua.
Osservazione 3.5.10. In base al Teorema 3.5.6, se ϕX ∈ L1 (R) allora X ∈ AC e una densità di X è data dalla
formula di inversione Z
1
γX (x) = e−ixη ϕX (η)dη, x ∈ R.
2π R
La condizione ϕX ∈ L1 (R) è solo sufficiente ma non necessaria per l’assoluta continuità di µ. Infatti, per
l’Osservazione 3.5.9, se ϕX ∈ L1 (R) allora necessariamente la densità di X è uguale q.o. a una funzione
continua: tuttavia, per esempio, la distribuzione uniforme su [−1, 1] è assolutamente continua ma ha den-
sità γ(x) = 21 1[−1,1] (x) che non è uguale q.o. a una funzione continua; in effetti, la sua CHF in (3.5.4) non è
sommabile.
Dimostrazione del Teorema 3.5.6. Fissati a, b ∈ R con a < b, poniamo
b
e−iaη − e−ibη
Z
ga,b (η) := e−ixη dx = , η ∈ R. (3.5.14)
a iη

Osserviamo che, per la disuguaglianza triangolare, ga,b (η) ≤ b − a. Dunque per il Teorema di Fubini, per
ogni R > 0 si ha
ZR Z ZR !
ga,b (η)ϕ(η)dη = ga,b (η)eixη dη µ(dx). (3.5.15)
−R R −R
Essendo coseno e seno rispettivamente funzioni pari18 e dispari, si ha


Z R Z R

π ! se x = a oppure x = b,
ixη sin((x − a)η) sin((x − b)η) 

ga,b (η)e dη = 2 − dη −→ Ga,b (x) := 2π se a < x < b,

−R 0 η η 

0

se x < a oppure x > b,
(3.5.16)
al limite per R → +∞: questo segue dal fatto che per la (3.5.9), vale19

π
Z R Z λR Z |λ|R

 2 se λ > 0,
sin λη sin η sin η 

dη = dη = sgn(λ) dη −→ 0 se λ = 0,

0 η 0 η 0 η 
 π
− se λ < 0.

2
Ora utilizziamo il Teorema 3.2.11 della convergenza dominata20 per passare al limite per R → +∞ in
(3.5.15) si ha
Z R Z Z Z Z
1 1 1 1
lim ga,b (η)ϕ(η)dη = Ga,b (x)µ(dx) = µ(dx) + µ(dx) + µ(dx)
R→+∞ 2π −R 2π R 2 {a} ]a,b[ 2 {b}
e questo prova la (3.5.11).

Proviamo la seconda parte della tesi: se ϕ ∈ L1 (R) allora, ricordando che ga,b (η)ϕ(η) ≤ (b − a)|ϕ(η)| e
applicando il Teorema della convergenza dominata per passare al limite in R nella (3.5.11), otteniamo
Z
1 1
g (η)ϕ(η)dη = µ(]a, b[) + µ({a, b}) ≥ µ({b}). (3.5.17)
2π R a,b 2
Ma la disuguaglianza in (3.5.17), ancora per il Teorema della convergenza dominata e passando al limite
per a → b− , implica che µ({b}) = 0 per ogni b ∈ R e quindi vale
Z
1
µ(]a, b[) = g (η)ϕ(η)dη =
2π R a,b
(utilizzando la seconda uguaglianza nella (3.5.14) e il Teorema di Fubini)

Z b Z ! Z b
1 −ixη
= e ϕ(η)dη dx = γ(x)dx,
a 2π R a
e quindi γ in (3.5.12) è una densità di µ.
Sia X = (X1 , . . . , Xn ) una v.a. La CHF di X è detta anche funzione caratteristica congiunta delle v.a.
X1 , . . . , Xn ; viceversa, ϕX1 , . . . , ϕXn sono dette CHF marginali di X.
Proposizione 3.5.11. Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ), si ha:
18 Di conseguenza l’integrale fra −R e R della funzione pari cos η moltiplicata per la funzione dispari 1 si annulla.
η
19 Definiamo la funzione segno nel modo seguente



1 se λ > 0,

sgn(λ) =  0 se λ = 0,



−1 se λ < 0.

Rr
20 Per la (3.5.16), il modulo dell’integrando in (3.5.15) è limitato da 2 sup sin η dη < +∞
η
r>0 0
i) ϕXi (ηi ) = ϕX (0, . . . , 0, ηi , 0, . . . , 0);
ii) X1 , . . . , Xn sono indipendenti se e solo se

n
Y
ϕX (η) = ϕXi (ηi ), η = (η1 , . . . , ηn ).
i=1
Dimostrazione. La proprietà i) è immediata conseguenza della definizione di funzione caratteristica. Pro-

viamo la ii) solo nel caso n = 2. Se X1 , X2 sono indipendenti allora lo sono anche le v.a. eiη1 ·X1 , eiη2 ·X2 e
quindi si ha
h i h i h i
ϕX (η1 , η2 ) = E eiη1 ·X1 +iη2 ·X2 = E eiη1 ·X1 E eiη2 ·X2 = ϕX1 (η1 )ϕX2 (η2 ).
d d
Viceversa, consideriamo due v.a. X e2 indipendenti e tali che X
e1 , X e1 = X1 e X
e2 = X2 . Allora si ha
ϕ(Xe1 ,Xe2 ) (η1 , η2 ) = ϕXe1 (η1 )ϕXe2 (η2 ) = ϕX1 (η1 )ϕX2 (η2 ) = ϕ(X1 ,X2 ) (η1 , η2 ).
Poiché (X1 , X2 ) e (X e2 ) hanno uguale CHF, per il Teorema 3.5.6, hanno anche uguale legge: da questo
e1 , X
segue che X1 , X2 sono indipendenti.
3.5.2 Distribuzione normale multidimensionale

Fissati µ ∈ Rd e C, matrice d ×d, simmetrica e definita positiva, definiamo la funzione di densità Gaussiana
d-dimensionale di parametri µ e C nel modo seguente:
1 1 −1
Γ (x) = p e− 2 ⟨C (x−µ),x−µ⟩ , x ∈ Rd . (3.5.18)
d
(2π) det C
Un calcolo diretto mostra che

Z
Γ (x)dx = 1, (3.5.19)
Rd
Z
xi Γ (x)dx = µi , (3.5.20)
d
ZR
(xi − µi ) xj − µj Γ (x)dx = Cij , (3.5.21)
Rd
per ogni i, j = 1, . . . , d. La (3.5.19) mostra semplicemente che Γ è una densità; le (3.5.20) e (3.5.21) motivano
la seguente
Definizione 3.5.12. Se X è una v.a. d-dimensionale con densità Γ in (3.5.18) allora diciamo che X ha
distribuzione multi-normale con media µ e matrice di covarianza C e scriviamo X ∼ Nµ,C .
Chiaramente, se X ∼ Nµ,C allora E [X] = µ per la (3.5.20) e cov(X) = C per la (3.5.21).
Proposizione 3.5.13. [!] La CHF di X ∼ Nµ,C è data da
1
ϕX (η) = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ , η ∈ Rd . (3.5.22)
Dimostrazione. Si tratta del calcolo della trasformata di Fourier di Γ in (3.5.18): esso è analogo al caso
unodimensionale (cfr. formula (3.5.7)).
Osserviamo che la CHF in (3.5.22) è una funzione Gaussiana in cui all’esponente appaiono un termine
lineare in η che dipende solo dal parametro di media µ e un termine quadratico in η che dipende solo dalla matrice
di covarianza C.
È notevole il fatto che, a differenza della densità Γ in cui compare l’inversa di C, nella funzione carat-
teristica ϕX compare la forma quadratica della matrice C stessa. Dunque affinché ϕX sia ben definita non
è necessario che C sia strettamente definita positiva. In effetti in molte applicazioni capita di avere matrici
di covarianza degeneri e pertanto risulta utile estendere la Definizione 3.5.12 nel modo seguente:
Definizione 3.5.14. Dati µ ∈ Rd e C matrice d × d, simmetrica e semi-definita positiva, diciamo che X ha

distribuzione multi-normale e scriviamo X ∼ Nµ,C , se la CHF di X è la ϕX in (3.5.22).
In base al Teorema 3.5.6, la definizione precedente è ben posta poiché la funzione caratteristica identi-
fica univocamente la distribuzione. Inoltre la Definizione 3.5.14 non è vuota nel senso che una v.a. X, che
abbia ϕX in (3.5.22) come funzione caratteristica, esiste: infatti per l’Osservazione 3.2.44, data C, matrice
d × d simmetrica e semi-definita positiva, esiste α tale che C = αα ∗ ; allora basta porre X = αZ + µ dove Z è
una v.a. multi-normale standard, ossia Z ∼ N0,I con I matrice identità d × d. Infatti per la (3.5.2) si ha
|α ∗ η |2 1
ϕαZ+µ (η) = eiη·µ ϕZ (α ∗ η) = eiη·µ− 2 = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ .
Utilizzando la funzione caratteristica è facile provare alcune proprietà fondamentali della distribuzione
normale, come per esempio l’invarianza per trasformazioni lineari. Nel seguito, quando usiamo notazioni
matriciali, il vettore aleatorio d-dimensionale X viene identificato con la matrice colonna d × 1.
Proposizione 3.5.15. [!] Siano X ∼ Nµ,C , una matrice α costante N × d e β ∈ RN con N ∈ N. Allora αX + β
è una v.a. con distribuzione normale N -dimensionale:
αX + β ∼ Nαµ+β,αCα ∗ . (3.5.23)
Dimostrazione. Calcoliamo la CHF di αX + β: per la Proposizione 3.5.3-iv) si ha
ϕαX+β (η) = ei⟨η,β⟩ ϕX (α ∗ η) =
(per l’espressione (3.5.22) della CHF di X calcolata in α ∗ η)

∗ η⟩− 1 ⟨Cα ∗ η,α ∗ η⟩
= ei⟨η,β⟩ ei⟨µ,α 2
1 ∗ η,η⟩
= ei⟨αµ+β,η⟩− 2 ⟨αCα ,
da cui la tesi.
Come conseguenze notevoli della (3.5.23) si ha che se (X, Y ) ha distribuzione normale bidimensionale
allora, per esempio, X e X + Y sono v.a. con distribuzione normale.
Esempio 3.5.16. Siano X, Y ∼ N0,1 indipendenti e (u, v) ∈ R2 tale che u 2 + v 2 = 1. Proviamo che
Z := uX + vY ∼ N0,1 .
Una semplice applicazione del Teorema 3.3.23 mostra che (X, Y ) ∼ N0,I dove I indica la matrice identità
2 × 2; allora poiché !
X
uX + vY = α , con α = u v ,
Y
la tesi segue dalla (3.5.23), essendo
var(Z) = αα ∗ = u 2 + v 2 = 1.
Esempio 3.5.17. Sia (X, Y , Z) ∼ Nµ,C con

 
 1 −1 1 
µ = (µX , µY , µZ ) , C = −1 2 −2 .
 
1 −2 2
 
Si noti che C ≥ 0 e det C = 0 (le ultime due righe di C sono linearmente dipendenti): dunque (X, Y , Z) non
ha densità. Tuttavia Y ∼ NµY ,2 e (X, Z) ∼ N(µX ,µZ ),Ĉ con
!
1 1
Ĉ = ,
1 2
e quindi Y e (X, Z) hanno densità Gaussiana. Per completezza riportiamo la matrice α della fattorizzazione
C = αα ∗ di Cholesky (cfr. Osservazione 3.2.44):
 
1 −1 1 
α = 0 1 −1 .
 
0 0 0
 
Proposizione 3.5.18. [!] Sia X = (X1 , . . . , Xd ) una v.a. con distribuzione normale d-dimensionale. Le v.a
X1 , . . . , Xd sono indipendenti se e solo se sono scorrelate, ossia cov (Xh , Xk ) = 0 per ogni h, k = 1, . . . , d.
Dimostrazione. Se X1 , . . . , Xd sono v.a. indipendenti allora cov (Xh , Xk ) = 0 per il Teorema 3.3.28. Viceversa,
poniamo µh = E [Xh ] e Chk = cov (Xh , Xk ): per la Proposizione 3.5.15, la v.a. Xh ha distribuzione normale con
CHF data da 1 2
ϕXh (ηh ) = eiµh ηh − 2 Chh ηh , ηh ∈ R.
D’altra parte, per ipotesi Chk = Ckh = 0 e quindi
d
iµ·η− 21
P
Chh ηh2 d
Y
ϕX (η) = e h=1 = ϕXh (ηh ), η = (η1 , . . . , ηd ) ∈ Rd ,
h=1
e quindi la tesi segue dalla Proposizione 3.5.11.

Esempio 3.5.19. In questo esempio mostriamo che, nella Proposizione 3.5.18, l’ipotesi che X1 , . . . , Xd ab-
biano distribuzione congiunta normale non si può rimuovere, dando un esempio di v.a. con distribuzioni
marginali normali che sono scorrelate ma non indipendenti.
Consideriamo due v.a. indipendenti, rispettivamente con distribuzione normale standard, X ∼ N0,1 ,
e di Bernoulli, Z ∼ µZ := 12 (δ−1 + δ1 ). Posto Y = ZX, proviamo che Y ∼ N0,1 : infatti, per l’ipotesi di
indipendenza, la distribuzione congiunta di X e Z è la distribuzione prodotto
N0,1 ⊗ µZ
e quindi per ogni f ∈ mB e limitata si ha

Z
f (zx) N0,1 ⊗ µZ (dx, dz) =

E [f (ZX)] =
R2

Z Z !
= f (zx)N0,1 (dx) µZ (dz)
R R
Z Z
1 1
= f (−x)N0,1 (dx) + f (x)N0,1 (dx)
2 R 2 R
Z
= f (x)N0,1 (dx).
R
In particolare, se f = 1H con H ∈ B, si ottiene
P (Y ∈ H) = N0,1 (H),
ossia Y ∼ N0,1 .
Proviamo ora che cov(X, Y ) = 0 ma X, Y non sono indipendenti. Si ha:

h i
cov(X, Y ) = E [XY ] = E ZX 2 =
(per l’indipendenza di X e Z)
h i
= E [Z] E X 2 = 0.
Verifichiamo che X, Y non sono indipendenti:
P ((X ∈ [0, 1]) ∩ (Y ∈ [0, 1])) = P ((X ∈ [0, 1]) ∩ (ZX ∈ [0, 1])) =
(poiché sull’evento (X ∈ [0, 1]) si ha (ZX ∈ [0, 1]) = (Z = 1) ∩ (X ∈ [0, 1]))
= P ((X ∈ [0, 1]) ∩ (Z = 1)) =
1
= P (X ∈ [0, 1]).
2
D’altra parte, essendo Y ∼ N0,1 , si ha P (Y ∈ [0, 1]) < 1

2 e quindi P ((X ∈ [0, 1])∩(Y ∈ [0, 1])) < P (X ∈ [0, 1])P (Y ∈
[0, 1]).
Questo esempio non contraddice la Proposizione 3.5.18 poiché X, Y non hanno distribuzione congiunta
normale. Infatti la CHF congiunta è data da
h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y )
h i h i
= E eiX(η1 −η2 ) 1(Z=−1) + E eiX(η1 +η2 ) 1(Z=1) =
1 h iX(η1 −η2 ) i 1 h iX(η1 +η2 ) i

= E e + E e =
2 2
(poiché X ∼ N0,1 )
2 2
eη1 η2 + e−η1 η2 − η1 +η2
!
1 − (η1 −η2 )2 (η1 +η2 )2
= e 2 + e− 2 = e 2 ,
2 2
che non è la CHF di una normale bidimensionale. Incidentalmente questo prova anche che ϕ(X,Y ) (η1 , η2 ) ,
ϕX (η1 )ϕY (η2 ), ossia conferma che X, Y non sono indipendenti.
3.5.3 Sviluppo in serie della funzione caratteristica e momenti

h Proviamo
i un interessante risultato che mostra che i momenti di una v.a. X ∈ Lp (Ω, P ), ossia i valori attesi
E X k delle potenze di X con k ≤ p, possono essere ottenuti derivando la CHF di X (si veda in particolare
l’Osservazione 3.5.21).
Teorema 3.5.20. [!] Sia X una v.a. reale appartenente a Lp (Ω, P ) con p ∈ N. Allora vale il seguente sviluppo
della CHF di X intorno all’origine:
h i
p
X E (iX)k
ϕX (η) = η k + o(η p ) per η → 0. (3.5.24)
k!
k=0
Dimostrazione. Ricordiamo la formula di Taylor con resto di Lagrange per f ∈ C p (R): per ogni η ∈ R esiste
λ ∈ [0, 1] tale che
p−1 (k)
X f (0) f (p) (λη) p
f (η) = ηk + η .
k! p!
k=0
Applichiamo tale formula alla funzione f (η) = eiηX e otteniamo

p
X (iX) k (iX)p eiληX − 1
eiηX = ηk + ηp,
k! p!
k=0
dove in questo caso λ ∈ [0, 1] dipende da X e quindi è aleatorio. Applicando il valore atteso all’ultima
identità otteniamo h i
p
X E (iX)k
ϕX (η) = η k + R(η)η p
k!
k=0
dove
1 h p iληX i
R(η) = E (iX ) e − 1 −→ 0 per η → 0,
p!
per il Teorema della convergenza dominata, poiché per ipotesi

(iX p ) eiληX − 1 ≤ 2|X|p ∈ L1 (Ω, P ).
Osservazione 3.5.21. [!] Sia X ∈ Lp (Ω, P ). La (3.5.24) implica che ϕX è derivabile p volte nell’origine e
inoltre, per l’unicità dello sviluppo in serie di Taylor, vale
d k ϕX (η) h
k
i
|η=0 = E (iX) (3.5.25)
dη k
per ogni k = 0, . . . , p.
Osservazione 3.5.22. Supponiamo che X ∈ Lp (Ω, P ) per ogni p ∈ N e che ϕX sia una funzione analitica.
Allora a partire dai momenti di X è possibile ricavare ϕX e quindi la legge di X.
Esempio 3.5.23. Sia X una v.a. con distribuzione di Cauchy come in (3.5.5). Allora X < L1 (Ω, P ) e la CHF
ϕX in (3.5.6) non è differenziabile nell’origine.
Esempio 3.5.24. Data X ∼ Nµ,σ 2 si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poiché
σ 2 η2
ϕX (η) = eiµη− 2
allora con molta pazienza (oppure con un software di calcolo simbolico) possiamo calcolare:

ϕ ′ (η) = i µ + iησ 2 ϕ(η),
2
ϕ (2) (η) = i 2 σ 2 + µ + iησ 2 ϕ(η),
2
ϕ (3) (η) = i 3 µ + iησ 2 3σ 2 + µ + iησ 2 ϕ(η),

ϕ (4) (η) = i 4 µ4 + 2µ2 σ 2 (3 + 2iµη) + 2η 2 σ 6 (−3 − 2iµη) + 3σ 4 (1 − 2µη(µη − 2i)) + η 4 σ 8 ϕ(η),
da cui
ϕ ′ (0) = iµ,

ϕ (2) (0) = − µ2 + σ 2 ,

ϕ (3) (0) = −i µ3 + 3µσ 2 ,
ϕ (4) (0) = µ4 + 6µ2 σ 2 + 3σ 4 .
Allora per la (3.5.25) si ha
E [X] = µ,
h i
E X 2 = µ2 + σ 2 ,
h i
E X 3 = µ3 + 3µσ 2 ,
h i
E X 4 = µ4 + 6µ2 σ 2 + 3σ 4 .
Esempio 3.5.25. Data X ∼ Expλ si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poiché
λ
ϕX (η) =
λ − iη
allora abbiamo:
i k k!λ
ϕ (k) (η) = , k ∈ N,
(λ − iη)k+1
da cui
i k k!
ϕ (k) (0) = .
λk
h i k!
E Xk = k .
λ
3.6 Complementi
3.6.1 Somma di variabili aleatorie
Teorema 3.6.1. Siano X, Y ∈ AC su (Ω, F , P ) a valori in Rd , con densità congiunta γ(X,Y ) . Allora X + Y ∈ AC
e ha densità Z
γX+Y (z) = γ(X,Y ) (x, z − x)dx, z ∈ Rd . (3.6.1)
Rd
Inoltre se X, Y sono indipendenti allora
Z
γX+Y (z) = (γX ∗ γY ) (z) := γX (x)γY (z − x)dx, z ∈ Rd . (3.6.2)
Rd
ossia la densità di X + Y è la convoluzione delle densità di X e Y .

Analogamente, se X, Y sono v.a. discrete su (Ω, P ) a valori in Rd , con funzione di distribuzione congiunta
µ̄(X,Y ) , allora X + Y è una v.a. discreta con funzione di distribuzione
X
µ̄X+Y (z) = µ̄(X,Y ) (x, z − x), z ∈ Rd .
x∈X(Ω)
In particolare, se X, Y sono indipendenti allora

X
µ̄X+Y (z) = (µ̄X ∗ µ̄Y )(z) := µ̄X (x)µ̄Y (z − x), (3.6.3)
x∈X(Ω)
ossia µ̄X+Y è la convoluzione discreta delle funzioni di distribuzione µ̄X di X e µ̄Y di Y .

Dimostrazione. Per ogni H ∈ Bd si ha
Z
P (X + Y ∈ H) = E [1H (X + Y )] = 1H (x + y)γ(X,Y ) (x, y)dxdy =
Rd ×Rd
(col cambio di variabili z = x + y)

Z
= 1H (z)γ(X,Y ) (x, z − x)dxdz =
Rd ×Rd

Z Z !
= γ(X,Y ) (x, z − x)dx dz,
H Rd
e questo prova che la funzione γX+Y in (3.6.1) è una densità di X + Y . Infine la (3.6.2) segue dalla (3.6.1) e
dalla (3.3.5).
Per quanto riguarda il caso discreto, si ha
 
 [ 
µ̄X+Y (z) = P (X + Y = z) = P  (X, Y ) = (x, z − x)  =

 
x∈X(Ω)
(per la σ -additività di P )
X
= µ̄(X,Y ) (x, z − x) =
x∈X(Ω)
3.6. COMPLEMENTI 159
(nel caso in cui X, Y siano indipendenti, per la (3.3.6))

X
= µ̄X (x)µ̄Y (z − x).
x∈X(Ω)
Esempio 3.6.2. Siano X, Y v.a. indipendenti su (Ω, F , P ) a valori in Rd . Procedendo come nella dimostra-
zione del Teorema 3.6.1, si prova che se X ∈ AC allora anche (X + Y ) ∈ AC e ha densità
Z
γX+Y (z) = γX (z − y)µY (dy), z ∈ Rd . (3.6.4)
Rd
Per esempio, siano X ∼ Nµ,σ 2 e Y ∼ Bep indipendenti. Allora X + Y è assolutamente continua e, posto
1 1 x−µ 2
Γµ,σ 2 (x) = √ e− 2 ( σ ) ,
2πσ 2
per la (3.6.4), X + Y ha densità
Z
γX+Y (z) = Γµ,σ 2 (z − y)Bep (dy)
Rd
= pΓµ,σ 2 (z − 1) + (1 − p)Γµ,σ 2 (z)
= pΓµ+1,σ 2 (z) + (1 − p)Γµ,σ 2 (z)
Più in generale, se Y è una v.a. discreta con distribuzione del tipo (3.1.4), ossia
X
pn δyn ,
n≥1
allora X + Y ha densità che è combinazione lineare di Gaussiane con la medesima varianza e con i poli
traslati di yn : X
γX+Y (z) = pn Γµ+yn ,σ 2 (z).
n≥1
3.6.2 Esempi notevoli

Proposizione 3.6.3 (Somma di Bernoulli indipendenti). Sia (Xi )i=1,...,n una famiglia di v.a. indipendenti
di Bernoulli, Xi ∼ Bep . Allora
S := X1 + · · · + Xn ∼ Binn,p . (3.6.5)
Di conseguenza se X ∼ Binn,p allora E [X] = E [S] e quindi
E [X] = nE [X1 ] = np, var(S) = nvar(X1 ) = np(1 − p). (3.6.6)
Inoltre se X ∼ Binn,p e Y ∼ Binm,p sono v.a. indipendenti allora X + Y ∼ Binn+m,p .
Dimostrazione. Posto
Ci = (Xi = 1), i = 1, . . . , n,
si ha che (Ci )i=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p. La v.a. S in
(3.6.5) indica il numero di successi fra le n prove (come nell’Esempio 3.1.7-iii)) e quindi, come abbiamo
già provato, S ∼ Binn,p . In alternativa, si può calcolare la funzione di distribuzione di S come convoluzione
discreta mediante la (3.6.3), ma i calcoli sono un po’ noiosi. Le formule (3.6.6) sono immediata conseguenza
della linearità dell’integrale e del fatto che la varianza di v.a. indipendenti è uguale alla somma delle singole
varianze (cfr. formula (3.3.9)).
Per provare la seconda parte dell’enunciato, consideriamo prima il caso in cui
X = X1 + · · · + Xn , Y = Y1 + · · · + Ym
con X1 , . . . , Xn , Y1 , . . . , Ym ∼ Bep indipendenti. Allora per quanto precedentemente provato si ha
X + Y = X1 + · · · + Xn + Y1 + · · · + Ym ∼ Binn+m,p .
d d
Consideriamo ora il caso generale in cui X ′ ∼ Binn,p e Y ′ ∼ Binm,p sono indipendenti: allora X ′ = X, Y ′ = Y
e la tesi segue dalla (3.6.3) poiché
µ̄X ′ +Y ′ = µ̄X ′ ∗ µ̄Y ′ = µ̄X ∗ µ̄Y = µ̄X+Y .
Esempio 3.6.4 (Modello binomiale). Uno dei più classici modelli utilizzati in finanza per descrivere l’e-
voluzione del prezzo di un titolo rischioso è il cosiddetto modello binomiale. Introduciamo una successione
(Xk ) di v.a. dove Xk rappresenta il prezzo del titolo al tempo k, con k = 0, 1, . . . , n: si assume che X0 ∈ R>0 e,
fissati due parametri 0 < d < u, si definisce ricorsivamente
Xk = u αk d 1−αk Xk−1 , k = 1, . . . , n,
dove le αk sono v.a. indipendenti di Bernoulli, αk ∼ Bep . In definitiva si ha


uXk−1

 con probabilità p,
Xk = 
dXk−1
 con probabilità 1 − p,
e
Xn = u Yn d n−Yn S0
n
P
dove Yn = αk ∼ Binn,p per la Proposizione 3.6.3. Allora vale
k=1
!
n k
P (Xn = u k d n−k X0 ) = P (Yn = k) = p (1 − p)n−k , k = 0, . . . , n,
k
sono le probabilità dei possibili prezzi al tempo n.
Esempio 3.6.5 (Somma di Poisson indipendenti). Siano λ1 , λ2 > 0 e X1 ∼ Poissonλ1 , X2 ∼ Poissonλ2

indipendenti. Allora X1 + X2 ∼ Poissonλ1 +λ2 .
Infatti, se µ̄1 , µ̄2 sono le funzioni di distribuzione di X1 , X2 , per il Teorema 3.6.1 si ha
n
X
µ̄X1 +X2 (n) = (µ̄1 ∗ µ̄2 )(n) = µ̄1 (k)µ̄2 (n − k) =
k=0
(gli estremi in cui varia k nella sommatoria sono determinati dal fatto che µ̄1 (k) , 0 solo se k ∈ N0 e
µ̄2 (n − k) , 0 solo se n − k ∈ N0 )
n k n
λ2n−k e−λ1 −λ2 X n k n−k e−(λ1 +λ2 )
!
−λ1 λ1 −λ2
X
= e e = λ λ = (λ1 + λ2 )n .
k! (n − k)! n! k 1 2 n!
k=0 k=0
12.5
12.0
11.5
11.0
10.5
10.0
9.5
0.2 0.4 0.6 0.8 1.0
Figura 3.9: Grafico di una traiettoria del processo binomiale
Esempio 3.6.6 (Somma di normali indipendenti). Se X ∼ Nµ,σ 2 e Y ∼ Nν,δ2 sono v.a. reali indipendenti,
allora
X + Y ∼ Nµ+ν,σ 2 +δ2 .
Infatti, per la (3.6.2) e posto
1 1 x−µ 2
γµ,σ 2 (x) := √ e− 2 ( σ ) , x ∈ R,
σ 2π
un calcolo diretto mostra che
γµ,σ 2 ∗ γν,δ2 = γµ+ν,σ 2 +δ2 .
Esempio 3.6.7 (Chi-quadro a n gradi di libertà). Come diretta conseguenza del Teorema 3.6.1, si verifica
che se X ∼ Gammaα,λ e Y ∼ Gammaβ,λ v.a. reali indipendenti, allora
X + Y ∼ Gammaα+β,λ . (3.6.7)
Come caso particolare si ha che se X, Y ∼ Expλ = Gamma1,λ sono v.a. indipendenti, allora
X + Y ∼ Gamma2,λ
con densità γX+Y (t) = λ2 te−λt 1R>0 (t).

Ricordiamo l’Esempio 3.1.38: la distribuzione chi-quadro χ2 := Gamma 1 , 1 è la distribuzione della
2 2
v.a. X 2 dove X ∼ N0,1 è una normale standard. Più in generale, date X1 , . . . , Xn v.a. indipendenti con
distribuzione N0,1 allora per la (3.6.7) si ha
Z := X12 + · · · + Xn2 ∼ Γ n , 1 . (3.6.8)

2 2
Le v.a. del tipo (3.6.8) intervengono in molte applicazioni e in particolare in statistica matematica (si veda,
per esempio, il Capitolo 8 in [25]). La distribuzione Γ n , 1 viene detta distribuzione chi-quadro a n gradi di
2 2
libertà ed è indicata con χ2 (n): dunque Z ∼ χ2 (n) se ha densità
x
1 e− 2
γn (x) = n n 1R>0 (x). (3.6.9)
2 2 Γ n2 x1− 2
Più in generale, γn in (3.6.9) è una densità se n è un qualsiasi numero reale positivo, non necessariamente
intero.
Esempio 3.6.8. Studiamo la v.a. Z uguale alla “somma del lancio di due dadi”. Le v.a. che indicano
il risultato del lancio di ognuno dei due dadi hanno distribuzione uniforme Unif6 e sono indipendenti.
Allora se µ̄ indica la funzione di distribuzione di Unif6 , ossia µ̄(n) = 16 per n ∈ I6 = {1, . . . , 6}, per la (3.6.3) la
funzione di distribuzione di Z è data dalla convoluzione µ̄ ∗ µ̄:
X
(µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k), 2 ≤ n ≤ 12,
k
dove, affinché µ̄(k) e µ̄(n − k) siano non nulli, deve valere k ∈ I6 e n − k ∈ I6 ossia
(n − 6) ∨ 1 ≤ k ≤ (n − 1) ∧ 6.
Dunque
(n−1)∧6
X (n − 1) ∧ 6 − (n − 6) ∨ 1 + 1
P (Z = n) = (µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k) = .
36
k=(n−6)∨1
Proposizione 3.6.9 (Massimo e minimo di variabili indipendenti). Siano X1 , . . . , Xn v.a. reali indipenden-
ti. Posto
X = max{X1 , . . . , Xn } e Y = min{X1 , . . . , Xn },
si ha la seguente relazione fra le funzioni di ripartizione21

n
Y
FX (x) = FXk (x), x ∈ R, (3.6.10)
k=1
n
Y
FY (y) = 1 − 1 − FXk (y) , y ∈ R.
k=1
Dimostrazione. È sufficiente osservare che

n
\
(X ≤ x) = (Xk ≤ x), x ∈ R,
k=1
e quindi, sfruttando l’ipotesi di indipendenza,

 n  n n
\  Y Y
FX (x) = P (X ≤ x) = P  (Xk ≤ x) =
 P (Xk ≤ x) = FXk (x).
k=1 k=1 k=1
Per la seconda identità, si procede in maniera analoga utilizzando la relazione

n
\
(Y > x) = (Xk > x), x ∈ R.
k=1
21 Attenzione a non confondere la (3.6.10) e la (3.3.8)!

Esempio 3.6.10. Se Xk ∼ Expλk , k = 1, . . . , n, sono v.a. indipendenti allora
Y := min{X1 , . . . , Xn } ∼ Expλ1 +···+λn .
Infatti, ricordiamo che le funzioni di densità e di ripartizione della distribuzione Expλ sono rispettivamente
γ(t) = λe−λt e F(t) = 1 − e−λt , t ≥ 0,
e sono nulle per t < 0. Allora per la Proposizione 3.6.9 si ha che

n
Y n
Y
FY (t) = 1 − 1 − FXk (t) = 1 − e−λk t , t ≥ 0,
k=1 k=1
che è proprio la CDF di Expλ1 +···+λn .

Esercizio 3.6.11. Sia X il massimo fra il risultato del lancio di due dadi. Determinare P (X ≥ 4).
Soluzione. Consideriamo le v.a. indipendenti Xi ∼ Unif6 , i = 1, 2, dei risultati dei due lanci di dado. Allora
X = max{X1 , X2 } e si ha
P (X ≥ 4) = 1 − P (X ≤ 3) = 1 − FX (3) =
(per la Proposizione 3.6.9)
= 1 − FX1 (3)FX1 (3) =
(ricordando la (2.4.8))
3 3 3
= 1− · = .
6 6 4
Esercizio 3.6.12. Provare che se Xi ∼ Geompi , i = 1, 2, sono indipendenti allora min{X1 , X2 } ∼ Geomp con
p = p1 + p2 − p1 p2 . Generalizzare il risultato al caso di n v.a. geometriche indipendenti.
Esercizio 3.6.13. Determinare la distribuzione di max{X, Y } e min{X, Y } dove X, Y sono v.a. indipendenti
con distribuzione X ∼ Unif[0,2] e Y ∼ Unif[1,3] .
Capitolo 4
Successioni di variabili aleatorie
The new always happens against the

overwhelming odds of statistical
laws and their probability, which for
all practical, everyday purposes
amounts to certainty; the new
therefore always appears in the guise
of a miracle.
Hannah Arendt
L’oggetto di questo capitolo sono le successioni di variabili aleatorie. Il problema dell’esistenza e co-
struzione di tali successioni non è ovvio e richiede strumenti avanzati che vanno al di là dello scopo del
presente testo: pertanto, dando per assunta l’esistenza, ci occuperemo solo di studiare varie nozioni di
convergenza per successioni di variabili aleatorie. Inoltre proveremo alcuni risultati classici, la Legge dei
grandi numeri e il Teorema centrale del limite, e ne analizzeremo alcune applicazioni fra cui l’importante
metodo numerico stocastico noto come metodo Monte Carlo.
4.1 Convergenza per successioni di variabili aleatorie

In questa sezione riepiloghiamo e confrontiamo varie definizioni di convergenza di successioni di varia-
bili aleatorie. Consideriamo uno spazio di probabilità (Ω, F , P ) su cui sono definite una successione di v.a.
(Xn )n∈N e una v.a. X valori in Rd :
i) (Xn )n∈N converge quasi certamente a X se1

P lim Xn = X = 1,
n→∞
ossia se
lim Xn (ω) = X(ω)
n→∞
per quasi ogni ω ∈ Ω. In tal caso scriviamo

q.c.
Xn −−−−→ X.
1 Per l’Osservazione 3.1.9, l’insieme

lim X = X := {ω ∈ Ω | lim Xn (ω) = X(ω)}
n→∞ n n→∞
è un evento.
165
166 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
ii) Siano (Xn )n∈N e X rispettivamente una successione e una v.a. in Lp (Ω, P ) con p ≥ 1. Diciamo che
(Xn )n∈N converge a X in Lp se
lim E [|Xn − X|p ] = 0.
n→∞
In tal caso scriviamo

Lp
Xn −−−→ X.
iii) (Xn ) converge in probabilità a X se, per ogni ε > 0, vale
lim P (|Xn − X| ≥ ε) = 0.
n→∞
In tal caso scriviamo

P
Xn −−→ X.
iv) (Xn ) converge debolmente (o in legge o in distribuzione) a X se vale
lim E [f (Xn )] = E [f (X)]

n→∞
per ogni f ∈ bC dove bC = bC(Rd ) indica la famiglia delle funzioni continue e limitate da Rd a R. In
tal caso scriviamo
d
Xn −−−−→ X.
Osservazione 4.1.1 (Convergenza debole di distribuzioni). La convergenza debole non richiede che le va-
riabili Xn siano definite sullo stesso spazio di probabilità, ma dipende solo dalle distribuzioni delle variabili
stesse. Diciamo che una successione (µn )n∈N di distribuzioni su Rd converge debolmente alla distribuzione
µ e scriviamo
d
µn −−−−→ µ,
se vale Z Z
lim f dµn = f dµ per ogni f ∈ bC. (4.1.1)
n→∞ Rd Rd
Poiché Z
E [f (Xn )] = f dµXn ,
Rd
la convergenza debole di (Xn )n∈N equivale alla convergenza debole della successione (µXn )n∈N delle corri-
d d
spondenti distribuzioni: in altri termini, Xn −−−−→ X se e solo se µXn −−−−→ µX .
d
Esempio 4.1.2. [!] Sia (xn )n∈N una successione di numeri reali convergente a x ∈ R. Allora δxn −−−−→ δx
poiché, per ogni f ∈ bC, si ha
Z Z
f dδxn = f (xn ) −−−−−−→ f (x) = f dδx .
R n→∞ R
Tuttavia non è vero che

lim δxn (H) = δx (H)
n→∞
per ogni H ∈ B: per esempio, se xn = n1 e H = R>0 . Questo spiega perché nella definizione (4.1.1) di
convergenza di distribuzioni è naturale assumere f ∈ bC e non f = 1H per ogni H ∈ B.
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 167
Esempio 4.1.3. Siano date due successioni di numeri reali (an )n∈N e (σn )n∈N tali che an −→ a ∈ R e 0 <
d
σn −→ 0 per n → ∞. Se Xn ∼ Nan ,σn2 allora Xn −−−−→ X con X ∼ δa . Infatti, per ogni f ∈ bC(R), si ha
Z Z x−a 2
1 − 12 n
E[f (Xn )] = f dNan ,σn2 = f (x) p e σn dx =
R R 2πσn2
x−an
(col cambio di variabili z = √ )
σn 2
Z √ e−z2
= f an + zσn 2 √ dz,
R π
che tende ad f (a) = E[f (X)] per il Teorema della convergenza dominata.
Notiamo che se le variabili X e Xn , per ogni n ∈ N, sono definite sullo stesso spazio di probabilità
(Ω, F , P ), si ha anche convergenza in L2 : infatti Xn , X ∈ L2 (Ω, P ) e si ha
h i h i h i
E |Xn − X|2 ≤ 2E |Xn − an |2 + 2E |an − X|2
h i
= 2E |Xn − an |2 + 2|an − a|2
= 2σn2 + 2|an − a|2 −−−−−−→ 0.
n→∞
4.1.1 Disuguaglianza di Markov

Teorema 4.1.4 (Disuguaglianza di Markov). [!]
Per ogni X v.a. a valori in Rd , λ > 0 e p ∈ [0, +∞[, vale la disuguaglianza di Markov:
E [|X|p ]
P (|X| ≥ λ) ≤ . (4.1.2)
λp
In particolare, se Y ∈ L2 (Ω, P ) è una v.a. reale, vale la disuguaglianza di Chebyschev:
var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ . (4.1.3)
λ2
Dimostrazione. Per quanto riguarda la (4.1.2), se E [|X|p ] = +∞ non c’è nulla da provare, altrimenti per la
proprietà di monotonia si ha
h i h i
E [|X|p ] ≥ E |X|p 1(|X|≥λ) ≥ λp E 1(|X|≥λ) = λp P (|X| ≥ λ) .
La (4.1.3) segue dalla (4.1.2) ponendo p = 2 e X = Y − E [Y ], infatti

h i
E |Y − E [Y ]|2 var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ = .
λ2 λ2
Osservazione 4.1.5. In modo simile si prova la seguente generalizzazione della disuguaglianza di Markov:
per ogni X v.a. a valori in Rd , λ > 0 e f funzione reale su [0, +∞[ monotona (debolmente) crescente, vale
P (|X| ≥ λ)f (λ) ≤ E [f (|X|)] .

2
Un esempio interessante è f (λ) = eαλ con α > 0.
La disuguaglianza di Markov fornisce una stima per i valori estremi di X in termini della sua norma Lp .
Viceversa, si ha la seguente
Proposizione 4.1.6. [!] Siano X una v.a. e f ∈ C 1 (R≥0 ) tale che f ′ ≥ 0 o f ′ ∈ L1 (R≥0 , µ|X| ). Allora
Z +∞
E [f (|X|)] = f (0) + f ′ (λ)P (|X| ≥ λ)dλ. (4.1.4)
0
Z +∞
E [f (|X|)] = f (y)µ|X| (dy) =
0
Z +∞ Zy !
′
= f (0) + f (λ)dλ µ|X| (dy) =
0 0

Z +∞ Z +∞
′
= f (0) + f (λ) µ|X| (dy)dλ =
0 λ
Z +∞
= f (0) + f ′ (λ)P (|X| ≥ λ)dλ.
0
Esempio 4.1.7. Per f (λ) = λp , p ≥ 1, dalla (4.1.4) abbiamo

Z +∞
p
E [|X| ] = p λp−1 P (|X| ≥ λ) dλ. (4.1.5)
0
Di conseguenza, per provare che X ∈ Lp è sufficiente avere una buona stima di P (|X| ≥ λ), almeno per λ ≫ 1.
2
Analogamente, per f (λ) = eαλ , α > 0, si ha
Z +∞
α|X|2 2
h i
E e = 1+ 2αλeαλ P (|X| ≥ λ) dλ.
0
4.1.2 Relazioni fra le diverse definizioni di convergenza

Lemma 4.1.8. Sia (an )n∈N una successione in uno spazio topologico (E, T ). Se ogni sotto-successione
(ank )k∈N ammette una sotto-successione (ank )i∈N convergente al medesimo a ∈ E, allora anche (an )n∈N
i
converge ad a.
Dimostrazione. Per assurdo, se (an )n∈N non convergesse ad a allora esisterebbe U ∈ T tale che a ∈ U e una
sotto-successione (ank )k∈N tale che ank < U per ogni k ∈ N. In questo caso nessuna sotto-successione di
(ank )k∈N convergerebbe ad a, contraddicendo l’ipotesi.
Il seguente risultato riassume le relazioni fra i vari tipi di convergenza di successioni di v.a.: queste sono
rappresentate schematicamente nella Figura 4.1.
Teorema 4.1.9. Siano (Xn )n∈N una successione di v.a. e X una v.a. definite sullo stesso spazio di probabilità
(Ω, F , P ), a valori in Rd . Valgono le seguenti implicazioni:
q.c. P
i) se Xn −−−−→ X allora Xn −−→ X;
Lp P
ii) se Xn −−−→ X per qualche p ≥ 1 allora Xn −−→ X;
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 169
P q.c.
iii) se Xn −−→ X allora esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X;
P d
iv) se Xn −−→ X allora Xn −−−−→ X;
P
v) se Xn −−→ X ed esiste Y ∈ Lp (Ω, P ) tale che |Xn | ≤ Y q.c., per ogni n ∈ N, allora Xn , X ∈ Lp (Ω, P ) e
Lp
Xn −−−→ X;
d P
vi) se Xn −−−−→ X, con X ∼ δc , c ∈ Rd , allora Xn −−→ X.
Lp

Xn −−−→ X
se |Xn |≤Y ∈Lp
q.c.

P d
Xn −−−−→ X Xn −−→ X Xn −−−−→ X
sotto-successione se X ∼ δc
Figura 4.1: Relazioni fra i vari tipi di convergenza di v.a.
q.c.
Dimostrazione. i) Fissato ε > 0, se Xn −−−−→ X allora
q.c.
1(|Xn −X|≥ε) −−−−→ 0
e quindi per il Teorema della convergenza dominata si ha

h i
P (|Xn − X| ≥ ε) = E 1(|Xn −X|≥ε) −→ 0.
ii) Fissato ε > 0, per la disuguaglianza di Markov (4.1.2) si ha

E [|Xn − X|p ]
P (|Xn − X| ≥ ε) ≤
εp
da cui la tesi.
1
iii) Per ipotesi esiste una successione di indici (nk )k∈N , con nk → +∞, tale che P (Ak ) ≤ k2
dove

Ak := |X − Xnk | ≥ 1/k .
Poiché X
P (Ak ) < ∞,
k≥1
per il Lemma 2.3.28-i) di Borel-Cantelli si ha P (Ak i.o.) = 0. Dunque l’evento (Ak i.o.)c ha probabilità uno:
per definizione2 , per ogni ω ∈ (Ak i.o.)c esiste k̄ = k̄(ω) ∈ N tale che
1
|X(ω) − Xnk (ω)| < , k ≥ k̄
k
e di conseguenza vale
lim Xnk (ω) = X(ω)
k→∞
2 Gli elementi di (A i.o.)c sono quelli che appartengono solo ad un numero finito di A .
k k
che prova la tesi.

iv) Sia f ∈ bC. Per il punto iii), ogni sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N
i
q.c. q.c.
tale che Xnk −−−−→ X. Poiché f è continua, si ha anche f (Xnk ) −−−−→ f (X) e poiché f è limitata si applica il
i i
Teorema della convergenza dominata per avere
h i
lim E f Xnk = E [f (X)] .
i→∞ i
Ora per il Lemma 4.1.8 (applicato alla successione an := E [f (Xn )] in R munito della topologia Euclidea) si
ha anche
lim E [f (Xn )] = E [f (X)]
n→∞
da cui la tesi.
v) Dato che |Xn | ≤ Y q.c. e Y ∈ Lp (Ω, P ), è chiaro che Xn ∈ Lp (Ω, P ). Per quanto riguarda X, dal punto iii)
q.c.
sappiamo che esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X. Dato che |Xnk | ≤ Y q.c., per k → ∞
Lp
si ottiene |X| ≤ Y q.c., quindi X ∈ Lp (Ω, P ). Infine, mostriamo che Xn −−−→ X. Sempre per il punto iii), ogni
q.c.
sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N tale che Xnk −−−−→ X. Per il Teorema
i i
Lp Lp
della convergenza dominata si ha che Xnk −−−→ X. Dal Lemma 4.1.8 segue che Xn −−−→ X.
i
vi) Dati c ∈ Rd ed ε > 0, sia fε ∈ bC, non-negativa e tale che fε (x) ≥ 1 se |x − c| > ε e fε (c) = 0. Si ha
h i
P (|Xn − X| ≥ ε) = P (|Xn − c| ≥ ε) = E 1(|Xn −c|≥ε) ≤ E [fε (Xn )] −−−−−−→ fε (c) = 0.
n→∞
Diamo alcuni controesempi relativi alle implicazioni studiate nel Teorema 4.1.9. Nei primi due esempi
consideriamo Ω = [0, 1] con la misura di Lebesgue.
Esempio 4.1.10. La successione Xn (ω) = n2 1[0, 1 ] (ω), per ogni ω ∈ [0, 1], converge a zero quasi certamente
n
(e di conseguenza anche in probabilità), ma E [|Xn |p ] = n2p−1 diverge per ogni p ≥ 1.
Esempio 4.1.11. Diamo un esempio di successione (Xn ) che converge in Lp (e quindi anche in probabilità)
con 1 ≤ p < ∞, ma non quasi certamente. Rappresentiamo ogni intero positivo n come n = 2k + ℓ, con
k = 0, 1, 2, . . . e ℓ = 0, . . . , 2k − 1. Notiamo che la rappresentazione è unica. Poniamo
" #
ℓ ℓ+1
Jn = k , k ⊆ [0, 1] e Xn (ω) = 1Jn (ω), ω ∈ [0, 1].
2 2
Per ogni p ≥ 1, vale
1
E [|Xn |p ] = E [Xn ] = Leb(Jn ) = ,
2k
Lp
e quindi Xn −−−→ 0 dato che k → ∞ quando n → ∞. D’altra parte, ciascun ω ∈ [0, 1] appartiene ad un numero
infinito di intervalli Jn e quindi la successione reale Xn (ω) non converge per ogni ω ∈ [0, 1].
Esempio 4.1.12. Data una variabile aleatoria X ∼ Be 1 , poniamo
2

X,

 se n pari,
Xn = 
1 − X,
 se n dispari.
d
Poiché (1 − X) ∼ Be 1 allora chiaramente Xn −−−−→ X. Tuttavia |Xn+1 − Xn | = |2X − 1| = 1 per ogni n ∈ N: allora
2
P (|Xn+1 −Xn | ≥ 1/2) = 1 per ogni n e quindi Xn non converge a X in probabilità (e, di conseguenza, nemmeno
in Lp o quasi certamente).
4.2. LEGGE DEI GRANDI NUMERI 171
Osservazione 4.1.13. Non esiste una metrica (e neppure una topologia) che induce la convergenza quasi
certa di variabili aleatorie: in caso contrario si potrebbe combinare il Lemma 4.1.8 con il punto iii) del
P q.c.
Teorema 4.1.9 per concludere che se Xn −−→ X allora Xn −−−−→ X, in contraddizione con l’Esempio 4.1.11.
Al contrario, le convergenze in Lp e in probabilità sono “metrizzabili”. Infatti, la convergenza in Lp è
1
semplicemente la convergenza relativa alla norma ∥X∥p = E [|X|p ] p nello spazio Lp (Ω, P ): è dunque un tipo
di convergenza definita solo per variabili sommabili di ordine p. Invece la convergenza in probabilità è
P
definita per variabili qualsiasi e si ha che Xn −−→ X se e solo se
" #
|X − Xn |
lim E = 0. (4.1.6)
n→∞ 1 + |X − Xn |
Proviamo questo fatto nell’ipotesi (non restrittiva) che X ≡ 0. Notiamo che per ogni ε > 0 si ha
|x| |x|
≤ 1 + ε1|x|<ε ≤ 1|x|≥ε + ε1|x|<ε .
1 + |x| 1 + |x| |x|≥ε
Applicando il valore atteso si ha
" #
|Xn |
E ≤ P (|Xn | ≥ ε) + εP (|Xn | < ε) ≤ P (|Xn | ≥ ε) + ε.
1 + |Xn |
P
Allora, nel caso in cui Xn −−→ 0, si ha " #
|Xn |
lim E ≤ε
n→∞ 1 + |Xn |
e la (4.1.6) segue dall’arbitrarietà di ε.
Viceversa, notiamo che
ε x x
1 ≤ 1 ≤
1 + ε x>ε 1 + x x>ε 1 + x
e quindi
ε |Xn |
1 ≤ .
1 + ε |Xn |>ε 1 + |Xn |
Applicando il valore atteso si ottiene
" #
ε |Xn |
P (|Xn | > ε) ≤ E
1+ε 1 + |Xn |
P
da cui la (4.1.6) implica che Xn −−→ 0.
Anche la convergenza debole è metrizzabile nello spazio delle distribuzioni: per approfondimenti si
vedano, per esempio, la monografie [19] e [56].
4.2 Legge dei grandi numeri

In questa sezione dimostriamo due versioni della Legge dei grandi numeri. Tale legge riguarda succes-
sioni di v.a. reali (Xn )n∈N , definite sullo stesso spazio di probabilità (Ω, F , P ), con l’ulteriore ipotesi che
siano indipendenti e identicamente distribuite (abbreviato in i.i.d.). Denotiamo con
Sn
Sn = X1 + · · · + Xn , Mn = , (4.2.1)
n
rispettivamente la somma e la media aritmetica di X1 , . . . , Xn .
Teorema 4.2.1 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L2 (Ω, P ),
con valore atteso µ := E [X1 ] e varianza σ 2 := var(X1 ). Allora si ha
h i σ2
E (Mn − µ)2 = (4.2.2)
n
e di conseguenza la media aritmetica Mn converge in norma L2 (Ω, P ) alla v.a. costante uguale µ:
L2
Mn −−−→µ.
Osservazione 4.2.2. Combinando la (4.2.2) con la disuguaglianza di Markov si ha
σ2
P (|Mn − µ| ≥ ε) ≤ , ε > 0, n ∈ N,
nε2
e quindi Mn converge anche in probabilità a µ. Inoltre, dal Teorema 4.1.9-iv) segue che Mn converge anche
debolmente:
d
Mn −−−−→ µ.
Dimostrazione. Per linearità, si ha
n
1X
E [Mn ] = E [Xk ] = µ,
n
k=1
e quindi
h i var(X1 + · · · + Xn )
E (Mn − µ)2 = var(Mn ) = =
n2
(per l’indipendenza, ricordando la (3.2.19))
var(X1 ) + · · · + var(Xn ) σ 2
= = . (4.2.3)
n n
La convergenza di Mn in L2 (Ω, P ) implica la convergenza q.c. di una sotto-successione di Mn , per il

Teorema 4.1.9-iii). In realtà, con un po’ di lavoro in più è possibile verificare che la successione stessa Mn
converge q.c.: riportiamo la prova data in [55].
Teorema 4.2.3 (Legge forte dei grandi numeri). Nelle ipotesi del Teorema 4.2.1 si ha anche
q.c.
Mn −−−−→ µ.
Dimostrazione. A meno di traslare le variabili Xn non è restrittivo assumere µ = 0. Cominciamo col provare
che la sotto-successione Mn2 converge q.c.: infatti, per la (4.2.3), si ha
N  N N
X
2
 X h i X σ2
E  Mn2  = E Mn22 = , N ∈ N,
n2
n=1 n=1 n=1
e per il Teorema di Beppo-Levi ∞  ∞

X  X σ 2
2
E  Mn2  = <∞
n2
n=1 n=1
da cui
q.c.
Mn2 −−−−→ 0. (4.2.4)
Ora cerchiamo di controllare

√ tutti i termini della successione Mn con termini del tipo Mn2 . Per ogni n ∈ N
indichiamo con pn = [ n] la parte intera della radice di n, cosicché si ha
pn2 ≤ n < (pn + 1)2 .
Per definizione di Mn vale

n
pn2 1 X
Mn − Mpn2 = Xk
n n 2
k=pn +1
da cui, come per la (4.2.3), si ha


2
!2 
 p n  n − pn2 2
E  Mn − Mpn2  = σ ≤
n n2
(poiché 0 ≥ n − (pn + 1)2 = n − pn2 − 2pn − 1)

√
2pn + 1 2 2 n + 1 2 3σ 2
≤ σ ≤ σ ≤ 3 .
n2 n2 n2
Ancora per il Teorema di Beppo-Levi si ha
∞ !2  X
X p 2
n
 ∞ 3σ 2
E  Mn − Mpn2  ≤ 3
<∞
n n 2
n=1 n=1
da cui
pn2 q.c.
Mn − Mpn2 −−−−→ 0.
n
q.c. pn2 q.c.
Ora Mpn2 −−−−→ 0 per la (4.2.4) e d’altra parte n → 1 per n → ∞: di conseguenza anche Mn −−−−→ 0 e questo
conclude la prova.
Esempio 4.2.4 (Strategia del raddoppio). Nel gioco della roulette si lancia una pallina che si può fermare
in una fra le 37 posizioni possibili, composte da 18 numeri rossi, 18 numeri neri e lo zero che è verde.
Consideriamo la strategia di gioco che consiste nel puntare sul rosso (la vincita è il doppio della giocata)
e raddoppiare la giocata ogni volta che si perde. Dunque alla prima giocata si punta 1 (ossia 20 ) Euro e,
in caso di perdita, alla seconda giocata si puntano 2 (ossia 21 ) Euro e cosı̀ via fino alla n-esima giocata in
cui, se si è sempre perso, si puntano 2n−1 Euro. A questo punto (ossia alla n-esima giocata avendo sempre
perso), l’ammontare giocato è pari a3
1 + 2 + · · · + 2n−1 = 2n − 1,
e ci sono due casi:
i) si perde e in tal caso la perdita complessiva è pari a 2n − 1;
ii) si vince e si incassano 2 · 2n−1 Euro. Il bilancio totale è dunque positivo ed è pari alla differenza fra la
vincita e l’ammontare giocato:
2n − (2n − 1) = 1.
n
3 Si ricordi che P ak = an+1 −1 per a , 1.
a−1
k=0
La probabilità di perdere per n volte consecutive è pari a pn , dove p = 19

37 è la probabilità che la pallina si
fermi sul nero o sul verde. Di conseguenza, la probabilità di vincere almeno una volta su n giocate è pari a
1 − pn .
Consideriamo ora il caso in cui decidiamo di attuare la strategia del raddoppio fino ad un massimo di
10 giocate. Precisamente indichiamo con X il guadagno/perdita che otteniamo giocando al raddoppio e
incassando 1 Euro se vinciamo entro la decima giocata oppure perdendo 210 − 1 = 1023 Euro nel caso di 10
perdite consecutive. Allora X è una v.a. di Bernoulli che assume i valori −1023 con probabilità p10 ≈ 0.13%
e 1 con probabilità 1 − p10 ≈ 99.87%. Dunque attuando la strategia del raddoppio abbiamo che vinciamo 1
Euro con grande probabilità a fronte di una perdita rilevante (1023 Euro) in casi molto rari.
Potremmo pensare allora di attuare la strategia del raddoppio ripetutamente per N volte: per capire se
è conveniente possiamo calcolare la media
0.13 99.87
E [X] ≈ −1023 · +1· ≈ −0.3
100 100
e interpretare tale risultato alla luce della Legge dei grandi numeri. Il fatto che E [X] sia pari a −0.3 significa
che se X1 , . . . , XN indicano i singoli guadagni/perdite allora complessivamente
X1 + · · · + XN
molto probabilmente sarà vicino a −0.3N . Questo è dovuto al fatto che il gioco non è equo per la presenza
dello zero (verde) per cui la probabilità di vincere puntando sul rosso è leggermente minore di 21 . In realtà
si può provare che se anche fosse p = 12 allora la strategia del raddoppio, col vincolo di raddoppiare al
massimo n volte, produrrebbe un guadagno medio nullo. Lo studio di questo tipo di problemi legati ai
giochi d’azzardo è all’origine di un ampio settore della Probabilità, la cosiddetta teoria delle martingale, che
insieme alle numerose applicazioni ha fondamentali e profondi risultati teorici.
4.2.1 Cenni al metodo Monte Carlo

La Legge dei grandi numeri è alla base di un metodo numerico probabilistico molto importante, noto
come metodo Monte Carlo. In molte applicazioni si è interessati a calcolare (o almeno approssimare nume-
ricamente) il valore atteso E [f (X)] dove X è una v.a. in Rd e f ∈ L2 (Rd , µX ) (e quindi f (X) ∈ L2 (Ω, P )). Per
esempio, nel caso d = 1, se X ∼ Unif[0,1] e f ∈ L2 ([0, 1]), allora
Z 1
f (x)dx = E [f (X)] .
0
Dunque un integrale (anche multidimensionale) ammette una rappresentazione probabilistica e il calcolo

di esso può essere ricondotto al calcolo di un valore atteso.
Ora supponiamo che (Xn )n∈N sia una successione di v.a. reali i.i.d. con la medesima distribuzione4 di
X. Per la Legge forte dei grandi numeri vale
f (X1 ) + · · · + f (Xm )
E[f (X)] = lim q.c.
m→∞ m
Questo risultato può essere tradotto in termini “pratici” nel modo seguente. Supponiamo di poter estrarre
casualmente un valore xn dalla v.a. Xn , per ogni n = 1, . . . , m con m ∈ N fissato, sufficientemente grande:
diciamo che xn è una realizzazione o simulazione della v.a. Xn . Allora un’approssimazione di E [f (X)] è data
dalla media aritmetica
m
1X
f (xn ). (4.2.5)
m
n=1
4 Si dice (X )
n n∈N è una successione di copie indipendenti di X.
In (4.2.5) x1 , . . . , xm rappresentano m realizzazioni (simulazioni) indipendenti di X: in altri termini, xn è un

numero (non una v.a.) che è un particolare valore della v.a. Xn generato in modo indipendente da Xh per h , n.
La maggior parte dei software di calcolo scientifico possiede generatori di numeri aleatori per le principali
distribuzioni (uniforme, esponenziale, normale etc...). In definitiva, il metodo Monte Carlo permette di ap-
prossimare numericamente il valore atteso di una funzione di una v.a. di cui si sia in grado di generare (simulare)
dei valori casuali in modo indipendente.
I principali vantaggi rispetto ai metodi deterministici di integrazione numerica sono i seguenti:
i) per la convergenza del metodo non si richiedono ipotesi di regolarità sulla funzione f se non la somma-
bilità;
ii) l’ordine di convergenza del metodo è indipendente dalla dimensione d e l’implementazione in dimen-
sione maggiore di uno non comporta alcuna difficoltà aggiuntiva.
Le questioni della convergenza e della stima dell’errore numerico del metodo Monte Carlo saranno breve-
mente discusse nell’Osservazione 4.4.7. Il metodo Monte Carlo può anche essere applicato alla risoluzione
numerica di vari tipi di equazioni alle derivate parziali. Al momento il Monte Carlo è l’unico metodo numerico
conosciuto per risolvere problemi di grandi dimensioni che tipicamente sorgono nelle applicazioni reali. Esistono
molte monografie dedicate al Monte Carlo, fra cui segnaliamo [49]; una presentazione sintetica del metodo
si trova anche in [94].
La Figura 4.2 rappresenta l’istogramma di un vettore di 10.000 numeri casuali generati da una distri-
buzione N1,3 : si vede in figura come l’istogramma “approssima” il grafico (la linea continua) della densità
Gaussiana di N1,3 .
Figura 4.2: Istogramma di un vettore di 10.000 numeri casuali estratti dalla distribuzione N1,3 e grafico
della densità Gaussiana di N1,3
4.2.2 Polinomi di Bernstein

Forniamo una dimostrazione probabilistica del noto risultato di densità dei polinomi nello spazio C([0, 1])
delle funzioni continue sull’intervallo [0, 1], rispetto alla norma uniforme.
Proposizione 4.2.5. Data f ∈ C([0, 1]), definiamo il polinomio di Bernstein di grado n associato a f nel modo
seguente
n !
X n k
fn (p) = p (1 − p)n−k f (k/n) , p ∈ [0, 1]. (4.2.6)
k
k=0
Allora si ha
lim ∥f − fn ∥∞ = 0,
n→∞
dove ∥f ∥∞ = max |f (p)|.
p∈[0,1]
Dimostrazione. Sia (Xn )n∈N una successione di v.a. reali i.i.d. aventi distribuzione Bep . Poniamo Mn =
X1 +···+Xn
n . Ricordiamo che, per la Proposizione 3.6.3, X1 + · · · + Xn ∼ Binn,p . Allora l’interpretazione probabi-
listica della formula (4.2.6) è
fn (p) = E [f (Mn )] , p ∈ [0, 1].
Ora osserviamo che
p(1 − p) 1
var (Mn ) =
≤ ,
n 4n
ed essendo E [Mn ] = p, per la disuguaglianza di Markov (4.1.3) si ha
1
P (|Mn − p| ≥ λ) ≤ , λ > 0. (4.2.7)
4nλ2
Poiché f è uniformemente continua su [0, 1], per ogni ε > 0 esiste λε tale che |f (x) − f (y)| ≤ ε se |x − y| ≤ λε .
Allora si ha
|f (p) − fn (p)| = |f (p) − E [f (Mn )]| ≤
≤ E [|f (p) − f (Mn )|]
h i
≤ ε + E |f (p) − f (Mn )| 1(|Mn −p|≥λε )
≤ ε + 2∥f ∥∞ P (|Mn − p| ≥ λε ) .
Utilizzando la (4.2.7) si ottiene
lim sup ∥f − fn ∥∞ ≤ ε
n→∞
e la tesi segue dall’arbitrarietà di ε.
4.3 Condizioni necessarie e sufficienti per la convergenza debole

In questa sezione forniamo due condizioni necessarie e sufficienti per la convergenza debole di una
successione (Xn )n∈N di v.a. reali: la prima è espressa in termini delle CDF (FXn )n∈N e la seconda in termini
delle CHF (ϕXn )n∈N .
4.3.1 Convergenza di funzioni di ripartizione

Poiché ogni distribuzione è identificata dalla propria CDF, è naturale chiedersi se ci sia una relazione
fra la convergenza debole e la convergenza puntuale delle relative CDF. Consideriamo un paio di semplici
esempi.
Esempio 4.3.1. La successione delle distribuzioni uniformi Unif[0, 1 ] , con n ∈ N, converge debolmente alla
n
delta di Dirac δ0 poiché, per ogni f ∈ bC, si ha
Z Z 1 Z
n
f dUnif[0, 1 ] = n f (x)dx −−−−−−→ f (0) = f dδ0 .
R n
0 n→∞ R
D’altra parte, la successione delle CDF FUnif 1]
, rappresentata in Figura 4.3, converge puntualmente a Fδ0
[0, n
solo su R \ {0}: notiamo che 0 è l’unico punto di discontinuità di Fδ0 .
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 177
1.0
0.8
0.6
0.4
0.2
-2 -1 1 2
Figura 4.3: CDF delle distribuzioni Unif[0,1] (linea continua), Unif[0, 1 ] (linea tratteggiata) e Unif[0, 1 ] (linea
2 5
punteggiata).
Esempio 4.3.2. Non è difficile verificare che:
• se xn ↗ x0 allora Fδxn (x) −→ Fδx (x) per ogni x ∈ R;

0
• se xn ↘ x0 allora Fδxn (x) −→ Fδx (x) per ogni x ∈ R \ {x0 }.

0
Teorema 4.3.3. Siano (µn )n∈N una successione di distribuzioni reali e µ una distribuzione reale. Sono
equivalenti le seguenti affermazioni:
d
i) µn −−−−→ µ;
ii) Fµn (x) −−−−−−→ Fµ (x) per ogni x punto di continuità di Fµ .

n→∞
Dimostrazione. Ovviamente l’enunciato ha la seguente formulazione equivalente in termini di variabili

aleatorie: siano (Xn )n∈N una successione di v.a. reali e X una v.a. reale. Sono equivalenti le seguenti
affermazioni:
d
i) Xn −−−−→ X;
ii) FXn (x) −−−−−−→ FX (x) per ogni x punto di continuità di FX .

n→∞

[i) =⇒ ii)] Fissiamo x, punto di continuità di FX : allora per ogni ε > 0 esiste δ > 0 tale che FX (x) − FX (y) ≤ ε
se |x − y| ≤ δ. Sia f ∈ bC tale che |f | ≤ 1 e

1 per y ≤ x,


f (y) = 
0 per y ≥ x + δ.

Notiamo che h i
E [f (Xn )] ≥ E f (Xn )1(Xn ≤x) = P (Xn ≤ x) = FXn (x).
Allora abbiamo
lim sup FXn (x) ≤ lim sup E [f (Xn )] =

n→∞ n→∞
d
(per ipotesi, poiché Xn −−−−→ X)
= E [f (X)] ≤ FX (x + δ) ≤ FX (x) + ε.
Analogamente, se f ∈ bC è tale che |f | ≤ 1 e


1 per y ≤ x − δ,


f (y) = 
0
 per y ≥ x,
allora h i
E [f (Xn )] ≤ E 1{Xn ≤x} = FXn (x).
Quindi abbiamo
lim inf FXn (x) ≥ lim inf E [f (Xn )] =

n→∞ n→∞
(per ipotesi)
= E [f (X)] ≥ FX (x − δ) ≥ FX (x) − ε.
La tesi segue dall’arbitrarietà di ε.

[ii) =⇒ i)] Dati a, b punti di continuità di FX , per ipotesi si ha
h i h i
E 1]a,b] (Xn ) = FXn (b) − FXn (a) −−−−−−→ FX (b) − FX (a) = E 1]a,b] (X) .
n→∞
Fissiamo R > 0 e f ∈ bC col supporto contenuto nel compatto [−R, R]. Poiché i punti di discontinuità di
FX sono al più un’infinità numerabile, f può essere approssimata uniformemente (in norma L∞ ) mediante
combinazioni lineari di funzioni del tipo 1]a,b] con a, b punti di continuità di FX . Ne viene che anche per
tale f vale
lim E [f (Xn )] = E [f (X)] .
n→∞
Infine, fissiamo ε > 0 e consideriamo R abbastanza grande in modo che FX (−R) ≤ ε e FX (R) ≥ 1 − ε:
assumiamo inoltre che R e −R siano punti di continuità di FX . Allora per ogni f ∈ bC vale
E [f (Xn ) − f (X)] = J1,n + J2,n + J3
dove
h i h i
J1,n = E f (Xn )1]−R,R] (Xn ) − E f (X)1]−R,R] (X) ,
h i
J2,n = E f (Xn )1]−R,R]c (Xn ) ,
h i
J3 = −E f (X)1]−R,R]c (X) .
Ora, per quanto provato sopra, si ha

lim J1,n = 0
n→∞
mentre, per ipotesi,

J2,n ≤ ∥f ∥∞ FXn (−R) + (1 − FXn (R)) −−−−−−→ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ ,
n→∞
e
|J3 | ≤ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ .
Non è sufficiente che le CDF Fµn convergano ad una funzione continua per concludere che µn converge
debolmente, come mostra il seguente
Esempio 4.3.4. La successione di delta di Dirac δn non converge debolmente, tuttavia
Fδn (x) = 1[n,+∞[ (x) −−−−−−→ 0, x ∈ R,

n→∞
ossia Fδn converge puntualmente alla funzione identicamente nulla che, ovviamente, è continua su R ma
non è una CDF.
L’Esempio 4.3.4 non contraddice il Teorema 4.3.3 poiché la funzione limite delle Fδn non è una funzione
di ripartizione. Tale esempio mostra anche che è possibile che una successione di CDF converga ad una
funzione che non è una CDF.
4.3.2 Compattezza nello spazio delle distribuzioni

In questa sezione introduciamo la proprietà di tightness5 che fornisce una caratterizzazione della relati-
va compattezza nello spazio delle distribuzioni reali: essa garantisce che da una successione di distribuzioni
si possa estrarre una sotto-successione convergente debolmente. In particolare, la tightness evita situazioni
come quella dell’Esempio 4.3.4.
Definizione 4.3.5 (Tightness). Una famiglia di distribuzioni reali (µi )i∈I è tight se per ogni ε > 0 esiste
M > 0 tale che
µi ] − ∞, −M] ∪ [M, +∞[ ≤ ε per ogni i ∈ I.
Esercizio 4.3.6. Provare che ogni famiglia costituita da una singola distribuzione reale è tight6 .
La proprietà di tightness si può anche attribuire a famiglie di v.a. (Xi )i∈I oppure di CDF (Fi )i∈I : esse
sono tight se lo sono le relative famiglie di distribuzioni, ossia vale
P (|Xi | ≥ M) ≤ ε per ogni i ∈ I,
e
Fi (−M) ≤ ε, Fi (M) ≥ 1 − ε per ogni i ∈ I.
Teorema 4.3.7 (Teorema di Helly). [!!] Ogni successione tight di distribuzioni reali (µn )n∈N ammette una
sotto-successione convergente debolmente ad una distribuzione µ.
Dimostrazione. Sia (µn )n∈N una successione tight di distribuzioni e sia (Fn )n∈N la successione delle relative
CDF. In base al Teorema 4.3.3, è sufficiente provare che esiste una CDF F ed una sotto-successione Fnk che
converge a F nei punti di continuità di F.
La costruzione di F è basata sull’argomento diagonale di Cantor. Consideriamo una enumerazione
(qh )h∈N dei numeri razionali. Poiché (Fn (q1 ))n∈N è una successione in [0, 1], essa ammette una sotto-

successione F1,n (q1 ) n∈N convergente a un valore che indichiamo con F(q1 ) ∈ [0, 1]. Ora F1,n (q2 ) n∈N

è una successione in [0, 1] che ammette una sotto-successione F2,n (q2 ) n∈N convergente a un valore che
indichiamo con F(q2 ) ∈ [0, 1]: notiamo che si ha anche
F2,n (q1 ) −−−−−−→ F(q1 )

n→∞
poiché F2,n è sotto-successione di F1,n . Ripetiamo l’argomento fino a costruire, per ogni k ∈ N, una succes-

sione Fk,n n∈N tale che
Fk,n (qh ) −−−−−−→ F(qh ), ∀h ≤ k.
n→∞
5 Preferiamo non tradurre il termine tecnico “tight”. In alcuni testi, “famiglia tight” è tradotto con “famiglia tesa” o “famiglia
stretta”.
6 Più in generale, ogni distribuzione µ su uno spazio metrico separabile e completo (M, ϱ), è tight nel senso seguente: per ogni ε > 0
esiste un compatto K tale che µ(M \ K) < ε. Per la dimostrazione, si veda il Teorema 1.4 in [19].
In base all’argomento diagonale, consideriamo la sotto-successione Fnk := Fk,k : essa è tale che
Fnk (q) −−−−−−→ F(q), q ∈ Q.

n→∞
Completiamo la definizione di F ponendo
F(x) := inf F(q), x ∈ R \ Q.

x<q∈Q
Per costruzione F assume valori in [0, 1], è monotona (debolmente) crescente e continua a destra. Per
provare che F è una funzione di ripartizione, rimane da verificare che
lim F(x) = 0, lim F(x) = 1. (4.3.1)

x→−∞ x→+∞
Soltanto a questo punto7 e solo per provare la (4.3.1), utilizziamo l’ipotesi che (Fn )n∈N sia una successione
tight: fissato ε > 0, esiste M (non è restrittivo assumere M ∈ Q) tale che vale Fnk (−M) ≤ ε per ogni k ∈ N.
Dunque, per ogni x ≤ −M, si ha
F(x) ≤ F(−M) = lim Fnk (−M) ≤ ε.
k→∞
Analogamente si ha, per ogni x ≥ M, si ha
1 ≥ F(x) ≥ F(M) = lim Fnk (M) ≥ 1 − ε.

k→∞
La (4.3.1) segue dall’arbitrarietà di ε.

Infine concludiamo provando che Fnk converge a F nei suoi punti di continuità. Infatti, se F è continua
in x allora per ogni ε > 0 esistono a, b ∈ Q tali che a < x < b e
F(x) − ε ≤ F(y) ≤ F(x) + ε, y ∈ [a, b].
Allora si ha
lim inf Fnk (x) ≥ lim inf Fnk (a) = F(a) ≥ F(x) − ε,
k→∞ k→∞
lim sup Fnk (x) ≤ lim sup Fnk (b) = F(b) ≤ F(x) + ε,
k→∞ k→∞
4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy

In questa sezione esaminiamo il rapporto fra la convergenza debole di distribuzioni e la convergenza
puntuale delle relative CHF. Consideriamo il caso d = 1 anche se quanto segue può essere facilmente esteso
al caso multidimensionale.
Teorema 4.3.8 (Teorema di continuità di Lévy). [!!] Sia (µn )n∈N una successione di distribuzioni reali e
sia (ϕn )n∈N la successione delle corrispondenti funzioni caratteristiche. Vale:
d
i) se µn −−−−→ µ allora ϕn converge puntualmente alla CHF ϕ di µ, ossia ϕn (η) −−−−−−→ ϕ(η) per ogni η ∈ R;
n→∞
ii) viceversa, se ϕn converge puntualmente a una funzione ϕ continua in 0, allora ϕ è la CHF di una
d
distribuzione µ e vale µn −−−−→ µ.
7 Si ripensi alla successione dell’Esempio 4.3.4, definita da X ≡ n per n ∈ N: essa non ammette sotto-successioni convergenti
n
debolmente eppure si ha lim FXn (x) = F(x) ≡ 0 per ogni x ∈ R. Infatti (Xn )n∈N non è una successione tight di v.a.
n→∞
d
Dimostrazione. i) Per ogni η fissato, la funzione f (x) := eixη è continua e limitata: quindi, se µn −−−−→ µ allora
Z Z
ϕn (η) = f dµn −−−−−−→ f dµ = ϕ(η).
R n→∞ R
ii) Dimostriamo che se ϕn converge puntualmente a ϕ, con ϕ funzione continua in 0, allora (µn )n∈N è tight.
Osserviamo che ϕ(0) = 1 e, per l’ipotesi di continuità di ϕ in 0, vale
1 t
Z
(1 − ϕ(η)) dη −−−−−−+→ 0. (4.3.2)
t −t t→0
Sia ora t > 0: vale

Zt Zt
iηx
2 sin(xt)
J1 (x, t) := 1−e dη = 2t − (cos(xη) + i sin(xη)) dη = 2t − =: J2 (x, t).
−t −t xt
Osserviamo che J2 (x, t) ≥ 0 poiché Z x
|sin x| = cos tdt ≤ |x|.

0
Allora, integrando rispetto a µn , da una parte si ha
Z Z
J2 (x, t)µn (dx) ≥ J2 (x, t)µn (dx) ≥
R t|x|≥2

sin(tx) 1 1
(poiché tx ≤ t|x|
≤ 2 se t|x| ≥ 2)
Z
2 2

≥ µn (dx) = µn − ∞, − ∪ , +∞ . (4.3.3)
t|x|≥2 t t
D’altra parte, per il Teorema di Fubini si ha
1 t 1 t
Z Z Z
J1 (x, t)µn (dx) = (1 − ϕn (η)) −−−−−−→ (1 − ϕ(η)) dη,
R t −t n→∞ t −t
per il Teorema della convergenza dominata. Dalla (4.3.2) segue che, per ogni ε > 0, esistono t > 0 e n̄ =
n̄(ε, t) ∈ N tali che Z
J (x, t)µ (dx) ≤ ε, n ≥ n̄.
1 n
R
Combinando questa stima con la (4.3.3), si conclude che
2 2

µn − ∞, − ∪ , +∞ ≤ ε, n ≥ n̄,
t t
e quindi (µn )n∈N è tight.
Ora concludiamo la dimostrazione. Data una sotto-successione µnk , per quanto appena provato, essa
è tight e quindi, per il Teorema di Helly, ammette un’ulteriore sotto-successione µnk che converge debol-
j
mente a una distribuzione µ. Per il punto i), ϕnk converge puntualmente alla CHF di µ: d’altra parte, per
j
ipotesi, ϕnk converge puntualmente ϕ e quindi ϕ è la CHF di µ. Riassumendo, ogni sotto-successione µnk
j
ammette una sotto-successione che converge debolmente alla distribuzione µ Rche ha CHF uguale a ϕ.
Sia ora f ∈ bC: per quanto appena provato, ogni sotto-successione di R f dµn ammette una sotto-
R R R
successione che converge a R f dµ. Per il Lemma 4.1.8, R f dµn converge a R f dµ. La tesi segue dal-
l’arbitrarietà di f .
Esempio 4.3.9. L’ipotesi di continuità in 0 del Teorema di Lévy è necessaria. Infatti consideriamo Xn ∼ N0,n
con n ∈ N. Allora
nη 2
ϕXn (η) = e− 2
converge a zero per n → ∞ per ogni η , 0 e vale ϕXn (0) = 1. D’altra parte, per ogni x ∈ R si ha
Zx
1 y2
FXn (x) = √ e− 2n dy =
−∞ 2πn
y
(col cambio z = √ )
2n
Z √x
2n 1 2 1
= √ e−z dz −−−−−−→ ,
−∞ π n→∞ 2
e quindi, per il Teorema 4.3.3, Xn non converge debolmente.
4.3.4 Esempi notevoli di convergenza debole

In questa sezione esibiamo alcuni esempi notevoli di convergenza debole. Vedremo successioni di v.a.
discrete che convergono a v.a. assolutamente continue e, viceversa, successioni di v.a. assolutamente conti-
d
nue che convergono a v.a. discrete. Negli esempi seguenti la convergenza Xn −−−−→ X è dimostrata tramite
il Teorema di continuità di Lévy, ovvero studiando la convergenza puntuale della successione delle CHF
(ϕXn )n∈N .
Esempio 4.3.10 (Dalla geometrica all’esponenziale). Consideriamo una successione di v.a. con distribu-
zione geometrica
Xn ∼ Geompn , n ∈ N,
dove 0 < pn < 1, per cui si ha
P (Xn = k) = pn (1 − pn )k−1 , k ∈ N.
Si calcola facilmente la CHF di Xn :
∞ ∞
X X k−1 eiη pn pn
ϕXn (η) = eiηk pn (1 − pn )k−1 = eiη pn eiη (1 − pn ) = = .
k=1 k=1
1 − eiη (1 − pn ) e−iη − 1 + pn
Xn d
Verifichiamo ora che se npn −−−−−→ λ per un certo λ ∈ R>0 allora n −−−−→ X ∼ Expλ . Infatti si ha
n→∞
η pn
X
n
ϕ Xn (η) = E eiη n = ϕXn = η =
n n −i
e n − 1 + pn
(sviluppando in serie di Taylor l’esponenziale per n → ∞)
pn npn λ
= η
= −−−−−−→ = ϕExpλ (η).
−i n 1
+ o n + pn −iη + o (1) + npn n→∞ λ − iη
Esempio 4.3.11 (Dalla normale alla Delta di Dirac). Riprendiamo l’Esempio 4.1.3 e consideriamo una
successione (Xn )n∈N di v.a. con distribuzione normale Xn ∼ Nan ,σn2 dove an −→ a ∈ R e σn −→ 0. Grazie al
d
Teorema di continuità di Lévy è facile verificare che Xn −−−−→ X ∼ δa . Infatti
η 2 σn2
ϕXn (η) = eian η− 2 −−−−−−→ eiaη , η ∈ R,
n→∞
d
perciò dal Teorema di continuità di Lévy segue che Xn −−−−→ X ∼ δa , ossia Xn converge debolmente a una
v.a. con distribuzione Delta di Dirac centrata in a.
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 183
Esempio 4.3.12 (Dalla binomiale alla Poisson). Consideriamo una successione di v.a. con distribuzione
binomiale
Xn ∼ Binn,pn , n ∈ N.
d
Se npn −−−−−→ λ per un certo λ ∈ R>0 allora Xn −−−−→ X ∼ Poissonλ : infatti per la (3.5.3) e il Lemma 4.4.1, si
n→∞
ha
n np n iη
ϕXn (η) = 1 + pn eiη − 1 = 1 + n eiη − 1

−−−−−−→ eλ(e −1) = ϕPoissonλ (η).
n n→∞
Esempio 4.3.13 (Dalla binomiale alla normale). Sia Xn ∼ Binn,p . Ricordiamo (cfr. Proposizione 3.6.3) che
la distribuzione di Xn coincide con la distribuzione della somma di n v.a. di Bernoulli indipendenti. Allora,
come conseguenza diretta del Teorema centrale del limite (Teorema 4.4.4, che proveremo fra poco e la cui
dimostrazione si basa sul Teorema di continuità di Lévy), vale:
d
Zn −−−−→ X ∼ N0,1 ,
dove
Xn − µ n
Zn = , µn = E [Xn ] = np, σn2 = var(Xn ) = np(1 − p).
σn
Il risultato appena ottenuto può essere espresso informalmente dicendo che per ogni p ∈ ]0, 1[, la distribu-
zione Nnp,np(1−p) è una buona approssimazione di Binn,p per n abbastanza grande: si veda per esempio la
Figura 4.4 per un confronto fra i grafici della densità normale Nnp,np(1−p) e della funzione di distribuzione
binomiale Binn,p , per p = 0.5 e n = 20. Questo risultato sarà ripreso e spiegato con maggior precisione
nell’Osservazione 4.4.8.
●
● ●
0.15
● ●
0.10
● ●
0.05
● ●
● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20 25 30
Figura 4.4: Densità della distribuzione normale Nnp,np(1−p) e funzione di distribuzione binomiale Binn,p per
p = 0.5 e n = 20.
4.4 Legge dei grandi numeri e Teorema centrale del limite

In questa sezione presentiamo un approccio unificato alla dimostrazione della Legge debole dei grandi
numeri e del Teorema centrale del limite. Tale approccio è basato sul Teorema di continuità di Lévy e sul
Teorema 3.5.20 di sviluppabilità in serie di Taylor della funzione caratteristica. Ricordiamo la notazione
Sn
Sn = X1 + · · · + Xn , Mn = (4.4.1)
n
rispettivamente per la somma e la media aritmetica delle v.a. X1 , . . . , Xn . Vale il seguente risultato, ben noto
nel caso di successioni reali.
Lemma 4.4.1. Sia (zn )n∈N una successione di numeri complessi convergente a z ∈ C. Allora si ha
z n

lim 1 + n = ez .
n→∞ n
Dimostrazione. Seguiamo la prova di [35], Teorema 3.4.2. Proviamo anzitutto che per ogni w1 , . . . , wn , ζ1 , . . . , ζn ∈
C, con modulo minore o uguale a c, vale

Y n Yn Xn
wk − ζk ≤ cn−1 |wk − ζk |. (4.4.2)
k=1 k=1
k=1
La (4.4.2) è vera per n = 1 e in generale si prova per induzione osservando che

Y n Yn Y n−1 n−1
Y Y n−1 n−1
Y
wk − ζk ≤ wn wk − zn ζk + wn ζk − ζn ζk
k=1 k=1
k=1 k=1
k=1 k=1

Yn−1 n−1
Y
≤ c wk − ζk + cn−1 |wn − ζn |.
k=1 k=1

Poi osserviamo che per ogni w ∈ C con |w| ≤ 1 vale |ew − (1 + w)| ≤ |w|2 poichè

X wk X |w|k X1
w
|e − (1 + w)| = − (1 + w) ≤ = |w|2 ≤ |w|2 . (4.4.3)
k! k! k!
k≥0 k≥2 k≥2

Per provare la tesi, fissiamo R > |z|: per ogni n ∈ N abbastanza grande si ha anche R > |zn |. Applichiamo
la (4.4.2) con
z zn
wk = 1 + n , ζk = e n , k = 1, . . . , n;
n
R
osservando che |wk | ≤ 1 + |znn | ≤ e n , abbiamo
n
1 + zn n − ezn ≤ e Rn n−1
X
zn

zn
1 + − e n ≤
n n

k=1
(per la (4.4.3))
R(n−1)
z 2 R2
≤e n n n ≤ eR
n n
da cui la tesi.
Teorema 4.4.2 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L1 (Ω, P ),
con valore atteso µ := E [X1 ]. Allora la media aritmetica Mn converge debolmente alla v.a. costante uguale a
µ:
d
Mn −−−−→ µ.
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
funzioni caratteristiche ϕMn converge puntualmente alla CHF della distribuzione δµ :
lim ϕMn (η) = eiµη , η ∈ R. (4.4.4)

n→∞
Abbiamo
η
ϕMn (η) = E ei n Sn =
(poiché le Xn sono i.i.d.)

h η in
= E ei n X1 =
(per il Teorema 3.5.20 e l’ipotesi di sommabilità)

!n
iµη 1
= 1+ +o −−−−−−→ eiµη
n n n→∞
grazie al Lemma 4.4.1. Questo prova la (4.4.4) e conclude la dimostrazione.

Osservazione 4.4.3. Le ipotesi del Teorema 4.4.2 sono più deboli rispetto alla Legge dei grandi numeri
nella versione del Teorema 4.2.1 in cui si assume che Xn ∈ L2 (Ω, P ). Con metodi più sofisticati è anche
possibile estendere il Teorema 4.2.3 ed ottenere la cosiddetta Legge forte dei grandi numeri di Kolmogorov:
se (Xn )n∈N è una successione di v.a. reali i.i.d. in L1 (Ω, P ) con valore atteso µ := E [X1 ], allora Mn converge
quasi certamente a µ. Per maggiori dettagli si veda, per esempio, [55].
Supponiamo ora che (Xn )n∈N sia una successione di v.a. reali i.i.d. in L2 (Ω, P ). Poniamo
µ := E [X1 ] e σ 2 := var(X1 ).
Ricordiamo che valore atteso e varianza della media aritmetica Mn in (4.2.1) sono dati rispettivamente da
σ2
E [Mn ] = µ e var(Mn ) = .
n
Consideriamo allora la media aritmetica normalizzata, definita da
en := Mpn − E [Mn ] = Mn − µ .
M
var(Mn ) √σ
n
Notiamo che
n
e n = Sn −
M √
µn
=√
1 X Xk − µ
. (4.4.5)
σ n n k=1 σ
Il Teorema centrale del limite8 afferma che, a prescindere dalla distribuzione delle Xn , la successione delle
medie aritmetiche normalizzate M en converge debolmente a una normale standard.
Teorema 4.4.4 (Teorema centrale del limite). [!!!] Per ogni successione (Xn )n∈N di v.a. reali i.i.d. in
L2 (Ω, P ) vale
Men −−−d−→ Z ∼ N0,1 . (4.4.6)
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
en converge puntualmente alla CHF della distribuzione N0,1 :
funzioni caratteristiche ϕM
η2
−
lim ϕM
en (η) = e 2 , η ∈ R. (4.4.7)
n→∞
8 Il nome Teorema centrale del limite è stato dato dal matematico ungherese George Pólya per sottolineare come tale teorema abbia
un ruolo centrale in Probabilità.
Per la (4.4.5) si ha
 n 
 i √ηn P Xkσ−µ 
en (η) = E 
ϕM e
k=1  =
 

(poiché le Xn sono i.i.d.)

" η X −µ #!n
i√ 1
= E e n σ =
X1 −µ
(per il Teorema 3.5.20, essendo per ipotesi σ ∈ L2 (Ω, P ) con media nulla e varianza unitaria)
!n
(iη)2 1 η2
= 1+ +o −−−−−−→ e− 2
2n n n→∞
grazie al Lemma 4.4.1. Questo prova la (4.4.7) e conclude la dimostrazione.

Osservazione 4.4.5. Nel caso particolare, nel caso in cui µ = 0 e σ = 1, la (4.4.6) diventa
S d
√n −−−−→ Z ∼ N0,1 .
n
Osservazione 4.4.6 (Teorema centrale del limite e Legge dei grandi numeri). Data l’espressione di M
en in
(4.4.5), il Teorema centrale del limite si riformula nel modo seguente:
σ
Mn ≃ µ + √ Z ∼ Nµ, σ 2 , per n ≫ 1, (4.4.8)
n n
dove il simbolo ≃ indica che Mn e µ + √σn Z hanno approssimativamente la stessa distribuzione. La (4.4.8)
fornisce un’approssimazione della distribuzione della v.a. Mn che precisa ed esplicita il risultato di conver-
genza della Legge dei grandi numeri.
Osservazione 4.4.7 (Teorema centrale del limite e metodo Monte Carlo). [!] Medie Mn di variabili i.i.d.,
definite come in (4.4.1), appaiono in modo naturale nel metodo Monte Carlo che abbiamo introdotto nella
Sezione 4.2.1. Sotto le ipotesi del Teorema centrale del limite, posto
!
σ
pλ := P Mn − µ ≤ λ √ = P M en ≤ λ , λ > 0,
n
si ha la stima
pλ ≃ P (|Z| ≤ λ) , Z ∼ N0,1 .
Ora ricordiamo (cfr. (3.1.12)) che
P (|Z| ≤ λ) = 2F(λ) − 1, λ > 0,
con F in (4.4.10). Per la stima dell’errore numerico del metodo

p+1 Monte Carlo, si parte dai valori di p usati
più comunemente, ossia p = 95% e p = 99%: posto λ = F −1
2 , si ottiene
! !
σ σ
P Mn − µ ≤ 1.96 √ ≃ 95% e P Mn − µ ≤ 2.57 √ ≃ 99%.
n n
Per questo motivo
σ σ
r95 := 1.96 √ e r99 := 2.57 √
n n
sono comunemente chiamati raggi degli intervalli di confidenza al 95% e al 99% per µ: se Mn rappresenta il
risultato (aleatorio) dell’approssimazione Monte Carlo del valore atteso µ, allora
[Mn − r95 , Mn + r95 ] e [Mn − r99 , Mn + r99 ]
sono gli intervalli (di estremi aleatori) a cui µ (che è il valore incognito che si intende approssimare) appar-
tiene con probabilità pari, rispettivamente, al 95% e 99%. In altri termini, è bene ricordare che il risultato di
un’approssimazione numerica col metodo Monte Carlo non è un singolo numero bensı̀ un intervallo di confidenza.
Osservazione 4.4.8 (Teorema centrale del limite e somme di v.a. i.i.d.). Come già anticipato nell’Esempio
4.3.13, il Teorema centrale del limite è un valido strumento per approssimare la legge di v.a. definite come
somme di variabili i.i.d. Per esempio, sappiamo (cfr. Proposizione 3.6.3) che X ∼ Binn,p è uguale in legge a
X1 + · · · + Xn con Xj ∼ Bep i.i.d. Allora abbiamo la seguente approssimazione asintotica della CDF di X per
n → +∞:  
k − pn 
Z ∼ N0,1 .

P (X ≤ k) ≈ P Z ≤ p

 , (4.4.9)
np(1 − p)
La (4.4.9) segue semplicemente dal fatto che, posto µ = E [X1 ] = p e σ 2 = var(X1 ) = p(1 − p), per il Teorema
centrale del limite si ha ! !
X − µn k − µn k − µn
P (X ≤ k) = P √ ≤ √ ≈P Z ≤ √ .
σ n σ n σ n
La (4.4.9) equivale a  
 k − pn 
FX (k) ≈ F  p
 
np(1 − p)

dove FX indica la CDF di X ∼ Binn,p e

x z2
e− 2
Z
F(x) = √ dz (4.4.10)
−∞ 2π
è la CDF normale standard.
Sotto ipotesi più forti, una stima esplicita della velocità di convergenza nel Teorema centrale del limite è
data dal Teorema di Berry-Esseen che qui ci limitiamo ad enunciare9 .
Teorema 4.4.9 (Teorema di Berry-Esseen). Esiste una costante10 C < 1 tale che, se (Xn ) è una successione
di v.a. i.i.d. in L3 (Ω, P ) con
h i
E [X1 ] = 0, var(X1 ) := σ 2 , E |X1 |3 =: ϱ,
allora si ha
Cϱ
|Fn (x) − F(x)| ≤ √ , x ∈ R, n ∈ N,
σ3 n
dove Fn indica la CDF della media normalizzata M
en in (4.4.5) e F è la CDF normale standard in (4.4.10).
9 Per la dimostrazione si veda, per esempio, [35].

10 Non è noto il valore ottimale di C: al momento si sa che 0.4097 < C < 0.56.
Capitolo 5
Probabilità condizionata
We have not succeeded in answering

all our problems - indeed we
sometimes feel we have not
completely answered any of them.
The answers we have found have
only served to raise a whole set of
new questions. In some ways we feel
that we are as confused as ever, but
we think we are confused on a higher
level, and about more important
things.
Earl C. Kelley
In uno spazio di probabilità (Ω, F , P ), siano X una variabile aleatoria e G una sotto-σ -algebra di F .
In questo capitolo introduciamo i concetti di distribuzione e attesa di X condizionate a G . Ricordando
che una σ -algebra può essere interpretata come un insieme di “informazioni”, l’attesa di X condizionata a
G rappresenta la miglior stima del valore aleatorio X in base alle informazioni contenute in G . Tanto più G
è grande, tanto migliore e più dettagliata è la stima di X data dall’attesa condizionata: quest’ultima, dal
punto di vista matematico, è definita come una variabile aleatoria che gode di determinate proprietà. I
concetti di attesa e distribuzione condizionata sono alla base della teoria dei processi stocastici e di tutte
le applicazioni della teoria della probabilità in cui si vuole modellizzare un fenomeno aleatorio che evolve
nel tempo: in tal caso è necessario descrivere non solo l’evoluzione del valore aleatorio X ma anche quella
delle informazioni che, col passare del tempo, diventano disponibili e permettono di stimare X. In questo
capitolo, salvo diversamente specificato, X indica una variabile aleatoria a valori in Rd .
5.1 Il caso discreto

Introduciamo il concetto di condizionamento alla σ -algebra generata da una v.a. discreta: trattia-
mo questo caso molto particolare con uno scopo meramente introduttivo alla definizione generale che è
tecnicamente più complessa e sarà introdotta nelle sezioni successive.
Consideriamo una variabile aleatoria Y definita sullo spazio (Ω, F , P ) e assumiamo che Y sia discreta1
nel senso seguente:
1 L’ipotesi ii) non è realmente restrittiva: se Z verifica i) allora esiste una v.a. Y discreta tale che P (Y = y) > 0 per ogni y ∈ Y (Ω) e
Z = Y q.c.
189
190 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
i) i valori distinti assunti da Y formano un insieme di cardinalità al più numerabile: in altri termini,
l’immagine di Ω mediante Y è della forma Y (Ω) = (yn )n∈N con yn distinti;
ii) per ogni n ∈ N, l’evento Bn := (Y = yn ) non è trascurabile, ossia P (Bn ) > 0.
In queste ipotesi, la famiglia (Bn )n∈N forma una partizione finita o numerabile di Ω, i cui elementi sono even-
ti non trascurabili. Notiamo che σ (Y ), la σ -algebra generata da Y , è costituita dall’insieme vuoto, dagli
elementi della partizione (Bn )n∈N e dalle unioni di essi.
Definizione 5.1.1 (Probabilità condizionata).

Nello spazio (Ω, F , P ) la probabilità condizionata alla v.a.
discreta Y è la famiglia P (· | Y ) = Pω (· | Y ) di misure di probabilità su (Ω, F ) definite da
ω∈Ω
Pω (A | Y ) := P (A | Y = Y (ω)), A ∈ F, (5.1.1)
dove P (· | Y = Y (ω)) indica la probabilità condizionata all’evento (Y = Y (ω)) (cfr. Definizione 2.3.2).
Osservazione 5.1.2. Per ogni A ∈ F , P (A | Y ) è una variabile aleatoria costante sugli elementi della parti-
zione (Bn )n∈N :
X
P (A | Y ) = P (A | Bn )1Bn .
n≥1
Poiché Pω (· | Y ) è una misura di probabilità per ogni ω ∈ Ω, sono definiti in modo naturale i concetti di
distribuzione e attesa condizionate a Y .
Definizione 5.1.3 (Distribuzione e attesa condizionata). Data X una v.a. su (Ω, F , P ) a valori in Rd ,
i) la distribuzione (o legge) di X condizionata a Y , indicata con µX|Y , è la distribuzione di X relativa alla

probabilità condizionata P (· | Y ):
µX|Y (H) := P (X ∈ H | Y ), H ∈ Bd ; (5.1.2)
ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a Y , indicata con E [X | Y ], è il valore atteso di X nella

probabilità condizionata P (· | Y ):
Z
E [X | Y ] := XdP (· | Y ). (5.1.3)
Ω
Osservazione 5.1.4. Si noti che la distribuzione e l’attesa condizionate dipendono da ω e quindi sono
quantità aleatorie, infatti:
i) il significato della definizione (5.1.2) è
µX|Y (H; ω) := Pω (X ∈ H | Y ), H ∈ Bd , ω ∈ Ω.
Di conseguenza:
i-a) per ogni ω ∈ Ω, µX|Y (·; ω) è una distribuzione su (Rd , Bd ): diciamo quindi che µX|Y è una distri-
buzione aleatoria;
i-b) per ogni H ∈ Bd , µX|Y (H) è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
µX|Y (H) = P (X ∈ H | Bn )1Bn ; (5.1.4)
n≥1
5.1. IL CASO DISCRETO 191
ii) il significato della definizione (5.1.3) è

Z
E [X | Y ] (ω) := XdPω (· | Y ), ω ∈ Ω.
Ω
Di conseguenza, E [X | Y ] è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
E [X | Y ] = E [X | Bn ] 1Bn , (5.1.5)
n≥1
dove, per la Proposizione 3.4.2, Z

1
E [X | Bn ] = XdP .
P (Bn ) Bn
Esempio 5.1.5. Riprendiamo l’Esempio 3.4.5: da un’urna che contiene n ≥ 2 palline numerate, si estrag-
gono in sequenza e senza reinserimento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il
numero della prima e seconda pallina estratta. Allora per ogni k ∈ In si ha

1
 n−1 , se h ∈ In \ {k},


µX2 |X1 =k ({h}) = 
0
 altrimenti,
o equivalentemente
µX2 |X1 = UnifIn \{X1 } .
Generalizziamo ora due ben noti strumenti fondamentali per il calcolo dell’attesa.
Teorema 5.1.6 (Teorema del calcolo della media). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Se
f ∈ mBd e f (X) ∈ L1 (Ω, P ) allora Z
E [f (X) | Y ] = f dµX|Y .
Rd
Dimostrazione. Per ogni ω ∈ Ω si ha

Z
E [f (X) | Y ] (ω) = f (X)dPω (· | Y ) =
Ω
(per il Teorema 3.2.25 del calcolo della media)

Z
= f (x)µX|Y (dx; ω).
Rd
Teorema 5.1.7 (Formula della probabilità totale). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Si ha
h i
µX = E µX|Y . (5.1.6)
Dimostrazione. Per ogni H ∈ Bd , per la (5.1.4) si ha

h i X X
E µX|Y (H) = P (X ∈ H | Bn )P (Bn ) = P ((X ∈ H) ∩ Bn ) = P (X ∈ H) = µX (H).
n≥1 n≥1
Esempio 5.1.8. Il numero di mail di spam ricevute ogni giorno da una casella di posta è una v.a. con di-
stribuzione Poisson10 . Installando un software antispam è possibile dimezzare il numero medio di mail di
spam ricevute. Sapendo che tale software protegge solo l’80% delle caselle di posta di un’azienda, determi-
niamo la distribuzione e la media del numero di mail di spam ricevute ogni giorno da ogni casella di posta
dell’azienda.
Sia Y ∼ Bep , con p = 80%, la v.a. che vale 1 se una casella di posta è protetta e 0 altrimenti. Se X indica
il numero di mail di spam ricevute, si ha per ipotesi
µX|Y = Y Poisson5 + (1 − Y )Poisson10 .
Allora, per la Formula della probabilità totale (5.1.6), si ha

h i
µX = E µX|Y = pµX|Y =1 + (1 − p)µX|Y =0 = pPoisson5 + (1 − p)Poisson10
da cui
E [X] = pE [X | Y = 1] + (1 − p)E [X | Y = 0] = 80% · 5 + 20% · 10 = 6.
Infine, per il Teorema del calcolo della media si ha
Z
E [X | Y ] = xµX|Y (dx)
R
Z Z
=Y xPoisson5 (dx) + (1 − Y ) xPoisson10 (dx) = 5Y + 10(1 − Y ).
R R
Esempio 5.1.9. Supponiamo che µX|Y = ExpY con Y ∼ Geomp : allora si ha

Z +∞ h it=+∞
P (X ≥ x | Y ) = ExpY ([x, +∞[) = Y e−tY dt = −e−tY = e−xY ,
t=x
x
per ogni x ≥ 0. Quindi si ha

h i X p
E [P (X ≥ x | Y )] = E e−xY = e−nx p(1 − p)n−1 =
p − 1 + ex
n∈N
e d’altra parte, per la Formula della probabilità totale, vale
E [P (X ≥ x | Y )] = P (X ≥ x)
che fornisce l’espressione della CDF (e quindi della distribuzione) di X. Infatti, osservando che chiaramente
P (X ≥ x | Y ) = 1 se x < 0, si ha 
1 se x < 0,


P (X ≥ x) =  p
 p−1+ex se x ≥ 0,

da cui si deduce che X è una v.a. assolutamente continua con densità (si veda la Figura 5.1)

d 0 x se x < 0,


γX (x) = (1 − P (X ≥ x)) =  pe (5.1.7)
dx 
 x 2
se x ≥ 0.
(p−1+e )
Si può pensare a X come a una v.a. di tipo esponenziale con intensità2 stocastica. Questo esempio mostra
che tramite il concetto di distribuzione condizionata è possibile considerare modelli probabilistici in cui il
valore dei parametri è incerto o stocastico. Da qui viene la fondamentale importanza della distribuzione
condizionata in molte applicazioni e, in particolare, in statistica.
2 Nella distribuzione esponenziale Exp , il parametro λ > 0 è usualmente chiamato intensità.
λ
2.0
1.5
1.0
0.5
0.5 1.0 1.5 2.0
Figura 5.1: Grafico della densità in (5.1.7) per p=0.5
L’attesa condizionata gode di due proprietà che la caratterizzano univocamente.
Proposizione 5.1.10. [!] Date due variabili aleatorie X e Y su (Ω, F , P ), con X ∈ L1 (Ω, P ) e Y discreta,
poniamo Z = E [X | Y ]. Allora si ha:
i) Z ∈ mσ (Y );
ii) per ogni W ∈ bσ (Y ) vale

E [ZW ] = E [XW ] .
Inoltre, se Z ′ è una v.a. che verifica le proprietà i) e ii) allora Z ′ (ω) = Z(ω) per ogni ω ∈ Ω.
Dimostrazione. La i) è immediata conseguenza della (5.1.5). Per quanto riguarda la ii), per il Teorema 3.3.3
di Doob esiste f misurabile e limitata tale che W = f (Y ) o, più esplicitamente
X
W= f (yn )1Bn . (5.1.8)
n≥1

 
 X 
E [W Z] = E f (Y )
 E [X | Bn ] 1Bn 
n≥1
X h i
= f (yn )E [X | Bn ] E 1Bn =
n≥1
(per la (3.4.1))
X h i
= f (yn )E X1Bn = E [XW ] .
n≥1
Infine, se Z ′ gode delle proprietà i) e ii) allora Z ′ è della forma (5.1.8) e, per la ii) con W = 1Bn , si ha
h i h i
f (yn )P (Bn ) = E Z ′ 1Bn = E X1Bn
da cui segue f (yn ) = E [X | Bn ].

Osservazione 5.1.11 (Funzione probabilità condizionata). [!] Sia Y una v.a. discreta a valori in uno
spazio misurabile (E, E ). Secondo la definizione (5.1.1), la probabilità condizionata è una famiglia di misure
di probabilità Pω (· | Y ) al variare di ω ∈ Ω e in tal senso può essere interpretata come una probabilità
aleatoria. È possibile dare una definizione alternativa di probabilità condizionata in cui P (· | Y ) dipende da
y ∈ Y (Ω) invece che da ω ∈ Ω: precisamente, si dice che la famiglia P (· | Y ) = (P (· | Y = y))y∈Y (Ω) di misure
di probabilità su (Ω, F ) è la funzione3 probabilità condizionata a Y . In modo analogo si definisce la funzione
legge della v.a. X condizionata a Y come
µX|Y (H; y) = P (X ∈ H | Y = y), H ∈ B, y ∈ Y (Ω),
e la funzione attesa condizionata come
Z
E [X | Y = y] = XdP (· | Y = y) =
Ω
(per la Proposizione 3.4.2)

Z
1
= XdP , y ∈ Y (Ω).
P (Y = y) (Y =y)
Ricordiamo anche la definizione di funzione di distribuzione di una variabile aleatoria discreta X, data
nell’Osservazione 2.4.16:
µ̄X (x) = P (X = x), x ∈ X(Ω).
Per analogia indichiamo con µ̄X|Y (x, y) = P (X = x | Y = y) la funzione di distribuzione di X condizionata a Y e
osserviamo che vale
P ((X = x) ∩ (Y = y)) µ̄(X,Y ) (x, y)
µ̄X|Y (x, y) = = , x ∈ X(Ω), y ∈ Y (Ω). (5.1.9)
P (Y = y) µ̄Y (y)
Esempio 5.1.12. Il numero di email ricevute ogni giorno è una v.a. Y ∼ Poissonλ con λ = 20. Ogni email ha
probabilità p = 15% di essere spam, indipendentemente dalle altre. Determiniamo la distribuzione della
v.a. X che indica il numero di email di spam ricevute ogni giorno.
Intuitivamente ci aspettiamo che X ∼ Poissonλp . In effetti, per ipotesi si ha

Binn,p ({k}) se k ≤ n,


P (X = k | Y = n) = 
0
 se k > n,
è la probabilità che, su n email ricevute, ce ne siano esattamente k di spam. Per la Formula della probabilità
totale si ha
X
P (X = k) = P (X = k | Y = n)P (Y = n)
n≥0
X n! λn
= pk (1 − p)n−k e−λ
k n!
n≥k
e−λ (λp)k X (1 − p)n−k λn−k
= =
k! (n − k)!
n≥k
(posto h = n − k)
e−λ (λp)k X (1 − p)h λh (λp)k

= = e−λp = Poissonλp ({k}).
k! h! k!
h≥0
3 Usiamo il termine funzione probabilità condizionata a Y per sottolineare il fatto che, secondo questa definizione, P (· | Y ) è una
funzione che ad ogni y ∈ Y (Ω) associa la misura di probabilità P (· | Y = y).
Osservazione 5.1.13. Consideriamo Y = 1B con B ∈ F tale che 0 < P (B) < 1: nelle applicazioni si interpreta
la σ -algebra generata da Y
σ (Y ) = {∅, Ω, B, Bc }
come “l’informazione riguardo al fatto che l’evento B sia avvenuto o meno”. Notiamo la differenza concet-
tuale fra:
i) condizionare a B, nel senso di condizionare al fatto che B è avvenuto;
ii) condizionare a Y , nel senso di condizionare al fatto di sapere se B sia avvenuto o meno.
Per questo motivo l’attesa condizionata E [X | Y ] è definita come in (5.1.5) ossia:


E [X | B] se ω ∈ B,


E [X | Y ] (ω) := 
E [X | Bc ] se ω ∈ Bc .

Intuitivamente, E [X | B] rappresenta l’attesa di X stimata in base all’osservazione che B è accaduto: pertanto

E [X | B] è un numero, un valore deterministico. Al contrario, si può pensare a E [X | Y ] come a una stima
futura di X che dipenderà dall’osservare se B avviene o no (oppure alla stima di X che è data da un individuo
che sa se B è avvenuto o no): per questo motivo E [X | Y ] è definita come una variabile aleatoria.
5.1.1 Esempi
Esempio 5.1.14. Calcoliamo E [X1 | Y ] dove X1 , . . . , Xn ∼ Bep , con 0 < p < 1, sono indipendenti e Y = X1 +
· · · + Xn . Poiché Y ∼ Binn,p , abbiamo
E [X1 | Y = k] = 0 · P (X1 = 0 | Y = k) + 1 · P (X1 = 1 | Y = k) =
(posto Z = X2 + · · · + Xn ∼ Binn−1,p )
P ((X1 = 1) ∩ (Z = k − 1))
= =
P (Y = k)
(per l’indipendenza di X1 e Z)
P (X1 = 1)P (Z = k − 1)
=
P (Y = k)
n−1 k−1
p p (1 − p)n−1−(k−1) k
= k−1 n k n−k
= , k = 0, . . . , n,
k p (1 − p)
n
è la funzione attesa di X1 condizionata a Y . Equivalentemente si ha
Y
E [X1 | Y ] = .
n
Esempio 5.1.15. L’urna A contiene n ∈ N palline di cui solo k1 ≤ n sono bianche. L’urna B contiene n ∈ N
palline di cui solo k2 ≤ n sono bianche. Si sceglie a caso un’urna e si effettua una successione di estrazioni
con reinserimento. Determiniamo la distribuzione del numero X di estrazioni necessarie per trovare la
prima pallina bianca.
Sia Y ∼ Bep , con p = 21 , la v.a. che vale 1 se viene scelta l’urna A e vale 0 altrimenti. Allora, ricordando
l’Esempio 3.1.25 sulla distribuzione geometrica, si ha
µX|Y = Y Geom k1 + (1 − Y )Geom k2 ,

n n
e per la formula della probabilità totale (5.1.6) si ha
1

µX = Geom k1 + Geom k2 .
2 n n
Infine
n(k1 + k2 )
E [X] = .
2k1 k2
Esempio 5.1.16. Siano Xi ∼ Poissonλi , i = 1, 2, indipendenti e Y := X1 + X2 . Sappiamo (cfr. Esempio 3.6.5)
che Y ∼ Poissonλ1 +λ2 . Proviamo che
µX1 |Y = BinY , λ1 .
λ1 +λ2
Indichiamo con µX1 |Y =· la funzione distribuzione di X1 condizionata a Y . Per k ∈ {0, 1, . . . , n}, si ha
P ((X1 = k) ∩ (Y = n))
µX1 |Y =n ({k}) = =
P (Y = n)
(per l’indipendenza di X1 e X2 )
e−λ1 λk1 e−λ2 λn−k

2
P (X1 = k)P (X2 = n − k) k! (n−k)!
= =
P (Y = n) e−λ1 −λ2 (λ1 +λ2 )n
n!
e d’altra parte µX1 |Y =n ({k}) = 0 per gli altri valori di k. Da ciò si conclude facilmente.
Esercizio 5.1.17. Siano Xi ∼ Geomp , i = 1, 2, indipendenti e Y := X1 + X2 . Provare che
i) µY ({n}) = (n − 1)p2 (1 − p)n−2 , per n ≥ 2;
ii) µX1 |Y = Unif{1,2,...,Y −1} .
5.2 Attesa condizionata

In uno spazio (Ω, F , P ) siano X una v.a. sommabile e G una sotto-σ -algebra di F . In questa sezione
diamo la definizione di attesa di X condizionata a G . Osserviamo che non è possibile in generale definire
E [X | G ] come nel caso discreto perché non è chiaro come partizionare lo spazio campionario Ω a partire da
G . Il problema è che una σ -algebra può avere una struttura molto complicata: si pensi, per esempio, alla
σ -algebra di Borel sullo spazio Euclideo. Inoltre, nel caso G = σ (Y ) con Y assolutamente continua, la defi-
nizione (5.1.1) perde significato perché ogni evento del tipo (Y = Y (ω)) è trascurabile. Per superare questi
problemi, la definizione generale di attesa condizionata è data in termini delle due proprietà fondamentali
della Proposizione 5.1.10. Il seguente risultato mostra che una v.a. che soddisfa tali proprietà esiste sempre
e, in un certo senso, è unica.
Teorema 5.2.1. Siano X ∈ L1 (Ω, F , P ) a valori in Rd e G una sotto-σ -algebra di F . Esiste una v.a. Z ∈
L1 (Ω, P ) a valori in Rd che soddisfa le seguenti proprietà:
i) Z ∈ mG ;
ii) per ogni v.a. W ∈ mG limitata, vale

E [ZW ] = E [XW ] . (5.2.1)
Inoltre se Z ′ verifica i) e ii) allora Z = Z ′ quasi certamente.

5.2. ATTESA CONDIZIONATA 197
Dimostrazione. (Unicità) Consideriamo il caso d = 1. Dimostriamo un risultato leggermente più generale

da cui segue facilmente l’unicità: siano X, X ′ v.a. sommabili, tali che X ≤ X ′ quasi certamente e siano Z, Z ′
v.a. che verificano le proprietà i) e ii) rispettivamente per X e X ′ . Allora Z ≤ Z ′ quasi certamente.
Infatti, poniamo
An = (Z − Z ′ ≥ 1/n) , n ∈ N.
Allora An ∈ G per la i), e vale
h i h i h i
0 ≥ E (X − X ′ )1An = E X1An − E X ′ 1An =
(per ii))
h i h i h i 1
= E Z1An − E Z ′ 1An = E (Z − Z ′ )1An ≥ P (An )
n
da cui P (An ) = 0 e, per la continuità dal basso di P , si ha anche P (Z > Z ′ ) = 0. Il caso d > 1 segue ragionando
componente per componente.
(Esistenza) Diamo una dimostrazione dell’esistenza basata su risultati di analisi funzionale, in particolare
relativi alla proiezione ortogonale in spazi di Hilbert. Consideriamo dapprima l’ipotesi più restrittiva che
X appartenga a L2 (Ω, F , P ) che è uno spazio di Hilbert col prodotto scalare
⟨X, Z⟩ = E [XZ] .
Anche L2 (Ω, G , P ) è uno spazio di Hilbert ed è un sotto-spazio chiuso di L2 (Ω, F , P ) poiché G ⊆ F . Allora
esiste la proiezione Z di X su L2 (Ω, G , P ) e per definizione si ha:
i) Z ∈ L2 (Ω, G , P ) e quindi in particolare Z è G -misurabile;
ii) per ogni W ∈ L2 (Ω, G , P ) si ha

E [(Z − X)W ] = 0. (5.2.2)
Dunque Z è proprio la v.a. cercata: dal punto di vista geometrico, Z è la v.a. G -misurabile che meglio
approssima X nel senso che, fra le v.a. G -misurabili, è la meno distante da X rispetto alla distanza di L2 .
Consideriamo ora X ∈ L1 (Ω, F , P ) tale che X ≥ 0 quasi certamente. Il caso di X a valori in Rd si prova
ragionando sulla parte positiva e negativa di ogni singola componente. La successione definita da
Xn = X ∧ n, n ∈ N,
è crescente, appartiene a L2 e tende puntualmente a X: ad ogni Xn associamo Zn definita come sopra,

ossia come proiezione di Xn su L2 (Ω, G , P ). Per quanto visto nella prima parte della dimostrazione, per
ogni n ∈ N vale 0 ≤ Zn ≤ Zn+1 quasi certamente: di conseguenza si ha anche che, a meno di un evento A
trascurabile, vale
0 ≤ Zn ≤ Zn+1 , ∀n ∈ N.
Definiamo
Z(ω) = sup Zn (ω), ω ∈ Ω \ A,
n∈N
e Z = 0 su A. Allora Z ∈ mG essendo limite puntuale di v.a. in mG . Inoltre, sia W limitata e G -misurabile:

a meno di considerare separatamente parte positiva e negativa, non è restrittivo considerare W ≥ 0. Per il
Teorema di Beppo-Levi, si ha
E [XW ] = lim E [Xn W ] = lim E [Zn W ] = E [ZW ] .

n→∞ n→∞
Osservazione 5.2.2. [!] Per il secondo Teorema di Dynkin (Teorema A.1.8), la proprietà ii) del Teorema
5.2.1 equivale alla seguente proprietà, in generale più semplice da verificare:
ii-b) vale
E [Z1G ] = E [X1G ]
per ogni G ∈ A , dove A è una famiglia ∩-chiusa tale che σ (A ) = G .
Definizione 5.2.3 (Attesa condizionata). Siano X ∈ L1 (Ω, F , P ) e G una sotto-σ -algebra di F . Se Z
soddisfa le proprietà i) e ii) del Teorema 5.2.1 allora scriviamo
Z = E [X | G ] (5.2.3)
e diciamo che Z è una versione dell’attesa condizionata di X a G . In particolare, se G = σ (Y ) con Y v.a. su

(Ω, F , P ), scriviamo
Z = E [X | Y ]
invece di Z = E [X | σ (Y )].
Osservazione 5.2.4. [!] La (5.2.3) non è da intendersi come un’equazione, ossia come un’identità fra i membri
a destra e a sinistra dell’uguaglianza: al contrario, essa è una notazione, un simbolo che indica che Z gode
delle proprietà i) e ii) del Teorema 5.2.1 (e quindi è una versione dell’attesa condizionata di X a G ). L’attesa
condizionata è definita implicitamente, mediante le proprietà i) e ii), a meno di eventi trascurabili di G : in
altri termini se Z = E [X | G ] e Z ′ differisce da Z su un evento trascurabile di G , allora anche Z ′ = E [X | G ].
Per questo motivo si parla di versione dell’attesa condizionata, anche se nel seguito per semplicità diremo
impropriamente che Z è attesa condizionata di X a G . Però attenzione: se Z = E [X | G ] e Z ′ = Z q.c., non
è detto che Z ′ = E [X | G ]. Si tratta di una sottigliezza a cui si deve porre attenzione: modificando Z su un
evento C trascurabile ma tale che C < G si può perdere la proprietà di G -misurabilità.
Convenzione 5.2.5. [!] Nel seguito sarà utile considerare uguaglianze di attese condizionate. Per evitare
ambiguità useremo la seguente convenzione: se H ⊆ G la scrittura
E [X | H ] = E [X | G ]
significa che se Z = E [X | H ] allora Z = E [X | G ] (tuttavia può esistere una versione Z ′ di E [X | G ] che non è
attesa di X condizionata a H , in particolare se Z ′ ∈ mG \ mH ). Si noti che le notazioni E [X | H ] = E [X | G ]
e E [X | G ] = E [X | H ] non sono equivalenti a meno che non sia H = G .
Osservazione 5.2.6. [!] Ci si può chiedere perché non si definisca l’attesa condizionata come classe di equi-
valenza, identificando le funzioni (variabili aleatorie) che sono uguali quasi certamente come si è soliti fare
nella teoria dell’analisi funzionale. Certamente la presentazione risulterebbe più elegante e si eviterebbe di
dover menzionare continuamente la versione (ossia il rappresentante della classe di equivalenza) dell’attesa
condizionata. Vorrei cercare di chiarire questa questione che è discussa anche nell’introduzione del libro di
Williams [126]. Anzitutto occorre considerare il fatto che l’identificazione per classi di equivalenza dipende
dalla misura di probabilità fissata: mentre in analisi funzionale la struttura di spazio misurabile è general-
mente fissata una volta per tutte, in teoria della probabilità è normale lavorare contemporaneamente con
diverse misure e σ -algebre. Di più, la situazione tipica è quella in cui tali misure, anche se definite sulla
stessa σ -algebra, non sono equivalenti (ossia non hanno gli stessi eventi trascurabili e certi): si pensi al caso
di una probabilità P e della probabilità condizionata P (· | B) con 0 < P (B) < 1 per la quale P (Bc | B) = 0. La
situazione si complica ulteriormente nella teoria dei processi stocastici in cui si considerano famiglie non
numerabili di σ -algebre e di misure di probabilità: in questo ambito, la definizione di variabile aleatoria
come classe di equivalenza semplicemente non è utilizzabile.
Osservazione 5.2.7. [!] Siano X, Y ∈ L2 (Ω, P ) e Z = E [X | Y ]. Allora
E [X − Z] = 0, cov (X − Z, Y ) = 0, (5.2.4)
ossia X − Z ha media nulla ed è scorrelata da Y . La prima equazione segue dalla (5.2.2) con W = 1. Per la
seconda si ha
cov (X − Z, Y ) = E [(X − Z)Y ] − E [X − Z] E [Y ] = 0
poiché E [(X − Z)Y ] = 0 per la4 (5.2.1) con W = Y .
Esempio 5.2.8. [!] Consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ Nµ,C con
σX2
!
σXY
µ = (eX , eY ), C= ≥ 0.
σXY σY2
Proviamo che esistono a, b ∈ R tali che aY + b = E [X | Y ]. Se aY + b = E [X | Y ] allora a, b sono determinati

univocamente dalle equazioni in (5.2.4) che qui diventano
E [aY + b] = E [X] , cov (X − (aY + b), Y ) = 0.
Quindi
aeY + b = eX , aσY2 = σXY
da cui, supposto σY , 0,
σXY σXY
a= , b = eX − eY ,
σY2 σY2
che fornisce un’ulteriore interpretazione della retta di regressione vista nella Sezione 3.2.9. D’altra parte,
se a, b sono determinate in questo modo allora Z := aY + b = E [X | Y ] poiché:
i) chiaramente Z ∈ mσ (Y );
ii) X − Z e Y hanno distribuzione congiunta normale (poiché è (X − Z, Y ) è funzione lineare di (X, Y )) e

quindi non sono solo scorrelate ma anche indipendenti (cfr. Proposizione 3.5.18). Di conseguenza,
per ogni W ∈ mσ (Y ) (che quindi è indipendente da X − Z), si ha
E [(X − Z)W ] = (E [X] − E [Z]) E [W ] = 0.
Dunque la distribuzione multi-normale ha la notevole proprietà di avere le distribuzioni marginali (µX e µY ) e le

distribuzioni marginali condizionate (ossia µX|Y ) che sono ancora normali.
Nella prova del Teorema 5.2.1 abbiamo dimostrato anche il risultato seguente:
Corollario 5.2.9. Siano X ∈ mF + e G una sotto-σ -algebra di F . Esiste una v.a. Z che soddisfa le seguenti
proprietà:
i) Z ∈ mG + ;
ii) per ogni v.a. W ∈ mG + , vale

E [ZW ] = E [XW ] .
Inoltre se Z ′ verifica i) e ii) allora Z = Z ′ quasi certamente.
Il Corollario 5.2.9 permette di estendere la Definizione 5.2.3 di attesa condizionata alle v.a. integrabili
(non necessariamente sommabili).
4 Più precisamente, si veda la (5.2.2).
5.2.1 Proprietà dell’attesa condizionata

In questa sezione proviamo alcune proprietà dell’attesa condizionata. Consideriamo due v.a. reali X, Y ∈
L1 (Ω, F , P ) e G , H sotto-σ -algebre di F .
Teorema 5.2.10. Valgono le seguenti proprietà:
1) (Formula della probabilità totale)

E [X] = E [E [X | G ]] . (5.2.5)
2) Se X ∈ mG allora
X = E [X | G ] .
3) Se X e G sono indipendenti allora

E [X] = E [X | G ] .
4) (Linearità) per ogni a ∈ R si ha
aE [X | G ] + E [Y | G ] = E [aX + Y | G ] .
5) (Monotonia) Se P (X ≤ Y ) = 1 allora
E [X | G ] ≤ E [Y | G ] ,
nel senso che se Z = E [X | G ] e W = E [Y | G ] allora P (Z ≤ W ) = 1.
6) Se X è G -misurabile e limitata, si ha
XE [Y | G ] = E [XY | G ] . (5.2.6)
7) (Proprietà della torre) Se H ⊆ G , si ha5
E [E [X | G ] | H ] = E [X | H ] .
8) (Teorema di Beppo-Levi) Se 0 ≤ Xn ↗ X allora
lim E [Xn | G ] = E [X | G ] .
n→∞
9) (Lemma di Fatou) Se (Xn )n∈N è una successione di v.a. in mF + , allora

E lim inf Xn | G ≤ lim inf E [Xn | G ] .
n→∞ n→∞
10) (Teorema della convergenza dominata) Se (Xn )n∈N è una successione che converge q.c. a X e vale
|Xn | ≤ Y ∈ L1 (Ω, P ) q.c. per ogni n ∈ N, allora si ha
lim E [Xn | G ] = E [X | G ] .
n→∞
11) (Disuguaglianza di Jensen) Se ϕ è una funzione convessa tale che ϕ(X) ∈ L1 (Ω, P ), si ha
ϕ (E [X | G ]) ≤ E [ϕ(X) | G ] .
5 Vale anche
E [X | H ] = E [E [X | H ] | G ]
che segue direttamente dalla proprietà 2) e dal fatto che E [X | H ] ∈ mG poiché H ⊆ G .
12) Per ogni p ≥ 1 si ha

∥E [X | G ]∥p ≤ ∥X∥p .
13) (Lemma di freezing) Siano G , H indipendenti, X ∈ mG e f = f (x, ω) ∈ m (B ⊗ H ) tale che f (X, ·) ∈

L1 (Ω, P ) oppure f ≥ 0. Allora si ha
E [f (X, ·) | G ] = F(X) dove F(x) := E [f (x, ·)] , (5.2.7)
o, con una scrittura più compatta,
E [f (X, ·) | G ] = E [f (x, ·)] |x=X .
14) (CHF condizionata e indipendenza) X e G sono indipendenti se e solo se

h i h i
E eiηX | G = E eiηX , η ∈ R,
ossia se la CHF ϕX e la CHF condizionata ϕX|G coincidono.
15) Se Z = E [X | G ] e Z ∈ mH con H ⊆ G allora Z = E [X | H ].
Dimostrazione. 1) Basta porre W = 1 nella (5.2.1).
2) Segue direttamente dalla definizione.
3) La v.a. costante Z := E [X] è chiaramente G -misurabile (perché σ (Z) = {∅, Ω}) e inoltre, per ogni v.a.
W ∈ mG limitata, per l’ipotesi di indipendenza vale
E [XW ] = E [X] E [W ] = E [E [X] W ] = E [ZW ] .
Questo prova che Z = E [X | G ].
4) Si tratta di dimostrare che se Z = E [X | G ] e W = E [Y | G ], nel senso che verificano le proprietà i) e ii)

del Teorema 5.2.1, allora aZ + W = E [aX + Y | G ]. È una semplice verifica lasciata per esercizio.
5) Questa proprietà è provata nella prima parte della dimostrazione del Teorema 5.2.1.
6) Sia Z = E [Y | G ]. Dobbiamo provare che XZ = E [XY | G ]:
i) X ∈ mG per ipotesi e quindi XZ ∈ mG ;

ii) data W ∈ mG limitata, si ha che anche XW ∈ mG limitata e quindi
E [(XZ)W ] = E [Z(XW )] =
(poiché Z = E [Y | G ])
= E [Y (XW )] = E [(XY )W )]
da cui la tesi.
7) Sia Z = E [X | H ]. Dobbiamo provare che Z = E [E [X | G ] | H ]. Per definizione
i) Z ∈ mH ;
ii) data W ∈ mH limitata, si ha
E [ZW ] = E [XW ] .
D’altra parte, se W ∈ mH allora W ∈ mG poiché H ⊆ G , e quindi
E [E [X | G ] W ] = E [XW ] .
Allora E [ZW ] = E [E [X | G ] W ] da cui la tesi.

8) Poniamo Yn := E [Xn | G ], n ≥ 1. Per la monotonia dell’attesa condizionata, 0 ≤ Yn ≤ Yn+1 q.c. e quindi
esiste q.c.
Y := lim E [Xn | G ] ,
n→∞
con Y ∈ mG + perché limite puntuale di v.a. G -misurabili. Inoltre, per ogni W ∈ mG + , si ha 0 ≤ Yn W ↗
Y W e 0 ≤ Xn W ↗ XW q.c.; quindi per il Teorema di Beppo-Levi si ha
E [Y W ] = lim E [Yn W ] = lim E [Xn X] = E [XW ] ,

n→∞ n→∞
che prova la tesi.

9)-10)-11) La dimostrazione è sostanzialmente analoga al caso deterministico.
12) Segue facilmente dalla disuguaglianza di Jensen con ϕ(x) = |x|p .
13) Sia M la famiglia delle funzioni f ∈ b(B⊗H ) che verificano la (5.2.7): M è una famiglia monotona di
funzioni (cfr. Definizione A.1.7), come si dimostra facilmente utilizzando il Teorema di Beppo-Levi
per l’attesa condizionata. Inoltre, la (5.2.7) vale per le funzioni della forma f (x, ω) = g(x)Y (ω) con
g ∈ bB e Y ∈ bH : infatti in questo caso si ha F(x) = g(x)E [Y ] e, per la proprietà (5.2.6),
E [g(X)Y | G ] = g(X)E [Y | G ] = g(X)E [Y ] = F(X).
Allora la tesi segue dal secondo Teorema di Dynkin (Teorema A.1.8).

14) Per ogni Y ∈ mG e η1 , η2 ∈ R, si ha
h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 X eiη2 Y =
(per definizione di attesa condizionata)

h h i i
= E E eiη1 X | G eiη2 Y =
(per ipotesi)
h i h i
= E eiη1 X E eiη2 Y = ϕX (η1 )ϕY (η2 )
e la tesi segue dalla Proposizione 3.5.11-ii).

15) È un semplice esercizio.
Una conseguenza immediata del punto 13) del Teorema 5.2.10 è la seguente versione particolare del
Lemma di freezing di cui diamo una dimostrazione alternativa più semplice.
Lemma 5.2.11 (Lemma di freezing). Sia G una sotto-σ -algebra di F . Se X ∈ mG , Y è una v.a. indipendente
da G e f ∈ mB2 è tale che f (X, Y ) ∈ L1 (Ω, P ), allora si ha
E [f (X, Y ) | G ] = F(X) dove F(x) := E [f (x, Y )] , (5.2.8)
o, con una scrittura più compatta,
E [f (X, Y ) | G ] = E [f (x, Y )] |x=X .

Dimostrazione. Per il teorema di Fubini la funzione F in (5.2.8) è Borel misurabile e quindi F(X) ∈ mG .
Inoltre Y è indipendente da (W , X) per ogni W ∈ bG : allora si ha
Z
E [W f (X, Y )] = wf (x, y)µ(W ,X,Y ) (dw, dx, dy) =
R3
(per indipendenza)
Z
= wf (x, y)µ(W ,X) ⊗ µY (dw, dx, dy) =
R3
(per il teorema di Fubini)

Z Z !
= w f (x, y)µY (dy) µ(W ,X) (dw, dx)
2
ZR R
= wF(x)µ(W ,X) (dw, dx) = E [W F(X)]

R2
da cui la tesi.
Esempio 5.2.12. [!] Riprendiamo l’Esempio 3.5.4 e consideriamo N e Z1 , Z2 , . . . v.a. indipendenti con
N ∼ Poissonλ e Zn identicamente distribuite per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk

 se N ≥ 1.
k=1
Si ha
N 
h i Y 
ϕX (η) = E eiηX = E  eiηZk  =
k=1
(per la formula della probabilità totale (5.2.5))

 N 
 Y  N
= E E  eiηZk | N  = E ϕZ1 (η)
k=1
dove nell’ultimo passaggio abbiamo utilizzato il Lemma di freezing e il fatto che, per l’indipendenza delle
v.a. Zk , si ha
 n 
Y 
E  e k  = ϕZ1 (η)n ,
iηZ
n ∈ N.
k=1
Allora si ha X λn
ϕX (η) = e−λ ϕZ1 (η)n = eλ(ϕZ1 (η)−1)
n!
n≥0
dove ϕZ1 indica la CHF di Z1 .
Esempio 5.2.13. Siano X, Y , U , V v.a. indipendenti con X, Y ∼ N0,1 e U 2 + V 2 , 0 q.c. Proviamo che
XU + Y V
Z := √ ∼ N0,1 .
U2 + V 2
Infatti si ha
iη √XU +Y V
" #
ϕZ (η) = E e U 2 +V 2 =
(per la formula della probabilità totale (5.2.5))

" " XU +Y V ##
iη √
2 +V 2
=E E e U | (U , V ) =
(per il Lemma di freezing e l’Esempio 3.5.16)

" #
η2 η2
−
=E e 2 = e− 2
da cui segue la tesi.
5.2.2 Attesa condizionata e cambi di misura di probabilità

Richiamiamo le notazioni dell’Appendice A.2.1 e scriviamo Q ≪F P per indicare che Q è una misura
assolutamente continua rispetto a P sulla σ -algebra F .
Teorema 5.2.14 (Formula di Bayes). Siano P , Q misure di probabilità su (Ω, F ) con Q ≪F P . Se X ∈
L1 (Ω, Q) e G è una sotto-σ -algebra di F vale
E P [XL | G ]
E Q [X | G ] = (5.2.9)
E P [L | G ]
dQ
dove L = dP |F è la derivata di Radon-Nikodym di Q rispetto a P su F .
Dimostrazione. Poniamo Z = E Q [X | G ] e LG = E P [L | G ]. Osserviamo che Q(LG > 0) = 1 poiché
Q(LG = 0) = E Q 1(LG =0) = E P 1(LG =0) L =

h i h i
(essendo (LG = 0) ∈ G )
= E Q 1(LG =0) LG = 0.
h i
Allora la (5.2.9) equivale a ZLG = E P [XL | G ]: per mostrare quest’ultima, osserviamo che ZLG è ovviamente
G -misurabile e per concludere usiamo l’Osservazione 5.2.2: per ogni G ∈ G si ha
Z Z Z Z Z Z
G P Q
ZL dP = E [ZL | G ] dP = ZLdP = E [X | G ] dQ = XdQ = XLdP .
G G G G G G
Osservazione 5.2.15. Indichiamo rispettivamente con LF e LG le derivate di Radon-Nikodym di Q rispetto

a P su F e su G : si noti che LF , a differenza di LG , non è necessariamente G -misurabile. D’altra parte si ha
LG = E P LF | G ,
h i
poiché LG è sommabile e G -misurabile e si ha

Z Z
G
L dP = Q(G) = LF dP , G ∈G,
G G
essendo G ⊆ F .
5.2.3 Funzione attesa condizionata

In questa sezione consideriamo il caso G = σ (Y ) con Y v.a. su (Ω, F , P ) a valori in uno spazio misurabile
(E, E ). In analogia con l’Osservazione 5.1.11, diamo una definizione alternativa di attesa condizionata come
funzione.
Sia X ∈ L1 (Ω, F , P ) a valori in Rd . Se Z = E [X | Y ] allora Z ∈ mσ (Y ) e quindi, per il Teorema 3.3.3
di Doob, esiste (e in generale non è unica) una funzione Φ ∈ mE tale che Z = Φ(Y ): per fissare le idee, si
osservi il grafico seguente
E [X | Y ]
(Ω, F ) Rd , Bd
Y Φ
(E, E )
Definizione 5.2.16 (Funzione attesa condizionata). Sia

Φ : (E, E ) −→ Rd , Bd
una funzione tale che

i) Φ ∈ mE ;
ii) Φ(Y ) = E [X | Y ].
Allora diciamo che Φ è una versione della funzione attesa condizionata di X a Y e scriviamo
Φ(y) = E [X | Y = y] . (5.2.10)
Osservazione 5.2.17. La scrittura E [X | Y = y] in (5.2.10) non indica l’attesa di X condizionata all’evento (Y =

y) nel senso della Definizione 2.3.2. Infatti tale definizione richiede che (Y = y) non sia trascurabile mentre
in (5.2.10) Y è una v.a. generica: per esempio, se Y è una v.a. reale assolutamente continua allora l’evento
(Y = y) ha probabilità nulla per ogni y ∈ R. Pertanto la (5.2.10) non è da intendersi come un’equazione e
non identifica univocamente Φ: si tratta di una notazione per indicare che Φ è una qualsiasi funzione che
verifica le due proprietà i) e ii) della Definizione 5.2.16. In altri termini, una funzione misurabile Φ è una
versione della funzione attesa condizionata di X a Y se e solo se la variabile aleatoria Φ(Y ) è una versione
dell’attesa condizionata di X a Y .
In definitiva, l’attesa condizionata a σ (Y ) può essere interpretata come variabile aleatoria oppure co-
me funzione: i due punti di vista sono sostanzialmente equivalenti e la scelta di quale adottare dipende
generalmente dal contesto.
Esempio 5.2.18. Nell’Esempio 5.2.8 abbiamo visto che se (X, Y ) ha distribuzione normale bidimensionale
allora esistono a, b ∈ R tali che ay + b = E [X | Y = y], ossia la funzione lineare Φ(y) = ay + b è una versione
della funzione attesa condizionata di X a Y .
Se f ∈ bBd e Y una v.a. in Rd , allora
f (y) = E [f (Y ) | Y = y] , y ∈ Rd .
5.2.4 Least Square Monte Carlo

Per quanto visto nella dimostrazione del Teorema 5.2.1, nello spazio delle variabili aleatorie di quadra-
to sommabili, l’attesa condizionata si può definire come proiezione ortogonale e quindi si esprime come
soluzione di un problema ai minimi quadrati. Precisamente vale la seguente
Proposizione 5.2.19 (Caratterizzazione dell’attesa condizionata in L2 ). Sia Z = E [X | G ] con X ∈ L2 (Ω, F , P )

e G sotto-σ -algebra di F . Allora vale
h i h i
E |X − Z|2 ≤ E |X − W |2 , W ∈ L2 (Ω, G , P ). (5.2.11)
h i h i
E |X − W |2 | G = E |X − Z + Z − W |2 | G
h i h i
= E |X − Z|2 | G + E |Z − W |2 | G + 2E [⟨X − Z, Z − W ⟩ | G ] =
(essendo Z − W ∈ mG e per la (5.2.6))

h i
= E |X − Z|2 | G + |Z − W |2 + 2⟨E [X − Z | G ] , Z − W ⟩ =
(essendo E [X − Z | G ] = 0)
h i h i
= E |X − Z|2 | G + |Z − W |2 ≥ E |X − Z|2 | G .
Applicando il valore atteso si ottiene la (5.2.11).

Assegnata una funzione Borel-misurabile F tale che F(X, Y ) ∈ L2 (Ω, F , P ), un problema classico è quello
del calcolo dell’attesa condizionata
E [F(X, Y ) | Y ]
a partire dalla conoscenza della legge congiunta di X e Y . Il problema si riconduce al calcolo di una versione
Φ della funzione attesa condizionata, ossia Φ(y) = E [F(X, Y ) | Y = y]: per la (5.2.11) si ha6
h i h i
E |F(X, Y ) − Φ(Y )|2 = min E |F(X, Y ) − f (Y )|2 .
f ∈L2 (Rn ,Bn ,µY )
In altri termini, determinare Φ equivale a risolvere il problema ai minimi quadrati

h i
Φ = arg min E |F(X, Y ) − f (Y )|2 . (5.2.12)
f ∈L2 (Rn ,Bn ,µY )
A volte questo problema può essere risolto in modo esatto: è il caso dell’Esempio 5.2.8, in cui F(x, y) =
x e (X, Y ) ∼ Nµ,C . Spesso tuttavia è necessario ricorrere a metodi numerici. Nel caso in cui X, Y siano
indipendenti allora per il Lemma di freezing si ha semplicemente Φ(y) = E [F(X, y)], y ∈ R: quindi per
determinare Φ è sufficiente calcolare un valore atteso e ciò può essere fatto numericamente col metodo
Monte Carlo. Più in generale, esiste un’estensione di tale metodo, detta Least Square Monte Carlo (LSMC),
che è basata su una regressione multi-lineare del tipo visto nella Sezione 3.2.9.
Vediamo come si procede nel caso unodimensionale: consideriamo una base di L2 (R, B, µY ), per esempio
le funzioni polinomiali βk (y) := y k con k = 0, 1, 2, . . . , e fissato n ∈ N, poniamo
β = (β0 , β1 , . . . , βn ).
Approssimiamo in dimensione finita il problema (5.2.12) cercando una soluzione λ̄ ∈ Rn+1 di

2
min E ⟨β(Y ), λ⟩ − F(X, Y ) . (5.2.13)
λ∈Rn+1
Una volta determinato λ̄, l’approssimazione della funzione attesa condizionata in (5.2.12) è data da
Φ(y) ≃ ⟨β(y), λ̄⟩.

6 Si ricordi che, per il teorema di Doob, ogni W ∈ L2 (Ω, σ (Y ), P ) si esprime nella forma W = f (Y ) per una certa f ∈ L2 (Rn , B , µ ).
n Y
Risolviamo il problema (5.2.13) approssimando il valore atteso con il metodo Monte Carlo. Costruiamo
due vettori x, y ∈ RM le cui componenti sono ottenute simulando M valori delle variabili X e Y , con M
sufficientemente grande. Per fissare le idee, M può essere dell’ordine di 105 o maggiore, mentre al contrario
è sufficiente che il numero di elementi della base n sia piccolo, dell’ordine di qualche unità (per maggiori
dettagli si veda, per esempio, [50] o la monografia [49]). Posto
M
X 2
Q(λ) := ⟨β(yk ), λ⟩ − F(xk , yk ) , λ ∈ Rn+1 ,
k=1
il valore atteso in (5.2.13) è approssimato da
Q(λ)
2
≈ E ⟨λ, β(Y )⟩ − F(X, Y ) , M ≫ 1.
M
Come nella Sezione 3.2.9, essendo Q una funzione quadratica di λ, il minimo si determina imponendo
∇Q(λ) = 0. In notazioni vettoriali si ha
Q(λ) = |Bλ − F|2
dove B = (bki ) con bki = βi (yk ) e F = (F(xk , yk )) per k = 1, . . . , M e i = 0, . . . , n. Quindi
∇Q(λ) = 2B∗ (Bλ − F)
e imponendo la condizione ∇Q(λ) = 0, nel caso la matrice B∗ B sia invertibile, si ottiene
λ̄ = (B∗ B)−1 B∗ F.
Il calcolo di λ̄ richiede l’inversione della matrice B∗ B che ha dimensione (n + 1) × (n + 1), da cui l’importanza
di mantenere n piccolo. Notiamo che invece B è una matrice di grandi dimensioni, M × (n + 1).
Come esempio, in Figura 5.2 mostriamo il grafico delle prime quattro approssimazioni LSMC, con base
polinomiale, della funzione attesa condizionata a Y
2
Φ(y) = E [F(X, Y ) | Y = y] , F(x, y) = max{1 − ex y , 0},
con (X, Y ) normale bidimensionale con media nulla, deviazioni standard σX = 0.8, σY = 0.5 e correlazione
ϱ = −0.7.
-1
-1 0 1 2
Figura 5.2: Approssimazioni LSMC.

5.3 Probabilità condizionata

Siano (Ω, F , P ) uno spazio di probabilità e G una sotto-σ -algebra di F . Per ogni A ∈ F fissiamo una
versione ZA = E [1A | G ] dell’attesa di 1A condizionata a G . Sembrerebbe naturale definire la probabilità
condizionata a G ponendo
Pω (A | G ) = ZA (ω), ω ∈ Ω. (5.3.1)
In realtà, poiché ZA è determinata a meno di un evento P -trascurabile che dipende da A, non è detto (e in
generale non è vero) che Pω (· | G ) cosı̀ definita sia una misura di probabilità per ogni ω ∈ Ω.
Definizione 5.3.1 (Versione regolare della probabilità condizionata). Nello spazio (Ω, F , P ), una versio-
ne regolare della probabilità condizionata a G è una famiglia P (· | G ) = Pω (· | G ) di misure di probabilità
ω∈Ω
su (Ω, F ) tale che7
P (A | G ) = E [1A | G ] , A ∈ F. (5.3.2)
L’esistenza di una versione regolare della probabilità condizionata è un problema tutt’altro che banale:
in [32], [33] p.624, [52] p.210, sono dati esempi di non esistenza. Condizioni su (Ω, F , P ) sufficienti8
a garantire l’esistenza di una versione regolare della probabilità condizionata sono state fornite da vari
autori: il risultato più classico al riguardo è il seguente Teorema 5.3.2. Ricordiamo che uno spazio polacco è
uno spazio metrico separabile9 e completo.
Teorema 5.3.2. Sia P una misura di probabilità definita su (Ω, B) dove Ω è uno spazio polacco e B è la
relativa σ -algebra di Borel. Per ogni sotto-σ -algebra G di B, esiste una versione regolare della probabilità
condizionata P (· | G ).
Dimostriamo il Teorema 5.3.2 nel caso particolare in cui Ω = Rd (cfr. Teorema 5.3.4): per la dimo-
strazione generale si veda, per esempio, [118] p.13 oppure [33] p.380. L’idea è di sfruttare l’esistenza di
un sottoinsieme A numerabile e denso in Ω, per definire dapprima una famiglia di misure di probabilità
(Pω (· | G ))ω∈A che verifichi la (5.3.1) e poi provare la tesi per densità di A in Ω.
Esempio 5.3.3. Assumiamo esista P (· | G ). Se G ∈ G allora P (G | G ) assume solo i valori 0 e 1. Infatti si ha
P (G | G ) = E [1G | G ] = 1G .
Sia ora X una v.a. su (Ω, F , P ) a valori in Rd . Nel caso in cui esista una versione regolare P (· | G ) della
probabilità condizionata a G , si pone
µX|G (H) := P (X ∈ H | G ), H ∈ Bd .

Notiamo che, per definizione, µX|G = µX|G (·; ω) è una famiglia di distribuzioni in Rd e per questo
ω∈Ω
motivo è chiamata versione regolare della distribuzione di X condizionata a G .
Anche non assumendo l’esistenza di P (· | G ), possiamo comunque definire una versione regolare della
distribuzione di X condizionata a G basandoci sul concetto di attesa condizionata. È questo il contenuto
del seguente
7 Ricordiamo che la (5.3.2) significa che per ogni A ∈ F si ha :
i) ω 7→ Pω (A | G ) è una v.a. G -misurabile;

ii) per ogni W ∈ bG vale
E [W P (A | G )] = E [W 1A ] .
8 Il problema di fornire condizioni necessarie e sufficienti è complesso e in parte ancora aperto: al riguardo si veda [40].
9 Uno spazio metrico S si dice separabile se esiste un sottoinsieme numerabile e denso in S .
5.3. PROBABILITÀ CONDIZIONATA 209
Teorema 5.3.4 (Versione regolare della legge condizionata). [!] In uno spazio di probabilità (Ω, F, P ),
siano X una v.a. a valori in R e G una sotto-σ -algebra di F . Allora esiste una famiglia µX|G = µX|G (·; ω)
d
ω∈Ω
di distribuzioni su Rd tali che, per ogni H ∈ Bd , valga10
µX|G (H) = E [1H (X) | G ] . (5.3.3)
Diciamo che µX|G è una versione regolare della distribuzione di X condizionata a G .
Osservazione 5.3.5. [!] Anche se l’esistenza di una versione regolare P (· | G ) della probabilità condizionata a G
non è garantita in generale, tuttavia con un piccolo abuso di notazione scriveremo indifferentemente µX|G (H)
e P (X ∈ H | G ) per indicare una versione regolare della distribuzione di X condizionata a G .
La dimostrazione del Teorema 5.3.4 sfrutta in maniera cruciale il fatto che X sia a valori in Rd per
utilizzare la densità di Qd in Rd . Il risultato si estende al caso di X a valori in uno spazio metrico polacco, come
per esempio lo spazio delle funzioni continue C([a, b]; R) con la norma del massimo: per la trattazione
generale si veda, per esempio, il Teorema 1.1.6 in [118].
Notazione 5.3.6. Nel seguito spesso ometteremo di indicare la dipendenza da ω ∈ Ω e scriveremo µX|G
invece di µX|G (·; ω), interpretando µX|G come una “distribuzione aleatoria”. Se G = σ (Y ) dove Y è una
qualsiasi v.a. su (Ω, F , P ), scriveremo µX|Y invece di µX|σ (Y ) .
Esempio 5.3.7. [!] Se X ∈ mG allora µX|G = δX . Infatti la famiglia (δX(ω) )ω∈Ω gode delle seguenti proprietà:
i) ovviamente δX(ω) è una distribuzione su Rd per ogni ω ∈ Ω;
ii) per ogni H ∈ Bd vale
δX (H) = 1H (X) =
(poiché X ∈ mG per ipotesi)
= E [1H (X) | G ] .
Teorema 5.3.8 (Teorema del calcolo della media). [!] In uno spazio di probabilità (Ω, F , P ), siano X una
v.a. a valori in Rd e G una sotto-σ -algebra di F . Se f ∈ mBd e f (X) ∈ L1 (Ω, P ) si ha
Z
f dµX|G = E [f (X) | G ] . (5.3.4)
Rd
Dimostrazione. La tesi si prova applicando la procedura standard dell’Osservazione 3.2.21, sfruttando la

linearità e il Teorema di Beppo-Levi per l’attesa condizionata. Basta considerare d = 1. Posto
Z
Z(ω) := f (x)µX|G (dx; ω), ω ∈ Ω,
R
dobbiamo provare che Z = E [f (X) | G ]. Ciò è vero per definizione (cfr. (5.3.3)) se f = 1H con H ∈ B.
Per linearità, la (5.3.4) si estende alle funzioni semplici. Inoltre, se f è a valori reali non-negativi, allora
10 La (5.3.3) significa che, per ogni H ∈ B , si ha
d
i) µX|G (H) è una v.a. G -misurabile;
ii) per ogni W ∈ bG vale h i
E W µX|G (H) = E [W 1H (X)] .
si considera una successione approssimante 0 ≤ fn ↗ f di funzioni semplici e, applicando il Teorema di

Beppo-Levi prima nella versione classica11 e poi per l’attesa condizionata, si ha
Z Z
f dµX|G = lim fn dµX|G = lim E [fn (X) | G ] = E [f (X) | G ] .
R n→∞ R n→∞
Il caso di una f generica si tratta al solito separando la parte positiva e negativa e riutilizzando la linearità
dell’attesa condizionata.
Osservazione 5.3.9. [!] Il Teorema 5.3.8 chiarisce l’importanza del concetto di versione regolare della
distribuzione condizionata, poiché esso garantisce che l’integrale in (5.3.4) sia ben definito.
Esempio 5.3.10. Supponiamo che X ∼ NY ,1 dove Y ∼ Expλ con λ > 0 fissato. Allora per il Teorema 5.3.8
del calcolo della media si ha
(x−Y )2
Z
1
E [X | Y ] = x √ e− 2 dx = Y .
R 2π
Inoltre per la (5.2.5)
1
E [X] = E [E [X | Y ]] = E [Y ] =
λ
e
cov(X, Y ) = E [XY ] − E [X] E [Y ]

1
= E [E [XY | Y ]] − 2 =
λ
(per la (5.2.6))
1
= E [Y E [X | Y ]] −
λ2
h i 1 1
= E Y2 − 2 = 2.
λ λ
Teorema 5.3.11 (Formula della probabilità totale). [!] In uno spazio di probabilità (Ω, F , P ), siano X
una v.a. a valori in Rd e G una sotto-σ -algebra di F . Allora si ha
h i
µX = E µX|G . (5.3.5)
Dimostrazione. Per definizione, per ogni H ∈ Bd si ha

h i h h ii h i
E µX|G (H) = E E 1(X∈H) | G = E 1(X∈H) = µX (H).
Esempio 5.3.12. Riprendiamo l’Esempio 5.3.10: per la (5.3.5), per ogni H ∈ B si ha

h i
µX (H) = E µX|Y (H)
"Z #
1 (x−Y )2
=E √ e− 2 dx =
H 2π

" #
(x−Y )2
Z Z
1 − 2
= √ E e dx = γ(x)dx
H 2π H
11 Qui utilizziamo il fatto che µ
X|G = µX|G (·; ω) è una distribuzione per ogni ω ∈ Ω.
con Z +∞ (x−y)2
1
γ(x) := √ e− 2 λe−λy dy
2π 0
che è quindi la densità di X.
Corollario 5.3.13. Siano X, Y v.a. su (Ω, F , P ), rispettivamente a valori in Rd e Rn . Allora si ha

h i
µ(X,Y ) (H × K) = E µX|Y (H)1(Y ∈K) , H ∈ Bd , K ∈ Bn , (5.3.6)
h i
iη2 ·Y
ϕ(X,Y ) (η1 , η2 ) = E e ϕX|Y (η1 ) , η 1 ∈ Rd , η 2 ∈ Rn . (5.3.7)
La (5.3.6) mostra come si ricava la legge congiunta di X, Y a partire dalla legge condizionata µX|Y e dalla legge
marginale µY : infatti la v.a. µX|Y (H)1(Y ∈K) è funzione di Y e pertanto il valore atteso in (5.3.6) è calcolabile a
partire da µY . Analogamente la (5.3.7) mostra come si ricava la CHF congiunta di X, Y a partire dalla CHF
condizionata ϕX|Y e dalla legge marginale µY .
Dimostrazione del Corollario 5.3.13. Per definizione si ha

h i h h i i
E µX|Y (H)1(Y ∈K) = E E 1(X∈H) | Y 1(Y ∈K) =
(per la proprietà ii) del Teorema 5.2.1 con W = 1(Y ∈K) )

h i
= E 1(X∈H) 1(Y ∈K) = µ(X,Y ) (H × K).
Per quanto riguarda la (5.3.7), abbiamo

h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 ·X+iη2 ·Y
h h ii
= E E eiη1 ·X+iη2 ·Y | Y =
(per la (5.2.6))
h h ii
= E eiη2 ·Y E eiη1 ·X | Y
h i
= E eiη2 ·Y ϕX|Y (η1 ) .
Esempio 5.3.14. Riprendiamo l’Esempio 5.3.10: per la (5.3.7) si ha
η2 η12
" #
h
iη2 Y
i
iη2 Y iη1 Y − 21 λ
ϕ(X,Y ) (η1 , η2 ) = E e ϕX|Y (η1 ) = E e e = e− 2 .
λ − i(η1 + η2 )
Esempio 5.3.15. Data una v.a. bidimensionale (X, Y ), supponiamo che Y ∼ Unif[0,1] e µX|Y = ExpY . Provia-
mo che (X, Y ) è assolutamente continua e determiniamo la densità congiunta di X, Y e la densità marginale
di X. Un’immediata conseguenza della (5.3.6) è la seguente formula per la CDF congiunta: dati x ∈ R≥0 e
y ∈ [0, 1], si ha
h i
P ((X ≤ x) ∩ (Y ≤ y)) = E ExpY (] − ∞, x])1(Y ≤y)
h i
= E 1 − e−xY 1(Y ≤y)
Z y e−xy − 1 + xy
= 1 − e−xt dt = .
0 x
Ne segue che la CDF di (X, Y ) è




0 se (x, y) ∈ R<0 × R<0 ,
 e−xy −1+xy

F(X,Y ) (x, y) = 
 x se (x, y) ∈ R≥0 × [0, 1],
 e−x −1+x
se (x, y) ∈ R≥0 × [1, +∞[.


x
Da ciò si ricava12 la densità congiunta

γ(X,Y ) (x, y) = ∂x ∂y F(x, y) = ye−xy 1R≥0 ×[0,1] (x, y).
Per la densità marginale, si ha
e−x (ex − 1 − x)
γX (x) = ∂x P (X ≤ x) = ∂x F(x, 1) = 1R≥0 (x).
x2
5.3.1 Funzione distribuzione condizionata

Teorema 5.3.16 (Versione regolare della funzione distribuzione condizionata). [!] In uno spazio di pro-
babilità (Ω, F , P ), siano X una v.a. a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Allora
esiste una famiglia (µ(·; y))y∈E di distribuzioni su Rd tale che, per ogni H ∈ Bd ,
i) la funzione y 7→ µ(H; y) è E -misurabile;
ii) µ(H, Y ) = P (X ∈ H | Y ) ossia13 , per ogni W ∈ bσ (Y ) si ha
h i
E [W µ(H; Y )] = E W 1(X∈H) .
Diciamo che (µ(·; y))y∈E è una versione regolare della funzione distribuzione di X condizionata a Y e scriviamo
µ(·; y) = µX|Y =y .
Dimostrazione. La prova è leggermente più sofisticata ma sostanzialmente analoga a quella del Teorema
5.3.4: per questo motivo non la riportiamo e rimandiamo a [57], Teorema 6.3, per i dettagli.
Osservazione 5.3.17. Se µ(·; y) = µX|Y =y allora (µX|Y (·; Y (ω)))ω∈Ω è una versione regolare della distribuzione
di X condizionata a Y nel senso del Teorema 5.3.4.
Esempio 5.3.18. Riprendiamo l’Esempio 5.3.7: se Y è una v.a. reale allora µY |Y = δY . In altri termini, la
distribuzione aleatoria δY è una versione regolare della distribuzione di Y condizionata ad Y .
Per esempio, se Y ∼ Unif[0,1] allora (δy )y∈R è una versione regolare della funzione distribuzione di Y
condizionata a Y . In realtà sarebbe sufficiente definire la versione regolare solo per y ∈ E = [0, 1]: il valore
assunto fuori da [0, 1] è irrilevante poiché Y assume valori in [0, 1] q.c.
Nell’Esempio 5.3.15, ExpY = µX|Y ossia ExpY è una versione regolare della distribuzione di X condizio-
nata a Y ∼ Unif[0,1] : equivalentemente (Expy )y∈[0,1] è una versione regolare della funzione distribuzione di
X condizionata a Y .
Ricordiamo la notazione (5.2.10), E [X | Y = y], per indicare la funzione attesa di X condizionata a Y .
Vale il seguente risultato analogo al Teorema 5.3.8.
Teorema 5.3.19 (Teorema del calcolo della media). In uno spazio di probabilità (Ω, F , P ), siano X una v.a.
a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P )
si ha Z
f dµX|Y =y = E [f (X) | Y = y] .
Rd
12 Si ricordi che
Zx Zy
F(x, y) = γ(X,Y ) (ξ, η)dξdη.
−∞ −∞
13 Si ricordi la notazione dell’Osservazione 5.3.5.
5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente con-
tinuo
Abbiamo visto nel Corollario 5.3.13 come ricavare la distribuzione congiunta a partire dalle marginali
condizionate. In questa sezione consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo
con densità γ(X,Y ) e ricaviamo l’espressione della densità marginale condizionata γX|Y .
Ricordiamo che, per il Teorema di Fubini,
Z
γY (y) := γ(X,Y ) (x, y)dx, y ∈ R, (5.3.8)
Rd
è una14 densità di Y e l’insieme

(γY > 0) := {y ∈ R | γY (y) > 0}
appartiene a B. Il seguente risultato fornisce la versione continua della formula (5.1.9).
Proposizione 5.3.20. [!] Sia (X, Y ) ∈ AC un vettore aleatorio con densità γ(X,Y ) . Allora la funzione
γ(X,Y ) (x, y)
γX|Y (x, y) := , x ∈ Rd , y ∈ (γY > 0), (5.3.9)
γY (y)
è una versione regolare della densità di X condizionata a Y nel senso che la famiglia (µ(·; y))y∈(γY >0) definita
da Z
µ(H; y) := γX|Y (x, y)dx, H ∈ Bd , y ∈ (γY > 0), (5.3.10)
H
è una versione regolare della funzione distribuzione di X condizionata a Y . Di conseguenza, per ogni f ∈
mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
f (x)γX|Y (x, y)dx = E [f (X) | Y = y] (5.3.11)
Rd
o equivalentemente Z
f (x)γX|Y (x, Y )dx = E [f (X) | Y ] . (5.3.12)
Rd

Osservazione 5.3.21. [!] Segue dalla (5.3.9) la formula
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y)
che esprime la densità congiunta come prodotto della marginale γY per la marginale condizionata γX|Y . Si
generalizza cosı̀ la formula
γ(X,Y ) (x, y) = γX (x)γY (y)
valida sotto la restrittiva ipotesi che X, Y siano indipendenti.
Esempio 5.3.22. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su
S = {(x, y) ∈ R2 | x > 0, y > 0, x2 + y 2 < 1}.
Determiniamo:
i) la distribuzione condizionata µX|Y ;
14 Ricordiamo (cfr. Osservazione 2.4.19) che la densità di una v.a. è definita a meno di insiemi di Borel di misura nulla secondo
Lebesgue.
ii) E [X | Y ] e var(X | Y );
iii) la densità della v.a. E [X | Y ].
i) La densità congiunta è
4
γ(X,Y ) (x, y) = 1 (x, y)
π S
e la marginale di Y è p
4 1 − y2
Z
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y).
R π
Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = =p 1 √ 2 (x), y ∈ ]0, 1[,
γY (y) 1 − y 2 [0, 1−y ]
da cui riconosciamo che
µX|Y = Unif[0,√1−Y 2 ] . (5.3.13)
ii) Per la (5.3.13) si ha √

1−Y2 1−Y2
E [X | Y ] = , var(X | Y ) = .
2 12
In alternativa, in base alla (5.3.11) della Proposizione 5.3.20 si ha, per y ∈ ]0, 1[,
p
1 − y2
Z
E [X | Y = y] = xγX|Y (x, y)dx = ,
R 2
Z  p 2
 1 − y 2  1 − y2
var (X | Y = y) = x −
  γX|Y (x, y)dx = .
R 2 12
√
2
iii) Infine per determinare la densità della v.a. Z = 1−Y2 utilizziamo la CDF: si ha P (Z ≤ 0) = 0, P (Z ≤
1/2) = 1 e per 0 < z < 1/2 vale
√
P (Z ≤ z) = P 1 − Y 2 ≤ 2z

= P Y 2 ≥ 1 − 4z2
√
= P Y ≥ 1 − 4z2
Z √1−4z2 p
4 1 − y2
= 1− dy.
0 π
Derivando otteniamo la densità di Z:

32z2
γZ (z) = √ 1]0,1/2[ (z).
π 1 − 4z2
Corollario 5.3.23 (Formula della probabilità totale per la densità). Sia (X, Y ) ∈ AC un vettore aleatorio
con densità γ(X,Y ) . Vale
h i
γX = E γX|Y (·, Y ) . (5.3.14)
Dimostrazione. Per ogni f ∈ bB si ha
E [f (X)] = E [E [f (X) | Y ]] =
(per la (5.3.12))
"Z #
=E f (x)γX|Y (x, Y )dx =
Rd

Z h i
= f (x)E γX|Y (x, Y ) dx
Rd
e questo prova la tesi, data l’arbitrarietà di f .
Esempio 5.3.24. Siano X, Y v.a. reali. Supponiamo Y ∼ Expλ , con λ > 0, e che la densità di X condizionata
a Y sia di tipo esponenziale:
γX|Y (x, y) = ye−xy 1[0,+∞[ (x),
ossia µX|Y = ExpY . Determiniamo la densità di X: utilizzando la (5.3.14) si ha
h i
γX (x) = E Y e−xY 1[0,+∞ (x)
Z +∞
= ye−xy λe−λy dy1[0,+∞ (x)
0
λ
= 1[0,+∞ (x).
(x + λ)2
Si noti che X < L1 (Ω, P ).
Esempio 5.3.25. Riprendiamo l’Esempio 5.2.8 e consideriamo un vettore aleatorio normale bidimensionale
(X, Y ) ∼ Nµ,C con
σX2 σXY
!
µ = (µ1 , µ2 ), C= > 0.
σXY σY2
Determiniamo:
i) la funzione caratteristica ϕX|Y e la distribuzione µX|Y di X condizionata a Y ;
ii) E [X | Y ].
i) La densità di X condizionata a Y è
γ(X,Y ) (x, y)
γX|Y (x, y) = , (x, y) ∈ R2 ,
γY (y)
da cui, con qualche calcolo, si trova

h i
ϕX|Y (η1 , Y ) = E eiη1 X | Y
Z
= eiη1 x γX|Y (x, Y )dx
R
σ2
! !
σXY
iη1 µ1 +(Y −µ2 ) − 21 η12 σX2 − XY
σY2 2 σY
=e ,
ossia
µX|Y = N σXY
2
σXY . (5.3.15)
µ1 +(Y −µ2 ) ,σX2 −
σY2 σY2
ii) Da (5.3.15) si ha
σXY
E [X | Y ] = µ1 + (Y − µ2 ) (5.3.16)
σY2
in accordo con quanto visto nell’Esempio 5.2.8. Lo stesso risultato si ottiene con la (5.3.11), calcolando
Z
σ
E [X | Y = y] = xγX|Y (x, y)dx = µ1 + (y − µ2 ) XY .
R σY2
Esempio 5.3.26. Sia (X1 , X2 , X3 ) un vettore aleatorio con distribuzione normale Nµ,C dove
 
1 1 0
µ = (0, 1, 0) , C = 1 2 1 .
 
0 1 3
 
Per determinare
E [(X1 , X2 , X3 ) | X3 ] ,
anzitutto osserviamo che (X1 , X3 ) ∼ N(0,0),C2 e (X2 , X3 ) ∼ N(1,0),C1 dove
! !
1 0 2 1
C2 = , C1 = .
0 3 1 3
Ricordando il Teorema 5.2.10-3) e osservando che X1 e X3 sono indipendenti poiché cov(X1 , X3 ) = 0,

abbiamo che E [X1 | X3 ] = E [X1 ] = 0. Inoltre, per la (5.3.16),
X3
E [X2 | X3 ] = 1 + .
3
Infine, ancora per Teorema 5.2.10-2), si ha E [X3 | X3 ] = X3 . In definitiva
X

E [(X1 , X2 , X3 ) | X3 ] = E [X1 | X3 ] , E [X2 | X3 ] , E [X3 | X3 ] = 0, 1 + 3 , X3 .
3
Esempio 5.3.27. Il petrolio ricevuto da una raffineria contiene una concentrazione di detriti pari a Y
Kg/barile dove Y ∼ Unif[0,1] . Si stima che il processo di raffinazione porti la concentrazione di detriti
da Y a X con X ∼ Unif[0,αY ] dove α < 1 è un parametro positivo noto. Determiniamo:
i) le densità γ(X,Y ) e γX ;
ii) il valore atteso della concentrazione di detriti Y prima della raffinazione, dando per nota la concen-
trazione X dopo la raffinazione.
i) I dati del problema sono:
µY = Unif[0,1] , µX|Y = Unif[0,αY ] ,
ossia
1
γY (y) = 1[0,1] (y), γX|Y (x, y) = 1 (x), y ∈ ]0, 1].
αy [0,αy]
Dalla formula (5.3.9) per la densità condizionata ricaviamo
1
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = 1 (x, y)
αy ]0,αy[×]0,1[
e Z Z 1
1 log α − log x
γX (x) = γ(X,Y ) (x, y)dy = dy 1]0,α[ (x) = 1]0,α[ (x).
R x αy α
α
5.4. APPENDICE 217
ii) Calcoliamo E [Y | X]. Si ha
γ(X,Y ) (x, y) 1
γY |X (y, x) = 1(γX >0) (x) = 1 (x, y) (5.3.17)
γX (x) y(log α − log x) ]0,αy[×]0,1[
da cui
Z Z 1
1 α−x
E [Y | X = x] = yγY |X (y, x)dy = 1 (x) dy = 1 (x).
R log α − log x ]0,α[ x α(log α − log x) ]0,α[
α
In definitiva si ha
α−X
E [Y | X] = .
α(log α − log X)
Notiamo che nella (5.3.17) abbiamo usato la relazione
γ(X,Y ) (x, y) γX|Y (x, y)

γY |X (y, x) = 1(γX >0) (x) = γY (y),
γX (x) γX (x)
che è una versione della formula di Bayes.
Esempio 5.3.28. Sia (X, Y ) un vettore aleatorio con distribuzione marginale µY = χ2 e distribuzione condi-
zionata µX|Y = N0, 1 . Ricordiamo che le relative densità sono
Y
r
1 −2
y y − x2 y
γY (y) = p e , γX|Y (x, y) = e 2 , y > 0.
2πy 2π
Allora la densità congiunta è data da
1 − (1+x2 )y
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = e 2 , y > 0,
2π
e la marginale di X è
Z +∞
1
γX (x) = γ(X,Y ) (x, y)dy = , x ∈ R,
0 π(1 + x2 )
ossia X ha distribuzione di Cauchy (cfr. (3.5.5)).
5.4 Appendice
Alla dimostrazione del Teorema 5.3.4 premettiamo il seguente risultato: diciamo che
F : Q −→ [0, 1]
è una funzione di ripartizione (o CDF) su Q se:
i) F è monotona crescente;
ii) F è continua a destra nel senso che, per ogni q ∈ Q, vale
F(q) = F(q+) := lim F(p); (5.4.1)

p↓q
p∈Q
iii) vale
lim F(q) = 0
q→−∞
e lim F(q) = 1.
q→+∞
(5.4.2)
q∈Q q∈Q
Lemma 5.4.1. Data una CDF F su Q, esiste una distribuzione µ su R tale che
F(q) = µ(] − ∞, q]), q ∈ Q. (5.4.3)
Dimostrazione. La funzione definita da15
F̄(x) := lim F(y), x ∈ R,

y↓x
y∈Q
è una CDF su R (provarlo per esercizio) e F = F̄ su Q. Allora per il Teorema 2.4.33 esiste una distribuzione
µ che verifica la (5.4.3).
Dimostrazione del Teorema 5.3.4. Basta considerare il caso d = 1. Per ogni q ∈ Q, fissiamo una versione
dell’attesa condizionata h i
F(q) := E 1(X≤q) | G
la cui esistenza è garantita dal Teorema 5.2.1. In realtà, F = F(q, ω) dipende anche da ω ∈ Ω ma per brevità
scriveremo F = F(q) considerando F(q) come variabile aleatoria (G -misurabile, per definizione). In base alle
proprietà dell’attesa condizionata e alla numerabilità di Q, si ha che P -quasi certamente F è una CDF su Q:
più precisamente, esiste un evento trascurabile C ∈ G tale che F = F(·, ω) è una CDF su Q per ogni ω ∈ Ω\C.
Infatti, se p, q ∈ Q con p ≤ q, allora 1(X≤p) ≤ 1(X≤q) e quindi
h i h i
F(p) = E 1(X≤p) | G ≤ E 1(X≤q) | G = F(q)
a meno di un evento G -misurabile trascurabile, per la proprietà di monotonia dell’attesa condizionata.

Analogamente si provano le proprietà (5.4.1) e (5.4.2) come conseguenza del Teorema della convergenza
dominata per l’attesa condizionata:
per esempio, se (pn )n∈N è una successione in Q tale che pn ↓ q ∈ Q allora
la successione di v.a. 1(X≤pn ) è limitata e converge puntualmente
n∈N
lim 1(X≤pn ) (ω) = 1(X≤q) (ω), ω ∈ Ω,

n→∞
da cui h i h i
lim F(pn ) = lim E 1(X≤pn ) | G = E 1(X≤q) | G = F(q).
n→∞ n→∞
In base al Lemma 5.4.1, per ogni ω ∈ Ω \ C esiste una distribuzione µ = µ(·, ω) (ma scriveremo semplice-
mente µ = µ(H), per H ∈ B) tale che
µ(] − ∞, p]) = F(p), p ∈ Q.
Per costruzione, µ è una distribuzione su R, a meno dell’evento trascurabile C ∈ G : in realtà possiamo

supporre che µ sia una distribuzione su tutto Ω ponendo, per esempio, µ(·, ω) ≡ δ0 per ω ∈ C. Proviamo ora
che µ soddisfa anche la (5.3.3): a tal fine utilizziamo il Teorema A.1.3 di Dynkin e poniamo
h i
M = {H ∈ B | µ(H) = E 1(X∈H) | G }.
La famiglia
A = {] − ∞, p] | p ∈ Q}
è ∩-chiusa, σ (A ) = B e, per costruzione, A ⊆ M . Se verifichiamo che M è una famiglia monotona, per il
Teorema di Dynkin ne verrà che M = B da cui la tesi. Ora si ha:
15 Il limite esiste per la monotonia di F.
5.4. APPENDICE 219
i) R ∈ M poiché 1R (X) ≡ 1 è G -misurabile e quindi coincide con la propria attesa condizionata. D’altra
parte, µ(R) = 1 su Ω e quindi µ(R) = E [1R (X) | G ];
ii) se H, K ∈ M e H ⊆ K, allora
µ(K \ H) = µ(K) − µ(H)

= E [1K (X) | G ] − E [1H (X) | G ] =
(per la linearità dell’attesa condizionata)
= E [1K (X) − 1H (X) | G ]

h i
= E 1K\H (X) | G ;
iii) sia (Hn )n∈N una successione crescente di elementi di M . Per la continuità dal basso delle distribuzio-
ni, si ha [
µ(H) = lim µ(Hn ), H := Hn .
n→∞
n≥1
D’altra parte, per il Teorema di Beppo-Levi per l’attesa condizionata, si ha

h i
lim µ(Hn ) = lim E 1Hn (X) | G = E [1H (X) | G ] .
n→∞ n→∞

Consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo con densità γ(X,Y ) .
Lemma 5.4.2. Per ogni g ∈ bBd+1 vale

Z Z
g(x, y)γ(X,Y ) (x, y)dxdy = 0. (5.4.4)
(γY =0) Rd
Dimostrazione. Sia γY la densità di Y in (5.3.8). Essendo γ(X,Y ) ≥ 0, per il Corollario 3.2.14 si ha
γY (y) = 0 =⇒ γ(X,Y ) (·, y) = 0 q.o.
Allora, per ogni g ∈ bBd+1 e per ogni y tale che γY (y) = 0, vale
Z
g(x, y)γ(X,Y ) (x, y)dx = 0,
Rd
da cui segue la (5.4.4).
Dimostrazione della Proposizione 5.3.20. Dobbiamo provare che la famiglia (µ(·; y))y∈(γY >0) definita in (5.3.10)-
(5.3.9) è una versione regolare della funzione distribuzione di X condizionata a Y secondo la definizione del
Teorema 5.3.16.
Anzitutto µ(·; y) è una distribuzione: infatti γX|Y (·, y) in (5.3.9) è una densità poiché è una funzione
misurabile, non-negativa e tale che, per la (5.3.8), vale
Z Z
1
γX|Y (x, y)dx = γ (x, y)dx = 1.
Rd γY (y) Rd (X,Y )
Fissiamo H ∈ Bd . Per quanto riguarda la i) del Teorema 5.3.16, il fatto che y 7→ µ(H; y) ∈ mB segue
dal Teorema di Fubini e dal fatto che γX|Y è una funzione Borel-misurabile. Per quanto riguarda la ii) del
Teorema 5.3.16, consideriamo W ∈ bσ (Y ): per il Teorema di Doob, W = g(Y ) con g ∈ bB e quindi si ha
Z
E [W µ(H; Y )] = g(y)µ(H; y)γY (y)dy =
R

Z Z !
= g(y) γX|Y (x, y)dx γY (y)dy
(γY >0) H
Z Z
= g(y)γ(X,Y ) (x, y)dx dy =
(γY >0) H
(per la (5.4.4))
" h i
= g(y)1H (x)γ(X,Y ) (x, y)dx dy = E W 1(X∈H) .
Rd ×R
Parte II
Processi e calcolo stocastico
221
223
Se qualcuno dovesse chiedermi, come

filosofa, che cosa si dovrebbe
imparare al liceo, risponderei:
“prima di tutto, solo cose “inutili”,
greco antico, latino, matematica
pura e filosofia. Tutto quello che è
inutile nella vita”. Il bello è che cosı̀,
all’età di 18 anni, si ha un bagaglio
di sapere inutile con cui si può fare
tutto. Mentre col sapere utile si
possono fare solo piccole cose.
Agnes Heller, Solo se sono libera

224
Capitolo 6
Processi stocastici
De te fabula narratur
Dante
Le variabili aleatorie descrivono lo stato di un fenomeno aleatorio, per esempio una posizione non os-
servabile con certezza di una particella in un modello della fisica o il prezzo in una data futura di un titolo
azionario in un modello finanziario. I processi stocastici descrivono la dinamica, nel tempo o in dipendenza
da altri parametri, di un fenomeno aleatorio. Si può definire un processo stocastico come una famiglia
parametrizzata di variabili aleatorie, ognuna delle quali rappresenta lo stato del fenomeno corrispondente
ad un fissato valore dei parametri. Abbiamo già incontrato un semplice processo stocastico nell’Esempio
3.6.4 in cui (Xn )n∈N rappresenta l’evoluzione nel tempo del prezzo di un titolo rischioso. Da un punto di
vista più astratto, un processo stocastico può essere definito come una variabile aleatoria a valori in uno
spazio funzionale, tipicamente uno spazio di curve di RN : ogni curva rappresenta una traiettoria o possibile
evoluzione del fenomeno in RN al variare dei parametri.
La teoria dei processi stocastici è oggigiorno uno dei campi della matematica più ricchi e affascinanti:
segnaliamo l’eccellente articolo di rassegna [82] che, con dovizia di spunti, racconta la storia della ricerca
sui processi stocastici dalla metà del secolo scorso in poi.
6.1 Processi stocastici: legge e distribuzioni finito-dimensionali

In questa sezione diamo due definizioni equivalenti di processo stocastico. La prima definizione è abbastan-
za semplice ed intuitiva; la seconda è più astratta ma indispensabile per la prova di alcuni risultati generali
sui processi stocastici. Introduciamo anche alcune nozioni accessorie: lo spazio delle traiettorie, la legge e le
distribuzioni finito-dimensionali.
Sia I un generico insieme non vuoto. Fissato d ∈ N, indichiamo con mF l’insieme delle variabili aleato-
rie a valori in Rd , definite su uno spazio di probabilità (Ω, F , P ). Il concetto di processo stocastico estende
quello di funzione da I in Rd , ammettendo che i valori assunti possano essere aleatori: in altri termini, cosı̀
come una funzione
f : I −→ Rd
associa a t ∈ I la variabile dipendente f (t) ∈ Rd , analogamente un processo stocastico
X : I −→ mF
associa a t ∈ I la variabile aleatoria d-dimensionale Xt ∈ mF .
225
226 CAPITOLO 6. PROCESSI STOCASTICI
Definizione 6.1.1 (Processo stocastico). Un processo stocastico è una funzione a valori aleatori d-dimen-
sionali
X : I −→ mF
t −→ Xt .
Se d = 1 diciamo che X è un processo stocastico reale. Se I è finito o numerabile allora diciamo che X è un
processo stocastico discreto.
Più in generale, si può definire in modo completamente analogo un processo stocastico X con Xt a valori
in un generico spazio misurabile (E, E ) al posto di Rd .
Può essere utile pensare al processo stocastico X come una famiglia indicizzata X = (Xt )t∈I di variabili
aleatorie. Per fissare le idee, spesso il dominio I sarà un sottoinsieme di R che rappresenta un insieme di
indici temporali; per esempio, se I = N allora un processo (Xn )n∈N è semplicemente una successione di
variabili aleatorie.
Per dare la seconda definizione di processo stocastico, occorre introdurre preliminarmente alcune nota-
zioni. Indichiamo con
RI = {x : I −→ R}
la famiglia delle funzioni da I in R. Per ogni x ∈ RI e t ∈ I, scriviamo xt invece di x(t) e diciamo che xt è la
componente t-esima di x: in questo modo interpretiamo RI come il prodotto cartesiano di R per un numero
|I| di volte (anche se I non è finito o numerabile). Per esempio, se I = {1, . . . , d} allora RI è identificabile con
Rd , mentre se I = N allora RN è l’insieme delle successioni x = (x1 , x2 , . . . ) di numeri reali. Un elemento
x ∈ RI può essere visto come una curva parametrizzata in R, dove I è l’insieme dei parametri.
Diciamo che RI è lo spazio delle traiettorie da I in R e x ∈ RI è una traiettoria reale. Non c’è nulla di
speciale nel considerare traiettorie reali: potremmo direttamente considerare Rd o addirittura un generico
spazio misurabile (E, E ) al posto di R. In tal caso, lo spazio delle traiettorie è E I , l’insieme delle funzioni
da I a valori in E. Tuttavia almeno per il momento ci limiteremo a considerare E = R che interviene nello
studio dei processi stocastici uno-dimensionali (o reali).
Muniamo lo spazio delle traiettorie di una struttura di spazio misurabile. Su RI introduciamo una
σ -algebra che generalizza la σ -algebra prodotto definita nella Sezione 3.3.2. Chiamiamo cilindro finito-
dimensionale, o semplicemente cilindro, un sottoinsieme di RI di cui è “fissato” un numero finito di compo-
nenti.
Definizione 6.1.2 (Cilindro finito-dimensionale). Dati t ∈ I e H ∈ B, diciamo che l’insieme
Ct (H) := {x ∈ RI | xt ∈ H}
è un cilindro uno-dimensionale. Dati t1 , . . . , tn ∈ I distinti e H1 , . . . , Hn ∈ B, poniamo H = H1 × · · · × Hn e

diciamo che
n
\
I
Ct1 ,...,tn (H) := {x ∈ R | (xt1 , . . . , xtn ) ∈ H} = Cti (Hi ) (6.1.1)
i=1
è un cilindro finito-dimensionale. Indichiamo con C la famiglia dei cilindri finito-dimensionali e
F I := σ (C )
la σ -algebra generata da tali cilindri.
La σ -algebra F I è un oggetto molto astratto e, almeno per il momento, non è importante cercare di
visualizzarla concretamente o comprenderne a fondo la struttura: alcune informazioni aggiuntive su F I
verranno fornite nell’Osservazione 6.1.10. Abbiamo introdotto F I al fine di dare la seguente definizione
alternativa.
6.1. PROCESSI STOCASTICI: LEGGE E DISTRIBUZIONI FINITO-DIMENSIONALI 227
Definizione 6.1.3 (Processo stocastico). Un processo stocastico reale X = (Xt )t∈I sullo spazio di probabilità
(Ω, F , P ) è una variabile aleatoria a valori nello spazio delle traiettorie (RI , F I ):
X : Ω −→ RI .
Osservazione 6.1.4. Il fatto che X sia una variabile aleatoria significa che vale la condizione di misurabilità
(X ∈ C) ∈ F per ogni C ∈ F I . (6.1.2)
A sua volta, la condizione (6.1.2) equivale1 al fatto che
(Xt ∈ H) ∈ F per ogni H ∈ B, t ∈ I, (6.1.3)
e quindi le Definizioni 6.1.1 e 6.1.3 sono equivalenti. Riassumendo, si può anche dire che un processo
stocastico reale X è una funzione
X : I × Ω −→ R
(t, ω) −→ Xt (ω)
che
• ad ogni t ∈ I associa la variabile aleatoria ω 7→ Xt (ω): questo è il punto di vista della Definizione 6.1.1;
• ad ogni ω ∈ Ω associa la traiettoria t 7→ Xt (ω): questo è il punto di vista della Definizione 6.1.3. Si
noti che ogni esito ω ∈ Ω corrisponde a (e può essere identificato con) una traiettoria del processo.
Esempio 6.1.5. Ogni funzione f : I −→ R può essere vista come un processo stocastico interpretando, per
ogni fissato t ∈ I, f (t) come una variabile aleatoria costante. In altri termini, se Ω = {ω} è uno spazio
campionario costituito da un solo elemento, il processo definito da Xt (ω) = f (t) ha una sola traiettoria che è
la funzione f . La condizione di misurabilità (6.1.3) è ovvia essendo F = {∅, Ω}. In questo senso il concetto
di processo stocastico generalizza quello di funzione perché consente l’esistenza di molteplici traiettorie.
Dal punto di vista della Definizione 6.1.3 un processo stocastico è una variabile aleatoria e quindi
possiamo definirne la legge.
Definizione 6.1.6 (Legge). La distribuzione (o legge) del processo stocastico X è la misura di probabilità
su (RI , F I ) definita da
µX (C) = P (X ∈ C), C ∈ FI.
Osservazione 6.1.7 (Distribuzioni finito-dimensionali). Anche il concetto di legge di un processo sto-
castico è astratto e poco maneggevole: dal punto di vista operativo, uno strumento molto più efficace
sono le cosiddette distribuzioni finito-dimensionali che sono le distribuzioni µ(Xt ,...,Xtn ) dei vettori aleatori
1
(Xt1 , . . . , Xtn ) al variare della scelta di un numero finito di indici t1 , . . . , tn ∈ I. La legge di un processo è
univocamente determinata dalle distribuzioni finito-dimensionali: in altri termini, è equivalente conoscere la
legge oppure le distribuzioni finito-dimensionali di un processo stocastico2 .
1 Infatti, (X ∈ H) = (X ∈ C) dove C è il cilindro uno-dimensionale (ossia in cui è fissata solo una componente) definito da {x ∈ RI |
t
xt ∈ H}: quindi è chiaro che se X è un processo stocastico allora Xt ∈ mF per ogni t ∈ I. Viceversa, la famiglia
H := {C ∈ F I | X −1 (C) ∈ F }
è una σ -algebra che, per ipotesi, include i cilindri uno-dimensionali e quindi anche C (i cilindri sono intersezioni finite di cilindri
uno-dimensionali). Allora H ⊇ σ (C ) = F I .
2 La misura di un generico cilindro C
t1 ,...,tn (H) si esprime come

µX Ct1 ,...,tn (H) = µ(Xt ,...,Xt ) (H)
1 n
I
e quindi le distribuzioni finito-dimensionali identificano
µX su C . D’altra parte, C è una famiglia ∩-chiusa e genera F : per il
Corollario A.1.5 se due misure di probabilità su RI , F I coincidono su C allora sono uguali. In altri termini, se µ1 (C) = µ2 (C) per
ogni C ∈ C allora µ1 ≡ µ2 . Vedremo che, grazie al Teorema di Carathéodory, una misura di probabilità si estende in modo unico da C a
F I : questo è il contenuto di uno dei primi risultati fondamentali sui processi stocastici, il Teorema di estensione di Kolmogorov, che
esamineremo nella Sezione 6.3.
Le distribuzioni uno-dimensionali non sono sufficienti ad identificare la legge di un processo. Questo

è chiaro nel caso in cui I sia finito e quindi il processo sia semplicemente un vettore aleatorio: infatti
le distribuzioni uno-dimensionali sono le leggi marginali del vettore che ovviamente non identificano la
legge congiunta. Un altro esempio interessante è dato nell’Osservazione 10.1.5.
Esempio 6.1.8. Siano A, B ∼ N0,1 v.a. indipendenti. Consideriamo il processo stocastico X = (Xt )t∈R
definito da
Xt = At + B, t ∈ R.
Ogni traiettoria di X è una funzione lineare (una retta) su R. Non è immediato esplicitare la distribuzione
del processo ma è facile calcolare le distribuzioni finito-dimensionali, infatti fissati t1 , . . . , tn ∈ R si ha
Xt1  t1 1

   
!
 .  = α A ,
 . 
α =  ... .. 

 .  B . 
   
Xtn tn 1
e quindi, per la Proposizione 3.5.23, (Xt1 , . . . , Xtn ) ∼ N0,αα ∗ .
Esempio 6.1.9 (Processo Gaussiano). Diciamo che un processo stocastico è Gaussiano se ha distribuzioni
finito-dimensionali normali. Se X = (Xt )t∈I è Gaussiano, consideriamo le funzioni di media e covarianza
m(t) := E [Xt ] , c(s, t) := cov(Xs , Xt ), s, t ∈ I.
Queste funzioni determinano le distribuzioni finito-dimensionali (e quindi anche la legge!) del processo poiché,
per ogni scelta t1 , . . . , tn ∈ I, si ha
(Xt1 , . . . , Xtn ) ∼ NM,C
dove
M = (m(t1 ), . . . , m(tn )) e C = c(ti , tj ) . (6.1.4)
i,j=1,...,n

Osserviamo che C = c(ti , tj ) è una matrice simmetrica e semi-definita positiva. Ovviamente, se I
i,j=1,...,n
è finito allora X non è altro che un vettore aleatorio con distribuzione multi-normale. Il processo dell’E-
sempio 6.1.8 è Gaussiano con media nulla e funzione di covarianza c(s, t) = st + 1. Anche il processo banale
dell’Esempio 6.1.5 è Gaussiano con funzione di media f (t) e funzione di covarianza identicamente nulla:
in questo caso, Xt ∼ δf (t) per ogni t ∈ I. Infine, un esempio fondamentale di processo Gaussiano è il moto
Browniano che definiremo nel Capitolo 10.
Osservazione 6.1.10. [!] Esistono famiglie di traiettorie, anche molto significative, che non appartengono
alla σ -algebra F I . Il fatto è che ogni elemento di F I è caratterizzato da un’infinità al più numerabile di
coordinate3 e questo è fortemente restrittivo nel caso in cui I non sia numerabile. Per esempio, se I = [0, 1]
si ha
C[0, 1] < B [0,1]
3 Più precisamente, risolviamo l’Esercizio 1.4 in [10]: consideriamo I = [0, 1] (quindi lo spazio delle traiettorie RI è la famiglia delle
funzioni da [0, 1] a R). Data una successione τ = (tn )n≥1 ∈ [0, 1]N , identifichiamo τ con la mappa
τ : R[0,1] −→ RN , τ(x) := (xtn )n≥1 ,

e poniamo
M = {τ −1 (H) | τ ∈ [0, 1]N , H ∈ B N }, τ −1 (H) = {x ∈ R[0,1] | τ(x) ∈ H},
dove B N indica la σ -algebra generata dai cilindri finito-dimensionali in RN . Allora M ⊆ B [0,1] e contiene la famiglia dei cilindri
finito-dimensionali di R[0,1] , che è una famiglia ∩-chiusa che genera B [0,1] . Inoltre si prova che M è una famiglia monotona: segue
dal Lemma A.1.4 che M = B [0,1] ossia ogni elemento C ∈ B [0,1] è della forma C = τ −1 (H) per una certa successione τ in [0, 1] e
un certo H ∈ B N . In altri termini, C è caratterizzato da una scelta di una quantità numerabile di coordinate τ = (tn )n≥1 (oltre che da
H ∈ B N ).
6.1. PROCESSI STOCASTICI: LEGGE E DISTRIBUZIONI FINITO-DIMENSIONALI 229
poiché la famiglia C[0, 1] delle funzioni continue non può essere caratterizzata, nello spazio di tutte le
funzioni da [0, 1] in R, imponendo condizioni su una quantità numerabile di coordinate4 . Per il medesimo
motivo, addirittura i singoletti {x} con x ∈ R[0,1] , i sottoinsiemi di R[0,1] con un numero finito di elementi e
altre famiglie significative come per esempio
n o
x ∈ R[0,1] | sup xt < 1
t∈[0,1]
non appartengono B [0,1] .

Questi esempi possono suscitare una forte perplessità nei confronti della σ -algebra F I che non è suf-
ficientemente ampia da contenere importanti famiglie di traiettorie come quelle appena considerate. In
realtà il problema è che lo spazio campionario RI , di tutte le funzioni da I in R, è talmente grande da essere
difficilmente trattabile come spazio misurabile cosı̀ da rendere difficile lo sviluppo di una teoria generale
dei processi stocastici. Per questo motivo, non appena possibile cercheremo di sostituire RI con uno spazio
di traiettorie che, oltre a essere “più piccolo”, possegga anche un’utile struttura di spazio metrico: è questo
il caso dello spazio delle traiettorie continue che esamineremo nella Sezione 9.2.
6.1.1 Processi misurabili

Abbiamo dato due definizioni equivalenti di processo stocastico, ognuna delle quali ha i propri pregi e
difetti:
i) un processo stocastico è una funzione a valori aleatori (Definizione 6.1.1)
X : I −→ mF
che ad ogni t ∈ I associa la variabile aleatoria Xt definita sullo spazio di probabilità (Ω, F , P );
ii) un processo stocastico è una variabile aleatoria a valori in uno spazio di traiettorie (Definizione
6.1.3): secondo questa definizione decisamente più astratta, un processo X = X(ω) è una variabile
aleatoria
X : Ω −→ RI
dallo spazio di probabilità (Ω, F , P ) a valori nello spazio delle traiettorie RI , munito della struttura
di spazio misurabile con la σ -algebra F I . Questa definizione si utilizza nella prova dei risultati più
generali e teorici anche se è una nozione meno operativa e più difficilmente applicabile allo studio di
esempi concreti.
Notiamo che le definizioni precedenti non richiedono alcuna ipotesi sul tipo di dipendenza di X rispetto
alla variabile t (per esempio, la misurabilità o qualche tipo di regolarità). Ovviamente il problema non si
pone nel caso in cui I sia un insieme generico, privo di qualsiasi struttura di spazio misurabile o metrico;
tuttavia se I è un intervallo reale allora è possibile dotare lo spazio prodotto I × Ω di una struttura di spazio
misurabile con la σ -algebra prodotto B ⊗ F .
Definizione 6.1.11 (Processo misurabile). Un processo stocastico misurabile è una funzione misurabile
X : (I × Ω, B ⊗ F ) −→ (R, B).
Per il Lemma 3.3.11, se X è un processo stocastico misurabile allora:

• Xt è una variabile aleatoria per ogni t ∈ I;
• la traiettoria t 7→ Xt (ω) è una funzione misurabile da I a R, per ogni ω ∈ Ω.
4 Per assurdo, se fosse C[0, 1] = τ −1 (H), con τ = (t )
n n≥1 successione di coordinate in [0, 1] e H ∈ B , allora modificando x ∈ C[0, 1]
N
in un punto t < τ si dovrebbe ottenere ancora una funzione continua e questo è chiaramente falso.
Se I ⊆ R è naturale interpretare t ∈ I come un indice temporale: allora, come vedremo nella Sezione 6.4, lo
spazio di probabilità si arricchirà di nuovi elementi (le filtrazioni) e un ruolo predominante sarà assunto
da una particolare classe di processi stocastici, le martingale. In questo contesto, rinforzeremo la nozione di
misurabilità introducendo il concetto di processo progressivamente misurabile (cfr. Definizione 11.2.28).
In letteratura ci si riferisce alla “Teoria Generale dei Processi Stocastici” per indicare il settore che si
occupa dello studio delle proprietà generali dei processi nel caso I = R≥0 : per un’introduzione sintetica si
veda, per esempio, il Capitolo 16 in [10] e il Capitolo 1 in [56].
6.2 Unicità
Esistono varie nozioni di equivalenza fra processi stocastici. Anzitutto, due processi X = (Xt )t∈I e
Y = (Yt )t∈I sono uguali in legge se hanno la stessa distribuzione (o, equivalentemente, se hanno le stes-
se distribuzioni finito-dimensionali): in questo caso X e Y potrebbero anche essere definiti su spazi di
probabilità differenti.
Nel caso in cui X e Y siano definiti sullo stesso spazio di probabilità (Ω, F , P ), possiamo dare altre
nozioni di equivalenza espresse in termini di uguaglianza delle traiettorie. Ricordiamo anzitutto che, in
uno spazio di probabilità (Ω, F , P ), un sottoinsieme A di Ω è quasi certo (rispetto a P ) se esiste un evento
C ⊆ A tale che P (C) = 1. Se lo spazio di probabilità è completo5 allora ogni insieme quasi certo A è un evento
e quindi è lecito scrivere P (A) = 1.
Definizione 6.2.1 (Modificazioni). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Diciamo che X
e Y sono modificazioni se P (Xt = Yt ) = 1 per ogni t ∈ I.
Osservazione 6.2.2. La definizione precedente può essere facilmente generalizzata al caso di X, Y generiche
funzioni da Ω a valori in RI : in questo caso (Xt = Yt ) non è necessariamente un evento e quindi diciamo che
X è una modificazione di Y se l’insieme (Xt = Yt ) è quasi certo. Ciò può essere utile se non si sa a priori che
X e/o Y sono processi stocastici.
Definizione 6.2.3 (Processi indistinguibili). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Dicia-
mo che X e Y sono indistinguibili se l’insieme
(X = Y ) := {ω ∈ Ω | Xt (ω) = Yt (ω) per ogni t ∈ I}
è quasi certo.
Osservazione 6.2.4. [!] Due processi X e Y sono indistinguibili se l’insieme delle traiettorie coincidenti è
quasi certo. Notiamo che, anche se X e Y sono processi stocastici, non è detto che (X = Y ) sia un evento.
Infatti, (X = Y ) = (X − Y )−1 ({0}) dove 0 indica la traiettoria identicamente nulla: tuttavia {0} < BI a meno
che I non sia finito o numerabile (cfr. Osservazione 6.1.10).
D’altra parte, se lo spazio (Ω, F , P ) è completo allora X e Y sono indistinguibili se e solo se P (X = Y ) = 1
poiché la completezza dello spazio garantisce che (X = Y ) ∈ F nel caso (X = Y ) sia quasi certo. Per questo
e altri motivi che spiegheremo in seguito, d’ora in poi assumeremo spesso che (Ω, F , P ) sia completo.
Osservazione 6.2.5. [!] Se X e Y sono modificazioni allora hanno le stesse distribuzioni finito-dimensionali
e quindi sono uguali in legge. Se X e Y sono indistinguibili allora sono anche modificazioni poiché per ogni
t ∈ I si ha (X = Y ) ⊆ (Xt = Yt ). Viceversa, X, Y modificazioni non sono necessariamente indistinguibili
poiché \
(X = Y ) = (Xt = Yt )
t∈I
ma se I non è numerabile tale intersezione potrebbe non appartenere a F oppure avere probabilità minore
di uno. Se I è finito o numerabile allora X, Y sono modificazioni se e solo se sono indistinguibili.
5 Ricordiamo la definizione data nell’Osservazione 3.1.11: uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F dove N indica
la famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16).
6.3. ESISTENZA 231
Diamo un esempio esplicito di processi che sono modificazioni ma non sono indistinguibili.
Esempio 6.2.6. [!] Consideriamo lo spazio campionario Ω = [0, 1] con la misura di Lebesgue come misura
di probabilità. Siano I = [0, 1], X = (Xt )t∈I il processo identicamente nullo e Y = (Yt )t∈I il processo definito
da 
1 se ω = t,


Yt (ω) = 
0 se ω ∈ [0, 1] \ {t}.

Allora X e Y sono modificazioni poiché, per ogni t ∈ I,

(Xt = Yt ) = {ω ∈ Ω | ω , t} = [0, 1] \ {t}
ha misura di Lebesgue uguale a uno ossia è un evento certo. D’altra parte, tutte le traiettorie di X sono
differenti da quelle di Y in un punto.
Notiamo anche che X e Y sono uguali in legge ma X ha tutte le traiettorie continue e Y ha tutte le
traiettorie discontinue: dunque ci sono importanti proprietà delle traiettorie di un processo stocastico (come, per
esempio, la continuità), che non dipendono dalla distribuzione del processo.
Nel caso di processi continui si ha il seguente risultato particolare.
Proposizione 6.2.7. Sia I un intervallo reale e siano X = (Xt )t∈I e Y = (Yt )t∈I processi con traiettorie quasi
certamente continue6 . Se X è modificazione di Y allora X, Y sono indistinguibili.
Dimostrazione. Per ipotesi le traiettorie X(ω) e Y (ω) sono continue per ogni ω ∈ A con A quasi certo. Inoltre
P (Xt = Yt ) = 1 per ogni t ∈ I e di conseguenza l’insieme
\
C := A ∩ (Xt = Yt )
t∈I∩Q
è quasi certo. Per ogni t ∈ I esiste una successione approssimante (tn )n∈N in I ∩Q: per l’ipotesi di continuità,
per ogni ω ∈ C si ha
Xt (ω) = lim Xtn (ω) = lim Ytn (ω) = Yt (ω)
n→∞ n→∞
e questo prova che X, Y sono indistinguibili.
Osservazione 6.2.8. Il risultato della Proposizione 6.2.7 rimane valido per processi che siano solo continui
a destra o a sinistra.
6.3 Esistenza
In questa sezione proviamo che è “sempre” possibile costruire un processo stocastico che abbia assegnate
distribuzioni finito-dimensionali.
Facciamo un’osservazione preliminare. Se µt1 ,...,tn sono le distribuzioni finito-dimensionali di un proces-
so stocastico (Xt )t∈I allora si ha

µt1 ,...,tn (H1 × · · · × Hn ) = P (Xt1 ∈ H1 ) ∩ · · · ∩ (Xtn ∈ Hn ) , t1 , . . . , tn ∈ I, H1 , . . . , Hn ∈ B. (6.3.1)
Di conseguenza valgono le seguenti proprietà di consistenza: per ogni famiglia finita di indici t1 , . . . , tn ∈ I,
per ogni H1 , . . . , Hn ∈ B e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha
µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ), (6.3.2)
µt1 ,...,tn (H1 × · · · × Hn−1 × R) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ). (6.3.3)
A posteriori, è chiaro che (6.3.2)-(6.3.3) sono condizioni necessarie affinché le distribuzioni µt1 ,...,tn possano
essere le distribuzioni finito-dimensionali di un processo stocastico. Il seguente risultato mostra che tali
condizioni sono anche sufficienti.
6 L’insieme degli ω ∈ Ω tali che X(ω), Y (ω) sono funzioni continue di t è quasi certo.
Teorema 6.3.1 (Teorema di estensione di Kolmogorov). [!!!] Sia I un insieme non vuoto. Supponiamo
che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn su Rn , e siano soddisfatte

le proprietà di consistenza (6.3.2)-(6.3.3). Allora esiste un’unica misura di probabilità µ su RI , F I che
abbia µt1 ,...,tn come distribuzioni finito-dimensionali, ossia tale che valga
µ(Ct1 ,...,tn (H)) = µt1 ,...,tn (H) (6.3.4)
per ogni famiglia finita di indici t1 , . . . , tn ∈ I e H = H1 × · · · × Hn ∈ Bn .
Osservazione 6.3.2. [!] Nelle ipotesi del teorema precedente, la misura µ si estende ulteriormente ad una
σ -algebra FµI che contiene F I e tale che lo spazio di probabilità (RI , FµI , µ) sia completo: ciò è conseguenza
del Corollario 2.5.11 e del metodo costruttivo utilizzato nella dimostrazione del Teorema di Carathéodory.
A volte, FµI è chiamata µ-completamento di F I .
Rimandiamo la dimostrazione del Teorema 6.3.1 alla Sezione 6.5 ed esaminiamo ora alcune notevoli
applicazioni.
Corollario 6.3.3 (Esistenza di processi con distribuzioni finito-dimensionali assegnate.). [!] Sia I un
insieme. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn
su Rn , e siano soddisfatte le proprietà di consistenza (6.3.2)-(6.3.3). Allora esiste un processo stocasti-
co X = (Xt )t∈I che è definito su uno spazio di probabilità completo e ha µt1 ,...,tn come distribuzioni finito-
dimensionali.
Dimostrazione. Si procede in maniera analoga al caso delle variabili aleatorie reali (cfr. Osservazione
3.1.17). Sia (Ω, F , P ) = (RI , FµI , µ) lo spazio di probabilità completo definito nell’Osservazione 6.3.2. La
funzione identità
X : (RI , FµI ) −→ (RI , F I )
definita da X(w) = w per ogni w ∈ RI , è un processo stocastico poiché X −1 (F I ) = F I ⊆ FµI . Inoltre, X

ha µt1 ,...,tn come distribuzioni finito-dimensionali poiché, per ogni cilindro finito-dimensionale Ct1 ,...,tn (H)
come in (6.1.1), si ha
µX (Ct1 ,...,tn (H)) = µ(X ∈ Ct1 ,...,tn (H)) =
(poiché X è la funzione identità)
= µ(Ct1 ,...,tn (H)) =
(per la (6.3.4))
= µt1 ,...,tn (H).
Consideriamo ora un processo stocastico X sullo spazio (Ω, F , P ). Indichiamo con µX la legge di X e
con FµIX il µX -completamento di F I (cfr. Osservazione 6.3.2).
Definizione 6.3.4 (Versione canonica di un processo stocastico). [!] La versione (o realizzazione) cano-
nica di un processo X è il processo X, sullo spazio di probabilità (RI , FµIX , µX ), definito da X(w) = w per
ogni w ∈ RI .
Osservazione 6.3.5. Per il Corollario 6.3.3, X e la sua realizzazione canonica X sono uguali in legge. Inoltre
X è definito sullo spazio di probabilità completo (RI , FµIX , µX ) in cui lo spazio campionario è lo spazio
funzionale RI (e non un generico insieme Ω): in particolare, gli esiti sono le traiettorie del processo.
6.3. ESISTENZA 233
Corollario 6.3.6 (Esistenza di processi Gaussiani). [!] Siano
m : I −→ R, c : I × I −→ R

funzioni tali che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, la matrice C = c(ti , tj ) sia simmetrica
i,j=1,...,n
e semi-definita positiva. Allora esiste un processo Gaussiano, definito su uno spazio di probabilità completo
(Ω, F , P ), con funzione di media m e funzione di covarianza c.
In particolare, scelto I = R≥0 , esiste un processo Gaussiano con funzioni di media m ≡ 0 e covarianza
c(s, t) = t ∧ s ≡ min{s, t}.
Dimostrazione. La famiglia di distribuzioni NM,C , con M, C come in (6.1.4), è ben definita grazie all’ipotesi
sulla funzione di covarianza c. Inoltre essa soddisfa le proprietà di consistenza (6.3.2)-(6.3.3), come si
verifica applicando la (6.3.1) con NM,C al posto di µt1 ,...,tn e (Xt1 , . . . , Xtn ) ∼ NM,C . Allora la prima parte della
tesi segue dal Corollario 6.3.3.

Ora siano t1 , . . . , tn ∈ R≥0 : la matrice C = min{ti , tj } è ovviamente simmetrica ed è anche semi-
i,j=1,...,n
definita positiva poiché, per ogni η1 , . . . , ηn ∈ R, si ha
n
X n
X Z ∞
ηi ηj min{ti , tj } = ηi ηj 1[0,ti ] (s)1[0,tj ] (s)ds
i,j=1 i,j=1 0
n
 2
Z ∞ X 
= ηi 1[0,ti ] (s) ds ≥ 0.



0 i=1
Corollario 6.3.7 (Esistenza di successioni di v.a. indipendenti). [!] Sia (µn )n∈N una successione di di-
stribuzioni reali. Esiste una successione (Xn )n∈N di v.a. indipendenti definite su uno spazio di probabilità
completo (Ω, F , P ), tali che Xn ∼ µn per ogni n ∈ N.
Dimostrazione. Applichiamo il Corollario 6.3.3 con I = N. La famiglia di distribuzioni finito-dimensionali

definite da
µk1 ,...,kn := µk1 ⊗ · · · ⊗ µk1 , k1 , . . . , kn ∈ N,
verifica le proprietà di consistenza (6.3.2)-(6.3.3). Per il Corollario 6.3.3, esiste un processo (Xk )k∈N che ha
µk1 ,...,kn come distribuzioni finito-dimensionali. L’indipendenza segue dal Teorema 3.3.25 e dall’arbitrarietà
della scelta degli indici k1 , . . . , kn ∈ N.
Il Corollario 6.3.7 ammette la seguente versione leggermente più generale, la cui dimostrazione è lascia-
ta per esercizio. Il seguente risultato richiede una versione semplificata, rispetto al Corollario 6.3.3, della
proprietà di consistenza.
Corollario 6.3.8 (Esistenza di successioni di v.a. con distribuzione assegnata). [!] Sia data una succes-
sione (µn )n∈N dove µn è una distribuzione su Rn e vale
µn+1 (H × R) = µn (H), H ∈ Bn , n ∈ N.
Allora esiste una successione (Xn )n∈N di v.a. definite su uno spazio di probabilità completo (Ω, F , P ), tali
che (X1 , . . . , Xn ) ∼ µn per ogni n ∈ N.
6.4 Filtrazioni e martingale

In questa sezione consideriamo il caso particolare in cui I è un sottoinsieme di R, tipicamente
I = R≥0 oppure I = [0, 1] oppure I = N.
In questo caso è utile pensare a t come un parametro che rappresenta un istante di tempo.
Definizione 6.4.1 (Filtrazione). Siano I ⊆ R e (Ω, F , P ) uno spazio di probabilità. Una filtrazione (Ft )t∈I è
una famiglia crescente di sotto-σ -algebre di F , nel senso che vale
Fs ⊆ Ft ⊆ F , s, t ∈ I, s ≤ t.
In molte applicazioni le σ -algebre rappresentano insiemi di informazioni. Per quanto riguarda le

filtrazioni, l’idea è che
◦ la σ -algebra Ft rappresenta le informazioni disponibili all’istante t;
◦ la filtrazione (Ft )t∈I rappresenta il flusso di informazioni che aumenta col passare del tempo.
Abbiamo visto l’importanza del concetto di informazione nel calcolo delle probabilità: per esempio, la de-
finizione stessa di probabilità condizionata è sostanzialmente motivata dal problema di descrivere l’effetto
dell’informazione sulla probabilità degli eventi. Le filtrazioni costituiscono lo strumento matematico che
descrive in modo dinamico (in funzione del tempo) le informazioni disponibili e per questo motivo giocano
un ruolo fondamentale nella teoria dei processi stocastici. Con la seguente definizione si formalizza l’idea
che un processo stocastico sia osservabile in base alla informazioni di una certa filtrazione.
Definizione 6.4.2 (Processo adattato). Sia X = (Xt )t∈I un processo stocastico sullo spazio (Ω, F , P ). Si dice
che X è adattato alla filtrazione (Ft )t∈I se Xt ∈ mFt per ogni t ∈ I.
Definizione 6.4.3 (Filtrazione generata da un processo). Ad ogni processo stocastico X = (Xt )t∈I sullo
spazio (Ω, F , P ) è associata la filtrazione G X = (GtX )t∈I definita in modo naturale da
GtX := σ (Xs , s ≤ t) ≡ σ (Xs−1 (H), s ≤ t, H ∈ B), t ∈ I. (6.4.1)
Essa è chiamata filtrazione generata da X.

Osservazione 6.4.4. Abbiamo indicato con G X la filtrazione generata da X perché vogliamo riservare il
simbolo F X per un’altra filtrazione che definiremo più avanti nella Sezione 11.2.2 e chiameremo filtrazione
standard per X. La filtrazione generata da X è la “minima” filtrazione che contiene le informazioni sul
processo X al variare del tempo: X è adattato a (Ft )t∈I se e solo se GtX ⊆ Ft per ogni t ∈ I.
Osservazione 6.4.5. Se X è la versione canonica di X (cfr. Definizione 6.3.4) allora
GtX = σ (Cs (H) | s ∈ I, s ≤ t, H ∈ B), t ∈ I,
ossia la filtrazione generata da X è quella generata dai cilindri uno-dimensionali.

Introduciamo ora una fondamentale classe di processi stocastici.
Definizione 6.4.6 (Martingala). [!!!] Sia X = (Xt )t∈I , con I ⊆ R, un processo stocastico sullo spazio con
filtrazione (Ω, F , P , (Ft )t∈I ). Si dice che X è una martingala se:
i) X è un processo sommabile, nel senso che Xt ∈ L1 (Ω, P ) per ogni t ∈ I;
ii) vale
Xt = E [XT | Ft ] , t, T ∈ I, t ≤ T . (6.4.2)
6.4. FILTRAZIONI E MARTINGALE 235
Se I è finito o numerabile diciamo che X è una martingala discreta.
Il concetto di martingala è centrale nella teoria dei processi stocastici e in molte applicazioni. La (6.4.2),
detta proprietà di martingala, significa che il valore attuale (al tempo t) del processo è la miglior stima del
valore futuro (in un tempo T ≥ t) condizionata alle informazioni attualmente disponibili. In economia, per
esempio, la proprietà di martingala si traduce nel fatto che se X rappresenta il prezzo di un bene, allora
tale prezzo è equo nel senso che è la miglior stima del valore futuro del bene in base alle informazioni
disponibili al momento.
Sia X una martingala sullo spazio con filtrazione (Ω, F , P , Ft ). Come conseguenza immediata della
Definizione 6.4.6 e delle proprietà dell’attesa condizionata si ha:
i) X è adattato a (Ft )t∈I ;
ii) X è costante in media poiché, applicando il valore atteso in ambo i membri della (6.4.2) si ha7
E [Xt ] = E [XT ] , t, T ∈ I.
Osservazione 6.4.7. Il termine martingala si riferiva originariamente ad una serie di strategie utilizzate
dagli scommettitori francesi nel XVIII secolo, fra cui la strategia del raddoppio a cui avevamo accennato
nell’Esempio 4.2.4. L’interessante monografia [80] illustra la storia del concetto di martingala attraverso il
contributo di molti storici e matematici famosi.
Esempio 6.4.8. [!] La sequenza nel tempo delle vincite e perdite in un gioco d’azzardo equo può essere
rappresentato con una martingala discreta: a volte si vince e a volte si perde ma, se il gioco è equo, vincite
e perdite in media si bilanciano.
Più precisamente, sia (Zn )n∈N una successione di v.a. i.i.d. con Zn ∼ qδ1 + (1 − q)δ−1 e 0 < q < 1 fissato.
Consideriamo il processo stocastico
Xn := Z1 + · · · + Zn , n ∈ N.
Qui Zn rappresenta la vincita o perdita alla n-esima giocata, q è la probabilità di vincita e Xn è il bilancio
dopo n giocate. Consideriamo la filtrazione (GnZ )n∈N delle informazioni sugli esiti delle giocate, GnZ =
σ (Z1 , . . . , Zn ). Allora si ha
h i h i
E Xn+1 | GnZ = E Xn + Zn+1 | GnZ =
(poiché Xn ∈ mGnZ e Zn+1 è indipendente da GnZ )
= Xn + E [Zn+1 ] = Xn + 2q − 1.
Dunque (Xn ) è una martingala se q = 12 ossia se il gioco è equo. Se q > 21 , ossia se la probabilità di vincere
h i
nelle singole giocate è maggiore rispetto alla probabilità di perdere, allora Xn < E Xn+1 | GnZ (e si dice che
(Xn ) è una sub-martingala): in questo caso si ha anche E [Xn ] < E [Xn+1 ], ossia il processo è crescente in media.
Questo esempio mostra che la proprietà di martingala non è una proprietà delle traiettorie del processo ma
dipende dalla misura di probabilità e dalla filtrazione considerate.
Esempio 6.4.9. Siano X ∈ L1 (Ω, P ) e (Ft )t∈I una filtrazione su (Ω, F , P ). Una semplice applicazione della
proprietà della torre mostra che il processo definito da Xt = E [X | Ft ], t ∈ I, è una martingala, infatti si ha
E [XT | Ft ] = E [E [X | FT ] | Ft ] = E [X | Ft ] = Xt , t, T ∈ I, t ≤ T .
7 Ricordiamo che E [E [X | F ]] = E [X ] per definizione di attesa condizionata.
T t T
Osservazione 6.4.10. [!] Useremo spesso

h i in seguito la seguente identità valida per una martingala X di
quadrato sommabile, ossia tale che E Xt2 < ∞ per t ∈ I:
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs , s ≤ t. (6.4.3)
Basta osservare che

h i h i
E (Xt − Xs )2 | Fs = E Xt2 − 2Xt Xs + Xs2 | Fs
h i
= E Xt2 | Fs − 2Xs E [Xt | Fs ] + Xs2 =
(per la proprietà di martingala)

h i
= E Xt2 | Fs − Xs2
Definizione 6.4.11. Sia X = (Xt )t∈I un processo stocastico sullo spazio con filtrazione (Ω, F , P , Ft ). Si dice
che X è una sub-martingala se:
i) X è un processo sommabile e adattato a (Ft )t∈I ;
ii) vale
Xt ≤ E [XT | Ft ] , t, T ∈ I, t ≤ T .
Inoltre X è una super-martingala se −X è una sub-martingala.
Proposizione 6.4.12. [!] Se X è una martingala e ϕ : R −→ R è una funzione convessa e tale che ϕ(Xt ) ∈
L1 (Ω, P ) per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Se X è una sub-martingala e ϕ : R −→ R è una funzione convessa, crescente e tale che ϕ(Xt ) ∈ L1 (Ω, P )
per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Osservazione 6.4.13. Se X è una martingala allora |X| è una sub-martingala non-negativa. Tuttavia si faccia
attenzione che ciò non è necessariamente vero se X è una sub-martingala poiché x 7→ |x| non è crescente.
Inoltre, se X è una sub-martingala allora anche X + := X ∨ 0 = |X|+X
2 lo è.
Dimostrazione della Proposizione 6.4.12. La prima parte è un’immediata conseguenza della disuguaglianza
di Jensen. Analogamente, se X è una sub-martingala allora Xt ≤ E [XT | Ft ] per t ≤ T ed essendo ϕ crescente
si ha anche
ϕ(Xt ) ≤ ϕ (E [XT | Ft ]) ≤ E [ϕ(XT ) | Ft ]
dove per la seconda disuguaglianza abbiamo riapplicato Jensen.
In quest’ultima parte della sezione, consideriamo il caso particolare in cui I = N ∪ {0}. Sotto queste
ipotesi particolari diamo un risultato profondo, e valido anche in ambito molto più generale, sulla struttura
dei processi stocastici adattati: il Teorema di decomposizione di Doob. Prima introduciamo la seguente
Definizione 6.4.14 (Processo predicibile). Sia A = (An )n≥0 un processo stocastico discreto, definito sullo
spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Si dice che A è predicibile se:
i) A0 = 0;
ii) An ∈ mFn−1 per ogni n ∈ N.

6.5. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 237
Teorema 6.4.15 (Teorema di decomposizione di Doob). Sia X = (Xn )n≥0 un processo stocastico adattato e
sommabile sullo spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Esistono e sono unici q.c. una martingala M e un
processo predicibile A tali che
Xn = Mn + An , n ≥ 0. (6.4.4)
In particolare, se X è una martingala allora M ≡ X e A ≡ 0; se X è una sub-martingala allora il processo A
ha le traiettorie monotone crescenti q.c.
Dimostrazione. [Unicità] Se due processi M e A, con le proprietà dell’enunciato, esistono allora si ha
Xn+1 − Xn = Mn+1 − Mn + An+1 − An , n ≥ 0. (6.4.5)
Condizionando a Fn e sfruttando il fatto che X è adattato, M è una martingala e A è predicibile, si ha
E [Xn+1 | Fn ] − Xn = E [Mn+1 | Fn ] − Mn + An+1 − An = An+1 − An .
Di conseguenza, il processo A è univocamente determinato dalla formula ricorsiva


An+1 = An + E [Xn+1 | Fn ] − Xn , se n ∈ N,


(6.4.6)
A0 = 0.


Si noti che dalla (6.4.6) segue che se X è una sub-martingala allora il processo A ha le traiettorie monotone
crescenti q.c.
Inserendo la (6.4.6) nella (6.4.5) si trova anche

Mn+1 = Mn + Xn+1 − E [Xn+1 | Fn ] , se n ∈ N,


(6.4.7)
M0 = X0 .


[Esistenza] Basta provare che i processi M e A, definiti rispettivamente da (6.4.7) e (6.4.6), verificano le
proprietà dell’enunciato. Si tratta di una semplice verifica: per esempio, si prova facilmente per induzione
su n il fatto che A sia predicibile. Analogamente si prova che M è una martingala e vale la (6.4.4).
Esempio 6.4.16. [!] Sia X come nell’Esempio 6.4.8. Allora si calcolano facilmente i processi della decom-
posizione di Doob di X:
Mn = Xn − n(2q − 1), An = n(2q − 1).
1
Si noti che in questo caso il processo A è deterministico; inoltre X è una sub-martingala per q > 2 e in tal
caso (An )n≥0 è una successione monotona crescente.
6.5 Dimostrazione del Teorema di estensione di Kolmogorov

Lemma 6.5.1. La famiglia C dei cilindri finito-dimensionali è un semianello.
Dimostrazione. Ricordando la definizione (6.1.1) di cilindro finito-dimensionale

n
\
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ), (6.5.1)
i=1
e osservando che Ct (H) ∩ Ct (K) = Ct (H ∩ K) per ogni t ∈ I e H, K ∈ B, non è difficile provare che C è una
famiglia ∩-chiusa e ∅ ∈ C . Rimane da provare che la differenza di cilindri è unione finita e disgiunta di
cilindri: poiché C \ D = C ∩ D c , per C, D ∈ C , è sufficiente provare che il complementare di un cilindro è
unione disgiunta di cilindri.
Per un cilindro uno-dimensionale si ha
(Ct (H))c = Ct (H c ),
e quindi, per la (6.5.1),
n
c [ n
c [
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ) = Cti (Hic )
i=1 i=1
dove in generale l’unione non è disgiunta: tuttavia osserviamo che
Ct1 (H1 ) ∪ Ct2 (H2 ) = Ct1 ,t2 (H1 × H2 ) ⊎ Ct1 ,t2 (H1c × H2 ) ⊎ Ct1 ,t2 (H1 × H2c ),
e in generale
n
[ ]
Cti (Hi ) = Ct1 ,...,tn (K1 × · · · × Kn )
i=1
dove l’unione disgiunta è presa fra tutte le possibili combinazioni differenti di K1 × · · · × Kn dove Ki è Hi
oppure Hic , tranne il caso in cui Ki = Hic per ogni i = 1, . . . , n.
Definiamo µ su C come in (6.3.4), ossia
µ(Ct1 ,...,tn (H1 × · · · × Hn )) := µt1 ,...,tn (H1 × · · · × Hn ), t1 , . . . , tn ∈ I, H1 , · · · Hn ∈ B.
Se proviamo che µ è una pre-misura (ossia µ è additiva, σ -sub-additiva e tale che µ(∅) = 0) su C allora per
il Teorema 2.5.5 di Carathéodory µ si estende in modo unico ad una misura di probabilità su F I .
Chiaramente µ(∅) = 0 e non è difficile provare che µ è finitamente additiva. Per provare che µ è σ -
sub-additiva, consideriamo una successione (Cn )n∈N di cilindri disgiunti la cui unione è un cilindro C e
dimostriamo che8 X
µ(C) = µ(Cn ). (6.5.2)
n∈N
A tal fine poniamo

n
]
Dn = C \ Ck , n ∈ N.
k=1
Per il Lemma 6.5.1 Dn è unione finita e disgiunta di cilindri: pertanto µ(Dn ) è ben definito (per l’additività
di µ) e vale
n
X
µ(C) = µ(Ck ) + µ(Dn ).
k=1
8 La (6.5.2) implica la σ -sub-addivitità: se A ∈ C e (A )
n n∈N è una successione di elementi in C tale che
[
A⊆ An
n∈N
basta porre C1 = A ∩ A1 ∈ C e
n−1
[
Cn = (A ∩ An ) \ Ak
k=1
con Cn che, per il Lemma 6.5.1, è unione finita e disgiunta di cilindri per ogni n ≥ 2. Allora dalla (6.5.2) segue che
X
µ(A) ≤ µ (An ) .
n∈N
6.5. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 239
Allora basta provare che

lim µ(Dn ) = 0. (6.5.3)
n→∞
Chiaramente Dn ↘ ∅ per n → ∞. Dimostriamo la (6.5.3) per assurdo e, a meno di passare ad una sotto-
successione, supponiamo esista ε > 0 tale che µ(Dn ) ≥ ε per ogni n ∈ N: utilizzando un argomento di
compattezza, proviamo che in tal caso l’intersezione dei Dn non è vuota, da cui l’assurdo.
Sappiamo che Dn è un’unione finita e disgiunta di cilindri: poiché Dn ⊇ Dn+1 , eventualmente ripetendo9
gli elementi della successione, possiamo supporre
Nn
]
Dn = C
ek , ek = {x ∈ RI | (xt , . . . , xt ) ∈ Hk,1 × · · · × Hk,n }
C 1 n
k=1
per una certa successione (tn )n∈N in I e Hk,n ∈ B. Ora utilizziamo il seguente fatto di cui posticipiamo la
prova al termine della dimostrazione: è possibile costruire una successione (Kn )n∈N tale che:
◦ Kn ⊆ Rn è un sottoinsieme compatto di
Nn
[
Bn := (Hk,1 × · · · × Hk,n ); (6.5.4)
k=1
◦ Kn+1 ⊆ Kn × R;
◦ µt1 ,...,tn (Kn ) ≥ 2ε .
Dunque, concludiamo la prova di (6.5.3). Poiché Kn , ∅, per ogni n ∈ N esiste un vettore
(n) (n)
(y1 , . . . , yn ) ∈ Kn .
(n) (k )
Per compattezza, la successione (y1 )n∈N ammette una sotto-successione (y1 n )n∈N convergente a un pun-
(k ) (k )
to y1 ∈ K1 . Analogamente, la successione (y1 n , y2 n )n∈N ammette una sotto-successione convergente a
(y1 , y2 ) ∈ K2 . Ripetendo l’argomento, costruiamo una successione (yn )n∈N tale che (y1 , . . . , yn ) ∈ Kn per ogni
n ∈ N. Pertanto
{x ∈ RI | xtk = yk , k ∈ N} ⊆ Dn
per ogni n ∈ N e questo prova l’assurdo.
Infine, proviamo l’esistenza della successione (Kn )n∈N . Per ogni n ∈ N esiste10 un sottoinsieme compatto
en di Bn in (6.5.4) tale che µt ,...,t (Bn \ K ε
en ) ≤ n+1
K 1 n 2
. Posto
n
\
Kn := eh × Rn−h ),
(K (6.5.5)
h=1
si ha che Kn è un sottoinsieme compatto di Bn e Kn+1 ⊆ Kn × R. Ora osserviamo che

n
[
Bn \ Kn ⊆ eh × Rn−h )
Bn \ ( K
h=1
9 Definendo una nuova successione della forma
RI , . . . , RI , D1 , . . . , D1 , D2 , . . . , D2 , D3 . . .
in cui RI e gli elementi di (Dn )n∈N sono ripetuti un numero sufficiente di volte.
10 Basta combinare la proprietà di regolarità interna di µ
t1 ,...,tn (cfr. Proposizione 2.4.9) col fatto che, per la continuità dal basso, per
ogni ε > 0 esiste un compatto K tale che µt1 ,...,tn (Rn \ K) < ε: si osservi che quest’ultimo fatto altro non è che la proprietà di tightness
della distribuzione µt1 ,...,tn (cfr. Definizione 4.3.5).
n
[
⊆ eh ) × Rn−h
(Bh \ K
h=1
e di conseguenza
n
X
µt1 ,...,tn (Bn \ Kn ) ≤ eh ) × Rn−h
µt1 ,...,tn (Bh \ K
h=1
n
X
= µt1 ,...,th (Bh \ K
eh )
h=1
n
X ε ε
≤ h+1
≤ .
2 2
h=1
Allora si ha
ε
µt1 ,...,tn (Kn ) = µt1 ,...,tn (Bn ) − µt1 ,...,tn (Bn \ Kn ) ≥
,
2
poiché µt1 ,...,tn (Bn ) = µ(Dn ) ≥ ε per ipotesi. Questo conclude la dimostrazione. 2
Il Teorema di estensione di Kolmogorov si generalizza, con dimostrazione sostanzialmente identica, al
caso in cui le traiettorie siano a valori in uno spazio metrico (M, ϱ) separabile e completo11 . Ricordiamo la
notazione Bϱ per la σ -algebra di Borel su (M, ϱ); inoltre MI è la famiglia delle funzioni da I a valori in M
e FϱI è la σ -algebra generata dai cilindri finito-dimensionali
Ct1 ,...,tn (H) := {x ∈ MI | (xt1 , . . . , xtn ) ∈ H}
dove t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .
Teorema 6.5.2 (Teorema di estensione di Kolmogorov). [!!!] Siano I un insieme e (M, ϱ) uno spazio me-
trico separabile e completo. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una
distribuzione µt1 ,...,tn su Mn , e siano soddisfatte le seguenti proprietà di consistenza: per ogni famiglia finita
di indici t1 , . . . , tn ∈ I, per ogni H1 , . . . , Hn ∈ Bϱ e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha
µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ),

µt1 ,...,tn (H1 × · · · × Hn−1 × M) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ).

Allora esiste un’unica misura di probabilità µ su MI , FϱI che abbia µt1 ,...,tn come distribuzioni finito-
dimensionali, ossia tale che valga
µ(Ct1 ,...,tn (H)) = µt1 ,...,tn (H)
per ogni famiglia finita di indici t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .
11 La prima parte della dimostrazione, basata sul Teorema di Carathéodory, è identica. Nella seconda parte, e in particolare nella
costruzione della successione di compatti Kn in (6.5.5), si sfrutta la proprietà di tightness: è qui che gioca un ruolo cruciale il fatto
che, nell’ipotesi che (M, ϱ) sia separabile e completo, ogni distribuzione su Bϱ è tight (si veda, per esempio, il Teorema 1.4 in [19]). Il
Teorema di Kolmogorov non si estende al caso di un generico spazio misurabile: al riguardo si veda, per esempio, [52] p. 214.
6.6. RIASSUNTO DELLE NOTAZIONI 241
6.6 Riassunto delle notazioni

• RI = {x : I −→ R}: spazio delle traiettorie, I è l’insieme generico dei parametri, p.226
• Ct1 ,...,tn (H) := {x ∈ RI | xti ∈ Hi , i = 1, . . . , n}: cilindro finito-dimensionale con ti ∈ I e Hi ∈ B, p.226

• C : famiglia dei cilindri finito-dimensionali, p.226
• F I = σ (C ): σ -algebra generata dai cilindri finito-dimensionali, p.226
• FµI : completamento di F I rispetto alla misura di probabilità µ, p.232
• GtX = σ (Xs , s ≤ t): filtrazione generata dal processo X, p.234
6.7 Sintesi
Riassumiamo i risultati più rilevanti del capitolo e i concetti essenziali da trattenere ad una prima
lettura, a scapito delle questioni più tecniche o di importanza secondaria.
• Sezione 6.1: introduciamo le nozioni di base, a partire dalla definizione di processo stocastico con le sue
diverse, anche se equivalenti, formulazioni. Le distribuzioni finito-dimensionali di un processo giocano
lo stesso ruolo della legge di una variabile aleatoria.
• Sezione 6.2: confrontiamo le differenti nozioni di uguaglianza fra processi stocastici, introducendo le
definizioni di processi indistinguibili, modificazioni e uguali in legge.
• Sezione 6.3: per quanto riguarda l’esistenza, il risultato principale è il Teorema 6.3.1 di estensione di
Kolmogorov che afferma che è possibile costruire un processo stocastico con assegnate distribuzioni
finito-dimensionali; tale risultato è un corollario del Teorema 2.4.29 di Carathéodory: la dimostra-
zione, essendo un po’ tecnica, è posticipata alla Sezione 6.5 e può essere tranquillamente sorvolata ad
una prima lettura.
• Sezione 6.4: le martingale costituiscono una classe fondamentale di processi stocastici che insieme
ai processi di Markov saranno il principale oggetto di studio nel seguito. Le filtrazioni descrivono il
flusso crescente delle informazioni osservabili al variare dell’indice temporale.
Capitolo 7
Processi di Markov
We are too small and the universe

too large and too interrelated for
thoroughly deterministic thinking.
Don S. Lemons, [74]
In questo capitolo introduciamo una classe fondamentale di processi stocastici, caratterizzati da una
proprietà di “assenza di memoria” che li rende particolarmente maneggevoli e utili nelle applicazioni. Qui
assumiamo I = R≥0 come insieme degli indici, interpretando t ∈ I come un istante temporale.
7.1 Legge di transizione e processi di Feller

Definizione 7.1.1 (Legge di transizione). Una legge di transizione è una funzione
p = p(t, x; T , H), 0 ≤ t ≤ T , x ∈ RN , H ∈ BN ,
che soddisfa le seguenti condizioni:
i) per ogni 0 ≤ t ≤ T e x ∈ RN , p(t, x; T , ·) è una distribuzione e p(t, x; t, ·) = δx ;
ii) per ogni 0 ≤ t ≤ T e H ∈ BN , p(t, ·; T , H) ∈ mBN .
Sia X = (Xt )t≥0 un processo stocastico sullo spazio (Ω, F , P ) a valori in RN . Diciamo che X ha legge di
transizione p se:
i) p è una legge di transizione;
ii) vale1
p(t, Xt ; T , H) = P (XT ∈ H | Xt ), 0 ≤ t ≤ T , H ∈ BN .
Osservazione 7.1.2. [!] Come diretta conseguenza delle proprietà i) e ii) della Definizione 7.1.1, se X ha
legge di transizione p allora p(t, Xt ; T , ·) è una versione regolare della legge di XT condizionata a Xt (cfr.
Definizione 5.3.1). Allora per il Teorema 5.3.8 si ha
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Xt ] , ϕ ∈ bBN . (7.1.1)
RN
1 Ricordiamo la convenzione secondo cui indichiamo con P (X ∈ H | X ) l’usuale attesa condizionata E [1 (X ) | X ], come
T t H T t
nell’Osservazione 5.3.5.
243
244 CAPITOLO 7. PROCESSI DI MARKOV
Analogamente p(t, x; T , ·) è una versione regolare della funzione distribuzione di XT condizionata a Xt (cfr.
Teorema 5.3.16) e quindi per il Teorema 5.3.19 si ha
Z
p(t, x; T , dy)ϕ(y) = E [ϕ (XT ) | Xt = x] . (7.1.2)
RN
Notiamo che la funzione Z

u(x) := p(t, x; T , dy)ϕ(y), x ∈ RN ,
RN
è BN -misurabile e limitata: infatti, per la ii) della Definizione 7.1.1, u ∈ bBN se ϕ = 1H e per approssima-
zione, grazie al Lemma 3.2.3 e al Teorema di Beppo-Levi, lo è anche per ogni ϕ ∈ bBN . In accordo con la
notazione (5.2.10), la formula (7.1.2) indica che u è una versione della funzione attesa di ϕ (XT ) condizionata
a Xt .
Osservazione 7.1.3. La Definizione 7.1.1 si estende in modo ovvio al caso in cui, al posto di (RN , BN ), si
consideri un generico spazio metrico (M, ϱ) munito della σ -algebra di Borel Bϱ (cfr. Definizione 2.4.4).
Esempio 7.1.4. [!] Consideriamo il caso “banale” del processo deterministico Xt = γ(t) con γ : R≥0 −→ RN
che si interpreta come una curva parametrizzata in RN . Si ha
E [ϕ(XT ) | Xt ] = ϕ(γ(T )) = ϕ(γ(t) + γ(T ) − γ(t))
e quindi una versione regolare della funzione attesa di ϕ(XT ) condizionata a Xt è data da
Z
E [ϕ(XT ) | Xt = x] = ϕ(x + γ(T ) − γ(t)) = δx+γ(T )−γ(t) (dy)ϕ(y).
R
In altri termini,
p(t, x; T , ·) = δx+γ(T )−γ(t)
è una legge di transizione di X: questo risultato è un caso molto particolare della Proposizione 7.3.2 che
proveremo in seguito. Si noti che la legge non è unica: per esempio, se per ogni 0 ≤ t ≤ T poniamo

δx+γ(T )−γ(t) se x = γ(t),


p(t, x; T , ·) = 
e
δx
 se x , γ(t),
allora anche e
p è una legge di transizione per X.
Osservazione 7.1.5 (Legge di transizione omogenea nel tempo). Si dice che una legge di transizione p è
omogenea nel tempo se
p(t, x; T , H) = p(0, x; T − t, H), 0 ≤ t ≤ T , x ∈ R, H ∈ B.
Se X ha legge di transizione p omogenea nel tempo allora
Z
E [ϕ(XT ) | Xt = x] = p(t, x; T , dy)ϕ(y)
R
Z
= p(0, x; T − t, dy)ϕ(y) = E [ϕ(XT −t ) | X0 = x] . (7.1.3)
R
La (7.1.3) significa che la funzione attesa di ϕ(XT ) condizionata a Xt è uguale alla funzione attesa condizio-
nata del processo traslato temporalmente al tempo iniziale2 .
2 Se, per semplicità, indichiamo
Ex [Y ] = E [Y | X0 = x] ,
la (7.1.3) si scrive nella forma più compatta
E [ϕ (XT ) | Xt ] = EXt [ϕ (XT −t )] . (7.1.4)
Per chiarezza: il membro a destra della (7.1.4) è la funzione attesa di ϕ (XT −t ) condizionata a X0 , calcolata in Xt .
7.1. LEGGE DI TRANSIZIONE E PROCESSI DI FELLER 245
Esempio 7.1.6 (Legge di transizione di Poisson). [!] Ricordiamo che Poissonx,λ indica la distribuzione
di Poisson di parametro λ > 0 e centrata in x ∈ R, definita in (2.4.4). La legge di transizione di Poisson di
parametro λ > 0, è definita da
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0
Le proprietà i) e ii) della Definizione 7.1.1 sono ovvie. La legge di transizione di Poisson è omogenea nel
tempo e invariante per traslazioni nel senso che vale
p(t, x; T , H) = p(0, 0; T − t, H − x), 0 ≤ t ≤ T , x ∈ R, H ∈ B.
Definizione 7.1.7 (Densità di transizione). Una legge di transizione p è assolutamente continua se, per
ogni 0 ≤ t < T e x ∈ RN , esiste una densità Γ = Γ (t, x; T , ·) per cui vale
Z
p(t, x; T , H) = Γ (t, x; T , y)dy, H ∈ BN .
H
Diciamo che Γ è una densità di transizione di p (o di X, nel caso in cui p sia la legge di transizione di un
processo X).
Osservazione 7.1.8. Una densità di transizione Γ = Γ (t, x; T , y) di un processo X è una funzione di quattro
variabili: la prima coppia (t, x) rappresenta il tempo e punto di partenza di X; la seconda coppia (T , y)
rappresenta il tempo e la posizione aleatoria d’arrivo di X. Per ogni ϕ ∈ bBN si ha
Z
Γ (t, Xt ; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt ] ,
RN
Z
Γ (t, x; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt = x] , x ∈ RN .
RN
Esempio 7.1.9 (Legge di transizione Gaussiana). [!] La legge di transizione Gaussiana è definita da
p(t, x; T , ·) = Nx,T −t per ogni 0 ≤ t ≤ T e x ∈ R. È una legge di transizione assolutamente continua poiché
Z
p(t, x; T , H) := Nx,T −t (H) = Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H
dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
è la densità di transizione Gaussiana. È chiaro che p verifica le proprietà i) e ii) della Definizione 7.1.1.
Introduciamo ora una nozione di “dipendenza continua” della legge di transizione rispetto al dato
iniziale (t, x).
Definizione 7.1.10 (Proprietà di Feller). Une legge di transizione p gode della proprietà di Feller se per
ogni h > 0 e ϕ ∈ bC(RN ) la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
RN
è continua. Un processo di Feller è un processo con legge di transizione che verifica la proprietà di Feller.
La proprietà di Feller equivale alla continuità nella convergenza debole della legge di transizione p =
p(t, x; t+h, ·) rispetto alla coppia (t, x) del tempo e punto iniziale: più precisamente, ricordando la definizione
di convergenza debole di distribuzioni (cfr. Osservazione 4.1.1), il fatto che X sia un processo di Feller con
legge di transizione p significa che
d
p(tn , xn ; tn + h, ·) −−−−→ p(t, x; t + h, ·)
per ogni successione (tn , xn ) che converge a (t, x) per n → +∞.

Nel caso p sia omogenea nel tempo, la proprietà di Feller si riduce alla continuità rispetto a x: precisa-
mente, p gode della proprietà di Feller se per ogni h > 0 e ϕ ∈ bC(RN ) la funzione
Z
x 7−→ p(0, x; h, dy)ϕ(y)
RN
è continua. La proprietà di Feller gioca un ruolo importante nello studio dei processi di Markov (cfr.
Sezione 12) e delle proprietà di regolarità delle filtrazioni in tempo continuo (cfr. Sezioni 11.2.1).
Esempio 7.1.11. [!] Le leggi di transizione di Poisson e Gaussiana godono della proprietà di Feller (lo
vedremo negli Esempi 7.4.5 e 7.4.6): pertanto diremo che i relativi processi stocastici che introdurremo in
seguito, rispettivamente il processo di Poisson e il moto Browniano, sono processi di Feller.
Concludiamo la sezione con un risultato di carattere tecnico. Ricordiamo la Definizione 6.3.4 di versione
canonica di un processo stocastico.
Proposizione 7.1.12. Se p è una legge di transizione per il processo X, definito sullo spazio (Ω, F , P ), allora
lo è anche per la sua versione canonica X.
Dimostrazione. Ricordiamo che X è definito sullo spazio di probabilità (RI , FµIX , µX ), dove FµIX indica il
µX -completamento di F I , e X(w) = w per ogni w ∈ RI . Dati 0 ≤ t ≤ T e H ∈ B, poniamo Z := p(t, Xt , T , H):
dobbiamo verificare che
Z = E µX [1H (XT ) | Xt ] (7.1.5)
dove E µX [·] indica il valore atteso nella misura di probabilità µX . Chiaramente Z ∈ mσ (Xt ). Inoltre, se
W ∈ bσ (Xt ) allora per il teorema di Doob W = ϕ(Xt ) con ϕ ∈ bB e si ha
E µX [ZW ] = E µX [p(t, Xt , T , H)ϕ(Xt )] =
(poiché X e X sono uguali in legge)
= E P [p(t, Xt , T , H)ϕ(Xt )] =
(poiché p è legge di transizione di X)
= E P [1H (XT )ϕ(Xt )] =
(ancora per l’uguaglianza in legge di X e X)
= E µX [1H (XT )ϕ(Xt )] .
Questo prova la (7.1.5).

7.2. PROPRIETÀ DI MARKOV 247
7.2 Proprietà di Markov

Per semplicità consideriamo il caso scalare, N = 1.
Definizione 7.2.1 (Processo di Markov). Sia X = (Xt )t≥0 un processo stocastico adattato sullo spazio con
filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che X è un processo di Markov se ha una legge di transizione p tale
che3
p(t, Xt ; T , H) = P (XT ∈ H | Ft ), 0 ≤ t ≤ T , H ∈ B. (7.2.1)
La (7.2.1) è una proprietà di assenza di memoria: intuitivamente, esprime il fatto che la conoscenza di
tutta la traiettoria di X fino al tempo t oppure del solo valore Xt forniscono le stesse informazioni riguardo
alla distribuzione del valore futuro XT .
Proposizione 7.2.2 (Proprietà di Markov). Sia X = (Xt )t≥0 un processo stocastico adattato sullo spazio con
filtrazione (Ω, F , P , (Ft )t≥0 ), con legge di transizione p. Allora X è un processo di Markov se e solo se
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Ft ] , 0 ≤ t ≤ T , ϕ ∈ bB. (7.2.2)
R
Dimostrazione. Se X è un processo di Markov allora p(t, Xt ; T , ·) è una versione regolare della legge di XT
condizionata a Ft e la (7.2.2) segue dal Teorema 5.3.8, Il viceversa è ovvio, con la scelta ϕ = 1H , H ∈ B.
Osservazione 7.2.3. Combinando la (7.1.1) con la (7.2.2), a volte si usa scrivere4
E [ϕ(XT ) | Xt ] = E [ϕ(XT ) | Ft ] . (7.2.3)
La proprietà di Markov si può generalizzare nel modo seguente. Osserviamo che se t ≤ t1 < t2 e ϕ1 , ϕ2 ∈
bB allora, per la proprietà della torre, si ha
h i h h i i
E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Xt = E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Xt
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Xt =
(per la proprietà di Markov)

h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 | Xt =
h i
(per la proprietà di Markov applicata all’attesa condizionata esterna, essendo ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 fun-
zione limitata e Borel-misurabile di Xt1 per il Teorema di Doob)
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 | Ft =
(per la proprietà di Markov applicata all’attesa condizionata interna)

h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Ft
h h i i
= E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Ft
3 Qui, come nell’Osservazione 5.3.5, P (X ∈ · | F ) indica una versione regolare della distribuzione di X condizionata a F . La
T t T t
(7.2.1) equivale a p(t, Xt ; T , H) = E [1H (XT ) | Ft ] ossia p(t, Xt ; T , H) è una versione dell’attesa di 1H (XT ) condizionata a Ft .
4 La (7.2.3) non è un’uguaglianza ma una notazione che deve essere interpretata nel senso della Convenzione 5.2.5: precisamente,
la (7.2.3) significa che se Z = E [ϕ(XT ) | Xt ] allora Z = E [ϕ(XT ) | Ft ]. Tuttavia può esistere una versione Z ′ di E [ϕ(XT ) | Ft ] che non
è σ (Xt )-misurabile5 e quindi non è attesa di ϕ(XT ) condizionata a Xt . D’altra parte, se vale la (7.2.3) e Z ′ = E [ϕ(XT ) | Ft ] allora
Z ′ = f (Xt ) q.c. per una certa f ∈ mB: infatti, presa una versione Z di E [ϕ(XT ) | Xt ], per il Teorema di Doob, Z = f (Xt ) e per la (7.2.3)
(e l’unicità dell’attesa condizionata) Z = Z ′ q.c. Questi sottigliezze sono rilevanti quando si deve verificare in concreto la validità della
proprietà di Markov: l’Esempio 16.1.10 è illuminante in questo senso.
h i
= E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft .
Dunque vale
E [Y | Xt ] = E [Y | Ft ] (7.2.4)
nel senso della Convenzione 5.2.5, per Y = ϕ1 (Xt1 )ϕ2 (Xt2 ) con t ≤ t1 < t2 e ϕ1 , ϕ2 ∈ bB. Per induzione, non
è difficile provare che la (7.2.4) vale anche se
n
Y
Y= ϕk (Xtk ) (7.2.5)
k=1
per ogni t ≤ t1 < · · · < tn e ϕ1 , . . . , ϕn ∈ bB. Infine, per il secondo teorema di Dynkin6 (Teorema A.1.8), la
(7.2.4) è valida per ogni v.a. limitata e misurabile rispetto alla σ -algebra generata dalle v.a. del tipo Xs con
s ≥ t, che in analogia con la Definizione 6.4.3 indichiamo nel modo seguente
X
Gt,∞ := σ (Xs , s ≥ t). (7.2.6)
Gt,∞
X
rappresenta le informazioni future su X a partire dal tempo t. In definitiva abbiamo provato la seguente
estensione della proprietà di Markov.
Teorema 7.2.4 (Proprietà di Markov estesa). [!] Se X è un processo di Markov su (Ω, F , P , (Ft )t≥0 ) si ha
X
E [Y | Xt ] = E [Y | Ft ] , Y ∈ bGt,∞ , (7.2.7)
nel senso della Convenzione 5.2.5.
Il seguente corollario esprime l’essenza della proprietà di Markov: il passato (ossia Ft ) e il futuro (ossia
Gt,∞
X
) sono indipendenti condizionatamente al presente (ossia σ (Xt ))7 .
Corollario 7.2.5. [!] Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Vale
X
E [Y | Xt ] E [Z | Xt ] = E [Y Z | Xt ] , Y ∈ bGt,∞ , Z ∈ bFt . (7.2.8)
Dimostrazione. Verifichiamo che E [Y | Xt ] E [Z | Xt ] è una versione dell’attesa di Y Z condizionata a Xt : la
proprietà di misurabilità E [Y | Xt ] E [Z | Xt ] ∈ mσ (Xt ) è ovvia. Data W ∈ bσ (Xt ), si ha
E [W E [Y | Xt ] E [Z | Xt ]] =
(poiché W E [Y | Xt ] ∈ bσ (Xt ) e per la proprietà ii) della definizione di attesa condizionata E [Z | Xt ])
= E [W E [Y | Xt ] Z] =
(per la proprietà di Markov estesa (7.2.7))
= E [W E [Y | Ft ] Z]
= E [E [W Y Z | Ft ]] = E [W Y Z]
che prova la seconda proprietà della definizione di attesa condizionata.
n
6 Usiamo il Teorema A.1.8 di Dynkin nel modo seguente: sia A la famiglia dei cilindri della forma C = T (X ∈ H ) al variare
tk k
k=1
di t ≤ t1 ≤ · · · ≤ tn e H1 , . . . , Hn ∈ B. Allora A è una famiglia ∩-chiusa di eventi. Sia H la famiglia delle v.a. limitate per cui vale la
(7.2.4): per il teorema di Beppo-Levi per l’attesa condizionata, H è una famiglia monotona; inoltre, scegliendo ϕk = 1Hk in (7.2.5), si
ha che H contiene le funzioni indicatrici di elementi di A . Allora il Teorema A.1.8 assicura che H contiene anche le v.a. limitate e
σ (A )-misurabili.
7 Più precisamente: se esiste una versione regolare della probabilità condizionata P (· | X ) (ciò è garantito se Ω è uno spazio polacco)
t
X , e Z = 1 , B ∈ F , diventa
allora la (7.2.8) con Y = 1A , A ∈ Gt,∞ B t
P (A | Xt )P (B | Xt ) = P (A ∩ B | Xt ).
7.3. PROCESSI A INCREMENTI INDIPENDENTI E MARTINGALE 249
Infine introduciamo la versione canonica di un processo di Markov. L’insistenza nel considerare la

versione canonica (cfr. Definizione 6.3.4) di un processo è giustificata dall’importanza della proprietà di
completezza dello spazio e dal fatto di poter identificare gli esiti con le traiettorie del processo: ciò sarà
ancor più chiaro quando, nel Capitolo12, esprimeremo la proprietà di Markov utilizzando un opportuno
operatore di traslazione temporale.
Proposizione 7.2.6 (Versione canonica di un processo di Markov). Sia X un processo di Markov X sullo
spazio (Ω, F , P , (Ft )t≥0 ) con legge di transizione p e sia X la versione canonica di X. Allora X è un processo
di Markov con legge di transizione p su (RI , FµIX , µX , G X ) dove, al solito, G X indica la filtrazione generata
da X (cfr. (6.4.1) e Osservazione 6.4.5).
Dimostrazione. Per la Proposizione 7.1.12 p è anche legge di transizione di X, dunque occorre provare che,
per ogni 0 ≤ t ≤ T e H ∈ B, posto Z := p(t, Xt , T , H) si ha
h i
Z = E µX 1H (XT ) | GtX
dove E µX [·] indica il valore atteso nella misura di probabilità µX . Ovviamente Z ∈ GtX e quindi rimane da
verificare che
E µX [ZW ] = E µX [1H (XT )W ] , W ∈ bGtX .
In realtà, grazie al secondo teorema di Dynkin8 è sufficiente considerare W della forma
W = ϕ(Xt1 , . . . , Xtn )
con 0 ≤ t1 < · · · < tn ≤ t e ϕ ∈ bBn . A questo punto basta procedere come nella dimostrazione della
Proposizione 7.1.12:
h i
E µX [ZW ] = E µX p(t, Xt , T , H)ϕ(Xt1 , . . . , Xtn ) =
(poiché X e X sono uguali in legge)

h i
= E P p(t, Xt , T , H)ϕ(Xt1 , . . . , Xtn ) =
(per la proprietà di Markov di X)

h i
= E P 1H (XT )ϕ(Xt1 , . . . , Xtn ) =
(ancora per l’uguaglianza in legge di X e X)

h i
= E µX 1H (XT )ϕ(Xt1 , . . . , Xtn ) .
7.3 Processi a incrementi indipendenti e martingale

Consideriamo un processo X = (Xt )t≥0 sullo spazio (Ω, F , P , (Ft )t≥0 ).
Definizione 7.3.1 (Processo a incrementi indipendenti). Diciamo che X è un processo a incrementi indi-
pendenti se:
i) X è adattato a (Ft )t≥0 ;
ii) l’incremento XT − Xt è indipendente da Ft per ogni 0 ≤ t < T .
8 Usiamo il Teorema A.1.8 di Dynkin in modo analogo a quanto fatto nella dimostrazione del Teorema 7.2.4.
Proposizione 7.3.2. [!] Sia X = (Xt )t≥0 un processo a incrementi indipendenti allora X è un processo di
Markov con legge di transizione p = p(t, x; T , ·) uguale alla legge di
XTt,x := XT − Xt + x, 0 ≤ t ≤ T , x ∈ R.
Dimostrazione. Proviamo che p è una legge di transizione per X. Chiaramente p(t, x; T , ·) è una distribuzio-
ne. Inoltre, se µXT −Xt indica la legge di XT − Xt , allora per il Teorema di Fubini la funzione
x 7−→ p(t, x; T , H) = µXT −Xt (H − x)
è B-misurabile. Infine, fissato H ∈ B, p(t, Xt ; T , H) = P (XT ∈ H | Xt ) come conseguenza del fatto che per
ogni funzione ϕ ∈ bB si ha
E [ϕ(XT ) | Xt ] = E [ϕ(XT − Xt + Xt ) | Xt ] =
(per il Lemma 5.2.11 di freezing, poiché XT − Xt è indipendente da Xt e ovviamente Xt è σ (Xt )-misurabile)
Z
t,x
h i
= E ϕ(XT ) |x=Xt = p(t, Xt ; T , dy)ϕ(y).
R
Allo stesso modo si prova la proprietà di Markov (7.2.2) (e quindi la (7.2.1)), condizionando a Ft invece
che a Xt .
È interessante confrontare le definizioni di processo a incrementi indipendenti e di martingala. Co-
minciamo con l’osservare che se X è un processo a incrementi indipendenti allora, per ogni n ∈ N e
0 ≤ t0 < t1 < · · · < tn , gli incrementi Xtk − Xtk−1 sono indipendenti; in particolare, se X è di quadrato
sommabile, ossia Xt ∈ L2 (Ω, P ), allora gli incrementi sono scorrelati:
cov(Xtk − Xtk−1 , Xth − Xth−1 ) = 0, 1 ≤ k < h ≤ n.
Anche una martingala ha gli incrementi scorrelati (ma non necessariamente indipendenti).
Proposizione 7.3.3. Sia X una martingala di quadrato sommabile. Allora X ha incrementi scorrelati.
Dimostrazione. Siano t0 ≤ t1 ≤ t2 ≤ t3 . Si ha
h i
cov(Xt1 − Xt0 , Xt3 − Xt2 ) = E (Xt1 − Xt0 )(Xt3 − Xt2 )
h h ii
= E E (Xt1 − Xt0 )(Xt3 − Xt2 ) | Ft2
h h ii
= E (Xt1 − Xt0 )E Xt3 − Xt2 | Ft2 = 0.
Ogni martingala è sommabile e costante in media. Un processo a incrementi indipendenti non è neces-
sariamente sommabile, né costante in media, e quindi non è necessariamente una martingala. Tuttavia si
ha la seguente
Proposizione 7.3.4. Sia X un processo a incrementi indipendenti e sommabile. Allora il processo “com-
pensato” definito da X
et := Xt − E [Xt ] è una martingala.
Dimostrazione. Basta osservare che per ogni t ≤ T si ha
h i h i
E X eT | Ft = E X et | Ft + X
eT − X et =
(poiché anche X
e ha gli incrementi indipendenti)
h i
=E X et + X
eT − X et = X
et
poiché X
e ha media nulla.
Osservazione 7.3.5. La Proposizione 7.3.4 fornisce la decomposizione di Doob del processo X che si scrive
come somma X = X e + A: in questo caso il processo di drift At = E [Xt ] è deterministico.
7.4. LEGGI FINITO-DIMENSIONALI ED EQUAZIONE DI CHAPMAN-KOLMOGOROV 251
7.4 Leggi finito-dimensionali ed equazione di Chapman-Kolmogorov

Sia X un processo di Markov con distribuzione iniziale µ (ossia X0 ∼ µ) e legge di transizione p. Il
risultato seguente mostra che, a partire dalla conoscenza di µ e p, è possibile determinare le distribuzioni
finito-dimensionali (e quindi la legge) di X.
Proposizione 7.4.1 (Distribuzioni finito-dimensionali). [!] Sia X = (Xt )t≥0 un processo di Markov con
legge di transizione p e tale che X0 ∼ µ. Per ogni t0 , t1 , . . . , tn ∈ R con 0 = t0 < t1 < t2 < · · · < tn , e H ∈ Bn+1 si
ha
Z n
Y
P ((Xt0 , Xt1 , . . . , Xtn ) ∈ H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ). (7.4.1)
H i=1
Dimostrazione. Per il Corollario A.1.5 è sufficiente provare la tesi con H = H0 × · · · × Hn con Hi ∈ B.

Procediamo per induzione: nel caso n = 1 si ha
h i
P ((Xt0 , Xt1 ) ∈ H0 × H1 ) = E 1H0 (Xt0 )1H1 (Xt1 )
h h ii
= E 1H0 (Xt0 )E 1H1 (Xt1 ) | Xt0
" Z #
= E 1H0 (Xt0 ) p(t0 , Xt0 ; t1 , dx1 ) =
H1

Z
= µ(dx0 )p(t0 , x0 ; t1 , dx1 ).
H0 ×H1
Supponiamo ora vera la (7.4.1) per n e proviamo il caso n + 1: per H ∈ Bn+1 e K ∈ B si ha

h h ii
P ((Xt0 , . . . , Xtn+1 ) ∈ H × K) = E 1H (Xt0 , . . . , Xtn )E 1K (Xtn+1 ) | Ftn =
(per la proprietà di Markov)

h h ii
= E 1H (Xt0 , . . . , Xtn )E 1K (Xtn+1 ) | Xtn
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; tn+1 , dxn+1 ) =
K
(per ipotesi induttiva e per il Teorema di Fubini)

Z n+1
Y
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ).
H×K i=1
Osservazione 7.4.2. Nel caso particolare µ = δx0 , con x0 ∈ R, la (7.4.1) diventa

n
Z Y
P ((Xt1 , . . . , Xtn ) ∈ H) = p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn . (7.4.2)
H i=1
Il seguente notevole risultato fornisce una condizione necessaria affinché una legge di transizione sia la
legge di transizione di un processo di Markov.
Proposizione 7.4.3 (Equazione di Chapman-Kolmogorov). [!!] Sia X un processo di Markov con legge di
transizione p. Per ogni 0 ≤ t1 < t2 < t3 e H ∈ B, si ha
Z
p(t1 , Xt1 ; t3 , H) = p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H). (7.4.3)
R
Dimostrazione. Intuitivamente, l’equazione di Chapman-Kolmogorov esprime il fatto che la probabilità di

muoversi dalla posizione x1 al tempo t1 ad una posizione in H al tempo t3 equivale alla probabilità di
muoversi ad una posizione x2 in un tempo intermedio t2 e poi da x2 ad H, integrando fra tutti i valori
possibili di x2 . Si ha
h i
p(t1 , Xt1 ; t3 , H) = E 1H (Xt3 ) | Xt1 =
(per la proprietà della torre)

h h i i
= E E 1H (Xt3 ) | Ft2 | Xt1 =
(per la proprietà di Markov (7.2.1))

h i
= E p(t2 , Xt2 ; t3 , H) | Xt1 =
(per la (7.1.1))
Z
= p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H).
R
Mostriamo ora che la Chapman-Kolmogorov è in realtà una condizione necessaria e sufficiente, nel senso
che è sempre possibile costruire un processo di Markov a partire da una legge iniziale e da una legge di
transizione p che verifichi la (7.4.3).
Teorema 7.4.4. [!] Sia µ una distribuzione su R e sia p = p(t, x; T , H) una legge di transizione9 che verifica
l’equazione di Chapman-Kolmogorov
Z
p(t1 , x; t3 , H) = p(t1 , x; t2 , dy)p(t2 , y; t3 , H), (7.4.4)
R
per ogni 0 ≤ t1 < t2 < t3 , x ∈ R e H ∈ B. Allora esiste un processo di Markov X = (Xt )t≥0 con legge di
transizione p e tale che X0 ∼ µ.
Dimostrazione. Consideriamo la famiglia di distribuzioni finito-dimensionali definita mediante la (7.4.1):
precisamente, se 0 = t0 < t1 < t2 < · · · < tn poniamo
Z n
Y
µt0 ,...,tn (H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn+1 ,
H i=1
e nel caso in cui t0 , . . . , tn non siano ordinati in modo crescente, definiamo µt0 ,...,tn tramite la (6.3.2) riordi-
nando i tempi. In questo modo la proprietà di consistenza (6.3.2) è automaticamente soddisfatta per costru-
zione. D’altra parte, l’equazione di Chapman-Kolmogorov garantisce la validità della seconda proprietà di
consistenza (6.3.3) poiché, dopo aver ordinato in modo crescente i tempi, si ha
µt0 ,...,tk−1 ,tk ,tk+1 ,...,tn (H0 × · · · × Hk−1 × R × Hk+1 × · · · × Hn ) = µt0 ,...,tk−1 ,tk+1 ,...,tn (H0 × · · · × Hk−1 × Hk+1 × · · · × Hn ).
9 Ossia p verifica le proprietà i) e ii) della Definizione 7.1.1.
7.4. LEGGI FINITO-DIMENSIONALI ED EQUAZIONE DI CHAPMAN-KOLMOGOROV 253
Essendo soddisfatte le ipotesi del Teorema di estensione di Kolmogorov, consideriamo il processo stoca-
stico X = (Xt )t≥0 costruito in maniera canonica come nel Corollario 6.3.3: X ha le distribuzioni finito-
dimensionali in (7.4.1) ed è definito sullo spazio con filtrazione (Ω, F , P , (GtX )t≥0 ) con Ω = R[0,+∞) : ricor-
diamo che, per l’Osservazione 6.4.4, la filtrazione (GtX )t≥0 è quella generata dai cilindri finito-dimensionali.
Rimane da provare che X è un processo di Markov con distribuzione di transizione p. Fissati 0 ≤ t < T e
ϕ ∈ bB, proviamo che Z h i
p(t, Xt ; T , dy)ϕ(y) = E ϕ(XT ) | GtX ,
R
verificando direttamente le proprietà dell’attesa condizionata. Posto
Z
Z= p(t, Xt ; T , dy)ϕ(y)
R
chiaramente Z ∈ mGtX . Per concludere, in base all’Osservazione 5.2.2, è sufficiente dimostrare che
E [1C ϕ(XT )] = E [1C Z]
dove C è un cilindro finito-dimensionale in GtX della forma in (6.1.1): in particolare, non è restrittivo
assumere C = Ct0 ,t1 ,...,tn (H) con H ∈ Bn+1 e tn = t. Questo ci permette di utilizzare le distribuzioni finito-
dimensionali in (7.4.1): infatti si ha
h i h i
E 1Ct ,...,tn (H) ϕ(XT ) = E 1H (Xt0 , Xt1 , . . . , Xtn )ϕ(XT )
0
Z n
Y Z
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ) p(tn , xn ; T , dy)ϕ(y)
H i=1 R
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; T , dy)ϕ(y)
R
h i
= E 1Ct ,...,tn (H) Z .
0

Esempio 7.4.5 (Legge di transizione di Poisson). Riprendiamo la legge di transizione di Poisson di para-
metro λ > 0 dell’Esempio 7.1.6:
+∞
X (λ(T − t))n
n!
n=0
L’equazione di Chapman-Kolmogorov si verifica con un conto simile10 a quello fatto nell’Esempio 3.6.5
10 Per 0 ≤ t < s < T , si ha
+∞
(λ(s − t))n
Z X
p(t, x; s, dy)p(s, y; T , H) = e−λ(s−t) p(s, x + n; T , H)
R n!
n=0
+∞
X (λ(s − t))n (λ(T − s))m
= e−λ(T −t) δ x+n+m (H) =
n! m!
n,m=0
(col cambio di indici i = n + m e j = n)
+∞ X
i
X (s − t)j (T − s)i−j
= e−λ(T −t) λi δ (H)
j! (i − j)! x+i
i=0 j=0
+∞ i i !
X λ X i
= e−λ(T −t) δx+i (H) (s − t)j (T − s)i−j
i! j
i=0 j=0
= p(t, x; T , H).
sulla somma di v.a. di Poisson indipendenti. Il processo di Markov associato a p è detto processo di Poisson
e sarà studiato nel Capitolo 8. Per ogni ϕ ∈ bC e t > 0 la funzione
+∞
(λt)n
Z X
x 7−→ Poissonx,λt (dy)ϕ(y) = e−λt ϕ(x + n)
R n!
n=0
è continua e quindi il processo di Poisson è un processo di Feller.
Esempio 7.4.6 (Legge di transizione Gaussiana). Riprendiamo la legge di transizione Gaussiana dell’E-
sempio 7.1.9:
Z
p(t, x; T , H) := Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H
dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
è la densità di transizione Gaussiana. La legge di transizione Gaussiana soddisfa l’equazione di Chapman-

Kolmogorov come si verifica direttamente calcolando la convoluzione di due Gaussiane o, più facilmente,
il prodotto delle loro funzioni caratteristiche. Studieremo in seguito, nel Capitolo 10, il processo di Markov
associato a p, il cosiddetto moto Browniano. Per ogni ϕ ∈ bC e T > 0 la funzione
Z
x 7−→ Γ (0, x; T , y)ϕ(y)dy (7.4.5)
R
è continua e quindi il moto Browniano è un processo di Feller. In realtà, si verifica che la funzione in (7.4.5) è
C ∞ per ogni T > 0 e ϕ ∈ bB (non solo per ϕ ∈ bC): per questo motivo si dice che il moto Browniano verifica
la proprietà di Feller forte.
Osservazione 7.4.7 (Legge di transizione e semigruppi). Ad ogni legge di transizione p = p(t, x; T , ·) è

associata una famiglia p = pt,T 0≤t≤T di operatori lineari e limitati
pt,T : bB −→ bB
definiti da
Z
pt,T ϕ := p(t, ·; T , dy)ϕ(y), ϕ ∈ bB.
R
Si noti in particolare che pt,T ϕ ∈ bB per ogni ϕ ∈ bB e per la disuguaglianza triangolare si ha
∥pt,T ϕ∥∞ ≤ ∥ϕ∥∞ .
L’equazione di Chapman-Kolmogorov (7.4.4) corrisponde alla cosiddetta proprietà di semigruppo di p:
pt,s ◦ ps,T = pt,T , t ≤s ≤T.

Si dice che la famiglia p = pt,T 0≤t≤T è il semigruppo di operatori associato alla legge di transizione p.
Inoltre, si dice che p è un semigruppo omogeneo se pt,T = p0,T −t per ogni t ≤ T : in questo caso si usa scrivere
semplicemente pt al posto di p0,t . Esistono molte monografie su processi di Markov e teoria dei semigruppi:
fra le più recenti, citiamo [62], [123] e [120].
7.5. OPERATORE CARATTERISTICO ED EQUAZIONI DI KOLMOGOROV 255
7.5 Operatore caratteristico ed equazioni di Kolmogorov

Sia X un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ). In numerose applicazioni interessa calcolare
l’attesa condizionata
E [ϕ(XT ) | Ft ] , 0≤t <T,
dove ϕ ∈ bB è un’assegnata funzione. Il problema non è banale, anche dal punto di vista computazionale,
perché tale attesa condizionata è una variabile aleatoria Ft -misurabile, ossia dipende dalle informazioni
fino al tempo t. Tuttavia, se X è un processo di Markov con legge di transizione p allora, per la proprietà di
perdita di memoria, si ha
E [ϕ(XT ) | Ft ] = u(t, Xt ) (7.5.1)
dove Z
u(t, x) := p(t, x; T , dy)ϕ(y), 0 ≤ t ≤ T , x ∈ RN . (7.5.2)
RN
Dunque il problema si riconduce al calcolo della funzione u e questo è un notevole vantaggio dei processi
di Markov.
In questa sezione mostriamo che, come conseguenza dell’equazione di Chapman-Kolmogorov, la fun-
zione u in (7.5.2) è soluzione di un problema di Cauchy per il quale sono disponibili risultati teorici e
metodi efficienti di calcolo numerico. Più in generale proviamo che, sotto opportune ipotesi, la legge di
transizione p = p(t, x; T , dy) risolve le cosiddette equazioni di Kolmogorov backward e forward: si tratta di
equazioni integro-differenziali risolte da p(t, x; T , dy) rispettivamente nelle variabili backward (t, x) (corri-
spondenti al tempo e valore iniziale del processo X) e nelle variabili forward (T , y) (corrispondenti al tempo
e valore finale del processo X).
Notazione 7.5.1. Data una funzione f = f (t, T ) definita per t < T usiamo la notazione
lim f (t, T ) := lim+ f (t, T ) = lim− f (t, T )

T −t→0+ T →t t→T
quando il secondo e terzo limite esistono e coincidono.
Definizione 7.5.2 (Operatore caratteristico). Siano (t, x) ∈ R>0 × RN e p una legge di transizione su RN .
Supponiamo esista il limite
Z
p(t, x; T , dy) − p(t, x; t, dy)
At ϕ(x) := lim + ϕ(y)
T −t→0 R N T −t
per ogni ϕ ∈ D dove D è un opportuno sotto-spazio vettoriale dello spazio bBN delle funzioni misurabili e
limitate da RN in R. Allora diciamo che At è l’operatore caratteristico (o generatore infinitesimale) di p. Se p è
la legge di transizione di un processo di Markov X allora diciamo anche che At è l’operatore caratteristico
di X.
Si noti che At è un operatore lineare su D. Il “dominio” D su cui è definito l’operatore caratteristico

dipende dalla legge di transizione p: nelle sezioni seguenti presentiamo alcuni casi particolari in cui D è
esplicito. Cominciamo col seguente semplice
Esempio 7.5.3. [!] Consideriamo il processo di Markov deterministico Xt = γ(t) dell’Esempio 7.1.4. Una
legge di transizione di X è
p(t, x; T , ·) = δx+γ(T )−γ(t) (7.5.3)
e quindi
ϕ(x + γ(T ) − γ(t)) − ϕ(x)

At ϕ(x) = lim + =
T −t→0 T −t
(assumendo ϕ ∈ D := bC 1 (RN ), lo spazio vettoriale delle funzioni limitate e di classe C 1 , e sviluppando in

serie di Taylor al prim’ordine)
1
= lim + (∇ϕ(x) · (γ(T ) − γ(t)) + o (|γ(T ) − γ(t)|)) .
T −t→0 T −t
Tale limite esiste solo se la funzione γ è sufficientemente regolare: in particolare, se γ è differenziabile
allora si ha
At ϕ(x) = γ ′ (t) · ∇ϕ(x).
In questo caso l’operatore caratteristico è semplicemente la derivata direzionale di ϕ lungo la curva γ:
precisamente, At è l’operatore differenziale del prim’ordine a coefficienti costanti
N
X
At = γ ′ (t) · ∇ = γj′ (t)∂xj .
j=1
Osservazione 7.5.4. [!] Poiché p(t, x; t, ·) = δx per ogni t ≥ 0, si ha

Z
ϕ(y) − ϕ(x)
At ϕ(x) = lim + p(t, x; T , dy) . (7.5.4)
T −t→0 RN T −t
Dunque, se p è la legge di transizione di un processo di Markov X, si ha

" #
ϕ(XT ) − ϕ(Xt )
At ϕ(x) = lim + E | Xt = x (7.5.5)
T −t→0 T −t
da cui segue che l’operatore caratteristico At dipende dal processo X e non dalla particolare versione della sua
legge di transizione. Per la (7.5.5), in analogia con quanto visto nell’Esempio 7.5.3, possiamo interpretare
At ϕ(x) come una “derivata direzionale media” (o incremento infinitesimo medio) di ϕ lungo le traiettorie
di X che partono al tempo t da x. Notiamo anche che vale
Z
p(T , x; T , dy) − p(t, x; T , dy)
At ϕ(x) = − lim + ϕ(y). (7.5.6)
T −t→0 RN T −t
Nella sezione seguente vediamo che per un’ampia classe di leggi di transizione è possibile dare una
rappresentazione esplicita dell’operatore caratteristico.
7.5.1 Il caso locale

Definizione 7.5.5. Sia x0 ∈ RN . Diciamo che un operatore lineare A : C 2 (RN ) −→ R
• soddisfa il principio del massimo in x0 se vale l’implicazione
ϕ(x0 ) = max ϕ(x) =⇒ A ϕ ≤ 0;

x∈RN
• è locale in x0 se A ϕ = 0 per ogni ϕ ∈ C 2 (RN ) che si annulla in un intorno di x0 .

Osservazione 7.5.6. Notiamo che:
i) se A soddisfa il principio del massimo in x0 allora A ϕ = 0 per ogni funzione costante ϕ;
ii) se A è un operatore locale in x0 allora A ϕ = A ψ per ogni ϕ, ψ che sono uguali in un intorno di x0 ;
iii) combinando i) e ii) si ha che se A soddisfa il principio del massimo ed è locale in x0 allora A ϕ = 0
per ogni ϕ che sia costante in un intorno di x0 ;
iv) se A soddisfa il principio del massimo ed è locale in x0 allora A ϕ = A T2,x0 (ϕ) dove T2,x0 (ϕ) è il
polinomio di Taylor del second’ordine di ϕ di punto iniziale x0 .
Infatti, essendo A un operatore lineare, basta provare che A ϕ = 0 per ogni ϕ ∈ C 2 (RN ) il cui poli-
nomio di Taylor di ordine due di punto iniziale x0 è nullo. Inoltre non è restrittivo assumere x0 = 0.
Consideriamo una funzione “cut-off”
χ ∈ C0∞ (RN ; R) tale che 0 ≤ χ ≤ 1, χ(x) ≡ 1 per |x| ≤ 1 e χ(x) ≡ 0
per |x| ≥ 2. Posto ϕδ (x) = ϕ(x)χ δx per δ > 0, esiste11 una funzione g tale che g(δ) → 0 per δ → 0+ e
1
|ϕδ (x)| ≤ g(δ)|x|2 χ(x), x ∈ RN , 0 < δ ≤ . (7.5.7)
2
Allora applicando il principio del massimo in 0 alle funzioni ψδ± (x) = −g(δ)|x|2 χ(x) ± ϕδ (x) si ottiene
A ψδ± ≤ 0 o equivalentemente, per il punto i),
±A ϕ = ±A ϕδ ≤ g(δ)A ψ, ψ(x) := |x|2 χ(x),
da cui la tesi scegliendo δ > 0 arbitrariamente piccolo.

Il seguente risultato, che è un caso particolare del Teorema di Courrège [29], fornisce un’interessante
caratterizzazione degli operatori lineari locali che soddisfano il principio del massimo.
Teorema 7.5.7 (di Courrège). Un operatore lineare A su C 2 (RN ) soddisfa il principio del massimo ed
è locale in x0 ∈ RN se e solo se esistono b ∈ RN e una matrice simmetrica e semi-definita positiva C =
(cij )1≤i,j≤N tali che
N N
1X X
Aϕ= cij ∂xi xj ϕ(x0 ) + bi ∂xi ϕ(x0 ), ϕ ∈ C 2 (RN ). (7.5.8)
2
i,j=1 i=1
Dimostrazione. Per l’Osservazione 7.5.6 si ha
A ϕ = A T2,x0 (ϕ) =
(per la linearità di A )
N N
1X X
= cij ∂xi xj ϕ(x0 ) + bi ∂xi ϕ(x0 )
2
i,j=1 i=1
dove cij := A ϕij e bj := A ϕj con
ϕij (x) = (x − x0 )i (x − x0 )j , ϕj (x) = (x − x0 )j , x ∈ RN . (7.5.9)
Per verificare che C = (cij ) ≥ 0, consideriamo η ∈ RN e poniamo
N
X
2
ϕη (x) = −⟨x − x0 , η⟩ = − ηi ηj ϕij (x);
i,j=1
allora per linearità e per il principio del massimo in x0 si ha
A ϕη = −2⟨C η, η⟩ ≤ 0.
11 Per ipotesi, |ϕ(x)| ≤ |x|2 g(|x|) per |x| ≤ 1 con g che tende a zero per |x| → 0+ e non è restrittivo assumere g monotona crescente.
Allora la (7.5.7) segue dal fatto che
x 1

g(|x|)χ ≤ χ(x)g(δ), x ∈ RN , 0 < δ ≤ .
δ 2
Viceversa, se A è della forma (7.5.8) allora è chiaramente locale in x0 . Inoltre esiste una matrice
simmetrica e semi-definita positiva M = (mij ) tale che
N  N 
X  X 
2
C = M =  mih mhj  =  mih mjh  .
h=1 i,j h=1 i,j
Se x0 è punto di massimo per ϕ allora ∇ϕ(x0 ) = 0 e la matrice Hessiana di ϕ in x0 è semi-definita negativa,

quindi si ha
N N N N
1X X 1XX
Aϕ= ∂xi xj ϕ(x0 ) mih mjh = ∂xi xj ϕ(x0 )mih mjh ≤ 0,
2 2
i,j=1 h=1 h=1 i,j=1
ossia A soddisfa il principio del massimo in x0 .
Osservazione 7.5.8. [!] Per ogni x ∈ RN , l’operatore caratteristico At di una legge di transizione p soddisfa
il principio del massimo in x: ciò segue immediatamente dalla (7.5.4). Allora, sotto l’ulteriore ipotesi che
At sia locale12 in x, il Teorema 7.5.7 fornisce la rappresentazione
N N
1X X
At ϕ(x) = cij (t, x)∂xi xj ϕ(x) + bi (t, x)∂xi ϕ(x), (t, x) ∈ R>0 × RN , (7.5.10)
2
i,j=1 i=1
con C (t, x) = (cij (t, x)) matrice N × N simmetrica, semi-definita positiva e b(t, x) = (bj (t, x)) ∈ RN . In altri
termini, At è un operatore alle derivate parziali del second’ordine di tipo ellittico-parabolico.
Combinando la (7.5.4) con l’espressione dei coefficienti di At data dalle funzioni in (7.5.9), si ottengono
le formule13
Z " #
p(t, x; T , dy) (XT − Xt )i
bj (t, x) = lim + (y − x)i = lim + E | Xt = x , (7.5.11)
T −t→0 T −t T −t→0 T −t
RN
(XT − Xt )i (XT − Xt )j
Z " #
p(t, x; T , dy)
cij (t, x) = lim + (y − x)i (y − x)j = lim + E | Xt = x , (7.5.12)
T −t→0 T −t T −t→0 T −t
RN
per i, j = 1, . . . , N . Dunque, i coefficienti di At si interpretano come gli incrementi infinitesimi di media e matrice
di covarianza14 di X a partire da (t, x). Dalle formule (7.5.11)-(7.5.12) segue anche che cij = cij (t, x) e bj =
bj (t, x) sono funzioni misurabili su R>0 × RN .
12 Si può provare che la proprietà di essere locale corrisponde alla continuità delle traiettorie del processo di Markov associato. Per
la caratterizzazione dell’operatore caratteristico di un generico processo di Markov si veda, per esempio, [114].
13 Se A è locale in x allora il dominio di integrazione in (7.5.11) e (7.5.12) si può restringere a |x − y| < 1.
t
14 Notiamo che si ha anche
Z
p(t, x; T , dy)
cij (t, x) = lim (y − x − (T − t)b(t, x))i (y − x − (T − t)b(t, x))j
T −t→0+ T −t
RN
(XT − Xt − (T − t)b(t, Xt ))i (XT − Xt − (T − t)b(t, Xt ))j
" #
= lim E | Xt = x
T −t→0+ T −t
come si verifica sviluppando il prodotto all’interno dell’integrale ed osservando che

Z Z
lim (T − t) p(t, x; T , dy)bi (t, x)bj (t, x) = lim p(t, x; T , dy)(y − x)i bj (t, x) = 0.
T −t→0+ T −t→0+
RN RN
7.5.2 Equazione di Kolmogorov backward

Supposto che p sia la legge di transizione di un processo di Markov X, sfruttiamo l’equazione di Chapman-
Kolmogorov per studiare la funzione attesa condizionata in (7.5.2), definita da
Z
u(t, x) := p(t, x; T , dy)ϕ(y) = E [ϕ(XT ) | Xt = x] , 0 ≤ t ≤ T , x ∈ RN , (7.5.13)
RN
con ϕ ∈ bB. Ammesso che esista, la derivata ∂t u(t, x) è data da

Z
p(t, x; T , dy) − p(t − h, x; T , dy)
∂t u(t, x) = lim ϕ(y) =
h→0 +
RN h
(per l’equazione di Chapman-Kolmogorov)

Z Z
p(t, x; t, dz) − p(t − h, x; t, dz)
= lim p(t, z; T , dy)ϕ(y) = −At u(t, x) (7.5.14)
h→0+ RN h RN
| {z }
=u(t,z)
in base alla definizione di operatore caratteristico nella forma (7.5.6). I passaggi precedenti si giustificano in
maniera rigorosa sotto l’ipotesi che u(t, ·) ∈ D: nell’Esempio 7.5.12 tale ipotesi è soddisfatta se ϕ ∈ C 1 (RN )
poiché x 7→ u(t, x) = ϕ(x + γ(T ) − γ(t)) eredita le proprietà di regolarità di ϕ. Esamineremo in seguito altri
esempi significativi in cui u(t, ·) ∈ bC 2 (RN ) grazie alle proprietà regolarizzanti del nucleo p(t, x; T , dy).
Dunque, sotto ipotesi opportune, la funzione u in (7.5.13) è soluzione del problema di Cauchy per
l’equazione di Kolmogorov backward15 (con dato finale)

∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ [0, T [×RN ,


(7.5.15)
u(T , x) = ϕ(x), x ∈ RN ,


o in forma integrale
Z T
u(t, x) = ϕ(x) + As u(s, x)ds, (t, x) ∈ [0, T ] × RN .
t
Sottolineiamo che il problema (7.5.15) è scritto nelle variabili backward (t, x) assumendo le variabili forward
(T , y) fissate.
Esempio 7.5.9. [!] Consideriamo la legge di transizione Gaussiana p(t, x; T , dy) = Γ (t, x; T , y)dy dell’Esem-
pio 7.1.9 con densità di transizione definita da
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R. (7.5.16)
2π(T − t)
Il processo di Markov associato a p è il moto Browniano che sarà introdotto nel Capitolo 10. Un calcolo
diretto mostra che
T − t − (x − y)2
∂t Γ (t, x; T , y) = −∂T Γ (t, x; T , y) = Γ (t, x; T , y),
2(T − t)2
15 Essendo u(t, x) =
R
p(t, x; T , dy)ϕ(y), si usa anche scrivere che p risolve il problema backward
RN
∂t p(t, x; T , dy) + At p(t, x; T , dy) = 0, (t, x) ∈ [0, T [×RN ,



p(T , x; T , ·) = δ , x ∈ RN .

x
y −x
∂x Γ (t, x; T , y) = −∂y Γ (t, x; T , y) = Γ (t, x; T , y),
T −t
T − t − (x − y)2
∂xx Γ (t, x; T , y) = ∂yy Γ (t, x; T , y) = − Γ (t, x; T , y),
(T − t)2
da cui si ottiene l’equazione di Kolmogorov backward
1

∂t + ∂xx Γ (t, x; T , y) = 0, t < T , x, y ∈ R (7.5.17)
2
e anche
1

∂T − ∂yy Γ (t, x; T , y) = 0, t < T , x, y ∈ R (7.5.18)
2
che è chiamata equazione di Kolmogorov forward e sarà studiata nella Sezione 7.5.3. L’operatore caratteristico
di p è l’operatore di Laplace
1
At = ∂xx
2
come si può verificare anche mediante le formule (7.5.11)-(7.5.12) che qui diventano
Z
Γ (t, x; T , y)
b(t, x) = lim + (y − x)dy = 0,
T −t→0 T −t
RN
Z
Γ (t, x; T , y)
c(t, x) = lim + (y − x)2 dy = 1.
T −t→0 T −t
RN
Ovviamente At è un operatore locale in ogni x ∈ R.

Le equazioni (7.5.17)-(7.5.18) sono ben note per la loro importanza in fisica e in economia:
• la (7.5.17) è anche chiamata equazione del calore forward ed interviene nei modelli che descrivono il
fenomeno fisico della diffusione del calore in un corpo. Precisamente, la soluzione v = v(T , y) del
problema di Cauchy forward

1
∂T v(T , y) = 2 ∂yy v(T , y), (T , y) ∈ ]t, +∞[×R,


(7.5.19)
v(t, y) = ϕ(y),

 y ∈ R,
rappresenta la temperatura, al tempo T e nella posizione y, di un corpo di lunghezza infinita di cui è

assegnata la temperatura ϕ al tempo iniziale t;
• la (7.5.18) è chiamata equazione del calore backward ed interviene in modo naturale in finanza matema-
tica, nella valutazione di certi strumenti finanziari complessi, detti derivati, di cui è noto il valore ϕ
al tempo futuro T : il prezzo al tempo t < T è dato dalla soluzione u = u(t, x) del problema di Cauchy
backward 
1
∂t u(t, x) + 2 ∂xx u(t, x) = 0, (t, x) ∈ [0, T [×R,


(7.5.20)
u(T , x) = ϕ(x),

 x ∈ R.
Si noti che, se v indica la soluzione del problema forward (7.5.19) con tempo iniziale t = 0, allora u(t, x) :=
v(T − t, x) risolve il problema backward (7.5.20); inoltre u è data dalla formula (7.5.13) che qui diventa
Z
u(t, x) = Γ (t, x; T , y)ϕ(y)dy, (t, x) ∈ [0, T ] × R. (7.5.21)
R
Per il teorema di scambio di segni di derivata e integrale, si ha u ∈ C ∞ ([0, T [×R) e ∥u∥∞ ≤ ∥ϕ∥∞ per ogni
ϕ ∈ bB e ciò giustifica la validità della (7.5.14).
Osservazione 7.5.10. Nella teoria delle equazioni differenziali, Γ in (7.5.16) è detta soluzione fondamentale
dell’operatore del calore poiché, tramite la formula risolutiva (7.5.21), fornisce la soluzione del problema
backward (7.5.20) per ogni dato finale ϕ ∈ bC (e analogamente del problema problema forward (7.5.19)
per ogni dato iniziale ϕ ∈ bC). Rimandiamo alla Sezione 26.3 per la definizione generale di soluzione
fondamentale.
Un legame profondo fra la teoria dei processi stocastici e quella delle equazioni alle derivate parziali è
dato dal fatto che, se esiste, la densità di transizione di un processo di Markov (per esempio, la densità Gaussiana
nel caso del moto Browniano) è soluzione fondamentale dell’operatore ∂t + At (corrispondente all’operatore del
calore nel caso del moto Browniano). Una trattazione generale sull’esistenza e unicità della soluzione del
problema di Cauchy per equazioni alle derivate parziali di tipo parabolico è data nel Capitolo 26, mentre
nel Capitolo 20 approfondiamo il legame con le equazioni differenziali stocastiche.
Esempio 7.5.11. [!] Consideriamo la legge di transizione di Poisson di parametro λ > 0 dell’Esempio 7.4.5:
+∞
X (λ(T − t))n
n!
n=0
Per u come in (7.5.13) vale

 

−λ(T −t)
X (λ(T − t))n 
∂t u(t, x) = ∂t e
 ϕ(x + n) 
n! 
n≥0
X (λ(T − t))n X (λ(T − t))n
= λe−λ(T −t) ϕ(x + n) + e−λ(T −t) ∂t ϕ(x + n) =
n! n!
n≥0 n≥0
(lo scambio serie-derivata è giustificato dal fatto che si tratta di una serie di potenze con raggio di conver-
genza infinito se ϕ ∈ bB)
X (λ(T − t))n−1
= λu(t, x) − λe−λ(T −t) ϕ(x + n)
(n − 1)!
n≥1
X (λ(T − t))n
= λu(t, x) − λe−λ(T −t) ϕ(x + n + 1)
n!
n≥0
= −λ (u(t, x + 1) − u(t, x)) .
Dunque At è definito da
At ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , ϕ ∈ D := bB.
In questo caso At non è un operatore locale in alcun x ∈ R.
7.5.3 Equazione di Kolmogorov forward (o di Fokker-Planck)

Assumiamo che p sia la legge di transizione di un processo di Markov X e quindi verifichi l’equazione di
Chapman-Kolmogorov. Per definizione di operatore caratteristico e supponendo l’esistenza della derivata
∂T p(t, x; T , dz), per ogni ϕ ∈ D si ha
Z Z
p(t, x; T + h, dz) − p(t, x; T , dz)
∂T p(t, x; T , dz)ϕ(z) = lim ϕ(z) =
RN RN h→0
+ h

Z Z
p(T , y; T + h, dz) − p(T , y; T , dz)
= p(t, x; T , dy) lim ϕ(z)
RN h→0+ RN h
Z
= p(t, x; T , dy)AT ϕ(y).
RN
In definitiva, si ha Z Z
∂T p(t, x; T , dy)ϕ(y) = p(t, x; T , dy)AT ϕ(y), ϕ ∈ D, (7.5.22)
RN RN
che è chiamata equazione di Kolmogorov forward o anche equazione di Fokker-Planck. Qui ϕ deve essere
interpretata come una funzione test e la (7.5.22) come la scrittura in forma debole (o distribuzionale)
dell’equazione
∂T p(t, x; T , ·) = AT∗ p(t, x; T , ·)
dove AT∗ è l’operatore aggiunto di AT . Per esempio, se AT è un operatore differenziale della forma (7.5.10)
allora AT∗ si ottiene formalmente per integrazione per parti:
Z Z
∗
AT u(y) v(y)dy =

u(y)AT v(y)dy,
RN RN
con u, v coppia di funzioni test. Se i coefficienti sono sufficientemente regolari, è possibile scrivere l’opera-
tore forward in modo più esplicito:
N N
1X X
AT∗ u = cij ∂yi yj u + bj∗ ∂yj + a∗ , (7.5.23)
2
i,j=1 j=1
dove
N N N
X X 1X
bj∗ := −bj + ∂yi cij , a∗ := − ∂yi bi + ∂yi yj cij . (7.5.24)
2
i=1 i=1 i,j=1
La (7.5.22) si esprime anche dicendo che p(t, x; ·, ·) è soluzione distribuzionale del problema di Cauchy
forward (con dato iniziale) 
∂T p(t, x; T , ·) = AT p(t, x; T , ·), T > t,

 ∗
(7.5.25)
p(t, x; t, ·) = δx .


Si usa il termine “soluzione distribuzionale” per indicare il fatto che p(t, x; T , ·), essendo una distribuzione,
non ha in generale la regolarità necessaria per supportare l’operatore AT che infatti in (7.5.22) appare
applicato alla funzione test ϕ. Si noti che il problema (7.5.25) è scritto nelle variabili forward (T , y) su
]t, +∞[×RN , assumendo fissate le variabili backward (t, x).
Si dimostra l’esistenza della soluzione distribuzionale di (7.5.25) sotto ipotesi generali (si veda, per
esempio, il Teorema 1.1.9 in [115]): benché la nozione di soluzione distribuzionale sia molto debole, que-
sto è il risultato migliore che si può sperare di ottenere senza assumere ulteriori ipotesi, come mostra il
seguente
Esempio 7.5.12. [!] Riprendiamo l’Esempio 7.5.3. L’operatore At = γ ′ (t) · ∇x , con ∇x = (∂x1 , . . . , ∂xN ), è
ovviamente locale in ogni x ∈ RN e può essere determinato anche mediante le formule (7.5.11)-(7.5.12) che,
per p come in (7.5.3) con γ differenziabile, danno
Z
1
b(t, x) = lim + δx+γ(T )−γ(t) (dy)(y − x) = γ ′ (t),
T −t→0 T − t
RN
Z
1
cij (t, x) = lim + δx+γ(T )−γ(t) (dy)(y − x)i (y − x)j = 0.
T −t→0 T − t
RN
Il problema di Cauchy (7.5.25) per l’equazione di Kolmogorov forward è


∂T p(t, x; T , ·) = −γ ′ (T ) · ∇y p(t, x; T , ·), T > t,


(7.5.26)
p(t, x; t, ·) = δx .


Chiaramente, essendo p(t, x; T , ·) una misura, il gradiente ∇y p(t, x; T , ·) non è definito in senso classico ma
nel senso delle distribuzioni. Pertanto il problema (7.5.26) va inteso come in (7.5.22), ossia come equazione
integrale scaricando il gradiente sulla funzione ϕ
Z T
ϕ(x + γ(T ) − γ(t)) = ϕ(x) + γ ′ (s) · (∇ϕ)(x + γ(s) − γ(t))ds, ϕ ∈ C 1 (RN ),
t
da cui, differenziando, ritroviamo

d
ϕ(x + γ(T ) − γ(t)) = γ ′ (T ) · (∇ϕ)(x + γ(T ) − γ(t)).
dT
Intuitivamente l’operatore caratteristico fornisce l’incremento infinitesimale (drift) di un processo: ri-

muovendo tale drift si ottiene una martingala. Questo fatto è reso rigoroso dal seguente notevole ri-
sultato che mostra come compensare un processo, per renderlo una martingala, utilizzando l’operatore
caratteristico.
Teorema 7.5.13. [!] Sia X un processo di Markov con operatore caratteristico At definito su D. Se ϕ ∈ D è
tale che At ϕ(Xt ) ∈ L1 ([0, T ] × Ω) per ogni T ≥ 0, allora il processo
Z t
Mt := ϕ(Xt ) − As ϕ(Xs )ds, t ≥ 0,
0
è una martingala.
Dimostrazione. Il processo M è sommabile grazie alle ipotesi16 su ϕ. Rimane da provare che
E [MT − Mt | Ft ] = 0, 0≤t ≤T,
ossia " Z T #
E ϕ(XT ) − ϕ(Xt ) − As ϕ(Xs )ds | Ft = 0, 0≤t ≤T.
t
Inegrando nel tempo l’equazione di Kolmogorov forward (7.5.22) con x = Xt si ha

Z Z T Z
0= p(t, Xt ; T , dy)ϕ(y) − ϕ(Xt ) − p(t, Xt ; s, dy)As ϕ(y)ds =
R t RN
(per la proprietà di Markov (7.5.1) applicata al primo e ultimo termine)

Z T
= E [ϕ(XT ) | Ft ] − ϕ(Xt ) − E [As ϕ(Xs ) | Ft ] ds =
t
(poiché, come proveremo fra breve, è possibile scambiare l’integrale nel tempo con l’attesa condizionata)
" Z T #
= E ϕ(XT ) − ϕ(Xt ) − As ϕ(Xs )ds | Ft
t
16 Ricordiamo anche che ϕ è limitata poiché D ⊆ bB : tale ipotesi non è restrittiva e può essere notevolmente indebolita.
N
da cui la tesi.
Per giustificare lo scambio fra integrale e attesa condizionata, verifichiamo che la v.a.
ZT
Z := E [As ϕ(Xs ) | Ft ] ds
t
RT
è una versione dell’attesa condizionata di As ϕ(Xs )ds a Ft . Anzitutto, dal fatto che E [As ϕ(Xs ) | Ft ] ∈ mFt
t
segue che anche Z ∈ mFt . Poi, per ogni G ∈ Ft , abbiamo
"Z T #
E [Z1G ] = E E [As ϕ(Xs ) | Ft ] ds 1G =
t
(per il Teorema di Fubini, data l’ipotesi di sommabilità su As ϕ(Xs ))

ZT
= E [E [As ϕ(Xs ) | Ft ] 1G ] ds =
t
(per le proprietà dell’attesa condizionata)

Z T
= E [As ϕ(Xs )1G ] ds =
t
(riapplicando il Teorema di Fubini)

"Z T #
=E As ϕ(Xs )ds 1G .
t
7.6 Processi di Markov e diffusioni

I processi di Markov continui sono talvolta chiamati diffusioni, anche se è opportuno precisare che in
letteratura non c’è un accordo unanime su tale definizione. Ad ogni diffusione N -dimensionale sono asso-
ciate le funzioni misurabili b = (bi )1≤i≤N e C = (cij )1≤i,j≤N definite in (7.5.11)-(7.5.12); tali funzioni sono i
coefficienti dell’operatore caratteristico (7.5.10):
N N
1X X
At = cij (t, x)∂xi xj + bi (t, x)∂xi , (t, x) ∈ R × RN .
2
i,j=1 i=1
Ricordiamo che C è una matrice N × N simmetrica e semi-definita positiva.

Storicamente esistono due approcci alla costruzione di diffusioni. Il primo e più classico è basato sulle
equazioni di Kolmogorov: precisamente, l’idea di A. N. Kolmogorov [60] e W. Feller [41] è di determinare
una legge di transizione p(t, x; T , dy) come soluzione dell’equazione di Kolmogorov forward
∂T p(t, x; T , dy) = AT∗ ∂T p(t, x; T , dy) (7.6.1)
associata al dato iniziale p(t, x; t, ·) = δx come in (7.5.25). L’equazione (7.6.1) è il punto di partenza per lo
studio dell’esistenza e regolarità della densità di p tramite tecniche analitiche (il risultato classico più im-
portante in questo ambito è il famoso Teorema di Hörmander [53]) e probabilistiche (il calcolo di Malliavin
per il quale si veda, per esempio, [87]). Pur sembrando l’approccio più naturale, l’equazione (7.6.1) pre-
senta alcune difficoltà tecniche dovute al fatto di essere interpretata in senso distribuzionale nelle variabili
7.7. SINTESI 265
forward e alla presenza dell’operatore aggiunto di At la cui definizione precisa richiede opportune ipotesi
di regolarità dei coefficienti (cfr. (7.5.23)-(7.5.24)). Per questo motivo, in seguito l’attenzione si è spostata
sull’equazione di Kolmogorov backward. Lo studio delle diffusioni mediante l’equazione backward è stato
uno degli approcci più efficaci e di successo: la Sezione 9.4 è dedicata ad un riassunto dei principali risultati
al riguardo.
La principale obiezione all’uso delle equazioni di Kolmogorov per lo studio delle diffusioni è che gli
strumenti utilizzati sono di carattere prevalentemente analitico e poggiano su risultati tecnicamente com-
plessi della teoria delle equazioni alle derivate parziali: fra questi, in primo luogo, la costruzione della
soluzione fondamentale di equazioni paraboliche che presenteremo in maniera sintetica nel Capitolo 26.
Il secondo approccio alla costruzione di diffusioni è quello iniziato da K. Itô: esso prende spunto dal-
l’idea di P. Lévy di considerare l’incremento infinitesimo Xt+dt − Xt di una diffusione come un incremen-
to Gaussiano con drift b(t, Xt ) e matrice di covarianza C (t, Xt ), coerentemente con le equazioni (7.5.11)-
(7.5.12). Itô sviluppa una teoria del calcolo differenziale stocastico in base alla quale l’idea precedente può
essere formalizzata in termini dell’equazione differenziale stocastica
dXt = b(t, Xt )dt + σ (t, Xt )dWt , (7.6.2)
dove C = σ σ ∗ e W indica un processo stocastico con incrementi indipendenti e Gaussiani (un moto Bro-
wniano, cfr. Capitolo 10). La prima difficoltà di questo approccio è la definizione di differenziale (o in-
tegrale) stocastico di processi le cui traiettorie, pur essendo continue, sono talmente irregolari da rendere
inefficaci gli strumenti classici dell’analisi matematica: il Capitolo 15 è interamente dedicato alla teoria
dell’integrazione stocastica secondo Itô. In secondo luogo, per costruire una diffusione X come soluzione
dell’equazione (7.6.2) occorrono risultati di esistenza e unicità per tale equazione: anche questo problema
è stato risolto da Itô sotto ipotesi standard di locale Lipschitzianità e crescita lineare dei coefficienti in per-
fetta analogia con le equazioni differenziali ordinarie. In seguito, un significativo passo in avanti è stato
fatto da Stroock e Varadhan [116, 117] che hanno gettato un ponte fra la teoria delle diffusioni e quella
delle martingale: Stroock e Varadhan mostrano che il problema dell’esistenza di una diffusione, come so-
luzione di (7.6.2), equivale al cosiddetto “problema della martingala”, ossia al problema dell’esistenza di
una misura di probabilità, sullo spazio canonico delle traiettorie, rispetto alla quale il processo compensato
del Teorema 7.5.13 sia una martingala. I risultati di Stroock e Varadhan sono presentati sinteticamente nel
Capitolo 23.
7.7 Sintesi
Riassumiamo i risultati più rilevanti del capitolo e i concetti essenziali da trattenere ad una prima
lettura, a scapito delle questioni più tecniche o di importanza secondaria.
• Sezione 7.1: introduciamo il concetto di legge di transizione di un processo stocastico X = (Xt )t≥0 : la
legge di transizione di X è la famiglia, al variare di t ≤ T , delle distribuzioni di XT condizionate a Xt .
Due esempi notevoli di leggi di transizione sono quella Gaussiana e quella di Poisson.
• Sezione 7.2: per un processo di Markov condizionare a Ft (la σ -algebra delle informazioni fino al tempo
t) equivale a condizionare a Xt : in questo senso si dice che la proprietà di Markov è una proprietà di
“perdita di memoria”.
• Sezione 7.3: i processi a incrementi indipendenti sono un esempio significativo di processi di Markov.
• Sezione 7.4: dalla legge di transizione di un processo di Markov è possibile ricavare le distribuzioni
finito-dimensionali, e quindi la legge del processo: inoltre la legge di transizione di un processo di
Markov verifica un’importante identità, l’equazione (7.4.3) di Chapman-Kolmogorov, che esprime una
proprietà di consistenza fra le distribuzioni che compongono la legge di transizione.
• Sezione 7.5: la derivata direzionale media lungo le traiettorie di X, se esiste,

" #
ϕ(XT ) − ϕ(Xt )
lim E | Xt = x =: At ϕ(x)
T −t→0+ T −t
definisce l’operatore caratteristico At del processo di Markov X, almeno per ϕ in un’opportuna classe
di funzioni.
• Sezione 7.5.1: per i processi di Markov continui, At è un operatore differenziale alle derivate parziali
del second’ordine di tipo ellittico-parabolico il cui prototipo è l’operatore di Laplace. I coefficienti
di At sono gli incrementi infinitesimi di media e matrice di covarianza di X (cfr. formule (7.5.11)-
(7.5.12)).
• Sezioni 7.5.2 e 7.5.3: la legge di transizione è soluzione delle equazioni di Kolmogorov backward e
forward. Il prototipo di tali equazioni sono le versioni backward e forward dell’equazione del calore.
• Sezione 7.6: chiamiamo diffusione un processo di Markov continuo. Un approccio classico alla costru-
zione di diffusioni consiste nel determinarne la legge di transizione come soluzione dell’equazione
di Kolmogorov (backward o forward). In alternativa, le diffusioni sono costruite come soluzioni di
equazioni differenziali stocastiche, la cui teoria sarà sviluppata a partire dal Capitolo 19.
Capitolo 8
Processo di Poisson
Il processo di Poisson, che indicheremo (Nt )t≥0 , è il prototipo dei cosiddetti “processi di puro salto”.
Intuitivamente Nt indica il numero di volte nell’intervallo temporale [0, t] in cui si verifica un determinato
avvenimento (lo chiameremo episodio): per esempio, se il singolo episodio consiste nell’arrivo di un’email di
spam in un casella di posta, allora Nt rappresenta il numero di email di spam che arrivano nel periodo [0, t];
analogamente, Nt può indicare il numero di bambini nati in un certo paese o il numero di terremoti che si
verificano in una certa area geografica nel periodo [0, t].
8.1 Definizione
Riferendoci alla notazione generale della Definizione 6.1.3, nel seguito assumiamo I = R≥0 . Per co-
struire il processo di Poisson consideriamo una successione (τn )n∈N di v.a. indipendenti e identicamente
distribuite1 con distribuzione esponenziale, τn ∼ Expλ , di parametro λ > 0, definite su uno spazio di proba-
bilità completo (Ω, F , P ): qui τn rappresenta il tempo che intercorre fra l’episodio (n−1)-esimo e il successivo.
Poi definiamo la successione
T0 := 0, Tn := τ1 + · · · + τn , n ∈ N,
in cui Tn rappresenta l’istante in cui si verifica l’episodio n-esimo.
Lemma 8.1.1. Si ha2

Tn ∼ Gamman,λ n ∈ N. (8.1.1)
Inoltre, quasi certamente3 la successione (Tn )n≥0 è monotona crescente e
lim Tn = +∞. (8.1.2)

n→∞
Dimostrazione. La (8.1.1) segue dalla (3.6.7). La monotonia segue dal fatto che quasi certamente τn ≥ 0 per
ogni n ∈ N. Infine, la (8.1.2) segue dal Lemma 2.3.28 di Borel-Cantelli: infatti, per ogni ε > 0, vale
\[
lim Tn = +∞ ⊇ ((τn > ε) i.o.) = (τk > ε)
n→∞
n≥1 k≥n
1 Tale successione esiste per il Corollario 6.3.7.

2 Quindi T è assolutamente continua con densità
n
(λt)n−1
γn,λ (t) := λe−λt 1 (t), n ∈ N.
(n − 1)! R≥0
3 L’insieme degli ω ∈ Ω tali che T (ω) ≤ T

n n+1 (ω) per ogni n ∈ N e n→∞
lim Tn (ω) = +∞, è un evento di probabilità uno.
267
268 CAPITOLO 8. PROCESSO DI POISSON
e gli eventi (τk > ε) sono indipendenti e tali che

X
P (τn > ε) = +∞.
n≥1
Definizione 8.1.2 (Processo di Poisson, I). Il processo di Poisson (Nt )t≥0 di parametro λ > 0 è definito da
∞
X
Nt = n1[Tn ,Tn+1 [ (t), t ≥ 0. (8.1.3)
n=1
8 ●●
6 ●
4 ●
2 ●
●
2 4 6 8 10
Figura 8.1: Grafico di una traiettoria del processo di Poisson.
Daremo in seguito una caratterizzazione più generale del processo di Poisson (cfr. Definizione 8.2.3).
Per definizione Nt assume valori interi non-negativi e precisamente Nt = n se e solo se t appartiene all’inter-
vallo di estremi aleatori [Tn , Tn+1 [; pertanto si ha l’uguaglianza di eventi
(Nt = n) = (Tn ≤ t < Tn+1 ), n ∈ N ∪ {0}. (8.1.4)
In corrispondenza all’istante aleatorio Tn , in cui si verifica l’n-esimo episodio, il processo compie un salto
di ampiezza 1: la Figura 8.1 mostra il grafico di una traiettoria del processo di Poisson nell’intervallo
temporale [0, 10]. Ricordiamo che una traiettoria di N è una funzione del tipo t 7→ Nt (ω), definita da R≥0
a valori in N ∪ {0}, che si ottiene fissando un ω ∈ Ω; ad ogni ω ∈ Ω corrisponde una diversa traiettoria. In
definitiva, il valore aleatorio Nt è pari al numero di salti (ovvero al numero di episodi) fra 0 e t:
Nt = ♯{n ∈ N | Tn ≤ t}.
Proposizione 8.1.3. Il processo di Poisson (Nt )t≥0 gode delle seguenti proprietà:
i) quasi certamente le traiettorie sono funzioni continue a destra e monotone crescenti. Inoltre, per ogni
t > 0, vale4

P lim Ns = Nt = 1; (8.1.5)
s→t
4 In altri termini, ogni t fissato è quasi certamente (ossia per quasi tutte le traiettorie) un punto di continuità per il processo di
Poisson. Questo apparente paradosso si spiega col fatto che quasi ogni traiettoria ha un’infinità al più numerabile di discontinuità,
essendo monotona crescente, e tali discontinuità sono disposte sull’intero intervallo [0, +∞[ che ha la cardinalità del continuo. Quindi
tutte le traiettorie sono discontinue ma ogni singolo punto t è di discontinuità per una famiglia trascurabile di traiettorie.
8.1. DEFINIZIONE 269
ii) Nt ∼ Poissonλt ossia

(λt)n
P (Nt = n) = e−λt , t ≥ 0, n ∈ N ∪ {0}. (8.1.6)
n!
Di conseguenza N0 = 0 q.c. e si ha
E [Nt ] = var(Nt ) = λt.
In particolare, il parametro λ, chiamato intensità del processo N , è uguale al numero atteso di salti
nell’intervallo unitario [0, 1];
iii) la funzione caratteristica di Nt è data da

iη −1)
ϕNt (η) = eλt(e , t ≥ 0, η ∈ R; (8.1.7)
Dimostrazione. i) Continuità a destra e monotonia seguono dalla definizione. Per ogni t > 0, poniamo
Nt− = lim Ns e ∆Nt = Nt − Nt− . Notiamo che ∆Nt ∈ {0, 1} q.c. e, fissato t > 0, l’insieme delle traiettorie che
s↗t
sono discontinue in t è dato da
∞
[
(∆Nt = 1) = (Tn = t)
n=1
che è un evento trascurabile poiché le v.a. Tn sono assolutamente continue. Questo prova la (8.1.5).
ii) Per la (8.1.4) si ha
P (Nt = n) = P (Tn ≤ t < Tn+1 ) =
(poiché (t ≥ Tn+1 ) ⊆ (t ≥ Tn ))
= P (Tn ≤ t) − P (Tn+1 ≤ t) =
(poiché Tn ∼ Gamman,λ )
t t
(λs)n−1 (λs)n
Z Z
= λe−λs ds − λe−λs ds
0 (n − 1)! 0 n!
da cui, integrando per parti il secondo integrale, segue la (8.1.6).

iii) È un semplice calcolo: per la ii) si ha
h i X (λt)n iηn X (λteiη )n
E eiηNt = e−λt e = e−λt
n! n!
n≥0 n≥0
da cui la tesi.
Osservazione 8.1.4 (Esponente caratteristico). La funzione caratteristica del processo di Poisson ha un’in-
teressante proprietà di omogeneità rispetto al tempo: infatti, per la (8.1.7) la CHF di Nt è della forma
ϕNt (η) = etψ(η) dove
ψ(η) = λ(eiη − 1) (8.1.8)
è una funzione che dipende da η ma non da t. Di conseguenza la funzione ψ determina la CHF di Nt per
ogni t e per questo motivo è chiamata esponente caratteristico del processo di Poisson.
Esempio 8.1.5 (Processo di Poisson composto). [!] Il processo di Poisson N è il punto di partenza per la
costruzione di processi stocastici ancor più interessanti e utili nelle applicazioni. La prima generalizzazione
consiste nel rendere aleatoria l’ampiezza dei salti che in N è fissata uguale a 1.
●
0.4
●
● 1
0.3
●
● ●
0.2 ●
● 0.2 0.4 0.6 0.8 1.0
●
0.1 ●
-1
●
●
0.2 0.4 0.6 0.8 1.0
●●
-0.1 ● -2
● ●
Figura 8.2: A sinistra: grafico di una traiettoria del processo di Poisson composto con λ = 10 e Zn ∼ N0,10−2 .
A destra: grafico di una traiettoria del processo di Poisson composto con λ = 1000 e Zn ∼ N0,10−2 .
Consideriamo uno spazio di probabilità su cui è definito un processo di Poisson N e una successio-
ne (Zn )n∈N di v.a. reali identicamente distribuite. Supponiamo che la famiglia costituita dalle (Zn )n∈N e
(τn )n∈N (le v.a. esponenziali che definiscono N ) sia una famiglia di v.a. indipendenti: questa costruzione
è possibile grazie al Corollario 6.3.7. Poniamo per convenzione Z0 = 0 e definiamo il processo di Poisson
composto nel modo seguente:
Nt
X
Xt = Zn , t ≥ 0.
n=0
Notiamo che il processo di Poisson è un caso particolare di X in cui Zn ≡ 1 per n ∈ N. In Figura 8.2
sono rappresentate due traiettorie del processo di Poisson composto con salti normali e diverse scelte del
parametro di intensità.
Sfruttando l’ipotesi di indipendenza è facile calcolare la CHF di Xt : in realtà è un calcolo già svolto
nell’Esercizio 3.5.4 dove avevamo provato che vale
ϕXt (η) = etψ(η) , ψ(η) = λ (ϕZ (η) − 1)
dove ϕZ (η) è la CHF di Z1 . Anche in questo caso la CHF di Xt è omogenea nel tempo e ψ è detto esponente
caratteristico del processo di Poisson composto. Come caso particolare, si ritrova la (8.1.8) se Zn ∼ δ1 ossia se i
salti sono unitari come nel processo di Poisson.
8.2 Proprietà di Markov e di Feller

Il seguente teorema fornisce due proprietà
cruciali degli incrementi Nt − Ns del processo di Poisson.
Ricordiamo (cfr. (6.4.1)) la notazione GtN
per la filtrazione generata da N .
t≥0
Teorema 8.2.1. [!] Per ogni 0 ≤ s < t si ha:
i) Nt − Ns ∼ Poissonλ(t−s) ;
ii) Nt − Ns è indipendente da GsN .
La i) implica che le v.a. Nt − Ns e Nt−s sono uguali in legge e per questo si dice che N ha gli incrementi
stazionari. La ii) afferma che N è un processo a incrementi indipendenti secondo la Definizione 7.3.1.
La dimostrazione del Teorema 8.2.1 è rinviata alla Sezione 8.4.

8.2. PROPRIETÀ DI MARKOV E DI FELLER 271
Definizione 8.2.2 (Funzione càdlàg). Si dice che una funzione f da un intervallo I a valori reali è càdlàg
(dal francese “continue à droite, limite à gauche”) se in ogni punto è continua da destra e ha limite finito
da sinistra5 .
La definizione di processo di Poisson può essere generalizzata nel modo seguente.
Definizione 8.2.3 (Processo di Poisson, II). Sia (Ω, F , P ) spazio di probabilità su cui è definita una filtra-
zione (Ft )t≥0 . Un processo di Poisson con intensità λ > 0 su tale spazio è un processo stocastico (Nt )t≥0 tale
che:
i) N0 = 0 q.c.;
ii) le traiettorie di N sono càdlàg q.c.;
iii) N è adattato a (Ft )t≥0 , ossia Nt ∈ mFt per ogni t ≥ 0;
iv) se s < t allora Nt − Ns è indipendente da Fs ;
v) se s < t allora Nt − Ns ha distribuzione Poissonλ(t−s) .
Per il Teorema 8.2.1, il processo N definito in (8.1.3) è un processo di Poisson secondo la Definizione
8.2.3 con la filtrazione G N generata da N . Viceversa, si può provare che se N è un processo di Poisson
secondo la Definizione 8.2.3 allora le v.a. Tn , definite ricorsivamente da
T1 = inf{t ≥ 0 | ∆Nt = 1}, Tn+1 := inf{t > Tn | ∆Nt = 1},
sono indipendenti e hanno distribuzione Expλ : per maggiori dettagli si veda, per esempio, il Cap.5 in [10].
Si noti che nella Definizione 8.2.3 la filtrazione non è necessariamente quella generata dal processo.
Teorema 8.2.4 (Proprietà di Markov). [!] Il processo di Poisson N è un processo di Markov e di Feller con
legge di transizione
p(t, x; T , ·) = Poissonx,λ(T −t)
e operatore caratteristico definito da
At ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , x ∈ R.
Per ogni ϕ ∈ bB si ha
E [ϕ(NT ) | Ft ] = u(t, Nt )
dove u è soluzione del problema di Cauchy backward

∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ [0, T [×R,


u(T , x) = ϕ(x),

 x ∈ R.
Dimostrazione. La tesi è una immediata conseguenza della Proposizione 7.3.2 e di quanto visto nella Se-
zione 7.5.2 relativa all’equazione di Kolmogorov backward: si veda in particolare l’Esempio 7.5.11. La
proprietà di Feller è stata provata nell’Esempio 7.4.5.
Diamo un’utile caratterizzazione del processo di Poisson.
Proposizione 8.2.5. [!] Sia N = (Nt )t≥0 un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ), che verifichi
le proprietà i), ii) e iii) della Definizione 8.2.3. Allora N è un processo di Poisson di parametro λ > 0 se e
solo se h i iη
E eiη(Nt −Ns ) | Fs = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R. (8.2.1)
5 Se I = [a, b], agli estremi assumiamo per definizione che lim f (x) = f (a) ed esista finito lim f (x).
x↘a x↗b
Dimostrazione. Se N è un processo di Poisson allora per l’indipendenza e stazionarietà degli incrementi e

per la (8.1.7) si ha
h i h i h i iη
E eiη(Nt −Ns ) | Fs = E eiη(Nt −Ns ) = E eiηNt−s = eλ(e −1)(t−s) .
Viceversa, se N verifica la (8.2.1) e le proprietà i), ii) e iii) della Definizione 8.2.3, rimangono da provare
le proprietà iv) e v). Applicando il valore atteso alla (8.2.1) si ha
h i iη
E eiη(Nt −Ns ) = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R.
Allora la iv) è ovvia conseguenza del fatto che la funzione caratteristica determina la distribuzione; la
proprietà v) di indipendenza degli incrementi segue dal punto 14) del Teorema 5.2.10.
Osservazione 8.2.6 (Processo di Poisson a intensità stocastica). La caratterizzazione data nella Proposi-
zione 8.2.5 permette di definire un’ampia classe di processi di cui il Poisson è un caso molto particolare.
In uno spazio (Ω, F , P , (Ft )t≥0 ) consideriamo un processo N = (Nt )t≥0 che verifichi le proprietà i), ii) e iii)
della Definizione 8.2.3 e un processo λ = (λt )t≥0 a valori non-negativi tale che per ogni t ≥ 0 valga
Z t
λt ∈ mF0 e λs ds < ∞ q.c.
0
Se
Rt
h i iη
E eiη(Nt −Ns ) | Fs = e(e −1) s λr dr
per ogni 0 ≤ s ≤ t e η ∈ R, allora N è chiamato processo di Poisson a intensità stocastica λ. Per maggiori
informazioni sui processi a intensità stocastica e le relative importanti applicazioni, si veda per esempio
[24].
8.3 Proprietà di martingala

Consideriamo un processo di Poisson N = (Nt )t≥0 sullo spazio (Ω, F , P , (Ft )t≥0 ). Notiamo che N non
è una martingala poiché E [Nt ] = λt è una funzione strettamente crescente e quindi il processo non è co-
stante in media. Tuttavia essendo un processo a incrementi indipendenti, dalla Proposizione 7.3.4 segue la
seguente
Proposizione 8.3.1 (Processo di Poisson compensato). Il processo di Poisson compensato, definito da
et := Nt − λt,
N t ≥ 0,
è una martingala.
Osserviamo esplicitamente che N e assume valori reali, al contrario di N che assume solo valori interi:
nella Figura 8.3 è rappresentata una traiettoria di un processo di Poisson compensato.
Osservazione 8.3.2. Il fatto che N e sia una martingala segue anche dal Teorema 7.5.13 applicato con ϕ(x) =
x. Più in generale, il Teorema 7.5.13 mostra come è possibile “compensare” un processo che sia funzione di
Nt in modo da ottenere una martingala.
8.4. APPENDICE 273
0.2 0.4 0.6 0.8 1.0
-1
-2
-3
Figura 8.3: Grafico di una traiettoria del processo di Poisson compensato.
8.4 Appendice
Dimostriamo il Teorema 8.2.1. Se N è un processo di Poisson allora per ogni 0 ≤ s < t si ha:
i) Nt − Ns ∼ Poissonλ(t−s) ;
ii) Nt − Ns è indipendente da GsN .

Dividiamo la dimostrazione in due passi.
[Primo passo] Dimostriamo che, fissati s > 0 e k ∈ N ∪ {0}, il processo definito da
(s)
Nh = Ns+h − Ns , h ∈ R≥0 , (8.4.1)
è un processo di Poisson rispetto alla probabilità condizionata all’evento (Ns = k), ossia N (s) è un processo
di Poisson sullo spazio (Ω, F , P (· | Ns = k)).
A tal fine, definiamo i salti “traslati”
(s) (s)
T0 = 0, Tn = Tk+n − s, n ∈ N,
che, sull’evento A := (Ns = k) ≡ (Tk ≤ s < Tk+1 ), formano una successione crescente q.c. (si veda la Figura
8.4). Osserviamo che
(s) (s)
0 T1 T2
Tk−1 Tk s Tk+1 Tk+2
(s)
Figura 8.4: Tempi di salto Tn e tempi di salto “traslati” Tn

(s) (s) (s)
(Nh = n) ∩ A = (Ns+h = n + k) ∩ A = (Tn+k ≤ s + h < Tn+k+1 ) ∩ A = Tn ≤ h < Tn+1 ∩ A
ossia, in accordo con la definizione di processo di Poisson nella forma (8.1.4), sull’evento A si ha
(s) (s) (s)
(Nh = n) = (Tn ≤ h < Tn+1 ), n ∈ N ∪ {0}.
Dunque è sufficiente verificare che i tempi

(s) (s) (s) (s)
τ1 := Tk+1 − s, τn := Tn − Tn−1 ≡ τk+n , n ≥ 2,
formino una successione di v.a. che, relativamente a P (· | Ns = k), hanno distribuzione Expλ e sono
indipendenti: pertanto, si tratta di provare che
 
\ J  YJ
(s)
P  (τj ∈ Hj ) | Ns = k  = Expλ (Hj ) (8.4.2)
 
 
j=1 j=1
per ogni J ∈ N e H1 , . . . , HJ ∈ B(R≥0 ). La (8.4.2) equivale a

 
 \J  J
Y
P (Ns = k) ∩ (Tk+1 − s ∈ H1 ) ∩ (τk+j ∈ Hj ) = P (Ns = k) Expλ (Hj ). (8.4.3)
 
 
j=2 j=1
Sfruttando il fatto che (Ns = k) ∩ (Tk+1 − s ∈ H1 ) = (Tk ≤ s) ∩ (Tk+1 − s ∈ H1 ), Tk+1 = Tk + τk+1 e le v.a.
Tk , τk+1 , . . . , τk+J sono indipendenti in P , la (8.4.3) si riduce a
P ((Tk ≤ s) ∩ (Tk + τk+1 − s ∈ H1 )) = P (Ns = k)Expλ (H1 ). (8.4.4)
Ora è sufficiente considerare il caso in cui H1 è un intervallo, H1 = [0, c]: poiché Tk e τk+1 sono indipendenti
in P , la densità congiunta è data dal prodotto delle marginali e, ricordando il Lemma 8.1.1, si ha
Z s Z c+s−x !
−λy
P ((Tk ≤ s) ∩ (τk+1 ∈ [s − Tk , c + s − Tk ])) = λe dy Gammak,λ (dx)
0 s−x
Zs
= e−λ(c+s−x) (eλc − 1)Gammak,λ (dx)
0
(sλ)k −λ(c+s) λc
= e (e − 1) = Poissonλs ({k})Expλ ([0, c])
k!
che prova la (8.4.4) con H1 = [0, c].
[Secondo passo] Per il primo passo, Nt − Ns è un processo di Poisson condizionatamente a (Ns = k) e quindi
vale
P (Nt − Ns = n | Ns = k) = Poissonλ(t−s) ({n}) (8.4.5)
per ogni s < t e n, k ∈ N ∪ {0}. Per la formula della probabilità totale si ha
X
P (Nt − Ns = n) = P (Nt − Ns = n | Ns = k)P (Ns = k) =
k≥0
(per la (8.4.5))
X
= Poissonλ(t−s) ({n})P (Ns = k) = Poissonλ(t−s) ({n}), (8.4.6)
k≥0
e questo prova la proprietà i). Inoltre, come conseguenza della (8.4.6), la formula (8.4.5) equivale a
P ((Nt − Ns = n) ∩ (Ns = k)) = P (Ns = k)P (Nt − Ns = n)

8.4. APPENDICE 275
che prova che gli incrementi adiacenti Nt − Ns e Ns = Ns − N0 sono indipendenti in P .

Più in generale, verifichiamo che gli incrementi adiacenti Nt − Nr e Nr − Ns , con 0 ≤ s < r < t, sono
indipendenti in P . Ricordando la notazione (8.4.1), si ha
(s) (s) (s)
P ((Nt − Nr = n) ∩ (Nr − Ns = k)) = P ((Nt−s − Nr−s = n) ∩ (Nr−s = k)) =
(per la formula della probabilità totale)

(s) (s) (s)
X
= P ((Nt−s − Nr−s = n) ∩ (Nr−s = k) | Ns = j)P (Ns = j) =
j≥0
(qui usiamo il fatto che N (s) è un processo di Poisson condizionatamente a (Ns = j) e quindi, per quanto
(s) (s) (s) (s)
appena provato, gli incrementi Nt−s − Nr−s e Nr−s sono indipendenti in P (· | Ns = j). Inoltre, Nr−s = Nr − Ns e
(s) (s)
Ns sono indipendenti in P e perciò P (Nr−s = k | Ns = j) = P (Nr−s = k))
(s) (s) (s)
X
= P (Nt−s − Nr−s = n | Ns = j)P (Nr−s = k)P (Ns = j)
j≥0
(s) (s) (s)
= P (Nt−s − Nr−s = n)P (Nr−s = k)
= P (Nt − Nr = n)P (Nr − Ns = k).
Dunque abbiamo provato che, per 0 ≤ s < r < t, l’incremento Nt − Nr è indipendente da X := Nr e da

Y := Nr − Ns : di conseguenza, Nt − Nr è indipendente anche da Ns = X − Y e questo prova la proprietà ii). 2
Capitolo 9
Processi continui
Probability is not a mere

computation of odds on the dice or
more complicated variants; it is the
acceptance of the lack of certainty in
our knowledge and the development
of methods for dealing with our
ignorance.
Nassim Nicholas Taleb
La nozione di continuità per processi stocastici, benché intuitiva, nasconde qualche piccola insidia e va
pertanto analizzata con attenzione. In questo capitolo assumiamo che I sia un intervallo reale della forma
I = [0, T ] oppure I = [0, +∞[. Inoltre indichiamo con C(I) l’insieme delle funzioni continue da I a valori
reali.
9.1 Continuità e continuità q.c.

Definizione 9.1.1 (Processo continuo q.c.). Un processo stocastico X = (Xt )t∈I sullo spazio (Ω, F , P ) è
continuo quasi certamente (q.c.) se la famiglia delle traiettorie continue
(X ∈ C(I)) := {ω ∈ Ω | X(ω) ∈ C(I)}
è un insieme quasi certo, ossia (X ∈ C(I)) ⊇ A con A ∈ F tale che P (A) = 1.
Osservazione 9.1.2 (Continuità e completezza). Se lo spazio (Ω, F , P ) è completo allora X è continuo

q.c. se e solo se P (X ∈ C(I)) = 1. Se (Ω, F , P ) non è completo, allora non è detto che (X ∈ C(I)) sia un
evento: infatti per definizione di processo stocastico si ha X −1 (H) ∈ F per ogni H ∈ B I ma C(I) < F I (cfr.
Osservazione 6.1.10) e quindi non è necessariamente vero che (X ∈ C(I)) ∈ F . Analogamente, in uno spazio
non completo, anche se X è continuo q.c., non è detto che quantità come

inf I + se I + := {t ∈ I | Xt > 0} , ∅,
Z 

M := sup Xt , J := Xt dt, T :=  (9.1.1)
t∈I I 0
 altrimenti,
siano variabili aleatorie.
277
278 CAPITOLO 9. PROCESSI CONTINUI
Osservazione 9.1.3 (Continuità e continuità q.c.). Sia X un processo continuo q.c. definito sullo spazio
(Ω, F , P ) e sia A come nella Definizione 9.1.1. Allora X è indistinguibile da X̄ := X1A che ha tutte le
traiettorie continue1 . Più esplicitamente, X̄ è definito da

X(ω) se ω ∈ A,


X̄(ω) = 
0
 altrimenti.
Diciamo che X̄ è una versione continua di X. Dunque, a meno di passare ad una versione continua, nel
seguito possiamo eliminare il “q.c.” e considerare processi continui invece di continui q.c.
A questo punto ci si può chiedere perché mai si sia introdotta la definizione di processo continuo q.c.
e non direttamente quella di processo continuo. Il fatto è che di solito si costruisce un processo stocastico,
per esempio il moto Browniano, a partire da una legge assegnata, mediante il Teorema di estensione di
Kolmogorov: in questo modo si riesce a dimostrare2 solo la continuità quasi certa delle traiettorie e quindi
solo in un secondo momento si passa alla versione continua.
Osservazione 9.1.4. Se X = (Xt )t∈I , con I = [0, 1], è un processo continuo allora M, J e T in (9.1.1) sono ben
definite e sono variabili aleatorie. Infatti basta osservare che
M= sup Xt .
t∈[0,1]∩Q
Inoltre J(ω) è ben definito per ogni ω ∈ Ω essendo tutte le traiettorie di X continue e vale
n
1X
J(ω) = lim X k (ω)
n→∞ n n
k=1
essendo l’integrale di una funzione continua uguale al limite delle somme di Riemann. Infine, (I + = ∅) =
(M ≤ 0) ∈ F e dunque anche [
(T < t) = (I + = ∅) ∪ (Xs > 0)
s∈Q∩[0,t[
appartiene a F per ogni 0 < t ≤ 1: questo basta a provare che T ∈ mF .
9.2 Versione canonica di un processo continuo

In questa sezione ci concentriamo sul caso I = [0, 1]. Ricordiamo che C([0, 1]) (scriviamo anche, più
semplicemente, C[0, 1]) è uno spazio metrico separabile e completo, ossia uno spazio polacco, con la distanza
uniforme
ϱmax (v, w) = max |v(t) − w(t)|, v, w ∈ C[0, 1].
t∈[0,1]
Consideriamo I = [0, 1] solo per semplicità: i risultati di questa sezione si estendono evidentemente al caso
in cui I = [0, T ] o anche I = R≥0 considerando la distanza
X 1 ( )
ϱmax (v, w) = min 1, max |v(t) − w(t)| , v, w ∈ C(R≥0 ).
2n t∈[0,n]
n≥1
Indichiamo Bϱmax la σ -algebra di Borel introdotta nella Sezione 2.4.2.

1 Non possiamo usare (X ∈ C(I)) al posto di A perché se (Ω, F , P ) non è completo allora X1
(X∈C(I)) non sarebbe necessariamente
un processo stocastico.
2 In realtà il discorso è più sottile e verrà precisato nella Sezione 9.3.
9.2. VERSIONE CANONICA DI UN PROCESSO CONTINUO 279
Secondo la definizione generale, un processo stocastico X = (Xt )t∈I è una funzione misurabile da (Ω, F )
a (RI , F I ). Mostriamo ora che se X è continuo allora è possibile sostituire il codominio (RI , F I ) con
(C(I), Bϱmax ), mantenendo la proprietà di misurabilità rispetto alla σ -algebra Bϱmax . Questo fatto non è
banale e merita di essere provato rigorosamente. Infatti, in base all’Osservazione 6.1.10, lo stesso C[0, 1]
non appartiene B [0,1] e quindi non è necessariamente vero che X −1 (C[0, 1]) sia un evento. Allo stesso modo,
i singoletti {w} non sono elementi a B [0,1] e quindi se
X : (Ω, F ) −→ (R[0,1] , B [0,1] )

è un processo stocastico, allora non necessariamente (X = w) è un evento. Al contrario, nello spazio
(C[0, 1], Bϱmax ) i singoletti sono misurabili (sono dischi di raggio zero nella metrica uniforme), ossia {w} ∈
Bϱmax per ogni w ∈ C[0, 1].
Proposizione 9.2.1. Sia X = (Xt )t∈[0,1] un processo stocastico continuo sullo spazio (Ω, F , P ). Allora la
mappa
X : (Ω, F ) −→ (C[0, 1], Bϱmax )
è misurabile.
Dimostrazione. Anzitutto mostriamo che Bϱmax è la σ -algebra generata dalla famiglia Ce dei cilindri della
forma3
Cet (H) := {w ∈ C[0, 1] | w(t) ∈ H}, t ∈ [0, 1], H ∈ B. (9.2.1)
Infatti, i cilindri del tipo (9.2.1) con H aperto di R generano σ (Ce) e sono aperti rispetto a ϱmax : di conse-
guenza Bϱmax ⊇ σ (Ce).
Viceversa, poiché (C[0, 1], ϱmax ) è separabile, ogni aperto è unione numerabile di dischi aperti. Quindi
Bϱmax è generata dalla famiglia dei dischi aperti che sono insiemi della forma
D(w, r) = {v ∈ C[0, 1] | ϱmax (v, w) < r},
dove w ∈ C[0, 1] è il centro e r > 0 è il raggio del disco. D’altra parte, ogni disco si ottiene mediante
operazioni numerabili di unione e intersezione di cilindri di Ce nel modo seguente
[ \
D(w, r) = {v ∈ C[0, 1] | |v(t) − w(t)| < r − n1 }.
n∈N t∈[0,1]∩Q
Quindi ogni disco appartiene a σ (Ce) e questo prova l’inclusione opposta.

Proviamo ora la tesi: per quanto appena provato, si ha

X −1 Bϱmax = X −1 σ (Ce) =
(poiché X è continuo)
= X −1 (σ (C )) ⊆ F
dove l’ultima inclusione è dovuta al fatto che X è un processo stocastico.
La Proposizione 9.2.1 permette di dare la seguente
Definizione 9.2.2 (Legge di un processo continuo q.c.). Sia X = (Xt )t∈I un processo continuo4 sullo spazio
(Ω, F , P ). La legge di X è la distribuzione µX definita su (C(I), Bϱmax ) da
µX (H) = P (X ∈ H), H ∈ Bϱmax .
d
Due processi continui X e Y sono uguali in legge se µX = µY : in tal caso scriviamo X = Y .
3 Usiamo la “tilde” per distinguere i cilindri di funzioni continue dai cilindri di R[0,1] definiti in (6.1.1).
4 Per l’Osservazione 9.1.3, la definizione si estende al caso di X continuo q.c. in modo ovvio.
In analogia con la Definizione 6.3.4 diamo la seguente

Definizione 9.2.3 (Versione canonica di un processo continuo q.c.). [!] Sia X = (Xt )t∈I un processo
continuo q.c. definito sullo spazio (Ω, F , P ) e con legge µX . La versione canonica di X è il processo stocastico
definito come funzione identità X(w) = w, w ∈ C(I), sullo spazio di probabilità (C(I), BµX , µX ) dove BµX è il
completamento5 di Bϱmax relativo a µX .
Osservazione 9.2.4. Le principali proprietà della versione canonica X sono:
i) X è un processo continuo uguale in legge a X;
ii) X è definito sullo spazio metrico polacco (C(I), ϱmax ): questo fatto è rilevante ai fini dell’esistenza della
versione regolare della probabilità condizionata (cfr. Teorema 5.3.2) ed è cruciale nello studio delle
equazioni differenziali stocastiche. Nel Capitolo 19 faremo ampio uso della versione canonica di
processi continui;
iii) X è definito su uno spazio di probabilità completo in cui gli esiti sono le traiettorie: t 7→ Xt (w) ≡ w(t),
t ∈ I. Questo fatto permette, per esempio, di dare una caratterizzazione intuitiva della proprietà di
Markov forte (cfr. Sezione 12.3).
Osservazione 9.2.5 (Spazio di Skorokhod). Lo spazio di Skorokhod è un ampliamento dello spazio delle
traiettorie continue che interviene nello studio dei processi stocastici discontinui (come, per esempio, il
processo di Poisson). Lo spazio di Skorokhod D(I) è formato dalle funzioni càdlàg (cfr. Definizione 8.2.2)
da I in R o, più in generale, a valori in uno spazio metrico. Tutti i risultati di questa sezione si estendono
al caso di processi con traiettorie càdlàg q.c. In particolare, è possibile definire su D(I) una metrica, la
distanza di Skorokhod, con la quale D(I) è uno spazio polacco. Ovviamente C(I) è un sotto-spazio di D(I)
e si dimostra che le distanze uniforme e di Skorokhod sono equivalenti su C(I). Il testo [19] fornisce una
trattazione completa sullo spazio di Skorokhod e sulle proprietà di compattezza (tightness) di famiglie di
misure di probabilità su D(I), in analogia con quanto visto nella Sezione 4.3.2.
9.3 Teorema di continuità di Kolmogorov

Il Teorema di estensione di Kolmogorov stabilisce l’esistenza di un processo che abbia una legge asse-
gnata ma non fornisce informazioni sulla regolarità delle traiettorie. In effetti, l’Esempio 6.2.6 mostra che
non si può dir nulla sulla continuità delle traiettorie di un processo a partire dalla sua distribuzione: mo-
dificando6 un processo continuo si può renderlo discontinuo senza cambiarne la legge. Per questo motivo
la costruzione di un processo mediante il Teorema di estensione di Kolmogorov avviene sullo spazio RI di
tutte le traiettorie.
D’altra parte, il seguente teorema mostra che se la legge di un processo X verifica opportune condizioni
allora esiste una modificazione continua di X: il risultato fondamentale al riguardo è il classico Teorema di
continuità di Kolmogorov di cui forniamo alcune versioni fra cui la più semplice è data dal seguente
Teorema 9.3.1 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈[0,1] un processo stocastico
reale definito su uno spazio di probabilità (Ω, F , P ). Se esistono tre costanti positive c, ε, p, con p > ε, tali
che
E [|Xt − Xs |p ] ≤ c|t − s|1+ε , t, s ∈ [0, 1], (9.3.1)
allora X ammette una modificazione X e con traiettorie α-Hölderiane per ogni α ∈ [0, ε [: precisamente, per
p
ε
ogni α ∈ [0, p [ e ω ∈ Ω esiste una costante positiva cα,ω , che dipende solo da α e ω, tale che
|X es (ω)| ≤ cα,ω |t − s|α ,

et (ω) − X t, s ∈ [0, 1].
5 Si ricordi l’Osservazione 2.4.3.
6 Qui “modificare un processo” significa prenderne una modificazione.
9.3. TEOREMA DI CONTINUITÀ DI KOLMOGOROV 281
Nella Sezione 9.5 diamo una dimostrazione del Teorema 9.3.1, ispirata alle idee originali di Kolmogorov,
alla fine della sezione. Consideriamo prima alcuni esempi.
Esempio 9.3.2. [!] Riprendiamo il Corollario 6.3.6 e consideriamo un processo Gaussiano (Xt )t∈[0,1] con
funzione di media m ≡ 0 e covarianza c(s, t) = s ∧ t. Per definizione, (Xt , Xs ) ∼ N0,Ct,s dove
!
t s∧t
Ct,s =
s∧t s
e quindi Xt −Xs ∼ N0,t+s−2s∧t . È facile provare una stima del tipo (9.3.1): anzitutto non è restrittivo assumere
√
s < t cosicché Xt − Xs = t − sZ con Z ∼ N0,1 ; allora, per ogni p > 0 si ha
p
E [|Xt − Xs |p ] = |t − s| 2 E [|Z|p ]
dove E [|Z|p ] < ∞ è una costante. Per il Teorema di continuità di Kolmogorov, X ammette una modificazione
e che è α-Hölderiana per ogni α < p/2−1 = 1 − 1 . Data l’arbitrarietà di p, si ha che X
X e è α-Hölderiana per
p 2 p
ogni α < 12 .
Esempio 9.3.3. [!] Proviamo ad applicare il criterio (9.3.1) di Kolmogorov ad un processo di Poisson N che
sappiamo avere le traiettorie discontinue: ricordando che Nt − Ns ∼ Poissonλ(t−s) , per p > 0 si ha
∞
X (λ(t − s))n
E [|Nt − Ns |p ] = e−λ(t−s) np =
n!
n=0
(poiché il primo termine della serie è nullo)

∞
X (λ(t − s))n
= e−λ(t−s) np
n!
n=1
∞
X (λ(t − s))n
≥ e−λ(t−s)
n!
n=1

= e−λ(t−s) eλ(t−s) − 1 ≈ λ(t − s) + o(t − s)
per t − s → 0. Ne segue che la stima (9.3.1) non è vera per nessun valore di ε > 0.
Il Teorema 9.3.1 può essere esteso in diverse direzioni: quelle più interessanti riguardano la regolarità
di ordine superiore, l’estensione al caso di I multidimensionale e al caso di processi a valori in spazi di
Banach. In tempi relativamente recenti, è stato osservato che il Teorema di continuità di Kolmogorov è
essenzialmente un risultato di natura analitica che può essere dimostrato come corollario del Teorema di
immersione di Sobolev, in una versione molto generale per i cosiddetti spazi di Besov. Riportiamo qui
l’enunciato dato in [109].
Teorema 9.3.4 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈Rd un processo stocastico reale.
Se esistono k ∈ N0 , 0 < ε < p e δ > 0 tali che
E [|Xt − Xs |p ] ≤ c|t − s|d+ε+kp
per ogni t, s ∈ Rd con |t − s| < δ, allora X ammette una modificazione X

e le cui traiettorie sono differenziabili
fino all’ordine k, con derivate localmente α-Hölderiane per ogni α ∈ [0, pε [.
Il Teorema 9.3.4 si estende anche al caso in cui X sia un processo a valori in uno spazio di Banach: il
seguente esempio è particolarmente rilevante nello studio delle equazioni differenziali stocastiche.
Esempio 9.3.5. Sia (Xtx )t∈[0,1] una famiglia di processi stocastici continui, indicizzata da x ∈ Rd : per quanto

visto nella Sezione 9.2, possiamo considerare X x come un processo a valori in C[0, 1], Bϱmax che è uno
spazio di Banach con la norma del massimo
∥X∥∞ := max |Xt |.

t∈[0,1]
Se vale h p i
E ∥X x − X y ∥∞ ≤ c|x − y|d+ε , x, y ∈ Rd ,
allora esiste una modificazione X

e (ossia X e tale che, per ogni x ∈ Rd , vale7 X
ex = X x q.c.) tale che
ety (ω)) ≤ c |x − y|α ,

Xetx (ω) − X x, y ∈ K,
∞
per ogni K compatto di Rd e α < pε , con c > 0 che dipende solo da ω, α e K.
9.4 Diffusioni e PDE paraboliche

Fissato T > 0, consideriamo l’operatore differenziale del second’ordine
N N
1X X
At = cij (t, x)∂xi xj + bi (t, x)∂xi , (t, x) ∈ ]0, T [×RN , (9.4.1)
2
i,j=1 i=1
dove b = (bi )i=1,...,N e C = (ci,j )i,j=1,...,N sono funzioni misurabili e la matrice C è simmetrica e semi-definita
positiva. Pur non essendo una definizione universalmente accettata in letteratura, possiamo definire una
diffusione con coefficienti b e C come un processo di Markov con operatore caratteristico della forma (9.4.1):
si ricordi che, per i risultati della Sezione 7.5.1, ciò equivale al fatto che l’operatore caratteristico del
processo sia locale (e, in pratica, che il processo sia continuo).
In questa sezione mostriamo che, sotto opportune ipotesi sui coefficienti, l’equazione alle derivate
parziali (in breve, PDE8 ) parabolica
(∂t + At )u(t, x) = 0
possiede una “soluzione fondamentale” che è la densità di transizione di un processo di Markov continuo.
In altri termini, è possibile costruire una diffusione con assegnati coefficienti b e C a partire da risultati
di risolubilità per l’operatore At in (9.4.1) che ha come coefficienti b e C : tali risultati sono di carattere
analitico e sono ben noti nell’ambito della teoria delle equazioni alle derivate parziali di evoluzione.
Per specificare le condizioni di regolarità sui coefficienti di At , introduciamo lo spazio bC α (]0, T [×RN )
delle funzioni continue, limitate e uniformemente Hölderiane nella variabile x di esponente α ∈ ]0, 1] con
la norma
|g(t, x) − g(t, y)|
[g]α := sup |g| + sup < ∞. (9.4.2)
]0,T [×RN 0<t<T |x − y|α
x,y
Sottolineiamo il fatto che gli elementi di bC α (]0, T [×RN ) sono funzioni continue in (t, x) e Hölderiane nella
variabile spaziale x, uniformemente rispetto alla variabile temporale t.
Ipotesi 9.4.1.
i) cij , bi ∈ bC α (]0, T [×RN ) per un certo α ∈ ]0, 1] e per ogni i, j = 1, . . . , N ;

ex = X x , t ∈ [0, 1] =1.
7 Nel senso che P X
t t
8 Acronimo per Partial Differential Equations.
9.4. DIFFUSIONI E PDE PARABOLICHE 283
ii) la matrice C := (cij )1≤i,j≤N è simmetrica e soddisfa la seguente condizione di uniforme parabolicità:
esiste una costante λ0 > 1 tale che
1 2
|η| ≤ ⟨C (t, x)η, η⟩ ≤ λ0 |η|2 , (t, x) ∈ ]0, T [×RN , η ∈ RN .
λ0
Indichiamo con C 1,2 (]0, T [×RN ) lo spazio delle funzioni differenziabili con continuità in ]0, T [×RN al
prim’ordine nella variabile t e fino al second’ordine in x.
Definizione 9.4.2 (Problema backward di Cauchy). Una soluzione classica del problema backward di
Cauchy per l’operatore ∂t + At su ]0, T [×RN , è una funzione u ∈ C 1,2 (]0, T [×RN ) ∩ C(]0, T ] × RN ) tale che

∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ ]0, T [×RN ,


(9.4.3)
u(T , x) = ϕ(x), x ∈ RN ,


dove ϕ è una funzione assegnata, chiamata dato finale.

La Sezione 26.4 è dedicata alla dimostrazione, decisamente lunga e complessa, del seguente risultato9 .
Teorema 9.4.3 (Soluzione fondamentale). [!!!] Sotto l’Ipotesi 9.4.1, esiste una funzione continua Γ =
Γ (t, x; s, y), definita per 0 < t < s ≤ T e x, y ∈ RN , tale che:
i) per ogni s ∈ ]0, T ] e ϕ ∈ bC(RN ) la funzione definita da
Z
u(t, x) = Γ (t, x; s, y)ϕ(y)dy, (t, x) ∈ ]0, s[×RN ,
RN
è soluzione classica del problema backward di Cauchy su ]0, s[×RN con dato finale ϕ. Per questo
motivo si dice che Γ è soluzione fondamentale dell’operatore ∂t + At su ]0, T [×RN ;
ii) la funzione Z
p(t, x; s, H) := Γ (t, x; s, y)dy, 0 < t < s ≤ T , x ∈ RN , H ∈ BN ,
H
è una legge di transizione10 che gode della proprietà di Feller (cfr. Definizioni 7.1.1 e 7.1.10) e
soddisfa l’equazione di Chapman-Kolmogorov (7.4.4);
iii) per ogni (s, y) ∈ ]0, T ] × RN , si ha Γ (·, ·; s, y) ∈ C 1,2 (]0, s[×RN ) e valgono le seguenti stime Gaussiane:
esistono due costanti positive λ, c che dipendono solo11 da T , N , α, λ0 e per le quali si ha
1 −1
Γ0 λ (s − t), x − y ≤ Γ (t, x; s, y) ≤ c Γ0 (λ(s − t), x − y) , (9.4.4)
c
c
∂xi Γ (t, x; s, y) ≤ √ Γ0 (λ(s − t), x − y) ,
s−t
∂x x Γ (t, x; s, y) + ∂t Γ (t, x; s, y) ≤ c Γ0 (λ(s − t), x − y)

i j
s−t
per ogni (t, x) ∈ ]0, s[×RN , dove Γ0 indica la Gaussiana standard N -dimensionale
1 |x|2
Γ0 (t, x) = N
e− 2t , t > 0, x ∈ RN .
(2πt) 2
9 Nella Sezione 26.4 proveremo un risultato equivalente, il Teorema 26.3.5, che è la versione forward del Teorema 9.4.3.
10 Per definizione, poniamo anche
p(s, x; s, ·) := lim− p(t, x; s, ·) = δx
t→s
con il limite inteso nel senso della convergenza debole.
11 Per comodità, assumiamo λ abbastanza grande in modo che [c ] , [b ] ≤ λ per ogni i, j = 1, . . . , N .
0 ij α i α 0
Osservazione 9.4.4. Raccogliamo alcune conseguenze del Teorema 9.4.3. Sotto l’Ipotesi 9.4.1 sulle funzioni
b, C , indichiamo con Γ la soluzione fondamentale del corrispondente operatore ∂t + At con At in (9.4.1).
Inoltre sia µ distribuzione su RN . Allora:
i) per il Teorema 7.4.4, esiste un processo di Markov X = (Xt )t∈[0,T ] che ha densità di transizione Γ ed è
tale che X0 ∼ µ. Per l’Osservazione 7.5.8, At è l’operatore caratteristico di X;
ii) per il Teorema 9.3.4 di continuità di Kolmogorov, il processo X ammette una modificazione con tra-
iettorie α-Hölderiane per ogni α < 21 . Infatti, per ogni 0 ≤ t < s ≤ T e p > 0, vale la seguente stima
integrale
E [|Xt − Xs |p ] = E [E [|Xt − Xs |p | Xt ]]
"Z #
p
=E |Xt − y| Γ (t, Xt ; s, y)dy ≤
RN
(per la stima Gaussiana dall’alto (9.4.4))

"Z #
p
p
≤ cE |Xt − y| Γ0 (λ(s − t), Xt − y) dy ≤ c(s − t) 2
RN
Xt −y
dove l’ultimo passaggio si giustifica col cambio di variabile z = √ ;
s−t
iii) vedremo in seguito che il processo X gode di una versione “forte” della proprietà di Markov (cfr.
Capitolo 12): ciò segue dal Teorema 12.1.2 e dal fatto che la legge di transizione p gode della proprietà
di Feller, ancora per Teorema 9.4.3-ii).
9.5 Dimostrazione del Teorema di continuità di Kolmogorov

Dobbiamo provare che, se X = (Xt )t∈[0,1] è un processo stocastico reale ed esistono tre costanti p, ε, c > 0
tali che
E [|Xt − Xs |p ] ≤ c|t − s|1+ε , t, s ∈ [0, 1], (9.5.1)
allora X ammette una modificazione Xe con traiettorie α-Hölderiane per ogni α ∈ [0, ε [.
p
Suddividiamo la dimostrazione in quattro passi di cui il terzo è il più tecnico e può essere saltato ad una
prima lettura.
[Primo passo] Combiniamo la disuguaglianza di Markov (4.1.2) con la (9.5.1) per ottenere la stima
E [|Xt − Xs |p ] c|t − s|1+ε

P (|Xt − Xs | ≥ λ) ≤ ≤ , λ > 0. (9.5.2)
λp λp
Osserviamo che dalla (9.5.2) segue che, fissato t ∈ [0, 1], esiste il limite in probabilità
lim Xs = Xt
s→t
e di conseguenza si ha anche convergenza quasi certa. Questo tuttavia non è sufficiente a dimostrare la tesi:
infatti lo stesso risultato vale, per esempio, per il processo di Poisson che ha tutte le traiettorie discontinue
(si ricordi la (8.1.5)). In effetti, Kolmogorov si rese conto che dalla (9.5.2) non è possibile ricavare diretta-
mente una stima dell’incremento Xt − Xs per ogni t, s a causa della non-numerabilità di [0, 1]. La sua idea fu
allora di restringere dapprima t, s alla famiglia numerabile dei razionali diadici di [0, 1] definiti da
[ n o
D= Dn , Dn = 2kn | k = 0, 1, . . . , 2n .
n≥1
9.5. DIMOSTRAZIONE DEL TEOREMA DI CONTINUITÀ DI KOLMOGOROV 285
Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N. Due elementi t, s ∈ Dn si dicono consecutivi se |t − s| = 2−n .
[Secondo passo] Stimiamo l’incremento Xt − Xs assumendo che t, s siano consecutivi di Dn : per la (9.5.2) si
ha
P |X kn − X k−1
n
| ≥ 2 −nα
≤ c 2n(αp−1−ε) .
2 2
Allora, posto [
−nα −nα
An = max |X k − X k−1 | ≥ 2 = |X k − X k−1 | ≥ 2 ,
1≤k≤2n 2n n 2 2n n2
1≤k≤2n
per la sub-additività di P , si ha
2n
X 2n
X
P (An ) ≤ P |X k − X k−1 |≥2 −nα
≤ c 2n(αp−1−ε) = c 2n(αp−ε) .
2n n 2
k=1 k=1
Dunque, se α < pε , si ha
X
P (An ) < ∞
n≥1
e per il Lemma 2.3.28 di Borel-Cantelli P (An i.o.) = 0: questo significa che esiste N ∈ F , con P (N ) = 0, tale
che per ogni ω ∈ Ω \ N esiste nα,ω ∈ N per cui
max |X k (ω) − X k−1 (ω)| ≤ 2−nα , n ≥ nα,ω .

1≤k≤2n 2n n 2
Di conseguenza si ha anche che per ogni ω ∈ Ω \ N esiste cα,ω > 0 tale che
max |X k (ω) − X k−1 (ω)| ≤ cα,ω 2−nα , n ∈ N.

1≤k≤2n 2n n 2
[Terzo passo] Stimiamo l’incremento Xt − Xs con t, s ∈ D, costruendo un’opportuna catena di punti con-
secutivi che congiunge s a t, per poi utilizzare, tramite la disuguaglianza triangolare, la stima ottenuta al
passo precedente. Dunque siano t, s ∈ D con s < t: poniamo
n̄ = min{k | t, s ∈ Dk }, n = max{k | t − s < 2−k },
cosicché n < n̄. Inoltre, per k = n + 1, . . . , n̄, definiamo ricorsivamente la sequenza
sn = max{τ ∈ Dn | τ ≤ s}, sk = sk−1 + 2−k sgn(s − sk−1 )
dove sgn(x) = x
|x|
se x , 0 e sgn(0) = 0. Si definisce (tk )n≤k≤n̄ in modo analogo. Allora sk , tk ∈ Dk e vale
|sk − sk−1 | ≤ 2−k , |tk − tk−1 | ≤ 2−k , k = n + 1, . . . , n̄.
Inoltre si prova che |tn − sn | ≤ 2−n e vale
|s − sk | < 2−k , |t − tk | < 2−k , k = n, . . . , n̄,
da cui sn̄ = s e tn̄ = t. Allora abbiamo

n̄
X n̄
X
Xt − Xs = Xtn − Xsn + (Xtk − Xtk−1 ) − (Xsk − Xsk−1 )
k=n+1 k=n+1
e quindi, per ogni ω ∈ Ω \ N ,

n̄
X
|Xt (ω) − Xs (ω)| ≤ cα,ω 2−nα + 2 cα,ω 2−kα
k=n+1
∞
X
≤ 2cα,ω 2−kα
k=n
2cα,ω −nα
= 2 ,
1 − 2−α
′ |t − s|α per una certa costante positiva c′ .
da cui segue che |Xt − Xs | ≤ cα,ω α,ω
[Quarto passo] Abbiamo provato che per ogni ω ∈ Ω\N la traiettoria X(ω) è α-Hölderiana su D e quindi si
prolunga in modo unico ad una funzione α-Hölderiana su [0, 1], che indichiamo con X(ω). e Ora definiamo
il processo X e le cui traiettorie sono X(ω)
e se ω ∈ Ω \ N e sono identicamente nulle su N . Proviamo che X e è
una modificazione di X, ossia P (Xt = X et ) = 1 per ogni fissato t ∈ [0, 1]: ciò è ovvio se t ∈ D. D’altra parte, se
t ∈ [0, 1] \ D, consideriamo una successione (tn )n∈N in D che approssima t. Abbiamo già osservato che per
la (9.5.2) si ha che Xtn converge a Xt in probabilità e quindi anche puntualmente q.c., a meno di passare ad
una sotto-successione: poiché Xtn = X et q.c., si ha anche Xt = X
n
et q.c. e questo conclude la prova.
Capitolo 10
Moto Browniano
In this section we will define

Brownian motion and construct it.
This event, like the birth of a child, is
messy and painful, but after a while
we will be able to have fun with our
new arrival.
Richard Durrett
Il moto Browniano è in assoluto il processo stocastico più importante. Deve il nome al botanico Robert
Brown per le sue osservazioni, attorno al 1820, sul movimento casuale di granelli di polline in sospensione
in una soluzione. Il moto Browniano fu utilizzato da Louis Bachelier nel 1900 nella sua tesi di dottorato
come modello per il prezzo dei titoli azionari e fu studiato da Albert Einstein in uno dei suoi famosi articoli
del 1905. La prima definizione matematica rigorosa di moto Browniano è dovuta a Norbert Wiener nel
1923.
10.1 Definizione
Definizione 10.1.1 (Moto Browniano). [!!!] Sia W = (Wt )t≥0 un processo stocastico reale definito su uno
spazio di probabilità con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che W è un moto Browniano se verifica le
seguenti proprietà:
i) W0 = 0 q.c.;
ii) W è continuo q.c.;
iii) W è adattato a (Ft )t≥0 , ossia Wt ∈ mFt per ogni t ≥ 0;
iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;
v) Wt − Ws ∼ N0,t−s per ogni t ≥ s ≥ 0.
Osservazione 10.1.2. Commentiamo brevemente le proprietà della Definizione 10.1.1: per la i) un moto
Browniano parte dall’origine. La ii) assicura che quasi tutte le traiettorie di W sono continue. Inoltre
W è adattato alla filtrazione (Ft ): questo significa che, in ogni fissato istante t, le informazioni in Ft sono
sufficienti ad osservare tutta la traiettoria di W fino al tempo t. Le iv) e v) sono meno intuitive ma possono
essere giustificate da alcune note proprietà, osservabili a livello statistico, dei moti casuali. Come per il
287
288 CAPITOLO 10. MOTO BROWNIANO
processo di Poisson, la iv) e v) sono chiamate rispettivamente proprietà di indipendenza e stazionarietà degli
incrementi (cfr. Definizione 7.3.1). In particolare, Wt − Ws è uguale in legge a Wt−s . In Figura 10.1 è
rappresentato il grafico di una traiettoria di un moto Browniano.
0.3
0.2
0.1
0.2 0.4 0.6 0.8 1.0
-0.1
-0.2
Figura 10.1: Grafico di una traiettoria di un moto Browniano
0
1.2
-1
-3
Figura 10.2: Grafico di 1.000 traiettorie di un moto Browniano e istogramma della sua distribuzione
campionaria al tempo t = 1
Osservazione 10.1.3. Nella Definizione 10.1.1 la filtrazione (Ft ) non è necessariamente quella generata da
W e indicata (GtW )t≥0 (cfr. Definizione 6.4.3). Chiaramente la proprietà iii) del moto Browniano implica che
GtW ⊆ Ft per ogni t ≥ 0. Vedremo nella Sezione 11.2 che è generalmente preferibile lavorare con filtrazioni
strettamente più grandi di G W affinché siano soddisfatte opportune ipotesi di carattere tecnico fra cui, per
esempio, la completezza.
Diamo un’utile caratterizzazione del moto Browniano.
10.1. DEFINIZIONE 289
Proposizione 10.1.4. [!] Un processo stocastico continuo q.c. W = (Wt )t≥0 è un moto Browniano relativa-
mente alla filtrazione (GtW )t≥0 generata da W se e solo se è un processo Gaussiano con funzione di media
nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Dimostrazione. Sia W un moto Browniano su (Ω, F , P , (GtW )t≥0 ). Per ogni 0 = t0 < t1 < · · · < tn , le variabili
aleatorie Zk := Wtk −Wtk−1 , hanno distribuzione normale; inoltre, per le proprietà iii) e v) del moto Brownia-
no, Zk è indipendente da GtW k−1
e quindi da Z1 , . . . , Zk−1 ∈ mGtW
k−1
. Questo prova che (Z1 , . . . , Zn ) è un vettore
multi-normale con componenti indipendenti. Anche (Wt1 , . . . , Wtn ) è multi-normale perché si ottiene da
(Z1 , . . . , Zn ) mediante la trasformazione lineare
h
X
Wth = Zk , h = 1, . . . , n,
k=1
e questo prova che W è un processo Gaussiano. Osserviamo anche che, assumendo s < t, si ha
cov(Ws , Wt ) = cov(Ws , Wt − Ws + Ws ) = cov(Ws , Wt − Ws ) + var(Ws ) = s
per l’indipendenza di Ws e Wt − Ws : questo prova che cov(Ws , Wt ) = s ∧ t.
Viceversa, sia W un processo Gaussiano con funzioni di media nulla e di covarianza cov(Ws , Wt ) = s ∧ t.
Poiché E [W0 ] = var(W0 ) = 0 si ha W0 = 0 q.c. Le proprietà ii) e iii) della definizione di moto Browniano
sono ovvie. Per provare la v) basta osservare che, se s < t, si ha
var(Wt − Ws ) = var(Wt ) + var(Ws ) − 2cov(Wt , Ws ) = t + s − 2(s ∧ t) = t − s.
Infine, dati τ ≤ s < t, il vettore (Wt − Ws , Wτ ) ha distribuzione normale perché combinazione lineare di
(Wτ , Ws , Wt ) e
cov(Wt − Ws , Wτ ) = cov(Wt , Wτ ) − cov(Ws , Wτ ) = τ − τ = 0.
Di conseguenza, Wt − Ws e Wτ sono indipendenti: poiché W è Gaussiano, ne segue anche che Wt − Ws è
indipendente da (Wτ1 , . . . , Wτn ) per ogni τ1 , . . . , τn ≤ s. Allora, per il Lemma 3.3.20, Wt − Ws è indipendente
da GsW e questo dimostra la validità della proprietà iv).
Osservazione 10.1.5. La Proposizione 10.1.4 afferma che le distribuzioni finito-dimensionali del moto
Browniano sono univocamente determinate: dunque √il moto Browniano è unico in legge.
ft := tW1 ha le stesse distribuzioni uno-dimensionali di W
Dato un moto Browniano W , il processo W
ma non è ovviamente un moto Browniano.
Esistono numerose dimostrazioni dell’esistenza del moto Browniano: alcune di esse si trovano, per
esempio, nelle monografie di Schilling [110] e Bass [10]. Qui vediamo il risultato come un corollario dei
Teoremi di estensione e continuità di Kolmogorov.
Teorema 10.1.6. Un moto Browniano esiste.
Dimostrazione. Il passo principale è la costruzione di un moto Browniano sull’intervallo temporale limitato
[0, 1]. Per il Teorema di estensione di Kolmogorov (in particolare, per il Corollario 6.3.6) esiste un processo
(0) (0) (0)
Gaussiano W (0) = (Wt )t∈[0,1] con funzione di media nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Per il Teorema di continuità di Kolmogorov e l’Esempio 9.3.2, W (0) ammette una modificazione continua
che, per la Proposizione 10.1.4, verifica le proprietà del moto Browniano su [0, 1].
Ora prendiamo una successione (W (n) )n∈N di copie indipendenti di W (0) . “Incolliamo” tali processi
(0)
definendo Wt = Wt per t ∈ [0, 1] e
[t]−1
(k)
X [t]
Wt = W1 + Wt−[t] , t > 1,
k=0
dove [t] indica la parte intera di t. Allora si prova facilmente che W è un moto Browniano.
Osservazione 10.1.7. Per quanto visto nell’Esempio 9.3.2, un moto Browniano ammette una modificazione
con traiettorie non solo continue ma anche localmente α-Hölderiane per ogni α < 21 . L’esponente α è stret-
tamente minore di 12 e tale risultato non è migliorabile: per maggiori dettagli rimandiamo, per esempio, al
Cap.7 in [10]. Un classico risultato, la Legge del logaritmo iterato, descrive precisamente il comportamento
asintotico degli incrementi Browniani: vale
|Wt |
lim sup q =1 q.c.
+
t→0 2t log log 1t
Di conseguenza, quasi certamente le traiettorie di un moto Browniano non sono differenziabili in nessun
punto: precisamente, esiste N ∈ F , con P (N ) = 0, tale che per ogni ω ∈ Ω \ N la funzione t 7→ Wt (ω) non è
differenziabile in nessun punto di [0, +∞[.
10.2 Proprietà di Markov e di Feller

Sia W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ). Fissati t ≥ 0 e x ∈ R, poniamo
WTt,x := WT − Wt + x, T ≥ t.
Definizione 10.2.1. Il processo W t,x = (WTt,x )T ≥t è chiamato moto Browniano di punto iniziale x al tempo t e
gode delle seguenti proprietà:
i) Wtt,x = x;
ii) quasi certamente le traiettorie T 7→ WTt,x sono continue;
iii) WTt,x ∈ mFT per ogni T ≥ t;
iv) WTt,x − Wst,x = WT − Ws è indipendente da Fs per ogni T ≥ s ≥ t;
v) WTt,x − Wst,x ∼ N0,T −s per ogni T ≥ s ≥ t.

Osservazione 10.2.2. Il processo W t,x è un moto Browniano anche rispetto alla propria filtrazione generata,
definita da
GTt,x := σ (Wst,x , s ∈ [t, T ]), T ≥ t.
Si noti che GTt,x ⊆ FT e si ha l’inclusione stretta Gtt,x = {∅, Ω} ⊂ Ft se t > 0.
Per la Proposizione 7.3.2 vale il seguente
Teorema 10.2.3 (Proprietà di Markov). [!]
Sia W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ). Allora W è un processo di Markov con densità di
transizione Gaussiana
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R, (10.2.1)
2π(T − t)
e di conseguenza, per ogni ϕ ∈ bB, vale
E [ϕ(WT ) | Ft ] = u(t, Wt )
con Z
u(t, x) := Γ (t, x; T , y)ϕ(y)dy. (10.2.2)
R
10.3. SPAZIO DI WIENER 291
Abbiamo provato nell’Esempio 7.4.6 la seguente

Proposizione 10.2.4 (Proprietà di Feller). Il moto Browniano verifica la proprietà di Feller forte.
Osservazione 10.2.5. La funzione u in (10.2.2) è di classe C ∞ ([0, T [×R) e inoltre, se ϕ ∈ bC(R), un conto
analogo a quello svolto nell’Esempio 4.1.3, mostra che
lim u(t, x) = ϕ(y)
(t,x)→(T ,y)
t<T
e quindi u ∈ C ([0, T ] × R) e u(0, ·) ≡ ϕ. Allora u è soluzione classica (cfr. Definizione 9.4.2) del problema di
Cauchy backward 
1
∂t u(t, x) + 2 ∂xx u(t, x) = 0, t ∈ [0, T [, x ∈ R,


u(T , x) = ϕ(x)

 x ∈ R.
Ciò è in accordo con l’Esempio 7.5.9, essendo At = 21 ∂xx l’operatore caratteristico della distribuzione di
transizione Gaussiana. Si noti che l’ipotesi ϕ ∈ bC(R) serve solo1 a dimostrare la continuità di u(t, x) fino a
t =T.
10.3 Spazio di Wiener

Per la Proposizione 10.1.4, un moto Browniano ha distribuzioni finito-dimensionali multi-normali. Più
precisamente, per la Proposizione 7.4.1 (in particolare, per la formula (7.4.2)) abbiamo il seguente
Teorema 10.3.1 (Densità finito-dimensionali). Sia W = (Wt )t≥0 un moto Browniano reale. Per ogni 0 <
t1 < · · · < tn , il vettore (Wt1 , . . . , Wtn ) ha densità
γ(Wt
1
,...,Wtn ) (x1 , . . . , xn ) = Γ (0, 0; t1 , x1 )Γ (t1 , x1 ; t2 , x2 ) · · · Γ (tn−1 , xn−1 ; tn , xn )
con Γ come in (10.2.1). La legge2 di W è detta misura di Wiener.

Definizione 10.3.2 (Spazio di Wiener). Lo spazio di probabilità (C(R≥0 ), BµW , µW ), dove µW è la misura
di Wiener e BµW è il µW -completamento3 della σ -algebra di Borel, è detto spazio di Wiener.
Ricordiamo la Definizione 9.2.3 di versione canonica di un processo continuo q.c. Un’immediata conse-
guenza della Proposizione 10.1.4 è il seguente
Corollario 10.3.3. Dato un moto Browniano W , la sua versione canonica W è un moto Browniano sullo
spazio di Wiener munito della filtrazione G W generata da W.
Anticipiamo il fatto che, dato un moto Browniano W , introdurremo in seguito (cfr. Sezione 11.2.3) una
filtrazione più ampia di quella generata da W in modo che valgano alcune proprietà di regolarità.
Esempio 10.3.4. Siano W un moto Browniano reale e 0 < t < T . Abbiamo le seguenti espressioni per le
densità congiunte di Wt e WT :
2
(T x −2txy+ty ) 2
1 −
γ(Wt ,WT ) (t, x; T , y) = γ(WT ,Wt ) (T , y; t, x) = p e 2t(T −t) .
2π t(T − t)
Per la Proposizione 5.3.20 abbiamo le densità condizionate
γ(WT ,Wt ) (T , y; t, x)
γWT |Wt (T , y; t, x) = = Γ (t, x; T , y),
γWt (t, x)
1 u ∈ C ∞ ([0, T [×R) per ogni ϕ ∈ bB.
2 Definizione 9.2.2
3 Osservazione 2.4.3.
2
T x− Tt y
( )
γ(Wt ,WT ) (t, x; T , y) 1 −
γWt |WT (t, x; T , y) = =q e 2t(T −t) .
γWT (T , y) t(T −t)
2π T
Dunque, in accordo col Teorema 10.2.3, abbiamo
µWT |Wt = NWt ,T −t .
Inoltre si ha anche
µWt |WT = N t W t(T −t) .
T T, T
10.4 Martingale Browniane

Sia W un moto Browniano sullo spazio (Ω, F , P , Ft ).
Proposizione 10.4.1. I seguenti processi sono martingale:
i) il moto Browniano W ;
ii) la martingala quadratica
Xt := Wt2 − t;
iii) la martingala esponenziale

σ2 t
Yt = e σ W t − 2
per ogni σ ∈ C.
Dimostrazione. Per la disuguaglianza di Hölder si ha
h i1 √
E [|Wt |] ≤ E Wt2 2 = t
e quindi W è un processo sommabile. La i) segue dalla Proposizione 7.3.4, essendo W un processo a media
costante nulla e incrementi indipendenti.
In modo simile, si provano ii) e iii): per esempio, si ha
h i h i
E [XT | Ft ] = E (WT − Wt + Wt )2 | Ft − T = E (WT − Wt )2 | Ft +2Wt E [WT − Wt | Ft ] +Wt2 − T = Wt2 − t.
| {z } | {z }
=T −t =0
Diamo un’utile caratterizzazione del moto Browniano in termini di martingale esponenziali.

Proposizione 10.4.2. Un processo continuo e adattato W , definito sullo spazio (Ω, F , P , Ft ) e tale che W0 =
0 q.c., è un moto Browniano se e solo se
η η2
Mt := eiηWt + 2 t
è una martingala per ogni η ∈ R.

Dimostrazione. Se W è un moto Browniano allora M η è una martingala per la Proposizione 10.4.1-iii).
Viceversa, è sufficiente verificare che per 0 ≤ s ≤ t:
i) Wt − Ws ha distribuzione normale N0,t−s ;
ii) Wt − Ws è indipendente da Fs .
10.4. MARTINGALE BROWNIANE 293
η
La proprietà di martingala di Mt equivale a
h i η2
E eiη(Wt −Ws ) | Fs = e− 2 (t−s) , η ∈ R.
Applicando il valore atteso ricaviamo la funzione caratteristica di Wt − Ws :

h i η2
E eiη(Wt −Ws ) = e− 2 (t−s) , η ∈ R,
da cui la tesi: in particolare, la proprietà di indipendenza segue dal 14) del Teorema 5.2.10.
La seguente versione del Teorema 7.5.13 fornisce un metodo generale per costruire una martingala
componendo un moto Browniano W con una funzione f = f (t, x) sufficientemente regolare. Assumiamo su
f anche una condizione di crescita del tipo
α
|f (t, x)| ≤ cT ecT |x| , (t, x) ∈ [0, T ] × R, (10.4.1)
con cT costante positiva dipendente da T e α ∈ [0, 2[: ciò garantisce la sommabilità del processo f (t, Wt ) per
t ∈ [0, T ].
Teorema 10.4.3. [!] Sia f = f (t, x) ∈ C 1,2 (R≥0 ×R) una funzione che verifica, insieme alle sue derivate prime
e seconde, la condizione di crescita (10.4.1). Allora il processo
Z t
1

Mt := f (t, Wt ) − f (0, W0 ) − ∂s f + ∂xx f (s, Ws )ds, t ∈ [0, T ],
0 2
è una martingala. In particolare, se f risolve l’equazione del calore backward allora f (t, Wt ) è una martin-
gala.
Dimostrazione. La dimostrazione è del tutto analoga a quella del Teorema 7.5.13. Per ogni s > t e x ∈ R, si
ha
Z Z
∂s Γ (t, x; s, y)f (s, y)dy = ∂s Γ (t, x; s, y)f (s, y) dy =
R R
(essendo ∂s Γ (t, x; s, y) = 12 ∂yy Γ (t, x; s, y))

Z Z
1
= Γ (t, x; s, y)∂s f (s, y)dy + ∂yy Γ (t, x; s, y)f (s, y)dy =
R R2
(integrando per parti nel secondo integrale)

Z
1

= Γ (t, x; s, y) ∂s f + ∂yy f (s, y)dy.
R 2
Posto x = Wt nella precedente formula, per la proprietà di Markov si ha
1

∂s E [f (s, Ws ) | Ft ] = E ∂s f + ∂xx f (s, Ws ) | Ft .
2
Ora integriamo in s fra t e T per ottenere
Z T
1

E [f (T , WT ) | Ft ] − f (t, Wt ) = E ∂s f + ∂xx f (s, Ws ) | Ft ds =
t 2
(scambiando i segni di integrale e attesa condizionata come nella prova del Teorema 7.5.13)
"Z T #
1

=E ∂s f + ∂xx f (s, Ws )ds | Ft .
t 2
In definitiva si ha
" Z T #
1

E [MT − Mt | Ft ] = E f (T , WT ) − f (t, Wt ) − ∂s f + ∂xx f (s, Ws )ds | Ft = 0
t 2
e questo conclude la prova.

Capitolo 11
Tempi d’arresto
n
B > n1
P
xi
i=1
(Be greater than average)
Kennedy Space Center
I tempi d’arresto sono uno strumento fondamentale nello studio dei processi stocastici: si tratta di
particolari tempi aleatori che soddisfano una proprietà di coerenza rispetto all’assegnata filtrazione delle
informazioni. Il concetto di tempo d’arresto è alla base di alcuni risultati profondi sulla struttura delle
martingale: il teorema di optional sampling, le disuguaglianze massimali e il lemma di upcrossing. Le
difficoltà principali della prova di questi risultati sono già evidenti in ambito discreto. Per passare al tempo
continuo sarà necessario introdurre ulteriori ipotesi sulle filtrazioni, le cosiddette ipotesi usuali. La seconda
parte del capitolo raccoglie alcuni risultati di carattere tecnico: si mostra come ampliare le filtrazioni di
processi di Markov e di altre classi importanti di processi stocastici, in modo da garantire le ipotesi usuali
mantenendo valide le proprietà dei processi.
11.1 Il caso discreto

In questa sezione consideriamo il caso in cui ci siano un numero finito di istanti temporali e per questo
fissiamo uno spazio di probabilità con filtrazione (Ω, F , P , (Fn )n=0,1,...,N ) con N ∈ N fissato.
Definizione 11.1.1 (Tempo d’arresto discreto). Un tempo d’arresto discreto è una variabile aleatoria
τ : Ω −→ {0, 1, . . . , N , ∞}
tale che
(τ = n) ∈ Fn , n = 0, . . . , N . (11.1.1)
Usiamo il simbolo “∞” per indicare un numero fissato non appartenente all’insieme {0, 1, . . . , N } degli
istanti temporali considerati: il motivo dell’utilizzo di tale simbolo sarà più chiaro in seguito, per esempio
nell’Esempio 11.1.3. Assumiamo ∞ > N cosicché
(τ ≥ n) := (τ = n) ∪ · · · ∪ (τ = N ) ∪ (τ = ∞)
per ogni n = 0, . . . , N .
295
296 CAPITOLO 11. TEMPI D’ARRESTO
Osservazione 11.1.2. Notiamo che:

i) la condizione (11.1.1) equivale a
(τ ≤ n) ∈ Fn , n = 0, 1, . . . , N ;
ii) si ha
(τ ≥ n + 1) = (τ ≤ n)c ∈ Fn , n = 0, . . . , N , (11.1.2)
e in particolare (τ = ∞) ∈ FN ;
iii) se τ, σ sono tempi d’arresto allora τ ∧ σ e τ ∨ σ sono tempi d’arresto poiché
(τ ∧ σ ≤ n) = (τ ≤ n) ∪ (σ ≤ n), (τ ∨ σ ≤ n) = (τ ≤ n) ∩ (σ ≤ n), n = 0, . . . , N ;
iv) i tempi costanti sono tempi d’arresto: precisamente, se τ ≡ k per un certo k ∈ {0, . . . , ∞}, allora τ è un
tempo d’arresto.
Esempio 11.1.3 (Tempo d’uscita). Dati X = (Xn )n=0,1,...,N , processo adattato a valori reali e H ∈ B, poniamo
J(ω) = {n | Xn (ω) < H}, ω ∈ Ω.
Il primo tempo d’uscita di X da H è definito da


min J(ω) se J(ω) , ∅,


τ(ω) = 
∞
 altrimenti.
D’ora in poi adotteremo la convenzione min ∅ = ∞ e quindi scriveremo in modo più compatto
τ = min{n | Xn < H}.
È facile vedere che τ è un tempo d’arresto: infatti (τ = 0) = (X0 < H) ∈ F0 e si ha
(τ = n) = (X0 ∈ H) ∩ · · · ∩ (Xn−1 ∈ H) ∩ (Xn < H) ∈ Fn , n = 1, . . . , N .
Al contrario, l’ultimo tempo di uscita


max J(ω) se J(ω) , ∅,


τ̄(ω) = 
∞
 altrimenti,
non è un tempo d’arresto.

Notazione 11.1.4. Dati un tempo d’arresto discreto τ e un processo stocastico X = (Xn )n=0,1,...,N , poniamo
Xτ := Xτ∧N ossia, per ogni ω ∈ Ω,

Xτ(ω) (ω) se τ(ω) ∈ {0, . . . , N },


(Xτ )(ω) := 
XN (ω)
 se τ(ω) = ∞,
Fτ := {A ∈ F | A ∩ (τ = n) ∈ Fn per ogni n = 0, . . . , N }. (11.1.3)
È facile provare che Fτ è una σ -algebra: infatti, per esempio, se A ∈ Fτ allora Ac ∩ (τ = n) = (τ = n) \

(A ∩ (τ = n)) ∈ Fn e quindi Ac ∈ Fτ . Notiamo che Fτ = {A ∈ F | A ∩ (τ ≤ n) ∈ Fn per ogni n = 0, . . . , N }.
Inoltre F∞ (ossia Fτ con τ ≡ ∞) è uguale a F .
La seguente proposizione raccoglie altre utili proprietà di Fτ .
Proposizione 11.1.5. Dati τ, σ tempi d’arresto discreti, si ha:
i) se τ ≡ k per un certo k ∈ {0, . . . , N } allora Fτ = Fk ;
ii) se τ ≤ σ allora Fτ ⊆ Fσ ;
iii) (τ ≤ σ ) ∈ Fτ ∩ Fσ ≡ Fτ∧σ ;
iv) se X = (Xn )n=0,...,N è un processo adattato allora Xτ ∈ mFτ .
Dimostrazione. La i) segue dal fatto che se τ ≡ k allora


A se k = n,


A ∩ (τ = n) = 
∅ se k , n.

Per quanto riguarda la ii) basta osservare che, dato n ∈ {0, . . . , N }, se τ ≤ σ allora (σ = n) ⊆ (τ ≤ n) e di
conseguenza per ogni A ∈ Fτ si ha
A ∩ (σ = n) = A ∩ (τ ≤ n) ∩ (σ = n) .
| {z } | {z }
∈Fn ∈Fn
Per la iii), ricordando la (11.1.2) si ha
(τ ≤ σ ) ∩ (τ = n) = (σ ≥ n) ∩ (τ = n) ∈ Fn ,
(τ ≤ σ ) ∩ (σ = n) = (τ ≤ n) ∩ (σ = n) ∈ Fn ,
da cui (τ ≤ σ ) ∈ Fτ ∩ Fσ . Ora, se A ∈ Fτ ∩ Fσ si ha
A ∩ (τ ∧ σ ≤ n) = A ∩ ((τ ≤ n) ∪ (σ ≤ n)) = (A ∩ (τ ≤ n)) ∪ (A ∩ (σ ≤ n)) ∈ Fn , n = 0, . . . , N ,
da cui segue che Fτ ∩ Fσ ⊆ Fτ∧σ . Viceversa, se A ∈ Fτ∧σ , poiché (τ = n) ⊆ (τ ∧ σ = n), si ha
A ∩ (τ = n) = (A ∩ (τ ∧ σ = n)) ∩ (τ = n) ∈ Fn
che prova l’inclusione opposta.

Infine, consideriamo H ∈ B: per provare che (Xτ ∈ H) ∈ Fτ basta osservare che
(Xτ ∈ H) ∩ (τ = n) = (Xn ∈ H) ∩ (τ = n) ∈ Fn , n = 0, . . . , N .
Questo prova la iv).
Definizione 11.1.6 (Processo stoppato). Dati un processo X = (Xn )n=0,...,N e un tempo d’arresto τ, il pro-
cesso stoppato X τ = (Xnτ )n=0,...,N è definito da
Xnτ = Xn∧τ , n = 0, . . . , N .
Proposizione 11.1.7. Si ha:
i) se X è adattato anche X τ lo è;
ii) se X è una sub-martingala anche X τ lo è.

Dimostrazione. La i) segue dal fatto che, per n = 0, . . . , N , si ha1

τ∧n
X
Xτ∧n = X0 + (Xk − Xk−1 )
k=1
n
X
= X0 + (Xk − Xk−1 )1(k≤τ)
k=1
e, per la (11.1.2), (k ≤ τ) ∈ Fk−1 . La ii) segue applicando l’attesa condizionata a Fn−1 all’identità
Xnτ − Xn−1
τ
= (Xn − Xn−1 )1(τ≥n) , n = 1, . . . , N ,
e ricordando che (τ ≥ n) ∈ Fn−1 .

Dalla Proposizione 11.1.7 segue anche che se X è una martingala (o una super-martingala) anche X τ lo
è. Lasciamo per esercizio la prova del seguente
Lemma 11.1.8. Siano X ∈ L1 (Ω, F , P ) e Z ∈ L1 (Ω, G , P ), dove G è una sotto-σ -algebra di F . Allora2 Z ≤
E [X | G ] se e solo se
E [Z1G ] ≤ E [X1G ] per ogni G ∈ G .
Proposizione 11.1.9. Sia X = (Xn )n=0,1,...,N un processo sommabile e adattato su (Ω, F , P , (Fn )n=0,1,...,N ). Le
seguenti proprietà sono equivalenti:
i) X è una sub-martingala;
ii) per ogni coppia di tempi d’arresto σ , τ si ha
Xτ∧σ ≤ E [Xτ | Fσ ] ;
iii) per ogni tempo d’arresto τ0 il processo stoppato X τ0 è una sub-martingala.

Dimostrazione. [i) =⇒ ii)] Osserviamo che
X
Xτ = Xτ∧σ + (Xk − Xk−1 ) = (11.1.4)
σ <k≤τ
(ricordando che, per la Notazione 11.1.4, Xτ = Xτ∧N )

N
X
= Xτ∧σ + (Xk − Xk−1 )1(σ <k≤τ) .
k=1
Ora, per i punti ii) e iv) della Proposizione 11.1.5, Xτ∧σ ∈ mFτ∧σ ⊆ mFσ e quindi condizionando (11.1.4) a
Fσ si ha
N
X h i
E [Xτ | Fσ ] = Xτ∧σ + E (Xk − Xk−1 )1(σ <k≤τ) | Fσ .
k=1
h i
Per concludere è sufficiente provare che E (Xk − Xk−1 )1(σ <k≤τ) | Fσ ≥ 0 per k = 1, . . . , N o equivalentemente,
grazie al Lemma 11.1.8,
h i h i
E Xk−1 1(σ <k≤τ) 1G ≤ E Xk 1(σ <k≤τ) 1G , G ∈ Fσ , k = 1, . . . , N . (11.1.5)
0
1 Con la convenzione P · · · = 0
k=1
2 Z ≤ E [X | G ] significa Z ≤ Y q.c. se Y = E [X | G ].
La (11.1.5) segue dalla proprietà di sub-martingala di X una volta osservato che, per definizione di Fσ e
per l’Osservazione 11.1.2-ii), vale
(σ < k ≤ τ) ∩ G = (σ < k) ∩ G ∩ (τ ≥ k) .
| {z } | {z }
∈Fk−1 ∈Fk−1
[ii) =⇒ iii)] Per il punto ii) con τ = τ0 ∧ n e σ = n − 1 si ha

h i
Xτ0 ∧(n−1) ≤ E Xτ0 ∧n | Fn−1 , n = 1, . . . , N ,
da cui la proprietà di sub-martingala di X τ0 .

[iii) =⇒ i)] La tesi è immediata scegliendo τ0 ≡ ∞.
11.1.1 Optional sampling, disuguaglianze massimali e lemma di upcrossing

Il seguente risultato è immediata conseguenza della Proposizione 11.1.9 (si ricordi anche la Notazione
11.1.4).
Teorema 11.1.10 (Teorema di optional sampling). [!!!] Sia X = (Xn )n=0,...,N una sub-martingala sullo
spazio (Ω, F , P , (Fn )n=0,...,N ). Se τ, σ sono tempi d’arresto discreti tali che σ ≤ τ allora
Xσ ≤ E [Xτ | Fσ ] . (11.1.6)
Se X è una martingala (rispettivamente, una super-martingala) allora la (11.1.6) diventa un’uguaglianza

(rispettivamente, si inverte il senso della disuguaglianza).
Proviamo ora due importanti conseguenze del Teorema di optional sampling:
• le disuguaglianze massimali di Doob che forniscono una stima del massimo di una martingala;
• il Lemma di risalita (Upcrossing lemma) che fornisce una stima sul comportamento locale di una
martingala e in particolare di “quante volte può oscillare intorno ad un intervallo”.
Una caratteristica fondamentale di entrambi i risultati è di fornire stime che dipendono solo dal valore
finale della martingala e non dal numero N di istanti temporali considerato: questo fatto cruciale permetterà
di passare facilmente dal caso discreto a quello continuo come vedremo nel Capitolo 13.
Teorema 11.1.11 (Disuguaglianze massimali di Doob). [!!!] Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Allora:
i) per ogni λ > 0 vale
E [|MN |]

P max |Mn | ≥ λ ≤ ; (11.1.7)
0≤n≤N λ
ii) per ogni p > 1 vale !p
p

p
E max |Mn | ≤ E [|MN |p ] . (11.1.8)
0≤n≤N p−1
Dimostrazione. La (11.1.7) è una versione della disuguaglianza di Markov (4.1.2), con p = 1, per le mar-
tingale discrete. Se M è una martingala allora, per la Proposizione 6.4.12, |M| è una sub-martingala non-
negativa: dunque basta provare la tesi nell’ipotesi che M sia una sub-martingala non-negativa. In tal caso
indichiamo con τ il primo istante in cui M supera il livello λ,
τ = min{n | Mn ≥ λ},
e poniamo
M̄ = max Mn .
0≤n≤N
Per l’Esempio 11.1.3 τ è un tempo d’arresto e per la Proposizione 11.1.5-iii) vale
(M̄ ≥ λ) = (τ ≤ N ) ∈ Fτ∧N .
Allora si ha
h i h i
λP (M̄ ≥ λ) = E λ1(M̄≥λ) ≤ E Mτ∧N 1(M̄≥λ) ≤
(per il Teorema di optional sampling)

h i
≤ E E [MN | Fτ∧N ] 1(M̄≥λ) =
(poiché (M̄ ≥ λ) ∈ Fτ∧N )

h h ii h i
= E E MN 1(M̄≥λ) | Fτ∧N = E MN 1(M̄≥λ) (11.1.9)

p
Ora osserviamo che M̄ p = max Mn . Dalla (4.1.5) abbiamo
0≤n≤N
h i Z +∞
E M̄ p = p λp−1 P M̄ ≥ λ dλ ≤
0
(per la (11.1.9))
Z +∞ h i
≤p λp−2 E MN 1(M̄≥λ) dλ ≤
0

M̄
 Z 
p−2 p h i
E MN M̄ p−1 ≤
 
≤ pE MN
 λ dλ =
0 p−1
p
(per la disuguaglianza di Hölder, essendo p−1 l’esponente coniugato di p)
p h p i 1 h i1− 1
≤ E MN p E M̄ p p
p−1
h i1− 1
da cui segue la (11.1.8) dividendo per E M̄ p p ed elevando alla p.
Corollario 11.1.12 (Disuguaglianze massimali di Doob). Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Per ogni tempo d’arresto discreto τ si ha:
i) per ogni λ > 0 vale

E [|Mτ |]

P max |Mn | ≥ λ ≤ ;
0≤n≤τ∧N λ
ii) per ogni p > 1 vale !p

p

p
E max |Mn | ≤ E [|Mτ |p ] .
0≤n≤τ∧N p−1
Dimostrazione. É sufficiente applicare il Teorema 11.1.11 alla martingala stoppata M τ (cfr. Definizione
11.1.6 e Proposizione 11.1.7).
Proviamo ora un risultato, decisamente bizzarro e sorprendente, che giocherà un cruciale nello studio
delle proprietà di regolarità e di convergenza delle martingale: il Lemma di “risalita” (Upcrossing lemma).
Esso mostra che il numero di “oscillazioni” di una martingala è controllato dal suo valore atteso finale.
Questo risultato è inaspettato e va contro l’idea che potremmo esserci fatti di una martingala come un
processo le cui traiettorie sono fortemente “oscillanti” (si pensi, per esempio, al moto Browniano).
Per formalizzare il risultato, fissiamo a, b ∈ R con a < b. Il Lemma di risalita fornisce una stima del
numero di volte in cui una martingala “risale” da un valore minore di a a un valore maggiore di b. Più
precisamente, data una martingala M = (Mn )n=0,...,N sullo spazio (Ω, F , P , (Fn )n=0,...,N ), poniamo τ0 := 0 e,
ricorsivamente al variare di k ∈ N,
σk := min{n ∈ {τk−1 , . . . , N } | Mn ≤ a}, τk := min{n ∈ {σk , . . . , N } | Mn ≥ b},
assumendo al solito la convenzione min ∅ = ∞. Per definizione, τk ≥ σk ≥ τk−1 e σk , τk sono tempi d’arresto a
valori in {0, . . . , N , ∞}. Se τk (ω) ≤ N allora τk (ω) è l’istante della k-esima risalita della traiettoria M(ω); invece,
se τk (ω) = ∞ allora il numero totale di risalite della traiettoria M(ω) è minore di k. In definitiva il numero di
risalite di M su [a, b] è dato da
νa,b := max{k ∈ N ∪ {0} | τk ≤ N }. (11.1.10)
Un ingrediente fondamentale della prova del Lemma di risalita è il Teorema di optional sampling in base
al quale, per ogni sub-martingala M, si ha
h i h i
E Mτk ≤ E Mσk+1 , k ∈ N. (11.1.11)
Ora è bene ricordare che, per definizione (cfr. Notazione 11.1.4), Mτk ≡ Mτk ∧N cosicché Mτk = MN su
(τk = ∞): in particolare, non è detto che Mτk (ω) ≥ b se τk (ω) = ∞. Questa osservazione è importante perché,
tra un istante di risalita τk (ω) ≤ N e il successivo, la traiettoria M(ω) deve “ridiscendere” da Mτk (ω) ≥ b
a Mσk+1 (ω) ≤ a. Il Teorema di optional sampling dice che questo non può accadere “troppo spesso”: se
h i h i
fosse σk+1 ≤ N , per la (11.1.11) si avrebbe b ≤ E Mτk ≤ E Mσk+1 ≤ a e questo è assurdo per l’ipotesi a < b.
Dunque, per ogni k ∈ N, l’evento (τk = ∞) non può essere trascurabile e, come già detto, tale evento è
identificabile con l’insieme delle traiettorie che hanno meno di k risalite. In questo senso la proprietà di
martingala e il Teorema di optional sampling limitano il numero di possibili risalite, e quindi di oscillazioni,
di M su [a, b]. Ora è chiaro che νa,b ≤ N , anzi più precisamente νa,b ≤ N2 se N ≥ 2: il fatto sorprendente del
Lemma di risalita è che fornisce una stima di νa,b indipendente da N .
Lemma 11.1.13 (Lemma di risalita). [!!] Per ogni sub-martingala M = (Mn )n=0,...,N e a < b, si ha
E [(MN − a)+ ]
E νa,b ≤
b−a
dove νa,b in (11.1.10) indica il numero di risalite di M su [a, b].
Dimostrazione. Poiché a, b sono fissati, nel corso della dimostrazione indichiamo νa,b semplicemente con ν.
Per definizione, τk ≤ N su (k ≤ ν) e τk = ∞ su (k > ν): pertanto, ricordando ancora che Mτ ≡ Mτ∧N per ogni
tempo d’arresto τ, si ha
N
X ν
X
(Mτk − Mσk ) = (Mτk − Mσk ) + Mτν+1 − Mσν+1 . (11.1.12)
k=1 k=1
Ora c’è un piccolo problema: l’ultimo termine Mτν+1 −Mσν+1 = MN −Mσν+1 può avere segno negativo (poiché
MN potrebbe anche essere minore di a). Per risolvere questo problema (vedremo tra poco quale sarà il
vantaggio) introduciamo il processo Y definito da Yn = (Mn − a)+ . Ricordiamo che Y è una sub-martingala
non-negativa (Proposizione 6.4.12) e il numero di risalite di M su [a, b] è uguale al numero di risalite di Y
su [0, b − a] poiché
σk = min{n ∈ {τk−1 , . . . , N } | Yn = 0}, τk = min{n ∈ {σk , . . . , N } | Yn ≥ b − a}.
Riscrivendo la (11.1.12) per Y , ora abbiamo

N
X ν
X ν
X
(Yτk − Yσk ) = (Yτk − Yσk ) + Yτν+1 − Yσν+1 ≥ (Yτk − Yσk ) ≥ (b − a)ν, (11.1.13)
k=1 k=1 k=1
poiché3 Yτν+1 − Yσν+1 ≥ 0. Per concludere, osserviamo che YN = YσN +1 e
N
X
YN ≥ YσN +1 − Yσ1 = (Yσk+1 − Yσk )
k=1
XN N
X
= (Yσk+1 − Yτk ) + (Yτk − Yσk ) ≥
k=1 k=1
(per la (11.1.13))
N
X
≥ (Yσk+1 − Yτk ) + (b − a)ν.
k=1
Applicando il valore atteso e il Teorema di optional sampling (la (11.1.11) con M = Y ) abbiamo infine la
tesi
E [YN ] ≥ E [(b − a)ν] .
Esercizio 11.1.14. Provare che, per ogni a < b, una funzione continua f : [0, 1] −→ R può avere solo un
numero finito di risalite su [a, b].
11.2 Il caso continuo

Lo studio dei tempi d’arresto nel caso continuo I = R≥0 richiede ulteriori ipotesi di carattere tecnico
sulle filtrazioni, le cosiddette “ipotesi usuali”, di cui discutiamo nelle prossime sezioni.
11.2.1 Ipotesi usuali e tempi d’arresto

Definizione 11.2.1 (Ipotesi usuali). Diciamo che una filtrazione (Ft )t≥0 nello spazio completo (Ω, F , P )
verifica le ipotesi usuali se:
i) è completa, ossia F0 (e quindi anche Ft per ogni t > 0) contiene la famiglia N degli eventi4 trascura-
bili;
ii) è continua a destra, ossia per ogni t ≥ 0 vale Ft = Ft+ dove
\
Ft+ := Ft+ε . (11.2.1)
ε>0
3 Si ha Y
τν+1 − Yσν+1 = YN ≥ 0 su (σν+1 ≤ N ) e Yτν+1 − Yσν+1 = 0 su (σν+1 = ∞).
4 Per ipotesi (Ω, F , P ) è completo e quindi ogni insieme trascurabile è un evento.
11.2. IL CASO CONTINUO 303
Se X è adattato ad una filtrazione (Ft ) che verifica le ipotesi usuali, allora anche ogni modificazione
di X è adattata a (Ft ). Senza l’ipotesi di completezza della filtrazione, l’affermazione è falsa. L’ipotesi di
continuità a destra della filtrazione è molto più sottile: essa significa che la conoscenza delle informazioni
fino al tempo t, rappresentate da Ft , permette di conoscere cosa succede “subito dopo” t, ossia Ft+ . Per
capire meglio questo fatto, che ora può apparire oscuro, introduciamo i concetti di tempo d’arresto in R≥0
e tempo d’uscita di un processo adattato.
Definizione 11.2.2 (Tempo d’arresto). In uno spazio con filtrazione (Ω, F , P , Ft ), un tempo d’arresto è una
variabile aleatoria5
τ : Ω −→ R≥0 ∪ {∞}
tale che
(τ ≤ t) ∈ Ft , t ≥ 0. (11.2.2)
Esempio 11.2.3 (Primo tempo di uscita). [!] Dati un processo X = (Xt )t≥0 e H ⊆ R poniamo

inf J(ω) se J(ω) , ∅,


τ(ω) =  dove J(ω) = {t ≥ 0 | Xt (ω) < H}.
∞
 se J(ω) = ∅,
Nel seguito scriveremo anche

τ = inf{t ≥ 0 | Xt < H}
assumendo per convenzione che l’estremo inferiore dell’insieme vuoto sia ∞ cosicché τ(ω) = ∞ se Xt (ω) ∈ H
per ogni t ≥ 0. Diciamo che τ è il primo tempo di uscita di X da H.
Proposizione 11.2.4 (Tempo di uscita da un aperto). [!] Sia X un processo adattato e continuo sullo spazio
(Ω, F , P , Ft ). Il primo tempo di uscita di X da un aperto H è un tempo d’arresto.
Dimostrazione. La tesi è conseguenza dell’uguaglianza

[ \
(τ > t) = dist(Xs , H c ) ≥ n1 (11.2.3)
n∈N s∈Q∩[0,t)

poiché dist(Xs , H c ) ≥ n1 ∈ Fs per s ≤ t e quindi (τ ≤ t) = (τ > t)c ∈ Ft . Proviamo la (11.2.3): se ω appartiene
al membro destro allora esiste n ∈ N tale che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ Q∩[0, t); poiché X ha traiettorie
continue, ne viene che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ [0, t] e quindi, sempre per la continuità di X, deve
essere τ(ω) > t.
Viceversa, se τ(ω) > t allora l’insieme compatto K := {Xs (ω) | s ∈ [0, t]} è incluso in H: essendo H aperto
si ha che dist(K, H c ) > 0 e questo basta a concludere.
Nel prossimo lemma proviamo che per ogni tempo d’arresto τ vale
(τ < t) ∈ Ft , t > 0. (11.2.4)
In generale, la (11.2.4) è più debole della (11.2.2) ma, sotto le ipotesi usuali sulla filtrazione, tali condizioni
sono equivalenti.
Lemma 11.2.5. Ogni tempo d’arresto τ soddisfa la (11.2.4). Viceversa, se vale la (11.2.4) e la filtrazione
(Ft )t≥0 è continua a destra allora τ è un tempo d’arresto.
5 Ossia vale (τ ∈ H) ∈ F per ogni H ∈ B. Di conseguenza anche (τ = ∞) = (τ ∈ [0, ∞))c ∈ F .
Dimostrazione. Si ha [
(τ < t) = τ ≤ t − n1 .
n∈N

Se τ è un tempo d’arresto allora τ ≤ t − n1 ∈ F 1 ⊆ Ft per ogni n ∈ N, da cui segue la prima parte della
t− n
tesi.
Viceversa, se vale la (11.2.4) allora per ogni ε > 0 si ha
\
(τ ≤ t) = τ < t + n1 ∈ Ft+ε .
n∈N
1
n <ε
Quindi \
(τ ≤ t) ∈ Ft+ε = Ft
ε>0
grazie all’ipotesi di continuità a destra della filtrazione.
Osservazione 11.2.6. Se τ è un tempo d’arresto si ha
(τ = t) = (τ ≤ t) \ (τ < t) ∈ Ft .
Inoltre \ [
(τ = ∞) = (τ ≥ t) ∈ Ft .
t≥0 t≥0
Notiamo che l’unione di σ -algebre non è in generale una σ -algebra. Pertanto indichiamo con
[ !
F∞ := σ Ft (11.2.5)
t≥0
la più piccola σ -algebra che contiene Ft per ogni t ≥ 0. Chiaramente (τ = ∞) ∈ F∞ .

Proposizione 11.2.7 (Tempo d’uscita da un chiuso). Sia X un processo adattato e continuo sullo spazio
(Ω, F , P , Ft ). Il primo tempo di uscita τ di X da un chiuso H verifica la (11.2.4). Se la filtrazione è continua
a destra allora τ è un tempo d’arresto.
Dimostrazione. Poiché H c è aperto e X è continuo, per ogni t > 0 si ha
[
(τ < t) = (Xs ∈ H c )
s∈Q∩[0,t)
e la tesi segue dal fatto che (Xs ∈ H c ) ∈ Ft per s ≤ t poiché X è adattato a (Ft ). La seconda parte della tesi
segue direttamente dal Lemma 11.2.5.
Osservazione 11.2.8. Sotto le ipotesi usuali anche il tempo d’uscita da un Boreliano è un tempo d’arresto,
ma il risultato è molto più difficile da provare: si veda, per esempio, la Sezione I.10 in [23].
Osservazione 11.2.9. [!] Commentiamo la Proposizione 11.2.7 osservando la Figura 11.1 dove è rappre-
sentato il primo tempo di uscita τ di X dal chiuso H. Fino al tempo τ, compreso τ, la traiettoria di X è
inclusa in H. Ora si noti la differenza fra gli eventi
(τ < t) = “X esce da H prima del tempo t”,

(τ ≤ t) = “X esce da H prima o subito dopo t”.
Figura 11.1: Grafico di una traiettoria di un processo continuo X e del suo primo tempo di uscita da un
chiudo H
Intuitivamente è plausibile che, senza la necessità di imporre condizioni sulla filtrazione, si possa dimo-
strare (è ciò che abbiamo fatto nella Proposizione 11.2.7) che (τ < t) ∈ Ft ossia che il fatto che X esca da H
prima del tempo t sia osservabile in base alla conoscenza di cosa è successo fino al tempo t (cioè Ft , in parti-
colare conoscendo la traiettoria del processo fino al tempo t). Al contrario, è solo grazie alla continuità a
destra della filtrazione che si può provare che (τ ≤ t) ∈ Ft . Infatti, se t = τ(ω) allora Xt (ω) ∈ ∂H e in base
all’osservazione della traiettoria di X fino al tempo t (ossia, avendo le informazioni in Ft ) non è possibile
sapere se X(ω) continuerà a rimanere dentro H oppure uscirà da H immediatamente dopo t. In effetti, per
una filtrazione generica (τ ≤ t) < Ft ossia, come già osservato, la condizione (τ < t) ∈ Ft è più debole di
(τ ≤ t) ∈ Ft . D’altra parte, se (Ft )t≥0 verifica le ipotesi usuali (in particolare, la continuità da destra) allora
le due condizioni (τ < t) ∈ Ft e (τ ≤ t) ∈ Ft sono equivalenti (Lemma 11.2.5). Come avevamo anticipato,
questo significa che la continuità da destra della filtrazione fa sı̀ che conoscendo Ft possiamo anche sapere
cosa succede “subito dopo” il tempo t.
11.2.2 Ampliamento di filtrazioni e processi di Markov

Osservazione 11.2.10. I risultati di questa sezione e del resto del capitolo sono utili ma hanno dimostrazio-
ni abbastanza tecniche e poco informative: ad una prima lettura si consiglia quindi di leggere gli enunciati
ma di saltare le dimostrazioni.
Abbiamo spiegato l’importanza delle ipotesi usuali sulle filtrazioni e i motivi per cui è preferibile assu-
mere la validità di tali ipotesi. In questa sezione proviamo che è sempre possibile modificare una filtrazione
in modo che soddisfi le ipotesi usuali e, sotto opportune condizioni, è anche possibile conservare alcune
proprietà fondamentali dei processi considerati, come per esempio la proprietà di Markov.
Consideriamo uno spazio completo (Ω, F , P ) munito di una generica filtrazione (Ft )t≥0 e indichiamo
con N la famiglia degli eventi trascurabili. Si può sempre ampliare (Ft )t≥0 in modo che le ipotesi usuali
siano soddisfatte:
i) ponendo
F¯t := σ (Ft ∪ N ) , t ≥ 0, (11.2.6)
definiamo la più piccola filtrazione6 in (Ω, F , P ), che completa ed estende (Ft )t≥0 .
ii) la filtrazione (Ft+ )t≥0 definita da (11.2.1) è continua a destra.

Combinando i punti i) e ii) (non importa in quale ordine), si ottiene la filtrazione F¯t+ che è la più
t≥0
piccola filtrazione che estende (Ft )t≥0 e verifica le ipotesi usuali.
6 Si ha ovviamente F¯ ⊆ F¯ se 0 ≤ t ≤ T . Inoltre F¯ ⊆ F per ogni t ≥ 0 grazie all’ipotesi di completezza di (Ω, F , P ).
t T t

Definizione 11.2.11 (Ampliamento standard di una filtrazione). La filtrazione F¯t+ è detta amplia-
t≥0
mento standard della filtrazione (Ft )t≥0 .
Ora consideriamo un processo stocastico X = (Xt )t≥0 su (Ω, F , P ) e usiamo al solito7 la notazione
GtX = σ (Xs , s ≤ t), t ≥ 0,
per indicare la filtrazione generata da X.
standard di un processo). La filtrazione standard di un processo X, nel

Definizione 11.2.12 (Filtrazione

seguito indicata con F X = FtX , è l’ampliamento standard di G X .
t≥0
Supponiamo che X = (Xt )t≥0 sia un processo di Markov con legge di transizione p sullo spazio completo
con filtrazione (Ω, F , P , (Ft )t≥0 ). In generale non è un problema “rimpicciolire” la filtrazione: più preci-
samente, se (Gt )t≥0 è una filtrazione tale che GtX ⊆ Gt ⊆ Ft per ogni t ≥ 0, ossia (Gt )t≥0 è più piccola di
(Ft )t≥0 ma più grande di (GtX )t≥0 , allora è immediato verificare che X è un processo di Markov anche sullo
spazio (Ω, F , P , (Gt )t≥0 ). Il problema non è ovvio quando si vuole ampliare la filtrazione. I risultati seguenti
forniscono condizioni sotto le quali è possibile ampliare la filtrazione di un processo di Markov in modo
che verifichi le ipotesi usuali e rimanga valida la proprietà di Markov.
Proposizione 11.2.13. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , Ft ). Allora X è un processo di Markov con legge di transizione p su (Ω, F , P )
con la filtrazione (F¯t )t≥0 in (11.2.6).
Dimostrazione. Chiaramente X è adattato rispetto a F¯ quindi c’è solo da provare che
p(t, Xt ; T , H) = P (XT ∈ H | F¯t ), 0 ≤ t ≤ T , H ∈ B.
Posto Z = p(t, Xt ; T , H) si ha Z ∈ mσ (Xt ) ⊆ mF¯t ; in base alla definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ F¯t si ha h i
E [Z1G ] = E 1(XT ∈H) 1G . (11.2.7)
La (11.2.7) è vera se G ∈ Ft : d’altra parte (cfr. Osservazione 2.4.3) G ∈ F¯t = σ (Ft ∪ N ) se e solo se
G △ A ∈ N per un certo A ∈ Ft . Dunque si ha
h i h i
E [Z1G ] = E [Z1A ] = E 1(XT ∈H) 1A = E 1(XT ∈H) 1G .
È possibile ampliare la filtrazione in modo da renderla continua a destra e mantenere la proprietà di

Markov, assumendo ulteriori ipotesi di continuità delle traiettorie del processo (continuità a destra q.c.) e
di continuità della legge di transizione del processo (proprietà di Feller, Definizione 7.1.10).
Proposizione 11.2.14. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , (Ft )t≥0 ). Supponiamo che X sia un processo di Feller con traiettorie continue
a destra q.c. Allora X è un processo di Markov con legge di transizione p su (Ω, F , P , (Ft+ )t≥0 ).
Dimostrazione. Chiaramente X è adattato rispetto a (Ft+ )t≥0 quindi c’è solo da provare la proprietà di
Markov ossia che per ogni 0 ≤ t < T e ϕ ∈ bB valga
Z
Z = E [ϕ(XT ) | Ft+ ] dove Z := p(t, Xt ; T , dy)ϕ(y).
R
7 Come in (6.4.1).
Per il teorema di Fubini, Z ∈ mFt ⊆ mFt+ . Quindi, per definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ Ft+ si abbia
E [ϕ(XT )1G ] = E [Z1G ] . (11.2.8)
Ora, sia h > 0 tale che t + h < T : si ha G ∈ Ft+h e quindi, per la proprietà di Markov di X rispetto a (Ft )t≥0 ,
si ha "Z #
E [ϕ(XT )1G ] = E p(t + h, Xt+h ; T , dy)ϕ(y)1G . (11.2.9)
R
Per la continuità da destra delle traiettorie di X e la proprietà di Feller di p, passando al limite per h → 0+
in (11.2.9) grazie al teorema della convergenza dominata si trova la (11.2.8).
Osservazione 11.2.15. [!] Combinando le Proposizioni 11.2.13 e 11.2.14 si ha il seguente risultato: se X è

un processo di Markov, continuo a destra e di Feller, sullo spazio completo (Ω, F , P , (Ft )t≥0 ) allora X è un processo
di Markov anche sullo spazio completo (Ω, F , P , (F¯t+ )t≥0 ) in cui valgono le ipotesi usuali.
Nel caso particolare in cui X sia un processo di Markov rispetto alla propria filtrazione standard F X si
prova che
FtX = σ (GtX ∪ N ), t ≥ 0. (11.2.10)
In altri termini, F X si ottiene completando la filtrazione generata da X e la proprietà di continuità a destra
è automaticamente soddisfatta.
Proposizione 11.2.16. [!] Se X un processo di Markov rispetto alla propria filtrazione standard F X allora
vale la (11.2.10).
Dimostrazione. La dimostrazione è basata sulla proprietà di Markov estesa del Teorema 7.2.4 in base al
quale si ha8
h i
ZE [Y | Xt ] = E ZY | FtX , Z ∈ bσ (GtX ∪ N ), Y ∈ bGt,∞
X
.
Poiché ogni versione di E [Y | Xt ] è σ (Xt )-misurabile

h e data il’unicità dell’attesa condizionata a meno di
eventi trascurabili, si deduce che ogni versione di E ZY | FtX è σ (GtX ∪ N )-misurabile: date le ipotesi su
Y e Z, tale proprietà di misurabilità vale anche se al posto di ZY mettiamo una qualsiasi variabile aleatoria
X ∪ N ). In particolare, per A ∈ F X ⊆ σ (G X ∪ N ) otteniamo
in bσ (G∞ t ∞
h i
1A = E 1A | FtX ∈ bσ (GtX ∪ N ).
Osservazione 11.2.17. [!] Combinando le Proposizioni 11.2.13, 11.2.14 e 11.2.16 si ha il seguente risultato:
sia X un processo di Markov rispetto alla propria filtrazione generata G X e supponiamo che X sia continuo a destra
e di Feller; allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Markov anche rispetto alla filtrazione
standard F X (che verifica le ipotesi usuali).
Consideriamo ora un processo di Markov X sullo spazio (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali
e ricordiamo la definizione (7.2.6) della σ -algebra Gt,∞
X
delle informazioni future su X a partire dal tempo
t.
Teorema 11.2.18 (Legge 0-1 di Blumenthal). Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Se A ∈
Ft ∩ Gt,∞
X
allora P (A | Xt ) = 1 oppure P (A | Xt ) = 0.
8 Nel senso della Convenzione 5.2.5. Si noti che Z ∈ bσ (G X ∪ N ) ⊆ bF X .
t t
Dimostrazione. Notiamo esplicitamente che A non è necessariamente σ (Xt )-misurabile9 : se cosı̀ fosse, la
tesi sarebbe ovvia conseguenza dell’Esempio 5.3.3. D’altra parte, per il Corollario 7.2.5, Ft e Gt,∞
X
sono,
condizionatamente a Xt , indipendenti: ne viene che A è indipendente da sè stesso (condizionatamente a
Xt ) e quindi vale
P (A | Xt ) = P (A ∩ A | Xt ) = P (A | Xt )2 .
Da ciò si deduce che P (A | Xt ) può assumere solo i valori 0 oppure 1.
Esempio 11.2.19. [!] Riprendiamo l’Esempio 11.2.3 e supponiamo che τ sia il tempo di uscita da un chiuso
H, di un processo continuo di Markov X sullo spazio (Ω, F , P , F X ). Applichiamo la Legge 0-1 di Blumen-
thal con t = 0: chiaramente (τ = 0) ∈ F0X = F0X ∩ F0,∞ X
poiché τ è un tempo d’arresto; qui (τ = 0) indica
l’evento secondo il quale il processo X esce immediatamente da H. Allora si ha P (τ = 0 | X0 ) = 0 oppure
P (τ = 0 | X0 ) = 1, ossia quasi tutte le traiettorie di X escono subito da H oppure quasi nessuna. Questo fatto
è particolarmente interessante quando X0 appartiene al bordo di H.
11.2.3 Ampliamento di filtrazioni e processi di Lévy

Studiamo ora il problema dell’ampliamento della filtrazione nel caso del processo di Poisson e del moto
Browniano. Per trattare l’argomento in modo unificato, introduciamo una classe di processi di cui il Poisson
e il Browniano sono casi particolari.
Definizione 11.2.20 (Processo di Lévy). Sia X = (Xt )t≥0 un processo stocastico reale definito su uno spazio
di probabilità completo con filtrazione (Ω, F , P , Ft ). Diciamo che X è un processo di Lévy se verifica le
seguenti proprietà:
i) X0 = 0 q.c.;
ii) le traiettorie di X sono càdlàg q.c.;
iii) X è adattato a (Ft );
iv) Xt − Xs è indipendente da Fs per ogni 0 ≤ s ≤ t;
v) gli incrementi Xt − Xs e Xt+h − Xs+h hanno la stessa legge per ogni 0 ≤ s ≤ t e h ≥ 0.
Osservazione 11.2.21. [!!] Le proprietà iv) e v) si esprimono dicendo che X ha gli incrementi indipen-
denti e stazionari. Per la Proposizione 7.3.2, un processo di Lévy X è un processo di Markov con legge di
transizione p(t, x; T , ·) uguale alla distribuzione di XT − Xt + x: tale legge è omogenea nel tempo grazie alla
stazionarietà degli incrementi. Ne segue in particolare che ogni processo di Lévy è un processo di Feller:
infatti, per ogni ϕ ∈ bC(R) e h > 0 si ha
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y) =
R
(poiché p(t, x; t +h, ·) è la distribuzione di Xt+h −Xt +x che è uguale in legge a Xh +x per la stazionarietà degli
incrementi)
Z
= p(0, x; h, dy)ϕ(y) = E [ϕ(Xh + x)]
R
e la continuità in (t, x) segue dal teorema della convergenza dominata di Lebesgue.

9 In altri termini, in generale σ (X ) è incluso strettamente in F ∩ F X poiché, per la continuità a destra di F X , si ha
t t t,∞
\
σ (Xt ) ⊆ X .
σ (Xs , t ≤ s ≤ t + ε) ⊆ Ft ∩ Ft,∞
ε>0
Inoltre, si prova che la CHF di un processo di Lévy X è della forma

ϕXT (η) = eT ψ(η)
η2
dove ψ è detto esponente caratteristico di X: per esempio, ψ(η) = − 2 per il moto Browniano e ψ(η) = λ(eiη −1)
per il processo di Poisson (cfr. Osservazione 8.1.4). Allora, posto per semplicità p(T , ·) = p(0, 0; T , ·), si ha la
seguente notevole relazione:
ψ(η)eT ψ(η) = ∂T eT ψ(η)
Z
= ∂T eiηy p(T , dy) =
R
(supponendo di poter scambiare i segni di derivata e integrale)
Z
= eiηy ∂T p(T , dy) =
R
(poiché p(T , dy) risolve l’equazione di Kolmogorov forward (7.5.25), ∂T p(T , ·) = AT∗ p(T , ·) dove AT∗ è l’ag-
giunto del generatore infinitesimale di X)
Z
= eiηy AT∗ p(T , dy).
R
Questo fatto, nel linguaggio della teoria degli operatori pseudo-differenziali, si esprime dicendo che ψ è il
simbolo dell’operatore AT∗ e si scrive
AT∗ = ψ(i∂y ).
η2
Per esempio, per il moto Browniano si ha ψ(η) = − 2 e
1
AT∗ = ψ(i∂y ) = ∂ ,
2 yy
e per il processo di Poisson, essendo ψ(η) = λ(eiη − 1), si ha
AT∗ ϕ(y) = ψ(i∂y )ϕ(y) = λ(ϕ(y − 1) − ϕ(y)). (11.2.11)
La rappresentazione (11.2.11) di AT∗ come operatore pseudo-differenziale è giustificata dall’espressione
formale
∞
X (α∂y )n
eα∂y ϕ(y) = ϕ(y) = ϕ(y + α)
n!
n=0
come sviluppo in serie di Taylor valido per ogni funzione analitica ϕ.
Si prova che l’espressione generale dell’esponente caratteristico di un processo di Lévy è data dalla
formula di Lévy-Khintchine
σ 2η2
Z
ψ(η) = iµη − + eiηx − 1 − iηx1|x|≤1 ν(dx)
2 R
dove µ, σ ∈ R e ν è una misura su R tale che ν({0}) = 0 e
Z
(1 ∧ |x|2 )ν(dx) < ∞.
R
Per ogni H ∈ B, ν(H) indica il numero atteso di salti delle traiettorie del processo in un periodo di tempo
unitario, con ampiezza ∆t X ∈ H: per esempio, per il processo di Poisson si ha ν = λδ1 e per il processo di
Poisson composto dell’Esempio 8.1.5 si ha ν = λµZ dove µZ è la legge delle variabili Zn ossia dei singoli
salti del processo. Se un processo di Lévy X è continuo q.c. allora ν ≡ 0 e quindi necessariamente X è un
moto Browniano con drift, ossia un processo della forma Xt = µt + σ Wt con µ, σ ∈ R e W moto Browniano.
Fra i testi di riferimento per la teoria generale dei processi di Lévy indichiamo la monografia [3].
Proposizione 11.2.22. Sia X = (Xt )t≥0 un processo di Lévy sullo spazio completo (Ω, F , P , (Ft )t≥0 ). Allora
X è un processo di Lévy anche su (Ω, F , P , (F¯t )t≥0 ) e su (Ω, F , P , (Ft+ )t≥0 ).
Dimostrazione. Si tratta solo di verificare che, per ogni 0 ≤ s < t, l’incremento Xt − Xs è indipendente da F¯s
e da Fs+ , ossia vale
P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H), H ∈ B, (11.2.12)
se G ∈ F¯s ∪ Fs+ con P (G) > 0.

Consideriamo prima il caso G ∈ F¯s (sempre assumendo P (G) > 0). La (11.2.12) è vera se G ∈ Fs : d’al-
tra parte (cfr. Osservazione 2.4.3) G ∈ F¯s = σ (Fs ∪ N ) se e solo se G △ A ∈ N per un certo A ∈ Fs (e
necessariamente P (A) > 0 essendo P (G) > 0). Dunque si ha
P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H | A) = P (Xt − Xs ∈ H).
Consideriamo ora il caso G ∈ Fs+ con P (G) > 0. Qui usiamo il fatto che, per il Corollario 3.5.8, la
(11.2.12) è vera se e solo se vale
E [ϕ(Xt − Xs ) | G] = E [ϕ(Xt − Xs )] ,
per ogni ϕ ∈ bC. Osserviamo che, per ogni h > 0, G ∈ Fs+h e quindi G è indipendente da Xt+h − Xs+h : ne
viene
E [ϕ(Xt+h − Xs+h ) | G] = E [ϕ(Xt+h − Xs+h )]
e si conclude passando al limite per h → 0+ , per il teorema della convergenza dominata grazie alla conti-
nuità da destra delle traiettorie di X e la continuità e limitatezza di ϕ.
Combinando i risultati precedenti con l’Osservazione 11.2.17 si ha il seguente
Teorema 11.2.23. [!] Sia X è un processo di Lévy sullo spazio completo (Ω, F , P ) munito della filtrazione
G X generata da X. Allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Lévy anche rispetto alla
filtrazione standard F X .
Come conseguenza della Legge 0-1 di Blumenthal del Teorema 11.2.18, si ha
Corollario 11.2.24 (Legge 0-1 di Blumenthal). Sia X = (Xt )t≥0 un processo di Lévy. Per ogni A ∈ F0X si ha
P (A) = 0 oppure P (A) = 1.
Ricordiamo la Definizione 10.3.2 di spazio di Wiener (C(R≥0 ), BµW , µW ) dove µW è la misura di Wiener
(ossia la legge di un moto Browniano) definita sul µW -completamento BµW della σ -algebra di Borel.
Definizione 11.2.25 (Moto Browniano canonico). Il moto Browniano canonico W è il processo identità10
sullo spazio di Wiener munito della filtrazione standard F W .
Osservazione 11.2.26. [!] Per il Corollario 10.3.3 e il Teorema 11.2.23, il moto Browniano canonico è un
moto Browniano, secondo la Definizione 10.1.1, sullo spazio (C(R≥0 ), BµW , µW , F W ). Ricordiamo che lo
spazio di Wiener è uno spazio metrico polacco ed uno spazio di probabilità completo in cui la filtrazione
standard F W verifica le ipotesi usuali: per queste importanti proprietà, lo spazio di Wiener e il moto Bro-
wniano canonico costituiscono rispettivamente lo spazio e il processo canonici di riferimento nello studio
delle equazioni differenziali stocastiche.
10 Ossia W (w) = w(t) per ogni w ∈ C(R ) e t ≥ 0.
t ≥0
11.2.4 Risultati generali sui tempi d’arresto

Riprendiamo lo studio dei tempi d’arresto a valori in R≥0 ∪ {∞} (cfr. Definizione 11.2.2), definiti su
uno spazio con filtrazione (Ω, F , P , Ft ) che soddisfa le ipotesi usuali. Lasciamo per esercizio la prova della
seguente
i) se τ = t q.c. allora τ è un tempo d’arresto;
ii) se τ, σ sono tempi d’arresto allora anche τ ∧ σ e τ ∨ σ sono tempi d’arresto;
iii) se (τn )n≥1 è una successione crescente (ossia, τn ≤ τn+1 q.c. per ogni n ∈ N) allora sup τn è un tempo
n∈N
d’arresto;
iv) se (τn )n≥1 è una successione decrescente (ossia, τn ≥ τn+1 q.c. per ogni n ∈ N) allora inf τn è un tempo
n∈N
d’arresto;
v) se τ è un tempo d’arresto allora per ogni ε ≥ 0 anche τ + ε è un tempo d’arresto.
Consideriamo ora un processo stocastico X = (Xt )t≥0 sullo spazio con filtrazione (Ω, F , P , Ft ) che veri-
fica le ipotesi usuali. Per lo studio dei tempi d’arresto (e, più avanti, dell’integrazione stocastica) occorre
assumere un’ipotesi minimale di misurabilità di X rispetto alla variabile temporale, che rinforza il concetto
di processo adattato.
Definizione 11.2.28 (Processo progressivamente misurabile). Un processo X = (Xt )t≥0 è progressivamen-
te misurabile se, per ogni t > 0, la funzione (s, ω) 7→ Xs (ω) da [0, t]×Ω a R è misurabile rispetto alla σ -algebra
prodotto B ⊗ Ft .
In altri termini, X è progressivamente misurabile se, per ogni t > 0, la funzione g := X|[0,t]×Ω , definita da
g : ([0, t] × Ω, B ⊗ Ft ) −→ (R, B), g(s, ω) = Xs (ω), (11.2.13)
è (B ⊗ Ft )-misurabile.
Se X è progressivamente misurabile allora, per il Lemma 3.3.11, è adattato a (Ft ). Viceversa, è stato
provato da Chung e Doob [27] che se X è adattato e misurabile11 allora possiede una modificazione progressi-
vamente misurabile (per una dimostrazione di questo fatto si veda, per esempio [81], Teorema T46 a p.68).
A noi basterà il seguente risultato molto più semplice:
Proposizione 11.2.29. Se X è adattato a (Ft ) e ha traiettorie continue a destra q.c. (oppure ha traiettorie
continue a sinistra q.c.) allora è progressivamente misurabile.
Dimostrazione. Consideriamo le successioni
∞ ∞
(n)
⃗ t(n) :=
X X
X X k−1
n
1[ k−1
n ,
k ) (t), X⃗t := X k 1[ k−1
n ,
k ) (t), t ∈ [0, T ], n ∈ N.
2 2 2n 2n 2 2n
k=1 k=1
(n)
⃗ (n) ∈ m(B ⊗ FT ) e X⃗ ∈ m(B ⊗ F
Poiché X è adattato, segue dal Corollario 3.3.9 che X 1 ). Se X ha
T+ 2n
traiettorie continue a sinistra q.c. allora ⃗ (n)
converge puntualmente (Leb ⊗ P )-q.o. a X su [0, T ] × Ω per
X
n → ∞: data l’arbitrarietà di T , ne viene che X è progressivamente misurabile.
(n)
Analogamente, se X ha traiettorie continue a destra q.c. allora X⃗ converge puntualmente (Leb⊗P )-q.o.
a X su [0, T ]×Ω per n → ∞: ne viene che, per ogni ε > 0, la mappa (t, ω) 7→ Xt (ω) è (B ⊗FT +ε )-misurabile su
[0, T ] × Ω. Per la continuità a destra della filtrazione si conclude che X è progressivamente misurabile.
11 Ossia (t, ω) 7→ X (ω) è B ⊗ F -misurabile.
t
Dato un tempo d’arresto τ, ricordiamo la definizione (11.2.5) di F∞ e, in analogia con la (11.1.3),

definiamo
Fτ := {A ∈ F∞ | A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0}.
Notiamo che Fτ è una σ -algebra e Fτ = Ft se τ è il tempo d’arresto costante uguale a t. Inoltre dato un
processo X = (Xt )t≥0 definiamo

Xτ(ω) (ω) se τ(ω) < ∞,


(Xτ )(ω) := 
0
 se τ(ω) = ∞.
i) τ ∈ mFτ ;
ii) se τ ≤ σ allora Fτ ⊆ Fσ ;
iii) Fτ ∩ Fσ = Fτ∧σ ;
iv) se X è progressivamente misurabile allora Xτ ∈ mFτ ;

v) Fτ = Fτ+ := Fτ+ε ;
T
ε>0
Dimostrazione. i) Occorre mostrare che (τ ∈ H) ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B: la tesi segue

facilmente poiché per il Lemma 3.1.5 è sufficiente considerare H del tipo (−∞, s] con s ∈ R.
ii) Se τ ≤ σ allora (σ ≤ t) ⊆ (τ ≤ t): dunque per ogni A ∈ Fτ si ha
A ∩ (σ ≤ t) = A ∩ (τ ≤ t) ∩ (σ ≤ t) .
| {z } | {z }
∈Ft ∈Ft
iii) Per il punto ii) vale l’inclusione Fτ ∩ Fσ ⊇ Fτ∧σ . Viceversa, se A ∈ Fτ ∩ Fσ allora
A ∩ (τ ∧ σ ≤ t) = A ∩ ((τ ≤ t) ∪ (σ ≤ t)) = (A ∩ (τ ≤ t)) ∪ (A ∩ (σ ≤ t)) .

| {z } | {z }
∈Ft ∈Ft
iv) Dobbiamo provare che (Xτ ∈ H)∩(τ ≤ t) = (Xτ∧t ∈ H)∩(τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B. Poiché (τ ≤
t) ∈ Ft è sufficiente provare che Xτ∧t ∈ mFt : questo è conseguenza del fatto che Xτ∧t (ω) = (f ◦ g)(t, ω)
con f e g funzioni misurabili definite da
f : (Ω, Ft ) −→ ([0, t] × Ω, B ⊗ Ft ), f (t, ω) := (τ(ω) ∧ t, ω),
e g come in (11.2.13). La misurabilità di f segue dal Corollario 3.3.9 e dal fatto che, per i), (τ ∧ t) ∈
mFτ∧t ⊆ mFt ; g è misurabile poiché X è progressivamente misurabile.
v) L’inclusione Fτ ⊆ Fτ+ è ovvia per ii). Viceversa, se A ∈ Fτ+ allora per definizione A ∩ (τ + ε ≤ t) ∈ Ft
per ogni t ≥ 0 e ε > 0: quindi A ∩ (τ ≤ t − ε) ∈ Ft per ogni t ≥ 0 e ε > 0, o equivalentemente A ∩ (τ ≤
t) ∈ Ft+ε per ogni t ≥ 0 e ε > 0. Per l’ipotesi di continuità a destra della filtrazione, si ha quindi
A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 ossia A ∈ Fτ .
Capitolo 12
Proprietà di Markov forte
We may not be able to get certainty,

but we can get probability, and half
a loaf is better than no bread.
C. S. Lewis
In questo capitolo X = (Xt )t≥0 indica un processo di Markov con legge di transizione p sullo spazio
(Ω, F , P , Ft ) in cui valgono le ipotesi usuali sulla filtrazione. La proprietà di Markov forte è una estensione
della proprietà di Markov in cui l’istante iniziale è un tempo d’arresto.
12.1 Proprietà di Feller e di Markov forte

Definizione 12.1.1 (Proprietà di Markov forte). Diciamo che X soddisfa la proprietà di Markov forte se
per ogni τ tempo d’arresto finito q.c., h > 0 e ϕ ∈ bB vale
Z
p(τ, Xτ ; τ + h, dy)ϕ(y) = E [ϕ (Xτ+h ) | Fτ ] . (12.1.1)
R
Ricordiamo dalla Definizione 7.1.10 che la legge di transizione p di un processo di Feller è tale che, per
ogni h > 0 e ϕ ∈ bC(R), la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
R
è continua.
Teorema 12.1.2. Sia X un processo di Markov. Se X è un processo di Feller continuo a destra allora soddisfa
la proprietà di Markov forte.
Dimostrazione. Dati h > 0 e ϕ ∈ bC, proviamo che, posto
Z
Z := p(τ, Xτ ; τ + h, dy)ϕ(y),
R
si ha Z = E [ϕ (Xτ+h ) | Fτ ]. Verifichiamo le proprietà dell’attesa condizionata. Anzitutto Z ∈ mFτ poiché:
313
314 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
R
• Z = f (τ, Xτ ) con f (t, x) := p(t, x; t + h, dy)ϕ(y) funzione continua per la proprietà di Feller;
R
• Xτ ∈ mFτ per la Proposizione 11.2.30-iv), essendo X adattato e continuo a destra (quindi progressi-
vamente misurabile per la Proposizione 11.2.29).
In secondo luogo, proviamo che per ogni A ∈ Fτ si ha
E [Z1A ] = E [ϕ (Xτ+h ) 1A ] . (12.1.2)
Consideriamo prima il caso in cui τ assuma solo un’infinità numerabile di valori tk , k ∈ N: in questo caso
la (12.1.2) segue dal fatto che
∞
X h i
E [Z1A ] = E Z1A∩(τ=tk )
k=1
 
∞
X Z 
= E  p(tk , Xtk ; tk + h, dy)ϕ(y)1A∩(τ=tk )  =
 
 
k=1 R
(per la proprietà di Markov (7.2.2), poiché A ∩ (τ = tk ) ∈ Ftk )
∞
X h i
= E ϕ(Xtk +h )1A∩(τ=tk ) = E [ϕ(Xτ+h )1A ] .
k=1
Nel caso generale, consideriamo la successione di tempi d’arresto che approssimano τ, definiti da

k

 2n
 se k−1
2n ≤ τ(ω) <
k
2n per k ∈ N,
τn (ω) = 
∞
 se τ(ω) = ∞.
Per ogni n ∈ N, τn assume solo un’infinità numerabile di valori. Inoltre, τn ≥ τ e quindi se A ∈ Fτ allora
anche A ∈ Fτn e si ha
 
Z  h i
E  p(τn , Xτn ; τn + h, dy)ϕ(y)1A  = E ϕ Xτn +h 1A .
 
 
R
Passando al limite in n → ∞ si ottiene la (12.1.2). Il passaggio al limite è giustificato dal teorema della con-
vergenza dominata e dal fatto che gli integrandi sono limitati e convergono puntualmente q.c.: nel membro
a destra, per la continuità da destra di X e la continuità di ϕ; nel membro a sinistra, per la continuità da
destra di X e la proprietà di Feller.
Osservazione 12.1.3. [!] In base al Teorema 12.1.2, il moto Browniano, il processo di Poisson e più in
generale i processi di Lévy (cfr. Definizione 11.2.20) godono della proprietà di Markov forte.
In analogia con i risultati della Sezione 10.2, vale la seguente
Proposizione 12.1.4. Siano W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ) e τ un tempo d’arresto
finito q.c. Allora il processo
Wtτ := Wt+τ − Wτ , t ≥ 0, (12.1.3)
è un moto Browniano su (Ω, F , P , (Ft+τ )t≥0 ). In particolare, W τ è indipendente da Fτ .

12.2. PRINCIPIO DI RIFLESSIONE 315
Dimostrazione. Per ogni η ∈ R, si ha

h τ i h i
E eiηWt | Fτ = E eiη(Wt+τ −Wτ ) | Fτ
h i
= eiηWτ E eiηWt+τ | Fτ
h i η 2 t2
= eiηWτ E eiηWt+τ | Wτ = e− 2
grazie alla proprietà di Markov forte nella forma (12.1.1). Dal Teorema 5.2.10-14) segue che Wtτ ∼ N0,t ed
è indipendente da Fτ . In modo simile si prova che Wtτ − Wsτ ∼ N0,t−s ed è indipendente da Fτ+s per ogni
0 ≤ s ≤ t.
12.2 Principio di riflessione

Consideriamo un moto Browniano W definito su (Ω, F , P , Ft ) e fissiamo t0 ≥ 0. Diciamo che

ft := Wt∧t − Wt − Wt∧t ,
W t ≥ 0,
0 0
è il processo riflesso di W a partire da t0 . La Figura 12.1 rappresenta una traiettoria di W e del suo riflesso W
f
a partire da t0 = 0.2.
0.2 0.4 0.6 0.8 1.0
-1
Figura 12.1: Grafico di una traiettoria Browniana e della sua riflessa a partire da t0 = 0.2
Non è difficile verificare1 che anche W f è un moto Browniano su (Ω, F , P , Ft ). È notevole il fatto che
questo risultato si generalizzi al caso in cui t0 è un tempo d’arresto.
Teorema 12.2.1 (Principio di riflessione). [!] Siano W = (Wt )t≥0 un moto Browniano sullo spazio con
filtrazione (Ω, F , P , Ft ) e τ un tempo d’arresto. Allora il processo riflesso a partire da τ, definito da
ft := Wt∧τ − (Wt − Wt∧τ ) ,
W t ≥ 0,
1 Per s ≤ t si ha

Wt
ft =  se t ≤ t0 ,
W
2Wt0 − Wt se t > t0 ,


da cui W
ft ∈ mFt e



Wt − Ws se s, t ≤ t0 ,

Wt − Ws = Wt0 − Ws − (Wt − Wt0 ) se s < t0 < t,
f f 


−(Wt − Ws )

se t0 ≤ s, t,
da cui segue che W fs è indipendente da Fs ed ha distribuzione N0,t−s .
ft − W
è un moto Browniano su (Ω, F , P , F ).
Dimostrazione. Basta provare la tesi su un intervallo temporale [0, T ] con T > 0 fissato e quindi non è
restrittivo assumere τ < ∞ cosicché è ben definito il moto Browniano W τ in (12.1.3). Osserviamo che
τ τ
Wt = Wt∧τ + Wt−τ 1(t≥τ) , ft = Wt∧τ − Wt−τ
W 1(t≥τ) .
La tesi segue dal fatto che, essendo un moto Browniano, W τ è uguale in legge a −W τ ed è indipendente da
Fτ e quindi da Wt∧τ e da τ: ne viene che W e Wf sono uguali in legge.
Consideriamo il processo del massimo di W , definito da
W̄t := max Ws , t ≥ 0.
s∈[0,t]
Corollario 12.2.2. Per ogni a > 0 vale
P (W̄t ≥ a) = 2P (Wt ≥ a), t ≥ 0. (12.2.1)
Dimostrazione. Scomponiamo (W̄t ≥ a) nell’unione disgiunta
(W̄t ≥ a) = (Wt > a) ∪ (Wt ≤ a, W̄t ≥ a).
Introduciamo il tempo d’arresto

τa := inf{t ≥ 0 | Wt ≥ a}
f, riflesso di W a partire da τa . Allora si ha2
e il processo W
(Wt ≤ a, W̄t ≥ a) = (W
ft ≥ a)
e la tesi segue dal Principio di riflessione.
Osservazione 12.2.3. [!] Alcune conseguenze notevoli del Corollario 12.2.2 sono:
i) poiché P (|Wt | ≥ a) = 2P (Wt ≥ a), dalla (12.2.1) segue che W̄t e |Wt | sono uguali in legge;
ii) poiché (τa ≤ t) = (W̄t ≥ a), dalla (12.2.1) si ha

Z
2 2
P (τa ≤ t) = 2P (Wt ≥ a) = √ e−y dy, (12.2.2)
π √a
2t
da cui si deduce che

P (τa < +∞) = lim P (τa ≤ n) = 1
n→+∞
e, derivando la (12.2.2), si ottiene l’espressione della densità di τa :
a2
ae− 2t
γτa (t) = √ 1]0,+∞[ (t).
2πt 3/2
iii) per ogni ε > 0

P (Wt ≤ 0 ∀t ∈ [0, ε]) = P (W̄ε ≤ 0) = P (|Wε | ≤ 0) = 0.
2 Poniamo A = (W ≤ a, W̄ ≥ a) e B = (W
ft ≥ a). Se ω ∈ A allora τa (ω) ≤ t e quindi W
ft (ω) = 2Wτ (ω) (ω) − Wt = 2a − Wt ≥ a da cui
t t a
ω ∈ B. Viceversa, assumiamo W ft (ω) ≥ a: se fosse τa (ω) > t si avrebbe a ≤ W
ft (ω) = Wt (ω) che è assurdo. Allora deve essere τa (ω) ≤ t e
quindi ovviamente W̄t (ω) ≥ a e inoltre a ≤ W
ft (ω) = 2a − Wt (ω) da cui Wt (ω) ≥ a.
12.3. IL CASO OMOGENEO 317
12.3 Il caso omogeneo

Nel seguito I = R≥0 . Supponiamo che X sia la versione canonica (cfr. Proposizione 7.2.6) di un processo di
Markov con legge di transizione p omogenea nel tempo e X sia definito sullo spazio completo (RI , FµI , µ, F X )
dove µ è la legge del processo X e F X è la filtrazione standard di X (cfr. Definizione 11.2.12). Inoltre
Xt (ω) = ω(t) per ogni t ≥ 0 e ω ∈ RI .
Per esprimere in maniera più efficace la proprietà di Markov, introduciamo la famiglia di traslazioni
(θt )t≥0 definite da
θt : RI −→ RI , (θt ω)(s) = ω(t + s), s ≥ 0, ω ∈ RI .
Intuitivamente, l’operatore di traslazione θt “taglia e rimuove” la parte di traiettoria ω fino al tempo t.
Data una v.a. Y , indichiamo con Y ◦ θt la v.a. traslata definita da
(Y ◦ θt )(ω) := Y (θt (ω)), ω ∈ RI .
Notiamo che (Xs ◦ θt )(ω) = ω(t + s) = Xt+s (ω) o, più semplicemente,
Xs ◦ θt = Xt+s .
Nel seguente enunciato indichiamo con
Ex [Y ] := E [Y | X0 = x]
una versione della funzione attesa di Y condizionata a X0 (cfr. Definizione 5.2.16) e F0,∞
X
= σ (Xs , s ≥ 0) (cfr.
definizione (7.2.6)).
Teorema 12.3.1 (Proprietà di Markov forte nel caso omogeneo). [!] Sia X la versione canonica di un
processo di Markov forte con legge di transizione omogenea nel tempo. Per ogni tempo d’arresto τ, finito
X
q.c., e per ogni Y ∈ bF0,∞ si ha
EXτ [Y ] = E [Y ◦ θτ | Fτ ] . (12.3.1)
Dimostrazione. Per chiarezza, osserviamo esplicitamente che il membro sinistro della (12.3.1) indica la
funzione Ex [Y ] calcolata in x = Xτ . Se X soddisfa la proprietà di Markov forte (12.1.1) si ha
E [ϕ (Xh ) ◦ θτ | Fτ ] = E [ϕ (Xτ+h ) | Fτ ]
Z
= p(τ, Xτ ; τ + h, dy)ϕ(y) =
R
(per l’ipotesi di omogeneità)

Z
= p(0, Xτ ; h, dy)ϕ(y) = EXτ [ϕ(Xh )]
R
che prova la (12.3.1) per Y = ϕ(Xh ) con h ≥ 0 e ϕ ∈ bB. Il caso generale si prova come il Teorema 7.2.4,
estendendo prima la (12.3.1) al caso
Yn
Y= ϕi (Xhi )
i=1
con 0 ≤ h1 < · · · < hn e ϕ1 , . . . , ϕn ∈ bB, e infine utilizzando il secondo teorema di Dynkin.
Tutti i risultati sui processi di Markov visti finora si estendono al caso multidimensionale (ossia, al caso
di processi a valori in Rd ) senza alcuna difficoltà. Il seguente Teorema 12.3.2 è preliminare allo studio della
relazione fra i processi di Markov e le funzioni armoniche: ricordiamo che una funzione armonica è una
soluzione dell’operatore di Laplace o più in generale di un’equazione differenziale alle derivate parziali di
tipo ellittico. Assumiamo le seguenti ipotesi generali:
• D è un aperto di Rd ;
• X è la versione canonica di un processo di Markov forte a valori in Rd ;
• X è continuo e ha legge di transizione p omogenea nel tempo;
• X0 ∈ D q.c.;
• τD < ∞ q.c. dove τD è il tempo di uscita di X da D (cfr. Esempio 11.2.3).
Indichiamo con ∂D il bordo di D e osserviamo che, in base alle ipotesi assunte, XτD ∈ ∂D q.c. Nel seguente
enunciato Ex [·] ≡ E [· | X0 = x] indica la funzione attesa condizionata a X0 .
Teorema 12.3.2. Sia ϕ ∈ bB(∂D). Se3 h i
u(x) = Ex ϕ(XτD ) (12.3.2)
allora si ha:
X
i) il processo (u(Xt∧τD ))t≥0 è una martingala rispetto alla filtrazione (Ft∧τ ) ;
D t≥0
ii) per ogni y ∈ D e ε > 0 tale che D(y, ε) := {z ∈ Rd | |z − y| < ε} ⊆ D vale

h i
u(x) = Ex u XτD(y,ε) (12.3.3)
dove τD(y,ε) indica il tempo di uscita di X da D(y, ε).

Dimostrazione. La dimostrazione è basata sull’osservazione cruciale che se τ è un tempo d’arresto e τ ≤ τD ,
allora vale
XτD ◦ θτ = XτD . (12.3.4)
Più esplicitamente, per ogni ω ∈ RI vale
(XτD ◦ θτ )(ω) = XτD (θτ (ω)) = XτD (ω)
poiché la traiettoria ω e la traiettoria θτ (ω), ottenuta tagliando e rimuovendo la parte di ω fino all’istante
τ(ω), escono per la prima volta da D nello stesso punto XτD (ω).
Proviamo la i): per 0 ≤ s ≤ t si ha
h i h h i i
E u(Xt∧τD ) | Fs∧τD = E EXt∧τ ϕ(XτD ) | Fs∧τD =
D
X
(per la proprietà di Markov forte (12.3.1), poiché ϕ(XτD ) ∈ bF0,∞ )
h h i i
= E E ϕ(XτD ) ◦ θt∧τD | Ft∧τD | Fs∧τD =
(per la (12.3.4) con τ = t ∧ τD )

h h i i
= E E ϕ(XτD ) | Ft∧τD | Fs∧τD =
(poiché Fs∧τD ⊆ Ft∧τD )

h i
= E ϕ(XτD ) | Fs∧τD =
(riapplicando la proprietà di Markov forte (12.3.1))

h i
= EXs∧τ ϕ(XτD ) = u(Xs∧τD ).
D
3 La (12.3.2) significa che u è una versione della funzione attesa di ϕ(X ) condizionata a X .
τD 0
12.3. IL CASO OMOGENEO 319
Ora proviamo la ii). Se x < D(y, ε), τD(y,ε) = 0 e la tesi è ovvia conseguenza dell’Esempio 5.2.18. Se
x ∈ D(y, ε), osserviamo che τD(y,ε) ≤ τD < ∞ q.c. poiché X è continuo e applicando il Teorema di optional
sampling, nella forma del Teorema 13.5.4, alla martingala Mt := u(Xt∧τD ) abbiamo
h i
M0 = E MτD(y,ε) | F0X
ossia h i
u(X0 ) = E u(XτD(y,ε) ) | X0
che prova la (12.3.3).
Capitolo 13
Martingale continue
We balance probabilities and choose

the most likely. It is the scientific use
of the imagination.
Arthur Conan Doyle
In questo capitolo estendiamo dal discreto al continuo alcuni importanti risultati come il teorema di
optional sampling e le disuguaglianze massimali di Doob per le martingale. La strategia generale consiste
di tre passaggi:
• i risultati vengono prima estesi dal caso discreto, in cui il numero di istanti temporali è finito, al caso
in cui gli istanti temporali siano i cosiddetti razionali diadici definiti da
[ n o n o
D := Dn , Dn := k
2n | k ∈ N0 = 0, 21n , 22n , 23n , . . . .
n≥1
Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N e D è un insieme numerabile e denso in R≥0 ;
• sotto l’ipotesi di continuità da destra delle traiettorie è pressoché immediato estendere la validità dei
risultati dai diadici al continuo;
• infine si mostra che l’ipotesi di continuità delle traiettorie non è restrittiva poiché ogni martingala
ammette una modificazione con traiettorie càdlàg: la dimostrazione è basata sulle disuguaglianze mas-
simali di Doob (che permettono di provare che le traiettorie non divergono quasi certamente) e sul
lemma di risalita (che permette di provare che le traiettorie non oscillano quasi certamente). Il terzo
ingrediente fondamentale è il teorema di convergenza di Vitali (Teorema A.3.0.2) che garantisce la
sussistenza della proprietà di martingala nei passaggi al limite.
Nella seconda parte del capitolo introduciamo alcuni notevoli spazi di martingale che giocheranno un
ruolo centrale nella teoria dell’integrazione stocastica. Diamo anche la definizione di martingala locale, una
nozione che generalizza quella di martingala indebolendo le ipotesi di sommabilità.
321
322 CAPITOLO 13. MARTINGALE CONTINUE
13.1 Optional sampling e continuità

Consideriamo uno spazio (Ω, F , P ) munito della filtrazione (Ft )t≥0 . In questa sezione non assumiamo
le ipotesi usuali sulla filtrazione. Nel seguito, fissato T > 0, usiamo la notazione
[ n o
D(T ) := DT ,n , DT ,n := T2nk | k = 0, 1, . . . , 2n , n ∈ N. (13.1.1)
n≥1
Lemma 13.1.1 (Disuguaglianze massimali di Doob sui diadici). Sia X = (Xt )t≥0 una martingala o una
sub-martingala non-negativa. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.2)
t∈D (T ) λ
  !p
p p
E [|XT |p ] .
 
E  sup |Xt |  ≤ (13.1.3)
t∈D (T ) p − 1
Dimostrazione. Se X è una martingala allora |X| è una sub-martingala non-negativa per Proposizione 6.4.12.
Dunque è sufficiente provare la tesi per X sub-martingala non-negativa. Fissato T > 0, per ogni n ∈ N consi-
deriamo il processo (Xt )t∈DT ,n che è una sub-martingala non-negativa discreta relativamente alla filtrazione
(Ft )t∈DT ,n e poniamo
Mn := sup Xt , M := sup Xt .
t∈DT ,n t∈D (T )
Fissiamo ε > 0. Ricordando che DT ,n ⊆ DT ,n+1 , per il Teorema di Beppo-Levi si ha1
P (M > λ − ε) = lim P (Mn > λ − ε) ≤

n→∞
(per la disuguaglianza massimale di Doob per le sub-martingale discrete, Teorema 11.1.11)
E [XT ]
≤ .
λ−ε
La (13.1.2) segue dall’arbitrarietà di ε.
p p p p
Sia ora p > 1. Poiché DT ,n ⊆ DT ,n+1 e Mn = sup Xt , si ha 0 ≤ Mn ↗ M = sup Xt per n → ∞. Allora
t∈DT ,n t∈D (T )
per il teorema di Beppo-Levi si ha
h pi
E [M p ] = lim E Mn ≤
n→∞
(per la disuguaglianza massimale di Doob per le sub-martingale discrete, Teorema 11.1.11)

!p
p h pi
≤ E XT .
p−1
Negli enunciati seguenti assumeremo sempre l’ipotesi di continuità a destra dei processi: come vedremo
nella Sezione 13.2, nel caso in cui la filtrazione soddisfi le ipotesi usuali, ogni martingala ammette una
modificazione càdlàg.
1 Si noti che
h i h i
P (M > λ − ε) = E 1(M>λ−ε) = lim E 1(Mn >λ−ε) = lim P (Mn > λ − ε),
n→∞ n→∞
poiché la successione 1(Mn >λ−ε) è monotona crescente.
13.1. OPTIONAL SAMPLING E CONTINUITÀ 323
Teorema 13.1.2 (Disuguaglianze massimali di Doob). [!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.4)
t∈[0,T ] λ
  !p
p p
E [|XT |p ] .
 
E  sup |Xt |  ≤ (13.1.5)
t∈[0,T ] p − 1
Dimostrazione. La tesi è immediata conseguenza del Lemma 13.1.1 poiché se X ha traiettorie continue a
destra si ha sup |Xt | = sup |Xt |.
t∈[0,T ] t∈D (T )
In analogia col caso discreto, si ha il seguente semplice

Corollario 13.1.3 (Disuguaglianze massimali di Doob). [!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni λ > 0, p > 1 e τ tempo d’arresto tale che τ ≤ T q.c. per
un certo T , si ha
!
E [|Xτ |]
P sup |Xt | ≥ λ ≤ ,
t∈[0,τ] λ
  !p
p p
E [|Xτ |p ] .

E  sup |Xt |  ≤
 
t∈[0,τ] p−1
Dimostrazione. Vedremo in seguito (cfr. Corollario 13.4.1) che stoppando una martingala continua a destra
si ottiene ancora una martingala. Allora la tesi segue dal Teorema 13.1.2 applicato a (Xt∧τ )t≥0 .
Per estendere alcuni risultati su tempi d’arresto e martingale dal caso discreto a quello continuo, è utile
il seguente risultato tecnico di approssimazione.
Lemma 13.1.4. Dato un tempo d’arresto τ : Ω −→ [0, +∞] esiste una successione (τn )n∈N di tempi d’arresto
discreti (cfr. Definizione 11.1.1)
τn : Ω −→ { 2kn | k = 1, 2, . . . , n2n }
tali che:
i) τn −→ τ per n → ∞;
ii) τn+1 (ω) ≤ τn (ω) se n > τ(ω).
Dimostrazione. Per ogni n ∈ N poniamo

k k−1 k
 2n se 2n ≤ τ(ω) <

 2n per k ∈ {1, 2, . . . , n2n },
τn (ω) = 
n
 se τ(ω) ≥ n.
Per ogni ω ∈ Ω e n ∈ N tali che τ(ω) < n si ha

τn (ω) − 21n ≤ τ(ω) ≤ τn (ω)
e da questo seguono la i) e la ii). Infine, per ogni fissato n ∈ N, τn è un tempo d’arresto discreto rispetto alla
filtrazione definita da F k per k = 0, 1, . . . , n2n , poiché si ha
2n

τn = k
2n = ∈F k ,
k−1
2n ≤τ < k
2nk = 0, 1, . . . , n2n − 1,
2n
c
(τn = n) = τ ≥ n − 21n = τ < n − 21n ∈ F 1 ⊆ Fn .
n− 2n
Osservazione 13.1.5. In base alla ii) del Lemma 13.1.4, se τ(ω) < ∞, la successione approssimante (τn (ω))n∈N
ha la proprietà di essere monotona decrescente almeno per n abbastanza grande. D’altra parte, se τ(ω) = ∞
allora τn (ω) = n.
Diamo una prima versione del teorema di optional sampling: ne vedremo una seconda, con ipotesi più
deboli sui tempi d’arresto, nel Teorema 13.5.4.
Teorema 13.1.6 (Teorema di optional sampling). [!!!] Sia X = (Xt )t≥0 una sub-martingala continua a
destra. Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 ≤ T per un certo T > 0, allora si ha
h i
Xτ1 ≤ E Xτ2 | Fτ1 .
Dimostrazione. Supponiamo che X sia una martingala continua a destra. Consideriamo le successioni
(τi,n )n∈N , i = 1, 2, costruite come nel Lemma 13.1.4, di tempi d’arresto discreti tali che τi,n −−−−−→ τi : per
n→∞
costruzione si ha anche τ1,n ≤ τ2,n per ogni n ∈ N. Poniamo inoltre τ̄i,n = τi,n ∧ T . Per la proprietà di mono-
tonia di τ̄i,n (cfr. Lemma 13.1.4-ii)) e la continuità a destra di X, si ha Xτ̄i,n −−−−−→ Xτi . D’altra parte, per la
n→∞
versione discreta del Teorema di optional sampling (cfr. Teorema 11.1.10) si ha
h i
Xτ̄i,n = E XT | Fτ̄i,n (13.1.6)
e quindi per la Proposizione A.3.0.7 (e l’Osservazione A.3.0.8) le successioni (Xτ̄i,n )n∈N sono uniformemente
integrabili. Ne viene che, per il Teorema A.3.0.2 di convergenza di Vitali, si ha anche convergenza in
L1 (Ω, P ):
L1
Xτ̄i,n −−−−−→ Xτi , i = 1, 2. (13.1.7)
n→∞
Ancora per il Teorema 11.1.10 di optional sampling si ha
h i
Xτ̄1,n = E Xτ̄2,n | Fτ̄1,n
da cui, condizionando a Fτ̄1 e usando la proprietà della torre, si ha

h i h i
E Xτ̄1,n | Fτ̄1 = E Xτ̄2,n | Fτ̄1 .
La tesi segue passando al limite per n → ∞, grazie alla (13.1.7)

h e ricordando
i che la convergenza in L1 (Ω, P )
di Xτ̄i,n implica la convergenza delle attese condizionate E Xτ̄i,n | Fτ1 (cfr. punto 12 del Teorema 5.2.10).
Nel caso in cui X è una sub-martingala, la dimostrazione è completamente analoga tranne per il fatto che
non si può dedurre l’uniforme integrabilità direttamente dalla (13.1.6) ma occorre utilizzare un argomento
leggermente più sottile: per i dettagli rimandiamo a [6], Teorema 5.13.
Il seguente utile risultato mostra che, se si considerano anche i tempi aleatori (che siano tempi d’arresto
limitati), allora la proprietà di martingala è equivalente alla proprietà di essere costante in media.
Teorema 13.1.7. [!] Sia X = (Xt )t≥0 un processo adattato, continuo a destra e sommabile (ossia tale che
Xt ∈ L1 (Ω, P ) per ogni t ≥ 0). Allora X è una martingala se e solo se E [Xτ ] = E [X0 ] per ogni τ tempo
d’arresto limitato (ossia tale che τ ≤ T per un certo T > 0).
Dimostrazione. Se X è una martingala continua a destra2 allora è costante in media sui tempi d’arresto
limitati per il Teorema 13.1.6 di optional sampling. Viceversa, essendo X adattato per ipotesi, rimane solo
da verificare che
E [Xt 1A ] = E [Xs 1A ] , s ≤ t, A ∈ Fs .
2 Sotto le ipotesi usuali sulla filtrazione, questa ipotesi non è restrittiva poiché vedremo nella Sezione 13.2 che ogni martingala
ammette una modificazione càdlàg.
13.2. MARTINGALE CÀDLÀG 325
A tal fine si considera

τ := s1A + t1Ac
che si verifica facilmente essere un tempo d’arresto limitato. Allora per ipotesi vale
E [X0 ] = E [Xτ ] = E [Xs 1A ] + E [Xt 1Ac ] ,
E [X0 ] = E [Xt ] = E [Xt 1A ] + E [Xt 1Ac ] ,
e sottraendo un’equazione dall’altra si ottiene la tesi.
13.2 Martingale càdlàg

In questa sezione proviamo che, sotto le ipotesi usuali sulla filtrazione, ogni martingala ammette una modi-
ficazione con traiettorie càdlàg e dunque l’ipotesi di continuità a destra assunta negli enunciati della sezione
precedente può essere rimossa. Proviamo dapprima che una martingala può avere solo discontinuità di
prima specie (salti di ampiezza finita) sui razionali diadici di R≥0 .
Lemma 13.2.1. Sia X = (Xt )t∈D una martingala o una sub-martingala non-negativa. Esiste un evento
trascurabile N tale che, per ogni t ≥ 0, i limiti
lim Xs (ω), lim Xs (ω) (13.2.1)
s→t − s→t +
s∈D s∈D
esistono e sono finiti per ogni ω ∈ Ω \ N . Inoltre, se sup E [|Xt |] < ∞ allora esiste ed è finito anche il limite
t∈D
lim Xt (ω). (13.2.2)

t→+∞
t∈D
Dimostrazione. L’idea della prova è la seguente. Il fatto che i limiti in (13.2.1) divergano o non esistano
è possibile solo in due casi: se sup |Xt (ω)| = ∞ oppure se esiste un intervallo non banale [a, b] che è “at-
t∈D
traversato” da X un numero infinito di volte. La disuguaglianza massimale di Doob e il lemma di risalita
escludono rispettivamente queste due eventualità o, più precisamente, implicano che si verificano solo per
ω appartenente ad un evento trascurabile.
Consideriamo prima il caso in cui κ := sup E [|Xt |] < ∞. Fissato n ∈ N, applichiamo la disuguaglianza
t∈D
massimale (11.1.7) e il Lemma 11.1.13 di risalita alla sub-martingala discreta non-negativa (|Xt |)t∈Dn ∩[0,n] :
per ogni λ > 0 e 0 ≤ a < b, abbiamo
E [(|Xn | − a)+ ]
!
E [|Xn |] κ κ
P max |Xt | ≥ λ ≤ ≤ , E νn,a,b ≤ ≤ ,
t∈Dn ∩[0,n] λ λ b−a b−a
dove νn,a,b è il numero di risalite di (|Xt |)t∈Dn ∩[0,n] su [a, b]. Passando al limite per n → ∞ e usando il teorema
di Beppo-Levi, abbiamo
!
κ κ
P sup |Xt | ≥ λ ≤ , E νa,b ≤ ,
t∈D λ b −a
dove νa,b è il numero di risalite di (|Xt |)t∈D su [a, b]. Questo implica l’esistenza di due eventi trascurabili N0
e Na,b per cui vale
sup |Xt | < ∞ su Ω \ N0 , νa,b < ∞ su Ω \ Na,b .
t∈D
Anche l’evento [
N := Na,b ∪ N0
a,b∈Q
0≤a<b
è trascurabile: per ogni ω ∈ Ω \ N si ha che sup |Xt (ω)| < ∞ e, su ogni intervallo con estremi razionali
t∈D
non-negativi, ci sono solo un numero finito di risalite di |X(ω)|; di conseguenza i limiti in (13.2.1)-(13.2.2)
esistono e sono finiti su Ω \ N .
Consideriamo ora il caso in cui X è una martingala generica. Per ogni n ∈ N, possiamo applicare
quanto appena provato al processo stoppato (Xt∧n )t∈D . Infatti è immediato verificare che (Xt∧n )t∈D è una
martingala e vale
sup E [|Xt∧n |] ≤ E [|Xn |]
t∈D
come conseguenza del fatto che, per la Proposizione 6.4.12, (|Xt∧n |)t∈D è una sub-martingala.
Dunque i limiti in (13.2.1) esistono e sono finiti quasi certamente per t ≤ n. La tesi segue dall’arbitrarietà
di n ∈ N.
L’argomento usato nella seconda parte della dimostrazione del Lemma 13.2.1 si adatta facilmente per
provare il seguente
Teorema 13.2.2. [!] Sia X = (Xn )n∈N una martingala discreta tale che sup E [|Xn |] < ∞. Allora, per quasi
n∈N
ogni ω ∈ Ω, esiste ed è finito il limite
X∞ (ω) := lim Xn (ω).
n→∞
Nella dimostrazione del prossimo risultato è cruciale l’assunzione delle ipotesi usuali sulla filtrazione,
in particolare della continuità a destra della filtrazione.
Teorema 13.2.3. [!] Assumiamo che nello spazio su (Ω, F , P , Ft ) valgano le ipotesi usuali sulla filtrazio-
ne. Allora ogni martingala (o sub-martingala non-negativa) X = (Xt )t≥0 ammette una modificazione che è
ancora una martingala (rispettivamente, sub-martingala non-negativa) con traiettorie càdlàg.
Dimostrazione. Proviamo solo in caso in cui X è una martingala. Per il Lemma 13.2.1 le traiettorie di (Xt )t∈D
hanno limiti finiti da destra e sinistra quasi certamente. Allora è ben definito il processo
et := lim Xs ,
X t ≥ 0,
+
s→t
s∈D
che ha traiettorie càdlàg per costruzione. Proviamo che
et = E [XT | Ft ] ,
X 0≤t ≤T, (13.2.3)
da cui seguirà che X et = Xt q.c., ossia X

e è una modificazione di X, e di conseguenza anche che X e è una
martingala.
Proviamo la (13.2.3) verificando le due proprietà dell’attesa condizionata. Anzitutto, per definizione
et ∈ mFt+ = mFt grazie alle ipotesi usuali. In secondo luogo, essendo X una martingala, per ogni A ∈ Ft
X
si ha
E [Xs 1A ] = E [XT 1A ] , s ∈ [t, T ]. (13.2.4)
h i
Passando al limite in (13.2.4) per s → t + , con s ∈ D ∩ (t, T ], si ha E X et 1A = E [XT 1A ] che prova la (13.2.3). Il
passaggio al limite è giustificato dal Teorema A.3.0.2 di convergenza di Vitali poiché Xs = E [XT | Fs ], con
s ∈ D ∩ (t, T ], è uniformemente integrabile per la Proposizione A.3.0.7.
Esempio 13.2.4. Per ogni variabile aleatoria sommabile X esiste una versione càdlàg della martingala Mt :=
E [X | Ft ].
Osservazione 13.2.5. [!] Alla luce del Teorema 13.2.3 d’ora in poi, data una martingala rispetto a una
filtrazione che verifica ipotesi usuali, assumiamo implicitamente di considerarne sempre una versione càdlàg.
13.3. MARTINGALE CONTINUE DI QUADRATO SOMMABILI: LO SPAZIO M c,2 327
13.3 Martingale continue di quadrato sommabili: lo spazio M c,2

In questa sezione introduciamo lo spazio dei processi su cui costruiremo l’integrale stocastico e provia-
mo che si tratta di uno spazio di Banach.
Definizione 13.3.1. Fissato T > 0, indichiamo con MTc,2 lo spazio delle martingale continue X = (Xt )t∈[0,T ]
di quadrato sommabili, ossia tali che
q h i
∥X∥T := ∥XT ∥L2 (Ω,P ) = E XT2 < ∞.
Indichiamo con M c,2 lo spazio delle martingale continue X = (Xt )t≥0 tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0.
Osservazione 13.3.2. Notiamo che ∥ · ∥T è una semi-norma in MTc,2 , nel senso che ∥X∥T = 0 se e solo se X è
indistinguibile dal processo identicamente nullo. Questo fatto è conseguenza dell’ipotesi di continuità di X
e della disuguaglianza massimale di Doob in base alla quale si ha
 
h i
2
E  sup Xt  ≤ 4E XT2 = 4∥X∥2T .
 
t∈[0,T ]
Identificando i processi indistinguibili di MTc,2 e quindi considerando MTc,2 come lo spazio delle classi di
equivalenza di processi (nel senso dell’indistinguibilità), si ottiene uno spazio normato completo.
Proposizione 13.3.3. (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.
Dimostrazione. Sia (Xn )n∈N una successione di Cauchy in MTc,2 rispetto a ∥ · ∥T . Basta mostrare che (Xn )n∈N
ammette una sotto-successione convergente in MTc,2 .
Per la disuguaglianza massimale di Doob (13.1.4), per ogni ε > 0 e n, m ∈ N si ha
 
  E |Xn,T − Xm,T |
P  sup |Xn,t − Xm,t | ≥ ε ≤ ≤
t∈[0,T ] ε
(per la disuguaglianza di Hölder)
h i1
E |Xn,T − Xm,T |2 2 ∥Xn − Xm ∥T
≤ = .
ε ε
Di conseguenza, per ogni k ∈ N esiste nk ∈ N tale che
 
 1  1
P  sup |Xn,t − Xm,t | ≥  ≤ k , n, m ≥ nk ,
t∈[0,T ] k 2
e per il Lemma 2.3.28 di Borel-Cantelli Xnk ,· converge uniformemente su [0, T ] quasi certamente: il valore
limite, che indichiamo con X, è un processo continuo (possiamo porre a zero le traiettorie non continue).
Fissiamo
t ∈ [0, T ]: per la disuguaglianza di Doob (13.1.5), anche la successione di variabili aleatorie
Xnk ,t è di Cauchy in L2 (Ω, P ) che è uno spazio completo e, per l’unicità del limite, converge a Xt nel
k∈N
senso che 2
lim E Xt − Xnk ,t = 0. (13.3.1)
k→∞
In particolare, se t = T , si ha
lim X − Xnk T = 0.
k→∞
Infine proviamo che X è una martingala. Per 0 ≤ s ≤ t ≤ T e G ∈ Fs si ha
h i h i
E Xnk ,t 1G = E Xnk ,s 1G
poiché Xnk ∈ MTc,2 . Passando al limite per n → ∞ grazie alla (13.3.1) si ha E [Xt 1G ] = E [Xs 1G ] che prova la
tesi.
13.4 Martingale locali: lo spazio M c,loc

Una delle principali motivazioni per l’introduzione dei tempi d’arresto è il fatto che essi permetto-
no l’utilizzo di tecniche, dette “di localizzazione”, che permettono di indebolire fortemente le ipotesi di
sommabilità. In questa sezione analizziamo il caso specifico delle martingale.
Consideriamo uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali. Il concetto
di martingala locale estende quello di martingala rimuovendo la condizione di sommabilità del processo.
In questo modo si possono includere importanti classi di processi (per esempio, gli integrali stocastici) che
sono martingale solo se stoppate (o “localizzate”). Osserviamo anzitutto che, come nel caso discreto (cfr.
Proposizione 11.1.7), la proprietà di martingala si conserva stoppando il processo.
Corollario 13.4.1 (Martingala stoppata). Siano X = (Xt )t≥0 una martingala (càdlàg) e τ0 un tempo d’arre-
sto. Allora anche il processo stoppato (Xt∧τ0 )t≥0 è una martingala.
Dimostrazione. Essendo X càdlàg e adattato per ipotesi, per la Proposizione 11.2.30 si ha Xt∧τ0 ∈ mFt∧τ0 ⊆
h i
mFt . Inoltre, per il Teorema 13.1.6 Xt∧τ0 = E Xt | Ft∧τ0 ∈ L1 (Ω, P ) per ogni t ≥ 0. Ancora per il Teorema
h i
13.1.6, per ogni tempo d’arresto limitato τ si ha E Xτ∧τ0 = E [X0 ] e quindi la tesi segue dal Teorema 13.1.7.
Definizione 13.4.2 (Martingala locale). Diciamo che X = (Xt )t≥0 è una martingala locale se X0 ∈ mF0 ed
esiste una successione crescente (τn )n∈N di tempi d’arresto, detta successione localizzante per X, tale che:
i) τn ↗ ∞ per n → ∞;
ii) per ogni n ∈ N, il processo stoppato e traslato (Xt∧τn − X0 )t≥0 è una martingala.
Indichiamo con M c,loc lo spazio delle martingale locali continue.

Per il Corollario 13.4.1 ogni martingala (càdlàg) è una martingala locale con successione localizzante
τn ≡ ∞.
Esempio 13.4.3. Consideriamo il processo costante X = (Xt )t≥0 con Xt ≡ X0 ∈ mF0 per ogni t ≥ 0. Se
X0 ∈ L1 (Ω, P ) allora X è una martingala. Se X0 < L1 (Ω, P ), il processo X non è una martingala a causa della
mancanza di sommabilità ma è ovviamente una martingala locale: infatti, posto τn ≡ ∞, si ha Xt∧τn −X0 ≡ 0.
Esempio 13.4.4. Sia W un moto Browniano su (Ω, F , P , Ft ) e Y ∈ mF0 . Allora il processo
Xt := Y Wt
è adattato. Inoltre, se Y ∈ L1 (Ω, P ), essendo Wt = Wt − W0 e Y indipendenti, si ha anche Xt ∈ L1 (Ω, P ) per

ogni t ≥ 0 e
E [Y Wt | Fs ] = Y E [Wt | Fs ] = Y Ws , s ≤ t,
da cui segue che X è una martingala.
Senza ulteriori ipotesi su Y a parte la F0 -misurabilità, il processo X può non essere una martingala per
la mancanza di sommabilità ma è comunque una martingala locale: l’idea è di rimuovere le traiettorie in
cui Y è “troppo grande” ponendo 
0 se |Y | > n,


τn := 
∞ se |Y | ≤ n,

che definisce una successione crescente di tempi d’arresto (si noti che (τn ≤ t) = (|Y | > n) ∈ F0 ⊆ Ft ). Allora,
per ogni n ∈ N, il processo
t 7→ Xt∧τn = Xt 1(τn =∞) = Wt Y 1(|Y |≤n)
è una martingala poiché è del tipo Wt Ȳ con Ȳ = Y 1(|Y |≤n) variabile aleatoria limitata.
13.5. MARTINGALE UNIFORMEMENTE IN L2 329
Osservazione 13.4.5. Se X è una martingala locale con successione localizzante (τn )n∈N allora:
i) X ha una modificazione con traiettorie càdlàg che si costruisce a partire dall’esistenza di una modi-
ficazione càdlàg di ogni martingala Xt∧τn . Nel seguito, il fatto che X sia càdlàg sarà implicitamente
assunto per ipotesi;
ii) X è adattato poiché X0 ∈ mF0 per definizione e Xt − X0 è limite puntuale di Xt∧τn − X0 che è mFt -
misurabile per definizione di martingala;
iii) a priori Xt non gode di nessuna proprietà di sommabilità;
iv) se X ha traiettorie càdlàg allora esiste una successione localizzante (τ̄n )n∈N tale che

|τ̄n | ≤ n, Xt∧τ̄n ≤ n, t ≥ 0, n ∈ N.
Infatti, per la Proposizione 11.2.7, il tempo di uscita σn di |X| dall’intervallo [−n, n] è un tempo d’ar-
resto; inoltre, poiché X è càdlàg (e quindi ogni traiettoria di X è limitata su ogni intervallo temporale
compatto) si ha σn ↗ ∞. Allora
τ̄n := τn ∧ σn ∧ n
è una successione localizzante per X: in particolare, poiché Xt∧τn − X0 è una martingala, per il
Corollario 13.4.1 anche Xt∧τ̄n − X0 = X(t∧τ̄n )∧(σn ∧n) − X0 lo è;
v) se esiste Y ∈ L1h(Ω, P ) tale che i|Xt | ≤ Y per ogni t ≥ 0, allora X è una martingala: infatti per s ≤ t si ha
Xs∧τn − X0 = E Xt∧τn − X0 | Fs che, grazie all’ipotesi di sommabilità, equivale a
h i
Xs∧τn = E Xt∧τn | Fs . (13.4.1)
La tesi segue passando al limite per n → ∞ e utilizzando il Teorema della convergenza dominata
per l’attesa condizionata. In particolare, ogni martingala locale limitata è una martingala. Il pas-
saggio al limite in (13.4.1) è una questione molto delicata: per esempio, esistono martingale locali
uniformemente integrabili che non sono martingale3 ;
vi) se X ≥ 0 allora X è una super-martingala poiché, ragionando come nel punto precedente e utilizzando
il lemma di Fatou invece del Teorema della convergenza dominata, si ottiene
Xs ≥ E [Xt | Fs ] , 0≤s ≤t ≤T. (13.4.2)
Inoltre, se E [XT ] = E [X0 ] allora (Xt )t∈[0,T ] è una vera martingala. Infatti, da (13.4.2) è facile dedurre
E [X0 ] ≥ E [Xt ] ≥ E [XT ] , 0≤t ≤T,
e quindi dall’ipotesi si ha E [Xt ] = E [X0 ] per ogni t ∈ [0, T ]. Se fosse Xs > E [Xt | Fs ] su un evento non
trascurabile, avremmo una contraddizione dalla (13.4.2).
13.5 Martingale uniformemente in L2

In questa sezione proviamo un’ulteriore versione del teorema di optional sampling. Sia (Ω, F , P , Ft )
uno spazio con filtrazione che soddisfa le ipotesi usuali. Per trattare il caso in cui l’indice temporale varia
in R≥0 introduciamo una condizione di sommabilità che permetterà, con argomenti basati sull’utilizzo di
tempi d’arresto, di ricondursi facilmente al caso [0, T ].
3 Si veda, per esempio, il Capitolo 2 in [34].
Definizione 13.5.1. Sia p ≥ 1. Diciamo che un processo X = (Xt )t≥0 è uniformemente in Lp se
sup E [|Xt |p ] < ∞.

t≥0
Proposizione 13.5.2. Sia X = (Xt )t≥0 una martingala. Sono equivalenti le seguenti affermazioni:
i) X è uniformemente in L2 ;
ii) esiste una v.a. X∞ ∈ L2 (Ω, P ) e F∞ -misurabile4 , tale che
Xt = E [X∞ | Ft ] , t ≥ 0.
In tal caso vale anche " #

h i
E sup Xt2 2
≤ 4E X∞ . (13.5.1)
t≥0
Dimostrazione. [ii) ⇒ i)] Per la disuguaglianza di Jensen si ha

h i h i h h ii h i
E Xt2 = E E [X∞ | Ft ]2 ≤ E E X∞ 2 2
| Ft = E X∞ < ∞. (13.5.2)
[i) ⇒ ii)] Consideriamo la martingala discreta (Xn )n∈N . Per il Teorema 13.2.2, per quasi ogni ω ∈ Ω esiste ed
è finito il limite
X∞ (ω) := lim Xn (ω)
n→∞
e poniamo X∞ (ω) = 0 per gli ω per cui tale limite non esiste o non è finito. Chiaramente X∞ ∈ mF∞ e
inoltre X∞ ∈ L2 (Ω, P ) poiché per il lemma di Fatou vale
h i h i h i
2
E X∞ ≤ lim E Xn2 ≤ sup E Xt2 < ∞
n→∞ t≥0
per ipotesi. Grazie all’Osservazione A.3.0.10, (Xn )n∈N è uniformemente integrabile e quindi per il Teorema
A.3.0.2 di Vitali si ha anche che Xn converge a X∞ in L1 (Ω, P ): da questo segue anche che
Xn = E [X∞ | Fn ] , n ∈ N; (13.5.3)
infatti, usando la definizione di attesa condizionata, è sufficiente osservare che per ogni A ∈ Fn si ha
0 = lim E [(Xn − XN )1A ] = E [(Xn − X∞ )1A ] .

N →∞
Allora, dato t ≥ 0 e preso n ≥ t, si ha
Xt = E [Xn | Ft ] = E [E [X∞ | Fn ] | Ft ] = E [X∞ | Ft ] .
Infine, per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha

 
h i
E  sup Xt  ≤ 4E Xn2 ≤
2
 

t∈[0,n]
(per la (13.5.3) e procedendo come nella prova della (13.5.2))

h i
2
≤ 4E X∞
e la (13.5.1) segue passando al limite per n → +∞, per il Teorema di Beppo-Levi.

4 Si ricordi la definizione di F in (11.2.5).
∞
13.5. MARTINGALE UNIFORMEMENTE IN L2 331
h i
Esempio 13.5.3. Un moto Browniano reale W non è uniformemente in L2 poiché E Wt2 = t. Tuttavia, per
ogni fissato T > 0, il processo Xt := Wt∧T è una martingala uniformemente in L2 con X∞ = WT .
Il prossimo risultato è una versione del Teorema di optional sampling per martingale uniformemente
in L2 . Tale condizione di sommabilità è necessaria come risulta evidente dal seguente esempio: dati un
moto Browniano reale W e a > 0, consideriamo il tempo d’arresto τa = inf{t ≥ 0 | Wt ≥ a}. Abbiamo visto
nell’Osservazione 12.2.3-ii) che τa < ∞ q.c. ma
h i
0 = W0 < E Wτa = a.
Teorema 13.5.4 (Teorema di optional sampling). [!] Sia X = (Xt )t≥0 una martingala (càdlàg) uniforme-
mente in L2 . Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 < ∞ allora si ha
h i
Xτ1 = E Xτ2 | Fτ1 .
Dimostrazione. Cominciamo col provare che se X = (Xt )t≥0 è una sub-martingala càdlàg uniformemente in
L2 , allora per ogni tempo d’arresto τ finito q.c. (ossia P (τ < ∞) = 1) vale
X0 ≤ E [Xτ | F0 ] . (13.5.4)
Osserviamo anzitutto che se τ è un tempo d’arresto finito q.c. allora Xτ ∈ L2 (Ω, P ) per la (13.5.1). Ap-
plicando il Teorema 13.1.6 di optional sampling con la successione di tempi d’arresto limitati τ ∧ n, si
ha
X0 ≤ E [Xτ∧n | F0 ] . (13.5.5)
Passando al limite per n → ∞ si ha (13.5.4): il passaggio al limite nel membro a destra della (13.5.5) è
giustificato dal teorema della convergenza dominata poiché
|Xτ∧n | ≤ 1 + sup Xt2 ∈ L1 (Ω, P )

t≥0
grazie alla (13.5.1).

Per provare la tesi è sufficiente verificare che per ogni A ∈ Fτ1 vale
h i h i
E Xτ1 1A = E Xτ2 1A . (13.5.6)
Consideriamo
τ := τ1 1A + τ2 1Ac
che è un tempo d’arresto poiché
(τ < t) = (A ∩ (τ1 < t)) ∪ (Ac ∩ (τ2 < t)) ∈ Ft , t ≥ 0.

h i h i
E [X0 ] = E [Xτ ] = E Xτ1 1A + E Xτ2 1Ac ,
h i h i h i
E [X0 ] = E Xτ1 = E Xτ1 1A + E Xτ1 1Ac ,
da cui la (13.5.6).
Capitolo 14
Teoria della variazione
In questo capitolo facciamo alcuni richiami di teoria dell’integrazione deterministica secondo Riemann-
Stieltjes e Lebesgue-Stieltjes. Le traiettorie del moto Browniano (e, in generale, delle martingale) non han-
no la regolarità sufficiente per poter utilizzare tali teorie al fine di definire l’integrale Browniano in senso
deterministico, traiettoria per traiettoria. Questo fatto viene precisato tramite i concetti di variazione pri-
ma e seconda (o quadratica) di una funzione che sono cruciali nella costruzione dell’integrale stocastico.
Successivamente introduciamo un’importante classe di processi stocastici chiamati semimartingale. Una
semimartingala è la somma di una martingala locale con un processo le cui traiettorie hanno variazione
prima limitata: sotto opportune ipotesi, tale decomposizione è unica. Proviamo una versione particolare
del fondamentale Teorema di decomposizione di Doob-Meyer: se X è una martingala allora X 2 è una se-
mimartingala, ossia può essere decomposto nella somma di una martingala e di un processo a variazione
limitata: quest’ultimo è il cosiddetto processo variazione quadratica di X. I risultati di questo capitolo sono
alla base della definizione di integrale stocastico che daremo in seguito.
14.1 Integrale di Riemann-Stieltjes

In questa sezione richiamiamo alcuni risultati classici sull’integrazione in ambito deterministico. Fissa-
to T > 0, una partizione dell’intervallo [0, T ] è un insieme del tipo π = {t0 , t1 , . . . , tN } con 0 = t0 < t1 < · · · <
tN = T . Indichiamo con PT l’insieme delle partizioni di [0, T ]. Data una funzione
g : [0, T ] −→ Rd
la variazione prima di g su π ∈ PT è definita da

N
X
V (g; π) = |g(tk ) − g(tk−1 )| .
k=1
Definizione 14.1.1 (Funzione BV). Si dice che g ha variazione limitata su [0, T ], e si scrive g ∈ BVT , se
VT (g) := sup V (g; π) < ∞.

π∈PT
Si dice che
g : R≥0 −→ Rd
è localmente a variazione limitata, e si scrive g ∈ BV, se g|[0,T ] ∈ BVT per ogni T > 0.
Si noti che la funzione t 7→ Vt (g) è crescente e non-negativa.
333
334 CAPITOLO 14. TEORIA DELLA VARIAZIONE
Esempio 14.1.2. i) Sia d = 1. Se g è una funzione monotona su [0, T ] allora g ∈ BVT . Infatti se, per
esempio, g è crescente allora
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| = (g(tk ) − g(tk−1 )) = g(T ) − g(0)
k=1 k=1
per ogni π ∈ PT . Nel caso d = 1 la monotonia è pressoché una caratterizzazione: è noto che g ∈ BVT
se e solo se g è differenza di funzioni monotone crescenti, g = g+ − g− . Inoltre, se g è continua allora
anche g+ e g− lo sono.
ii) Non è difficile mostrare che, se g è continua allora
VT (g) = lim V (g; π) (14.1.1)

|π|→0
dove
|π| := max |tk − tk−1 |
1≤k≤N
è detto parametro di finezza di π. Interpretando t 7→ g(t) come una traiettoria (o curva parametrizzata)
in Rd , il fatto che g ∈ BVT significa che g è una traiettoria rettificabile (ossia, con lunghezza appros-
simabile mediante spezzate) e, per definizione, VT (g) è la lunghezza di g. La (14.1.1) non vale se g è
discontinua: per esempio, fissato s ∈ ]0, T [, la funzione

1 se t = s,


g(t) = 
0 se t ∈ [0, s[∪ ]s, T ],

è tale che V (g; π) = 2 per ogni π ∈ PT tale che s ∈ π e V (g; π) = 0 per ogni π ∈ PT tale che s < π.
iii) Se g ∈ Lip([0, T ]; Rd ), ossia esiste una costante c tale che |g(t) − g(s)| ≤ c|t − s| per ogni t, s ∈ [0, T ], allora
g ∈ BVT poiché
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| ≤ c (tk − tk−1 ) = cT
k=1 k=1
per ogni π ∈ PT .
iv) Se g è una funzione integrale del tipo
Z t
g(t) = u(s)ds, t ∈ [0, T ],
0
con u ∈ L1 ([0, T ]; Rd ) allora g ∈ BVT poiché

N Z tk
N Z
X X tk
V (g; π) = u(s)ds ≤ |u(s)|ds = ∥u∥L1 ,
k=1 tk−1 tk−1
k=1
per ogni π ∈ PT .
v) Non è difficile provare che la funzione

0 se t = 0,


g(t) = 
t sin 1t
 se 0 < t ≤ T ,
è continua ma non ha variazione limitata.

14.1. INTEGRALE DI RIEMANN-STIELTJES 335
Introduciamo ora l’integrale di Riemann-Stieltjes. Data π = {t0 , . . . , tN } ∈ PT , indichiamo con Tπ la

famiglia delle scelte di punti relative a π: un elemento di Tπ è della forma
τ = {τ1 , . . . , τN }, τk ∈ [tk−1 , tk ], k = 1, . . . , N .
Date due funzioni f , g : [0, T ] −→ R, π ∈ PT e τ ∈ Tπ , diciamo che

N
X
S(f , g; π, τ) := f (τk )(g(tk ) − g(tk−1 ))
k=1
è la somma di Riemann-Stieltjes di f rispetto a g, relativamente alla partizione π e alla scelta di punti τ.

Proposizione 14.1.3 (Integrale di Riemann-Stieltjes). Per ogni f ∈ C[0, T ] e g ∈ BVT esiste ed è finito il
limite
lim S(f , g; π, τ). (14.1.2)
|π|→0
Tale limite è chiamato integrale di Riemann-Stieltjes di f rispetto a g su [0, T ] ed indicato con

ZT ZT
f dg oppure f (t)dg(t).
0 0
Più precisamente, per ogni ε > 0 esiste δε > 0 tale che

ZT

S(f , g; π, τ) − f dg < ε
0
per ogni π ∈ PT , con |π| < δε , e τ ∈ Tπ .

Dimostrazione. Usiamo il criterio di Cauchy e mostriamo che per ogni ε > 0 esiste δε > 0 tale che

S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) < ε
per ogni π′ , π′′ ∈ PT tali che |π′ |, |π′′ | < δε e per ogni τ ′ ∈ Tπ′ e τ ′′ ∈ Tπ′′ .
Poniamo π = π′ ∪ π′′ = {t0 , . . . , tN }. Poiché f è uniformemente continua sul compatto [0, T ], fissato ε > 0
esiste δε > 0 tale che, per |π′ |, |π′′ | < δε , si ha
N
X
S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) ≤ ε |g(tk ) − g(tk−1 )| ≤ εV (g; π)
k=1

Vediamo alcuni casi particolari in cui si riesce a calcolare un integrale di Riemann-Stieltjes a partire
dalla definizione generale (14.1.2).
Esempio 14.1.4. Fissato t̄ ∈ ]0, T [, sia 
0 se t ∈ [0, t̄[,


g(t) = 
1 se t ∈ [t̄, T ].

Per ogni f ∈ C[0, T ], π = {t0 , . . . , tN } ∈ PT e τ ∈ Tπ , sia k̄ l’indice per cui vale t̄ ∈ ]tk̄−1 , tk̄ ]. Allora si ha
S(f , g; π, τ) = f (τk̄ ) (g(tk̄ ) − g(tk̄−1 )) = f (τk̄ ) −−−−−→ f (t̄).

|π|→0
Dunque
Z T
f dg = f (t̄).
0
Si noti che Z T Z
f (t)dg(t) = f (t)δt̄ (dt)
0 [0,T ]
dove il membro a destra è l’integrale rispetto alla misura delta di Dirac centrata in t̄.
Esempio 14.1.5. Sia Z t
g(t) = u(s)ds, t ∈ [0, T ],
0
la funzione integrale (di Lebesgue) dell’Esempio 14.1.2-iv), con u ∈ L1 ([0, T ]; R). A meno di considerare
separatamente la parte positiva e negativa di u, non è restrittivo assumere u ≥ 0. Date π ∈ PT e f ∈ C[0, T ],
consideriamo la particolare scelta di punti
τk ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ]
Allora si ha
N
X
S(f , g; π, τ) = f (τk )(g(tk ) − g(tk−1 ))
k=1
N
X Z tk
= f (τk ) u(s)ds
k=1 tk−1
XN Z tk Z T
≤ f (s)u(s)ds = f (s)u(s)ds.
k=1 tk−1 0
Si prova una disuguaglianza analoga con la scelta

τk ∈ arg max f , k = 1, . . . , N .
[tk−1 ,tk ]
e, passando al limite per |π| → 0, si conclude che

ZT Z T
f (t)dg(t) = f (t)u(t)dt.
0 0
Il risultato generale che fornisce le regole di calcolo per l’integrale di Riemann-Stieltjes è la seguente
importante formula di Itô.
Teorema 14.1.6 (Formula di Itô deterministica). Per ogni F = F(t, x) ∈ C 1 ([0, T ] × R) e g ∈ BVT ∩ C[0, T ]
vale ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∂x F)(t, g(t))dg(t)
0 0
Dimostrazione. Per ogni π = {t0 , . . . , tN } ∈ PT si ha
N
X
F(T , g(T )) − F(0, g(0)) = (F(tk , g(tk )) − F(tk−1 , g(tk−1 ))) =
k=1
(per il teorema del valor medio e la continuità di g, con τ ′ , τ ′′ ∈ Tπ )

N
X
= (∂t F)(τk′ , g(τk′′ ))(tk − tk−1 ) + (∂x F)(τk′ , g(τk′′ )) (g(tk ) − g(tk−1 ))
k=1
da cui la tesi, passando al limite per |π| → 0.

14.2. INTEGRALE DI LEBESGUE-STIELTJES 337
Osservazione 14.1.7. Nel caso in cui F dipenda solo da x, la formula di Itô diventa
ZT
F(g(T )) − F(g(0)) = F ′ (g(t))dg(t)
0
che viene a volte scritta, soprattutto nell’ambito del calcolo stocastico (cfr. Notazione 15.3.4), con la
cosiddetta “notazione differenziale”
dF(g(t)) = F ′ (g(t))dg(t). (14.1.3)
Quest’ultima formalmente ricorda l’usuale regola di derivazione di funzione composta.
Nel caso multidimensionale in cui g = (g1 , . . . , gd ) sia a valori in Rd , posto ∇x = (∂x1 , . . . , ∂xd ), la formula
di Itô diventa
ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t)
0 0
Z T d Z
X T
= (∂t F)(t, g(t))dt + (∂xi F)(t, g(t))dgi (t)
0 i=1 0
o in notazione differenziale
dF(t, g(t)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t).
Esempio 14.1.8. Consideriamo alcuni esempi di applicazione della formula di Itô:

i) se F(t, x) = x si ha
Z T
g(T ) − g(0) = dg
0
che generalizza il teorema fondamentale del calcolo integrale;
ii) se F(t, x) = f (t)x, con f ∈ C 1 [0, T ], si ha
Z T Z T
f (T )g(T ) − f (0)g(0) = f ′ (t)g(t)dt + f (t)dg(t)
0 0
che generalizza la formula di integrazione per parti. In forma differenziale abbiamo
d(f (t)g(t)) = f ′ (t)g(t)dt + f (t)dg(t) (14.1.4)
che formalmente ricorda la formula per la derivata di un prodotto;

iii) se F(t, x) = x2 si ha
T
g 2 (T ) − g 2 (0)
Z
g(t)dg(t) = .
0 2
14.2 Integrale di Lebesgue-Stieltjes

Ricordiamo che una funzione g ∈ BV ∩ C(R≥0 ), a valori reali, si decompone nella differenza g = g+ − g−
con g+ , g− funzioni crescenti e continue. Per il Teorema 2.4.33, a g+ e g− sono associate due misure su1
(R≥0 , B) che indichiamo rispettivamente µ+g e µ−g , per le quali vale
µ±g ([a, b]) = µ±g (]a, b]) = g± (b) − g± (a), a ≤ b.

1 Definiamo le misure su R
≥0 poiché lo spazio dei reali non-negativi sarà nel seguito l’insieme degli indici temporali dei processi
stocastici. Per applicare il Teorema 2.4.33, possiamo prolungare le funzioni g+ , g− in modo che siano continue e costanti per t ≤ 0.
Tutti i risultati della sezione valgono ovviamente su (R, B).
In realtà per applicare il Teorema 2.4.33 sarebbe sufficiente assumere g continua da destra (come nell’E-
sempio 14.1.4 in cui µg = δt̄ ). Tuttavia, per semplificare la trattazione, assumeremo g continua anche perché
in seguito studieremo l’integrale stocastico solo con integratori continui. Indichiamo
|µg | := µ+g + µ−g
la misura somma di µ+g e µ−g . Inoltre, per ogni H ∈ B tale che almeno uno fra µ+g (H) e µ−g (H) sia finito,
poniamo
µg (H) = µ+g (H) − µ−g (H). (14.2.1)
Diciamo che µg è una misura con segno poiché può assumere anche valori negativi, compreso −∞.
Definizione 14.2.1 (Misura di Lebesgue-Stieltjes). Data g ∈ BV ∩ C(R≥0 ), diciamo che µg in (14.2.1) è

la misura di Lebesgue-Stieltjes associata a g. Per ogni H ∈ B e f ∈ L1 (H, |µg |), definiamo l’integrale di
Lebesgue-Stieltjes di f rispetto a g su H come
Z Z Z
f dµg := f dµ+g − f dµ−g .
H H H
L’integrale di Lebesgue-Stieltjes generalizza l’integrale di Riemann-Stieltjes, estendendo la classe delle

funzioni integrabili.
Proposizione 14.2.2 (Riemann-Stieltjes vs Lebesgue-Stieltjes). Per ogni f ∈ C(R≥0 ), g ∈ BV ∩ C(R≥0 ) e

T > 0, si ha ZT Z
f dg = f dµg .
0 [0,T ]
Dimostrazione. Data π = {t0 , . . . , tN } ∈ PT , consideriamo le funzioni semplici

N
X
fπ± (t) = f (τk± )1[tk−1 ,tk [ (t)
k=1
con
τk+ ∈ arg max f , τk− ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ] [tk−1 ,tk ]
Allora si ha
N
X Z Z Z N
X
f (τk− ) (g+ (tk ) − g+ (tk−1 )) = fπ− dµ+g ≤ f dµ+g ≤ fπ+ dµ+g = f (τk+ ) (g+ (tk ) − g+ (tk−1 )) .
k=1 [0.T ] [0,T ] [0.T ] k=1
Passando al limite per |π| → 0, otteniamo

Z T Z
f dg+ = f dµ+g
0 [0,T ]
e la prova si conclude procedendo in maniera analoga con g− .
Diamo un risultato tecnico che sarà utilizzato in seguito (si veda, per esempio, il Teorema 16.2.1).
Proposizione 14.2.3. In uno spazio (Ω, F , P , (Ft )t≥0 ) in cui sono valide le ipotesi usuali, siano:
• τ un tempo d’arresto finito, ossia tale che τ < ∞ q.c.;
• A un processo continuo, crescente e adattato con A0 = 0;

14.3. SEMIMARTINGALE 339
• X una variabile aleatoria sommabile e non negativa.
Allora si ha "Z τ # "Z τ #

E XdAt = E E [X | Ft ] dAt
0 0
che più precisamente significa che vale l’identità

"Z τ # "Z τ #
E XdAt = E Mt dAt
0 0
per ogni M che sia una versione càdlàg della martingala E [X | Ft ].
Dimostrazione. Assumiamo dapprima che A e X siano limitati q.c. da un certo N ∈ N. Fissato n ∈ N,

poniamo τk = kτ
n per k = 0, . . . , n. Si ha
 n 
"Z τ #
X 
E XdAt = E  X Aτk − Aτk−1 
0 k=1
 n 
 X h i 
= E   E X | Fτk Aτk − Aτk−1 
k=1
 n 
 X 
= E   Mτk Aτk − Aτk−1 
k=1
"Z τ #
(n)
=E Mt dAt
0
dove
n
(n)
X
Mt = M0 + Mτk 1]τk−1 ,τk ] (t).
k=1
Per la continuità a destra di M, si ha

(n)
lim Mt (ω) = Mt (ω)
n→∞
per quasi ogni ω tale che t ≤ τ(ω). Data la limitatezza di X e quindi di M, la tesi segue dal teorema della
convergenza dominata. In generale, è sufficiente applicare quanto appena provato a X ∧ N , A ∧ N e usare il
teorema di Beppo-Levi al tendere di N → ∞.
14.3 Semimartingale
Definizione 14.3.1. Diciamo che un processo X = (Xt )t≥0 è
• crescente se le traiettorie t 7→ Xt (ω) sono funzioni crescenti2 per quasi ogni ω ∈ Ω;
• localmente a variazione limitata se X(ω) ∈ BV per quasi ogni ω ∈ Ω (cfr. Definizione 14.1.1). Per bre-
vità spesso ometteremo l’aggettivo “localmente” e parleremo semplicemente di processi a variazione
limitata, usando ancora la notazione BV per indicare la famiglia di tali processi;
• una semimartingala se è della forma X = M + A dove M è una martingala locale e A è un processo

adattato, a variazione limitata e tale che A0 = 0.
2 Ossia X (ω) ≤ X (ω) se s ≤ t.
s t
L’interesse per le semimartingale è dovuto al fatto che utilizzeremo tali processi come integratori nel-
l’integrale stocastico di Itô. Ci limiteremo a considerare semimartingale continue, ossia processi della forma
X = M + A con M ∈ M c,loc (cfr. Definizione 13.4.2) e A continuo, adattato e a variazione limitata.
Esempio 14.3.2. Siano x, µ, σ ∈ R e W un moto Browniano standard. Il moto Browniano con drift
Xt := x + µt + σ Wt , t ≥ 0,
è una semimartingala continua con decomposizione X = M + A dove Mt = x + σ Wt e At = µt. Proveremo nel

Corollario 14.3.7 che la decomposizione di una semimartingala continua è unica.
Osservazione 14.3.3. Un risultato profondo, il Teorema di decomposizione di Doob-Meyer, afferma che
ogni sub-martingala càdlàg è una semimartingala: a differenza del caso discreto (cfr. Teorema 6.4.15), la
prova di questo fatto è tutt’altro che elementare.
In [101], Cap. IV Teorema 71, si prova che se X è una martingala locale continua, X ∈ M c,loc , con X0 = 0
e 0 < α < 21 allora il processo |X|α non è una semimartingala a meno che X non sia identicamente nullo.
14.3.1 Il moto Browniano come semimartingala

Un moto Browniano W è una martingala continua e quindi anche una semimartingala. Per mostrare che
la sua parte BV è nulla (e quasi tutte le traiettorie di W non sono BV), introduciamo il concetto di variazione
seconda (o quadratica) di una funzione g relativa alla partizione π = {t0 , t1 , . . . , tN } ∈ PT :
N
(2)
X
VT (g; π) := |g(tk ) − g(tk−1 )|2 . (14.3.1)
k=1
Proposizione 14.3.4. Se g ∈ BVT ∩ C[0, T ] allora

(2)
lim VT (g; π) = 0.
|π|→0
Dimostrazione. Essendo g uniformemente continua sull’intervallo compatto [0, T ], per ogni ε > 0 esiste
δε > 0 tale che
max |g(tk ) − g(tk−1 )| < ε
1≤k≤N
per ogni π ∈ PT tale che |π| < δε . Di conseguenza
N
(2)
X
VT (g; π) ≤ ε |g(tk ) − g(tk−1 )| ≤ εVT (g).
k=1
Esempio 14.3.5. [!] Se W un moto Browniano reale allora

(2)
lim VT (W ; π) = T in L2 (Ω, P ), (14.3.2)
|π|→0
e di conseguenza quasi certamente le traiettorie di W non hanno variazione limitata.

Per provare la (14.3.2), data una partizione π = {t0 , t1 , . . . , tN } ∈ PT , poniamo
δk = tk − tk−1 , ∆k = Wtk − Wtk−1 , k = 1, . . . , N ,

h i
e osserviamo che E ∆4k = 3δk2 e
h i h i h h ii
E ∆2k − δk = 0, E ∆2h − δh ∆2k − δk = E ∆2h − δh E ∆2k − δk | Fth = 0 (14.3.3)
14.3. SEMIMARTINGALE 341
se h < k. Allora si ha

N
2 
" 2 #
(2)
X  
2
E VT (W ; π) − T = E  ∆k − δk  

 
k=1
N
X 2 X h i
= E ∆2k − δk +2 E ∆2h − δh ∆2k − δk =
k=1 h<k
(sviluppando il primo quadrato e osservando che i termini della seconda somma sono nulli per la (14.3.3))
N
X h i
= E ∆4k − 2∆2k δk + δk2 =
k=1
(ancora per le (14.3.3))

N
X N
X
= 2δk2 ≤ 2|π| δk = 2|π|T
k=1 k=1
da cui la tesi.
14.3.2 Semimartingale a variazione limitata

Nell’Esempio 14.3.5 abbiamo ripetutamente utilizzato la proprietà di martingala per provare che W
ha variazione quadratica positiva e quindi non ha variazione prima limitata. In effetti, questo risultato si
estende a tutta la classe delle martingale locali continue le cui traiettorie non hanno variazione limitata a
meno che non siano identicamente nulle.
Teorema 14.3.6. [!] Sia X = (Xt )t≥0 una martingala locale continua, X ∈ M c,loc . Se X ∈ BV allora X è
indistinguibile dal processo identicamente uguale a X0 .
Dimostrazione. A meno di una traslazione, possiamo considerare X0 = 0. Dapprima proviamo la tesi nel ca-
so in cui X è una martingala continua limitata e con variazione prima limitata: precisamente, supponiamo
che esista una costante K tale che
sup (|Xt | + Vt (X)) ≤ K.
t≥0
Fissato T > 0 e π ∈ PT , poniamo
∆k = Xtk − Xtk−1 , ∆π = max |Xtk − Xtk−1 |.

1≤k≤N
Osserviamo che per l’identità (6.4.3) vale

h i h i
E (Xtk − Xtk−1 )2 = E Xt2k − Xt2k−1
e, per l’uniforme continuità delle traiettorie,
lim ∆π (ω) = 0, 0 ≤ ∆π (ω) ≤ 2K, ω ∈ Ω. (14.3.4)

|π|→0
Allora si ha
N  N 
h i X  X 2 
E XT2 = E  Xt2k − Xt2k−1  = E  Xtk − Xtk−1  ≤ E [∆π VT (X; π)] ≤ KE [∆π ]
k=1 k=1
h i
che, per |π| → 0, tende a zero per la (14.3.4) grazie al teorema della convergenza dominata. Dunque E XT2 =
0 e per la disuguaglianza massimale di Doob
" #
h i
E sup Xt2 ≤ 4E XT2 = 0.
0≤t≤T
Di conseguenza, per continuità, quasi tutte le traiettorie di X sono identicamente nulle su [0, T ]. Data
l’arbitrarietà di T si conclude che X è indistinguibile dal processo nullo.
Nel caso generale, consideriamo una successione localizzante τ̄n per cui Yn,t := Xt∧τ̄n ∈ BV. Ritocchiamo
tale successione definendo i tempi d’arresto
σn = inf{t ≥ 0 | |Yn,t | + Vt (Yn,· ) ≥ n}.
Anche τn := τ̄n ∧σn ∧n è una successione localizzante per X: inoltre, Xt∧τn è una martingala continua, limita-
ta, costante per t ≥ n e con variazione prima limitata da n. Per quanto provato sopra, Xt∧τn è indistinguibile
dal processo nullo e la tesi segue passando al limite per n → ∞.
Corollario 14.3.7. [!] Sia X una semimartingala continua. È unica la rappresentazione X = M + A, con
M ∈ M c,loc e A continuo, adattato, a variazione limitata e tale che A0 = 0.
Dimostrazione. Se X = M ′ + A′ è un’altra rappresentazione allora si ha che M − M ′ = A′ − A è una martingala

locale continua e localmente a variazione limitata. Per il Teorema 14.3.6, M è indistinguibile da M ′ e A è
indistinguibile da A′ .
Osservazione 14.3.8. Senza l’ipotesi di continuità, in generale la decomposizione di una semimartingala

non è unica. Per esempio, il processo di Poisson N è crescente e quindi BV: allora N = M + A con A := N e
M := 0 oppure si ha anche la decomposizione con At := λt e Mt := Nt − λt, dove M è il processo di Poisson
compensato (cfr. Proposizione 8.3.1).
14.4 Decomposizione di Doob e processo variazione quadratica

In questa sezione presentiamo un risultato che è alla base della teoria dell’integrazione stocastica: per
ogni martingala locale continua X esiste un processo crescente, detto processo variazione quadratica e indi-
cato con ⟨X⟩, che “compensa” la sub-martingala locale X 2 nel senso che X 2 − ⟨X⟩ è una martingala locale
continua. Il processo ⟨X⟩ può essere costruito traiettoria per traiettoria come limite della variazione secon-
da (14.3.1) per |π| → 0: ciò è coerente con quanto visto nell’Esempio 14.3.5 relativo al moto Browniano W
per il quale si ha ⟨W ⟩t = t e il processo Wt2 − t è una martingala continua.
Ricordiamo che M c,2 indica lo spazio delle martingale continue X tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0
(cfr. Definizione 13.3.1) e M c,loc indica lo spazio delle martingale locali continue (cfr. Definizione 13.4.2).
Teorema 14.4.1 (Processo variazione quadratica). [!!] Per ogni X ∈ M c,2 esistono e sono unici (a meno di
indistinguibilità) due processi M e ⟨X⟩ tali che:
i) M è una martingala continua;
ii) ⟨X⟩ è un processo adattato, continuo e crescente3 , tale che ⟨X⟩0 = 0;
iii) si ha la decomposizione
Xt2 = Mt + ⟨X⟩t , t ≥ 0;
3 Chiaramente ⟨X⟩ è anche sommabile poiché ⟨X⟩ = X 2 − M con X ∈ L2 (Ω, P ) per ipotesi e M ∈ L1 (Ω, P ) per definizione di
t t t t t
martingala.
14.5. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 343
iv) vale h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] , t ≥ s ≥ 0. (14.4.1)
La (14.4.1) è la prima versione di un’importante identità chiamata isometria di Itô (cfr. Sezione 15.2.1).
Più in generale, se X ∈ M c,loc allora valgono ancora la ii) e la iii), mentre la i) viene sostituita da
i’) M ∈ M c,loc .
Il processo ⟨X⟩ è chiamato processo variazione quadratica di X: per ogni t > 0 si ha
2n
X 2
⟨X⟩t = lim X tkn − X t(k−1) (14.4.2)
n→∞ 2 2n
k=1
in probabilità. Più in generale, data una semimartingala continua della forma S = X + A, con X ∈ M c,loc e
A ∈ BV adattato, per ogni t > 0 si ha
2n
X 2
⟨S⟩t := lim S tkn − S t(k−1) = ⟨X⟩t (14.4.3)
n→∞ 2 2n
k=1
in probabilità e pertanto diciamo che ⟨S⟩ è il processo variazione quadratica di S.

La dimostrazione del Teorema 14.4.1 è rimandata alla Sezione 14.5.
Esempio 14.4.2.
h iPosto Xt = t + Wt , dove W è un moto Browniano, si ha per definizione ⟨X⟩t = ⟨W ⟩t = t. Si
noti che E Xt − t = t 2 e Xt2 − t non è una martingala.
2
Osservazione 14.4.3. Il Teorema 14.4.1 è un caso particolare di un risultato profondo e più generale, noto
come Teorema di decomposizione di Doob-Meyer, che afferma che ogni sub-martingala X càdlàg di classe D
(ossia tale che la famiglia delle v.a. Xτ , al variare di τ tempo d’arresto, sia uniformemente integrabile) si scrive in
modo unico nella forma X = M + A con M martingala continua e A processo crescente e tale che A0 = 0.
Tale risultato è stato provato per la prima volta da Meyer negli anni ’60 del secolo scorso e da allora sono
state fornite molte altre dimostrazioni. Una prova particolarmente sintetica è stata recentemente proposta
in [15]: l’idea molto intuitiva è di discretizzare il processo X sui diadici, utilizzare la versione discreta del
Teorema di decomposizione di Doob (cfr. Teorema 6.4.15) e infine provare con il Lemma 14.5.1 di Komlos
che la successione delle decomposizioni discrete converge alla decomposizione cercata.
Osservazione 14.4.4. Grazie al Teorema 13.1.6 di optional sampling, l’importante identità (14.4.1) si ge-
neralizza al caso in cui al posto di t, s ci sono rispettivamente due tempi d’arresto limitati τ, σ tali che
σ ≤ τ ≤ T q.c. per un certo T > 0.
14.5 Dimostrazione del Teorema di decomposizione di Doob

Per dimostrare il Teorema 14.4.1 adattiamo un argomento proposto in [15], basato su un interessante
e utile risultato di analisi funzionale. Il classico Teorema di Bolzano-Weierstrass assicura che da ogni suc-
cessione limitata in uno spazio Euclideo è possibile estrarre una sotto-successione convergente. Anche se
tale risultato non si estende al caso infinito-dimensionale, il lemma seguente mostra che è sempre possibile
costruire una successione convergente di combinazioni convesse (le sotto-successioni sono particolari com-
binazioni convesse) degli elementi della successione di partenza. Più precisamente, data una successione
(fn )n∈N in uno spazio di Hilbert, indichiamo con
Cn = {λn fn + · · · + λN fN | N ≥ n, λn , . . . , λN ≥ 0, λn + · · · + λN = 1}
la famiglia delle combinazioni convesse di un numero finito di elementi di (fk )k≥n .

Lemma 14.5.1 (Lemma di Komlos [63]). Sia (fn )n∈N una successione limitata in uno spazio di Hilbert.
Allora esiste una successione convergente (gn )n∈N , con gn ∈ Cn .
Dimostrazione. Se ∥fn ∥ ≤ K per ogni n ∈ N allora, per la disuguaglianza triangolare, ∥g∥ ≤ K per ogni g ∈ Cn .
Dunque, posto
an := inf ∥g∥, n ∈ N,
g∈Cn
si ha an ≤ an+1 e a := sup an ≤ K. Allora per ogni n ∈ N esiste gn ∈ Cn tale che ∥gn ∥ ≤ a + n1 . D’altra parte,
n∈N g +g
per ogni ε > 0 esiste nε ∈ N tale che n 2 m ≥ a − ε per ogni n ≥ m ≥ nε : questo semplicemente perché
gn +gm
2 ∈ Cn e per definizione di a. Allora, per ogni n, m ≥ nε , si ha
1 2

∥gn − gm ∥2 = 2∥gn ∥2 + 2∥gm ∥2 − ∥gn + gm ∥2 ≤ 4 a + − 4(a − ε)2
n
che prova che (gn )n∈N è una successione di Cauchy e quindi convergente.
Dimostrazione del Teorema 14.4.1. L’unicità segue direttamente dal Teorema 14.3.6 poiché se M ′ e A′ verifi-
cano le i), ii) e iii) allora M −M ′ è una martingala continua a variazione limitata che parte da 0. Dimostriamo
l’esistenza assumendo dapprima che X = (Xt )t∈[0,1] sia una martingala continua e limitata:
sup |Xt | ≤ K (14.5.1)

t∈[0,1]
per una certa costante positiva K. Questa è la parte difficile della dimostrazione, in cui emergono le idee
principali. Procediamo per passi.
[Passo 1] Fissato n ∈ N, introduciamo le seguenti notazione per semplificare i calcoli sui diadici di [0, 1]:
k
X 2
Xn,k = X k , An,k = Xn,i − Xn,i−1 , Fn,k := F k , k = 0, 1, . . . , 2n .
2n 2n
i=1
Chiaramente k 7→ Xn,k e k 7→ An,k sono processi adattati alla filtrazione discreta (Fn,k )k=0,1,...,2n e k 7→ An,k è
crescente. Inoltre il processo
2
Mn,k := Xn,k − An,k , k = 0, 1, . . . , 2n
è una martingala discreta. Infatti si ha
h i
E An,k − An,k−1 | Fn,k−1 = E Xn,k − Xn,k−1 2 | Fn,k−1 =

(per la (6.4.3))
h i
2 2
= E Xn,k − Xn,k−1 | Fn,k−1 (14.5.2)
da cui la proprietà di martingala di Mn,k .

[Passo 2] Questo è il punto cruciale della dimostrazione: proviamo che
h i
sup E A2n,2n ≤ 36K 4 . (14.5.3)
n∈N
Notiamo che, per ogni fissato n ∈ N, il valore finale An,2n del processo An,· è chiaramente in L2 (Ω, P ),
essendo una somma finita di termini che sono limitati per ipotesi: tuttavia il numero di tali termini aumenta
esponenzialmente in n e questo spiega la difficoltà nella dimostrazione di (14.5.3) che è una stima uniforme
in n ∈ N. Qui utilizziamo in modo essenziale la proprietà di martingala e la limitatezza di X (si noti che
nelle ipotesi generali X è di quadrato sommabile ma in (14.5.3) compaiono potenze di X di ordine quattro).
Si ha
2n
X 2n X
X 2n
4 2 2
A2n,2n = Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 Xn,h − Xn,h−1
k=1 k=1 h=k+1
2n
X 2n
X
4 2
= Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 An,2n − An,k . (14.5.4)
k=1 k=1
Applichiamo il valore atteso, stimiamo puntualmente la prima somma di (14.5.4) con la (14.5.1) e appli-
chiamo la proprietà della torre nella seconda somma:
2 n 2 n
h i X h i X h i
E A2n,2n ≤ 2K 2 E Xn,k − Xn,k−1 2 + 2 E Xn,k − Xn,k−1 2 E An,2n − An,k | Fn,k =

k=1 k=1
2
(per la proprietà di martingala (14.5.2) di Mn,k = Xn,k − An,k )
X h 2n
h 2 ii
2
E Xn,k − Xn,k−1 2 E Xn,2 2
n − Xn,k | Fn,k

= 2K E An,2n + 2 ≤
k=1

2 2 2
(poiché Xn,2n − Xn,k ≤ 2K )
h i1
≤ 6K 2 E An,2n ≤ 6K 2 E A2n,2n 2

avendo nell’ultimo passaggio applicato la disuguaglianza di Hölder. Questo conclude la prova della (14.5.3).
[Passo 3] Estendiamo la martingala discreta Mn,· a tutto [0, 1] ponendo
(n)
:= E Mn,2n | Ft ,

Mt t ∈ [0, 1].
h i
k−1 k
Per ogni t ∈ 2n , 2n si ha, per la proprietà della torre,
(n)
= E E Mn,2n | Fn,k | Ft

Mt
= E Mn,k | Ft

h i
2
= E Xn,k − An,k | Ft
h i
2
− Xn,k − Xn,k−1 2 | Ft − An,k−1

= E Xn,k
2
= E 2Xn,k Xn,k−1 | Ft − Xn,k−1

− An,k−1
2
= 2Xt Xn,k−1 − Xn,k−1 − An,k−1 .
Allora dalla continuità di X segue che anche M (n) è un processo continuo. Inoltre, per il Punto 2 la
successione
(n)
M1 = X12 − An,2n
(n)
è limitata in L2 (Ω, P ). Si potrebbe dimostrare che (M1 )n∈N è di Cauchy e converge in norma L2 (e quindi
in probabilità) ma la prova diretta di questo fatto è un po’ tecnica e laboriosa. Pertanto qui preferiamo
prendere una scorciatoia appoggiandoci sul Lemma 14.5.1 di Komlos: per ogni n ∈ N esistono dei pesi
(n) (n)
λn , . . . , λNn non-negativi e la cui somma è pari a uno, tali che posto
en,t = λ(n)
M
(n) (n) (Nn )
n Mt + · · · + λ N n Mt , t ∈ [0, 1],
si ha che Men,1 converge in L2 (Ω, P ) ad una variabile aleatoria Z. Sia M una versione càdlàg della martingala
definita da
Mt := E [Z | Ft ] , t ∈ [0, 1].
Poiché t 7→ M
en,t è una martingala continua per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha
 
2 
en,1 − M1 2 = 4E M en,1 − Z 2 .

E  sup Mn,t − Mt  ≤ 4E M
 e
t∈[0,1]
Dunque, a meno di passare ad una sotto-successione, si ha
en,t (ω) − Mt (ω)2 = 0,

lim sup M ω ∈ Ω \ F,
n→∞ t∈[0,1]
con F trascurabile, da cui si deduce l’esistenza di una versione continua di M. Di conseguenza anche il
processo
At := Xt2 − Mt
è continuo.
Per mostrare che A è crescente fissiamo anzitutto due diadici s, t ∈ [0, 1] con s ≤ t: allora esiste n̄ tale che
s, t ∈ Dn per ogni n ≥ n̄, ossia s = 2knn e t = 2hnn per certi kn , hn ∈ {0, 1, . . . , 2n }. Ora per costruzione
2 2
Xn,k n
− Mn,kn = An,kn ≤ An,hn = Xn,h n
− Mn,hn
e un’analoga disuguaglianza vale anche per ogni combinazione convessa, quindi al limite si ha As (ω) ≤
At (ω) per ogni ω ∈ Ω \ F. Dalla densità dei diadici in [0, 1] e dalla continuità di A, segue che A è crescente
q.c. Infine proviamo la (14.4.1): per la (6.4.3) si ha
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs
= E [Mt − Ms | Fs ] + E [At − As | Fs ]
= E [At − As | Fs ] .
[Passo 4] Supponiamo ora che X = (Xt )t≥0 sia una martingala continua, non necessariamente limitata, ma
tale che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0. Utilizziamo una procedura di localizzazione e definiamo la successione
di tempi d’arresto
τn = inf{t | |Xt | ≥ n} ∧ n, n ∈ N.
Per la continuità di X si ha τn ↗ ∞ per n → ∞. Per il Corollario 13.4.1, Xt∧τn è una martingala continua,
limitata e costante per t ≥ n: allora si applicano gli argomenti dei punti precedenti per dimostrare che
esistono una martingala continua e di quadrato sommabile M (n) e un processo continuo e crescente A(n) tali
che
2 (n) (n)
Xt∧τ n
= Mt + A t , t ≥ 0.
(n) (m) (n) (m) (n)
Per unicità, per ogni m > n si ha Mt = Mt e At = At per t ∈ [0, τn ]: dunque la definizione Mt := Mt e
(n)
At := At per ogni n tale che τn ≥ t, è ben posta. Chiaramente M, A sono processi continui, A è crescente e
M è una martingala: infatti, se 0 ≤ s ≤ t, per ogni n tale che τn ≥ t si ha
h i
Ms∧τn = E Mt∧τn | Fs .
Quindi si può concludere ragionando come nella dimostrazione del Teorema 13.1.6, essendo la famiglia
{Mt∧τn | n ∈ N} uniformemente integrabile per la disuguaglianza di Doob
 
h i
E  sup |Ms |  ≤ 4E Mt2
2
 
s∈[0,t]
e l’Osservazione A.3.0.10.
La medesima successione localizzante può essere utilizzata per trattare il caso in cui X ∈ M c,loc e in
questo caso è ovvio che M ∈ M c,loc .
[Passo 5] Con gli strumenti che abbiamo ora a disposizione, la dimostrazione delle formule (14.4.2) e
(14.4.3) richiederebbe dei conti abbastanza lunghi e noiosi. Poiché non utilizzeremo tali formule nel segui-
to, preferiamo posticipare questa dimostrazione al momento in cui avremo a disposizione la formula di Itô
e tutto sarà più facile: si veda la Proposizione 16.2.4.
Capitolo 15
Integrazione stocastica secondo Itô
One needs for stochastic integration

a six months course to cover only the
definitions. What is there to do?
Paul-André Meyer
In questo capitolo costruiamo l’integrale stocastico

Z t
Xt := us dBs , t ≥ 0,
0
inteso come processo stocastico al variare dell’estremo di integrazione. Assumeremo opportune ipotesi sul
processo integrando u e sul processo integratore B. Il prototipo di integratore è il moto Browniano: poiché
le traiettorie di un moto Browniano non hanno variazione limitata, non possiamo adottare la teoria de-
terministica dell’integrazione secondo Lebesgue-Stieltjes per definire l’integrale traiettoria per traiettoria.
Seguiremo invece la costruzione dovuta a Kiyosi Itô (1915-2008) che è basata sulla teoria della variazione
presentata nel Capitolo 14 e sfrutta l’ipotesi cruciale che il processo integrando u sia progressivamente
misurabile. La costruzione dell’integrale stocastico è per certi versi analoga a quella dell’integrale di Lebe-
sgue ma è decisamente più lunga e laboriosa: si parte dai processi u “semplici”, ossia costanti a tratti nel
tempo, fino ad arrivare a u progressivamente misurabile con traiettorie che verificano una debole ipotesi
di sommabilità rispetto alla variabile temporale. Un’importante tappa intermedia è quella in cui u è un
“processo di quadrato sommabile” (cfr. Definizione 15.1.1); in tal caso, l’integrale stocastico gode di alcune
proprietà notevoli: è una martingala continua di quadrato sommabile, ossia appartiene allo spazio M c,2 ,
vale la cosiddetta isometria di Itô e infine il processo variazione quadratica è dato esplicitamente da
Z t
⟨X⟩t = us2 d⟨B⟩s , t ≥ 0.
0
L’ultima parte del capitolo è dedicata alla definizione di integrale stocastico nel caso in cui B sia una se-
mimartingala continua. Introdurremo anche l’importante classe dei processi di Itô che sono semimartin-
gale continue che si esprimono in modo unico come somma di un integrale di Lebesgue (di un processo
progressivamente misurabile e sommabile) con un integrale stocastico Browniano.
349
350 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
15.1 Integrale rispetto al moto Browniano

A scopo introduttivo, esaminiamo il caso particolare in cui B sia un moto Browniano reale definito su
uno spazio con filtrazione (Ω, F , P , Ft ). Per superare il problema dell’irregolarità delle traiettorie Brow-
niane, l’idea è di selezionare opportunamente la classe dei processi integrandi per poter sfruttare alcune
proprietà di carattere probabilistico.
Definizione 15.1.1. Indichiamo con L2 la classe dei processi u = (ut )t≥0 tali che:
i) u è progressivamente misurabile rispetto a (Ft );
ii) per ogni T ≥ 0 vale

"Z T #
E ut2 dt < ∞. (15.1.1)
0
La i) è più di una semplice condizione di misurabilità congiunta in (t, ω) (che sarebbe naturale poiché
stiamo definendo un integrale): essa contiene anche l’ipotesi cruciale che sia rispettata la struttura di “in-
formazioni” della filtrazione considerata. Per esempio, nel caso u sia continuo, la i) equivale al fatto che u
sia un processo adattato. Per inciso, noi tratteremo solo il caso di integratori continui: è possibile definire
l’integrale stocastico anche rispetto a processi càdlàg, come il processo di Poisson, ma in tal caso è op-
portuno richiedere una condizione ancora più stringente sull’integrando che, sostanzialmente, deve essere
approssimabile con processi continui da sinistra1 .
Come per l’integrale di Lebesgue, anche la costruzione dell’integrale stocastico avviene per passi, con-
siderando inizialmente dei processi “semplici”.
Definizione 15.1.2. Diciamo che u ∈ L2 è semplice se si scrive nella forma
N
X
ut = αk 1[tk−1 ,tk [ (t), t ≥ 0, (15.1.2)
k=1
con 0 ≤ t0 < t1 < · · · < tN e dove α1 , . . . , αN sono variabili aleatorie tali che P (αk , αk+1 ) > 0 per k = 1, . . . , N −1.
Per ogni T ≥ tN poniamo
Z T N
X
ut dBt := αk Btk − Btk−1
0 k=1
e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z tN
ut dBt := ut 1[a,b[ (t)dBt . (15.1.3)
a 0
In questa parte introduttiva non ci preoccupiamo di chiarire tutti i dettagli della definizione di inte-
grale, come per esempio il fatto che la (15.1.3) sia ben posta perchè è indipendente, a meno di processi
indistinguibili, dalla rappresentazione (15.1.2) del processo u.
Osservazione 15.1.3. Un processo semplice è costante a tratti come funzione del tempo e ha traiettorie che
dipendono dai coefficienti α1 , . . . , αN che sono aleatori. Dal fatto che u ∈ L2 seguono alcune proprietà delle
variabili α1 , . . . , αN :
1 Il processo di Poisson ha variazione limitata e quindi non sarebbe un problema definire il relativo integrale stocastico nel senso
di Lebesgue-Stieltjes: tuttavia, se l’integrando non è continuo da sinistra l’integrale perde la fondamentale proprietà di essere una
martingala (locale): per una spiegazione intuitiva di questo fatto si veda la Sezione 2.1 in [34].
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 351
i) poiché u è progressivamente misurabile, per ogni t ∈ [tt−k , tk [ si ha αk = ut ∈ mFt e quindi in partico-

lare
αk ∈ mFtk−1 , k = 1, . . . , N ; (15.1.4)
ii) per l’ipotesi di integrabilità (15.1.1) vale

"Z tN # N
X "Z tN # N
X h i
E ut2 dt = E αk2 1[tk−1 ,tk [ (t)dt = E αk2 (tk − tk−1 ) < +∞
0 k=1 0 k=1
e quindi α1 , . . . , αN ∈ L2 (Ω, P ).
Proviamo ora alcune fondamentali proprietà dell’integrale stocastico appena definito.
Teorema 15.1.4. [!] Dati u, v ∈ L2 semplici, consideriamo i processi
Zt Zt
Xt := us dBs , Yt := vs dBs , t ≥ 0.
0 0
Per 0 ≤ s ≤ t ≤ T valgono le seguenti proprietà:

i) X è una martingala continua di quadrato sommabile, X ∈ M c,2 , e si ha
"Z t #
E ur dBr | Fs = 0; (15.1.5)
s
ii) vale l’isometria di Itô

 Zt !2  "Z t #
ur dBr | Fs  = E ur2 dr | Fs
 
E  (15.1.6)
s s
e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr dr | Fs , (15.1.7)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.1.8)
s t
iii) il processo covariazione di X e Y (cfr. Proposizione 17.1.1) è dato da

Zt
⟨X, Y ⟩t = us vs ds, t ≥ 0. (15.1.9)
0
Infine, valgono anche le versioni non condizionate delle formule (15.1.5), (15.1.6), (15.1.7) e (15.1.8).
Dimostrazione. Osserviamo anzitutto che le formule (15.1.5), (15.1.6), (15.1.7) e(15.1.8) equivalgono rispet-
tivamente a
E [Xt − Xs | Fs ] = 0, (15.1.10)
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.
Proviamo la (15.1.5) che equivale alla proprietà di martingala E [Xt | Fs ] = Xs : riferendoci alla (15.1.2) e
ricordando la notazione (15.1.3), non è restrittivo supporre s = tk e t = th per certi k, h con k < h ≤ N . Si ha
"Z t #
h i h
E Xth | Ftk = Xtk + E ur dBr | Ftk
tk
h
X h i
= Xtk + E αi Bti − Bi−1 | Ftk =
i=k+1
(per la (15.1.4) e la proprietà della torre)

h
X h h i i
= Xtk + E αi E Bti − Bti−1 | Fti−1 | Ftk = Xtk
i=k+1
dove l’ultima uguaglianza segue dall’indipendenza e stazionarietà degli incrementi Browniani per cui si ha
h i h i
E Bti − Bti−1 | Fti−1 = E Bti − Bti−1 = 0
per ogni i = 1, . . . , N .
Per quanto riguarda l’isometria di Itô, sempre nell’ipotesi che s = tk e t = th , si ha
 Zt !2  2
ur dBr | Fs  = E Xth − Xtk | Ftk
 
E 
s

h
2 
 X  
= E  αi Bti − Bti−1  | Ftk 
  
 
i=k+1
h
1
X 2 X h i
= E αi2 Bti − Bti−1 | Ftk + E αi Bti − Bti−1 αj Btj − Btj−1 | Ftk =
2
i=k+1 k+1≤i<j≤h
(per la (15.1.4) e la proprietà della torre)

h
X 2
= E αi2 E Bti − Bti−1 | Fti−1 | Ftk
i=k+1
1 X h h i i
+ E αi Bti − Bti−1 αj E Btj − Btj−1 | Ftj−1 | Ftk =
2
k+1≤i<j≤h
(poiché Btj − Btj−1 è indipendente da Ftj−1 )
h
X h i
= E αi2 (ti − ti−1 ) | Ftk
i=k+1
h
X "Z t #
= E αi2 1[ti−1 ,ti [ (r)dr | Fs
i=k+1 s
"Z t #
=E ur2 dr | Fs .
s
La (15.1.7) si prova in modo analogo. Riguardo alla (15.1.8), basta osservare che
"Z t ZT # "Z T ZT #
E ur dBr vr dBr | Fs = E ur 1[s,t[ (r)dBr vr 1[t,T [ (r)dBr | Fs =
s t s s
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 353
(per la (15.1.7))
"Z T #
=E ur vr 1[s,t[ (r)1[t,T [ (r)dr = 0.
s
Infine, il processo ⟨X, Y ⟩ in (15.1.9) è adattato, continuo, BV e tale che ⟨X, Y ⟩0 = 0. Ricordando la
Proposizione 17.1.1, per provare che ⟨X, Y ⟩ è il processo covariazione di X e Y basta verificare che XY −
⟨X, Y ⟩ è una martingala. Per 0 ≤ s ≤ t si ha
E [Xt Yt | Fs ] = Xs Ys + E [(Xt − Xs )(Yt − Ys ) | Fs ] + 2Xs E [Yt − Ys | Fs ] =
(per la (15.1.7) ed essendo E [Yt − Ys | Fs ] = 0 per la (15.1.10))

"Z t #
= Xs Ys + E ur vr dr | Fs
s
= Xs Ys + E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ]
da cui la tesi.
Grazie all’isometria di Itô (15.1.6), l’integrale stocastico si estende al caso di integrandi in L2 con
una procedura di approssimazione tramite processi semplici. Vale il seguente risultato di densità, la cui
dimostrazione è rimandata alla Sezione 15.1.1.
Lemma 15.1.5. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici di L2 che
converge a u in norma L2 (Ω × [0, T ]):
"Z T #
2
lim E us − un,s ds = 0. (15.1.11)
n→∞ 0
Dato u ∈ L2 consideriamo una successione approssimante (un )n∈N di processi semplici come nel Lemma
15.1.5 per un T > 0 fissato. Allora (un )n∈N è una successione di Cauchy in L2 ([0, T ] × Ω) e per l’isometria di
Itô si ha  Z !2 
 T ZT "Z T #
un,s − um,s 2 ds = 0.

lim E  un,s dBs − um,s dBs  = lim E
n,m→∞ 0 0 n,m→∞ 0
Ne segue che la successione degli integrali stocastici è di Cauchy in L2 (Ω, P ) e quindi esiste
Z T Z T
us dBs := lim un,s dBs .
0 n→∞ 0
Con questa procedura si definisce l’integrale stocastico come classe in equivalenza in L2 (Ω, P ) per un T fissa-
to. Vedremo nella Sezione 15.2.3 che, grazie alla disuguaglianza massimale di Doob, è possibile costruire
l’integrale come processo stocastico (al variare dell’estremo di integrazione) definendolo come limite nello
spazio delle martingale M c,2 . Per approssimazione si prova che le proprietà del Teorema 15.1.4 rimangono
valide sotto l’ipotesi che u ∈ L2 .
Nella Sezione 15.2.4 estenderemo ulteriormente l’integrale al caso di integrandi in u ∈ L2loc , ossia u
progressivamente misurabile che soddisfa la condizione di integrabilità
Z T
ut2 dt < ∞ T > 0, q.c. (15.1.12)
0
che è notevolmente più debole della (15.1.1): per esempio, ogni processo u adattato e continuo appartiene
a L2loc poiché l’integrale in (15.1.12), sul compatto [0, T ], è finito grazie alla continuità di ogni singola
traiettoria di u. D’altra parte, ut = exp(B4t ) appartiene a L2loc ma non2 a L2 . Il Teorema 15.1.4 non si estende
al caso di u ∈ L2loc , tuttavia proveremo che in tal caso il processo integrale è una martingala locale.
15.1.1 Dimostrazione del Lemma 15.1.5

Per dimostrare la densità della classe dei processi semplici nello spazio L2 usiamo la seguente conse-
guenza della Proposizione A.2.3.3, ossia la cosiddetta “proprietà di continuità in media” delle funzioni
sommabili.
Corollario 15.1.6 (Continuità in media). Se f ∈ L1 (R) allora per quasi ogni x ∈ R si ha
1 x+h
Z
lim |f (x) − f (y)|dy = 0.
h→0 h x
Dimostriamo il Lemma 15.1.5 inizialmente assumendo che u sia continuo. Fissato T > 0, al variare di
n ∈ N, indichiamo con
Tk
tn,k = n , k = 0, . . . , 2n , (15.1.13)
2
i diadici di [0, T ] e definiamo il processo semplice
2n
X
un,t = αn,k 1[tn,k−1 ,tn,k [ , αn,k = utn,k−1 1{|ut |≤n} , t ∈ [0, T ].
n,k−1
k=1
Allora la (15.1.11) segue dal teorema della convergenza dominata.

Per concludere basta provare che ogni u ∈ L2 può essere approssimata in norma L2 ([0, T ] × Ω) con una
successione (un )n∈N di processi continui di L2 . A tal fine, definiamo3
?t
un,t := us ds, 0 < t ≤ T , n ∈ N.
(t− n1 )∨0
Notiamo che un è continuo e adattato (e quindi progressivamente misurabile). Inoltre si ha
"Z T Z ? 2 
 T  t
#
2  
E ut − un,t dt = E  
 (ut − us )ds dt  ≤
0 0 (t− n1 )∨0
(per la disuguglianza di Jensen)
Z T ? t

 2 
≤ E  (ut − us ) ds dt 
0 (t− n1 )∨0
Z T? t h i
= E (ut − us )2 ds dt. (15.1.14)
0 (t− n1 )∨0
Ora, per il Corollario 15.1.6 si ha
? t h i
lim E (ut − us )2 ds = 0 q.o.
n→∞
(t− n1 )∨0
e quindi si può passare al limite in (15.1.14) per n → ∞ e concludere utilizzando il teorema della conver-
genza dominata di Lebesgue.
2
"Z T # Z ZT
4 4 1 − x2
E e2Bt dt = e2x √ e 2t dtdx = +∞.
0 R 0 2πt
>
3 Qui b u ds = 1
Rb
a s
u ds per a < b.
b−a a s
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 355
15.2 Integrale rispetto a martingale continue di quadrato sommabile

Assumiamo che il processo integratore B appartenga alla classe M c,2 , ossia B è una martingala continua
tale che Bt ∈ L2 (Ω, P ) per ogni t ≥ 0. La costruzione dell’integrale stocastico è analoga al caso del moto
Browniano con qualche tecnicismo in più.
Indichiamo con ⟨B⟩ il processo variazione quadratica definito nel Teorema 14.4.1: ⟨B⟩ è un processo
continuo e crescente che definisce un misura di Lebesgue-Stieltjes (cfr. Sezione 14.2) il cui integrale è
indicato con Z b
f (t)d⟨B⟩t , 0 ≤ a ≤ b.
a
Per esempio, se B è un moto Browniano allora ⟨B⟩t = t e la corrispondente misura di Lebesgue-Stieltjes è
semplicemente la misura di Lebesgue, come visto nella Sezione 15.1.
Definizione 15.2.1. Indichiamo con L2B la classe dei processi u = (ut )t≥0 tali che:
i) u è progressivamente misurabile;
ii) per ogni T ≥ 0 vale
"Z T #
E ut2 d⟨B⟩t < ∞. (15.2.1)
0
Generalmente il processo B sarà fissato una volte per tutte e quindi, se non c’è pericolo di confusione,
scriveremo semplicemente L2 invece di L2B .
In un secondo momento, indeboliremo la condizione di sommabilità ii) richiedendo che u appartenga
alla classe seguente.
Definizione 15.2.2. Indichiamo con L2B,loc (o, più semplicemente, L2loc ) la classe dei processi u tali che
i) u è progressivamente misurabile;
ii’) per ogni T ≥ 0 vale
Z T
ut2 d⟨B⟩t < ∞ q.c. (15.2.2)
0
La ii’) è una condizione molto debole di sommabilità che è verificata automaticamente se, per esempio,
u ha traiettorie continue o, più in generale, localmente limitate (si noti che il dominio di integrazione in
(15.2.2) è compatto).
15.2.1 Integrale di processi indicatori

Consideriamo una classe molto particolare di integrandi che, rispetto alla variabile temporale, sono
funzioni indicatrici di un intervallo. Chiamiamo processo indicatore un processo stocastico della forma
ut = α1[t0 ,t1 [ (t), t ≥ 0, (15.2.3)
dove α è una variabile aleatoria Ft0 -misurabile e limitata (ossia tale che |α| ≤ c q.c. con c costante positiva)
e t1 > t0 ≥ 0.
Osservazione 15.2.3. Ogni processo indicatore u appartiene a L2 : infatti u è càdlàg e adattato, quindi
progressivamente misurabile; inoltre u soddisfa la (15.2.1) poiché
"Z T #
h i h i
E ut2 d⟨B⟩t = E α 2 ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 ≤ c2 E ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 < ∞
0
per ogni T ≥ 0.
La definizione di integrale stocastico di un processo indicatore è elementare e completamente esplicita:

esso viene definito, traiettoria per traiettoria, moltiplicando α per un incremento di B.
Definizione 15.2.4 (Integrale stocastico di processi indicatori). Siano u il processo indicatore in (15.2.3)
e B ∈ M c,2 . Per ogni T ≥ t1 poniamo
ZT
ut dBt := α Bt1 − Bt0 (15.2.4)
0
e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z t1
ut dBt := ut 1[a,b[ (t)dBt . (15.2.5)
a 0
Osservazione 15.2.5. [!] Se [t0 , t1 [∩[a, b[, ∅, l’integrale nel membro destro della (15.2.5) è definito dal-
la (15.2.4) interpretando ut 1[a,b[ (t) come il processo semplice α1[t0 ∨a,t1 ∧b[ (t) e scegliendo T = t1 . In caso
contrario si intende che l’integrale è nullo per definizione.
Osservazione 15.2.6. Essendo definito in termini di incrementi di B, l’integrale stocastico non dipende dal
valore iniziale B0 . Inoltre X è un processo adattato e continuo.
Nel prossimo risultato stabiliamo alcune proprietà fondamentali dell’integrale stocastico. La secon-
da parte della dimostrazione è basata sulla notevole identità (14.4.1), valida per ogni B ∈ M c,2 , che qui
richiamiamo: h i
E (Bt − Bs )2 | Fs = E [⟨B⟩t − ⟨B⟩s | Fs ] , 0 ≤ s ≤ t. (15.2.6)
In tutto il capitolo insistiamo molto nel fornire l’espressione esplicita della variazione quadratica dell’in-
tegrale stocastico o della covariazione di due integrali: il motivo è che esse compaiono nel più importante
strumento per il calcolo degli integrali stocastici, la formula di Itô, che presenteremo nel Capitolo 16.
Il Teorema 15.1.4 ha la seguente naturale estensione.
Teorema 15.2.7. [!] Siano

Z t Z t
Xt := us dBs , Yt := vs dBs , t ≥ 0,
0 0
dove u, v sono processi indicatori e B ∈ M c,2 . Per 0 ≤ s ≤ t ≤ T valgono le seguenti proprietà:
i) X è una martingala continua di quadrato sommabile, X ∈ M c,2 , e si ha

"Z t #
E ur dBr | Fs = 0; (15.2.7)
s
ii) vale l’isometria di Itô

 Zt !2  "Z t #
2
ur dBr | Fs  = E ur d⟨B⟩r | Fs
 
E   (15.2.8)
s s
e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr d⟨B⟩r | Fs , (15.2.9)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.2.10)
s t
iii) il processo covariazione di X e Y è dato da

Z t
⟨X, Y ⟩t = us vs d⟨B⟩s , t ≥ 0. (15.2.11)
0
Dimostrazione. Per l’Osservazione 15.2.5 non è restrittivo assumere u = α1[s,t[ e v = β1[s,t[ con α, β ∈ mFs
limitate.
i) Allora si ha "Z t#
E ur dBr | Fs = E [α (Bt − Bs ) | Fs ] = αE [Bt − Bs | Fs ] = 0
s
dove abbiamo sfruttato il fatto che α ∈ mFs e la proprietà di martingala di B. Questo prova la (15.2.7)
che equivale alla proprietà di martingala di X. Chiaramente XT ∈ L2 (Ω, P ) per ogni T ≥ 0 poiché XT è il
prodotto di α, variabile aleatoria limitata, per un incremento di B che è di quadrato sommabile.
ii) Proviamo direttamente la (15.2.9): si ha
"Z t Zt #
h i
E ur dBr vr dBr | Fs = E αβ(Bt − Bs )2 | Fs
s s
h i
= αβE (Bt − Bs )2 | Fs =
(per la formula cruciale (15.2.6))

= αβE [⟨B⟩t − ⟨B⟩s | Fs ]
= E [αβ(⟨B⟩t − ⟨B⟩s ) | Fs ]
"Z t #
=E ur vr d⟨B⟩r | Fs .
s
La dimostrazione della (15.2.9) è analoga.

iii) Il processo ⟨X, Y ⟩ in (15.2.11) è adattato, continuo e localmente a variazione limitata poiché differenza
di processi crescenti
Zt Zt
+
⟨X, Y ⟩t = (us vs ) d⟨B⟩s − (us vs )− d⟨B⟩s .
0 0
Inoltre ⟨X, Y ⟩0 = 0. Per concludere basta provare che XY − ⟨X, Y ⟩ è una martingala: si ha
Zt ! Zt !
Xt Y t = Xs + ur dBr Ys + vr dBr
s s
Z t Z t Z t Z t
= Xs Ys + ur dBr vr dBr + Xs vr dBr + Ys ur dBr
s s s s
e quindi
"Z t Z t # "Z t # "Z t #
E [Xt Yt | Fs ] = Xs Ys + E ur dBr vr dBr | Fs + Xs E vr dBr | Fs + Ys E ur dBr | Fs =
s s s s
(per la (15.2.9) e la (15.2.7))

"Z t #
= Xs Ys + E ur vr d⟨B⟩r | Fs
s
da cui segue
E [Xt Yt − ⟨X, Y ⟩t | Fs ] = Xs Ys − ⟨X, Y ⟩s .
Osservazione 15.2.8. Le formule (15.2.7), (15.2.8), (15.2.9), (15.2.10) e (15.2.11) si riscrivono rispettiva-
mente nella forma
E [Xt − Xs | Fs ] = 0,
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.
Applicando il valore atteso, si ottengono anche le versioni non condizionate dell’isometria di Itô:
 Zt !2  "Z t #
ur2 d⟨B⟩r ,
 
E  ur dBr  = E (15.2.12)
s s
"Z t Zt # "Z t #
E ur dBr vr dBr = E ur vr d⟨B⟩r ,
s s s
"Z t Z T #
E ur dBr vr dBr = 0, (15.2.13)
s t
e la (15.2.11) con u = v diventa

Z t
⟨X⟩t = us2 d⟨B⟩s , t ≥ 0.
0
15.2.2 Integrale di processi semplici

In questa sezione estendiamo la classe dei processi integrandi ai processi semplici: essi sono somme di
processi indicatori come quelli considerati nella sezione precedente. Per linearità la definizione di integrale
stocastico si estende, traiettoria per traiettoria, in modo elementare ed esplicito. Rimangono valide le
proprietà fondamentali dell’integrale: la proprietà di martingala e l’isometria di Itô.
Definizione 15.2.9 (Processo semplice). Un processo semplice u è un processo della forma
N
X
ut = uk,t , uk,t := αk 1[tk−1 ,tk [ (t), (15.2.14)
k=1
dove:
i) 0 ≤ t0 < t1 < · · · < tN ;
ii) αk è una variabile aleatoria Ftk−1 -misurabile e limitata per ogni k = 1, . . . , N .
Si può richiedere anche che P (αk , αk+1 ) > 0, per k = 1, . . . , N − 1, in modo che la rappresentazione
(15.2.14) di u sia unica.
Definizione 15.2.10 (Integrale stocastico di processi semplici). Sia u un processo semplice della forma
(15.2.14) e sia B ∈ M c,2 . L’integrale stocastico di u rispetto a B è il processo stocastico
Z t N Z
X t N
X
us dBs := uk,s dBs = αk Bt∧tk − Bt∧tk−1 .
0 k=1 0 k=1
Teorema 15.2.11. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v siano processi semplici.
Dimostrazione. La continuità e la proprietà di martingala (15.2.7) sono immediate per linearità. Per quanto
riguarda l’isometria di Itô (15.2.9), anzitutto possiamo scrivere v nella forma (15.2.14) rispetto alla stessa
scelta di t0 , . . . , tN , per certi vk,t = βk 1[tk−1 ,tk [ (t): notiamo che
N
X N
X N
X
ut vt = uk,t vh,t = αk βk 1[tk−1 ,tk [ (t). (15.2.15)
k=1 h=1 k=1
Allora si ha
N Z N Z t

"Z t Z t #
X t X 
E ur dBr vr dBr | Fs = E  uk,r dBr vh,r dBr | Fs 
s s s
k=1 s h=1
N
X "Z t Zt #
= E uk,r dBr vk,r dBr | Fs
k=1 s s
X "Z th Z tk #
+2 E uh,r 1[s,t[ (r)dBr vk,r 1[s,t[ (r)dBr | Fs =
h<k th−1 tk−1
(per la (15.2.8) e la (15.2.10))
N
X "Z t #
= E uk,r vk,r d⟨B⟩r | Fs =
k=1 s
(per la (15.2.15))
"Z t #
=E ur vr d⟨B⟩r | Fs .
s
Infine il fatto che ⟨X, Y ⟩ in (15.2.11) sia il processo covariazione di X e Y si prova come nella dimostrazione
del Teorema 15.2.7-iii).
15.2.3 Integrale di processi in L2

In questa sezione estendiamo la classe dei processi integrandi sfruttando la densità dei processi semplici
in L2 ≡ L2B (cfr. Definizione 15.2.1). L’integrale stocastico è ora definito come limite in M c,2 e quindi,
ricordando l’Osservazione 13.3.2, come classe di equivalenza e non più traiettoria per traiettoria. Tuttavia
rimangono valide le proprietà fondamentali dell’integrale: la proprietà di martingala e l’isometria di Itô.
Il Lemma 15.1.5 ha la seguente generalizzazione che si prova con un artificio tecnico: l’idea è di fare un
cambio di variabile temporale per “riallineare” il processo continuo e crescente ⟨B⟩t al caso Browniano in
cui ⟨B⟩t ≡ t; per i dettagli rimandiamo al Lemma 2.2.7 in [58].
Lemma 15.2.12. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici tali che
"Z T #
2
lim E us − un,s d⟨B⟩s = 0.
n→∞ 0
Ricordiamo la convenzione in base alla quale MTc,2 è lo spazio delle classi di equivalenza (secondo
l’indistinguibilità) delle martingale continue X = (Xt )t∈[0,T ] di quadrato sommabile, munito della norma
q h i
∥X∥T := E XT2 .
Per la Proposizione 13.3.3, (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.

Vediamo ora come definire l’integrale stocastico di u ∈ L2 . Fissato T > 0 e data una successione
approssimante (un )n∈N di processi semplici come nel Lemma 15.2.12, indichiamo con
Z t
Xn,t = un,s dBs , t ∈ [0, T ], (15.2.16)
0
la successione dei relativi integrali stocastici. Per il Teorema 15.2.11 Xn ∈ MTc,2 e per l’isometria di Itô
(15.2.8) si ha
 Z !2 
 T
"Z T #
2

∥Xn − Xm ∥T = E  (un,t − um,t )dBt  = E (un,t − um,t )2 d⟨B⟩t .
0 0
Ne segue che (Xn )n∈N è una successione di Cauchy in (MTc,2 , ∥ · ∥T ) e quindi esiste
X := lim Xn in MTc,2 . (15.2.17)

n→∞
Proposizione 15.2.13 (Integrale stocastico di processi in L2 ). Il processo limite X = (Xt )t∈[0,T ] in (15.2.17)
è indipendente dalla successione approssimante ed è chiamato processo integrale stocastico di u rispetto a B
su [0, T ] e indicato con
Zt
Xt = us dBs , t ∈ [0, T ].
0
Dimostrazione. Sia X il limite in (15.2.17) definito a partire dalla successione approssimante (un )n∈N . Sia
(vn )n∈N un’altra successione approssimante per u e
Z t
Yn,t = vn,s dBs , t ∈ [0, T ]. (15.2.18)
0
Allora ∥Yn − X∥T ≤ ∥Yn − Xn ∥T + ∥Xn − X∥T e basta osservare che, ancora per l’isometria di Itô, si ha
 Z !2 
 T
"Z T #

∥Yn − Xn ∥2T = E  (vn,t − un,t )dBt  = E
 2
(vn,t − un,t ) d⟨B⟩t −−−−−→ 0.
0 0 n→∞
Osservazione 15.2.14. [!] Per costruzione, l’integrale stocastico secondo Itô

Z t
Xt = us dBs , (15.2.19)
0
con u ∈ L2 e B ∈ M c,2 , è una classe di equivalenza in M c,2 : ogni rappresentante di tale classe è una martin-
gala continua, univocamente determinata a meno di processi indistinguibili. Da questo punto di vista, a
meno che non sia stata operata una particolare scelta del rappresentante, le singole traiettorie del processo
integrale stocastico non sono definite e non ha senso considerare o voler calcolare Xt (ω) per un particolare
ω ∈ Ω.
Teorema 15.2.15. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v ∈ L2 .
Dimostrazione. Siano (un )n∈N e (vn )n∈N successioni di processi semplici, approssimanti rispettivamente u
e v in (MTc,2 , ∥ · ∥T ). Indichiamo con (Xn )n∈N e (Yn )n∈N i corrispondenti integrali stocastici in (15.2.16) e
(15.2.18). Le (15.2.7) e (15.2.8) sono diretta conseguenza del fatto che Xn,t → Xt in L2 (Ω, P ) (e quindi
anche in L1 (Ω, P )) e Xn,t Yn,t → Xt Yt in L1 (Ω, P ) unitamente al fatto generale che4 se Zn → Z in L1 (Ω, P )
allora E [Zn | G ] → E [Z | G ] in L1 (Ω, P ). La dimostrazione della (15.2.11) è identica a quella del Teorema
15.2.7-iii).
Osservazione 15.2.16. [!] Siano B ∈ M c,2 e u ∈ L2B . Per il Teorema 15.2.15, l’integrale X in (15.2.19)
appartiene a M c,2 e quindi può essere usato come integratore. Poiché
Zt
⟨X⟩t = us2 d⟨B⟩s ,
0
si ha che v ∈ L2X se v è progressivamente misurabile e vale

"Z t # "Z t #
2 2 2
E vs d⟨X⟩s = E vs us d⟨B⟩s < ∞
0 0
per ogni t ≥ 0. In tal caso si ha

Z t Z t
vs dXs = vs us dBs
0 0
come si può verificare direttamente per u, v semplici e, in generale, per approssimazione.
In particolare, se B è un moto Browniano allora la misura di Lebesgue-Stieltjes associata a ⟨X⟩ è assolu-
tamente continua rispetto alla misura di Lebesgue, con densità u 2 .
Diamo ora due proposizioni i cui enunciati sembrano quasi ovvi ma in realtà, alla luce dell’Osservazione
15.2.14, richiedono una dimostrazione rigorosa. Entrambi i risultati si provano con una procedura, tecnica
e un po’ noiosa, di approssimazione.
Proposizione 15.2.17. [!] Supponiamo che u, v ∈ L2 siano modificazioni su un evento F nel senso che, per
ogni t ∈ [0, T ], ut (ω) = vt (ω) per quasi ogni ω ∈ F. Allora i relativi processi integrali
Zt Zt
Xt = us dBs , Yt = vs dBs ,
0 0
sono indistinguibili su F, ossia sup |Xt (ω) − Yt (ω)| = 0 per quasi ogni ω ∈ F.
t∈[0,T ]
Dimostrazione. Consideriamo le approssimazioni un e vn definite come nel Lemma 15.2.12. Per costruzio-
ne, per ogni n ∈ N e t ∈ [0, T ], un,t = vn,t quasi certamente su F. Ne segue che anche i relativi integrali
(Xn,t )t∈[0,T ] in (15.2.16) e (Yn,t )t∈[0,T ] in (15.2.18) sono modificazioni su F. Passando al limite in n, si deduce
che (Xt )t∈[0,T ] e (Yt )t∈[0,T ] sono modificazioni su F: la tesi segue dalla proprietà di continuità di X e Y .
Osservazione 15.2.18. Supponiamo che, per un certo T > 0, valga
ZT ZT
ut dBt = vt dBt
0 0
dove u, v ∈ L2 e B è un moto Browniano. Allora P (u = v q.o. su [0, T ]) = 1 ossia quasi tutte le traiettorie di
u e v sono uguali quasi ovunque su [0, T ]. Infatti, per l’isometria di Itô si ha
"Z T  Z !2 
 T
#

2
E (ut − vt ) dt = E  (ut − vt )dBt  = 0
0 0
da cui la tesi.
4 Per la disuguaglianza di Jensen, si ha
E [|E [Zn | G ] − E [Z | G ]|] ≤ E [E [|Zn − Z| | G ]] = E [|Zn − Z|] .

Proposizione 15.2.19 (Integrale con estremo d’integrazione aleatorio). [!] Sia X in (15.2.19) il processo
integrale stocastico di u ∈ L2 rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo
T > 0. Allora (ut 1(t≤τ) )t≥0 ∈ L2 e vale
Z τ Z T
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0
Dimostrazione. Osserviamo anzitutto che, per la Proposizione 15.2.17, se F ∈ Ft allora

Z T Z T
1F us dBs = 1F us dBs q.c. (15.2.20)
t t
La condizione di misurabilità su F è fondamentale perché assicura che l’integrale nel membro a destra di
(15.2.20) sia ben definito, essendo l’integrando progressivamente misurabile su [t, T ].
Ora ricordiamo la notazione (15.1.13), tn,k := T2nk , per i diadici di [0, T ] e utilizziamo l’usuale discretiz-
zazione di τ:
X2n
τn = tn,k 1Fn,k
k=1
con
T
k = 2, . . . , 2n .

Fn,1 = 0 ≤ τ ≤ 2n , Fn,k = tn,k−1 < τ ≤ tn,k ,
Notiamo che (Fn,k )k=1,...,2n forma una partizione di Ω con Fn,k ∈ Ftn,k e (τn )n∈N è una successione decrescente
di tempi d’arresto che converge a τ. Per continuità si ha Xτn → Xτ . Inoltre, posto
Z T Z T
Y= us 1(s≤τ) dBs , Yn = us 1(s≤τn ) dBs ,
0 0
usando l’isometria di Itô è facile provare che Yn → Y in L2 (Ω, P ) e quindi anche quasi certamente.
Per provare la tesi, ossia il fatto che Xτ = Y q.c., è quindi sufficiente verificare che Xτn = Yn q.c. per ogni
n ∈ N. Ora, su Fn,k si ha
ZT ZT
Xτn = Xtn,k = us dBs − us dBs ,
0 tn,k
e quindi
Z T 2n
X Z T
Xτn = us dBs − 1Fn,k us dBs . (15.2.21)
0 k=1 tn,k
D’altra parte
Z T
Yn = us 1 − 1(s>τn ) dBs
0
Z T 2n Z
X T
= us dBs − us 1Fn,k dBs =
0 k=1 tn,k
(per la (15.2.20), con probabilità uno)

Z T 2n
X Z T
= us dBs − 1Fn,k us dBs
0 k=1 tn,k
che, combinata con la (15.2.21), prova la tesi.

0.04
0.4
0.03
0.2
0.02
200 400 600 800 1000
-0.2 0.01
-0.4
200 400 600 800 1000
Figura 15.1: A sinistra: grafico di una traiettoria di un moto Browniano W . A destra: grafico della relativa
Rt
traiettoria di At = 0 Ws2 ds, corrispondente al processo in (15.2.22) con u = W e B moto Browniano.
15.2.4 Integrale di processi in L2loc

Definiamo l’integrale stocastico di processi in L2loc . Indebolendo la condizione di sommabilità dell’in-
tegrando, si perdono alcune delle proprietà fondamentali dell’integrale, fra cui la proprietà di martin-
gala e l’isometria di Itô. Proveremo che l’integrale è una martingala locale e forniremo un “surrogato”
dell’isometria di Itô, il Lemma 15.2.24.
Ricordiamo che u ∈ L2loc se è progressivamente misurabile e, per ogni t > 0,
Zt
At := us2 d⟨B⟩s < ∞ q.c. (15.2.22)
0
Il processo A cosı̀ definito è continuo, adattato e crescente; inoltre A è non-negativo poiché A0 = 0 (si veda
la Figura 15.1).
Fissiamo T > 0 e consideriamo la successione di tempi d’arresto definita da
τn = T ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N, (15.2.23)
e rappresentati in Figura 15.2. Per continuità di A, si ha τn ↗ T q.c. e quindi la successione di eventi
Fn := (τn = T ) è tale che Fn ↗ Ω \ N con P (N ) = 0. Troncando u al tempo τn , definiamo il processo
un,t := ut 1(t≤τn ) , t ∈ [0, T ],
che è progressivamente misurabile e tale che
"Z t # "Z t∧τn #
2
E un,s d⟨B⟩s = E us2 d⟨B⟩s ≤ n, t ∈ [0, T ].
0 0
Quindi un ∈ L2 e il relativo integrale

Z t Z t∧τn
Xn,t := un,s dBs = us dBs , t ∈ [0, T ], (15.2.24)
0 0
appartiene a M c,2 in base al Teorema 15.2.15. Inoltre per ogni n, h ∈ N, quasi certamente per ogni t ∈ [0, T ]
si ha
un,t = un+h,t = ut su Fn ,

e pertanto i processi Xn,t t∈[0,n] e Xn+h,t t∈[0,n] sono indistinguibili su Fn grazie alla Proposizione 15.2.17.
Allora la seguente definizione è ben posta:
Figura 15.2: Grafico di due traiettorie del processo A in (15.2.22) e dei corrispondenti tempi d’arresto τn e
τn+1 in (15.2.23)
Definizione 15.2.20 (Integrale stocastico di processi in L2loc ). L’integrale stocastico di u ∈ L2loc rispetto
a B ∈ M c,2 su [0, T ] è il processo continuo e adattato X = (Xt )t∈[0,T ] che su Fn è indistinguibile da Xn in
(15.2.24) per ogni n ∈ N. Al solito, scriviamo
Zt
Xt = us dBs , t ∈ [0, T ]. (15.2.25)
0
Osservazione 15.2.21. Come già osservato in precedenza, l’integrale stocastico è definito come classe di
equivalenza di processi indistinguibili. La definizione precedente e in particolare la notazione (15.2.25)
sono ben poste nel senso che se X e X̄ indicano rispettivamente i processi integrali stocastici di u rispetto a
B sugli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ allora, con una procedura d’approssimazione a partire dai processi
semplici, si dimostra che X e X̄|[0,T ] sono processi indistinguibili. Di conseguenza è ben definito il processo
integrale stocastico secondo Itô di u rispetto a B indicato con
Zt
Xt = us dBs , t ≥ 0.
0
Vedremo in seguito, nella Proposizione 15.2.25, che vale anche
Zt Zt
us dBs = lim un,s dBs
0 n→∞ 0
con convergenza in probabilità.
La Proposizione 15.2.19 ha la seguente semplice generalizzazione.
Proposizione 15.2.22 (Integrale con estremo d’integrazione aleatorio). Sia X il processo integrale stoca-
stico di u ∈ L2loc rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo T > 0. Allora

ut 1(t≤τ) ∈ L2loc e vale
t≥0 Zτ ZT
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0

Dimostrazione. È chiaro che ut 1(t≤τ) ∈ L2loc . Sia (τn )n∈N la successione di tempi d’arresto in (15.2.23).
t≥0
Per definizione sull’evento Fn = (τn = T ) si ha
Zτ
Xτ = us 1(s≤τn ) dBs =
0
(per la Proposizione 15.2.19, poiché us 1(s≤τn ) ∈ L2 )

ZT
= us 1(s≤τn ) 1(s≤τ) dBs =
0
(poiché su Fn si ha τn = T ≥ τ)
Z T
= us 1(s≤τ) dBs .
0
La tesi segue dall’arbitrarietà di n.

Estendendo la classe di integrandi da L2 a L2loc , si perde la proprietà di martingala, tuttavia si ha il
seguente
Teorema 15.2.23. [!] Siano Z t Z t
Xt = us dBs , Yt = vs dBs
0 0
con u, v ∈ L2loc e B ∈ M c,2 . Allora:
i) X è una martingala locale continua, ossia X ∈ M c,loc , e
τn := n ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N,
con A in (15.2.22), è una successione localizzante per X (cfr. Definizione 13.4.2);
ii) il processo covariazione di X e Y è
Z t
⟨X, Y ⟩t = us vs d⟨B⟩s , t ≥ 0.
0
Dimostrazione. Per la Proposizione 15.2.22 (con la scelta τ = t ∧ τn e T = t), per ogni t ≥ 0 si ha

Zt
Xt∧τn = us 1(s≤τn ) dBs q.c.
0
e quindi, per continuità, Xt∧τn è una versione dell’integrale stocastico del processo us 1(s≤τn ) che appartiene
a L2 . Ne segue che Xt∧τn è una martingala continua e quindi X è una martingala locale con successione
localizzante (τn )n∈N .
Rt
Ora poniamo At = us vs d⟨B⟩s e
0
τn = n ∧ inf{t ≥ 0 | ⟨X⟩t + ⟨Y ⟩t ≥ n}, n ∈ N.

Per il Teorema 15.2.15 (si ricordi la (15.2.11)) e la disuguaglianza di Cauchy-Schwarz dell’Osservazione
17.1.2-iii), si ha che il processo
Zt
(XY − A)t∧τn = Xt∧τn Yt∧τn − At∧τn = Xt∧τn Yt∧τn − us vs 1(s≤τn ) d⟨B⟩s
0
è una martingala: ne viene che XY −A ∈ M c,loc con successione localizzante (τn )n∈N e quindi A = ⟨X, Y ⟩.
Per l’integrale stocastico di u ∈ L2loc non si ha più a disposizione uno strumento fondamentale come
l’isometria di Itô: in molte situazioni essa può essere convenientemente sostituita dal seguente lemma.
Lemma 15.2.24. [!] Siano

Z t Z t
Xt = us dBs , ⟨X⟩t = us2 d⟨B⟩s ,
0 0
con u ∈ L2loc e B ∈ M c,2 . Per ogni t, ε, δ > 0 vale
δ
P (|Xt | ≥ ε) ≤ P (⟨X⟩t ≥ δ) + .
ε2
τδ = inf{s > 0 | ⟨X⟩s ≥ δ}, δ > 0.
Fissati t, ε > 0, si ha
P (|Xt | ≥ ε) = P ((|Xt | ≥ ε) ∩ (τδ ≤ t)) + P ((|Xt | ≥ ε) ∩ (τδ > t)) ≤
(poiché (τδ ≤ t) = (⟨X⟩t ≥ δ))
≤ P (⟨X⟩t ≥ δ) + P ((|Xt | ≥ ε) ∩ (τδ > t))
e quindi rimane da provare che

δ
P ((|Xt | ≥ ε) ∩ (τδ > t)) ≤ .
ε2
Ora si ha
Z Z
t t
! ! ! !

P us dBs ≥ ε ∩ (t < τδ ) = P us 1(s<τδ ) dBs ≥ ε ∩ (t < τδ )
0 0
Z
t
!

≤ P us 1(s<τδ ) dBs ≥ ε ≤
0
(per la disuguaglianza (4.1.3) di Chebyschev)

Z 2 
1  t 
≤ 2 E  us 1(s<τδ ) dBs  =
ε 0
(per l’isometria di Itô, poiché us 1(s<τδ ) ∈ L2 )

"Z t #
1 δ
= E us2 1(s<τδ ) d⟨B⟩s ≤ 2 .
ε2 0 ε
15.2.5 Integrale stocastico e integrale di Riemann-Stieltjes

Il seguente risultato mostra che l’integrale stocastico di u ∈ L2loc può anche essere definito per approssi-
mazione, come avevamo fatto per u ∈ L2 , a patto di usare la convergenza in probabilità invece che in norma
L2 (Ω, P ).
Proposizione 15.2.25. Siano u, un ∈ L2loc , n ∈ N, tali che

Zt
P
|un,s − us |2 d⟨B⟩s −−−−−→ 0. (15.2.26)
0 n→∞
Allora Z t Z t
P
un,s dBs −−−−−→ us dBs .
0 n→∞ 0
Dimostrazione. La tesi è immediata conseguenza dell’isometria di Itô nella forma del Lemma 15.2.24:
fissato ε > 0 e posto δ = ε3 si ha
Z
t
! Zt !
2
lim P (un,s − us )dBs ≥ ε ≤ lim P |un,s − us | d⟨B⟩s ≥ δ + ε = ε
n→∞ 0 n→∞ 0
grazie all’ipotesi (15.2.26).

Come semplice applicazione della Proposizione 15.2.25 proviamo che, nel caso in cui l’integrando sia un
processo continuo, l’integrale stocastico è in effetti il limite in probabilità delle somme di Riemann-Stieltjes
in cui l’integrando è valutato nell’estremo sinistro di ogni intervallo della partizione: ciò è coerente con la
costruzione dell’integrale secondo Itô che sfrutta in maniera cruciale l’ipotesi di progressiva misurabilità
dell’integrando. Il seguente risultato è anche alla base dei metodi di approssimazione numerica per l’integrale
stocastico.
Corollario 15.2.26. [!] Siano u un processo continuo e adattato, B ∈ M c,2 e (πn )n∈N una successione di
partizioni di [0, t], con πn = (tn,k )k=0,...,mn , tale che lim |πn | = 0. Allora
n→∞
mn
X P Zt
utn,k−1 Btn,k − Btn,k−1 −−−−−→ us dBs .
n→∞ 0
k=1
Dimostrazione. Posto
mn
X
un,s = utn,k−1 1[tn,k−1 ,tn,k [ (s)
k=1
si ha che un ∈ L2loc e
mn
X Z t
utn,k−1 Btn,k − Btn,k−1 = un,s dBs .
k=1 0
Inoltre, per la continuità di u e il teorema della convergenza dominata, si ha

Zt
lim |un,s − us |2 d⟨B⟩s = 0 q.c.
n→∞ 0
La tesi segue dalla Proposizione 15.2.25.

Un’utile conseguenza del Corollario 15.2.26 è il seguente
Corollario 15.2.27. [!] Per i = 1, 2, sia Z t
Xti = usi dBis
0
d
con u i , processo continuo e adattato, e Bi ∈ M c,2 definiti su (Ωi , F i , P i ). Se (u 1 , B1 ) = (u 2 , B2 ) allora si ha
d
anche (u 1 , B1 , X 1 ) = (u 2 , B2 , X 2 ).
Un risultato analogo vale sotto ipotesi molto più generali: al riguardo si veda, per esempio, l’Esercizio
IV.5.16 in [103].
15.3 Integrale rispetto a semimartingale continue

Nelle sezioni precedenti abbiamo supposto che il processo integratore B fosse una martingala continua
di quadrato sommabile. Ora estendiamo la definizione di integrale stocastico al caso in cui l’integratore,
qui indicato con S, sia una semimartingala continua: precisamente, per la Definizione 14.3.1, S è un processo
adattato e continuo della forma
S = A+B
dove A ∈ BV è tale che A0 = 0 e B ∈ M c,loc . Usiamo la notazione
Zt
ur dSr
0
per indicare l’integrale stocastico del processo u rispetto a S: esso è definito come somma
Zt Zt Zt
ur dSr := ur dAr + ur dBr
0 0 0
dove i due integrali nel membro a destra hanno il significato che ora spieghiamo.
Sia µA la misura di Lebesgue-Stieltjes5 associata ad A e definita traiettoria per traiettoria: indichiamo
con Zt Z
ur dAr := ur µA (dr)
0 [0,t]
il relativo integrale di Lebesgue-Stieltjes. Affinché tale integrale sia ben definito, imponiamo che u ∈ L2S,loc
secondo la seguente
Definizione 15.3.1. L2S,loc è la classe dei processi u progressivamente misurabili e tali che
Z Z t
|ur ||µA |(dr) + ur2 d⟨B⟩r < ∞ q.c.
[0,t] 0
per ogni t ≥ 0.
Per quanto riguarda l’integrale rispetto a B ∈ M c,loc , si può utilizzare un procedimento di localizzazione
del tutto analogo6 a quello della Sezione 15.2.4. In definitiva, ricordando la Definizione 17.1.3 di variazione
quadratica di una semimartingala, si ha la seguente
5 Secondo la Definizione 14.2.1, µ è una misura con segno.
A
6 Sia (τ )
n n∈N una successione localizzante per B: come nell’Osservazione 13.4.5-iv) possiamo supporre |Bt∧τn | ≤ n cosicché Bn :=
(Bt∧τn )t≥0 ∈ M c,2 . Se u ∈ L2S,loc allora
Zt Zt
ur2 d⟨Bn ⟩r ≤ ur2 d⟨B⟩r < ∞ q.c.
0 0
e quindi u ∈ L2B ,loc e l’integrale
n Zt
Yn,t := ur dBn,r
0
è ben definito. Sull’evento Fn,T := (T ≤ τn ) si ha q.c.

sup Yn,t − Ym,t = 0, m ≥ n.
0≤t≤T
Ciò è vero se u è semplice e, come la Proposizione 15.2.17, si dimostra in generale per approssimazione. Poiché Fn,T ↗ FT con
P (FT ) = 1, definiamo l’integrale
Zt
Yt = ur dBr , 0≤t ≤T,
0
come la classe di equivalenza dei processi continui e adattati che, per ogni n ∈ N, sono indistinguibili da (Yn,t )t∈[0,T ] su Fn,T . Se
Y e Ȳ indicano rispettivamente i processi integrali stocastici di u relativi agli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ , allora Y e Ȳ |[0,T ]
15.3. INTEGRALE RISPETTO A SEMIMARTINGALE CONTINUE 369
Proposizione 15.3.2. Siano S = A + B una semimartingala continua e u ∈ L2S,loc . Il processo integrale

stocastico Zt Zt Zt
Xt := ur dSr = ur dAr + ur dBr , t ≥ 0,
0 0 0
è una semimartingala continua con processo variazione quadratica
Zt
⟨X⟩t = ur2 d⟨B⟩r , t ≥ 0. (15.3.1)
0
Nella prossima sezione trattiamo il caso particolare in cui At = t e B sia un moto Browniano.
15.3.1 Processi di Itô reali

Un processo di Itô è una particolare semimartingala continua che è somma di un integrale di Lebesgue
e di uno stocastico. In questa sezione W indica un moto Browniano reale.
Definizione 15.3.3 (Processo di Itô). [!] Un processo di Itô è un processo della forma
Zt Zt
Xt = X0 + us ds + vs dWs , (15.3.2)
0 0
dove:
i) X0 ∈ mF0 ;
ii) u ∈ L1loc , ossia u è progressivamente misurabile e tale che
Z t
|us |ds < ∞, q.c.
0
per ogni t ≥ 0;
iii) v ∈ L2loc , ossia v è progressivamente misurabile e tale che7
Z t
|vs |2 ds < ∞ q.c.
0
per ogni t ≥ 0.
Notazione 15.3.4 (Notazione differenziale). [!] Per indicare il processo di Itô in (15.3.2) si usa spesso la
cosiddetta “notazione differenziale”:
dXt = ut dt + vt dWt . (15.3.3)
Questa notazione, oltre ad essere più compatta, ha il pregio di evocare le espressioni del calcolo differenzia-
le classico. Ovviamente, in termini rigorosi, dXt non è una “derivata” o un “differenziale del processo X”,
sono indistinguibili su [0, T ]. Quindi è ben definito il processo integrale stocastico secondo Itô di u ∈ L2S,loc rispetto a B ∈ M c,loc , che
indichiamo Zt
Yt = ur dBr , t ≥ 0.
0
Si ha che Y ∈ M c,loc con processo variazione quadratica
Zt
⟨Y ⟩t = ur2 d⟨B⟩r , t ≥ 0,
0
e una successione localizzante per Y è data da τ̄n = τn ∧ τn′ dove τn′ = inf{t ≥ 0 | ⟨I⟩t ≥ n}.
7 Si ricordi che ⟨W ⟩ = s.
s
oggetti che non sono stati definiti, ma è un simbolo che ha senso solo all’interno dell’espressione (15.3.3):
tale espressione, a sua volta, è una scrittura il cui significato preciso è dato dall’equazione integrale (15.3.2).
Quando si parla di calcolo differenziale stocastico ci si riferisce a questo tipo di calcolo simbolico il cui ve-
ro significato è dato dalle relative espressioni integrali: dunque si tratta in realtà di un calcolo integrale
stocastico.
Il processo in (15.3.2) è una semimartingala continua e quindi può fungere a sua volta da integratore, infatti
si ha X = A + M dove:
- il processo
Z t
At := us ds
0
è continuo, adattato e a variazione limitata per l’Esempio 14.1.2-iv), ed è chiamato drift di X;
- il processo integrale stocastico
Z t
Mt := X0 + vs dWs
0
è una martingala locale continua ed è chiamato parte diffusiva o diffusione di X.
Per la (15.3.1), il processo variazione quadratica di X è
Zt
⟨X⟩t = vs2 ds,
0
ossia d⟨X⟩t = vt2 dt in notazione differenziale.

Osservazione 15.3.5. [!] La rappresentazione di un processo di Itô è unica nel senso seguente: se X è il
processo in (15.3.3) e vale
dXt = ut′ dt + vt′ dWt ,
con u ′ ∈ L1loc e v ′ ∈ L2loc , allora
P (v = v ′ q.o.) = P (u = u ′ q.o.) = 1.
In particolare, se u, u ′ , v, v ′ sono continui allora u è indistinguibile da u ′ e v è indistinguibile da v ′ .
Infatti, il processo
Zt Zt Zt Zt
′ ′
Mt := vs dWs − vs dWs = us ds − us ds
0 0 0 0
è una martingala locale continua, a variazione limitata che, per il Teorema 14.3.6, è indistinguibile dal
processo identicamente nullo. Consideriamo
Zt
τn := n ∧ inf{t ≥ 0 | At ≥ n}, At := (vs − vs′ )2 ds, n ∈ N,
0
l’usuale successione localizzante per M. Allora si ha
 Zτ !2   Zn !2 
n
 ′   ′ 
0 = E  (vs − vs )dWs  = E 
  (vs − vs )1[0,τn ] (s)dWs 
0 0
"Z n #
=E (vs − vs′ )2 1[0,τn ] (s)ds
0
dove la seconda e terza uguaglianza sono dovute rispettivamente alla Proposizione 15.2.22 e all’isometria
di Itô. Passando al limite per n → ∞, per il Teorema di Beppo-Levi, si ha
"Z ∞ #
′ 2
E (vs − vs ) ds = 0
0
da cui P (v = v′ q.o.) = 1. D’altra parte, per la Proposizione A.2.3.2 si ha che anche P (u = u ′ q.o.) = 1.
Capitolo 16
Formula di Itô
To put meaning in one’s life may end

in madness,
But life without meaning is the
torture
Of restlessness and vague desire-
It is a boat longing for the sea and
yet afraid.
Edgar Lee Master
La formula di Itô è lo strumento più importante nell’ambito del calcolo differenziale stocastico. In que-
sto capitolo ne presentiamo diverse versioni che generalizzano la formula del Teorema 14.1.6 per l’integrale
di Riemann-Stieltjes e forniscono le regole generali del calcolo stocastico.
16.1 Formula di Itô per semimartingale continue

Sebbene il caso delle semimartingale sia molto generale, diamo subito questa versione della formula
di Itô perché ha il pregio di avere un’espressione compatta e una dimostrazione intuitiva. Ricordiamo che
una semimartingala continua è un processo adattato e continuo della forma X = A + M con A ∈ BV tale che
A0 = 0 e M ∈ M c,loc , ossia M è una martingala locale continua secondo la Definizione 13.4.2.
Indichiamo con ⟨X⟩ il processo variazione quadratica di X: per il Teorema 14.4.1, vale ⟨X⟩ ≡ ⟨M⟩ dove ⟨M⟩
è l’unico processo continuo e crescente tale che ⟨M⟩0 = 0 e M 2 − ⟨M⟩ è una martingala locale. Per esempio,
se X è un moto Browniano allora A ≡ 0 e il processo variazione quadratica è deterministico: ⟨X⟩t = t per
t ≥ 0. Più in generale, se X è un processo di Itô della forma dXt = ut dt + vt dWt (cfr. Definizione 15.3.3)
allora d⟨X⟩t = vt2 dt.
Teorema 16.1.1 (Formula di Itô). [!!!] Sia X una semimartingala continua e sia F ∈ C 2 (R). Allora quasi
certamente, per ogni t ≥ 0 si ha
Z t Z t
1
F(Xt ) = F(X0 ) + F ′ (Xs )dXs + F ′′ (Xs )d⟨X⟩s (16.1.1)
0 2 0
o, con la notazione differenziale,

1
dF(Xt ) = F ′ (Xt )dXt + F ′′ (Xt )d⟨X⟩t . (16.1.2)
2
371
372 CAPITOLO 16. FORMULA DI ITÔ
Idea della dimostrazione. Data una partizione π = {t0 , . . . , tN } di [0, t], si scrive la differenza F(Xt )−F(X0 ) come
somma telescopica e poi si sviluppa in serie di Taylor al second’ordine: si ottiene
N
X
F(Xt ) − F(X0 ) = F(Xtk ) − F(Xtk )
k=1
N
X 1X N 2
= F ′ (Xtk−1 ) Xtk − Xtk−1 + F ′′ (Xtk−1 ) Xtk − Xtk−1 + “resto”.
2
k=1 k=1
Infine si prova che, in senso opportuno, esistono i limiti
N
X Z t
′
F (Xtk−1 ) Xtk − Xtk−1 −→ F ′ (Xs )dXs ,
k=1 0
N
X 2 Zt
′′
F (Xtn,k−1 ) Xtk − Xtk−1 −→ F ′′ (Xs )d⟨X⟩s
k=1 0
per |π| che tende a zero e il termine di resto è trascurabile. La dimostrazione completa, tecnicamente più
complessa, è data nella Sezione 16.3.
Osservazione 16.1.2. Rispetto alla versione deterministica (14.1.3), nella formula di Itô (16.1.2) appare il
termine aggiuntivo di second’ordine che deriva dalla variazione quadratica di X: esso è moltiplicato per il
fattore 21 dell’espansione in serie di Taylor di F.
In maniera simile si prova la seguente versione più generale della formula di Itô.
Teorema 16.1.3 (Formula di Itô). Sia X una semimartingala continua e sia F = F(t, x) ∈ C 1,2 (R≥0 ×R). Allora
quasi certamente, per ogni t ≥ 0 si ha
Z t Z t Z t
1
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂xx F)(s, Xs )d⟨X⟩s
0 0 2 0

1
dF(t, Xt ) = ∂t F(t, Xt )dt + (∂x F)(t, Xt )dXt + (∂xx F)(t, Xt )d⟨X⟩t .
2
16.1.1 Formula di Itô per il moto Browniano

Scriviamo la formula di Itô per un moto Browniano reale W ed esaminiamo qualche esempio. Ricordia-
mo che il processo variazione quadratica di W è semplicemente ⟨W ⟩t = t.
Corollario 16.1.4 (Formula di Itô per il moto Browniano). [!] Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Z t Z t Z t
1
F(t, Wt ) = F(0, W0 ) + (∂t F)(s, Ws )ds + (∂x F)(s, Ws )dWs + (∂xx F)(s, Ws )ds
0 0 2 0

1

dF(t, Wt ) = ∂t F + ∂xx F (t, Wt )dt + (∂x F)(t, Wt )dWt .
2
Esempio 16.1.5.
16.1. FORMULA DI ITÔ PER SEMIMARTINGALE CONTINUE 373
i) se F(t, x) = f (t)x, con f ∈ C 1 (R), si ha

∂t F(t, x) = f ′ (t)x, ∂x F(t, x) = f (t), ∂xx F(t, x) = 0.
Allora si ha Z t Z t
f (t)Wt = f ′ (s)Ws ds + f (s)dWs
0 0
che corrisponde alla formula di integrazione per parti deterministica dell’Esempio 14.1.8-ii). In forma
differenziale, abbiamo equivalentemente
d(f (t)Wt ) = f ′ (t)Wt dt + f (t)dWt
che ricorda l’usuale formula per la derivazione di un prodotto;
ii) se F(t, x) = x2 si ha
∂t F(t, x) = 0, ∂x F(t, x) = 2x, ∂xx F(t, x) = 2,
e quindi
Z t
Wt2 = 2 Ws dWs + t
0
o, in forma differenziale,
dWt2 = 2Wt dWt + dt;
iii) se F(t, x) = eat+σ x , con a, σ ∈ R, si ha

∂t F(t, x) = aF(t, x), ∂x F(t, x) = σ F(t, x), ∂xx F(t, x) = σ 2 F(t, x),
e quindi, posto Xt = eat+σ Wt , otteniamo
Zt Zt
σ2 t
Z
Xt = 1 + a Xs ds + σ Xs dWs + X ds
0 0 2 0 s
ossia 2
dXt = a + σ2 Xt dt + σ Xt dWt .
2
Con la scelta a = − σ2 il drift del processo si annulla e otteniamo
Zt
Xt = 1 + σ Xs dWs
0
σ2 t
che è una martingala continua: precisamente, Xt = eσ Wt − 2 è la martingala esponenziale introdotta
nella Proposizione 10.4.1.
Osservazione 16.1.6. [!] La formula di Itô mostra che ogni processo stocastico X = (Xt )t≥0 della forma Xt =
F(t, Wt ), con F sufficientemente regolare, è un processo di Itô secondo la Definizione 15.3.3: in particolare,
X è una semimartingala e la formula di Itô fornisce l’espressione esplicita della decomposizione (unica a
meno di processi indistinguibili) di X nella somma X = A + M dove il processo a variazione limitata
Z t
1

At := ∂t F + ∂xx F (s, Ws )ds
0 2
è il drift di X e la martingala locale1
Z t
Mt := X0 + (∂x F)(s, Ws )dWs
0
1 Ritroviamo qui il risultato del Teorema 10.4.3, provato nell’ambito della teoria dei processi di Markov.
è la parte diffusiva di X.
Si noti che se F risolve l’equazione del calore
1
∂t F(t, x) + ∂xx F(t, x) = 0, t > 0, x ∈ R, (16.1.3)
2
allora il drift di X si annulla e pertanto X è una martingala locale. Viceversa, se X è una martingala locale
allora per l’Osservazione 15.3.5 si ha che
1
(∂t F + ∂xx F)(t, Wt ) = 0 (16.1.4)
2
nel senso dell’indistinguibilità e da questo segue2 che F risolve l’equazione del calore (16.1.3).
16.1.2 Formula di Itô per processi di Itô

Sia X un processo di Itô della forma
dXt = µt dt + σt dWt (16.1.5)
con µ ∈ L1loc e σ ∈ L2loc . Nella Sezione 15.3.1 abbiamo visto che X è una semimartingala continua con
variazione quadratica
Zt
⟨X⟩t = σs2 ds
0
ossia d⟨X⟩t = σt2 dt. Dunque si ha la seguente ulteriore versione della formula di Itô.
Corollario 16.1.7 (Formula di Itô per processi di Itô). [!] Sia X il processo di Itô in (16.1.5). Per ogni
F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Zt Zt
1 t
Z
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂ F)(s, Xs )σs2 ds (16.1.6)
0 0 2 0 xx
o equivalentemente
σt2
!
dF(t, Xt ) = ∂t F + µt ∂x F + ∂xx F (t, Xt )dt + σt ∂x F(t, Xt )dWt .
2
Esempio 16.1.8. [!!] Calcoliamo il differenziale stocastico del processo

Rt
Yt = et 0
Ws dWs
.
Anzitutto notiamo che non possiamo utilizzare la formula di Itô per il moto Browniano del Corollario 16.1.4
perché Yt non è funzione di Wt ma dipende da (Ws )s∈[0,t] , ossia da tutta la traiettoria di W nell’intervallo [0, t].
Il criterio generale con cui procedere per applicare correttamente la formula di Itô è quello di analizzare
anzitutto come Yt dipenda dalla variabile t, distinguendo la dipendenza di tipo “deterministico” da quella
di tipo “stocastico”: in questo esempio, evidenziamo in grassetto la dipendenza deterministica
Zt !
t 7→ exp t Ws dWs
0
2 L’uguaglianza (16.1.4) di processi stocastici equivale all’equazione (16.1.3): basta osservare che se f è una funzione continua tale
che f (Wt ) = 0 q.c. per un t > 0 allora f ≡ 0: infatti se fosse f (x̄) > 0 per un x̄ ∈ R allora si avrebbe anche f (x) > 0 per |x − x̄| < r per un
certo r > 0 sufficientemente piccolo; ciò porta ad un assurdo poiché, essendo la densità Gaussiana strettamente positiva, si avrebbe
h i
0 < E f (Wt )1(|Wt −x̄|<r) = 0.
16.1. FORMULA DI ITÔ PER SEMIMARTINGALE CONTINUE 375
e la dipendenza stocastica
Z t !
t 7→ exp t Ws dWs
0
per stabilire che

Z t
Yt = F(t, Xt ), F(t, x) = etx , Xt = Ws dWs ,
0
e quindi dXt = Wt dWt e d⟨X⟩t = Wt2 dt. Allora possiamo applicare la formula di Itô (16.1.6): abbiamo
∂t F(t, x) = xF(t, x), ∂x F(t, x) = tF(t, x), ∂xx F(t, x) = t 2 F(t, x),
e quindi
(tWt )2
!
dYt = Xt + Yt dt + tWt Yt dWt .
2
Esempio 16.1.9. [!] Consideriamo un processo di Itô a coefficienti deterministici

Z t Z t
Xt = x + µ(s)ds + σ (s)dWs
0 0
con x ∈ R, µ ∈ L1loc (R≥0 ) e σ ∈ L2loc (R≥0 ). Come applicazione della formula di Itô (16.1.6) proviamo che
Z t Z t
Xt ∼ Nm(t),C (t) , m(t) := x + µ(s)ds, C (t) := σ 2 (s)ds,
0 0
per ogni t ≥ 0. Infatti possiamo facilmente calcolare la funzione caratteristica di X: anzitutto per ogni η ∈ R
si ha
η2
!
deiηXt = eiηXt iηdXt − d⟨X⟩t
2
η 2 σ 2 (t)
= eiηXt (a(t, η)dt + iησ (t)dWt ) , a(t, η) := iηµ(t) − .
2
Applicando il valore atteso ed essendo nulla l’attesa dell’integrale stocastico, si ha
"Z t #
iηx iηXs
ϕXt (η) = e +E a(s, η)e ds
0
Z t
= eiηx + a(s, η)ϕXs (η)ds;
0
equivalentemente, t 7→ ϕXt (η) risolve il problema di Cauchy


d
 dt ϕXt (η) = a(t, η)ϕXt (η),


ϕX0 (η) = eiηx ,


da cui segue che

η 2
ϕXt (η) = eiηm(t)− 2 C (t)
e quindi la tesi.
Esempio 16.1.10. [!] Posto Z t

Xt := Ws ds (16.1.7)
0
si ha Xt ∼ N0, t3 . Infatti, per la formula di Itô vale
3
d(tWt ) = tdWt + Wt dt
da cui Z t Z t
Xt = tWt − sdWs = (t − s)dWs .
0 0
Notiamo che l’espressione di X in (16.1.7) è quella di un processo di Itô, mentre
Zt
(t − s)dWs
0
non è scritto nella forma di processo di Itô: per aggirare questo problema, definiamo il processo di Itô
Zt
(a)
Yt := (a − s)dWs
0
dipendente dal parametro a ∈ R. Sappiamo che

(a)
Yt ∼ N0, t3 +at(a−t)
3
(t)
e la tesi segue dal fatto che Xt = Yt .
16.2 Alcune conseguenze della formula di Itô

16.2.1 Disuguaglianze di Burkholder-Davis-Gundy
Proviamo alcune classiche disuguaglianze che sono uno strumento basilare nello studio delle martingale
e delle equazioni differenziali stocastiche.
Teorema 16.2.1 (Burkholder-Davis-Gundy). [!] Per ogni p > 0 esistono due costanti positive cp , Cp tali che
vale  

p/2  p  p/2
cp E ⟨X⟩τ ≤ E  sup |Xt |  ≤ Cp E ⟨X⟩τ , (16.2.1)
t∈[0,τ]
per ogni martingala locale continua X tale che X0 = 0 q.c. e per ogni tempo d’arresto τ finito (ossia tale che
τ < ∞ q.c.). In (16.2.1), ⟨X⟩ indica il processo variazione quadratica di X.
Dimostrazione. Dimostriamo solo il caso p ≥ 2 in cui è possibile dare una prova elementare basata sulla
formula di Itô. Per il caso generale si veda, per esempio, la Proposizione 3.26 in [58]. Il caso p = 2 segue
dall’isometria di Itô (14.4.1) e quindi è sufficiente considerare p > 2.
p/2
Cominciamo col dimostrare la seconda disuguaglianza. Non è restrittivo assumere E ⟨X⟩τ > 0 altri-
menti non c’è nulla da provare. Poniamo
X̄τ = sup |Xt |
t∈[0,τ]
e assumiamo per il momento che X̄τ ≤ n q.c. per un certo n ∈ N. Allora per la disuguaglianza massimale di
Doob, Corollario 13.1.3, si ha
h pi
E X̄τ ≤ cp E [|Xτ |p ] =
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 377
(per la formula di Itô, osservando che la funzione x 7→ |x|p è di classe C 2 poiché p ≥ 2)

"Z τ "Z τ
cp
# #
p−1 p−2
= cp E p|Xt | dXt + E p(p − 1)|Xt | d⟨X⟩t =
0 2 0
(essendo il primo termine nullo perché l’integrale stocastico è una martingala, data l’ipotesi di limitatezza
di X̄τ )
"Z τ #
′ p−2
= cp E |Xt | d⟨X⟩t
0
"Z τ #
′ p−2
≤ cp E X̄τ d⟨X⟩t
0
h p−2 i
= cp′ E X̄τ ⟨X⟩τ ≤
p p
(per la disuguaglianza di Hölder con esponenti p−2 e 2)
h p i p−2 2
p/2 p
≤ cp′ E X̄τ p E ⟨X⟩τ
e da questa disuguaglianza segue facilmente la tesi. Per rimuovere l’ipotesi di limitatezza, è sufficiente
applicare il risultato appena provato al tempo d’arresto τn = inf{t ≥ 0 | |Xt | ≥ n} ∧ τ e poi passare al limite
per n → ∞ utilizzando il teorema di Beppo-Levi.
Proviamo ora la prima disuguaglianza: con l’usuale argomento di localizzazione basato sul teorema di
Beppo-Levi,
h p inon è restrittivo assumere che τ, X̄τ e ⟨X⟩τ siano limitatipda una costante positiva. Assumiamo
anche E X̄τ > 0 altrimenti non c’è nulla da provare. Poniamo r = 2 > 1 e A = ⟨X⟩. Per la formula di Itô
deterministica, Teorema 14.1.6 e formula (14.1.4), si ha
dArt = rAr−1
t dAt ,

r
dAt = d At Ar−1
t = At dAr−1
t + Ar−1
t dAt ,
e inserendo la prima nella seconda uguaglianza si ha
1
dArt = At dAtr−1 + dArt
r
ossia Z τ
(r − 1)Arτ =r At dAr−1
t .
0
Essendo anche Z τ Z τ
Arτ = Aτ dAr−1
t = Aτ dAr−1
t ,
0 0
otteniamo infine Z τ
Arτ =r (Aτ − At ) dAr−1
t .
0
Allora si ha
"Z τ #
E [Arτ ] = rE (Aτ − At ) dAr−1
t =
0
(per la Proposizione 14.2.3 e poiché At = E [At | Ft ])

"Z τ #
= rE E [Aτ − At | Ft ] dAr−1
t =
0
(per le (14.4.1) e (6.4.3) (si veda anche l’Osservazione 14.4.4), ricordando la notazione A = ⟨X⟩)
"Z
h τ i
#
= rE E Xτ2 − Xt2 | Ft d⟨X⟩r−1
t
0
"Z τ #
h i
≤ rE E X̄τ2 | Ft d⟨X⟩tr−1 =
0
(ancora per la Proposizione 14.2.3)

"Z τ #
h i
= rE X̄τ2 d⟨X⟩r−1
t = rE X̄τ2 ⟨X⟩τr−1 .
0
r
Per concludere basta applicare la disuguaglianza di Hölder con esponenti r, r−1 e infine dividere per
r−1
E [⟨X⟩rτ ] r .
Si ha il seguente immediato
Corollario 16.2.2. [!] Siano σ ∈ L2 e W un moto Browniano reale. Per ogni p ≥ 2 e T > 0 si ha
Z p #
t
" "Z T #
p−2
|σs |p ds

E sup σs dWs ≤ cp T 2 E (16.2.2)
0≤t≤T 0 0
dove cp è una costante positiva che dipende solo da p.
Dimostrazione. Basta3 considerare p > 2. Applicando la disuguaglianza di Burkholder-Davis-Gundy alla

martingala continua
Zt
Xt = σs dWs , X̄T = sup |Xt | ,
0 0≤t≤T
otteniamo

 Z
T !p/2 
h pi p/2  
E X̄T ≤ cp E ⟨X⟩T = cp E  σt2 dt 

0
p p
e la tesi segue applicando la disuguaglianza di Hölder con esponenti 2 e p−2 .
Osservazione 16.2.3. Assumiamo p > 4 e

Z t "Z T #
p
Xt := σs dWs con E |σs | ds < ∞.
0 0
Combinando la stima (16.2.2) col Teorema di continuità di Kolmogorov si ha che il processo integrale X
ammette una versione con traiettorie α-Hölderiane per ogni α ∈ [0, 12 − p2 [.
3 Il caso p = 2 corrisponde all’isometria di Itô.
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 379
16.2.2 Processo variazione quadratica

Dimostriamo la formula (14.4.2) che avevamo lasciato in sospeso.
Proposizione 16.2.4. Sia X una martingala locale continua con processo variazione quadratica ⟨X⟩. Si ha
2n
X 2
⟨X⟩t = lim X tkn − X t(k−1) , t ≥ 0,
n→∞ 2 2n
k=1
in probabilità. Inoltre, se S = A + X è una semimartingala continua, con A ∈ BV e X ∈ M c,loc , si ha
2n
X 2
⟨X⟩t = lim S tkn − S t(k−1) , t ≥ 0, (16.2.3)
n→∞ 2 2n
k=1
in probabilità.
Dimostrazione. Indichiamo al solito con tn,k = 2tkn , k = 0, . . . , 2n , i razionali diadici dell’intervallo [0, t]. Sup-
poniamo dapprima che X sia una martingala locale continua limitata, |X| ≤ K con K costante positiva.
Fissati n ∈ N e k ∈ {1, . . . , 2n }, consideriamo il processo
Ys := Xs − Xtn,k−1 , s ≥ tn,k−1 ,
e osserviamo che ⟨Y ⟩s = ⟨X⟩s − ⟨X⟩tn,k−1 : infatti, basta osservare che

Ys2 − ⟨X⟩s − ⟨X⟩tn,k−1 = Xs2 − ⟨X⟩s + Ms , Ms := −2Xs Xtn,k−1 + Xt2n,k−1 + ⟨X⟩tn,k−1 ,
e si verifica facilmente che (Ms )s≥tn,k−1 è una martingala. Applicando la formula di Itô si ha
dYs2 = 2Ys dYs + d⟨Y ⟩s
e in forma integrale su [tn,k , tn,k−1 ]
2 Z tn,k
Xtn,k − Xtn,k−1 = 2 Xs − Xtn,k−1 dYs + ⟨X⟩tn,k − ⟨X⟩tn,k−1
tn,k−1
ossia
2 Z tn,k
Xtn,k − Xtn,k−1 − ⟨X⟩tn,k − ⟨X⟩tn,k−1 = 2 Xs − Xtn,k−1 dYs .
tn,k−1
Sommando in k otteniamo
2n
X 2 2n Z
X tn,k
Rn := Xtn,k − Xtn,k−1 − ⟨X⟩t = 2 Xs − Xtn,k−1 dYs .
k=1 k=1 tn,k−1
Grazie all’isometria di Itô nella forma (15.2.12) e (15.2.13) (si ricordi anche il Teorema 15.2.15), si ha
h i 2n
X
Z tn,k 2

R2n
 
E =4 E  Xs − Xtn,k−1 d⟨Y ⟩s 
k=1 tn,k−1
Z 2 n 
 t X 2 
= 4E  Xs − Xtn,k−1 1[tn,k−1 ,tn,k ] (s)d⟨Y ⟩s 
0k=1
h i
e passando al limite, per il teorema della convergenza dominata, si ha lim E R2n = 0. Dunque, in questo
n→∞
caso particolare si prova la convergenza in norma L2 che ovviamente implica la convergenza in probabilità.
Per rimuovere l’ipotesi di limitatezza di X, è sufficiente usare un argomento di localizzazione provando
la tesi per la martingala limitata Xt∧τn , con
τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n}, n ∈ N,
per poi far tendere n ad infinito: con questa procedura si riesce a dimostrare la convergenza in probabilità.
La dimostrazione della (16.2.3) è simile ed è omessa.
16.3 Dimostrazione della formula di Itô

Dimostriamo il Teorema 16.1.1. Sia X = A + M una semimartingala continua a valori reali dove A è un
processo adattato, continuo e localmente a variazione limitata e M ∈ M c,loc . Nel Teorema 14.4.1 abbiamo
definito il processo variazione quadratica ⟨M⟩ come l’unico (a meno di indistinguibilità) processo adattato,
continuo, crescente tale che ⟨M⟩0 = 0 e M 2 − ⟨M⟩ ∈ M c,loc . Inoltre, se M è di quadrato sommabile, ossia
M ∈ M c,2 , allora si hanno le importanti identità
h i h i
E (Mt − Ms )2 | Fs = E Mt2 − Ms2 | Fs (16.3.1)
= E [⟨M⟩t − ⟨M⟩s | Fs ] , 0 ≤ s ≤ t. (16.3.2)
Anche se è un calcolo che abbiamo già svolto, è utile ricordare che la (16.3.1) viene semplicemente da
h i h i
E (Mt − Ms )2 | Fs = E Mt2 − 2Mt Ms + Ms2 | Fs
h i
= E Mt2 | Fs − 2Ms E [Mt | Fs ] + Ms2 =
(per la proprietà di martingala di M)

h i
= E Mt2 | Fs − Ms2 .
Invece la (16.3.2) equivale alla proprietà di martingala di M 2 − ⟨M⟩. La dimostrazione della formula di Itô
si basa essenzialmente su queste due identità. Un ulteriore ingrediente è la stima uniforme (14.5.3) della
norma L2 della variazione quadratica di M sui diadici.
Dividiamo la prova del Teorema 16.1.1 in quattro passi.
[Primo passo] Consideriamo la semimartingala continua X = A + M. Poiché la (16.1.1) è un’uguaglianza di
processi continui, è sufficiente dimostrare che si tratta di modificazioni: in altri termini, possiamo ragionare
per t > 0 fissato. Poniamo
τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n, ⟨X⟩s ≥ n, Vs (A) ≥ n}, n ∈ N,
dove Vs (A) indica il processo variazione prima di A su [0, s] (cfr. Definizione 14.1.1). Per continuità, τn ↗ ∞
q.c. e quindi basta provare la formula di Itô per Xt∧τn per ogni n ∈ N: equivalentemente, basta provare per
ogni fissato N̄ ∈ N vale la (16.1.1) nel caso in cui i processi |X|, |M|, A, ⟨X⟩ e V (A) siano limitati da N̄ . In tal
caso, non è restrittivo assumere che la funzione F abbia supporto compatto, eventualmente modificandola
fuori da [−N̄ , N̄ ]. In un primo momento, assumiamo anche che F ∈ C 3 (R).
Usiamo la notazione (13.1.1) per i diadici
D(t) = {tn,k = tk
2n | k = 0, . . . , 2n , n ∈ N}
di [0, t] e indichiamo con ∆n,k Y = Ytn,k − Ytn,k−1 l’incremento di un generico processo Y . Inoltre, poniamo
Fn,k := Ftn,k e
δn (Y ) = sup |Ys − Yr |, n ∈ N.
s,r∈D(t)
|s−r|< 1n
2
16.3. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 381
Sviluppando in serie di Taylor al second’ordine con resto secondo Lagrange, otteniamo
2n
X
F(Xt ) − F(X0 ) = F(Xtn,k ) − F(Xtn,k−1 )
k=1
2n 2n
X 1 X ′′
′
F (Xtn,k−1 ) ∆n,k X 2 + Rn

= F (Xtn,k−1 )∆n,k X + (16.3.3)
2
k=1 k=1
con
2n
X 3
|Rn | ≤ ∥F ′′′ ∥∞ ∆n,k X . (16.3.4)
k=1
Nei prossimi due passi stimiamo i singoli termini in (16.3.3) per mostrare che convergono ai corrispondenti
termini in (16.1.1) e Rn −→ 0 per n → ∞.
[Secondo passo] Per quanto riguarda la prima somma in (16.3.3), abbiamo
2n
X
F ′ (Xtn,k−1 )∆n,k X = In1,A + In1,M
k=1
dove, per la Proposizione 14.1.3,
2n
X Z t
In1,A := ′
F (Xtn,k−1 )∆n,k A −→ F ′ (Xs )dAs (16.3.5)
k=1 0
quasi certamente per n → ∞, con l’integrale inteso nel senso di Riemann-Stieltjes (o nel senso di Lebesgue-
Stieltjes, per la Proposizione 14.2.2) e
2n
X Z t
In1,M := ′
F (Xtn,k−1 )∆n,k M −→ F ′ (Xs )dMs
k=1 0
in probabilità, per il Corollario 15.2.26.

[Terzo passo] Per quanto riguarda la seconda somma in (16.3.3), abbiamo
2n
X
F ′′ (Xtn,k−1 )(∆n,k X)2 = In2,A + 2In2,AM + In2,M
k=1
dove
2n
X 2n
X 2n
X
In2,A := F ′′ (Xtn,k−1 )(∆n,k A)2 , In2,AM := F ′′ (Xtn,k−1 )(∆n,k A)(∆n,k M), In2,M := F ′′ (Xtn,k−1 )(∆n,k M)2 .
k=1 k=1 k=1
Ora si ha
|In2,A | ≤ ∥F ′′ ∥∞ δn (A)Vt (A) ≤ N̄ ∥F ′′ ∥∞ δn (A) −→ 0
quasi certamente per n → ∞, per l’uniforme continuità delle traiettorie di A su [0, t]. Un risultato analogo
si ha per In2,AM . Ricordando che per definizione ⟨X⟩ = ⟨M⟩, rimane da provare che
Z t
In2,M −→ F ′′ (Xs )d⟨M⟩s .
0
Poiché analogamente a (16.3.5) si ha quasi certamente

2n
X Z t
′′
F (Xtn,k−1 )∆n,k ⟨M⟩ −→ F ′′ (Xs )d⟨M⟩s ,
k=1 0
dimostriamo che
2n
X
F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ −→ 0
k=1

in norma L2 (Ω, P ). Posto Gn,k = F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ , sviluppando il quadrato della somma,
abbiamo
 n
2
2   2n 
X   X 
2
E  Gn,k   = E  Gn,k 
   
 
k=1 k=1
poiché i doppi prodotti si annullano: infatti, se h < k, si ha

h h ii
E Gn,h Gn,k = E Gn,h F ′′ (Xtn,k−1 )E (∆n,k M)2 − ∆n,k ⟨M⟩ | Fn,k−1 = 0

per la (16.3.2). Ora, per la disuguaglianza elementare (x + y)2 ≤ 2x2 + 2y 2 , abbiamo

 2n   2n 
X  X 
2 ′′ 4 2
E  Gn,k  ≤ 2∥F ∥∞ E 
  (∆n,k M) + (∆n,k ⟨M⟩) 
k=1 k=1
2n
 
 X 
′′ 2 2
≤ 2∥F ∥∞ E δn (M) (∆n,k M) + δn (M)Vt (⟨M⟩) ≤
k=1
(applicando la disuguaglianza di Hölder al primo termine)

2  12
  n 

 h i 12 X 2  


′′ 4 2
≤ 2∥F ∥∞ E δn (M) E  (∆n,k M)   + N̄ E [δn (⟨M⟩)] −→ 0

  
 
 
 
k=1
 
per n → ∞, poiché:
h i
• δn (M) ≤ 2N̄ e δn (M) → 0 q.c. per l’uniforme continuità di M su [0, t]: di conseguenza E δn4 (M) → 0
per il teorema della convergenza dominata. In modo analogo, E [δn (⟨M⟩)] → 0;
 n !2 
2
(∆n,k M)2  ≤ 16N̄ 4 per la stima (14.5.3).
 P 
• sup E 
n∈N k=1
In base alla (16.3.4), la prova del fatto che

h i
lim E |Rn |2 = 0
n→∞
è del tutto analoga.

[Quarto passo] Concludiamo la prova rimuovendo l’ipotesi di regolarità aggiuntiva su F. Data F ∈ C 2 (R)
con supporto compatto, consideriamo una successione (Fn )n∈N di funzioni C 3 che convergono uniforme-
mente a F insieme con le derivate prime e seconde. Applichiamo la formula di Itô a Fn e mandiamo n a
infinito: si ha Fn (Xs ) → F(Xs ) per ogni s ∈ [0, t]. Per il teorema della convergenza dominata si ha q.c.
Zt Zt
′ ′
lim (Fn (Xs ) − F (Xs )) dAs = lim (Fn′′ (Xs ) − F ′′ (Xs )) d⟨X⟩s = 0
n→∞ 0 n→∞ 0
16.3. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 383
e per l’isometria di Itô

 Zt !2  "Z t #

′ ′
Fn′ (Xs ) − F ′ (Xs )2 d⟨M⟩s = 0.
 
lim E  (Fn (Xs ) − F (Xs )) dMs  = lim E
n→∞ 0 n→∞ 0
Capitolo 17
Il caso multidimensionale
17.1 Matrice di covariazione

Estendiamo il concetto di processo variazione quadratica al caso multidimensionale.
Proposizione 17.1.1 (Processo covariazione). Siano X, Y ∈ M c,loc a valori reali. Il processo covariazione di
X e Y , definito da
⟨X + Y ⟩ − ⟨X − Y ⟩
⟨X, Y ⟩ := , (17.1.1)
4
è l’unico (a meno di indistinguibilità) processo tale che
i) ⟨X, Y ⟩ ∈ BV è adattato, continuo e tale che ⟨X, Y ⟩0 = 0;
ii) XY − ⟨X, Y ⟩ ∈ M c,loc ed è una vera martingala nel caso in cui X, Y ∈ M c,2 .
Se X, Y ∈ M c,2 si ha
E [(Xt − Xs )(Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] , t ≥ s ≥ 0, (17.1.2)
e vale
2n
X
⟨X, Y ⟩t = lim X tkn − X t(k−1) Y tkn − Y t(k−1) , t ≥ 0, (17.1.3)
n→∞ 2 2n 2 2n
k=1
in probabilità.
Dimostrazione. Data l’uguaglianza elementare
(X + Y )2 − (X − Y )2
XY =
4
è facile verificare che il processo ⟨X, Y ⟩ definito come in (17.1.1) verifica le proprietà i) e ii). L’unicità segue
direttamente dal Teorema 14.3.6. La (17.1.2) segue dall’identità
E [(Xt − Xs )(Yt − Ys ) | Fs ] = E [Xt Yt − Xs Ys | Fs ]
e dalla proprietà di martingala di XY − ⟨X, Y ⟩. La (17.1.3) è una semplice conseguenza della (17.1.1),
applicata a X + Y e X − Y , e della Proposizione 16.2.4.
Osservazione 17.1.2. Per unicità si ha ⟨X, X⟩ = ⟨X⟩. Le seguenti proprietà sono dirette conseguenze della
definizione (17.1.1) di covariazione e della (17.1.3):
385
386 CAPITOLO 17. IL CASO MULTIDIMENSIONALE
i) simmetria: ⟨X, Y ⟩ = ⟨Y , X⟩;
ii) bi-linearità: ⟨αX + βY , Z⟩ = α⟨X, Z⟩ + β⟨Y , Z⟩, per α, β ∈ R;

√
iii) Cauchy-Schwarz: |⟨X, Y ⟩| ≤ ⟨X⟩⟨Y ⟩.
Poiché la variazione quadratica di una funzione BV continua è nulla (cfr. Proposizione 14.3.4), la de-
finizione di variazione quadratica si estende alle semimartingale continue in modo naturale: ricordiamo
che nel Teorema 14.4.1 abbiamo definito il processo variazione quadratica di una semimartingala continua
S = X + A, con X ∈ M c,loc e A ∈ BV adattato, come ⟨S⟩ := ⟨X⟩.
Definizione 17.1.3 (Matrice di covariazione di una semimartingala). Se S = (S 1 , . . . , S d ) è una semimar-

tingala continua d-dimensionale con decomposizione S = X + A, la matrice di covariazione di S è la matrice
d × d simmetrica definita da
⟨S⟩ := (⟨X i , X j ⟩)i,j=1,...,d .
17.2 Moto Browniano multidimensionale

Definizione 17.2.1 (Moto Browniano d-dimensionale). Sia W = (Wt1 , . . . , Wtd )t≥0 un processo stocastico a
valori in Rd definito su uno spazio di probabilità con filtrazione (Ω, F , P , Ft ). Diciamo che W è un moto
Browniano d-dimensionale se verifica le seguenti proprietà:
i) W0 = 0 q.c.;
ii) W è continuo q.c.;
iii) W è adattato;
iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;
v) Wt − Ws ∼ N0,(t−s)I per ogni t ≥ s ≥ 0, dove I indica la matrice identità d × d.
Un moto Browniano multidimensionale è un vettore di moti Browniani reali indipendenti: vale infatti
la seguente
Proposizione 17.2.2. Se W = (W 1 , . . . , W d ) è un moto Browniano d-dimensionale su (Ω, F , P , Ft ) allora:
i) W i è un moto Browniano reale su (Ω, F , P , Ft ) per ogni i = 1, . . . , d;

j j
ii) Wti − Wsi e Wt − Ws sono variabili indipendenti per ogni i , j e t ≥ s ≥ 0;
iii) la matrice di covariazione di W è ⟨W ⟩t = tI ossia, con la notazione differenziale,
d⟨W i , W j ⟩t = δij dt (17.2.1)
dove δij è la delta di Kronecker


1 se i = j,


δij = 
0 se i , j;

iv) se A è una matrice ortogonale d×d allora il processo definito da Bt := AWt è ancora un moto Browniano
d-dimensionale. Se invece A è una generica matrice N × d allora B soddisfa le proprietà i), ii), iii) e
iv) della Definizione 17.2.1 e Bt − Bs ∼ N0,(t−s)C per ogni 0 ≤ s ≤ t, dove C = AA∗ . La matrice di
covariazione di B coincide con la matrice di covarianza, ⟨B⟩t = cov(Bt ) = tC . Diciamo che B è un moto
Browniano correlato N -dimensionale.
17.2. MOTO BROWNIANO MULTIDIMENSIONALE 387
Dimostrazione. Le proprietà i) e ii) seguono dal fatto che, per t > s ≥ 0, l’incremento Wt − Ws ha densità
Gaussiana
|x|2
d x2
1 − 2(t−s)
Y 1 i
− 2(t−s)
d
e = p e , x ∈ Rd ,
(2π(t − s)) 2
i=1 2π(t − s)
che è il prodotto di Gaussiane standard unodimensionali: in particolare, l’indipendenza segue dal Teorema
3.3.23-iv).
Per quanto riguarda iii), per il punto i) si ha ⟨W i ⟩t = ⟨W i , W i ⟩t = t per ogni i = 1, . . . , d. Per i , j è un
semplice esercizio1 provare che W i W j è una martingala e quindi ⟨W i , W j ⟩t = 0.
Il punto iv) è una semplice verifica in cui si utilizza la Proposizione 3.5.15.
Esempio 17.2.3. [!] Sia W un moto Browniano bidimensionale. Posto

!
1 p 0
A=
ϱ 1 − ϱ2
con ϱ ∈ [−1, 1], si ha

!
1∗ ϱ
C = AA = .
ϱ 1
Il moto Browniano correlato bidimensionale B := AW è tale che

q
1 1
Bt = W t , 2 1
Bt = ϱWt + 1 − ϱ2 Wt2 ,
sono moti Browniani reali e vale

cov(B1t , B2t ) = ⟨B1 , B2 ⟩t = ϱt.
In questa sezione vediamo brevemente come definire l’integrale stocastico di processi multidimensio-
nali, esaminando in particolare il moto Browniano e i processi di Itô. Per semplicità, trattiamo solo il
caso in cui l’integratore è in M c,2 anche se tutti i risultati seguenti si estendono ad integratori che siano
semimartingale continue. Nel seguito d e N indicano due numeri naturali.
Definizione 17.2.4. Sia B = (B1 , . . . , Bd ) ∈ M c,2 un processo d-dimensionale. Consideriamo un processo

u = (u ij ) a valori nello spazio delle matrici di dimensione N × d. Scriviamo u ∈ L2B (o semplicemente u ∈ L2 )
se u ij ∈ L2Bj per ogni i = 1, . . . , N e j = 1, . . . , d. La classe L2loc ≡ L2B,loc è definita in modo analogo. L’integrale
stocastico di u rispetto a B è il processo N -dimensionale, definito componente per componente da
 
Zt Xd Z t
ij j

us dBs :=  us dBs 
 
0 j=1
 0 
i=1,...,N
al variare di t ≥ 0.
1 Per t ≥ s ≥ 0, si ha

j j j j
E Wti Wt | Fs = E Wti − Wsi Wt | Fs + Wsi E Wt | Fs = Wsi Ws
poiché
j j
j j h
E Wti − Wsi Wt | Fs = E Wti − Wsi Wt − Ws | Fs + Ws E Wti − Wsi | Fs
i
j
j
= E Wti − Wsi Wt − Ws = 0
per l’indipendenza degli incrementi.

Teorema 17.2.5. [!] Siano

Z t Z t
Xt = us dB1s , Yt = vs dB2s ,
0 0
con B1 , B2 processi unodimensionali in M c,2 e u, v processi unodimensionali rispettivamente in L2B1 ,loc e

L2B2 ,loc . Allora:
i) si ha
Z t
⟨X, Y ⟩t = us vs d⟨B1 , B2 ⟩s ; (17.2.2)
0
ii) se u ∈ L2B1 e v ∈ L2B2 allora vale la seguente versione dell’isometria di Itô

"Z T Z T # "Z T #
E us dB1s vs dB2s | Ft = E us vs d⟨B1 , B2 ⟩s | Ft , 0≤t ≤T. (17.2.3)
t t t
Dimostrazione. Nel caso in cui u e v siano processi indicatori, la (17.2.3) si prova ripetendo la dimostrazione
del Teorema 15.2.7-ii) con l’unica differenza che, al posto della (15.2.6), occorre utilizzare la (17.1.2) nella
forma
h i h i
E (B1T − B1t )(B2T − B2t ) | Ft = E ⟨B1 , B2 ⟩T − ⟨B1 , B2 ⟩t | Ft , 0≤t ≤T.
La dimostrazione della (17.2.2) è completamente analoga al caso in cui B1 = B2 .
Corollario 17.2.6. Se W = (W 1 , . . . , W d ) è un moto Browniano d-dimensionale (cfr. Definizione 17.2.1) su

(Ω, F , P , (Ft )t≥0 ) allora per ogni u, v ∈ L2W si ha
"Z T Z T # "Z T #
j
E us dWsi vs dWs | Ft = δij E us vs ds | Ft , 0 ≤ t ≤ T , i, j = 1, . . . , d. (17.2.4)
t t t
Dimostrazione. La (17.2.4) segue direttamente dalla (17.2.3) e dal punto iii) della Proposizione 17.2.2.
Osservazione 17.2.7. Le componenti della matrice di covariazione (cfr. Definizione 17.1.3) del processo
integrale
Zt
Xt = us dBs
0
sono
d Z t d Z t
ij jk
X X
⟨X⟩t = ⟨ usih dBhs , us dBks ⟩ =
h=1 0 k=1 0
(per la (17.2.2))
d Z t
jk
X
= usih us d⟨Bh , Bk ⟩s (17.2.5)
h,k=1 0
per i, j = 1, . . . , N .
17.3. PROCESSI DI ITÔ MULTIDIMENSIONALI 389
17.3 Processi di Itô multidimensionali

Definizione 17.3.1 (Processo di Itô). [!] Sia W un moto Browniano d-dimensionale. Un processo di Itô
N -dimensionale è un processo della forma
Zt Zt
Xt = X0 + us ds + vs dWs (17.3.1)
0 0
dove:
i) X0 ∈ mF0 è una v.a. N -dimensionale;
ii) u è un processo N -dimensionale in L1loc , ossia u è progressivamente misurabile e tale che, per ogni
t ≥ 0, Zt
|us |ds < ∞, q.c.
0
iii) v è un processo in L2loc a valori nello spazio delle matrici N × d, ossia v è progressivamente misurabile
e tale che, per ogni t ≥ 0,
Zt
|vs |2 ds < ∞ q.c.
0
dove |v| indica la norma di Hilbert-Schmidt della matrice v, ossia la norma Euclidea in RN ×d , definita
da
N X
X d
|v|2 = (v ij )2 .
i=1 j=1
Con la notazione differenziale scriviamo
dXt = ut dt + vt dWt .
Combinando la (17.2.5) col fatto che ⟨W ⟩t = tI otteniamo la seguente

Proposizione 17.3.2. Sia X il processo di Itô in (17.3.1). La matrice di covariazione di X è
Zt
⟨X⟩t = vs vs∗ ds, t ≥ 0,
0
o, in notazione differenziale,
d
ij
X
d⟨X i , X j ⟩t = Ct dt, C ij = (vv ∗ )ij = v ik v jk . (17.3.2)
k=1
Proposizione 17.3.3 (Isometria di Itô). Per ogni v ∈ L2 , matrice di dimensione N ×d, e W moto Browniano
d-dimensionale vale Z t 2  "Z t #
|v|2 ds .
 
E  vs dWs  = E
0 0
Z t 2  N  d Z 2 
  X X t ij j
 
E  vs dWs  = E  vs dWs  

0  0  
i=1 j=1
(per la (17.2.4))
N X
d  Zt !2 
ij j 
X

= E  vs dWs 

i=1 j=1 0
(per l’isometria di Itô scalare)

N X
d "Z t #
ij 2
X
= E (vs ) ds .
i=1 j=1 0
Esempio 17.3.4. Nel caso più semplice in cui u, v sono costanti si ha
Xt = X0 + ut + vWt ,
ossia X è un moto Browniano correlato con drift.
17.4 Formula di Itô multidimensionale

Teorema 17.4.1 (Formula di Itô per semimartingale continue). Siano X = (X 1 , . . . , X d ) una semimartingala
continua d-dimensionale e F = F(t, x) ∈ C 1,2 (R≥0 × Rd ). Allora quasi certamente, per ogni t ≥ 0 si ha
t d Z t d Z
1X t
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + (∂xi xj F)(s, Xs )d⟨X i , X j ⟩s
0 0 2 0
j=1 i,j=1

d d
X j 1X
dF(t, Xt ) = ∂t F(t, Xt )dt + (∂xj F)(t, Xt )dXt + (∂xi xj F)(t, Xt )d⟨X i , X j ⟩t .
2
j=1 i,j=1
Di seguito esaminiamo due casi particolarmente importanti in cui usiamo le espressioni (17.2.1) e
(17.3.2) delle covariazioni ⟨X i , X j ⟩:
i) se W è un moto Browniano d-dimensionale (cfr. Definizione 17.2.1) si ha
d⟨W i , W j ⟩t = δij dt (17.4.1)
dove δij è la delta di Kronecker;

ii) se X è un processo di Itô della forma
dXt = µt dt + σt dWt (17.4.2)
con µ processo N -dimensionale in L1loc e σ matrice N × d in L2loc , allora

ij
d⟨X i , X j ⟩t = Ct dt, C ij = (σ σ ∗ )ij , (17.4.3)
ossia, ricordando la notazione ⟨X⟩ per la matrice di covariazione di X (cfr. Definizione 17.1.3),
d⟨X⟩t = Ct dt.
17.4. FORMULA DI ITÔ MULTIDIMENSIONALE 391
Corollario 17.4.2 (Formula di Itô per il moto Browniano). Sia W un moto Browniano d-dimensionale.
Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × Rd ) si ha
Z t d Z t Z t
X j 1
F(t, Wt ) = F(0, 0) + (∂t F)(s, Ws )ds + (∂xj F)(s, Ws )dWs + (∆F)(s, Ws )ds
0 0 2 0
j=1
dove ∆ è l’operatore di Laplace in Rd :

d
X
∆= ∂xj xj .
j=1
Con la notazione differenziale si ha

1

dF(t, Wt ) = ∂t F + ∆F (t, Wt )dt + (∇x F)(t, Wt )dWt ,
2

dove ∇x = ∂x1 , . . . , ∂xd indica il gradiente spaziale.
Esempio 17.4.3 (Martingala quadratica). Calcoliamo il differenziale stocastico di |Wt |2 dove W è un moto
Browniano N -dimensionale. In questo caso
F(x) = |x|2 = x12 + · · · + xN

2
, ∂xi F(x) = 2xi , ∂xi xj F(x) = 2δij ,
dove δij è la delta di Kronecker. Dunque si ha
N
X
d|Wt |2 = N dt + 2Wt dWt = N dt + 2 Wti dWti .
i=1
Ne segue che il processo Xt = |Wt |2 − N t è una martingala.
Corollario 17.4.4 (Formula di Itô per processi di Itô). [!] Sia X un processo di Itô in RN della forma
(17.4.2). Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × RN ) si ha
t N Z t N Z
1 X t ij
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + Cs (∂xi xj F)(s, Xs )ds
0 0 2 0
j=1 i,j=1
dove C = σ σ ∗ . Con la notazione differenziale si ha

 
N N N X
d
 1 X ij
X j
 X jk
dF(t, Xt ) = ∂t F + Cs ∂xi xj F + µt ∂xj F  (t, Xt )dt + σt ∂xj F(t, Xt )dWtk .
 
 2 
i,j=1 j=1 j=1 k=1
Esempio 17.4.5 (Martingala esponenziale). Sia
dYt = σt dWt
con σ di dimensione N ×d e W moto Browniano d-dimensionale. Ricordiamo che la matrice di covariazione

di Y è d⟨Y ⟩t = σt σt∗ dt. Fissato η ∈ RN poniamo
1 t ∗ 2
Z !
1

η
Mt = exp ⟨η, Yt ⟩ − ⟨⟨Y ⟩t η, η⟩ = exp ⟨η, Yt ⟩ − |σs η| ds .
2 2 0
Applichiamo la formula di Itô con F(x) = e⟨x,η⟩ e

1
dXt = dYt − σt σt∗ ηdt.
2
η
Si ha Mt = F(Xt ) e
∂xi F(x) = ηi F(x), ∂xi xj F(x) = ηi ηj F(x),
da cui
d
N X
1

η ij j
X
dMt = Xt ηdXt + ⟨σt σt∗ η, η⟩dt = Xt ηdYt = Xt ηi σt dWt .
2
i=1 j=1
Ne viene in particolare che M η è una martingala locale positiva (e quindi una super-martingala per l’Os-
servazione 13.4.5-vi)).
La Proposizione 10.4.2 ha la seguente generalizzazione multidimensionale: consideriamo la martingala
esponenziale
η |η|2
Mt := ei⟨η,Wt ⟩+ 2 t , t ≥ 0, η ∈ Rd , (17.4.4)
dove i è l’unità immaginaria e W è un moto Browniano d-dimensionale.
Proposizione 17.4.6. Sia W un processo d-dimensionale, continuo e adattato sullo spazio (Ω, F , P , Ft ) e
tale che W0 = 0 q.c. Se per ogni η ∈ Rd il processo M η in (17.4.4) è una martingala, allora W è un moto
Browniano.
Osservazione 17.4.7 (Regole formali per il calcolo delle covariazioni). [!] Sia X il processo di Itô in
(17.4.2) con componenti
d
X
dXti = µit dt + σtik dWtk , i = 1, . . . , N . (17.4.5)
k=1
Per determinare i coefficienti
delle derivate seconde nella formula di Itô occorre calcolare la matrice di
covariazione ⟨X⟩ = ⟨X i , X j ⟩ che sappiamo essere data da d⟨X⟩t = σt σt∗ dt per la (17.4.3). Dal punto di vista
pratico il calcolo di σ σ ∗ può essere oneroso ed è quindi preferibile utilizzare le seguenti regole formali di
calcolo: si scrive
d⟨X i , X j ⟩ = dX i ∗ dX j
e si calcola il prodotto “∗′′ nel membro a destra come un prodotto dei “polinomi” dX i in (17.4.5) secondo
le seguenti regole di calcolo
j
dt ∗ dt = dt ∗ dWti = dWti ∗ dt = 0, dWti ∗ dWt = δij dt, (17.4.6)
dove δij è la delta di Kronecker.
Esempio 17.4.8. Supponiamo N = d = 2 in (17.4.5) e calcoliamo il differenziale stocastico del prodotto di
Zt = Xt1 Xt2 . Si ha Zt = F(Xt ) dove F(x1 , x2 ) = x1 x2 e
∂x1 F(x) = x2 , ∂x2 F(x) = x1 , ∂x1 x1 F(x) = ∂x2 x2 F(x) = 0, ∂x1 x2 F(x) = ∂x2 x1 F(x) = 1.
Di conseguenza
d(Xt1 Xt2 ) = Xt1 dXt2 + Xt2 dXt1 + d⟨X 1 , X 2 ⟩t

= Xt1 dXt2 + Xt2 dXt1 + σt11 σt21 + σt12 σt22 dt.
Inoltre, per quanto riguarda la variazione quadratica di X 1 , si ha

d⟨X 1 ⟩t = (σt11 )2 + (σt12 )2 dt.
17.5. CARATTERIZZAZIONE DI LÉVY E MOTO BROWNIANO CORRELATO 393
Esempio 17.4.9. Calcoliamo il differenziale stocastico del processo

Zt
tWt1
Yt = e Ws2 dWs1
0
dove (W 1 , W 2 ) è un moto Browniano standard bidimensionale. Procedendo come nell’Esempio 16.1.8,

individuiamo la funzione F = F(t, x1 , x2 ) = etx1 x2 e il processo di Itô
dXt1 = dWt1 , dXt2 = Wt2 dWt1
con cui applicare la formula di Itô. Si ha
∂t F = x1 F, ∂x1 F = tF, ∂x2 F = etx1 , ∂x1 x1 F = t 2 F, ∂x1 x2 F = tetx1 , ∂x2 x2 F = 0,
e per le regole formali (17.4.6) per il calcolo dei processi covariazione
d⟨X 1 ⟩t = dt, d⟨X 1 , X 2 ⟩t = Wt2 dt.
Di conseguenza
1 2

1 1
dYt = Wt1 Yt dt + tYt dWt1 + etWt dWt2 + t Yt + 2tetWt Wt2 dt.
2
Diamo la versione multidimensionale del Corollario 16.2.2 sulle stime Lp per l’integrale stocastico.
Omettiamo la dimostrazione che è simile al caso scalare.
Corollario 17.4.10. [!] Siano σ ∈ L2 , matrice N ×d-dimensionale, e W un moto Browniano d-dimensionale.
Per ogni p ≥ 2 e T > 0 si ha Z p #
t
" "Z T #
p−2
|σs |p ds

E sup σs dWs ≤ cT 2 E
0≤t≤T 0 0
dove |σ | indica la norma di Hilbert-Schmidt2 di σ e c è una costante positiva che dipende solo da p, N e d.
17.5 Caratterizzazione di Lévy e moto Browniano correlato

Ricordiamo l’espressione (17.4.1) delle covariazioni di un moto Browniano W . È notevole il fatto che le
covariazioni e la proprietà di martingala caratterizzino il moto Browniano come mostra il seguente classico
Teorema 17.5.1 (Caratterizzazione di Lévy del moto Browniano). Sia X un processo d-dimensionale de-
finito sullo spazio (Ω, F , P , (Ft )) e tale che X0 = 0 q.c. Allora X è un moto Browniano se e solo se X è una
martingala locale continua tale che
⟨X i , X j ⟩t = δij t, t ≥ 0. (17.5.1)
Dimostrazione. Usiamo la Proposizione 17.4.6 e verifichiamo che, per ogni η ∈ Rd , il processo esponenziale
η |η|2
Mt := eiη·Xt + 2 t
è una martingala. Per la formula di Itô abbiamo

 
 |η|2 d
η η 1 X 
dMt = Mt  dt + iη · dXt − ηi ηj d⟨X i , X j ⟩t  =
 
 2 2 
i,j=1
2 Ossia la norma Euclidea in RN ×d .

(per l’ipotesi (17.5.1))

η
= Mt iη · dXt
e quindi, per il Teorema 15.2.23, M η è una martingala locale continua. D’altra parte M η è anche una vera
martingala essendo un processo limitato, da cui la tesi.
Corollario 17.5.2. Sia α = (α 1 , . . . , α d ) un processo d-dimensionale progressivamente misurabile e tale che

|αt | = 1 per t ≥ 0 quasi certamente. Per ogni un moto Browniano d-dimensionale W , il processo
Z t
Bt := αs dWs
0
è un moto Browniano reale.
Dimostrazione. Per il Teorema 15.2.15 B è una martingala continua e vale

Z t
⟨B⟩t = |αs |2 ds = t.
0
La tesi segue dal Teorema 17.5.1.
Definizione 17.5.3 (Moto Browniano correlato). Sia α un processo progressivamente misurabile a valori
nello spazio delle matrici di dimensione N ×d, le cui righe α i sono tali che |αti | = 1 per t ≥ 0 quasi certamente.
Dato un moto Browniano standard d-dimensionale W , il processo
Z t
Bt := αs dWs
0
è detto moto Browniano correlato.
Per il Corollario 17.5.2, ogni componente di B è un moto Browniano reale e per la (17.4.3) si ha
Z t
ij
⟨Bi , Bj ⟩t = ϱs ds
0
dove ϱt = αt αt∗ è detta matrice di correlazione di B. Inoltre vale

Z t
cov(Bt ) = E [ϱs ] ds,
0
poiché
 d Z d Z t

j
X t
i j jh
X 
cov(Bit , Bt ) = E Bt Bt = E  ik
αs dWsk h
αs dWs  =
k=1 0 h=1 0
(per l’isometria di Itô, Proposizione 17.3.3)

Z d  Z
 t X jk  t
ij

= E  αsik αs ds = E ϱs ds.
0 k=1 0
Nel caso in cui σ sia ortogonale si ha N = d, α ∗ = α −1 e quindi α i ·α j = δij per ogni coppia di righe: in questo
caso particolare anche B è un moto Browniano standard d-dimensionale secondo la Definizione 17.2.1.
17.5. CARATTERIZZAZIONE DI LÉVY E MOTO BROWNIANO CORRELATO 395
Esempio 17.5.4 (Formula di Itô per il moto Browniano correlato). In alcune applicazioni è naturale uti-
lizzare processi di Itô definiti con un moto Browniano correlato dBt = αt dWt come nella Definizione 17.5.3.
Per esempio, in un modello finanziario di tipo Black&Scholes [22], la dinamica stocastica dei prezzi di N
titoli rischiosi può essere assegnata con le equazioni
dSti = µit Sti dt + σti Sti dBit , i = 1, . . . , N , (17.5.2)
piuttosto che
d
ij j
X
dSti = µit Sti dt + vt Sti dWt , i = 1, . . . , N , (17.5.3)
j=1
con W moto Browniano standard d-dimensionale. Nella (17.5.3), la dinamica del titolo i-esimo coinvolge
esplicitamente tutti i Browniani W 1 , . . . , W d e i coefficienti di diffusione v ij incorporano le correlazioni fra i
diversi titoli. Al contrario, in (17.5.2) il titolo i-esimo dipende solo dal Browniano reale Bi : il coefficiente σ i ,
usualmente chiamato volatilità, è indicatore della “rischiosità” del titolo i-esimo; la dipendenza fra i diversi
titoli è implicita in B tramite la matrice di correlazione ϱ = αα ∗ , per cui d⟨B⟩t = ϱt dt. In questo contesto,
si preferisce spesso assegnare la dinamica (17.5.2) invece della (17.5.3), per tenere separate le strutture di
volatilità dei singoli titoli da quella di correlazione.
Nel caso del moto Browniano correlato, le regole formali di calcolo dell’Osservazione 17.4.7 si modifi-
cano in
j ij
dt ∗ dt = dt ∗ dBit = dBit ∗ dt = 0, dBit ∗ dBt = ϱt dt.
Per esempio, assumiamo la dinamica (17.5.2) con N = 2 e B moto Browniano bidimensionale definito come
nell’Esempio 17.2.3, con matrice di correlazione
!
1 ϱ
, ϱ ∈ [−1, 1].
ϱ 1
Allora si ha
St1 dSt1 St1 2St1

!
1 2
d 2= 2 − dSt2 + − 1 2
d⟨S , S ⟩t + 2 d⟨S ⟩t 2
St St (St2 )2 2 (St2 )2 (St )3
S1 S1
= t2 µ1t − µ2t − ϱt σt1 σt2 + (σt2 )2 dt + t2 (σt1 dB1t − σt2 dB2t ).
St St
Capitolo 18
Cambi di misura e rappresentazione di

martingale
In questo capitolo presentiamo due risultati classici:
• il Teorema 18.3.3 di Girsanov che afferma che il processo ottenuto aggiungendo un drift ad un moto
Browniano, è ancora un moto Browniano sotto una nuova misura di probabilità;
• il Teorema 18.5.1 di rappresentazione delle martingale in base al quale ogni martingala locale rela-
tiva alla filtrazione Browniana ammette una rappresentazione in termini di integrale stocastico e di
conseguenza ammette una modificazione continua.
Questi risultati possono essere combinati per esaminare la relazione fra un cambio di misura di probabilità
e l’espressione del drift di un processo di Itô. Nella trattazione di questi problemi un ruolo centrale è
giocato dalle martingale esponenziali.
18.1 Cambi di misura e processi di Itô

Consideriamo un moto Browniano d-dimensionale W su uno spazio (Ω, F , P , Ft ) e un processo λ ∈ L2loc .
Applicando la formula di Itô al processo esponenziale
Z t Z t !
1 2
Mtλ := exp − λs dWs − |λs | ds , t ∈ [0, T ], (18.1.1)
0 2 0
otteniamo
dMtλ = −Mtλ λt dWt . (18.1.2)
Quindi M λ è una martingala locale, a volte chiamata martingala esponenziale. Essendo positiva, M λ è una
super-martingala (cfr. Osservazione (13.4.5)-vi)) e in particolare
h i
E Mtλ ≤ M0λ = 1, t ∈ [0, T ];
h i
inoltre, M λ è una vera martingala su [0, T ] se e solo se E MTλ = 1.
Le martingale esponenziali hanno un interessante legame con i cambi di misura di probabilità. Ricor-
diamo che due misure di probabilità P , Q su uno spazio (Ω, F ) si dicono equivalenti se hanno gli stessi
eventi certi e trascurabili: in tal caso si scrive Q ∼ P . Per il Teorema A.2.1.3 di Radon-Nikodym ad ogni
397
398 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
probabilità Q, equivalente a P , è associata una variabile aleatoria Z che è strettamente positiva q.c. e tale
che
Z
Q(A) = ZdP , A ∈ F;
A
in particolare, si ha E P [Z] = 1. Z è chiamata derivata di Radon-Nikodym di Q rispetto a P ed è indicata col

simbolo Z = dQ dP . Notiamo che è equivalente assegnare Q ∼ P oppure Z che sia strettamente positiva q.c. e
tale che E P [Z] = 1.
Il seguente teorema afferma che c’è una relazione biunivoca fra le misure Q equivalenti a P e i processi
λ ∈ L2loc tali che M λ è una martingala. Inoltre, un cambio di misura di probabilità corrisponde a un cambio
di drift del moto Browniano (e, di conseguenza, dei processi di Itô).
Teorema 18.1.1 (Cambi di misura e di drift). [!] Sia W = (Wt )t∈[0,T ] un moto Browniano d-dimensionale
sullo spazio (Ω, F , P ) munito della filtrazione Browniana standard1 F W . Si ha:
i) se Q è una misura di probabilità equivalente a P allora esiste λ ∈ L2loc tale che
dQ
= MTλ (18.1.3)
dP
dove M λ è la martingala esponenziale in (18.1.1);
ii) viceversa, se λ ∈ L2loc è tale che M λ è una vera martingala allora (18.1.3) definisce una misura di
probabilità Q ∼ P .
Inoltre:
a) quasi certamente si ha
" #
dQ
Mtλ = E P | FtW , t ∈ [0, T ]; (18.1.4)
dP
b) il processo
Z t
Wtλ := Wt + λs ds, (18.1.5)
0
è un moto Browniano su (Ω, F , Q, F W );
c) se X è un processo di Itô della forma
dXt = bt dt + σt dWt (18.1.6)
con b ∈ L1loc e σ ∈ L2loc , allora

dXt = (bt − σt λt )dt + σt dWtλ . (18.1.7)
Proveremo il Teorema 18.1.1 nella Sezione 18.5.1, come corollario dei due risultati principali di questo
capitolo, il teorema di Girsanov e il teorema di rappresentazione delle martingale Browniane.
1 La filtrazione ottenuta completando la filtrazione generata da W in modo che verifichi le ipotesi usuali.
18.1. CAMBI DI MISURA E PROCESSI DI ITÔ 399
18.1.1 Un’applicazione: la valutazione neutrale al rischio di derivati finanziari

In alcune applicazioni, si è interessati a sostituire il drift bt di un processo di Itô della forma (18.1.6) con
un opportuno drift rt ∈ L1loc . Il Teorema 18.1.1, afferma che ciò è possibile cambiando misura di probabilità
a patto che che esista un processo λ ∈ L2loc per cui valga rt = bt − σt λt e M λ in (18.1.1) sia una martingala.
In questa sezione presentiamo un’applicazione specifica nell’ambito della finanza matematica.
Nel modello di Black&Scholes [22] dell’Esempio 17.5.4, il prezzo S di un titolo rischioso ha la seguente
dinamica stocastica
dSt = µSt dt + σ St dWt , (18.1.8)
dove W è un moto Browniano reale su (Ω, F , P , Ft ) e µ, σ sono due parametri reali detti rispettivamente
tasso di rendimento atteso e volatilità. Si assume σ > 0 per non cancellare l’effetto aleatorio del Browniano
che descrive la rischiosità2 del titolo. Inoltre, è ragionevole assumere µ > r dove r indica il tasso d’interesse
privo di rischio3 : ciò è motivato economicamente dal fatto che gli investitori, per assumersi il rischio di
investire sul titolo S, si aspettano un tasso di rendimento µ > r, più remunerativo rispetto al conto in banca.
Nel gergo finanziario, P è detta “misura del modo reale” perché la dinamica (18.1.8) nella misura P intende
descrivere il reale andamento del titolo rischioso e i parametri µ, σ del modello sono quelli che potrebbero
essere stimati con metodi econometrici a partire da dati reali come, per esempio, una serie storica di prezzi
del titolo: una tale stima statistica ha generalmente finalità di previsione dell’andamento futuro del prezzo
in base ai dati del passato.
In finanza matematica, a partire dal modello (18.1.8) si introduce un’altra misura di probabilità Q
definita come nel Teorema 18.1.1 con λ uguale al processo costante
µ−r
λ= ∈ R+ . (18.1.9)
σ
La scelta di λ è tale che la dinamica di S diventa
dSt = rSt dt + σ St dWtλ ,
quindi formalmente analoga4 a (18.1.8) ma con il tasso di rendimento atteso uguale al tasso privo di rischio.
La misura Q non intende descrivere il reale rendimento atteso: Q è chiamata “misura neutrale al rischio”
o anche “misura martingala” poiché il processo Set := e−rt St del prezzo scontato5 è una Q-martingala e, in
particolare, vale
S0 = e−rT E Q [St ] . (18.1.10)
La (18.1.10) è una formula di valutazione neutrale al rischio, in base alla quale il prezzo attuale S0 è equo
nel senso che è uguale al valore atteso del prezzo futuro. La misura Q viene usata per valutare particolari
strumenti finanziari chiamati derivati, di cui è noto il valore in un tempo futuro T , in funzione di ST : se
indichiamo con ϕ tale funzione, la variabile aleatoria ϕ(ST ) è chiamata “payoff” e corrisponde al valore del
derivato al tempo T . Per coerenza con la formula (18.1.10), il valore atteso nella misura neutrale al rischio
e−rT E Q [ϕ(ST )] (18.1.11)
è chiamato “prezzo neutrale al rischio” del derivato con payoff ϕ: il valore atteso in (18.1.11) può essere
calcolato esplicitamente usando il fatto che ST ha distribuzione log-normale, restituendo la famosa formula
di Black&Scholes.
2 Se σ = 0, la (18.1.8) si riduce ad un’equazione differenziale ordinaria
dSt = µSt dt
con soluzione deterministica St = S0 eµt : quest’ultima è una cosiddetta formula di capitalizzazione composta con tasso d’interesse µ.
3 Il tasso d’interesse pagato dal conto in banca che è assunto come investimento non rischioso di riferimento.
4 W λ = W + λt è un moto Browniano reale nella misura Q.
t t
5 Il fattore di sconto e−rt elimina il “valore del tempo” ossia attualizza i prezzi.
Il parametro λ in (18.1.9) è chiamato “prezzo di mercato del rischio” perché è definito come rapporto
fra il differenziale di rendimento µ − r richiesto per assumersi il rischio di investire in S e la volatilità σ che
misura la rischiosità di S.
A differenza di P , la misura Q non ha una finalità “statistica” e non descrive le probabilità reali degli
eventi, ma è una misura artificiale rispetto alla quale tutti i prezzi di mercato (del conto in banca, del titolo
S e del derivato ϕ(ST )) sono equi: le finalità di Q sono principalmente la valutazione dei derivati e lo studio
di alcune proprietà fondamentali dei modelli finanziari, come la assenza d’arbitraggi e la completezza. Per
una trattazione completa di questi temi rimandiamo, per esempio, a [94].
18.2 Stime di sommabilità per martingale esponenziali

In questa sezione diamo alcune condizioni sul processo λ che garantiscono che la martingala esponen-
ziale (18.1.1) sia una vera martingala.
Proposizione 18.2.1. Supponiamo che

ZT
|λt |2 dt ≤ κ q.c. (18.2.1)
0
per una certa costante κ. Allora la martingala esponenziale M λ in (18.1.1) è una vera martingala e vale
" #
λ p

E sup Mt < ∞, p ≥ 1.
0≤t≤T
Notazione 18.2.2. Per ogni processo X poniamo
X̄T := sup |Xt |.

0≤t≤T
Consideriamo il processo integrale

Z t
Yt := λs dWs , t ∈ [0, T ], (18.2.2)
0
dove il moto Browniano W e λ ∈ L2loc sono entrambi processi d-dimensionali6 . Sotto la condizione (18.2.1),
la disuguaglianza (16.2.1) di Burkholder-Davis-Gundy fornisce la seguente stima di sommabilità per Y :
per ogni p > 0 vale
h pi
p/2
E ȲT ≤ cE ⟨Y ⟩T ≤ cκp/2 .
In effetti, vale una stima di sommabilità più forte, di tipo esponenziale, per provare la quale abbiamo
bisogno del seguente
Lemma 18.2.3. Per ogni super-martingala continua non-negativa Z = (Zt )t∈[0,T ] vale
!
E [Z0 ]
P sup Zt ≥ ε ≤ , ε > 0.
0≤t≤T ε
6 Quindi, più esplicitamente,
d Z t
j j
X
Yt = λs dWs .
j=1 0

Osserviamo che Mtλ = exp −Yt − 12 ⟨Y ⟩t .
18.2. STIME DI SOMMABILITÀ PER MARTINGALE ESPONENZIALI 401
Dimostrazione. Fissato ε > 0, poniamo

τ := inf{t ≥ 0 | Zt ≥ ε} ∧ T .
Allora τ è un tempo d’arresto limitato e per il Teorema 13.1.6 di optional sampling si ha
h i
E [Z0 ] ≥ E [Zτ ] ≥ E Zτ 1(Z̄T ≥ε) ≥ εP (Z̄T ≥ ε).
Proposizione 18.2.4 (Sommabilità esponenziale). Sia Y l’integrale stocastico in (18.2.2) con λ ∈ L2 che
verifica la condizione (18.2.1). Allora si ha
ε2
P ȲT ≥ ε ≤ 2e− 2κ , ε > 0, (18.2.3)
e di conseguenza esiste α = α(κ) > 0 tale che

2
E eα ȲT < ∞. (18.2.4)
Dimostrazione. Per ogni α > 0 il processo

α 2 ⟨Y ⟩
Ztα = eαYt − 2 t ,
è una super-martingala continua positiva. Inoltre, sotto la condizione (18.2.1), per ogni ε > 0 e t ∈ [0, T ]
vale α2 κ

(Yt ≥ ε) = eαYt ≥ eαε ⊆ Ztα ≥ eαε− 2 .
Allora si ha
! !
α2 κ α2 κ
P sup Yt ≥ ε ≤ P sup Ztα ≥ eαε− 2 ≤ e−αε+ 2
0≤t≤T 0≤t≤T
per il Lemma 18.2.3, essendo E[Z0α ] = 1. Scegliendo α = κε in modo da minimizzare l’ultimo termine,
otteniamo !
ε2
P sup Yt ≥ ε ≤ e− 2κ
0≤t≤T
Una stima analoga vale per −Y e questo prova la (18.2.3). Infine, la (18.2.4) è immediata conseguenza della
(18.2.3) e della Proposizione 4.1.6 e del successivo Esempio 4.1.7.
Osservazione 18.2.5. La Proposizione 18.2.4 si estende a σ processo N × d-dimensionale: in questo caso
vale ε2
P ȲT ≥ ε ≤ 2N e− 2κN , ε > 0, (18.2.5)
ed esiste α = α(κ, N ) > 0 tale che
2
E eα ȲT < ∞.
Infatti, basta notare che !

j ε
ȲT ≥ ε ⊆ ȲT ≥ √
N
per almeno una componente Y j , con j ∈ {1, . . . , N }, di Y . Allora si ha
N !
X j ε
P Ȳt ≥ ε ≤ P ȲT ≥ √
j=1 N
da cui la tesi.
Dimostrazione della Proposizione 18.2.1. Per ogni ε > 0, per la (18.2.3) si ha

! !
(log ε)2
P sup Mtλ ≥ ε ≤ P sup e|Yt | ≥ ε = P ȲT ≥ log ε ≤ 2e− 2κ .
0≤t≤T 0≤t≤T
e di conseguenza, per la Proposizione 4.1.6, si ha

" # Z∞ !
λ p
E sup (Mt ) = p εp−1 P sup Mtλ ≥ ε dε < ∞. (18.2.6)
0≤t≤T 0 0≤t≤T
In particolare per p = 2 si ha
"Z T # " Z T #
E λ2t (Mtλ )2 dt ≤ E sup (Mtλ )2 λ2t dt ≤
0 0≤t≤T 0
(per l’ipotesi (18.2.1))

" #
≤ κE sup (Mtλ )2 < ∞
0≤t≤T
per la (18.2.6). Quindi λM λ ∈ L2 e dalla (18.1.2) segue che M λ è una martingala.

Un condizione più generale che garantisce la proprietà di martingala per il processo esponenziale M λ è
data dal seguente classico risultato di Novikov [86] che ci limitiamo ad enunciare.
Teorema 18.2.6 (Condizione di Novikov). Se λ ∈ L2loc è tale che
1 T
" Z !#
2
E exp |λs | ds < ∞
2 0
allora il processo M λ in (18.1.1) è una martingala.
18.3 Teorema di Girsanov

Sia W un moto Browniano d-dimensionale sullo spazio (Ω, F , P , Ft ). Nella Sezione 18.2 abbiamo dato
condizioni sufficienti su λ ∈ L2loc affinché il processo esponenziale
Zt
1 t
Z !
λ 2
Mt := exp − λs dWs − |λ | ds , t ∈ [0, T ]. (18.3.1)
0 2 0 s
h i
sia una vera martingala e quindi in particolare valga E MTλ = 1: in tal caso
Z
Q(A) := MTλ dP , A ∈ F,
A
è una misura di probabilità su (Ω, F ) con derivata di Radon-Nikodym

dQ
MTλ = . (18.3.2)
dP
La prova del seguente lemma è basata sulla formula di Bayes del Teorema 5.2.14: per ogni X ∈ L1 (Ω, Q)
vale h i
E P XMTλ | Ft
E Q [X | Ft ] = h i t ∈ [0, T ]. (18.3.3)
E P MTλ | Ft
18.3. TEOREMA DI GIRSANOV 403
Lemma 18.3.1. Supponiamo che M λ in (18.3.1) sia una P -martingala e sia Q la misura di probabilità in
(18.3.2). Un processo X = (Xt )t∈[0,T ] è una Q-martingala se e solo se (Xt Mtλ )t∈[0,T ] è una P -martingala.
Dimostrazione. Poiché M λ è adattato e strettamente positivo, è chiaro che X è adattato se e solo se XM λ lo

è. Inoltre, si ha
h i h h ii
E Q [|Xt |] = E P |Xt |MTλ = E P E P |Xt |MTλ | Ft =
(poiché X è adattato e M λ è una P -martingala)

h h ii h i
= E P |Xt |E P MTλ | Ft = E P |Xt |Mtλ ,
e quindi Xt ∈ L1 (Ω, Q) se e solo se Xt Mtλ ∈ L1 (Ω, P ). Analogamente, per s ≤ t vale

h i h h i i h i
E P Xt MTλ | Fs = E P E P Xt MTλ | Ft | Fs = E P Xt Mtλ | Fs .
Allora da (18.3.3) con X = Xt si ha

h i h i
E P Xt MTλ | Fs E P Xt Mtλ | Fs
Q
E [Xt | Fs ] = i = ,
Msλ
h
E P MTλ | Fs
da cui la tesi.
Osservazione 18.3.2. Nelle ipotesi del Lemma 18.3.1, il processo

Zt
1 t
Z !
λ −1

2
Mt = exp λs dWs + |λ | ds .
0 2 0 s
−1
è una Q-martingala poiché M λ M λ è ovviamente una P -martingala. Inoltre, per ogni variabile aleatoria
sommabile X, vale
−1 −1
E P [X] = E P X MTλ MTλ = E Q X MTλ
e quindi
dP λ −1
= MT .
dQ
In particolare P , Q sono misure equivalenti, nel senso che hanno gli stessi eventi certi e trascurabili, poiché
reciprocamente hanno densità strettamente positive.
Un moto Browniano è una martingala e quindi è un processo “privo di drift”: il teorema di Girsanov
afferma che se si aggiunge un drift ad un moto Browniano, questo nuovo processo è ancora un moto Bro-
wniano rispetto ad una certa misura di probabilità. Per comprendere questo risultato che a prima vista
appare un po’ strano, è utile aver presente l’elementare Esempio 6.4.8 alla fine del quale avevamo osservato
che la proprietà di martingala non è una proprietà delle traiettorie del processo ma dipende dalla misura di
probabilità considerata.
Teorema 18.3.3 (Girsanov). [!!] Se W è un moto Browniano e M λ in (18.3.1) è una martingala sullo spazio
(Ω, F , P , Ft ), allora il processo
Zt
Wtλ := Wt + λs ds, t ∈ [0, T ],
0
dQ
è un moto Browniano su (Ω, F , Q, Ft ) con dP = MTλ .
Dimostrazione. Per la Proposizione 17.4.6 di caratterizzazione del moto Browniano, è sufficiente mostrare
che, per ogni η ∈ Rd , il processo
η λ |η|2
+
Xt := eiηWt 2 t , t ∈ [0, T ],
è una Q-martingala (ossia una martingala nella misura Q): equivalentemente, per il Lemma 18.3.1, provia-
mo che il processo
Zt Zt
|η|2 t 1 t
Z !
η
Xt Mtλ = exp iηWt + i ηλs ds + − λs dWs − |λs |2 ds
0 2 0 2 0
 Z 
t d
1X t j
 Z 2 
= exp − (λ − iη) dWs − λs − iη j ds
 
 0 s 2 0 
j=1
è una P -martingala. Sotto la condizione di limitatezza (18.2.1) la tesi segue dal Lemma 18.2.1 che vale
anche per processi a valori complessi e in particolare per λ − iη.
Il caso generale si tratta con un argomento tecnico di localizzazione: consideriamo la successione di
tempi d’arresto
( Zt )
τn = inf t ≥ 0 | |λs |2 ds ≥ n ∧ T , n ∈ N.
0
η λ
Per il Lemma 18.2.1, il processo (Xt∧τn Mt∧τ n
) è una P -martingala e vale
h η i η
E P Xt∧τn Mt∧τ
λ
n
λ
| Fs = Xs∧τn Ms∧τn
, s ≤ t, n ∈ N.
λ η η
Dunque, per provare che X η Z è una martingala, è sufficiente mostrare che (Xt∧τn Mt∧τ n
) converge a (Xt Mtλ )
in norma L1 per n che tende all’infinito. Poiché
η η
lim Xt∧τn = Xt q.c.
n→∞
η |ξ|2 T
e 0 ≤ Xt∧τn ≤ e 2 , basta provare che
λ
lim Mt∧τ n
= Mtλ in L1 (Ω, P ).
n→∞
Posto
λ
Mn,t = min{Mt∧τ n
, Mtλ },
si ha 0 ≤ Mn,t ≤ Mtλ e per il teorema della convergenza dominata

h i
lim E Mn,t = E Mtλ .

n→∞
D’altra parte
h i h i h i
λ
E Mtλ − Mt∧τ n
= E M λ
t − M n,t + E M λ
t∧τ n
− M n,t =
h i h i
(poiché E Mtλ = E Mt∧τ
λ
n
= 1)
h i
= 2E Mtλ − Mn,t
da cui la tesi.
18.4. APPROSSIMAZIONE MEDIANTE MARTINGALE ESPONENZIALI 405
18.4 Approssimazione mediante martingale esponenziali

Un ulteriore motivo di interesse per le martingale esponenziali è il fatto che sono un utile strumento
di approssimazione. Nel seguito, W è un moto Browniano sullo spazio (Ω, F , P ) munito della filtrazione
standard7 Browniana F W : la scelta di questa particolare filtrazione è cruciale per la validità dei seguenti
risultati. Le dimostrazioni di questa sezione sono un po’ tecniche e possono essere sorvolate ad una prima
lettura. Il teorema seguente è il principale ingrediente nella dimostrazione del teorema di rappresentazione
delle martingale Browniane che presenteremo nella Sezione 18.5.
Teorema 18.4.1. Lo spazio delle combinazioni lineari di variabili aleatorie della forma
Z T Z T !
1 2
MTλ = exp − λ(t)dWt − λ(t) dt ,
0 2 0
con λ funzione deterministica in L∞ ([0, T ]), è denso in L2 (Ω, FTW ).
La dimostrazione del Teorema 18.4.1 è basata sul seguente
Lemma 18.4.2. Sia (tn )n∈N una successione densa in [0, T ]. La famiglia delle variabili aleatorie della forma
ϕ(Wt1 , . . . , Wtn ), ϕ ∈ C0∞ (Rn ), n ∈ N,
è densa in L2 (Ω, FTW ).
Dimostrazione. La filtrazione discreta definita da
Gn := σ (Wt1 , . . . , Wtn ), n ∈ N,
è tale che σ (Gn , n ∈ N) = GTW dove G W indica la filtrazione generata dal moto Browniano. Data X ∈
L2 (Ω, FTW ), proviamo fra poco che
h i
lim E |X − Xn |2 = 0, Xn := E [X | Gn ] , n ∈ N. (18.4.1)
n→∞
Poiché Xn ∈ mGn , per il Teorema 3.3.3 di Doob si ha
Xn = ϕn (Wt1 , . . . , Wtn )
per una certa funzione ϕn misurabile e di quadrato sommabile rispetto alla legge µWt ,...,Wtn : per densità,
1
ϕn può essere approssimata in L2 da una successione (ϕn,k )k∈N in C0∞ (Rn ) e vale anche
lim ϕn,k (Wt1 , . . . , Wtn ) = Xn , in L2 (Ω, P ),

k→∞

Rimane da provare la (18.4.1). Per la disuguaglianza massimale di Doob (13.1.3) si ha
" #
h i
E sup Xn2 ≤ 4E X 2 < ∞. (18.4.2)
n∈N
Allora, per il Teorema 13.2.2 sulla convergenza delle martingale discrete, esiste il limite puntuale q.c.
M := lim Xn .
n→∞
7 La filtrazione standard F W è ottenuta completando la filtrazione G W generata da W , secondo il Teorema 11.2.23.
Inoltre, poiché
(Xn − M)2 ≤ 2(Xn2 + M 2 ) ≤ 2 sup Xn2 ,
n∈N
per la (18.4.2) e il teorema della convergenza dominata, si ha anche
lim Xn = M in L2 (Ω, P ).
n→∞
Posto Mn = E [M | Gn ], si ha
h i h i h i
E (Xn − Mn )2 = E (Xn − E [M | Gn ])2 = E (E [Xn − M | Gn ])2 ≤

h i
≤ E (Xn − M)2 −−−−−−→ 0. (18.4.3)
n→∞
h i
Per concludere, proviamo che M = E X | FTW = X da cui segue che M = X q.c. Anzitutto, M ∈ mGTW ⊆
mFTW ; poi, fissato n̄ ∈ N, per Z ∈ bGn̄ e n ≥ n̄ si ha
E [Z(M − X)] = E [ZE [M − X | Gn ]] = E [Z(Mn − Xn )] −−−−−−−−→ 0

n̄≤n→∞
h Poichéi gli elementi di FT e GT differiscono solo per eventi trascurabili, si deduce che vale
W W
per la (18.4.3).
anche M = E X | FTW .
Dimostrazione del Teorema 18.4.1. È sufficiente provare che se X ∈ L2 (Ω, FTW ) e, per ogni λ ∈ L∞ ([0, T ]),
h i
⟨X, MTλ ⟩L2 (Ω) = E XMTλ = 0 (18.4.4)
allora X = 0 q.c.
Da (18.4.4), scegliendo λ costante a tratti, si ha
h i
F(η) := E Xeη1 Wt1 +···+ηn Wtn = 0, η ∈ Rn , t1 , . . . , tn ∈ [0, T ],
e l’estensione analitica di F a Cn , per il teorema del prolungamento analitico, è identicamente nulla. Allora,
per ogni ϕ ∈ C0∞ (Rn ), per il Teorema 3.5.6 d’inversione della trasformata di Fourier si ha
"Z #
h i X −i(η1 Wt1 +···+ηn Wtn )
E Xϕ(Wt1 , . . . , Wtn ) = E e ϕ̂(η)dη
(2π)n Rn
Z
1 h
−i(η1 Wt1 +···+ηn Wtn )
i
= ϕ̂(η)E e X dη = 0,
(2π)n Rn
e la tesi segue dal Lemma 18.4.2.
18.5 Rappresentazione delle martingale Browniane

L’integrale stocastico Browniano costruito nel Capitolo 15 è una martingala locale continua. Il seguente
risultato mostra che, viceversa, ogni processo che sia una martingala locale rispetto alla filtrazione standard
Browniana F W ammette una rappresentazione come integrale stocastico.
18.5. RAPPRESENTAZIONE DELLE MARTINGALE BROWNIANE 407
Teorema 18.5.1 (Rappresentazione delle martingale Browniane). [!!!] Sia W un moto Browniano sullo
spazio (Ω, F , P ) munito della filtrazione standard Browniana F W . Se X = (Xt )t∈[0,T ] è una versione càdlàg
di una martingala locale su (Ω, F , P , F W ) allora esiste ed è unico u ∈ L2loc tale che
Z t
Xt = X0 + us dWs , t ∈ [0, T ]. (18.5.1)
0
In particolare, X è un processo continuo q.c.
Osservazione 18.5.2. Il Teorema 18.5.1 rinforza il risultato provato nella Sezione 13.2 in quanto afferma
che ogni martingala locale Browniana ammette una modificazione continua, non solo càdlàg.
Alla dimostrazione del Teorema 18.5.1 premettiamo la seguente proposizione che si basa sui risultati di
approssimazione della Sezione 18.4.
Proposizione 18.5.3. Per ogni variabile aleatoria X ∈ L2 (Ω, FTW ) esiste ed è unico u ∈ L2 such that
Z T
X = E [X] + ut dWt . (18.5.2)
0
Dimostrazione. Per semplicità, consideriamo solo il caso uno-dimensionale. Per quanto riguarda l’unicità,
se u, v ∈ L2 soddisfano la (18.5.2), allora
Z T
(ut − vt )dWt = 0
0
e dall’isometria di Itô segue che P (u = v q.o. su [0, T ]) = 1 (cfr. Osservazione 15.2.18).

Per quanto riguarda l’esistenza, la tesi è semplice se X è della forma
Z T Z T !
1 2
X = MTλ := exp − λ(t)dWt − λ(t) dt (18.5.3)
0 2 0
con λ ∈ L∞ ([0, T ]) funzione deterministica. Infatti, per la formula di Itô si ha

Z T
X = 1− λ(t)Mtλ dWt
0
h i
con λM λ ∈ L2 per la Proposizione 18.2.1 e quindi, in particolare, E [X] = E MTλ = 1 per la proprietà di
martingala.
In generale, in base al Teorema 18.4.1 ogni X ∈ L2 (Ω, FTW ) è approssimata in norma L2 da una succes-
sione (Xn )n∈N di combinazioni lineari di variabili della forma (18.5.3) per le quali vale
Z T
Xn = E [Xn ] + un,t dWt (18.5.4)
0
con un ∈ L2 . Per l’isometria di Itô si ha

"Z T #
h i
E (Xn − Xm )2 = (E [Xn − Xm ])2 + E (un,t − um,t )2 dt ,
0
e quindi (un )n∈N è una successione di Cauchy in L2 . La tesi segue passando al limite in (18.5.4).
Dimostrazione del Teorema 18.5.1. L’unicità di u segue dall’unicità della rappresentazione di un processo di
Itô (cfr. Osservazione 15.3.5).
Per quanto riguarda l’esistenza, consideriamo prima il caso in cui X è una martingala tale che XT ∈
L2 (Ω, P ). Per il Teorema 18.5.3 esiste u ∈ L2 tale che
ZT
XT = E [XT ] + ut dWt ,
0
da cui segue la (18.5.1), semplicemente applicando l’attesa condizionata a FtW per ogni t ∈ [0, T ]. In
particolare, abbiamo provato che X ammette una modificazione continua.
Ora rimuoviamo l’ipotesi XT ∈ L2 (Ω, P ) e proviamo che ogni F W -martingala X ammette una modifi-
cazione continua. Poiché XT ∈ L1 (Ω, P ) e L2 (Ω, P ) è denso in L1 (Ω, P ), esiste una successione (Yn )n∈N di
variabili aleatorie in L2 (Ω, P ) tali che
1
E [|Yn − XT |] ≤ , n ∈ N.
2n
Per il punto precedente, la successione di martingale
h i
Xn,t := E Yn | FtW , t ∈ [0, T ],
ammette una modificazione continua e per la disuguaglianza massimale di Doob, Teorema 13.1.2, vale
 
 1  h i k
P  sup Xn,t − Xt ≥  ≤ kE Xn,T − XT ≤ n , k, n ∈ N.
t∈[0,T ] k 2
Dal Lemma 2.3.28 di Borel-Cantelli segue che, quasi certamente, (Xn )n∈N converge uniformemente su [0, T ]
alla martingala X che è quindi continua q.c.
Se X è una martingale locale, consideriamo una successione localizzante (τn )n∈N : il processo Xt∧τn − X0
è una martingala e per quanto abbiamo appena provato, ammette una modificazione continua. Poiché
Xt 1(τn ≥T ) = Xt∧τn 1(τn ≥T ) , t ∈ [0, T ], n ∈ N, (18.5.5)
deduciamo che anche X ammette una modificazione continua.
Infine, proviamo la (18.5.1) nell’ipotesi che X sia una martingala locale continua. Per l’Osservazione
13.4.5, esiste una successione localizzante (τn )n∈N tale che Xt∧τn − X0 è una martingala continua e limitata
per ogni n ∈ N. Allora esiste una successione (un )n∈N in L2 per cui vale
Zt
Xt∧τn = X0 + un,s dWs , t ∈ [0, T ]. (18.5.6)
0
Per la (18.5.5) e la Proposizione 15.2.25 si può passare al limite in (18.5.6) per concludere la dimostrazione.

Per il Teorema 18.5.1 di rappresentazione delle martingale Browniane, esiste u ∈ L2loc tale che il processo
M in (18.1.4) ammette la rappresentazione
Zt
Mt = 1 + us dWs , t ∈ [0, T ].
0
ut
Si noti che λt :=−M appartiene a L2loc poiché M è un processo adattato, continuo e strettamente positivo.
t
Di conseguenza vale
Z t
Mt = 1 − Ms λs dWs , t ∈ [0, T ],
0
18.5. RAPPRESENTAZIONE DELLE MARTINGALE BROWNIANE 409
ossia M risolve un’equazione differenziale stocastica lineare di cui la martingala esponenziale M λ in (18.1.1)
è l’unica8 soluzione. Dunque M = M λ nel senso dell’indistinguibilità.
Per costruzione M è una martingala e quindi, per il Teorema 18.3.3 di Girsanov, W λ in (18.1.5) è un
moto Browniano su (Ω, F , Q, F W ). Infine si ha
dXt = bt dt + σt dWt =
(per la (18.1.5))
= bt dt + σt (dWtλ − λt dt)
Osservazione 18.5.4. Ribadiamo che un cambio di misura alla Girsanov modifica solo il termine di drift di un
processo di Itô, mentre il coefficiente di diffusione rimane invariato.
8 Il fatto che M λ sia soluzione è una semplice verifica con la formula di Itô. Per l’unicità, non è difficile adattare la prova del
Teorema 22.1.1 che dimostreremo in seguito.
Capitolo 19
Equazioni differenziali stocastiche
It seems fair to say that all

differential equations are better
models of the world when a
stochastic term is added and that
their classical analysis is useful only
if it is stable in an appropriate sense
to such perturbations.
David Mumford
A partire da questo capitolo iniziamo lo studio delle equazioni differenziali stocastiche, nel seguito ab-
breviate in SDE dalla locuzione anglosassone “stochastic differential equations”. Come anticipato nella
Sezione 7.6, tali equazioni sono state originalmente introdotte per la costruzione di processi di Markov
continui o diffusioni. Nel tempo le SDE hanno assunto un ruolo centrale per la modellizzazione stocastica
in molteplici campi applicativi, al fine di generalizzare le equazioni differenziali deterministiche introdu-
cendo un fattore di perturbazione aleatoria. Le SDE permettono anche la costruzione di esempi espliciti di
semimartingale continue.
In questo capitolo introduciamo la nozione di soluzione di una SDE e i relativi problemi di esisten-
za e unicità che hanno una duplice formulazione, in senso debole e forte. Proviamo anche alcune stime
preliminari di dipendenza continua e sommabilità delle soluzioni.
19.1 Soluzioni di SDE: nozioni di esistenza e unicità

Nel seguito N , d ∈ N e 0 ≤ t0 < T sono costanti fissate. Una SDE è un’espressione della forma
dXt = b(t, Xt )dt + σ (t, Xt )dWt (19.1.1)
dove W è un moto Browniano d-dimensionale e
b = b(t, x) : ]t0 , T [×RN −→ RN , σ = σ (t, x) : ]t0 , T [×RN −→ RN ×d , (19.1.2)
sono funzioni1 misurabili: b è chiamato coefficiente di drift e σ coefficiente di diffusione della SDE. In
(19.1.2) RN ×d indica lo spazio delle matrici di dimensione N × d. Per semplificare la presentazione, assu-
meremo sempre la seguente
1 Più in generale, è possibile studiare equazioni i cui coefficienti dipendano in modo stocastico dalla variabile temporale. Questo
tipo di equazioni intervengono, per esempio, nello studio di problemi di controllo ottimo e filtraggio stocastico. Noi ci limiteremo a
considerare coefficienti deterministici. Rimandiamo, per esempio, a [65] e [57] per una trattazione generale.
411
412 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE
Ipotesi 19.1.1. Le funzioni b, σ sono localmente limitate in x uniformemente in t (in breve, scriviamo b, σ ∈
L∞ N
loc (]t0 , T [×R )): precisamente, per ogni n ∈ N esiste una costante κn tale che
|b(t, x)| + |σ (t, x)| ≤ κn , t ∈ ]t0 , T [, |x| ≤ n.
Prima di dare la definizione di soluzione di una SDE occorre ambientare opportunamente il problema
tramite la seguente
Definizione 19.1.2 (Set-up). Un set-up (W , Ft ) su [t0 , T ] è costituito da:
• uno spazio di probabilità (Ω, F , P ) con filtrazione (Ft )t∈[t0 ,T ] ;
• un moto Browniano d-dimensionale W = (Wt )t∈[t0 ,T ] di punto iniziale t0 su (Ω, F , P , Ft ).
Osservazione 19.1.3. Ricordiamo che Wt0 = 0 per definizione2 . Inoltre, osserviamo esplicitamente che Ft0
è indipendente dalla filtrazione standard Browniana (FtW )t∈[t0 ,T ] che verifica le ipotesi usuali.
Osservazione 19.1.4. A costo di appesantire un po’ le notazioni, consideriamo un intervallo temporale
generico [t0 , T ] invece che semplicemente [0, T ], perché riteniamo possa favorire la comprensione della
teoria delle “soluzioni forti” nel Capitolo 22 e di alcuni importanti risultati come la proprietà di flusso delle
soluzioni e le stime di dipendenza dai parametri. A partire dal Capitolo 23 porremo t0 = 0 per semplicità.
Definizione 19.1.5 (Soluzione di una SDE). Una soluzione della SDE di coefficienti b, σ relativa al set-up
(W , Ft ) è un processo N -dimensionale X = (Xt )t∈[t0 ,T ] definito sullo stesso spazio di W e tale che:
i) X è continuo e adattato, ossia Xt ∈ mFt per ogni t ∈ [t0 , T ];

ii) quasi certamente vale3
Z t Z t
Xt = Xt0 + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ]. (19.1.4)
t0 t0
Per indicare che X è soluzione della SDE di coefficienti b, σ relativa a (W , Ft ) scriviamo
X ∈ SDE(b, σ , W , Ft ).
Si è soliti associare ad una SDE anche una “condizione iniziale” che può essere assegnata puntualmente
tramite una variabile aleatoria Z ∈ mFt0 qualora il set-up (W , Ft ) sia stato prefissato oppure, come vedremo
in seguito, in legge tramite una distribuzione µ0 su RN .
2 Si veda la Definizione 10.2.1. La condizione W = 0 non è restrittiva poiché l’integrale stocastico che appare nella SDE dipende
t0
solo dagli incrementi Browniani (cfr. Corollario 15.2.26): quindi se B è un moto Browniano generico e Wt := Bt − Bt0 si ha q.c.
Zt Zt
us dBs = us dWs , t ≥ t0 .
t0 t0
Assumere Wt0 = 0 rende anche più “efficiente” la seguente Definizione 19.1.6 di soluzione forte poiché si ha l’inclusione stretta
FtW ⊂ FtB per t > t0 .
3 Ossia esiste una versione dell’integrale stocastico
Zt
t 7→ σ (s, Xs )dWs
t0
tale che la (19.1.4) valga per ogni t ∈ [t0 , T ] quasi certamente. Notiamo esplicitamente che, sotto l’Ipotesi 19.1.1 di locale limitatezza,
si ha
TZ Z T
|b(t, Xt )|dt + |σ (t, Xt )|2 dt < ∞ q.c. (19.1.3)
t0 t0
e quindi gli integrali in (19.1.4) sono ben definiti.
19.1. SOLUZIONI DI SDE: NOZIONI DI ESISTENZA E UNICITÀ 413
Definizione 19.1.6 (Soluzione forte di una SDE). Fissati un set-up (W , Ft ) e un dato iniziale Z ∈ mFt0 ,
indichiamo con
F Z,W = (FtZ,W )t∈[t0 ,T ]
la filtrazione generata da W e Z, completata in modo che verifichi le ipotesi usuali4 . Una soluzione X ∈
SDE(b, σ , W , Ft ), tale che Xt0 = Z, è soluzione in senso forte se è adattata alla filtrazione F Z,W .
Osservazione 19.1.7. [!] Le soluzioni forti si caratterizzano per la proprietà di essere adattate alla filtra-
zione F Z,W : poiché F Z,W è la più piccola filtrazione rispetto alla quale si può definire una soluzione della
SDE, tale condizione di misurabilità è la più restrittiva possibile.
Se il dato iniziale è deterministico, ossia Z ∈ RN , allora una soluzione forte è adattata alla filtrazione
standard Browniana F W . Ciò significa che a W , tramite la SDE di coefficienti b, σ , è associato un processo
(la soluzione) X che è un “funzionale” di W , nel senso che Xt si può esprimere in funzione di (Ws )s∈[t0 ,t] .
Questa osservazione è rilevante poiché in diverse applicazioni, come per esempio nella teoria dei segnali, W
rappresenta un insieme di dati osservati che sono utilizzati come “input” di un modello o sistema dinamico
(formalizzato dalla SDE) che produce come “output” la soluzione X: in questo caso è importante che X si
possa esprimere in funzione dei dati di partenza.
Esempio 19.1.8. Nel caso banale in cui i coefficienti b = b(t) e σ = σ (t) della SDE (19.1.1) sono funzioni L∞
della sola variabile temporale, la soluzione della corrispondente SDE è il processo di Itô
Zt Zt
Xt = Z + b(s)ds + σ (s)dWs .
t0 t0
Ricordiamo dall’Esempio 16.1.9 che se il dato iniziale è deterministico allora X è un processo Gaussiano.
Esistono diverse formulazioni del problema dell’esistenza di soluzioni di una SDE.
Definizione 19.1.9 (Risolubilità di una SDE). Diciamo che la SDE di coefficienti b, σ è risolubile
• in senso debole, se per ogni distribuzione µ0 su RN esistono un set-up (W , Ft ) e una soluzione X ∈
SDE(b, σ , W , Ft ) tale che Xt0 ∼ µ;
• in senso forte, se per ogni set-up (W , Ft ) e Z ∈ mFt0 esiste una soluzione forte X ∈ SDE(b, σ , W , FtZ,W )
tale che Xt0 = Z q.c.
Anche se sembra contro-intuitivo, è possibile che un processo soddisfi un’equazione del tipo
Zt Zt
Xt = x + b(s, Xs )ds + σ (s, Xs )dWs
0 0
con dato iniziale deterministico x e non sia adattato a F W : in altri termini, in alcuni casi un processo
∈ RN ,
X, per essere soluzione di una SDE, necessita di maggiore aleatorietà di quella che gli deriva dal moto
Browniano rispetto al quale è scritta l’equazione. Un famoso esempio è dovuto a Tanaka [121] (si veda
anche [131]): qui descriviamo l’idea generale e rimandiamo alla Sezione 9.2.1 in [94] o all’Esempio 3.5,
Capitolo 5 in [58] per i dettagli.
Esempio 19.1.10 (Tanaka). [!] Consideriamo la SDE scalare (ossia con N = d = 1)
dXt = σ (Xt )dWt (19.1.5)
con drift e dato iniziale nulli, b = Z = 0, e coefficiente di diffusione


1 se x ≥ 0,


σ (x) = sgn(x) := 
−1 se x < 0.

4 Per il Teorema 11.2.23 e l’indipendenza di Z da F W (cfr. Osservazione 19.1.3) W è un moto Browniano anche rispetto a F Z,W .
Per provare che la SDE (19.1.5) è risolubile in senso debole, consideriamo un moto Browniano X definito
sullo spazio (Ω, F , P , F X ). Il processo
Zt
Wt := σ (Xs )dXs (19.1.6)
0
è una martingala continua con variazione quadratica ⟨W ⟩t = t e di conseguenza, per il Teorema 17.5.1, è
anch’esso un moto Browniano su (Ω, F , P , F X ). Poiché σ 2 ≡ 1, dalla definizione dWt = σ (Xt )dXt otteniamo
dXt = σ 2 (Xt )dXt = σ (Xt )dWt
che significa che X è soluzione della SDE (19.1.5) relativa a W , ossia X ∈ SDE(0, σ , 0, W , F X ). Il punto
cruciale è che si può dimostrare5 che W definito da (19.1.6) è adattato alla filtrazione standard F |X| del
processo in valore assoluto |X|: se X fosse adattato a F W allora dovrebbe essere adattato anche a F |X|
e ciò è assurdo. Questo esempio può sembrare un po’ patologico perché il coefficiente σ è una funzione
discontinua: più recentemente Barlow [7] ha dimostrato che per ogni α < 12 esiste una funzione σ che è
α-Hölderiana, limitata dall’alto e dal basso da costanti positive, e tale che la SDE (19.1.5) è risolubile in
senso debole ma non in senso forte.
In definitiva, una SDE può essere risolubile debolmente senza esserlo in senso forte: la risolubilità
debole è meno restrittiva perché dà la libertà di scelta dello spazio, del moto Browniano e della filtrazione
rispetto a cui scrivere la SDE. Al contrario, le soluzioni forti sono vincolate ad essere adattate alla filtrazione
F Z,W standard del dato iniziale Z e del Browniano W .
Come per l’esistenza, esistono anche differenti nozioni di unicità della soluzione di una SDE.
Definizione 19.1.11 (Unicità per una SDE). Diciamo che per la SDE di coefficienti b, σ si ha unicità
• in senso forte, se X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , W , Gt ) con Xt0 = Yt0 q.c. implica che X e Y sono
processi indistinguibili;
d
• in senso debole (o in legge), se X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , B, Gt ), con Xt0 = Yt0 , implica che
d
(X, W ) = (Y , B) ossia (X, W ) e (Y , B) hanno le stesse distribuzioni finito-dimensionali.
Nella definizione di unicità forte i due processi X e Y sono definiti sullo stesso spazio di probabilità
(Ω, F , P ) e sono soluzioni della SDE relative ai setup (W , Ft ) e (W , Gt ) dove W è un moto Browniano ri-
spetto ad entrambe le filtrazioni (Ft ) e (Gt ) che possono essere differenti. L’unicità forte è anche nota nella
letteratura anglosassone come “pathwise uniqueness”. Nella definizione di unicità in legge, i processi X e
Y possono essere soluzioni relative a set-up (W , Ft ) e (B, Gt ) distinti, anche definiti su spazi di probabilità
differenti.
Esempio 19.1.12. [!] Per la SDE dell’Esempio 19.1.10 c’è unicità in legge ma non forte. Infatti, ogni
soluzione X della SDE (19.1.5) è una martingala locale con ⟨X⟩t = t e quindi, per il Teorema 17.5.1 di
caratterizzazione di Lévy, X è un moto Browniano: dunque c’è unicità in legge.
D’altra parte, se X è la soluzione debole costruita nell’Esempio 19.1.10, possiamo verificare che anche
−X è soluzione della SDE e quindi non c’è unicità in senso forte: infatti, poiché σ (−x) = −σ (x) se x , 0, si ha
Z t Z t Z t
σ (−Xs )dWs = − σ (Xs )dWs + 2 1(Xs =0) dWs
0 0 0
Zt
=− σ (Xs )dWs q.c.
0
5 Qui si utilizza la formula di Meyer-Tanaka: si veda, per esempio, la Sezione 5.3.2 in [94] o la Sezione 2.11 in [34].
19.2. IPOTESI STANDARD E STIME PRELIMINARI 415
poiché, per l’isometria di Itô,

 Zt !2  Z t
  h i
E  1(Xs =0) dWs  = E 1(Xs =0) ds = 0.
0 0
Qui abbiamo usato il fatto che P (Xs = 0) = 0 per ogni s ≥ 0 poiché X è un moto Browniano.
Osservazione 19.1.13. [!] Vedremo col Teorema 23.2.1 di Yamada e Watanabe che se una SDE è risolubile
in senso forte allora lo è anche in senso debole. Inoltre, se per una SDE si ha unicità in senso forte allora si
anche unicità in legge: questo risultato sembra naturale ma la dimostrazione non è ovvia poiché l’unicità
forte riguarda soluzioni definite sullo stesso spazio mentre per provare l’unicità debole si ha a che fare con
soluzioni possibilmente definite su spazi differenti. Infine, si dimostra anche che se per una SDE si ha unicità
in senso forte allora ogni soluzione è soluzione forte.
Osservazione 19.1.14. Recentemente è stata anche studiata un’ulteriore nozione di unicità per SDE, chia-
mata “unicità traiettoria per traiettoria”: si veda al riguardo [30], [44] e [111].
19.2 Ipotesi standard e stime preliminari

In questa sezione introduciamo ipotesi aggiuntive sui coefficienti che permettono di ottenere utili stime
per le soluzioni di SDE.
Definizione 19.2.1 (Ipotesi standard). I coefficienti b, σ verificano le ipotesi standard su ]t0 , T [ se esistono
due costanti positive c1 , c2 tali che
|b(t, x)| + |σ (t, x)| ≤ c1 (1 + |x|), (19.2.1)

b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ c2 |x − y|, (19.2.2)
per ogni t ∈ ]t0 , T [ e x, y ∈ RN .

Le (19.2.1) e (19.2.2) sono rispettivamente ipotesi di crescita lineare e Lischitzianità globale in x, uni-
formi in t ∈ ]t0 , T [. Notiamo che, sotto l’Ipotesi 19.1.1, la (19.2.2) implica la (19.2.1). In alcuni risultati
indeboliremo la (19.2.2) richiedendo la Lischitzianità locale in x.
Esempio 19.2.2. Consideriamo la SDE a coefficienti lineari
dXt = µXt dt + σ Xt dWt (19.2.3)
dove µ, σ sono parametri reali. In questo caso b(t, x) = µx e σ (t, x) = σ x, quindi le ipotesi standard sono
ovviamente soddisfatte. Come nell’Esempio 16.1.5-iii), un’applicazione diretta della formula di Itô mostra
che
2
µ− σ2 t+σ Wt
Xt = X0 e
è soluzione di (19.2.3). Il processo X, noto come moto Browniano geometrico, è usato per rappresentare la
dinamica del prezzo di un titolo finanziario rischioso nel classico modello di Black-Scholes [22]. Il modello
si generalizza al caso di coefficienti dipendenti dal tempo, µ = µ(t), σ = σ (t) ∈ L∞ (R≥0 ): anche in questo caso
è facile determinare l’espressione esplicita della soluzione.
Nelle stime che proviamo in questa sezione appaiono diverse costanti di cui è importante tenere traccia.
Convenzione 19.2.3. Per indicare che una costante c dipende solo ed esclusivamente dai valori dei parametri
α1 , . . . , αn scriveremo c = c(α1 , . . . , αn ).
Lemma 19.2.4. [!] Siano X, Y processi adattati e continui q.c. e p ≥ 2. Allora:
• se b, σ verificano la condizione (19.2.1) di crescita lineare, esiste una costante positiva c̄1 = c̄1 (T , d, N , p, c1 ),
tale che
Z p #
t
" Zt Z t1 " #!
p−2
p
E sup b(s, Xs )ds + σ (s, Xs )dWs ≤ c̄1 (t1 − t0 ) 2 1 + E sup |Xr | ds (19.2.4)
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s
per ogni t1 ∈ ]t0 , T [;

• se b, σ verificano la condizione (19.2.2) di Lischitzianità globale, esiste una costante positiva c̄2 =
c̄2 (T , d, N , p, c2 ) tale che
Z p #
t
" Zt Z t1 " #
p−2
p
E sup (b(s, Xs ) − b(s, Ys )) ds + (σ (s, Xs ) − σ (s, Ys )) dWs ≤ c̄2 (t1 −t0 ) 2 E sup |Xr − Yr | ds
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s
(19.2.5)
per ogni t1 ∈ ]t0 , T [.
Dimostrazione. Ricordiamo la disuguaglianza elementare
|x1 + · · · + xn |p ≤ np−1 (|x1 |p + · · · |xn |p ) , x1 , . . . , xn ∈ RN , n ∈ N. (19.2.6)
Per la disuguaglianza di Hölder si ha

Z p #
t
" "Z t #
1
p−1 p
E sup b(s, Xs )ds ≤ (t1 − t0 ) E |b(s, Xs )| ds ≤
t0 ≤t≤t1 t0 t0
(per la (19.2.1))
Z t1
p
≤ (t1 − t0 )p−1 c1 E [(1 + |Xs |)p ] ds ≤
t0
(per la (19.2.6))
Z t1
p
≤ 2p−1 (t1 − t0 )p−1 c1 (1 + E [|Xs |p ]) ds
t0
Z t1 " #!
p−1 p
≤2 (t1 − t0 )p−1 c1 1 + E sup |Xr | p
ds.
t0 t0 ≤r≤s
Analogamente, per la disuguaglianza di Burkholder-Davis-Gundy, nella versione del Corollario 17.4.10,

esiste una costante c = c(d, N , p) tale che
Z p #
t
" "Z t #
p−2 1
|σ (s, Xs )|p ds ≤

E sup σ (s, Xs )dWs ≤ c(t1 − t0 ) 2 E
t0 ≤t≤t1 t0 t0
(procedendo come nella stima precedente)
p−2
Z t1 " #!
p
≤ c(t1 − t0 ) 2 2p−1 c1 1 + E sup |Xr | p
ds.
t0 t0 ≤r≤s

Ancora per la disuguaglianza di Hölder si ha
Z p #
t
" "Z t #
1
E sup (b(s, Xs ) − b(s, Ys )) ds ≤ (t1 − t0 )p−1 E |b(s, Xs ) − b(s, Ys )|p ds ≤

t0 ≤t≤t1 t0 t0
19.3. STIME A PRIORI DI SOMMABILITÀ 417
(per la (19.2.2))
Z t1
p
≤ (t1 − t0 )p−1 c2 E [|Xs − Ys |p ] ds
t0
Z t1 " #
p
≤ (t1 − t0 )p−1 c2 E sup |Xr − Yr | ds. p
t0 t0 ≤r≤s
Analogamente, per il Corollario 17.4.10, si ha

Z p #
t
" "Z t #
p−2 1
p
E sup (σ (s, Xs ) − σ (s, Ys )) dWs ≤ cp (t1 − t0 ) E
2 |σ (s, Xs ) − σ (s, Ys )| ds ≤
t0 ≤t≤t1 t0 t0
(procedendo come nella stima precedente, per la (19.2.2))

p−2
Z t1 " #
p
≤ cp (t1 − t0 ) 2 c2 E sup |Xr − Yr |p ds.
t0 t0 ≤r≤s
19.3 Stime a priori di sommabilità

In questa sezione proviamo alcune stime di sommabilità polinomiale ed esponenziale per le soluzioni
di SDE i cui coefficienti soddisfano l’ipotesi di crescita lineare (19.2.1). Si parla di stime “a priori” perché tale
condizione non è sufficiente a garantire l’esistenza della soluzione: l’esistenza è quindi assunta implicitamente
come ipotesi. Le seguenti stime hanno una notevole importanza teorica (per esempio, per la prova del
Teorema 20.4.4 di Feynman-Kac) e applicativa (per esempio, per i risultati di dipendenza continua dai
parametri della Sezione 22.4 e lo studio della convergenza di schemi di approssimazione numerica per
SDE). D’altra parte, le dimostrazioni di questa sezione, un po’ tecniche e poco informative, possono essere
tralasciate ad una prima lettura.
Per alleggerire le notazioni, in questa sezione assumiamo t0 = 0 e per ogni processo stocastico X poniamo
X̄t = sup |Xs |.
0≤s≤t
Nel seguito useremo ripetutamente il seguente classico

Lemma 19.3.1 (Gronwall). Sia v ∈ L1 ([0, T ]) che verifica la stima integrale
Zt
v(t) ≤ a + b v(s)ds, t ∈ [0, T ],
0
per certi a, b ∈ R≥0 . Allora si ha

v(t) ≤ aebt , t ∈ [0, T ].
Nel lemma di Gronwall l’ipotesi di sommabilità di v è necessaria: un contro-esempio è dato da v(t) = 0
per t = 0 e v(t) = 1t per t > 0, con a = 0 e b = 1. Se alle ipotesi del lemma di Gronwall si aggiunge v ≥ 0 e
a = 0, allora si ha v ≡ 0.
Teorema 19.3.2 (Stime a priori in Lp ). Se X = (Xt )t∈[0,T ] è soluzione della SDE
dXt = b(t, Xt )dt + σ (t, Xt )dWt ,
con b, σ che soddisfano l’ipotesi (19.2.1) di crescita lineare, allora per ogni T > 0 e p ≥ 2 esiste una costante
positiva c = c(T , p, d, N , c1 ) tale che h pi
E X̄T ≤ c(1 + E [|X0 |p ]). (19.3.1)
Dimostrazione. Non è restrittivo assumere E [|X0 |p ] < ∞ altrimenti la tesi è ovvia. L’idea generale della
dimostrazione è semplice: dalla stima (19.2.4) si ha
h pi Z t h pi
v(t) := E X̄t ≤ 2p−1 E [|X0 |p ] + c̄1 1 + E X̄s ds , t ∈ [0, T ],
0
o equivalentemente
Z t !
p
v(t) ≤ c 1 + E [|X0 | ] + v(s)ds , t ∈ [0, T ],
0
e quindi la tesi seguirebbe direttamente dal lemma di Gronwall.

In realtà, per applicare il lemma di Gronwall occorre sapere a priori6 che v ∈ L1 ([0, T ]). Per que-
sto motivo è necessario procedere più attentamente utilizzando un argomento tecnico di localizzazione.
Poniamo
τn = inf{t ∈ [0, T ] | |Xt | ≥ n}, n ∈ N,
con la convenzione min ∅ = T . Essendo X continuo q.c., si ha che τn è una successione crescente di tempi
d’arresto tali che τn ↗ T q.c. Con bn , σn come in (22.1.3), abbiamo
Z t∧τn Z t∧τn
Xt∧τn = X0 + b(s, Xs )ds + σ (s, Xs )dWs
0 0
Zt Z t
= X0 + bn (s, Xs∧τn )ds + σn (s, Xs∧τn )dWs .
0 0
I coefficienti bn = bn (t, x) e σn = σn (t, x), pur essendo stocastici, verificano la condizione di crescita li-
neare (19.2.1) con la stessa costante c1 : la dimostrazione della stima (19.2.4) si può ripetere in modo
sostanzialmente identico al caso di b, σ deterministici, per ottenere
t1
  Z " #! !
 p p−1 p p
vn (t1 ) := E  sup |Xt∧τn |  ≤ 2 E [|X0 | ] + c̄1 1 + E sup |Xr∧τn | ds , t1 ∈ [0, T ],
 
0≤t≤t1 0 0≤r≤s
| {z }
=vn (s)
o equivalentemente
Z t1 !
p
vn (t1 ) ≤ c 1 + E [|X0 | ] + vn (s)ds , t1 ∈ [0, T ],
0
con c costante positiva che dipende solo da T , p, d, N , c1 e non da n. Osserviamo che vn è una funzione
misurabile e limitata poichè |Xt∧τn | ≤ |X0 |1(|X0 |≥n) + n1(|X0 |<n) e quindi vn (t) ≤ E [(|X0 | + n)p ] < +∞: allora per
il lemma di Gronwall abbiamo
" #
p
E sup Xt∧τn = vn (T ) ≤ cecT (1 + E [|X0 |p ]) ,
0≤t≤T
da cui, passando al limite per n che tende all’infinito, segue la (19.3.1) grazie al teorema di Beppo-Levi.
Se il coefficiente diffusivo σ è limitato, vale una stima di sommabilità più forte di quella del Teorema
19.3.2.
6 In base a quanto provato finora non sappiamo neppure se v è una funzione continua.
19.3. STIME A PRIORI DI SOMMABILITÀ 419
Teorema 19.3.3 (Stima a priori esponenziale). Sia X = (Xt )t∈[0,T ] soluzione della SDE
dXt = b(t, Xt )dt + σ (t, Xt )dWt ,
con b che verifica l’ipotesi di crescita lineare (19.2.1) e σ limitato da una costante κ, ossia |σ (t, x)| ≤ κ per
(t, x) ∈ [0, T ] × RN . Allora esistono due costanti positive α e c, dipendenti solo da T , κ, c1 e N , tali che

2 h 2i
E eα X̄T ≤ cE ec|X0 | , X̄T := sup |Xt |.
0≤t≤T
Dimostrazione. Poniamo Z
t
M̄T = sup σ (s, Xs )dWs .
0≤t≤T 0
Dato δ > 0, quasi certamente su (M̄T < δ) si ha
Z t
|Xt | < |X0 | + c1 (1 + X̄s )ds + δ, t ∈ [0, T ],
0
da cui, per il lemma di Gronwall,

X̄T < (|X0 | + c1 T + δ)ec1 T .
Di conseguenza
X̄T ≥ (|X0 | + c1 T + δ)ec1 T ⊆ M̄T ≥ δ
e per la Proposizione 18.2.4 (e la stima (18.2.5)) esiste una costante positiva c, dipendente solo da N , κ e T ,
tale che δ2
P X̄T ≥ (|X0 | + c1 T + δ)ec1 T | X0 ≤ ce− c . (19.3.2)
Poniamo λ = (|X0 | + c1 T + δ)ec1 T e osserviamo che
λ −c1 T
δ = λe−c1 T − |X0 | − c1 T ≥ e se λ ≥ ā|X0 | + b̄ (19.3.3)
2
con ā := 2ec1 T e b̄ := 2c1 T ec1 T . Allora, combinando (19.3.2) e (19.3.3), abbiamo
2
P X̄T ≥ λ | X0 ≤ ce−c̄λ , λ ≥ ā|X0 | + b̄, (19.3.4)
con c, c̄ costanti positive dipendenti solo da T , κ, c1 e N . Ora applichiamo la Proposizione 4.1.6 con f (λ) =
2
eαλ , dove la costante α > 0 sarà determinata in seguito: vale
Z∞
2 2
E eα X̄T | X0 = 1 + 2α λeαλ P X̄T ≥ λ | X0 dλ ≤
0
(per la (19.3.4))
Z ā|X0 |+b̄ Z +∞
2 2 (α−c̄)
≤ 1 + 2α λeαλ dλ + 2αc λeλ dλ
0 ā|X0 |+b̄
c̄
da cui si ottiene la tesi ponendo α = 2 e applicando il valore atteso.
Capitolo 20
Formule di Feynman-Kac
Una bella idea ha molte più

probabilità di essere giusta di una
brutta idea.
Roger Penrose
Le formule di Feynman-Kac forniscono una rappresentazione probabilistica delle soluzioni di PDE del
tipo
N N
1X X
At u(t, x) := cij (t, x)∂xi xj u(t, x) + bj (t, x)∂xj u(t, x) = 0, c := σ σ ∗ , (20.0.1)
2
i,j=1 j=1
dove At è l’operatore associato, tramite la formula di Itô, ad una SDE della forma
dXt = b(t, Xt )dt + σ (t, Xt )dWt . (20.0.2)
Per fissare le idee, supponiamo esista una soluzione classica del problema di Cauchy

(∂t + At )u(t, x) = 0, (t, x) ∈ [0, T [×RN ,


(20.0.3)
u(T , x) = ϕ(x), x ∈ RN .


Se inoltre esiste una soluzione X t,x = (Xst,x )s∈[t,T ] della SDE (20.0.2) con dato iniziale (t, x), allora per la
formula di Itô il processo
Zs
u(s, Xst,x ) = u(t, x) + ∇u(r, Xrt,x )σ (r, Xrt,x )dWr , s ∈ [t, T ],
t
è una martingala locale: inoltre, nel caso in cui (u(s, Xst,x ))s∈[t,T ] sia una vera martingala, in valore atteso
otteniamo
u(t, x) = E u(T , XTt,x ) = E ϕ(XTt,x ) .
h i h i
(20.0.4)
La formula (20.0.4) fornisce una rappresentazione della soluzione di (20.0.3) in termini del dato finale ϕ:
dal punto di vista applicativo, tale formula è facilmente implementabile con metodi di tipo Monte Carlo per
l’approssimazione numerica della soluzione; dal punto di vista teorico, la validità della (20.0.4) permette
di stabilire un risultato di unicità della soluzione del problema (20.0.3).
In questo capitolo esaminiamo diverse varianti e generalizzazioni della formula (20.0.4), valide per
operatori alla derivate parziali del second’ordine di tipo ellittico e parabolico.
421
422 CAPITOLO 20. FORMULE DI FEYNMAN-KAC
20.1 Operatore caratteristico di una SDE

Consideriamo una SDE della forma (20.0.2) con coefficienti b, σ ∈ L∞ N
loc (]t0 , T [×R ) che soddisfano l’ipo-
tesi (19.2.1) di crescita lineare. Supponiamo esista una soluzione X t,x = (Xst,x )s∈[t,T ] con dato iniziale (t, x).
Allora, data una funzione ϕ = ϕ(x) ∈ Cb2 (RN ) (ossia ϕ ha derivate fino al second’ordine continue e limitate),
per la formula di Itô vale
ϕ(Xst,x ) − ϕ(x)
" # " Zs Zs #
1 t,x 1 t,x t,x
E =E A ϕ(Xr )dr + ∇ϕ(Xr )σ (r, Xr )dWr =
s−t s−t t r s−t t
(poiché |∇ϕ(Xrt,x )σ (r, Xrt,x )| ≤ c(1 + |Xrt,x |) ∈ L2 per il Teorema 19.3.2 sulle stime a priori di sommabilità)
" Zs #
1 t,x
=E A ϕ(Xr )dr −−−−−−−−+→ At ϕ(x)
s−t t r s−t→0
dove l’ultimo passaggio al limite è giustificato dal teorema della convergenza dominata e dalle stime del
Teorema 19.3.2. In altri termini vale1
d h i
E ϕ(Xst,x ) = At ϕ(x). (20.1.1)
ds s=t
In analogia con la definizione (7.5.5) per i processi di Markov, diamo la seguente
Definizione 20.1.1 (Operatore caratteristico di una SDE). L’operatore At in (20.0.1) è detto operatore
caratteristico della SDE (20.0.2).
Osservazione 20.1.2. [!] Fissato m ∈ RN , consideriamo le funzioni
ϕi (x) = xi , ϕij (x) = (xi − mi )(xj − mj ), x ∈ RN , i, j = 1, . . . , N ,
e osserviamo che
At ϕi (x) = bi (t, x), At ϕij (x) = cij (t, x) + bi (t, x)(xj − mj ) + bj (t, x)(xi − mi ).
L’ipotesi di crescita lineare dei coefficienti b, σ e le stime Lp del Teorema 19.3.2 giustificano i passaggi
al limite e la proprietà di martingala degli integrali stocastici per poter ripetere i passaggi precedenti e
provare la validità della formula (20.1.1) con ϕ = ϕi e ϕ = ϕij : otteniamo

d h t,x i
E Xs = b(t, x), (20.1.2)
ds s=t
d h t,x i
E (Xs − m)i (Xst,x − m)j = cij (t, x) + bi (t, x)(xj − mj ) + bj (t, x)(xi − mi )
ds s=t
e in particolare, per m = x,
d h t,x i
E (Xs − x)i (Xst,x − x)j = cij (t, x). (20.1.3)
ds s=t
In base alle formule (20.1.2) e (20.1.3), i coefficienti bi (t, x) e cij (t, x) sono usualmente chiamati incrementi
infinitesimi del drift e della covarianza di X t,x , in accordo con quanto già visto nell’Osservazione 7.5.8.
Osservazione 20.1.3. [!] Grazie alla formula di Itô, abbiamo anche il seguente risultato analogo al Teorema
7.5.13: il processo Z s
f (s, Xst,x ) − (∂r + Ar )f (r, Xrt,x )dr, s ≥ t,
t
è una martingala locale per ogni f ∈ C 1,2 (RN +1 ).
Tutte queste analogie fra processi di Markov e soluzioni di SDE non sono casuali: proveremo in seguito
(cfr. Teorema 22.3.1) che, sotto opportune ipotesi sui coefficienti, la soluzione di una SDE è una diffusione.
1 Precisamente, la derivata in (20.1.1) è una derivata destra.
20.2. TEMPO DI USCITA DA UN DOMINIO LIMITATO 423
20.2 Tempo di uscita da un dominio limitato

In questa sezione forniamo alcune semplici condizioni che assicurano che il primo tempo di uscita
della soluzione della SDE (20.0.2) da un dominio2 limitato D di RN , sia sommabile e quindi finito q.s.
Assumiamo la seguente
Ipotesi 20.2.1.
i) I coefficienti della SDE (20.0.2) sono misurabili e localmente limitati, b, σ ∈ L∞ N
loc ([0, +∞[×R );
ii) per ogni t ≥ 0 e x ∈ D esiste una soluzione X t,x di (20.0.2) con dato iniziale Xtt,x = x, relativa ad un
moto Browniano d-dimensionale W definito su uno spazio (Ω, F , P , (Ft )t≥0 ).
Indichiamo con τt,x il primo tempo di uscita di X t,x da D,
τt,x = inf{s ≥ t | Xst,x < D},
e per semplicità scriviamo X 0,x = X x e τ0,x = τx .

Proposizione 20.2.2. Se esiste una funzione f ∈ C 2 (RN ), non-negativa su D e tale che
At f (x) ≤ −1, t ≥ 0, x ∈ D, (20.2.1)
allora E [τx ] è finito per ogni x ∈ D. In particolare, tale funzione esiste se per certi λ > 0 e i ∈ {1, . . . , N } vale3
cii (t, ·) ≥ λ, t ≥ 0, x ∈ D. (20.2.2)
Dimostrazione. Fissato t, per la formula di Itô vale

Z t∧τx Z t∧τx
x x
f (Xt∧τ x
) = f (x) + A s f (X s )ds + ∇f (Xsx )σ (s, Xsx )dWs .
0 0
Poiché ∇f e σ (s, ·) sono limitati su D per s ≤ t, l’integrale stocastico ha attesa nulla e per la (20.2.1) vale
h i
x
E f (Xt∧τ x
) ≤ f (x) − E [t ∧ τx ] ,
da cui, essendo f ≥ 0,
E [t ∧ τx ] ≤ f (x).
Infine, passando al limite per t → ∞, per il Teorema di Beppo-Levi otteniamo
E [τx ] ≤ f (x).
Supponiamo ora che valga la (20.2.2) e consideriamo solo il caso i = 1: allora basta porre
f (x) = α(eβR − eβx1 )
dove α, β sono costanti positive opportune e R è abbastanza grande in modo che D sia incluso nella palla
Euclidea di raggio R, centrata nell’origine. Infatti f è non-negativa su D e vale
1

At f (x) = −αeβx1 c11 (t, x)β 2 + b1 (t, x)β
2
!
−βR λβ
≤ −αβe − ∥b∥L∞ (D)
2
da cui la tesi scegliendo α, β opportunamente grandi.
2 Insieme aperto e connesso.
3 La (20.2.2) è un’ipotesi di non-degenerazione della matrice (c ) dei coefficienti del second’ordine dell’operatore caratteristico A
ij t
in (20.0.1): essa è ovviamente verificata nel caso in cui (cij ) sia uniformemente definita positiva.
Osservazione 20.2.3. È facile determinare una condizione sui termini del prim’ordine, simile a quella della
Proposizione 20.2.2: se esistono λ > 0 e i ∈ {1, . . . , N } tali che bi (t, ·) ≥ λ oppure b1 (t, x) ≤ −λ su D per ogni
t ≥ 0 allora E [τx ] è finito. Infatti supponiamo per esempio che b1 (t, x) ≥ λ: allora applicando la formula di
Itô alla funzione f (x) = x1 abbiamo
Z t∧τx d Z
X t∧τx
x
Xt∧τ x
= x 1 + b1 (s, Xsx )ds + σ1i (s, Xsx )dWsi ,
1
0 i=1 0
e in valore atteso h i
x
E Xt∧τx
≥ x1 + λE [t ∧ τx ] ,
1
da cui la tesi, passando al limite per t → ∞.
20.3 Il caso autonomo: il problema di Dirichlet

In questa sezione consideriamo il caso in cui i coefficienti b = b(x) e σ = σ (x) della SDE (20.0.2) sono
indipendenti dal tempo e indichiamo quindi At in (20.0.1) semplicemente con A . Per molti aspetti questa
condizione non è restrittiva poiché anche i problemi con dipendenza dal tempo possono essere trattati in
questo ambito inserendo il tempo fra le variabili di stato come nel seguente Esempio 20.3.7. In aggiunta
all’Ipotesi 20.2.1, assumiamo che E [τx ] sia finito per ogni x ∈ D, dove D è un dominio limitato.
Il risultato seguente fornisce una formula di rappresentazione (e, di conseguenza, un risultato di unicità)
per le soluzioni classiche del problema di Dirichlet relativo all’operatore ellittico-parabolico A :

A u − au = f , in D,


(20.3.1)
u|∂D = ϕ,


dove f , a, ϕ sono funzioni assegnate. Come già detto, la seguente formula (20.3.2) è alla base dei metodi di
tipo Monte Carlo per l’approssimazione numerica della soluzione del problema di Dirichlet (20.3.1).
Teorema 20.3.1 (Formula di Feynman-Kac). [!] Siano f ∈ L∞ (D), ϕ ∈ C(∂D) e a ∈ C(D) tale che a ≥ 0. Se
u ∈ C 2 (D) ∩ C(D̄) è soluzione del problema di Dirichlet (20.3.1) allora per ogni x ∈ D vale
" R
τx
Z τx R t #
x x
u(x) = E e− 0 a(Xt )dt ϕ(Xτxx ) − e− 0 a(Xs )ds f (Xtx )dt . (20.3.2)
0
Dimostrazione. Per ε > 0 sufficientemente piccolo, sia Dε un dominio tale che
x ∈ Dε , D̄ε ⊆ D, dist (∂Dε , ∂D) ≤ ε.
Indichiamo con τε il tempo di uscita di X x da Dε e osserviamo che, essendo X x continuo,
lim τε = τx .
ε→0
Poniamo Rt
a(Xsx )ds
Zt = e − 0 ,
e notiamo che, per ipotesi, Zt ∈ ]0, 1]. Inoltre, se uε ∈ C02 (RN ) è tale che uε = u su Dε , per la formula di Itô si
ha
d(Zt uε (Xtx )) = Zt ((A uε − auε ) (Xtx )dt + ∇uε (Xtx )σ (Xtx )dWt )
da cui Z τε Z τε
Zτε u(Xτxε ) = u(x) + Zt f (Xtx )dt + Zt ∇u(Xtx )σ (Xtx )dWt .
0 0
20.3. IL CASO AUTONOMO: IL PROBLEMA DI DIRICHLET 425
Essendo ∇u e σ limitati su D, in valore atteso otteniamo

" Z τε #
u(x) = E Zτε u(Xτxε ) − Zt f (Xtx )dt .
0
La tesi segue per passaggio al limite in ε → 0, per il teorema della convergenza dominata: infatti, ricordan-
do che Zt ∈ ]0, 1], si ha
Z τε
x
Zτε u(Xτε ) ≤ ∥u∥L∞ (D) , x

Zt f (Xt )dt ≤ τx ∥f ∥L∞ (D) ,
0
e, per ipotesi, τx è sommabile.
x
X (w1)
D
x
X ( w 2)
Figura 20.1: Problema di Dirichlet e traiettorie della soluzione della SDE associata
Osservazione 20.3.2. L’ipotesi a ≥ 0 nel Teorema 20.3.1 è essenziale: la funzione
u(x, y) = sin x sin y
è soluzione del problema di Dirichlet


1
 2 ∆u + u = 0, in D = ]0, 2π[ × ]0, 2π[ ,


u|∂D = 0,


ma non soddisfa la (20.3.2).
Osservazione 20.3.3 (Principio del massimo). Nelle ipotesi del Teorema 20.3.1 e assumendo f ≥ 0, dalla
formula (20.3.2) si deduce
R τx x
u(x) ≤ E e− 0 a(Xt )dt ϕ(Xτxx ) ≤ max ϕ + .
∂D
Inoltre, nel caso in cui f = a = 0 allora vale il seguente “principio del massimo”:
min u ≤ u(x) ≤ max u.

∂D ∂D
Risultati di esistenza per il problema (20.3.1) sono ben noti nel caso uniformemente ellittico: ricordiamo
il seguente classico teorema (si veda, per esempio, il Teorema 6.13 in [48]).
Teorema 20.3.4. Sotto le seguenti ipotesi

i) A in (20.0.1) è un operatore uniformemente ellittico, ossia esiste una costante λ > 0 tale che
N
X
cij (x)ξi ξj ≥ λ|ξ|2 , x ∈ D, ξ ∈ RN ;
i,j=1
ii) i coefficienti sono funzioni Hölderiane, cij , bj , a, f ∈ C α (D). Inoltre le funzioni cij , bj , f sono limitate e
a ≥ 0;
iii) per ogni y ∈ ∂D esiste4 una palla Euclidea B contenuta nel complementare di D e tale che y ∈ B̄;
iv) ϕ ∈ C(∂D);
esiste una soluzione classica u ∈ C 2+α (D) ∩ C(D̄) del problema (20.3.1).
Consideriamo ora alcuni esempi significativi.
Esempio 20.3.5 (Attesa del tempo di uscita). Se il problema

A u = −1, in D,


u|∂D = 0,


ha soluzione, allora per la (20.3.2) vale u(x) = E [τx ].

Esempio 20.3.6 (Nucleo di Poisson). Nel caso a = f = 0, la (20.3.2) equivale ad una formula di media di
superficie: più precisamente, indichiamo con µx la distribuzione della variabile aleatoria Xτxx : allora µx è
una misura di probabilità su ∂D e per la (20.3.2) si ha
h i Z
x
u(x) = E u(Xτx ) = u(y)µx (dy).
∂D
La legge µx è usualmente chiamata misura armonica relativa ad A su ∂D. Se X x è un moto Browniano di

punto iniziale x ∈ RN , allora A = 21 ∆ e nel caso in cui D = B(0, R) sia la palla Euclidea di raggio R, µx ha una
densità (rispetto alla misura di superficie) la cui espressione esplicita è nota: essa corrisponde al cosiddetto
nucleo di Poisson
1 R − |x|2
,
RωN |x − y|N
dove ωN indica la misura della superficie sferica unitaria in RN .
Esempio 20.3.7 (Equazione del calore). Il processo Xt = (Wt , −t), dove W è un moto Browniano reale, è
soluzione della SDE 
1
dXt = dWt ,


dXt2 = −dt,


e il corrispondente operatore caratteristico

1
A = ∂ − ∂x 2
2 x1 x1
è l’operatore del calore in R2 . Consideriamo la formula (20.3.2) su un dominio rettangolare
D = ]a1 , b1 [ × ]a2 , b2 [ .
Esaminando l’espressione esplicita delle traiettorie di X (si veda anche la Figura 20.2), è chiaro che il
4 Questa è una condizione di regolarità della frontiera di D, verificata se per esempio ∂D è una varietà di classe C 2 .
20.3. IL CASO AUTONOMO: IL PROBLEMA DI DIRICHLET 427
D
x
X(w1)
X(w2)
Figura 20.2: Problema di Cauchy-Dirichlet e traiettorie della SDE associata
valore u(x̄1 , x̄2 ) di una soluzione dell’equazione del calore dipende solo dai valori di u sulla parte di bordo
D contenuta in {x2 < x̄2 }. In generale il valore di u in D dipende solo dai valori di u sul bordo parabolico di
D, definito da
∂p D = ∂D \ ( ]a1 , b1 [ ×{b2 }).
Questo fatto è coerente con i risultati sul problema di Cauchy-Dirichlet della Sezione 26.2.1.
Esempio 20.3.8 (Metodo delle caratteristiche). Se σ = 0 l’operatore caratteristico è un operatore differen-

ziale del prim’ordine
N
X
A = bi (x)∂xi .
i=1
La corrispondente SDE è in realtà deterministica e si riduce a

Z t
Xtx = x + b(Xsx )ds,
0
ossia X è una curva integrale del campo vettoriale b:
d
X = b(Xt ).
dt t
Se il tempo di uscita di X da D è finito5 allora abbiamo la rappresentazione

R τx Z τx Rt
− a(Xtx )dt a(Xsx )ds
u(x) = e 0 ϕ(Xτxx ) − e− 0 f (Xtx )dt, (20.3.3)
0
per la soluzione del problema


⟨b, ∇u⟩ − au = f , in D,


u|∂D = ϕ.


La (20.3.3) è un caso particolare del classico metodo delle caratteristiche per la risoluzione di PDE del
prim’ordine: per una descrizione di tale metodo rimandiamo, per esempio, al Capitolo 3.2 in [38].
5 Al riguardo si veda l’Osservazione 20.2.3.
20.4 Il caso evolutivo: il problema di Cauchy

Il Teorema 20.3.1 ammette una versione “parabolica” con dimostrazione completamente analoga. Pre-
cisamente, dato il dominio limitato D, consideriamo il cilindro
DT = ]0, T [×D
e indichiamo con
∂p DT := ∂D \ ({0} × D)
il cosiddetto bordo parabolico di DT . Il seguente teorema fornisce una formula di rappresentazione per le
soluzioni classiche del problema di Cauchy-Dirichlet

At u − au + ∂t u = f , in DT ,


(20.4.1)
u|∂p DT = ϕ,


dove f , a, ϕ sono funzioni assegnate.
Teorema 20.4.1 (Formula di Feynman-Kac). [!] Siano f ∈ L∞ (DT ), ϕ ∈ C(∂p DT ) e a ∈ C(DT ) tale che
a0 := inf a sia finito. Sotto l’Ipotesi 20.2.1, se u ∈ C 2 (DT ) ∩ C(DT ∪ ∂p DT ) è una soluzione del problema
(20.4.1) allora, fissato (t, x) ∈ DT , vale
" R
T ∧τt,x
Z T ∧τt,x Rs #
a(s,Xst,x )ds a(r,Xrt,x )dr
u(t, x) =E e− t ϕ(T ∧ τt,x , XTt,x∧τt,x ) − e− t f (s, Xst,x )ds . (20.4.2)
t
Osservazione 20.4.2 (Principio del massimo). Nelle ipotesi del Teorema 20.4.1 e assumendo f = a = 0,
dalla formula (20.4.2) si deduce il seguente “principio del massimo”
min u ≤ u(x) ≤ max u

∂p DT ∂p DT
che ritroveremo, per via analitica, nella Sezione 26.2.1.
Proviamo ora una formula di rappresentazione per la soluzione classica del problema di Cauchy back-
ward 
At u − au + ∂t u = f , in [0, T [ ×RN ,


(20.4.3)
u(T , ·) = ϕ, in RN ,


dove At è l’operatore in (20.0.1) e f , a, ϕ sono funzioni assegnate. Il Capitolo 26 è dedicato ad una presen-
tazione sintetica dei principali risultati di esistenza e unicità per il problema (20.4.3) nel caso di operatori
uniformemente parabolici a coefficienti Hölderiani e limitati.
Poiché il problema (20.4.3) è posto su un dominio non limitato, è necessario introdurre opportune
ipotesi sul comportamento all’infinito dei coefficienti.
Ipotesi 20.4.3.
i) i coefficienti b = b(t, x) e σ = σ (t, x) sono funzioni misurabili, con crescita al più lineare in x uniforme-
mente in t ∈ [0, T [;
ii) a ∈ C([0, T [ ×RN ) con inf a =: a0 > −∞.
Teorema 20.4.4 (Formula di Feynman-Kac). [!] Supponiamo che esista una soluzione u ∈ C 2 ([0, T [ ×RN )∩
C([0, T ] × RN ) del problema di Cauchy (20.4.3). Assumiamo l’Ipotesi 20.4.3 e almeno una delle seguenti
condizioni:
20.4. IL CASO EVOLUTIVO: IL PROBLEMA DI CAUCHY 429
1) esistono due costanti positive M, p tali che
|u(t, x)| + |f (t, x)| ≤ M(1 + |x|p ), (t, x) ∈ [0, T [ ×RN ; (20.4.4)
2) la matrice σ è limitata ed esistono due costanti positive M e α, con α sufficientemente piccolo, tali
che
2
|u(t, x)| + |f (t, x)| ≤ Meα|x| , (t, x) ∈ [0, T [ ×RN . (20.4.5)
Se la SDE (20.0.2) ha soluzione X t,x con dato iniziale (t, x) ∈ [0, T [ ×RN allora vale la formula di rappresen-
tazione " RT Z T # Rs
a(s,Xst,x )ds a(r,Xrt,x )dr
u(t, x) = E e− t ϕ(XTt,x ) − e− t f (s, Xst,x )ds . (20.4.6)
t
Dimostrazione. Fissiamo (t, x) ∈ [0, T [ ×RN e poniamo per semplicità X = X t,x . Se τR indica il tempo di uscita
di X dalla palla Euclidea di raggio R, per il Teorema 20.4.1 vale
" R T ∧τ
R
Z T ∧τR Rs #
− a(s,Xs )ds − a(r,Xr )dr
u(t, x) = E e t u(T ∧ τR , XT ∧τR ) − e t f (s, Xs )ds . (20.4.7)
t
Poiché
lim T ∧ τR = T ,
R→∞
la tesi segue passando al limite in R in (20.4.7) grazie al teorema della convergenza dominata. Infatti si ha
convergenza puntuale degli integrandi e inoltre, nell’ipotesi 1), vale
R T ∧τ
R a(s,X )ds p
e− t

s u(T ∧ τR , XT ∧τR ) ≤ Me|a0 |T 1 + X̄T ,
Z
T ∧τR − R s a(r,Xr )dr p
f (s, Xs )ds ≤ T e|a0 |T M 1 + X̄T ,

e t
t
dove
X̄T = sup |Xt |
0≤t≤T
è sommabile grazie alle stime a priori del Teorema 19.3.2. Nell’ipotesi 2) si procede in maniera analoga
utilizzando la stima di sommabilità esponenziale del Teorema 19.3.3.
Osservazione 20.4.5. Dalla formula di rappresentazione (20.4.6) segue in particolare l’unicità della solu-
zione del problema di Cauchy. Come vedremo nella Sezione 26.2, le condizioni (20.4.4)-(20.4.5) di crescita
all’infinito sono necessarie al fine di selezionare una fra le soluzioni che sono, in generale, infinite.
Capitolo 21
Equazioni stocastiche lineari
Finché siamo inquieti si può stare

tranquilli.
Julien Green
In questo capitolo consideriamo equazioni stocastiche della forma
dXt = (BXt + b)dt + σ dWt (21.0.1)
dove B ∈ RN ×N , b ∈ RN , σ ∈ RN ×d e W è un moto Browniano d-dimensionale. La (21.0.1) è un caso

particolare della (19.1.1) con i coefficienti b(t, x) = Bx+b e σ (t, x) = σ che sono funzioni lineari della variabile
x (in realtà il coefficiente di diffusione è addirittura costante) e pertanto diciamo che (21.0.1) è una SDE
lineare. In questo capitolo esibiamo l’espressione esplicita della soluzione e studiamo le proprietà della sua
legge di transizione, con particolare attenzione al caso assolutamente continuo, fornendo condizioni per
l’esistenza della densità di transizione.
21.1 Soluzione e legge di transizione di una SDE lineare

Il teorema seguente fornisce l’espressione esplicita della soluzione di una SDE lineare.
Teorema 21.1.1. La soluzione X x = (Xtx )t≥0 di (21.0.1) con dato iniziale X0x = x ∈ RN è data da
Z t Z t !
Xtx =e tB
x+ e −sB
bds + e −sB
σ dWs . (21.1.1)
0 0
Di conseguenza, X x è un processo Gaussiano e in particolare vale Xtx ∼ Nmt (x),Ct dove

Z t ! Z t
tB
mt (x) = e x+ e −sB
bds , Ct = esB σ (esB σ )∗ ds.
0 0
Dimostrazione. Per provare che X x in (21.1.1) risolve la SDE (21.0.1) è sufficiente applicare la formula di
Itô usando l’espressione Xtx = etB Ytx dove
dYtx = e−tB bdt + e−tB σ dWt , Y0x = x.
431
432 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI
Ricordiamo ora che, poiché Y x è un processo di Itô a coefficienti deterministici, per la versione multidi-
mensionale dell’Esempio 16.1.9 si ha
Z t Z t
∗
Ytx ∼ Nµt (x),Ct , µt (x) = x + e −sB
bds, Ct = e−sB σ σ ∗ e−sB ds. (21.1.2)
0 0
La tesi segue facilmente dal fatto che X x è una trasformazione lineare di Y x .
Osservazione 21.1.2. [!] Il processo X t,x := (XTx −t )T ≥t risolve la SDE (21.0.1) con dato iniziale (t, x). Se la
matrice di covarianza CT −t è definita positiva allora la variabile aleatoria XTt,x è assolutamente continua con
densità Gaussiana Γ (t, x; T , ·) data da
1 1

Γ (t, x; T , y) = p exp − ⟨CT−1−t (y − mT −t (x)), (y − mT −t (x))⟩ .
(2π)N det CT −t 2
Per l’Osservazione1 7.5.10, Γ è una densità di transizione di X in (21.0.1) ed è soluzione fondamentale

dell’operatore di Kolmogorov At + ∂t dove
N
1X
At = cij ∂xi xj + ⟨Bx + b, ∇⟩, c := σ σ ∗ , (21.1.3)
2
i,j=1
è l’operatore caratteristico di X.
Esempio 21.1.3 (Equazione di Langevin). [!] Consideriamo la SDE in R2


dVt = dWt ,


dXt = Vt dt,


che è la versione semplificata dell’equazione di Langevin [72] utilizzata in fisica per descrivere il moto
aleatorio di una particella nello spazio delle fasi: Vt e Xt rappresentano rispettivamente la velocità e la
posizione della particella al tempo t. Paul Langevin fu il primo, nel 1908, ad applicare le leggi di Newton
al moto casuale Browniano studiato da Einstein pochi anni prima. Lemons [74] fornisce un interessante
resoconto degli approcci di Einstein e Langevin.
Riferendoci alla notazione generale (21.0.1) abbiamo d = 1, N = 2 e
! !
0 0 1
B= , σ= . (21.1.4)
1 0 0
Poiché B2 = 0, la matrice B è nilpotente e

!
tB 1 0
e = I + tB = .
t 1
Inoltre, posto z = (v, x), si ha

mt (z) = etB z = (v, x + tv),
e
t2 
 
Z t Z t ! ! !
sB ∗ sB∗ 1 0 1 0 1 s  t
Ct = e σσ e ds = ds =  t 2 2  .
t3 
(21.1.5)
0 0 s 1 0 0 0 1
2 3
1 Si veda anche il successivo Teorema 22.3.1.
21.1. SOLUZIONE E LEGGE DI TRANSIZIONE DI UNA SDE LINEARE 433
Si noti che Ct è definita positiva per ogni t > 0 e quindi (V , X) ha densità di transizione
√
3 1 −1

(T −t)B (T −t)B
Γ (t, z; T , ζ) = exp − ⟨C (ζ − e z), (ζ − e z)⟩ (21.1.6)
π(T − t)2 2 T −t
per t < T e z = (v, x), ζ = (η, ξ) ∈ R2 , dove

4
− t62
!
Ct−1 = t .
− t62 12
t3
Inoltre, (t, v, x) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov backward
1
∂ + v∂x + ∂t (21.1.7)
2 vv
e (T , η, ξ) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov forward
1
∂ − η∂ξ − ∂T . (21.1.8)
2 ηη
Gli operatori in (21.1.7) e (21.1.8) non sono uniformemente parabolici poiché la matrice della parte del
second’ordine !
∗ 1 0
σσ =
0 0
è degenere; tuttavia essi, come il classico operatore del calore, hanno una soluzione fondamentale Gaus-
siana. Kolmogorov [61] fu il primo ad esibire l’espressione esplicita (21.1.6) della soluzione fondamentale
di (21.1.7) (si veda anche l’introduzione del lavoro di Hörmander [53]). In finanza matematica l’operatore
backward (21.1.7) interviene nella valutazione di alcuni strumenti derivati complessi, come le cosiddette
opzioni Asiatiche (si veda, per esempio, [8]).
Esempio 21.1.4. [!] Nell’Esempio 21.1.3 abbiamo provato che, posto
Zt
Xt := Ws ds,
0
la coppia (W , X) ha distribuzione normale bidimensionale con matrice di covarianza data in (21.1.5). Ne

segue in particolare che Xt ∼ N0, t3 , a conferma di ciò che avevamo già osservato nell’Esempio 16.1.10.
3
Proviamo che X non è un processo di Markov. Nel Teorema 22.3.1 vedremo che la coppia (W , X), essendo
soluzione di una SDE (di Langevin), è un processo di Markov: il Teorema 22.3.1 non si applica a X che è un
processo di Itô ma non è soluzione di una SDE della forma (22.1.2). In effetti, vale
"Z T #
E [XT | Ft ] = Xt + E Ws ds | Ft = Xt + (T − t)Wt (21.1.9)
t
poiché, per la formula di Itô

d(tWt ) = Wt dt + tdWt
ossia Z T Z T
T WT = tWt + Ws ds + sdWs
t t
da cui "Z T # "Z T #
E [T WT | Ft ] = tWt + E Ws ds | Ft + E sdWs | Ft
t t
e quindi
"Z T #
E Ws ds | Ft = (T − t)Wt .
t
Per la (21.1.9), E [XT | Ft ] è funzione non solo da Xt ma anche da Wt : incidentalmente, questa è un’ulteriore
conferma della proprietà di Markov della coppia (W , X). Se X fosse un processo di Markov allora dovrebbe
valere2
E [XT | Xt ] = E [XT | Ft ] , t ≤T, (21.1.10)
che combinata con la (21.1.9) implicherebbe Wt = f (Xt ) q.c. per una certa f ∈ mB. Tuttavia ciò è assurdo:
infatti se Wt = f (Xt ) q.c. allora µWt |Xt = δf (Xt ) e ciò contrasta con il fatto che (Wt , Xt ) ha densità Gaussiana
bidimensionale.
Osservazione 21.1.5. I risultati di questa sezione si estendono al caso di SDE lineari del tipo
dXt = (b(t) + B(t)Xt )dt + σ (t)dWt
in cui le matrici B, b e σ sono funzioni misurabili e limitate del tempo. In tal caso, nell’espressione della
soluzione fornita dal Teorema 21.1.1, al posto della matrice esponenziale etB appare la soluzione Φ(t) del
problema di Cauchy 
Φ ′ (t) = B(t)Φ(t),


Φ(0) = IN ,


dove IN indica la matrice identità N × N .
21.2 Assoluta continuità e controllabilità di un sistema lineare

Abbiamo visto che la soluzione X della SDE lineare (21.0.1) ha legge di transizione multi-normale. Chia-
ramente è di particolare interesse il caso in cui X ammetta la densità di transizione e quindi le relative equa-
zioni di Kolmogorov abbiano soluzione fondamentale. In questa sezione vediamo che la non-degenerazione
della matrice di covarianza di Xt ,
Zt
Ct = Gs Gs∗ ds, Gt := etB σ , (21.2.1)
0
può essere caratterizzata in termini di controllabilità di un sistema nell’ambito della teoria del controllo
ottimo (si veda, per esempio, [73] e [129]). Cominciamo con l’introdurre la seguente
Definizione 21.2.1. La coppia (B, σ ) è controllabile su [0, T ] se per ogni x, y ∈ RN esiste una funzione
v ∈ C([0, T ]; Rd ) tale che la soluzione γ ∈ C 1 ([0, T ]; RN ) del problema

γ ′ (t) = Bγ(t) + σ v(t), 0 < t < T ,


(21.2.2)
γ(0) = x,


verifichi la condizione finale γ(T ) = y. Diciamo che v è un controllo per (B, σ ) su [0, T ].
Teorema 21.2.2. [!] La matrice CT in (21.2.1) è definita positiva se e solo se (B, σ ) è controllabile su [0, T ].
∗
Dimostrazione. Osserviamo preliminarmente che Ct = etB Ct etB , dove
Zt
∗
Ct = G−s G−s ds
0
2 La (21.1.10) va interpretata secondo la Convenzione 5.2.5.
21.2. ASSOLUTA CONTINUITÀ E CONTROLLABILITÀ DI UN SISTEMA LINEARE 435
è la matrice di covarianza in (21.1.2). Chiaramente CT > 0 se e solo se CT > 0.

Supponiamo CT > 0 e proviamo che (B, σ ) è controllabile su [0, T ]. Consideriamo la soluzione
Zt !
tB
γ(t) = e x + G−s v(s)ds , t ∈ [0, T ],
0
del problema di Cauchy (21.2.2). Dato y ∈ RN , si ha γ(T ) = y se e solo se

ZT
G−s v(s)ds = z := e−T B y − x. (21.2.3)
0
Allora è facile verificare che un controllo è dato esplicitamente da

∗
v(s) = G−s CT−1 z, s ∈ [0, T ]. (21.2.4)
Viceversa, supponiamo che (B, σ ) sia controllabile su [0, T ] e supponiamo, per assurdo, che CT sia degenere,
ossia esista w ∈ RN \ {0} tale che
⟨CT w, w⟩ = 0.
Equivalentemente, vale
Z T
|w∗ G−s |2 ds = 0
0
da cui w∗ G−s = 0 per ogni s ∈ [0, T ] e quindi anche
ZT
w∗ G−s v(s)ds = 0.
0
Ciò contraddice la (21.2.3), quindi l’ipotesi di controllabilità, e conclude la prova.

Osservazione 21.2.3. Il controllo v in (21.2.4) è ottimale nel senso che minimizza il “funzionale costo”
ZT
U (v) := ∥v∥2L2 ([0,T ]) = |v(t)|2 dt.
0
Questo è conseguenza del Teorema di Lagrange-Ljusternik (cfr., per esempio, [119]) che è l’estensione in
ambito funzionale del classico teorema dei moltiplicatori di Lagrange. Più precisamente, per minimizzare
il funzionale U sotto il vincolo (21.2.3), consideriamo il funzionale di Lagrange
ZT !
2 ∗
L (v, λ) = ∥v∥L2 ([0,T ]) − λ G−t v(t)dt − z ,
0
dove λ ∈ RN è il moltiplicatore di Lagrange. Differenziando L nel senso di Fréchet, imponiamo che v sia
un punto critico per L e otteniamo
ZT ZT
∂v L (u) = 2 v(t)∗ u(t)dt − λ∗ G−t u(t)dt = 0, u ∈ L2 ([0, T ]).
0 0
1 ∗
Allora troviamo v(s) = 2 G−s λ con λ determinato dal vincolo (21.2.3), λ = 2CT−1 z, in accordo con la (21.2.4).
Esempio 21.2.4. Riprendiamo l’Esempio 21.1.3 con le matrici B, σ come in (21.1.4). In questo caso il
controllo v = v(t) è a valori reali e il problema (21.2.2) diventa



 γ1′ (t) = v(t),

 ′

 γ2 (t) = γ1 (t), (21.2.5)

γ(0) = (x1 , x2 ).

1.0
0.8
0.6
0.4
0.2
0.2 0.4 0.6 0.8 1.0 1.2 1.4
Figura 21.1: Grafico della triettoria ottimale γ(t) = (6(t − t 2 ), 3t 3 − 2t 3 ), soluzione del problema (21.2.5) con
condizione iniziale γ(0) = (0, 0) e finale γ(1) = (0, 1)
Il controllo agisce direttamente solo sulla prima componente di γ ma influisce anche sulla seconda com-
ponente γ2 mediante la seconda equazione: per il Teorema 21.2.2, (B, σ ) è controllabile su [0, T ] per ogni
T > 0 con un controllo dato esplicitamente dalla formula (21.2.4) (si veda la Figura 21.1).
21.3 Condizione di Kalman

Diamo un ulteriore criterio operativo per verificare che la non-degenerazione della matrice di covarian-
za C .
Teorema 21.3.1 (Condizione di Kalman). La matrice CT in (21.2.1) è definita positiva per T > 0 se e solo
se la coppia (B, σ ) verifica la seguente condizione di Kalman: la matrice di dimensione N × (N d), definita a
blocchi da
σ Bσ B2 σ · · · BN −1 σ , (21.3.1)
ha rango massimo, pari a N .
Dimostrazione. Indichiamo con
p(λ) := det(B − λIN ) = λN + a1 λN −1 + · · · + aN −1 λ + aN
il polinomio caratteristico di una matrice B: per il Teorema di Cayley-Hamilton, vale p(B) = 0. Ne viene che
ogni potenza Bk , con k ≥ N , è combinazione lineare di IN , B, . . . , BN −1 .
Ora la matrice (21.3.1) non ha rango massimo se e solo se esiste w ∈ RN \ {0} tale che
w∗ σ = w∗ Bσ = · · · = w∗ BN −1 σ = 0. (21.3.2)
Quindi se la matrice (21.3.1) non ha rango massimo, per la (21.3.2) e il Teorema di Cayley-Hamilton, si ha
w∗ Bk σ = 0, k ∈ N0 ,
da cui anche
w∗ etB σ = 0, t ≥ 0.
Di conseguenza
Z T
⟨CT w, w⟩ = |w∗ etB σ |2 dt = 0, (21.3.3)
0
21.4. CONDIZIONE DI HÖRMANDER 437
e CT è degenere per ogni T > 0.

Viceversa, se CT è degenere allora esiste w ∈ RN \ {0} per cui vale la (21.3.3) e quindi
f (t) := w∗ etB σ = 0, t ∈ [0, T ].
Derivando otteniamo
dk
0= f (t) |t=0 = w∗ Bk σ , k ∈ N0 ,
dt k
e quindi, per la (21.3.2), la matrice (21.3.1) non ha rango massimo.
Osservazione 21.3.2. Poiché la condizione di Kalman non dipende da T , allora CT è definita positiva per
un T > 0 se e solo se lo è per ogni T > 0.
Esempio 21.3.3. Nell’Esempio 21.1.3, si ha

! ! ! !
1 0 0 1 0
σ= , Bσ = = ,
0 1 0 0 1
e quindi (σ Bσ ) è la matrice identità che ovviamente soddisfa la condizione di Kalman.
21.4 Condizione di Hörmander

La non-degenerazione della matrice di covarianza di una SDE lineare si può caratterizzare anche in
termini di una condizione ben nota nell’ambito della teoria delle equazioni alle derivate parziali.
Consideriamo la SDE lineare (21.0.1) sotto l’ipotesi che σ abbia rango d: allora, a meno di una trasfor-
mazione lineare, non è restrittivo assumere !
Id
σ= .
0
Il relativo operatore di Kolmogorov backward è
1
K = ∆ + ⟨b + Bx, ∇⟩ + ∂t , (t, x) ∈ RN +1 , (21.4.1)
2 d
dove ∆d indica l’operatore di Laplace nelle prime d variabili x1 , . . . , xd .
Per convenzione, identifichiamo un operatore differenziale del prim’ordine su RN del tipo
N
X
Z := αi (x)∂xi ,
i=1
col campo vettoriale dei suoi coefficienti e quindi scriviamo anche
Z(x) = (α1 (x), . . . , αN (x)), x ∈ RN .
Il commutatore di due campi vettoriali Z e U , con

N
X
U= βi ∂xi ,
i=1
è definito da
N
X
[Z, U ] = ZU − U Z = (Zβi − U αi ) ∂xi .
i=1
Il Teorema di Hörmander [53] (si veda anche Stroock [115] per una più recente trattazione) è un risultato
molto generale di cui richiamiamo qui una versione molto particolare relativa ad un operatore K del tipo
(21.4.1): tale teorema stabilisce che K ha soluzione fondamentale se e solo se, in ogni punto x ∈ RN , lo
spazio vettoriale generato dagli operatori del prim’ordine (campi vettoriali)
∂x1 , . . . , ∂xd , Y := ⟨Bx, ∇⟩,
e dai loro commutatori di ogni ordine, coincide con RN . Questa è la cosiddetta condizione di Hörmander. Si
noti che ∂x1 , . . . , ∂xd sono le derivate che appaiono nella parte del second’ordine di K , corrispondenti alle
direzioni di diffusione Browniana, mentre Y è il drift dell’operatore: quindi, sostanzialmente, l’esistenza
della soluzione fondamentale equivale al fatto che RN è in ogni punto generato dalle derivate direzionali
che appaiono in K come derivate seconde e come drift, insieme ai loro commutatori di ogni ordine.
Esempio 21.4.1. .
i) Se d = N allora K è un operatore uniformemente parabolico e la condizione di Hörmander è ov-
viamente soddisfatta, senza ricorrere al drift e ai commutatori, poiché ∂x1 , . . . , ∂xN formano la base
canonica di RN .
ii) Nel caso dell’operatore di Langevin dell’Esempio 21.1.3 si ha Y = x1 ∂x2 . Quindi ∂x1 = (1, 0) insieme
al commutatore
[∂x1 , Y ] = ∂x2 = (0, 1)
formano la base canonica di R2 .
iii) Consideriamo l’operatore di Kolmogorov
1
K = ∂ + x1 ∂x2 + x2 ∂x3 + ∂t , (x1 , x2 , x3 ) ∈ R3 .
2 x1 x1
Qui N = 3, d = 1 e Y = x1 ∂x2 + x2 ∂x3 : anche in questo caso la condizione di Hörmander è verificata
poiché
∂x 1 , [∂x1 , Y ] = ∂x2 , [[∂x1 , Y ], Y ] = ∂x3 ,
formano una base di R3 . Questo esempio può essere considerato una generalizzazione del modello di
Langevin in cui, oltre a considerare posizione e velocità, si introduce un terzo processo stocastico che
rappresenta l’accelerazione di una particella ed è definito come un moto Browniano reale.
Teorema 21.4.2. Le condizioni di Kalman e Hörmander sono equivalenti.
Dimostrazione. È sufficiente notare che, per i = 1, . . . , d,
N
X
[∂xi , Y ] = bki ∂xk
k=1
è la the i-esima colonna della matrice B. Inoltre, [[∂xi , Y ], Y ] è la i-esima colonna della matrice B2 e una
rappresentazione analoga vale per i commutatori di ordine superiore.
D’altra parte, per k = 1, . . . , N , il blocco Bk σ nella matrice di Kalman (21.3.1) è la matrice di dimensione
N × d le cui colonne sono le prime d colonne di Bk .
A partire dai lavori [71], [99] e [31] una teoria, analoga a quella classica per le equazioni uniformemente
paraboliche, è stata sviluppata anche per le equazioni di Kolmogorov a coefficienti variabili del tipo ∂t + At
con At come in (21.1.3) e σ = σ (t, x) non costante.
21.5. ESEMPI 439
21.5 Esempi
Le SDE lineari sono alla base di molti importanti modelli stocastici; qui presentiamo brevemente alcuni
esempi.
Esempio 21.5.1 (Modello di Vasicek). Uno dei più semplici e famosi modelli stocastici per l’evoluzione
del tasso d’interesse, il cosiddetto tasso short o a breve, è quello proposto da Vasicek [124]:
drt = a(b − rt )dt + σ dWt .
Qui W è un moto Browniano reale, σ rappresenta la volatilità del tasso e i parametri a, b sono chiamati
rispettivamente “velocità di ritorno alla media” (speed of reversion) e “media di lungo periodo” (long term
mean level). La particolare forma del drift a(b − rt ), con a > 0, è ideata per catturare la cosiddetta proprietà
di “ritorno alla media” (mean reversion), una caratteristica essenziale del tasso di interesse che lo distingue
dagli altri prezzi finanziari: al contrario dei prezzi delle azioni, per esempio, i tassi d’interesse non possono
salire indefinitamente. Questo perché a livelli molto alti ostacolerebbero l’attività economica, inducendo
una diminuzione dei tassi di interesse. Di conseguenza, i tassi d’interesse si muovono in un range limita-
to, mostrando una tendenza a ritornare ad un valore di lungo periodo, rappresentato dal parametro b nel
modello. Non appena rt supera il livello b, il drift diventa negativo e “spinge” rt a diminuire mentre al
contrario, se rt < b, il drift è positivo e tende a far crescere rt verso b. Il fatto che rt abbia distribuzione nor-
male rende il modello molto semplice da utilizzare e permette di ottenere formule esplicite per strumenti
finanziari più complessi, come i derivati su tasso: segnaliamo [21] come testo introduttivo di riferimento
alla modellizzazione dei tassi.
0.8
0.6
0.4
0.2
2 4 6 8 10
Figura 21.2: Grafico di una traiettoria del processo di Vasicek con parametri a = 5, b = 0.5 e σ = 0.3
Esempio 21.5.2 (Brownian bridge). Fissato b ∈ R, consideriamo la SDE unodimensionale
b − Bt
dBt = dt + dWt
1−t
con soluzione Z t
dWs
Bt = B0 (1 − t) + bt + (1 − t) , 0 ≤ t < 1.
0 1−s
Si ha
E [Bt ] = B0 (1 − t) + bt,
e, per l’isometria di Itô, vale
Z t
2 ds
var(Bt ) = (1 − t) = t(1 − t),
0 (1 − s)2
da cui segue che

lim E [Bt ] = b, lim var(Bt ) = 0.
t→1− t→1−
Proviamo che Bt converge a b per t → 1− in norma L2 :

h i
E (Bt − b)2
"Z t #  Zt !2 
2 2 2 dWs  dWs 
= (1 − t) (b − B0 ) − 2(1 − t) (b − B0 ) E +E   =
0 1−s 0 1−s
| {z }
=0
Z t !
2 2 ds
= (1 − t) (b − B0 ) + 2
=
0 (1 − s)
1

= (1 − t)2 (b − B0 )2 + − 1 −−−−−→ 0.
1−t t→1−
Il Brownian bridge è utile per modellare un sistema che inizia ad un certo livello B0 e ci si aspetta che rag-
giunga il livello b in un determinato momento futuro, per esempio t = 1. In Figura 21.3 sono rappresentate
quattro traiettorie di un Brownian bridge B con valore iniziale B0 = 0 e B1 = 1.
1.0
0.5
0.2 0.4 0.6 0.8 1.0
-0.5
-1.0
Figura 21.3: Grafico di quattro triettorie di un Brownian bridge
Esempio 21.5.3 (Ornstein-Uhlenbeck [90]). Il seguente sistema di equazioni per il moto di una particella
estende il modello di Langevin inserendo un termine di frizione:

1 1
dXt = −µXt dt + ηdWt


dXt2 = Xt1 dt.


Qui W è un moto Browniano reale, µ e η sono i parametri positivi di frizione e diffusione. In forma
matriciale
dXt = BXt dt + σ dWt
con ! !
−µ 0 η
B= , σ= .
1 0 0
21.5. ESEMPI 441
Si verifica facilmente la validità della condizione di Kalman. Inoltre si ha
(−µ)n 0
!
n
B = , n ∈ N,
(−µ)n−1 0
da cui
N
(tB)n e−µt 0
X !
tB
e =I+ = 1−e−µt .
n! µ 1
n=1
La soluzione Xt con dato iniziale (x1 , x2 ) ∈ R2 , è un processo Gaussiano bidimensionale con
x1 e−µt
!
tB
E [Xt ] = e x = x + x1 (1 − e−µt )
2 µ
e
Z t
∗
Ct = esB σ σ ∗ esB ds
0
t e−µs 0 e−µs 1−e−µs
Z ! !
2 µ
=η 1−e−µs ds
0 µ 0 0 1
Z t  −2µs e−µs −e−2µs 

e µ
= η2
 
 −µs −2µs −µs 2  ds

 e −e 1−e 
0 µ µ
 
1 −2µt 1 −µt + e−2µt 
 2µ 1 − e 2µ2 1 − 2e
= η 2  1

 −2µt −3 
.
 2 1 − 2e + e −µt −2µt 1 −µt e
2µ µ3
µt + 2e − 2

Capitolo 22
Soluzioni forti
In questo capitolo presentiamo i risultati classici di risolubilità ed unicità in senso forte sotto le ipotesi
standard della Definizione 19.2.1 di regolarità (Lipschitzianità locale) e crescita lineare dei coefficienti.
Precisamente proviamo i seguenti teoremi:
• il Teorema 22.1.1 di unicità in senso forte;
• il Teorema 22.2.1 sulla risolubilità in senso forte e la proprietà di flusso;
• il Teorema 22.3.1 sulla proprietà di Markov;
• il Teorema 22.4.1 e il Corollario 22.4.2 sulle stime di dipendenza dal dato iniziale, regolarità delle
traiettorie, proprietà di Feller e di Markov forte.
22.1 Unicità
Teorema 22.1.1 (Unicità in senso forte). Supponiamo che valga la seguente ipotesi di Lischitzianità locale
in x, uniforme in t: per ogni n ∈ N esiste una costante κn tale che

b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ κ |x − y|,
n (22.1.1)
per ogni t ∈ [t0 , T ] e x, y ∈ RN tali che |x|, |y| ≤ n. Allora per la SDE
dXt = b(t, Xt )dt + σ (t, Xt )dWt (22.1.2)
si ha unicità in senso forte secondo la Definizione 19.1.11.
Dimostrazione. Siano X, Y due soluzioni della SDE (22.1.2), X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , W , Gt ).
Utilizziamo un argomento1 di localizzazione: poniamo
τn = inf{t ∈ [t0 , T ] | |Xt | ∨ |Yt | ≥ n}, n ∈ N,
con la convenzione min ∅ = T . Si noti che τn = t0 su (|Z| > n). Essendo per ipotesi X, Y adattati e continui
q.c., τn è una successione crescente di tempi d’arresto2 a valori in [t0 , T ], tale che τn ↗ T q.c. Poniamo
bn (t, x) = b(t, x)1[t0 ,τn] (t), σn (t, x) = σ (t, x)1[t0 ,τn] (t), n ∈ N. (22.1.3)
1 L’argomento di localizzazione è necessario anche sotto l’ipotesi di Lischitzianità globale perché l’idea è di applicare il lemma di
Gronwall alla funzione  
v(t) = E  sup |Xs − Ys |2 
 
t0 ≤s≤t
sotto l’ipotesi che v sia limitata.
2 Relativamente alla filtrazione definita da F ∨ G := σ (F ∪ G ).
t t t t
443
444 CAPITOLO 22. SOLUZIONI FORTI
I processi Xt∧τn , Yt∧τn soddisfano quasi certamente l’equazione

Z t∧τn Z t∧τn
Xt∧τn − Yt∧τn = (b(s, Xs ) − b(s, Ys )) ds + (σ (s, Xs ) − σ (s, Ys )) dWs
t0 t0
Z t Z t
= bn (s, Xs∧τn ) − bn (s, Ys∧τn ) ds + σn (s, Xs∧τn ) − σn (s, Ys∧τn ) dWs . (22.1.4)
t0 t0
Inoltre si ha

bn (s, Xs∧τn ) − bn (s, Ys∧τn ) = bn (s, Xs∧τn ) − bn (s, Ys∧τn ) 1(|Z|≤n) ≤
(poichè |Xs∧τn |, |Ys∧τn | ≤ n su (|Z| ≤ n) per s ∈ [t0 , T ])

≤ κn Xs∧τn − Xs∧τn (22.1.5)
e una stima analoga si ha con σn al posto di bn . Ora poniamo

" #
2
vn (t) = E sup Xs∧τn − Ys∧τn , t ∈ [t0 , T ].
t0 ≤s≤t
Da (22.1.4) e (22.1.5), procedendo esattamente come nella prova della stima (19.2.5) con p = 2, otteniamo
Zt
vn (t) ≤ c̄ v(s)ds, t ∈ [t0 , T ],
t0
per una costante positiva c̄ = c̄(T , d, N , κn ). Poiché X e Y sono processi continui q.c. e adattati (e quindi
progressivamente misurabili), il teorema di Fubini assicura che v è una funzione misurabile su [t0 , T ], ossia
vn ∈ mB. Inoltre vn è limitata, precisamente |vn | ≤ 4n2 , per costruzione. Dal lemma di Gronwall otteniamo
che vn ≡ 0 e quindi  
 2 
E  sup Xt∧τn − Yt∧τn  = vn (T ) = 0.
t0 ≤t≤T
Passando al limite per n → ∞, per il teorema di Beppo-Levi, si ha che X e Y sono indistinguibili su [t0 , T ].
Nel caso uno-dimensionale vale il seguente risultato più forte che riportiamo senza dimostrazione (si
veda, per esempio, il Teorema 5.3.3 in [34] o la Proposizione 5.2.13 in [58]).
Teorema 22.1.2 (Yamada e Watanabe [127]). Nel caso N = d = 1, si ha unicità forte per la SDE (22.1.2)
sotto le seguenti condizioni:
|b(t, x) − b(t, y)| ≤ k(|x − y|), |σ (t, x) − σ (t, y)| ≤ h(|x − y|), t ≥ 0, x, y ∈ R,
dove
i) h è una funzione strettamente crescente tale che h(0) = 0 e per ogni ε > 0
Zε
1
2
ds = ∞; (22.1.6)
0 h (s)
ii) k è una funzione strettamente crescente, concava tale che k(0) = 0 e per ogni ε > 0
Zε
1
ds = ∞.
0 k(s)
22.2. ESISTENZA 445
1
Esempio 22.1.3. La funzione h(s) = sα soddisfa la condizione (22.1.6) per α ≥ 2. D’altra parte, Itô e
Watanabe [54] hanno fornito il seguente contro-esempio: la SDE
1 2
dXt = 3Xt3 dt + 3Xt3 dWt
ha infinite soluzioni forti della forma


0 per 0 ≤ t < τα ,

Xtα

=
Wt3
 per t ≥ τα ,
dove α ∈ [0, +∞] e τα = inf{t ≥ α | Wt = 0}.
22.2 Esistenza
Siamo interessati a studiare la risolubilità in senso forte che, per quanto visto nella Sezione 19.1, richiede
che la soluzione sia adattata alla filtrazione standard del Browniano e del dato iniziale. Come affermato3
in [105], il punto in cui la teoria originale di Itô delle soluzioni forti di SDE si rivela davvero efficace è la
teoria dei flussi che riveste un ruolo importante in molte applicazioni: a tal riguardo indichiamo [66] come
monografia di riferimento (si veda anche [43], [12] e [47]).
Teorema 22.2.1 (Risolubilità in senso forte e proprietà di flusso). [!] Supponiamo che i coefficienti b, σ
soddisfino le ipotesi standard4 (19.2.1)-(19.2.2) su ]t0 , T [×RN . Dato un set-up (W , Ft ), si ha:
t ,x
i) per ogni x ∈ RN , esiste la soluzione forte X t0 ,x ∈ SDE(b, σ , W , F W ) con dato iniziale Xt00 = x. Inoltre,
per ogni t ∈ [t0 , T ] si ha
t ,x
(x, ω) 7−→ ψt0 ,t (x, ω) := Xt 0 (ω) ∈ m(BN ⊗ FtW ); (22.2.1)
ii) per ogni Z ∈ mFt0 il processo X t0 ,Z definito da
t ,Z
Xt 0 (ω) := ψt0 ,t (Z(ω), ω), ω ∈ Ω, t ∈ [t0 , T ], (22.2.2)
t ,Z
è soluzione forte della SDE (22.1.2), X t0 ,Z ∈ SDE(b, σ , W , F Z,W ) con dato iniziale Xt00 = Z;
t0 ,Z
iii) vale la proprietà di flusso: per ogni t ∈ [t0 , T [, i processi X t0 ,Z e X t,Xt sono indistinguibili su [t, T ],
ossia quasi certamente vale
t ,Z
t ,Z t,Xt 0
Xs 0 = Xs per ogni s ∈ [t, T ]. (22.2.3)
Dimostrazione. Dividiamo la prova in alcuni passi.

(1) Proviamo l’esistenza della soluzione di (22.1.2) su [t0 , T ] col dato iniziale deterministico Xt0 = x ∈
RN . Utilizziamo il metodo delle approssimazioni successive e definiamo ricorsivamente la successione di
processi di Itô
(0)
Xt ≡ x,
3 [105] pag.136: “Where the ‘strong’ or ‘pathwise’ approach of Itô ’s original theory of SDEs really comes into its own is in the
theory of flows. Flows are now very big business; and the martingale-problem approach, for all that is has other interesting things to
say, cannot deal with them in any natural way.”
4 In realtà, utilizzando un argomento di localizzazione come nella prova del Teorema 22.1.1, è sufficiente assumere l’ipotesi (22.1.1)
(Lipschitzianità locale) al posto della (19.2.2).
Z t Z t
(n) (n−1) (n−1)
Xt =x+ b(s, Xs )ds + σ (s, Xs )dWs , n ∈ N, (22.2.4)
t0 t0
per t ∈ [t0 , T ]. La successione è ben definita e X (n) è adattato a F W e continuo q.c. per ogni n. Inoltre, con
(n) (n)
un argomento induttivo5 in n si prova che Xt = Xt (x, ω) ∈ m(BN ⊗ FtW ) per ogni n ≥ 0 e t ∈ [t0 , T ].
Proviamo per induzione la stima
cn (t1 − t0 )n
" #
(n) (n−1) 2
E sup |Xt − Xt | ≤ , t1 ∈]t0 , T [, n ∈ N, (22.2.5)
t0 ≤t≤t1 n!
con c = c(T , d, N , x, c1 , c2 ) > 0 dove c1 , c2 sono le costanti delle ipotesi standard sui coefficienti. Sia n = 1: per
la (19.2.4) si ha
Z 2 
t
" #  Zt
(1) (0) 2
σ (s, x)dWs  ≤ c̄1 (1 + |x|2 )(t1 − t0 ).
 
E sup |Xt − Xt | = E  sup b(s, x)ds +

t0 ≤t≤t1 t0 ≤t≤t1 t0 t0
Supposta vera la (22.2.5) per n, proviamola per n + 1: si ha

Z 2 
t Z t
" # 
(n+1) (n) 2  (n) (n−1) (n) (n−1) 
E sup |Xt − Xt | = E  sup b(s, Xs ) − b(s, Xs ) ds + σ (s, Xs ) − σ (s, Xs ) dWs  ≤
t0 ≤t≤t1 t0 ≤t≤t1 t0
t0
(per la (19.2.5))
Z t1 " #
(n) (n−1) 2
≤ c̄2 E sup |Xr − Xr | ds ≤
t0 t0 ≤r≤s
(per ipotesi induttiva, con c = c̄2 ∨ c̄1 (1 + |x|2 ))

Z t1
(s − t0 )n
≤ cn+1 ds
t0 n!
e questo prova la (22.2.5).

Combinando la disuguaglianza di Markov con la (22.2.5) otteniamo
   
 (n) (n−1) 1  2n  (n) (n−1) 2  (4cT )n
P  sup |Xt − Xt | ≥ n  ≤ 2 E  sup |Xt − Xt |  ≤ , n ∈ N.
t0 ≤t≤T 2 t0 ≤t≤T n!
Allora, per il Lemma 2.3.28 di Borel-Cantelli si ha

 
 (n) (n−1) 1 
P  sup |Xt − Xt |≥ n i.o = 0
t0 ≤t≤T 2
ossia, per quasi ogni ω ∈ Ω esiste nω ∈ N tale che
(n) (n−1) 1
sup |Xt (ω) − Xt (ω)| ≤ , n ≥ nω .
t0 ≤t≤T 2n
Essendo
n
(n) (k) (k−1)
X
Xt =x+ (Xt − Xt )
k=1
5 La misurabilità in (x, ω) è ovvia per n = 0. Assumendo la tesi vera per n − 1, è sufficiente approssimare l’integrando in (22.2.4) con
processi semplici e utilizzare il Corollario 15.2.26, ricordando che la convergenza in probabilità mantiene la proprietà di misurabilità.
22.2. ESISTENZA 447
(n)
si ha che, quasi certamente, Xt converge uniformemente in t ∈ [t0 , T ] per n → +∞ ad un limite che indi-
(n)
chiamo con Xt : per esprimere questo fatto, in simboli scriviamo Xt ⇒ Xt q.c. Notiamo che X = (Xt )t∈[t0 ,T ]
è un processo continuo q.c. (grazie alla convergenza uniforme) e adattato a F W : inoltre, Xt = Xt (x, ω) ∈
(n)
m(BN ⊗ FtW ) per ogni t ∈ [t0 , T ] perché tale proprietà di misurabilità vale per Xt per ogni n ∈ N.
Per la (19.2.1) ed essendo X continuo q.c. è chiaro che la condizione (19.1.3) è soddisfatta. Per verificare
che, quasi certamente, vale
Zt Zt
Xt = x + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ],
t0 t0
è sufficiente osservare che:

(n) (n)
• per la proprietà di Lipschitzianità di b e σ uniforme in t, si ha che b(t, Xt ) ⇒ b(t, Xt ) e σ (t, Xt ) ⇒
σ (t, Xt ) q.c. da cui
Zt Zt
(n)
lim b(s, Xs )ds = b(s, Xs )ds q.c.
n→+∞ t0 t0
Z t 2
(n)
lim σ (s, Xs ) − σ (s, Xs ) ds = 0 q.c. (22.2.6)
n→+∞ t0
• per la Proposizione 15.2.25, la (22.2.6) implica che

Zt Zt
(n)
lim σ (s, Xs )dWs = σ (s, Xs )dWs q.c.
n→+∞ t0 t0
Questo conclude la prova dell’esistenza nel caso del dato iniziale deterministico.
(2) Consideriamo ora il caso di un dato iniziale aleatorio Z ∈ mFt0 . Sia f = f (x, ω) la funzione su RN ×Ω
definita da Zt Zt
t0 ,x t0 ,x t0 ,x
f (x, ·) := sup Xt − x − b(s, Xs )ds − σ (s, Xs )dWs .
t0 ≤t≤T t0 t0
t ,·
Notiamo che f ∈ m(BN ⊗ FTW ) poiché Xt 0 ∈ m(BN ⊗ FtW ) per ogni t ∈ [t0 , T ]. Inoltre, per ogni x ∈ RN si ha
f (x, ·) = 0 q.c. e quindi anche F(x) := E [f (x, ·)] = 0. Allora vale
0 = F(Z) = E [f (x, ·)] |x=Z =
(per il Lemma di freezing, Teorema 5.2.10-13), poiché Z ∈ mFt0 , f ∈ m(BN ⊗ FTW ) con Ft0 e FtW σ -algebre
indipendenti per l’Osservazione 19.1.3 e f ≥ 0)
h i
= E f (Z, ·) | Ft0 .
Applicando il valore atteso abbiamo anche
E [f (Z, ·)] = 0
e quindi X t0 ,Z in (22.2.2) è soluzione della SDE (22.1.2) e lo è anche in senso forte perché è chiaramente
adattato a F Z,W .
(3) Per t0 ≤ t ≤ s ≤ T , con uguaglianze che valgono quasi certamente, si ha
Zs Zs
t0 ,Z t0 ,Z t ,Z
Xs = Z + b(r, Xr )dr + σ (r, Xr 0 )dWr
t0 t0
Z s Z s
t ,Z t ,Z
=Z+ b(r, Xr 0 )dr + σ (r, Xr 0 )dWr
t0 t0
Z s Z s
t ,Z t ,Z
+ b(r, Xr 0 )dr + σ (r, Xr 0 )dWr
t t
Zs Zs
t0 ,Z t0 ,Z t ,Z
= Xt + b(r, Xr )dr + σ (r, Xr 0 )dWr ,
t t
t ,Z
ossia X t0 ,Z è soluzione su [t, T ] della SDE (22.1.2) con dato iniziale Xt 0 . D’altra parte, per quanto pro-
t ,Z t0 ,Z
vato al punto (2), anche X t,Xt 0 è soluzione della stessa SDE. Per unicità, i processi X t0 ,Z e X t,Xt sono
indistinguibili su [t, T ]. Ciò prova la (22.2.3) e conclude la prova del teorema.
22.3 Proprietà di Markov

In questa sezione mostriamo che la soluzione di una SDE è un processo di Markov continuo (una dif-
fusione). Nel seguito facciamo riferimento ai risultati della Sezione 7.5 sull’operatore caratteristico di un
processo di Markov.
Teorema 22.3.1 (Proprietà di Markov). Assumiamo che i coefficienti b, σ verifichino le ipotesi di crescita
lineare (19.2.1) e Lipschitzianità locale (22.1.1). Se X ∈ SDE(b, σ , W , Ft ) allora X è un processo di Markov
con legge di transizione p dove, per ogni t0 ≤ t ≤ s ≤ T e x ∈ RN , p = p(t, x; s, ·) è la legge della variabile
aleatoria Xst,x ossia della soluzione della SDE con condizione iniziale x al tempo t, calcolata al tempo s.
L’operatore caratteristico di X è
N N
1X X
At = cij (t, x)∂xi xj + bj (t, x)∂xi , cij := (σ σ ∗ )ij . (22.3.1)
2
i,j=1 j=1
Dimostrazione. Osserviamo che p è una legge di transizione secondo la Definizione 7.1.1. Infatti, si ha:
i) per ogni x ∈ RN , per definizione, p(t, x; s, ·) è una distribuzione tale che p(t, x; t, ·) = δx ;
ii) per ogni H ∈ BN h i
x 7→ p(t, x; s, H) = E 1H Xst,x ∈ mBN
grazie alla proprietà di misurabilità (22.2.1) e al teorema di Fubini.
Proviamo che p è una legge di transizione per X: in base alla Definizione 7.1.1, si tratta di verificare che
p(t, Xt ; s, H) = P (Xs ∈ H | Xt ), t0 ≤ t ≤ s ≤ T , H ∈ BN .
Xt0 ,W
Poiché, per unicità, X è indistinguibile dalla soluzione X t0 ,Xt0 ∈ SDE(b, σ , W , Ft ) costruita nel Teorema
22.2.1, dalla proprietà di flusso (22.2.3) si ha che quasi certamente vale
t,Xt
Xs = Xs per ogni s ∈ [t, T ].
Pertanto, si ha
P (Xs ∈ H | Xt ) ≡ E [1H (Xs ) | Xt ]
h t,X i
= E 1H Xs t | Xt =
(per la (5.2.7) del Lemma di freezing, essendo Xt ∈ mFt e quindi, per l’Osservazione 19.1.3, indipendente
da FsW e (x, ω) 7→ 1H (Xst,x (ω)) ∈ m(BN ⊗ FsW ) grazie alla (22.2.1))
h i
= E 1H (Xst,x ) |x=Xt = p(t, Xt ; s, H).
22.3. PROPRIETÀ DI MARKOV 449
D’altra parte, basta ripetere i passaggi precedenti, condizionando a Ft invece che a Xt , per provare la
proprietà di Markov
p(t, Xt ; s, H) = P (Xs ∈ H | Ft ), 0 ≤ t0 ≤ t ≤ s ≤ T , H ∈ BN .
Infine, il fatto che At sia l’operatore caratteristico di X è stato dimostrato nella Sezione 20.1 (in particolare
si confronti la (20.1.1) con la definizione (7.5.5)).
Osservazione 22.3.2. Nelle ipotesi del Teorema 22.3.1, per la proprietà di Markov si ha
E [ϕ(XT ) | Ft ] = u(t, Xt ), ϕ ∈ bB,
dove Z
u(t, x) := p(t, x; T , dy)ϕ(y).
R
Ricordiamo che, per i risultati delle Sezioni 7.5.3 e 7.5.2, la legge di transizione p è soluzione delle equazioni
di Kolmogorov backward e forward, date rispettivamente da
(∂t + At )p(t, x; s, dy) = 0, (∂s − As∗ )p(t, x; s, dy) = 0, t0 ≤ t < s ≤ T ,
dove As∗ indica l’operatore (che agisce nelle variabili forward (s, y)) aggiunto di At in (22.3.1).
Osservazione 22.3.3 (Equazione di Kolmogorov forward). L’equazione di Kolmogorov forward di una dif-
fusione X può essere ricavata con un’applicazione diretta della formula di Itô. Sotto le ipotesi del Teorema
22.3.1, indichiamo con X t,x la soluzione della SDE (22.1.2) con dato iniziale Xtt,x = x. Data una funzione
test ϕ ∈ C0∞ (R × RN ), col supporto compatto contenuto in ]t, T [×RN , per la formula di Itô si ha
ZT ZT
t,x t,x
0 = ϕ(T , XT ) − ϕ(t, x) = (∂s + As ) ϕ(s, Xs )ds + ∇ϕ(s, Xst,x )σ (s, Xst,x )dWs
t t
dove At è l’operatore caratteristico in (22.3.1). Applicando il valore atteso, otteniamo

"Z T # ZTZ
t,x
0=E (∂s + As ) ϕ(s, Xs )ds = (∂s + As ) ϕ(s, y)p(t, x; s, dy)ds (22.3.2)
t t RN
dove p(t, x; s, dy) indica la legge della v.a. Xst,x che, per il Teorema 22.3.1, è la legge di transizione del
processo di Markov X.
Per la (22.3.2), per ogni t ≥ 0 vale
"
(∂s + As ) ϕ(s, y)p(t, x; s, dy)ds = 0, ϕ ∈ C0∞ (]t, +∞[×RN ),
RN +1
e quindi ritroviamo il risultato della Sezione 7.5.3 secondo cui p è soluzione distribuzionale dell’equazione
di Kolmogorov forward
(∂s − As∗ ) p(t, x; s, ·) = 0, s > t. (22.3.3)
In particolare, se p è assolutamente continua con densità Γ , ossia
Z
p(t, x; t, H) = Γ (t, x; t, x)dx, H ∈ BN ,
H
allora Γ (t, x; t, x) è soluzione distribuzionale della (22.3.3), ossia vale

"
Γ (t, x; s, y) (∂s + As ) ϕ(t, x)dyds = 0, ϕ ∈ C0∞ (]t, +∞[×RN ),
RN +1
e si dice che (s, y) 7→ Γ (t, x; s, y) è soluzione fondamentale dell’operatore forward ∂s − As∗ con polo in (t, x).
22.4 Dipendenza continua dai parametri

Teorema 22.4.1 (Stime di dipendenza continua dai parametri). Sotto le ipotesi standard (19.2.1)-(19.2.2),
siano X t0 ,Z0 e X t1 ,Z1 soluzioni della SDE (22.1.2), rispettivamente con dati iniziali (t0 , Z0 ) e (t1 , Z1 ) con
0 ≤ t0 ≤ t1 ≤ t2 ≤ T . Allora per ogni p ≥ 2 esiste una costante positiva c = c(T , d, N , p, c1 , c2 ) tale che
 
t1 ,Z1 p  p p

t0 ,Z0

 p p
E  sup Xt − Xs  ≤ cE [|Z0 − Z1 | ] + c (1 + E [|Z1 | ]) |t1 − t0 | 2 + |T − t2 | 2 . (22.4.1)
 
t2 ≤t,s≤T
Dimostrazione. Per la disuguaglianza elementare (19.2.6) si ha

 p   p 
 t 0 ,Z0 t 1 ,Z1 p−1  t0 ,Z0 t0 ,Z1
E  sup Xt − Xs  ≤ 3 E  sup X − Xt
 
  t 
t2 ≤t,s≤T t2 ≤t≤T
 p    p 
p−1  t 0 ,Z 1 t 1 ,Z 1 p−1  t 1 ,Z1 t 1 ,Z1
+ 3 E  sup Xt − Xt  + 3 E  sup X − Xs  .(22.4.2)
 
  t 
t2 ≤t≤T t2 ≤t,s≤T
Ancora per la (19.2.6) e la (19.2.5) si ha

" # Zt
t ,Z p p−2

t ,Z
v(t) := E sup Xs 0 0 − Xs 0 1 ≤ 2p−1 E [|Z0 − Z1 |p ] + 2p−1 c̄2 T 2 v(s)ds,
t0 ≤s≤t t0
e, per il lemma di Gronwall,

 p 
 t 0 ,Z 0 t 0 ,Z 1  ≤ v(T ) ≤ cE [|Z0 − Z1 |p ]
E  sup Xt − Xt  (22.4.3)
t2 ≤t≤T
con c che dipende solo da p, T e c2 .

D’altra parte, per la proprietà di flusso abbiamo
 p   t ,Z
p 

X t0 ,Z1 − X t1 ,Z1  = E  sup
 t1 ,Xt10 1 t1 ,Z1 
E  sup Xt − Xt  ≤

t t  
t2 ≤t≤T t2 ≤t≤T
(per la (22.4.3))
p
t ,Z
≤ cE Xt10 1 − Z1 ≤
(per la (19.2.4))
p−2
Z t1 " #!
t ,Z
≤ cc̄1 |t1 − t0 | 2 1 + E sup |Xr 0 1 |p ds ≤
t0 t0 ≤r≤s
(per la stima Lp (19.3.1), con una nuova costante c = C(T , d, N , p, c1 , c2 ))

p
≤ c(1 + E [|Z1 |p ])|t1 − t0 | 2 .
L’ultimo termine della (22.4.2) si stima in modo completamente analogo e questo conclude la prova.
Corollario 22.4.2 (Proprietà di Feller e di Markov forte). Sotto le ipotesi standard (19.2.1)-(19.2.2) e le
ipotesi usuali sulla filtrazione, ogni X ∈ SDE(b, σ , W , Ft ) è un processo di Feller e soddisfa la proprietà di
Markov forte.
22.4. DIPENDENZA CONTINUA DAI PARAMETRI 451
Dimostrazione. Per il Teorema 22.3.1, X è un processo di Markov con legge di transizione p = p(t, x; T , ·)
dove, per ogni t, T ≥ 0 con t ≤ T e x ∈ RN , p(t, x; T , ·) è la legge della v.a. XTt,x . Per la (22.4.1) e il Teorema 9.3.1
di continuità di Kolmogorov (nella versione multidimensionale del Teorema 9.3.4), il processo (t, x, T ) 7→
XTt,x ammette una modificazione Xt,x T con traiettorie localmente α-Hölderiane per ogni α ∈ [0, 1[ rispetto
alla cosiddetta distanza “parabolica”: precisamente, per ogni α ∈ [0, 1[, n ∈ N e ω ∈ Ω esiste cα,n,ω > 0 tale
che
1 α
1

s,y
Xt,x
r (ω) − Xu (ω) ≤ cα,n,ω |x − y| + |t − s| 2 + |r − u| 2 ,
per ogni t, s, r, u ∈ [0, T ] tali che t ≤ r, s ≤ u, e per ogni x, y ∈ RN tali che |x|, |y| ≤ n. Di conseguenza, per ogni
ϕ ∈ bC(RN ) e h > 0, la funzione
Z
p(t, x; t + h, dy)ϕ(y) = E ϕ(Xt,x
h i
(t, x) 7−→ t+h )
RN
è continua grazie al teorema della convergenza dominata e questo prova che X è un processo di Feller. La
proprietà di Markov forte segue dal Teorema 12.1.2.
Capitolo 23
Soluzioni deboli
Trascorro molte ore a gironzolare per

le vie di Palermo, bevendo caffè nero
forte e chiedendomi che cos’ho che
non va. Ce l’ho fatta - sono il
tennista numero uno al mondo,
eppure mi sento vuoto.
Andre Agassi [1]
23.1 Trasferimento di soluzioni

Fissati N , d ∈ N e T > 0, consideriamo una SDE con coefficienti
b = b(t, x) : ]0, T [×RN −→ RN , σ = σ (t, x) : ]0, T [×RN −→ RN ×d .
Sia inoltre µ0 una distribuzione su RN che utilizzeremo come condizione iniziale della SDE. Richiamiamo
la Definizione 19.1.9 di risolubilità in senso debole.
Definizione 23.1.1 (Soluzione debole). La SDE di coefficienti b, σ e legge iniziale µ0 è risolubile in senso
debole se esistono un set-up (W , Ft ) e una soluzione X ∈ SDE(b, σ , W , Ft ) tale che X0 ∼ µ: allora vale quasi
certamente Z t Z t
Xt = X0 + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [0, T ],
0 0
e diciamo che la coppia (X, W ) è soluzione debole della SDE di coefficienti b, σ e legge iniziale µ0 .
Osservazione 23.1.2. [!] Per provare che una SDE è risolubile in senso debole occorre costruire non solo il
processo X ma anche il set-up (W , Ft ) rispetto al quale è scritta la SDE: per questo motivo generalmente si
indica come soluzione la coppia (X, W ) e non solo il processo X.
Vediamo ora che è sempre possibile trasferire il problema della risolubilità debole di una SDE in un “ambiente
canonico”.
Notazione 23.1.3. Dato n ∈ N, indichiamo con
Ωn = C([0, T ]; Rn )
453
454 CAPITOLO 23. SOLUZIONI DEBOLI
lo spazio delle traiettorie continue n-dimensionali munito della filtrazione (Gtn )t∈[0,T ] generata dal processo
identità
It (w) := w(t), w ∈ Ωn , t ∈ [0, T ],
e della σ -algebra di Borel1 GTn . Indicata con µX,W la legge di una soluzione (X, W ) di una SDE, ricordiamo
che se (X, W ) è definita sullo spazio (Ω, F , P ) allora µX,W è la misura di probabilità su ΩN +d = ΩN × Ωd
definita da
µX,W (H) = P ((X, W ) ∈ H), H ∈ GTN +d .
Nel seguito utilizzeremo ripetutamente il fatto che ΩN +d è uno spazio polacco sul quale è possibile
definire una versione regolare della probabilità condizionata grazie al Teorema 5.3.2.
Il seguente lemma è un ingrediente cruciale in tutta l’analisi successiva.
Lemma 23.1.4 (Trasferimento di soluzioni). [!] Se (X, W ) è una soluzione debole della SDE di coefficienti
b, σ e legge iniziale µ0 , allora il processo canonico (X, W) definito da
Xt (x, w) := x(t), Wt (x, w) := w(t), (x, w) ∈ ΩN +d , t ∈ [0, T ],
è soluzione debole della SDE di coefficienti b, σ e legge iniziale µ0 sullo spazio (ΩN +d , GTN +d , µX,W ).
Dimostrazione. Abbiamo lo schema

(X,W ) (X,W)
(Ω, F , P ) −−−−−−−→ (ΩN +d , GTN +d , µX,W ) −−−−−−→ (ΩN +d , GTN +d )
d
e per costruzione vale (X, W ) = (X, W). Il fatto che W sia un moto Browniano è conseguenza dell’uguaglian-
za in legge di (X, W ) e (X, W), e quindi in particolare di W e W. Supponiamo per il momento che la legge
iniziale sia µ0 = δx0 per un certo x0 ∈ RN e quindi X0 = x0 q.c. Posto
Z t Z t Z t Z t
Jt := b(s, Xs )ds + σ (s, Xs )dWs , Jt := b(s, Xs )ds + σ (s, Xs )dWs ,
0 0 0 0
si ha che (X, W , J) e (X, W, J) sono uguali in legge per il Corollario 15.2.27. Pertanto X−x0 −J è indistinguibile
dal processo nullo e questo prova la tesi.
Il caso in cui il dato iniziale X0 è aleatorio con legge µ0 , si tratta in modo simile condizionando a X0 .
Precisamente, per alleggerire le notazioni, poniamo P := µX,W : per il Teorema 5.3.2 esiste una versione

regolare P(· | X0 ) = Px,w (· | X0 ) (x,w)∈Ωd+N della probabilità P condizionata a X0 . Per P-quasi ogni (x, w) ∈
ΩN +d , nella misura Px,w (· | X0 ) il processo (X, W) ha la stessa legge di (X̂, W ) dove X̂ è soluzione della SDE
di coefficienti b, σ e dato iniziale X̂0 = x(0), rispetto a W . Allora, per quanto provato in precedenza, per
P-quasi ogni (x, w) ∈ ΩN +d , nella misura Px,w (· | X0 ) il processo (X, W) è soluzione della SDE di coefficienti
b, σ e dato iniziale x(0), relativa a W. Per concludere, è sufficiente osservare che, posto
Zt Zt

Z = sup Xt − X0 − b(s, Xs )ds − σ (s, Xs )dWs
0≤t≤T 0 0
per la formula della probabilità totale si ha E [Z] = E [E [Z | X0 ]] = 0.
23.2 Soluzioni deboli vs forti

Il seguente risultato stabilisce le relazioni fra risolubilità e unicità per una SDE in senso debole e forte,
secondo le Definizioni 19.1.9 e 19.1.11.
1 Nella Proposizione 9.2.1 avevamo visto che, nello spazio delle traiettorie continue, la σ -algebra generata dai cilindri (o,
equivalentemente, dal processo identità) coincide con la σ -algebra di Borel.
23.2. SOLUZIONI DEBOLI VS FORTI 455
Teorema 23.2.1 (Yamada e Watanabe [127]). [!]

i) Se una SDE è risolubile in senso forte allora lo è anche in senso debole;
ii) se per una SDE si ha unicità in senso forte allora si ha anche unicità in senso debole;
iii) se per una SDE si ha risolubilità in senso debole ed unicità in senso forte allora si ha risolubilità in
senso forte.
Dimostrazione. Diamo una traccia sufficientemente dettagliata della prova e rimandiamo al Capitolo 8 in
[118] per la trattazione completa (si vedano anche il Teorema 21.14 e Lemma 21.17 in [57] o la Sezione V.17
in [105]).
[i)] È sufficiente costruire un set-up per dedurre la risolubilità debole da quella forte. Più precisamente,
assegnata una distribuzione µ0 su RN , consideriamo lo spazio canonico RN × Ωd munito della filtrazione
(Gt )t∈[0,T ] generata dal processo identità
(Z, W) : RN × Ωd −→ RN × Ωd , Z(z, w) = z, Wt (z, w) = w(t), t ∈ [0, T ],

e della misura prodotto µ0 ⊗ µW , dove µW è la legge di un moto Browniano d-dimensionale. Allora Z ∼ µ0
è G0 -misurabile e W è un moto Browniano (rispetto a Gt ). Dunque, per l’ipotesi di risolubilità forte, esiste
una soluzione X relativa al set-up (W, Gt ) e tale che X0 = Z ∼ µ0 .
[ii)] Tralasciamo il caso in cui il dato iniziale è aleatorio: questo può essere trattato in modo completamente
analogo alla seconda parte della dimostrazione del Lemma 23.1.4 (per i dettagli si può vedere, per esempio,
la Proposizione IX.1.4 in [103]).
Consideriamo dunque due soluzioni X i ∈ SDE(b, σ , W i , Fti ) tali che X0i = x ∈ RN quasi certamente, per
i = 1, 2. Proviamo che l’ipotesi di unicità forte implica che (X 1 , W 1 ) e (X 2 , W 2 ) sono uguali in legge. Il
problema è che le soluzioni X 1 e X 2 sono in generale definite su spazi campionari differenti: quindi l’idea
è di costruire delle versioni di X 1 e X 2 che siano soluzioni della SDE sullo stesso spazio e relativamente
allo stesso Browniano. A tal fine costruiamo uno spazio canonico su cui siano definiti tre processi: un moto
Browniano e le versioni di X 1 e X 2 .
Per il Teorema 5.3.4 (e l’Osservazione 5.3.5) esiste una versione regolare µX i |W i = µX i |W i (·; w) della
w∈Ωd
legge di X i condizionata a W i : per ogni w ∈ Ωd , µX i |W i (·; w) è una distribuzione sui Boreliani GTN di ΩN e
vale2
Z h h i i
µX i |W i (H; w)µW (dw) = E E 1H (X i ) | W i 1A (W i ) = µX i ,W i (H × A), (H, A) ∈ GTN × GTd . (23.2.1)
A
Ora sullo spazio delle traiettorie ΩN × ΩN × Ωd definiamo la misura di probabilità3

Z
P(H × K × A) := µX 1 |W 1 (H; w)µX 2 |W 2 (K; w)µW (dw), (H, K, A) ∈ GTN × GTN × GTd , (23.2.2)
A
e indichiamo con (X1 , X2 , W) il processo canonico su tale spazio. Posto rispettivamente H = ΩN oppure
K = ΩN in (23.2.2), per la (23.2.1) si ha
d
(Xi , W) = (X i , W i ), i = 1, 2, (23.2.3)
da cui si ricava in particolare che W è un moto Browniano nella misura P e, come nella dimostrazione del
Lemma 23.1.4, X1 e X2 sono entrambe soluzioni della SDE di coefficienti b, σ e con dato iniziale x, relative
a W. Per l’unicità in senso forte si ha che X1 e X2 sono indistinguibili nella misura P e quindi
d d
(X 1 , W 1 ) = (X1 , W) = (X2 , W) = (X 2 , W 2 ).
2 Qui µ ≡ µ
W W i , i = 1, 2, è la misura di Wiener su Ωd .
3 P si estende alla σ -algebra prodotto G N ⊗ G N ⊗ G d = G 2N +d .
T T T T
[iii)] Anche per questo punto consideriamo solo il caso di un dato iniziale deterministico. Sia dunque
X ∈ SDE(b, σ , W , Ft ) una soluzione con dato iniziale X0 = x ∈ RN q.c. Applichiamo la costruzione del punto
ii) con X 1 = X 2 = X, ossia costruiamo sullo spazio ΩN × ΩN × Ωd la misura P come in (23.2.2) e il processo
canonico (X1 , X2 , W) in cui X1 , X2 sono entrambe versioni di X e sono soluzioni della SDE rispetto al moto
Browniano W.
Consideriamo la probabilità condizionata P(· | W) = (Pw (· | W))w∈Ωd e le relative leggi condizionate
µXi |W (H) = P(Xi ∈ H | W), H ∈ ΩN , i = 1, 2,
osservando che µXi |W = µX|W per la (23.2.3). Si verifica4 che le variabili aleatorie X1 e X2 sono contempora-
neamente uguali q.c. e indipendenti in Pw (· | W) per quasi ogni w ∈ Ωd e quindi5 X1 e X2 hanno come legge in
Pw (· | W) una delta di Dirac. In altri termini, per quasi ogni w ∈ Ωd si ha µX|W (H; w) = µXi |W (H; w) = δF(w)
per una certa mappa misurabile F da Ωd a ΩN e quindi X = F(W ) q.c. Per concludere occorre mostrare che
X è adattato alla filtrazione standard Browniana F W : per la prova di questo fatto, basata sulle proprietà
della versione regolare della probabilità condizionata, rimandiamo6 al Problema 3.21 a pag.310 in [58].
Osservazione 23.2.2. [!] Nell’Osservazione 19.1.7 avevamo sottolineato il fatto che le soluzioni forti si di-
stinguono dalle deboli per la proprietà di essere adattate alla filtrazione standard Browniana (assumendo
per semplicità che il dato iniziale sia deterministico): questa proprietà di misurabilità è ben espressa dal-
la dipendenza funzionale X = F(W ) provata nella dimostrazione precedente, per cui una soluzione forte
(X, W ) può essere costruita sullo spazio canonico Ωd . Al contrario, il Lemma 23.1.4 mostra che ogni solu-
zione debole può essere “trasportata” sullo spazio canonico ΩN × Ωd . Ciò significa che le soluzioni deboli
richiedono in generale uno spazio campionario più ricco, in cui le traiettorie della soluzione (elementi di
ΩN ) non sono necessariamente funzionali delle traiettorie del Browniano (elementi di Ωd ): è questo il caso
dell’Esempio 19.1.10 di Tanaka.
23.3 Problema della martingala

Per introdurre il “problema della martingala” di Stroock e Varadhan [118], supponiamo che (X, W ) sia
una soluzione di una SDE di coefficienti b, σ e indichiamo con µX,W la sua legge. Per il Lemma 23.1.4, sullo
spazio canonico (ΩN +d , GTN +d , µX,W ) il processo (X, W) è soluzione della SDE di coefficienti b, σ : ne segue
che il processo
Zt
Mt := Xt − b(s, Xs )ds (23.3.1)
0
4 Infatti, per l’ipotesi di unicità forte si ha P(X1 = X2 ) = 1 da cui
E P(X1 = X2 | W) = E P(X1 = X2 ) = 1
h i h i
ed essendo P(X1 = X2 | W) ≤ 1, si deduce anche Pw (X1 = X2 | W) = 1 per quasi ogni w ∈ Ωd . Inoltre, dalla definizione (23.2.2) di P non
è difficile verificare che la legge congiunta condizionata di X1 , X2 è il prodotto delle marginali
µX1 ,X2 |W (H × K) = P (X1 , X2 ) ∈ H × K | W = µX|W (H)µX|W (K) = µX1 |W (H)µX2 |W (K),

H, K ∈ ΩN ,
da cui l’indipendenza per quasi ogni w ∈ Ωd .

5 Si provi, per esercizio, che se X, Y sono variabili aleatorie reali su uno spazio (Ω, F , P ), uguali q.c. e indipendenti, allora X ∼ δ
x0
per un certo x0 ∈ R. Si provi che un risultato analogo vale per X, Y a valori nello spazio Ωn .
6 In effetti, in [58] si prova di più (si veda anche il Remark 2 pag.310 in [103]): evidenziando la dipendenza dal dato iniziale
x ∈ RN , la funzione F = F(x, w) è misurabile congiuntamente e, per Z ∈ mF0 , X = F(Z, W ) è soluzione forte della SDE con dato iniziale
aleatorio X0 = Z.
23.3. PROBLEMA DELLA MARTINGALA 457
è una martingala locale7 rispetto alla filtrazione GtN +d , con processo covariazione
Z t
i j
⟨M , M ⟩t := cij (s, Xs )ds, (cij ) := σ σ ∗ .
0
Inoltre, per definizione di processo covariazione o con una verifica diretta con la formula di Itô, anche i
processi
Zt
ij i j
Mt := Mt Mt − cij (s, Xs )ds, i, j = 1, . . . , N , (23.3.2)
0
sono martingale locali.
Ora, non è difficile verificare che, indicato ancora con X il processo identità sullo spazio (ΩN , GTN , µX ),
i processi definiti su tale spazio formalmente come in (23.3.1)-(23.3.2) sono martingale locali rispetto alla
filtrazione GtN generata da X: in altri termini, possiamo ignorare la componente Browniana W che in effetti
non appare nella definizione di Mi e Mij . Ciò motiva la seguente
Definizione 23.3.1 (Problema della martingala). Una soluzione del problema della martingala per b, σ è
una misura di probabilità sullo spazio canonico ΩN tale che i processi Mi , Mij in (23.3.1)-(23.3.2) sono
martingale locali rispetto alla filtrazione GtN generata dal processo identità X.
Abbiamo visto che se (X, W ) è soluzione della SDE di coefficienti b, σ allora µX è soluzione del problema
della martingala per b, σ . Mostriamo ora un risultato nella direzione opposta che ci permette di concludere
che i problemi della martingala e della risolubilità debole di una SDE sono equivalenti.
Teorema 23.3.2 (Stroock e Varadhan). [!] Se µ è una soluzione del problema della martingala per b, σ
allora esiste una soluzione della SDE di coefficienti b, σ con legge iniziale µ0 (H) = µ(X0 ∈ H), H ∈ BN .
Dimostrazione. Diamo la dimostrazione solo nel caso scalare N = d = 1 e rimandiamo, per esempio, alla
Sezione 5.4.B in [58] per il caso generale. Il fatto che µ sia una soluzione del problema della martingala per
b, σ , significa che il processo definito su (ΩN , GTN , µ) come in (23.3.1)
Z t
Mt = Xt − b(s, Xs )ds
0
è una martingala locale con processo variazione quadratica d⟨M⟩t = σ 2 (t, Xt )dt.
Se σ (t, x) , 0 per ogni (t, x), la prova è molto semplice: infatti il processo
Z t
1
Bt := dMs
0 σ (s, Xs )
è una martingala locale con variazione quadratica

Z t
1
⟨B⟩t = d⟨M⟩s = t.
0 σ 2 (s, Xs )
Allora, per il Teorema 17.5.1 di caratterizzazione di Lévy, B è un moto Browniano ed essendo dBt =
σ −1 (t, Xt )dMt = σ −1 (t, Xt ) (dXt − b(t, Xt )dt), si ha
Z t Z t
σ (s, Xs )dBs = Xt − X0 − b(s, Xs )ds,
0 0
7 Essendo
Zt
Mt = X0 + σ (s, Xs )dWs .
0
ossia (X, B) è una soluzione della SDE di coefficienti b, σ . Si noti che la soluzione (X, B) è definita sullo
spazio (ΩN , GTN , µ).
Nel caso generale, consideriamo lo spazio (ΩN +d , GTN +d , µ ⊗ µW ) dove µW è la misura di Wiener d-
dimensionale e il processo canonico (X, W) è tale che W è un moto Browniano d-dimensionale. Poniamo
Jt = 1(σ (t,Xt ),0) e
Zt Zt
Js
Bt = dMs + (1 − Js )dWs .
0 σ (s, Xs ) 0
Ancora B è un moto Browniano reale poiché è una martingala locale con variazione quadratica
Jt Jt (1 − Jt )
d⟨B⟩t = 2
d⟨M⟩t + (1 − Jt )d⟨W⟩t + d⟨M, W⟩t = dt.
σ (t, Xt ) σ (t, Xt )
Inoltre, poiché (1 − Jt )σ (t, Xt ) = 0, si ha

Z t Z t Z t Z t
σ (s, Xs )dBs = Js dMs = Mt − M0 + (Js − 1)dMs = Xt − X0 − b(s, Xs )ds
0 0 0 0
dove nell’ultimo passaggio abbiamo usato il fatto che, per l’isometria di Itô,
 Zt !2  "Z t #
  2
E  (Js − 1)dMs  = E
 (Js − 1)σ (s, Xs )ds = 0.
0 0
Osservazione 23.3.3. Nella dimostrazione precedente notiamo che nel caso non degenere σ , 0, il moto
Browniano B è costruito come funzionale di X e quindi lo spazio ΩN è sufficiente a “supportare” la solu-
zione (X, B) della SDE. È nel caso degenere, in cui σ si può annullare, che entra in gioco il moto Browniano
W e quindi è necessario definire la soluzione sullo spazio “allargato” ΩN +d .
23.4 Risolubilità debole

Teorema 23.4.1 (Skorokhod). [!]
23.5. UNICITÀ IN LEGGE 459
Il resto del capitolo è provvisorio e in fase di costruzione.
23.5 Unicità in legge

23.6 Unicità forte: regolarizzazione con rumore
Capitolo 24
Complementi
Il giorno in cui un uomo si rende

conto di non poter sapere tutto, è un
giorno di lutto. Poi arriva il giorno
in cui lo sfiora il sospetto che non
potrà sapere molte cose; ed infine
quel pomeriggio d’autunno in cui gli
sembrerà di non aver mai saputo
troppo bene quel che riteneva di
conoscere.
Julien Green
In questo capitolo indichiamo in maniera informale e succinta alcune direzioni in cui si può estendere
la teoria delle equazioni differenziali stocastiche. Forniamo alcuni riferimenti bibliografici per chi volesse
approfondire uno di questi filoni di studio.
24.1 Equazioni stocastiche backward

Nei capitoli precedenti abbiamo esaminato problemi per equazioni differenziali stocastiche (SDE) in cui
è assegnato un dato iniziale. In alcuni applicazioni, per esempio nella teoria del controllo ottimo stocastico
o in finanza matematica, sorgono problemi in cui risulta naturale assegnare un dato finale: si parla in questo
caso di SDE backward o BSDE. L’esempio più elementare è

dYt = 0,


(24.1.1)
YT = η.


Se il dato η ∈ RN non è aleatorio, la (24.1.1) è una semplice ODE con soluzione costante Y ≡ η. La situazio-
ne è profondamente diversa se ambientiamo il problema in uno spazio (Ω, F , P ) su cui è definito un moto
Browniano W con filtrazione standard F W e assumiamo η ∈ mFTW : infatti, per rimanere nell’ambito del
calcolo stocastico classico di Itô, vorremmo che la soluzione Y fosse un processo adattato e quindi la solu-
zione costante uguale a η non è accettabile. Il primo problema è quindi quello di formulare correttamente
il concetto di soluzione di una BSDE.
Per ogni η ∈ L2 (Ω, FTW , P ), il processo adattato che meglio (in norma L2 ) approssima il processo costante
uguale a η è h i
Yt := E η | FtW , t ∈ [0, T ]. (24.1.2)
461
462 CAPITOLO 24. COMPLEMENTI
Da questo punto di vista, il processo Y in (24.1.2) è il candidato naturale ad essere soluzione della BSDE
(24.1.1). Chiaramente non è detto che Y in (24.1.2) verifichi l’equazione dYt = 0. Anzi, poiché Y è una F W -
martingala di quadrato sommabile, per il Teorema 18.5.1 di rappresentazione delle martingale Browniane
esiste ed è unico Z ∈ L2 tale che
Zt ZT ZT
Yt = Y0 + Zs dWs = Y0 + Zs dWs − Zs dWs .
0 0 t
| {z }
=η
Ciò significa che Y verifica la SDE forward


dYt = Zt dW ,

RT t

 (24.1.3)
Y0 = η − Zs dWs .

0
Anche se non sembra ovvio, non è difficile dimostrare che (Y , Z) è l’unica coppia di processi di L2 che
verifica la (24.1.3): infatti se la (24.1.3) fosse soddisfatta anche da (Y ′ , Z ′ ) ∈ L2 allora, posto A = Y − Y ′ e
B = Z − Z ′ , si avrebbe 
dAt = Bt dWt ,


AT = 0.


Per la formula di Itô, si ha

dA2t = 2At dAt + d⟨A⟩t
e quindi
Z T Z T
At = − 2As dAs − B2s ds
t t
da cui " Z T # "Z T #
E A2t + B2s ds =E 2As dAs = 0
t t
dove l’ultima uguaglianza è dovuta al fatto che A, e quindi anche l’integrale stocastico, è una martingala.
In base a quanto appena provato, la seguente definizione è ben posta.
Definizione 24.1.1. Sia W un moto Browniano sullo spazio (Ω, F , P ) con filtrazione standard F W . Si dice
che la coppia (Y , Z) ∈ L2 , unica soluzione della SDE (24.1.3), è la soluzione adattata della BSDE (24.1.1) con
dato finale η ∈ L2 (Ω, FTW , P ).
Osserviamo che per definizione vale 

dYt = Zt dWt ,


YT = η.


In modo analogo si studiano equazioni backward più generali della forma


dYt = f (t, Yt , Zt )dt + Zt dWt ,


YT = η.


Sotto ipotesi standard di Lipschitzianità del coefficiente f = f (t, y, z) nelle variabili (y, z), si prova l’esistenza
e unicità della soluzione adattata (Y , Z): si veda, per esempio, il Teorema 4.2, Capitolo 1 in [79].
Spesso una BSDE è accoppiata a una SDE forward del tipo
dXt = b(t, Xt )dt + σ (t, Xt )dWt .

24.2. FILTRAGGIO STOCASTICO ED EQUAZIONE DEL CALORE STOCASTICA 463
Data u = u(t, x) ∈ C 1,2 ([0, T [×RN ), applicando la formula di Itô a Yt := u(t, Xt ) otteniamo
dYt = (∂t + At )u(t, Xt )dt + Zt dWt
dove At è l’operatore caratteristico di X e
Zt := (∇x u)(t, Xt )σ (t, Xt ).
In particolare, se u è soluzione del problema di Cauchy quasi-lineare


(∂t + At )u(t, x) = f (t, x, u(t, x), ∇x u(t, x)σ (t, x)) (t, x) ∈ [0, T [×RN ,


(24.1.4)
u(T , x) = ϕ(x) x ∈ RN ,


allora (X, Y , Z) risolve il sistema di equazioni forward-backward (FBSDE)




 dXt = b(t, Xt )dt + σ (t, Xt )dWt ,

dYt = f (t, Xt , Yt , Zt )dt + Zt dWt , (24.1.5)




YT = ϕ(XT ).

Sotto opportune ipotesi che garantiscono l’esistenza di una soluzione1 del problema (24.1.4), per costruzio-
ne si ha
u(t, x) = Ytt,x (24.1.6)
dove Y t,x è la soluzione della FBSDE (24.1.5) con dato iniziale Xt = x. La (24.1.6) è chiamata formula di
Feynman-Kac non-lineare perché generalizza la classica formula di rappresentazione della Sezione 20.4.
La motivazione principale per lo studio delle BSDE viene dalla teoria del controllo ottimo stocastico,
a partire dai lavori [20] e [16]; alcune applicazioni alla finanza matematica sono discusse in [37]. I primi
risultati di esistenza e di rappresentazione di tipo Feynman-Kac non-lineare sono dovuti a [92], [96] e [2].
Come testi monografici di riferimento sulla teoria delle equazioni backward indichiamo i libri di Ma e Yong
[79], Yong e Zhou [128], Pardoux e Rascanu [93] e Zhang [130].
24.2 Filtraggio stocastico ed equazione del calore stocastica

In questa sezione accenniamo alcune idee di base della teoria del filtraggio stocastico e, in un ca-
so semplice ed esplicito, introduciamo la nozione di equazione differenziale stocastica alle derivate parziali
(abbreviato in SPDE2 ), che interviene in modo naturale in questo tipo di problemi.
Dato (W , B) un moto Browniano standard bidimensionale, consideriamo il processo
√
Xtσ := σ Wt + 1 − σ 2 Bt , σ ∈ [0, 1].
Supponiamo che X σ rappresenti un segnale che viene trasmesso ma non è osservabile con precisione a
causa di qualche disturbo nella trasmissione: precisamente, assumiamo di poter osservare precisamente Wt ,
chiamato processo di osservazione, mentre il moto Browniano Bt rappresenta il rumore nella trasmissione.
è facile verificare che X σ è un moto Browniano reale per ogni σ ∈ [0, 1]. Il problema del filtraggio
stocastico consiste nell’ottenere la migliore stima del segnale X σ basandosi sull’osservazione W : in effetti
non è difficile provare che
µX σ |F W = Nσ Wt ,(1−σ 2 )t (24.2.1)
t t
1 Trattandosi di un problema non-lineare, la soluzione u è intesa in un senso generalizzato, per esempio come soluzione viscosa (si
veda, per esempio, il Teorema 2.1, Cap.8 in [79]).
2 Acronimo per Stochastic Partial Differential Equations.
dove µX σ |F W indica la legge di Xtσ condizionata alla σ -algebra FtW delle osservazioni su W fino al tempo t
t t
(qui F W è la filtrazione standard per W ). Per provare la (24.2.1) basta calcolare la funzione caratteristica
condizionata
σ
√
2
h i
ϕX σ |F W (η) = E eiηXt | FtW = eiησ Wt E eiη 1−σ Bt | FtW =
t t
(per l’indipendenza di W e B)
√
2
= eiησ Wt E eiη 1−σ Bt
da cui la (24.2.1). Osserviamo che in particolare:

• nel caso in cui non ci sia rumore, σ = 1, si ha Xtσ = Wt e µX σ |F W = δWt ossia la legge condizionata
t t
degenera in una distribuzione di Dirac;
• nel caso in cui non ci sia osservazione, σ = 0, allora Xtσ = Bt e la legge condizionata è ovviamente
µX σ |F W = N0,t con densità Gaussiana
t t
1 y2
Γ (s, y) = √ e− 2s , s > 0, y ∈ R. (24.2.2)
2πs
Se 0 ≤ σ < 1 allora Xtσ ha densità condizionata a FtW data da

pt (x) = Γ ((1 − σ 2 )t, x − σ Wt ), t > 0, x ∈ R. (24.2.3)
Se σ > 0, chiaramente la densità condizionata pt (x) è un processo stocastico: dal punto di vista pratico,
avendo a disposizione l’osservazione di Wt e inserendola in (24.2.3), si ottiene l’espressione della legge di
Xtσ stimata (o “filtrata”) in base a tale osservazione. Si noti che pt (x) è una Gaussiana con drift stocastico,
dipendente dall’osservazione, e varianza proporzionale a 1 − σ 2 . La Figura 24.1 rappresenta il grafico di
una simulazione della densità Gaussiana stocastica pt (x).
In analogia col caso non condizionato esaminato nella Sezione 7.5.3 e nell’Osservazione 22.3.3, pt (x) è
soluzione dell’equazione di Kolmogorov forward (di Fokker-Planck) che in questo caso è una SPDE: infatti,
ricordando l’espressione (24.2.3) di pt (x) in funzione di Γ = Γ (s, y) in (24.2.2), per la formula di Itô si ha
dpt (x) = (1 − σ 2 )(∂s Γ )((1 − σ 2 )t, x − σ Wt )dt − σ (∂y Γ )((1 − σ 2 )t, x − σ Wt )dWt
σ2
+ (∂ Γ )((1 − σ 2 )t, x − σ Wt )dt =
2 yy
(poiché Γ risolve l’equazione del calore forward ∂s Γ (s, y) = 12 ∂yy Γ (s, y))
1
= (∂ Γ )((1 − σ 2 )t, x − σ Wt )dt − σ (∂y Γ )((1 − σ 2 )t, x − σ Wt )dWt
2 yy
1
= ∂xx pt (x)dt − σ ∂x pt (x)dWt .
2
In altri termini, la densità condizionata pt (x) è soluzione fondamentale dell’equazione del calore stocastica
1
dpt (x) = ∂ p (x)dt − σ ∂x pt (x)dWt
2 xx t
che, nel caso σ = 0 in cui l’osservazione è nulla, degenera nella classica equazione del calore.
Fra le numerose monografie sulla teoria delle SPDE menzioniamo in particolare i libri di Rozovskii
[106], Kunita [66], Prévôt e Röckner [100], Kotelenez [64], Chow [26], Liu e Röckner [77], Lototsky e
Rozovskii [78] e Pardoux [91].
24.3. INTEGRALE STOCASTICO BACKWARD E SPDE DI KRYLOV 465
Figura 24.1: Grafico di una simulazione della soluzione fondamentale pt (x) dell’equazione del calore
stocastica
24.3 Integrale stocastico backward e SPDE di Krylov

24.4 Proiezione Markoviana e Teorema di Gyöngy
Ricordiamo
√ l’Osservazione10.1.5 in base alla quale se W è un moto Browniano allora i processi W e
ft := tW1 hanno le stesse distribuzioni uno-dimensionali ma chiaramente non sono uguali in legge.
W
Capitolo 25
Metodi numerici stocastici
25.1 Metodo di Eulero per equazioni ordinarie

25.1.1 Schemi di ordine superiore
25.2 Metodo di Eulero per equazioni stocastiche

25.2.1 Schema di Milstein
25.3 Metodo Monte Carlo

25.3.1 Simulazione
25.3.2 Applicazioni alla risoluzione numerica di PDE
25.3.3 Analisi dell’errore
467
468 CAPITOLO 25. METODI NUMERICI STOCASTICI
Capitolo 26
Esistenza e unicità per PDE paraboliche
Il non poter essere soddisfatto da

alcuna cosa terrena, nè, per dir cosı̀,
dalla terra intera; considerare
l’ampiezza inestimabile dello spazio,
il numero e la mole maravigliosa dei
mondi, e trovare che tutto è poco e
piccino alla capacità dell’animo
proprio; immaginarsi il numero dei
mondi infinito, e l’universo infinito,
e sentire che l’animo e il desiderio
nostro sarebbe ancora più grande che
siı̀ fatto universo; e sempre accusare
le cose d’insufficienza e di nullità, e
patire mancamento e vòto, e però
noia, pare a me il maggior segno di
grandezza e di nobiltà, che si vegga
della natura umana.
Giacomo Leopardi
In questo capitolo presentiamo in maniera per quanto possibile sintetica alcuni risultati di base sul
problema di Cauchy per equazioni differenziali alle derivate parziali (abbreviato nel seguito in PDE, dalla
locuzione anglosassone “partial differential equations”) di tipo parabolico. Le monografie di Friedman
[45], Ladyzhenskaia, Solonnikov e Ural’tseva [67], Oleinik and Radkevic [89] anche se un po’ datate, sono
classici testi di riferimento per una trattazione più completa e approfondita.
Fissato T > 0, indichiamo con (t, x) il punto della striscia
ST := ]0, T [×RN .
Consideriamo un operatore alle derivate parziali del second’ordine della forma

N N
1X X
L := cij (t, x)∂xi xj + bj (t, x)∂xj + a(t, x) − ∂t (26.0.1)
2
i,j=1 j=1
definito per (t, x) ∈ ST . Nel seguito assumeremo che la matrice dei coefficienti (cij ) sia simmetrica e definita
positiva: in tal caso si dice che L in (26.0.1) è un operatore di tipo parabolico forward. Si noti che in un
operatore forward la derivata temporale appare con segno negativo: come già accennato nella Sezione 7.5.2,
469
470 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
questo tipo di operatori intervengono tipicamente in fisica nella descrizione di fenomeni che evolvono nel
tempo, come la diffusione del calore in un corpo.
Ogni operatore forward del tipo (26.0.1) può essere trasformato in un’operatore parabolico backward1 e
viceversa, col cambio di variabili s = T − t: in particolare, sottolineiamo che tutti i risultati che proviamo in
questo capitolo per operatori forward ammettono un’analoga formulazione backward. Più precisamente,
se u è soluzione classica del problema di Cauchy (9.4.3) allora û(s, y) := u(T − s, y) è soluzione classica, in
C 1,2 (ST ) ∩ C(]0, T ] × RN ), del problema di Cauchy con dato finale

Lˆ û(s, y) = fˆ(s, y), (s, y) ∈ ST ,


û(T , y) = ϕ(y), y ∈ RN ,


dove
N N
ˆ 1X X
L := ĉij (s, y)∂yi yj + b̂j (s, y)∂yj + â(s, y) + ∂s .
2
i,j=1 j=1
Per comodità e in vista delle applicazioni all’analisi stocastica, nella Sezione 26.1 raccogliamo i risultati
principali di questo capitolo, relativi all’esistenza e unicità nel caso di operatori di Kolmogorov backward
e forward associati ad una SDE.
26.1 Equazioni di Kolmogorov backward e forward

26.2 Unicità: il principio del massimo
In questa sezione studiamo il problema dell’unicità della soluzione del problema di Cauchy (9.4.3) per
l’operatore forward L in (26.0.1). Un classico esempio dovuto a Tychonoff [122] mostra che il proble-
ma (9.4.3) per l’operatore del calore ammette infinite soluzioni: infatti si verifica che, oltre alla soluzione
identicamente nulla, anche le funzioni del tipo
∞
X x2k k − 1α
uα (t, x) := ∂ e t , α > 1, (26.2.1)
(2k)! t
k=0
sono soluzioni classiche del problema di Cauchy


1
 2 ∂xx uα − ∂t uα = 0 in R>0 × R,


uα (0, ·) = 0 in R.


Tuttavia le soluzioni in (26.2.1) sono in un certo senso “patologiche”, oscillano cambiando segno infinite
volte e hanno una crescita molto rapida per |x| → ∞. Alla luce dell’esempio di Tychonoff, lo studio del-
l’unicità della soluzione del problema (9.4.3) consiste nel determinare opportune classi di funzioni, dette
classi di unicità per L , all’interno delle quali la soluzione, se esiste, è unica. In questa sezione assumiamo
soddisfatte le seguenti ipotesi minimali sui coefficienti di L in (26.0.1):
Ipotesi 26.2.1.
i) per ogni i, j = 1, . . . , N , coefficienti cij , bi e a sono funzioni misurabili a valori reali;
ii) la matrice C (t, x) := (cij (t, x)) è simmetrica e semi-definita positiva per ogni (t, x) ∈ ST . Per questo si
dice che L è un operatore parabolico;
1 In cui la derivata temporale appare col segno positivo.
26.2. UNICITÀ: IL PRINCIPIO DEL MASSIMO 471
iii) il coefficiente a è superiormente limitato: esiste a0 ∈ R tale che
a(t, x) ≤ a0 , (t, x) ∈ ST .
Proveremo che una classe di unicità è data dalle funzioni che crescono non troppo rapidamente all’in-
finito nel senso che soddisfano la stima
2
|u(t, x)| ≤ CeC|x| , (t, x) ∈ ST , (26.2.2)
con C costante positiva. Questo risultato, contenuto nel Teorema 26.2.8, si prova sotto condizioni molto
generali, assumendo l’Ipotesi 26.2.1 e la seguente
Ipotesi 26.2.2. Esiste una costante M tale che
|cij (t, x)| ≤ M, |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M(1 + |x|2 ), (t, x) ∈ ST , i, j = 1, . . . , N .
È possibile determinare un’altra classe di unicità imponendo altre condizioni di crescita sui coefficienti.
Ipotesi 26.2.3. Esiste una costante M tale che
|cij (t, x)| ≤ M(1 + |x|2 ), |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M, (t, x) ∈ ST , i, j = 1, . . . , N .
Il Teorema 26.2.10 mostra che, sotto le Ipotesi 26.2.1 e 26.2.3, una classe di unicità è data dalle funzioni
con crescita al più polinomiale, che soddisfano una stima del tipo
|u(t, x)| ≤ C(1 + |x|p ), (t, x) ∈ ST , (26.2.3)
per certe costanti positive C e p.

Notiamo esplicitamente che le ipotesi precedenti sono talmente deboli da non garantire in generale
l’esistenza della soluzione.
26.2.1 Problema di Cauchy-Dirichlet

In questa sezione studiamo l’operatore L in (26.0.1) su un “cilindro” della forma
DT = ]0, T [×D
dove D è un dominio (insieme aperto e connesso) limitato di RN . Indichiamo con ∂D la frontiera di D e

diciamo che
∂p DT := ({0} × D) ∪ ([0, T [×∂D)
| {z } | {z }
base bordo laterale
è il bordo parabolico di DT . Come in precedenza, C 1,2 (DT ) è lo spazio delle funzioni differenziabili con
continuità in DT al prim’ordine nella variabile t e fino al second’ordine nelle variabili x.
Definizione 26.2.4 (Problema di Cauchy-Dirichlet). Una soluzione classica del problema di Cauchy-Dirichlet
per L su DT è una funzione u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) tale che

L u = f , in DT ,


(26.2.4)
u = ϕ, in ∂p DT ,


dove f ∈ C(DT ) e ϕ ∈ C(∂p DT ) sono funzioni assegnate, chiamate rispettivamente termine noto e dato al
bordo del problema.
Il risultato principale della sezione, da cui segue l’unicità della soluzione classica del problema (26.2.4)
(cfr. Corollario 26.2.6), è il seguente
Teorema 26.2.5 (Principio del massimo debole). Sotto l’Ipotesi 26.2.1, se u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) è
tale che L u ≥ 0 in DT e u ≤ 0 su ∂p DT , allora si ha u ≤ 0 su DT .
Dimostrazione. Osserviamo anzitutto che non è restrittivo assumere a0 < 0 nell’Ipotesi 26.2.1. Se non lo
fosse, basterebbe provare la tesi per la funzione
uλ (t, x) := e−λt u(t, x) (26.2.5)
che soddisfa
L uλ − λuλ = e−λt L u, (26.2.6)
scegliendo λ > a0 .
Ora procediamo per assurdo. Negando la tesi si avrebbe l’esistenza di un punto (t, x) ∈ DT tale che
u(t, x) > 0: in effetti, possiamo anche assumere che
u(t, x) = max u.
[0,t]×D
Ne viene che
H u(t, x) := (∂xi xj u(t, x)) ≤ 0, ∂xj u(t, x) = 0, ∂t u(t, x) ≥ 0,
per ogni j = 1, . . . , N . Allora esiste una matrice simmetrica e semi-definita positiva M = (mij ) tale che
 N 
 X 
H u(t, x) = −M 2 = − mih mjh 
h=1 i,j
e quindi
N N N
1X X X
L u(t, x) = − cij (t, x) mih mjh + bj (t, x)∂xj u(t, x) + a(t, x)u(t, x) − ∂t u(t, x)
2
i,j=1 h=1 j=1
N
N X
1 X
=− cij (t, x)mih mjh +a(t, x)u(t, x) − ∂t u(t, x)
2
h=1 i,j=1
| {z }
≥0 poiché C =(cij )≥0
≤ a(t, x)u(t, x) < 0,
e questo contraddice l’ipotesi L u ≥ 0 in DT .

Corollario 26.2.6 (Principio del confronto). Assumiamo l’Ipotesi 26.2.1. Siano u, v ∈ C 1,2 (DT ) ∩ C(DT ∪
∂p DT ) tali che L u ≤ L v in DT e u ≥ v su ∂p DT . Allora u ≥ v in DT . In particolare, se esiste, la soluzione
classica del problema di Cauchy-Dirichlet (26.2.4) è unica.
Dimostrazione. Basta applicare il principio del massimo debole alla funzione v − u.
Il seguente utile risultato fornisce una stima del massimo della soluzione del problema di Cauchy-
Dirichlet (26.2.4) in funzione del termine noto f e del dato al bordo ϕ.
Teorema 26.2.7. Se l’operatore L soddisfa l’Ipotesi 26.2.1 allora per ogni u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) vale
 
+  
sup |u| ≤ ea0 T  sup |u| + T sup |L u| , a+0 := max{0, a0 }. (26.2.7)
D T ∂p DTD T
26.2. UNICITÀ: IL PRINCIPIO DEL MASSIMO 473
Dimostrazione. Consideriamo prima il caso a0 ≤ 0 e quindi a+0 = 0. Supponiamo che u e L u siano limitate
rispettivamente su ∂p DT e DT , altrimenti non c’è nulla da provare. Posto
w(t) = sup |u| + t sup |L u|, t ∈ [0, T ],

∂p DT DT
abbiamo
L w = aw − sup |L u| ≤ L u, L (−w) = −aw + sup |L u| ≥ L u,
DT DT
e −w ≤ u ≤ w su ∂p DT . Allora la stima (26.2.7) segue dal principio del confronto, Corollario 26.2.6.
Sia ora a0 > 0. Consideriamo uλ in (26.2.5) con λ = a0 : per quanto appena provato, vale
sup |uλ | ≤ sup |uλ | + T sup |(L − a0 )uλ |.

DT ∂p DT DT
Allora, essendo a0 > 0, otteniamo
e−a0 T sup |u| ≤ sup |e−a0 t u(t, x)| ≤ sup |uλ | + T sup |(L − a0 )uλ | ≤
DT (t,x)∈DT ∂p DT DT
(per la (26.2.6))
≤ sup |e−a0 t u(t, x)| + T sup |e−a0 t L u(t, x)| ≤

(t,x)∈∂p DT (t,x)∈DT
(poiché a0 > 0)
≤ sup |u| + T sup |L u|,

∂p DT DT
26.2.2 Problema di Cauchy

Proviamo risultati analoghi a quelli della sezione precedente per il problema di Cauchy (9.4.3).
Teorema 26.2.8 (Principio del massimo debole). Assumiamo le Ipotesi 26.2.1 e 26.2.2. Se u ∈ C 1,2 (ST ) ∩
C([0, T [×RN ) è tale che 
L u ≤ 0, in ST ,


(26.2.8)
u(0, ·) ≥ 0, in RN ,


e verifica la stima
2
u(t, x) ≥ −CeC|x| , (t, x) ∈ [0, T [×RN , (26.2.9)
per una costante positiva C, allora u ≥ 0 in [0, T [×RN .
Di conseguenza, esiste al più una sola soluzione
classica del problema di Cauchy (9.4.3) che verifica la stima (26.2.2) di crescita esponenziale all’infinito.
Notiamo esplicitamente che le Ipotesi 26.2.1 e 26.2.2 sono molto deboli, tanto che per esempio L può
essere un operatore del prim’ordine. Proviamo prima il seguente
Lemma 26.2.9. Sotto l’Ipotesi 26.2.1, se u ∈ C 1,2 (ST ) ∩ C([0, T [×RN ) verifica (26.2.8) ed è tale che
lim inf inf u(t, x) ≥ 0, (26.2.10)

|x|→∞ t∈]0,T [
allora u ≥ 0 su [0, T [×RN .

Dimostrazione. Come nella prova del Teorema 26.2.5, non è restrittivo assumere a0 < 0 cosicché, per ogni
ε > 0, si ha 
L (u + ε) ≤ 0, in ST ,


u(0, ·) + ε > 0, in RN .


Fissiamo (t0 , x0 ) ∈ ST . Grazie alla condizione (26.2.10), esiste R > |x0 | tale che
u(t, x) + ε > 0, t ∈ ]0, T [, |x| = R,
e dal principio del massimo debole del Teorema 26.2.5, applicato sul cilindro
DT = ]0, T [×{|x| < R},
si deduce che u(t0 , x0 ) + ε ≥ 0. Ne segue che u(t0 , x0 ) ≥ 0, data l’arbitrarietà di ε.
Dimostrazione del Teorema 26.2.8. Proviamo che u ≥ 0 su una striscia ST0 con T0 > 0 che dipende solo dalla
costante M dell’Ipotesi 26.2.2 e dalla costante C in (26.2.9): se necessario, basta poi applicare ripetutamente
tale risultato per provare la tesi sulla striscia ST .
Anzitutto, per capire l’idea generale, diamo la prova nel caso particolare dell’operatore del calore
1
L = ∆ − ∂t ,
2
1
Fissato γ > C, poniamo T0 = 4γ e consideriamo la funzione
γ|x|2
!
1
v(t, x) := N
exp , (t, x) ∈ [0, T0 [×RN ,
(1 − 2γt) 2 1 − 2γt
tale che
2
L v(t, x) = 0 e v(t, x) ≥ eγ|x| .
Dal Lemma 26.2.9 deduciamo che u + εv ≥ 0 per ogni ε > 0, da cui la tesi.
Il caso generale è solo tecnicamente più complicato e sfrutta l’Ipotesi 26.2.2 sui coefficienti dell’opera-
tore. Fissato γ > C e due costanti α, β ∈ R che determineremo in seguito, consideriamo la funzione
γ|x|2
!
1
v(t, x) = exp + βt , 0≤t≤ , x ∈ RN .
1 − αt 2α
Poiché
N
Lv 2γ 2 γ 2γ X αγ|x|2
= ⟨C x, x⟩ + tr C + bi x i + a − − β,
v (1 − αt)2 1 − αt 1 − αt (1 − αt)2
i=1
per l’Ipotesi 26.2.2 è possibile scegliere α, β abbastanza grandi in modo che
Lv
≤ 0. (26.2.11)
v
Posto w := uv , per la condizione (26.2.9), si ha
 
 
lim inf  inf w(t, x) ≥ 0,

|x|→∞ 1
0≤t≤ 2α
e w soddisfa l’equazione
N N
1X X Lu
cij ∂xi xj w + b̂i ∂xi w + âw − ∂t w = ≤ 0,
2 v
i,j=1 i=1
26.3. ESISTENZA: LA SOLUZIONE FONDAMENTALE 475
dove
N ∂x j v
X Lv
b̂i = bi + cij , â = .
v v
j=1
Poiché â ≤ 0 per la (26.2.11), possiamo applicare il Lemma 26.2.9 per concludere che w (quindi anche u) è
non-negativa.
Teorema 26.2.10 (Principio del massimo debole). Assumiamo le Ipotesi 26.2.1 e 26.2.3. Se u ∈ C 1,2 (ST ) ∩
C([0, T [×RN ) verifica (26.2.8) e la stima
u(t, x) ≥ −C(1 + |x|p ), (t, x) ∈ [0, T [×RN , (26.2.12)
per certe costanti positive C e p, allora u ≥ 0 in [0, T [×RN . Di conseguenza, esiste al più una sola soluzione
classica del problema di Cauchy (9.4.3) che verifica la stima (26.2.3) di crescita polinomiale all’infinito.
Dimostrazione. Proviamo solo il caso a0 < 0. Si considera la funzione

q
v(t, x) = eαt κt + |x|2
e si verifica che per ogni q > 0 è possibile scegliere α, κ tali che L v < 0 su ST . Allora per p < 2q e per ogni
ε > 0 si ha L (u + εv) < 0 su ST e, grazie alla condizione (26.2.12), si può applicare il Lemma 26.2.9 per
dedurre che u + εv ≥ 0 su ST . La tesi segue dall’arbitrarietà di ε.
Proviamo ora l’analogo del Teorema 26.2.7: il seguente risultato fornisce delle stime, in norma L∞ , di
dipendenza della soluzione in termini del dato iniziale e del termine noto. Queste stime giocano un ruolo
cruciale, per esempio, nella prova della stabilità di alcuni metodi numerici.
Teorema 26.2.11. Se l’operatore L soddisfa le Ipotesi 26.2.1 e 26.2.2, allora per ogni u ∈ C 1,2 (ST ) ∩
C([0, T [×RN ) che verifica la stima di crescita esponenziale (26.2.2) vale
 
−a+0 T
a+0 := max{0, a0 }.
 
sup |u| ≤ e sup |u(0, ·)| + T sup |L u| ,
ST
 
[0,T [×RN RN
Dimostrazione. Se a0 < 0 allora, posto
w± = sup |u(0, ·)| + t sup |L u| ± u,

RN ST
si ha 


 L w± = a sup |u(0, ·)| − sup |L u| ± L u ≤ 0, in ST ,
ST


in RN ,

w± (0, ·) ≥ 0,

e chiaramente w± verifica la stima (26.2.9). Segue dal Teorema 26.2.8 che w± ≥ 0 in ST e questo prova la
tesi. D’altra parte, se a0 ≥ 0 allora basta procedere come nella dimostrazione del Teorema 26.2.7.
26.3 Esistenza: la soluzione fondamentale

In questa sezione diamo un risultato di esistenza di soluzioni classiche del problema di Cauchy per
l’operatore L in (26.0.1). Il concetto centrale a questo riguardo è quello di soluzione fondamentale.
Definizione 26.3.1 (Soluzione fondamentale). Una soluzione fondamentale per l’operatore L in ST è

una funzione Γ = Γ (t0 , x0 ; t, x), con 0 ≤ t0 < t < T e x0 , x ∈ RN , tale che per ogni ϕ ∈ bC(RN ) la funzione
definita da Z
u(t, x) = ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 , t0 < t < T , x ∈ RN , (26.3.1)
RN
e da u(t0 , ·) = ϕ, è soluzione classica (secondo la Definizione 9.4.2) del problema di Cauchy


L u = 0 in ]t0 , T [×RN ,


(26.3.2)
u(t0 , ·) = ϕ in RN .


Una tecnica classica per dimostrare l’esistenza della soluzione fondamentale è il metodo della parametrice
introdotto da E.E. Levi in [76] e poi sviluppato da molti altri autori2 . Si tratta di una procedura costruttiva
abbastanza lunga e complessa che si basa sulla seguente3 Ipotesi 26.3.2 sull’operatore L . Ricordiamo la
definizione dello spazio bC α (ST ) con la norma definita in (9.4.2): sottolineiamo in particolare il fatto che
le funzioni in bC α (ST ) sono Hölderiane solo rispetto alle variabili spaziali.
Ipotesi 26.3.2.
i) cij , bi , a ∈ bC α (ST ) per un certo α ∈]0, 1] e per ogni i, j = 1, . . . , N ;
ii) la matrice C := (cij )1≤i,j≤N è simmetrica e soddisfa la seguente condizione di uniforme parabolicità:
esiste una costante λ0 > 1 tale che
1 2
|η| ≤ ⟨C (t, x)η, η⟩ ≤ λ0 |η|2 , (t, x) ∈ ST , η ∈ RN . (26.3.3)
λ0
Per comodità, assumiamo λ0 abbastanza grande in modo che [cij ]α , [bi ]α , [a]α ≤ λ0 per ogni i, j =
1, . . . , N .
Osservazione 26.3.3. Poniamo

N N
1X X
A := cij (t, x)∂xi xj + bj (t, x)∂xj + a(t, x)
2
i,j=1 j=1
cosicché L = A − ∂t e assumiamo valida l’Ipotesi 26.3.2. Allora sono equivalenti:
i) u ∈ C 1,2 (]t0 , T [×RN ) ed è soluzione classica dell’equazione L u = 0 su ]t0 , T [×RN ;
ii) u ∈ C(]t0 , T [×RN ), è differenziabile con continuità fino al second’ordine nelle variabili x e soddisfa
l’equazione integro-differenziale
Z t
u(t, x) = u(t1 , x) + A u(s, x)ds, t0 < t1 < t < T , x ∈ RN . (26.3.4)
t1
Nel seguente teorema, consideriamo il problema di Cauchy con termine noto f che soddisfa le seguenti
condizioni di crescita e di Hölderianità locale.
2 Si vedano, per esempio, i lavori di Pogorzelski [98] e Aronson [4] sulla costruzione della soluzione fondamentale. Il libro di
Friedman [46] costituisce tuttora un testo classico di riferimento per il metodo della parametrice e la fonte principale a cui ci siamo
ispirati per la nostra presentazione.
3 È possibile assumere ipotesi leggermente più deboli: al riguardo si veda la Sezione 6.4 in [46]. In particolare, la condizione
di continuità nel tempo è solo di comodo: i risultati di questa sezione si estendono senza difficoltà al caso di coefficienti che siano
misurabili in t; in tal caso, la PDE va intesa in senso integro-differenziale, come in (26.3.4).
26.3. ESISTENZA: LA SOLUZIONE FONDAMENTALE 477
Ipotesi 26.3.4. f ∈ C(]t0 , T [×RN ) ed esiste β > 0 tale che:
i)
2
c1 ec2 |x|
|f (t, x)| ≤ , (t, x) ∈]t0 , T [×RN , (26.3.5)
(t − t0 )1−β
1
dove c1 , c2 sono costanti positive con c2 < 4λ0 T ;
ii) per ogni n ∈ N, esiste una costante κn tale che
|x − y|β
|f (t, x) − f (t, y)| ≤ κn β
, t0 < t < T , |x|, |y| ≤ n. (26.3.6)
(t − t0 )1− 2
Il risultato principale del capitolo è il seguente
Teorema 26.3.5. [!!] Sotto l’Ipotesi 26.3.2, esiste una soluzione fondamentale Γ per L in ST . Inoltre:
i) Γ = Γ (t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Per ogni
(t0 , x0 ) ∈ [0, T [×RN , Γ (t0 , x0 ; ·, ·) ∈ C 1,2 (]t0 , T [×RN ) e valgono le seguenti stime Gaussiane: per ogni
λ > λ0 , dove λ0 è la costante dell’Ipotesi 26.3.2, esiste una costante positiva c = c(T , N , λ, λ0 , α) tale
che
Γ (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) , (26.3.7)

c
∂xi Γ (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (26.3.8)
t − t0
∂x x Γ (t0 , x0 ; t, x) + |∂t Γ (t0 , x0 ; t, x)| ≤ c G (λ(t − t0 ), x − x0 )

i j
(26.3.9)
t − t0
per ogni (t, x) ∈]t0 , T [×RN , dove G è la funzione Gaussiana in (26.4.1). Inoltre, esistono due costanti
positive λ̄, c̄ che dipendono solo da T , N , λ0 , α e per cui vale

Γ (t0 , x0 ; t, x) ≥ c̄ G λ̄(t − t0 ), x − x0 (26.3.10)
per ogni (t, x) ∈]t0 , T [×RN ;
ii) per ogni f che soddisfa l’Ipotesi 26.3.4 e ϕ ∈ bC(RN ), la funzione definita da
Z Z tZ
u(t, x) = ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 − f (s, y)Γ (s, y; t, x)dyds, t 0 < t < T , x ∈ RN , (26.3.11)
RN t0 RN
e da u(t0 , ·) = ϕ, è soluzione classica del problema di Cauchy


L u = f in ]t0 , T [×RN ,


(26.3.12)
u(t0 , ·) = ϕ in RN .


La (26.3.11) è usualmente chiamata4 formula di Duhamel;
iii) vale l’equazione di Chapman-Kolmogorov

Z
Γ (t0 , x0 ; t, x) = Γ (t0 , x0 ; s, y)Γ (s, y; t, x)dy, 0 ≤ t0 < s < t < T , x, x0 ∈ RN ;
RN
4 La formula di Duhamel può essere interpretata come una “versione forward” della formula di Feynman-Kac (20.4.6).
iv) se il coefficiente a è costante si ha

Z
Γ (t0 , x0 ; t, x)dx0 = ea(t−t0 ) , t ∈]t0 , T [, x ∈ RN , (26.3.13)
RN
e in particolare se a ≡ 0 allora Γ (t0 , ·; t, x) è una densità.

La dimostrazione del Teorema 26.3.5 è lunga e complessa ed è fornita nella Sezione 26.4 insieme a
numerosi risultati preliminari.
26.4 Il metodo della parametrice

In questa sezione proviamo il Teorema 26.3.5. Consideriamo L in (26.0.1) e assumiamo che verifichi
l’Ipotesi 26.3.2. L’idea principale del metodo della parametrice è di costruire una soluzione fondamentale
per approssimazioni successive utilizzando come primo termine di approssimazione la cosiddetta parame-
trice: essa è la soluzione fondamentale Gaussiana di un operatore del calore ottenuto da L calcolando i
coefficienti in un punto fissato y, lasciando libera la variabile temporale.
Notazione 26.4.1. Data una matrice C costante N × N , simmetrica e definita positiva, poniamo
1 1 −1
G(C, x) = p e− 2 ⟨C x,x⟩ , x ∈ RN .
(2π)N det C
Notiamo che
N
1X
Cij ∂xi xj G(tC, x) = ∂t G(tC, x), t > 0, x ∈ RN .
2
i,j=1
Nel caso in cui C sia la matrice identità, C = IN , per semplicità scriviamo

1 |x|2
G(t, x) ≡ G(tIN , x) = N
e− 2t , t > 0, x ∈ RN , (26.4.1)
(2πt) 2
per indicare l’usuale Gaussiana standard, soluzione dell’equazione del calore 21 ∆G(t, x) = ∂t G(t, x).
Fissato y ∈ RN , introduciamo l’operatore Ly ottenuto calcolando i coefficienti di L in y e annullando i
termini di ordine inferiore al secondo:
N
1X
Ly := cij (t, y)∂xi xj − ∂t .
2
i,j=1
L’operatore Ly agisce nelle variabili (t, x) e ha i coefficienti che dipendono solo dalla variabile temporale t,
essendo y fissato. Grazie all’Ipotesi 26.3.2 e in particolare al fatto che la matrice C = (cij ) è uniformemente
definita positiva, si verifica che la soluzione fondamentale di Ly ha la seguente espressione esplicita
Zt
Γy (t0 , x0 ; t, x) = G(Ct0 ,t (y), x − x0 ), Ct0 ,t (y) := C (s, y)ds, (26.4.2)
t0
per 0 ≤ t0 < t < T e x0 , x ∈ RN . Definiamo la parametrice per L come

P(t0 , x0 ; t, x) := Γx0 (t0 , x0 ; t, x), 0 ≤ t0 < t < T , x0 , x ∈ RN . (26.4.3)
Secondo il metodo della parametrice si cerca la soluzione fondamentale di L nella forma
Z tZ
Γ (t0 , x0 ; t, x) = P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds (26.4.4)
t0 RN
26.4. IL METODO DELLA PARAMETRICE 479
dove Φ è una funzione incognita da determinare imponendo che valga5 L Γ (t0 , x0 ; t, x) = 0. Formalmente,
da (26.4.4) si ha6
Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x) (26.4.5)
t0 RN
da cui si ricava l’equazione per Φ

Z tZ
Φ(t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds (26.4.6)
t0 RN
valida per 0 ≤ t0 < t < T e x0 , x ∈ RN . Per approssimazioni successive si ottiene

∞
X
Φ(t0 , x0 ; t, x) = (L P)k (t0 , x0 ; t, x) (26.4.7)
k=1
dove
(L P)1 (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x),
Z tZ
(26.4.8)
(L P)k+1 (t0 , x0 ; t, x) = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds, k ∈ N.
t0 RN
Nella Sezione 26.4.2 proviamo la seguente

Proposizione 26.4.2. La serie in (26.4.7) converge e definisce Φ = Φ(t0 , x0 ; t, x) che è una funzione continua
di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN , e risolve l’equazione (26.4.6). Inoltre, per ogni λ > λ0 esiste una
costante positiva c = c(T , N , λ, λ0 ) tale che
c
|Φ(t0 , x0 ; t, x)| ≤ α G(λ(t − t0 ), x − x0 ), (26.4.9)
(t − t0 )1− 2
α
c |x − y| 2
Φ(t0 , x0 ; t, x) − Φ(t0 , x0 ; t, y) ≤ α (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 )) (26.4.10)
(t − t0 )1− 4
per ogni 0 ≤ t0 < t < T e x, y, x0 ∈ RN .
26.4.1 Stime Gaussiane

In questa sezione proviamo alcune stime preliminari per nuclei Gaussiani.
Notazione 26.4.3. Assumiamo la Convenzione 19.2.3 per indicare la dipendenza delle costanti. Inoltre,
poiché dovremo provare numerose stime, per comodità nelle dimostrazioni indicheremo con c una costante
generica il cui valore può variare da riga a riga: dove necessario, specificheremo esplicitamente le quantità
da cui c dipende.
Lemma 26.4.4. Per ogni p > 0 e λ > λ0 esiste una costante c = c(p, N , λ, λ0 ) tale che
!p
|x|
√ G(λ0 t, x) ≤ c G(λt, x), t > 0, x ∈ RN .
t
5 Si ricordi che L agisce nelle variabili (t, x).
6 L’ultimo termine nel membro a destra della (26.4.5) deriva dall’applicare ∂ all’estremo dell’integrale in ds di (26.4.4) da cui si
t
otterrebbe Z
Φ(t0 , x0 ; t, y)P(t, y; t, x)dy = Φ(t0 , x0 ; t, x)
RN
poiché formalmente P(t, y; t, x)dy = δx (dy) dove δx indica la delta di Dirac centrata in x.
|x|
Dimostrazione. Posto per semplicità z = √ , abbiamo
t
!N
zp z2
!
λ
zp G(λ0 t, x) = N
exp − = g(z)G(λt, x)
(2πλ0 t) 2 2λ0 λ0
dove
1 1 κz2
g(z) := zp e− − > 0, 2 , κ= z ∈ R+ ,
λ0 λ
q
p
p p
assume il massimo globale in z0 = κ in cui vale g(z0 ) = eκ 2 .
Lemma 26.4.5. Consideriamo L in (26.0.1) e assumiamo che verifichi l’Ipotesi 26.3.2. Per G e Γy , definiti
rispettivamente in (26.4.1) e (26.4.2), vale
1 t−t
G λ0
0
, x − x0 ≤ Γy (t0 , x0 ; t, x) ≤ λN
0 G (λ0 (t − t0 ), x − x0 ) (26.4.11)
λN
0
per ogni 0 ≤ t0 < t < T e x, x0 , y ∈ RN , dove λ0 è la costante dell’Ipotesi 26.3.2. Inoltre, per ogni λ > λ0 esiste
una costante positiva c = c(T , N , λ, λ0 ) tale che
c
∂xi Γy (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (26.4.12)
t − t0
∂x x Γy (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) ,

i j
(26.4.13)
t − t0
c
∂x x x Γy (t0 , x0 ; t, x) ≤ G (λ(t − t0 ), x − x0 ) , (26.4.14)
i j k
(t − t0 )3/2

Γy (t0 , x0 ; t, x) − Γη (t0 , x0 ; t, x) ≤ c|y − η|α G (λ(t − t0 ), x − x0 ) , (26.4.15)
c|y − η|α
∂xi Γy (t0 , x0 ; t, x) − ∂xi Γη (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (26.4.16)
t − t0
α
∂x x Γy (t0 , x0 ; t, x) − ∂x x Γη (t0 , x0 ; t, x) ≤ c|y − η| G (λ(t − t0 ), x − x0 ) ,

i j i j
(26.4.17)
t − t0
per ogni 0 ≤ t0 < t < T , x, x0 , y, η ∈ RN e i, j, k = 1, . . . , N .

Dimostrazione. Per la definizione di Ct0 ,t (y) in (26.4.2) e per l’ipotesi di uniforme parabolicità (26.3.3) si ha
t − t0 2
|η| ≤ ⟨Ct0 ,t (y)η, η⟩ ≤ λ0 (t − t0 )|η|2 (26.4.18)
λ0
e di conseguenza vale
|η|2 λ0 |η|2
≤ ⟨Ct−1
0 ,t
(y)η, η⟩ ≤ (26.4.19)
λ0 (t − t0 ) t − t0
e anche
!N
t − t0
≤ det Ct0 ,t (y) ≤ λN N
0 (t − t0 ) . (26.4.20)
λ0
La (26.4.19) segue dal fatto che se A, B sono matrici simmetriche e definite positive allora la disuguaglianza
fra forme quadratiche A ≤ B (ossia ⟨Aη, η⟩ ≤ ⟨Bη, η⟩ per ogni η ∈ RN ) implica B−1 ≤ A−1 . La (26.4.20)
segue dal fatto che il minimo e massimo autovalore di una matrice simmetrica C sono rispettivamente
min⟨Cη, η⟩ e max⟨Cη, η⟩ =: ∥C∥ dove ∥C∥ è la norma spettrale di C. Notiamo che le (26.4.18)-(26.4.19) si
|η|=1 |η|=1
riscrivono rispettivamente nella forma
t − t0 1 λ
≤ ∥Ct0 ,t (y)∥ ≤ λ0 (t − t0 ), ≤ ∥Ct−1
0 ,t
(y)∥ ≤ 0 . (26.4.21)
λ0 λ0 (t − t0 ) t − t0
Le stime (26.4.11) seguono allora direttamente dalla definizione di Γy (t0 , x0 ; t, x).
Per quanto riguarda la (26.4.12), posto ∇x = (∂x1 , . . . , ∂xN ), si ha

∇x Γy (t0 , x0 ; t, x) = |Ct−1
0 ,t
(y)(x − x0 )|Γy (t0 , x0 ; t, x)
≤ ∥Ct−1
0 ,t
(y)∥ |x − x0 |Γy (t0 , x0 ; t, x) ≤
(per la seconda stima in (26.4.21))

!
λ0 |x − x0 |
≤√ √ Γy (t0 , x0 ; t, x) ≤
t − t0 t − t0
(per la (26.4.11) e il Lemma 26.4.4)
c
≤√ G(λ(t − t0 ), x − x0 ).
t − t0
Le (26.4.13) e (26.4.14) si provano in modo completamente analogo.
Usando l’espressione esplicita di Γy , la (26.4.15) è diretta conseguenza delle seguenti stime:

1 1 c|y − η|α
p − p ≤ p , (26.4.22)
det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y)

1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ c|y − η|α e− 2λ(t−t0 ) . (26.4.23)
Per quanto riguarda la (26.4.22), si ha

1 1 1 det Ct0 ,t (y) − det Ct0 ,t (η)
p −p = p p p p ≤
det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y) + det Ct0 ,t (η)
(per la (26.4.20))

λN
0
det Ct0 ,t (y) − det Ct0 ,t (η)
≤p
det Ct0 ,t (y) (t − t0 )N
λN
! !
0
1 1
=p det Ct0 ,t (y) − det Ct0 ,t (y) ≤
det Ct0 ,t (y) t − t0 t − t0
(poiché | det A − det B| ≤ c∥A − B∥ dove ∥ · ∥ indica la norma spettrale e c è una costante che dipende solo da
∥A∥, ∥B∥ e dalla dimensione delle matrici)

c 1
≤p
Ct0 ,t (y) − Ct0 ,t (η)
det Ct0 ,t (y) t − t0
e la (26.4.22) segue dall’Ipotesi 26.3.2, in particolare dalla condizione di Hölderianità dei coefficienti cij .
Per quanto riguarda la (26.4.23), per il teorema del valor medio e la (26.4.19) si ha
1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ ⟨C −1 (y)x, x⟩ − ⟨C −1 (η)x, x⟩ e− 2λ0 (t−t0 )

t0 ,t t0 ,t
2
− 2λ |x|(t−t
≤ ∥Ct−1
0 ,t
(y) − Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤
(per l’identità A−1 − B−1 = A−1 (B − A)B−1 )

2
− 2λ |x|(t−t
≤ c∥Ct−1
0 ,t
(y)∥ ∥Ct0 ,t (y) − Ct0 ,t (η)∥ ∥Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤
(per la (26.4.21))

1 |x|2 − |x|2
≤ c Ct0 ,t (y) − Ct0 ,t (η) e 2λ0 (t−t0 ) ≤
t − t0 t − t0
(per l’ipotesi di di Hölderianità dei coefficienti cij e per il Lemma 26.4.4)
2
|x|
− 2λ(t−t
≤ c|y − η|α e 0)
e questo è sufficiente a provare la (26.4.23) e quindi la (26.4.15).

La prova delle stime (26.4.16) e (26.4.17) è simile: per esempio, si ha

∇x Γy (t0 , x0 ; t, x) − ∇x Γη (t0 , x0 ; t, x) = Ct−1 0 ,t
(y)(x − x0 )Γy (t0 , x0 ; t, x) − Ct−10 ,t
(η)(x − x0 )Γη (t0 , x0 ; t, x)

≤ Ct−1 0 ,t
(y) − C −1
t0 ,t (η) (x − x )
0 Γy (t0 , x0 ; t, x)

+ C −1 (η)(x − x ) Γ (t , x ; t, x) − Γ (t , x ; t, x)
t0 ,t 0 y 0 0 η 0 0
e la (26.4.16) si prova con argomenti simili a quelli usati in precedenza. In modo analogo si prova la
(26.4.17).

Grazie al Lemma 26.4.5 possiamo stimare i termini (L P)k in (26.4.8) del metodo della parametrice.
Lemma 26.4.6. Per ogni λ > λ0 esiste una costante positiva c = c(T , N , λ, λ0 ) tale che
mk
|(L P)k (t0 , x0 ; t, x)| ≤ αk
G(λ(t − t0 ), x − x0 ) (26.4.24)
(t − t0 )1− 2
per ogni k ∈ N, 0 ≤ t0 < t < T e x, x0 ∈ RN , dove

k
cΓE α2
mk =
ΓE αk
2
e ΓE indica la funzione Gamma di Eulero.

Dimostrazione. Anzitutto osserviamo che per l’Ipotesi 26.3.2 si ha

cij (t, x) − cij (t, x0 ) ≤ λ0 |x − x0 |α , 0 ≤ t < T , x, x0 ∈ RN , i, j = 1, . . . , N . (26.4.25)
Per k = 1 abbiamo

|L P(t0 , x0 ; t, x)| = (L − Lx0 )P(t0 , x0 ; t, x)
N N
1 X X
b (t, x)∂ Γ (t , x ; t, x)
≤ c
ij (t, x) − cij (t, x 0 ) ∂ Γ (t ,
xi xj x0 0 0 x ; t, x) + i xi x0 0 0
2

i,j=1 i=1
+ |a(t, x)|Γx0 (t0 , x0 ; t, x).
λ0 +λ
Il primo termine è il più delicato: per le stime (26.4.25) e (26.4.13), per λ′ = 2 si ha
α
cij (t, x) − cij (t, x0 ) ∂x x Γx (t0 , x0 ; t, x) ≤ c |x − x0 | G(λ′ (t − t0 ), x − x0 ) ≤

i j 0
t − t0
(per il Lemma 26.4.4)

c
≤ α G(λ(t − t0 ), x − x0 ).
(t − t0 )1− 2
Gli altri termini si stimano facilmente usando l’ipotesi di limitatezza dei coefficienti e la stima (26.4.12)
delle derivate prime:
!
1
bi (t, x)∂xi Γx0 (t0 , x0 ; t, x) + |a(t, x)|Γx0 (t0 , x0 ; t, x) ≤ c √ + 1 G(λ(t − t0 ), x − x0 ).
t − t0
Questo è sufficiente a provare la (26.4.24) nel caso k = 1.

Ora procediamo per induzione e, supposta vera la tesi per k, la proviamo per k + 1:
Z tZ
|(L P)k+1 (t0 , x0 ; t, x)| ≤ (L P)k (t0 , x0 ; s, y) L P(s, y; t, x) dyds
t0 RN
Z t Z
mk m1
≤ αk α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 )1− 2 (t − s)1− 2 RN
(per l’equazione di Chapman-Kolmogorov (7.4.4))

Z t
mk m1
= G(λ(t − t0 ), x − x0 ) ds
1− αk α
t0 (s − t0 ) 2 (t − s)1− 2
e la tesi segue dalle proprietà della funzione Gamma di Eulero.
Osservazione 26.4.7. L’equazione di Chapman-Kolmogorov è uno strumento cruciale nel metodo della
parametrice: essa si prova con un calcolo diretto o, in alternativa, come conseguenza del risultato di unicità
del Teorema 26.2.8. Infatti, per t0 < s < t < T e x, x0 , y ∈ RN , si ha che le funzioni u1 (t, x) := G(t − t0 , x − x0 ) e
Z
u2 (t, x) = G(s − t0 , y − x0 )G(t − s, x − y)dy
RN
sono entrambe soluzioni limitate del problema di Cauchy


1
 2 ∆u − ∂t u = 0

 in ]s, T [×RN ,
u(s, y) = G(s − t0 , y − x0 ) per y ∈ RN ,


e quindi sono uguali.
Lemma 26.4.8. Sia κ > 0. Dato κ1 ∈]0, κ[ esiste una costante positiva c tale che valga
|η−x0 |2 |y−x0 |2
e−κ t ≤ ce−κ1 t (26.4.26)
per ogni t > 0 e x0 , y, η ∈ RN tali che |y − η|2 ≤ t.

Dimostrazione. Anzitutto, per ogni ε > 0 e a, b ∈ R, valgono le disuguaglianze elementari
b2
2|ab| ≤ εa2 + ,
ε
e
1

(a + b)2 ≤ (1 + ε)a2 + 1 + b2 .
ε
La (26.4.26) segue dal fatto che
|y − x0 |2 |η − x0 |2 1 |y − η|2 ((1 + ε)κ1 − κ) |η − x0 |2

κ1 −κ ≤ κ1 1 + + ≤
t t ε t t
(poiché |y − η|2 ≤ t per ipotesi e per ε sufficientemente piccolo, essendo κ1 < κ)
1

≤ κ1 1 + .
ε
Dimostrazione della Proposizione 26.4.2. Per ogni λ > λ0 si ha

∞
X
|Φ(t0 , x0 ; t, x)| ≤ |(L P)k (t0 , x0 ; t, x)| ≤
k=1
(per la stima (26.4.24))

∞
X mk
≤ αk
G(λ(t − t0 ), x − x0 )
(t − t0 )1− 2
k=1
c
≤ α G(λ(t − t0 ), x − x0 )
(t − t0 )1− 2
∞
mk r k−1 ha raggio di convergenza in-
P
con c = c(T , N , λ, λ0 ) costante positiva, poiché la serie di potenze
k=1
finito. Questo prova la (26.4.9). La convergenza della serie è uniforme in (t0 , x0 , t, x) se t − t0 ≥ δ > 0, per
ogni δ > 0 sufficientemente piccolo, e di conseguenza Φ(t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per
0 ≤ t0 < t < T e x, x0 ∈ RN . Inoltre, scambiando i segni di serie ed integrale, si ha
Z tZ ∞ Z tZ
X
Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds
t0 RN k=1 t0 RN
X∞
= (L P)k (t0 , x0 ; t, x)
k=2
= Φ(t0 , x0 ; t, x) − L P(t0 , x0 ; t, x)
e quindi Φ risolve l’equazione (26.4.6).

Per quanto riguarda la (26.4.10), dimostriamo prima la stima
|L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y)| ≤

c |x − y|α/2 (26.4.27)
≤ (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1−α/4
per ogni λ > λ0 , 0 ≤ t0 < t < T e x, y, x0 ∈ RN , con c = c(T , N , λ, λ0 ) > 0. Ora, se |x − y|2 > t − t0 allora la
(26.4.27) segue direttamente dalla (26.4.24) con k = 1.
Per studiare il caso |x − y|2 ≤ t − t0 , osserviamo che
L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y) = (L − Lx0 )P(t0 , x0 ; t, x) − (L − Lx0 )P(t0 , x0 ; t, y) = F1 + F2
dove
N
1 X
F1 = (cij (t, x) − cij (t, x0 ))∂xi xj P(t0 , x0 ; t, x) − (cij (t, y) − cij (t, x0 ))∂yi yj P(t0 , x0 ; t, y)
2
i,j=1
N
1X
= (cij (t, x) − cij (t, y))∂xi xj P(t0 , x0 ; t, x)
2
i,j=1
| {z }
=:G1
N
1 X
+ (cij (t, y) − cij (t, x0 )) ∂xi xj P(t0 , x0 ; t, x) − ∂yi yj P(t0 , x0 ; t, y) ,
2
i,j=1
| {z }
=:G2
N
X
F2 = bj (t, x)∂xj P(t0 , x0 ; t, x) − bj (t, y)∂yj P(t0 , x0 ; t, y) + a(t, x)P(t0 , x0 ; t, x) − a(t, y)P(t0 , x0 ; t, y).
j=1
Per l’ipotesi di Hölderianità dei coefficienti e la stima Gaussiana (26.4.13), sotto la condizione |x −y|2 ≤ t −t0
si ha α
c |x − y|α c |x − y| 2
|G1 | ≤ G (λ(t − t0 ), x − x0 ) ≤ α G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− 4
Per quanto riguarda G2 , usiamo ancora l’Hölderianità dei coefficienti e combiniamo il teorema del valor
medio (con η che appartiene al segmento di estremi x, y) con la stima Gaussiana (26.4.14) delle derivate
terze: otteniamo
c |x − y| λ + λ0

|G2 | ≤ |y − x0 |α 3
G (t − t0 ), η − x 0 ≤
(t − t0 ) 2 2
(essendo |x − y|2 ≤ t − t0 e per il Lemma 26.4.8)

α
c |x − y| 2 λ + λ0

≤ 1+ α4
|y − x0 |α G (t − t0 ), y − x0 ≤
(t − t0 ) 2

α
c |x − y| 2
≤ α G (λ(t − t0 ), y − x0 ) .
(t − t0 )1− 4
Una stima simile si ottiene per F2 , utilizzando l’Hölderianità dei coefficienti bj e a. Questo conclude la
prova della (26.4.27).
Proviamo ora la (26.4.10) usando il fatto che Φ risolve l’equazione (26.4.6), per cui si ha
Φ(t0 , x0 ; t, x) − Φ(t0 , x0 ; t, y) = L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y)

Z tZ
+ Φ(t0 , x0 ; s, η) (L P(s, η; t, x) − L P(s, η; t, y)) dηds .
t0 RN
| {z }
=:I(t0 ,x0 ;t,x,y)
Grazie alla (26.4.27) è sufficiente stimare il termine I(t0 , x0 ; t, x, y): ancora per le stime (26.4.9) e (26.4.27)
otteniamo
t α
Z c |x − y| 2
I(t0 , x0 ; t, x, y) ≤ α α ·
t0 (s − t0 )1− 2 (t − s)1− 4
Z
· G(λ(s − t0 ), η − x0 ) (G(λ(t − s), x − η) + G(λ(t − s), y − η)) dηds =
RN
t
c |x − y|α/2
Z
= α α ds (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
t0 (s − t0 )1− 2 (t − s)1− 4
c |x − y|α/2
= 3α
(G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1− 4
data la formula generale

Z t
1 Γ (1 − β) ΓE (1 − γ)
ds = E (t − t0 )1−β−γ (26.4.28)
t0 (s − t0 )β (t − s)γ ΓE (2 − β − γ)
valida per ogni β, γ < 1.
26.4.3 Stime del potenziale

Assumiamo l’Ipotesi 26.3.2 e ricordiamo la definizione (26.4.3) di parametrice. In questa sezione con-
sideriamo il cosiddetto potenziale
Z tZ
Vf (t, x) := f (s, y)P(s, y; t, x)dyds, (t, x) ∈]t0 , T [×RN , (26.4.29)
t0 RN
dove f ∈ C(]t0 , T [×RN ) soddisfa l’Ipotesi 26.3.4 di crescita e Hölderianità locale. Nel seguito sarà utile la
seguente
Osservazione 26.4.9. Poniamo

(x−y)2
Z
I(t, x) = e− t dy, t > 0, x ∈ R.
R
Per il classico teorema di scambio di segni di derivata e integrale, per ogni k ∈ N esistono e sono continue
le derivate
|x−y|2 |x−y|2
Z Z
∂kx I(t, x) = ∂kx e− t dy, ∂t I(t, x) = ∂t e− t dy.
RN RN
Il risultato principale della sezione è la seguente

Proposizione 26.4.10. La definizione (26.4.29) è ben posta e Vf ∈ C(]t0 , T [×RN ). Inoltre, per ogni i, j =
1, . . . , N esistono e sono continue su ]t0 , T [×RN le derivate
Z tZ
∂xi Vf (t, x) = f (s, y)∂xi P(s, y; t, x)dyds, (26.4.30)
t0 RN
Z tZ
∂xi xj Vf (t, x) = f (s, y)∂xi xj P(s, y; t, x)dyds, (26.4.31)
t0 RN
Z tZ
∂t Vf (t, x) = f (t, x) + f (s, y)∂t P(s, y; t, x)dyds. (26.4.32)
t0 RN
Z
I(s; t, x) := f (s, y)Γy (s, y; t, x)dy, t 0 ≤ s < t < T , x ∈ RN ,
RN
cosicché Z t
Vf (t, x) = I(s; t, x)ds.
t0
Per la stima (26.4.11) e l’ipotesi (26.3.5), si ha
c1 λN |x−y|2
Z
0 c2 |y|2 − 2λ
|I(s; t, x)| ≤ e 0 (t−s) dy =
N
(s − t0 )1−β (2πλ0 (t − s)) 2 RN
x−y
(col cambio di variabili z = √ e posto c0 = c1 λN π−N /2 )
2λ0 (t−s)
Z √ 2
c0 c2 x−z 2λ0 (t−s) −|z|2
= e dz ≤
(s − t0 )1−β RN
(posto κ = 1 − 4c2 λ0 T > 0 per ipotesi)

2
ce2c2 |x|
Z
c0 2 2
≤ 1−β
e2c2 |x| e−κ|z| dz ≤ (26.4.33)
(s − t0 ) RN (s − t0 )1−β
con c = c(λ0 , T , N , c1 , c2 ) costante positiva opportuna. Ne segue che la funzione Vf ∈ C(]t0 , T [×RN ) è ben
definita e 2
Vf (t, x) ≤ c(t − t0 )β e2c2 |x| , t0 < t < T , x ∈ RN , (26.4.34)
con β > 0.
[Prova della (26.4.30)] Per l’Osservazione 26.4.9, per t0 ≤ s < t < T si ha
Z
∂xi I(s; t, x) = f (s, y)∂xi P(s, y; t, x)dy ≤
RN
(procedendo come nella prova di (26.4.33), utilizzando la stima (26.4.12))

2
ce2c2 |x|
≤ √ .
(s − t0 )1−β t − s
Questo è sufficiente a provare la (26.4.30) e inoltre, per la (26.4.28) si ha
2
ce2c2 |x|
∂xi Vf (t, x) ≤ 1
, t 0 < t < T , x ∈ RN .
(t − t0 ) 2 −β
[Prova della (26.4.31)] La prova dell’esistenza della derivata seconda è più complessa poiché ripetendo
1
l’argomento precedente con la stima (26.4.13) si otterrebbe un termine singolare del tipo t−s che non è som-
mabile nell’intervallo [t0 , t]. In maniera più attenta è possibile provare delle stime più precise e uniformi
su ]t0 , T [×Dn per ogni n ∈ N fissato, dove Dn := {|x| ≤ n}.
Supponiamo x ∈ Dn . Anzitutto, come nell’Osservazione 26.4.9, per ogni s < t si ha
Z
∂xi xj I(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy = J(s; t, x) + H(s; t, x)
RN
dove
Z Z
J(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy, H(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy.
Dn+1 RN \Dn+1
Decomponiamo J nella somma di tre termini, J = J1 + J2 + J3 , dove7

Z
J1 (s; t, x) = (f (s, y) − f (s, x)) ∂xi xj Γy (s, y; t, x)dy,
Dn+1
Z
J2 (s; t, x) = f (s, x) ∂xi xj Γy (s, y; t, x) − ∂xi xj Γη (s, y; t, x) |η=x dy,
Dn+1
Z
J3 (s; t, x) = f (s, x) ∂xi xj Γη (s, y; t, x) |η=x dy.
Dn+1
Per l’ipotesi di Hölderianità locale di f , essendo x, y ∈ Dn+1 , e la stima (26.4.13), si ha
|x − y|β
Z
c
|J1 (s; t, x)| ≤ β
G (λ(t − s), x − y) dy ≤
(s − t0 )1− 2 Dn+1 t − s
Z
c c
≤ β β
G (2λ(t − s), x − y) dy ≤ β β
,
1− 2 1− 2 1− 2
(s − t0 ) (t − s) Dn+1 (s − t0 ) (t − s)1− 2
con c costante positiva che dipende da κn in (26.3.6), oltre che da T , N , λ e λ0 . Procedendo in modo simile,
utilizzando la (26.4.17) e la (26.3.5), si ha
2 2
cec2 |x| |y − x|α cec2 |x|
Z
|J2 (s; t, x)| ≤ G (λ(t − s), x − y) dy ≤ α .
(s − t0 )1−β Dn+1 t − s (s − t0 )1−β (t − s)1− 2
Ora, notiamo che
∂xi Γη (s, y; t, x) = −∂yj Γη (s, y; t, x)
e quindi
Z Z
∂xi xj Γη (s, y; t, x) |η=x dy = − ∂yi xj Γη (s, y; t, x) |η=x dy =
Dn+1 Dn+1
(per il teorema della divergenza, indicando con ν la normale esterna a Dn+1 e con dσ (y) la misura di
superficie sul bordo ∂Dn+1 )
Z
=− ∂xj Γη (s, y; t, x) |η=x ν(y)dσ (y)
∂Dn+1

7 Per chiarezza, il termine ∂
xi xj Γη (s, y; t, x) |η=x si ottiene applicando prima le derivate ∂xi xj Γη (s, y; t, x), tenendo η fissato, e poi
calcolando il risultato ottenuto in η = x. Si noti che, sotto l’Ipotesi 26.3.2, Γη (s, y; t, x) come funzione di η non è differenziabile.
da cui, ancora per la (26.4.12) e la (26.3.5), si ottiene

2 2
cec2 |x| cec2 |x|
Z
1
|J3 (s; t, x)| ≤ √ G (λ(t − s), x − y) dσ (y) ≤ √ .
(s − t0 )1−β ∂Dn+1 t−s (s − t0 )1−β t − s
Infine, per la (26.4.13) si ha

Z
c
|H(s; t, x)| ≤ |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s
(essendo |x − y| ≥ 1 poiché |y| ≥ n + 1 e |x| ≤ n)
|x − y|2
Z
≤c |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s
(per il Lemma 26.4.4, con λ′ > λ, e l’ipotesi (26.3.5) sulla crescita di f )

2
cec|x|
Z
c 2
≤ ec2 |y| G (λ′ (t − s), x − y) dy ≤
(s − t0 )1−β RN (s − t0 )1−β
con c > 0 opportuna, ricordando che c2 < 4λ1 T per ipotesi e scegliendo λ′ − λ0 sufficientemente piccolo. In
0
definitiva, abbiamo provato che, per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato, esiste una costante c tale
che Z
c
|∂xi xj I(s; t, x)| = f (s, y)∂xi xj P(s, y; t, x)dy ≤ β γ
(26.4.35)
R N
(s − t0 ) 2 (t − s)1− 2
1−
dove γ = α ∧ β, da cui anche

c
|∂xi xj Vf (t, x)| ≤ 1 β γ
(t − t0 ) 2 − 2 − 2
grazie alla (26.4.28). Questo conclude la dimostrazione della formula (26.4.31).
[Prova della (26.4.32)] Preliminarmente osserviamo che, come nell’Osservazione 26.4.9, vale
Z
|∂t I(s; t, x)| = f (s, y)∂t Γy (s, y; t, x)dy =

RN
(poiché Γy è soluzione fondamentale di Ly )

Z N
1 X
= f (s, y) cij (t, y)∂xi xj Γy (s, y; t, x)dy ≤
RN 2
i,j=1
(procedendo come nella prova di (26.4.35) e usando l’ipotesi di limitatezza dei coefficienti)
c
≤ γ . (26.4.36)
(s − t0 )1−β (t − s)1− 2
per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato. Ora, si ha
Vf (t + h, x) − Vf (t, x)
Z t Z t+h
I(s; t + h, x) − I(s; t, x) 1
= ds + I(s; t + h, x)ds =: I1 (t, x) + I2 (t, x).
h t0 h h t
Per il teorema del valor medio, esiste t̂s ∈ [t, t + h] tale che
Zt Zt
I1 (t, x) = ∂t I(s; t̂s , x)ds −−−−−→ ∂t I(s; t, x)ds
t0 h→0 t0
dove il passaggio al limite è giustificato dal teorema della convergenza dominata grazie alla stima (26.4.36).
Per quanto riguarda I2 , si ha
Z t+h Z t+h
1 1
I2 (t, x) − f (t, x) = (I(s; t + h, x) − f (s, x)) ds + (f (s, x) − f (t, x))ds
h t h t
dove il secondo integrale nel membro destro tende a zero per h → 0 essendo f continua, mentre per sti-
mare il primo integrale assumiamo x ∈ Dn e procediamo come nella prova della (26.4.31): precisamente,
scriviamo
1 t+h 1 t+h
Z Z Z
(I(s; t + h, x) − f (s, x)) ds = (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds
h t h t Dn+1
| {z }
=:J1 (t,x)
Z t+h Z
1
+ (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds .
h t RN \Dn+1
| {z }
=:J2 (t,x)
Assumiamo h > 0 per semplicità: per l’ipotesi di Hölderianità di f e la stima (26.4.11) di Γy , si ha
t+h Z
λN κn+1
Z
|J1 (t, x)| ≤ |x − y|β G (λ0 (t + h − s), x − y) dyds ≤
h t Dn+1

Z t+h Z
c β
≤ (t + h − s) 2 G (λ0 (t + h − s), x − y) dy ds −−−−−−+→ 0.
h t Dn+1 h→0
| {z }
≤1
D’altra parte, grazie all’ipotesi (26.3.5) di crescita su f e alla (26.4.11), si verifica facilmente che
Z t+h Z
c 2
|J2 (t, x)| ≤ ec2 |y| G (λ0 (t + h − s), x − y) dyds −−−−−−+→ 0.
h t |x−y|>1 h→0
Questo è sufficiente a concludere la prova della proposizione.

Dividiamo la prova in alcuni passi.
Passo 1. Per costruzione e per le proprietà di Φ della Proposizione 26.4.2, Γ = Γ (t0 , x0 ; t, x) in (26.4.4) è una
funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Dimostriamo che Γ è soluzione di L . Grazie
alle stime di Φ della Proposizione 26.4.2, applicando la Proposizione 26.4.10 otteniamo
Z tZ
∂xi Γ (t0 , x0 ; t, x) = ∂xi P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)∂xi P(s, y; t, x)dyds,
t0 RN
Z tZ
∂xi xj Γ (t0 , x0 ; t, x) = ∂xi xj P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds,
t0 RN
Z tZ
∂t Γ (t0 , x0 ; t, x) = Φ(t0 , x0 ; s, y)∂t P(s, y; t, x)dyds + Φ(t0 , x0 ; t, x),
t0 RN
per t0 < t < T , x, x0 ∈ RN . Allora si ha

Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x)
t0 RN
da cui si deduce che

L Γ (t0 , x0 ; t, x) = 0, 0 ≤ t0 < t < T , x, x0 ∈ RN , (26.4.37)
poiché, per la Proposizione 26.4.2, Φ risolve l’equazione (26.4.6).
Passo 2. Proviamo la stima Gaussiana dall’alto (26.3.7). Per la definizione (26.4.4) di Γ si ha
Z tZ
Φ(t , x ; s, y) P(s, y; t, x)dyds ≤
|Γ (t0 , x0 ; t, x)| ≤ P(t0 , x0 ; t, x) + 0 0
t0 RN
(per la (26.4.9) e la (26.4.11))
≤ λN G (λ(t − t0 ), x − x0 )
Zt Z
c
+ 1− α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 ) 2 RN

α
≤ λN G (λ(t − t0 ), x − x0 ) + c(t − t0 ) 2 G(λ(t − t0 ), x − x0 ) (26.4.38)
e questo prova in particolare la stima dall’alto (26.3.7). La (26.3.8) si dimostra in modo completamente
analogo.
Proviamo ora la (26.3.9). Ripetendo la dimostrazione della (26.4.35) con Φ(t0 , x0 ; s, y) al posto di f (s, y) e
utilizzando le stime della Proposizione 26.4.2, si prova l’esistenza di una costante positiva c = c(T , N , λ, λ0 )
tale che
Z
c

N Φ(t ,
0 0x ; s, y)∂ xi xj P(s, y; t, x)dy (s − t )1− α4 (t − s)1− α4 G(λ(t − t0 ), x − x0 ),
≤ t0 ≤ s < t < T , x, x0 ∈ RN .
R 0
(26.4.39)
Dunque per la (26.4.4) e (26.4.31), si ha
Z t Z
∂x x Γ (t0 , x0 ; t, x) ≤ ∂x x P(t0 , x0 ; t, x) +
Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds ≤
i j i j t0 RN
(per la (26.4.13) e la (26.4.39))

!
1 1
≤c + G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− α2
Passo 3. Dimostriamo che Γ è soluzione fondamentale di L . Data ϕ ∈ bC(RN ), consideriamo la funzione u

in (26.3.1). Grazie alle stime (26.3.7)-(26.3.9) si ha
Z
L u(t, x) = ϕ(ξ)L Γ (t0 , ξ; t, x)dξ = 0, 0 ≤ t0 < t < T , x ∈ RN ,
RN
per la (26.4.37). Per quanto riguarda il dato iniziale, abbiamo

Z Z Z tZ
u(t, x) = ϕ(ξ)P(t0 , ξ; t, x)dξ + ϕ(ξ) Φ(t0 , ξ; s, y)P(s, y; t, x)dyds dξ .
RN RN t0 RN
| {z } | {z }
J(t,x) H(t,x)
Ora, fissato x0 ∈ RN ,
Z Z
J(t, x) = ϕ(ξ) Γξ (t0 , ξ; t, x) − Γx0 (t0 , ξ; t, x) dξ + ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ
RN RN
| {z }
J1 (t,x)
e, per la (26.4.15), si ha
Z
|J1 (t, x)| ≤ c |ϕ(ξ)||ξ − x0 |α G (λ(t − t0 ), x − ξ) dξ −−−−−−−−−−−−→ 0,
RN (t,x)→(t0 ,x0 )
Z
ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ −−−−−−−−−−−−→ ϕ(x0 ).
RN (t,x)→(t0 ,x0 )
I passaggi al limite si giustificano come nell’Esempio 4.1.3 e, in termini probabilistici, corrispondono alla
convergenza debole della distribuzione normale alla delta di Dirac, al tendere della varianza a zero. D’altra
parte, per la (26.4.38)
Z
α
|H(t, x)| ≤ c(t − t0 ) 2 ϕ(x0 )G(λ(t − t0 ), x − x0 )dx0 −−−−−−−−−−−→ 0.
RN (t,x)→(t0 ,x̄)
Questo prova che u ∈ C([t0 , T [×RN ) e quindi è soluzione classica del problema di Cauchy (26.3.2).
Passo 4. Proviamo che u in (26.3.11) è soluzione classica del problema di Cauchy non omogeneo (26.3.12).
Usiamo la definizione di Γ in (26.4.4) e ci concentriamo sul termine
Z tZ Z tZ
f (s, y)Γ (s, y; t, x)dyds = f (s, y)P(s, y; t, x)dyds
t0 RN t0 RN
Z tZ Z tZ
+ f (s, y) Φ(s, y; τ, η)P(τ, η; t, x)dηdτdyds =
t0 RN s RN
(con la notazione (26.4.29), posto Φ(s, y; τ, η) = 0 per τ ≤ s e scambiando l’ordine di integrazione dell’ultimo
integrale)
= Vf (t, x) + VF (t, x)
dove Z τZ
F(τ, η) := f (s, y)Φ(s, y; τ, η)dyds.
t0 RN
Proviamo fra poco che F soddisfa l’Ipotesi 26.3.4 ed è quindi possibile applicare a Vf e VF la Proposizione
26.4.10 da cui otteniamo
Z tZ
L Vf (t, x) + VF (t, x) = −f (t, x) − F(t, x) + (f (s, y) + F(s, y)) L P(s, y; t, x)dyds
t0 RN
Z tZ
= −f (t, x) + f (s, y)I(s, y; t, x)dyds
t0 RN
dove Z tZ
I(s, y; t, x) := −Φ(s, y; t, x) + L P(s, y; t, x) + Φ(s, y; τ, η)L P(τ, η; t, x)dηdτ ≡ 0
s RN
per la (26.4.6). Questo prova che
L u(t, x) = f (t, x), 0 ≤ t0 < t < T , x, x0 ∈ RN .
Verifichiamo che F soddisfa l’Ipotesi 26.3.4: per la (26.4.9), le ipotesi su f e la (26.4.28), si ha
2
Z τZ cec2 |y| c 2
F(τ, η) ≤ β α
G(λ(τ − s), η − y)dyds ≤ α+β
ec|η| .
t0 RN (s − t )1− 2 (τ − s)1− 2 (τ − t0 )1− 2
0
Inoltre, per la (26.4.10) si ha

Z τZ 2
α ec2 |y|
F(τ, η) − F(τ, η ′ ) ≤ c|η − η ′ | 2 β α
(G(λ(τ − s), η − y) + G(λ(τ − s), η ′ − y)) dyds
t0 RN (s − t0 )1− 2 (τ − s)1− 4
α
c|η − η ′ | 2 2 ′ 2
≤ α+2β
ec|η| + ec|η | .
(τ − t0 )1− 4
Infine, usando la stima dall’alto (26.3.7) di Γ e procedendo come nella prova della stima (26.4.34), si
prova che
Z tZ
f (s, y)Γ (s, y; t, x)dyds −−−−−−−−−−−→ 0,
t0 RN (t,x)→(t0 ,x̄)
per ogni x̄ ∈ RN . Questo conclude la prova del fatto che u in (26.3.11) è soluzione classica del problema di
Cauchy non omogeneo (26.3.12).
Passo 5. L’equazione di Chapman-Kolmogorov e la formula (26.3.13) si provano come nell’Osservazione
26.4.7, come conseguenza del risultato di unicità del Teorema 26.2.8. In particolare, per quanto provato
nei punti precedenti, se a è costante, le funzioni
Z
u1 (t, x) := ea(t−t0 ) , u2 (t, x) := Γ (t0 , x0 ; t, x)dx0
RN
sono entrambe soluzioni limitate (grazie alla stima (26.4.38)) del problema di Cauchy

L u = 0 in ]t0 , T [×RN ,


u(t0 , ·) = 1 in RN ,


e quindi coincidono.
Passo 6. Come ultimo passo proviamo la stima dal basso di Γ in (26.3.10). Si tratta di un risultato non
banale, per il quale adattiamo una tecnica introdotta da D.G. Aronson che sfrutta alcune classiche stime di
J. Nash: per maggiori dettagli rimandiamo anche alla Sezione 2 in [39]. Qui, al posto delle stime di Nash
utilizziamo altre stime ricavate direttamente dal metodo della parametrice.
Anzitutto, proviamo che Γ ≥ 0: per assurdo, se fosse Γ (t0 , x0 ; t1 , x1 ) < 0 per certi x0 , x1 ∈ RN e 0 ≤ t0 <
t1 < T , allora per continuità si avrebbe
Γ (t0 , y; t1 , x1 ) < 0, |y − x0 | < r,
con r > 0 opportuno. Consideriamo ϕ ∈ bC(RN ) tale che ϕ(y) > 0 per |y − x0 | < r e ϕ(y) ≡ 0 per |y − x0 | ≥ r: la
funzione Z
u(t, x) := ϕ(y)Γ (t0 , y; t, x)dy, t ∈]t0 , T [, x ∈ RN ,
RN
è limitata grazie alla stima (26.4.38) di Γ , è tale che u(t1 , x1 ) < 0 ed è soluzione classica del problema di
Cauchy (26.3.2). Questo è assurdo perché contraddice il principio del massimo, Teorema 26.2.8.
Ora osserviamo che per ogni λ > 1 si ha
t

G(λt, x) ≤ G , x
λ
√ q
se |x| < cλ t dove cλ = λλN 2 −1 log λ. Allora, per la definizione (26.4.4) si ha
Z Z
t
Γ (t0 , x0 ; t, x) ≥ P(t0 , x0 ; t, x) − Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds ≥
t0 RN
(per la (26.4.11) e procedendo come nella prova della (26.4.38))

1 t − t0
α
≥ NG , x − x0 − c(t − t0 ) 2 G (λ(t − t0 ), x − x0 ) =
λ λ
√
(se |x − x0 | ≤ cλ t − t0 )
t − t0
α

≥ λ−N − c(t − t0 ) 2 G , x − x0
λ
1 t − t0

≥ G , x − x0 (26.4.40)
2λN λ
− 2
se 0 < t − t0 ≤ Tλ := 2cλN α ∧ T .
Dati x, x0 ∈ RN e 0 ≤ t0 < t < T , sia m ∈ N la parte intera di
 4|x − x0 |2 T 
 

max  , .

 c2 (t − t ) T 
λ 0 λ
Poniamo
t − t0 x − x0
tk = t0 + k
, x k = x0 + k , k = 1, . . . , m,
m+1 m+1
e osserviamo che, grazie alla scelta di m, si ha
t − t0 T
tk+1 − tk = ≤ ≤ Tλ . (26.4.41)
m+1 m+1
q
cλ t−t0
Inoltre, se yk ∈ D(xk , r) := {y ∈ RN | |xk − y| < r} per ogni k = 1, . . . , m allora, scelto r = 4 m+1 , si ha
r r
|x − x0 | c t − t0 t − t0
|yk+1 − yk | ≤ 2r + |xk+1 − xk | = 2r + ≤ 2r + λ = cλ (26.4.42)
m+1 2 m+1 m+1
√
= cλ tk+1 − tk . (26.4.43)
Applicando ripetutamente l’equazione di Chapman-Kolmogorov si ha

Z m−1
Y
Γ (t0 , x0 ; t, x) = Γ (t0 , x0 ; t1 , y1 ) Γ (tk , yk ; tk+1 , yk+1 )Γ (tm , ym ; t, x)dy1 . . . dym ≥
RN m k=1
(usando il fatto che Γ ≥ 0)

Z m−1
Y
≥ Γ (t0 , x0 ; t1 , y1 ) 1D(xk ,r) (yk )Γ (tk , yk ; tk+1 , yk+1 )1D(xm ,r) (ym )Γ (tm , ym ; t, x)dy1 . . . dym ≥
RN m k=1
(poiché, per le (26.4.41) e (26.4.43), vale la stima (26.4.40))

Z !
1 t − t0
≥ G , y − x0 ·
(2λN )m+1 RN m λ(m + 1) 1
m−1 ! !
Y t − t0 t − t0
· 1D(xk ,r) (yk )G ,y −y 1 (y )G , x − ym dy1 . . . dym ≥
λ(m + 1) k+1 k D(xm ,r) m λ(m + 1)
k=1
(indicando con ωN il volume della palla unitaria in RN , per la (26.4.42))

! N2 (m+1)
 λcλ2
 
1 m λ(m + 1)
ωN r N

≥ N m+1
exp − (m + 1) .
(2λ ) 2π(t − t0 ) 2
Ne segue l’esistenza di una costante c = c(N , T , α, λ, λ0 ) tale che
1
Γ (t0 , x0 ; t, x) ≥ N
e−cm
c(t − t0 ) 2
e per la scelta di m questo basta a provare la tesi e concludere la dimostrazione del Teorema 26.3.5.
Appendice A
A.1 Teoremi di Dynkin

Indichiamo con Ω un generico insieme non vuoto. Come anticipato nella Sezione 2.4.1, è difficile dare
una rappresentazione esplicita della σ -algebra σ (A ) generata da una famiglia A di sottoinsiemi di Ω.
I risultati di questa sezione, dal carattere piuttosto tecnico, permettono di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ).
Definizione A.1.1 (Famiglia monotona di insiemi). Una famiglia M di sottoinsiemi di Ω è una famiglia
monotona se gode delle seguenti proprietà:
i) Ω ∈ M ;
ii) se A, B ∈ M e A ⊆ B, allora B \ A ∈ M ;
iii) se (An )n∈N è una successione crescente di elementi di M , allora An ∈ M .

S
n∈N
Ogni σ -algebra è una famiglia monotona mentre il viceversa non è necessariamente vero poiché la pro-
prietà iii) di “chiusura rispetto all’unione numerabile” vale solo per successioni crescenti, ossia tali che
An ⊆ An+1 per ogni n ∈ N. Tuttavia si ha il seguente risultato.
Lemma A.1.2. Se la famiglia monotona M è ∩-chiusa1 allora è una σ -algebra.
Dimostrazione. Se M è monotona verifica le prime due proprietà della definizione di σ -algebra: rimane
solo da provare la ii-b) della Definizione 2.1.1, ossia che l’unione numerabile di elementi di M appartiene
ad M . Anzitutto, dati A, B ∈ M , poiché
A ∪ B = (Ac ∩ Bc )c ,
l’ipotesi di chiusura rispetto all’intersezione implica che A ∪ B ∈ M . Ora, data una successione (An )n∈N di
elementi di M , definiamo la successione
n
[
Ān := Ak , n ∈ N,
k=1
che è crescente e tale che Ān ∈ M per quanto appena dimostrato. Allora si conclude che
[ [
An = Ān ∈ M
n∈N n∈N
per la iii) della Definizione A.1.1.

1 Ossia tale che A ∩ B ∈ M per ogni A, B ∈ M .
497
498 APPENDICE A.
Osserviamo che l’intersezione di famiglie monotone è una famiglia monotona. Data una famiglia A
di sottoinsiemi di Ω, indichiamo con M (A ) l’intersezione di tutte le famiglie monotone che contengono
A : diciamo cheM (A ) è la famiglia monotona generata da A , ossia la più piccola famiglia monotona che
contiene A .
Teorema A.1.3 (Primo Teorema di Dynkin). [!] Sia A una famiglia di sottoinsiemi di Ω. Se A è ∩-chiusa
allora M (A ) = σ (A ).
Dimostrazione. σ (A ) è monotona e quindi σ (A ) ⊇ M (A ). Viceversa, se proviamo che M (A ) è ∩-chiusa
allora dal Lemma A.1.2 seguirà che M (A ) è una σ -algebra e quindi σ (A ) ⊆ M (A ).
Proviamo dunque che M (A ) è ∩-chiusa. Poniamo
M1 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ A },
e proviamo che M1 è una famiglia monotona: poiché A ⊆ M1 , ne seguirà M (A ) ⊆ M1 e quindi M (A ) =

M1 . Abbiamo:
i) Ω ∈ M1 ;
ii) per ogni A, B ∈ M1 con A ⊆ B, vale
(B \ A) ∩ I = (B ∩ I) \ (A ∩ I) ∈ M (A ), I ∈A,
e quindi B \ A ∈ M1 ;
iii) sia (An ) una successione crescente in M1 e indichiamo con A l’unione degli An . Allora abbiamo
[
A∩I = (An ∩ I) ∈ M (A ), I ∈A,
n≥1
e quindi A ∈ M1 .
Questo prova che M (A ) = M1 . Ora poniamo
M2 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ M (A )}.
Abbiamo provato sopra che A ⊆ M2 . Inoltre, in modo analogo possiamo provare che M2 è una famiglia
monotona: ne viene che M (A ) ⊆ M2 e quindi M (A ) = M2 ossia M (A ) è ∩-chiusa.
Segue immediatamente dal Teorema A.1.3 il seguente
Corollario A.1.4. Sia M una famiglia monotona. Se M contiene una famiglia ∩-chiusa A , allora contiene
anche σ (A ).
Come secondo corollario dimostriamo la parte sull’unicità del Teorema 2.4.29 di Carathéodory (si veda
l’Osservazione A.1.6).
Corollario A.1.5. [!] Siano µ, ν misure finite su (Ω, σ (A )) dove A è una famiglia ∩-chiusa e tale che Ω ∈ A .
Se µ(A) = ν(A) per ogni A ∈ A allora µ = ν.
Dimostrazione. Sia
M = {A ∈ σ (A ) | µ(A) = ν(A)}.
Verifichiamo che M è una famiglia monotona: dal primo Teorema di Dynkin seguirà che M ⊇ M (A ) =
σ (A ) da cui la tesi.
Delle tre condizioni della Definizione A.1.1, la i) è vera per ipotesi. Per quanto riguarda la ii), se A, B ∈
M con A ⊆ B allora si ha
µ(B \ A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B \ A)
A.2. ASSOLUTA CONTINUITÀ 499
e quindi (B \ A) ∈ M . Infine, se (An )n∈N è una successione crescente in M e A =

S
An , allora per la
n∈N
continuità dal basso delle misure (cfr. Proposizione 2.1.32) si ha
µ(A) = lim µ(An ) = lim ν(An ) = ν(A)

n→∞ n→∞
da cui A ∈ M e questo conclude la prova.
Osservazione A.1.6. La parte sull’unicità del Teorema 2.4.29 di Carathéodory segue facilmente dal Corol-
lario A.1.5: la tesi è che se µ, ν sono misure σ -finite su un’algebra A e coincidono su A allora coincidono
anche su σ (A ).
Per ipotesi, esiste una successione (An )n∈N in A tale che µ(An ) = ν(An ) < ∞ e Ω =
S
An . Fissato n ∈ N,
n∈N
poiché A è ∩-chiusa, utilizzando il Corollario A.1.5 si prova facilmente che
µ(A ∩ An ) = ν(A ∩ An ), ∀A ∈ σ (A ).
Passando al limite in n, la tesi segue dalla continuità dal basso delle misure.
Definizione A.1.7 (Famiglia monotona di funzioni). Una famiglia H di funzioni limitate, definite da un
insieme Ω a valori reali, è monotona se gode delle seguenti proprietà:
i) H è uno spazio vettoriale reale;
ii) la funzione costante 1 appartiene ad H ;
iii) se (Xn )n∈N è una successione di funzioni non-negative di H tale che Xn ↗ X con X limitata, allora
X∈H .
Teorema A.1.8 (Secondo Teorema di Dynkin). [!] Sia A una famiglia ∩-chiusa di sottoinsiemi di Ω. Se
H è una famiglia monotona che contiene le funzioni indicatrici di elementi di A , allora H contiene anche
tutte le funzioni limitate e σ (A )-misurabili.
M = {H ⊆ Ω | 1H ∈ H }.
Per ipotesi, A ⊆ M e, usando il fatto che H è una famiglia monotona, è facile provare che M è una famiglia
monotona di insiemi. Allora M ⊇ M (A ) = σ (A ), dove l’uguaglianza è conseguenza del primo Teorema di
Dynkin. Dunque H contiene le funzioni indicatrici di elementi di σ (A ).
Data X ∈ mσ (A ), non-negativa e limitata, per Lemma 3.2.3 esiste una successione (Xn )n∈N di funzioni
semplici σ (A )-misurabili e non-negative tali che Xn ↗ X. Ogni Xn è combinazione lineare di funzioni
indicatrici di elementi di σ (A ) e quindi appartiene ad H , essendo H uno spazio vettoriale: per la proprietà
iii) di H , si ha che X ∈ H . Infine, per provare che ogni funzione σ (A )-misurabile e limitata appartiene ad
H , è sufficiente decomporla nella somma della sua parte positiva e negativa.
A.2 Assoluta continuità

A.2.1 Teorema di Radon-Nikodym
In questa sezione approfondiamo il concetto di assoluta continuità fra misure di cui avevamo considerato
un caso particolare (l’assoluta continuità rispetto alla misura di Lebesgue) nella Sezione 2.4.5. Come ri-
sultato principale proviamo che l’esistenza della densità è condizione necessaria e sufficiente per l’assoluta
continuità: questo è il contenuto del classico Teorema di Radon-Nikodym.
500 APPENDICE A.
Definizione A.2.1.1. Siano µ, ν misure σ -finite su (Ω, F ). Diciamo che ν è µ-assolutamente continua su
F , e scriviamo ν ≪ µ, se ogni insieme µ-trascurabile di F è anche ν-trascurabile. Quando è importante
specificare la σ -algebra considerata, si scrive anche
ν ≪F µ.
Ovviamente se F1 ⊆ F2 sono σ -algebre, allora ν ≪F2 µ implica ν ≪F1 µ ma non è vero il viceversa.
Esempio A.2.1.2. La Definizione 2.4.18 di assoluta continuità è un caso particolare della definizione pre-
cedente: infatti se µ è una distribuzione assolutamente continua allora µ(H) = 0 per ogni H ∈ B tale che
Leb(H) = 0 o, in altri termini,
µ ≪B Leb
ossia µ è assolutamente continua rispetto alla misura di Lebesgue.
Teorema A.2.1.3 (Teorema di Radon-Nikodym). [!] Se µ, ν sono misure σ -finite su (Ω, F ) e ν ≪ µ, allora
esiste g ∈ mF + tale che Z
ν(A) = gdµ, A ∈ F. (A.2.1)
A
g ∈ mF + verifica (A.2.1), allora g = e

Inoltre se e g quasi ovunque rispetto a µ. Si dice che g è la densità (o la
derivata di Radon-Nikodym) di ν rispetto a µ e si scrive
dν dν
dν = gdµ oppure g= oppure g= | .
dµ dµ F
Osservazione A.2.1.4. Siano µ, ν misure come nell’enunciato precedente, definite su (Ω, F ), e f ∈ mF + :

approssimando f con una successione crescente di funzioni semplici non-negative come nel Lemma 3.2.3,
grazie al Teorema di Beppo-Levi si ha
Z Z
f dν = lim fn dν =
Ω n→∞ Ω
dν
(per la (A.2.1) ed indicando con dµ la derivata di Radon-Nikodym di ν rispetto a µ)
Z
dν
= lim fn dµ =
n→∞ Ω dµ
(riapplicando il Teorema di Beppo-Levi)

Z
dν
= f dµ.
Ω dµ
Vale dunque la seguente formula per il cambio di misura di integrazione

Z Z
dν
f dν = f dµ
Ω Ω dµ
per ogni f ∈ mF + .
g ∈ mF + verificano la (A.2.1), allora si ha

Dimostrazione del Teorema A.2.1.3. [Unicità] Se g,e
Z
(g − e
g )dµ = 0, A ∈ F. (A.2.2)
A
g > 0} ∈ F , deve essere µ(A) = 0 ossia g ≤ e

In particolare, posto A = {g − e g µ-q.o. perché in caso contrario si
avrebbe Z
(g − e
g )dµ > 0
A
che contraddice la (A.2.2). Analogamente si prova che g ≥ e
g µ-q.o.
[Esistenza] Supponiamo dapprima che µ, ν siano finite. Diamo una dimostrazione basata sul Teorema
di rappresentazione di Riesz2 per i funzionali lineari e continui su uno spazio di Hilbert. Consideriamo
l’operatore lineare Z
L(f ) := f dµ
Ω
definito sullo spazio di Hilbert L2 (Ω, F , µ + ν) munito dell’usuale prodotto scalare

Z
⟨f , g⟩ = f gd(µ + ν).
Ω
L’operatore L è limitato e quindi continuo: infatti, applicando la disuguaglianza triangolare e poi la disu-
guaglianza di Hölder, si ha
Z Z q
|L(f )| ≤ |f |dµ ≤ |f |d(µ + ν) ≤ ∥f ∥L2 (µ + ν)(Ω).
Ω Ω
Allora per il Teorema di Riesz esiste ϕ ∈ L2 (Ω, F , µ + ν) tale che

Z Z
f dµ = f ϕd(µ + ν), f ∈ L2 (Ω, F , µ + ν). (A.2.3)
Ω Ω
Proviamo che 0 < ϕ < 1 µ-quasi ovunque: a tal fine, poniamo A0 = {ϕ < 0}, A1 = {ϕ > 1} e fi = 1Ai ∈
L2 (Ω, F , µ + ν), per i = 0, 1. Se fosse µ(Ai ) > 0, dalla (A.2.3) si avrebbe
Z Z Z
µ(A0 ) = f0 dµ = ϕd(µ + ν) ≤ ϕdµ < 0,
Ω A0 A0
Z Z Z
µ(A1 ) = f1 dµ = ϕd(µ + ν) ≥ ϕdµ > µ(A1 ),
Ω A1 A1
che è assurdo.
Ora, la (A.2.3) equivale a
Z Z
f ϕdν = f (1 − ϕ)dµ, f ∈ L2 (Ω, F , µ + ν),
Ω Ω
e per il Lemma 3.2.3 e il Teorema di Beppo-Levi (che si applica poiché 0 < ϕ < 1 µ-quasi ovunque e quindi
anche ν-quasi ovunque), tale uguaglianza si estende ad ogni f ∈ mF + . In particolare, per f = 1ϕA si ottiene
Z
1−ϕ
ν(A) = dµ, A ∈ F.
A ϕ
2
Teorema A.2.1.5 (Teorema di rappresentazione di Riesz). Se L è un operatore lineare e continuo su uno spazio di Hilbert (H, ⟨·, ·⟩),
allora esiste ed è unico y ∈ H tale che
L(x) = ⟨x, y⟩, x ∈ H.
Per la dimostrazione del Teorema A.2.1.5, e più in generale per un’introduzione semplice ma completa agli spazi di Hilbert, si veda il
Capitolo 4 in [107].
502 APPENDICE A.
1−ϕ
Questo prova la tesi con g = ϕ ∈ mF + .
Consideriamo ora il caso generale in cui µ, ν siano σ -finite. Allora esiste una successione crescente
(An )n∈N in F , che ricopre Ω e tale che (µ + ν)(An ) < ∞ per ogni n ∈ N. Consideriamo le misure finite
µn (A) := µ(A ∩ An ), νn (A) := ν(A ∩ An ), A ∈ F , n ∈ N.
È facile vedere che νn ≪ µn e quindi esiste gn ∈ mF + tale che νn = gn dµn . Inoltre come nella dimostrazione
dell’unicità, si prova che gn = gm su An per n ≤ m. Allora consideriamo g ∈ mF + definita da g = gn su An .
Per ogni A ∈ F si ha Z Z
ν(A ∩ An ) = νn (A) = gn dµn = f dµ
A A∩An
e la tesi segue passando al limite per n → +∞.
A.2.2 Rappresentazione di aperti di R mediante intervalli

Lemma A.2.2.1. Ogni aperto A di R si scrive come unione numerabile di intervalli aperti disgiunti:
]
A= ]an , bn [. (A.2.4)
n≥1
Dimostrazione. Sia A un aperto di R. Dato x ∈ A poniamo
ax = inf{a ∈ R | esiste b tale che x ∈ ]ax , b[ ⊆ A} e bx = sup{b ∈ R |]ax , b[ ⊆ A}.
Allora è chiaro che x ∈ Ix := ]ax , bx [ ⊆ A. D’altra parte, se x, y ∈ A e x , y allora si ha che Ix ∩ Iy = ∅ oppure

Ix ≡ Iy . Infatti, se per assurdo fosse Ix ∩ Iy , ∅ e Ix , Iy allora I := Ix ∪ Iy sarebbe un intervallo aperto, incluso
in A e tale che x ∈ Ix ⊂ I: ciò contraddirebbe la definizione di ax e bx .
Abbiamo quindi provato che A si scrive come unione di intervalli aperti disgiunti: ognuno di essi
contiene un razionale differente e quindi si tratta di un’unione numerabile.
Osservazione A.2.2.2. [!] Come conseguenza del Lemma A.2.2.1, abbiamo che se µ è una distribuzione su
R e A è un aperto, allora per la (A.2.4) si ha
X
µ(A) = µ(]an , bn [).
n≥1
Unendo questo risultato al Corollario 2.4.10, si conclude che due distribuzioni µ1 e µ2 su R sono uguali se
e solo se µ1 (I) = µ2 (I) per ogni intervallo aperto I.
Il Lemma A.2.2.1 non si estende al caso multidimensionale (o, peggio ancora, al caso di uno spazio
metrico generico). Sembrerebbe naturale poter sostituire gli intervalli di R con i dischi. Tuttavia, cosı̀
facendo il risultato diventa falso anche in dimensione uno (almeno se si suppone che il raggio dei dischi
debba essere finito): basta considerare, per esempio, A = ]0, +∞[. Analogamente, un’unione disgiunta di
dischi aperti di R2 è un insieme connesso se e solo se consiste di un solo disco: quindi non c’è speranza di
rappresentare un generico aperto connesso di R2 come unione numerabile di dischi aperti disgiunti.
Nella dimostrazione del Lemma A.2.2.1 abbiamo usato la densità dei razionali in R: data la sottigliezza
degli argomenti, occorre fare attenzione a ciò che sembra intuitivo, come mostra il seguente
Esempio A.2.2.3. Sia (xn )n∈N una enumerazione dei punti di H := ]0, 1[∩Q ∈ B. Fissato ε ∈ ]0, 1[, sia (rn )n∈N
una successione di numeri reali positivi tali che la serie
X ε
rn < .
2
n≥1
Poniamo [
A := ]xn − rn , xn + rn [∩]0, 1[.
n≥1
Allora A è aperto, H ⊆ A e per la sub-additività (cfr. Proposizione 2.1.22-ii))

X
Leb(A) ≤ Leb(]xn − rn , xn + rn [) < ε.
n≥1
Ne segue anche che A è strettamente incluso ]0, 1[ (perché ha misura di Lebesgue minore di 1) pur essendo
aperto e denso in ]0, 1[.
A.2.3 Derivabilità di funzioni integrali

Il punto di partenza dei risultati di questa sezione è il classico Teorema di Lebesgue sulla derivabilità
delle funzioni monotone.
Teorema A.2.3.1 (di Lebesgue). [!!] Ogni funzione monotona (debolmente) crescente
F : [a, b] −→ R
è derivabile q.o. e vale

Z b
F ′ (x)dx ≤ F(b) − F(a). (A.2.5)
a
La disuguaglianza in (A.2.5) può essere stretta (si pensi alle funzioni costanti a tratti): la funzione di
Vitali dell’Esempio 2.4.36 è monotona, continua e verifica la (A.2.5) con la disuguaglianza stretta.
La dimostrazione standard del Teorema A.2.3.1 è basata sul Teorema di ricoprimento di Vitali e si
può trovare in [11], Teorema 14.18. Un’altra dimostrazione più diretta ma sotto l’ipotesi aggiuntiva di
continuità, è dovuta a Riesz (cfr. Capitolo 1.3 in [104]).
Proposizione A.2.3.2. Se γ ∈ L1 ([a, b]) e vale

Zx
γ(t)dt = 0 per ogni x ∈ [a, b],
a
allora γ = 0 q.o.
Dimostrazione. Dall’ipotesi segue anche che

Zx Zx Z x0
γ(t)dt = γ(t)dt − γ(t)dt = 0 a ≤ x0 < x ≤ b.
x0 a a
Inoltre, per il Lemma A.2.2.1 ogni aperto A ⊆ [a, b] si scrive nella forma (A.2.4) e quindi
Z ∞ Z
X bn
γ(t)dt = γ(t)dt = 0. (A.2.6)
A n=1 an
Ora sia H ∈ B, con H ⊆ [a, b]: per la Proposizione 2.4.9 sulla regolarità delle misure di Borel, per ogni n ∈ N
esiste un aperto An tale che H ⊆ An e Leb(An \ H) ≤ n1 . Allora si ha
Z Z Z
γ(t)dt = γ(t)dt − γ(t)dt =
H An An \H
504 APPENDICE A.
(per la (A.2.6))
Z
=− γ(t)dt −−−−−−−→ 0
An \H n→+∞
R
per il teorema della convergenza dominata. Dunque H γ(t)dt = 0 per ogni H ∈ B.
Allora, per ogni n ∈ N, poniamo Hn = {x ∈ [a, b] | γ(x) ≥ n1 } ∈ B: si ha
Z
Leb(Hn )
0= γ(t)dt ≥
Hn n
da cui Leb(Hn ) = 0 e quindi anche

∞
[
{x ∈ [a, b] | γ(x) > 0} = Hn
n=1
ha misura di Lebesgue nulla, ossia γ ≤ 0 q.o. Analogamente si prova che γ ≥ 0 q.o. e questo conclude la
prova.
Proposizione A.2.3.3. Se Z x
F(x) = F(a) + γ(t)dt, x ∈ [a, b],
a
con γ ∈ L1 ([a, b]), allora esiste F ′ = γ q.o.
Dimostrazione. A meno di considerare separatamente parte positiva e negativa di γ, possiamo assumere
γ ≥ 0 q.o. (e quindi F monotona crescente). Osserviamo anzitutto che F è continua poiché3
Z x+h
F(x + h) − F(x) = γ(t)dt −−−−→ 0
x h→0
per il Teorema della convergenza dominata.

Assumiamo dapprima anche che γ ∈ L∞ : allora si ha
Z x+h
F(x + h) − F(x) = 1
γ(t)dt ≤ ∥γ∥∞
h h x

e d’altra parte, per il Teorema A.2.3.1 di Lebesgue, essendo F monotona crescente, si ha che esiste
F(x + h) − F(x)
lim = F ′ (x) q.o.
h→0 h
Dunque, ancora per il Teorema della convergenza dominata, per a < x0 < x < b abbiamo
Zx Zx
F(t + h) − F(t)
F ′ (t)dt = lim dt
x0 h→0 x0 h
Z x+h Z x0 +h !
1
= lim F(t)dt − F(t)dt
h→0 h x x0
(poiché F è continua)
= F(x) − F(x0 ).
3 Se h < 0 poniamo per definizione
Z x+h Zx
γ(t)dt = − γ(t)dt.
x x+h
Ne segue che
Z x
(F ′ (t) − γ(t)) dt = 0, x ∈ [a, b]
a
e quindi, per la Proposizione A.2.3.2, F ′ = γ q.o.

Consideriamo ora il caso in cui γ ∈ L1 ([a, b]). Per n ∈ N, consideriamo la successione

γ(t) se 0 ≤ γ(t) ≤ n,


γn (t) = 
0
 se γ(t) > n.
Allora si ha F = Fn + Gn dove
Z x Z x
Fn (x) = γn (t)dt, Gn (x) = (γ(t) − γn (t)) dt.
a a
Da una parte, Gn è una funzione crescente (e quindi derivabile q.o. con Gn′ ≥ 0) poiché γ − γn ≥ 0 e d’altra
parte, per quanto appena provato, esiste Fn′ = γn q.o. Quindi si ha
F ′ = γn + G ′ ≥ γn q.o.
e, passando al limite per n → ∞, F ′ ≥ γ q.o. Allora vale

Z b Z b
F ′ (t)dt ≥ γ(t)dt = F(b) − F(a).
a a
Ma la disuguaglianza opposta viene dal Teorema A.2.3.1 di Lebesgue (si veda la (A.2.5)) e quindi
Z b
F ′ (t)dt = F(b) − F(a).
a
Allora si ha ancora Z b
(F ′ (t) − γ(t)) dt = 0
a
e, poiché F ′ ≥ γ q.o., si conclude che F ′ = γ q.o.
A.2.4 Assoluta continuità di funzioni

Definizione A.2.4.1 (Funzione assolutamente continua). Si dice che
F : [a, b] −→ R
è assolutamente continua, e si scrive F ∈ AC([a, b]), se, per ogni ε > 0 esiste δ > 0 tale che
N
X
|F(bn ) − F(an )| < ε (A.2.7)
n=1
per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che
N
X
(bn − an ) < δ.
n=1
506 APPENDICE A.
Esercizio A.2.4.2. Provare che se F ∈ AC([a, b]) allora, per ogni ε > 0 esiste δ > 0 tale che
∞
X
|F(bn ) − F(an )| < ε
n=1
per ogni successione di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che

∞
X
(bn − an ) < δ.
n=1
L’importanza delle funzioni assolutamente continue sta nel fatto che sono le funzioni per cui vale il
teorema fondamentale del calcolo integrale. Il principale risultato di questa sezione è il seguente
Teorema A.2.4.3. [!] Una funzione F è assolutamente continua su [a, b] se e solo se F è derivabile q.o. con
F ′ ∈ L1 ([a, b]) e vale Z x
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b].
a
Alla dimostrazione del Teorema A.2.4.3 premettiamo alcuni risultati preliminari. Anzitutto ricordiamo
la
Definizione A.2.4.4 (Funzione a variazione limitata). Si dice che
F : [a, b] −→ R
è a variazione limitata, e si scrive F ∈ BV([a, b]), se

b
_ q
X
(F) := sup |F(tk ) − F(tk−1 )| < ∞
a σ ∈P[a,b] k=1
dove P[a,b] indica l’insieme delle partizioni σ dell’intervallo [a, b], ossia delle scelte di un numero finito di
punti σ = {t0 , t1 , . . . , tq } tali che
a = t0 < t1 < · · · < tq = b.
Una presentazione dei principali risultati sulle funzioni a variazione limitata si trova in [69]. Qui
ricordiamo solo che per ogni F ∈ BV([a, b]) si ha
b
_ c
_ b
_
(F) = (F) + (F), c ∈ ]a, b[, (A.2.8)
a a c
e inoltre F si scrive come differenza di funzioni monotone crescenti nel modo seguente: per x ∈ [a, b]
x
_
F(x) = u(x) − v(x), u(x) := (F), v(x) := u(x) − F(x). (A.2.9)
a
Lemma A.2.4.5. Se F ∈ AC([a, b]) allora F ∈ BV([a, b]) e nella decomposizione (A.2.9), le funzioni u, v sono
monotone crescenti e assolutamente continue.
Dimostrazione. Poiché F ∈ AC([a, b]), esiste δ > 0 tale che
N
X
|F(bn ) − F(an )| < 1
n=1
per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che
N
X
(bn − an ) < δ.
n=1
Questo implica che F ∈ BV su ogni sotto-intervallo di [a, b] di lunghezza minore o uguale a δ. Allora il fatto
che F ∈ BV([a, b]) segue dalla (A.2.8), suddividendo [a, b] in un numero finito di intervalli di lunghezza
minore o uguale a δ.
Proviamo ora che u ∈ AC([a, b]) (e quindi anche v ∈ AC([a, b])). Per ipotesi F ∈ AC([a, b]) e quindi dato
ε > 0 esiste δ > 0 come nella Definizione A.2.4.1. Siano [an , bn ] ⊆ [a, b], n = 1, . . . , N , intervalli disgiunti tali
che
XN
(bn − an ) < δ.
n=1
Si ha
N
X X bn
N _ N
X qn
X
(u(bn ) − u(an )) = (F) = sup F(tn,k ) − F(tn,k−1 ) < ε
n=1 n=1 an n=1 σ ∈P[an ,bn ] k=1
poiché, in base alla (A.2.7), si ha

qn
N X
X
F(tn,k ) − F(tn,k−1 ) < ε
n=1 k=1
per ogni partizione (tn,0 , . . . , tn,qn ) ∈ P[an ,bn ] .
Dimostrazione del Teorema A.2.4.3. Se F ammette una rappresentazione del tipo
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b],
a
con γ ∈ L1 ([a, b]) allora chiaramente F è assolutamente continua per il Teorema della convergenza dominata
di Lebesgue. Inoltre F ′ = γ q.o. per la Proposizione A.2.3.3.
Viceversa, se F ∈ AC([a, b]), per il Lemma A.2.4.5 non è restrittivo assumere anche che F sia monotona
crescente. Allora possiamo considerare la misura µF definita come nel Teorema 2.4.33-i):
µF (]x, y]) = F(y) − F(x), a ≤ x < y ≤ b.
Vogliamo provare che µF è assolutamente continua rispetto alla misura di Lebesgue ossia µF ≪ Leb. Con-
sideriamo B ∈ B tale che Leb(B) = 0: per definizione di misura di Lebesgue4 , per ogni δ > 0 esiste una
successione (]an , bn ])n∈N di intervalli disgiunti tale che
∞
[
A ⊇ B, Leb(A) < δ, A := ]an , bn ]. (A.2.10)
n=1
Di conseguenza, per ogni ε > 0 esistono δ > 0 e A come in (A.2.10) per cui si ha
µF (B) ≤ µF (A ∩ [a, b]) ≤ ε,
dove la prima disuguaglianza è per la monotonia di µF e la seconda viene dal fatto che F ∈ AC([a, b])
e Leb(A) < δ (si ricordi l’Esercizio A.2.4.2). Data l’arbitrarietà di ε, si conclude che µF (B) = 0 e quindi
µF ≪ Leb.
4 Ricordiamo che (cfr. (2.5.5))
Leb(B) = inf{Leb(A) | B ⊆ A ∈ U }
dove U indica la famiglia delle unioni numerabili di intervalli disgiunti della forma ]a, b].
508 APPENDICE A.
Per il Teorema A.2.1.3 di Radon-Nikodym, esiste γ ∈ L1 ([a, b]) tale che

Zx
F(x) − F(a) = µF (]a, x]) = γ(t)dt, x ∈ [a, b],
a
e grazie alla Proposizione A.2.3.3 concludiamo che F′ = γ q.o.
A.3 Uniforme integrabilità

Forniamo uno strumento utile allo studio delle successioni di variabili aleatorie, il Teorema di Vitali:
si tratta di una generalizzazione del Teorema della convergenza dominata di Lebesgue. In questa sezione
X = (Xt )t∈I è una famiglia di v.a. sullo spazio (Ω, F , P ) a valori in Rd , con I insieme qualsiasi di indici.
Diciamo che X è un processo stocastico.
Definizione A.3.0.1 (Uniforme integrabilità). Un processo stocastico (Xt )t∈I sullo spazio (Ω, F , P ) è uni-
formemente integrabile se vale h i
lim sup E |Xt |1(|Xt |≥R) = 0,
R→∞ t∈I
h i
o, in altri termini, se per ogni ε > 0 esiste R > 0 tale che E |Xt |1(|Xt |≥R) < ε per ogni t ∈ I.
q.c.
Teorema A.3.0.2 (Teorema di convergenza di Vitali). Se Xn −−−−→ X e (Xn )n∈N è uniformemente integrabile
allora E [|Xn − X|] −→ 0.
h i
Dimostrazione. Proviamo la tesi nel caso X = 0. Fissato ε > 0, esiste R > 0 tale che E |Xn |1(|Xn |≥R) < 2ε per
ogni
h n ∈ N; inoltre,
i per il teorema della convergenza dominata esiste n̄, che dipende da ε e R, tale che
E |Xn |1(|Xn |<R) < 2ε per ogni n ≥ n̄. In definitiva
h i h i
E [|Xn |] = E |Xn |1(|Xn |≥R) + E |Xn |1(|Xn |<R) < ε
per ogni n ≥ n̄.

In generale, vedremo fra poco nel Corollario A.3.0.5, che la somma di processi uniformemente integra-
bili è uniformemente integrabile. Dunque per riportarsi al caso precedente basta considerare il processo
q.c.
Yn = Xn − X che è uniformemente integrabile e tale Yn −−−−→ 0.
Diamo una caratterizzazione dell’uniforme integrabilità.
Definizione A.3.0.3 (Uniforme assoluta continuità). Un processo (Xt )t∈I sullo spazio (Ω, F , P ) è unifor-
memente assolutamente continuo se per ogni ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F
tale che P (A) < δ.
Proposizione A.3.0.4. Sono equivalenti:
i) il processo (Xt )t∈I è uniformemente integrabile;
ii) il processo (Xt )t∈I è uniformemente assolutamente continuo e sup E [|Xt |] < ∞.
t∈I
Dimostrazione. Se (Xt )t∈I è uniformemente integrabile esiste R > 0 tale che

h i
sup E |Xt |1(|Xt |≥R) ≤ 1.
t∈I
Allora si ha h i
E [|Xt |] ≤ 1 + E |Xt |1(|Xt |≤R) ≤ 1 + R.
A.3. UNIFORME INTEGRABILITÀ 509
h i
Analogamente, dato ε > 0 esiste R tale che E |Xt |1(|Xt |≥R) < 2ε per ogni t ∈ I: allora per ogni A ∈ F tale che
ε
P (A) < 2R , si ha
h i h i ε
E [|Xt |1A ] = E |Xt |1A∩(|Xt |≥R) + E |Xt |1A∩(|Xt |<R) < + RP (A) < ε.
2
Viceversa, per ipotesi, dato ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F tale che P (A) < δ.
Per la disuguaglianza di Markov, esiste R tale che
1
P (|Xt | ≥ R) ≤ sup E [|Xt |] < δ
R t∈I
e di conseguenza h i
E |Xt |1(|Xt |≥R) < ε
per ogni t ∈ I.
Corollario A.3.0.5. Se (Xt )t∈I e (Yt )t∈I sono uniformemente integrabili allora (Xt + Yt )t∈I è uniformemente
integrabile.
Dimostrazione. Utilizzando la caratterizzazione della Proposizione A.3.0.4, si tratta di una semplice verifi-
ca.
Diamo ora qualche esempio.
Proposizione A.3.0.6. Se esiste Y ∈ L1 (Ω, P ) tale che |Xt | ≤ Y per ogni t ∈ I allora (Xt )t∈I è uniformemente
integrabile.
Dimostrazione. Sia ε > 0: per l’assoluta continuità del valore atteso (Corollario 3.2.12), esiste δ > 0 tale che
E [|Y |1A ] < ε per ogni A ∈ F tale che P (A) < δ. Ora, per la disuguaglianza di Markov si ha
E [|Xt |] E [|Y |] E [|Y |]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Allora h i h i
E |Xt |1(|Xt ≥R|) ≤ E |Y |1(|Xt ≥R|) < ε.
Dalla Proposizione A.3.0.6 deduciamo che:

• un processo formato da una sola v.a. X sommabile è uniformemente integrabile;
• il teorema della convergenza dominata è un corollario del Teorema di Vitali.
Proposizione A.3.0.7. Siano X ∈ L1 (Ω, F , P ) e (Ft )t∈I una famiglia di sotto-σ -algebre di F . Il processo
definito da Xt = E [X | Ft ] è uniformemente integrabile.
Dimostrazione. La prova è analoga a quella del Lemma A.3.0.6. Fissato ε > 0, sia δ > 0 tale che E [|X|1A ] < ε
per ogni A ∈ F tale che P (A) < δ. Combinando le disuguaglianze di Markov e di Jensen abbiamo
E [|Xt |] E [|X|] E [|X|]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Ancora per la disuguaglianza di Jensen si ha
h i h i
E |Xt |1(|Xt |≥R) ≤ E E [|X| | Ft ] 1(|Xt |≥R) =
(per le proprietà dell’attesa condizionata, essendo 1(|Xt |≥R) ∈ bFt )

h i
= E |X|1(|Xt |≥R) < ε.
510 APPENDICE A.
Osservazione A.3.0.8. [!] La Proposizione A.3.0.7 si applica spesso nello studio della convergenza di par-
ticolari processi stocastici detti martingale. La situazione tipica è quella in cui si ha una successione (Xn )n∈N
che converge puntualmente; se Xn è della forma Xn = E [X | Fn ] per una certa X ∈ L1 (Ω, P ) e una famiglia
(Fn )n∈N di sotto-σ -algebre di F , allora per la Proposizione A.3.0.7, (Xn )n∈N è uniformemente integrabile.
Il Teorema di convergenza di Vitali garantisce che (Xn )n∈N converge anche in norma L1 (Ω, P ).
Proposizione A.3.0.9. Se esiste una funzione
ϕ : R≥0 −→ R≥0
ϕ(r)
crescente, tale che lim r = +∞ e sup E [ϕ(|Xt |)] < ∞ allora (Xt )t∈I è uniformemente integrabile.
r→+∞ t∈I
ϕ(r) 1
Dimostrazione. Per ogni ε > 0 esiste rε > 0 tale che r > ε per ogni r ≥ rε . Allora, per R > rε si ha
" #
h i |Xt |
E |Xt |1(|Xt |≥R) = E ϕ(|Xt |)1(|Xt |≥R) ≤ ε sup E [ϕ(|Xt |)]
ϕ(|Xt |) t∈I
Osservazione A.3.0.10. Applichiamo la Proposizione A.3.0.9 con ϕ(r) = r p per un p > 1: si ha che se (Xt )t∈I
è limitata in norma Lp (Ω, P ), ossia sup E [|Xt |p ] < ∞, allora è uniformemente integrabile.
t∈I
Appendice B
Temi d’esame risolti
511
512 APPENDICE B. TEMI D’ESAME RISOLTI
Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci

– Dicembre 2016 –
1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:
i) la probabilità di estrarre una pallina bianca;

ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:
i) la durata media (in giorni) della lampadina;

ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione
x2 − 2x + C = 0
abbia, con probabilità uno, due soluzioni reali. Per tale valore di λ si determini la densità di una delle
soluzioni dell’equazione.
4. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:
i) la funzione caratteristica congiunta ϕ(X,Y ) ;

ii) la funzione caratteristica ϕX+Y della somma X + Y ;
iii) la funzione caratteristica ϕXY e la distribuzione del prodotto XY ;
iv) facoltativo: provare che X e XY sono indipendenti.
513

1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:
i) la probabilità di estrarre una pallina bianca;
ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.
Soluzione.
i) la probabilità di estrarre una pallina bianca è 12 perché ci sono 3 palline bianche in totale su 6 con
uguale probabilità di essere estratte; oppure indicando con b l’evento di estrarre una pallina bianca e
con A, B gli eventi relativi alle scelte delle urne, si ha
1 1 2 1 1
P (b) = P (b | A)P (A) + P (b | B)P (B) = · + · = .
3 2 3 2 2
i) per la formula di Bayes si ha
P (b | A)P (A) 1
P (A | b) = = .
P (b) 3
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:
i) la durata media (in giorni) della lampadina;
ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.
Soluzione.
i)-ii) Sia T la v.a. aleatoria che indica il giorno in cui la lampadina si fulmina. Allora T ∼ Geomp (cfr.
Esempio 3.1.25). Quindi la durata media (in giorni) della lampadina è
1
E [T ] = = 1000.
p
Inoltre la probabilità che la lampadina duri almeno un anno è (cfr. Teorema 3.1.26)
P (T > 365) = (1 − p)365 ≈ 69.4%
iii) Indichiamo con X il numero di lampadine, fra le 10000 montate, che si fulminano in un giorno. Allora
X ∼ Bin10000,p (cfr. Esempio 3.1.21). Dobbiamo determinare il minimo N tale che
P (X ≤ N ) ≥ 99%.
Ora si ha (si potrebbe anche usare l’approssimazione con la Poisson, cfr. Esempio 3.1.24):
N !
X 10000 k
P (X ≤ N ) = p (1 − p)n−k .
k
k=0
Un calcolo esplicito mostra che
P (X ≤ 17) = 98.57%, P (X ≤ 18) = 99.28%,
quindi N = 18.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione
x2 − 2x + C = 0
abbia, con probabilità uno, soluzioni reali. Per tale valore di λ si determini la densità di una delle
soluzioni dell’equazione.
Soluzione. L’equazione ha soluzioni reali se ha il discriminante non negativo:
∆ = 4 − 4C ≥ 0
ossia C ≤ 1. Dunque se λ ≤ 1 l’equazione ha soluzioni reali con probabilità uno, mentre se λ > 1 allora
la probabilità che l’equazione non abbia soluzioni reali è pari a Unifλ (]1, λ]) = λ−1
λ > 0. Dunque il valore
massimo cercato è λ = 1.
√
Consideriamo la soluzione X = 1 + 1 − C e calcoliamone la funzione di ripartizione. Anzitutto se C ∼
Unif[0,1] allora X assume valori in [1, 2]: dunque per x ∈ [1, 2] si ha
√
P (X ≤ x) = P 1−C ≤ x−1

= P C ≥ 1 − (x − 1)2
Z1
= dy = (x − 1)2 .
1−(x−1)2
Derivando si ottiene la densità di X:
γX (x) = (2x − 2)1[1,2] (x), x ∈ R.
3. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:

i) la funzione caratteristica congiunta ϕ(X,Y ) ;
ii) la funzione caratteristica ϕX+Y della somma X + Y ;
iii) la funzione caratteristica ϕXY e la distribuzione del prodotto XY ;
iv) facoltativo: provare che X e XY sono indipendenti.
Soluzione.
i) Essendo v.a. indipendenti, la funzione caratteristica congiunta è il prodotto delle marginali:
h i h i h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y ) = E eiη1 X E eiη2 Y = cos(η1 ) cos(η2 ),
poiché
h i 1
ϕY (η) = ϕX (η) = E eiηX = eiη + e−iη = cos η.
2
ii) ancora per l’indipendenza, la funzione caratteristica della somma è
h i h i h i
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = (cos η)2 .
515
iii) si ha
h i "
ϕXY (η) = E eiηXY = eiηxy (µ ⊗ µ) (dx, dy) =
R2

Z Z !
iηxy
= e µ(dx) µ(dy)
R R
Z
= cos(ηy)µ(dy)
R
1
= (cos η + cos(−η)) = cos η.
2
Dunque XY ha la stessa funzione caratteristica di X e quindi anche la stessa distribuzione µ.
iv) per provare che X e XY sono indipendenti calcoliamo la funzione caratteristica di X e XY , e verifichia-
mo che è uguale al prodotto delle funzioni caratteristiche marginali:
h i "
i(η1 X+η2 XY )
ϕ(X,XY ) (η1 , η2 ) = E e = eix(η1 +η2 y) (µ ⊗ µ) (dx, dy) =
R2

Z Z !
ix(η1 +η2 y)
= e µ(dx) µ(dy)
R R
Z
1
= e−i(η1 +η2 y) + e−i(η1 +η2 y) µ(dy)
2 R
1 −i(η1 −η2 ) −i(η1 +η2 ) i(η1 −η2 ) i(η1 +η2 )
= e +e +e +e
4
= cos(η1 ) cos(η2 ) = ϕX (η1 )ϕXY (η2 ).

– Gennaio 2017 –
1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:
i) P (A ∪ B);
ii) P (A ∪ B ∪ C).
2. Verificare che la funzione
γ(x, y) = (x + y)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 ,
è una densità. Siano X, Y v.a. con densità congiunta γ: determinare

i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:
i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.
4. Sia Y = Y (t) la soluzione del problema di Cauchy

Y ′ (t) = AY (t),


Y (0) = y0 ,


dove A ∼ Nµ,σ 2 e y0 > 0.
i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y (t);

ii) scrivere l’espressione della funzione caratteristica ϕA della v.a. A e da essa ricavare
h i
E eA = ϕA (−i),
e quindi calcolare E [Y (t)];

iii) le v.a. Y (1) e Y (2) sono indipendenti?
517

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:
i) P (A ∪ B);
ii) P (A ∪ B ∪ C).
Soluzione.
i) Si ha
1 3
P (A ∪ B) = 1 − P (Ac ∩ Bc ) = 1 − P (Ac )P (Bc ) = 1 − = .
4 4
Oppure in alternativa, ricordando che il simbolo ⊎ indica l’unione disgiunta, si ha
P (A ∪ B) = P (A ⊎ (B ∩ Ac )) = P (A) + P (B ∩ Ac ) =
(per l’indipendenza di B e Ac )
1 1 1 3
= + · = .
2 2 2 4
ii) Analogamente si ha
1 7
P (A ∪ B ∪ C) = 1 − P (Ac ∩ Bc ∩ C c ) = 1 − P (Ac )P (Bc )P (C c ) = 1 − = ,
8 8
oppure
P (A ∪ B ∪ C) = P (A ∪ B) + P (C ∩ (A ∪ B)c ) =
(per il punto i))
3
= + P (C ∩ Ac ∩ Bc ) =
4
3 3 1 7
= + P (C)P (Ac )P (Bc ) = + = .
4 4 8 8
2. Verificare che la funzione
γ(x, y) = (x + y)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 ,
è una densità. Siano X, Y v.a. con densità congiunta γ: determinare
i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
Soluzione. La funzione γ è non-negativa e vale

" #x=y=1
x2 y + xy 2
"
γ(x, y)dxdy = =1
R2 2 x=y=0
e quindi è una densità. Inoltre:
i) La densità di X è Z
1

γX (x) := γ(x, y)dy = x + 1[0,1] (x), x ∈ R.
R 2
In modo analogo si calcola γY e si verifica che X, Y non sono indipendenti poiché γ , γX γY ;
ii) si ha
Z 1Z 1
1
E [XY ] = xy(x + y)dxdy = ;
0 0 3
iii) per il Teorema 3.6.1, la densità di X + Y vale

Z
γX+Y (z) = γ(x, z − x)dx, z ∈ [0, 2].
R
Imponendo la condizione (x, z − x) ∈ [0, 1] × [0, 1], si ha


z 2
Z 
 se z ∈ [0, 1],
γ(x, z − x)dx = 
R

z(2 − z) se z ∈ [1, 2].
3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:
i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.
Soluzione.
i) Una permutazione con i come punto fisso equivale ad una permutazione dei restanti (n − 1) elementi
(n−1)!
quindi ci sono (n − 1)! tali permutazioni (indipendentemente da i), dunque P (Ai ) = n! = n1 .
ii) Procedendo come nel punto precedente, per i , j si ha
(n − 2)! 1 1
P (Ai ∩ Aj ) = = , = P (Ai )P (Aj )
n! n(n − 1) n2
e dunque gli eventi non sono indipendenti.

iii) Occorre determinare il valore atteso della variabile aleatoria
1A1 + 1A2 + · · · + 1An .
Per linearità del valore atteso, questo è pari a n · n1 = 1.

519
4. Sia Y = Y (t) la soluzione del problema di Cauchy


Y ′ (t) = AY (t),


Y (0) = y0 ,


dove A ∼ Nµ,σ 2 e y0 > 0.

i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y (t);
ii) scrivere l’espressione della funzione caratteristica ϕA della v.a. A e da essa ricavare
h i
E eA = ϕA (−i),
e quindi calcolare E [Y (t)];

iii) le v.a. Y (1) e Y (2) sono indipendenti?
Soluzione.
i) Si ha
Y (t) = y0 etA
e quindi Y (t) ha distribuzione log-normale. Più precisamente, per ogni y > 0 vale
! !
1 y 1 y
P (Y (t) ≤ y) = P A ≤ log = FA log
t y0 t y0
dove FA è la CDF di A. Derivando si ricava la densità di Y (t) che è nulla per y ≤ 0 e vale
!
d 1 1 y
γ(y) = P (Y (t) ≤ y) = FA′ log
dy ty t y0
2
1 ( 1t log yy0 −µ)
−
= √ e 2σ 2 ,
ty 2πσ 2
per y > 0.
ii) Ricordando la (3.5.7) si ha
h i σ2
E eA = ϕA (−i) = eµ+ 2 .
Poiché tA ∼ Ntµ,t 2 σ 2 si ha
h i t2 σ 2
E [Y (t)] = E y0 etA = y0 etµ+ 2 .
iii) Osserviamo che

h i 9σ 2
E [Y (1)Y (2)] = y02 E e3A = y02 e3µ+ 2
è differente da
h i h i σ2 4σ 2
E [Y (1)] E [Y (2)] = y02 E eA E e2A = y02 eµ+ 2 e2µ+ 2
tranne nel caso in cui σ = 0 (in cui chiaramente Y (1), Y (2) sono indipendenti).

– Febbraio 2017 –
1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ). Determinare se:
i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.
2. Dato γ ∈ R, consideriamo la funzione
µγ (n) = (1 − γ)γ n , n ∈ N0 := N ∪ {0}.
i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che
∞
X 1
xn = , |x| < 1;
1−x
n=0
ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].
3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:
i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?
521

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ). Determinare se:

i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.
Soluzione.
i) È il contenuto della Proposizione 2.3.25, in base alla quale A, B ∈ F sono indipendenti se e solo se lo
sono Ac , B oppure A, Bc oppure Ac , Bc ;
ii) in base al punto i), per dimostrare che A e B ∪ C sono indipendenti, è sufficiente verificare che A
e (B ∪ C)c = Bc ∩ C c siano indipendenti oppure che A e B ∩ C siano indipendenti: per l’ipotesi di
indipendenza di A, B, C si ha
P (A ∩ (B ∩ C)) = P (A)P (B)P (C) = P (A)P (B ∩ C)
da cui la tesi.
iii) in generale A ∪ C e B ∪ C non sono indipendenti; per far vedere ciò, usiamo ancora la Proposizione
2.3.25 e verifichiamo che A ∩ C e B ∩ C non sono, in generale, indipendenti: infatti si ha
P ((A ∩ C) ∩ (B ∩ C)) = P (A ∩ B ∩ C) = P (A)P (B)P (C),
ma
P (A ∩ C)P (B ∩ C) = P (A)P (B)P (C)2 .
2. Dato γ ∈ R, consideriamo la funzione
µγ (n) = (1 − γ)γ n , n ∈ N0 := N ∪ {0}.
i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che
∞
X 1
xn = , |x| < 1;
1−x
n=0
ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].
Soluzione.
i) I valori µγ (n) devono essere non-negativi da cui 0 < γ < 1. Per tali valori di γ si ha che µγ è una
funzione di distribuzione poiché
∞
X ∞
X
µγ (n) = (1 − γ) γ n = 1.
n=0 n=0
ii) X è divisibile per m se esiste k ∈ N0 tale che X = km. Poiché P (X = km) = (1 − γ)γ km , allora la
probabilità cercata è
∞ ∞
X X 1−γ
P (X = km) = (1 − γ) γ km = .
1 − γm
k=0 k=0
iii) La v.a. Y = X + 1 è tale che
P (Y = n) = P (X = n − 1) = (1 − γ)γ n−1 , n ∈ N.
Quindi Y ∼ Geom1−γ .
iv) Per il punto iii) si ha
1 γ
E[X] = E[Y ] − 1 = −1 = .
1−γ 1−γ
3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:
i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?
Soluzione.
i) Sappiamo (cfr. Esempio 3.6.7) che se X, Y ∼ Expλ ≡ Gamma1,λ sono v.a. indipendenti, allora
X + Y ∼ Gamma2,λ
con densità
γX+Y (z) = λ2 ze−λz 1R>0 (z).
Calcoliamo ora la densità di X − Y come convoluzione delle densità di X e −Y . Per far ciò, anzitutto
calcoliamo la densità di −Y : si ha P (−Y ≤ y) = 1 se y ≥ 0 e, per y < 0,
Z∞ Zy
P (−Y ≤ y) = P (Y ≥ −y) = λe−λx dx = λeλz dt
−y −∞
da cui
γ−Y (y) = λeλy 1R<0 (y).
Ora
Z
λ −λ|w|
γX−Y (w) = (γX ∗ γ−Y ) (w) = γX (x)γ−Y (w − x)dx = e , w ∈ R.
R 2
λ
ii) Ricordando che ϕX (η) = λ−iη , per l’indipendenza di X e Y si ha
h i h i h i λ2
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = ,
(λ − iη)2
e analogamente
h i λ2 λ2
ϕX−Y (η) = E eiη(X−Y ) = = 2 .
(λ − iη)(λ + iη) λ + η 2
523
iii) X + Y e X − Y sono indipendenti se e solo se
ϕ(X+Y ,X−Y ) (η1 , η2 ) = ϕX+Y (η1 )ϕX−Y (η2 ).
Abbiamo già l’espressione di ϕX+Y e ϕX−Y dal punto ii). Calcoliamo

h i
ϕ(X+Y ,X−Y ) (η1 , η2 ) = E eiη1 (X+Y )+iη2 (X−Y )
h i
= E eiX(η1 +η2 )+iY (η1 −η2 ) =
(per l’indipendenza di X e Y )
h i h i λ λ
= E eiX(η1 +η2 ) E eiY (η1 −η2 ) = .
λ − i(η1 + η2 ) λ − i(η1 − η2 )
Ne viene che X + Y e X − Y non sono indipendenti.


– Giugno 2017 –
NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.
1. Due urne contengono ciascuna 1 pallina bianca e 4 nere.

i) Estratte 3 palline dalla prima urna e tre palline dalla seconda urna, calcolare la probabilità che
almeno una di esse sia bianca.
ii) Si mettano tutte le palline nella stessa urna (che quindi contiene 2 palline bianche e 8 nere) e si
estraggano 6 palline. Calcolare la probabilità che almeno una di esse sia bianca.
iii) Come nel punto ii) assumendo che l’estrazione avvenga con reinserimento, ossia estraendo una
pallina alla volta e rimettendola nell’urna. Calcolare la probabilità che il colore di almeno una
delle sei palline estratte sia bianco.
2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.
i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
525

– Giugno 2017 –
NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.
1. Due urne contengono ciascuna 1 pallina bianca e 4 nere.

i) Estratte 3 palline dalla prima urna e tre palline dalla seconda urna, calcolare la probabilità che
almeno una di esse sia bianca.
ii) Si mettano tutte le palline nella stessa urna (che quindi contiene 2 palline bianche e 8 nere) e si
estraggano 6 palline. Calcolare la probabilità che almeno una di esse sia bianca.
iii) Come nel punto ii) assumendo che l’estrazione avvenga con reinserimento, ossia estraendo una
pallina alla volta e rimettendola nell’urna. Calcolare la probabilità che il colore di almeno una
delle sei palline estratte sia bianco.
Soluzione.
3
i) La probabilità di estrarre una pallina bianca dalla prima urna (evento A) è pari a 5 e ugualmente per
la seconda urna (evento B). Inoltre A e B sono indipendenti. Allora
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
21
= P (A) + P (B) − P (A)P (B) = = 0.84.
25
ii) Numeriamo le due palline bianche (pallina 1 e pallina 2) e indichiamo con Ai , i = 1, 2, l’evento secondo
6
cui fra le 6 palline estratte c’è la pallina i. Allora si ha P (A1 ) = P (A2 ) = 10 , P (A1 | A2 ) = 59 e
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )

13
= P (A1 ) + P (A2 ) − P (A1 | A2 )P (A2 ) = ≈ 0.87.
15
In alternativa, possiamo considerare la v.a. X ∼ Ipern,b,N con distribuzione ipergeometrica, secondo la
formula (3.1.9) con b = 2, N = 10 e n = 6. Allora X indica il numero di palline bianche estratte. La
13
P (X = 1) + P (X = 2) = .
15
iii) In questo caso, possiamo considerare la v.a. S ∼ Binn,p con distribuzione binomiale, secondo la formula
2
(3.1.5) con n = 6 e p = 10 . Allora S indica il numero di palline bianche estratte. La probabilità cercata
è
X6
P (S = i) ≈ 0.74.
i=1
2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.
i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .
Soluzione.
i) Si ha
P (X + Y ≤ z) = P ((X + Y ≤ z) ∩ (Y = 0)) + P ((X + Y ≤ z) ∩ (Y = 1))
= P (X ≤ z)P (Y = 0) + P (X ≤ z − 1)P (Y = 1)
= (1 − p)P (X ≤ z) + pP (X ≤ z − 1),
e inoltre ricordiamo che P (X ≤ z) = 1 − e−λz . Allora si ha



 0 se z < 0,
−λz

FX+Y (z) := P (X + Y ≤ z) =  (1 − p) 1 − e se 0 ≤ z ≤ 1,


(1 − p) 1 − e−λz + p 1 − e−λ(z−1)

se z > 1.

Analogamente, si ha
FXY (z) := P (XY ≤ z) = P ((XY ≤ z) ∩ (Y = 0)) + P ((XY ≤ z) ∩ (Y = 1))
= P (0 ≤ z)P (Y = 0) + P (X ≤ z)P (Y = 1)

0 se z < 0,


=
−λz
(1 − p) + p 1 − e
 se z ≥ 0.
ii) La funzione FX+Y è assolutamente continua e la densità di X + Y si ricava semplicemente derivando

(cfr. Teorema 2.4.33):


 0 se z < 0,
d 

−λz
FX+Y (z) =  (1 − p)λe se 0 ≤ z ≤ 1,

dz 
(1 − p)λe−λz + pλe−λ(z−1) se z > 1.



La funzione FXY è discontinua in 0 e quindi la v.a. XY non è assolutamente continua: anzi si ha (cfr.
(2.4.10))
P (XY = 0) = FXY (0) − FXY (0−) = 1 − p.
iii) Per l’indipendenza (cfr. Proposizione 3.5.11) si ha
λ
ϕX+Y (η) = ϕX (η)ϕY (η) = (1 + p(eiη − 1)).
λ − iη
Inoltre
h i "
iηXY
ϕXY (η) = E e = eiηxy Expλ ⊗ Bep (dx, dy) =
R2
Z Z !
= eiηxy Bep (dy) Expλ (dx)
ZR R
= 1 − p + peiηx Expλ (dx)
R
λ
= 1−p+p .
λ − iη
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
Soluzione. Si veda l’Esempio 3.2.36.
527

– Luglio 2017 –
1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:
i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:
i) la distribuzione di Z;
ii) se X e Z sono indipendenti.
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.
i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.

ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?
4. Determinare i valori di a, b ∈ R tale che la funzione
F(x) = a arctan x + b
sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .

– Luglio 2017 –
1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:
i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).
Soluzione.
i) Si ha
3 3
P ((X = 1) ∩ (Y = 0)) = 7
= .
35
3
ii) Poiché
5
3 2
P (Y = 0) = 7
=
7
3
si ha
P ((X = 1) ∩ (Y = 0)) 3
P (X = 1 | Y = 0) = = .
P (Y = 0) 10
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:
i) la distribuzione di Z;
ii) se X e Z sono indipendenti.
Soluzione.
i) Z può assumere solo i valori 0, 1 e vale
P (Z = 1) = P ((X = 0) ∩ (Y = 0)) = (1 − p)2
da cui
Z ∼ (1 − p)2 δ1 + (1 − (1 − p)2 )δ0 .
ii) X e Z non sono indipendenti poiché, per esempio, si ha
P ((X = 0) ∩ (Z = 1)) = P (Y = 0) = 1 − p
e
P (X = 0)P (Z = 1) = (1 − p)3 .
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.
i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.
529
ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?
Soluzione.
i) Indichiamo con E l’evento “l’analisi economica dell’Italia ha esito positivo”. Per la Formula della
probabilità totale si ha
P (E) = P (E | A)P (A) + P (E | B)P (B) + P (E | C)P (C)

1
= (99% + 80% + 30%) ≈ 70%.
3
1
ii) Si tratta di calcolare P (C | E c ): sapendo che P (C) = 3 e
P (E c | C) = 1 − P (E | C) = 70%,
per la Formula di Bayes si ha
P (E c | C)P (C)
P (C | E c ) = ≈ 77%.
P (E c )
4. Determinare i valori di a, b ∈ R tale che la funzione
F(x) = a arctan x + b
sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .
1 1
Soluzione. Affinché siano verificate le proprietà di una CDF, deve essere a = π eb= 2. La densità si
determina semplicemente derivando F:
1
γ(x) = F ′ (x) = .
π(1 + x2 )
|x|
La v.a. X non è sommabile poiché la funzione π(1+x2 )
< L1 (R).

– Settembre 2017 –
1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie a caso un’urna e si estrae una pallina: osservato che
tale pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?
2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le
une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.
i) Determinare P (NA = k).

ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una
variabile aleatoria di Poisson, N ∼ Poissonλ con λ > 0: determinare la probabilità che ci sia una
sola stella in A.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco
D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.
i) Determinare la densità di (X, Y ) e se X, Y sono indipendenti;

ii) scrivere l’espressione (non importa calcolare gli integrali) di P (X > 12 ) e P (X > 1
2 | Y > 0).
531

1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie un’urna e si estrae una pallina: osservato che tale
pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?
Soluzione. Consideriamo gli eventi:
– A: scegliendo un’urna ed estraendo una pallina, essa è rossa;

– B: scegliendo a caso un’urna, essa contiene due palline rosse.
Siamo interessati a calcolare P (B | A) e per il Teorema di Bayes abbiamo
P (A | B)P (B) 1 · 13 2
P (B | A) = = 1 = .
P (A) 2
3
2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le

une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.
i) Determinare P (NA = k).

ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una
variabile aleatoria di Poisson, N ∼ Poissonλ con λ > 0: determinare la probabilità che ci sia una
sola stella in A.
Soluzione.
2
i) Poiché la distribuzione della posizione è uniforme, ogni stella ha probabilità p = 3 di essere in A
indipendentemente dalle altre. Allora
N 2k
!
P (NA = k) = BinN ,p (k) = .
k 3N
ii) Per la formula della probabilità totale, la probabilità cercata è

∞ ∞
X e−λ λN X 2N λN 2λ 2λ
P (NA = 1) = e−λ = e− 3 .
N! 3N N ! 3
N =0 N =1
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco
D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.
i) Determinare la densità di (X, Y ) e se X, Y sono indipendenti;

ii) scrivere l’espressione (non importa calcolare gli integrali) di P (X > 12 ) e P (X > 1
2 | Y > 0).
Soluzione.
i) La densità congiunta è
1
γ(X,Y ) (x, y) = 1 (x, y).
π D
Allora
2√
Z
γX (x) = γ(X,Y ) (x, y)dy = 1 − x2 1[−1,1] (x)
R π
e in modo analogo si calcola γY e si verifica facilmente che X, Y non sono indipendenti.
ii) si ha
Z1
1
P X>2 = γX (x)dx,
1
2
P ((X > 1 ) ∩ (Y > 0)) 2
1 2
P X> 2 |Y >0 = = Leb({(x, y) ∈ D | x > 12 , y > 0}).
P (Y > 0) π
533

1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.
2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.
3. Sia (X, Y ) ∼ N0,C con !
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:
i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;
ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .
4. Sia X una v.a. reale con densità γX .
i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .
5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che
E [X | B] = E [X] .

1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.
Soluzione.
i) Indichiamo con D l’evento di cui dobbiamo calcolare la probabilità. La probabilità che una scatola
prodotta da A abbia esattamente un prodotto difettoso è pA = Bin10,0.5% ({1}) ≈ 4.78%. Analogamen-
te pB = Bin10,0.1% ({1}) ≈ 0.99%. Allora, con notazioni il cui significato dovrebbe essere evidente, la
P (D) = P (D | A)P (A) + P (D | B)P (B) = pA ∗ 30% + pB ∗ 70% ≈ 2.13%.
ii) Per la formula di Bayes, si ha
P (D | A)P (A) pA ∗ 30%

P (A | D) = = ≈ 67.39%.
P (D) 2.13%
iii) La probabilità che è un singolo prodotto sia difettoso è pari a
pD = 0.5% ∗ 30% + 0.1% ∗ 70% ≈ 0.22%.
Allora la probabilità cercata è pari a Bin10,pD ({1}) ≈ 2.15%.

2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.
Soluzione. Indichiamo con X l’evento “un’email è spam” e con S l’evento “un’email è sospetta”. Per ipotesi
si ha
P (X) = 60%, P (S | X) = 90%, P (S | X c ) = 1%.
Allora per la formula di Bayes otteniamo
P (S | X)P (X)
P (X | S) = =
P (S)
(per la formula della probabilità totale)
P (S | X)P (X)
= ≈ 99.26%.
P (S | X)P (X) + P (S | X c )P (X c )
535
3. Sia (X, Y ) ∼ N0,C con

!
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:
i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;

ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .
Soluzione.
i) Si ha ! ! !
X +Y X 1 1
=α , α= ,
X −Y Y 1 −1
e quindi (X + Y , X − Y ) ∼ N0,αCα ∗ . Inoltre
!
2(1 + ϱ) 0
αCα ∗ =
0 2(1 − ϱ)
da cui segue che X + Y e X − Y sono indipendenti per ogni ϱ ∈ [−1, 1];

ii) Da i) segue anche che X + Y ∼ N0,2(1+ϱ) e quindi X + Y ∈ AC per ϱ ∈] − 1, 1] con densità normale
2
1 − z
γX+Y (z) = p e 4(1+ϱ) , z ∈ R.
2 π(1 + ϱ)
4. Sia X una v.a. reale con densità γX .
i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .
Soluzione.
i) Chiaramente γ ≥ 0 e vale
Z Z Z ! Z
1
γ(x)dx = γX (x)dx + γX (−x)dx = γX (x)dx = 1.
R 2 R R R
ii) Si ha
h i
ϕY (η) = E eiηY
Z
γ (x) + γX (−x)
= eiηx X dx
R 2
1
= (ϕX (η) + ϕX (−η)) = Re (ϕX (η)) .
2
iii) Siano X1 e X2 v.a. indipendenti, uguali in legge a X. Allora
ϕX1 +X2 (η) = ϕX1 (η)ϕX2 (η) = ϕX (η)2 .
5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che
E [X | B] = E [X] .
Soluzione. Si ha
Z
1 1
E [X | B] = XdP = E [X1B ] =
P (B) B P (B)
(per l’indipendenza di X e B)
1
= E [X] E [1B ] = E [X] .
P (B)
537

1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:
i) la funzione di distribuzione congiunta di X e Y ;

ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.
3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.
4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
 
1 0 0 
C = 0 1 −1 .
 
0 −1 1
 
Dati i vettori aleatori Y := (X1 , X2 ) e Z := (X2 , X3 ), si determini:

i) la distribuzione di Y e Z, specificando se sono assolutamente continui;
ii) se Y e Z sono indipendenti;
iii) le funzioni caratteristiche ϕY e ϕZ .
5. Sia X ∼ Nµ,1 con µ ∈ R e sia ϕX (η) la CHF di X.
h i
i) Dato c ∈ R, si calcoli E ecX : a tal fine si scelga un opportuno valore complesso ηc per cui vale
h i
E ecX = ϕX (ηc ).
ii) Data Y ∼ Unifn , con n ∈ N, indipendente da X, si scriva la distribuzione congiunta di X e Y . Si
h Xi
calcoli E e Y .
X
iii) Posto Z = Y, si determini la CDF di Z. Nel caso in cui Z ∈ AC, se ne determini la densità.

1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:
i) la funzione di distribuzione congiunta di X e Y ;
ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?
Soluzione.
1
i) Per h, k ∈ I10 si ha P (X = h) = 10 ossia X ∼ Unif10 e

3


 39 se h = k,
P (Y = k | X = h) =  4

 39 se h , k.
Allora la funzione di distribuzione di (X, Y ) è data da


1


 130 se h = k,
µ̄(X,Y ) (h, k) = P ((X = h) ∩ (Y = k)) = P (Y = k | X = h) P (X = h) =  2 .

 195 se h , k.
ii) Si ha
10
X 2 X 2
P (X < Y ) = µ̄(X,Y ) (h, k) = (k − 1) = · 45.
195 195
1≤h<k≤10 k=2
iii) La funzione di distribuzione di Y si ottiene da

10 10
1 X 1 3 4 1
X
µ̄Y (k) = µ̄(X,Y ) (h, k) = P (Y = k | X = h)) = +9· =
10 10 39 39 10
h=1 h=1
ossia anche Y ∼ Unif10 . Ne viene anche che X, Y non sono indipendenti poiché la funzione di distribu-
zione congiunta non è il prodotto delle marginali (cfr. Teorema 3.3.23).
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.
k!
Soluzione. Basta considerare una qualsiasi funzione misurabile tale che f (k) = λk
per k ∈ N: per esempio si
può prendere f costante a tratti.
3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.
Soluzione. Osserviamo che X = max{Q, 1 − Q} e 21 ≤ X ≤ 1. Determiniamo la CDF di X: per 1

2 ≤ x ≤ 1 si ha

P (X ≤ x) = P (Q ≤ x) ∩ (Q ≥ 21 ) + P (1 − Q ≤ x) ∩ (Q ≤ 21 )
= P ( 12 ≤ Q ≤ x) + P (1 − x ≤ Q ≤ 21 ) = 2x − 1.
Ne viene che X ∈ AC e precisamente X ∼ Unif 1 . In particolare E [X] = 34 .

2 ,1
539
4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con

 
1 0 0 
C = 0 1 −1 .
 
0 −1 1
 
Dati i vettori aleatori Y := (X1 , X2 ) e Z := (X2 , X3 ), si determini:
i) la distribuzione di Y e Z, specificando se sono assolutamente continui;

ii) se Y e Z sono indipendenti;
iii) le funzioni caratteristiche ϕY e ϕZ .
Soluzione.
i) Poiché ! !
1 0 0 0 1 0
Y= X, Z= X
0 1 0 0 0 1
si ha Y ∼ N0,CY e Z ∼ N0,CZ con
! !
1 0 1 −1
CY = , CZ = .
0 1 −1 1
Ne viene che Y è assolutamente continuo, mentre Z non lo è perché CZ è singolare.

ii) Per vedere che Y e Z non sono indipendenti basta osservare che, per ogni H ∈ B1 , si ha
P ((Y ∈ R × H) ∩ (Z ∈ H × R)) = P (X2 ∈ H),
e
P (Y ∈ R × H) = P (X2 ∈ H) = P (Z ∈ H × R).
iii) Si ha
1 2 2 1 2 2
ϕY (η1 , η2 ) = e− 2 (η1 +η1 ) , ϕZ (η1 , η2 ) = e− 2 (η1 +η1 −2η1 η2 ) .
5. Sia X ∼ Nµ,1 con µ ∈ R e sia ϕX (η) la CHF di X.

h i
i) Dato c ∈ R, si calcoli E ecX : a tal fine si scelga un opportuno valore complesso ηc per cui vale
h i
E ecX = ϕX (ηc ).
ii) Data Y ∼ Unifn , con n ∈ N, indipendente da X, si scriva la distribuzione congiunta di X e Y . Si
h Xi
calcoli E e Y .
X
iii) Posto Z = Y, si determini la CDF di Z. Nel caso in cui Z ∈ AC, se ne determini la densità.
Soluzione.
i) Posto ηc = −ic si ha
h i c2
E ecX = ϕX (−ic) = ecµ+ 2 .
ii) Per l’indipendenza, si ha µ(X,Y ) = Nµ,1 ⊗ Unifn e

X " x
E eY = e y Nµ,1 ⊗ Unifn (dx, dy) =
R2

n Z
1X x
= e k Nµ,1 (dx) =
n R
k=1
(per quanto visto nel punto i) con c = 1k )

n
1 X µk + 12
= e 2k .
n
k=1
iii) Per la formula della probabilità totale, si ha

n
X
FZ (z) = P (Z ≤ z) = P (Z ≤ z | Y = k) P (Y = k)
k=1
n n Z kz
1X 1X
= P (X ≤ kz) = Γ (x − µ)dx
n n −∞
k=1 k=1
x2
dove Γ (x) = √1 e− 2 è la densità normale standard. Z ∈ AC poiché FZ ∈ C ∞ (R) e vale
2π
n
1X
FZ′ (z) = kΓ (kz − µ).
n
k=1
541

1. Si effettuano estrazioni, senza reinserimento, da un mazzo di 40 carte. Si determini:
i) la probabilità che le prime due carte abbiano lo stesso seme;

ii) la distribuzione della v.a. N che indica il numero della prima estrazione in cui si ha un asso.
2. Siano F una CDF e α > 0.

i) Si provi che F α è ancora una CDF;
ii) sia F la CDF di Expλ : si determini la densità della v.a. con CDF F α ;
iii) sia F la CDF della distribuzione discreta Unifn , con n ∈ N fissato. Per α che tende a +∞, F α tende
a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della
normale standard?
3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?
i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità

2xy se 0 < x < 1, 0 < y <

 √1 ,
f (x, y) =  x
0
 altrimenti.
i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.

ii) Le variabili aleatorie X e Y hanno media e varianza finite?
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga
Z = X cos α + Y sin α.
Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.

1. Si effettuano estrazioni, senza reinserimento, da un mazzo di 40 carte. Si determini:
i) la probabilità che le prime due carte abbiano lo stesso seme;

ii) la distribuzione della v.a. N che indica il numero della prima estrazione in cui si ha un asso.
Soluzione.
9
i) 39 ;
4
ii) P (N = 1) = 40 e per 1 < n ≤ 36
4 D36,n−1
P (N = n) =
D
40,n
dove D36,n−1 rappresenta le disposizioni delle prime n − 1 estrazioni di carte diverse dagli assi e D40,n
tutte le possibili disposizioni delle prime n estrazioni.
2. Siano F una CDF e α > 0.
i) Si provi che F α è ancora una CDF;

ii) sia F la CDF di Expλ : si determini la densità della v.a. con CDF F α ;
iii) sia F la CDF della distribuzione discreta Unifn , con n ∈ N fissato. Per α che tende a +∞, F α tende
a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della
normale standard?
Soluzione.
i) Per ogni α > 0 la funzione f (x) = xα è continua, monotona crescente su [0, 1], f (0) = 0 e f (1) = 1. Ne
segue che le proprietà di monotonia, continuità a destra e i limiti a ±∞ si conservano componendo f
con una CDF F.
α
ii) La funzione F α (t) = 1 − e−λt 1R≥0 (t) è assolutamente continua e derivando si ottiene la densità
γ(t) = αλe−λt (1 − e−λt )α−1 1R≥0 (t).
ii) Poiché F(x) < 1 per x < n e F(x) = 1 per x ≥ n, si ha


0 se x < n,

α

G(x) = lim F (x) = 
α→+∞ 1 se x ≥ n,

ossia G è la CDF della Delta di Dirac centrata in n. Se F è la CDF della normale standard si ha
0 < F(x) < 1 per ogni x ∈ R e quindi, per α → +∞, F α tende puntualmente alla funzione identicamente
nulla che non è una CDF.
3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?
i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
543
sin η
Soluzione. i) non implica ii): per esempio, X ∼ Unif[−1,1] è assolutamente continua ma ϕX (η) = η non è
sommabile come si può verificare direttamente oppure col Teorema di inversione. Invece ii) implica i) per il
Teorema di inversione.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità

2xy se 0 < x < 1, 0 < y <

 √1 ,
f (x, y) =  x
0
 altrimenti.
i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.
ii) Le variabili aleatorie X e Y hanno media e varianza finite?
Soluzione.
i) Si ha
R √1
 0 x 2xydy = 1 se 0 < x < 1,


fX (x) = 

0 altrimenti,
 1
 R 2
 0y 2xydx = 13 se y > 1,



 y
fY (y) = 
R 1
 2xydx = y se 0 < y < 1,
0



 0 se y < 0.
X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
ii) X ∼ Unif[0,1] e quindi ha media e varianza finite. La densità di Y è limitata sui compatti ed è uguale a
y −3 per y > 1. Ne viene che Y ha media finita e varianza infinita.
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga
Z = X cos α + Y sin α.
Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.
Soluzione.
i) Determiniamo la distribuzione di Z calcolandone la CHF:
h i
ϕZ (η) = E eiη(X cos α+Y sin α) =

Z 2π Z Z
1
= eiη(x cos t+y sin t) N0,1 (dx)N0,1 (dy)dt =
2π 0 R R
(nota la CHF della normale standard)
Z 2π
1 1 2 2 2 η2
= e− 2 η (cos t+sin t ) dt = e− 2
2π 0
e quindi Z ∼ N0,1 .
ii)
h i
cov(X, Z) = E [XZ] = E X 2 cos α + XY sin α =

h i
= E X 2 E [cos α] = 0
h i
poiché E X 2 = var(X) = 1 e
Z 2π
1
E [cos α] = cos tdt = 0.
2π 0
iii) Si ha
h i h i
ϕ(X,Z) (1, 1) = E ei(X+Z) = E eiX(1+cos α)+iY sin α

Z 2π Z Z
1
= eix(1+cos t)+iy sin t N0,1 (dx)N0,1 (dy)dt
2π 0 R R
Z 2π
1 1 2
− 21 sin2 t
= e− 2 (1+cos t) dt
2π 0
2π
e−1
Z
= e− cos t dt.
2π 0
Allora X e Z non sono indipendenti perché altrimenti dovrebbe essere
ϕ(X,Z) (1, 1) = ϕX (1)ϕZ (1) = e−1 .

545

– Maggio 2018 –
1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .
2. In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra

le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa.
i) Supposto N = 100, si determini (o si spieghi come è possibile determinare) il massimo valore
n̄ ∈ N tale che
P (N1 ≥ n̄) ≥ 90%.
ii) Assumendo che N ∼ Poisson100 , si scriva una formula per calcolare
P (N1 ≥ 15).
3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.
4. Siano X e Y v.a. con densità congiunta
1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [
i) Si calcolino le densità marginali.

ii) Le v.a. Z := eX e W := eY sono indipendenti?
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:
i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .

– Maggio 2018 –
1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .
Soluzione.
i) Per la formula della probabilità totale si ha
90 90
X X 90 − k 1 1
P (A) = P (A | p1 = k)P (p1 = k) = · = .
89 90 2
k=1 k=1
ii) 1A ha distribuzione di Bernoulli, 1A ∼ Be 1 .

2
iii)
90
P ((p1 ≥ 45) ∩ A) X 90 − k 1
P (p1 ≥ 45 | A) = =2 · ≈ 25.8%.
P (A) 89 90
k=45
2. In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra

le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa.
i) Supposto N = 100, si determini (o si spieghi come è possibile determinare) il massimo valore
n̄ ∈ N tale che
P (N1 ≥ n̄) ≥ 90%.
ii) Assumendo che N ∼ Poisson100 , si scriva una formula per calcolare
P (N1 ≥ 15).
Soluzione.
i) Ogni cliente ha la probabilità di 15 di andare alla prima cassa, indipendentemente dagli altri, e quindi
N1 ∼ Bin100, 1 . Allora occorre determinare il massimo valore di n tale che
5
100
100 1 k 4 100−k
X !
90% ≤ P (N1 ≥ n) = .
k 5 5
k=n
Si trova che P (N1 ≥ 16) ≈ 87.1% e P (N1 ≥ 15) ≈ 91.9%, quindi n̄ = 15.
ii) Si ha
∞
X
P (N1 ≥ 15) = P (N1 ≥ 15 | N = h)P (N = h)
h=0
h
∞ X
h 1 k 4 h−k e−100 100h
X !
= ≈ 89.5%.
k 5 5 h!
h=15 k=15
547
3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.
Soluzione. Per esempio  sgn(x)

 √|x|

 se x , 0,
f (x) = 
0 se x = 0.

Si ha Z 1
1
E [f (X)] = f (x)dx = 0
2 −1
e
i Z 1
h 1
var(f (X)) = E f (X)2 = dx = +∞.
−1 |x|

1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [

Soluzione.
i) Si ha
Z Z 1
λ 1
γX (x) = γ(X,Y ) (x, y)dy = dy = − log x, x ∈ ]0, 1[,
R x y
λ
Z Z λy
1 i h
γY (y) = γ(X,Y ) (x, y)dx = dx = λ, y ∈ 0, λ1 .
R 0 y
Quindi γX (x) = log x · 1]0,1[ (x) e γY (y) = λ1]0, 1 [ (y).

λ
ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:
i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .
Soluzione.
i) La CDF di X 2 è data da
√
√
Z z √
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = λ1 e−λ1 t dt = 1 − e−λ1 z
0
se z ≥ 0 e FX 2 ≡ 0 su ] − ∞, 0]. Trattandosi di una funzione AC, ricaviamo la densità di X 2 differen-

ziando √
d λ1 e−λ1 z
γX 2 (z) = F 2 (z) = √ 1R≥0 (z).
dz X 2 z
ii) Per l’indipendenza si ha
λ1 λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = .
(λ1 − iη1 )(λ2 − iη2 )
iii) Analogamente
λ1 λ2
ϕX+Y (η) = ϕX (η)ϕY (η) = .
(λ1 − iη)(λ2 − iη)
549

– Luglio 2018 –
Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.
1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?
2. Sia data la funzione  α

β − e−x se x ≥ 0,


F(x) = 
0
 se x < 0.
i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.
3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2
i) Provare che le v.a.

Z := X − Y , W := T X + (1 − T )Y ,
hanno distribuzione normale;
ii) si calcoli cov(Z, W );
iii) si determini la CHF congiunta ϕ(Z,W ) ;
iv) le v.a. Z e W sono indipendenti?

– Luglio 2018 –
Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.
1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?
Soluzione.
i) X2 ha distribuzione uniforme su I10 = {n ∈ N | n ≤ 10}, ossia X2 ∼ UnifI10 : per verificarlo in modo
rigoroso si può procedere come nell’Esempio 3.3.24 oppure con la Formula della probabilità totale:
P (X2 = n) = P (X2 = n | X1 = n)P (X1 = n) + P (X2 = n | X1 , n)P (X1 , n)

3 1 4 9 1
= · + · = , n ∈ I10 .
39 10 39 10 10
ii) Risolviamo il quesito in due modi: utilizzando la probabilità condizionata e in particolare la formula
(2.3.5) si ha
4 24 23
P (A) = P (X1 ≤ 4)P (X2 ≥ 5 | X1 ≤ 4)P (X3 ≥ 5 | (X1 ≤ 4) ∩ (X2 ≥ 5)) = · · .
10 39 38
Si ottiene lo stesso risultato col metodo delle scelte successive: osserviamo che occorre usare le disposi-
zioni perché siamo interessati all’ordine di estrazione delle carte. Dunque
16 · |D24,2 |
P (A) = .
|D40,3 |
Poi B = B0 ⊎B1 dove B0 è l’evento “nessuna carta estratta ha valore minore o uguale a 4” e B1 è l’evento
“esattamente una carta estratta ha valore minore o uguale a 4”. Si ha P (B) = P (B0 ) + P (B1 ) e
|C24,3 | |D24,3 |
P (B0 ) = =
|C40,3 | |D40,3 |
16 · |C24,2 | 3 · 16 · |D24,2 |
P (B1 ) = = .
|C40,3 | |D40,3 |
Il fattore “3” che appare nell’ultima espressione è dovuto al fatto che, se usiamo le disposizioni, allora
dobbiamo tenere conto dell’ordine e pertanto dobbiamo anche fare la scelta della posizione (fra le tre
possibili) della carta che ha valore minore o uguale a 4.
551
iii) A ⊆ B e quindi A∩B = A. Ma P (A∩B) = P (A) , P (A)P (B) e quindi non si tratta di eventi indipendenti.
P (A)
Inoltre si ha P (A | B) = P (B) .
iv) X2 e N non sono indipendenti perché, per esempio, (X2 = 4) ∩ (N = 0) = ∅ ma
P (X2 = 4)P (N = 0) , 0.
2. Sia data la funzione  α

β − e−x se x ≥ 0,


F(x) = 
0
 se x < 0.
i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.
Soluzione.
i) Se α = 0 e β = 1 + 1e allora F è la CDF della distribuzione Delta di Dirac centrata in 0. Gli altri valori
per cui F è una CDF sono α > 0 e β = 1;
ii) se α > 0 e β = 1 allora
1
P (X ≤ 0) = F(0) = 0, P (X ≥ 1) = 1 − F(1) = .
e
Se α = 0 e β = 1 + 1e allora P (X ≤ 0) = 1 e P (X ≥ 1) = 0.
iii) X ∈ AC se α > 0 e β = 1 e in tal caso una densità si determina derivando F:
 α
αxα−1 e−x se x > 0,

′

γ(x) = F (x) = 
0
 se x < 0.
iv) Se α = 2 si ha Z +∞ √
h
−1
i 2
E X =2 e−x dx = π.
0
Determiniamo la CDF di Z: anzitutto P (Z ≤ 1) = 0 e per z > 1 si ha
√ √ √
P (X 2 + 1 ≤ z) = P (− z − 1 ≤ X ≤ z − 1) = P (X ≤ z − 1) = 1 − e1−z .
Allora la densità di Z è
γZ (z) = e1−z 1[1,+∞[ (z).
3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2

Z := X − Y , W := T X + (1 − T )Y ,
hanno distribuzione normale;
ii) si calcoli cov(Z, W );
iii) si determini la CHF congiunta ϕ(Z,W ) ;
iv) le v.a. Z e W sono indipendenti?
Soluzione.
i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X
Z =α , α = 1 −1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto
N0,1 ⊗ N0,1 ⊗ Be 1
2

Z
E [f (W )] = f (tx + (1 − t)y) N0,1 ⊗ N0,1 ⊗ Be 1 (dx, dy, dt) =
2
R3

Z Z Z ! !
= f (tx + (1 − t)y)N0,1 (dx) N0,1 (dy) Be 1 (dt)
2
R R R
Z Z ! Z Z !
1 1
= f (x)N0,1 (dx) N0,1 (dy) + f (y)N0,1 (dx) N0,1 (dy)
2 R R 2 R R
Z Z
1 1
= f (x)N0,1 (dx) + f (y)N0,1 (dy)
2 R 2 R
Z
= f (x)N0,1 (dx).
R
Quindi W ∼ N0,1 .
ii) Si ha
cov(Z, W ) = E [(X − Y )(T X + (1 − T )Y )]

h i h i
= E T X 2 + E [(1 − 2T )XY ] − E (1 − T )Y 2 =
(per l’indipendenza di X, Y , T )
h i h i
= E [T ] E X 2 − E [1 − T ] E Y 2 = 0.
iii) La CHF congiunta è data da

h i
ϕ(Z,W ) (η1 , η2 ) = E ei(η1 (X−Y )+η2 (T X+(1−T )Y ))
h i h i
= E ei(η1 (X−Y )+η2 X) 1(T =1) + E ei(η1 (X−Y )+η2 Y ) 1(T =0) =
1 h i(η1 +η2 )X i h −iη1 Y i 1 h iη1 X i h i(η2 −η1 )Y i

= E e E e + E e E e =
2 2
553
(poiché X, Y ∼ N0,1 )
η12
e− 2
!
(η1 +η2 )2 (y1 −η2 )2
− −
= e 2 +e 2 ,
2
che non è la CHF di una normale bidimensionale. Questo prova anche che
ϕ(Z,W ) (η1 , η2 ) , ϕZ (η1 )ϕW (η2 )
e quindi Z, W non sono indipendenti.


1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:
i) la probabilità che, lanciando i dadi una volta, vinca A;
ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).
2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.
i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.
3. Sia X una v.a. con CDF 


0 x < 0,

F(x) = λx 0 ≤ x < 1,



1

x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .
4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .
555

1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:
i) la probabilità che, lanciando i dadi una volta, vinca A;

ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).
Soluzione.
i) Siano NA e NB i numeri ottenuti nel primo lancio di dadi: allora
7
1 4 3 2 1 10
X
P (NA > NB ) = P (NA > k | NB = k)P (NB = k) = + + + = =: p.
6 6 6 6 6 36
k=2
ii) La v.a. T che indica il primo istante in cui A vince ha distribuzione geometrica di parametro p: quindi
P (T ≤ 10) = 1 − P (T > 10) = 1 − (1 − p)10 ≈ 96%.
iii) Come nel punto i), si calcola

5
P (NA = NB ) =
36
5 10

e quindi la probabilità cercata è 36 .
iv) se N rappresenta il numero di vincite di A nei primi dieci lanci, allora N ∼ Bin10,p e quindi E [N ] =
100
36 .
2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.
i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.
Soluzione.
i) Se M è l’evento “contrarre la malattia” e V è l’evento “essere vaccinato”, si ha
P (M) = P (M | V )P (V ) + P (M | V c )(1 − P (V ))
da cui
P (M) − P (M | V c )
P (V ) = ≈ 89%
P (M | V ) − P (M | V c )
ii) Per il Teorema di Bayes, si ha

P (M | V )P (V )
P (V | M) = ≈ 0.09%
P (M)
3. Sia X una v.a. con CDF 


0 x < 0,

F(x) = λx 0 ≤ x < 1,



1

x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .
Soluzione.
i) No, P (X = 1) = F(1) − F(1−) = 1 − λ > 0. Riconosciamo che X ∼ λUnif[0,1] + (1 − λ)δ1 .
ii) Calcoliamo la CDF di Z. Per z ∈ [0, 1] si ha
P (Z ≤ z) = P ((Z ≤ z) ∩ (X < 1)) + P ((Z ≤ z) ∩ (X ≥ 1))
= P ((X ≤ z) ∩ (X < 1)) + P ((Y ≤ z) ∩ (X ≥ 1))
= λz + P (Y ≤ z)P (X ≥ 1) = λz + z(1 − λ) = z.
Di conseguenza Z ∼ Unif[0,1] .
4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .
Soluzione.
i) La densità di (X, Y ) è
1
γ(X,Y ) (x, y) = 1 (x, y), T = {x, y ∈ R | x, y ≥ 0, x + y ≤ 2}.
2 T
Si ha Z Z 2−x
1 2−x
γX (x) = γ(X,Y ) (x, y)dy = 1 (x)dy = 1 (x).
R 0 2 [0,2] 2 [0,2]
Il calcolo di γY è analogo.
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha Z Z
1 z
γZ (z) = γ(X,Y ) (x, z − x)dx = 1T (x, z − x)dx = 1[0,2] (z).
R 2 R 2
Quindi Z2 2
z 4
E [Z] = dz = .
0 2 3
557

1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:
i) A1 = le due palline della prima estrazione sono bianche;
ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.
2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.
i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.
3. Sia (X, Y , Z) ∼ N0,C con
 
1 1 0 
C = 1 2 −1 .
 
0 −1 2
 
Determinare:
i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?

4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .
i) Si calcoli media, varianza e CHF di Xn .

X −1 d
ii) Si calcoli la CHF di Zn := √n e si deduca che Zn −−−−→ 0 per il Teorema di continuità di Lévy.
n−1
L2
iii) Vale anche Zn −−−→ 0 ?
P
iv) [Facoltativo] Vale anche Zn −−→ 0 ?
5. Verificare che la funzione 
4y

 se x > 0 e 0 < y < e−x ,
γ(x, y) = 
0
 altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
i) Determinare le densità marginali γX e γY .

ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).
559

1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:
i) A1 = le due palline della prima estrazione sono bianche;

ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.
Soluzione.
|C3,2 | (3) 1
i) P (A1 ) = = 2 = 35 .
|C15,2 | (152)
|C3,2 |+|C6,2 |+|C6,2 | (32)+2(62) 11
ii) P (A2 ) = = 15 = 35 .
|C15,2 | (2)
iii) se B = “le due palline della seconda estrazione sono bianche” allora
P (A3 ) = P (B | A1 )P (A1 ) = 0.
iv) se Ci = “le due palline della i-esima estrazione sono rosse” allora

C4,2 C6,2 4 6
2 2 1
P (A4 ) = P (C1 ∩ C2 ) = P (C2 | C1 )P (C1 ) = =
13 15
= .
C C
13,2 15,2 91
2 2
2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.
i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.
Soluzione.
i) Xn è una v.a. di Bernoulli e, per la formula della probabilità totale, si ha

10 10
X 1 X
P (Xn = 1) = P (Xn = 1 | Yn = i)P (Yn = i) = pi =: p.
10
i=1 i=1
Dunque Xn ∼ Bep .
ii) N ∼ Geomp e quindi E [N ] = p1 .

iii) Si ha (cfr. Teorema 3.1.26)
P (N > 100) = (1 − p)100 .
3. Sia (X, Y , Z) ∼ N0,C con

 
1 1 0 
C = 1 2 −1 .
 
0 −1 2
 
Determinare:
i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?
Soluzione. Osserviamo che (X, Y ) ∼ N0,D con

!
1 1
D=
1 2
e quindi:
!
X
i) essendo X + Y = 1 1 , si ha X + Y ∼ N0,5 poiché
Y
!
1
A= 1 1 D = 5.
1
ii)
1
ϕ(X,Y ) (η) = e− 2 ⟨Dη,η⟩ , η ∈ R2 .
iii) se (X, Y ) e Z fossero indipendenti, allora lo sarebbero anche Y e Z, ma cov(Y , Z) = −1.

4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .
i) Si calcoli media, varianza e CHF di Xn .

X −1 d
ii) Si calcoli la CHF di Zn := √n e si deduca che Zn −−−−→ 0 per il Teorema di continuità di Lévy.
n−1
L2
iii) Vale anche Zn −−−→ 0 ?
P
iv) [Facoltativo] Vale anche Zn −−→ 0 ?
Soluzione.
i) Si ha
1 1
h i
E [Xn ] = 0 · 1 − + n · = 1, var(Xn ) = E (Xn − 1)2 = n − 1.
n n
Inoltre
h i 1 1
ϕXn (η) = E eiηXn = 1 − + eiηn .
n n
561
ii) Si ha
η √η
−i √ i X
ϕZn (η) = e n−1 E e n−1 n
η
!
−i √ η
=e n−1 ϕXn √
n−1
η η
1 1 in √n−1

−i √
=e n−1 1− + e −−−−−−→ 1.
n n n→∞
Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi.
iii) Si ha
h i 1
∥Zn ∥22 = E Zn2 = var(Xn ) = 1
n−1
e quindi non si ha convergenza in L2 (Ω, P ).
iv) Si ha convergenza in probabilità per il punto vi) del Teorema 4.1.9.
5. Verificare che la funzione 
4y

 se x > 0 e 0 < y < e−x ,
γ(x, y) = 
0
 altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
i) Determinare le densità marginali γX e γY .
ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).
Soluzione. La funzione γ è non-negativa e misurabile con

Z Z +∞ Z e−x Z +∞
γ(x, y)dxdy = 4ydydx = 2e−2x dx = 1.
R2 0 0 0
i) Abbiamo appena calcolato

Z Z e−x
γX (x) = γ(x, y)dy = 4ydy = 2e−2x 1]0,+∞[ (x)
R 0
da cui si riconosce che X ∼ Exp2 . Poi osserviamo che

γ(x, y) = 4y1]0,− log y[ (x)1]0,1[ (y)
da cui Z Z − log y
γY (y) = γ(x, y)dx = 4y1]0,1[ (y)dx = −4y log y 1]0,1[ (y).
R 0
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
γ(x, y) 1
γX|Y (x, y) = 1 (y) = − 1 (x)1]0,1[ (y)
γY (y) (γY >0) log y ]0,− log y[
e quindi X ha densità condizionata uniforme su ]0, − log Y [.
iv) Per quanto visto al punto iii), si ha
− log Y (log Y )2
E [X | Y ] = , var(X | Y ) = .
2 12

1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora α
Zα = X 2 + Y 2 , α > 0.
iii) scrivere la CDF di Zα e disegnarne il grafico;

iv) stabilire se Zα ∈ AC e in tal caso scriverne la densità;
v) determinare i valori di α > 0 per cui Z1 è sommabile e per tali valori calcolare il valore atteso.
α
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:
i) la CDF della v.a. nX1 per n ∈ N;
ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.
5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:
i) la densità congiunta γ(S,T ) e marginale γS ;
ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).
563

1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.
Soluzione.
i) Sia A =“è estratta la moneta d’argento”. Allora per k = 0, 1, . . . , n si ha
!
n k
P (X = k | A) = Binn,p (k) = p (1 − p)n−k .
k
ii) Per la formula della probabilità totale, si ha

1 1
P (X = k) = (P (X = k | Ac ) + P (X = k | A)) = Binn, 1 (k) + Binn,p (k) (B.0.1)
2 2 2
iii) Anzitutto
1 1

n
P (X = n) = + p .
2 2n
Per il Teorema di Bayes, si ha
P (X = n | A)P (A) pn
P (A | X = n) = = 1
.
P (X = n) 2n + pn
iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.1) si ha
1 n

E [X] = + np .
2 2
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.
Soluzione.
i) Imponendo Z
1= γ(x)dx = 2b
R
si ha b = 21 . Inoltre γ ≥ 0 se e solo se ax ≥ − 21 per ogni x ∈ [−1, 1] da cui si ricava la condizione
− 12 ≤ a ≤ 12 .
1.0
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
-1.0 -0.5 0.5 1.0 1.5 2.0 -1.0 -0.5 0.5 1.0 1.5 2.0
Figura B.1: A sinistra: grafico di F per α > 1. A destra: grafico di F per 0 < α < 1.
ii) La CHF è data da Z 1

1 sin η sin η − η cos η

eiηx ax + dx = + 2ia
−1 2 η η2
e ha valori reali se a = 0.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora α
Zα = X 2 + Y 2 , α > 0.
iii) scrivere la CDF di Zα e disegnarne il grafico;

iv) stabilire se Zα ∈ AC e in tal caso scriverne la densità;
1
v) determinare i valori di α > 0 per cui Zα è sommabile e per tali valori calcolare il valore atteso.
Soluzione.
i) γ(X,Y ) = π1 1C e E [X] = 0.
ii) Se X e X − Y fossero indipendenti allora si avrebbe
h i 1
0 = E [X] E [X − Y ] = E [X(X − Y )] = E X 2 − E [XY ] = ,
4
dove i valori attesi si determinano con un semplice calcolo come nell’Esempio 3.3.34.
iii) Si ha 
0 se t ≤ 0,


F(t) := P (Zα ≤ t) = 
1 se t ≥ 1

e, per 0 < t < 1,

1 1
P (Zα ≤ t) = P X 2 + Y 2 ≤ t α = t α
1
dove la probabilità è calcolata come rapporto fra l’area del cerchio di raggio t 2α e quello di raggio
unitario: si veda la Figura B.1.
565
Rt
iv) F è assolutamente continua perché è derivabile q.o. e vale F(t) = 0
F ′ (s)ds (cfr. Definizione 2.4.30).
Una densità di Zα è data da
1 1
F ′ (t) = t α −1 1]0,1[ (t).
α
v) Si ha
1
h
−1
i Z F ′ (t)
E Zα = dt < ∞
0 t
h i
1 1
se 2 − α < 1 ossia 0 < α < 1. In tal caso E Zα−1 = 1−α .
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:
i) la CDF della v.a. nX1 per n ∈ N;

ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.
Soluzione.
i) Si ha 

0 se x ≤ 0,
x

x

FnX1 (x) = P X1 ≤ = λn se 0 < x < λn,
n 

1 se x ≥ λn.

ii) Per la Proposizione 3.6.9, si ha



 0 se x ≤ 0,
x n

n 

FYn (x) = 1 − (1 − FnX1 (x)) = 
 1 − 1 − λn se 0 < x < λn,

1 se x ≥ λn.

iii) Si ha 
0

 se x ≤ 0,
lim FYn (x) =  x
n→∞ 1 − e − λ
 se x > 0,
d
e quindi per il Teorema 4.3.3 Yn −−−−→ Y ∼ Exp 1 per n → ∞.
λ
5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:
i) la densità congiunta γ(S,T ) e marginale γS ;

ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).
Soluzione.
i) Per ipotesi γT (t) = te−t 1R≥0 (t) e γS|T (s, t) = 1t 1[t,2t] (s). Dalla formula (5.3.9) per la densità condizio-
nata ricaviamo
γ(S,T ) (s, t) = γS|T (s, t)γT (t) = e−t 1[t,2t]×R≥0 (s, t) = e−t 1R≥0 ×[s/2,s] (s, t)
e Z Z s s
γS (s) = γ(S,T ) (s, t)dt = e−t dt 1R≥0 (s) = e− 2 − e−s 1R≥0 (s).
R s/2
ii) Si ha
2
1 2
Z
P (S < 2) = γS (s)ds = 1 − ≈ 40%,
0 e
Z 2 Z +∞
1 2(e − 2)
E [T | S < 2] = tγ(S,T ) (s, t)dtds = ≈ 0.84.
P (S < 2) 0 0 e−1
iii) Anzitutto
γ(S,T ) (s, t) e−t
γT |S (t, s) = 1(γS >0) (s) = − 2s
1R≥0 ×[s/2,s] (s, t).
γS (s) e − e−s
Allora si ha Z +∞
1 S

E [T | S] = t γT |S (t, S)dt = − S/2 +S +2 .
0 2 e −1
567

1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).
2. Sia (X, Y , Z) ∼ Nµ,C con
   
0  1 0 −1
µ = 1 , C =  0 2 2  .
   
2 −1 2 3
   
i) Si determini la CHF di (X, Y );

ii) le v.a. X + Y e Z sono indipendenti?
3. Sia B ∼ Unif[−2,2] . Determinare la probabilità che l’equazione di secondo grado
x2 + 2Bx + 1 = 0
abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n
i) Per ogni n ∈ N, determinare la distribuzione di Xn . Le v.a. X e Xn sono indipendenti?

ii) calcolare E [X], E [Xn ], var(X) e var(Xn );
iii) Xn converge a X in L2 (Ω, P )?
d
iv) Xn −−−−→ X?
P
v) Facoltativo: Xn −−→ X?
5. Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T ∼ Exp1 . Si
attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro.
i) Si determini la CDF di X, calcolando FX (x) separatamente per x ≤ 3 e x > 3;
ii) X è assolutamente continua?
iii) si calcoli E [X];
iv) si calcoli E [X | T ];
v) Facoltativo: X è discreta?

1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).
Soluzione. Lo spazio campione di tutte le scelte possibili degli studenti è Ω = DR3,9 , da cui |Ω| = 39 . Si
ricordi che Ω è lo spazio delle funzioni da I9 a I3 e ogni funzione corrisponde ad una scelta possibile dei nove
studenti.

i) Si determinano in C modi possibili i tre studenti che scelgono il primo professore e di conseguenza
9,3

9 6
C9,3 DR2,6 2
P (A) = = 3 9 ≈ 27%.
DR3,9 3
Si ha equivalentemente P (A) = Bin9, 1 ({3}).

3

ii) Si determinano in C9,3 modi possibili i tre studenti che scelgono il primo professore e in C6,3 modi
possibili i tre studenti che scelgono il secondo professore: di conseguenza

C9,3 C6,3 9 6
P (B) = = 3 3 ≈ 8.5%.
DR
3,9 39
iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 31%.
P (A)
iv) Si procede in maniera analoga al punto ii) ma con la differenza che occorre aggiungere un fattore 3!
per il fatto che non viene specificato l’ordine di scelta dei professori. In definitiva

C9,2 C7,3 9 6
P (C) = 3! = 6 3 3 ≈ 38%.
DR
3,9 39

   
0  1 0 −1
µ = 1 , C =  0 2 2  .
   
2 −1 2 3
   
569

ii) le v.a. X + Y e Z sono indipendenti?
Soluzione.
! !
0 1 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
1 0 2
1 2 2
ϕ(X,Y ) (η1 , η2 ) = eiη2 − 2 (η1 +2η2 ) .
ii) (X + Y , Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di

conseguenza, X + Y e Z sono indipendenti se e solo se sono scorrelate: poiché
cov(X + Y , Z) = cov(X, Z) + cov(Y , Z) = −1 + 2,
allora X + Y e Z non sono indipendenti.

3. Sia B ∼ Unif[−2,2] . Determinare la probabilità che l’equazione di secondo grado
x2 + 2Bx + 1 = 0
abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?
Soluzione. Si ha ∆ = 4B2 − 4. Le soluzioni sono reali se e solo se ∆ ≥ 0 ossia |B| ≥ 1: ora si ha semplicemente
P (|B| ≥ 1) = 21 . Inoltre le soluzioni sono coincidenti se e solo se |B| = 1, quindi con probabilità nulla.
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n
i) Per ogni n ∈ N, determinare la distribuzione di Xn . Le v.a. X e Xn sono indipendenti?

ii) Calcolare E [X], E [Xn ], var(X) e var(Xn );
iii) Xn converge a X in L2 (Ω, P )?
d
iv) Xn −−−−→ X?
P
v) Facoltativo: Xn −−→ X?
Soluzione.
i) Integrando la densità congiunta si vede che Xn ∼ Unif[−1− 1 ,1+ 1 ] . La densità congiunta è il prodotto
n n
delle densità marginali e quindi le X e Xn sono indipendenti.
2
ii) È noto che E [X] = E [Xn ] = 0, var(X) = 13 e var(Xn ) = 31 1 + n1 .
iii) Si ha
h i h i h i
E (X − Xn )2 = E X 2 + E Xn2 − 2E [XXn ] =
1 1 1 2

= var(X) + var(Xn ) = + 1+
3 3 n
e quindi non c’è convergenza in L2 (Ω, P ).

iv) Data l’espressione della CHF uniforme, si ha che

1 1
eiη (1+ n ) − e−iη (1+ n )
ϕXn (η) =
2iη 1 + n1
converge puntualmente a ϕX per n → ∞. In alternativa, senza usare l’espressione esplicita delle CHF,
basta semplicemente notare che
Z 1 Z 1
iηy 1
lim ϕXn (η) = lim e γXn (y)dy = eiηy dy = ϕX (η).
n→∞ n→∞ −1 2 −1
per il Teorema della convergenza dominata. In ogni caso, per il Teorema di continuità di Lévy si ha che
d
Xn −−−−→ X.
v) Xn non converge in probabilità a X, poiché per ogni 0 < ε < 1
"
P (|X − Xn | ≥ ε) = γ(X,Xn ) (x, y)dxdy
|x−y|>ε
non tende a zero per n → ∞: è sufficiente osservare la Figura B.2 dove in blu è rappresentato il supporto
della densità di (X, Xn ) e in arancione la striscia {(x, y) ∈ R2 | |x − y| < ε}.
-1
-2
-2 -1 0 1 2
Figura B.2:
5. Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T ∼ Exp1 . Si

attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro.
i) Si determini la CDF di X, calcolando FX (x) separatamente per x < 3 e x ≥ 3;

ii) X è assolutamente continua?
iii) si calcoli E [X];
iv) si calcoli E [X | T ];
v) Facoltativo: X è discreta?
Soluzione. Osserviamo che

X = min{T , 3} = T 1(T ≤3) + 31(T >3) .
571
i) Si ha P (X ≤ 0) = 0 e
P (X ≤ x) = P ((X ≤ x) ∩ (T ≤ 3)) + P ((X ≤ x) ∩ (T > 3))


P (T ≤ x) = 1 − e−x se 0 ≤ x < 3,


=
1
 se x ≥ 3.
ii) X non è assolutamente continua perché la CDF è discontinua nel punto 3.

iii) Si ha
h i Z3
E [X] = E T 1(T ≤3) + 31(T >3) = te−t dt + 3P (T > 3) = 1 − e−3 .
0
iv) X è σ (T )-misurabile perché è funzione (misurabile) di T . Di conseguenza
E [X | T ] = X = min{T , 3}.
v) X non è discreta poiché P (X = 3) = P (T ≥ 3) è positiva e strettamente minore di 1, e P (X = x) = 0 per

ogni x , 3.

– Giugno 2019 – Primo appello –
1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.
i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa?

ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta
dall’urna A sia anch’essa rossa?
iii) Qual è la probabilità che le due palline estratte siano dello stesso colore?
2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.
i) Si determini la probabilità che una bottiglia sia idonea.

ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.
iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determi-
nare la distribuzione di Xn e di (Xn , Xn+1 ).
iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e
la media di N .
v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee.
3. Si verifichi che la funzione

e−x
γ(x, y) = 1 (x, y), A = {(x, y) ∈ R2 | x + y > 0, 0 < y < 1},
e−1 A
è una densità e si consideri (X, Y ) con densità γ(X,Y ) = γ.
i) Giustificare la validità della formula (senza svolgere i calcoli)




0 se x ≤ −1,
 (1+x)e−x

γX (x) =  se − 1 < x < 0,
 e−xe−1

se x ≥ 0,


e−1
e stabilire se X e Y sono indipendenti;

ii) determinare la densità di Y 2 ;
iii) determinare la densità condizionata γX|Y .
4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.
nα
Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
573
ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.
5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:
i) le CDF di Tmax e Tmin ;

ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 secondi, assu-
1
mendo λ1 = λ2 = 10 ;
iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secondi, assumendo
1
λ1 = λ2 = 10 ;
iv) E [t ∨ T2 ] per ogni t > 0 e, tramite il Lemma di freezing, E [Tmax | T1 ].

– Giugno 2019 – Primo appello –
1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.
i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa?

ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta
dall’urna A sia anch’essa rossa?
iii) Qual è la probabilità che le due palline estratte siano dello stesso colore?
Soluzione. Introduciamo gli eventi:
RA = “la pallina estratta dall’urna A è rossa”,

VA = “la pallina estratta dall’urna A è verde” = RcA ,
RB = “la pallina estratta dall’urna B è rossa”,
VB = “la pallina estratta dall’urna B è verde” = RcB .
i) Per la Formula della probabilità totale si ha
3 1 2 1 5
P (RB ) = P (RB | RA )P (RA ) + P (RB | VA )P (VA ) = · + · = .
7 2 7 2 14
ii) Per la formula di Bayes si ha

3
P (RB | RA )P (RA ) 7 · 21 3
P (RA |RB ) = = 5
= .
P (RB ) 14
5
iii) Ancora per la Formula della probabilità totale, se E indica l’evento di cui è richiesta la probabilità
3 1 5 1 4
P (E) = P (E | RA )P (RA ) + P (E | VA )P (VA ) = · + · = .
7 2 7 2 7
2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.
i) Si determini la probabilità che una bottiglia sia idonea.

ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.
iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determi-
nare la distribuzione di Xn e di (Xn , Xn+1 ).
iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e
la media di N .
v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee.
575
Soluzione.
i) Sia Ti , i = 1, 2, 3, l’evento “l’i-esimo test è superato”, e T = T1 ∩ T2 ∩ T3 . Per la Formula di moltiplica-
zione si ha
90 · 95 · 99
P (T ) = P (T1 )P (T2 | T1 )P (T3 | T1 ∩ T2 ) = ≈ 85%.
1003
P (T c | T1c )P (T1c ) 1 · 10%
P (T1c | T c ) = = ≈ 65%
P (T c ) 1 − P (T )
iii) Xn ∼ Bep con p = P (T ). Per l’indipendenza, (X1 , X2 ) ∼ Bep ⊗ Bep .

1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Si ha (cfr. Teorema 3.1.26)
P (N > 100) = (1 − (1 − p))100 = p100 .
3. Si verifichi che la funzione
e−x
γ(x, y) = 1 (x, y), A = {(x, y) ∈ R2 | x + y > 0, 0 < y < 1},
e−1 A
è una densità e si consideri (X, Y ) con densità γ(X,Y ) = γ.
i) Giustificare la validità della formula (senza svolgere i calcoli)



0 se x ≤ −1,
 (1+x)e−x

γX (x) =  se − 1 < x < 0,
 e−xe−1



e−1 se x ≥ 0,
e stabilire se X e Y sono indipendenti;

ii) determinare la densità di Y 2 ;
iii) determinare la densità condizionata γX|Y .
Soluzione. La funzione γ è misurabile, non-negativa e con integrale pari a uno.

i) Basta utilizzare la formula Z
γX (x) = γ(X,Y ) (x, y)dy.
R
Calcolando anche la densità marginale
ey
Z
γY (y) = γ(X,Y ) (x, y)dx = 1 (y),
R e − 1 [0,1]
si riconosce che X, Y non sono indipendenti poiché la densità congiunta non è il prodotto delle margi-
nali.
ii) Calcoliamo prima la CDF per 0 < z < 1:
√ √
z
√ ey e z −1
Z
FY 2 (z) = P (Y 2 ≤ z) = P (Y ≤ z) = dy = .
0 e−1 e−1
Derivando si ottiene √
e z
γY 2 (z) = √ 1[0,1] (z).
2(e − 1) z
iii) Si ha
γ(X,Y ) (x, y)
γX|Y (x, y) = 1(γY >0) (y) = e−(x+y) 1A (x, y).
γY (y)
4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.
nα
Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.
Soluzione.
i) Si ha
h i 1 Z +∞ t dt
E Yn2 = 2 (t − 1)2 e− nα α =
n 0 n
t
(col cambio di variabili τ = nα )
+∞
n2α 2n2a − 2nα + 1
Z
= (τ − n−α )2 e−τ dτ =
n2 0 n2
che tende a zero per n → ∞. Più semplicemente, senza calcolare esplicitamente l’integrale, si ha
+∞ +∞
n2α
Z Z
−α 2 −τ c
0≤ 2 (τ − n ) e dτ ≤ −→ 0, c= (τ + 1)2 e−τ dτ.
n 0 n2−2α 0
ii) Si ha
1
ϕXn (η) =
1 − iηnα
da cui, per α = 1,
iη
η e− n 1
iη

ϕYn (η) = e− n ϕXn = −→ .
n 1 − iη 1 − iη
d
Dunque per α = 1 si ha Yn −−−−→ Y ∼ Exp1 .
5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:
i) le CDF di Tmax e Tmin ;

ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 secondi, assu-
1
mendo λ1 = λ2 = 10 ;
iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secondi, assumendo
1
λ1 = λ2 = 10 ;
iv) E [t ∨ T2 ] per ogni t > 0 e, tramite il Lemma di freezing, E [Tmax | T1 ].
Soluzione.
577
i) Per la Proposizione 3.6.9 sul massimo e minimo di variabili indipendenti si ha la seguente relazione
fra le funzioni di ripartizione

FTmax (t) = FT1 (t)FT2 (t) = 1 − e−λ1 t 1 − e−λ2 t , t ≥ 0,

FTmin (t) = 1 − 1 − FT1 (t) 1 − FT2 (t) = 1 − e−(λ1 +λ2 )t , t ≥ 0.
ii) la probabilità cercata è FTmin (10) ≈ 86%;

iii) la probabilità cercata è FTmax (10) ≈ 40%;
iv) si ha
Z +∞
E [t ∨ T2 ] = (t ∨ s)λ2 e−λ2 s ds
0
t +∞
e−λ2 t
Z Z
−λ2 s
= tλ2 e ds + sλ2 e−λ2 s ds = t + .
0 t λ2
Per il Lemma di freezing (cfr. Teorema 5.2.10), si ha
e−λ2 T1
E [Tmax | T1 ] = T1 + .
λ2

– Giugno 2019 – Secondo appello –
1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:
i) di estrarre una pallina bianca alla seconda estrazione;

ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene
estratta una pallina bianca;
iii) dopo tre estrazioni, di aver estratto tutte palline bianche;
iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore.
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con

 
 2 1 −1
C =  1 1 −1 .
 
−1 −1 1
 
Dati i vettori aleatori Y := (X1 , X3 ) e Z := (X2 , 2X3 ), si determini:
i) le distribuzioni di Y e Z, specificando se sono assolutamente continui;

ii) Y e Z sono indipendenti?
iii) la funzione caratteristica ϕZ specificando se è una funzione sommabile su R2 .
3. Data X ∈ N0,1 , si consideri la successione

r
1 1
Xn = − 1 + X, n ∈ N.
n n
Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞
4. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T ∼ µ := 1

2 (δ−1 + δ1 ). Assu-
miamo che X, Y e T siano indipendenti.

Z := X + Y , W := X + T Y ,
hanno la stessa legge;
ii) Z e W sono indipendenti?
iii) si determini la CHF congiunta ϕ(Z,W ) .
579
5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini
i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].

– Giugno 2019 – Secondo appello –
1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:
i) di estrarre una pallina bianca alla seconda estrazione;

ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene
estratta una pallina bianca;
iii) dopo tre estrazioni, di aver estratto tutte palline bianche;
iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore.
Soluzione. Indichiamo con Bn l’evento “la pallina estratta all’n-esima estrazione è bianca”, con n ∈ N.
Analogamente siano definiti Nn e Rn .
i) per la Formula della probabilità totale si ha
P (B2 ) = P (B2 | B1 )P (B1 ) + P (B2 | R1 )P (R1 ) + P (B2 | N1 )P (N1 )

5 1 4 1 4 1 1
= · + · + · = .
13 3 13 3 13 3 3
ii) Per la Formula di Bayes si ha

4 1
P (B2 | R1 ) 13 · 3 4
P (R1 | B2 ) = P (R1 ) = 1
= .
P (B2 ) 3
13
iii) Per la Formula di moltiplicazione si ha
1 5 6 5
P (B1 ∩ B2 ∩ B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) = · · = .
3 13 14 91
15
iv) Per il punto iii), la probabilità che tutte le palline abbiano lo stesso colore è 91 . La probabilità cercata
15
è quindi 1 − 91 .
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con

 
 2 1 −1
C =  1 1 −1 .
 
−1 −1 1
 
Dati i vettori aleatori Y := (X1 , X3 ) e Z := (X2 , 2X3 ), si determini:
i) le distribuzioni di Y e Z, specificando se sono assolutamente continui;

ii) Y e Z sono indipendenti?
iii) la funzione caratteristica ϕZ specificando se è una funzione sommabile su R2 .
Soluzione.
581
i) Poiché
!
1 0 0
Y = αX, α= ,
0 0 1
!
0 1 0
Z = βX, β= ,
0 0 2
si ha Y ∼ N0,αCα ∗ e Z ∼ N0,βCβ ∗ con

! !
2 −1 1 −2
αCα ∗ = , βCβ ∗ = .
−1 2 −2 4
Ne viene che Y è assolutamente continuo, mentre Z non lo è perché βCβ ∗ è singolare.

ii) Y e Z non sono indipendenti: osserviamo infatti che hanno la seconda componente proporzionale;
quindi, posto f (x1 , x2 ) = x2 si ha
h i
E [f (Y )f (Z)] = 2E X32 = 2
ma E [f (Y )] = E [f (Z)] = 0.
iii) Poiché Z ∼ N0,βCβ ∗ si ha
1 2 2
ϕZ (η1 , η2 ) = e− 2 (η1 +4η2 −4η1 η2 ) .
ϕZ non è sommabile altrimenti, per il teorema di inversione, Z sarebbe assolutamente continua.
3. Data X ∈ N0,1 , si consideri la successione

r
1 1
Xn = − 1 + X, n ∈ N.
n n
Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞
Soluzione.
i) Si ha Xn ∼ N 1 ,1+ 1 . Poiché
n n
η η 2 η 2
1
ϕXn (η) = ei n − 2 (1+ n ) −−−−−→ e− 2 = ϕX (η),
n→∞
d
per il Teorema di continuità di Lévy si ha che Xn −−−−→ X.
ii) Si ha  r  2  r 2
h i  1  1    1  1  h i
2
E (Xn − X) = E  −  1 + + 1 X   = 2 +  1 + + 1 E X 2 −−−−−→ 4
 
 n n  n n n→∞
e quindi non c’è convergenza in L2 .

iii) Per ogni ω ∈ Ω si ha

Xn (ω) −−−−−→ −X(ω)
n→∞
e quindi non c’è convergenza q.c.: Xn converge a X solo sull’evento trascurabile (X = 0).
4. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T ∼ µ := 1

2 (δ−1 + δ1 ). Assu-
miamo che X, Y e T siano indipendenti.

Z := X + Y , W := X + T Y ,
hanno la stessa legge;
ii) Z e W sono indipendenti?
iii) si determini la CHF congiunta ϕ(Z,W ) .
Soluzione.
i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X
Z =α , α= 1 1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto
N0,1 ⊗ N0,1 ⊗ µ

Z
f (x + ty) N0,1 ⊗ N0,1 ⊗ µ (dx, dy, dt) =

E [f (W )] =
R3

Z Z Z ! !
= f (x + ty)N0,1 (dx) N0,1 (dy) µ(dt)
R R R
Z Z ! Z Z !
1 1
= f (x + y)N0,1 (dx) N0,1 (dy) + f (x − y)N0,1 (dx) N0,1 (dy)
2 R R 2 R R
(col cambio di variabili z = −y nel secondo integrale)

Z
= f (x + y)N0,1 (dx)N0,1 (dy) = E [f (Z)] .
R2
Ne segue che Z e W hanno entrambe distribuzione N0,2 .

ii) Poiché
cov(Z, W ) = E [(X + Y )(X + T Y )]

h i h i
= E X 2 + E [(1 + T )XY ] + E T Y 2 = 1
per l’indipendenza di X, Y , T , allora Z e W non sono indipendenti.

583
iii) La CHF congiunta è data da

h i
ϕ(Z,W ) (η1 , η2 ) = E ei(η1 (X+Y )+η2 (X+T Y ))
h i h i
= E ei(η1 +η2 )(X+Y ) 1(T =1) + E ei(η1 +η2 )X+i(η1 −η2 )Y 1(T =−1) =
1 h i(η1 +η2 )(X+Y ) i h i h i

= E e + E ei(η1 +η2 )X E ei(η1 −η2 )Y =
2
(poiché X, Y ∼ N0,1 e X + Y ∼ N0,2 )
1 −(η1 +η2 )2 −η 2 −η 2

= e +e 1 2 .
2
5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini
i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].
Soluzione.
i) N è una v.a. discreta che assume solo valori in N: vale
Zn
P (N = n) = P (n − 1 ≤ T < n) = λe−λt dt = e−λn (eλ − 1) =: pn , n ∈ N.
n−1
Allora
∞
X
N∼ pn δ n
n=1
e la CDF di N è 


 0 se x < 0,
FN (x) = 
P n
 pk

 se n − 1 ≤ x < n.
k=1
ii) Si ha
∞
X eλ
E [N ] = npn = ,
n=1
eλ − 1
h i
E N 1(T >1) ∞
X 2eλ − 1
E [N | T > 1] = = eλ npn = .
P (T > 1)
n=2
eλ − 1
iii) osserviamo che N è σ (T )-misurabile perché è funzione (misurabile) di T : precisamente N = 1 + [T ]

dove [x] indica la funzione parte intera di x ∈ R. Di conseguenza
E [N | T ] = N .

1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:
i) per quali a, b ≥ 0, la funzione γ è una densità;

ii) la densità di X e Y supponendo che γ sia densità di (X, Y );
iii) per quali a, b ≥ 0 le v.a. X e Y sono indipendenti.
   
1 2 0 0 
µ = 2 , C = 0 2 −1 .
   
3 0 −1 2
   

ii) le v.a. X e Y − Z sono indipendenti?
5. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ Unif[0,n] .
i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche ϕXn e si stabili-
sca se (Xn )n∈N converge debolmente;
ii) (Xn )n∈N converge q.c.?
585

1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.
Soluzione.
i) Sia A =“è scelto il primo dado”. Allora per k = 0, 1, . . . , n si ha
!
n k 1
P (X = k | A) = Binn,p (k) = p (1 − p)n−k , p= .
k 2
ii) Per la formula della probabilità totale, si ha

1 1
P (X = k) = (P (X = k | Ac ) + P (X = k | A)) = Binn, 2 (k) + Binn, 1 (k) (B.0.2)
2 2 3 2
iii) Anzitutto
1 2n 1
!
P (X = n) = + .
2 3n 2n
Per il Teorema di Bayes, si ha
1
P (X = n | A)P (A) 2n
P (A | X = n) = = 2n
.
P (X = n) 3n + 21n
iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.2) si ha
1 2n n

E [X] = + .
2 3 2
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.
Soluzione.
i) Se B è l’evento “avere buoni rendimenti scolastici” e S è l’evento “svolgere attività sportiva”, si ha
P (B) = P (B | S)P (S) + P (B | S c )(1 − P (S))
da cui
P (B) − P (B | S c )
P (S) = = 75%
P (B | S) − P (B | S c )
ii) Per il Teorema di Bayes, si ha

P (B | S)P (S)
P (S | B) = ≈ 79%
P (B)
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:
i) per quali a, b ≥ 0, la funzione γ è una densità;
ii) la densità di X e Y supponendo che γ sia densità di (X, Y );
iii) per quali a, b ≥ 0 le v.a. X e Y sono indipendenti.
Soluzione.
i) γ è una funzione misurabile con "
γ(x, y)dxdy = 1
R2
per ogni a, b ≥ 0. Inoltre, poiché a, b ≥ 0, si ha
γ(x, y) ≥ γ(−1, −1) = −a − b + 1, (x, y) ∈ [−1, 1] × [−1, 1]
e quindi γ ≥ 0 se a + b ≤ 1.
ii) Z 1 Z 1
ax + 1 by + 1
γX (x) = γ(x, y)dy = 1[−1,1] (x), γY (y) = γ(x, y)dx = 1[−1,1] (y).
−1 2 −1 2
iii) (X, Y ) sono indipendenti se e solo se γ(x, y) = γX (x)γY (y) ossia
(ax + 1)(by + 1) = ax + by + 1
ossia abxy = 0 ossia a = 0 oppure b = 0.
   
1 2 0 0 
µ = 2 , C = 0 2 −1 .
   
3 0 −1 2
   

ii) le v.a. X e Y − Z sono indipendenti?
Soluzione.
! !
1 2 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
2 0 2
2 2
ϕ(X,Y ) (η1 , η2 ) = ei(η1 +2η2 )−(η1 +η2 ) .
ii) (X, Y − Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di
conseguenza, X e Y − Z sono indipendenti se e solo se sono scorrelate: poiché
cov(X, Y − Z) = cov(X, Y ) − cov(X, Z) = 0,
allora X e Y − Z sono indipendenti.
587
5. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ Unif[0,n] .

i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche ϕXn e si stabili-
sca se (Xn )n∈N converge debolmente;
ii) (Xn )n∈N converge q.c.?
Soluzione.
i) Si ha 
h
iηXn 1
i 
 se η = 0,
ϕXn (η) = E e = iηn
 e iηn−1
 altrimenti.
Si noti che ϕXn è una funzione continua poiché, per ogni n ∈ N, si ha
eiηn − 1
lim = 1.
η→0 iηn
Allora 
1 se η = 0,


lim ϕXn (η) = 
n→∞ 0 altrimenti.

che non è continua in η = 0. Dunque per il Teorema 4.3.8 di continuità di Lévy, la successione (Xn )n∈N
non converge debolmente.
ii) Poiché (Xn )n∈N non converge debolmente, per il Teorema 4.1.9, non si ha neppure la convergenza q.c.

1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:
i) che la prima pallina estratta sia nera;
ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
 
 2 1 −1
C =  1 1 0  .
 
−1 0 1
 
Si determini per quali a ∈ R:
i) Y := (aX1 + X2 , X3 ) è una v.a. assolutamente continua;

ii) aX1 + X2 e X3 sono indipendenti;
iii) la funzione caratteristica ϕY è una funzione sommabile su R2 .
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:
i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .
4. i) Per quali valori di a, b ∈ R la funzione
γ(x) = (2ax + b)1[0,1] (x), x ∈ R,
è una densità?
ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.
iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.
589

1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:
i) che la prima pallina estratta sia nera;

ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.
Soluzione.
i) Consideriamo i seguenti eventi: N 1=“la prima pallina estratta è nera”, T T =“il risultato dei due lanci
di moneta sono due teste”, CT =“il risultato del primo lancio di moneta è croce e del secondo è testa” e
analogamente definiamo CC e T C. Per la Formula della probabilità totale si ha
P (N 1) = P (N 1 | T T )P (T T ) + P (N 1 | CC)P (CC) + P (N 1 | CT ∪ T C)P (CT ∪ T C)

4 1 4 1 4 2 21
= · + · + · = .
11 4 11 4 10 4 55
ii) Per la Formula di Bayes si ha
P (N 1 | T T )P (T T ) 16
P (CT ∪ T C ∪ CC | N 1) = 1 − P (T T | N 1) = 1 − = .
P (N 1) 21
iii) Poniamo P¯ = P (· | CT ∪ T C). Per la formula di moltiplicazione si ha
4 3 2
P¯ (N 1 ∩ N 2) = P¯ (N 1)P¯ (N 2 | N 1) = · = .
10 9 15
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con

 
 2 1 −1
C =  1 1 0  .
 
−1 0 1
 
Si determini per quali a ∈ R:
i) Y := (aX1 + X2 , X3 ) è una v.a. assolutamente continua;

ii) aX1 + X2 e X3 sono indipendenti;
iii) la funzione caratteristica ϕY è una funzione sommabile su R2 .
Soluzione.
i) Poiché
!
a 1 0
Y = αX, α= ,
0 0 1
si ha Y ∼ N0,αCα ∗ con
!
1 + 2a + 2a2 −a
αCα ∗ = , det(αCα ∗ ) = (1 + a)2 .
−a 1
Solo per a = −1 la matrice αCα ∗ è singolare e per tale valore di a la v.a. Y non è assolutamente
continua.
ii) data l’espressione della matrice di covarianza αCα ∗ , si ha che aX1 + X2 e X3 sono scorrelate (e quindi
indipendenti) se a = 0.
iii) Poiché Y ∼ N0,αCα ∗ si ha
1 ∗ η,α ∗ η⟩
ϕY (η) = e− 2 ⟨Cα .
ϕY non è sommabile se a = −1 altrimenti, per il teorema di inversione, Y sarebbe assolutamente
continua.
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:
i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .
Soluzione.
i) Per l’indipendenza, si ha
"
E [Z] = xy Nµ,σ 2 ⊗ Bep (dx, dy) =
R2

Z Z
=p xNµ,σ 2 (dx) + (1 − p) Nµ,σ 2 (dx) = pµ + (1 − p).
R R
ii) Si ha
FZ (z) = P (Z ≤ z) = P ((Z ≤ z) ∩ (Y = 1)) + P ((Z ≤ z) ∩ (Y = 0)) =
= P (X ≤ z)P (Y = 1) + P (1 ≤ z)P (Y = 0) = pFX (z) + (1 − p)1[1,+∞[ (z).
Poiché FZ ha un salto in z = 1 di ampiezza 1 − p, la v.a. Z non è assolutamente continua.

iii) Si ha
h i h i h i σ 2 η2
ϕZ (η) = E eiηZ = pE eiηX + (1 − p)E eiη = pϕX (η) + (1 − p)eiη , ϕX (η) = eiµη− 2 .
Per il Teorema 3.5.20 si ha

h i
E Z 2 = −∂2η ϕZ (η)|η=0 = p(µ2 + σ 2 ) + (1 − p).
4. i) Per quali valori di a, b ∈ R la funzione
γ(x) = (2ax + b)1[0,1] (x), x ∈ R,
è una densità?
591
ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.
iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.
Soluzione.
i) Deve essere Z Z 1
1= γ(x)dx = (2ax + b)dx = a + b
R 0
da cui b = 1 − a. Inoltre γ deve essere non-negativa: se a ≥ 0 allora il minimo di γ è assunto per x = 0
e si ha la condizione 1 − a ≥ 0; se a < 0 allora il minimo di γ è assunto per x = 1 e si ha la condizione
a + 1 ≥ 0. In definitiva, per |a| ≤ 1 e b = 1 − a, γ è una densità.
ii) Si ha 

 0 se x < 0,
√

R √x

P ( nX1 ≤ x) = 
 n x2 √
0 2ydy = n se 0 ≤ x < n,
√



1 se x ≥ n.

Per la Proposizione 3.6.9, si ha



0 se x < 0,
n


 2 n √
√
FYn (x) = 1 − (1 − F nX1 (x)) = 1 − 1 − xn se 0 ≤ x < n,

 √
1 se x ≥ n.

iii) Si ha 
0

 se x < 0,
lim FYn (x) = FY (x) :=  2
n→∞ 1 − e−x
 se x ≥ 0,
d 2
e quindi per il Teorema 4.3.3 Yn −−−−→ Y per n → ∞ con Y che ha densità γY (x) = FY′ (x) = 2xe−x 1[0,+∞[ (x).

1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.
2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:
i) la probabilità che un bullone sia idoneo;
ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.
3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0
i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]
iii) Si calcoli E [Y | X > 0].
5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;
iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.
593

1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.
Soluzione. Consideriamo gli eventi A=“il vaccino è efficace contro il virus α” e B=“il vaccino è efficace
contro il virus β”. Sappiamo che P (A) = 55%, P (B) = 65% e P (A ∪ B) = 80%. Allora
P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 40%.
2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:
i) la probabilità che un bullone sia idoneo;

ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.
Soluzione.
i) Sia Ti , i = 1, 2, l’evento “l’i-esimo test è superato” e T = T1 ∩ T2 . Per la Formula di moltiplicazione si

ha
90 · 95
p := P (T ) = P (T1 )P (T2 | T1 ) = = 85.5%;
1002
ii) per la formula di Bayes e poiché P (T c | T1 ) = P (T2c | T1 ) = 5%, si ha
P (T c | T1 )P (T1 ) 5% · 90%
P (T1 | T c ) = = ≈ 31%;
P (T c ) 14.5%
iii) N ∼ Bin100,p ;
1
iv) M ∼ Geom1−p e E [M] = 1−p .
3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0
i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
Soluzione. Calcoliamo la derivata

pex
Fp′ (x) = 1R≥0 (x)
(p − 1 + ex )2
da cui si vede che Fp è monotona crescente per p ≥ 0 e descrescente per p < 0. Fp con p = 0 è la CDF della
delta di Dirac centrata in zero. Se p > 0 allora Fp è una funzione assolutamente continua su R:
Z x
Fp (x) = Fp′ (y)dy, x ∈ R.
0
Infine Fp (x) ≡ 0 per x < 0 e

lim Fp (x) = 1.
x→∞
Applichiamo il Teorema 4.3.3: per pn −→ 0+ , si ha
Fp (x) −→ F0 (x), x ∈ R \ {0}
con 0 unico punto di discontinuità di F0 : quindi µpn converge debolmente alla delta di Dirac centrata in
zero. Se pn −→ 1, allora
Fp (x) −→ F1 (x) = 1 − e−x , x∈R
e quindi µpn converge debolmente a Exp1 .
e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]

iii) Si calcoli E [Y | X > 0].
Soluzione.
i) Si ha
e−|x| − e−2|x|
Z
γX (x) = γ(X,Y ) (x, y)dy = ,
R |x| log 4
Z
1
γY (y) = γ(X,Y ) (x, y)dx = 1 .
R y log 2 ]1,2](y)
ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
1
iii) Per simmetria P (X > 0) = 2 e si ha
Z Z 2 Z +∞
1 y 1
E [Y | X > 0] = Y dP = 2 e−y|x| dxdy = .
P (X > 0) (X>0) 1 log 4 0 log 2
5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
595
ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;

iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.
Soluzione. Sia Nn−m il numero di chiamate ricevute dall’ora n all’ora m. Allora N8−9 ∼ Poisson2 .
i) N8−10 = N8−9 + N9−10 ∼ Poisson4 per l’ipotesi di indipendenza (Esempio 3.6.5);
ii)
3
X 4k
P (N8−10 ≥ 4) = 1 − P (N8−10 ≤ 3) = 1 − e−4 ;
k!
k=0
iii) per l’indipendenza

 1
2
 X 2 k
P ((N8−9 ≥ 2) ∩ (N9−10 ≥ 2)) = 1 − e−2  ;

k! 
k=0
iv)
P (N8−10 ≥ 4)
P (N8−10 ≥ 4 | N8−10 ≥ 2) =
P (N8−10 ≥ 2)
e le probabilità si calcolano come nel punto ii);
v)
P ((N8−10 ≥ 4) ∩ (N8−9 ≥ 2))
P (N8−10 ≥ 4 | N8−9 ≥ 2) =
P (N8−9 ≥ 2)
1 X
= P (N9−10 ≥ 4 − k)P (N8−9 = k).
P (N8−9 ≥ 2)
k≥2

1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2
i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che
lim ϕ(X,X) (η1 , η2 ) = 0?
|(η1 ,η2 )|→+∞
iii) (Y , X) e (X, X) sono indipendenti?

3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1 √ 1

Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n
i) Si calcoli media e varianza di Xn .

d
ii) Si calcoli la CHF di Xn e si deduca che Xn −−−−→ 0.
L2
iii) Vale anche Xn −−−→ 0 ?
5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,
2π
la Gaussiana standard.
i) Verificare che la funzione
γ(x, y) = 1H (x, y), H := {(x, y) ∈ R2 | 0 ≤ x ≤ Γ (y)}
è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.9) per la densità condizionata
γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)
si calcoli γX|Y e il valore atteso condizionato E [X n | Y ] con n ∈ N.
597

1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).
Soluzione. Lo spazio campione di tutte le disposizioni possibili delle monete è Ω = DR3,6 , da cui |Ω| = 36 . Si
ricordi che Ω è lo spazio delle funzioni da I6 a I3 e ogni funzione corrisponde ad una disposizione possibile
delle sei monete.

i) Si determinano in C modi possibili le due monete nella prima scatola e di conseguenza
6,2

6 4
C6,2 DR2,4 2
P (A) = = 2 6 ≈ 33%.
DR3,6 3
Si ha equivalentemente P (A) = Bin6, 1 ({2}).

3

ii) Si determinano in C6,2 modi possibili le due monete nella prima scatola e in C4,2 modi possibili le
due monete nella seconda scatola: di conseguenza

C6,2 C4,2 6 4
P (B) = = 2 2 ≈ 12%.
DR 3,6 36
iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 37.5%.
P (A)
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2
i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che
lim ϕ(X,X) (η1 , η2 ) = 0?

|(η1 ,η2 )|→+∞
iii) (Y , X) e (X, X) sono indipendenti?
Soluzione.
! ! ! !
Y X 0 1 2 0
i) Poiché =α con α = , si ha (X, Y ) ∈ N(0,0),C1 con C1 = αCα ∗ = .
X Y 1 0 0 1
!
1 1
ii) In modo analogo si mostra che (X, X) ∈ N(0,0),C2 con C2 = . In questo caso la matrice di
1 1
covarianza è degenere e (X, X) non è assolutamente continua. Si ha
1 2 2
ϕ(X,X) (η1 , η2 ) = e− 2 (η1 +2η1 η2 +η2 )
e ϕ(X,X) (η1 , −η1 ) = 1 per ogni η1 ∈ R (da cui segue che ϕ(X,X) non tende a 0 all’infinito).
iii) Se (Y , X) e (X, X) fossero indipendenti allora lo sarebbero anche le loro seconde componenti che sono
entrambe uguali a X.
3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.
Soluzione. σ (X) è la σ -algebra i cui elementi sono ∅ e le unioni di
(X = 2) = {(1, 1)},
(X = 3) = {(1, 2), (2, 1)},
(X = 4) = {(1, 3), (3, 1), (2, 2)},
(X = 5) = {(2, 3), (3, 2)},
(X = 6) = {(3, 3)}.
L’evento (X1 = 1) < σ (X): intuitivamente non posso conoscere l’esito del primo lancio sapendo la somma dei
due lanci.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1 √ 1

Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n
i) Si calcoli media e varianza di Xn .

d
ii) Si calcoli la CHF di Xn e si deduca che Xn −−−−→ 0.
L2
iii) Vale anche Xn −−−→ 0 ?
Soluzione.
i) Si ha
Z Z 1
1 n n 2 1 1

2
E [Xn ] = 0, var(Xn ) = x µn (dx) = 1 + 1 − x dx = 1 + 2 1 − .
R n 2 −1 3n n
n
ii) Ricordando l’espressione della CHF uniforme si ha

η η
1 iη √n −iη √n 1 ei n − e−i n

ϕXn (η) = e +e + 1− −−−−−−→ 1.
2n n iη n2 n→∞
Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi per il Teorema
di continuità di Lévy.
iii) Non si ha convergenza in L2 (Ω, P ) poiché, per quanto visto al punto i),
∥Xn ∥2L2 (Ω,P ) = var(Xn ) −−−−−−→ 1.

n→∞
599
5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,
2π
la Gaussiana standard.
i) Verificare che la funzione
γ(x, y) = 1H (x, y), H := {(x, y) ∈ R2 | 0 ≤ x ≤ Γ (y)}
è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.9) per la densità condizionata
γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)
si calcoli γX|Y e il valore atteso condizionato E [X n | Y ] con n ∈ N.
Soluzione.
i) γ è una funzione misurabile, non-negativa e

" Z Z Γ (y) Z
γ(x, y)dxdy = dxdy = Γ (y)dy = 1.
R2 R 0 R
ii) Si ha
Z q √
γX (x) = γ(x, y)dy = 2 −2 log x 2π 1]0, √1 ] (x),
2π
ZR
γY (y) = γ(x, y)dx = Γ (y).
R
X e Y non sono indipendenti poiché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
1
γX|Y (x, y) = 1 (x, y)
Γ (y) H
e Z Z Γ (y)
n n 1 1 n
E [X | Y ] = x γX|Y (x, y) = xn dx = Γ (y).
R Γ (y) 0 n+1

1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:
i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).
Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:
iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.
2. Sia (X, Y ) una variabile aleatoria con distribuzione UnifH dove
H = {(x, y) ∈ R2 | 1 − e−|x| < y < 1}.
Si determini:
i) le densità congiunte e marginali di (X, Y );
ii) se X e Y sono indipendenti;
R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).
3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n
i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?
601

1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:
i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).
Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:
iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.
Soluzione.
i) Si ha σ (X) = {∅, N, 2N, 2N + 1}, dove 2N indica l’insieme dei numeri naturali pari, e σ (Y ) = P(N).
ii) No, per il Teorema 3.3.3 di Doob poiché σ (Y ) non è inclusa in σ (X). Si può anche provare direttamente
la tesi per assurdo in modo analogo all’Esercizio 3.3.6.
iii) Si ha µX = qδ1 + (1 − q)δ−1 e µY = Geomp .
iv) Vale 


 0 se x < −1,

FX (x) =  1−q se − 1 ≤ x < 1,



1 se x ≥ 1.

v) No, poiché per esempio si ha
P ((X = 1) ∩ (Y = 1)) = P (2N ∩ {1}) = 0 , P (X = 1)P (Y = 1) = pq.
2. Sia (X, Y ) una variabile aleatoria con distribuzione UnifH dove
H = {(x, y) ∈ R2 | 1 − e−|x| < y < 1}.
Si determini:
i) le densità congiunte e marginali di (X, Y );

R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).
Soluzione.
i) Poiché Z
e−|x| dx = 2
R
si ha
1
γ(X,Y ) = 1 .
2 H
Inoltre
1
e−|x|
Z Z
1
γX (x) = γ(X,Y ) (x, y)dy = dy = ,
R 2 1−e−|x| 2
Z Z − log(1−y)
1
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y) dy = −1]0,1[ (y) log(1 − y).
R 2 log(1−y)
ii) X e Y non sono indipendenti perché la densità congiunta non è il prodotto delle densità marginali.
iii) E [(X, Y )] = (E [X] , E [Y ]) con
Z
E [X] = xγX (x)dx = 0,
R
Z Z 1
3
E [Y ] = yγY (y)dy = y (− log(1 − y)) dy = .
R 0 4
iv) per la Proposizione 5.3.20, per 0 < y < 1, si ha
γ(X,Y ) (x, y) 1
γX|Y (x, y) = =− 1 (x, y), x ∈ R.
γY (y) 2 log(1 − y) H
Allora
Z Z − log(1−Y )
1 1
var(X | Y ) = x2 γX|Y (x, Y )dx = − x2 dx = log2 (1 − Y ).
R 2 log(1 − Y ) log(1−Y ) 3
3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n
i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?
Soluzione.
i) Per l’indipendenza si ha µ(Xn ,Y ) = N1, 1 ⊗ Bep ;
n
ii) ancora per l’indipendenza di Xn e Y , si ha

h i h i
E [Zn ] = E (−1)Y Xn = E (−1)Y E [Xn ] = 1 − 2p.
Inoltre
h Y i
ϕZn (η) = E eiη(−1) Xn
603
"
y
= eiη(−1) x N1, 1 ⊗ Bep (dx, dy) =
n
R2

Z Z !
iη(−1)y x
= e Bep (dy) N1, 1 (dx)
n
R R
Z Z
=p e−iηx N1, 1 (dx) + (1 − p) eiηx N1, 1 (dx)
n n
R R
η2 η2
−iη− 2n iη− 2n
= pe + (1 − p)e ;
Zn è assolutamente continua poiché ϕZn è una funzione sommabile (cfr. Teorema 3.5.6);
iii) la convergenza in legge di Zn segue dal Teorema 4.3.8 di continuità di Lévy: si ha
lim ϕZn (η) = pe−iη + (1 − p)eiη

n→∞
che è la CHF della distribuzione pδ−1 + (1 − p)δ1 che non è assolutamente continua.

1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.
   
1 2 0 0 
µ = 2 , C = 0 1 −1 .
   
3 0 −1 1
   
Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.
605

1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.
Soluzione. Sia Rn l’evento “la n-esima carta estratta è rossa” e analogamente si definisca Nn .
10 1 9 1
P (N2 ) = P (N2 | R1 )P (R1 ) + P (N2 | N1 )P (N1 ) = · + · .
21 2 19 2
ii) Per la formula di Bayes si ha

10 1
P (N2 | R1 ) 21 · 2
P (R1 | N2 ) = P (R1 ) = 10 1 9
.
P (N2 ) 21 · 2+ 19 · 12
iii) Per la formula di moltiplicazione si ha

1 9 8 2
P (N1 ∩ N2 ∩ N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 ∩ N2 ) = · · = .
2 19 18 19
2
iv) La probabilità cercata è 1 − 19 .
   
1 2 0 0 
µ = 2 , C = 0 1 −1 .
   
3 0 −1 1
   
Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.
Soluzione.
i) Si ha (Y , Z) ∼ Nµ̄,C̄ con
! !
2 1 −1
µ̄ = , C̄ =
3 −1 1
e quindi
1 2
ϕ(Y ,Z) (η1 , η2 ) = ei(2η1 +3η2 )− 2 (η1 −η2 ) .
ii) (X, Y +Z) ha distribuzione normale bidimensionale perché è trasformazione lineare di (X, Y , Z). Allora
X e Y + Z sono indipendenti se e solo se sono scorrelate. Poiché
cov(X, Y + Z) = cov(X, Y ) + cov(X, Z) = 0,
X e Y + Z sono indipendenti.
iii) Vale  
X 
Y + Z = A Y  , A= 0 1 1
 
Z
 
e quindi Y + Z ∼ NAµ,ACA∗ = δ5 .
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.
Soluzione.
i) Calcoliamo la CDF di Xn : FXn (y) = 0 se y ≤ 0, mentre per y > 0 si ha
1 1
FXn (y) = P (Xn ≤ y) = P (X ≤ (ny) n ) = 1 − e−λ(ny) .
n
La funzione FXn ∈ AC e derivandola si ottiene una densità:

1 1
γXn (y) = λ(ny) n −1 e−λ(ny) 1R≥0 (y).
n
ii) Si ha
F(y) := lim FXn (y) = 1 − e−λ 1R>0 (y).
n→∞
Per ogni λ > 0, la funzione F non è una CDF (perché non converge a 1 per y → +∞): segue dal Teorema
4.3.3 che Xn non può convergere debolmente.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.
Soluzione.
i) Per ipotesi γS|T (s, t) = 1[t,t+1] (s). Per l’Osservazione 5.3.21, si ha
γ(S,T ) (s, t) = γS|T (s, t)γT (t) = 1[t,t+1] (s)1[0,1] (t) = 1[0,1] (s)1[0,s] (t) + 1[1,2] (s)1[s−1,1] (t).
Allora Z
γS (s) = γ(S,T ) (s, t)dt = s1[0,1] (s) + (2 − s)1[1,2] (s).
R
Infine
Z Z 1 Z 2
2
E [S] = sγS (s)ds = s ds + s(2 − s)ds = 1.
R 0 1
607
ii) Consideriamo λ > 0 generico. Per l’ipotesi di indipendenza si ha
γ(S,τ) (s, t) = γS (s)λe−λt 1R≥0 (t),
e quindi
Z Z +∞
P (τ ≥ S) = γS (s)λe−λt dtds
R s
Z 1 Z +∞ Z 2 Z +∞
−λt
= s λe dtds + (2 − s) λe−λt dtds
0 s 1 s
Z1 Z 2
= se−λs ds + (2 − s)e−λs ds
0 1
!2
eλ − 1
= .
λeλ
In particolare, per λ = 1 si ha
1 2

P (τ ≥ S) = 1 − ≈ 40%.
e

1. Quattro persone A, B, C, D lanciano un dado a testa. Determinare la probabilità che:
i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.
2. i) Verificare che la funzione

1
γ(x) = 1]0,+∞[ (x)
(x + 1)2
è una densità;
ii) sia X una variabile aleatoria con densità γ. Determinare una funzione ϕ tale che ϕ(X) ∼ Expλ
con λ > 0.
3. Sullo spazio di probabilità R, B, N0,1 consideriamo la successione di variabili aleatorie definite da

1
Xn = 1 , n ∈ N,
pn [n−1,n]
dove
pn := N0,1 ([n − 1, n]).
Determinare:
i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .
4. Siano X, Y variabili indipendenti con distribuzione Expλ . Determinare:

i) la CHF congiunta ϕ(X,Y ) ;
ii) la CHF ϕX+Y della somma;
iii) la CHF ϕXY del prodotto (non importa svolgere il calcolo fino all’espressione esplicita).
609

1. Quattro persone A, B, C, D lanciano un dado a testa. Determinare la probabilità che:

i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.
Soluzione.
4
1
i) la probabilità cercata vale 6 ;
4
ii) la probabilità cercata vale 6 · 5 · 16 ;
4
iii) la probabilità cercata vale 4 · 16 .
2. i) Verificare che la funzione

1
γ(x) = 1]0,+∞[ (x)
(x + 1)2
è una densità;
ii) sia X una variabile aleatoria con densità γ. Determinare una funzione ϕ tale che ϕ(X) ∼ Expλ
con λ > 0.
Soluzione.
i) La funzione γ è misurabile, non negativa e tale che
Z Z +∞ Z +∞
1 1
γ(x)dx = 2
dx = dz = 1,
R 0 (x + 1) 1 z2
e quindi è una densità.
ii) Dato y > 0 e assumendo ϕ invertibile, calcoliamo
Z ϕ −1 (y) Z ϕ −1 (y)+1
1 1 1
P (ϕ(X) ≤ y) = P (X ≤ ϕ −1 (y)) = dx = dz = 1 − −1 .
0 (x + 1)2 1 z2 ϕ (y) + 1
Imponendo che P (ϕ(X) ≤ y) = 1 − e−λy otteniamo

1
= e−λy
ϕ −1 (y) + 1
1
da cui ϕ(x) = λ log(x + 1).
3. Sullo spazio di probabilità R, B, N0,1 consideriamo la successione di variabili aleatorie definite da

1
Xn = 1 , n ∈ N,
pn [n−1,n]
dove
pn := N0,1 ([n − 1, n]).
Determinare:
i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .
Soluzione.
1
i) Xn assume solo i valori 0 e pn e quindi ha una distribuzione di tipo Bernoulli: precisamente, Xn ∼
pn δ 1 + (1 − pn )δ0 .
pn
ii) per ogni ϕ continua e limitata si ha

lim E [ϕ(Xn )] = lim (pn ϕ(1/pn ) + (1 − pn )ϕ(0)) = ϕ(0)
n→∞ n→∞
e quindi Xn converge debolmente ad una variabile aleatoria con distribuzione δ0 ;

iii) per ogni ω ∈ R si ha
lim Xn (ω) = 0
n→∞
e quindi Xn converge puntualmente (e quindi quasi certamente) alla variabile aleatoria identicamente
nulla;
iv) si ha E [Xn ] = 1 e quindi non si ha convergenza in L1 che contraddirrebbe il punto precedente.
4. Siano X, Y variabili indipendenti con distribuzione Expλ . Determinare:
i) la CHF congiunta ϕ(X,Y ) ;
ii) la CHF ϕX+Y della somma;
iii) la CHF ϕXY del prodotto (non importa svolgere il calcolo fino all’espressione esplicita).
Soluzione.
i) Per l’indipendenza, la CHF congiunta è il prodotto delle marginali
λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = ;
(λ − iη1 )(λ − iη2 )
ii) analogamente si ha
h i λ2
ϕX+Y (η) = E eiη(X+Y ) = ϕX (η)ϕY (η) = ;
(λ − iη)2
iii) si ha
h i
ϕXY (η) = E eiηXY =
(poiché, per l’indipendenza, (X, Y ) ∼ Expλ ⊗ Expλ )
"
= eiηxy Expλ ⊗ Expλ (d(x, y))
R2
Z Z !
iηxy
= e Expλ (dx) Expλ (dy)
ZR R
λ
= Expλ (dy)
R λ − iηy
+∞
λ2
Z
= e−λy dy.
0 λ − iηy
611

– Maggio 2021 –
1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:
i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.
2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:
i) qual è la probabilità che almeno 9 di essi siano immuni?
ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?
3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},
i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.
4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.

– Maggio 2021 –
1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:
i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.
Soluzione.
i)
P (S ∩ C) = P (S) + P (C) − P (S ∪ C) = 25%.
ii)
P (S \ C) = P (S) − P (S ∩ C) = 25%.
iii)
P ((S ∪ C)c ) = 1 − P (S ∪ C) = 40%.
2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:
i) qual è la probabilità che almeno 9 di essi siano immuni?

ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?
Soluzione.
i) I dati del problema sono
P (X) = P (Y ) = 0.4, P (Z) = 0.2, P (I | X) = 0.95, P (I | Y ) = 0.8, P (I | Z) = 0.2
con evidente significato degli eventi X, Y , Z, I. Per la formula della probabilità totale, la probabilità che
un individuo sia immune è
P (I) = P (I | X)P (X) + P (I | Y )P (Y ) + P (I | Z)P (Z) = 0.75.
La probabilità cercata è quindi
Bin10,p (9) + Bin10,p (10) ≈ 0.24, p := P (I).

613
ii) La probabilità che un individuo immune sia stato vaccinato è pari a
P (V | I) = P (X | I) + P (Y | I) =
(per la formula di Bayes)
P (I | X)P (X) P (I | Y )P (Y )
= + ≈ 0.93.
P (I) P (I)
La probabilità che tutti siano stati vaccinati è (0, 93)10 ≈ 0.5.
3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},
i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.
Soluzione.
i) Si ha
Z Z 1Z 2x
2λ
γλ (x, y)dxdy = λydydx = .
R2 0 0 3
Allora, essendo anche misurabile e non-negativa, la funzione γ 3 è una densità.

2
ii) Si ha, per x ∈ [0, 1],

Z 2x
γX (x) = γ 3 (x, y)dy = 3x2 1[0,1] (x),
2
0
Z 1
3y y

γY (y) = γ 3 (x, y)dx = 1 − 1[0,2] (y).
y 2 2 2
2
Inoltre, per z ∈ [0, 1], √

√
Z z
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = 3x2 dx
0
da cui derivando
3√
γX 2 (z) =
z1[0,1] (z).
2
√
iii) Se X 2 e Y fossero indipendenti allora lo sarebbero anche X 2 ≡ X e Y ma ciò non è vero per il punto
ii), essendo la densità congiunta diversa dal prodotto delle marginali.
iv) Si ha
γλ (x, y) 1
γX|Y (x, y) = = y 1(0< 2 <x<1)
y
γY (y) 1− 2
da cui si riconosce che la legge condizionata è uniforme, µX|Y = Unif[ Y ,1] .
2
4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.
Soluzione.
i) Sappiamo che X1 assume i valori 0, 1 e Sn Binn,p : calcoliamo
P (X1 = 1) ∩ (Sn = k) P (X1 = 1) ∩ (X2 + · · · + Xn = k − 1)

P (X1 = 1 | Sn = k) = =
P (Sn = k) P (Sn = k)
(per indipendenza)
pBinn−1,p (k − 1) k
= = .
Binn,p (k) n
Dunque µX1 |Sn = Be Sn .

n
Sn
ii) Dal punto precedente segue che Yn = n e quindi per la legge dei grandi numeri Yn converge a E [X1 ] = p
in norma L2 e quasi certamente.
iii) Se k > n allora Xk e Sn sono indipendenti e quindi E [Xk | Sn ] = E [Xk ] = p.
615

– Luglio 2021 –
1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.
2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.
i) Provare che Z è ben definita quasi certamente;

ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:
1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )
i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.

– Luglio 2021 –
1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.
Soluzione.
1
P (N ) = P (N | T )P (T ) + P (N | C)P (C) = (P (N | T ) + P (N | C))
2
dove N è l’evento “la pallina p è nera”, T è l’evento “il risultato del lancio della moneta è testa” e C è
l’evento “il risultato del lancio della moneta è croce”. Ancora per la formula della probabilità totale, se
NU indica l’evento “dall’urna U si estrae una pallina nera”, si ha
10 3 9 2 4
P (N | T ) = P (N | T | NU )P (NU ) + P (N | T | NUc ) (1 − P (NU )) = · + · = ,
12 5 12 5 5
4 9 3 2 7
P (N | C) = P (N | C | NV )P (NV ) + P (N | C | NVc ) (1 − P (NV )) = · + · = .
6 11 6 11 11
In definitiva
1 4 7 79

P (N ) = + = .
2 5 11 110
ii) Per la formula di Bayes
4 1
P (N | T )P (T ) 5·2 44
P (T | N ) = = 79
= .
P (N ) 110
79
iii) Si ha
2
P (N ∩ T ) = P (N | T )P (T ) = .
5
2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.
i) Provare che Z è ben definita quasi certamente;
ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?
617
Soluzione.
i) Z è ben definita se min{X, Y } , 0: ora si ha
P (min{X, Y } = 0) = P ((X ≤ 0) ∪ (Y ≤ 0)) ≤ P (X ≤ 0) + P (Y ≤ 0) = 0.
1
ii) si ha P (Z = 1) = P (X ≤ Y ) = 2 per simmetria oppure calcolando
Z +∞ Z y
1
P (X ≤ Y ) = λe−λx dxλe−λy dy = ;
0 0 2
1
iii) essendo Z ≥ 1 q.c. si ha P (Z ≤ t) = 0 per t < 1; abbiamo già provato che P (Z = 1) = 2 e per t > 1 si ha
P (Z ≤ t) = P (Z ≤ 1) + P (1 < Z ≤ t)
!
1 X
= +P 1 < ≤t
2 min{X, Y }
1
= + P (Y < X ≤ tY )
2
Z +∞ Z ty
1 t
= + λe−λx dxλe−λy dy = ;
2 0 y t + 1
iv) Z non è assolutamente continua per ii) e non è discreta poiché la sua CDF non è costante a tratti.
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:
1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )
i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.
Soluzione.
i) Si ha
h i
ϕYn (η) = E eiηnX1 = ϕX1 (nη) = e−n|η| ,
h i
ϕZn (η) = E eiη(X1 +···+Xn ) =
(per indipendenza)
n
Y h i
= E eiηXk =
k=1
(essendo le Xk identicamente distribuite)
= (ϕX1 (η))n = e−n|η| .
Avendo la stessa CHF, per il teorema di inversione Yn e Zn hanno la stessa legge. Yn e Zn non sono
uguali q.c. Per esempio, nel caso n = 2, Y2 = Z2 q.c. equivale a X1 = X2 q.c. ma ciò non è vero: per
esempio, per l’indipendenza, P ((X1 < 0) ∩ (X2 > 0)) = P (X1 < 0)P (X2 > 0) > 0.
ii) Procediamo come nell’Esempio 3.5.4:
 P n 
∞
h
iηWλ
i X  iη Xk 
ϕWλ (η) = E e = E e k=1 1(N =n)  =

 
n=0
(per indipendenza di N , X1 , X2 , . . . )
 P n 
∞
X  iη Xk 
= E e  P (N = n)
 k=1 
 
n=0
∞
X e−λ λn
= (ϕX1 (η))n
n!
n=0

= exp λ(e−|η| − 1) .
iii) Per ogni η ∈ R si ha

lim ϕWλ (η) = 1
λ→0+
e quindi, per il Teorema di continuità di Lévy, Wλ converge debolmente ad una v.a. con distribuzione
delta di Dirac centrata in 0. D’altra parte, si ha

1 se η = 0,


lim ϕWλ (η) = 
λ→+∞ 0 se η , 0,

e dunque non si può avere convergenza debole perchè il limite delle CHF è una funzione discontinua
in 0 (si veda punto i) del Teorema di continuità di Lévy).
619

1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.
2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
1  1 0 −1
µ = 2 , C =  0 1 −1 .
   
3 −1 −1 2
   
Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .
3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:
i) la densità di X;
iii) la densità di Y condizionata a X;
h i h i
iv) E Y 2 e E Y 2 | X .
4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
ii) Si calcoli E [Yn ] e E [Zn ].
iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?

1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.
Soluzione.
i) Sia Gi , i = 1, 2, 3, l’evento “si ha sentenza di condanna all’i-esimo grado”, e G = G1 ∩ G2 ∩ G3 . Per la
Formula di moltiplicazione si ha
70 · 80 · 90
P (G) = P (G1 )P (G2 | G1 )P (G3 | G1 ∩ G2 ) = = 50.4%.
1003
ii) Si ha
P (G)
P (G2c ∪ G3c | G1 ) = 1 − P (G2 ∩ G3 | G1 ) = 1 − = 28%.
P (G1 )
iii) Xn ∼ Bep con p = P (G). Per l’indipendenza, (Xn , Xn+1 ) ∼ Bep ⊗ Bep e Xn + Xn+1 ∼ Bin2,p .
1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Per il Teorema 3.1.26 si ha
P (N ≤ 5) = 1 − p5 ≈ 96.7%.
2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
1  1 0 −1
µ = 2 , C =  0 1 −1 .
   
3 −1 −1 2
   
Si determini:
iii) la legge di X2 − X3 .
Soluzione.
621
i) Si ha (X2 , X3 ) ∼ Nµ̄,C̄ con

! !
2 1 −1
µ̄ = , C̄ = .
3 −1 2
ii) Si ha
1
ϕX (η) = ei(η1 +2η2 +3η3 )− 2 ⟨Cη,η⟩ .
La matrice C è degenere (det C = 0) e quindi X non ha densità.
iii) Vale

X2 − X3 = AX, A= 0 1 −1
e quindi X2 − X3 ∼ N−1,ACA∗ = N−1,5 .
3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:
i) la densità di X;
iii) la densità di Y condizionata a X;

h i h i
iv) E Y 2 e E Y 2 | X .
Soluzione.
i) La densità congiunta è γ(X,Y ) = 12 1Q dove
Q = {(x, y) ∈ R2 | |x + y| ≤ 1, |x − y| ≤ 1}.
Quindi, osservando la Figura B.3 se x ∈ [0, 1] si ha
Z Z 1−x
1
γX (x) = γ(X,Y ) (x, y)dy = dy = 1 − x,
R 2 x−1
mentre se x ∈ [−1, 0] si ha
Z x+1
1
γX (x) = dy = x + 1
2 −1−x
e γX (x) = 0 per |x| > 1.

y=x+1
1.0
y=x-1
0.5
-1.5 -1.0 -0.5 0.5 1.0 1.5
-0.5
y=1-x
-1.0
y=-x-1
Figura B.3:
ii) Per simmetria si calcola anche γY e si vede facilmente che X, Y non sono indipendenti poiché la densità
congiunta non è il prodotto delle marginali.
iii) Se x ∈]0, 1] si ha
γ(X,Y ) (x, y) 1 1
γY |X (x, y) = = 1 (x, y) = 1 (y)
γX (x) 2(1 − x) Q 2(1 − x) [x−1,1−x]
e se x ∈ [−1, 0[
1 1
γY |X (x, y) = 1Q (x, y) = 1 (y).
2(x + 1) 2(x + 1) [−1−x,x+1]
iv) Si ha
h i Z1 Z 0
1
2 2
E Y = y (1 − y)dy + y 2 (1 + y)dy = .
0 −1 6
D’altra parte
h i Z
E Y2 | X = y 2 γY |X (X, y)dy
R
1−X X+1
y2 y2
Z Z
= 1[0,1] (X) dy + 1[−1,0] (X) dy
X−1 2(1 − X) −X−1 2(X + 1)
(X − 1)2 (X + 1)2
= 1[0,1] (X) + 1[−1,0] (X).
3 3
4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
623
ii) Si calcoli E [Yn ] e E [Zn ].

iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?
Soluzione.
i) Calcoliamo le CDF:
 


 0 se y ≤ 0, 

0 se z ≤ 0,
 n n
 1
FYn (y) = P (Xn ≤ (n + 1)y) =  1 se y ≥ n+1 , FZn (z) = P (Xn ≤ z ) = 1 se z ≥ n n ,
 

 n+1 
 zn
y altrimenti, altrimenti.

 

n n
Derivando tali funzioni, si trovano le densità:
n+1
γYn (y) = 1 n (y), γZn (z) = zn−1 1[0,n1/n ] (z).
n [0, n+1 ]
ii) Yn ∼ Unif[0, n
] da cui
n+1
n
E [Yn ] = .
2(n + 1)
Invece
1 n
Z nn
n n n+1
E [Zn ] = z dz = .
0 n+1
iii) Si ha 

 0 se y ≤ 0, 

 0

 se z ≤ 0,
FYn (y) −−−−−−→  1 se y ≥ 1, FZn (z) −−−−−−→ 

n→∞   n→∞  1 se z > 1,
y altrimenti,

e quindi, per il Teorema 4.3.3, Yn converge debolmente ad una v.a. con legge Unif[0,1] e Zn converge
debolmente ad una v.a. con legge delta di Dirac centrata in 1. Si noti che il limite puntuale delle FZn
non è continua a destra nel punto z = 1.
iv) Sı̀ per il Teorema 4.1.9-vi).
Probabilità e Statistica Matematica 1

Prof. Andrea Cosso e Andrea Pascucci
1. Pietro è un giocatore di tiro al bersaglio e dispone di cinque freccette. Quattro freccette sono perfet-
tamente bilanciate e quando Pietro le utilizza fa centro con probabilità pari al 75%. Al contrario, con
la quinta freccetta fa centro solo nel 25% dei casi. Pietro però non sa riconoscere la freccetta difettosa,
quindi quando gioca sceglie a caso la freccetta da lanciare.
i) Qual è la probabilità che Pietro faccia centro lanciando una freccetta scelta a caso tra le cinque?
ii) Sapendo che Pietro ha fatto centro, qual è la probabilità che abbia usato la freccetta difettosa?
2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità

e−y
γ(X,Y ) (x, y) = α √ 1A (x, y), (x, y) ∈ R2 ,
x
dove α ∈ R e n √ o
A = (x, y) ∈ R2 | x > 0, y > x .
i) Trovare il valore del parametro α affinché γ(X,Y ) sia effettivamente una densità;
ii) determinare le densità marginali di (X, Y ) e stabilire se X, Y sono indipendenti.
3. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
1 1 1 2
µ = 0 , C = 1 1 2 .
   
2 2 2 4
   
i) Trovare la legge di (X1 , X3 );

ii) stabilire se la variabile aleatoria (X1 , X3 ) è assolutamente continua;
iii) determinare la legge di X3 − 2X1 e X2 . Sono indipendenti?
4. Sia X0 una variabile aleatoria con distribuzione di Cauchy e funzione caratteristica
ϕX0 (η) = exp(−|η|), η ∈ R.
Sia (Xn )n∈N una successione di variabili aleatorie definite ricorsivamente da
Xn = αXn−1 + β, n ∈ N,
dove −1 < α < 1 e β ∈ R.

i) Si esprima Xn in termini di X0 e si determini la funzione caratteristica di Xn per ogni n ∈ N;
ii) si studi la convergenza debole di (Xn )n∈N ;
iii) si studi la convergenza quasi certa di (Xn )n∈N .
625

1. Pietro è un giocatore di tiro al bersaglio e dispone di cinque freccette. Quattro freccette sono perfet-
tamente bilanciate e quando Pietro le utilizza fa centro con probabilità pari al 75%. Al contrario, con
la quinta freccetta fa centro solo nel 25% dei casi. Pietro però non sa riconoscere la freccetta difettosa,
quindi quando gioca sceglie a caso la freccetta da lanciare.
i) Qual è la probabilità che Pietro faccia centro lanciando una freccetta scelta a caso tra le cinque?
ii) Sapendo che Pietro ha fatto centro, qual è la probabilità che abbia usato la freccetta difettosa?
Soluzione.
i) Siano
A = “Pietro sceglie la freccetta difettosa”,

B = “Pietro sceglie una freccetta perfettamente bilanciata” = Ac ,
C = “Pietro fa centro”.
Sappiamo che P (A) = 1/5 e P (B) = 4/5. Inoltre, P (C|A) = 1/4 e P (C|B) = 3/4. Quindi, per la formula
della probabilità totale,
13
P (C) = P (C|A)P (A) + P (C|B)P (B) = .
20
ii ) Per la formula di Bayes
P (C|A)P (A) 1
P (A|C) = = .
P (C) 13
e−y
γ(X,Y ) (x, y) = α √ 1A (x, y), (x, y) ∈ R2 ,
x
dove α ∈ R e n √ o
A = (x, y) ∈ R2 | x > 0, y > x .
i) Trovare il valore del parametro α affinché γ(X,Y ) sia effettivamente una densità;
ii) determinare le densità marginali di (X, Y ) e stabilire se X, Y sono indipendenti.
Soluzione.
i) α = 1/2, infatti
√
Z Z ∞ Z ∞ ! Z ∞ − x
1 −y e
γ(X,Y ) (x, y)dxdy = α √ √ e dy dx = α √ dx = 2α.
R2 0 x x 0 x
ii) Si ha
√
∞
e− x
Z Z
1 −y
γX (x) = γ(X,Y ) (x, y)dy = √ 1]0,∞[ (x) √ e dy = √ 1]0,∞[ (x),
R 2 x x 2 x
Z Z y2
1
γY (y) = γ(X,Y ) (x, y)dx = e−y 1]0,∞[ (y) √ dx = ye−y 1]0,∞[ (y).
R 0 2 x
Dato che γ(X,Y ) (x, y) , γX (x)γY (y), X e Y non sono indipendenti.
3. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
1 1 1 2
µ = 0 , C = 1 1 2 .
   
2 2 2 4
   
i) Trovare la legge di (X1 , X3 );

ii) stabilire se la variabile aleatoria (X1 , X3 ) è assolutamente continua;
iii) determinare la legge di X3 − 2X1 e X2 . Sono indipendenti?
Soluzione.
i) (X1 , X3 ) ha legge normale bidimensionale, con media e matrice di covarianza date rispettivamente da
! !
1 1 2
e=
µ , C=
e .
2 2 4
ii) No, infatti det C

e = 0.
iii) X3 − 2X1 ∼ N0,0 = δ0 e X2 ∼ N0,1 . Inoltre
cov(X3 − 2X1 , X2 ) = cov(X3 , X2 ) − 2cov(X1 , X2 ) = 0.
Quindi X3 − 2X1 e X2 sono scorrelate. Poiché (X3 − 2X1 , X2 ) ha legge normale bidimensionale, segue
che X3 − 2X1 e X2 sono anche indipendenti.
4. Sia X0 una variabile aleatoria con distribuzione di Cauchy e funzione caratteristica
ϕX0 (η) = exp(−|η|), η ∈ R.
Sia (Xn )n∈N una successione di variabili aleatorie definite ricorsivamente da
Xn = αXn−1 + β, n ∈ N,
dove −1 < α < 1 e β ∈ R.
i) Si esprima Xn in termini di X0 e si determini la funzione caratteristica di Xn per ogni n ∈ N;

ii) si studi la convergenza debole di (Xn )n∈N ;
iii) si studi la convergenza quasi certa di (Xn )n∈N .
Soluzione.
627
i) Vale
Xn = αXn−1 + β = α 2 Xn−2 + β(1 + α) = α 3 Xn−3 + β(1 + α + α 2 ) = . . .

n−1
X 1 − αn
= α n X0 + β α k = α n X0 + β .
1−α
k=0
Quindi
1 − αn
!
n
n iηβ 1−α n
ϕXn (η) = ϕX0 (ηα )e 1−α = exp −|η||α| + iβη .
1−α
ii) Per il punto precedente, ricordando che |α| < 1, otteniamo
β
lim ϕXn (η) = eiη 1−α , η ∈ R,
n→∞
che è la funzione caratteristica della distribuzione δ β . Quindi, per il Teorema di continuità di Lévy,
1−α
β
Xn converge in legge alla variabile aleatoria costante 1−α .
iii) Dalla formula
1 − αn
Xn = α n X0 + β
1−α
β
deduciamo che Xn converge quasi certamente a 1−α .

1. Un segnale può assumere due stati: positivo (+) o negativo (−). Il segnale viene inizialmente trasmesso
nello stato +, quindi attraversa due canali successivi, infine viene ricevuto. Ciascun canale trasmette
correttamente con probabilità del 90%, altrimenti lo inverte (se era + diventa −, e viceversa). I canali
agiscono indipendentemente.
i) Qual è la probabilità che il segnale venga ricevuto correttamente (ossia nello stato +)?
ii) Se il segnale viene ricevuto correttamente, qual è la probabilità che il primo canale non lo abbia
trasmesso correttamente?
4
γ(X,Y ) (x, y) = (x + xy)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 .
3

i) Calcolare P Y > X + 21 ;
ii) determinare le densità marginali di X e Y e dire se X, Y sono indipendenti;
iii) calcolare E [XY ].
3. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
−1  25 15 −5
µ =  7  , C =  15 18 0  .
   
3 −5 0 11
   
Si determini:
ii) la CHF di X e di X3 − X2 ;
iii) la covarianza di X1 e 5X2 − 3X1 . Sono indipendenti?
4. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ (1 − n1 )δ−1 + n1 δ1 . Sia inoltre Z una variabile
aleatoria a valori reali con funzione caratteristica ϕZ . Supponiamo che Z sia indipendente da Xn , per
ogni n ∈ N. Poniamo infine Yn = Xn Z, per ogni n ∈ N.
i) Si esprima la funzione caratteristica di Yn in termini di ϕZ , per ogni n ∈ N;
ii) studiare la convergenza in legge di (Yn )n∈N ;
iii) supponendo che Z sia sommabile, studiare la convergenza in L1 di (Yn )n∈N .
629

1. Un segnale può assumere due stati: positivo (+) o negativo (−). Il segnale viene inizialmente trasmesso
nello stato +, quindi attraversa due canali successivi, infine viene ricevuto. Ciascun canale trasmette
correttamente con probabilità del 90%, altrimenti lo inverte (se era + diventa −, e viceversa). I canali
agiscono indipendentemente.
i) Qual è la probabilità che il segnale venga ricevuto correttamente (ossia nello stato +)?
ii) Se il segnale viene ricevuto correttamente, qual è la probabilità che il primo canale non lo abbia
trasmesso correttamente?
Soluzione.
i) Introduciamo gli eventi
A1 = “il primo canale trasmette il segnale correttamente”,

A2 = “il secondo canale trasmette il segnale correttamente”,
B = “il segnale viene ricevuto correttamente”.
Notiamo che
B = (A1 ∩ A2 ) ∪ (Ac1 ∩ Ac2 ),
infatti il segnale viene ricevuto correttamente quando entrambi i canali lo trasmettono correttamente
oppure quando entrambi lo invertono.
Dal testo dell’esercizio sappiamo che P (A1 ) = P (A2 ) = 0.9 e inoltre A1 e A2 sono indipendenti, quindi
anche Ac1 e Ac2 sono indipendenti, pertanto
P (B) = P (A1 ∩ A2 ) + P (Ac1 ∩ Ac2 ) = P (A1 )P (A2 ) + P (Ac1 )P (Ac2 ) = 0.82.

P (B|Ac1 )P (Ac1 )
P (Ac1 |B) = .
P (B)
P (Ac2 )P (Ac1 ) 1
Poiché P (B|Ac1 ) = P (Ac2 |Ac1 ) = P (Ac2 ), otteniamo P (Ac1 |B) = P (B)
= 82 ≈ 0.012%.
4
γ(X,Y ) (x, y) = (x + xy)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 .
3

i) Calcolare P Y > X + 21 ;
ii) determinare le densità marginali di X e Y e dire se X, Y sono indipendenti;
iii) calcolare E [XY ].
Soluzione.
i) Sia
1

A = (x, y) ∈ R2 | y > x + .
2
Allora
Z Z 1 Z
1

1 2 4x 

P Y >X+ = γ(X,Y ) (x, y)dxdy = (1 + y)dy  dx

2 3

A 0 1
x+ 2
Z 1
4 2 7 3 1 5

= x − x2 − x3 dx = ≈ 0.0521.
3 0 8 2 2 96
ii) Abbiamo che

Z Z1
4
γX (x) = γ(X,Y ) (x, y)dy = x1[0,1] (x) (1 + y)dy = 2x1[0,1] (x),
R 3 0
Z Z1
4 2
γY (y) = γ(X,Y ) (x, y)dx = (1 + y)1[0,1] (y) xdx = (1 + y)1[0,1] (y).
R 3 0 3
Poiché γ(X,Y ) (x, y) = γX (x)γY (y), segue che X e Y sono indipendenti.

iii) Per l’indipendenza
Z 1 ! Z 1 !
2 2 2 5 10
E [XY ] = E[X]E[Y ] = 2x dx (1 + y)ydy = · = ≈ 0.3704.
0 0 3 3 9 27
3. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
−1  25 15 −5
µ =  7  , C =  15 18 0  .
   
3 −5 0 11
   
Si determini:
ii) la CHF di X e di X3 − X2 ;
iii) la covarianza di X1 e 5X2 − 3X1 . Sono indipendenti?
Soluzione.
i) (X1 , X3 ) ha legge normale multidimensionale, con media e matrice di covarianza date rispettivamente
da ! !
−1 25 −5
e=
µ , C=
e .
3 −5 11
ii) Si ha
1
ϕX (η) = ei(−η1 +7η2 +3η3 )− 2 ⟨Cη,η⟩ , η = (η1 , η2 , η3 ) ∈ R3 .
Inoltre X3 − X2 ∼ N4,29 e quindi
1 2
ϕX3 −X2 (η) = e−4iη− 2 29η , η ∈ R.
631
iii) Si ha
cov(X1 , 5X2 − 3X1 ) = 5cov(X1 , X2 ) − 3var(X1 ) = 0.
Quindi X1 e 5X2 − 3X1 sono indipendenti.
4. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ (1 − n1 )δ−1 + n1 δ1 . Sia inoltre Z una variabile
aleatoria a valori reali con funzione caratteristica ϕZ . Supponiamo che Z sia indipendente da Xn , per
ogni n ∈ N. Poniamo infine Yn = Xn Z, per ogni n ∈ N.
i) Si esprima la funzione caratteristica di Yn in termini di ϕZ , per ogni n ∈ N;

ii) studiare la convergenza in legge di (Yn )n∈N ;
iii) supponendo che Z sia sommabile, studiare la convergenza in L1 di (Yn )n∈N .
Soluzione.
i) Abbiamo che
h i h i h i
ϕYn (η) = E eiηXn Z = E eiηXn Z 1(Xn =−1) + E eiηXn Z 1(Xn =1)
h i h i
= E e−iηZ 1(Xn =−1) + E eiηZ 1(Xn =1) =
(per indipendenza)
h i h i
= E e−iηZ P (Xn = −1) + E eiηZ P (Xn = 1)
1 1

= 1 − ϕZ (−η) + ϕZ (η).
n n
ii) Studiamo la convergenza puntuale di ϕYn . Per il punto precedente, abbiamo
lim ϕYn (η) = ϕZ (−η).

n→∞
Poiché la funzione η 7→ ϕZ (−η) è continua in zero, per il Teorema di continuità di Lévy, Yn converge
in legge ad una (qualunque) variabile aleatoria avente funzione caratteristica ϕZ (−η) (per esempio,
questo è il caso della variabile aleatoria −Z).
iii) Yn converge in L1 a −Z, infatti
2
E [|Yn + Z|] = E [|Xn + 1||Z|] = E [|Xn + 1|] E [|Z|] = E [|Z|] −−−−−−→ 0.
n n→∞

1. Elena si reca ogni giorno al lavoro in bicicletta. Qualche volta (più precisamente, nel 40% dei casi),
per fare più presto, attraversa una zona pedonale vietata alle biciclette, dove rischia (nel 20% dei
casi) di essere fermata da un vigile e, dunque, di ricevere una multa. L’attraversamento di questa
zona pedonale è l’unico motivo per cui Elena può ricevere una multa nel suo percorso in bici tra casa
e ufficio (supponiamo quindi che non commetta mai altre infrazioni).
i) Qual è la probabilità che oggi Elena, nel venire al lavoro, sia stata multata?
ii) Sapendo che Elena non è stata multata, qual è la probabilità che sia passata per la zona pedonale?
2. Sia
γ(x, y) = c(2x2 y + 1)1D (x, y), (x, y) ∈ R2 ,
dove c ∈ R e D = {(x, y) ∈ R2 | |x| < 1, |y − 1| < 1}.
i) Trovare il valore del parametro c tale che γ sia una densità;
ii) determinare le densità marginali della variabile aleatoria (X, Y ) con densità γ;
iii) X e Y sono scorrelate?
iv) X e Y sono indipendenti?
3. Siano Z1 e Z2 variabili aleatorie indipendenti con distribuzione N0,1 :

i) determinare media e matrice di covarianza del vettore aleatorio (X1 , X2 ) := (Z1 , Z1 Z2 );
h i h i
ii) si verifichi se vale l’uguaglianza E X12 X22 = E X12 ]E[X22 . Le variabili aleatorie X1 e X2 sono
h i
indipendenti? (Suggerimento: si usi che E Z14 = 3)
iii) dedurre dai punti precedenti che (X1 , X2 ) non ha distribuzione normale bidimensionale;
iv) calcolare P (X1 > X2 ).
4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3
i) Determinare la funzione di ripartizione FXn di Xn ;

ii) la successione (Xn )n∈N converge in legge? Se sı̀, qual è la legge della variabile aleatoria limite?
iii) studiare la convergenza di (Xn )n∈N in L1 .
633

1. Elena si reca ogni giorno al lavoro in bicicletta. Qualche volta (più precisamente, nel 40% dei casi),
per fare più presto, attraversa una zona pedonale vietata alle biciclette, dove rischia (nel 20% dei
casi) di essere fermata da un vigile e, dunque, di ricevere una multa. L’attraversamento di questa
zona pedonale è l’unico motivo per cui Elena può ricevere una multa nel suo percorso in bici tra casa
e ufficio (supponiamo quindi che non commetta mai altre infrazioni).
i) Qual è la probabilità che oggi Elena, nel venire al lavoro, sia stata multata?
ii) Sapendo che Elena non è stata multata, qual è la probabilità che sia passata per la zona pedonale?
Soluzione.
A = “Elena attraversa la zona pedonale”,

B = “Elena è stata multata”.
Dal testo dell’esercizio sappiamo che P (A) = 0.4, P (B|A) = 0.2 e P (B|Ac ) = 0. Quindi
P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ) = 0.2 · 0.4 + 0 · 0.6 = 0.08.
P (Bc |A)P (A) (1 − P (B|A))P (A) 0.8 · 0.4

P (A|Bc ) = = = ≈ 0.3478.
P (Bc ) 1 − P (B) 0.92
2. Sia
γ(x, y) = c(2x2 y + 1)1D (x, y), (x, y) ∈ R2 ,
dove c ∈ R e D = {(x, y) ∈ R2 | |x| < 1, |y − 1| < 1}.
i) Trovare il valore del parametro c tale che γ sia una densità;

ii) determinare le densità marginali della variabile aleatoria (X, Y ) con densità γ;
iii) X e Y sono scorrelate?
Soluzione.
i) Chiaramente γ è una funzione misurabile ed è non-negativa se e solo se c ≥ 0. Inoltre si ha

Z Z 1 Z 2 ! Z1
20
γ(x, y)dxdy = c (2x2 y + 1)dy dx = c (4x2 + 2)dx = c.
R2 −1 0 −1 3
3
Allora γ è una densità se c = 20 .
ii) Si ha che
Z Z2
3 3
γX (x) = γ(x, y)dy = 1]−1,1[ (x) (2x2 y + 1)dy = (4x2 + 2)1]−1,1[ (x),
R 20 0 20
Z Z1
3 3 4

γY (y) = γ(x, y)dx = 1]0,2[ (y) (2x2 y + 1)dx = y + 2 1]0,2[ (y).
R 20 −1 20 3
iii) Abbiamo che cov(X, Y ) = E[XY ] − E[X]E[Y ]. Inoltre

Z 1
3
E [X] = x(4x2 + 2)dx = 0,
−1 20
Z Z 2 Z 1 !
3 2
E[XY ] = xyγ(X,Y ) (x, y)dxdy = y x(2x y + 1)dx dy = 0.
R2 0 20 −1
Perció cov(X, Y ) = 0, ossia X e Y sono scorrelate.

iv) Dato che γ(x, y) , γX (x)γY (y), X e Y non sono indipendenti.
3. Siano Z1 e Z2 variabili aleatorie indipendenti con distribuzione N0,1 :

i) determinare media e matrice di covarianza del vettore aleatorio (X1 , X2 ) := (Z1 , Z1 Z2 );
h i h i
ii) si verifichi se vale l’uguaglianza E X12 X22 = E X12 ]E[X22 . Le variabili aleatorie X1 e X2 sono
h i
indipendenti? (Suggerimento: si usi che E Z14 = 3)
iii) dedurre dai punti precedenti che (X1 , X2 ) non ha distribuzione normale bidimensionale;
iv) calcolare P (X1 > X2 ).
Soluzione.
i) Per l’indipendenza, si ha che E[Z1 Z2 ] = E[Z1 ]E[Z2 ] = 0 e E[Z12 Z22 ] = E[Z12 ]E[Z22 ] = 1, da cui segue che
var(Z1 Z2 ) = E[Z12 Z22 ]−E[Z1 Z2 ]2 = 1. Inoltre, cov(Z1 , Z1 Z2 ) = E[Z12 Z2 ]−E[Z1 ]E[Z1 Z2 ] = E[Z12 Z2 ] =
E[Z12 ]E[Z2 ] = 0. Quindi ! !
0 1 0
µ= , C= .
0 0 1
ii) le variabili aleatorie X1 e X2 non sono indipendenti. Se lo fossero allora E[X12 X22 ] = E[X12 ]E[X22 ], invece
si ha che E[X12 X22 ] = E[Z14 Z22 ] = E[Z14 ]E[Z22 ] = 3, mentre E[X12 ] = E[Z12 ] = 1 e E[X22 ] = E[Z12 Z22 ] =
E[Z12 ]E[Z22 ] = 1.
iii) X1 e X2 sono scorrelate ma non indipendenti: se (X1 , X2 ) avesse distribuzione normale bidimensionale,
ciò sarebbe in contraddizione con la Proposizione 3.5.18.
iv)
P (X1 > X2 ) = P (Z1 > Z1 Z2 ) = P ((Z1 > Z1 Z2 ) ∩ (Z1 > 0)) + P ((Z1 > Z1 Z2 ) ∩ (Z1 < 0))
= P ((Z1 > 0) ∩ (Z2 < 1)) + P ((Z1 < 0) ∩ (Z2 > 1))
= P (Z1 > 0)P (Z2 < 1) + P (Z1 < 0)P (Z2 > 1)
1 1 1
= P (Z2 < 1) + P (Z2 > 1) = .
2 2 2
635
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3

iii) studiare la convergenza di (Xn )n∈N in L1 .
Soluzione.
i) Abbiamo che 
R0, x < 0,


FXn (x) =  x 2n nx(nx+2)
3 dy = , x ≥ 0.

(nx+1)2
 0 (ny+1)
ii) Studiamo la convergenza puntuale delle funzioni di ripartizioni:


0, x ≤ 0,


lim FXn (x) = 
n→∞ 1,
 x > 0.
Quindi la successione di funzioni (FXn )n∈N converge puntualmente ovunque, tranne in x = 0, alla
funzione di ripartizione della variabile aleatoria nulla, ossia

0, x < 0,


F(x) = 
1,
 x ≥ 0.
Per il Teorema 4.3.3, (Xn )n∈N converge in legge alla variabile aleatoria nulla.
iii) Il limite in L1 , se esiste, deve essere zero, per quanto visto al punto precedente. In effetti si ha
Z +∞
1 +∞ 2y
Z
2nx
E[|Xn |] = E[Xn ] = dx = dy −−−−−−→ 0
0 (nx + 1)3 n 0 (y + 1)3 n→∞
essendo l’integrale chiaramente convergente e quindi uguale a una costante finita (che, per la precisio-
ne, si mostra con un semplice calcolo essere esattamente uguale a 1). Perció (Xn )n∈N tende a zero anche
in L1 .

– Maggio 2022 –
1. In un’urna ci sono due palline che possono essere rosse (R) o bianche (B). La composizione esatta
non è nota, quindi le composizioni possibili sono:
RR, RB, BB.
Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale probabi-
lità pari a 31 alle tre composizioni possibili, che denotiamo H0 , H1 e H2 .
i) Se si estrae una pallina dall’urna, qual è la probabilità che sia bianca?
ii) Si effettuano due estrazioni con reimmissione: sapendo che la prima pallina estratta è bianca,
qual è la probabilità che anche la seconda pallina estratta sia bianca?

c − 1+y
x 1 2
γ(X,Y ) (x, y) = e e− 2 y 1]0,+∞[×]0,+∞[ (x, y), (x, y) ∈ R2 ,
1+y
dove c > 0 è un’opportuna costante.
i) Calcolare c in modo tale che γ(X,Y ) sia effettivamente una densità;
ii) determinare la densità marginale di Y ;
X
iii) determinare la CHF di Z := 1+Y . Che legge ha Z?
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(1 + nx)3
i) Si calcoli la CDF di Xn ;
ii) si mostri che (Xn )n∈N converge in legge e se ne determini la legge limite;
iii) si mostri che la convergenza ha luogo anche in probabilità.
4. Un ingegnere elettronico deve costruire un sistema costituito da tre componenti in serie. Pesca i
tre componenti da una scatola in cui vi sono tre componenti nuovi, due usati ma funzionanti e due
difettosi. Siano X e Y rispettivamente il numero di componenti nuovi e di componenti usati ma
funzionanti tra quelli pescati dalla scatola.
i) Determinare la funzione di distribuzione congiunta di X e Y . Quanto vale P (Y = 0)?
ii) Calcolare la legge condizionata µX|B di X dato l’evento B := (Y = 0), in particolare riportandone
la funzione di distribuzione µ̄X|B ;
iii) determinare il valore atteso condizionato E[X|Y = 0].
637

– Maggio 2022 –
1. In un’urna ci sono due palline che possono essere rosse (R) o bianche (B). La composizione esatta
non è nota, quindi le composizioni possibili sono:
RR, RB, BB.
Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale probabi-
lità pari a 31 alle tre composizioni possibili, che denotiamo H0 , H1 e H2 .
i) Se si estrae una pallina dall’urna, qual è la probabilità che sia bianca?
ii) Si effettuano due estrazioni con reimmissione: sapendo che la prima pallina estratta è bianca,
qual è la probabilità che anche la seconda pallina estratta sia bianca?
Soluzione.
Bi = “all’i-esima estrazione esce una pallina bianca”, i = 1, 2.
La probabilità richiesta è P (B1 ). Dalla formula della probabilità totale si ottiene
1
P (B1 ) = P (B1 |H0 ) P (H0 ) + P (B1 |H1 ) P (H1 ) + P (B1 |H2 ) P (H2 ) = .
2
ii) La probabilità richiesta è P (B2 |B1 ). Dalla definizione di probabilità condizionata, si ha che
P (B1 ∩ B2 )
P (B2 |B1 ) = .
P (B1 )
Inoltre
P (B1 ∩ B2 ) = P (B1 ∩ B2 ∩ H0 ) + P (B1 ∩ B2 ∩ H1 ) + P (B1 ∩ B2 ∩ H2 ) =
(per la formula di moltiplicazione)
1 1 1 1 5
= 0+ · · + = .
3 2 2 3 12
Quindi
5
P (B1 ∩ B2 ) 12 5
P (B2 |B1 ) = = 1
= .
P (B1 ) 2
6

c − 1+y
x 1 2
γ(X,Y ) (x, y) = e e− 2 y 1]0,+∞[×]0,+∞[ (x, y), (x, y) ∈ R2 ,
1+y
dove c > 0 è un’opportuna costante.

i) Calcolare c in modo tale che γ(X,Y ) sia effettivamente una densità;

ii) determinare la densità marginale di Y ;
X
iii) determinare la CHF di Z := 1+Y . Che legge ha Z?
Soluzione.
R
i) Deve essere c > 0 e deve valere R2
γ(X,Y ) (x, y)dxdy = 1, da cui
+∞ +∞ Z +∞
1√
Z Z !
− 12 y 2 1 − 1+y
x 1 2
1=c e e dx dy = c e− 2 y dy = c 2π,
0 0 1+y 0 2
q
2
perció c = π.
ii) r r
Z +∞
2 − 1 y2 1 − 1+y
x 2 − 1 y2
γY (y) = e 2 1]0,+∞[ (y) e dx = e 2 1]0,+∞[ (y).
π 0 1+y π
iii) r
Z +∞ Z +∞
2 − 1 y2 1 − 1+y
x iη x
X
ϕZ (η) = E eiη 1+Y = e 2 e e 1+y dxdy.
0 π 0 1+y
x
Nell’integrale rispetto alla variabile x effettuiamo il cambio di variabile z = 1+y ottenendo
Z +∞ Z +∞
1 − 1+y
x iη x
e e 1+y dx = e−z eiηz dz.
0 1+y 0
R +∞ q
2 − 21 y 2
Quindi (usando che 0 πe dy = 1)
r
Z +∞ Z +∞ Z +∞
2 − 1 y2
ϕZ (η) = e 2 dy e−z eiηz dz = e−z eiηz dz
0 π 0 0
che è la funzione caratteristica della distribuzione esponenziale di parametro 1.
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(1 + nx)3
i) Si calcoli la CDF di Xn ;
ii) si mostri che (Xn )n∈N converge in legge e se ne determini la legge limite;
iii) si mostri che la convergenza ha luogo anche in probabilità.
Soluzione.
i) Si ha che FXn (x) = 0 per x ≤ 0, mentre per x > 0 otteniamo

Z x " #y=x
2n 1 1
FXn (x) = P (Xn ≤ x) = 3
dy = − 2
= 1− .
0 (1 + ny) (1 + ny) y=0 (1 + nx)2
639
ii) Studiamo la convergenza puntuale di FXn . Per il punto precedente, abbiamo


0, x ≤ 0,


G(x) := lim FXn (x) = 
n→∞ 1,
 x > 0.
La funzione G coincide ovunque tranne in x = 0 con la CDF della distribuzione δ0 . Quindi FXn
converge puntualmente alla CDF di δ0 in tutti i punti di continuità di tale CDF. Di conseguenza, per
il Teorema 4.3.3 Xn → 0 in legge.
iii) Dato che (Xn )n∈N converge in legge ad una costante (la costante zero), la convergenza ha luogo anche
in probabilità.
4. Un ingegnere elettronico deve costruire un sistema costituito da tre componenti in serie. Pesca i
tre componenti da una scatola in cui vi sono tre componenti nuovi, due usati ma funzionanti e due
difettosi. Siano X e Y rispettivamente il numero di componenti nuovi e di componenti usati ma
funzionanti tra quelli pescati dalla scatola.
i) Determinare la funzione di distribuzione congiunta di X e Y . Quanto vale P (Y = 0)?
ii) Calcolare la legge condizionata µX|B di X dato l’evento B := (Y = 0), in particolare riportandone
la funzione di distribuzione µ̄X|B ;
iii) determinare il valore atteso condizionato E[X|Y = 0].
Soluzione.
i) Si noti che, ad esempio,
3 2 2
1 1 1
µ̄(X,Y ) (1, 1) = P ((X = 1) ∩ (Y = 1)) = 7
.
3
In generale, si ha che
3 2 2
i j 3−(i+j)
µ̄(X,Y ) (i, j) = P ((X = i) ∩ (Y = j)) = 7
, i = 1, 2, 3, j = 0, 1, 2, i + j ≤ 3.
3
Quindi
3 3 2 2 3 2 2 3 2 2
X
1 0 2 2 0 1 3 0 0 2
P (Y = 0) = µ̄Y (0) = µ̄(X,Y ) (i, 0) = 7
+ 7
+ 7
= .
7
i=1 3 3 3
ii) Si noti che

P ((X = i) ∩ (Y = 0))
µ̄X|B (i) = P (X = i|Y = 0) = , i = 1, 2, 3.
P (Y = 0)
Quindi
3 3 1
µ̄X|B (1) = , µ̄X|B (2) = , µ̄X|B (3) = .
10 5 10
iii)
3
X 9
E[X|Y = 0] = i µ̄X|B (i) = .
5
i=1

– Luglio 2022 –
1. Un’urna contiene una pallina bianca ed una rossa. Una pallina viene estratta a caso. Se è bianca
il gioco termina. Se è rossa la pallina viene rimessa nell’urna insieme ad un’altra dello stesso co-
lore. Supponiamo che questa procedura venga ripetuta fino ad aver fatto 4 estrazioni o alla prima
estrazione di una pallina bianca, se si presenta prima della quarta estrazione.
i) Qual è la probabilità che il gioco termini alla terza estrazione?
ii) Qual è la probabilità che il gioco termini prima della quarta estrazione?
iii) Sapendo che il gioco è terminato prima della quarta estrazione, qual è la probabilità che sia
terminato alla terza estrazione?
γ(X,Y ) (x, y) = (y − x)e−y 1{0≤x≤y} , (x, y) ∈ R2 .
i) Si determinino le densità di X e Y . Che legge hanno?

ii) Le variabili aleatorie X e Y sono indipendenti?
iii) Determinare la densità di Z = X + Y .
3. Data X ∼ N0,1 , poniamo

Y := X1(|X|≤1) − X1(|X|>1) .
Si osservi che X e −X hanno la stessa legge e che 1(|X|>1) = 1(|−X|>1)
i) Determinare la CHF e la legge di Y .
ii) Mostrare che P (X + Y = 0) ∈ ]0, 1[.
iii) X e Y sono congiuntamente Gaussiane? Sono indipendenti? (Si usi il punto precedente)
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con X1 ∼ Exp1 . Sia
Yn = max{X1 , . . . , Xn } − log n, n ∈ N.
i) Si esprima la CDF di Yn in termini della CDF della distribuzione Exp1 che indichiamo con F.
ii) Studiare la convergenza in legge di (Yn )n∈N e si determini la densità della distribuzione limite.
641

– Luglio 2022 –
1. Un’urna contiene una pallina bianca ed una rossa. Una pallina viene estratta a caso. Se è bianca
il gioco termina. Se è rossa la pallina viene rimessa nell’urna insieme ad un’altra dello stesso co-
lore. Supponiamo che questa procedura venga ripetuta fino ad aver fatto 4 estrazioni o alla prima
estrazione di una pallina bianca, se si presenta prima della quarta estrazione.
i) Qual è la probabilità che il gioco termini alla terza estrazione?

ii) Qual è la probabilità che il gioco termini prima della quarta estrazione?
iii) Sapendo che il gioco è terminato prima della quarta estrazione, qual è la probabilità che sia
terminato alla terza estrazione?
Soluzione.
A = “il gioco termina alla terza estrazione”,

Bi = “si estrae la pallina bianca all’i-esima estrazione”,
Ri = “si estrae una pallina rossa all’i-esima estrazione”,
per i = 1, 2, 3, 4. Notiamo che

A = R1 ∩ R2 ∩ B3 .
Quindi, utilizzando la formula di moltiplicazione, si ottiene
1 2 1 1
P (A) = P (R1 ∩ R2 ∩ B3 ) = · · = .
2 3 4 12
ii) L’evento
C = “il gioco termina prima della quarta estrazione”
è dato da
C = R1 ∪ R1 ∩ B2 ∪ R1 ∩ R2 ∩ B3 ).
Quindi
1 1 1 1 3
P (C) = P (R1 ) + P (R1 ∩ B2 ) + P (R1 ∩ R2 ∩ B3 ) = + · + = .
2 2 3 12 4
iii) Per la formula di Bayes
P (A ∩ C) P (A) 1
P (A|C) = = = .
P (C) P (C) 9
γ(X,Y ) (x, y) = (y − x)e−y 1{0≤x≤y} , (x, y) ∈ R2 .
i) Si determinino le densità di X e Y . Che legge hanno?

ii) Le variabili aleatorie X e Y sono indipendenti?
iii) Determinare la densità di Z = X + Y .
Soluzione.
i) Si ha γX (x) = 0 per x < 0, mentre per x ≥ 0 otteniamo
Z +∞
γX (x) = (y − x)e−y dy = e−x .
x
Quindi X ∼ Exp1 . Analogamente, γY (y) = 0 per y < 0, mentre per y ≥ 0 otteniamo

Zy
y2
γY (y) = (y − x)e−y dx = e−y .
0 2
Quindi Y ∼ Gamma3,1 .
ii) No, infatti γ(X,Y ) (x, y) , γX (x)γY (y).
iii) Dato che (X, Y ) è una v.a. assolutamente continua sappiamo che Z è una v.a. assolutamente continua,
inoltre vale la formula
Z +∞ Z +∞
γZ (z) = γ(X,Y ) (x, z − x)dx = (z − 2x)e−z+x 1{0≤x≤z−x} dx.
−∞ −∞
Quindi γZ (z) = 0 per z < 0, mentre per z ≥ 0 vale che

Z z/2 Z z/2 Z z/2
γZ (z) = (z − 2x)e−z+x dx = ze−z ex dx − 2e−z xex dx
0 0 0
Z z/2
= ze−z ez/2 − 1 − 2e−z [xex ]x=z/2
x=0 + 2e −z
ex dx
0

= ze−z ez/2 − 1 − 2e−z ez/2 + 2e−z ez/2 − 1 = ze−z ez/2 − 1 − 2e−z .
3. Data X ∼ N0,1 , poniamo

Y := X1(|X|≤1) − X1(|X|>1) .
Si osservi che X e −X hanno la stessa legge e che 1(|X|>1) = 1(|−X|>1)
i) Determinare la CHF e la legge di Y .
ii) Mostrare che P (X + Y = 0) ∈ ]0, 1[.
iii) X e Y sono congiuntamente Gaussiane? Sono indipendenti? (Si usi il punto precedente)
Soluzione.
i) Si ha
h i h i h i
ϕY (η) = E eiηY = E eiηX 1(|X|≤1) + E e−iηX 1(|X|>1)
h i h i
= E eiηX 1(|X|≤1) + E e−iηX 1(|−X|>1) .
Dato che X e −X hanno la stessa legge, segue che

h i h i
E e−iηX 1{|−X|>1} = E eiηX 1{|X|>1} .
Quindi ϕY (η) = E[eiηX ] = ϕX (η), da cui si deduce che Y ∼ N0,1 .

643
ii) Si ha
X + Y = X + X1(|X|≤1) − X1(|X|>1)

= X + X1(|X|≤1) − X 1 − 1(|X|≤1) = 2X1(|X|≤1) .
Quindi

P (X + Y = 0) = P 2X1(|X|≤1) = 0 )
Z −1
1 1 2
= P (|X| > 1) = 2P (X < −1) = 2 √ e− 2 x dx ∈]0, 1[.
−∞ 2π
iii) X e Y non sono congiuntamente Gaussiane, altrimenti X + Y dovrebbe avere distribuzione normale,
ma dal punto precedente sappiamo che P (X + Y = 0) > 0 e quindi la distribuzione di X + Y non è
assolutamente continua. Inoltre, P (X + Y = 0) < 1 quindi X + Y non ha distribuzione N0,0 = δ0 .
Infine, X e Y non sono indipendenti, altrimenti sarebbero congiuntamente Gaussiane.
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con X1 ∼ Exp1 . Sia
Yn = max{X1 , . . . , Xn } − log n, n ∈ N.
i) Si esprima la CDF di Yn in termini della CDF della distribuzione Exp1 che indichiamo con F.
ii) Studiare la convergenza in legge di (Yn )n∈N e si determini la densità della distribuzione limite.
Soluzione.
i) Abbiamo che
FYn (t) = P (Yn ≤ t) = P (max{X1 , . . . , Xn } ≤ t + log n)
= P ((X1 ≤ t + log n) ∩ · · · ∩ (Xn ≤ t + log n))
= (P (X1 ≤ t + log n))n = (F(t + log n))n .
ii) Per ogni t ∈ R, la quantità t + log n è positiva per n sufficientemente grande, quindi
!n
n

−t−log n n
e−t −t
FYn (t) = (F(t + log n)) = 1 − e = 1− −−−−−−→ e−e =: G(t).
n n→∞
Notiamo che G verifica le proprietà di una CDF. Quindi (Yn )n∈N converge in legge ad una variabile
aleatoria Z avente CDF data da G. La densità della distribuzione limite si ottiene derivando la CDF
−t −t
γZ (t) = G′ (t) = e−e , t ∈ R.
0.3
0.2
0.1
-4 -2 2 4
Figura B.4: Grafico della densità γZ della distribuzione limite


1. Supponiamo che un’urna contenga una pallina rossa e una pallina bianca. Una pallina è estratta e se
ne guarda il colore. Essa viene poi rimessa nell’urna insieme ad una pallina dello stesso colore.
i) Qual è la probabilità di estrarre una pallina rossa alla seconda estrazione?
ii) Sapendo che la seconda estratta è rossa, è più probabile che la prima pallina estratta sia stata
rossa o bianca?
γ(X,Y ) (x, y) = ce−x 1D (x, y), (x, y) ∈ R2 ,
dove c > 0 è un’opportuna costante e
D = {(x, y) ∈ R2 | 0 < x < y < x + 1}.
i) Trovare la densità di X e servirsene per calcolare il valore della costante c. Che legge ha X?
i) Determinare la CDF di Z := log X.
i) Calcolare E[eX−Y ].
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con Xn ∼ Unif[0,2] . Poniamo
Yn = min{X1 , . . . , Xn }, n ∈ N.
Poniamo inoltre Y0 = 2. Sia ora (Mn )n∈N una successione di variabili aleatorie, indipendenti tra loro e
indipendenti da (Xn )n∈N , tali che Mn ∼ Poissonn . Poniamo infine
Zn = YMn , n ∈ N,
ossia 


Y0 , se Mn = 0,

Y1 , se Mn = 1,




 ..



Zn = 
.

Yk , se Mn = k,




 ...




i) Determinare la funzione di ripartizione di Y0 e di Yn per n ≥ 1. Nel caso n ≥ 1 si esprima FYn in

termini della funzione di ripartizione della distribuzione Unif[0,2] , che indichiamo con F.
ii) Determinare la funzione di ripartizione di Zn .
iii) Si mostri che (Zn )n∈N converge in legge e si determini il limite.
iv) La successione (Zn )n∈N converge anche in probabilità?
4. Sia D il risultato del lancio di un dado a tre facce, numerate da 1 a 3. Sulla base del risultato si lancino
D monete. Sia T il numero di teste cosı̀ ottenuto.
i) Determinare la legge condizionata µT |Bi di T all’evento Bi := (D = i), per i = 1, 2, 3.
ii) Calcolare E[T |D = i].
645

1. Supponiamo che un’urna contenga una pallina rossa e una pallina bianca. Una pallina è estratta e se
ne guarda il colore. Essa viene poi rimessa nell’urna insieme ad una pallina dello stesso colore.
i) Qual è la probabilità di estrarre una pallina rossa alla seconda estrazione?
ii) Sapendo che la seconda estratta è rossa, è più probabile che la prima pallina estratta sia stata
rossa o bianca?
Soluzione.
Ri = “all’i-esima estrazione viene estratta una pallina rossa”,

Bi = “all’i-esima estrazione viene estratta una pallina bianca” = Rci ,
per i = 1, 2. Utilizzando la formula della probabilità totale e la formula di moltiplicazione, si ottiene

1 2 1 1 1
P (R2 ) = P (R1 ∩ R2 ) + P (B1 ∩ R2 ) = · + · = .
2 3 2 3 2
2
P (R2 |R1 )P (R1 ) 3 · 12 2
P (R1 |R2 ) = = 1
= ,
P (R2 ) 2
3
1
P (R2 |B1 )P (B1 ) 3 · 12 1
P (B1 |R2 ) = = 1
= .
P (R2 ) 2
3
Quindi è più probabile che la prima pallina estratta sia stata rossa.
γ(X,Y ) (x, y) = ce−x 1D (x, y), (x, y) ∈ R2 ,
dove c > 0 è un’opportuna costante e
D = {(x, y) ∈ R2 | 0 < x < y < x + 1}.
i) Trovare la densità di X e servirsene per calcolare il valore della costante c. Che legge ha X?
i) Determinare la CDF di Z := log X.
i) Calcolare E[eX−Y ].
Soluzione.
i) Si ha Z
γX (x) = γ(X,Y ) (x, y)dy = ce−x 1]0,+∞[ (x),
R
da cui c = 1 e X ∼ Exp1 .
ii) Si ha
z
FZ (z) = P (log X ≤ z) = P (X ≤ ez ) = FX (ez ) = 1 − e−e , z ∈ R.
iii)
i Z Z Z +∞ Z x+1 !
h
X−Y x−y −y 1
E e = e γ(X,Y ) (x, y)dxdy = e dy dx = 1 − .
R R 0 x e
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con Xn ∼ Unif[0,2] . Poniamo
Yn = min{X1 , . . . , Xn }, n ∈ N.
Poniamo inoltre Y0 = 2. Sia ora (Mn )n∈N una successione di variabili aleatorie, indipendenti tra loro e
indipendenti da (Xn )n∈N , tali che Mn ∼ Poissonn . Poniamo infine
Zn = YMn , n ∈ N,
ossia 


Y0 , se Mn = 0,

Y1 , se Mn = 1,




 ..



Zn = 
 .

Y k, se Mn = k,




.


 ..


i) Determinare la funzione di ripartizione di Y0 e di Yn per n ≥ 1. Nel caso n ≥ 1 si esprima FYn in

termini della funzione di ripartizione della distribuzione Unif[0,2] , che indichiamo con F.
ii) Determinare la funzione di ripartizione di Zn .
iii) Si mostri che (Zn )n∈N converge in legge e si determini il limite.
iv) La successione (Zn )n∈N converge anche in probabilità?
Soluzione.
i) Si ha che 
0, y < 2,


FY0 (y) = 
1, y ≥ 2.

Per n ≥ 1 abbiamo che
FYn (y) = P (Yn ≤ y) = P (min{X1 , . . . , Xn } ≤ y) = 1 − P (min{X1 , . . . , Xn } > y)

= 1 − P ((X1 > y) ∩ · · · ∩ (Xn > y)) = 1 − (P (X1 > y))n = 1 − (1 − F(y))n .
Quindi


0, y ≤ 0,

 !n

 1
FYn (y) = 1− 1− y , 0 < y < 2,




 2
1, y ≥ 2.


647
ii) FZn (z) = 0 per z ≤ 0 e FZn (z) = 1 per z ≥ 2, mentre per 0 < z < 2 si ha che (usando l’indentità
+∞
P −λ λk
e k! = 1, valida per ogni λ > 0)
k=0
+∞
X +∞
X
FZn (z) = P (Z ≤ z) = P ((Z ≤ z) ∩ (Mn = k)) = P ((Yk ≤ z) ∩ (Mn = k))
k=0 k=0
+∞ +∞
X X nk
= P (Yk ≤ z)P (Mn = k) = 1 − (1 − F(z))k e−n
k!
k=0 k=0
+∞ +∞
X nk X nk
= e−n − e−n (1 − F(z))k
k! k!
k=0 k=0
+∞
X (n(1 − F(z)))k
= 1 − e−n en(1−F(z)) e−n(1−F(z))
k!
k=0
−n n(1−F(z))
= 1−e e = 1 − e−nF(z) .
Quindi 


 0, z ≤ 0,
− 21 nz

FZn (z) =  1 − e , 0 < z < 2,



1,

z ≥ 2.
iii) Si ha che 
0, z ≤ 0,


lim FZn (z) = G(z) := 
n→+∞ 1
 z > 0.
Sia Fδ0 la CDF della distribuzione δ0 . Allora G coincide con Fδ0 ovunque tranne in 0, che è un punto
di discontinuità per Fδ0 . Di conseguenza Zn → 0 in legge.
iv) Dato che (Zn )n∈N converge in legge ad una costante (la costante zero), la convergenza ha luogo anche
in probabilità.
4. Sia D il risultato del lancio di un dado a tre facce, numerate da 1 a 3. Sulla base del risultato si lancino
D monete. Sia T il numero di teste cosı̀ ottenuto.
i) Determinare la legge condizionata µT |Bi di T all’evento Bi := (D = i), per i = 1, 2, 3.
ii) Calcolare E[T |D = i].
Soluzione.
i) Si ha che µT |Bi = Bini, 1 , per i = 1, 2, 3. In altri termini, vale µT |D = BinD, 1 .
2 2
ii) Dato che µT |Bi = Bini, 1 , si ottiene E[T |D = i] = 2i . In altri termini, vale E[T |D] = D
2.
2

Prof. Andrea Pascucci
1. Un’urna contiene 4 palline bianche e una rossa.

i) Si effettuano 6 estrazioni con reinserimento di una pallina: determinare la probabilità di estrarre
la pallina rossa almeno una volta.
ii) Si lancia un dado a sei facce e si effettuano un numero di estrazioni con reinserimento pari al
risultato del lancio: determinare la probabilità di estrarre la pallina rossa almeno una volta.
iii) Determinare la probabilità di estrarre la pallina rossa in 3 estrazioni senza reinserimento.
2. Sia V := (Xϱ , Yϱ , Z) un vettore aleatorio con distribuzione multinormale con media nulla e matrice di
covarianza  
1 ϱ 0
C = ϱ 1 0
 
0 0 1
 
dove ϱ ∈ [−1, 1] è un parametro.

i) Determinare i valori di ϱ per cui Wϱ := (Xϱ − Yϱ , Xϱ + Yϱ ) è assolutamente continua;
ii) determinare i valori di ϱ per cui Xϱ − Yϱ e Xϱ + Yϱ sono indipendenti;
iii) determinare il limite debole
lim (Xϱ − Yϱ )
ϱ→1−
e se c’è anche convergenza in L2 ;

iv) provare che √
lim (Xϱ + Yϱ ) = 2Z
ϱ→0
in senso debole e stabilire se c’è anche convergenza in L2 .
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su
T = {(x, y) ∈ R2 | |x| ≤ y, y ∈ [0, 1]}.
Si determini:
i) la densità condizionata γX|Y ;
h i
ii) la CHF condizionata ϕX|Y (η) = E eiηX | Y , η ∈ R;
iii) la CHF ϕX della variabile aleatoria X.
4. Dare un esempio di due funzioni Borel misurabili f , g e di due variabili aleatorie X, Y tali che f = g
quasi ovunque, P (X = Y ) = 1 ma E [f (X)] , E [g(Y )].
649

1. Un’urna contiene 4 palline bianche e una rossa.
i) Si effettuano 6 estrazioni con reinserimento di una pallina: determinare la probabilità di estrarre

la pallina rossa almeno una volta.
ii) Si lancia un dado a sei facce e si effettuano un numero di estrazioni con reinserimento pari al
risultato del lancio: determinare la probabilità di estrarre la pallina rossa almeno una volta.
iii) Determinare la probabilità di estrarre la pallina rossa in 3 estrazioni senza reinserimento.
Soluzione.
i) La probabilità è
46
1 − Bin6, 1 ({0}) = 1 − ≈ 74%.
5 56
ii) Per la formula della probabilità totale, la probabilità cercata è
6 6
4k
!
1 X 1X
1 − Bink, 1 ({0}) = 1 − k ≈ 51%.
6 5 6 5
k=1 k=1
iii) Se Bn indica l’evento “estraggo una pallina bianca all’n-esima estrazione”, per la formula di moltipli-
cazione, la probabilità cercata è
4 3 2 3
1 − P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) = 1 − · · = .
5 4 3 5
2. Sia V := (Xϱ , Yϱ , Z) un vettore aleatorio con distribuzione multinormale con media nulla e matrice di
covarianza  
1 ϱ 0
C = ϱ 1 0
 
0 0 1
 
dove ϱ ∈ [−1, 1] è un parametro.
i) Determinare i valori di ϱ per cui Wϱ := (Xϱ − Yϱ , Xϱ + Yϱ ) è assolutamente continua;

ii) determinare i valori di ϱ per cui Xϱ − Yϱ e Xϱ + Yϱ sono indipendenti;
iii) determinare il limite debole
lim (Xϱ − Yϱ )
ϱ→1−
e se c’è anche convergenza in L2 ;

iv) provare che
√
lim (Xϱ + Yϱ ) = 2Z
ϱ→0
in senso debole e stabilire se c’è anche convergenza in L2 .

Soluzione. Premettiamo che Wϱ = AV dove

!
1 −1 0
A=
1 1 0
e quindi per la Proposizione 3.5.15, W ∈ N0,ACA∗ dove

!
2(1 − ϱ)
∗ 0
ACA = .
0 2(1 + ϱ)
Di conseguenza:
i) Wϱ è assolutamente continua se e solo se ACA∗ è non-degenere ossia per −1 < ϱ < 1;
ii) Xϱ −Yϱ e Xϱ +Yϱ sono indipendenti per ogni ϱ ∈ [−1, 1] perché sono variabili scorrelate con distribuzione
congiunta normale;
iii) Xϱ − Yϱ ∼ N0,2(1−ϱ) e
lim N0,2(1−ϱ) = δ0 .
ϱ→1−
Inoltre
∥Xϱ − Yϱ ∥2L2 = var(Xϱ − Yϱ ) = 2(1 − ϱ)
e quindi c’è anche convergenza in L2 alla variabile nulla;
√
iv) Xϱ + Yϱ ∼ N0,2(1+ϱ) , 2Z ∼ N0,2 e
lim N0,2(1+ϱ) = N0,2
ϱ→0
quindi c’è convergenza in senso debole. Tuttavia

h i
E |(Xϱ + Yϱ ) − Z|2 = var(Xϱ + Yϱ ) + var(Z) − 2cov(Xϱ + Yϱ , Z) = 2(1 + ϱ) + 2
poiché cov(Xϱ + Yϱ , Z) = 0. Quindi non si ha convergenza in L2 .

3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su
T = {(x, y) ∈ R2 | |x| ≤ y, y ∈ [0, 1]}.
Si determini:
i) la densità condizionata γX|Y ;
h i
ii) la CHF condizionata ϕX|Y (η) = E eiηX | Y , η ∈ R;
iii) la CHF ϕX della variabile aleatoria X.
Soluzione.
i) La densità congiunta è γ(X,Y ) = 1T e la marginale di Y è
Z
γY (y) = γ(X,Y ) (x, y)dx = 2y1]0,1[ (y). (B.0.3)
R
Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = = 1 (x), y ∈ ]0, 1[,
γY (y) 2y [−y,y]
da cui riconosciamo che µX|Y = Unif[−Y ,Y ] .
651
ii) Trattandosi della CHF di una v.a. con distribuzione uniforme, si ha

ZY
h
iηX
i 1 sin(ηY )
ϕX|Y (η) = E e |Y = eiηx dx = .
2Y −Y ηY
iii) Si ha
" #
h h ii sin(ηY )
ϕX (η) = E E eiηX | Y = E =
ηY
(per la (B.0.3))
Z 1
sin(ηy) 2 − 2 cos η
= 2ydy = .
0 ηy η2
4. Dare un esempio di due funzioni Borel misurabili f , g e di due variabili aleatorie X, Y tali che f = g
quasi ovunque, P (X = Y ) = 1 ma E [f (X)] , E [g(Y )].
Soluzione. Per esempio X = Y ≡ 0, f ≡ 0 e g funzione nulla tranne in 0, con g(0) = 1.


1. In (Ω, F , P ) consideriamo due eventi A, B con P (A) = 1. A e B sono indipendenti in P ?
2. Un’urna contiene 5 palline numerate.

i) Si indicano con X1 e X2 i risultati di due estrazioni successive con reinserimento. Calcolare la
probabilità dell’evento A = (X1 ≤ X2 ).
ii) Si indicano con Y1 e Y2 i risultati di due estrazioni successive senza reinserimento. Calcolare la
probabilità dell’evento B = (Y1 ≤ Y2 ).
iii) Ora si considerino due urne che contengono ognuna 5 palline numerate. Si sceglie a caso una
delle due urne, si estrae una pallina il cui valore è indicato con Z1 e la si mette da parte. Si
sceglie nuovamente a caso una delle due urne e si estrae una pallina il cui valore è indicato con
Z2 . Calcolare la probabilità dell’evento C = (Z1 ≤ Z2 ).
iv) Si determini la legge della variabile aleatoria S := X1 − X2 .
3. i) Determinare l’intervallo di valori del parametro y ∈ R per cui la funzione
1
γ(x) = (2yx − y + 2) 1[0,1] (x)
2
è una densità.
ii) Si consideri poi un vettore aleatorio (X, Y ) con densità
1
γ(X,Y ) (x, y) = (2yx − y + 2) 1[0,1] (x)1[−1,0] (y).
2
Le variabili X e Y sono indipendenti?
√
iii) Si determini una densità di Z := 1 + Y .
2n2 x
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3

iii) la successione (Xn )n∈N converge in probabilità?
iv) studiare la convergenza di (Xn )n∈N in Lp , per p ≥ 1.
653

1. In (Ω, F , P ) consideriamo due eventi A, B con P (A) = 1. A e B sono indipendenti in P ?
Soluzione. Poiché P (B ∩ Ac ) = P (Ac ) = 0, si ha
P (B) = P (B ∩ A) + P (B ∩ Ac ) = P (B ∩ A)
da cui segue che A, B sono indipendenti in P .

2. Un’urna contiene 5 palline numerate.
i) Si indicano con X1 e X2 i risultati di due estrazioni successive con reinserimento. Calcolare la
probabilità dell’evento A = (X1 ≤ X2 ).
ii) Si indicano con Y1 e Y2 i risultati di due estrazioni successive senza reinserimento. Calcolare la
probabilità dell’evento B = (Y1 ≤ Y2 ).
iii) Ora si considerino due urne che contengono ognuna 5 palline numerate. Si sceglie a caso una
delle due urne, si estrae una pallina il cui valore è indicato con Z1 e la si mette da parte. Si
sceglie nuovamente a caso una delle due urne e si estrae una pallina il cui valore è indicato con
Z2 . Calcolare la probabilità dell’evento C = (Z1 ≤ Z2 ).
iv) Si determini la legge della variabile aleatoria S := X1 − X2 .
Soluzione.
i) Si ha
5 5
X 1 X 5 − (k − 1) 3
P (A) = P (A | X1 = k)P (X1 = k) = = .
5 5 5
k=1 k=1
ii) Si ha
5 5
X 1 X 5−k 1
P (B) = P (B | X1 = k)P (X1 = k) = = .
5 4 2
k=1 k=1
iii) Sia U l’evento “entrambe le palline sono estratte dalla stessa urna”. In base ai punti precedenti, si ha
1 3 1 11

P (C) = P (C | U )P (U ) + P (C | U c )P (U c ) = + = .
2 5 2 20
iv) X1 ∼ Unif{1,2,3,4,5} , −X2 ∼ Unif{−1,−2,−3,−4,−5} e sono indipendenti. La legge di S si può allora calcolare
con la formula (3.6.3). In alternativa, si possono calcolare direttamente le singole probabilità P (S = k),
con −4 ≤ k ≤ 4: 1
 25 per k = ±4,


2

per k = ±3,


 25
5 − |k| 3

P (S = k) = = 25 per k = ±2,
25 
 4
 25 per k = ±1,




5

per k = 0.
25
3. i) Determinare l’intervallo di valori del parametro y ∈ R per cui la funzione
1
γ(x) = (2yx − y + 2) 1[0,1] (x)
2
è una densità.
ii) Si consideri poi un vettore aleatorio (X, Y ) con densità
1
γ(X,Y ) (x, y) = (2yx − y + 2) 1[0,1] (x)1[−1,0] (y).
2
Le variabili X e Y sono indipendenti?
√
iii) Si determini una densità di Z := 1 + Y .
Soluzione.
i) La funzione γ ha integrale 1 per ogni y ∈ R: per essere una densità è necessario anche che γ ≥ 0 e ciò è
vero quando γ(0) ≥ 0 e γ(1) ≥ 0 ossia per y ∈ [−2, 2].
ii) Calcoliamo le densità marginali
Z 0
5 − 2x
γX (x) = γ(X,Y ) (x, y)dy = 1[0,1] (x),
−1 4
Z 1
γY (y) = γ(X,Y ) (x, y)dx = 1[−1,0] (y).
0
Poiché la densità congiunta non è il prodotto delle marginali, le variabili non sono indipendenti.
iii) Per z ∈ [0, 1], si ha
√
FZ (z) = P ( 1 + Y ≤ z) = P (Y ≤ z2 − 1) = z2 .
Inoltre, FZ (z) = 0 per z ≤ 0 e FZ (z) = 1 per z ≥ 1. Ne segue che γZ (z) = 2z1[0,1] (z) è una densità di Z.
2n2 x
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3

iii) la successione (Xn )n∈N converge in probabilità?
iv) studiare la convergenza di (Xn )n∈N in Lp , per p ≥ 1.
Soluzione.
i) Si ha

0, x < 0,


FXn (x) = 
 x
R 2n2 y n2 x 2

0 (ny+1)3
dy = (nx+1)2
, x ≥ 0.
655
ii) Studiamo la convergenza puntuale delle funzioni di ripartizioni:


0, x ≤ 0,


lim FXn (x) = 
n→∞ 1,
 x > 0.
Quindi la successione di funzioni (FXn )n∈N converge puntualmente ovunque, tranne in x = 0, alla
funzione di ripartizione della variabile aleatoria nulla, ossia

0, x < 0,


F(x) = 
1,
 x ≥ 0.
Per il Teorema 4.3.3, (Xn )n∈N converge in legge alla variabile aleatoria nulla.
iii) Il limite in probabilità, se esiste, deve essere zero, per quanto visto al punto precedente. Per ogni ε > 0
si ha Z +∞
2nx 1 + 2nε
P (|Xn | ≥ ε) = 3
dx = −−−−−−→ 0
ε (nx + 1) (nx + 1)2 n→∞
e quindi si ha convergenza in probabilità.
iv) Si ha
+∞
2nx1+p
Z
p
E[|Xn |p ] = E[Xn ] = dx = +∞
0 (nx + 1)3
per ogni p ≥ 1. Quindi Xn < Lp (Ω, P ) e non si ha convergenza in Lp .

1. Si effettuano una serie di estrazioni, senza reinserimento, da un’urna che contiene 1 pallina rossa, 5
palline nere e 10 palline bianche. Si determini:
i) la probabilità che le prime due palline estratte abbiano lo stesso colore;
ii) la funzione di distribuzione della variabile aleatoria X che indica il numero della prima estra-
zione di una pallina bianca.
2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
 0  1 0 1 
µ =  0  , C = 0 1 −1 .
   
−1 1 −1 2
   
Si determini:
iii) per quale valore di a ∈ R le variabili aX1 − X2 e X3 sono indipendenti.
3. Sia (Xn )n∈N una successione di v.a. indipendenti con distribuzione
Xn ∼ Unif[−n,n] , n ∈ N.
Xn
i) Si calcoli la legge della variabile aleatoria Yn := n e si studi la convergenza debole della succes-
sione (Yn ) per n → +∞.
ii) Si provi che Yn non converge in L2 (Ω, P ), usando il fatto che
Z nZ m
x y 2 4(n4 + m4 )

− dydx = , n, m ∈ N.
−n −m n m 3nm
4. Sia data la funzione

c
γ(x) = 1[1,+∞[ (x), x ∈ R.
x2
i) Determinare c ∈ R tale che la funzione γ sia una densità. Per tale valore, si consideri X con
densità γ e si determini la media di X.
ii) Giustificare il fatto che Y := √1 è una variabile aleatoria ben definita quasi certamente.
X
iii) Determinare la legge di Y .
657

1. Si effettuano una serie di estrazioni, senza reinserimento, da un’urna che contiene 1 pallina rossa, 5
palline nere e 10 palline bianche. Si determini:
i) la probabilità che le prime due palline estratte abbiano lo stesso colore;

ii) la funzione di distribuzione della variabile aleatoria X che indica il numero della prima estra-
zione di una pallina bianca.
Soluzione.
i) Sia Bi =“l’i-esima pallina estratta è bianca” e Ni definito in modo analogo per le palline nere. Si ha
5 4 1
P (N1 ∩ N2 ) = P (N1 )P (N2 | N1 ) = · = ,
16 15 12
10 9 3
P (B1 ∩ B2 ) = P (B1 )P (B2 | B1 ) = · = .
16 15 8
1
Da cui la probabilità cercata è 12 + 38 = 11
24 .
10
ii) X assume valori naturali minori o uguali a 7. In particolare P (X = 1) = P (B1 ) = 16 e, per 2 ≤ k ≤ 6,
6 5 6 − (k − 2) 10
P (X = k) = P (Bc1 ∩ Bc2 ∩ · · · ∩ Bck−1 ∩ Bk ) = · ··· · .
16 15 16 − (k − 2) 16 − (k − 1)
2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
 0  1 0 1 
µ =  0  , C = 0 1 −1 .
   
−1 1 −1 2
   
Si determini:
iii) per quale valore di a ∈ R le variabili aX1 − X2 e X3 sono indipendenti.
Soluzione.
i) Si ha (X2 , X3 ) ∼ Nµ̄,C̄ con

! !
0 1 1
µ̄ = , C̄ = .
−1 1 2
ii) Si ha
1
ϕX (η) = e−iη3 − 2 ⟨Cη,η⟩ .
La matrice C è degenere (det C = 0) e quindi X non ha densità.
iii) Vale !
a −1 0
(aX1 − X2 , X3 ) = AX, A=
0 0 1
!
1 + a2 1+a
e quindi (aX1 − X2 , X3 ) ∼ N0,ACA∗ = N0,Ĉ con Ĉ = . Allora le variabili aX1 − X2 e X3
1+a 2
sono indipendenti se e solo se a = −1.
3. Sia (Xn )n∈N una successione di v.a. indipendenti con distribuzione
Xn ∼ Unif[−n,n] , n ∈ N.
Xn
i) Si calcoli la legge della variabile aleatoria Yn := n e si studi la convergenza debole della succes-
sione (Yn ) per n → +∞.
ii) Si provi che Yn non converge in L2 (Ω, P ), usando il fatto che
n m
4(n4 + m4 )
Z Z 2
x y

− dydx = , n, m ∈ N.
−n −m n m 3nm
Soluzione.
i) Si ha

Z n

 0 se z ≤ −1,
1 
 z+1

P (Yn ≤ z) = 1]−∞,nz] (x)dx =  2 se − 1 < z < 1
2n −n 

1 se z ≥ 1.

Allora Yn ∼ Unif[−1,1] e, ed essendo costante in legge, converge debolmente.

ii) Verifichiamo che (Yn ) non è una successione di Cauchy in L2 (Ω, P ): per l’ipotesi di indipendenza, si ha
n m
(n4 + m4 )
Z Z 2
1 x y
h i
E (Yn − Ym )2 = − dydx =
4mn −n −m n m 3n2 m2
che non tende a zero per n, m → +∞.
4. Sia data la funzione

c
γ(x) = 1[1,+∞[ (x), x ∈ R.
x2
i) Determinare c ∈ R tale che la funzione γ sia una densità. Per tale valore, si consideri X con
densità γ e si determini la media di X.
ii) Giustificare il fatto che Y := √1 è una variabile aleatoria ben definita quasi certamente.
X
iii) Determinare la legge di Y .
Soluzione.
659
i) Per c = 1, poiché γ è misurabile, non-negativa e

Z
γ(x)dx = c.
R
Si ha Z +∞
1
E [X] = dx = +∞.
1 x
ii) Y è una variabile aleatoria ben definita q.c. poiché X ≥ 1 q.c. e Y è funzione Borel-misurabile di X.
iii) Y assume valori in [0, 1] q.c. quindi la CDF vale ϕY (y) = 0 per y < 0 e ϕY (y) = 1 per y > 1. Inoltre
per y ∈ [0, 1] si ha Z +∞
1
P (Y ≤ y) = P (X ≥ y −2 ) = 2
dx = y 2 .
1
2
x
y
Derivando, la CDF si deduce che γY (y) = 2y1[0,1](y) è una densità per Y .

iv) X e Y non sono indipendenti perché, per esempio, essendo (X ≤ 4) = (Y ≥ 1/2) si ha
P ((X ≤ 4) ∩ (Y ≥ 1/2)) = P (X ≤ 4) > P (X ≤ 4)P (Y ≥ 1/2).

Appendice C
Tavole riassuntive delle principali

distribuzioni
Nome Simbolo Funzione di distribuzione µ̄(k) Attesa Varianza Funzione caratteristica Proprietà: vedi pag.
Delta di Dirac δx0 1{x0 } (k) x0 0 eix0 η 61, 67, 113


p
 se k = 1
1 + p eiη − 1

Bernoulli Bep p p(1 − p) 63, 95, 113, 159
1 − p se k = 0


1 n+1 n2 −1 eiη (einη −1)

Uniforme Unifn n 1In (k) 2 12 63
n(eiη −1)
n
n k n−k ,
Binomiale Binn,p k p (1 − p) 0≤k≤n np np(1 − p) 1 + p eiη − 1 40, 63, 96
iη −1
e−λ λk
Poisson Poissonλ k! , k ∈ N0 λ λ eλ(e ) 63, 97, 113, 118
1 1−p p
Geometrica Geomp p(1 − p)k−1 , k ∈ N p p2
98, 100
e−iη −1+p
(kb)(Nn−k
−b
) bn bn(N −b)(N −n)
Ipergeometrica Ipern,b,N N , 0 ≤ k ≤ n∧b N N 2 (N −1)
vedi file Mathematica 40, 100
(n)
661
662 APPENDICE C. TAVOLE RIASSUNTIVE DELLE PRINCIPALI DISTRIBUZIONI
Nome Simbolo Densità: γ(x) = Attesa Varianza Funzione caratteristica Pro
1 a+b (b−a)2 eibη −eiaη

Uniforme su [a, b] Unif[a,b] b−a 1[a,b] (x) 2 12 iη(b−a)
65,
1 1 λ
Esponenziale Expλ λe−λx 1R≥0 λ λ2 λ−iη 65,
1 x−µ 2 σ 2 η2
Normale reale Nµ,σ 2 √ 1 e− 2 ( σ ) µ σ2 eiµη− 2 65,
2πσ 2
λα e−λx λ α

α α
Gamma Gammaα,λ 1
Γ (α)x1−α R>0
(x) λ λ2 λ−iη 103
−x n
Chi-quadro a n gradi χ2 (n) = Gamma n , 1 n
1 e 2
1− n
1R>0 (x) n 2n (1 − 2iη)− 2 161
2 2 2 2 Γ n2
( ) x 2
Indice analitico
Bd , 60 cambio di drift, 398

F∞ , 304 campo vettoriale, 437
Fτ , 312 Cantor, 72
G X , 234 CDF, 67
N , 26 condizionata, 142
σ -algebra, 22 congiunta, 127
completamento, 232 del massimo, 162
di Borel, 60 di v.a., 94
generata marginale, 127
da insiemi, 59 Chapman-Kolmogorov, 252
da una v.a., 90 CHF, 145
bC, 115, 166 congiunta, 151
bF , 90 marginale, 151
mF , 90 Cholesky, 125
mF + , 90 cilindro finito-dimensionale, 226
coefficiente
algebra, 27 di correlazione, 124
ampliamento standard, 306 combinazioni, 36
arg max, 17 commutatore, 437
arg min, 17 completamento, 59
assenza di memoria, 98, 100 Condizione
assoluta continuità
di Novikov, 402
dell’integrale, 112
continuità in media, 354
assolutamente continua
convergenza
distribuzione, 65
debole, 166
funzione, 71, 505
di distribuzioni, 166
attesa, 106
in Lp , 165
condizionata, 141, 190, 196, 198
in probabilità, 165
funzione, 194, 205
puntuale, 165
Bayes, 204 q.c., 92
Bernstein, 175 convoluzione, 158
Berry-Esseen, 187 correlazione, 124
Black&Scholes, 399 campionaria, 127
Blumenthal, 307 covarianza, 123
Borel-Cantelli, 54 campionaria, 127
Brownian bridge, 439 criterio di Sylvester, 128
Burkholder-Davis-Gundy, 376
decomposizione di Cholesky, 125
càdlàg, 271 delta
663
664 INDICE ANALITICO
di Kronecker, 386 di Burkholder-Davis-Gundy, 376

delta di Dirac, 61 di Cauchy-Schwarz, 122, 124
densità di Chebyschev, 167
condizionata, 142, 213 di Hölder, 122
congiunta, 127 di Jensen, 119
di transizione, 245 condizionata, 200
marginale, 127 di Markov, 167
trasformazione lineare di, 101 di Minkowski, 123
derivata di Radon-Nikodym, 500 massimale di Doob, 299, 300, 323
deviazione standard, 117 triangolare, 111
diadici, 284 Doob, 130
differenza simmetrica, 59 drift
diffusione, 282 cambio di, 398
disposizioni
con ripetizione, 35 equazione
semplici, 35 di Chapman-Kolmogorov, 252
distribuzione, 58 erf, 69
χ2 , 104 esito, 23
χ2 (n), 161 esperimento aleatorio, 22
assolutamente continua, 65 esponente caratteristico, 269, 309
binomiale, 40, 63, 96 evento, 23
approssimazione, 183, 187
chi-quadro, 104, 161 famiglia
condizionata, 141, 190 ∩-chiusa, 22
funzione, 194, 212 ∪-chiusa, 22
versione regolare, 209 σ -∩-chiusa, 22
congiunta, 127 σ -∪-chiusa, 22
del massimo, 162 di prove ripetute e indipendenti, 55
delta di Dirac, 61, 182 monotona
di Bernoulli, 63 di funzioni, 499
di Cauchy, 146 di insiemi, 497
di Poisson, 64, 97, 183 Feller, 245
di transizione, 243 fenomeno aleatorio, 22
omogenea, 244 filtrazione, 234
di un processo stocastico, 227 G X , 234
discreta, 62 generata, 234
esponenziale, 66, 182 standard, 306
Gamma, 102, 103, 161 Formula
geometrica, 64, 98, 182 di Bayes, 204
ipergeometrica, 40, 100 formula
log-normale, 106 binomiale, 39
marginale, 127 della probabilità totale, 47, 191, 200, 210,
normale, 66, 101, 182 214
bidimensionale, 129, 139 di Bayes, 50, 217
multidimensionale, 152 di Black&Scholes, 399
standard, 66 di moltiplicazione, 49
uniforme di Newton, 39
discreta, 63 Fourier, 145
multidimensionale, 66, 101 freezing, 201, 202
distribuzioni finito-dimensionali, 227 funzione
Disuguaglianza a variazione limitata, 506
INDICE ANALITICO 665
assolutamente continua, 71, 505 del logaritmo iterato, 290

càdlàg, 271 di transizione, 243
caratteristica, 145 di Poisson, 245
di distribuzione, 63 Gaussiana, 245
condizionata, 194 omogenea, 244
congiunta, 127 di un processo continuo, 279
marginale, 127 di un processo stocastico, 227
di ripartizione, 67, 74 legge 0-1 di Blumenthal, 307
congiunta, 127 legge debole
marginale, 127 dei grandi numeri, 172
di Vitali, 72 legge forte
errore (erf), 69 dei grandi numeri, 172
Gamma di Eulero, 102 Lemma
indicatrice, 17 di Borel-Cantelli, 54
integrabile, 111 di Fatou, 110
semplice, 107 condizionato, 200
sommabile, 111 di freezing, 201, 202
LSMC, 205
Gamma di Eulero, 102
Girsanov, 403 Markov, 243
grafico di dispersione, 126 martingala, 234
Browniana, 292
Hörmander, 438 discreta, 235
Hilbert-Schmidt, 389 esponenziale, 292, 373
quadratica, 292
i.i.d., 171
sub-, 236
incrementi indipendenti, 249
super-, 236
indipendenza
matrice
di eventi, 50
definita positiva, 128
di v.a., 129
di correlazione, 125
insieme
di covarianza, 125
di Cantor, 72
semi-definita positiva, 125
quasi certo, 26
media, 113, 115
trascurabile, 26
aritmetica
integrale astratto, 109, 111
normalizzata, 185
intensità, 192, 269
campionaria, 126
stocastica, 192, 272
media aritmetica, 172, 184
intervallo di confidenza, 187
memoria, 98, 100
isometria di Itô, 343
metodo Monte Carlo, 174, 186
Itô
minimi quadrati, 205
isometria, 343
Misura
Jensen, 119, 200 armonica, 426
misura, 23, 27
Kolmogorov, 231, 240 σ -finita, 23
Kronecker, 386 di probabilità, 23
di Wiener, 291
Lévy, 180, 308, 393 esterna, 81
legge, 94 finita, 23
condizionata, 190 prodotto, 133
versione regolare, 209 modello binomiale, 160
dei grandi numeri, 184 modificazione, 230
momento, 156 uniformemente integrabile, 508

Monte Carlo, 174 versione canonica, 232, 234, 280
Least Square, 205 processo stocastico, 226, 508
moto Browniano, 254, 287 discreto, 226
con drift, 340 misurabile, 229
correlato, 394 prodotto scalare, 17
progressivamente misurabile, 311
norma di Hilbert-Schmidt, 389 proprietà
Novikov, 402 della torre, 200
Nucleo di Poisson, 426 di assenza di memoria, 98
di Feller, 245
operatore
forte, 254
di Laplace, 260
di Markov, 247, 290
optional sampling, 299, 324, 331
estesa, 248
Ornstein-Uhlenbeck, 440
forte, 313
parte positiva, 17 di martingala, 235
partizione, 333 di semigruppo, 254
partizione diadica, 321 proprietà quasi certa, 93
permutazioni, 36 prove ripetute e indipendenti, 55
Poisson, 245, 268
q.c., 18, 93
polinomi di Bernstein, 175
q.o., 18
pre-misura, 80
quasi certamente, 93
principio del massimo, 472
probabilità, 23 Radon-Nikodym, 500
condizionata, 46, 190 razionali diadici, 321
funzione, 194 regressione, 124
versione regolare, 208 retta di regressione, 124, 126
uniforme, 25 roulette, 173
procedura standard, 115
processi semianello, 80
indistinguibili, 230 semigruppo, 254
uguali in legge, 230 simbolo di Kronecker, 386
processo Skorokhod, 280
a incrementi indipendenti, 249 soluzione fondamentale, 261
adattato, 234 somma di variabili aleatorie, 158
continuo, 277 spazio
legge, 279 campionario, 23
versione canonica, 280 delle traiettorie, 225, 226
di Feller, 245 di probabilità, 23
di Lévy, 308 completo, 26, 93, 230
di Markov, 243 discreto, 23
di Poisson, 254, 267, 268, 271 di Skorokhod, 280
a intensità stocastica, 272 di Wiener, 291
compensato, 272 misurabile, 22
composto, 269 polacco, 208, 278
Gaussiano, 228, 233 strategia del raddoppio, 173
martingala, 234 sub-martingala, 236
moto Browniano, 287 super-martingala, 236
predicibile, 236 Sylvester, 128
progressivamente misurabile, 311
stocastico, 225, 227 tempo
INDICE ANALITICO 667
tightness, 179
d’uscita, 303 traiettoria, 227
tempo d’arresto trasformata di Fourier, 145
discreto, 295
Teorema uguaglianza
centrale del limite, 185 in legge, 95
del calcolo della media, 116, 191, 209 q.c., 93
della convergenza dominata, 112 uniforme integrabilità, 508
condizionato, 200
di Beppo-Levi, 109 v.a., 18, 90
condizionato, 200 assolutamente continua, 94
di Berry-Esseen, 187 valore atteso, 113, 115
di Carathéodory, 70, 80 variabile aleatoria, 90
di continuità di Kolmogorov, 280, 281 assolutamente continua, 94
di continuità di Lévy, 180 varianza, 117, 123
di convergenza di Vitali, 508 campionaria, 126
di Courrège, 257 variazione
di decomposizione di Doob, 237 prima, 333
di Doob, 130 Vasicek, 439
di estensione di Kolmogorov, 231, 232, 240 versione canonica
di Fubini, 133 di un processo continuo, 280
di Girsanov, 403 di un processo di Markov, 249
di Helly, 179 di un processo stocastico, 232
di inversione, 149 versione regolare della distribuzione
di Lévy, 393 condizionata, 209
di optional sampling, 299, 324, 331 Vitali, 30, 508
di Radon-Nikodym, 500
di rappresentazione di Riesz, 501 Wiener, 291
Bibliografia
[1] A. Agassi, Open: An Autobiography, Einaudi, 2011.
[2] F. Antonelli, Backward-forward stochastic differential equations, Ann. Appl. Probab., 3 (1993),
pp. 777–793.
[3] D. Applebaum, Lévy processes and stochastic calculus, vol. 93 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2004.
[4] D. G. Aronson, The fundamental solution of a linear parabolic equation containing a small parameter,
Illinois J. Math., 3 (1959), pp. 580–619.
[5] P. Baldi, Introduzione alla probabilità con elementi di statistica - Seconda edizione, McGraw-Hill, 2012.
[6] , Stochastic calculus, Universitext, Springer, Cham, 2017. An introduction through theory and
exercises.
[7] M. T. Barlow, One-dimensional stochastic differential equations with no strong solution, J. London Math.
Soc. (2), 26 (1982), pp. 335–347.
[8] E. Barucci, S. Polidoro, and V. Vespri, Some results on partial differential equations and Asian options,
Math. Models Methods Appl. Sci., 11 (2001), pp. 475–497.
[9] R. F. Bass, Probabilistic techniques in analysis, Probability and its Applications (New York), Springer-
Verlag, New York, 1995.
[10] , Stochastic processes, vol. 33 of Cambridge Series in Statistical and Probabilistic Mathematics,
Cambridge University Press, Cambridge, 2011.
[11] , Real Analysis for Graduate Students, 2013. Disponibile su http://bass.math.uconn.edu/real.

html.
[12] F. Baudoin, An introduction to the geometry of stochastic flows, Imperial College Press, London, 2004.
[13] , Diffusion processes and stochastic calculus, EMS Textbooks in Mathematics, European
Mathematical Society (EMS), Zürich, 2014.
[14] H. Bauer, Probability theory, vol. 23 of De Gruyter Studies in Mathematics, Walter de Gruyter & Co.,
Berlin, 1996. Translated from the fourth (1991) German edition by Robert B. Burckel and revised by
the author.
[15] M. Beiglböck, W. Schachermayer, and B. Veliyev, A short proof of the Doob-Meyer theorem, Stochastic
Process. Appl., 122 (2012), pp. 1204–1209.
[16] A. Bensoussan, Stochastic maximum principle for distributed parameter systems, J. Franklin Inst., 315
(1983), pp. 387–406.
669
670 BIBLIOGRAFIA
[17] F. Biagini and M. Campanino, Elements of probability and statistics, vol. 98 of Unitext, Springer,
[Cham], 2016. An introduction to probability with de Finetti’s approach and to Bayesian statistics,
Translated from the 2006 Italian original, La Matematica per il 3+2.
[18] P. Billingsley, Probability and measure, Wiley Series in Probability and Mathematical Statistics, John
Wiley & Sons, Inc., New York, third ed., 1995. A Wiley-Interscience Publication.
[19] , Convergence of probability measures, Wiley Series in Probability and Statistics: Probability and
Statistics, John Wiley & Sons, Inc., New York, second ed., 1999. A Wiley-Interscience Publication.
[20] J.-M. Bismut, Théorie probabiliste du contrôle des diffusions, Mem. Amer. Math. Soc., 4 (1976),
pp. xiii+130.
[21] T. Bjork, Arbitrage theory in continuous time, Second edition, Oxford University Press, Oxford, 2004.
[22] F. Black and M. Scholes, The pricing of options and corporate liabilities, J. Polit. Econ., 81 (1973),
pp. 637–654.
[23] R. M. Blumenthal and R. K. Getoor, Markov processes and potential theory, Pure and Applied
Mathematics, Vol. 29, Academic Press, New York-London, 1968.
[24] P. Brémaud, Point processes and queues, Springer-Verlag, New York-Berlin, 1981. Martingale dynamics,
Springer Series in Statistics.
[25] F. Caravenna and P. Dai Pra, Probabilità - Un’introduzione attraverso modelli e applicazioni, Springer,
2013.
[26] P.-L. Chow, Stochastic partial differential equations, Advances in Applied Mathematics, CRC Press,
Boca Raton, FL, second ed., 2015.
[27] K. L. Chung and J. L. Doob, Fields, optionality and measurability, Amer. J. Math., 87 (1965), pp. 397–
424.
[28] D. Costantini, Introduzione alla probabilità, Testi e manuali della scienza contemporanea. Serie di
logica matematica, Bollati Boringhieri, 1977.
[29] P. Courrège, Générateur infinitésimal d’un semi-groupe de convolution sur Rn , et formule de

Lévy-Khinchine, Bull. Sci. Math. (2), 88 (1964), pp. 3–30.
[30] A. M. Davie, Uniqueness of solutions of stochastic differential equations, Int. Math. Res. Not. IMRN,
(2007), pp. Art. ID rnm124, 26.
[31] M. Di Francesco and A. Pascucci, On a class of degenerate parabolic equations of Kolmogorov type,
AMRX Appl. Math. Res. Express, 3 (2005), pp. 77–116.
[32] J. Dieudonné, Sur le théorème de Lebesgue-Nikodym. III, Ann. Univ. Grenoble. Sect. Sci. Math. Phys.
(N.S.), 23 (1948), pp. 25–53.
[33] J. L. Doob, Stochastic processes, John Wiley & Sons, Inc., New York; Chapman & Hall, Limited,
London, 1953.
[34] R. Durrett, Stochastic calculus, Probability and Stochastics Series, CRC Press, Boca Raton, FL, 1996.
A practical introduction.
[35] R. Durrett, Probability: theory and examples, vol. 49 of Cambridge Series in Statistical and Pro-
babilistic Mathematics, Cambridge University Press, Cambridge, 2019. Disponibile su https:
//services.math.duke.edu/~rtd/PTE/pte.html.
BIBLIOGRAFIA 671
[36] V. D’Urso and F. Giusberti, Esperimenti di psicologia - seconda edizione, Zanichelli, 2000.
[37] N. El Karoui, S. Peng, and M. C. Quenez, Backward stochastic differential equations in finance, Math.
Finance, 7 (1997), pp. 1–71.
[38] L. C. Evans, Partial differential equations, vol. 19 of Graduate Studies in Mathematics, American
Mathematical Society, Providence, RI, second ed., 2010.
[39] E. B. Fabes and D. W. Stroock, A new proof of Moser’s parabolic Harnack inequality using the old ideas
of Nash, Arch. Rational Mech. Anal., 96 (1986), pp. 327–338.
[40] A. M. Faden, The existence of regular conditional probabilities: necessary and sufficient conditions, Ann.
Probab., 13 (1985), pp. 288–298.
[41] W. Feller, Zur Theorie der stochastischen Prozesse, Math. Ann., 113 (1937), pp. 113–160.
[42] W. Feller, An introduction to probability theory and its applications. Vol. II, Second edition, John Wiley
& Sons, Inc., New York-London-Sydney, 1971.
[43] F. Flandoli, Regularity theory and stochastic flows for parabolic SPDEs, vol. 9 of Stochastics
Monographs, Gordon and Breach Science Publishers, Yverdon, 1995.
[44] , Random perturbation of PDEs and fluid dynamic models, vol. 2015 of Lecture Notes in Ma-
thematics, Springer, Heidelberg, 2011. Lectures from the 40th Probability Summer School held
in Saint-Flour, 2010, École d’Été de Probabilités de Saint-Flour. [Saint-Flour Probability Summer
School].
[45] A. Friedman, Partial differential equations of parabolic type, Prentice-Hall, Inc., Englewood Cliffs, N.J.,
1964.
[46] , Stochastic differential equations and applications, Dover Publications, Inc., Mineola, NY, 2006.
Two volumes bound as one, Reprint of the 1975 and 1976 original published in two volumes.
[47] B. Fristedt, N. Jain, and N. Krylov, Filtering and prediction: a primer, vol. 38 of Student Mathematical
Library, American Mathematical Society, Providence, RI, 2007.
[48] D. Gilbarg and N. S. Trudinger, Elliptic partial differential equations of second order, vol. 224
of Grundlehren der mathematischen Wissenschaften [Fundamental Principles of Mathematical
Sciences], Springer-Verlag, Berlin, second ed., 1983.
[49] P. Glasserman, Monte Carlo methods in financial engineering, vol. 53 of Applications of Mathematics
(New York), Springer-Verlag, New York, 2004. Stochastic Modelling and Applied Probability.
[50] P. Glasserman and B. Yu, Number of paths versus number of basis functions in American option pricing,
Ann. Appl. Probab., 14 (2004), pp. 2090–2119.
[51] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, 2016. Disponibile su http:
//www.deeplearningbook.org.
[52] P. R. Halmos, Measure Theory, D. Van Nostrand Company, Inc., New York, N. Y., 1950.
[53] L. Hörmander, Hypoelliptic second order differential equations, Acta Math., 119 (1967), pp. 147–171.
[54] K. Itô and S. Watanabe, Introduction to stochastic differential equations, in Proceedings of the Inter-
national Symposium on Stochastic Differential Equations (Res. Inst. Math. Sci., Kyoto Univ., Kyoto,
1976), Wiley, New York-Chichester-Brisbane, 1978, pp. i–xxx.
[55] J. Jacod and P. Protter, Probability essentials, Universitext, Springer-Verlag, Berlin, 2000.
672 BIBLIOGRAFIA
[56] J. Jacod and A. N. Shiryaev, Limit theorems for stochastic processes, vol. 288 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, second ed., 2003.
[57] O. Kallenberg, Foundations of modern probability, Probability and its Applications (New York),
Springer-Verlag, New York, second ed., 2002.
[58] I. Karatzas and S. E. Shreve, Brownian motion and stochastic calculus, vol. 113 of Graduate Texts in
Mathematics, Springer-Verlag, New York, second ed., 1991.
[59] A. Klenke, Probability theory, Universitext, Springer, London, second ed., 2014. A comprehensive
course.
[60] A. Kolmogoroff, Über die analytischen Methoden in der Wahrscheinlichkeitsrechnung, Math. Ann., 104
(1931), pp. 415–458.
[61] A. N. Kolmogorov, Selected works of A. N. Kolmogorov. Vol. III, Kluwer Academic Publishers Group,
Dordrecht, 1993. Edited by A. N. Shiryayev.
[62] V. N. Kolokoltsov, Markov processes, semigroups and generators, vol. 38 of De Gruyter Studies in
Mathematics, Walter de Gruyter & Co., Berlin, 2011.
[63] J. Komlós, A generalization of a problem of Steinhaus, Acta Math. Acad. Sci. Hungar., 18 (1967),
pp. 217–229.
[64] P. Kotelenez, Stochastic ordinary and stochastic partial differential equations, vol. 58 of Stochastic
Modelling and Applied Probability, Springer, New York, 2008. Transition from microscopic to
macroscopic equations.
[65] N. V. Krylov, Controlled diffusion processes, vol. 14 of Stochastic Modelling and Applied Probability,
Springer-Verlag, Berlin, 2009. Translated from the 1977 Russian original by A. B. Aries, Reprint of
the 1980 edition.
[66] H. Kunita, Stochastic flows and stochastic differential equations, vol. 24 of Cambridge Studies in
Advanced Mathematics, Cambridge University Press, Cambridge, 1997. Reprint of the 1990 original.
[67] O. A. Ladyzhenskaia, V. A. Solonnikov, and N. N. Ural’tseva, Linear and quasilinear equations of

parabolic type, Translations of Mathematical Monographs, Vol. 23, American Mathematical Society,
Providence, R.I., 1968. Translated from the Russian by S. Smith.
[68] E. Lanconelli, Lezioni di Analisi Matematica 1, Pitagora Editrice Bologna, 1994.
[69] , Lezioni di Analisi Matematica 2, Pitagora Editrice Bologna, 1995.
[70] , Lezioni di Analisi Matematica 2 - Seconda parte, Pitagora Editrice Bologna, 1997.
[71] E. Lanconelli and S. Polidoro, On a class of hypoelliptic evolution operators, Rend. Sem. Mat. Univ.
Politec. Torino, 52 (1994), pp. 29–63.
[72] P. Langevin, Sur la théorie du mouvement Brownien, C.R. Acad. Sci. Paris, 146 (1908), pp. 530–532.
[73] E. B. Lee and L. Markus, Foundations of optimal control theory, Robert E. Krieger Publishing Co., Inc.,
Melbourne, FL, second ed., 1986.
[74] D. S. Lemons, An introduction to stochastic processes in physics, Johns Hopkins University Press, Balti-
more, MD, 2002. Containing “On the theory of Brownian motion” by Paul Langevin, translated by
Anthony Gythiel.
BIBLIOGRAFIA 673
[75] G. Letta, Probabilità elementare. Compendio di teorie. Problemi risolti, Zanichelli, 1993.
[76] E. E. Levi, Sulle equazioni lineari totalmente ellittiche alle derivate parziali, Rend. Circ. Mat. Palermo,
24 (1907), pp. 275–317.
[77] W. Liu and M. Röckner, Stochastic partial differential equations: an introduction, Universitext,
Springer, Cham, 2015.
[78] S. V. Lototsky and B. L. Rozovskii, Stochastic partial differential equations, Universitext, Springer,
Cham, 2017.
[79] J. Ma and J. Yong, Forward-backward stochastic differential equations and their applications, vol. 1702
of Lecture Notes in Mathematics, Springer-Verlag, Berlin, 1999.
[80] L. Mazliak and G. Shafer, The splendors and miseries of martingales - Their history from the Casino to
Mathematics, Trends in the History of Science, Birkhäuser Cham, 2022.
[81] P.-A. Meyer, Probability and potentials, Blaisdell Publishing Co. Ginn and Co., Waltham,
Mass.-Toronto, Ont.-London, 1966.
[82] P.-A. Meyer, Stochastic processes from 1950 to the present, J. Électron. Hist. Probab. Stat., 5 (2009),
p. 42. Translated from the French [MR1796860] by Jeanine Sedjro.
[83] P. Mörters and Y. Peres, Brownian motion, vol. 30 of Cambridge Series in Statistical and Probabilistic
Mathematics, Cambridge University Press, Cambridge, 2010. With an appendix by Oded Schramm
and Wendelin Werner.
[84] D. Mumford, The dawning of the age of stochasticity, Atti Accad. Naz. Lincei Cl. Sci. Fis. Mat. Natur.
Rend. Lincei (9) Mat. Appl., (2000), pp. 107–125. Mathematics towards the third millennium (Rome,
1999).
[85] J. Neveu, Mathematical foundations of the calculus of probability, Translated by Amiel Feinstein,
Holden-Day, Inc., San Francisco, Calif.-London-Amsterdam, 1965.
[86] A. A. Novikov, A certain identity for stochastic integrals, Teor. Verojatnost. i Primenen., 17 (1972),
pp. 761–765.
[87] D. Nualart, The Malliavin calculus and related topics, Probability and its Applications (New York),
Springer-Verlag, Berlin, second ed., 2006.
[88] B. Oksendal, Stochastic differential equations, Universitext, Springer-Verlag, Berlin, fifth ed., 1998. An
introduction with applications.
[89] O. A. Oleinik and E. V. Radkevic, Second order equations with nonnegative characteristic form, Plenum
Press, New York-London, 1973. Translated from the Russian by Paul C. Fife.
[90] L. S. Ornstein and G. E. Uhlenbeck, On the theory of the Brownian motion., Physical Review, 36
(1930), pp. 823–841.
[91] E. Pardoux, Stochastic partial differential equations, SpringerBriefs in Mathematics, Springer, Cham,
[2021] ©2021. An introduction.
[92] E. Pardoux and S. G. Peng, Adapted solution of a backward stochastic differential equation, Systems
Control Lett., 14 (1990), pp. 55–61.
[93] E. Pardoux and A. Rascanu, Stochastic differential equations, backward SDEs, partial differential
equations, vol. 69 of Stochastic Modelling and Applied Probability, Springer, Cham, 2014.
674 BIBLIOGRAFIA
[94] A. Pascucci, PDE and martingale methods in option pricing, vol. 2 of Bocconi & Springer Series,
Springer, Milan; Bocconi University Press, Milan, 2011.
[95] J. A. Paulos, A mathematician reads the newspaper, Basic Books, New York, 2013. Paperback edition
of the 1995 original with a new preface.
[96] S. G. Peng, A nonlinear Feynman-Kac formula and applications, in Control theory, stochastic analysis
and applications (Hangzhou, 1991), World Sci. Publ., River Edge, NJ, 1991, pp. 173–184.
[97] N. Pintacuda, Probabilità, Zanichelli, 1995.
[98] W. Pogorzelski, Étude de la solution fondamentale de l’équation parabolique, Ricerche Mat., 5 (1956),
pp. 25–57.
[99] S. Polidoro, Uniqueness and representation theorems for solutions of Kolmogorov-Fokker-Planck
equations, Rend. Mat. Appl. (7), 15 (1995), pp. 535–560.
[100] C. Prévôt and M. Röckner, A concise course on stochastic partial differential equations, vol. 1905 of
Lecture Notes in Mathematics, Springer, Berlin, 2007.
[101] P. E. Protter, Stochastic integration and differential equations, vol. 21 of Stochastic Modelling and
Applied Probability, Springer-Verlag, Berlin, 2005. Second edition. Version 2.1, Corrected third
printing.
[102] C. E. Rasmussen and C. K. I. Williams, Gaussian Processes for Machine Learning, MIT Press, 2006.
Disponibile su http://www.gaussianprocess.org/gpml/.
[103] D. Revuz and M. Yor, Continuous martingales and Brownian motion, vol. 293 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, third ed., 1999.
[104] F. Riesz and B. Sz.-Nagy, Functional analysis, Frederick Ungar Publishing Co., New York, 1955.
Translated by Leo F. Boron.
[105] L. C. G. Rogers and D. Williams, Diffusions, Markov processes, and martingales. Vol. 2, Cambridge
Mathematical Library, Cambridge University Press, Cambridge, 2000. Itô calculus, Reprint of the
second (1994) edition.
[106] B. L. Rozovskii, Stochastic evolution systems, vol. 35 of Mathematics and its Applications (Soviet
Series), Kluwer Academic Publishers Group, Dordrecht, 1990. Linear theory and applications to
nonlinear filtering, Translated from the Russian by A. Yarkho.
[107] W. Rudin, Real and complex analysis, McGraw-Hill Book Co., New York, third ed., 1987.
[108] D. Salsburg, The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century,
Henry Holt and Company, 2002.
[109] R. L. Schilling, Sobolev embedding for stochastic processes, Expo. Math., 18 (2000), pp. 239–242.
[110] , Brownian motion—a guide to random processes and stochastic calculus, De Gruyter Textbook, De
Gruyter, Berlin, [2021] ©2021. With a chapter on simulation by Björn Böttcher, Third edition [of
2962168].
[111] A. Shaposhnikov and L. Wresch, Pathwise vs. path-by-path uniqueness, preprint, arXiv:2001.02869,
(2020).
[112] A. N. Shiryaev, Probability. 1, vol. 95 of Graduate Texts in Mathematics, Springer, New York,
third ed., 2016. Translated from the fourth (2007) Russian edition by R. P. Boas and D. M. Chibisov.
BIBLIOGRAFIA 675
[113] Y. G. Sinai, Probability theory, Springer Textbook, Springer-Verlag, Berlin, 1992. An introductory
course, Translated from the Russian and with a preface by D. Haughton.
[114] D. W. Stroock, Markov processes from K. Itô’s perspective, vol. 155 of Annals of Mathematics Studies,
Princeton University Press, Princeton, NJ, 2003.
[115] , Partial differential equations for probabilists, vol. 112 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2012. Paperback edition of the 2008 original.
[116] D. W. Stroock and S. R. S. Varadhan, Diffusion processes with continuous coefficients. I, Comm. Pure
Appl. Math., 22 (1969), pp. 345–400.
[117] , Diffusion processes with continuous coefficients. II, Comm. Pure Appl. Math., 22 (1969), pp. 479–
530.
[118] D. W. Stroock and S. R. S. Varadhan, Multidimensional diffusion processes, Classics in Mathematics,
Springer-Verlag, Berlin, 2006. Reprint of the 1997 edition.
[119] M. Struwe, Variational methods, vol. 34 of Ergebnisse der Mathematik und ihrer Grenzgebiete. 3.
Folge. A Series of Modern Surveys in Mathematics [Results in Mathematics and Related Areas.
3rd Series. A Series of Modern Surveys in Mathematics], Springer-Verlag, Berlin, fourth ed., 2008.
Applications to nonlinear partial differential equations and Hamiltonian systems.
[120] K. Taira, Semigroups, boundary value problems and Markov processes, Springer Monographs in
Mathematics, Springer, Heidelberg, second ed., 2014.
[121] H. Tanaka, Note on continuous additive functionals of the 1-dimensional Brownian path, Z.
Wahrscheinlichkeitstheorie und Verw. Gebiete, 1 (1962/63), pp. 251–257.
[122] A. Tychonoff, Théorèmes d’unicité pour l’equation de la chaleur, Math. Sbornik, 42 (1935), pp. 199–
216.
[123] J. A. van Casteren, Markov processes, Feller semigroups and evolution equations, vol. 12 of Series on
Concrete and Applicable Mathematics, World Scientific Publishing Co. Pte. Ltd., Hackensack, NJ,
2011.
[124] O. Vasicek, An equilibrium characterization of the term structure, J. Financial Economics, 5 (1977),
pp. 177–188.
[125] G. Vitali, Sul problema della misura dei gruppi di punti di una retta, Bologna, Tip. Gamberini e
Parmeggiani., (1905).
[126] D. Williams, Probability with martingales, Cambridge Mathematical Textbooks, Cambridge
University Press, Cambridge, 1991.
[127] T. Yamada and S. Watanabe, On the uniqueness of solutions of stochastic differential equations, J. Math.
Kyoto Univ., 11 (1971), pp. 155–167.
[128] J. Yong and X. Y. Zhou, Stochastic controls, vol. 43 of Applications of Mathematics (New York),
Springer-Verlag, New York, 1999. Hamiltonian systems and HJB equations.
[129] J. Zabczyk, Mathematical control theory—an introduction, Systems & Control: Foundations &
Applications, Birkhäuser/Springer, Cham, [2020] ©2020. Second edition [of 2348543].
[130] J. Zhang, Backward stochastic differential equations, vol. 86 of Probability Theory and Stochastic
Modelling, Springer, New York, 2017. From linear to fully nonlinear theory.
[131] A. K. Zvonkin, A transformation of the phase space of a diffusion process that will remove the drift, Mat.
Sb. (N.S.), 93(135) (1974), pp. 129–149, 152.

Pascucci - Analisi Stocastica

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Pascucci - Analisi Stocastica

Caricato da

Copyright:

Formati disponibili

Teoria della Probabilità

1 Email: andrea.pascucci@unibo.it Dipartimento di Matematica, Università di Bologna, Piazza di Porta S. Donato 5,

I Variabili aleatorie e distribuzioni 19

4 Successioni di variabili aleatorie 165

5 Probabilità condizionata 189

II Processi e calcolo stocastico 221

7 Processi di Markov 243

8 Processo di Poisson 267

9 Processi continui 277

10 Moto Browniano 287

11 Tempi d’arresto 295

12 Proprietà di Markov forte 313

13 Martingale continue 321

14 Teoria della variazione 333

15 Integrazione stocastica secondo Itô 349

16 Formula di Itô 371

17 Il caso multidimensionale 385

18 Cambi di misura e rappresentazione di martingale 397

19 Equazioni differenziali stocastiche 411

20 Formule di Feynman-Kac 421

21 Equazioni stocastiche lineari 431

22 Soluzioni forti 443

23 Soluzioni deboli 453

25 Metodi numerici stocastici 467

26 Esistenza e unicità per PDE paraboliche 469

B Temi d’esame risolti 511

Dicembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533

C Tavole riassuntive delle principali distribuzioni 661

Indice analitico 663

Riferimenti bibliografici 667

D. Mumford, The Dawning of the Age of Stochasticity [84]

V. D’Urso, F. Giusberti, Esperimenti di psicologia [36]

Una rivoluzione della matematica

La probabilità nel passato

La probabilità nel presente

• Telecomunicazioni: la NASA utilizza il metodo di Kalman-Bucy per filtrare i segnali provenienti da

• Giurisprudenza: il verdetto emesso da un giudice di un tribunale si basa sulla probabilità di colpe-

Alcuni simboli e notazioni usati frequentemente

• ♯A oppure |A| indica la cardinalità dell’insieme A. A ↔ B se |A| = |B|

• Bd = B(Rd ) è la σ -algebra di Borel in Rd ; B := B1

• mF (risp. mF + , bF ) la classe delle funzioni F -misurabili (risp. F -misurabili e non-negative, F -

• N famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16)

– numeri naturali: N = {1, 2, 3, ...}, N0 = N ∪ {0}, In := {1, . . . , n} per n ∈ N

• Lebd indica la misura di Lebesgue d-dimensionale; Leb := Leb1

• funzione indicatrice di un insieme A

• prodotto scalare Euclideo:

• massimo e minimo di numeri reali:

x ∧ y = min{x, y}, x ∨ y = max{x, y}

• parte positiva e negativa:

• argomento del massimo e del minimo di f : A −→ R:

arg max f (x) = {y ∈ A | f (y) ≥ f (x) per ogni x ∈ A}

Segnaliamo l’importanza dei risultati con i seguenti simboli:

Variabili aleatorie e distribuzioni

Misure e spazi di probabilità

The philosophy of the foundations of

2.1 Spazi misurabili e spazi di probabilità

2.1.1 Spazi misurabili

i) Ω è un insieme non vuoto;

Di conseguenza, si dice che F è ∩-chiusa e σ -∩-chiusa.

(per il fatto che µ(∅) = 0)

2.1.2 Spazi di probabilità

i) A = “il risultato del lancio è un numero dispari”;

ii) B = “il risultato del lancio è il numero 4”;

iii) C = “il risultato del lancio è maggiore di 7”.