Sei sulla pagina 1di 675

Teoria della Probabilità

Andrea Pascucci1

13 febbraio 2023

1 Email: andrea.pascucci@unibo.it Dipartimento di Matematica, Università di Bologna, Piazza di Porta S. Donato 5,


40126 Bologna, Italy
2
Indice

1 Introduzione 11
Una rivoluzione della matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
La probabilità nel passato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
La probabilità nel presente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Nota bibliografica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Alcuni simboli e notazioni usati frequentemente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

I Variabili aleatorie e distribuzioni 19


2 Misure e spazi di probabilità 21
2.1 Spazi misurabili e spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Spazi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.3 Algebre e σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4 Additività finita e σ -additività . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Spazi finiti e problemi di conteggio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Cardinalità di insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna . . . . . . . . . . . . . . 33
2.2.3 Metodo delle scelte successive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.4 Disposizioni e combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.5 Probabilità binomiale e ipergeometrica. . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.6 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Probabilità condizionata e indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.2 Indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.3 Prove ripetute e indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3.4 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.4.1 σ -algebra generata e completamento di uno spazio di probabilità . . . . . . . . . . . . 59
2.4.2 σ -algebra di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.4.3 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.4.4 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4.5 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4.6 Funzioni di ripartizione (CDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.4.7 Teorema di estensione di Carathéodory . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.4.8 Dalle CDF alle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.4.9 Funzioni di ripartizione su Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.4.10 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3
4 INDICE

2.5 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.1 Dimostrazione della Proposizione 2.3.30 . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.2 Dimostrazione della Proposizione 2.4.9 . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory . . . . . . . . . . . . . . . . . . . 80
2.5.4 Dimostrazione del Teorema 2.4.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3 Variabili aleatorie 89
3.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.1 Variabili aleatorie e distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.1.2 Esempi di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.1.3 Esempi di variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . 100
3.1.4 Altri esempi di variabili aleatorie notevoli . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.2 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.2.1 Integrale di variabili aleatorie semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.2.2 Integrale di variabili aleatorie non-negative . . . . . . . . . . . . . . . . . . . . . . . . 109
3.2.3 Integrale di variabili aleatorie a valori in Rd . . . . . . . . . . . . . . . . . . . . . . . . 111
3.2.4 Integrazione con distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.2.5 Valore atteso e Teorema del calcolo della media . . . . . . . . . . . . . . . . . . . . . . 115
3.2.6 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.2.7 Spazi Lp e disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.2.8 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.2.9 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta . . . . . . . . . . . 127
3.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.3.1 Dipendenza deterministica e indipendenza stocastica . . . . . . . . . . . . . . . . . . 129
3.3.2 Misura prodotto e Teorema di Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.3.3 Indipendenza fra σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3.3.4 Indipendenza fra vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.3.5 Indipendenza e valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.4 Distribuzione e valore atteso condizionato ad un evento . . . . . . . . . . . . . . . . . . . . . 141
3.5 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
3.5.1 Il teorema di inversione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
3.5.2 Distribuzione normale multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.5.3 Sviluppo in serie della funzione caratteristica e momenti . . . . . . . . . . . . . . . . 156
3.6 Complementi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
3.6.1 Somma di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
3.6.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

4 Successioni di variabili aleatorie 165


4.1 Convergenza per successioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 165
4.1.1 Disuguaglianza di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
4.1.2 Relazioni fra le diverse definizioni di convergenza . . . . . . . . . . . . . . . . . . . . 168
4.2 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
4.2.1 Cenni al metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
4.2.2 Polinomi di Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
4.3 Condizioni necessarie e sufficienti per la convergenza debole . . . . . . . . . . . . . . . . . . 176
4.3.1 Convergenza di funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . 176
4.3.2 Compattezza nello spazio delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . 179
4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy . . . . . . . . 180
4.3.4 Esempi notevoli di convergenza debole . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
4.4 Legge dei grandi numeri e Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . 183
INDICE 5

5 Probabilità condizionata 189


5.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
5.1.1 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
5.2 Attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.2.1 Proprietà dell’attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
5.2.2 Attesa condizionata e cambi di misura di probabilità . . . . . . . . . . . . . . . . . . . 204
5.2.3 Funzione attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
5.2.4 Least Square Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
5.3 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
5.3.1 Funzione distribuzione condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente continuo . . 213
5.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.4.1 Dimostrazione del Teorema 5.3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.4.2 Dimostrazione della Proposizione 5.3.20 . . . . . . . . . . . . . . . . . . . . . . . . . . 219

II Processi e calcolo stocastico 221


6 Processi stocastici 225
6.1 Processi stocastici: legge e distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . 225
6.1.1 Processi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
6.2 Unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
6.3 Esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
6.4 Filtrazioni e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
6.5 Dimostrazione del Teorema di estensione di Kolmogorov . . . . . . . . . . . . . . . . . . . . 237
6.6 Riassunto delle notazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
6.7 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

7 Processi di Markov 243


7.1 Legge di transizione e processi di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
7.2 Proprietà di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
7.3 Processi a incrementi indipendenti e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . 249
7.4 Leggi finito-dimensionali ed equazione di Chapman-Kolmogorov . . . . . . . . . . . . . . . . 251
7.5 Operatore caratteristico ed equazioni di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 255
7.5.1 Il caso locale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
7.5.2 Equazione di Kolmogorov backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
7.5.3 Equazione di Kolmogorov forward (o di Fokker-Planck) . . . . . . . . . . . . . . . . . 261
7.6 Processi di Markov e diffusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
7.7 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

8 Processo di Poisson 267


8.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
8.2 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
8.3 Proprietà di martingala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273

9 Processi continui 277


9.1 Continuità e continuità q.c. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
9.2 Versione canonica di un processo continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
9.3 Teorema di continuità di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
9.4 Diffusioni e PDE paraboliche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
9.5 Dimostrazione del Teorema di continuità di Kolmogorov . . . . . . . . . . . . . . . . . . . . . 284
6 INDICE

10 Moto Browniano 287


10.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
10.2 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
10.3 Spazio di Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
10.4 Martingale Browniane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292

11 Tempi d’arresto 295


11.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
11.1.1 Optional sampling, disuguaglianze massimali e lemma di upcrossing . . . . . . . . . 299
11.2 Il caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
11.2.1 Ipotesi usuali e tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
11.2.2 Ampliamento di filtrazioni e processi di Markov . . . . . . . . . . . . . . . . . . . . . 305
11.2.3 Ampliamento di filtrazioni e processi di Lévy . . . . . . . . . . . . . . . . . . . . . . . 308
11.2.4 Risultati generali sui tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

12 Proprietà di Markov forte 313


12.1 Proprietà di Feller e di Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
12.2 Principio di riflessione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
12.3 Il caso omogeneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

13 Martingale continue 321


13.1 Optional sampling e continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
13.2 Martingale càdlàg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
13.3 Martingale continue di quadrato sommabili: lo spazio M c,2 . . . . . . . . . . . . . . . . . . . 327
13.4 Martingale locali: lo spazio M c,loc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
13.5 Martingale uniformemente in L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329

14 Teoria della variazione 333


14.1 Integrale di Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
14.2 Integrale di Lebesgue-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
14.3 Semimartingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
14.3.1 Il moto Browniano come semimartingala . . . . . . . . . . . . . . . . . . . . . . . . . . 340
14.3.2 Semimartingale a variazione limitata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
14.4 Decomposizione di Doob e processo variazione quadratica . . . . . . . . . . . . . . . . . . . . 342
14.5 Dimostrazione del Teorema di decomposizione di Doob . . . . . . . . . . . . . . . . . . . . . 343

15 Integrazione stocastica secondo Itô 349


15.1 Integrale rispetto al moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
15.1.1 Dimostrazione del Lemma 15.1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
15.2 Integrale rispetto a martingale continue di quadrato sommabile . . . . . . . . . . . . . . . . 355
15.2.1 Integrale di processi indicatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
15.2.2 Integrale di processi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
15.2.3 Integrale di processi in L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
15.2.4 Integrale di processi in L2loc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
15.2.5 Integrale stocastico e integrale di Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . 366
15.3 Integrale rispetto a semimartingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
15.3.1 Processi di Itô reali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
INDICE 7

16 Formula di Itô 371


16.1 Formula di Itô per semimartingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
16.1.1 Formula di Itô per il moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
16.1.2 Formula di Itô per processi di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
16.2 Alcune conseguenze della formula di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
16.2.1 Disuguaglianze di Burkholder-Davis-Gundy . . . . . . . . . . . . . . . . . . . . . . . . 376
16.2.2 Processo variazione quadratica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
16.3 Dimostrazione della formula di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380

17 Il caso multidimensionale 385


17.1 Matrice di covariazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
17.2 Moto Browniano multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
17.3 Processi di Itô multidimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
17.4 Formula di Itô multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
17.5 Caratterizzazione di Lévy e moto Browniano correlato . . . . . . . . . . . . . . . . . . . . . . 393

18 Cambi di misura e rappresentazione di martingale 397


18.1 Cambi di misura e processi di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
18.1.1 Un’applicazione: la valutazione neutrale al rischio di derivati finanziari . . . . . . . . 399
18.2 Stime di sommabilità per martingale esponenziali . . . . . . . . . . . . . . . . . . . . . . . . 400
18.3 Teorema di Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
18.4 Approssimazione mediante martingale esponenziali . . . . . . . . . . . . . . . . . . . . . . . 405
18.5 Rappresentazione delle martingale Browniane . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
18.5.1 Dimostrazione del Teorema 18.1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408

19 Equazioni differenziali stocastiche 411


19.1 Soluzioni di SDE: nozioni di esistenza e unicità . . . . . . . . . . . . . . . . . . . . . . . . . . 411
19.2 Ipotesi standard e stime preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
19.3 Stime a priori di sommabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417

20 Formule di Feynman-Kac 421


20.1 Operatore caratteristico di una SDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
20.2 Tempo di uscita da un dominio limitato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
20.3 Il caso autonomo: il problema di Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
20.4 Il caso evolutivo: il problema di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428

21 Equazioni stocastiche lineari 431


21.1 Soluzione e legge di transizione di una SDE lineare . . . . . . . . . . . . . . . . . . . . . . . . 431
21.2 Assoluta continuità e controllabilità di un sistema lineare . . . . . . . . . . . . . . . . . . . . 434
21.3 Condizione di Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
21.4 Condizione di Hörmander . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
21.5 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439

22 Soluzioni forti 443


22.1 Unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
22.2 Esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
22.3 Proprietà di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448
22.4 Dipendenza continua dai parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
8 INDICE

23 Soluzioni deboli 453


23.1 Trasferimento di soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
23.2 Soluzioni deboli vs forti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
23.3 Problema della martingala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
23.4 Risolubilità debole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
23.5 Unicità in legge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
23.6 Unicità forte: regolarizzazione con rumore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459

24 Complementi 461
24.1 Equazioni stocastiche backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
24.2 Filtraggio stocastico ed equazione del calore stocastica . . . . . . . . . . . . . . . . . . . . . . 463
24.3 Integrale stocastico backward e SPDE di Krylov . . . . . . . . . . . . . . . . . . . . . . . . . . 465
24.4 Proiezione Markoviana e Teorema di Gyöngy . . . . . . . . . . . . . . . . . . . . . . . . . . . 465

25 Metodi numerici stocastici 467


25.1 Metodo di Eulero per equazioni ordinarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.1.1 Schemi di ordine superiore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.2 Metodo di Eulero per equazioni stocastiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.2.1 Schema di Milstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.3 Metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.3.1 Simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
25.3.2 Applicazioni alla risoluzione numerica di PDE . . . . . . . . . . . . . . . . . . . . . . 467
25.3.3 Analisi dell’errore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467

26 Esistenza e unicità per PDE paraboliche 469


26.1 Equazioni di Kolmogorov backward e forward . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
26.2 Unicità: il principio del massimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
26.2.1 Problema di Cauchy-Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
26.2.2 Problema di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
26.3 Esistenza: la soluzione fondamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
26.4 Il metodo della parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
26.4.1 Stime Gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
26.4.2 Dimostrazione della Proposizione 26.4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . 482
26.4.3 Stime del potenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
26.4.4 Dimostrazione del Teorema 26.3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490

A 497
A.1 Teoremi di Dynkin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
A.2 Assoluta continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
A.2.1 Teorema di Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
A.2.2 Rappresentazione di aperti di R mediante intervalli . . . . . . . . . . . . . . . . . . . 502
A.2.3 Derivabilità di funzioni integrali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
A.2.4 Assoluta continuità di funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
A.3 Uniforme integrabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508

B Temi d’esame risolti 511


Dicembre 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
Gennaio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516
Febbraio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 520
Giugno 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524
Luglio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527
Settembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
INDICE 9

Dicembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533


Gennaio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537
Febbraio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
Maggio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
Luglio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
Settembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554
Dicembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557
Gennaio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562
Febbraio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567
Maggio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572
Giugno 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578
Settembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584
Dicembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588
Gennaio 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592
Febbraio 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
Dicembre 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 600
Gennaio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
Febbraio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608
Maggio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 611
Luglio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615
Settembre 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 619
Dicembre 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
Gennaio 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 628
Febbraio 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632
Maggio 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636
Luglio 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
Settembre 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644
Dicembre 2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 648
Gennaio 2023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
Febbraio 2023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656

C Tavole riassuntive delle principali distribuzioni 661

Indice analitico 663

Riferimenti bibliografici 667


10 INDICE
Capitolo 1

Introduzione

“For over two millennia, Aristotle’s logic has ruled over the thinking of western intellectuals. All precise theo-
ries, all scientific models, even models of the process of thinking itself, have in principle conformed to the straight-
jacket of logic. But from its shady beginnings devising gambling strategies and counting corpses in medieval
London, probability theory and statistical inference now emerge as better foundations for scientific models, espe-
cially those of the process of thinking and as essential ingredients of theoretical mathematics, even the foundations
of mathematics itself. We propose that this sea change in our perspective will affect virtually all of mathematics in
the next century.”

D. Mumford, The Dawning of the Age of Stochasticity [84]

“In conclusione, cosa ci hanno mostrato Tversky e Kahneman1 con la loro convincente serie di esperimenti?
Che l’essere umano, anche quello intelligente, colto e perfino con delle nozioni di statistica, non è un animale
probabilistico. La teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico, non è
insegnata nelle scuole, a volte non è capita molto bene neppure da coloro che dovrebbero applicarla.”

V. D’Urso, F. Giusberti, Esperimenti di psicologia [36]

Una rivoluzione della matematica


Nella matematica “classica” (quella che tuttora costituisce la maggior parte dei contenuti insegnati nel-
le scuole superiori e università) i concetti matematici rappresentano e descrivono quantità deterministiche:
quando si parla, per esempio, di una variabile reale o di un oggetto geometrico si pensa rispettivamente
a un numero che può essere ben determinato e a una figura che può essere definita analiticamente e rap-
presentata in modo esatto. Da sempre, la matematica è ritenuto il linguaggio e lo strumento più potente
con cui descrivere i fenomeni fisici e naturali in modo da interpretare e acquisire conoscenze su molte-
plici aspetti della realtà. Ma i modelli che la matematica può fornire sono sempre semplificazioni e non
forniscono quasi mai una descrizione completa del fenomeno che si vuole studiare.
Consideriamo il seguente esempio banale: se vado al supermercato e compro un 1Kg di farina, posso
essere soddisfatto dal fatto di sapere che il pacco pesa 1Kg perché c’è scritto sulla confezione; se non mi
fido, posso pesarlo con la mia bilancia e scoprire che magari non è esattamente 1Kg ma qualche grammo
in più o in meno; poi potrei anche chiedermi se la mia bilancia sia veramente affidabile e precisa fino al
grammo e quindi rassegnarmi al fatto che forse non saprò mai il vero peso del pacco di farina. In questo
caso ovviamente poco importa... Tuttavia l’esempio aiuta a capire che molti fenomeni (o forse tutta la
realtà) possono essere interpretati come la somma o combinazione di più fattori classificabili in fattori
1 Premio Nobel per l’economia nel 2002.

11
12 CAPITOLO 1. INTRODUZIONE

deterministici (nel senso di osservabili a livello macroscopico) e fattori stocastici (nel senso di casuali, aleatori,
non osservabili o non prevedibili).
Il termine “stocastico” deriva dal greco στόχος che significa bersaglio (del tiro a segno) o, in senso figu-
rato, congettura. A volte, come nell’esempio della farina, il fattore deterministico è prevalente nel senso che,
per vari motivi, non val la pena considerare altri fattori e si preferisce trascurarli oppure non si hanno gli
strumenti per includerli nella propria analisi: in questo modo forse semplicistico, per analogia, si potrebbe
descrivere l’approccio della fisica classica e di tutte le teorie formulate prima del XX secolo che puntano a
dare una descrizione a livello macroscopico e osservabile. D’altra parte, esistono molti fenomeni in cui il
fattore stocastico non solo non è trascurabile ma è addirittura dominante: un esempio eclatante è fornito
dalle principali teorie della fisica moderna, in particolare la meccanica quantistica. Rimanendo vicini alla
realtà quotidiana, ormai non esiste ambito applicativo della matematica in cui si possa trascurare il fatto-
re stocastico: dall’economia alla medicina, dall’ingegneria alla meteorologia, i modelli matematici devono
necessariamente includere l’incertezza; infatti il fenomeno in oggetto può essere intrinsecamente aleatorio
come il prezzo di un titolo azionario o il segnale in un sistema di riconoscimento vocale o guida automa-
tica, oppure può non essere osservabile con precisione o di difficile interpretazione come un segnale radio
disturbato, un’immagine tomografica o la posizione di una particella subatomica.
C’è anche un livello più generale in cui non si può ignorare il ruolo della probabilità nello sviluppo
della società odierna: si tratta di quella che è ormai ritenuta un’emergenza educativa, l’esigenza sempre
più pressante che si diffondano e rafforzino le conoscenze di tipo probabilistico. Una vera e propria opera
di alfabetizzazione in questo campo può evitare che banali misconcezioni, come per esempio quella dei
numeri “ritardatari” nel gioco del lotto, abbiano gli effetti devastanti a livello sociale ed economico che
oggi osserviamo: basti pensare che, in base ai dati ufficiali dei Monopoli di Stato, i soldi spesi dagli italiani
per giochi d’azzardo (e parliamo solo dei giochi legali) nel 2017 hanno superato il tetto dei 100 miliardi di
euro, il quadruplo rispetto al 2004.
Un segnale positivo è dato dall’evoluzione dell’insegnamento della probabilità nelle scuole superiori:
fino a pochi anni fa la probabilità era assente dai programmi scolastici ed ora sta velocemente incremen-
tando la propria presenza nei libri di testo e nelle prove d’esame, provocando anche un certo sconcerto
nel corpo docente a causa di un cosı̀ rapido aggiornamento dei contenuti. È bene sottolineare che la ma-
tematica stocastica (la probabilità) non vuole destituire la matematica classica ma ha in quest’ultima le
proprie fondamenta e la potenzia approfondendo i legami con le altre discipline scientifiche. Paradossal-
mente, il mondo della formazione superiore e universitaria sembra avere un’inerzia maggiore per cui tende
a rallentare il processo di passaggio dal pensiero deterministico a quello stocastico. In parte questo è com-
prensibile: la difesa dello status quo è ciò che normalmente avviene di fronte ad ogni profonda rivoluzione
scientifica e, a tutti gli effetti, stiamo parlando di una vera e propria rivoluzione, silenziosa e irreversibile, che
coinvolge tutti gli ambiti della matematica. A questo riguardo è illuminante la frase, posta all’inizio di que-
sta introduzione, del matematico anglo-statunitense David Mumford, medaglia Fields2 nel 1974 per i suoi
studi nel campo della geometria algebrica. Nell’articolo da cui è stata tratta la frase, Mumford conferma il
fatto che la teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico3 .

2 L’International Medal for Outstanding Discoveries in Mathematics, o più semplicemente medaglia Fields, è un premio riconosciu-
to a matematici che non abbiano superato l’età di 40 anni in occasione del Congresso internazionale dei matematici della International
Mathematical Union (IMU), che si tiene ogni quattro anni. È spesso considerata come il più alto riconoscimento che un matematico
possa ricevere: assieme al premio Abel è da molti definita il “Premio Nobel per la Matematica”, sebbene l’accostamento sia improprio
per varie ragioni, tra cui il limite di età insito nel conferimento della medaglia Fields (fonte Wikipedia).
3 The classical subdivisions of mathematics are geometry, algebra, and analysis. The perception of space (through senses and mu-
scular interaction) is the primitive element of our experience on which geometry is based. Analysis, I would argue, is the outgrowth of
the human experience of force and its children, acceleration and oscillation. Algebra seems to stem from the grammar of actions, i.e.,
the fact that we carry out actions in specific orders, concatenating one after the other, and making various ”higher order“ actions out
of simpler more basic ones. I believe there is a fourth branch of human experience which creates reproducible mental objects, hence
creates math: our experience of thought itself through our conscious observation of our mind at work. The division of mathematics
corresponding to this realm of experience is not logic but probability and statistics. (D. Mumford, [84])
13

La probabilità nel passato


Il termine probabilità deriva dal latino probabilitas che descrive la caratteristica di una persona (per
esempio, il testimone in un processo) di essere affidabile, credibile, onesto (probus). Questo differisce in
parte dal significato moderno di probabilità intesa come studio di metodi per quantificare e stimare gli
eventi casuali. Benché lo studio dei fenomeni in situazione d’incertezza abbia suscitato interesse in tutte le
epoche (a partire dai giochi d’azzardo), la teoria della probabilità come disciplina matematica ha origini
relativamente recenti. I primi studi di probabilità risalgono al XVI secolo: se ne occuparono, fra i primi,
Gerolamo Cardano (1501-1576) e Galileo Galilei (1564-1642).
Tradizionalmente la nascita del concetto moderno di probabilità viene attribuita a Blaise Pascal (1623-
1662) e Pierre de Fermat (1601-1665). In realtà il dibattito sulla natura stessa della probabilità è stato
molto lungo e articolato; esso ha interessato trasversalmente i campi della conoscenza dalla matematica
alla filosofia, e si è protratto fino ai giorni nostri producendo diverse interpretazioni e impostazioni. Per
maggiore chiarezza e precisione, è opportuno anzitutto distinguere la Teoria della Probabilità (che si occupa
della formalizzazione matematica dei concetti e dello sviluppo della teoria a partire da alcuni assunti) dalla
Statistica (che si occupa della determinazione o della stima della probabilità degli eventi aleatori, anche
utilizzando i risultati della Teoria della Probabilità). In questa breve premessa ci limitiamo a riassumere
in estrema sintesi alcune delle principali interpretazioni del concetto di probabilità: alcune di esse sono
maggiormente motivate dal calcolo e altre dalla teoria della probabilità. Partiamo dal considerare alcuni
eventi aleatori, posti in ordine crescente di complessità:
• E1 = “lanciando una moneta, si ottiene testa”;
• E2 = “il sig. Rossi non avrà incidenti in auto nei prossimi 12 mesi”;
• E3 = “entro 10 anni ci saranno auto a guida completamente autonoma”.
Esaminiamo tali eventi alla luce di alcune interpretazioni del concetto di probabilità:
• definizione classica: la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il
numero dei casi possibili. Per esempio, nel caso E1 la probabilità è pari a 12 = 50%. È la definizione
più antica di probabilità, attribuita a Pierre Simon Laplace (1749-1827). Questa definizione si limita
a considerare i fenomeni che ammettono un numero finito di casi possibili e nei quali i casi siano
equiprobabili: con questa interpretazione non è chiaro come studiare gli eventi E2 e E3 ;
• definizione frequentista (o statistica): si suppone che l’evento consista nel successo di un esperimento
riproducibile un numero indefinito di volte (per esempio, se l’esperimento è il lancio di una moneta,
l’evento potrebbe essere “ottenere testa”). Se Sn indica il numero di successi su n esperimenti, si
definisce (sarebbe meglio dire, si calcola) la probabilità come
Sn
lim .
n→∞ n
Alla base di questa definizione c’è la Legge empirica del caso (che, in termini teorici, corrisponde alla
Legge dei grandi numeri) per cui, per esempio, nel caso del lancio di una moneta si osserva empi-
ricamente che Snn approssima il valore 50% per n che tende all’infinito. La definizione frequentista
amplia notevolmente il campo di applicazione a tutti gli ambiti (fisica, economia, medicina etc) in cui
si posseggano dati statistici riguardanti eventi passati che si sono verificati in condizioni analoghe:
per esempio, si può calcolare la probabilità dell’evento E2 con una stima statistica in base a dati sto-
rici (come normalmente fanno le compagnie assicuratrici). L’approccio frequentista non permette di
studiare il terzo evento che non è l’esito di un “esperimento aleatorio riproducibile”;
• definizione soggettiva (o Bayesiana4 ): la probabilità è definita come una misura del grado di convin-
zione che un soggetto ha riguardo al verificarsi di un evento. In questo approccio, la probabilità non
4 Thomas Bayes (1701-1761).
14 CAPITOLO 1. INTRODUZIONE

è una proprietà intrinseca e oggettiva dei fenomeni casuali ma dipende dalla valutazione di un sog-
getto. Operativamente5 , la probabilità di un evento è definita come il prezzo che un individuo ritiene
equo pagare per ricevere 1 se l’evento si verifica e 0 se l’evento non si verifica: per esempio, la probabilità
di un evento è pari al 70% per un individuo che ritiene equo scommettere 70 per ricevere 100 nel
caso l’evento si verifichi e perdere tutto in caso contrario. La definizione è resa significativa assumen-
do un criterio di coerenza o razionalità dell’individuo che deve attribuire le probabilità in modo tale
che non sia possibile ottenere una vincita o una perdita certa (nel gergo finanziario odierno, si par-
lerebbe di assenza di possibilità di arbitraggio); occorre poi porre particolare attenzione per evitare
paradossi del tipo seguente: nell’esempio del lancio di una moneta, un individuo può essere disposto
a scommettere 1 euro per riceverne 2 in caso di “testa” e 0 in caso di “croce” (e quindi attribuendo
probabilità pari al 50% all’evento “testa”) ma lo stesso individuo potrebbe non essere disposto a gio-
care 1 milione di euro sulla stessa scommessa. L’approccio soggettivo è stato proposto e sviluppato da
Frank P. Ramsey (1903-1930), Bruno de Finetti (1906-1985) e successivamente da Leonard J. Savage
(1917-1971): esso generalizza i precedenti e permette di definire anche la probabilità di eventi come
E3 .
Il dibattito sulle possibili interpretazioni della probabilità si è protratto per lungo tempo ed è tuttora
aperto. Ma nella prima metà del secolo scorso c’è stato un punto di svolta decisivo, dovuto al lavoro del
matematico russo Andrej N. Kolmogorov (1903-1987). Egli per primo ha gettato le basi per la formaliz-
zazione matematica della probabilità, inserendola a pieno titolo nel novero delle discipline matematiche.
Kolmogorov ha messo in secondo piano i difficili problemi del fondamento logico e del dualismo fra la
visione oggettiva e soggettiva, concentrandosi sullo sviluppo della probabilità come teoria matematica. Il
contributo di Kolmogorov è fondamentale perché, aggirando i problemi epistemologici, ha sprigionato tut-
ta la potenza del ragionamento astratto e logico-deduttivo applicato allo studio della probabilità e ha cosı̀
agevolato il passaggio dal calcolo della probabilità alla teoria della probabilità. A partire dal lavoro di Kol-
mogorov e grazie al contributo di molti grandi matematici del secolo scorso, sono stati conseguiti risultati
profondi e aperti campi di ricerca ancora completamente inesplorati.
Ora è bene sottolineare che la formalizzazione matematica della probabilità richiede un considerevole
grado di astrazione. Pertanto, è assolutamente naturale che la teoria della probabilità risulti ostica, se
non incomprensibile, al primo impatto. Kolmogorov utilizza il linguaggio della teoria della misura: un
evento è identificato con un insieme E i cui elementi rappresentano singoli esiti possibili del fenomeno
aleatorio considerato; la probabilità P = P (E) è una misura, ossia una funzione d’insieme che gode di alcune
proprietà: per fissare le idee, si pensi alla misura di Lebesgue. L’utilizzo del linguaggio astratto della teoria
della misura è guardato da alcuni (anche da alcuni matematici) con sospetto perché sembra indebolire
l’intuizione. Tuttavia questo è il prezzo inevitabile che si deve pagare per poter sfruttare tutta la potenza
del ragionamento astratto e sintetico che è poi la vera forza dell’approccio matematico.
In queste libro presentiamo i primi rudimenti di teoria della probabilità secondo l’impostazione assio-
matica di Kolmogorov. Ci limiteremo a introdurre ed esaminare i concetti di spazio di probabilità, distribu-
zione e variabile aleatoria. Facendo un parallelo fra probabilità e analisi matematica, il contenuto di questo
testo corrisponde grossomodo all’introduzione dei numeri reali in un primo corso di analisi matematica:
ciò significa che faremo solo i primissimi passi nel vasto campo della Teoria della Probabilità.

La probabilità nel presente


Come affermato nella frase di David Mumford posta all’inizio dell’introduzione, al giorno d’oggi la
teoria della probabilità è considerata un ingrediente essenziale per lo sviluppo teorico della matematica e per
i fondamenti della matematica stessa. A titolo d’esempio, l’importante articolo di rassegna [82] racconta, con
dovizia di particolari, gli incredibili sviluppi della ricerca nella teoria processi stocastici dalla metà del
secolo scorso in poi.
5 Per quantificare, ossia tradurre in numero, il grado di convinzione di un soggetto su un evento, l’idea è di esaminare come il
soggetto agisce in una scommessa riguardante l’evento considerato.
15

Dal punto di vista applicativo, la teoria della probabilità è lo strumento utilizzato per modellizzare e
gestire il rischio in tutti gli ambiti in cui si studiano fenomeni in condizioni d’incertezza. Facciamo qualche
esempio:

• Fisica e Ingegneria dove si fa ampio uso dei metodi numerici stocastici di tipo Monte Carlo, forma-
lizzati fra i primi da Enrico Fermi e John von Neumann;

• Economia e Finanza, a partire dalla famosa formula di Black-Scholes-Merton per la quale gli autori
hanno ricevuto il premio Nobel. La modellistica finanziaria richiede generalmente un background
matematico-probabilistico-numerico avanzato: il contenuto di questo libro corrisponde grossomodo
all’Appendice A.1 di [94];

• Telecomunicazioni: la NASA utilizza il metodo di Kalman-Bucy per filtrare i segnali provenienti da


satelliti e sonde inviati nello spazio. Da [88], pag.2: “In 1960 Kalman and in 1961 Kalman and Bucy
proved what is now known as the Kalman-Bucy filter. Basically the filter gives a procedure for estimating
the state of a system which satisfies a “noisy” linear differential equation, based on a series of “noisy” obser-
vations. Almost immediately the discovery found applications in aerospace engineering (Ranger, Mariner,
Apollo etc.) and it now has a broad range of applications. Thus the Kalman-Bucy filter is an example of
a recent mathematical discovery which has already proved to be useful - it is not just “potentially” use-
ful. It is also a counterexample to the assertion that “applied mathematics is bad mathematics” and to the
assertion that “the only really useful mathematics is the elementary mathematics”. For the Kalman-Bucy
filter - as the whole subject of stochastic differential equations - involves advanced, interesting and first class
mathematics”.

• Medicina e Botanica: il più importante processo stocastico, il moto Browniano, prende il nome da
Robert Brown, un botanico che verso il 1830 osservò il movimento irregolare di particelle colloidali
in sospensione. Il moto Browniano è stato utilizzato da Louis Jean Baptist Bachelier nel 1900 nella
sua tesi di dottorato di ricerca per modellizzare i prezzi delle azioni ed è stato oggetto di uno dei più
famosi lavori di Albert Einstein pubblicato nel 1905. La prima definizione matematicamente rigorosa
di moto Browniano è stata data da Norbert Wiener nel 1923.

• Genetica: è la scienza che studia la trasmissione dei caratteri e i meccanismi con i quali questi vengo-
no ereditati. Gregor Johann Mendel (1822-1884), monaco agostiniano ceco considerato il precursore
della moderna genetica, diede un fondamentale contributo di tipo metodologico applicando per la
prima volta il calcolo delle probabilità allo studio dell’ereditarietà biologica.

• Informatica: i computer quantistici sfruttano le leggi della meccanica quantistica per l’elaborazione
dei dati. In un computer attuale l’unità di informazione è il bit: mentre possiamo sempre determinare
lo stato di un bit e stabilire con precisione se è 0 o 1, non possiamo determinare con altrettanta
precisione lo stato di un qubit, l’unità di informazione quantistica, ma solo le probabilità che assuma
i valori 0 e 1.

• Giurisprudenza: il verdetto emesso da un giudice di un tribunale si basa sulla probabilità di colpe-


volezza dell’imputato stimata a partire dalle informazioni fornite dalle indagini. In questo ambito
il concetto di probabilità condizionata gioca un ruolo fondamentale e un suo uso non corretto è alla
base di clamorosi errori giudiziari: alcuni di essi sono raccontati in [95].

• Meteorologia: per la previsione oltre il quinto giorno è fondamentale poter disporre di modelli me-
teorologici di tipo probabilistico; i modelli probabilistici girano generalmente nei principali centri
meteo internazionali perché necessitano di procedure statistico-matematiche molto complesse e one-
rose a livello computazionale. A partire dal 2020 il Data Center del Centro europeo per le previsioni
meteorologiche a medio termine (European Center Medium Weather Forecast, in sigla ECMWF) ha sede
a Bologna.
16 CAPITOLO 1. INTRODUZIONE

• Applicazioni militari: da [108] p.139: “In 1938, Kolmogorov had published a paper that established the
basic theorems for smoothing and predicting stationary stochastic processes. An interesting comment on
the secrecy of war efforts comes from Norbert Wiener (1894-1964) who, at the Massachusetts Institute of
Technology, worked on applications of these methods to military problems during and after the war. These
results were considered so important to America’s Cold War efforts that Wiener’s work was declared top
secret. But all of it, Wiener insisted, could have been deduced from Kolmogorov’s early paper.”
Infine la probabilità è alla base dello sviluppo delle più recenti tecnologie di Machine Learning e tutte le re-
lative applicazioni all’intelligenza artificiale, auto a guida autonoma, riconoscimento vocale e di immagini
etc (si veda, per esempio, [51] e [102]). Al giorno d’oggi, una conoscenza avanzata di Teoria della Probabi-
lità è il requisito minimo per chiunque voglia occuparsi di matematica applicata in uno degli ambiti sopra
menzionati.
Per concludere, penso si possa convenire sul fatto che se studiamo matematica è anzitutto perché ci piace
e non tanto perché ci garantirà un lavoro futuro. Certamente la matematica non ha bisogno di giustificarsi
con le applicazioni. Ma è anche vero che non viviamo sulla luna e un lavoro prima o poi dovremo trovarlo.
Allora è importante conoscere le applicazioni reali della matematica: esse sono numerose, richiedono cono-
scenze avanzate, assolutamente non banali tanto da poter soddisfare anche il gusto estetico di un cosiddetto
“matematico puro”. Infine, per chi volesse cimentarsi con la ricerca pura, la teoria della probabilità è cer-
tamente uno dei campi più affascinanti e meno esplorati, in cui il contributo delle migliori giovani menti è
fondamentale e fortemente auspicabile.

Nota bibliografica
Esistono molti eccellenti testi di introduzione alla Teoria della Probabilità: fra i miei preferiti, e che sono
stati la maggiore fonte di ispirazione e di idee, ci sono quelli di Bass [11], Durrett [35], Klenke [59] e Wil-
liams [126]. Di seguito elenco in ordine alfabetico altri importanti testi di riferimento: Baldi [5], Bass [9],
Bauer [14], Biagini e Campanino [17], Billingsley [18], Caravenna e Dai Pra [25], Feller [42], Jacod e Protter
[55], Kallenberg [57], Letta [75], Neveu [85], Pintacuda [97], Shiryaev [112], Sinai [113]. Questo libro può
essere considerato un ulteriore tentativo di raccogliere in maniera ordinata, sintetica e completa le nozioni
basilari di probabilità in modo da agevolare studi successivi più avanzati. Fra le numerose monografie di
introduzione alla ricerca nel campo della teoria dei processi stocastici e del calcolo differenziale stocastico,
mi limito a citare Baldi [6], Bass [10], Baudoin [13], Doob [33], Durrett [34], Friedman [46], Karatzas e
Shreve [58], Mörters e Peres [83], Revuz e Yor [103], Schilling [110], Stroock [115].
17

Alcuni simboli e notazioni usati frequentemente


• A := B significa che A è, per definizione, uguale a B
U
• indica l’unione disgiunta
S
• An ↗ A indica che (An )n∈N è una successione crescente di insiemi tale che A = An
n∈N
T
• An ↘ A indica che (An )n∈N è una successione decrescente di insiemi tale che A = An
n∈N

• ♯A oppure |A| indica la cardinalità dell’insieme A. A ↔ B se |A| = |B|

• Bd = B(Rd ) è la σ -algebra di Borel in Rd ; B := B1

• mF (risp. mF + , bF ) la classe delle funzioni F -misurabili (risp. F -misurabili e non-negative, F -


misurabili e limitate)

• N famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16)

• insiemi numerici:

– numeri naturali: N = {1, 2, 3, ...}, N0 = N ∪ {0}, In := {1, . . . , n} per n ∈ N


¯ = R ∪ {±∞}, reali positivi R>0 = ]0, +∞[, non-negativi R≥0 = [0, +∞[
– numeri reali R, reali estesi R

• Lebd indica la misura di Lebesgue d-dimensionale; Leb := Leb1

• funzione indicatrice di un insieme A



1 se x ∈ A


1A (x) := 
0
 altrimenti

• prodotto scalare Euclideo:

d
X
⟨x, y⟩ = x · y = xi y i , x = (x1 , . . . , xd ), y = (y1 , . . . , yd ) ∈ Rd
i=1

Nelle operazioni matriciali, il vettore d-dimensionale x viene identificato con la matrice colonna d ×1.

• massimo e minimo di numeri reali:

x ∧ y = min{x, y}, x ∨ y = max{x, y}

• parte positiva e negativa:


x+ = x ∨ 0, x− = (−x) ∨ 0

• argomento del massimo e del minimo di f : A −→ R:

arg max f (x) = {y ∈ A | f (y) ≥ f (x) per ogni x ∈ A}


x∈A
arg min f (x) = {y ∈ A | f (y) ≤ f (x) per ogni x ∈ A}
x∈A
18 CAPITOLO 1. INTRODUZIONE

Abbreviazioni
v.a. = variabile aleatoria
q.c. = quasi certamente. Una certa proprietà vale q.c. se esiste N ∈ N (insieme trascurabile) tale che la
proprietà è vera per ogni ω ∈ Ω \ N
q.o. = quasi ovunque (rispetto alla misura di Lebesgue)

Segnaliamo l’importanza dei risultati con i seguenti simboli:


[!] significa che bisogna porre molta attenzione e cercare di capire bene, perché si sta introducendo un
concetto importante, un’idea o una tecnica nuova
[!!] significa che il risultato è molto importante
[!!!] significa che il risultato è fondamentale
Parte I

Variabili aleatorie e distribuzioni

19
Capitolo 2

Misure e spazi di probabilità

The philosophy of the foundations of


probability must be divorced from
mathematics and statistics, exactly
as the discussion of our intuitive
space concept is now divorced from
geometry.

William Feller

Si parla genericamente di Probabilità in riferimento a fenomeni incerti, il cui esito non è noto con
sicurezza. Come sottolinea Costantini [28], non è semplice dare una definizione generale e negli ultimi
secoli molti studiosi hanno cercato risposte a domande del tipo:
1) cos’è la Probabilità?
2) come si calcola1 la Probabilità?
3) come “funziona”2 la Probabilità?
D’altra parte, solo in tempi relativamente recenti si è iniziato a comprendere la differente natura di tali
quesiti e il fatto che debbano essere indagati con metodi e strumenti specifici di discipline diverse e ben
distinte:
1) in Filosofia si indaga il concetto di Probabilità e il suo possibile significato, cercando di darne una
definizione e studiarne la natura da un punto di vista generale. L’approccio filosofico ha portato a
interpretazioni e definizioni anche molto differenti;
2) la Statistica è la disciplina che studia i metodi per la stima e la valutazione della Probabilità a partire
da osservazioni e dati disponibili sul fenomeno aleatorio considerato;
3) la Teoria della Probabilità è la disciplina puramente matematica che applica il ragionamento astratto
e logico-deduttivo per formalizzare la Probabilità e le sue regole, partendo da assiomi e definizioni
primitive (come lo sono, per analogia, i concetti di punto e di retta in Geometria).
1 Sono molti i casi in cui è importante calcolare o almeno stimare la probabilità di un evento incerto. Per esempio, un giocatore
d’azzardo è interessato a conoscere la probabilità di ottenere una certa mano al gioco del Poker; una compagnia di assicurazioni deve
stimare la probabilità che un proprio assicurato abbia uno o più incidenti nel corso di un anno; un’industria che produce auto vuole
stimare la probabilità che il prezzo dell’acciaio non superi un certo valore; una compagnia aerea può fare overbooking in base alla
probabilità che un certo numero di viaggiatori non si presenti all’imbarco.
2 In altri termini, è possibile formalizzare i principi e le regole generali della Probabilità in termini matematici rigorosi, in analogia
con quanto si fa per esempio nella geometria Euclidea?

21
22 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Quando si affronta per la prima volta lo studio della Probabilità, confusione e fraintendimenti possono de-
rivare dal non distinguere adeguatamente i diversi approcci (filosofico, statistico e matematico). In questo
testo assumiamo esclusivamente il punto di vista matematico: il nostro scopo è fornire un’introduzione alla
Teoria della Probabilità.

2.1 Spazi misurabili e spazi di probabilità


La Teoria della Probabilità studia i fenomeni il cui esito è incerto: questi vengono detti fenomeni aleatori
(o esperimenti aleatori). Esempi banali di fenomeni aleatori sono il lancio di una moneta o l’estrazione di
una carta da un mazzo. Gli esiti di un fenomeno aleatorio non sono necessariamente tutti “equivalenti”
nel senso che, per qualche motivo, un esito può essere più “probabile” (plausibile, verosimile, atteso etc)
di un altro. Si noti che, poiché per definizione nessuno degli esiti possibili può essere scartato a priori,
la Teoria della Probabilità non si propone di prevedere l’esito di un fenomeno aleatorio (cosa impossibile!)
ma stimare, nel senso di misurare, il grado di attendibilità (la probabilità) dei singoli esiti possibili o della
combinazione di alcuni di essi. Questo è il motivo per cui gli strumenti matematici e il linguaggio su cui
si basa la moderna Teoria della Probabilità sono quelli della teoria della misura che è anche il punto di
partenza della nostra trattazione. La Sezione 2.1.1 è dedicata al richiamo delle prime definizioni e concetti
di teoria della misura; nella successiva Sezione 2.1.2 ne diamo l’interpretazione probabilistica.

2.1.1 Spazi misurabili


Definizione 2.1.1 (Spazio misurabile). Uno spazio misurabile è una coppia (Ω, F ) dove:

i) Ω è un insieme non vuoto;

ii) F è una σ -algebra su Ω, ossia F è una famiglia non vuota di sottoinsiemi di Ω che soddisfa le seguenti
proprietà:

ii-a) se A ∈ F allora Ac := Ω \ A ∈ F ;
ii-b) l’unione numerabile di elementi di F appartiene ad F .

La proprietà ii-a) si esprime dicendo che F è una famiglia chiusa rispetto al passaggio al complementare;
la proprietà ii-b) si esprime dicendo che F è una famiglia σ -∪-chiusa (chiusa rispetto all’unione numerabile).

Osservazione 2.1.2. Dalla proprietà ii-b) segue anche che se A, B ∈ F allora A ∪ B ∈ F , ossia F è ∪-chiusa
(chiusa rispetto all’unione finita). Infatti dati A, B ∈ F , si può costruire la successione C1 = A, Cn = B per
ogni n ≥ 2; allora

[
A∪B = Cn ∈ F .
n=1

Una σ -algebra F è non vuota per definizione e quindi esiste A ∈ F e, per la ii-a), si ha Ac ∈ F : allora anche
Ω = A ∪ Ac ∈ F e, ancora per ii-a), ∅ ∈ F . Osserviamo che {∅, Ω} è la più piccola σ -algebra su Ω; viceversa,
l’insieme delle parti P(Ω) è la più grande σ -algebra su Ω.
Notiamo anche che l’intersezione finita o numerabile di elementi di una σ -algebra F appartiene a F :
infatti se (An ) è una famiglia finita o numerabile in F , combinando le proprietà ii-a) e ii-b), si ha che
\ [ c
An = Acn ∈ F.
n n

Di conseguenza, si dice che F è ∩-chiusa e σ -∩-chiusa.


2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 23

Definizione 2.1.3 (Misura). Una misura sullo spazio misurabile (Ω, F ) è una funzione
µ : F −→ [0, +∞]
tale che:
iii-a) µ(∅) = 0;
iii-b) µ è σ -additiva su F , ossia per ogni successione (An )n∈N di elementi disgiunti di F vale3
∞  ∞
]  X
µ  An  =
 µ (An ) .
n=1 n=1

Osservazione 2.1.4. Ogni misura µ è additiva nel senso che, per ogni famiglia finita A1 , . . . , An di insiemi
disgiunti in F , vale  n 
]  X n
µ  Ak  = µ (Ak ) .
k=1 k=1
Infatti, posto Ak = ∅ per k > n, si ha
 n  ∞ 
]  ] 
µ  Ak  = µ  Ak  =
k=1 k=1

(per la σ -additività)

X
= µ (Ak ) =
k=1

(per il fatto che µ(∅) = 0)


n
X
= µ (Ak ) .
k=1

Definizione 2.1.5. Una misura µ su (Ω, F ) si dice finita se µ(Ω) < ∞ e si dice σ -finita se esiste una succes-
sione (An ) in F tale che [
Ω= An e µ(An ) < +∞, n ∈ N.
n∈N
Esempio 2.1.6. Il primo esempio di misura σ -finita che si incontra nei corsi di analisi matematica è la
misura di Lebesgue; essa è definita sullo spazio Euclideo d-dimensionale, Ω = Rd , munito della σ -algebra
degli insiemi misurabili secondo Lebesgue.

2.1.2 Spazi di probabilità


Definizione 2.1.7 (Spazio di probabilità). Uno spazio con misura (Ω, F , µ) in cui µ(Ω) = 1 è detto spazio
di probabilità: in questo caso, di solito utilizziamo la lettera P al posto di µ e diciamo che P è una misura di
probabilità (o semplicemente una probabilità).
In uno spazio di probabilità (Ω, F , P ), ogni elemento ω ∈ Ω è detto esito; ogni A ∈ F è chiamato evento
e il numero P (A) è detto probabilità di A. Inoltre diciamo che Ω è lo spazio campionario e F è la σ -algebra
degli eventi.
Nel caso in cui Ω sia finito o numerabile, assumiamo sempre F = P(Ω) e diciamo che (Ω, P(Ω), P ) (o,
più semplicemente, (Ω, P )) è uno spazio di probabilità discreto. Se invece Ω non è numerabile, parliamo di
spazio di probabilità continuo (o generale).
3 Ricordiamo che il simbolo U indica l’unione disgiunta. Osserviamo che U A ∈ F poiché F è una σ -algebra.
n
n∈N
24 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Esempio 2.1.8. [!] Consideriamo il fenomeno aleatorio del lancio di un dado regolare a sei facce. Lo spazio
campionario
Ω = {1, 2, 3, 4, 5, 6}
rappresenta gli stati possibili (esiti) dell’esperimento aleatorio considerato. Intuitivamente, un evento è
un’affermazione relativa all’esito dell’esperimento, per esempio:

i) A = “il risultato del lancio è un numero dispari”;

ii) B = “il risultato del lancio è il numero 4”;

iii) C = “il risultato del lancio è maggiore di 7”.

Ad ogni affermazione corrisponde un sottoinsieme di Ω:

i) A = {1, 3, 5};

ii) B = {4};

iii) C = ∅.

Questo spiega perché matematicamente abbiamo definito un evento come un sottoinsieme di Ω. In parti-
colare, B è detto un evento elementare poiché è costituito da un singolo esito. È bene porre attenzione nel
distinguere l’esito 4 dall’evento elementare {4}.
Le operazioni logiche fra eventi hanno una traduzione in termini di operazioni insiemistiche, per esempio:

• “A oppure B” corrisponde a A ∪ B;

• “A e B” corrisponde a A ∩ B;

• “non A” corrisponde a Ac = Ω \ A;

• “A ma non B” corrisponde a A \ B.

Esempio 2.1.9. Un corridore ha la probabilità del 30% di vincere la gara dei 100 metri, la probabilità del
40% di vincere la gara dei 200 metri e la probabilità del 50% di vincere almeno una delle due gare. Qual è
la probabilità che vinca entrambe le gare?
Posto

i) A = “il corridore vince la gara dei 100 metri”,

ii) B = “il corridore vince la gara dei 200 metri”,

i dati del problema sono: P (A) = 30%, P (B) = 40% e P (A ∪ B) = 50%. Si chiede di determinare P (A ∩ B).
Usando le operazioni insiemistiche (al riguardo si veda anche il successivo Lemma 2.1.25) si prova che

P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 20%.

Osservazione 2.1.10. Lo spazio campionario Ω è, per definizione, un generico insieme non vuoto: è lecito
domandarsi che senso abbia assumere un tale grado di generalità. In effetti vedremo che nei problemi più
classici Ω sarà semplicemente un insieme finito oppure lo spazio Euclideo Rd . Tuttavia, nelle applicazioni
più interessanti può anche capitare che Ω sia uno spazio funzionale (come, per esempio, lo spazio delle
funzioni continue). Spesso Ω avrà anche una certa struttura, per esempio quella di spazio metrico, per avere
a disposizione alcuni strumenti utili allo sviluppo della teoria.
2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 25

Esempio 2.1.11 (Probabilità uniforme discreta). Sia Ω finito. Per ogni A ⊆ Ω indichiamo con |A| la
cardinalità di A e poniamo
|A|
P (A) = . (2.1.1)
|Ω|
Allora P è una misura di probabilità, detta probabilità uniforme, e per definizione vale
1
P ({ω}) = , ω ∈ Ω,
|Ω|
ossia ogni esito è “equiprobabile”. La probabilità uniforme corrisponde al concetto classico di probabilità
secondo Laplace, come ricordato nella premessa. Per esempio, nel caso del lancio di un dado regolare a sei
facce, è naturale considerare la probabilità uniforme
1
P ({ω}) = , ω ∈ Ω := {1, 2, 3, 4, 5, 6}.
6
Osservazione 2.1.12. Uno spazio di probabilità in cui ogni evento elementare è equiprobabile e ha proba-
bilità positiva, è necessariamente finito. Di conseguenza, per esempio, non è possibile definire la probabilità
uniforme su N: infatti dovrebbe essere P ({n}) = 0 per ogni n ∈ N e di conseguenza, per la σ -additività, anche
P (N) = 0 che è assurdo.
Osservazione 2.1.13. [!] In uno spazio di probabilità discreto (Ω, P ), consideriamo la funzione
p : Ω −→ [0, 1], p(ω) = P ({ω}), ω ∈ Ω.
È chiaro che p è una funzione non-negativa che gode della proprietà
X X
p(ω) = P ({ω}) = P (Ω) = 1. (2.1.2)
ω∈Ω ω∈Ω

Si noti che le somme in (2.1.2) sono serie a termini non-negativi e pertanto il loro valore non dipende
dall’ordine degli addendi. La seconda uguaglianza in (2.1.2) è conseguenza della σ -additività di P .
Possiamo dire che esiste
P una relazione biunivoca fra p e P nel senso che, data una qualsiasi funzione
non-negativa p tale che p(ω) = 1, e posto
ω∈Ω
X
P (A) := p(ω), A ⊆ Ω,
ω∈A

si ha che P è una probabilità discreta su Ω.


In altri termini, una probabilità discreta è definita univocamente dalle probabilità dei singoli eventi elemen-
tari. Dal punto di vista operativo, è molto più semplice definire la probabilità dei singoli eventi elementari
(ossia p) che non definire esplicitamente P assegnando la probabilità di tutti gli eventi. Si pensi che, per
esempio, se Ω ha cardinalità 100 allora p è definita dai cento valori p(ω), con ω ∈ Ω, mentre P è definita su
P(Ω) che ha cardinalità 2100 ≈ 1030 .
Osservazione 2.1.14 (Probabilità nella scuola secondaria). [!] L’osservazione precedente ci suggerisce un
modo ragionevole e sintetico per introdurre il concetto di probabilità nella scuola secondaria: anzitutto,
in base ai programmi ministeriali, almeno fino al quart’anno di scuola secondaria superiore è sufficiente
considerare il caso di spazi campionari finiti (o, al massimo, numerabili)
Ω = {ω1 , . . . , ωN },
con N ∈ N, descrivendo i concetti di esito ed evento come nell’Esempio 2.1.8. Poi si può spiegare che intro-
durre una misura di probabilità P su Ω significa assegnare le probabilità dei singoli esiti: precisamente, si
fissano alcuni numeri p1 , . . . , pN tali che
p1 , . . . , pN ≥ 0 e p1 + · · · + pN = 1, (2.1.3)
26 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

dove pi indica la probabilità dell’i-esimo evento elementare, ossia

pi = P ({ωi }), i = 1, . . . , N .

Infine, per definizione, per ogni evento A si pone


X
P (A) = P ({ω}). (2.1.4)
ω∈A

Questa definizione di spazio di probabilità (Ω, P ) è equivalente alla definizione generale (Definizione 2.1.7,
ovviamente nel caso di Ω finito). La cosiddetta probabilità classica o uniforme è quella in cui gli esiti sono
equiprobabili, p1 = p2 = · · · = pN , per cui dalla (2.1.3) si deduce che il loro valore comune è N1 . Dunque
la probabilità classica è solo un caso molto particolare, anche se significativo, fra le infinite misure di
probabilità che si possono scegliere: in quel caso, chiaramente la (2.1.4) si riduce alla formula dei “casi
favorevoli su casi possibili”.

Esempio 2.1.15. Diamo una soluzione alternativa al problema dell’Esempio 2.1.9. Possiamo usare come
spazio campionario Ω = {vv, vp, pv, pp}, dove vv è l’esito in cui il corridore vince entrambe le gare, vp è
l’esito in cui il corridore vince la prima gara e perde la seconda, e cosı̀ via: quindi A = {vv, vp} e B = {vv, pv}.
Se p = p(ω) indica la probabilità dei singoli esiti, in base ai dati del problema otteniamo il sistema lineare



 p(vv) + p(vp) = 30%

p(vv) + p(pv) = 40%




p(vv) + p(vp) + p(pv) = 50%

da cui ricaviamo p(vv) = P (A ∩ B) = 20%, p(vp) = 10%, p(pv) = 20% e p(pp) = 1 − p(vv) − p(vp) − p(pv) = 50%.

Concludiamo la sezione con un paio di definizioni che useremo spesso in seguito.

Definizione 2.1.16 (Insiemi trascurabili e quasi certi). In uno spazio di probabilità (Ω, F , P ) diciamo che:

• un sottoinsieme N di Ω è trascurabile per P se N ⊆ A con A ∈ F tale che P (A) = 0;

• un sottoinsieme C di Ω è quasi certo per P se il suo complementare è trascurabile o, equivalentemente,


se esiste B ∈ F tale che B ⊆ C e P (B) = 1.

Indichiamo con N la famiglia degli insiemi trascurabili in (Ω, F , P ).

Gli insiemi trascurabili e quasi certi non sono necessariamente eventi e quindi in generale la probabilità
P (A) non è definita per A trascurabile o quasi certo.

Definizione 2.1.17 (Spazio completo). Uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F .

Osservazione 2.1.18. In uno spazio completo gli insiemi trascurabili (e di conseguenza anche i quasi certi)
per P sono eventi. Pertanto in uno spazio completo si ha che

• N è trascurabile se e solo se P (N ) = 0;

• C è quasi certo se e solo se P (C) = 1.

Chiaramente la proprietà di completezza dipende dalla misura di probabilità considerata. Vedremo in se-
guito che è sempre possibile “completare” uno spazio di probabilità (cfr. Osservazione 2.4.3) e spiegheremo
l’importanza della proprietà di completezza (si vedano, per esempio, le Osservazioni 3.1.11 e 3.1.14).
2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 27

2.1.3 Algebre e σ -algebre


Il suffisso “σ -” (per esempio, in σ -algebra o σ -additività) è usato per specificare che una definizione o
una proprietà è valida per quantità numerabili e non solo finite. In analogia con il concetto di σ -algebra,
diamo la seguente utile
Definizione 2.1.19 (Algebra). Un’algebra è una famiglia non vuota A di sottoinsiemi di Ω tale che:
i) A è chiusa rispetto al passaggio al complementare;
ii) A è ∪-chiusa (ossia chiusa rispetto all’unione finita).
Ogni σ -algebra è un’algebra. Se A, B ∈ A allora A ∩ B = (Ac ∪ Bc )c ∈ A e di conseguenza A è ∩-chiusa.
Esempio 2.1.20. [!] In R si consideri la famiglia A formata dalle unioni finite di intervalli (non necessaria-
mente limitati) del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
dove per convenzione
]a, a] = ∅, ]a, b] = {x ∈ R | x > a}
nel caso b = +∞.
Si i
Notiamo che A è un’algebra ma non una σ -algebra poiché, per esempio, 0, 1 − n1 = ]0, 1[ < A .
n≥1

Poiché ci sarà utile considerare misure definite su algebre, diamo la seguente estensione del concetto di
misura (cfr. Definizione 2.1.3).
Definizione 2.1.21 (Misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una misura su A è
una funzione
µ : A −→ [0, +∞]
tale che:
i) µ(∅) = 0;
ii) µ è σ -additiva su A nel senso che per ogni successione (An )n∈N di elementi disgiunti di A , tale che
An ∈ A , vale
U
A :=
n∈N

X
µ (A) = µ (An ) .
n=1

Proviamo alcune proprietà basilari delle misure (e quindi, in particolare, delle misure di probabilità).
Proposizione 2.1.22. Sia µ una misura su un’algebra A . Valgono le seguenti proprietà:
i) Monotonia: per ogni A, B ∈ A tali che A ⊆ B vale

µ(A) ≤ µ(B), (2.1.5)

e, se inoltre µ(A) < ∞, vale


µ(B \ A) = µ(B) − µ(A). (2.1.6)
In particolare, se P è una misura di probabilità si ha

P (Ac ) = 1 − P (A); (2.1.7)

ii) σ -subadditività: per ogni A ∈ A e (An )n∈N successione in A , vale


[ ∞
X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n=1
28 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Dimostrazione. Proviamo la i): se A ⊆ B allora, per l’additività di µ ed essendo B \ A ∈ A , si ha

µ(B) = µ(A ⊎ (B \ A)) = µ(A) + µ(B \ A).

Dal fatto che µ(B \ A) ≥ 0 segue la (2.1.5) e, nel caso particolare in cui µ(A) < ∞, segue anche la (2.1.6).
Per provare la ii), poniamo
n
[
e1 := A1 ∩ A,
A en+1 := A ∩ An+1 \
A Ak .
k=1

Osserviamo che A en ⊆ An . Inoltre gli insiemi Aen appartengono all’algebra A poiché sono ottenuti con
operazioni finite da elementi di A e, per ipotesi, vale
]
en = A ∈ A .
A
n∈N

Allora, per monotonia si ha


 
 ] 
µ(A) = µ  en  =
A 
n∈N

(per σ -additività e poi ancora per monotonia)



X ∞
X
= en ) ≤
µ(A µ (An ) .
n=1 n=1

Esempio 2.1.23. La (2.1.7) è utile per risolvere problemi del tipo seguente: calcoliamo la probabilità di
ottenere almeno un 6 lanciando 8 volte un dado. Definiamo Ω come l’insieme delle possibili sequenze di
lanci: allora |Ω| = 68 . Possiamo determinare la probabilità dell’evento che ci interessa (chiamiamolo A) più
facilmente considerando Ac , ossia l’insieme delle sequenze che non contengono 6: infatti si avrà |Ac | = 58 e
quindi per la (2.1.7)
58
P (A) = 1 − P (Ac ) = 1 − 8 .
6
Esercizio 2.1.24. Siano A, B eventi certi, ossia tali che P (A) = P (B) = 1. Provare che anche A ∩ B è un evento
certo.

Lemma 2.1.25. Sia A un’algebra. Una funzione

µ : A −→ [0, +∞]

tale che µ(∅) = 0, è additiva se e solo se vale

µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B), A, B ∈ F . (2.1.8)

Dimostrazione. Se µ è additiva allora

µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B \ A) + µ(A ∩ B) = µ(A) + µ(B).

Viceversa, dalla (2.1.8) con A, B disgiunti si ha l’additività di µ.


2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 29

Osservazione 2.1.26. Nel caso di misure di probabilità, la (2.1.8) si riscrive utilmente nella forma

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (2.1.9)

Esempio 2.1.27. Lanciando due dadi, qual è la probabilità che almeno uno dei due lanci abbia un risultato
minore o uguale a 3?
Poniamo In = {k ∈ N | k ≤ n} e consideriamo lo spazio campionario Ω = I6 × I6 delle possibili coppie di
risultati dei lanci. Sia A = I3 × I6 (e rispettivamente B = I6 × I3 ) l’evento in cui il risultato del primo dado
(rispettivamente del secondo dado) sia minore o uguale a 3. Ci è chiesto di calcolare la probabilità di A ∪ B.
Notiamo che A, B non sono disgiunti e nella probabilità uniforme P , contando gli elementi, abbiamo

3·6 1 3·3 1
P (A) = P (B) = = , P (A ∩ B) = = .
6·6 2 6·6 4
Allora per la (2.1.9) otteniamo

3
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = .
4
Osservazione 2.1.28. La (2.1.8) si generalizza facilmente al caso di tre insiemi A1 , A2 , A3 ∈ F :

P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ∪ A3 ) − P ((A1 ∩ A2 ) ∪ (A1 ∩ A3 ))


= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+ P (A1 ∩ A2 ∩ A3 ).

In generale, si prova per induzione la seguente formula


 n  n
[  X X
P  Ak  =

 
 (−1)k−1 P (Ai1 ∩ · · · ∩ Aik )
k=1 k=1 {i1 ,...,ik }⊆{1,...,n}

dove l’ultima somma è intesa su tutti i sottoinsiemi di {1, . . . , n} con k elementi.


Esempio 2.1.29. Siano A, B eventi in (Ω, F , P ). Se P (A) = 1 allora P (A ∩ B) = P (B). Infatti per l’additività
finita di P si ha
P (B) = P (A ∩ B) + P (Ac ∩ B) = P (A ∩ B)
poiché, per la (2.1.5), P (Ac ∩ B) ≤ P (Ac ) = 0.

2.1.4 Additività finita e σ -additività


In uno spazio di probabilità generale, la σ -additività è una proprietà più forte dell’additività. Capiremo
fra poco, con la Proposizione 2.1.32, l’importanza di richiedere la σ -additività nella definizione di misura
di probabilità: questo è un punto abbastanza delicato come vediamo nel prossimo esempio.
Esempio 2.1.30 (Probabilità uniforme continua). Supponiamo di voler definire il concetto di probabilità
uniforme sull’intervallo reale Ω = [0, 1]. Dal punto di vista intuitivo, risulta naturale porre

P ([a, b]) = b − a, 0 ≤ a ≤ b ≤ 1. (2.1.10)

Allora ovviamente P (Ω) = 1 e la probabilità dell’evento [a, b] (che può essere interpretato come l’evento
“un punto scelto a caso in [0, 1] appartiene ad [a, b]”) dipende solo dalla lunghezza di [a, b] ed è invariante
per traslazione. Notiamo che P ({x}) = P ([x, x]) = 0 per ogni x ∈ [0, 1], ossia ogni esito ha probabilità nulla,
e P altro non è che la misura di Lebesgue. Giuseppe Vitali provò nel 1905 (cf. [125]) che non è possibile
estendere la misura di Lebesgue a tutto l’insieme delle parti P(Ω) o, in altri termini, non esiste P definita
30 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

sull’insieme delle parti di [0, 1], che sia σ -additiva e soddisfi la (2.1.10). Se questo è vero ne viene che, nel
caso di spazi di probabilità generali, diventa necessario introdurre una σ -algebra di eventi su cui definire P :
in generale, tale σ -algebra sarà più piccola dell’insieme delle parti di Ω.
Nel nostro contesto, il risultato di Vitali può essere enunciato nel modo seguente: non esiste una misura
di probabilità P su ([0, 1], P([0, 1])) che sia invariante per traslazioni, ossia tale che P (A) = P (Ax ) per ogni
A ⊆ [0, 1] e x ∈ [0, 1], dove

Ax = {y ∈ [0, 1] | y = a + x oppure y = a + x − 1 per un certo a ∈ A}.

La dimostrazione procede per assurdo ed è basata sull’assioma della scelta. Consideriamo su [0, 1] la rela-
zione di equivalenza x ∼ y se e solo se (x − y) ∈ Q: per l’assioma della scelta, da ogni classe di equivalenza
è possibile selezionare un rappresentante e fatto ciò, indichiamo con A l’insieme formato da tali rappre-
sentanti. Ora, per ipotesi, P (Aq ) = P (A) per ogni q ∈ Q ∩ [0, 1] e inoltre Aq ∩ Ap = ∅ per q , p in Q ∩ [0, 1].
Dunque otteniamo ]
[0, 1] = Aq
q∈Q∩[0,1]

e se P fosse σ -additiva, si avrebbe


X X
1 = P ([0, 1]) = P (Aq ) = P (A).
q∈Q∩[0,1] q∈Q∩[0,1]

Tuttavia l’ultima somma può solo assumere il valore 0 (nel caso in cui P (A) = 0) oppure divergere (nel caso
in cui P (A) > 0) e ciò porta ad un assurdo. Si noti che l’assurdo è conseguenza della richiesta di additività
numerabile (ossia σ -additività) di P .

Notazione 2.1.31. Nel seguito scriveremo

An ↗ A e Bn ↘ B
S
per indicare che (An )n∈N è una successione crescente di insiemi tale che A = An , e (Bn )n∈N è una
T n∈N
successione decrescente di insiemi tale che B = Bn .
n∈N

La σ -additività ha le seguenti importanti caratterizzazioni.

Proposizione 2.1.32. [!] Sia A un’algebra su Ω e

µ : A −→ [0, +∞]

una funzione additiva. Le seguenti proprietà sono equivalenti:

i) µ è σ -additiva;

ii) µ è σ -subadditiva4 ;

iii) µ è continua dal basso, ossia per ogni successione (An )n∈N in A tale che An ↗ A, con A ∈ A , vale

lim µ(An ) = µ (A) .


n→∞
4 Per ogni A ∈ A e per ogni successione (A )
n n∈N di elementi di A tale che A ⊆
S
An , vale
n∈N

X
µ(A) ≤ µ (An ) .
n=1
2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 31

Inoltre, se vale i) allora si ha anche


iv) µ è continua dall’alto, ossia per ogni successione (Bn )n∈N in A , tale che µ(B1 ) < ∞ e Bn ↘ B ∈ A , vale

lim µ(Bn ) = µ (B) .


n→∞

Infine, se µ(Ω) < ∞ allora i), ii), iii) e iv) sono equivalenti.
Dimostrazione. Preliminarmente osserviamo che µ è monotona: questo si prova come la Proposizione 2.1.22-
i).
[i) ⇒ ii)] È il contenuto della Proposizione 2.1.22-ii).
[ii) ⇒ iii)] Sia A ∋ An ↗ A ∈ A . Per monotonia si ha

lim µ(An ) ≤ µ(A).


n→∞

D’altra parte, poniamo


C1 = A1 , Cn+1 = An+1 \ An , n ∈ N.
Allora (Cn ) è una successione disgiunta in A e vale
] 
µ(A) = µ Ck ≤
k≥1

(per la σ -subadditività di µ)

X n
X
≤ µ(Ck ) = lim µ(Ck ) =
n→∞
k=1 k=1

(per l’additività finita di µ)

= lim µ(An ).
n→∞

[iii) ⇒ i)] Sia (An )n∈N una successione di elementi disgiunti di A , tale che A := An ∈ A . Posto
U
n∈N
n
[
Ān = Ak ,
k=1

si ha Ān ↗ A e Ān ∈ A per ogni n. Allora, per l’ipotesi di continuità dal basso di µ, si ha

µ(A) = lim µ(Ān ) =


n→∞

(per l’additività finita di µ)


n
X ∞
X
= lim µ(Ak ) = µ(Ak ),
n→∞
k=1 k=1

osservando che il limite delle somme parziali esiste, finito o no, poiché µ ha valori non-negativi.
[iii) ⇒ iv)] Supponiamo valga la iii). Se Bn ↘ B allora An := B1 \ Bn è tale che An ↗ A := B1 \ B. Se µ(B1 ) < ∞,
per la proprietà (2.1.6) che vale sotto la sola ipotesi di additività, si ha5

µ (B) = µ (B1 \ A)
∞ ∞ ∞ ∞
5 Nel dettaglio: si ha B \ S A = B ∩ T Ac = T (B ∩ Ac ) = T B .
1 n 1 n 1 n n
n=1 n=1 n=1 n=1
32 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

= µ(B1 ) − µ(A) =

(per l’ipotesi di continuità dal basso di µ)

= µ(B1 ) − lim µ(An ) = lim (µ(B1 ) − µ(An )) = lim µ(Bn ).


n→∞ n→∞ n→∞

[iv) ⇒ iii)] Sotto l’ipotesi che µ(Ω) < ∞, il fatto che iv) implichi iii) si dimostra come nel punto prece-
dente ponendo Bn = Ω \ An e utilizzando il fatto che se (An )n∈N è crescente allora (Bn )n∈N è decrescente e
ovviamente µ(B1 ) < ∞.

2.2 Spazi finiti e problemi di conteggio


In questa sezione assumiamo che Ω sia finito e consideriamo alcuni problemi in cui si usa la probabilità
discreta uniforme dell’Esempio 2.1.11. Questi vengono detti problemi di conteggio perché, ricordando la
(2.1.1), il calcolo delle probabilità si riconduce alla determinazione della cardinalità degli eventi.
Il calcolo combinatorio è lo strumento matematico che permette di svolgere questi calcoli. Sebbene si
tratti di problemi che hanno una formulazione elementare (data in termini di monete, dadi, carte etc) spesso
il calcolo può risultare molto complicato e può intimorire al primo impatto. Su questo aspetto è importante
sdrammatizzare perché si tratta di una complicazione di tipo tecnico più che sostanziale, che non deve
creare un’ingiustificata preoccupazione. Inoltre la probabilità uniforme discreta è soltanto un caso molto
particolare il cui interesse è decisamente limitato e marginale rispetto alla teoria della probabilità nel suo
complesso. Per questi motivi, a meno che non ci sia un interesse specifico per l’argomento, questa sezione
può essere saltata o letta molto velocemente in prima istanza.

2.2.1 Cardinalità di insiemi


Cominciamo col ricordare alcune nozioni di base sulla cardinalità di insiemi finiti. Nel seguito usiamo
la seguente

Notazione 2.2.1.
In = {k ∈ N | k ≤ n} = {1, 2, . . . , n}, n ∈ N.

Si dice che un insieme A ha cardinalità n ∈ N, e si scrive |A| = n oppure ♯A = n, se esiste una funzione
biettiva da In ad A. Inoltre per definizione |A| = 0 se A = ∅. Scriviamo A ↔ B se |A| = |B|. In questa sezione
consideriamo solo insiemi con cardinalità finita.
Provare per esercizio le seguenti proprietà:

i) |A| = |B| se e solo se esiste una funzione biettiva da A a B;

ii) se A, B sono disgiunti allora


|A ⊎ B| = |A| + |B|
e più in generale tale proprietà si estende al caso di un’unione disgiunta finita;

iii) per ogni A, B vale


|A × B| = |A||B| (2.2.1)
La (2.2.1) si può provare usando la ii) ed il fatto che
]
A×B = {x} × B
x∈A

dove l’unione è disgiunta e |{x} × B| = |B| per ogni x ∈ A;


2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 33

iii) indichiamo con AB l’insieme delle funzioni da B ad A. Allora si ha



AB = |A||B| (2.2.2)

poiché AB ↔ A × · · · × A.
| {z }
|B| volte

2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna


Quando si utilizza il calcolo combinatorio per lo studio di un esperimento aleatorio, la scelta dello
spazio campionario è importante perché può semplificare il conteggio dei casi possibili e dei casi favore-
voli. La scelta più conveniente, da questo punto di vista, dipende in generale dal fenomeno aleatorio in
considerazione. Tuttavia, è spesso utile ripensare l’esperimento aleatorio (o, eventualmente, ciascun sotto-
esperimento aleatorio in cui può essere scomposto) come un’opportuna estrazione di palline da un’urna
(con remissione, senza reimmmissione, simultanea) che ora descriviamo.
Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en . Si estraggono k palline dall’urna
in uno dei tre modi seguenti:

1) estrazione con reimmissione, con k ∈ N, in cui, per l’estrazione successiva, la pallina estratta viene
reinserita nell’urna;

2) estrazione senza reimmissione, con k ∈ {1, . . . , n}, in cui la pallina estratta non viene reinserita nell’urna;

3) estrazione simultanea, con k ∈ {1, . . . , n}, in cui le k palline vengono estratte simultaneamente.

Si noti che:

• nell’estrazione con reimmissione il numero totale di palline nell’urna e la sua composizione si man-
tengono costanti nelle successive estrazioni; dato che si estrae una pallina per volta, si tiene conto
dell’ordine di estrazione; inoltre è possibile che ci siano delle ripetizioni, ovvero è possibile estrarre più
volte la stessa pallina;

• nell’estrazione senza reimmissione ad ogni estrazione il numero totale di palline nell’urna si riduce di
un’unità e quindi ogni volta si modifica la composizione dell’urna stessa; anche in questo caso si tiene
conto dell’ordine di estrazione; invece le ripetizioni non sono più possibili (infatti una volta estratta,
la pallina non viene più reinserita nell’urna);

• l’estrazione simultanea corrisponde all’estrazione senza reimmissione in cui non si tiene conto dell’or-
dine di estrazione.

Possiamo dunque riassumere quanto detto finora nel seguente schema:

Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione Estrazione
Si tiene conto dell’ordine senza con
reimmissione reimmissione
Estrazione
Non si tiene conto dell’ordine
simultanea

Tabella 2.1: Classificazione del tipo di estrazioni da un’urna


34 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Torneremo in seguito sul quarto caso corrispondente alla casella vuota e, in particolare, sul perché non
sia stato considerato (si veda l’Osservazione 2.2.13). Per ognuno dei tre tipi di estrazione descritti sopra
vogliamo determinare uno spazio campionario Ω, con cardinalità più piccola possibile, che permetta di
descrivere tale esperimento aleatorio. Affronteremo tale questione nella Sezione 2.2.4 in cui vedremo che
Ω sarà dato rispettivamente da:
1) l’insieme DRn,k delle disposizioni con ripetizione di k elementi di {e1 , . . . , en }, nel caso dell’estrazione con
reimmissione;
2) l’insieme Dn,k delle disposizioni semplici di k elementi di {e1 , . . . , en }, nel caso dell’estrazione senza
reimmissione;
3) l’insieme Cn,k delle combinazioni di k elementi di {e1 , . . . , en }, nel caso dell’estrazione simultanea.
Prima di introdurre questi tre insiemi fondamentali, illustriamo un metodo generale che utilizzeremo per
determinare la cardinalità di DRn,k , Dn,k , Cn,k e di altri insiemi finiti.

2.2.3 Metodo delle scelte successive


In questa sezione illustriamo un algoritmo, noto come metodo delle scelte successive (o schema delle scelte
successive o anche principio fondamentale del calcolo combinatorio), che permette di determinare la cardinalità
di un insieme una volta caratterizzati univocamente i suoi elementi tramite un numero finito di scelte
successive.
Metodo delle scelte successive. Dato un insieme finito A di cui si vuole determinare la cardinalità |A|, si
procede come segue:
1) al primo passo, si considera una partizione di A in n1 ∈ N sottoinsiemi A1 , . . . , An1 , tutti aventi la stessa
cardinalità; tale partizione è ottenuta facendo una “scelta”, ovvero distinguendo gli elementi di A in base
ad una proprietà che essi possiedono;
2) al secondo passo, per ogni i = 1, . . . , n1 , si procede come al punto 1) con l’insieme Ai al posto di A, conside-
rando una partizione Ai,1 , . . . , Ai,n2 di Ai in n2 sottoinsiemi tutti aventi la stessa cardinalità, con n2 ∈ N
che non dipende da i;
3) si procede in questo modo fino a quando, dopo un numero finito k ∈ N di passi, gli elementi della partizione
hanno cardinalità è pari a 1.
La cardinalità di A è allora data da
|A| = n1 n2 · · · nk .
Per esempio, applichiamo il metodo delle scelte successive per dimostrare la validità della formula

AB = |A||B| .

Sia n = |A| la cardinalità di A e indichiamo con a1 , . . . , an i suoi elementi. Analogamente, sia k = |B| la
cardinalità di B e indichiamo con b1 , . . . , bk i suoi elementi. Dato che AB è l’insieme delle funzioni da B ad
A, possiamo caratterizzare univocamente ogni funzione in AB tramite le seguenti k = |B| scelte successive:
1) come prima scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b1 ; abbia-
mo n = |A| possibilità (quindi n1 = n), ossia questa prima scelta determina una partizione di A in n
sottoinsiemi (non serve scrivere quali sono questi sottoinsiemi, ma solo quanto vale n1 );
2) come seconda scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b2 ;
abbiamo n = |A| possibilità (quindi n2 = n);
3) · · ·
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 35

4) come k-esima e ultima scelta (con k = |B|) fissiamo il valore che le funzioni di AB assumono in
corrispondenza di bk ; abbiamo n = |A| possibilità (quindi nk = n).
Dal metodo delle scelte successive si deduce che

AB = |A| · · · |A| = |A||B| .
| {z }
k = |B| volte

Nel seguito, quando applicheremo il metodo delle scelte successive, procederemo come nei punti 1)-4),
limitandoci a dire quale scelta viene effettuata ad ogni passo e quante possibilità (o modi) ci sono per
fare questa scelta; mentre non faremo riferimento alla partizione che ogni scelta determina, dato che è in
generale chiaro quale essa sia.

2.2.4 Disposizioni e combinazioni


In questa sezione consideriamo un insieme con n ∈ N elementi

E = {e1 , e2 , . . . , en }

che rappresenta un’urna, contenente n palline numerate, con la quale si effettuano gli esperimenti aleatori
di estrazione.
Definizione 2.2.2 (Disposizioni con ripetizione). Dato k ∈ N, diciamo che

DRn,k := E × · · · × E = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E}
| {z }
k volte

è l’insieme delle disposizioni con ripetizione di k elementi di E. Per la (2.2.2) vale DRn,k = nk .
L’insieme DRn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni con reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, DRn,k esprime i modi in cui possiamo scegliere, in maniera ordinata e ripetuta, k oggetti presi
da un insieme di n oggetti.
Esempio 2.2.3. Sia E = {a, b, c}. Allora |DR3,2 | = 32 e precisamente

DR3,2 = {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.

Esempio 2.2.4. Determiniamo i “casi possibili” dei seguenti esperimenti aleatori (le soluzioni sono a fondo
pagina6 ):
i) si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto italiano (che ha 21
lettere);
ii) si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere tra 1, 2 o X;
iii) si lancia 10 volte un dado (non truccato) a sei facce.
Definizione 2.2.5 (Disposizioni semplici). Dato k ≤ n, diciamo che

Dn,k = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E, distinti}

è l’insieme delle disposizioni semplici di k elementi di E. Vale


n!
Dn,k = n(n − 1) · · · (n − k + 1) = . (2.2.3)
(n − k)!

6 Soluzioni relative all’Esempio 2.2.4: i) DR 8 13 10
21,8 = 21 ; ii) DR3,13 = 3 ; iii) DR6,10 = 6 .
36 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

L’insieme Dn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni senza reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, Dn,k esprime i modi in cui possiamo disporre, in maniera ordinata e non ripetuta, un numero
k di oggetti scelti da un insieme di n oggetti.
La formula (2.2.3) si può dimostrare tramite il metodo delle scelte successive, caratterizzando il generico
elemento (ω1 , . . . , ωk ) di Dn,k come segue:

1) come prima scelta fissiamo ω1 : abbiamo n = |E| possibilità e quindi n1 = n;

2) come seconda scelta fissiamo ω2 , diverso da ω1 : abbiamo n − 1 possibilità e quindi n2 = n − 1;

3) · · ·

4) come k-esima e ultima scelta fissiamo ωk : abbiamo n − k + 1 possibilità, dato che abbiamo già scelto
ω1 , . . . , ωk−1 e quindi nk = n − k + 1.

Dal metodo delle scelte successive si deduce dunque la validità di (2.2.3).


3!
Esempio 2.2.6. Sia E = {a, b, c}. Allora |D3,2 | = 1! = 6 e precisamente

D3,2 = {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.

Esempio 2.2.7. Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione) al gioco
del lotto (in cui si estraggono senza reimmissione cinque numeri dai primi novanta naturali), supponendo
di giocare un’unica cinquina (ad esempio la sequenza ordinata 13, 5, 45, 21, 34)? Quanto vale invece la
probabilità di fare una cinquina semplice (per cui non conta l’ordine di estrazione)?
Soluzione. La probabilità di fare una cinquina secca è semplicemente D 1 ≈ 1.89 · 10−10 .
| 90,5 |
Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti modi differenti si possono ordinare 5
|D |
numeri, pari a D5,5 = 5!. Allora la probabilità di una cinquina semplice dopo 5 estrazioni è D 5,5 ≈ 2.27 · 10−8 .
| 90,5 |

Definizione 2.2.8 (Permutazioni). Indichiamo con Pn := Dn,n l’insieme delle permutazioni di n oggetti.
Vale
|Pn | = n!

L’insieme Pn esprime i modi in cui possiamo riordinare, ossia disporre in maniera ordinata e non
ripetuta, un numero n di oggetti.

Definizione 2.2.9 (Combinazioni). Dato k ≤ n, indichiamo con Cn,k l’insieme delle combinazioni di k
elementi di E, definito come la famiglia dei sottoinsiemi di E di cardinalità k:

Cn,k = {A ⊆ F | |A| = k} .

L’insieme Cn,k è lo spazio campionario naturale per descrivere l’esito dell’estrazione simultanea di k
palline da un’urna che ne contiene n: ogni elemento {ω1 , . . . , ωk } indica un gruppo di k palline estratte.
Più in generale, Cn,k esprime tutti i gruppi di k oggetti scelti da un insieme di n oggetti, in maniera non
ordinata e non ripetuta.

Esempio 2.2.10. Sia E = {a, b, c}. Allora |C3,2 | = 3 e precisamente

C3,2 = {{a, b}, {a, c}, {b, c}}.

Proposizione 2.2.11. Si ha !
|Dn,k | n! n
Cn,k = = = . (2.2.4)
|Pk | k!(n − k)! k
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 37

Dimostrazione. A differenza del calcolo di |DRn,k | e |Dn,k |, non è possibile scomporre il calcolo di |Cn,k | in una
sequenza di scelte successive. Tuttavia, dimostrare la (2.2.4) equivale a dimostrare la seguente uguaglianza:

|Dn,k | = |Cn,k | |Pk |. (2.2.5)

Dimostriamo la (2.2.5) applicando il metodo delle scelte successive all’insieme Dn,k , caratterizzando il
generico elemento ω = (ω1 , . . . , ωk ) di Dn,k in base al seguente schema:

1) come prima scelta fissiamo il sottoinsieme {ω1 , . . . , ωk } di E formato dalle componenti di ω: abbiamo
|Cn,k | possibilità e quindi n1 = |Cn,k |;

2) come seconda e ultima scelta fissiamo la permutazione dei k elementi ω1 , . . . , ωk che descrive l’ordine
in cui sono disposti in ω: abbiamo |Pk | possibilità e quindi n2 = |Pk |.

Dal metodo delle scelte successive si deduce la validità di (2.2.5) e dunque di (2.2.4).

Gli insiemi DRn,k , Dn,k (e dunque anche Pn = Dn,n ) e Cn,k sono importanti non solo perché sono gli spazi
campionari dei tre esperimenti aleatori introdotti nella Sezione 2.2.2, ma anche perché le cardinalità di tali
insiemi spesso corrispondono ai numeri n1 , n2 , . . . , nk del metodo delle scelte successive; per esempio, per il
calcolo di |Dn,k | in (2.2.5) abbiamo scelto n1 = |Cn,k | ed n2 = |Pk |.
Possiamo completare la tabella della Sezione 2.2.2, riportando anche gli spazi campionari e le loro
cardinalità (ovvero i “casi possibili”).

Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk

Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k |
= nk

|Ω| = k!

Tabella 2.2: Classificazione del tipo di estrazioni da un’urna e relazione con disposizioni e combinazioni

Riportiamo qui di seguito alcune osservazioni conclusive riguardanti la Tabella 2.2.

Osservazione 2.2.12. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sarebbe sufficiente
considerare solamente i primi due: l’estrazione senza reimmissione e l’estrazione con reimmissione. Infatti
l’estrazione simultanea può essere vista come un caso particolare dell’estrazione senza reimmissione in cui
non si tiene conto dell’ordine. Più precisamente, ad ogni elemento di Cn,k , ovvero ad ogni sottoinsieme di
k palline scelta fra n, corrispondono k! elementi (o k-uple) di Dn,k , di conseguenza vale che

casi favorevoli in Cn,k k! (casi favorevoli in Cn,k ) casi favorevoli in Dn,k


= = .
casi possibili in Cn,k k! (casi possibili in Cn,k ) casi possibili in Dn,k

Osservazione 2.2.13. La casella vuota nella tabella sopra riportata corrisponde all’insieme delle cosiddet-
te combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non ordinati ed eventualmente ripetuti,
di k oggetti scelti da un insieme di n oggetti. L’esperimento aleatorio corrispondente è l’estrazione con
38 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

reimmissione in cui non si tiene conto dell’ordine: questo esperimento aleatorio può essere descritto an-
che dallo spazio campionario DRn,k munito della probabilità uniforme discreta. Al contrario, sullo spazio
delle combinazioni con ripetizione la probabilità non può essere quella uniforme discreta. Infatti ad ogni
combinazione con ripetizione non corrisponde sempre lo stesso numero di elementi di DRn,k (come invece
accade nel caso di Cn,k e Dn,k ) e la costante di proporzionalità dipende da quante ripetizioni ci sono all’in-
terno della combinazione: le combinazioni con più ripetizioni sono meno probabili. Per questa ragione su
tale spazio non vale la formula “casi favorevoli/casi possibili”, ovvero non si possono usare le tecniche del
calcolo combinatorio.

Esempio 2.2.14. Riconsideriamo il calcolo della probabilità di una cinquina semplice al gioco del lotto:
poiché non conta l’ordine di estrazione dei numeri, siamo nel caso dell’estrazione simultanea, quindi è
naturale considerare Ω = C90,5 . In effetti la probabilità della cinquina è |C 1 | che coincide con il risultato
90,5
5!
che avevamo già trovato usando le disposizioni semplici, ossia .
|D90,5 |
Esercizio 2.2.15. Calcoliamo la probabilità di ottenere una cinquina semplice dopo k ≥ 5 estrazioni.
Soluzione. Poniamo Ω = C90,k . Indichiamo con A l’evento che ci interessa, ossia la famiglia degli insiemi di k numeri in cui 5
sono fissati e i rimanenti k − 5 sono qualsiasi fra i restanti 85 numeri. Allora si ha

|C85,k−5 |
P (A) = .
|C90,k |

Per esempio, P (A) ≈ 6 · 10−6 per k = 10 e P (A) ≈ 75% per k = 85.

Esercizio 2.2.16. Consideriamo un mazzo di 40 carte. Calcoliamo la probabilità dell’evento A definito in


ognuno dei modi seguenti:

(1) in 5 estrazioni senza reimmissione si ottengono 5 denari;

(2) in 5 estrazioni con reimmissione si ottengono 5 denari;

(3) in 5 estrazioni senza reimmissione si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme, anche
diversi fra loro.
Soluzione. (1) L’estrazione è senza reimmissione, ma l’evento A = “si ottengono 5 denari” non tiene conto dell’ordine. Quindi
tale estrazione può essere vista anche come un’estrazione simultanea. Perciò possiamo scegliere come spazio campionario
Ω = C40,5 (scegliere Ω = D40,5 andrebbe comunque bene). L’esito ω = {ω1 , ω2 , ω3 , ω4 , ω5 } corrisponde dunque all’insieme
delle carte estratte. Allora A ↔ C10,5 (le possibile scelte, non ordinate e non ripetute, di 5 denari) e quindi

10
P (A) = 5  ≈ 0.04 %.
40
5

(2) Questa volta l’estrazione è con reimmissione, quindi occorre considerare Ω = DR40,5 (in realtà, anche in questo caso
l’evento A non tiene conto dell’ordine; tuttavia quando c’è ripetizione l’unico spazio che possiamo scegliere per poter utilizzare
le tecniche del calcolo combinatorio è lo spazio delle disposizioni con ripetizione). L’esito ω può essere identificato con la
sequenza (ω1 , ω2 , ω3 , ω4 , ω5 ), ordinata e con possibili ripetizioni, delle carte estratte. In questo caso A ↔ DR10,5 (le possibile
scelte, ordinate e ripetute, di 5 denari) e quindi
105
P (A) = 5 ≈ 0.1 %.
40
(3) In questo caso l’estrazione è senza reimmissione e l’evento A = “si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme,
anche diversi fra loro” tiene conto dell’ordine, quindi lo spazio campionario naturale è Ω = D40,5 . Abbiamo che A ↔ DR4,5
(si sceglie in modo ordinato la sequenza dei semi delle 5 carte estratte) e quindi

|DR4,5 |
P (A) = ≈ 10−3 %.
|D40,5 |
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 39

2.2.5 Probabilità binomiale e ipergeometrica.


Presentiamo ora due esempi fondamentali che, come vedremo più avanti, sono legati a due misure di
probabilità molto importanti, la binomiale e l’ipergeometrica. Cominciamo col ricordare alcune proprietà
del coefficiente binomiale. Assumiamo per convenzione

0! = 1 e 00 = 1. (2.2.6)

Ricordiamo che per k, n ∈ N0 , con k ≤ n, !


n n!
= .
k k!(n − k)!
Dalla definizione segue direttamente che
! ! ! ! !
n n n n n
= , = = 1, = n.
k n−k 0 n 1

Inoltre, per k, n ∈ N con k < n, vale ! ! !


n n−1 n−1
= + . (2.2.7)
k k−1 k
Come esercizio, utilizzando la (2.2.7) provare per induzione la formula binomiale (o formula di Newton)7
n !
X n k n−k
(a + b)n = a b , a, b ∈ R. (2.2.8)
k
k=0

Come casi particolari della (2.2.8):


• se a = b = 1 si ha
n !
X n
= 2n . (2.2.9)
k
k=0
n
Ricordando che se |A| = n allora k = |Cn,k | è pari al numero di sottoinsiemi di A di cardinalità k, la
(2.2.9) mostra che |P(A)| = 2n .
• ricordando la convenzione (2.2.6) per i casi p = 0 e p = 1, vale
n !
X n k
p (1 − p)n−k = 1, p ∈ [0, 1]. (2.2.10)
k
k=0

In altri termini, posto per semplicità


!
n k
pk := p (1 − p)n−k , k = 0, . . . , n,
k

si ha che p0 , . . . , pn sono numeri non-negativi con somma pari a 1. Quindi, per l’Osservazione 2.1.13,
ponendo P ({k}) = pk si definisce una misura di probabilità sullo spazio campionario Ω = {0, . . . , n},
detta probabilità binomiale.
Diamo un’interpretazione della probabilità binomiale nel seguente
7 Una dimostrazione alternativa, di carattere combinatorio, della formula di Newton è la seguente: il prodotto (a + b)(a + b) · · · (a + b)

di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk con 0 ≤ k ≤ n. Quanti sono i monomi di un certo tipo (cioè
con k fisso)? Il monomio an−k bk si ottiene scegliendoil valore b da k degli n fattori disponibili nel prodotto (a + b)(a + b) · · · (a + b) (e,
quindi, scegliendo a dai rimanenti n − k), ovvero in nk modi.
40 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Esempio 2.2.17 (Binomiale). [!]


Consideriamo un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N. Effettuiamo n estra-
zioni con reimmissione. Calcoliamo la probabilità dell’evento Ak che consiste nell’estrazione di esattamente
k palline bianche, con 0 ≤ k ≤ n.
Determiniamo lo spazio campionario: a priori non importa l’ordine di estrazione, ma osservando che
c’è il reinserimento (ossia la ripetizione di una possibile pallina già estratta), siamo portati a conside-
rare Ω = DRb+r,n . L’esito ω può essere identificato con la k-upla che identifica la sequenza, ordinata e
con eventuali ripetizioni, delle palline estratte (supponendo di aver numerato le palline per identificarle).
Caratterizziamo il generico esito ω ∈ Ak tramite le seguenti scelte successive:
i) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche estratte dalle b
presenti nell’urna: ci sono |DRb,k | modi possibili;
ii) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle n − k palline rosse estratte dalle r
presenti nell’urna: ci sono |DRr,n−k | modi possibili;
iii) scegliamo in quali delle n estrazioni sono state estratte le k palline bianche; ci sono |Cn,k | modi
possibili8 .
In definitiva
n bk r n−k
!
|DRb,k ||DRr,n−k |
P (Ak ) = |Cn,k | = ,
|DRb+r,n | k (b + r)n
o, equivalentemente, !
n k
P (Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r è la probabilità di estrarre una pallina bianca, secondo la probabilità uniforme.
Osservazione 2.2.18. Come spiegheremo meglio in seguito, la probabilità binomiale si può interpretare
come la probabilità di avere k successi ripetendo n volte un esperimento che ha solo due esiti: successo con
probabilità p e insuccesso con probabilità 1 − p. Per esempio, la probabilità di ottenere esattamente k teste
lanciando n volte una moneta è pari a nk pk (1 − p)n−k con p = 21 , ossia nk 21n .
 

Esempio 2.2.19 (Ipergeometrica). Consideriamo un’urna che contiene b palline bianche ed r palline rosse,
con b, r ∈ N. Effettuiamo n ≤ b + r estrazioni senza reimmissione. Calcoliamo la probabilità dell’evento Ak
che consiste nell’estrazione di esattamente k palline bianche, con max{0, n−r} ≤ k ≤ min{n, b}. La condizione
max{0, n − r} ≤ k ≤ min{n, b} equivale a richiedere che valgano simultaneamente le tre condizioni seguenti:
• 0 ≤ k ≤ n;
• k ≤ b, ovvero il numero di palline bianche estratte non superi b;
• n − k ≤ r, ovvero il numero di palline rosse estratte non superi r.
Determiniamo lo spazio campionario: dato che non importa l’ordine di estrazione possiamo considerare
Ω = Cb+r,n (alternativamente, possiamo scegliere Ω = Db+r,n ). L’esito ω corrisponde all’insieme delle palline
estratte (supponendo di aver numerato le palline per identificarle). Caratterizziamo il generico esito ω ∈ Ak
tramite le seguenti scelte successive:
i) scegliamo le k palline bianche estratte dalle b presenti nell’urna: ci sono |Cb,k | modi possibili;
ii) scegliamo le n − k palline rosse estratte dalle r presenti nell’urna: ci sono |Cr,n−k | modi possibili.
In definitiva
b r 
|Cb,k ||Cr,n−k | k n−k
P (Ak ) = = b+r 
, max{0, n − r} ≤ k ≤ min{n, b}.
|Cb+r,n |
n
8 Infatti ogni sottoinsieme di cardinalità k di I identifica k estrazioni delle n, e viceversa. Ad esempio, se n = 4 e k = 2, il
n
sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a estrazione, e viceversa.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 41

2.2.6 Esempi
Proponiamo una serie di esempi utili a prendere familiarità con i problemi di conteggio.

Esempio 2.2.20. Consideriamo un gruppo di k ≥ 2 persone nate nello stesso anno (di 365 giorni). Calcolare
la probabilità che almeno due persone del gruppo siano nate nello stesso giorno.
Soluzione. Possiamo riformulare il problema come segue: un’urna contiene 365 palline numerate da 1 a 365; la pallina numero
N corrisponde all’N -esimo giorno dell’anno; si estraggono con reimmissione k palline; qual è la probabilità che di estrarre due
volte lo stesso numero? Abbiamo dunque ricondotto il problema all’estrazione con reimmissione di k palline da un’urna che
ne contiene 365. Sappiamo che lo spazio campionario naturale è Ω = DR365,k . Sia A l’evento che ci interessa, ovvero A =
“almeno due persone sono nate nello stesso giorno”. Allora Ac ↔ D365,k e quindi

|D365,k | 365!
P (A) = 1 − P (Ac ) = 1 − = 1− .
|DR365,k | (365 − k)! · 365k

Si vede che P (A) ≈ 0.507 > 12 per k = 23 e P (A) ≈ 97% per k = 50.

Esempio 2.2.21. Si estraggono (senza reimmissione) 2 carte da un mazzo di 40 carte identificate dal seme
(spade, coppe, bastoni, denari) e dal tipo (asso, 2, 3, 4, 5, 6, 7, fante, cavallo, re). Calcoliamo la probabilità
dell’evento A definito in ognuno dei modi seguenti:

(1) le due carte sono, nell’ordine, una carta di denari e una di coppe;

(2) le due carte sono, nell’ordine, una carta di denari e un 7;

(3) le due carte sono una carta di denari e un 7, indipendentemente dall’ordine.


Soluzione.
(1) Poniamo Ω = D40,2 . L’esito ω = (ω1 , ω2 ) corrisponde alla coppia delle carte estratte. Caratterizziamo il generico esito
ω = (ω1 , ω2 ) ∈ A tramite le seguenti scelte successive:
i) scegliamo la prima carta estratta (ovvero ω1 ) fra le carte di denari: ci sono 10 scelte possibili;
ii) scegliamo la seconda carta estratta (ovvero ω2 ) fra le carte di coppe: ci sono 10 scelte possibili.
In definitiva
100 5
P (A) = = ≈ 6.4%.
|D40,2 | 78
Se invece non si fosse tenuto conto dell’ordine di estrazione, avremmo potuto considerare, in alternativa, lo spazio campionario
Ω = C40,2 . In tal caso l’esito ω = {ω1 , ω2 } corrisponde all’insieme delle carte estratte. Quindi, procedendo come prima,

100 5
= = 2P (A).
|C40,2 | 39

(2) Poniamo Ω = D40,2 . Non possiamo determinare |A| tramite le due scelte successive i)-ii) del punto (1), in quanto pro-
cedendo in questo modo conteremmo anche la coppia (7D, 7D) che invece deve essere esclusa visto che le carte non vengono
reinserite nel mazzo. Invece di applicare direttamente ad A il metodo delle scelte successive, notiamo che A è unione disgiunta
di A1 = D9,1 × D4,1 (la prima carta è una carta di denari diversa da 7 e la seconda carta è uno dei quattro 7) e A2 = D3,1 (la
prima carta è il 7 di denari e la seconda carta è uno dei rimanenti tre 7). Dunque

9·4 3 1
P (A) = P (A1 ) + P (A2 ) = + = .
|D40,2 | |D40,2 | 40
1 .
(3) Poiché non conta l’ordine P (A) è il doppio rispetto al caso (2), quindi P (A) = 20

Esempio 2.2.22. Si divida un mazzo di 40 carte in due mazzi da 20. Calcoliamo la probabilità dell’evento
A definito in ognuno dei modi seguenti:

(1) il primo mazzo contiene esattamente un 7;


42 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

(2) il primo mazzo contiene almeno un 7.


Soluzione. Poniamo Ω = C40,20 . L’esito ω può essere pensato come l’insieme delle carte del primo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo l’unico 7 che appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo, che non devono essere dei 7: ci sono |C36,19 | modi possibili.
In definitiva
4|C36,19 | 120
P (A) = = ≈ 25%.
|C40,20 | 481
(2) Abbiamo
|C36,20 |
P (A) = 1 − P (Ac ) = 1 − ≈ 95.7%. (2.2.11)
|C40,20 |
Per capire meglio, vediamo dei modi alternativi per risolvere il problema: potremmo tentare di caratterizzare il generico esito
ω ∈ A tramite le seguenti scelte successive:
i) scegliamo un 7 che sicuramente appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo fra le rimanenti 39: ci sono |C39,19 | modi possibili.
In questo caso troveremmo
4|C39,19 |
P (A) = =2
|C40,20 |
che è ovviamente un risultato sbagliato. L’errore sta nel fatto che le scelte successive non identificano univocamente ω, nel
senso che lo stesso ω viene “contato” più di una volta: per esempio, un ω che contiene il 7D (7 di denari) e il 7S (7 di spade)
viene individuato scegliendo 7D nella scelta i) e 7S nella scelta ii) ma anche invertendo i ruoli di 7D e 7S.
Se non vogliamo usare l’evento complementare, possiamo in alternativa calcolare |A| tramite il principio di somma, espri-
mendo A come unione degli eventi disgiunti Ak =“il primo mazzo contiene esattamente un numero k di 7”, per k = 1, 2, 3, 4. Il
generico esito ω ∈ Ak è determinato univocamente dalle seguenti scelte successive:
i) fra i 7 ne scegliamo k che sono quelli che appartengono al primo mazzo: ci sono |C4,k | modi possibili;
ii) scegliamo le rimanenti 20 − k del primo mazzo, che non devono essere dei 7: ci sono |C36,20−k | modi possibili.
Quindi
|C4,k ||C36,20−k |
P (Ak ) = , k = 1, 2, 3, 4,
|C40,20 |
e come risultato finale riotteniamo la (2.2.11).

Esempio 2.2.23. Da un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N, vengono estratte
senza reimmissione k palline, con k ≤ b+r. Calcoliamo la probabilità dell’evento Bk che consiste nell’estrarre
una pallina bianca alla k-esima estrazione.
Soluzione. Poniamo Ω = Db+r,k . L’esito ω può essere identificato con il vettore che indica la sequenza ordinata e senza
ripetizioni delle k estrazioni (supponendo di aver numerato le palline per identificarle). Allora

Bk ↔ {(ω1 , . . . , ωk ) | ωk “bianca”}.

Per determinare |Bk | utilizziamo il metodo delle scelte successive, caratterizzando una generica k-upla (ω1 , . . . , ωk ) tramite il
seguente schema:
i) scegliamo la pallina bianca della k-esima estrazione, ossia ωk : ci sono b modi possibili;
ii) scegliamo la sequenza (ordinata e senza ripetizioni) delle k −1 estrazioni precedenti: ci sono |Db+r−1,k−1 | modi possibili.
In definitiva, posto b + r = n, si ha
(n−1)!
b|Dn−1,k−1 | b (n−k)! b
P (Bk ) = = = .
|Dn,k | n! n
(n−k)!

Dunque P (Bk ) = b+rb coincide con la probabilità di estrarre una pallina bianca alla prima estrazione, ovvero P (B ) = P (B ).
k 1
Questo fatto si può spiegare osservando che Bk è in corrispondenza biunivoca con l’insieme {(ω1 , . . . , ωk ) | ω1 “bianca”}.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 43

Esempio 2.2.24. Si consideri un mazzo di 40 carte, da cui si estraggono senza reimmissione k carte, con
k ≤ 40. Calcoliamo la probabilità che alla k-esima estrazione venga estratta una carta di denari.
Soluzione. L’esempio è simile al precedente: posto Ω = D40,k e Ak = “si estrae una carta di denari alla k-esima estrazione”, la
probabilità di Ak è data da
10|D39,k−1 | 1
P (Ak ) = = .
|D40,k | 4

Esempio 2.2.25. Da un’urna che contiene b palline bianche ed r palline rosse, vengono estratte con reim-
missione 2 palline. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) le due palline hanno lo stesso colore;
(2) almeno una delle due palline è rossa.
Soluzione. Poniamo Ω = DRb+r,2 . L’esito ω può essere identificato con la coppia (ω1 , ω2 ) che indica la sequenza ordinata (e
con eventuale ripetizione) delle due estrazioni (supponendo di aver numerato le palline per identificarle).
(1) Abbiamo che A è unione disgiunta di A1 = DRb,2 (le due palline sono bianche) e A2 = DRr,2 (le due palline sono rosse).
Dunque
|DRb,2 | |DRr,2 | b2 + r 2
P (A) = P (A1 ) + P (A2 ) = + = .
|DRb+r,2 | |DRb+r,2 | (b + r)2
(2) Si ha P (A) = 1 − P (Ac ) con Ac = DRb,2 (le due palline sono bianche) e quindi

b2
P (A) = 1 − .
(b + r)2

Esempio 2.2.26. Consideriamo un mazzo di carte da poker da 52 carte, identificate dal seme (cuori ♥,
quadri ♦, fiori ♣, picche ♠) e dal tipo (un numero da 2 a 10 oppure J, Q, K, A). Calcoliamo la probabilità di
avere un tris servito, ovvero di ricevere dal mazziere 5 carte di cui 3 sono dello stesso tipo, mentre le altre
due di tipo diverso tra loro e dalle prime tre.
Soluzione. Poniamo Ω = C52,5 . Sia A l’evento di cui dobbiamo calcolare la probabilità, ovvero

A = “avere un tris servito”.

Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:


i) scegliamo il tipo delle carte che formano il tris: ci sono 13 tipi possibili;
ii) scegliamo i tre semi del tris: ci sono |C4,3 | scelte possibili;
iii) scegliamo i tipi delle altre 2 carte fra i rimanenti 12 tipi possibili: ci sono |C12,2 | scelte possibili;
iv) scegliamo il seme delle altre 2 carte fra i 4 possibili: ci sono 4 · 4 = 16 modi possibili.
In definitiva
13 · 4 · |C12,2 | · 16
P (A) = ≈ 2.11%.
|C52,5 |

Come abbiamo detto in precedenza, nonostante la maggior parte degli esperimenti aleatori descritti
dalla probabilità uniforme discreta possa essere formulata su uno dei tre spazi campionari DRn,k , Dn,k ,
Cn,k , ci sono casi in cui questo non è possibile. Tuttavia, è sempre possibile scomporre l’esperimento alea-
torio in opportuni sotto-esperimenti aleatori che possono essere formulati su DRn,k , Dn,k o Cn,k , di modo
che l’esperimento aleatorio di partenza possa essere descritto sul loro prodotto cartesiano. Vediamo più
precisamente come si procede nei tre esempi che seguono.
Esempio 2.2.27. Consideriamo un mazzo di 30 carte (per esempio, denari, coppe e spade). Dopo averlo
diviso in tre mazzi da 10 carte, calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) i tre assi sono in mazzi differenti;
44 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

(2) i tre assi sono nello stesso mazzo.


Soluzione. Poniamo Ω = C30,10 × C20,10 : l’esito ω = (ω1 , ω2 ) può essere pensato come la coppia in cui ω1 è l’insieme delle
carte del primo mazzo e ω2 è l’insieme delle carte del secondo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo i mazzi in cui sono gli assi: ci sono |P3 | = 6 modi possibili;
ii) scegliamo le rimanenti 9 carte del primo mazzo, che non devono essere degli assi: ci sono |C27,9 | modi possibili;
iii) scegliamo le rimanenti 9 carte del secondo mazzo, che non devono essere degli assi: ci sono |C18,9 | modi possibili.
In definitiva
6|C27,9 ||C18,9 | 50
P (A) = = ≈ 24.6%.
|C30,10 ||C20,10 | 203
(2) In modo analogo caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il mazzo in cui sono gli assi: ci sono 3 modi possibili;
ii) scegliamo le rimanenti 7 carte del mazzo in cui sono gli assi, che non devono essere degli assi: ci sono |C27,7 | modi
possibili;
iii) scegliamo le 10 carte di un secondo mazzo, che non devono essere degli assi: ci sono |C20,10 | modi possibili.
In definitiva
3|C27,7 ||C20,10 | 18
P (A) = = ≈ 8.8%.
|C30,10 ||C20,10 | 203

Esempio 2.2.28. Una moneta (non truccata) viene lanciata dieci volte. Dopodiché si lancia un dado a dieci
facce (su cui sono riportati i numeri interi da 1 a 10). Calcoliamo la probabilità dell’evento

A = “il lancio della moneta, il cui numero è fornito dall’esito del dado, ha dato testa”.

In altre parole, l’evento A si verifica se, dopo aver scelto a caso uno dei 10 lanci (tramite il lancio del dado),
il risultato di quel lancio è testa.
Soluzione. Intuitivamente la probabilità è 12 . Consideriamo Ω = DR2,10 × I10 (si noti che al posto dell’insieme I10 è possibile
utilizzare indifferentemente DR10,1 , D10,1 o C10,1 , dato che |I10 | = |DR10,1 | = |D10,1 | = |C10,1 |). L’esito ω = (ω1 , . . . , ω10 , k)
corrisponde alla sequenza ω1 , . . . , ω10 dei risultati dei lanci e alla scelta k del lancio fra i 10 effettuati. Caratterizziamo il
generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il numero k del lancio: ci sono 10 valori possibili;
ii) scegliamo il risultato degli altri 9 lanci: ci sono |DR2,9 | modi possibili.
In definitiva
10|DR2,9 | 10 · 29 1
P (A) = = = .
|DR2,10 × I10 | 10 · 210 2

Esempio 2.2.29.
i) In quanti modi è possibile sistemare 3 monete (distinte: chiamiamole per esempio m1 , m2 e m3 ) in 10
scatole, sapendo che ogni scatola può contenere solo una moneta?
ii) Una volta disposte le monete, qual è la probabilità che la prima scatola contenga una moneta?
iii) Rispondere ai quesiti precedenti nel caso in cui ogni scatola possa contenere al più 2 monete.
Soluzione. 1) Possiamo immaginare che l’esperimento si svolga come segue: un’urna contiene 10 palline numerate da 1 a
10; ogni pallina corrisponde ad una scatola (supponiamo che le scatole siano state anch’esse numerate da 1 a 10); quindi
si estraggono senza reimmissione tre palline: il numero della i-esima pallina estratta indica la scatola in cui verrà messa la
moneta mi , con i = 1, 2, 3. Abbiamo dunque ricondotto l’esperimento all’estrazione senza reimmissione di 3 palline da un’urna
che ne contiene 10. Sappiamo che lo spazio campionario naturale è Ω = D10,3 . Il punto 1) chiede di calcolare i “casi possibili”,
ovvero |D10,3 | = 10!
7! = 720.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 45

3 . Per dimostrarlo, indichiamo con A l’evento di cui vogliamo calcolare la probabilità,


2) Intuitivamente (?) la probabilità è 10
ovvero
A = “la prima scatola contiene una moneta” = “la pallina numero 1 è stata estratta”.
Si ha che
|A| |A|
P (A) = =
|D10,3 | 720
o, alternativamente,
|Ac | |Ac |
P (A) = 1 − P (Ac ) = 1 − = 1− .
|D10,3 | 720
Resta dunque da determinare |A| oppure |Ac |. Si noti che Ac è l’evento in cui le tre monete non sono messe nella prima scatola
e quindi equivale a disporre le 3 monete nelle rimanenti 9 scatole (equivalentemente, nelle tre estrazioni dall’urna, non esce la
pallina numero 1), ossia Ac ↔ D9,3 . Quindi |Ac | = |D9,3 |, da cui

|D9,3 | 7 3
P (A) = 1 − = 1− = .
|D10,3 | 10 10

Alternativamente, |A| può essere determinato con il metodo delle scelte successive procedendo come segue:
• scelgo la moneta da mettere nella prima scatola: 3 scelte possibili;
• scelgo dove mettere le restanti due monete nelle rimanenti nove scatole: |D9,2 | modi possibili.
Quindi |A| = 3|D9,2 |, perciò
3|DR9,2 | 3
P (A) = = .
720 10
3) Poniamo Ω = Ω1 ⊎ Ω2 , dove:
• Ω1 contiene i “casi possibili” in cui le prime due monete sono nella stessa scatola, e, di conseguenza, la terza moneta è
in una delle rimanenti nove scatole: ci sono 10 · 9 casi possibili di questo tipo, quindi |Ω1 | = 10 · 9;
• Ω2 contiene i “casi possibili” in cui le prime due monete sono in scatole diverse, mentre la terza moneta è in una
qualsiasi delle dieci scatole: ci sono |D10,2 | · 10 casi possibili di questo tipo, quindi |Ω2 | = |D10,2 | · 10.
Dato che Ω = Ω1 ⊎ Ω2 , abbiamo che

|Ω| = |Ω1 | + |Ω2 | = 10 · 9 + |D10,2 | · 10 = 990.

Riassumendo, in questa sezione abbiamo esaminato la probabilità uniforme discreta che è essenzial-
mente definita come rapporto fra “casi favorevoli” e “casi possibili”. Il calcolo della probabilità uniforme si
riduce a un problema di conteggio che può essere risolto con gli strumenti del calcolo combinatorio. In tale
contesto, un utile algoritmo per il conteggio di “casi favorevoli” e “casi possibili” è il cosiddetto “metodo
delle scelte successive”. Gli errori più comuni che si commettono nell’utilizzo di tale metodo sono:

• contare esiti che non esistono (vedi Esempio 2.2.21);

• contare più di una volta lo stesso esito (vedi Esempio 2.2.22);

• non contare tutti gli esiti.

Abbiamo anche visto che, nel caso della probabilità uniforme discreta, è spesso utile ripensare il fenomeno
aleatorio come un esperimento (o, eventualmente, una sequenza di esperimenti) in cui si estraggono (con
reimmissione, senza reimmissione, simultaneamente) k palline da un’urna che contiene n palline distinte.
Nell’ambito di questo tipo di problemi abbiamo infine introdotto due esempi notevoli di probabilità: la
binomiale e l’ipergeometrica.
46 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

2.3 Probabilità condizionata e indipendenza di eventi


I concetti di indipendenza e probabilità condizionata sono centrali nella Teoria della Probabilità. Po-
tremmo dire che finora abbiamo semplicemente rivisto alcuni concetti di calcolo combinatorio e teoria
della misura dandone l’interpretazione probabilistica. Ora, con l’indipendenza e la probabilità condiziona-
ta, introduciamo concetti completamente nuovi e peculiari della Teoria della Probabilità: essi permettono
di analizzare come l’informazione riguardo al verificarsi di un evento influenza la probabilità di un altro
evento.

2.3.1 Probabilità condizionata


Come già spiegato, la Teoria della Probabilità si occupa dei fenomeni il cui esito è incerto: ora l’in-
certezza su un fatto significa “mancanza di conoscenza parziale o totale” del fatto stesso. In altri termini,
l’incertezza è dovuta ad una mancanza di informazioni sul fenomeno poiché esso avverrà nel futuro (per
esempio, il prezzo di domani di un titolo azionario) oppure poiché è già avvenuto ma non è stato possibi-
le osservarlo (per esempio, l’estrazione di una carta che non ci viene mostrata oppure la traiettoria di un
elettrone). Chiaramente può accadere che alcune informazioni diventino disponibili e in tal caso lo spazio
di probabilità che descrive il fenomeno deve essere “aggiornato” per tener conto di esse. A questo scopo si
introduce il concetto di probabilità condizionata. Consideriamo dapprima il seguente
Esempio 2.3.1. [!] Da un’urna che contiene 2 palline bianche e 2 palline nere, si estraggono in sequenza e
senza reinserimento due palline:
i) calcolare la probabilità che la seconda pallina sia bianca;
ii) sapendo che la prima pallina estratta è nera, calcolare la probabilità che la seconda pallina sia bianca;
iii) sapendo che la seconda pallina estratta è nera, calcolare la probabilità che la prima pallina sia bianca.
Utilizzando il calcolo combinatorio, è abbastanza facile risolvere il quesito i). Consideriamo lo spazio cam-
pionario Ω = D4,2 delle possibili estrazioni, tenendo conto dell’ordine. Allora |Ω| = |D4,2 | = 12 e l’evento
A =“la seconda pallina è bianca” ha 6 elementi, quindi P (A) = 12 .
Il quesito ii) è elementare dal punto di vista intuitivo: poiché abbiamo l’informazione che la prima
pallina estratta è nera, alla seconda estrazione l’urna è composta da due palline bianche e una nera e
quindi la probabilità cercata è 32 . Condizionatamente all’informazione data, l’evento A ha ora probabilità
maggiore di 21 .
Al contrario, l’ultimo quesito non sembra avere una soluzione intuitiva. Si potrebbe pensare che la
seconda estrazione non influisce sulla prima perché avviene dopo ma ciò non è corretto. Poiché ci viene
data un’informazione sulla seconda estrazione, bisogna pensare che le due estrazioni siano già avvenute
e in tal caso l’informazione sull’esito della seconda estrazione influisce sulla probabilità dell’esito della prima:
infatti sapendo che la seconda estratta è una pallina nera, è come se nella prima estrazione tale pallina
nera fosse stata “prenotata” e non potesse essere estratta; quindi ci sono due possibilità su tre di estrarre
una pallina bianca. In effetti, anche utilizzando il calcolo combinatorio è facile provare che la probabilità
cercata è 32 .
Ora formalizziamo le idee precedenti.
Definizione 2.3.2 (Probabilità condizionata). In uno spazio di probabilità (Ω, F , P ) sia B un evento non
trascurabile, ossia tale che P (B) > 0. La probabilità di A condizionata a B è definita da
P (A ∩ B)
P (A | B) := , A ∈ F. (2.3.1)
P (B)
Osservazione 2.3.3. La Definizione 2.3.2 si motiva nel modo seguente: se sappiamo che l’evento B è acca-
duto allora lo spazio campionario si “riduce” da Ω a B e, condizionatamente a tale informazione, è naturale
definire la probabilità di A come in (2.3.1) poiché:
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 47

i) solo gli eventi di A che stanno anche in B possono accadere;


ii) poiché il nuovo spazio campionario è B, dobbiamo dividere per P (B) in modo che P (B | B) = 1.
Proposizione 2.3.4. Nello spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile. Si ha:
i) P (· | B) è una misura di probabilità su (Ω, F );
ii) se A ∩ B = ∅ allora P (A | B) = 0;
P (A)
iii) se A ⊆ B allora P (A | B) = P (B)
e di conseguenza P (A | B) ≥ P (A);

iv) se B ⊆ A allora P (A | B) = 1;
v) se P (A) = 0 allora P (A | B) = 0.
Dimostrazione. Le proprietà seguono direttamente dalla Definizione 2.3.2: provare i dettagli è un esercizio
molto utile e istruttivo.
Esempio 2.3.5. [!] Riprendiamo il punto ii) dell’Esempio 2.3.1 e consideriamo gli eventi B =“la prima
pallina estratta è nera” e A =“la seconda pallina estratta è bianca”. Per via intuitiva avevamo detto che
la probabilità di A condizionata a B è pari a 32 : ora calcoliamo P (A | B) utilizzando la Definizione 2.3.2.
Chiaramente P (B) = 21 , mentre sullo spazio campionario D4,2 ci sono 4 possibili estrazioni in cui la prima
4
pallina è nera e la seconda è bianca e quindi P (A ∩ B) = 12 = 13 . Ne viene che
P (A ∩ B) 2
P (A | B) = =
P (B) 3
che conferma il risultato intuitivo.
Ora risolviamo il punto i) dell’Esempio 2.3.1 utilizzando il concetto di probabilità condizionata per
evitare l’uso del calcolo combinatorio. La difficoltà del quesito è nel fatto che il risultato della seconda
estrazione dipende dal risultato della prima estrazione e quest’ultimo è incognito: per questo motivo, a
prima vista, sembra impossibile9 calcolare la probabilità dell’evento A. L’idea è di partizionare lo spazio
campionario e considerare separatamente i casi in cui B accade o meno per sfruttare la definizione di pro-
babilità condizionata: abbiamo già provato che P (A | B) = 32 e in modo analogo si vede che P (A | Bc ) = 13 .
Allora si ha
P (A) = P (A ∩ B) + P (A ∩ Bc )
= P (A | B)P (B) + P (A | Bc )P (Bc )
2 1 1 1 1
= · + · =
3 2 3 2 2
che conferma quanto già visto.
Proposizione 2.3.6 (Formula della probabilità totale). [!]
Per ogni evento B tale che 0 < P (B) < 1, vale
P (A) = P (A | B)P (B) + P (A | Bc )(1 − P (B)), A ∈ F. (2.3.2)
Più in generale, se (Bi )i∈I è una partizione10 finita o numerabile di Ω, con P (Bi ) > 0 per ogni i ∈ I, allora
vale X
P (A) = P (A | Bi )P (Bi ), A∈F (2.3.3)
i∈I
9 Un’indagine svolta al quarto anno di alcuni licei di Bologna ha evidenziato un numero significativo di studenti che, di fronte a
questo quesito hanno risposto che non è possibile calcolare la probabilità dell’evento A. Per mettere in crisi questo tipo di convinzione
si può far osservare agli studenti che non c’è ragione per cui le palline nere abbiano maggiore probabilità di essere estratte per seconde
e quindi intuitivamente deve valere P (A) = 12 .
10 Ossia (B )
i i∈I è una famiglia di eventi a due a due disgiunti, la cui unione è uguale a Ω. A volte (Bi )i∈I è chiamato un sistema di
alternative.
48 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Dimostrazione. Dimostriamo la (2.3.3), di cui la (2.3.2) è un caso particolare. Poiché


]
A= (A ∩ Bi ),
i∈I

per la σ -additività di P si ha X X
P (A) = P (A ∩ Bi ) = P (A | Bi )P (Bi ).
i∈I i∈I

Vediamo un altro esempio tipico di applicazione della Formula della probabilità totale.

Esempio 2.3.7. Consideriamo due urne: l’urna α contiene 3 palline bianche e 1 rossa; l’urna β contiene 1
pallina bianca e 1 rossa. Calcoliamo la probabilità che, scelta a caso un’urna ed estratta una pallina, essa
sia bianca.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità e con B l’evento in cui viene scelta l’urna
α. Sembra naturale porre
1 3 1
P (B) = , P (A | B) = , P (A | Bc ) = .
2 4 2
Allora per la (2.3.2) otteniamo
3 1 1 1 5
P (A) = · + · = .
4 2 2 2 8
Notiamo che abbiamo formalmente calcolato P (A) senza neppure specificare lo spazio di probabilità!

Seconda soluzione. Diamo ora una seconda soluzione più dettagliata: poniamo

Ω = {αb1 , αb2 , αb3 , αr, βb, βr}

dove αb1 è l’esito in cui viene scelta la prima urna ed estratta la prima pallina bianca e gli altri esiti sono definiti in modo
analogo. Chiaramente
A = {αb1 , αb2 , αb3 , βb}
ma in questo caso la probabilità corretta da utilizzare non è quella uniforme su Ω. Infatti B, l’evento in cui viene scelta l’urna
α, deve avere probabilità 21 e gli elementi di B sono equiprobabili: ne segue che P ({ω}) = 81 per ogni ω ∈ B. Analogamente
P (Bc ) = 12 e gli elementi di Bc sono equiprobabili da cui

1
P ({βb}) = P ({βr}) = .
4
Possiamo dunque calcolare
5
P (A) = P ({αb1 }) + P ({αb2 }) + P ({αb3 }) + P ({βb}) =
8
in accordo con quanto precedentemente trovato.

Esercizio 2.3.8. Si lancia un dado e di seguito si lancia una moneta un numero di volte pari al risultato del
lancio del dado. Qual è la probabilità di ottenere esattamente due teste?

Esempio 2.3.9. Un’urna contiene 6 palline bianche e 4 nere. Estraendo 2 palline senza reinserimento, qual
è la probabilità che siano entrambe bianche (evento A)?
Possiamo interpretare il quesito come un problema di conteggio, utilizzando la probabilità uniforme P
sullo spazio Ω = C10,2 delle combinazioni di due palline estratte fra le 10 disponibili. Allora si ha

6!
|C6,2 | 2!4! 6·5
P (A) = = 10!
= . (2.3.4)
|C10,2 | 2!8!
10 · 9
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 49

6
Ora notiamo che 10 = P (A1 ) dove A1 è l’evento “la prima pallina estratta è bianca”. D’altra parte, se A2
è l’evento “la seconda pallina estratta è bianca”, allora 95 è la probabilità di A2 condizionata ad A1 , ossia
5
9 = P (A2 | A1 ). In definitiva, osservando anche che A = A1 ∩ A2 , la (2.3.4) equivale a

P (A1 ∩ A2 ) = P (A1 )P (A2 | A1 )


e quindi ritroviamo proprio la formula (2.3.1) che definisce la probabilità condizionata.
Più in generale, dalla definizione di probabilità condizionata si ottiene direttamente il seguente utile
risultato.
Proposizione 2.3.10 (Formula di moltiplicazione). [!]
Siano A1 , . . . , An eventi tali che P (A1 ∩ · · · ∩ An−1 ) > 0. Vale la formula
P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 | A1 ) · · · P (An | A1 ∩ · · · ∩ An−1 ) (2.3.5)
Esercizio 2.3.11. Utilizzare la formula (2.3.5) per calcolare la probabilità che, estratte 3 carte da un mazzo
di 40, il valore di ognuna non sia superiore a 5.
Soluzione. Indicato con Ai , i = 1, 2, 3, l’evento “la i-esima carta estratta è minore o uguale a 5”, la probabilità cercata è uguale
a
20 19 18
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) = · · .
40 39 38
|C |
Risolvendo l’esercizio come un problema di conteggio, troveremmo la soluzione equivalente |C20,3 | .
40,3

Esempio 2.3.12. Calcoliamo la probabilità di fare un ambo al lotto con i numeri 1 e 3 (evento A), sapendo
che l’estrazione è già avvenuta e tre dei cinque numeri estratti sono dispari (evento B).
Soluzione. Poniamo Ω = C90,5 : l’esito ω = {ω1 , . . . , ω5 } può essere pensato come l’insieme dei numeri estratti. Si ha che ω ∈ A
se 1, 3 ∈ ω e dunque A ↔ C88,3 . Inoltre B ↔ C45,3 × C45,2 (corrispondente alla scelta di tre numeri dispari e due pari fra i 90)
e A ∩ B ↔ C43,1 × C45,2 (corrispondente alla scelta del terzo numero dispari, oltre a 1 e 3, e di due pari fra i 90). Allora si ha
|C88,3 | 43|C45,2 |
P (A) = ≈ 0.25% e P (A | B) = ≈ 0.3%.
|C90,5 | |C45,3 ||C45,2 |
Osservazione 2.3.13. In base alla formula (2.3.2) della probabilità totale, se 0 < P (B) < 1 possiamo determi-
nare univocamente P (A) a partire da P (B), P (A | B) e P (A | Bc ). Notiamo anche che la (2.3.2) implica che P (A)
appartiene all’intervallo di estremi P (A | B) e P (A | Bc ): quindi, indipendentemente dalla conoscenza di P (B),
si ha che P (A | B) e P (A | Bc ) forniscono delle stime del valore di P (A). In particolare se P (A | B) = P (A | Bc )
allora vale anche P (A) = P (A | B) o equivalentemente P (A ∩ B) = P (A)P (B).
Consideriamo ora un problema relativo alla rilevazione dell’opinione degli studenti sulla qualità della
didattica. Definiamo i seguenti eventi aleatori:
• A: un professore riceve un giudizio positivo nella rilevazione dell’opinione degli studenti;
• B: un professore è “bravo” (ammesso di sapere cosa ciò significhi).
Generalmente gli eventi A e B non coincidono: allora possiamo interpretare le probabilità condizionate
P (A | B) e P (B | A) nel modo seguente:
• P (A | B) è la probabilità che un professore “bravo” riceva un giudizio positivo;
• P (B | A) è la probabilità che un professore che riceve un giudizio positivo sia “bravo”.
Riflettendo attentamente sul significato di queste due probabilità condizionate, risulta chiaro che a volte si
può essere interessati a ricavarne una a partire dalla conoscenza dall’altra: tipicamente nella realtà, si può
avere una stima generale (in base a dati storici) di P (A | B) ed essere interessati a conoscere P (B | A) in base
al risultato della rilevazione appena effettuata. Una risposta a questo problema è data dal classico Teorema
di Bayes.
50 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Teorema 2.3.14 (Formula di Bayes). [!]


Siano A, B eventi non trascurabili. Vale

P (A | B)P (B)
P (B | A) = (2.3.6)
P (A)

Dimostrazione. La (2.3.6) equivale a

P (B | A)P (A) = P (A | B)P (B)

e segue direttamente dalla definizione di probabilità condizionata.

Esempio 2.3.15. Riprendiamo l’Esempio 2.3.7: sapendo che è stata estratta una pallina bianca, qual è la
probabilità che sia stata scelta l’urna α?
Soluzione. Come prima indichiamo con A l’evento “viene estratta una pallina bianca” e con B l’evento “viene scelta l’urna α”.
Avevamo già calcolato P (A) = 58 , mentre assumiamo P (A | B) = 43 e P (B) = 12 . Allora per la formula di Bayes abbiamo

P (A | B)P (B) 3
P (B | A) = = .
P (A) 5

Esercizio 2.3.16. Supposto P (A | B) , P (A | Bc ), provare che

P (A) − P (A | Bc )
P (B) = , (2.3.7)
P (A | B) − P (A | Bc )

e quindi è possibile determinare univocamente P (B) a partire da P (A), P (A | B) e P (A | Bc ).

Esercizio 2.3.17 (Rilevazione della didattica). Supponiamo di sapere che storicamente i professori “bravi”
ricevono un giudizio positivo nel 95% dei casi e i professori “meno bravi” ricevono un giudizio positivo nel
10% dei casi (alcuni professori sono furbi...). Se i giudizi sul corso di laurea sono positivi all’80%, qual è la
probabilità che

i) i professori che hanno ricevuto un giudizio positivo siano veramente “bravi”?

ii) i professori che hanno ricevuto un giudizio negativo in realtà siano “bravi”?

Si osservi che, combinando la formula di Bayes con la formula (2.3.7), otteniamo

P (A | B)P (B) P (A | B) (P (A) − P (A | Bc ))


P (B | A) = = .
P (A) P (A) (P (A | B) − P (A | Bc ))

2.3.2 Indipendenza di eventi


Definizione 2.3.18. In uno spazio di probabilità (Ω, F , P ), diciamo che due eventi A, B sono indipendenti in
P se
P (A ∩ B) = P (A)P (B). (2.3.8)

Il concetto di indipendenza è relativo alla misura di probabilità considerata11 . Esso esprime il fatto che
l’informazione sull’accadere dell’evento B non influenza la probabilità di A: infatti, se P (B) > 0, la (2.3.8) è
equivalente a
P (A | B) = P (A),
11 A volte è necessario dichiarare esplicitamente la misura di probabilità P considerata. Infatti nelle applicazioni possono intervenire
diverse misure di probabilità contemporaneamente: non è detto che due eventi indipendenti in una misura di probabilità lo siano in
un’altra misura di probabilità.
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 51

ossia
P (A ∩ B) P (A)
=
P (B) P (Ω)
che può essere interpretata come una relazione di proporzionalità

P (A ∩ B) : P (B) = P (A) : P (Ω).

Analogamente, se
P (A ∩ B) > P (A)P (B) (2.3.9)
allora A, B si dicono positivamente correlati in P poiché la (2.3.9) implica12

P (A | B) > P (A), P (B | A) > P (B),

ossia la probabilità di A aumenta condizionatamente all’informazione sull’avvenire di B e viceversa.

Osservazione 2.3.19. Chiaramente, il fatto che A, B siano indipendenti non significa che siano disgiunti,
anzi: se P (A) > 0, P (B) > 0 e vale la (2.3.8) allora anche P (A ∩ B) > 0 e quindi A ∩ B , ∅. D’altra parte, se
P (A) = 0 allora anche P (A ∩ B) = 0 (per la (2.1.5) e il fatto che A ∩ B ⊆ A) e quindi la (2.3.8) vale per ogni B,
ossia A è indipendente da ogni evento B.

Osservazione 2.3.20. Abbiamo definito il concetto di indipendenza ma non quello di dipendenza. Se due
eventi A, B non sono indipendenti non diciamo che sono dipendenti: definiremo in seguito un concetto di
dipendenza che è ben distinto e in qualche modo slegato da quello di indipendenza.

Esempio 2.3.21. Due atleti hanno rispettivamente la probabilità del 70% e 80% di battere un record in una
gara. Qual è la probabilità che almeno uno dei due batta il record?
Se A è l’evento “il primo atleta batte il record”, B è l’evento “il secondo atleta batte il record” e assumia-
mo che A e B siano indipendenti allora si ha

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =

(per l’indipendenza)

= P (A) + P (B) − P (A)P (B)


= 150% − 70% · 80% = 94%.

Esempio 2.3.22. Il fatto che due eventi siano indipendenti non significa che “non hanno nulla a che fare”.
Si consideri il lancio di due dadi e gli eventi “la somma dei lanci è 7” (evento A) e “il risultato del primo
lancio è 3”. Allora A e B sono indipendenti nella probabilità uniforme.

Esempio 2.3.23. Vedremo tra breve che il concetto di indipendenza risulta naturale per descrivere un espe-
rimento che viene ripetuto in modo che ogni ripetizione non influenzi la probabilità delle altre ripetizioni
(per esempio, un sequenza di lanci di un dado o di una moneta). In questo caso risulta naturale utilizzare
uno spazio campionario che sia un prodotto cartesiano. Per esempio, sia Ω = Ω1 × Ω2 finito, munito della
probabilità uniforme P : consideriamo A = E1 × Ω2 e B = Ω1 × E2 con Ei ⊆ Ωi , i = 1, 2. Allora

|E1 ||E2 | |E1 × Ω2 ||Ω1 × E2 |


P (A ∩ B) = P (E1 × E2 ) = = = P (A)P (B)
|Ω| |Ω|2

e quindi A e B sono indipendenti in P . Approfondiremo il legame fra i concetti di indipendenza e prodotto


di misure a partire dalla Sezione 3.3.
12 Nel caso in cui A, B non siano trascurabili in P .
52 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Esercizio 2.3.24. Al cinema due persone α, β decidono quale film vedere, tra due disponibili, in maniera
indipendente e con le seguenti probabilità:
1 1
P (α1 ) = , P (β1 ) =
3 4
dove α1 indica l’evento “α sceglie il primo film”. Calcolare la probabilità che α e β vedano lo stesso film.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità. Abbiamo

P (A) = P (α1 ∩ β1 ) + P (α2 ∩ β2 ) =

(per l’ipotesi di indipendenza e poiché P (α2 ) = 1 − P (α1 ))


7
= P (α1 )P (β1 ) + P (α2 )P (β2 ) = .
12
Questo esempio elementare mostra che è possibile calcolare la probabilità di un evento che dipende da eventi indipendenti,
a partire dalla conoscenza delle probabilità dei singoli eventi e, soprattutto, senza la necessità di costruire esplicitamente lo
spazio di probabilità.
Seconda soluzione. È anche utile procedere nel modo “classico”, risolvendo l’esercizio come un problema di conteggio: in questo
caso dobbiamo prima costruire lo spazio campionario

Ω = {(1, 1), (1, 2), (2, 1), (2, 2)}

dove (i, j) indica l’esito “α sceglie il film i e β sceglie il film j” con i, j = 1, 2. Per ipotesi conosciamo le probabilità degli eventi

α1 = {(1, 1), (1, 2)}, β1 = {(1, 1), (2, 1)},

tuttavia questo non è sufficiente a determinare univocamente la probabilità P , ossia a determinare le probabilità dei singoli
esiti. In effetti per fare ciò, è necessario utilizzare anche l’ipotesi di indipendenza (in P ) di α1 e β1 , da cui ricaviamo per
esempio
1
P ({(1, 1)}) = P (α1 ∩ β1 ) = P (α1 )P (β1 ) = .
12
Analogamente possiamo calcolare tutte le probabilità degli esiti e di conseguenza risolvere il problema. Notiamo che questa
procedura basata sul conteggio risulta più laboriosa e meno intuitiva.

Proposizione 2.3.25. Se A, B sono indipendenti allora anche A, Bc sono indipendenti.


Dimostrazione. Si ha

P (A ∩ Bc ) = P (A \ B) = P (A \ (A ∩ B)) =

(per la (2.1.6))

= P (A) − P (A ∩ B) =

(per l’ipotesi di indipendenza di A, B)

= P (A) − P (A)P (B) = P (A)P (Bc ).

Esercizio 2.3.26. Al cinema due persone α, β decidono quale film vedere fra tre disponibili, nel modo
seguente:
i) α sceglie un film a caso con le seguenti probabilità
1 1 1
P (α1 ) = , P (α2 ) = , P (α3 ) =
2 3 6
dove αi indica l’evento “α sceglie il film i-esimo” per i = 1, 2, 3;
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 53

ii) β lancia una moneta e se il risultato è “testa” allora sceglie lo stesso film di α, altrimenti sceglie un
film a caso, indipendentemente da α.
Calcoliamo la probabilità P (A) dove A è l’evento “α e β vedono lo stesso film”.
Soluzione. Indichiamo con T l’evento “il risultato del lancio della moneta è testa”. Si ha P (T ) = 12 e per ipotesi P (A | T ) = 1 e
P (βi | T c ) = 31 per i = 1, 2, 3. Inoltre, poiché P (· | T c ) è una misura di probabilità, si ha

3
X
P (A | T c ) = P (αi ∩ βi | T c ) =
i=1

(per l’ipotesi di indipendenza della scelta di α e β condizionatamente all’evento T c )


3
X
= P (αi | T c )P (βi | T c )
i=1
3
1X 1
= P (αi | T c ) = ,
3 3
i=1

3
P (αi | T c ) = 1 essendo P (· | T c ) una misura di probabilità. Allora per la (2.3.2) si ha
P
poiché
i=1

1 1 1 2
P (A) = P (A | T )P (T ) + P (A | T c )(1 − P (T )) = 1 · + · = .
2 3 2 3
Per esercizio, provare a calcolare la probabilità che α e β scelgano il primo film, ossia P (α1 ∩ β1 ).
Consideriamo ora il caso di più di due eventi.
Definizione 2.3.27. Sia (Ai )i∈I una famiglia di eventi. Diciamo che tali eventi sono indipendenti se vale
 
 \  Y
P  Aj  = P (Aj )
j∈J j∈J

per ogni J ⊆ I, con J finito.


Consideriamo tre eventi A, B, C: gli Esercizi 2.3.41 e 2.3.42 mostrano che in generale non c’è implicazione
fra la proprietà
P (A ∩ B ∩ C) = P (A)P (B)P (C) (2.3.10)
e le proprietà

P (A ∩ B) = P (A)P (B), P (A ∩ C) = P (A)P (C), P (B ∩ C) = P (B)P (C). (2.3.11)

In particolare, una famiglia di eventi a due a due indipendenti non è in generale una famiglia di eventi
indipendenti.
Concludiamo la sezione con un utile risultato. Data una successione di eventi (An )n≥1 , indichiamo con13
\[
(An i.o.) := Ak .
n≥1 k≥n

Si noti che
(An i.o.) = {ω ∈ Ω | ∀n ∈ N ∃k ≥ n tale che ω ∈ Ak },
ossia (An i.o.) è l’evento costituito dagli ω ∈ Ω che appartengono ad un numero infinito di An .
13 i.o. sta per infinitely often.
54 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Lemma 2.3.28 (Borel-Cantelli). [!] Sia (An )n≥1 una successione di eventi nello spazio (Ω, F , P ):
i) se X
P (An ) < +∞
n≥1
allora P (An i.o.) = 0;
ii) se gli An sono indipendenti e X
P (An ) = +∞
n≥1
allora P (An i.o.) = 1.
Dimostrazione. Per la continuità dall’alto di P si ha
[ !
P (An i.o.) = lim P Ak ≤
n→∞
k≥n

(per σ -subadditività, Proposizione 2.1.22-ii))


X
≤ lim P (Ak ) = 0
n→∞
k≥n

per ipotesi. Questo prova la prima parte della tesi.


Per quanto riguarda ii), proviamo che
[ !
P Ak = 1 (2.3.12)
k≥n
per ogni n ∈ N, da cui seguirà la tesi. Fissati n, N con n ≤ N , si ha
[N ! \N !
P Ak = 1 − P Ack =
k=n k=n
(per indipendenza)
N
Y
= 1− (1 − P (Ak )) ≥
k=n
(per la disuguaglianza elementare 1 − x ≤ e−x valida per x ∈ R)
N
X !
≥ 1 − exp − P (Ak ) .
k=n
La (2.3.12) segue passando al limite per N → ∞.
Riassumendo, la probabilità condizionata e l’indipendenza sono i primi concetti veramente nuovi, esclu-
sivi della teoria della probabilità e che non si incontrano in altre teorie matematicamente “affini” come la
teoria della misura o il calcolo combinatorio.
Lo scopo di entrambi i concetti è quello di esprimere la probabilità P (A ∩ B) in termini di probabilità
dei singoli eventi A e B. Ciò è ovviamente possibile se A, B sono indipendenti in P poiché in questo caso si
ha
P (A ∩ B) = P (A)P (B).
Più in generale, se non c’è indipendenza fra A e B possiamo scrivere
P (A ∩ B) = P (A | B)P (B)
Molti problemi si risolvono molto più facilmente usando le precedenti identità (e altre utili formule come
quella della probabilità totale, di moltiplicazione e di Bayes) invece del calcolo combinatorio.
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 55

2.3.3 Prove ripetute e indipendenti


Definizione 2.3.29. [!] In uno spazio di probabilità (Ω, F , P ), sia (Ch )h=1,...,n una famiglia finita di eventi
indipendenti ed equiprobabili, ossia tali che P (Ch ) = p ∈ [0, 1] per ogni h = 1, . . . , n. Allora diciamo che
(Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Intuitivamente possiamo immaginare di ripetere n volte un esperimento che può avere due esiti, succes-
so o insuccesso: Ch rappresenta l’evento “l’esperimento h-esimo ha successo”. Per esempio, in una sequenza
di n lanci di una moneta, Ch può rappresentare l’evento “al lancio numero h ottengo testa”.
Per ogni n ∈ N e p ∈ [0, 1], è sempre possibile costruire uno spazio discreto (Ω, P ) su cui è definita una
famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Il seguente risultato mostra anche
che su uno spazio di probabilità discreto non è possibile definire una successione (Ch )h∈N di prove ripetute e
indipendenti a meno che non sia banale, ossia con p = 0 oppure p = 1.
Proposizione 2.3.30. Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Si veda la Sezione 2.5.1.
Vediamo ora due esempi significativi.
Esempio 2.3.31 (Probabilità di primo successo alla prova k). [!]
Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti con probabilità p. L’evento “il primo successo
è alla k-esima prova” è definito da
Ak := C1c ∩ C2c ∩ · · · ∩ Ck−1
c
∩ Ck , 1 ≤ k ≤ n,
e per l’indipendenza vale
P (Ak ) = (1 − p)k−1 p, 1 ≤ k ≤ n. (2.3.13)
Per esempio, Ak rappresenta l’evento secondo cui, in una sequenza di n lanci di una moneta, si ottiene testa
per la prima volta al k-esimo lancio. Notiamo che P (Ak ) in (2.3.13) non dipende da n: intuitivamente, Ak
dipende solo da ciò che è successo fino alla k-esima prova ed è indipendente dal numero totale n di prove.
Esempio 2.3.32 (Probabilità di k successi su n prove). [!]
Consideriamo una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Calcoliamo la
probabilità dell’evento Ak “esattamente k prove hanno successo”.
1◦ modo: Con riferimento allo spazio canonico della Proposizione 2.3.30 e in particolare alla formula (2.5.1),
abbiamo Ak = Ωk . Dunque
!
X
k n−k n k
P (Ak ) = P ({ω}) = |Ωk |p (1 − p) = p (1 − p)n−k , 0 ≤ k ≤ n.
k
ω∈Ωk

Vedremo che P (Ak ) è legato al concetto di distribuzione binomiale nell’Esempio 2.4.17.


2◦ modo: L’evento Ak è del tipo
Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn
al variare di {i1 , . . . , ik }, famiglia di indici di In : le possibili scelte di tali indici sono esattamente |Cn,k |. Inoltre,
per l’indipendenza, si ha  
P Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn = pk (1 − p)n−k
e dunque ritroviamo il risultato
!
n k
P (Ak ) = p (1 − p)n−k , 0 ≤ k ≤ n. (2.3.14)
k
56 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Osservazione 2.3.33. Ripensiamo all’Esempio 2.2.17 relativo al calcolo della probabilità di estrarre (con
reinserimento) esattamente k palline bianche da un’urna che ne contiene b bianche e r rosse. Se Ch è l’evento
b
“la pallina della h-esima estrazione è bianca” allora p = P (Ch ) = b+r e la (2.3.14) fornisce la probabilità
cercata, in accordo con quanto avevamo ottenuto nell’Esempio 2.2.17 tramite il calcolo combinatorio.
Si noti che nell’approccio basato sul calcolo combinatorio si usa la probabilità uniforme, come sempre nei
problemi di conteggio. Invece, nell’approccio basato sulla famiglia di prove ripetute e indipendenti, impli-
citamente utilizziamo lo spazio canonico della Proposizione 2.3.30 senza tuttavia la necessità di dichiarare
esplicitamente lo spazio campionario e la misura di probabilità (che comunque non è quella uniforme).

2.3.4 Esempi
Proponiamo alcuni esempi ed esercizi riassuntivi su indipendenza e probabilità condizionata.
Esempio 2.3.34.

• Il signor Rossi ha due figli: qual è la probabilità che entrambi i figli siano maschi (evento A)?
Considerando come spazio campionario

Ω = {(M, M), (M, F), (F, M), (F, F)} (2.3.15)

con ovvio significato dei simboli, è chiaro che P (A) = 41 . La situazione è riassunta nella seguente
tabella in cui le celle rappresentano i quattro casi possibili e le relative probabilità sono indicate
all’interno dei cerchi: si ha A = {(M, M)}.

Maschio Femmina
1 1
Maschio (M, M) 4 (M, F) 4
1 1
Femmina (F, M) 4 (F, F) 4

• Il signor Rossi ha due figli. Sapendo che uno di questi è maschio (evento B), qual è la probabilità che
entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) purtroppo è sbagliata. Per rendersene conto è suf-
ficiente considerare ancora lo spazio campionario Ω: ora, avendo l’informazione che (F, F) non è
possibile (ossia ha probabilità nulla “condizionatamente” all’informazione data che è il verificarsi
dell’evento B) e supposto che gli esiti (M, M), (M, F), (F, M) siano equiprobabili, se ne conclude che
la probabilità cercata è pari a 31 . La tabella seguente mostra come si ridistribuisce la probabilità
condizionatamente all’informazione che si verifica B.

Maschio Femmina
1 1
Maschio (M, M) 3 (M, F) 3
1
Femmina (F, M) 3 (F, F) 0

• Il signor Rossi ha due figli. Sapendo che il primogenito è maschio (evento C, differente da B del punto
precedente), qual è la probabilità che entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) è corretta perché in questo caso FM e FF hanno
entrambe probabilità nulla (“condizionatamente” all’informazione data che è il verificarsi dell’evento
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 57

C). In altri termini, sapendo che il primogenito è maschio, tutto dipende dal fatto che il secondogenito
sia maschio o femmina, ossia da due eventi equiprobabili con probabilità pari a 21 . La tabella seguente
mostra come si ridistribuisce la probabilità condizionatamente all’informazione che si verifica C.

Maschio Femmina
1 1
Maschio (M, M) 2 (M, F) 2

Femmina (F, M) 0 (F, F) 0

Indicando con P la probabilità uniforme su Ω in (2.3.15), abbiamo


1 3 1
P (A) = P ({MM}) = , P (B) = P ({MM, MF, FM}) = , P (C) = P ({MM, MF}) = ,
4 4 2
e quindi, in base alla Definizione 2.3.2, vale

P (A) 1 P (A) 1
P (A | B) = = , P (A | C) = = ,
P (B) 3 P (C) 2

in accordo con quanto avevamo congetturato sopra per via intuitiva.


Esercizio 2.3.35. Dimostrare la Proposizione 2.3.4.
Esercizio 2.3.36. Usando la formula di Bayes provare che

P (A | B)P (B)
P (B | A) = (2.3.16)
P (A | B)P (B) + P (A | Bc )(1 − P (B))

e quindi è possibile determinare univocamente P (B | A) a partire da P (B), P (A | B) e P (A | Bc ).


Esercizio 2.3.37. Sappiamo che il 4% di una certa popolazione α è malato. Effettuando un test sperimentale
per rilevare se un individuo di α è malato, si osserva che il test ha la seguente affidabilità:
i) se l’individuo è malato, il test dà esito positivo nel 99% dei casi;
ii) se l’individuo è sano, il test dà esito positivo nel 2% dei casi.
In base a questi dati, qual è la probabilità che un individuo di α, positivo al test, sia veramente malato?
Supponiamo poi di utilizzare il test su un’altra popolazione β: considerando valide le stime di affidabilità
i) e ii), e osservando che il test dà esito positivo sul 6% della popolazione β, qual è la probabilità che un
individuo di β sia malato?
Soluzione. Indichiamo con T l’evento “il test su un individuo dà esito positivo” e con M l’evento “l’individuo è malato”. Per
ipotesi, P (M) = 4%, P (T | M) = 99% e P (T | M c ) = 2%. Allora per la (2.3.16) con B = M e A = T vale

P (M | T ) ≈ 67.35%

e dunque c’è un alto numero di “falsi positivi”. Questo è dovuto al fatto che la percentuale dei malati è relativamente bassa:
notiamo che in generale

P (T | M)P (M)
P (M | T ) = −→ 0+ per P (M) → 0+
P (T | M)P (M) + P (T | M c )(1 − P (M))

mentre P (M | T ) → 1− per P (M) → 1− . Osserviamo che in base ai dati possiamo anche calcolare, tramite la (2.3.2), la
percentuale dei test positivi
P (T ) = P (T | M)P (M) + P (T | M c )(1 − P (M)) ≈ 5.88%.
58 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Per quanto riguarda il secondo quesito, abbiamo che per ipotesi P (T | M) = 99% e P (T | M c ) = 2%. Se il dato osservato è
che P (T ) = 6% allora dalla (2.3.7) ricaviamo
P (T ) − P (T | M c )
P (M) = ≈ 4.12%
P (T | M) − P (T | M c )
Il risultato si può interpretare dicendo che, prese per valide le stime di affidabilità i) e ii) del test, si ha che su un 6% di test
positivi circa il 33% sono falsi positivi.

Esercizio 2.3.38. Provare nel dettaglio quanto affermato nell’Esempio 2.3.22.


Esercizio 2.3.39. In riferimento all’Esercizio 2.3.24, costruire una misura di probabilità Q su Ω, diversa da
P , rispetto alla quale valga ancora
1 1
Q(α1 ) = , Q(β1 ) =
3 4
ma α1 e β1 non siano indipendenti in Q.
Esercizio 2.3.40. Consideriamo un mazzo di 40 carte: verificare che, rispetto alla probabilità uniforme,
i) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre un 7” (evento B) non sono indipendenti;
ii) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre una carta di denari” (evento B) sono
indipendenti.
Esercizio 2.3.41 ((2.3.11) non implica (2.3.10)). Consideriamo il lancio di tre dadi e gli eventi Aij definiti
da “il risultato del dado i-esimo è uguale a quello del dado j-esimo”. Allora A12 , A13 , A23 sono a due a due
indipendenti ma non sono indipendenti.
Esercizio 2.3.42 ((2.3.10) non implica (2.3.11)). Consideriamo il lancio di due dadi e, posto Ω = I6 × I6 , gli
eventi

A = {(ω1 , ω2 ) | ω2 ∈ {1, 2, 5}}, B = {(ω1 , ω2 ) | ω2 ∈ {4, 5, 6}}, C = {(ω1 , ω2 ) | ω1 + ω2 = 9}.

Allora vale la (2.3.10) ma non la (2.3.11).


Esercizio 2.3.43. Supponiamo che n oggetti siano messi a caso in r scatole, con r ≥ 1. Calcoliamo la
probabilità che “esattamente k oggetti siano messi nella prima scatola” (evento Ak ).
Soluzione. Se Ch è l’evento “l’h-esimo oggetto viene messo nella prima scatola” allora p = P (Ch ) = 1r . Inoltre P (Ak ) è data
dalla (2.3.14).

2.4 Distribuzioni
In questa sezione ci occupiamo della costruzione e caratterizzazione delle misure sullo spazio Euclideo,
con particolare attenzione alle misure di probabilità su Rd , chiamate distribuzioni. Il risultato fondamentale
in questa direzione è il Teorema di Carathéodory che enunciamo nella Sezione 2.4.7 e utilizzeremo spesso
nel seguito. L’idea è di definire una distribuzione dapprima su una famiglia particolare A di sottoinsiemi
dello spazio campionario Ω (per esempio, la famiglia degli intervalli nel caso Ω = R) e poi estenderla su
un’opportuna σ -algebra che contiene A . Il problema della scelta di tale σ -algebra è legato alla cardinalità
di Ω: se Ω è finito o numerabile, dare una probabilità su Ω è equivalente ad assegnare le probabilità dei
singoli esiti (cf. Osservazione 2.1.13); di conseguenza è naturale assumere P(Ω) come σ -algebra degli
eventi. Il caso generale, come abbiamo già visto nell’Esempio 2.1.30, è decisamente più complesso; infatti
la cardinalità di P(Ω) può essere “troppo grande” perché sia possibile definire su di essa una misura di
probabilità14 .
14 Se la cardinalità di Ω è finita, diciamo |Ω| = n, allora P(Ω) = 2n e se Ω ha cardinalità numerabile allora P(Ω) ha la cardinalità
del continuo (di R). Tuttavia se Ω = R, per il Teorema di Cantor la cardinalità di P(R) è strettamente maggiore della cardinalità di R.
2.4. DISTRIBUZIONI 59

2.4.1 σ -algebra generata e completamento di uno spazio di probabilità


Consideriamo un generico insieme non vuoto Ω. Osserviamo che se (Fi )i∈I è una famiglia (non neces-
sariamente numerabile) di σ -algebre su Ω allora l’intersezione
\
Fi
i∈I

è ancora una σ -algebra. Questo giustifica la seguente

Definizione 2.4.1. Data una famiglia A di sottoinsiemi di Ω, indichiamo con σ (A ) l’intersezione di tutte
le σ -algebre che contengono A . Poiché σ (A ) è la più piccola σ -algebra che contiene A , diciamo che A è la
σ -algebra generata da A .

Esempio 2.4.2. Nel caso in cui A = {A} sia formata da un solo insieme A ⊆ Ω, scriviamo σ (A) invece di
σ ({A}). Notiamo che vale
σ (A) = {∅, Ω, A, Ac }.

L’intersezione di σ -algebre è ancora una σ -algebra, ma un risultato analogo non vale per l’unione: date
due σ -algebre F1 e F2 , si ha F1 ∪ F2 ⊆ σ (F1 ∪ F2 ) e inclusione può essere stretta.
In generale è difficile dare una rappresentazione esplicita della σ -algebra generata da una famiglia
A : chiaramente σ (A ) deve contenere i complementari e le unioni numerabili di elementi di A ma, come
vedremo nella prossima sezione, ci sono casi in cui con queste operazioni non si ottengono tutti gli elementi
di σ (A ). Per questo motivo è utile introdurre delle tecniche che permettano di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ): questo
tipo di risultati sono l’oggetto dell’Appendice A.1.

Osservazione 2.4.3 (Completamento di uno spazio di probabilità). Ricordiamo che uno spazio di pro-
babilità (Ω, F , P ) è completo se N ⊆ F ossia gli insiemi trascurabili (e quelli quasi certi) sono eventi. Si
può sempre “completare” uno spazio (Ω, F , P ) estendendo P alla σ -algebra σ (F ∪ N ) nel modo seguente.
Anzitutto si prova15 che σ (F ∪ N ) = F¯ dove

F¯ := {A ⊆ Ω | A △ B ∈ N per un certo B ∈ F }.

Qui A △ B = (A \ B) ∪ (B \ A) indica la differenza simmetrica di insiemi. Estendiamo P a F¯ , ponendo


P (A) := P (B) per ogni A ∈ F¯ dove B ∈ F è tale che A △ B ∈ N . Allora si ha:

• tale definizione è ben posta (non dipende dalla scelta di B);

• P è una misura di probabilità su (Ω, F¯ );

• P (B) = P (B) per ogni B ∈ F ;

• (Ω, F¯ , P ) è uno spazio completo.

Il completamento di uno spazio dipende dalla σ -algebra e dalla misura di probabilità fissate: al riguardo,
si veda l’Esercizio 2.4.14.
15 È chiaro che F ∪ N ⊆ F¯ ⊆ σ (F ∪ N ) e quindi è sufficiente verificare che F¯ è una σ -algebra per provare che F¯ = σ (F ∪ N ). Ciò
segue dal fatto che:
i) Ac △ Bc = A △ B;
! !
S S S
ii) An △ Bn ⊆ (An △ Bn ) .
n∈N n∈N n∈N
60 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

2.4.2 σ -algebra di Borel


Introduciamo la σ -algebra che utilizzeremo sistematicamente quando lo spazio campionario è Rd . In
realtà, poiché non comporta alcuna difficoltà aggiuntiva e risulterà comodo in seguito, consideriamo il caso
in cui lo spazio campionario sia un generico spazio metrico (M, ϱ): al di là degli spazi Euclidei, un esempio
non banale è M = C[0, 1], lo spazio delle funzioni continue sull’intervallo [0, 1], munito della distanza del
massimo
ϱmax (f , g) = max |f (t) − g(t)|, f , g ∈ C[0, 1].
t∈[0,1]

In uno spazio metrico (M, ϱ), la σ -algebra di Borel Bϱ è la σ -algebra generata dalla topologia (la famiglia
degli aperti) indotta da ϱ.

Definizione 2.4.4 (σ -algebra di Borel). La σ -algebra di Borel Bϱ è la più piccola σ -algebra che contiene gli
aperti di (M, ϱ). Gli elementi di Bϱ sono chiamati Boreliani.

Notazione 2.4.5. Nel seguito indicheremo con Bd la σ -algebra di Borel nello spazio Euclideo Rd . È noto
che Bd è strettamente contenuta nella σ -algebra L dei misurabili secondo Lebesgue16 . Nel caso d = 1,
scriviamo semplicemente B invece di B1 .

Osservazione 2.4.6. [!] Per definizione, Bϱ contiene tutti i sottoinsiemi di M che si ottengono a partire
dagli aperti mediante le operazioni di passaggio al complementare e unione numerabile: per esempio, i
singoletti sono Boreliani17 , ossia {x} ∈ Bϱ per ogni x ∈ M.
Tuttavia, con le sole operazioni di passaggio al complementare e unione numerabile non si ottengono tutti gli
elementi di Bϱ . Addirittura in [18] si mostra che anche con una successione numerabile di operazioni di
passaggio al complementare e unione numerabile non si ottiene Bϱ . Più precisamente, data una famiglia
H di sottoinsiemi di uno spazio Ω, indichiamo con H ∗ la famiglia che contiene gli elementi di H , i
complementari degli elementi di H e le unioni numerabili di elementi di H . Inoltre definiamo H0 = H
e, per ricorrenza, la successione crescente di famiglie

Hn = Hn−1 , n ∈ N.

Per induzione si vede che Hn ⊆ σ (H ) per ogni n ∈ N; tuttavia (cfr. [18] p. 30) nel caso in cui Ω = R e H è
come nell’Esercizio 2.4.7-ii), si ha che
[∞
Hn
n=0

è strettamente incluso in B = σ (H ).

Esercizio 2.4.7. Sia d = 1. Provare che B = σ (H ) dove H è una qualsiasi delle seguenti famiglie di
sotto-insiemi di R:

i) H = { ]a, b] | a, b ∈ R, a < b};

ii) H = { ]a, b] | a, b ∈ Q, a < b} (si noti che H è numerabile e pertanto si dice che la σ -algebra B è
numerabilmente generata);

iii) H = { ] − ∞, a] | a ∈ R}.

Un risultato analogo vale in dimensione maggiore di uno, considerando i pluri-intervalli.


 
16 (Rd , L , Leb ) è il completamento (cfr. Osservazione 2.4.3) rispetto alla la misura di Lebesgue Leb di Rd , B , Leb .
d d d d
17 Infatti
\
{x} = D(x, 1/n)
n≥1
dove i dischi D(x, 1/n) := {y ∈ M | ϱ(x, y) < 1/n} ∈ Bϱ essendo aperti per definizione.
2.4. DISTRIBUZIONI 61

2.4.3 Distribuzioni
Sia Bϱ la σ -algebra di Borel su uno spazio metrico (M, ϱ). Chiaramente, il caso Euclideo M = Rd è di
particolare interesse e dovrà sempre essere tenuto come punto di riferimento.
Definizione 2.4.8 (Distribuzione). Una distribuzione è una misura di probabilità su (M, Bϱ ).
Per fissare le idee, è bene dare la seguente interpretazione “fisica” del concetto di distribuzione µ. Pen-
siamo allo spazio campionario Rd come all’insieme delle possibili posizioni nello spazio di una particella
che non è osservabile con precisione: allora H ∈ Bd si interpreta come l’evento secondo cui “la particella è
nel Boreliano H” e µ(H) è la probabilità che la particella sia in H.
Attenzione! Il concetto di distribuzione sarà compreso pienamente solo quando avremo introdotto le va-
riabili aleatorie: ora non abbiamo ancora le nozioni sufficienti per apprezzare fino in fondo le distribuzioni.
Pertanto ci limitiamo ad accennare alcuni esempi che riprenderemo con più calma in seguito.
Cominciamo col provare alcune proprietà generali delle distribuzioni.
Proposizione 2.4.9 (Regolarità interna ed esterna). Sia µ una distribuzione su (M, Bϱ ). Per ogni H ∈ Bϱ
si ha

µ(H) = sup{µ(C) | C ⊆ H, C chiuso}


= inf{µ(A) | A ⊇ H, A aperto}.

La dimostrazione della Proposizione 2.4.9 è rimandata alla Sezione 2.5.2. Una conseguenza immediata
è il seguente
Corollario 2.4.10. Due distribuzioni µ1 e µ2 su (M, Bϱ ) sono uguali se e solo se µ1 (H) = µ2 (H) per ogni
aperto H (oppure per ogni chiuso H).
Osservazione 2.4.11. Se µ è una distribuzione su (M, Bϱ ) allora

A := {x ∈ M | µ({x}) > 0}

è finito o al più numerabile. Infatti, poniamo

An = {x ∈ M | µ({x}) > 1/n}, n ∈ N.

Allora, per ogni x1 , . . . , xk ∈ An si ha


k
1 = µ(M) ≥ µ({x1 , . . . , xk }) ≥
n
S
e di conseguenza An ha al più n elementi. Allora la tesi segue dal fatto che A = An dove l’unione è finita
n≥1
o numerabile.
Il caso “estremo” in cui µ concentra tutta la misura in un solo punto è illustrato nell’esempio seguente.
Esempio 2.4.12. Fissato x0 ∈ Rd , la distribuzione delta di Dirac δx0 centrata in x0 , è definita da

1 se x0 ∈ H,

H ∈ Bd .

δx0 (H) = 
0 se x < H,

0

Si noti in particolare che δx0 ({x0 }) = 1 e si pensi all’interpretazione “fisica” di questo fatto.
Prima di considerare altri esempi notevoli di distribuzioni, osserviamo che combinando opportunamen-
te delle distribuzioni si ottiene ancora una distribuzione.
62 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Proposizione 2.4.13. Sia (µn )n∈N una successione di distribuzioni su (M, Bϱ ) e (pn )n∈N una successione di
numeri reali tali che
X∞
pn = 1 e pn ≥ 0, n ∈ N. (2.4.1)
n=1
Allora µ definita da

X
µ(H) := pn µn (H), H ∈ Bϱ ,
n=1
è una distribuzione.
Dimostrazione. È facile verificare che µ(∅) = 0 e µ(M) = 1. Rimane da provare la σ -additività: si ha
  ∞  
 ]  X  ] 
µ  Hk  = pn µn  Hk  =
k∈N n=1 k∈N

(per la σ -additività delle µn )



X ∞
X
= pn µn (Hk ) =
n=1 k=1

(riordinando i termini poiché si tratta di una serie a termini non-negativi)


X ∞
∞ X ∞
X
= pn µn (Hk ) = µ (Hk ) .
k=1 n=1 k=1

Esercizio 2.4.14. Ricordiamo il concetto di completamento di uno spazio, definito nell’Osservazione 2.4.3.
Su R consideriamo la distribuzione delta di Dirac δx centrata in x ∈ R, la σ -algebra banale {∅, R} e la
σ -algebra di Borel B. Provare che lo spazio (R, {∅, R}, δx ) è completo mentre lo spazio (R, B, δx ) non è
completo. Il completamento di (R, B, δx ) è lo spazio (R, P(R), δx ).

2.4.4 Distribuzioni discrete


D’ora in poi ci concentriamo sul caso M = Rd .
Definizione 2.4.15. Una distribuzione discreta è una distribuzione della forma

X
µ(H) := pn δxn (H), H ∈ Bd , (2.4.2)
n=1

dove (xn ) è una successione di punti distinti di Rd e (pn ) soddisfa le proprietà in (2.4.1).
Osservazione 2.4.16. Ad una distribuzione discreta della forma (2.4.2) è naturale associare la funzione

µ̄ : Rd −→ [0, 1],

definita da
µ̄(x) = µ({x}), x ∈ Rd ,
o più esplicitamente 
 pn

 se x = xn ,
µ̄(x) = 
0
 altrimenti.
2.4. DISTRIBUZIONI 63

Poiché X
µ(H) = µ̄(x), H ∈ Bd , (2.4.3)
x∈H∩{xn |n∈N}

la distribuzione µ è univocamente associata alla funzione µ̄ che viene a volte chiamata funzione di distribu-
zione di µ. Come vedremo nei prossimi esempi, in generale è molto più semplice assegnare la funzione di
distribuzione µ̄ che non la distribuzione stessa µ: infatti µ è una misura (ossia una funzione d’insieme) a
differenza di µ̄ che è una funzione su Rd .

Consideriamo alcuni esempi notevoli di distribuzioni discrete.

Esempio 2.4.17.

i) (Bernoulli) Sia p ∈ [0, 1]. La distribuzione di Bernoulli di parametro p si indica con Bep ed è definita
come combinazione lineare di due delta di Dirac:

Bep = pδ1 + (1 − p)δ0 .

Esplicitamente si ha



 0 se 0, 1 < H,

1 se 0, 1 ∈ H,

H ∈ B,

Bep (H) = 
se 1 ∈ H, 0 < H,



 p

1 − p se 0 ∈ H, 1 < H.
e la funzione di distribuzione è semplicemente

p

 se x = 1,
µ̄(x) = 
1 − p
 se x = 0.

ii) (Uniforme discreta) Sia H = {x1 , . . . , xn } un sottoinsieme finito di Rd . La distribuzione uniforme discreta
su H si indica con UnifH ed è definita da
n
1X
UnifH = δxk ,
n
k=1

ossia 
1


n se x ∈ H,
UnifH ({x}) = 
0
 altrimenti.

iii) (Binomiale) Siano n ∈ N e p ∈ [0, 1]. La distribuzione binomiale di parametri n e p è definita su R da


n !
X n k
Binn,p = p (1 − p)n−k δk ,
k
k=0

ossia la funzione di distribuzione è


 
n
 k pk (1 − p)n−k per k = 0, 1, . . . , n,


µ̄(k) = Binn,p ({k}) = 
0
 altrimenti.

Per un’interpretazione della distribuzione binomiale si ricordi l’Esempio 2.2.17.


64 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

iv) (Geometrica) Fissato p ∈ ]0, 1], la distribuzione geometrica di parametro p è definita da



X
Geomp = p(1 − p)k−1 δk ,
k=1

ossia la funzione di distribuzione è



p(1 − p)k−1 per k ∈ N,


µ̄(k) = Geomp ({k}) = 
0
 altrimenti.

Notiamo che

X ∞
X
p(1 − p)k−1 = p (1 − p)h =
k=1 h=0

(poiché per ipotesi 0 < p ≤ 1)


p
= = 1.
1 − (1 − p)
Per un’interpretazione della distribuzione geometrica si ricordi l’Esempio 2.3.31.
iv) (Poisson) La distribuzione di Poisson di parametro λ > 0, centrata in x ∈ R, è definita da

X λk
Poissonx,λ := e−λ δx+k . (2.4.4)
k!
k=0

Nel caso x = 0, si parla semplicemente di distribuzione di Poisson di parametro λ > 0 e la si indica


con Poissonλ : in questo caso la funzione di distribuzione è
 −λ k
 e k!λ per k ∈ N0 ,


µ̄(k) = Poissonλ ({k}) = 
0
 altrimenti.

2.4.5 Distribuzioni assolutamente continue


Consideriamo una funzione Bd -misurabile18
Z
γ : Rd −→ [0, +∞[ tale che γ(x)dx = 1. (2.4.5)
Rd

Allora µ definita da Z
µ(H) = γ(x)dx, H ∈ Bd , (2.4.6)
H

è una distribuzione. Infatti è ovvio che µ(∅) = 0 e µ(Rd ) = 1. Inoltre se (Hn )n∈N è una successione di
Boreliani disgiunti allora, per le proprietà dell’integrale di Lebesgue19 , si ha
]  Z XZ X
µ Hn = U γ(x)dx = γ(x)dx = µ(Hn ),
n≥1 Hn n≥1 Hn n≥1
n≥1

che prova che µ è σ -additiva.


18 Ossia tale che γ −1 (H) ∈ B per ogni H ∈ B.
d
19 In particolare, qui usiamo il Teorema di Beppo-Levi.
2.4. DISTRIBUZIONI 65

Definizione 2.4.18 (Distribuzione assolutamente continua). Una funzione Bd -misurabile γ che soddi-
sfi le proprietà in (2.4.5) è detta funzione di densità (o, semplicemente, densità). Diciamo che µ è una
distribuzione assolutamente continua su Rd , e scriviamo µ ∈ AC, se esiste una densità γ per cui valga la
(2.4.6).

Nel seguito utilizzeremo anche l’abbreviazione20 PDF per le funzioni di densità. Si noti l’analogia fra le
proprietà (2.4.5) di una densità γ e le proprietà (2.4.1).

Osservazione 2.4.19. [!] La PDF di una µ ∈ AC non è univocamente determinata: lo è a meno di insiemi di
Borel che hanno misura di Lebesgue nulla; infatti il valore dell’integrale in (2.4.6) non cambia modificando
γ su un insieme di misura nulla secondo Lebesgue.
Inoltre se γ1 , γ2 sono PDF di µ ∈ AC allora γ1 = γ2 q.o. (rispetto alla misura di Lebesgue). Infatti
poniamo
An = {x | γ1 (x) − γ2 (x) ≥ 1/n} ∈ Bd , n ∈ N.
Allora Z Z Z
Leb(An )
≤ (γ1 (x) − γ2 (x)) dx = γ1 (x)dx − γ2 (x)dx = µ(An ) − µ(An ) = 0,
n An An An

da cui Leb(An ) = 0 per ogni n ∈ N. Ne segue che anche



[
{x | γ1 (x) > γ2 (x)} = An
n=1

ha misura di Lebesgue nulla, ossia γ1 ≤ γ2 q.o. Analogamente si prova che γ1 ≥ γ2 q.o.

Osservazione 2.4.20. [!] Salvo diversamente specificato, quando considereremo un integrale di Lebesgue,
assumeremo sempre che la funzione integranda sia B-misurabile (e quindi, in particolare, misurabile se-
condo Lebesgue). Dunque nel seguito, a meno che non sia esplicitamente indicato, “misurabile” significa
“B-misurabile” e anche nella definizione di spazio Lp (spazio delle funzioni sommabili di ordine p) è as-
sunta implicitamente la B-misurabilità. Ciò risulta conveniente per molti motivi: per esempio, la com-
posizione di funzioni B-misurabili è ancora B-misurabile (fatto non necessariamente vero per funzioni
misurabili secondo Lebesgue).

Osservazione 2.4.21. [!] Se µ su Rd è assolutamente continua allora µ assegna probabilità nulla ai Boreliani
trascurabili secondo Lebesgue: precisamente si ha
Z
Lebd (H) = 0 =⇒ µ(H) = γ(x)dx = 0. (2.4.7)
H

In particolare, se H è finito o numerabile allora µ(H) = 0. In un certo senso le distribuzioni in AC sono


“complementari” alle distribuzioni discrete (ma attenzione all’Osservazione 2.4.23 seguente!): infatti que-
ste ultime assegnano probabilità positiva proprio ai singoli punti o a infinità numerabili di punti di Rd . La
(2.4.7) è una condizione necessaria21 affinché µ ∈ AC e fornisce un test pratico molto utile per verificare che
µ non ammette densità: se esiste H ∈ Bd tale che Lebd (H) = 0 e µ(H) > 0 allora µ < AC.

Ogni funzione di densità identifica una distribuzione: in pratica, assegnare una funzione di densità è
il modo più semplice e usato comunemente per definire una distribuzione assolutamente continua, come
mostrano i seguenti esempi notevoli.

Esempio 2.4.22.
20 PDF sta per “Probability Density Function” ed è anche il comando usato in Mathematica per le funzioni di densità.
21 In realtà, per il Teorema A.2.1.3 di Radon-Nikodym, la (2.4.7) è condizione necessaria e sufficiente per l’assoluta continuità.
66 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

i) (Uniforme) La distribuzione uniforme UnifK su K, dove K ∈ Bd ha misura di Lebesgue 0 < Lebd (K) <
∞, è la distribuzione con densità
1
γ= 1 .
Lebd (K) K

Allora Z
1 Lebd (H ∩ K)
UnifK (H) = dx = , H ∈ Bd .
H∩K Lebd (K) Lebd (K)

Cosa succede se Lebd (K) = ∞? È possibile definire una probabilità uniforme su Rd ?

ii) (Esponenziale) La distribuzione esponenziale Expλ di parametro λ > 0 è la distribuzione con densità

λe−λx se x ≥ 0,


γ(x) = 
0
 se x < 0.

Allora Z
Expλ (H) = λ e−λx dx, H ∈ B.
H∩[0,+∞[

Si noti che Expλ (R) = Expλ (R≥0 ) = 1 per ogni λ > 0.

iii) (Normale reale) La distribuzione normale reale Nµ,σ 2 di parametri µ ∈ R e σ > 0 è la distribuzione su B
con densità
1 1 x−µ 2
γ(x) = √ e− 2 ( σ ) , x ∈ R.
2πσ 2
Allora Z
1 1 x−µ 2
Nµ,σ 2 (H) = √ e− 2 (σ ) dx, H ∈ B.
2πσ 2 H

La N0,1 , corrispondente a µ = 0 e σ = 1, è detta distribuzione normale standard.

Osservazione 2.4.23. [!] Non tutte le distribuzioni sono del tipo analizzato finora (ossia discrete o assolu-
tamente continue). Per esempio in R2 si consideri il “segmento”

I = {(x, 0) | 0 ≤ x ≤ 1}

e la distribuzione
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,

dove Leb1 indica la misura di Lebesgue 1-dimensionale (o più precisamente la misura di Hausdorff22 1-
dimensionale in R2 ). Chiaramente µ < AC poiché µ(I) = 1 e I ha misura di Lebesgue nulla in R2 ; d’altra
parte µ non è una distribuzione discreta perché µ({(x, y)}) = 0 per ogni (x, y) ∈ R2 .
L’idea è che una distribuzione può concentrare la probabilità su sottoinsiemi di Rd di dimensione (nel
senso di Hausdorff23 ) minore di d: per esempio, una superficie sferica (che ha dimensione di Hausdorff
uguale a 2) in R3 . Le cose possono complicarsi ulteriormente poiché la dimensione di Hausdorff può essere
frazionaria (al riguardo si veda l’Esempio 2.4.36).
22 Si veda, per esempio, il Capitolo 2 in [70].
23 Cf. Capitolo 2.5 in [70].
2.4. DISTRIBUZIONI 67

2.4.6 Funzioni di ripartizione (CDF)


Il concetto di densità visto nella sezione precedente permette di identificare una distribuzione (che,
ricordiamolo, è una misura di probabilità) mediante una funzione su Rd (che, matematicamente, è più ma-
neggevole rispetto ad una misura): ovviamente ciò è possibile se la distribuzione è assolutamente continua.
Un risultato analogo vale per le distribuzioni discrete (cfr. Osservazione 2.1.13).
In questa sezione presentiamo un approccio molto più generale e introduciamo il concetto di funzione
di ripartizione che ci permetterà di identificare una generica distribuzione tramite una funzione. Per ora ci
limitiamo a considerare il caso unodimensionale: nella Sezione 2.4.9 tratteremo il caso multidimensionale.

Definizione 2.4.24. La funzione di ripartizione di una distribuzione µ su (R, B) è definita da

Fµ (x) := µ(] − ∞, x]), x ∈ R.

Utilizziamo anche l’abbreviazione24 CDF per le funzioni di ripartizione.

Esempio 2.4.25.

i) La CDF della delta di Dirac δx0 è



0 se x < x0 ,


F(x) = 
1
 se x ≥ x0 .

n
1 P
ii) La CDF della distribuzione discreta Unifn := n δk è
k=1



0 se x < 1,
k

F(x) = 
 n se k ≤ x < k + 1, per 1 ≤ k ≤ n − 1, (2.4.8)

1

se x ≥ n.

Si veda la Figura 2.1 per il caso n = 5.

Figura 2.1: Grafico della CDF di una v.a. con distibuzione Unif5

24 CDF sta per “Cumulative Distribution Function” ed è anche il comando usato in Mathematica per le funzioni di ripartizione.
68 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

iii) Come mostrato in Figura 2.2, le funzioni di densità e di ripartizione della distribuzione Unif[1,3] sono
rispettivamente 

0 x ≤ 1,
1 
 x−1

γ = 1[1,3] e F(x) =   2 1 < x ≤ 3,
2 
1

x > 3.

1.0

0.8

0.6

0.4

0.2

1 2 3 4

Figura 2.2: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Unif[1,3]

iv) Come mostrato in Figura 2.3 (nel caso λ = 2), le funzioni di densità e di ripartizione della distribu-
zione Expλ sono rispettivamente

γ(x) = λe−λx e F(x) = 1 − e−λx , x ≥ 0, (2.4.9)

e sono nulle per x < 0.

2.0

1.5

1.0

0.5

-1 1 2 3

Figura 2.3: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Exp2
2.4. DISTRIBUZIONI 69

Figura 2.4: A sinistra: grafico della densità normale standard. A destra: grafico della CDF normale stan-
dard. Notare la scala differente nell’asse delle ordinate.

v) La CFD di Nµ,σ 2 è
Z x  t−µ 2
1 − 21
F(x) = √ e σ dt, x ∈ R.
2πσ 2 −∞

Per la normale standard si ha


! !
1 x
F(x) = erf √ + 1 , x ∈ R,
2 2

dove Z x
2 2
erf(x) = √ e−t dt, x ∈ R,
π 0

è la funzione errore. La Figura 2.4 mostra la densità e la CDF della distribuzione normale standard.

Teorema 2.4.26. [!] La CDF Fµ di una distribuzione µ gode delle seguenti proprietà:

i) Fµ è monotona (debolmente) crescente;

ii) Fµ è continua a destra, ossia vale

Fµ (x) = Fµ (x+) := lim+ Fµ (y);


y→x

iii) vale
lim Fµ (x) = 0 e lim Fµ (x) = 1;
x→−∞ x→+∞

Dimostrazione. Per la i): se x ≤ y si ha ] − ∞, x] ⊆ ] − ∞, y] e quindi, per la monotonia di µ, Fµ (x) ≤ Fµ (y).


Per la ii): consideriamo una successione decrescente (xn )n∈N che tende a x per n → ∞: si ha
\
] − ∞, x] = ] − ∞, xn ]
n∈N
70 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

e quindi per la continuità dall’alto di µ (cf. Proposizione 2.1.32-iii))


Fµ (x) = µ(] − ∞, x]) = lim µ(] − ∞, xn ]) = lim Fµ (xn ).
n→∞ n→∞

La tesi segue dall’arbitrarietà della successione (xn )n∈N . I due limiti in iii) seguono rispettivamente dalla
continuità dall’alto e dal basso di µ.
Osservazione 2.4.27. [!] Nelle ipotesi della proposizione precedente, data la monotonia di Fµ , esiste anche
il limite da sinistra
Fµ (x−) := lim− Fµ (y),
y→x

ma in generale vale solo


Fµ (x−) ≤ Fµ (x), x ∈ R.
Infatti per ogni successione crescente (xn )n∈N che tende a x per n → ∞, si ha
[
] − ∞, xn ] = ] − ∞, x[
n∈N

e dunque in questo caso, per la continuità dal basso di P (cf. Proposizione 2.1.32-ii)), si ha
Fµ (x−) = µ(] − ∞, x[) e µ({x}) = ∆Fµ (x) := Fµ (x) − Fµ (x−). (2.4.10)
Dunque µ assegna probabilità positiva nei punti in cui Fµ è discontinua e in tali punti la probabilità è uguale al
salto di Fµ . D’altra parte, è facile vedere che una funzione monotona crescente
F : R −→ R
ammette solo un’infinità al più numerabile di punti di discontinuità. Infatti, posto
1
An = {x ∈ R | |x| ≤ n, ∆F(x) ≥ }, n ∈ N,
n
si ha che la cardinalità |An | è finita poiché
|An | X
≤ ∆F(x) ≤ F(n) − F(−n) < ∞.
n
x∈An

Poiché l’insieme dei punti di discontinuità di F è uguale all’unione degli An al variare di n ∈ N, si conferma
quanto già detto nell’Osservazione 2.4.11 ossia che per ogni distribuzione µ, l’insieme dei punti tali che µ({x}) >
0 è finito o al più numerabile.
Esercizio 2.4.28. Provare che la CDF della distribuzione normale Nµ,σ 2 è strettamente monotona crescente.

2.4.7 Teorema di estensione di Carathéodory


Ricordiamo il concetto di misura (Definizione 2.1.21) su un’algebra (Definizione 2.1.19). Uno dei risul-
tati su cui si fonda tutta la teoria della probabilità è il seguente
Teorema 2.4.29 (Teorema di Carathéodory). [!!!] Sia µ una misura σ -finita su un’algebra A . Esiste ed è
unica la misura σ -finita che estende µ alla σ -algebra generata da A .
Dimostrazione. La dimostrazione è lunga e articolata; nella Sezione 2.5.3 dimostriamo una versione più
generale del Teorema 2.4.29, che sarà più facile da applicare in seguito.
Il Teorema di Carathéodory è un risultato di esistenza dell’estensione di µ da A alla σ -algebra σ (A ) e
di unicità dell’estensione. È notevole il fatto che non sia richiesta alcuna ipotesi su Ω che è un qualunque
insieme non vuoto: infatti la dimostrazione è basata su argomenti puramente insiemistici.
2.4. DISTRIBUZIONI 71

2.4.8 Dalle CDF alle distribuzioni


La costruzione di un modello probabilistico su R (che rappresenti un fenomeno aleatorio, sia esso la
posizione di una particella in un modello della fisica oppure il prezzo di un titolo rischioso in un modello
della finanza oppure la temperatura in un modello meteorologico) consiste nell’assegnare una particolare
distribuzione. Dal punto di vista pratico e intuitivo, il primo passo è stabilire come la distribuzione assegna
la probabilità agli intervalli che sono gli eventi più semplici a cui pensare: avevamo fatto cosı̀ nell’Esempio
2.1.30, quando avevamo definito la distribuzione uniforme. In realtà sappiamo (dal Corollario 2.4.10) che
una distribuzione reale è identificata da come agisce sugli intervalli o equivalentemente, poiché

µ(]a, b]) = Fµ (b) − Fµ (a),

dalla funzione di ripartizione. Allora sembra naturale domandarsi se, data una funzione F che soddisfi le
proprietà che una CDF deve avere, esista una distribuzione µ che abbia F come CDF.
La risposta è affermativa ed è contenuta nel seguente Teorema 2.4.33 che dimostriamo come corollario
del Teorema 2.4.29 di Carathéodory. Facciamo prima qualche richiamo preliminare.

Definizione 2.4.30 (Funzione assolutamente continua (AC)). Una funzione F è assolutamente continua25
su [a, b] (in simboli, F ∈ AC[a, b]) se si scrive nella forma
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b], (2.4.11)
a

con γ ∈ L1 ([a, b]).

Il seguente risultato, la cui dimostrazione è data in appendice (cfr. Proposizione A.2.3.3), afferma che le
funzioni assolutamente continue sono derivabili quasi ovunque.

Proposizione 2.4.31. Sia F ∈ AC[a, b] come in (2.4.11). Allora F è derivabile q.o. e vale F ′ = γ q.o.: di
conseguenza si ha Zx
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b]. (2.4.12)
a

In altri termini, le funzioni assolutamente continue costituiscono la classe di funzioni per cui vale il teorema
fondamentale del calcolo integrale ossia, in parole povere, le fuzioni che sono uguali all’integrale della propria
derivata. È bene osservare che anche se F è derivabile q.o. con F ′ ∈ L1 ([a, b]), non è detto che valga la formula
(2.4.12). Un semplice contro-esempio è dato dalla funzione F = 1[1/2,1] : si ha F ′ = 0 q.o. su [0, 1] ma
Z 1
1 = F(1) − F(0) , F ′ (x)dx = 0.
0

Vedremo nell’Esempio 2.4.36, che F può anche essere continua, derivabile q.o. con F ′ ∈ L1 ([a, b]) e questo
ancora non assicura la validità della formula (2.4.12).

Esercizio 2.4.32. Si verifichi che la funzione




 0 x ≤ 0,
√


F(x) = 
 x 0 < x < 1,

1

x ≥ 1,

è assolutamente continua su [0, 1].


25 La vera definizione di funzione assolutamente continua è data nell’Appendice A.2.4: in realtà, la Definizione 2.4.30 è una
caratterizzazione equivalente dell’assoluta continuità.
72 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Il principale risultato di questa sezione è il seguente

Teorema 2.4.33. [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:

i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi

µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b; (2.4.13)

ii) se F verifica anche


lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞

(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;

iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è una densità di µF .

Dimostrazione. Si veda la Sezione 2.5.4.

Osservazione 2.4.34. È bene sottolineare che il Teorema 2.4.33 contiene anche un risultato di unicità, per
cui ad una CDF è associata un’unica misura per cui valga la (2.4.13). Per esempio, la misura associata alla
funzione F(x) = x è la misura di Lebesgue e lo stesso vale prendendo F(x) = x + c per ogni c ∈ R.

Osservazione 2.4.35. Ci sono due casi particolarmente importanti nelle applicazioni:

1) se F è costante a tratti e indichiamo con xn i punti di discontinuità di F (che, per l’Osservazione 2.4.27,
sono una quantità finita o al più numerabile) allora, per la (2.4.10), µF è la distribuzione discreta
X
µF = ∆F(xn )δxn
n

dove ∆F(xn ) indica l’ampiezza del salto di F in xn ;

2) se F è assolutamente continua allora µF ∈ AC con densità uguale alla derivata F ′ .

Esempio 2.4.36. La funzione di Vitali


V : R −→ [0, 1]
è continua, monotona crescente, tale che V (x) = 0 per x ≤ 0, V (x) = 1 per x ≥ 1 e con derivata prima V ′ che
esiste quasi ovunque ed è uguale a zero: per una costruzione della funzione di Vitali si veda, per esempio,
[70] pag.192. Poiché V soddisfa le ipotesi del Teorema 2.4.33, esiste ed è unica la distribuzione µV tale che
µV (]a, b]) = V (b) − V (a).
Poiché V è continua, si ha µV ({x}) = 0 per ogni x ∈ [0, 1] (cf. (2.4.10)) e quindi µV non è una distribuzione
discreta. Se fosse µV ∈ AC esisterebbe una densità γ tale che
Z x
V (x) = µV ([0, x]) = γ(y)dy, x ≥ 0.
0

Per la Proposizione 2.4.31 dovrebbe essere γ = V ′ = 0 quasi ovunque e ciò è assurdo. Dunque µV non
è neppure una distribuzione assolutamente continua, benché la sua CDF V sia continua e derivabile quasi
ovunque.
Per chi vuole approfondire la questione, il fatto è che µV assegna probabilità 1 all’insieme di Cantor (per
maggiori dettagli si veda p.37 in [70]) che è un sottoinsieme dell’intervallo [0, 1], che ha misura di Lebesgue
log 2
nulla e dimensione di Hausdorff pari a log 3 .
2.4. DISTRIBUZIONI 73

Figura 2.5: Grafico della funzione di Vitali

Esercizio 2.4.37. Sia data la funzione





 0 per x < 0,
x

F(x) = 
 3 per 0 ≤ x < 1,

1

per x ≥ 1.

Si verifichi che F è una CDF. Se µF è la distribuzione associata, si calcoli µF ([0, 1]), µF ([0, 1[) e µF (Q). Infine
si verifichi che µF = 32 δ1 + 31 Unif[0,1] .

Esercizio 2.4.38. Per ogni n ∈ N sia





 0 per x < 0,

 n
Fn (x) = 
 x per 0 ≤ x < 1,

1

per x ≥ 1.

Si provi che Fn è una CDF assolutamente continua e si determini la densità γn della distribuzione µn
associata. Posto
F(x) := lim Fn (x)
n→∞

si verifichi che F è una CDF e si determini la distribuzione associata. Posto

γ(x) := lim γn (x),


n→∞

la funzione γ è una densità?

Esercizio 2.4.39. Data una numerazione (qn )n∈N dei razionali di [0, 1], definiamo la distribuzione

2−n se x = qn ,


µ({x}) = 
0
 altrimenti.

La CDF Fµ è continua nel punto 1? Determinare Fµ (1) e Fµ (1−).


Soluzione. Se n̄ ∈ N è tale che qn̄ = 1 allora ∆Fµ (1) = 21n̄ . Poiché Fµ (1) = 1 allora Fµ (1−) = 1 − 21n̄ .
74 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

2.4.9 Funzioni di ripartizione su Rd


Il caso multidimensionale è analogo al caso scalare con qualche piccola differenza.
Definizione 2.4.40. La funzione di ripartizione di una distribuzione µ su (Rd , Bd ) è definita da

Fµ (x) := µ(] − ∞, x1 ] × · · · ×] − ∞, xd ]), x = (x1 , . . . , xd ) ∈ Rd . (2.4.14)

Esempio 2.4.41. Riportiamo i grafici di alcune CDF bidimensionali:


i) Dirac centrata in (1, 1) in Figura 2.6;

Figura 2.6: Grafico della CDF di Dirac bidimensionale centrata in (1, 1).

ii) Uniforme sul quadrato [0, 1] × [0, 1] in Figura 2.7. La densità è la funzione indicatrice γ = 1[0,1]×[0,1] ;
iii) Normale standard bidimensionale in Figura 2.8, con densità
2
x2 − y
e− 2 2
γ(x, y) = , (x, y) ∈ R2 .

Esempio 2.4.42. [!] Consideriamo la CDF bidimensionale

e−y(x+1) − 1
!
−y
F(x, y) = 1 − e + 1R≥0 ×R≥0 (x, y),
x+1

e supponiamo di sapere che F è assolutamente continua, ossia


Zx Zy
F(x, y) = γ(ξ, η)dξdη
−∞ −∞

per una certa γ ∈ mB + . Allora, come nel caso unodimensionale (cfr. Teorema 2.4.33-iii)), una densità per
F si ottiene semplicemente differenziando:

∂x ∂y F(x, y) = ye−xy 1R≥0 ×R≥0 (x, y).


2.4. DISTRIBUZIONI 75

Figura 2.7: Distribuzione Unif[0,1]×[0,1] : grafico della densità (a sinistra) e della CDF (a destra).

Figura 2.8: Distribuzione normale standard bidimensionale: grafico della densità (a sinistra) e della CDF
(a destra).
76 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Ora enunciamo un teorema che è la naturale estensione dei risultati visti in dimensione uno. Osservia-
mo prima che, fissati k ∈ {1, . . . , d}, a ≤ b reali e x ∈ Rd , vale
µ(] − ∞, x1 ] × · · · ×] − ∞, xk−1 ]×]a, b]×] − ∞, xk+1 ] × · · · ×] − ∞, xd ])
(k)
= Fµ (x1 , . . . , xk−1 , b, xk+1 , . . . , xd ) − Fµ (x1 , . . . , xk−1 , a, xk+1 , . . . , xd ) =: ∆]a,b] Fµ (x),
e più in generale
(1) (d)
µ(]a1 , b1 ] × · · · ×]ad , bd ]) = ∆]a · · · ∆]a Fµ (x). (2.4.15)
1 ,b1 ] d ,bd ]

Teorema 2.4.43. La CDF Fµ di una distribuzione d-dimensionale µ gode delle seguenti proprietà:
i) Monotonia: per ogni scelta di bk > ak ≥ −∞, 1 ≤ k ≤ d, si ha
(1) (d)
∆]a · · · ∆]a Fµ (x) ≥ 0; (2.4.16)
1 ,b1 ] d ,bd ]

ii) Continuità a destra: per ogni x ∈ Rd vale


lim Fµ (y) = Fµ (x),
y→x+

dove y → x+ significa che yk → xk+ per ogni k = 1, . . . , d;


iii) se xk → −∞ per un k = 1, . . . , d allora Fµ (x) → 0 e se xk → +∞ per ogni k = 1, . . . , d allora Fµ (x) → 1.
Viceversa, se
F : Rd −→ [0, 1]
è una funzione che gode delle proprietà i), ii) e iii) allora esiste una distribuzione su Rd tale che F = Fµ ,
ossia valga la (2.4.14).
Dimostrazione. La dimostrazione è del tutto analoga al caso unodimensionale. Notiamo solo che la (2.4.16)
segue direttamente dalla (2.4.15), essendo µ a valori non-negativi.
Osservazione 2.4.44. La proprietà (2.4.16) di monotonia non è del tutto banale. Nel caso d = 2, si scrive
esplicitamente nel modo seguente
(1) (2)
0 ≤ ∆]a ∆]a F(x) = F(b1 , b2 ) − F(b1 , a2 ) − (F(a1 , b2 ) − F(a1 , a2 ))
1 ,b1 ] 2 ,b2 ]
(2) (1)
= F(b1 , b2 ) − F(a1 , b2 ) − (F(b1 , a2 ) − F(a1 , a2 )) = ∆]a ∆]a F(x).
2 ,b2 ] 1 ,b1 ]

Per esempio, la funzione





1 se x1 , x2 ≥ 1,

2/3 se x1 ≥ 1 e 0 ≤ x2 < 1,


F(x1 , x2 ) = 
2/3 se x2 ≥ 1 e 0 ≤ x1 < 1,





0 altrimenti,
pur essendo “monotona in ogni direzione”, non verifica la i) del teorema precedente. In effetti si ha
(1) (2)
∆]1/2,1] ∆]1/2,1] F(x) = −1/3,
e quindi se esistesse la distribuzione relativa a F, essa assegnerebbe probabilità negativa al quadrato ]1/2, 1]×]1/2, 1]
e ciò è ovviamente assurdo.
Esercizio 2.4.45. Siano I := [0, 1] × {0} ⊆ R2 e µ la distribuzione uniforme su I, definita da
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,
dove Leb1 indica la misura di Lebesgue unodimensionale26 . Si determini la CDF di µ.
26 Un po’ impropriamente, dato A ∈ B, stiamo identificando Leb (A) con Leb (A × {0}).
1 1
2.5. APPENDICE 77

2.4.10 Sintesi
Come si costruisce e definisce una misura di probabilità? Il primo strumento generale di teoria della
misura è il Teorema di Carathéodory in base al quale ogni misura definita su un’algebra A si estende in
modo unico alla σ -algebra generata da A . Per esempio, in base a tale teorema, la misura definita per ogni
intervallo [a, b] come la lunghezza b − a, si estende in modo unico alla misura di Lebesgue sulla σ -algebra
di Borel.  
Un ruolo particolarmente importante giocano le misure di probabilità definite su Rd , Bd , chiamate
anche distribuzioni. Fra di esse le distribuzioni discrete sono combinazioni lineari (anche numerabili) di
delta di Dirac: esempi notevoli sono le distribuzioni di Bernoulli, uniforme discreta, binomiale e di Pois-
son. Altre importanti distribuzioni sono quelle assolutamente continue, ossia quelle che si rappresentano in
termini di integrale di Lebesgue di una certa funzione, detta densità: esempi notevoli sono le distribuzioni
uniforme, esponenziale e normale (ma ne vedremo tante altre...).
Le distribuzioni discrete e quelle assolutamente continue sono definite in termini di funzioni reali: la
funzione di distribuzione nel primo caso e la densità nel secondo caso. Questo è un fatto rilevante perché è
molto più facile maneggiare una funzione di variabile reale (o, in generale, in Rd ) che non una distribuzione
(che è una misura e ha come argomento i Boreliani). D’altra parte esistono distribuzioni che non sono nè
discrete nè assolutamente continue.
Per caratterizzare una generica distribuzione in termini di una funzione reale abbiamo introdotto il
concetto di funzione di ripartizione (o CDF). Una CDF gode di alcune proprietà generali: nel caso unodi-
mensionale, una CDF è monotona crescente (e di conseguenza derivabile q.o.), continua a destra e ha limite
a +∞ e −∞ rispettivamente pari a 1 e 0. Abbiamo dimostrato che è equivalente assegnare una distribuzione o
la sua CDF.
Infine il fatto che una distribuzione µ abbia densità è equivalente al fatto che la sua CDF F sia assoluta-
mente continua, ossia al fatto che valga
Zx
µ(]a, x]) = F(x) − F(a) = F ′ (t)dt, a < x,
a

e in tal caso F′ è una densità di µ.

2.5 Appendice
2.5.1 Dimostrazione della Proposizione 2.3.30
Proposizione 2.3.30 Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Poniamo
Ω = {ω = (ω1 , . . . , ωn ) | ωi ∈ {0, 1}}
e consideriamo la partizione
n
[
Ω= Ωk , Ωk := {ω ∈ Ω | ω1 + · · · + ωn = k}. (2.5.1)
k=0

Chiaramente ogni ω appartiene ad uno e un solo Ωk e quindi Ωk ∩ Ωh = ∅ per k , h, e inoltre Ωk ↔ Cn,k


(l’elemento (ω1 , . . . , ωn ) di Ωk è univocamente individuato dalla scelta delle k fra n componenti che sono
uguali a 1) ossia !
n
|Ωk | = , k = 0, . . . , n. (2.5.2)
k
78 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Definiamo P ponendo
P ({ω}) = pk (1 − p)n−k ω ∈ Ωk , k = 0, . . . , n.
Allora P è una probabilità poiché
n n X n !
X X X n k
P (Ω) = P (Ωk ) = P ({ω}) = p (1 − p)n−k = 1,
k
k=0 k=0 ω∈Ωk k=0

per la (2.2.10).
Proviamo che gli eventi
Ch = {ω ∈ Ω | ωh = 1}, h = 1, . . . , n,
formano una famiglia di n prove ripetute e indipendenti con probabilità p. Infatti siano r ∈ N, r ≤ n, e
h1 , . . . , hr ∈ In distinti. Si ha27
 r  n
  r 
\  X  \ 
P  Chi  =
  P Ωk ∩  Chi 
 
i=1 k=r i=1
 r 
n
X \ 
= Ωk ∩  Chi  pk (1 − p)n−k =

k=r i=1

!
r
Chi è esattamente uguale a n−r
T 
(osservando che, analogamente alla (2.5.2), la cardinalità di Ωk ∩ k−r )
i=1
n !
X n−r k
= p (1 − p)n−k =
k−r
k=r

(col cambio di indice j = k − r)


n−r !
X n−r j
= pr p (1 − p)n−j−r = pr .
j
j=0

Dunque abbiamo provato che, per r = 1,

P (Ch ) = p, h = 1, . . . , n,

e per 1 < r ≤ n si ha  r 
\  r
Y  
r
P  Chi  = p =

 
 P Chi .
i=1 i=1
Quindi (Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Per quanto riguarda la seconda parte dell’enunciato: sia (Ck )k∈N una successione di eventi indipendenti
su uno spazio discreto (Ω, P ), tali che P (Ck ) = p ∈ [0, 1] per ogni k ∈ N. Non è restrittivo supporre p ≥ 12
perché altrimenti basta considerare la successione degli eventi complementari. In questo caso dimostriamo
che necessariamente p = 1. Infatti supponiamo per assurdo che sia p < 1. Fissiamo un generico esito ω ∈ Ω:
per c c
 ogni
 n ∈ N poniamo C̄n = Cn oppure C̄n = Cn a seconda che sia ω ∈ Cn oppure ω ∈ Cn . Notiamo che
1
P C̄n ≤ P (Cn ) poiché abbiamo assunto P (Cn ) = p ≥ 2 . Per ogni n ∈ N gli eventi C̄1 , . . . , C̄n sono indipendenti
e
\n
{ω} ⊆ C̄k
k=1
r
!
27 Si noti che l’indice nella sommatoria parte da r poiché Ω ∩ T
Chi = ∅ se k < r (perché?).
k
i=1
2.5. APPENDICE 79

da cui
n
Y  
P ({ω}) ≤ P C̄k ≤ pn .
k=1

Passando al limite in n otteniamo P ({ω}) = 0 e questo è assurdo per l’arbitrarietà di ω ∈ Ω.

2.5.2 Dimostrazione della Proposizione 2.4.9


Proposizione 2.4.9 Sia µ una distribuzione su uno spazio metrico (M, Bϱ ). Per ogni H ∈ Bϱ si ha

µ(H) = sup{µ(C) | C ⊆ H, C chiuso} (2.5.3)


= inf{µ(A) | A ⊇ H, A aperto}. (2.5.4)

A parole, si dice che ogni Boreliano è regolare internamente (per la (2.5.3)) ed esternamente (per la (2.5.4))
per µ.

Dimostrazione. Indichiamo con R l’insieme dei Boreliani regolari (internamente ed esternamente) per µ. È
chiaro che H ∈ R se e solo se per ogni ε > 0 esistono un chiuso C e un aperto A tali che

C ⊆ H ⊆ A, µ(A \ C) < ε.

Proviamo anzitutto che R è una σ -algebra:

• poiché l’insieme vuoto è aperto e chiuso, si ha ∅ ∈ R;

• se H ∈ R allora per ogni ε > 0 esistono un chiuso Cε e un aperto Aε tali che Cε ⊆ H ⊆ Aε e µ(Aε \Cε ) < ε.
Passando al complementare, si ha Acε ⊆ H c ⊆ Cεc , con Acε chiuso, Cεc aperto e Cεc \ Acε = Aε \ Cε . Questo
prova che H c ∈ R;

• sia (Hn )n∈N una successione in R e H =


S
Hn . Allora, per ogni ε > 0 esistono due successioni,
n≥1
ε
Sn,ε )n∈N di chiusi e (An,ε )n∈N di aperti, tali che Cn,ε ⊆ Hn ⊆ An,ε e µ(An,ε \ Cn,ε ) < 3n . Posto Aε =
(C
An,ε , si ha che Aε è aperto e H ⊆ Aε . D’altra parte, per la continuità dal basso di µ (cfr. Proposizione
n≥1
ε
2.1.32), esiste k ∈ N tale che µ(C \ Cε ) ≤ 2 dove

[ n
[
C := Cn,ε , Cε := An,ε .
n=1 n=1

Chiaramente, Cε è chiuso e Cε ⊆ H. Infine si ha


∞ ∞
X ε X ε ε
µ(Aε \ Cε ) ≤ µ(Aε \ C) + µ(C \ Cε ) ≤ µ(An,ε \ Cn,ε ) + ≤ + = ε.
2 3n 2
n=1 n=1

Questo prova che R è una σ -algebra. Proviamo ora che R contiene tutti i chiusi: dato C chiuso poniamo
ϱ(x, C) = inf ϱ(x, y) e
y∈C
An = {x ∈ M | ϱ(x, C) < 1/n}, n ∈ N.
T
Allora An è aperto e An ↘ C: infatti, se x ∈ n≥1 An allora ϱ(x, C) = 0 e quindi x ∈ C, essendo C chiuso.
Allora, per la continuità dall’alto di µ si ha limn→∞ µ(An ) = µ(C).
La tesi segue dal fatto che Bϱ è la più piccola σ -algebra che contiene gli aperti (e i chiusi) e quindi
Bϱ ⊆ R.
80 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory


Diamo una versione leggermente più generale (e decisamente più comoda da applicare) del Teorema
2.4.29: in questa sezione seguiamo la trattazione di [59]. Introduciamo la definizione di pre-misura su una
generica famiglia di sottoinsiemi di Ω.

Definizione 2.5.1 (Pre-misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una pre-misura
su A è una funzione
µ : A −→ [0, +∞]
tale che

i) µ(∅) = 0;

ii) µ è additiva su A nel senso che per ogni A, B ∈ A , disgiunti e tali che A ∪ B ∈ A , vale

µ (A ⊎ B) = µ(A) + µ(B);

iii) µ è σ -sub-additiva su A nel senso che per ogni A ∈ A e (An )n∈N successione di elementi in A , vale
[ X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n∈N

Si dice che µ è σ -finita se esiste una successione (An )n∈N in A tale che Ω =
S
An e µ(An ) < ∞ per ogni
n∈N
n ∈ N.

Definizione 2.5.2 (Semianello). Una famiglia A di sottoinsiemi di Ω è un semianello se:

i) ∅ ∈ A

ii) A è ∩-chiusa;

iii) per ogni A, B ∈ A la differenza B \ A è unione finita e disgiunta di insiemi di A .

Esempio 2.5.3. [!] La famiglia A degli intervalli limitati del tipo

]a, b], a, b ∈ R, a ≤ b,

è un semianello (ma non è un’algebra). La famiglia formata dalle unioni finite di intervalli (anche illimitati)
del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
è un’algebra (ma non è una σ -algebra). Tali famiglie generano la σ -algebra di Borel di R.

Ricordiamo che una misura µ è una funzione σ -additiva e tale che µ(∅) = 0 (cfr. Definizione 2.1.21).
Osserviamo che, per la Proposizione 2.1.32, µ è una pre-misura su un’algebra A se e solo se µ è una misura
su A . Inoltre il seguente lemma fornisce un risultato naturale la cui dimostrazione, che rinviamo alla fine
della sezione, non è del tutto ovvia.

Lemma 2.5.4. Se µ è una misura su un semianello A allora µ è una pre-misura su A .

Teorema 2.5.5 (Teorema di Carathéodory - versione generale). Sia µ una pre-misura σ -finita su un semia-
nello A . Esiste ed è unica la misura σ -finita che estende µ a σ (A ).

Osservazione 2.5.6. Il Teorema 2.4.29 è un corollario del Teorema 2.5.5: infatti ogni algebra è un semia-
nello e, per il Lemma 2.5.4, ogni misura su un semianello è una pre-misura.
2.5. APPENDICE 81

Dimostrazione del Teorema 2.5.5. L’unicità è un corollario del Teorema A.1.3 di Dynkin: per i dettagli, si
vedano il Corollario A.1.5 e l’Osservazione A.1.6. Qui proviamo l’esistenza dell’estensione: in questa di-
mostrazione non utilizziamo l’ipotesi che µ sia σ -finita; d’altra parte se µ è σ -finita allora anche la sua
estensione lo è. Dividiamo la prova in alcuni passi.
Passo 1. Introduciamo la famiglia dei ricoprimenti di B ⊆ Ω che siano finiti o numerabili e costituiti da
elementi di A : [
U (B) := {R ⊆ A | R al più numerabile e B ⊆ A}.
A∈R

Definiamo
µ∗ : P(Ω) −→ [0, +∞]
ponendo X
µ∗ (B) = inf µ(A), (2.5.5)
R ∈U (B)
A∈R

con la convenzione inf ∅ = +∞.

Lemma 2.5.7. µ∗ è una misura esterna ossia verifica le seguenti proprietà:

i) µ∗ (∅) = 0;

ii) µ∗ è monotona;

iii) µ∗ è σ -sub-additiva.

Inoltre µ∗ (A) = µ(A) per ogni A ∈ A .

Dimostrazione. Poiché ∅ ∈ A la i) è ovvia. Se B ⊆ C allora U (C) ⊆ U (B) da cui segue cheSµ∗ (B) ≤ µ∗ (C) e
questo prova la ii). Infine, data una successione (Bn )n∈N di sottoinsiemi di Ω e posto B = Bn , proviamo
n∈N
che X
µ∗ (B) ≤ µ∗ (Bn ).
n∈N

È sufficiente considerare il caso µ∗ (Bn ) < ∞ per ogni n ∈ N, da cui segue in particolare che U (Bn ) , ∅. Allora,
fissato ε > 0, per ogni n ∈ N esiste Rn ∈ U (Bn ) tale che
X ε
µ(A) ≤ µ∗ (Bn ) + n .
2
A∈Rn

Ora R := Rn ∈ U (B) e quindi


S
n∈N
X X X X
µ∗ (B) ≤ µ(A) ≤ µ(A) ≤ µ∗ (Bn ) + ε
A∈R n∈N A∈Rn n∈N

da cui la tesi per l’arbitrarietà di ε.


Infine proviamo che µ∗ coincide con µ su A . Per ogni A ∈ A si ha µ∗ (A) ≤ µ(A) per definizione. Viceversa,
poiché µ è σ -sub-additiva su A , per ogni R ∈ U (A) si ha
X
µ(A) ≤ µ(B)
B∈R

da cui segue che µ(A) ≤ µ∗ (A).


82 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

Passo 2. Indichiamo con M (µ∗ ) la famiglia degli A ⊆ Ω tali che

µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), ∀E ⊆ Ω.

Gli elementi di M (µ∗ ) sono detti µ∗ -misurabili. Proveremo che M (µ∗ ) è una σ -algebra e µ∗ è una misura su
M (µ∗ ). Cominciamo col seguente risultato parziale.

Lemma 2.5.8. M (µ∗ ) è un’algebra.

Dimostrazione. Chiaramente ∅ ∈ M (µ∗ ) e M (µ∗ ) è chiusa rispetto al passaggio al complementare. Proviamo


che l’unione di A, B ∈ M (µ∗ ) appartiene a M (µ∗ ): per ogni E ⊆ Ω si ha

µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac )
= µ∗ (E ∩ A ∩ B) + µ∗ (E ∩ A ∩ Bc ) + µ∗ (E ∩ Ac ∩ B) + µ∗ (E ∩ Ac ∩ Bc )
| {z } | {z }
≥µ∗ (E∩A∪B) =µ∗ (E∩(A∪B)c )

poiché
(E ∩ A ∪ B) ⊆ (E ∩ A ∩ B) ∪ (E ∩ A ∩ Bc ) ∪ (E ∩ Ac ∩ B).
Questo prova che
µ∗ (E) ≥ µ∗ (E ∩ (A ∪ B)) + µ∗ (E ∩ (A ∪ B)c ).
D’altra parte µ∗ è sub-additiva e quindi A ∪ B ∈ M (µ∗ ).

Lemma 2.5.9. µ∗ è una misura su M (µ∗ ).

Dimostrazione. È sufficiente provare che µ∗ è σ -additiva su M (µ∗ ). Per ogni A, B ∈ M (µ∗ ) con A ∩ B = ∅, si
ha
µ∗ (A ⊎ B) = µ∗ ((A ⊎ B) ∩ A) + µ∗ ((A ⊎ B) ∩ Ac ) = µ∗ (A) + µ∗ (B).
Dunque µ∗ è additiva su M (µ∗ ). Inoltre, sappiamo già dal Punto 1 che µ∗ è σ -sub-additiva e dunque la tesi
segue dalla Proposizione 2.1.32.

Lemma 2.5.10. M (µ∗ ) è una σ -algebra.

Dimostrazione. Sappiamo già che M (µ∗ ) è ∩-chiusa. Se verifichiamo che M (µ∗ ) è una famiglia monotona
(cfr. Definizione A.1.1) la tesi seguirà dal Lemma A.1.2. A tal fine è sufficiente provare che se (An )n∈N è
una successione in M (µ∗ ) e An ↗ A allora A ∈ M (µ∗ ). Grazie alla sub-additività di µ∗ , basta provare che

µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), E ⊆ Ω. (2.5.6)

Poniamo A0 = ∅ e osserviamo che

µ∗ (E ∩ An ) = µ∗ ((E ∩ An ) ∩ An−1 ) + µ∗ ((E ∩ An ) ∩ Acn−1 )


= µ∗ (E ∩ An−1 ) + µ∗ (E ∩ (An \ An−1 )).

Di conseguenza si ha
n
X
µ∗ (E ∩ An ) = µ∗ (E ∩ (Ak \ Ak−1 )) (2.5.7)
k=1

e, per la monotonia di µ∗ ,

µ∗ (E) = µ∗ (E ∩ An ) + µ∗ (E ∩ Acn )
≥ µ∗ (E ∩ An ) + µ∗ (E ∩ Ac ) =
2.5. APPENDICE 83

(per la (2.5.7))
n
X
= µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ).
k=1

Mandando n all’infinito e usando la σ -sub-additività di µ∗ , si ha



X
µ∗ (E) ≥ µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ),
k=1

che prova la (2.5.6) e conclude la prova.

Passo 3. Come ultimo passo proviamo che

σ (A ) ⊆ M (µ∗ ).

Poiché M (µ∗ ) è una σ -algebra, è sufficiente provare che A ⊆ M (µ∗ ): inoltre, essendo µ∗ sub-additiva, basta
provare che per ogni A ∈ A e E ⊆ Ω, con µ∗ (E) < ∞, vale

µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ). (2.5.8)

Fissato ε > 0, esiste un ricoprimento (An )n∈N di E formato da elementi di A e tale che
X
µ(An ) ≤ µ∗ (E) + ε. (2.5.9)
n∈N

Poiché A è un semianello, si ha An ∩ A ∈ A e quindi, per il Lemma 2.5.7,

µ∗ (An ∩ A) = µ(An ∩ A). (2.5.10)


(n) (n)
D’altra parte, ancora per il fatto che A è un semianello, per ogni n ∈ N esistono B1 , . . . , Bk ∈ A tali che
n

kn
(n)
]
An ∩ Ac = An \ A = Bj .
j=1

Allora
 
]kn 
∗ c (n) 
∗
µ (An ∩ A ) = µ  Bj  ≤
 
 
j=1

(essendo µ∗ sub-additiva)

kn
(n)
X
≤ µ∗ (Bj ) =
j=1

(poiché µ∗ = µ su A per il Lemma 2.5.7)

kn
(n)
X
= µ(Bj ) =
j=1
84 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

(essendo µ additiva)

= µ(An ∩ Ac ). (2.5.11)

Ora proviamo la (2.5.8): per la σ -sub-additività di µ∗ si ha


X
µ∗ (E ∩ A) + µ∗ (E ∩ Ac ) ≤ (µ∗ (An ∩ A) + µ∗ (An ∩ Ac )) ≤
n∈N

(per la (2.5.10) e la (2.5.11))


X X
≤ (µ(An ∩ A) + µ(An ∩ Ac )) = µ(An ) ≤
n∈N n∈N

(per la (2.5.9))

≤ µ∗ (E) + ε.

La tesi segue dall’arbitrarietà di ε. Questo conclude la prova del Teorema 2.5.5.

Proviamo ora che la σ -algebra M (µ∗ ), costruita nel Passo 2 della dimostrazione del Teorema di Ca-
rathéodory, contiene gli insiemi trascurabili. Notiamo che in generale M (µ∗ ) è strettamente più grande di
σ (A ): è questo il caso della misura di Lebesgue se A è la famiglia degli intervalli limitati del tipo

]a, b], a, b ∈ R, a ≤ b.

In questo caso, σ (A ) è la σ -algebra di Borel e M (µ∗ ) è la σ -algebra dei misurabili secondo Lebesgue.
D’altra parte, vediamo anche che gli elementi di M (µ∗ ) differiscono da quelli di σ (A ) solo per insiemi
µ∗ -trascurabili.

Corollario 2.5.11. [!] Sotto le ipotesi del Teorema di Carathéodory, nello spazio con misura (Ω, M (µ∗ ), µ∗ )
si ha:

i) se µ∗ (M) = 0 allora M ∈ M (µ∗ ) e quindi (Ω, M (µ∗ ), µ∗ ) è uno spazio con misura completo;

ii) per ogni M ∈ M (µ∗ ), tale che µ∗ (M) < ∞, esiste A ∈ σ (A ) tale che M ⊆ A e µ∗ (A \ M) = 0.

Dimostrazione. Per la sub-additività e la monotonia di µ∗ , se µ∗ (M) = 0 e E ⊆ Ω si ha

µ∗ (E) ≤ µ∗ (E ∩ M) + µ∗ (E ∩ M c ) = µ∗ (E ∩ M c ) ≤ µ∗ (E),

e questo prova la i).


È chiaro che, per definizione di µ∗ , per ogni n ∈ N esiste An ∈ σ (A ) tale che M ⊆ An e

1
µ∗ (An ) ≤ µ∗ (M) + . (2.5.12)
n
An ∈ σ (A ), si ha M ⊆ A e, passando al limite in (2.5.12) e grazie alla continuità dall’alto di µ∗
T
Posto A =
n∈N
su M (µ∗ ), abbiamo µ∗ (A) = µ∗ (M). Allora, poiché M ∈ M (µ∗ ), si ha

µ∗ (A) = µ∗ (A ∩ M) + µ∗ (A ∩ M c ) = µ∗ (M) + µ∗ (A \ M)

da cui µ∗ (A \ M) = 0.

Concludiamo la sezione con la


2.5. APPENDICE 85

Dimostrazione del Lemma 2.5.4. Se µ è una misura sul semianello A allora le proprietà i) e ii) di pre-misura
sono ovvie. Proviamo che µ è monotona: se A, B ∈ A con A ⊆ B allora, per la proprietà iii) di semianello,
esistono C1 , . . . , Cn ∈ A tali che
]n
B\A = Ck .
k=1
Quindi si ha
µ(B) = µ(A ⊎ (B \ A)) = µ(A ⊎ C1 ⊎ · · · ⊎ Cn )
(per l’additività finita di µ)
n
X
= µ(A) + µ(Ck ) ≥ µ(A),
k=1

da cui la monotonia di µ.
La dimostrazione della proprietà iii), ossia la σ -sub-additività di µ, è una versione un po’ più complicata
della dimostrazione della Proposizione 2.1.22-ii): tutta la complicazione è dovuta al fatto che µ è definita
su un semianello (invece che su un’algebra come nella Proposizione 2.1.22) e questo limita le operazioni
insiemistiche che possiamo utilizzare. Siano A ∈ A e (An )n∈N successione in A tali che
[
A⊆ An .
n∈N

Poniamo A
e1 = A1 e
n−1
[ n−1
\
en = An \
A Ak = (An \ (An ∩ Ak )) , n ≥ 2. (2.5.13)
k=1 k=1
(n) (n)
Allora, per le proprietà ii) e iii) di semianello, esistono Jn ∈ N e C1 , . . . , CJn ∈ A tali che
Jn
(n)
]
en =
A Cj .
j=1

Ora, A
en ⊆ An e quindi, per monotonia e additività, si ha
Jn
(n)
X
µ(An ) ≥ µ(A
en ) = µ(Cj ). (2.5.14)
j=1

Inoltre, per la (2.5.13),


Jn
(n)
[ ] ]]
A⊆ An = en =
A Cj
n∈N n∈N n∈N j=1

e quindi
 
Jn 
 ] ] 
(n) 
µ(A) = µ  A ∩ Cj  =
 
 
n∈N j=1

(n)
(poiché A ∩ Cj ∈ A e, per ipotesi, µ è una misura e quindi, in particolare, σ -additiva)
Jn  
(n)
XX
= µ A ∩ Cj ≤
n∈N j=1
86 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ

(per monotonia)
Jn  
(n)
XX
≤ µ Cj =
n∈N j=1

(per la (2.5.14))
X
≤ µ(An )
n∈N

e questo conclude la prova.

2.5.4 Dimostrazione del Teorema 2.4.33


Teorema 2.4.33 [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:

i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi

µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b;

ii) se F verifica anche


lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞

(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;

iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è densità di µF .

Dimostrazione. [Parte i)] Consideriamo il semianello A dell’Esempio 2.5.3, formato dagli intervalli limitati
del tipo
]a, b], a, b ∈ R, a ≤ b,
e su A definiamo µF ponendo
µF (]a, b]) = F(b) − F(a).
La tesi segue dal Teorema 2.5.5 di Carathéodory una volta provato che µF è una pre-misura σ -finita (cfr.
Definizione 2.5.1). Per definizione, µF (∅) = 0 e chiaramente µF è σ -finita. Inoltre µF è additiva poiché, se
]a, b], ]c, d] sono intervalli disgiunti tali che la loro unione è un intervallo allora necessariamente28 b = c,
cosicché

µF (]a, b]⊎]b, d]) = µF (]a, d]) = F(d) − F(a) = (F(b) − F(a)) + (F(d) − F(b)) = µF (]a, b]) + µF (]b, d]) .

Infine proviamo che µF è σS -sub-additiva. Basta considerare ]a, b] ∈ A e una successione (An )n∈N in A ,
del tipo An = ]an , bn ], tale che An = ]a, b] e provare che
n∈N


X
µF (A) ≤ µF (An ).
n=1

Fissiamo ε > 0: per la continuità a destra di F, esistono δ > 0 e una successione di numeri positivi (δn )n∈N
tali che
ε
F(a + δ) ≤ F(a) + ε, F(bn + δn ) ≤ F(bn ) + n . (2.5.15)
2
28 Non è restrittivo assumere a ≤ d.
2.5. APPENDICE 87

La famiglia (]an , bn + δn [)n∈N è un ricoprimento29 aperto del compatto [a + δ, b] e quindi ammette un sotto-
ricoprimento finito: per fissare le idee, indichiamo con (nk )k=1,...,N gli indici di tale sotto-ricoprimento.
Allora, per la prima disuguaglianza in (2.5.15), si ha
F(b) − F(a) ≤ ε + F(b) − F(a + δ)
≤ ε + µF (]a + δ, b]) ≤
(poiché µF è finitamente additiva e quindi anche finitamente sub-additiva)
N
X  
≤ε+ µF ]ank , bnk + δnk ]
k=1

X
≤ε+ (F(bn + δn ) − F(an )) ≤
n=1

(per la seconda disuguaglianza in (2.5.15))


∞ ∞
X ε X
≤ε+ + (F(bn ) − F(an ))
2n
n=1 n=1
X∞
= 2ε + (F(bn ) − F(an )) ,
n=1

e la tesi segue dall’arbitrarietà di ε > 0.


[Parte ii)] Poiché
µF (R) = lim F(x) − lim F(x) = 1,
x→+∞ x→−∞
dove la prima uguaglianza è per costruzione e la seconda per ipotesi, allora µF è una misura di probabilità
su R, ossia una distribuzione.
[Parte iii)] Se F è assolutamente continua, per la Proposizione 2.4.31, per ogni a < b si ha
Zb
µF (]a, b]) = F(b) − F(a) = F ′ (x)dx.
a

Notiamo che F ′ ≥ 0 q.o. perché limite del rapporto incrementale di una funzione monotona crescente:
passando al limite per a → −∞ e b → +∞, per il Teorema di Beppo-Levi, si ha
Z
1 = µF (R) = F ′ (x)dx
R

e quindi F′ è una densità. Consideriamo la distribuzione definita da


Z
µ(H) := F ′ (x)dx, H ∈ B.
H

Allora µF coincide con µ sul semianello A degli intervalli limitati del tipo ]a, b]. Poiché A genera B, per il
risultato di unicità del Teorema di Carathéodory, si ha µF = µ su B e quindi µF ∈ AC con densità F ′ .
Viceversa, se µF ∈ AC con densità γ allora
Zx
F(x) − F(a) = γ(t)dt, a < x,
a

e quindi F è assolutamente continua e, per la Proposizione 2.4.31, F ′ = γ q.o.


29 Poiché, per ogni n ∈ N, ]a , b + δ [ contiene ]a , b ].
n n n n n
88 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Capitolo 3

Variabili aleatorie

The theory of probability as a


mathematical discipline can and
should be developed from axioms in
exactly the same way as geometry
and algebra.

Andrej N. Kolmogorov

Le variabili aleatorie descrivono quantità che dipendono da un fenomeno o esperimento aleatorio: per esem-
pio, se l’esperimento è il lancio di due dadi, la quantità (variabile aleatoria) che interessa studiare potrebbe
essere il risultato della somma dei due lanci. Il fenomeno aleatorio è modellizzato con uno spazio di proba-
bilità (Ω, F , P ) (nell’esempio, lo spazio discreto Ω = I6 × I6 con la probabilità uniforme) e la quantità che
interessa è descritta dalla variabile aleatoria X che ad ogni esito ω ∈ Ω (ossia ad ogni possibile esito del
fenomeno aleatorio) associa il valore X(ω): nell’esempio, ω = (ω1 , ω2 ) ∈ I6 × I6 e X(ω) = ω1 + ω2 .

3.1 Variabili aleatorie


Consideriamo uno spazio di probabilità (Ω, F , P ) e fissiamo d ∈ N. Dati H ⊆ Rd e una funzione X :
Ω −→ Rd , indichiamo con
(X ∈ H) := {ω ∈ Ω | X(ω) ∈ H} = X −1 (H)
la contro-immagine di H mediante X. Intuitivamente (X ∈ H) rappresenta l’insieme degli esiti ω (ossia, gli
stati del fenomeno aleatorio) tali che X(ω) ∈ H. Riprendendo l’esempio del lancio dei dadi, se H = {7} allora
(X ∈ H) rappresenta l’evento “il risultato della somma del lancio di due dadi è 7” ed è costituito da tutte le
coppie (ω1 , ω2 ) tali che ω1 + ω2 = 7. Nel caso d = 1, useremo anche le seguenti notazioni:

(X > c) := {ω ∈ Ω | X(ω) > c}, (X = c) := {ω ∈ Ω | X(ω) = c}, c ∈ R.

Inoltre, se X, Y sono due funzioni da (Ω, F , P ) a valori in Rd , scriviamo

(X = Y ) := {ω ∈ Ω | X(ω) = Y (ω)}.

Si noti che non è detto che (X ∈ H) sia un evento, ossia non è detto che (X ∈ H) ∈ F (a parte il caso
banale degli spazi di probabilità discreti, in cui assumiamo che F = P(Ω) e quindi tutti i sottoinsiemi di
Ω sono eventi). In particolare, senza ipotesi ulteriori non ha senso scrivere P (X ∈ H). D’altra parte nelle
applicazioni si è interessati a calcolare la probabilità di (X ∈ H): ciò giustifica la seguente definizione di
variabile aleatoria.

89
90 CAPITOLO 3. VARIABILI ALEATORIE

Definizione 3.1.1. Una variabile aleatoria (abbreviato in v.a.) su (Ω, F , P ) a valori in Rd è una funzione

X : Ω −→ Rd

tale che (X ∈ H) ∈ F per ogni H ∈ Bd : scriviamo X ∈ mF e diciamo anche che X è F -misurabile. Indichiamo
con mF + la classe delle funzioni F -misurabili e non-negative; inoltre bF è la classe delle funzioni F -
misurabili e limitate. Nel caso particolare in cui (Ω, F ) = (Rn , Bn ), X è semplicemente una funzione Borel-
misurabile.
Osservazione 3.1.2. In questo capitolo ci limiteremo a considerare v.a. a valori in Rd . Tuttavia è bene
conoscere anche la seguente definizione generale: dato uno spazio misurabile (E, E ), una variabile aleatoria
su (Ω, F , P ) a valori in E è una funzione
X : Ω −→ E
F -misurabile nel senso che X −1 (E ) ⊆ F ossia (X ∈ H) ∈ F per ogni H ∈ E .
Come abbiamo spiegato sopra, nel caso di spazi discreti la condizione di misurabilità è automaticamente
soddisfatta e ogni funzione X : Ω −→ Rd è una v.a. In generale, la condizione (X ∈ H) ∈ F fa sı̀ che P (X ∈ H)
sia ben definito e quindi si possa parlare della probabilità che X assuma valori nel Boreliano H.
Osservazione 3.1.3. [!] Se
X : Ω −→ Rd
è una funzione qualsiasi, H ⊆ Rd e (Hi )i∈I è una famiglia qualsiasi di sottoinsiemi di Rd , allora si ha
 
 c [  [
−1 c −1 −1 
X (H ) = X (H) , X  Hi  =
 X −1 (Hi ) .
i∈I i∈I

Come conseguenza, si ha che n o


σ (X) := X −1 (Bd ) = X −1 (H) | H ∈ Bd
è una σ -algebra, chiamata σ -algebra generata da X. Osserviamo che X ∈ mF se e solo se σ (X) ⊆ F .
Esempio 3.1.4. Consideriamo X : I6 −→ R definita da

1 se n è pari,


X(n) = 
0 se n è dispari.

Possiamo interpretare X come la v.a. che indica se il risultato del lancio di un dado è un numero pari o
dispari. Allora si ha
σ (X) = {∅, Ω, {2, 4, 6}, {1, 3, 5}}
ossia σ (X) contiene proprio gli eventi “significativi” per la v.a. X. Nei modelli probabilistici per le appli-
cazioni, σ (X) è chiamata la σ -algebra delle informazioni su X e viene utilizzata per rappresentare l’insieme
delle informazioni riguardanti il valore aleatorio X. Ciò si spiega, almeno parzialmente, col fatto che σ (X)
contiene gli eventi del tipo (X ∈ H) con H ∈ B: questi sono gli eventi “rilevanti” ai fini di studiare la
quantità aleatoria X, nel senso che conoscere la probabilità di questi eventi equivale a conoscere con quale
probabilità X assuma i propri valori.
Lemma 3.1.5. Sia H è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd . Se X −1 (H ) ⊆ F allora
X ∈ mF .
Dimostrazione. Sia
E = {H ∈ Bd | X −1 (H) ∈ F }.
Allora E è una σ -algebra e poiché E ⊇ H per ipotesi, allora E ⊇ σ (H ) = Bd da cui la tesi.
3.1. VARIABILI ALEATORIE 91

Corollario 3.1.6. Siano Xk : Ω −→ R con k = 1, . . . , d. Le seguenti proprietà sono equivalenti:

i) X := (X1 , . . . , Xd ) ∈ mF ;

ii) Xk ∈ mF per ogni k = 1, . . . , d;

iii) (Xk ≤ x) ∈ F per ogni x ∈ R e k = 1, . . . , d.

Dimostrazione. È semplice provare che i) implica ii); il viceversa segue dal Lemma 3.1.5, dal fatto che

d
\
((X1 , . . . , Xd ) ∈ H1 × · · · × Hd ) = (Xk ∈ Hk )
k=1

e H := {H1 × · · · × Hd | Hk ∈ B} è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd .


Infine, ii) e iii) sono equivalenti ancora per il Lemma 3.1.5, poiché la famiglia degli intervalli del tipo
] − ∞, x] genera B (cfr. Esercizio 2.4.7-iii)).

Presentiamo ora i primi semplici esempi di v.a., scrivendo anche esplicitamente la σ -algebra σ (X)
generata da X e l’immagine X(Ω) = {X(ω) | ω ∈ Ω} che è l’insieme dei valori possibili di X.

Esempio 3.1.7.

i) Dato c ∈ Rd , consideriamo la funzione costante X ≡ c. Si ha

σ (X) = {∅, Ω}

e quindi X è una v.a. In questo caso X(Ω) = {c} e ovviamente c rappresenta l’unico valore che X può
assumere. Dunque si tratta di una variabile “non proprio aleatoria”.

ii) Dato un evento A ∈ F , la funzione indicatrice di A è definita da



1 ω ∈ A,


X(ω) = 1A (ω) = 
0 ω ∈ Ac .

X è una v.a. poiché


σ (X) = {∅, A, Ac , Ω},
e in questo caso X(Ω) = {0, 1}.

iii) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. S che conta il
numero di successi fra le n prove: in altri termini
n
X
S(ω) = 1Ch (ω), ω ∈ Ω.
h=1

Con riferimento allo spazio canonico della Proposizione 2.3.30 si ha anche


n
X
S(ω) = ωh , ω ∈ Ω.
h=1

e, ricordando la formula (2.5.1), abbiamo (S = k) = Ωk con k = 0, 1, . . . , n. Quindi σ (X) contiene ∅ e


tutte le unioni degli eventi Ω0 , . . . , Ωn . In questo caso S(Ω) = {0, 1, . . . , n}.
92 CAPITOLO 3. VARIABILI ALEATORIE

iv) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. T che indica il
“primo tempo” di successo fra le n prove: in altri termini

T (ω) = min{h | ω ∈ Ch }, ω ∈ Ω,

e poniamo per convenzione min ∅ = n + 1. In questo caso T (Ω) = {1, . . . , n, n + 1}. Con riferimento allo
spazio canonico della Proposizione 2.3.30, si ha anche

T (ω) = min{h | ωh = 1}, ω ∈ Ω.

σ (X) contiene ∅ e tutte le unioni degli eventi (T = 1), . . . , (T = n + 1). Notiamo che

(T = 1) = C1 , (T = n + 1) = C1c ∩ · · · ∩ Cnc

e, per 1 < k ≤ n,
(T = k) = C1c ∩ · · · ∩ Ck−1
c
∩ Ck .
Proposizione 3.1.8. Valgono le seguenti proprietà delle funzioni misurabili:
i) siano
X : Ω −→ Rd , f : Rd −→ Rn ,
con X v.a. e f ∈ mBd . Allora si ha
σ (f ◦ X) ⊆ σ (X), (3.1.1)
e di conseguenza f (X) ∈ mF ;
ii) se (Xn )n∈N è una successione in mF allora anche

inf Xn , sup Xn , lim inf Xn , lim sup Xn ,


n n n→∞ n→∞

appartengono a mF .
Dimostrazione. La (3.1.1) segue da f −1 (Bn ) ⊆ Bd e il fatto che f (X) ∈ mF ne è immediata conseguenza.
La ii) segue dal fatto che, per ogni a ∈ R, si ha
  [ ! \
inf Xn < a = (Xn < a), sup Xn < a = (Xn < a),
n n
n n

e
lim inf Xn = sup inf Xk , lim sup Xn = inf sup Xk .
n→∞ n k≥n n→∞ n k≥n

Osservazione 3.1.9. Dalla i) della Proposizione 3.1.8 segue in particolare che se X, Y ∈ mF e λ ∈ R allora
X + Y , XY , λX ∈ mF . Infatti basta osservare che X + Y , XY e λX sono funzioni continue (e quindi B-
misurabili) della coppia (X, Y ) che è una v.a. per il Corollario 3.1.6.
Inoltre, per ogni successione (Xn )n∈N di v.a. si ha

A := {ω ∈ Ω | esiste lim Xn (ω)} = {ω ∈ Ω | lim sup Xn (ω) = lim inf Xn (ω)} ∈ F . (3.1.2)
n→∞ n→∞ n→∞

Definizione 3.1.10 (Convergenza quasi certa). Se A in (3.1.2) è quasi certo, ossia P (A) = 1, allora si dice
che (Xn )n∈N converge quasi certamente.
Ricordiamo dall’Osservazione 2.4.3 che uno spazio (Ω, F , P ) è completo se N ⊆ F , ossia gli insiemi
trascurabili (e quasi certi) sono eventi. L’ipotesi di completezza è spesso utile come mostrano i seguenti
esempi.
3.1. VARIABILI ALEATORIE 93

Osservazione 3.1.11 (Proprietà quasi certe e completezza). Consideriamo una “proprietà” P = P(ω)
la cui validità dipende da ω ∈ Ω: per fissare le idee, nell’Osservazione 3.1.9 P(ω)=“esiste lim Xn (ω)”.
n→∞
Diciamo che P è quasi certa (o vale q.c.) se l’insieme
A := {ω ∈ Ω | P(ω) è vera}
è quasi certo: ciò significa che esiste C ∈ F tale che P (C) = 1 e C ⊆ A o, equivalentemente, esiste N
trascurabile tale che P(ω) è vera per ogni ω ∈ Ω \ N .
Nel caso di uno spazio completo, P vale q.c. se e solo se P (A) = 1. Se lo spazio non è completo, non
è detto che A ∈ F e quindi P (A) non è definita. Nel caso particolare dell’Osservazione 3.1.9, il fatto che
A ∈ F è conseguenza della (3.1.2) e del fatto che le Xn sono v.a.
Definizione 3.1.12 (Uguaglianza quasi certa). Date due funzioni (non necessariamente variabili aleatorie)
X, Y : Ω −→ Rd ,
q.c.
diciamo che X = Y quasi certamente, e scriviamo X = Y q.c. (o X = Y ), se l’insieme (X = Y ) è quasi certo.
Osservazione 3.1.13. Per l’Osservazione 2.1.18, in uno spazio completo
q.c.
X=Y ⇐⇒ P (X = Y ) = 1.
Senza l’ipotesi di completezza, non è detto che (X = Y ) sia un evento (a meno che, per esempio, X e Y non
siano entrambe v.a.). Di conseguenza P (X = Y ) non è ben definita e, senza l’ipotesi di completezza, non è
corretto affermare che X = Y q.c. equivale a P (X = Y ) = 1. Notiamo anche che, in uno spazio completo,
se X = Y q.c. e Y è una v.a. allora anche X è una v.a.: ciò non è necessariamente vero se lo spazio non è
completo.
Osservazione 3.1.14. [!] Sia (Xn )n∈N una successione di v.a. che converge quasi certamente sull’evento A
definito come in (3.1.2). Poniamo
X(ω) := lim Xn (ω), ω ∈ A,
n→∞
e, per convenzione, X(ω) = 0 per ogni ω ∈ Ω \ A. Allora X è una variabile aleatoria. Notiamo che, nel caso
in cui lo spazio non sia completo, è possibile modificare X su un insieme trascurabile e non misurabile: in
tal modo si può ottenere una funzione Y che non è una v.a. (ossia Y non è una misurabile) ed è tale che
(Xn )n∈N converge a Y quasi certamente. In altri termini, in uno spazio non completo la convergenza quasi certa
non conserva la proprietà di misurabilità.

3.1.1 Variabili aleatorie e distribuzioni


Sia
X : Ω −→ Rd
una variabile aleatoria sullo spazio di probabilità (Ω, F , P ). Ad X è associata in modo naturale la distribu-
zione definita da
µX (H) := P (X ∈ H), H ∈ Bd . (3.1.3)
È facile verificare che µX in (3.1.3) è una distribuzione, ossia una misura di probabilità su Rd : infatti si ha
µX (Rd ) = P (X ∈ Rd ) = 1 e inoltre, per ogni successione disgiunta (Hn )n∈N in Bd , si ha
∞   ∞  ∞ 
]   ]  ] 
−1 −1
µX  Hn  = P X  Hn  = P  X (Hn ) =
      
n=1 n=1 n=1

(per la σ -additività di P )

X   X∞
= P X −1 (Hn ) = µX (Hn ).
n=1 n=1
94 CAPITOLO 3. VARIABILI ALEATORIE

Definizione 3.1.15 (Legge, CDF e densità di una v.a.). Data una v.a.

X : Ω −→ Rd

su (Ω, F , P ), la distribuzione µX definita da (3.1.3) è detta distribuzione (o legge) di X. Per indicare che X ha
distribuzione µX scriveremo
X ∼ µX .
La funzione definita da1
FX (x) := P (X ≤ x), x ∈ Rd ,
è detta funzione di ripartizione o CDF di X. Notiamo che FX è la CDF di µX . Infine, se µX ∈ AC con densità
γX , diremo che X è assolutamente continua e ha densità γX : in tal caso vale
Z
P (X ∈ H) = γX (x)dx, H ∈ Bd .
H

Per comprendere la definizione precedente, suggeriamo di esaminare nel dettaglio il seguente


Esempio 3.1.16. [!] Sullo spazio di probabilità (Ω, F , P ) ≡ (R, B, Expλ ), dove λ > 0 è fissato, consideriamo
le v.a. 
−1 se ω ≤ 2,

2

X(ω) = ω , Y (ω) =  Z(ω) = ω, ω ∈ R.
1
 se ω > 2,
Per determinare la legge di X, calcoliamo la relativa CDF: per x < 0 si ha P (X ≤ x) = 0, mentre per x ≥ 0 si
ha
Z √x √
2
FX (x) = P (X ≤ x) = Expλ ({ω ∈ R | ω ≤ x}) = λe−λt dt = 1 − e−λ x .
0

Ne segue che X è assolutamente continua con densità



dF (x) λe−λ x
γX (x) = X = √ 1R≥0 (x).
dx 2 x
La v.a. Y assume solo due valori: −1 e 1. Inoltre
Z 2
P (Y = −1) = Expλ (] − ∞, 2]) = λe−λt dt = 1 − e−2λ ,
0
Z +∞
P (Y = 1) = Expλ (]2, +∞]) = λe−λt dt = e−2λ .
2

Ne segue che Y è una v.a. discreta con legge


 
Y ∼ 1 − e−2λ δ−1 + e−2λ δ1 .

Per esercizio, provare che Z ∼ Expλ .

Osservazione 3.1.17 (Esistenza). [!] Assegnata una distribuzione µ su Rd , esiste una v.a. X su uno spazio
di probabilità (Ω, F , P ) tale che µ = µX . Basta infatti considerare (Rd , Bd , µ) e la variabile aleatoria identità
X(ω) ≡ ω, per ogni ω ∈ Rd . D’altra parte, la scelta di (Ω, F , P ) e X non è unica: in altri termini, variabili
aleatorie differenti, anche definite su spazi di probabilità diversi, possono avere la medesima distribuzione.
Per esempio, consideriamo:
d
1 Al solito, (X ≤ x) = T (X ≤ x ).
k k
k=1
3.1. VARIABILI ALEATORIE 95

i) Lancio di un dado: Ω1 = I6 := {1, 2, 3, 4, 5, 6} con probabilità uniforme e X(ω) = ω;


ii) Lancio di due dadi: Ω2 = I6 × I6 con probabilità uniforme e Y (ω1 , ω2 ) = ω1 .
Allora X e Y hanno la stessa legge (che è la distribuzione uniforme discreta UnifI6 ) ma sono variabili aleatorie
differenti e definite su spazi di probabilità diversi.
Dunque la legge di una v.a non fornisce la conoscenza completa della v.a. stessa. Conoscere la distri-
buzione di una v.a. X significa conoscere “come è distribuita la probabilità fra i vari valori che X può
assumere” e questo, per molte applicazioni, è più che sufficiente; anzi, spesso i modelli probabilistici sono
definiti a partire dalla distribuzione (o, equivalentemente, assegnando la CFD oppure la densità, nel caso
assolutamente continuo) piuttosto che attraverso la definizione esplicita dello spazio di probabilità e della
v.a. considerata.
Definizione 3.1.18 (Uguaglianza in legge). Siano X, Y variabili aleatorie (non necessariamente sullo stesso
spazio di probabilità). Diciamo che X e Y sono uguali in legge (o distribuzione) se µX = µY . In tal caso,
scriviamo
d
X = Y.
Esercizio 3.1.19. Provare le seguenti affermazioni:
q.c. d
i) se X = Y allora X = Y ;
d
ii) esistono X, Y v.a. definite sullo stesso spazio (Ω, F , P ) tali che X = Y ma P (X = Y ) < 1;
d d
iii) se X = Y e f ∈ mB allora f ◦ X = f ◦ Y .
Soluzione.
i) Utilizziamo il fatto che P (X = Y ) = 1 e, ricordando l’Esercizio 2.1.29, per ogni z abbiamo

P (X ∈ H) = P ((X ∈ H) ∩ (X = Y )) = P ((Y ∈ H) ∩ (X = Y )) = P (Y ∈ H).

ii) In uno spazio (Ω, F , P ) siano A, B ∈ F tali che P (A) = P (B). Allora le v.a. indicatrici X = 1A e Y = 1B hanno entrambe
distribuzione di Bernoulli uguale a
P (A)δ1 + (1 − P (A)) δ0 ,
poiché assumono solo i valori 1 e 0 rispettivamente con probabilità P (A) e 1 − P (A). Per quanto riguarda la CDF, si ha



 0 se x < 0,
c ) se 0 ≤ x < 1,

FY (x) = FX (x) = P (X ≤ x) =  P (A



1 se x ≥ 1.

iii) Per ogni H ∈ B si ha


    
P (f ◦ X)−1 (H) = P X −1 f −1 (H) =

d
(poiché per ipotesi X = Y )
  
= P Y −1 f −1 (H) = P ((f ◦ Y )−1 (H)).

Esaminiamo ora alcuni esempi di distribuzioni di v.a. con particolare riferimento al caso di v.a. assolu-
tamente continue e discrete. Abbiamo già detto che X è assolutamente continua se
Z
P (X ∈ H) = γX (x)dx, H ∈ B,
H
96 CAPITOLO 3. VARIABILI ALEATORIE

R
dove la densità γX è una funzione B-misurabile, non-negativa (ossia γX ∈ mB + ) e tale che γX (x)dx = 1.
Rd
Diciamo che una v.a. X è discreta se la sua legge è una distribuzione discreta (cfr. Definizione 2.4.15),
ossia è una combinazione finita o numerabile di Delta di Dirac:
X
µX = pk δxk , (3.1.4)
k≥1

dove (xk ) è una successione di punti distinti di Rd e (pk ) è una successione di numeri non-negativi con
somma pari a uno. Se µ̄X indica la funzione di distribuzione di µX , allora si ha

P (X = xk ) = µ̄X (xk ) = pk , k ∈ N.

Osservazione 3.1.20. I grafici della densità γX (nel caso di distribuzioni assolutamente continue) e della
funzione di distribuzione µ̄X (nel caso di distribuzioni discrete) danno una rappresentazione semplice e
immediata di come è distribuita la probabilità fra i valori possibili di X: illustriamo questo fatto nella
sezione seguente con alcuni esempi.

3.1.2 Esempi di variabili aleatorie discrete


Esempio 3.1.21 (Binomiale). [!] Per una v.a S con distribuzione binomiale, S ∼ Binn,p (si veda l’Esempio
2.4.17-iii)), si ha !
n k
P (S = k) = p (1 − p)n−k , k = 0, 1, . . . , n. (3.1.5)
k
S rappresenta il “numero di successi in n prove ripetute e indipendenti con probabilità p” (cfr. Esempio
3.1.7-iii)). Esempi di variabili aleatori binomiali sono:
i) con riferimento all’Esempio 2.2.17, in cui si considera l’estrazione con reinserimento da un’urna che
contiene b palline bianche e r palline rosse, la v.a. S che rappresenta il “numero di palline bianche
estratte in n estrazioni” ha distribuzione Binn, b ;
b+r

ii) con riferimento all’Esempio 2.3.43, in cui si suppone di disporre a caso n oggetti in r scatole, la v.a. S
che rappresenta il “numero di oggetti nella prima scatola” ha distribuzione Binn, 1 .
r

In Figura 3.1, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Binn,p con
n = 40 e p = 10%: tale grafico permette di visualizzare molto chiaramente i valori possibili di X, ossia X(Ω),
in ascissa e le corrispondenti probabilità in ordinata.
Esempio 3.1.22 (Overbooking). Supponiamo che la probabilità che un viaggiatore non si presenti all’im-
barco all’aeroporto sia pari al 10%, indipendentemente dagli altri viaggiatori. Quante prenotazioni per
un volo da 100 passeggeri si possono accettare volendo che la probabilità che tutti i viaggiatori presenti
all’imbarco trovino posto sia maggiore del 99%?
Soluzione. Supponiamo di accettare n prenotazioni e consideriamo la v.a. X “numero di passeggeri presenti all’imbarco”: allora
9 è la probabilità che un viaggiatore si presenti. Dobbiamo determinare il valore massimo di n tale che
X ∼ Binn,p dove p = 10
n
X
P (X > 100) = P (X = k) < 1%.
k=101

Si verifica direttamente2 che P (X > 100) = 0.57% se n = 104 e P (X > 100) = 1.67% se n = 105. Dunque possiamo accettare
104 prenotazioni.
2 Mostreremo più avanti (cfr. Osservazione 4.4.8) come è possibile semplificare il calcolo di P (X > 100) nel caso di X ∼ Bin
n,p con n
grande.
3.1. VARIABILI ALEATORIE 97

Figura 3.1: Grafico della funzione di distribuzione di una variabile aleatoria binomiale

Esempio 3.1.23 (Poisson). Sia λ > 0 una costante fissata. Per ogni n ∈ N, n ≥ λ, poniamo qn = λn e
consideriamo Xn ∼ Binn,qn . Per ogni k = 0, 1, . . . , n, poniamo
 k 
λ n−k
!
n k n! λ

pn,k := P (Xn = k) = qn (1 − qn )n−k = 1− (3.1.6)
k k!(n − k)! n n
λ n
 
λk n(n − 1) · · · (n − k + 1) 1 − n
= · ·
nk
k! k
1 − λn

e osserviamo che
e−λ λk
lim pn,k = =: pk , k ∈ N0 .
n→∞ k!
Ritroviamo quindi la distribuzione di Poisson

X
Poissonλ = pk δk
k=0

dell’Esempio 2.4.17-iv).
Intuitivamente X ∼ Poissonλ può essere pensata come il limite di una successione di v.a. Xn ∼ Binn,qn .
In altri termini, la distribuzione di Poisson di parametro np approssima per n → +∞ (e p → 0+ ) la distribu-
zione binomiale Binn,p e pertanto scriviamo

Binn,p ≈ Poissonnp n → +∞, p → 0+ .

Questo risultato verrà formalizzato in seguito nell’Esempio 4.3.12. Notiamo che nella pratica, per n gran-
de, il valore di pn,k in (3.1.6) è “difficile” da calcolare a causa della presenza dei fattoriali3 nel coefficien-
te binomiale nk . Pertanto risulta utile utilizzare la distribuzione di Poisson come approssimazione della

binomiale.
In Figura 3.2, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Poissonλ
con λ = 3.
3 Per esempio 70! > 10100 . Per calcolare n! per n ≫ 1 si può utilizzare l’approssimazione di Stirling

√  n
n
n! ≈ 2πn .
e
98 CAPITOLO 3. VARIABILI ALEATORIE

Figura 3.2: Grafico della funzione di distribuzione di una variabile aleatoria di Poisson

Esempio 3.1.24. Un macchinario produce bulloni e per ogni bullone prodotto c’è la probabilità dello 0.01%
che sia difettoso (indipendentemente dagli altri). Calcolare la probabilità che in una scatola da 1000 bulloni
ce ne siano meno di 3 difettosi.
Soluzione. La v.a. X che indica il numero di bulloni difettosi in una scatola da 1000 bulloni, ha distribuzione binomiale
Bin1000,p dove p = 0.01% è la probabilità che il singolo bullone sia difettoso. Allora

2 2 !
X X 1000 k
P (X < 3) = P (X = k) = p (1 − p)1000−k ≈ 99.9846%.
k
k=0 k=0

Utilizzando l’approssimazione con una v.a. di Poisson, diciamo Y ∼ Poissonλ dove λ = np = 0.1, otteniamo

2 2
X X λk
P (Y < 3) = P (Y = k) = e−λ ≈ 99.9845%.
k!
k=0 k=0

Esempio 3.1.25 (Geometrica). Per una v.a T con distribuzione geometrica di parametro p, T ∼ Geomp con
p ∈ ]0, 1], si ha4
P (T = k) = p(1 − p)k−1 , k ∈ N.
La v.a. T rappresenta il “primo tempo di successo” in una famiglia di prove ripetute e indipendenti con
probabilità p: al riguardo si ricordi l’Esempio 3.1.7-iv) e l’Esempio 2.3.31.

Proviamo ora una proprietà fondamentale della distribuzione geometrica, nota come proprietà di assenza
di memoria.

Teorema 3.1.26. Se T ∼ Geomp si ha

P (T > n) = (1 − p)n , n ∈ N, (3.1.7)

e vale la seguente proprietà di assenza di memoria:

P (T > n + k | T > n) = P (T > k), k, n ∈ N. (3.1.8)

Viceversa, se T è una v.a. a valori in N e vale la (3.1.8) allora T ∼ Geomp dove p = P (T = 1).
4 Per convenzione poniamo 00 = 1.
3.1. VARIABILI ALEATORIE 99

Dimostrazione. Se T ∼ Geomp allora per ogni n ∈ N vale



X ∞
X ∞
X
P (T > n) = P (T = k) = p(1 − p)k−1 = p(1 − p)h
k=n+1 k=n+1 h=n

X 1
= p(1 − p)n (1 − p)h = p(1 − p)n = (1 − p)n ,
1 − (1 − p)
h=0

e questo prova la (3.1.7). Allora, poiché (T > k + n) ⊆ (T > n), si ha

P (T > k + n) (1 − p)k+n
P (T > n + k | T > n) = = = (1 − p)k = P (T > k).
P (T > n) (1 − p)n

Viceversa, supponiamo che T sia una v.a. a valori in N per cui vale la (3.1.8). Notiamo che la (3.1.8) ha
senso sotto l’ipotesi implicita che P (T > n) > 0 per ogni n ∈ N e per k = 1 si ha

P (T > n + 1)
P (T > 1) = P (T > n + 1 | T > n) =
P (T > n)
da cui
P (T > n + 1) = P (T > n)P (T > 1)
e quindi
P (T > n) = P (T > 1)n .
Inoltre, posto p = P (T = 1) = 1 − P (T > 1), si ha

P (T = k) = P (T > k − 1) − P (T > k) = P (T > 1)k−1 − P (T > 1)k


= P (T > 1)k−1 (1 − P (T > 1)) = p(1 − p)k−1 ,

che prova la tesi.


Corollario 3.1.27. Siano T ∼ Geomp e n ∈ N. Vale

P (T = n + k | T > n) = P (T = k), k ∈ N,

ossia la legge della v.a. T rispetto alla probabilità P è uguale alla legge della v.a. (T − n) rispetto alla probabilità
condizionata P (· | T > n).
Dimostrazione. Si ha

P (T = n + k | T > n) = P (T > n + k − 1 | T > n) − P (T > n + k | T > n) =

(per il Teorema 3.1.26)

= P (T > k − 1) − P (T > k) = P (T = k).

Esercizio 3.1.28. In un gioco del lotto, una volta alla settimana si estraggono 5 numeri da un’urna che
contiene 90 palline numerate. Qual è la probabilità che il numero 13 non venga estratto per 52 settimane
consecutive? Sapendo che il 13 non è stato estratto per 52 settimane, qual è la probabilità che non sia
estratto per la 53esima settimana consecutiva?
|C | 5 la probabilità che in un’estrazione venga estratto il 13. Se T indica la prima
Soluzione. Indichiamo con p = |C89,4 | = 90
90,5
settimana in cui viene estratto il 13 allora per la (3.1.7) abbiamo

P (T > 52) = (1 − p)52 ≈ 5.11%


100 CAPITOLO 3. VARIABILI ALEATORIE

Equivalentemente avremmo potuto considerare la v.a. binomiale X ∼ Bin52,p che indica il numero di volte in cui, fra 52
estrazioni, viene estratto il 13 e calcolare !
52 0
P (X = 0) = p (1 − p)52
0
che dà lo stesso risultato. Per la seconda domanda, dobbiamo calcolare
85
P (T > 53 | T > 52) = P (T > 1) = ,
90
dove la prima uguaglianza segue dalla (3.1.8).

Esempio 3.1.29 (Ipergeometrica). Una variabile aleatoria X con distribuzione ipergeometrica rappresenta
il numero di palline bianche estratte in n estrazioni senza reimmissione da un’urna che contiene N palline
di cui b bianche: al riguardo si ricordi l’Esempio 2.2.19. In particolare, siano n, b, N ∈ N con n, b ≤ N . Allora
X ∼ Ipern,b,N se5
b N −b
k n−k
P (X = k) = N
k = 0, 1, . . . , n ∧ b. (3.1.9)
n

Esercizio 3.1.30. Sia (bN )N ∈N una successione in N0 tale che


bN
lim = p ∈ ]0, 1[.
N →∞ N
Se γN , N ∈ N, indica la funzione di distribuzione ipergeometrica di parametri n, bN , N , e γ indica la
funzione di distribuzione binomiale di parametri n e p, allora si ha

lim Ipern,bN ,N ({k}) = Binn,p ({k})


N →∞

per ogni n ∈ N e k = 0, 1, . . . , n. Intuitivamente, se il numero di palline bianche b e il numero totale di


palline N sono grandi, allora la reimmissione o meno di una pallina dopo l’estrazione modifica in modo
trascurabile la composizione dell’urna.
Soluzione. È un calcolo diretto: per maggiori dettagli si veda, per esempio, l’Osservazione 1.40 in [25].

3.1.3 Esempi di variabili aleatorie assolutamente continue


Esempio 3.1.31 (Esponenziale). Una v.a. con distribuzione esponenziale X ∼ Expλ gode di una proprietà
di assenza di memoria analoga a quella vista nel Teorema 3.1.26 per la distribuzione geometrica:

P (X > t + s | X > s) = P (X > t) , t, s ≥ 0. (3.1.10)

Infatti, poiché (X > t + s) ⊆ (X > s), si ha

P (X > t + s)
P (X > t + s | X > s) = =
P (X > s)

(per la (2.4.9))

e−λ(t+s)
= = e−λt = P (X > t) .
e−λs
La distribuzione esponenziale appartiene ad un’ampia famiglia di distribuzioni che introduciamo nel’E-
sempio 3.1.35.
Diamo un semplice ma utile risultato.
5 Per convenzione poniamo n = 0 per k > n.
k
3.1. VARIABILI ALEATORIE 101

Proposizione 3.1.32 (Trasformazioni lineari e densità). Sia X una v.a. in Rd , assolutamente continua con
densità γX . Allora per ogni matrice A invertibile, di dimensione d × d, e b ∈ Rd , la v.a. Z := AX + b è
assolutamente continua con densità
1  
γZ (z) = γX A−1 (z − b) .
|det A|

Dimostrazione. Per ogni H ∈ Bd si ha


  Z
−1
P (Z ∈ H) = P X ∈ A (H − b) = γX (x)dx =
A−1 (H−b)

(col cambio di variabili z = Ax + b)


Z
1  
= γX A−1 (z − b) dz
|det A| H

e questo prova la tesi.

Esempio 3.1.33 (Uniforme). Consideriamo un esempio di v.a. con distribuzione uniforme su K ∈ Bd con
misura di Lebesgue positiva come nell’Esempio 2.4.22-i). In particolare, sia K il triangolo in R2 di ver-
tici (0, 0), (1, 0) e (0, 1). Sia (X, Y ) ∼ UnifK , con densità γ(X,Y ) (x, y) = 21K (x, y): con la Proposizione 3.1.32
possiamo facilmente calcolare la densità di (X + Y , X − Y ). Infatti, essendo
! ! !
X +Y X 1 1
=A , A= ,
X −Y Y 1 −1

si ha det A = −2 e !!
2 z
γ(X+Y ,X−Y ) (z, w) = 1 A−1 = 1AK (z, w)
| det A| K w
dove AK è il triangolo di vertici6 (0, 0), (1, 1) = A · (1, 0) e (1, −1) = A · (0, 1).

Esempio 3.1.34 (Normale). Ricordiamo che X ha distribuzione normale di parametri µ ∈ R e σ > 0, ossia
X ∼ Nµ,σ 2 , se
Z
1 1 x−µ 2
P (X ∈ H) = √ e− 2 ( σ ) dx, H ∈ B.
H 2πσ 2

Notiamo che P (X ∈ H) > 0 se e solo se Leb(H) > 0, essendo la densità un esponenziale e quindi strettamente
positiva. Ovviamente P (X = x) = 0 per ogni x ∈ R perché X è assolutamente continua.
Anche se X può assumere un qualsiasi valore reale, è bene sapere che la probabilità è sostanzialmente
concentrata intorno al valore µ. Infatti, si ha

P (|X − µ| ≤ σ ) ≈ 68.27%
P (|X − µ| ≤ 2σ ) ≈ 95.45% (3.1.11)
P (|X − µ| ≤ 3σ ) ≈ 99.73%

e questo significa che i valori estremi (neanche tanto lontani da µ) sono molto improbabili (si veda la7
Figura 3.3). Per questo motivo si usa dire che la densità Gaussiana ha le “code sottili”.
!
6 Qui A · (1, 0) ≡ A 1 .
0
7 La Figura 3.3 è tratta da
commons.wikimedia.org/wiki/File:Standard_deviation_diagram.svg♯/media/File:Standard_deviation_diagram.svg
102 CAPITOLO 3. VARIABILI ALEATORIE

0.4
0.3
0.2
34.1% 34.1%
0.1

2.1% 2.1%
0.1% 13.6% 13.6% 0.1%
0.0

3 2 1 0 1 2 3

Figura 3.3: Probabilità nella distribuzione normale

A prima vista, il fatto che i valori in (3.1.11) siano indipendenti da µ e σ può sembrare un po’ strano.
X−µ
D’altra parte P (|X − µ| ≤ λσ ) = P (|Z| ≤ λ) dove Z = σ e per la Proposizione 3.1.32 si ha

X ∼ Nµ,σ 2 =⇒ Z ∼ N0,1 .

In altre termini, si può sempre standardizzare una v.a. normale con una semplice trasformazione lineare.
Notiamo che la densità Gaussiana di Z ∼ N0,1 è una funzione pari e quindi, per ogni λ > 0 si ha

P (Z ≥ −λ) = P (−Z ≤ λ) = P (Z ≤ λ)

e di conseguenza

P (|Z| ≤ λ) = P (Z ≤ λ) − P (Z ≤ −λ)
= P (Z ≤ λ) − (1 − P (Z ≥ −λ))
= 2FZ (λ) − 1, (3.1.12)

dove FZ indica la CDF di Z.


Esempio 3.1.35 (Gamma). Ricordiamo la definizione della funzione Gamma di Eulero:
Z +∞
Γ (α) := xα−1 e−x dx, α > 0. (3.1.13)
0

Osserviamo che Γ assume valori positivi, Γ (1) = 1 e Γ (α + 1) = αΓ (α) poiché, integrando per parti, si ha
Z +∞ Z +∞
Γ (α + 1) = xα e−x dx = αxα−1 e−x dx = αΓ (α).
0 0

Ne segue in particolare che Γ (n + 1) = n! per ogni n ∈ N. Un altro valore notevole si ha per α = 21 :


Z +∞ −x
 
1 e
Γ 2 = √ dx =
0 x

(col cambio di variabile x = y 2 )


Z +∞ √
2
=2 e−y dy = π.
0
3.1. VARIABILI ALEATORIE 103

0.20

0.15

0.15

0.10
0.10

0.05
0.05

5 10 15 20 5 10 15 20

Figura 3.4: A sinistra: grafico della densità γα,2 per α = 1 (linea continua), α = 4 (linea tratteggiata) α = 6
(linea punteggiata). A destra: grafico della densità γ2,λ per λ = 12 (linea continua), λ = 41 (linea tratteggiata)
λ = 61 (linea punteggiata).

Notiamo anche che, fissato λ > 0, col cambio di variabile x = λt in (3.1.13) otteniamo
Z +∞
Γ (α) := λα t α−1 e−λt dt, α > 0.
0

Ne segue che la funzione


λα α−1 −λt
γα,λ (t) := t e 1R>0 (t), t ∈ R, (3.1.14)
Γ (α)
è una densità per ogni α > 0 e λ > 0.
Definizione 3.1.36. La distribuzione con densità γα,λ in (3.1.14) è detta distribuzione Gamma di parametri
α, λ > 0:
λα
Z
Gammaα,λ (H) = t α−1 e−λt dt, H ∈ B.
Γ (α) H∩R>0
Notiamo che la distribuzione Esponenziale è un caso particolare della Gamma con α = 1:

Gamma1,λ = Expλ .

La distribuzione Gamma gode della seguente proprietà di invarianza di scala:


Lemma 3.1.37. Se X ∼ Gammaα,λ e c > 0 allora cX ∼ Gammaα, λ . In particolare λX ∼ Gammaα,1 .
c

Dimostrazione. Utilizziamo la funzione di ripartizione per determinare la distribuzione di cX:


y
λα e−λt
Z
c
P (cX ≤ y) = P (X ≤ y/c) = dt =
0 Γ (α)t 1−α
104 CAPITOLO 3. VARIABILI ALEATORIE

(col cambio di variabile x = ct)


y λ
λα e − c x
Z
= dx = Gammaα, λ (] − ∞, y]).
0 c Γ (α)x1−α
α c

3.1.4 Altri esempi di variabili aleatorie notevoli


Esempio 3.1.38 (Distribuzione χ2 ). Sia X ∼ N0,1 . Vogliamo determinare la distribuzione della v.a. Z = X 2
tramite lo studio della sua CDF FZ . Poiché Z ≥ 0 si ha FZ (x) = 0 per x ≤ 0, mentre per x > 0 si ha
 √ √ 
FZ (x) = P (X 2 ≤ x) = P − x ≤ X ≤ x =

(per simmetria)

Z x y2 √
1  
=2 √ e− 2 dy = 2 FX ( x) − FX (0)
0 2π
dove FX è la CDF di X. Ne risulta che FZ è assolutamente continua e quindi per il Teorema 2.4.33 la densità
di Z è data da
d d √ √ 1 1 x
FZ (x) = 2 FX ( x) = FX′ ( x) √ = √ e− 2 , x > 0.
dx dx x 2πx
Riconosciamo allora che
Z ∼ Γ1,1 .
2 2

La distribuzione Γ 1 , 1 viene detta distribuzione chi-quadro ed a volte è indicata col simbolo χ2 .


2 2

Proposizione 3.1.39. Siano


X : Ω −→ I e f : I −→ J
una v.a. sullo spazio (Ω, F , P ) a valori nell’intervallo reale I e una funzione continua e monotona stret-
tamente crescente (quindi invertibile) a valori nell’intervallo reale J. Allora la CDF della v.a. Y := f (X)

FY = FX ◦ f −1 (3.1.15)
dove FX indica la CDF di X.
Dimostrazione. La (3.1.15) segue semplicemente da
 
P (Y ≤ y) = P (f (X) ≤ y) = P X ≤ f −1 (y) = FX (f −1 (y)), y ∈ J,

dove nella seconda uguaglianza abbiamo usato il fatto che f è monotona crescente.
Esercizio 3.1.40. Determinare la densità di Y := eX dove X ∼ Unif[0,1] .
Corollario 3.1.41. [!] Se X è una v.a. a valori in un intervallo I con CDF FX continua e monotona
strettamente crescente su I, allora
FX (X) ∼ Unif[0,1] . (3.1.16)
Dimostrazione. Sia Y := FX (X). Chiaramente si ha FY (y) = 0 se y ≤ 0 e FY (y) = 1 se y ≥ 1 poiché FX assume
valori in [0, 1] per definizione ed è continua. Inoltre per la Proposizione 3.1.39 si ha FY (y) = y se 0 < y < 1,
da cui la tesi.
Il corollario precedente si applica per esempio a X ∼ Nµ,σ 2 con I = R e a X ∼ Gammaα,λ con I = R>0 .
3.1. VARIABILI ALEATORIE 105

   
1 1
Esercizio 3.1.42. Sia X ∼ 2 δ0 + Unif[0,1] . Si provi che FX (X) ∼ 2 δ 1 + Unif[ 1 ,1] e quindi l’ipotesi di
2 2
continuità di FX nel Corollario 3.1.41 non può essere rimossa.
Esempio 3.1.43. La Proposizione 3.1.39 viene solitamente utilizzata per costruire o simulare una v.a. con
assegnata CDF a partire da una v.a. uniforme. Infatti, se Y ∼ Unif[0,1] e F è una CDF monotona strettamente
crescente, allora la v.a.
X := F −1 (Y )
ha CDF uguale a F.
Per esempio, supponiamo di voler costruire una v.a. esponenziale a partire da una v.a. uniforme:
ricordando che
F(x) = 1 − e−λx , x ∈ R,
è la CDF della distribuzione Expλ , si ha

1
F −1 (y) = − log(1 − y), y ∈ ]0, 1[.
λ
Allora, per la Proposizione 3.1.39, se Y ∼ Unif]0,1[ si ha

1
− log(1 − Y ) ∼ Expλ .
λ
Il Corollario 3.1.41, e in particolare la (3.1.16), fornisce un metodo per generare al computer numeri aleatori
con un’assegnata CDF o densità a partire da numeri aleatori con distribuzione Unif[0,1] .
Il seguente risultato estende la Proposizione 3.1.32.
Proposizione 3.1.44. Se X ∈ AC è una v.a. reale con densità γX e f ∈ C 1 con f ′ , 0 allora Y := f (X) ∈ AC e
ha densità
γ (f −1 )
γY = X . (3.1.17)
f ′ (f −1 )

Dimostrazione. Ricordiamo anzitutto che le ipotesi su f implicano che f è invertibile ed esiste


 ′ 1
f −1 = . (3.1.18)
f ′ (f −1 )

Inoltre per ogni H ∈ B si ha


  Z
P (Y ∈ H) = P X ∈ f −1 (H) = γX (x)dx =
f −1 (H)

(col cambio di variabili y = f (x))


Z    ′
= γX f −1 (y) f −1 (y) dy =
H

(per la (3.1.18) e con γY definita come in (3.1.17))


Z
= γY (y)dy,
H

e questo prova che Y ∈ AC con densità γY in (3.1.17). Si noti che se f è monotona strettamente crescente
allora f ′ > 0 e il valore assoluto nella (3.1.17) è inutile. Tuttavia il risultato è valido anche per f monotona
strettamente decrescente e in tal caso il valore assoluto è necessario.
106 CAPITOLO 3. VARIABILI ALEATORIE

Esempio 3.1.45 (Distribuzione log-normale). Siano X ∼ N0,1 e f (x) = ex . Allora per la (3.1.17) la densità
della v.a. Y = eX è
1 (log y)2
γY (y) = √ e− 2 , y ∈ R>0 . (3.1.19)
y 2π
La funzione γY in (3.1.19) è detta densità della distribuzione log-normale: si noti che se Y ha distribuzione
log-normale allora log Y ha distribuzione normale.
Esempio 3.1.46 (Distribuzione normale bidimensionale). Siano X e Y v.a. che rappresentano la varia-
zione della temperatura a Bologna dall’inizio alla fine, rispettivamente, dei mesi di settembre e ottobre.
Assumiamo che (X, Y ) abbia densità normale bidimensionale
1 1 −1
γ(x, y) = √ e− 2 ⟨C (x,y),(x,y)⟩ , (x, y) ∈ R2
2π det C
dove !
2 1
C= .
1 3
Determiniamo:
i) P (Y < −1);
ii) P (Y < −1 | X < 0).
3x2 −2xy+2y 2
Si ha γ(x, y) = √1 e− 10 e
2 5π
Z Z −1
P (Y < −1) = γ(x, y)dydx ≈ 28%,
R −∞
P ((Y < −1) ∩ (X < 0))
P (Y < −1 | X < 0) = ≈ 39%,
P (X < 0)

essendo
Z 0 Z −1
P ((Y < −1) ∩ (X < 0)) = γ(x, y)dydx ≈ 19, 7%,
−∞ −∞
Z0 Z
1
P (X < 0) = γ(x, y)dydx = .
−∞ R 2

3.2 Valore atteso


In questo paragrafo introduciamo il concetto di valore atteso o media di una variabile aleatoria. Se X è
una v.a. con distribuzione discreta finita
Xm
X∼ pk δxk ,
k=1

ossia P (X = xk ) = pk per k = 1, . . . , m, allora il valore atteso di X è semplicemente definito da


m
X m
X
E [X] := xk P (X = xk ) = xk p k . (3.2.1)
k=1 k=1

In altri termini, E [X] è una media dei valori di X pesata secondo la probabilità che tali valori siano assunti.
Se m = ∞ allora la somma in (3.2.1) diventa una serie ed occorre porre delle condizioni di convergenza.
3.2. VALORE ATTESO 107

Infine, nel caso in cui X assuma un’infinità più che numerabile di valori allora non è più possibile definire
E [X] come serie: nel caso generale, il valore atteso E [X] sarà definito come integrale di X rispetto alla
misura di probabilità P e indicato indifferentemente con
Z Z Z
XdP oppure X(ω)P (dω) oppure P (dω)X(ω).
Ω Ω Ω

Per dare la definizione precisa di valore atteso richiamiamo alcuni elementi della cosiddetta teoria del-
l’integrazione astratta su uno spazio di probabilità (Ω, F , P ), ricordando che una v.a. altro non è che una
funzione misurabile. Le dimostrazioni seguenti si adattano facilmente al caso di spazi misurabili σ -finiti
(fra cui Rd con la misura di Lebesgue).
Ci occuperemo di dare:

• la definizione teorica di integrale astratto nelle Sezioni 3.2.1, 3.2.2 e 3.2.3;

• una caratterizzazione operativa dell’integrale astratto e un metodo di calcolo esplicito nelle Sezioni
3.2.4 e 3.2.5.

3.2.1 Integrale di variabili aleatorie semplici


Per introdurre l’integrale astratto procediamo per gradi, partendo dal caso di funzioni (o variabili alea-
torie, nel caso di uno spazio di probabilità) “semplici” a valori reali fino al caso generale. Diciamo che una
funzione X su uno spazio misurabile (Ω, F , P ) è semplice se è misurabile e assume solo un numero finito di
valori distinti x1 , . . . , xm ∈ R: in tal caso possiamo scrivere
m
X
X= xk 1(X=xk ) ,
k=1

dove (X = x1 ), . . . , (X = xm ) ∈ F sono disgiunti. In questo caso definiamo l’integrale astratto di X nel modo
seguente
Z Xm
XdP := xk P (X = xk ). (3.2.2)
Ω k=1

Tale definizione corrisponde ad una somma di Riemann in cui ogni addendo xk P (X = xk ) rappresenta l’area
di un rettangolo calcolata come “base”דaltezza” dove la misura della base è P (X = xk ) e l’altezza xk è il
valore di X su (X = xk ): si veda la Figura 3.5. Allora per definizione si ha
Z
1A dP = P (A) (3.2.3)

per ogni A ∈ F . Per ogni X semplice e A ∈ F , useremo anche la notazione


Z Z
XdP := X1A dP .
A Ω

È chiaro che valgono le proprietà di

i) linearità: per ogni X, Y semplici e α, β ∈ R si ha


Z Z Z
(αX + βY ) dP = α XdP + β Y dP ; (3.2.4)
Ω Ω Ω
108 CAPITOLO 3. VARIABILI ALEATORIE

Figura 3.5: Interpretazione dell’integrale astratto come somma di Riemann

ii) monotonia: per ogni X, Y semplici tali che X ≤ Y P -q.c.8 si ha


Z Z
XdP ≤ Y dP . (3.2.5)
Ω Ω

Osserviamo che dalla proprietà ii) segue che se X = Y P -q.c. allora


Z Z
XdP = Y dP .
Ω Ω

Prima di dare la definizione generale di integrale, proviamo alcuni risultati preliminari.

Lemma 3.2.1 (Beppo-Levi). Sia (Xn )n∈N una successione di v.a. semplici tali che 0 ≤ Xn ↗ X P -q.c. Se X è
semplice allora Z Z
lim Xn dP = XdP . (3.2.6)
n→∞ Ω Ω

Dimostrazione. Per ipotesi esiste A ∈ F con P (Ω \ A) = 0, tale che 0 ≤ Xn (ω) ↗ X(ω) per ogni ω ∈ A. Fissato
ε > 0 e posto
An,ε := (X − Xn ≥ ε) ∩ A, n ∈ N,
per ipotesi si ha che An,ε è una successione decrescente con intersezione vuota, ossia An,ε ↘ ∅ per n → ∞.
Allora per la continuità dall’alto di P si ha lim P (An,ε ) = 0 e di conseguenza
n→∞
Z Z Z Z
0≤ (X − Xn )dP = (X − Xn )dP = (X − Xn )dP + (X − Xn )dP ≤ εP (Ω) + P (An,ε ) max X
A Ω Ω\An,ε An,ε Ω

da cui segue la (3.2.6). Notiamo esplicitamente che max X < ∞ poiché X è semplice per ipotesi.

Lemma 3.2.2. Siano (Xn )n∈N e (Yn )n∈N successioni di v.a. semplici tale che 0 ≤ Xn ↗ X e 0 ≤ Yn ↗ Y P -q.c.
Se X ≤ Y P -q.c. allora Z Z
lim Xn dP ≤ lim Yn dP .
n→∞ Ω n→∞ Ω
8 Nel senso che P (X > Y ) = 0.
3.2. VALORE ATTESO 109

Dimostrazione. Fissato k ∈ N, la successione di funzioni semplici (Xk ∧ Yn )n∈N è tale che 0 ≤ Xk ∧ Yn ↗ Xk


P -q.c. per n che tende all’infinito. Pertanto abbiamo
Z Z Z
Xk dP = lim Xk ∧ Yn dP ≤ lim Yn dP
Ω n→∞ Ω n→∞ Ω

dove la prima uguaglianza segue dalla (3.2.6), mentre la disuguaglianza è dovuta al fatto che Xk ∧ Yn ≤ Yn .
Questo conclude la prova.

3.2.2 Integrale di variabili aleatorie non-negative


Per estendere la definizione di integrale alle v.a. in mF + utilizziamo il seguente

Lemma 3.2.3. Per ogni X ∈ mF + esiste una successione monotona crescente (Xn )n∈N in mF + di v.a. semplici,
tale che Xn ↗ X ossia vale
lim Xn (ω) = X(ω), ω ∈ Ω.
n→∞

Dimostrazione. Definiamo una successione di funzioni “a scala” su [0, +∞[ nel modo seguente: per ogni
n ∈ N consideriamo la partizione di [0, +∞[ costituita dai punti

0 1 2 n2n
, , , . . . ,
2n 2n 2n 2n
e poniamo 
k−1

 2n
 se k−1
2n ≤ x <
k
2n per 1 ≤ k ≤ n2n ,
ϕn (x) =  (3.2.7)
n
 se x ≥ n.

Notiamo che 0 ≤ ϕn ≤ ϕn+1 per ogni n ∈ N e

1
x− ≤ ϕn (x) ≤ x, x ∈ [0, n],
2n
per cui
lim ϕn (x) = x, x ≥ 0.
n→∞

Allora la successione definita da Xn = ϕn (X) verifica la tesi.

Grazie al Lemma 3.2.2, la seguente definizione è ben posta, ossia indipendente dalla successione ap-
prossimante (Xn )n∈N .

Definizione 3.2.4 (Integrale astratto di variabili aleatorie non-negative). Per ogni X ∈ mF + definiamo
Z Z
XdP := lim Xn dP ≤ +∞ (3.2.8)
Ω n→∞ Ω

dove (Xn )n∈N è una successione in mF + di v.a. semplici, tale che Xn ↗ X P -q.c. Se il limite in (3.2.8) è finito
diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ).

Osservazione 3.2.5. In base alla Definizione 3.2.4, le proprietà di linearità (3.2.4) e monotonia (3.2.5) si
estendono facilmente all’integrale di X ∈ mF + .

La definizione di integrale astratto è del tutto analoga a quella dell’integrale di Lebesgue. Anche in que-
sto caso il risultato centrale su cui si basa tutto lo sviluppo della teoria dell’integrazione è il fondamentale
risultato sulla convergenza monotona.
110 CAPITOLO 3. VARIABILI ALEATORIE

Teorema 3.2.6. [Teorema di Beppo-Levi] [!!!]


Se (Xn )n∈N è una successione in mF tale che 0 ≤ Xn ↗ X P -q.c., allora si ha
Z Z
lim Xn dP = XdP .
n→∞ Ω Ω


Dimostrazione. Fissato n ∈ N, costruiamo come nel Lemma 3.2.3 una successione Xn,k k∈N di v.a. semplici
in mF + , tale che Xn,k ↗ Xn e Xn − Xn,n ≤ n1 P -q.c. Inoltre poniamo

Yn = max{X1,n , . . . , Xn,n }, n ∈ N.

Notiamo che (Yn )n∈N è una successione di v.a. semplici in mF tale che 0 ≤ Yn ↗ X P -q.c. e quindi per
definizione Z Z
lim Yn dµ = Xdµ.
n→∞ Ω Ω

D’altra parte Yn ≤ Xn ≤ X P -q.c. per cui, per monotonia,


Z Z Z
Yn dP ≤ Xn dP ≤ XdP ,
Ω Ω Ω

e da questo segue la tesi.

Lemma 3.2.7. [Lemma di Fatou][!]


Sia (Xn )n∈N una successione di v.a. in mF + . Si ha
Z Z
lim inf Xn dP ≤ lim inf Xn dP .
Ω n→∞ n→∞ Ω

Dimostrazione. Ricordiamo che, per definizione,

lim inf Xn := sup Yn , Yn := inf Xk ,


n→∞ n∈N k≥n

e quindi Yn ↗ X := lim inf Xn . Allora si ha


n→∞
Z Z
lim inf Xn dP = lim Yn dP =
Ω n→∞ Ω n→∞

(per il Teorema di Beppo-Levi)


Z
= lim Yn dP ≤
n→∞ Ω

(per monotonia)
Z Z
≤ lim inf Xk dP = lim inf Xn dP ,
n→∞ k≥n Ω n→∞ Ω

da cui la tesi.
3.2. VALORE ATTESO 111

3.2.3 Integrale di variabili aleatorie a valori in Rd


Definizione 3.2.8 (Integrale astratto). Se RX ∈ mF è Ra valori reali consideriamo la parte positiva X + e la
parte negativa X − di X: se almeno uno fra Ω X + dP e Ω X − dP è finito, allora diciamo che X è integrabile e
poniamo Z Z Z
+
XdP := X dP − X − dP ∈ [−∞, +∞].
Ω Ω Ω
R R
Se entrambi Ω X + dP
e Ω
X − dP sono finiti, allora diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ). In
questo caso si noti che Z Z Z
+
|X|dP = X dP + X − dP ∈ R.
Ω Ω Ω

Infine, se X = (X1 , . . . , Xd ) è a valori in Rd , allora diciamo che X è integrabile se ogni componente Xi è


integrabile e in tal caso poniamo
Z Z Z !
XdP = X1 dP , . . . , Xd dP ∈ [−∞, +∞]d .
Ω Ω Ω

Notiamo che vale la disuguaglianza triangolare: per ogni X ∈ L1 (Ω, P ) a valori reali si ha
Z Z Z Z Z Z
XdP = X + dP − −
X dP ≤
+
X dP + −
X dP = |X|dP .

Ω Ω Ω Ω Ω Ω

Notazione 3.2.9. Useremo la notazione


Z Z
X(ω)P (dω) := XdP
Ω Ω

nel caso in cui vogliamo mettere in evidenza la variabile d’integrazione. Per l’integrale rispetto alla misura
di Lebesgue scriveremo semplicemente
Z Z
f (x)dx invece di f dLeb.
Rd Rd

Proposizione 3.2.10. Valgono le seguenti proprietà:

i) Linearità: per ogni X, Y ∈ L1 (Ω, P ) e α, β ∈ R si ha


Z Z Z
(αX + βY ) dP = α XdP + β Y dP .
Ω Ω Ω

ii) Monotonia: per ogni X, Y ∈ L1 (Ω, P ) tali che X ≤ Y P -q.c. si ha


Z Z
XdP ≤ Y dP .
Ω Ω
R R
In particolare, se X = Y P -q.c. allora Ω XdP = Ω Y dP .

An dove (An )n∈N è una successione disgiunta in F . Se X ∈ mF + oppure


U
iii) σ -additività: sia A =
n∈N
X ∈ L1 (Ω, P ) allora si ha Z XZ
XdP = XdP .
A n∈N An
112 CAPITOLO 3. VARIABILI ALEATORIE

Dimostrazione. La dimostrazione delle tre proprietà è simile e quindi proviamo in maniera dettagliata solo
la i). Considerando separatamente la parte positiva e negativa delle v.a., è sufficiente considerare il caso
X, Y ∈ mF + e α, β ∈ R≥0 . Consideriamo le successioni approssimanti (Xn ) e (Yn ) costruite come nel Lemma
3.2.3: sfruttando la linearità del valore atteso nel caso di v.a. semplici, otteniamo per il Teorema di Beppo-
Levi
Z Z Z Z ! Z Z
(αX + βY )dP = lim (αXn + βYn )dP = lim α Xn dP + β Yn dP = α XdP + β Y dP .
Ω n→∞ Ω n→∞ Ω Ω Ω Ω

Concludiamo la sezione col classico

Teorema 3.2.11. [Teorema della convergenza dominata][!!]


Sia (Xn )n∈N una successione di v.a. su (Ω, F , P ), tale che Xn → X P -q.c. e |Xn | ≤ Y ∈ L1 (Ω, P ) per ogni n.
Allora si ha Z Z
lim Xn dP = XdP .
n→∞ Ω Ω

Dimostrazione. Passando al limite in |Xn | ≤ Y si ha anche |X| ≤ Y P -q.c. Allora si ha


Z Z
0 ≤ lim sup Xn dP − XdP ≤
n→∞ Ω Ω

(per la disuguaglianza triangolare)


Z
≤ lim sup |Xn − X| dP =
n→∞ Ω
Z Z
= 2Y dP − lim inf (2Y − |Xn − X|) dP ≤
Ω n→∞ Ω

(per il Lemma di Fatou)


Z Z
≤ 2Y dP − lim inf (2Y − |Xn − X|) dP =
n→∞
ZΩ ZΩ
= 2Y dP − 2Y dP = 0.
Ω Ω

Vedremo in seguito una generalizzazione del teorema della convergenza dominata, il Teorema A.3.0.2
di Vitali. Il seguente corollario del Teorema 3.2.11 si prova facilmente per assurdo.

Corollario
R 3.2.12 (Assoluta continuità dell’integrale). Sia X ∈ L1 (Ω, P ). Per ogni ε > 0 esiste δ > 0 tale che
A
|X|dP < ε per ogni A ∈ F tale che P (A) < δ.

Diamo ora un semplice ma utile risultato.


R
Proposizione 3.2.13. [!] Data X ∈ mF , poniamo A = (X > 0). Se XdP = 0 allora X ≤ 0 P -q.c.
A
 
Dimostrazione. Consideriamo la successione crescente definita da An = X ≥ n1 per n ∈ N. Per la proprietà
di monotonia dell’integrale, si ha
Z Z Z
1 P (An )
0= XdP ≥ X1An dP ≥ 1An dP = ,
A A n A n
3.2. VALORE ATTESO 113

e quindi P (An ) = 0 per ogni n ∈ N. Per la continuità dal basso di P (cfr. Proposizione 2.1.32-ii)) ed essendo
[
(X > 0) = An ,
n∈N

segue che P (X > 0) = 0.


R
Corollario 3.2.14. Se X ∈ mF + è tale che Ω
XdP = 0 allora X = 0 P -q.c.

3.2.4 Integrazione con distribuzioni


In questa sezione esaminiamo l’integrale astratto rispetto ad una distribuzione, con particolare atten-
zione al caso delle distribuzioni discrete e assolutamente continue (o combinazioni di esse). Cominciamo
con un semplice
Esempio 3.2.15. [!] Consideriamo la distribuzione Delta di Dirac δx0 su (Rd , Bd ). Per ogni funzione f ∈
mBd vale Z
f (x)δx0 (dx) = f (x0 ).
Rd
Infatti f è uguale δx0 -quasi ovunque alla funzione semplice

f (x0 ) se x = x0 ,

ˆ

f (x) = 
0
 altrimenti.
R R
Ora, per la Proposizione 3.2.10-ii), se f = g µ-q.o. allora Ω f dµ = Ω gdµ: quindi si ha
Z Z
f (x)δx0 (dx) = fˆ(x)δx0 (dx) =
Rd Rd

(per definizione di integrale di funzione semplice)

= fˆ(x0 )δx0 ({x0 }) = f (x0 ).

Proposizione 3.2.16. Sia



X
µ= pn δxn
n=1

una distribuzione discreta su (Rd , Bd ) (cfr. Definizione 2.4.15). Se f ∈ mF + oppure f ∈ L1 (Rd , µ) allora si
ha Z ∞
X
f dµ = f (xn )pn .
Rd n=1

Dimostrazione. Segue direttamente applicando la Proposizione 3.2.10-iii) con An = {xn }.


Esempio 3.2.17. Per la distribuzione di Bernoulli, Bep = pδ1 + (1 − p)δ0 con 0 ≤ p ≤ 1, (cf. Esempio 2.4.17-i))
si ha semplicemente Z
f (x)Bep (dx) = pf (1) + (1 − p)f (0).
R
Per la distribuzione Poissonλ , con λ > 0, si ha

λk
Z X
f (x)Poissonλ (dx) = e−λ f (k),
R k!
k=0

ammesso che f sia non-negativa oppure sommabile (ossia che la somma converga assolutamente).
114 CAPITOLO 3. VARIABILI ALEATORIE

Esercizio 3.2.18. Provare che se α, β > 0, µ1 , µ2 sono distribuzioni su Rd e f ∈ L1 (Rd , µ1 ) ∩ L1 (Rd , µ2 ) allora
f ∈ L1 (Rd , αµ1 + βµ2 ) e vale
Z Z Z
f d(αµ1 + βµ2 ) = α f dµ1 + β f dµ2 .
Rd Rd Rd

Vediamo ora che nel caso di una distribuzione assolutamente continua, il calcolo dell’integrale astratto si
riconduce al calcolo di un integrale di Lebesgue pesato con la densità della distribuzione.
Proposizione 3.2.19. [!]
Sia µ una distribuzione assolutamente continua su Rd con densità γ. Allora f ∈ L1 (Rd , µ) se e solo se9
f γ ∈ L1 (Rd ) e in tal caso si ha Z Z
f (x)µ(dx) = f (x)γ(x)dx.
Rd Rd

Dimostrazione. Consideriamo prima il caso in cui f è semplice su R, ossia f (R) = {α1 , . . . , αm } cosicché
m
X
f = αk 1Hk , Hk := {x ∈ R | f (x) = αk }, k = 1, . . . , m,
k=1

allora per linearità


Z m
X Z
f dµ = αk 1Hk dµ =
R k=1 R

(per la (3.2.3))
m
X
= αk µ(Hk ) =
k=1

(essendo µ ∈ AC con densità γ)


m
X Z m
X Z
= αk γ(x)dx = αk 1Hk (x)γ(x)dx =
k=1 Hk k=1 R

(per la linearità dell’integrale di Lebesgue)


Z
= f (x)γ(x)dx,
R

da cui la tesi.
Ora assumiamo f ≥ 0 e consideriamo fn := ϕn (f ) con ϕn come in (3.2.7). Per il Teorema di Beppo-Levi
abbiamo
Z Z
f dµ = lim fn dµ =
R n→∞ R

(per quanto appena provato, essendo fn semplice per ogni n ∈ N)


Z
= lim fn (x)γ(x)dx =
n→∞ R
9 L1 (Rd ) indica l’usuale spazio delle funzioni sommabili su Rd rispetto alla misura di Lebesgue, ossia L1 (Rd ) = L1 (Rd , Leb).
3.2. VALORE ATTESO 115

(riapplicando il Teorema di Beppo-Levi all’integrale di Lebesgue e utilizzando il fatto che γ ≥ 0 per ipotesi
e di conseguenza (fn γ) è una successione monotona crescente di funzioni non-negative)
Z
= f (x)γ(x)dx.
R

Infine se f è una generica funzione in L1 (R, µ), allora è sufficiente considerarne la parte positiva e negativa
alle quali si applica il risultato precedente. Allora la tesi segue dalla linearità dell’integrale e ragionando
componente per componente si conclude la prova della tesi anche nel caso d-dimensionale.

Esempio 3.2.20. Consideriamo la distribuzione normale standard N0,1 e le funzioni f (x) = x e g(x) = x2 .
Allora f , g ∈ L1 (R, N0,1 ) e vale
Z Z
1 x2
f (x)N0,1 (dx) = √ xe− 2 dx = 0,
2π R
ZR Z
1 x2
g(x)N0,1 (dx) = √ x2 e− 2 dx = 1.
R 2π R

Osservazione 3.2.21. [!]


La prova della Proposizione 3.2.19 è esemplare di una procedura di dimostrazione spesso utilizzata nel-
l’ambito della teoria dell’integrazione e della probabilità. Tale procedura, a volte chiamata procedura
standard, consiste nel verificare la validità della tesi in 4 passi:

1) il caso di funzioni o v.a. indicatrici: di solito è una verifica diretta basata sulla definizione di integrale
o valore atteso;

2) il caso di funzioni o v.a. semplici: si sfrutta la linearità dell’integrale o del valore atteso;

3) il caso di funzioni o v.a. non-negative: si usa un argomento di approssimazione basato sul Lemma
3.2.3 e sul Teorema di Beppo-Levi;

4) il caso di funzioni o v.a. sommabili: ci si riconduce al caso precedente per linearità, considerando
parte positiva e negativa.

Una formulazione più generale di questa procedura è data dal secondo Teorema di Dynkin (cfr. Teorema
A.1.8).

Concludiamo la sezione con un utile risultato che proveremo più avanti (cfr. Corollario 3.5.8).

Corollario 3.2.22. [!] Se µ, ν sono distribuzioni tali che


Z Z
f dµ = f dν
R R

per ogni f ∈ bC(R) allora µ ≡ ν. Qui bC(R) indica lo spazio delle funzioni continue e limitate.

3.2.5 Valore atteso e Teorema del calcolo della media


In teoria della probabilità, il valore atteso di una variabile aleatoria altro non è che il suo integrale
rispetto alla misura di probabilità. Diamo la definizione precisa.

Definizione 3.2.23. In uno spazio di probabilità (Ω, F , P ), il valore atteso di una v.a. integrabile X è
definito da Z Z
E [X] := XdP = X(ω)P (dω).
Ω Ω
116 CAPITOLO 3. VARIABILI ALEATORIE

Esempio 3.2.24. [!] A partire dalla definizione (3.2.2) di integrale astratto, è facile calcolare il valore atteso
in due casi particolari: le variabili aleatorie costanti e indicatrici. Si ha infatti

E [c] = c, c ∈ Rd ,
E [1A ] = P (A), A ∈ F.

Inoltre se X è una v.a. semplice della forma


m
X
X= xk 1(X=xk )
k=1

per linearità vale


m
X
E [X] = xk P (X = xk ).
k=1
Dunque in questo caso E [X] rappresenta una media dei valori di X pesata con le probabilità che questi valori
vengano assunti.
In generale, il calcolo di un valore atteso definito come integrale astratto (sullo spazio Ω) non è partico-
larmente agevole: il seguente risultato mostra che è possibile esprimere il valore atteso di una v.a. X come
integrale (sullo spazio Euclideo Rd ) rispetto alla distribuzione µX della v.a. stessa.
Teorema 3.2.25 (Teorema del calcolo della media). [!]
Siano
X : Ω −→ Rd e f : Rd −→ RN
rispettivamente una v.a. su (Ω, F , P ) con legge µX e una funzione Bd -misurabile, f ∈ mBd . Allora f ◦ X ∈
L1 (Ω, P ) se e solo se f ∈ L1 (Rd , µX ) e in tal caso vale
Z
E [f (X)] = f dµX . (3.2.9)
Rd

P
In particolare, se µX = pk δxk è una distribuzione discreta allora
k=1

X
E [f (X)] = f (xk )pk , (3.2.10)
k=1

mentre se µX è assolutamente continua con densità γX allora si ha


Z
E [f (X)] = f (x)γX (x)dx. (3.2.11)
Rd

Dimostrazione. Proviamo la (3.2.9) nel caso f = 1H con H ∈ Bd : si ha


Z
E [f (X)] = E [1H (X)] = P (X ∈ H) = µX (H) = 1H dµX .
Rd

Il caso generale segue applicando la procedura standard dell’Osservazione 3.2.21. Infine, in base alla
(3.2.9), la (3.2.10) segue dalla Proposizione 3.2.16 e la (3.2.11) segue dalla Proposizione 3.2.19.
Osservazione 3.2.26. Applicando il Teorema 3.2.25 nel caso particolare della funzione identità f (x) = x, si
ha che se X ∈ L1 (Ω, P ) allora Z
E [X] = xµX (dx).
Rd
3.2. VALORE ATTESO 117

Definizione 3.2.27 (Varianza). Sia X ∈ L2 (Ω, P ) una v.a. reale. Si definisce varianza di X il numero reale
non-negativo h i h i
var(X) := E (X − E [X])2 = E X 2 − E [X]2 .
p
La radice della varianza var(X) è chiamata deviazione standard.
La deviazione standard è una media della distanza di X dal proprio valore atteso. Per esempio, vedremo
nell’Esempio 3.2.31 che nel caso di una v.a. normale X ∈ Nµ,σ 2 , la deviazione standard è uguale a σ : in
effetti avevamo usato σ per definire gli intervalli di confidenza di X come in Figura 3.3.
Osservazione 3.2.28. Più in generale, la varianza è ben definita per X ∈ L1 (Ω, P ), con valore minore o
uguale a +∞.
Per linearità, per ogni a, b ∈ R si ha

var(aX + b) = a2 var(X).

Inoltre, per la Proposizione 3.2.13, si ha


q.c.
var(X) = 0 se e solo se X = E [X] .

Calcoliamo ora media e varianza di alcune v.a. discrete.


Esempio 3.2.29. [!]

i) se X ∼ δx0 con x0 ∈ Rd allora per le (3.2.9)-(3.2.10) si ha


Z
E [X] = yδx0 (dy) = x0 ,
d
ZR
var(X) = (y − x0 )2 δx0 (dy) = 0.
Rd

1
ii) Se X ∼ Unifn allora ha funzione di distribuzione γ(k) = n per k ∈ In e vale
n n
X 1X 1 n(n + 1) n + 1
E [X] = kγ(k) = k= · = ,
n n 2 2
k=1 k=1
n 2 n
n+1 1X 2 n+1 2
h i X   
var(X) = E X 2 − E [X]2 = k 2 γ(k) − = k −
2 n 2
k=1 k=1
1 n(n + 1)(2n + 1) n + 1 2 n2 − 1
 
= · − = .
n 6 2 12

iii) Se X ∼ Bep allora ha funzione di distribuzione γ definita da γ(1) = p, γ(0) = 1 − p e vale


n
X
E [X] = kγ(k) = 0 · (1 − p) + p = p,
k∈{0,1}
h i X
var(X) = E X 2 − E [X]2 = k 2 γ(k) − p2 = p(1 − p).
k∈{0,1}

iv) Se X ∼ Binn,p , con un conto diretto (si veda anche la Proposizione 3.6.3) si prova che

E [X] = np, var(X) = np(1 − p). (3.2.12)


118 CAPITOLO 3. VARIABILI ALEATORIE

k
v) Se X ∼ Poissonλ allora ha funzione di distribuzione γ definita da γ(k) = e−λ λk! per k ∈ N0 e vale

∞ ∞ ∞
X X λk X λk−1
E [X] = kγ(k) = ke−λ = λe−λ = λ.
k! (k − 1)!
k=0 k=1 k=1

Provare per esercizio che var(X) = λ.

vi) Se X ∼ Geomp allora ha funzione di distribuzione γ definita da γ(k) = p(1 − p)k−1 per k ∈ N e quindi
vale
∞ ∞ ∞ !
X X
k−1
X d k
E [X] = kγ(k) = p k(1 − p) =p − (1 − p)
dp
k=1 k=1 k=1
∞ !
d X d 1 1
= −p (1 − p)k = −p = ,
dp dp 1 − (1 − p) p
k=1

dove abbiamo usato un teorema di scambio di derivata con serie. In maniera analoga si prova che
1−p
var(X) = p2 .

Esempio 3.2.30. [!] Consideriamo un gioco d’azzardo in cui si lancia una moneta (non truccata): se viene
testa si vince un euro e se viene croce si perde un euro. Se X è la variabile aleatoria che rappresenta il
risultato della giocata, si ha
1 1
E [X] = 1 · + (−1) · = 0
2 2
e quindi si dice che il gioco è equo. Il gioco è equo anche se la vincita e la perdita fossero pari a 1000
euro, ma intuitivamente saremmo meno propensi a giocare perché percepiamo una rischiosità maggiore
(di perdere molti soldi). Matematicamente, questo si spiega col fatto che
h i 1 1
var(X) = E X 2 = 12 · + (−1)2 · = 1
2 2
mentre se Y rappresenta la v.a. nel caso in cui la posta in gioco è 1000 euro, si ha
h i 1 1
var(Y ) = E Y 2 = 10002 · + (−1000)2 · = 10002 .
2 2
In pratica, se due scommesse hanno lo stesso valore atteso, quella con varianza minore limita l’entità delle
potenziali perdite.

Consideriamo ora alcuni esempi di v.a. assolutamente continue.

Esempio 3.2.31. [!]

i) se X ∼ Unif[a,b] si ha
Z Zb
1 a+b
E [X] = yUnif[a,b] (dy) = ydy = ,
R b−a a 2
!2 Zb !2
(b − a)2
Z
a+b 1 a+b
var(X) = y− Unif[a,b] (dy) = y− dy = .
R 2 b−a a 2 12

Confrontare questo risultato con l’analogo discreto visto nell’Esempio 3.2.29-i).


3.2. VALORE ATTESO 119

ii) se X ∼ Nµ,σ 2 con σ > 0 allora

(y−µ)2
Z Z
1 −
E [X] = yNµ,σ 2 (dy) = √ ye 2σ 2 dy =
R 2πσ 2 R

y−µ
(col cambio di variabili z = √ )
σ 2

1
Z  √  −z2 µ
Z
2
=√ µ + zσ 2 e dz = √ e−z dz = µ.
π R π R

In modo analogo si vede che Z


var(X) = (y − µ)2 Nµ,σ 2 (dy) = σ 2 .
R

iii) se X ∼ Gammaα,1 si ha
Z ∞ Z∞
1 Γ (α + 1)
E [X] = tγα,1 (t)dt = t α e−λt dt = = α,
0 Γ (α) 0 Γ (α)
Z ∞ Z ∞
h i 1 Γ (α + 2)
E X2 = t 2 γα,1 (t)dt = t 1+α e−λt dt = = α(α + 1)
0 Γ (α) 0 Γ (α)

da cui h i
var(X) = E X 2 − E [X]2 = α.
In generale, per il Lemma 3.1.37, se X ∼ Gammaα,λ si ha
α α
E [X] = , var(X) = .
λ λ2
In particolare, se X ∼ Expλ = Gamma1,λ allora
Z Z +∞
1
E [X] = ye−λy dy = ,
yExpλ (dy) = λ
R 0 λ
Z +∞ 
1 2 1 2 −λy
Z 
1
 
var(X) = y− Expλ (dy) = λ y− e dy = 2 .
R λ 0 λ λ

3.2.6 Disuguaglianza di Jensen


Proviamo un’importante estensione alle funzioni convesse della disuguaglianza triangolare per il valore
atteso. Esempi tipici di funzioni convesse che utilizzeremo in seguito sono

i) f (x) = |x|p con p ∈ [1, +∞[,

ii) f (x) = eλx con λ ∈ R,

iii) f (x) = − log x per x ∈ R>0 .

Teorema 3.2.32 (Disuguaglianza di Jensen). [!!]


Siano −∞ ≤ a < b ≤ +∞ e
X : Ω −→ ]a, b[ e f : ]a, b[−→ R
rispettivamente una v.a. sullo spazio (Ω, F , P ) e una funzione convessa. Se X, f (X) ∈ L1 (Ω, P ) allora si ha

f (E [X]) ≤ E [f (X)] .
120 CAPITOLO 3. VARIABILI ALEATORIE

Dimostrazione. Ricordiamo che se f è convessa allora per ogni z ∈ ]a, b[ esiste m ∈ R tale che

f (w) ≥ f (z) + m(w − z), ∀w ∈ ]a, b[. (3.2.13)

Proviamo dopo la (3.2.13) e concludiamo prima la prova della disuguaglianza di Jensen. Posto z = E [X] (si
noti che E [X] ∈ ]a, b[ poiché X(Ω) ⊆ ]a, b[ per ipotesi) si ha

f (X(ω)) ≥ f (E [X]) + m(X(ω) − E [X]), ω ∈ Ω,

da cui, prendendo il valore atteso e usando la proprietà di monotonia,

E [f (X)] ≥ E [f (E [X]) + m(X − E [X])] =

(per linearità e per il fatto che E [c] = c per ogni costante c)

= f (E [X]) + mE [X − E [X]] = f (E [X]).

Proviamo ora la (3.2.13). Ricordiamo che f è convessa se vale

f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y), ∀x, y ∈ ]a, b[, λ ∈ [0, 1],

o equivalentemente, posto z = (1 − λ)x + λy,

(y − x)f (z) ≤ (y − z)f (x) + (z − x)f (y), x < z < y. (3.2.14)

Introduciamo la notazione
f (y) − f (x)
∆y,x = , a < x < y < b.
y −x
Non è difficile verificare10 che la (3.2.14) è equivalente a

∆z,x ≤ ∆y,x ≤ ∆y,z , x < z < y. (3.2.15)

La (3.2.15) implica11 che f è una funzione continua su ]a, b[ ed anche che le funzioni

z 7→ ∆z,x , per z > x, e z 7→ ∆y,z , per z < y,

sono monotone crescenti. Di conseguenza esistono i limiti12

D − f (z) := lim− ∆z,x ≤ lim+ ∆y,z =: D + f (z), z ∈ ]a, b[. (3.2.16)


x→z y→z

Ora se m ∈ [D − f (z), D + f (z)] si ha


∆z,x ≤ m ≤ ∆y,z , x < z < y,
che implica la (3.2.13).
10 Proviamo per esempio la prima disuguaglianza:

f (z) − f (x) f (y) − f (x)


∆z,x ≤ ∆y,x ⇐⇒ ≤ ⇐⇒ (f (z) − f (x))(y − x) ≤ (f (y) − f (x))(z − x)
z−x y −x
che equivale alla (3.2.14).
11 Infatti da (3.2.15), in particolare da ∆
z,x ≤ ∆y,x , segue
f (y) − f (x)
f (z) ≤ f (x) + (z − x) −→ f (y) per z → y − .
y −x
Inoltre, fissato y0 ∈ ]y, b[, ancora dalla (3.2.15), in particolare da ∆y,z ≤ ∆y0 ,y , segue
f (z) ≥ f (y) − (y − z)∆y0 ,y −→ f (y) per z → y − .
Combinando le due disuguaglianze, si prova la continuità a sinistra di f . Per la continuità a destra si procede in modo analogo.
12 Per fissare le idee, si pensi a f (x) = |x| per cui si ha −1 = D − f (0) < D + f (0) = 1. Utilizzando la (3.2.16) si prova che l’insieme dei
punti z in cui D − f (z) < D + f (z), ossia in cui f non è derivabile, è al più numerabile.
3.2. VALORE ATTESO 121

Osservazione 3.2.33. La dimostrazione della disuguaglianza di Jensen è basata, oltre alle proprietà delle
funzioni convesse, soltanto sulle proprietà di monotonia, linearità e E [1] = 1 della media. In particolare
il fatto che E [1] = 1 è fondamentale: a differenza della disuguaglianza triangolare, la disuguaglianza di
Jensen non vale per un integrale o una somma generica.

3.2.7 Spazi Lp e disuguaglianze notevoli


Definizione 3.2.34. Sia (Ω, F , P ) uno spazio di probabilità e p ∈ [1, +∞[. La p-norma di una v.a. X è definita
da
1
∥X∥p := (E [|X|p ]) p .
Indichiamo con
Lp (Ω, P ) = {X ∈ mF | ∥X∥p < ∞}
lo spazio delle v.a. sommabili di ordine p.
q.c.
In realtà ∥ · ∥p non è una norma perché ∥X∥p = 0 implica X = 0 ma non X ≡ 0. In effetti vedremo nel
Teorema 3.2.40 che ∥ · ∥p è una semi-norma sullo spazio Lp (Ω, P ).

Esempio 3.2.35. Se X ∼ Nµ,σ 2 allora X ∈ Lp (Ω, P ) per ogni p ≥ 1 poiché


Z
1 1 x−µ 2
p
E [|X| ] = |x|p √ e− 2 ( σ ) dx < ∞.
R 2πσ 2

È facile dare un esempio di X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ): è sufficiente considerare X(ω) =
Y (ω) = √1ω nello spazio ([0, 1], B, Leb). Diamo anche un esempio in uno spazio discreto.

Esempio 3.2.36. Consideriamo lo spazio di probabilità Ω = N con la misura di probabilità definita da


c
P ({n}) = , n ∈ N,
n3

dove c è la costante positiva13 che normalizza a 1 la somma dei P ({n}) in modo che P sia una misura di
probabilità. La v.a. X(n) = n è sommabile in P poiché
∞ ∞
X X c
E [X] = X(n)P ({n}) = n· < +∞.
n3
n=1 n=1

D’altra parte X < L2 (Ω, P ) poiché



h i X c
E X2 = n2 · 3 = +∞,
n
n=1

o, in altri termini, posto Y = X si ha che XY < L1 (Ω, P ).

Proposizione 3.2.37. Se 1 ≤ p1 ≤ p2 allora vale

∥X∥p1 ≤ ∥X∥p2

e quindi
Lp2 (Ω, P ) ⊆ Lp1 (Ω, P ).
L’Esempio 3.2.36 mostra che in generale l’inclusione è stretta.
13 Per precisione, c = Zeta(3) ≈ 1.20206 dove Zeta indica la funzione zeta di Riemann.
122 CAPITOLO 3. VARIABILI ALEATORIE

Dimostrazione. La tesi è diretta conseguenza della disuguaglianza di Jensen con f (x) = xq , x ∈ [0, +∞[,
p
q = p2 ≥ 1: infatti abbiamo
1
p2
E [|X|p1 ] p1 ≤ E [|X|p2 ] .

Teorema 3.2.38 (Disuguaglianza di Hölder). [!]


Siano p, q > 1 esponenti coniugati, ossia tali che p1 + 1q = 1. Se X ∈ Lp (Ω, P ) e Y ∈ Lq (Ω, P ) allora XY ∈ L1 (Ω, P )
e vale
∥XY ∥1 ≤ ∥X∥p ∥Y ∥q . (3.2.17)
Dimostrazione. Proviamo la tesi nel caso ∥X∥p > 0 altrimenti è banale. In questo caso, la (3.2.17) equivale a

e = |X| .
h i
E X|Y
e | ≤ ∥Y ∥q , dove X
∥X∥p
h i
ep ≥ 0 e E X
Notiamo che X ep = 1: quindi consideriamo la probabilità Q con densità X
ep rispetto a P , definita
da h i
Q(A) = E X ep 1A , A ∈ F.
Allora si ha
" #q " #q
e | q = EP Xep |Y | 1 e |Y |
h i
E P X|Y = E Q
1 e ) ≤
ep−1 (X>0)
X ep−1 (X>0
X
(per la disuguaglianza di Jensen)

|Y |q
" #
Q
≤E 1 e ) =
eq(p−1) (X>0
X
(poiché, essendo p, q coniugati, vale q(p − 1) = p)
" q #
Q |Y |
 
P q q
=E e ) = E |Y | 1(X>0
1(X>0 e ) ≤ ∥Y ∥q ,
Xe p

che prova la tesi.


Corollario 3.2.39 (Disuguaglianza di Cauchy-Schwarz). [!]
Si ha
|E [XY ]| ≤ ∥X∥2 ∥Y ∥2 (3.2.18)
q.c.
e nella (3.2.18) vale l’uguaglianza se e solo se esiste a ∈ R per cui X = aY .
q.c.
Dimostrazione. La (3.2.18) segue da |E [XY ]| ≤ E [|XY |] e dalla disuguaglianza di Hölder. Se X = aY per
un certo a ∈ R è facile verificare che vale l’uguaglianza in (3.2.18). Viceversa, non è restrittivo assumere
E [XY ] ≥ 0 (altrimenti basta considerare −X al posto di X) e ∥X∥2 , ∥Y ∥2 > 0 (altrimenti la tesi è ovvia): in
questo caso poniamo
e= X ,
X e= Y .
Y
∥X∥2 ∥Y ∥2
h i
Si ha ∥X∥
e 2 = ∥Ye∥2 = 1 e inoltre, per ipotesi, E X e = 1. Allora
eY
h i h i h i h i
E (X e)2 = E X
e−Y e2 + E Y
e2 − 2E X e =0
eY

e q.c.
da cui X =Y e.
3.2. VALORE ATTESO 123

Teorema 3.2.40. Per ogni p ≥ 1, Lp (Ω, P ) è uno spazio vettoriale su cui ∥ · ∥p è una semi-norma, ossia vale
q.c.
i) ∥X∥p = 0 se e solo se X = 0;
ii) ∥λX∥p = |λ|∥X∥p per ogni λ ∈ R e X ∈ Lp (Ω, P );
iii) vale la disuguaglianza di Minkowski

∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p ,

per ogni X, Y ∈ Lp (Ω, P ).


Dimostrazione. Basta provare solo la iii). È chiaro che, se X ∈ Lp (Ω, P ) e λ ∈ R, allora λX ∈ Lp (Ω, P ). Inoltre,
poiché
(a + b)p ≤ 2p (a ∨ b)p ≤ 2p (ap + bp ) , a, b ≥ 0, p ≥ 1,
allora il fatto che X, Y ∈ Lp (Ω, P ) implica che (X +Y ) ∈ Lp (Ω, P ). Dunque Lp (Ω, P ) è uno spazio vettoriale. Le
proprietà i) e ii) seguono facilmente dalle proprietà generali della media. Per la iii) è sufficiente considerare
il caso p > 1: per la disuguaglianza triangolare si ha
h i h i
E [|X + Y |p ] ≤ E |X||X + Y |p−1 + E |Y ||X + Y |p−1 ≤

(per la disuguaglianza di Hölder, indicando con q l’esponente coniugato di p > 1)


  h i1
≤ ∥X∥p + ∥Y ∥p E |X + Y |(p−1)q q =

(poiché (p − 1)q = p)

1− 1
 
≤ ∥X∥p + ∥Y ∥p E [|X + Y |p ] p ,

da cui segue la disuguaglianza di Minkowski.

3.2.8 Covarianza e correlazione


Definizione 3.2.41 (Covarianza). La covarianza di due v.a. reali X, Y ∈ L2 (Ω, P ) è il numero reale

cov(X, Y ) := E [(X − E [X])(Y − E [Y ])] .

Esempio 3.2.42. Sia (X, Y ) con densità

γ(X,Y ) (x, y) = ye−xy 1R≥0 ×[1,2] (x, y).

Allora si ha
" "
3
E [X] = xγ(X,Y ) (x, y)dxdy = log 2, E [Y ] = yγ(X,Y ) (x, y)dxdy =
R2 R2 2
e "
3 3
 
cov(X, Y ) = (x − log 2) y − γ(X,Y ) (x, y)dxdy = 1 − log 2.
R2 2 2
In questa sezione usiamo le seguenti notazioni:
- eX := E [X] per l’attesa di X;
- σXY := cov(X, Y ) := e(X−eX )(Y −eY ) = eXY − eX eY per la covarianza di X, Y ;
124 CAPITOLO 3. VARIABILI ALEATORIE
p
- σX = var(X) per la deviazione standard di X, dove

var(X) = cov(X, X) = e(X−eX )2 = eX 2 − (eX )2 .

Osserviamo che:

i) per ogni c ∈ R si ha h i h i
var(X) = E (X − E [X])2 ≤ E (X − c)2

e vale l’uguaglianza se e solo se c = E [X]. Infatti


h i h i
E (X − c)2 = E (X − eX + eX − c)2
= σX2 + 2 E [X − eX ](eX − c) + (eX − c)2 = σX2 + (eX − c)2 ≥ σX2 .
| {z }
=0

ii) Se σX > 0 si può sempre “normalizzare” la v.a. X ponendo

X − eX
Z= ,
σX

in modo che E [Z] = 0 e var(Z) = 1.

iii) Vale
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ). (3.2.19)
Se cov(X, Y ) = 0 si dice che le v.a. X, Y sono scorrelate.

iv) La covarianza cov(·, ·) è un operatore bilineare e simmetrico su L2 (Ω, P )×L2 (Ω, P ), ossia per ogni X, Y , Z ∈
L2 (Ω, P ) e α, β ∈ R vale

cov(X, Y ) = cov(Y , X) e cov(αX + βY , Z) = αcov(X, Z) + βcov(Y , Z).

p
v) Per la disuguaglianza di Cauchy-Schwarz (3.2.18) si ha |cov(X, Y )| ≤ var(X)var(Y ) ossia

|σXY | ≤ σX σY (3.2.20)
q.c.
e si ha l’uguaglianza nella (3.2.20) se e solo se Y è funzione lineare di X nel senso che Y = āX + b̄: nel
caso in cui σX > 0, le costanti ā e b̄ sono date da
σXY σXY
ā = , b̄ = eY − eX . (3.2.21)
σX2 σX2

Come vedremo nella Sezione 3.2.9, la retta di equazione y = āx + b̄ è detta retta di regressione, e
intuitivamente fornisce una rappresentazione della dipendenza lineare fra due campioni di dati.

Definizione 3.2.43 (Correlazione). Siano X, Y ∈ L2 (Ω, P ) tali che σX , σY > 0. Il coefficiente di correlazione di
X, Y è definito da
σ
ϱXY := XY .
σX σY
q.c.
Dalla (3.2.20) segue che ϱXY ∈ [−1, 1] e |ϱXY | = 1 se e solo se Y = āX + b̄: si noti che ā > 0 se ϱXY = 1 e ā < 0
se ϱXY = −1. Dunque il coefficiente di correlazione misura il grado di dipendenza lineare fra X e Y .
3.2. VALORE ATTESO 125

Sia ora X = (X1 , . . . , Xd ) ∈ L2 (Ω, P ) una v.a. a valori in Rd . La matrice di covarianza di X è la matrice d × d
simmetrica    
cov(X) = σXi Xj = E (X − E [X]) (X − E [X])∗ ,
i,j=1,...,d | {z } | {z }
d×1 1×d
dove M∗ indica la trasposta della matrice M. Poiché
 2 
⟨cov(X)y, y⟩ = E (X − E [X])∗ y ≥ 0, y ∈ Rd ,

la matrice di covarianza è semi-definita positiva. Si noti che gli elementi della diagonale sono le varianze σX2i
per i = 1, . . . , d. Se σXi > 0 per ogni i = 1, . . . , d, definiamo la matrice di correlazione in modo analogo:
 
ϱ(X) = ϱXi Xj .
i,j=1,...,d

La matrice ϱ(X) è simmetrica, semi-definita positiva e gli elementi della diagonale sono uguali a uno: per
esempio nel caso d = 2, posto ϱ = ϱX1 X2 si ha

σX21
! !
1 ϱ ϱ σX1 σX2
ϱ(X) = cov(X) = .
ϱ 1 ϱ σX1 σX2 σX22

Infine se A è una matrice costante N × d e b ∈ RN , allora la v.a. aleatoria Z := AX + b a valori in RN ha media

E [Z] = AE [X] + b,

e matrice di covarianza

cov(Z) = E [(AX + b − E [AX + b]) (AX + b − E [AX + b])∗ ] = Acov(X)A∗ .

Osservazione 3.2.44 (Decomposizione di Cholesky). [!] Una matrice simmetrica e semi-definita positiva
C si può fattorizzare nella forma C = AA∗ : ciò segue dal fatto che, per il Teorema spettrale,
√ C=U ∗
√DU con
−1 ∗ ∗
U ortogonale (ossia tale U = U ) e D matrice diagonale; dunque basta porre A = U DU dove D indica
la matrice diagonale i cui elementi sono le radici quadrate degli elementi di D (che sono reali non-negativi,
essendo C simmetrica e semi-definita positiva).
La fattorizzazione C = AA∗ non è unica: l’algoritmo di Cholesky permette di determinare una matrice
triangolare inferiore A per cui valga C = AA∗ . Per esempio, data la matrice di correlazione in dimensione
due !
1 ϱ
C=
ϱ 1
si ha la fattorizzazione di Cholesky C = AA∗ dove
!
1 p 0
A= .
ϱ 1 − ϱ2

3.2.9 Regressione lineare


In Statistica, si ha spesso a che fare con serie storiche (o campioni) di dati che forniscono la dinamica di
un certo fenomeno nel tempo (per esempio, una temperatura, il prezzo di un titolo finanziario, il numero
dei dipendenti di un’azienda etc.). Nel caso di dati unodimensionali, una serie storica è un vettore x =
(x1 , . . . , xM ) di RM . Possiamo pensare al vettore x come a una “realizzazione” di una variabile aleatoria
discreta X definita nel modo seguente:

X : IM −→ R, X(i) := xi , i ∈ IM .
126 CAPITOLO 3. VARIABILI ALEATORIE

Munendo lo spazio campionario IM della probabilità uniforme, media e varianza di X sono date da
M M
1 X 1 X
E [X] = xi , var(X) = (xi − E [x])2 .
M M
i=1 i=1

In Statistica, E [X] e var(X) sono chiamate la media campionaria e la varianza campionaria della serie storica
x e sono spesso indicate con E [x] e var(x) rispettivamente.
Siano ora x = (x1 , . . . , xM ) e y = (y1 , . . . , yM ) due serie storiche. Un semplice strumento per visualizzare
il grado di “dipendenza” fra x e y è il cosiddetto grafico di dispersione: in esso si rappresentano sul piano
cartesiano i punti di coordinate (xi , yi )i∈IM . Un esempio è dato in Figura 3.6.

30
30

25

20

20

10 15

10

Bologna
Jan Mar May Jul Sep Nov Jan -5 5 10 15 20 25 30

Figura 3.6: A sinistra: temperature nell’anno 2012 di Bologna (linea continua) e Città del Capo (linea
tratteggiata). A destra: grafico di dispersione delle temperature nell’anno 2012 di Bologna (in ascissa) e
Città del Capo (in ordinata).

La retta di regressione, tracciata nel grafico di dispersione in Figura 3.6, è la retta di equazione y = ax + b
dove a, b minimizzano le differenze fra axi + b e yi nel senso che rendono minimo l’errore quadratico
M
X
Q(a, b) = (axi + b − yi )2 .
i=1

Annullando il gradiente

 XM M
X 
(∂a Q(a, b), ∂b Q(a, b)) = 2 (axi + b − yi ) xi , 2 (axi + b − yi )
i=1 i=1

si determinano a, b: precisamente un semplice conto mostra che


σxy σxy
a= , b = E [y] − E [x] , (3.2.22)
σx2 σx2

dove σx2 = var(x) e


M
1 X
σxy = cov(x, y) = (xi − E [x]) (yi − E [y])
M
i=1
3.2. VALORE ATTESO 127

è la covarianza campionaria (o empirica) di x e y. Si noti l’analogia con le formule (3.2.21).


La covarianza σxy è proporzionale e ha lo stesso segno del coefficiente angolare della retta di regressione.
σxy è un indicatore della dipendenza lineare fra x e y: se σxy = 0, ossia x e y sono campioni scorrelati, non
c’è dipendenza lineare (ma potrebbe esserci dipendenza di altro tipo); se σxy > 0 i campioni dipendono
linearmente in modo positivo, la retta di regressione è crescente e questo indica che y tende a crescere al
crescere di x.
La quantità
σxy
ϱxy =
σx σy
è detta correlazione campionaria (o empirica) fra x e y. La correlazione ha il vantaggio di essere invariante
per cambi di scala: per ogni α, β > 0 la correlazione fra αx e βy è uguale alla correlazione fra x e y. Per la
disuguaglianza di Cauchy-Schwarz, si ha ϱxy ∈ [−1, 1]. Inoltre ϱxy = ±1 se e solo se Q(a, b) = 0 con a, b come
in (3.2.22).

3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta


In questa sezione consideriamo un vettore di v.a. X = (X1 , . . . , Xn ) sullo spazio (Ω, F , P ) ed esaminiamo
la relazione fra X e le sue componenti. Assumiamo che

Xi : Ω −→ Rdi , i = 1, . . . , n,

con di ∈ N e poniamo d = d1 + · · · + dn .
Notazione 3.2.45. Al solito indichiamo con µX e FX rispettivamente la distribuzione e la funzione di
ripartizione (CDF) di X. Esamineremo con particolare attenzione i casi in cui:
i) X è assolutamente continua: in tal caso indichiamo con γX la sua densità (che è definita univocamente
a meno di insiemi Lebesgue-trascurabili);
ii) X è discreta: in tal caso indichiamo con µ̄X la sua funzione di distribuzione definita da µ̄X (x) = P (X =
x).
Nel seguito useremo sempre notazioni vettoriali: in particolare, se x, y ∈ Rd allora x ≤ y significa xi ≤ yi per
ogni i = 1, . . . , d, e
] − ∞, x] := ] − ∞, x1 ] × · · · × ] − ∞, xd ].
Definizione 3.2.46. Si dice che µX e FX sono rispettivamente la distribuzione congiunta e la CDF congiunta
delle v.a. X1 , . . . , Xn . Analogamente, nel caso esistano, γX e µ̄X sono la densità congiunta e la funzione di
distribuzione congiunta di X1 , . . . , Xn .
Viceversa, le distribuzioni µXi , i = 1, . . . , n, delle v.a. X1 , . . . , Xn sono dette distribuzioni marginali di X.
Analogamente si parla di CDF marginali, densità marginali e funzioni di distribuzione marginali di X.
La seguente proposizione mostra che dalla congiunta si possono ricavare facilmente le marginali. Nel-
l’enunciato, per semplificare le notazioni, consideriamo solo le marginali per la prima componente X1 ma
un risultato analogo è valido per ogni componente.
Proposizione 3.2.47. [!] Sia X = (X1 , . . . , Xn ) una v.a. Si ha:

µX1 (H) = µX (H × Rd−d1 ), H ∈ Bd1 , (3.2.23)


d1
FX1 (x1 ) = FX (x1 , +∞, . . . , +∞), x1 ∈ R .

Inoltre, se X ∈ AC allora X1 ∈ AC e
Z
γX1 (x1 ) := γX (x1 , x2 , . . . , xn )dx2 · · · dxn , x1 ∈ Rd1 (3.2.24)
Rd−d1
128 CAPITOLO 3. VARIABILI ALEATORIE

è una densità di X1 . Se X è discreta allora X1 è discreta e si ha


X
µ̄X1 (x1 ) = µ̄X (x1 , x2 , . . . , xn ), x1 ∈ Rd1 . (3.2.25)
(x2 ,...,xn )∈Rd−d1

Dimostrazione. Basta osservare che

µX1 (H) = P (X1 ∈ H) = P (X ∈ H × Rd−d1 ) = µX (H × Rd−d1 ), H ∈ Bd1 .

Prendendo H = ] − ∞, x1 ] si dimostra la seconda uguaglianza. Inoltre, se X ∈ AC, per la (3.2.23) si ha

P (X1 ∈ H) = P (X ∈ H × Rd−d1 )
Z
= γX (x)dx =
H×Rd−d1

(per il classico Teorema di Fubini per l’integrale di Lebesgue, essendo γX non-negativa)


Z Z !
= γX (x1 , . . . , xn )dx2 · · · dxn dx1
H Rd−d1

che prova la (3.2.24). Infine si ha

µ̄X1 (x1 ) = P (X1 = x1 ) = P (X ∈ {x1 } × Rd−d1 ) =

(per la (2.4.3))
X X
= µ̄X (x) = µ̄X (x1 , x2 , . . . , xn ).
x∈{x1 }×Rd−d1 (x2 ,...,xn )∈Rd−d1

Osservazione 3.2.48 (Criterio di Sylvester). Ricordiamo che una matrice C di dimensione d × d è detta
definita positiva se vale
⟨Cx, x⟩ > 0, x ∈ Rd \ {0}.
In base all’utile criterio di Sylvester, una matrice reale simmetrica C è definita positiva se e solo se dk > 0
per ogni k = 1, . . . , d, dove dk indica il determinante della matrice ottenuta cancellando da C le ultime d − k
righe e le ultime d − k colonne.

Esempio 3.2.49. [!] Consideriamo una matrice simmetrica e definita positiva


!
v1 c
C= .
c v2

Per il criterio di Sylvester si ha


v1 > 0 e det C = v1 v2 − c2 > 0.
Allora C è invertibile con !
1 v2 −c
C−1 =
v1 v2 − c2 −c v1
e la funzione Gaussiana bidimensionale
1 1 −1
Γ (x) = √ e− 2 ⟨C x,x⟩ , x ∈ R2 ,
2π det C
3.3. INDIPENDENZA 129

è una densità poiché è una funzione positiva e vale


Z
Γ (x)dx = 1.
R2

La funzione Γ è detta densità della distribuzione normale bidimensionale: se X = (X1 , X2 ) ha densità Γ allora si
dice che X ha distribuzione normale bidimensionale e si scrive X ∼ N0,C .
In base alla Proposizione 3.2.47 le densità marginali di X1 e X2 sono rispettivamente
Z x 2
1 − 1
γX1 (x1 ) = Γ (x1 , x2 )dx2 = √ e 2v1 , x1 ∈ R,
R 2πv1
x2
Z
1 − 2
γX2 (x2 ) = Γ (x1 , x2 )dx1 = √ e 2v2 , x2 ∈ R,
R 2πv2

ossia X1 ∼ N0,v1 e X2 ∼ N0,v2 , indipendentemente dal valore di c ∈ R. D’altra parte vale


Z
cov(X1 , X2 ) = E [(X1 − E [X1 ])(X2 − E [X2 ])] = x1 x2 Γ (x1 , x2 )dx1 dx2 = c.
R2

Dunque la distribuzione congiunta fornisce informazioni non solo sulle singole distribuzioni marginali, ma
anche sulle relazioni fra le diverse componenti di X. Al contrario, a partire dalla conoscenza delle distribuzioni
marginali, X1 ∼ N0,v1 e X2 ∼ N0,v2 , non si può dire nulla sulla covarianza di X1 , X2 : in generale, non è
possibile ricavare la distribuzione congiunta dalle marginali. Al riguardo si veda anche l’Esempio 3.3.24.

3.3 Indipendenza
Nella teoria della probabilità, una delle questioni di maggior interesse teorico e applicativo riguarda l’e-
sistenza e il grado di dipendenza fra quantità aleatorie. Per esempio, abbiamo già visto che la correlazione
è un indice di un particolare tipo di dipendenza, quella lineare, fra variabili aleatorie. In questo paragra-
fo diamo una trattazione generale dell’argomento introducendo i concetti di dipendenza deterministica e
indipendenza stocastica.

3.3.1 Dipendenza deterministica e indipendenza stocastica


In questa prima sezione, per semplicità, ci limitiamo a considerare il caso di due v.a. reali X, Y sullo
spazio (Ω, F , P ). Poiché useremo sistematicamente il concetto di σ -algebra generata da X, ne ricordiamo la
definizione:
σ (X) = X −1 (B) = {(X ∈ H) | H ∈ B}.

Definizione 3.3.1. Diciamo che:

i) X e Y sono stocasticamente indipendenti in P se gli eventi (X ∈ H) e (Y ∈ K) sono indipendenti in P


per ogni H, K ∈ B. In altri termini, X e Y sono indipendenti in P se lo sono le rispettive σ -algebre
generate, nel senso che gli elementi di σ (X) e σ (Y ) sono a due a due indipendenti in P ;

ii) X dipende in modo deterministico da Y se sussiste la seguente inclusione

σ (X) ⊆ σ (Y ), (3.3.1)

ossia se X è σ (Y )-misurabile e in tal caso si scrive X ∈ mσ (Y ).


130 CAPITOLO 3. VARIABILI ALEATORIE

Osservazione 3.3.2. [!] Siano Y una v.a. e f ∈ mB. Come visto in (3.1.1), vale
 
σ (f (Y )) = (f ◦ Y )−1 (B) = Y −1 f −1 (B) ⊆ Y −1 (B) = σ (Y ).

da cui
σ (f (Y )) ⊆ σ (Y ). (3.3.2)
Quindi X := f (Y ) dipende in modo deterministico da Y . Dall’inclusione (3.1.9) si deduce anche il seguente
utile risultato: se f , g ∈ mB e X, Y sono v.a. indipendenti, allora anche le v.a. f (X), g(Y ) sono indipendenti.

Il seguente teorema chiarisce il significato dell’inclusione (3.3.1), caratterizzandola in termini di dipen-


denza funzionale di X da Y .

Teorema 3.3.3 (Teorema di Doob). [!!] Siano X, Y v.a. reali su (Ω, F , P ). Allora X ∈ mσ (Y ) se e solo se
esiste f ∈ mB tale che X = f (Y ).

Osservazione 3.3.4. Il Teorema di Doob rimane valido (con dimostrazione pressoché identica) nel caso in
cui X sia a valori in Rd e Y sia a valori in un generico spazio misurabile (E, E ). L’enunciato generale è il
seguente: X ∈ mσ (Y ) se e solo se esiste una funzione misurabile14 f : E −→ Rd tale che X = f (Y ).

X
 
(Ω, F ) Rd , Bd

Y f
(E, E )

Dimostrazione del Teorema 3.3.3. Se X = f (Y ) con f ∈ mB allora X ∈ mσ (Y ): ciò segue direttamente dalla
(3.3.2). Viceversa, sia X ∈ mσ (Y ). Utilizzando una trasformazione del tipo

1 1
Z= + arctan X
2 π
non è restrittivo assumere che X sia a valori in ]0, 1[.
Consideriamo prima il caso in cui X è semplice, ossia X assume solo i valori distinti x1 , . . . , xm ∈ ]0, 1[ e
quindi si scrive nella forma
X m
X= xk 1(X=xk ) .
k=1

Per ipotesi, si ha (X = xk ) = (Y ∈ Hk ) con Hk ∈ B, k = 1, . . . , m. Allora posto


m
X
f (y) = xk 1Hk (y), y ∈ R,
k=1

si ha
m
X m
X m
X
f (Y ) = xk 1Hk (Y ) = xk 1(Y ∈Hk ) = xk 1(X=xk ) = X.
k=1 k=1 k=1

Consideriamo ora il caso generale in cui X assume valori in ]0, 1[: per il Lemma 3.2.3 esiste una
successione (Xn )n≥1 di v.a. semplici e σ (Y )-misurabili tali che

0 ≤ Xn (ω) ↗ X(ω), ω ∈ Ω. (3.3.3)


14 f ∈ mE , ossia f −1 (H) ∈ E per ogni H ∈ B .
d
3.3. INDIPENDENZA 131

Per quanto provato nel punto precedente, si ha Xn = fn (Y ) con fn ∈ mB a valori in [0, 1[. Definiamo

f (y) := lim sup fn (y), y ∈ R.


n→∞

Allora f ∈ mB (cfr. Proposizione 3.1.8) è limitata e per la (3.3.3) si ha

X(ω) = lim Xn (ω) = lim fn (Y (ω)) = f (Y (ω)), ω ∈ Ω.


n→∞ n→∞

Corollario 3.3.5. Siano X, Y , Z v.a. reali su (Ω, F , P ) con X ≥ Z. Se X, Z ∈ mσ (Y ) esistono f , g ∈ mB tali che
X = f (Y ), Z = g(Y ) e f ≥ g.
Dimostrazione. Nel caso Z ≡ 0 la tesi è conseguenza della costruzione di f fatta nella dimostrazione del
Teorema 3.3.3. Nel caso generale, poiché 0 ≤ X − Z ∈ mσ (Y ) esiste 0 ≤ h ∈ mB tale che X − Z = h(Y ). Inoltre
esiste f ∈ mσ (Y ) tale che Z + h(Y ) = X = f (Y ) e quindi Z = (f − h)(Y ) con f ≥ f − h ∈ mσ (Y ).
Per capire il concetto di dipendenza deterministica si esamini attentamente il seguente
Esercizio 3.3.6. [!] Consideriamo Ω = {1, 2, 3} e le v.a. X, Y di Bernoulli definite su Ω nel modo seguente
 
1 se ω ∈ {1, 2}, 1 se ω = 1,

 

X(ω) =  Y (ω) =
0 se ω = 3, 0 se ω ∈ {2, 3}.
 

Notiamo che
σ (X) = {∅, Ω, {1, 2}, {3}}, σ (Y ) = {∅, Ω, {1}, {2, 3}}.
i) Verificare direttamente che non esiste una funzione f tale che X = f (Y ).
ii) Le v.a. X e Y sono indipendenti rispetto alla probabilità uniforme?
iii) Esiste una misura di probabilità su Ω rispetto alla quale X e Y sono indipendenti?
Soluzione.
i) Se esistesse una tale funzione f allora si avrebbe

1 = X(2) = f (Y (2)) = f (0) = f (Y (3)) = X(3) = 0

che è assurdo. Dunque fra X e Y non c’è dipendenza deterministica. Notiamo che, in accordo col Teorema 3.3.3, non sussistono
relazioni di inclusione fra σ (X) e σ (Y ).
ii) X e Y non sono indipendenti nella probabilità uniforme perché gli eventi (X = 1) = {1, 2} e (Y = 0) = {2, 3} non sono
indipendenti in quanto
1
P ((X = 1) ∩ (Y = 0)) = P ({2}) =
3
ma
4
P (X = 1)P (Y = 0) = .
9
iii) Sı̀, per esempio la probabilità definita da P (1) = P (3) = 0 e P (2) = 1: più in generale, X e Y sono indipendenti rispetto
ad una probabilità tipo Delta di Dirac centrata in 1 o 2 o 3 (si veda al riguardo il punto i) dell’esercizio seguente).

Osservazione 3.3.7. [!] L’Esercizio 3.3.6 ci permette di ribadire che il concetto di indipendenza stocastica
è sempre relativo ad una particolare misura di probabilità fissata. Al contrario, la dipendenza deterministica
è una proprietà generale che non dipende dalla misura di probabilità considerata. In particolare, i concetti di
indipendenza stocastica e di dipendenza deterministica non sono “uno il contrario dell’altro”. Fra l’altro,
la dipendenza deterministica “va in una direzione”: se X dipende in modo deterministico da Y non è detto
che Y dipenda in modo deterministico da X.
132 CAPITOLO 3. VARIABILI ALEATORIE

Esercizio 3.3.8. Siano X, Y v.a. discrete su (Ω, P ). Provare le seguenti affermazioni:


q.c.
i) se X è costante quasi certamente, X = c, allora X, Y sono indipendenti;
ii) sia
f : X(Ω) −→ R
una funzione iniettiva. Allora X e f (X) sono indipendenti in P se e solo se X è costante q.c.
Soluzione.
i) Osservando che P (X ∈ H) ∈ {0, 1} per ogni H ∈ B, non è difficile provare la tesi.
ii) È sufficiente provare che se X e f (X) sono indipendenti allora X è costante q.c. Sia y ∈ X(Ω): essendo f iniettiva si ha
(X = y) = (f (X) = f (y)) o più esplicitamente

{ω ∈ Ω | X(ω) = y} = {ω ∈ Ω | f (X(ω)) = f (y)}.

Allora si ha  
P (X = y) = P (X = y) ∩ (f (X) = f (y)) = P (X = y)P (f (X) = f (y)) = P (X = y)2

da cui segue P (X = y) ∈ {0, 1} e dunque la tesi.

3.3.2 Misura prodotto e Teorema di Fubini


Per studiare in maniera più approfondita il concetto di indipendenza stocastica fra due o più variabili
aleatorie, presentiamo alcuni risultati preliminari sul prodotto di misure che svolgeranno un ruolo centrale
nel seguito. Dati due spazi misurabili finiti (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 ), consideriamo il prodotto cartesiano

Ω := Ω1 × Ω2 = {(x, y) | x ∈ Ω1 , y ∈ Ω2 },

e la famiglia dei rettangoli definita nel modo seguente

R := {A × B | A ∈ F1 , B ∈ F2 }.

Indichiamo con
F1 ⊗ F2 := σ (R)
la σ -algebra generata dai rettangoli, anche chiamata σ -algebra prodotto di F1 e F2 . Vale la seguente
generalizzazione del Corollario 3.1.6 e dell’Osservazione 3.1.9.
Corollario 3.3.9. Per k = 1, 2, siano Xk : Ωk −→ R funzioni sugli spazi misurabili (Ωk , Fk ). Le seguenti
proprietà sono equivalenti:
i) (X1 , X2 ) ∈ m(F1 ⊗ F2 );
ii) Xk ∈ mFk per k = 1, 2.
Inoltre, se vale i) o ii) allora per ogni f ∈ mB2 si ha che f (X1 , X2 ) ∈ m(F1 ⊗ F2 ).
Osservazione 3.3.10. Ogni disco di R2 è unione numerabile di rettangoli e di conseguenza B ⊗ B = B2 . Al
contrario, se Ld indica la σ -algebra dei misurabili secondo Lebesgue in Rd , allora L1 ⊗ L1 è strettamente
incluso in L2 . Infatti, per esempio, se H ⊆ R non è misurabile secondo Lebesgue, allora H × {0} ∈ L2 \
(L1 ⊗ L1 ).
Lemma 3.3.11. Sia
f : Ω1 × Ω2 −→ R
una funzione F1 ⊗ F2 -misurabile e limitata. Allora si ha:
i) f (·, y) ∈ mF1 per ogni y ∈ Ω2 ;
3.3. INDIPENDENZA 133

ii) f (x, ·) ∈ mF2 per ogni x ∈ Ω1 .


Dimostrazione. Sia H la famiglia delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i)
e ii). Allora H è una famiglia monotona di funzioni (cfr. Definizione A.1.7). La famiglia R è ∩-chiusa,
genera F1 ⊗ F2 ed è chiaro che 1A×B ∈ H per ogni (A × B) ∈ R. Allora la tesi segue dal secondo Teorema di
Dynkin (Teorema A.1.8).
Osservazione 3.3.12. Il classico Teorema di Fubini per l’integrale di Lebesgue afferma che se f = f (x, y) ∈
mL2 (ossia f è misurabile rispetto alla σ -algebra L2 dei Lebesgue-misurabili di R2 ) allora f (x, ·) ∈ mL1 per
quasi ogni x ∈ R. Si noti la differenza rispetto al Lemma 3.3.11 in cui si afferma che “f (x, ·) ∈ mF2 per ogni
x ∈ Ω1 ”. Ciò è dovuto al fatto che, come abbiamo già osservato, L1 ⊗ L1 è strettamente incluso in L2 . Per
maggiori dettagli rimandiamo alla sezione “Completion of product measure”, Cap.8 in [107].
Lemma 3.3.13. Se f è una funzione F1 ⊗ F2 -misurabile e limitata allora si ha:
R
i) x 7→ f (x, y)µ2 (dy) ∈ mF1 ;
Ω2
R
ii) y 7→ f (x, y)µ1 (dx) ∈ mF2 ;
Ω1

iii) vale Z Z ! Z Z !
f (x, y)µ2 (dy) µ1 (dx) = f (x, y)µ1 (dx) µ2 (dy).
Ω1 Ω2 Ω2 Ω1

Dimostrazione. Come nel lemma precedente, la tesi segue dal secondo Teorema di Dynkin applicato alla
famiglia H delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i), ii) e iii). Infatti H è
una famiglia monotona di funzioni e 1A×B ∈ H per ogni (A × B) ∈ R.
Proposizione 3.3.14 (Misura prodotto). La funzione definita da
Z Z ! Z Z !
µ(H) := 1H dµ2 dµ1 = 1H dµ1 dµ2 , H ∈ F1 ⊗ F2 ,
Ω1 Ω2 Ω2 Ω1

è l’unica misura finita su F1 ⊗ F2 tale che

µ(A × B) = µ1 (A)µ2 (B), A ∈ F1 , B ∈ F2 .

Scriviamo µ = µ1 ⊗ µ2 e diciamo che µ è la misura prodotto di µ1 e µ2 .


Dimostrazione. Il fatto che µ sia una misura segue dalla linearità dell’integrale e dal Teorema di Beppo-Levi.
L’unicità segue dal Corollario A.1.5, poiché R è ∩-chiusa e genera F1 ⊗ F2 .
Teorema 3.3.15 (Teorema di Fubini). [!!!] Sullo spazio prodotto (Ω1 × Ω2 , F1 ⊗ F2 , µ1 ⊗ µ2 ), sia f una
funzione (F1 ⊗ F2 )-misurabile a valori reali. Se f è non-negativa oppure sommabile (ossia, f ∈ L1 (Ω1 ×
Ω2 , µ1 ⊗ µ2 )) allora si ha:
Z Z Z !
f d(µ1 ⊗ µ2 ) = f (x, y)µ2 (dy) µ1 (dx)
Ω1 ×Ω2 Ω1 Ω2
Z Z ! (3.3.4)
= f (x, y)µ1 (dx) µ2 (dy).
Ω2 Ω1

Dimostrazione. La (3.3.4) è vera se f = 1A×B e quindi, per il secondo Teorema di Dynkin, anche per f
misurabile e limitata. Il Teorema di Beppo-Levi e la linearità dell’integrale assicurano la validità di (3.3.4)
rispettivamente per f non-negativa e f ∈ L1 .
134 CAPITOLO 3. VARIABILI ALEATORIE

Osservazione 3.3.16. Il Teorema 3.3.15 resta valido sotto l’ipotesi che gli spazi (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 )
siano σ -finiti. A partire dal Teorema 3.3.15, si definisce per induzione la misura prodotto di più di due
misure
µ1 ⊗ · · · ⊗ µn .

Esempio 3.3.17. Sia µ = Expλ ⊗ Bep la misura prodotto su R2 delle distribuzioni esponenziale Expλ e di
Bernoulli Bep . Per il Teorema di Fubini, il calcolo dell’integrale di f ∈ L1 (R2 , µ) si svolge nel modo seguente:
" Z Z !
f (x, y)µ(dx, dy) = f (x, y)Bep (dy) Expλ (dx)
R2 R R
Z
= (pf (x, 1) + (1 − p)f (x, 0)) Expλ (dx)
R
Z +∞ Z +∞
= pλ f (x, 1)e−λx dx + (1 − p)λ f (x, 0)e−λx dx.
0 0

3.3.3 Indipendenza fra σ -algebre


Poiché la definizione generale di indipendenza di v.a. è data in termini di indipendenza delle relative
σ -algebre generate, esaminiamo prima il concetto di indipendenza fra σ -algebre. Nel seguito (Ω, F , P ) è
uno spazio di probabilità fissato e I è una qualsiasi famiglia di indici.

Definizione 3.3.18. Diciamo che le famiglie di eventi Fi , con i ∈ I, sono indipendenti in P se vale
 n  n
\  Y
P  Ak  =

 
 P (Ak ),
k=1 k=1

per ogni scelta di un numero finito di indici i1 , . . . , in e Ak ∈ Fik per k = 1, . . . , n.

Esercizio 3.3.19. Sia σ (A) = {∅, Ω, A, Ac } la σ -algebra generata da A ∈ F . Dimostrare che A1 , . . . , An ∈ F


sono indipendenti in P (cfr. Definizione 2.3.27) se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .

A volte può essere utile il seguente corollario del Teorema di Dynkin.

Lemma 3.3.20. Siano A1 , . . . , An famiglie di eventi in (Ω, F , P ), chiuse rispetto all’intersezione. Allora
A1 , . . . , An sono indipendenti in P se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .

Dimostrazione. Proviamo il caso n = 2: la dimostrazione generale è analoga. Fissiamo A ∈ A1 e definiamo


le misure finite
µ(B) = P (A ∩ B), ν(B) = P (A)P (B), B ∈ σ (A2 ).

Per ipotesi µ = ν su A2 e inoltre µ(Ω) = P (A) = ν(Ω), quindi per il Corollario A.1.5 µ = ν su σ (A2 ) o, in altri
termini
P (A ∩ B) = P (A)P (B), B ∈ σ (A2 ).

Ora fissiamo B ∈ σ (A2 ) e definiamo le misure finite

µ(B) = P (A ∩ B), ν(B) = P (A)P (B), A ∈ σ (A1 ).

Abbiamo provato che µ = ν su A1 e ovviamente µ(Ω) = P (B) = ν(Ω), quindi ancora per il Corollario A.1.5
si ha µ = ν su σ (A1 ) che equivale alla tesi.
3.3. INDIPENDENZA 135

3.3.4 Indipendenza fra vettori aleatori


Assumiamo le ipotesi e notazioni della Sezione 3.2.10 e introduciamo l’importante concetto di indipen-
denza fra v.a.

Definizione 3.3.21 (Indipendenza di v.a.). Diciamo che le v.a. X1 , . . . , Xn , definite sullo spazio (Ω, F , P ),
sono indipendenti in P se le relative σ -algebre generate σ (X1 ), . . . , σ (Xn ) sono indipendenti in P o, equiva-
lentemente, se vale  n 
\  Yn
P  (Xi ∈ Hi ) =
 P (Xi ∈ Hi ), Hi ∈ Bdi , i = 1, . . . , n.
i=1 i=1

Osservazione 3.3.22. [!] Come conseguenza della (3.3.2), se X1 , . . . , Xn sono v.a. indipendenti su (Ω, F , P ) e
f1 , . . . , fn ∈ mB allora anche le v.a. f1 (X1 ), . . . , fn (Xn ) sono indipendenti in P : in altri termini, la proprietà di in-
dipendenza è invariante per trasformazioni di tipo deterministico (nello specifico, l’operazione di composizione
con funzioni misurabili).
Per esempio, supponiamo che X1 , . . . , Xn , Y1 , . . . , Ym siano v.a. reali e X := (X1 , . . . , Xn ) e Y := (Y1 , . . . , Ym )
siano indipendenti. Allora sono indipendenti anche le seguenti coppie di variabili aleatorie15

i) Xi e Yj per ogni i e j;

ii) Xi1 + Xi2 e Yj1 + Yj2 per ogni i1 , i2 , j1 , j2 ;

iii) Xi2 e Y per ogni i.

Il seguente risultato fornisce un’importante caratterizzazione della proprietà di indipendenza. Esso


mostra anche che, nel caso di v.a. indipendenti, la distribuzione congiunta può essere ricavata dalle distribuzioni
marginali. Per chiarezza d’esposizione, enunciamo prima il risultato nel caso particolare di due v.a. e in
seguito diamo il risultato generale.

Teorema 3.3.23. [!!] Siano X1 , X2 v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 e Rd2 . Le seguenti tre
proprietà sono equivalenti:

i) X1 , X2 sono indipendenti in P ;

ii) F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 )FX2 (x2 ) per ogni x1 ∈ Rd1 e x2 ∈ Rd2 ;

iii) µ(X1 ,X2 ) = µX1 ⊗ µX2 .

Inoltre, se (X1 , X2 ) ∈ AC allora le proprietà precedenti sono anche equivalenti a:

iv) per quasi ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale

γ(X1 ,X2 ) (x1 , x2 ) = γX1 (x1 )γX2 (x2 ). (3.3.5)

Infine, se (X1 , X2 ) è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:

v) per ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale

µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ). (3.3.6)

Dimostrazione. [i) =⇒ ii)] Si ha

F(X1 ,X2 ) (x1 , x2 ) = P ((X1 ≤ x1 ) ∩ (X2 ≤ x2 )) =


15 Per esercizio determinare le funzioni misurabili con cui si compongono X e Y .
136 CAPITOLO 3. VARIABILI ALEATORIE

(per l’ipotesi di indipendenza)

= P (X1 ≤ x1 )P (X2 ≤ x2 ) = FX1 (x1 )FX2 (x2 ).

[ii) =⇒ iii)] L’ipotesi F(X1 ,X2 ) = FX1 FX2 implica che le distribuzioni µ(X1 ,X2 ) e µX1 ⊗ µX2 coincidono sulla
famiglia dei pluri-intervalli ] − ∞, x1 ]× ] − ∞, x2 ]: la tesi segue dall’unicità dell’estensione della misura del
Teorema 2.4.29 di Carathéodory (oppure si veda il Corollario A.1.5, poiché la famiglia dei pluri-intervalli
è ∩-chiusa e genera Bd1 +d2 ).
[iii) =⇒ i)] Per ogni H ∈ Bd1 e K ∈ Bd2 si ha

P ((X1 ∈ H) ∩ (X2 ∈ K)) = µ(X1 ,X2 ) (H × K) =

(poiché per ipotesi µ(X1 ,X2 ) = µX1 ⊗ µX2 )

= µX1 (H)µX2 (K) = P (X1 ∈ H)P (X2 ∈ K)

da cui l’indipendenza di X1 e X2 .
Assumiamo ora che (X1 , X2 ) ∈ AC e quindi, per la Proposizione 3.2.47, anche X1 , X2 ∈ AC.
[i) =⇒ iv)] Per l’ipotesi di indipendenza, si ha
Z Z
P ((X1 , X2 ) ∈ H × K) = P (X1 ∈ H)P (X2 ∈ K) = γX1 (x1 )dx1 γX2 (x2 )dx2 =
H K

(per il Teorema di Fubini e con la notazione x = (x1 , x2 ) per il punto di Rd1 +d2 )
Z
= γX1 (x1 )γX2 (x2 )dx
H×K

e quindi γX1 γX2 è densità di (X1 , X2 ).


[iv) =⇒ i)] Si ha
Z
P ((X1 , X2 ) ∈ H × K) = γ(X1 ,X2 ) (x)dx =
H×K

(per ipotesi)
Z
= γX1 (x1 )γX2 (x2 )dx
H×K

(per il Teorema di Fubini)


Z Z
= γX1 (x1 )dx1 γX2 (x2 )dx2 = P (X1 ∈ H)P (X2 ∈ K),
H K

da cui l’indipendenza di X1 e X2 .
Infine assumiamo che la v.a. (X1 , X2 ) sia discreta e quindi, per la Proposizione 3.2.47, anche X1 , X2 lo
siano. La dimostrazione è del tutto analoga al caso precedente.
[i) =⇒ v)] Per l’ipotesi di indipendenza, si ha

µ̄(X1 ,X2 ) (x1 , x2 ) = P ((X1 = x1 ) ∩ (X2 = x2 )) = P (X1 = x1 )P (X2 = x2 ) = µ̄X1 (x1 )µ̄X2 (x2 )

da cui la (3.3.6).
3.3. INDIPENDENZA 137

[v) =⇒ i)] Si ha
X
P ((X1 , X2 ) ∈ H × K) = µ̄(X1 ,X2 ) (x1 , x2 ) =
(x1 ,x2 )∈H×K

(per ipotesi)
X
= µ̄X1 (x1 )µ̄X2 (x2 ) =
(x1 ,x2 )∈H×K

(essendo i termini della somma non-negativi)


X X
= µ̄X1 (x1 ) µ̄X2 (x2 ) = P (X1 ∈ H)P (X2 ∈ K),
x1 ∈H x2 ∈K

da cui l’indipendenza di X1 e X2 .
Il seguente esempio mostra due coppie di v.a. con uguali distribuzioni marginali ma diverse distribu-
zioni congiunte.
Esempio 3.3.24. [!] Consideriamo un’urna contenente n palline numerate. Siano:
i) X1 , X2 i risultati di due estrazioni successive con reinserimento;
ii) Y1 , Y2 i risultati di due estrazioni successive senza reinserimento.
È naturale assumere che le v.a. X1 , X2 abbiano distribuzione uniforme Unifn e siano indipendenti: per il
Teorema 3.3.23-v) la funzione di distribuzione congiunta è
1
µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ) = , (x1 , x2 ) ∈ In × In ,
n2
dove, al solito, In = {1, . . . , n}.
La v.a. Y1 ha distribuzione uniforme Unifn ma non è indipendente da Y2 . Per ricavare la funzione
di distribuzione congiunta utilizziamo la conoscenza della probabilità che la seconda estrazione sia y2 ,
condizionata al fatto che la prima pallina estratta sia y1 :

1
 n−1 se y2 ∈ In \ {y1 },


P (Y2 = y2 | Y1 = y1 ) = 
0
 se y2 = y1 .

Allora abbiamo
   
P (Y1 , Y2 ) = (y1 , y2 ) = P (Y1 = y1 ) ∩ (Y2 = y2 )
= P (Y2 = y2 | Y1 = y1 ) P (Y1 = y1 ) (3.3.7)
da cui 
1

 n(n−1)
 se y1 , y2 ∈ In , y1 , y2 ,
µ̄(Y1 ,Y2 ) (y1 , y2 ) = 
0
 altrimenti.
Sottolineiamo l’importanza del passaggio (3.3.7) in cui, non potendo sfruttare l’indipendenza, abbiamo
usato la formula di moltiplicazione (2.3.5). Avendo µ̄(Y1 ,Y2 ) , possiamo ora calcolare µ̄Y2 mediante la (3.2.25)
della Proposizione 3.2.47: per ogni y2 ∈ In abbiamo
X X 1 1
µ̄Y2 (y2 ) = µ̄(Y1 ,Y2 ) (y1 , y2 ) = = ,
n(n − 1) n
y1 ∈In y1 ∈In \{y2 }

ossia anche Y2 ∼ Unifn . In definitiva Y1 , Y2 hanno distribuzioni marginali uniformi come X1 , X2 , ma


differente distribuzione congiunta.
138 CAPITOLO 3. VARIABILI ALEATORIE

Il Teorema 3.3.23 si estende al caso di un numero finito di v.a. nel modo seguente:

Teorema 3.3.25. [!!] Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ) e d = d1 + · · · + dn , le seguenti tre proprietà sono equivalenti:

i) X1 , . . . , Xn sono indipendenti in P ;

ii) per ogni x = (x1 , . . . , xn ) ∈ Rd si ha


n
Y
FX (x1 , . . . , xn ) = FXi (xi ); (3.3.8)
i=1

iii) vale
µX = µX1 ⊗ · · · ⊗ µXn .

Inoltre, se X ∈ AC allora le proprietà precedenti sono anche equivalenti a:

iv) per quasi ogni x = (x1 , . . . , xn ) ∈ Rd vale


n
Y
γX (x) = γXi (xi ).
i=1

Infine, se X è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:

v) per ogni x ∈ Rd vale


n
Y
µ̄X (x) = µ̄Xi (xi ).
i=1

Nella Sezione 3.1.1 abbiamo provato che è possibile costruire uno spazio di probabilità su cui è definito
un vettore aleatorio (X1 , . . . , Xn ) con distribuzione assegnata (cfr. Osservazione 3.1.17). Come semplice
conseguenza si ha anche:

Corollario 3.3.26 (Esistenza di v.a. indipendenti). [!]


Siano µk distribuzioni su Rdk , k = 1, . . . , n. Esiste uno spazio di probabilità (Ω, F , P ) su cui sono definite
X1 , . . . , Xn v.a. tali che Xk ∼ µk per k = 1, . . . , n e siano indipendenti in P .

Dimostrazione. Consideriamo la distribuzione prodotto µ = µ1 ⊗ · · · ⊗ µn su Rd con d = d1 + · · · + dn . Per


l’Osservazione 3.1.17, la funzione identità X(ω) = ω è una v.a. su (Rd , Bd , µ) con X ∼ µ. Per il Teorema
3.3.25, le componenti di X verificano la tesi.

Osservazione 3.3.27. Nella dimostrazione precedente la costruzione di numero n di variabili aleatorie in-
dipendenti avviene prendendo come spazio campionario lo spazio Euclideo di dimensione almeno pari a n.
Questo fatto fa intuire che il problema della costruzione di una successione (o, ancor peggio, di una famiglia
non numerabile) di v.a. indipendenti non è altrettanto semplice perché, per analogia, lo spazio campionario
dovrebbe avere dimensione infinita.

3.3.5 Indipendenza e valore atteso


Vediamo un’importante conseguenza del Teorema 3.3.23.

Teorema 3.3.28. [!!] Siano X, Y v.a. reali indipendenti sullo spazio (Ω, F , P ). Se X, Y ≥ 0 oppure X, Y ∈
L1 (Ω, P ) allora si ha
E [XY ] = E [X] E [Y ] .
3.3. INDIPENDENZA 139

Dimostrazione. Si ha
Z
E [XY ] = xyµ(X,Y ) (d(x, y))
R2

(per la iii) del Teorema 3.3.23)


Z
= xy(µX ⊗ µY )(d(x, y))
R2

(per il Teorema di Fubini)


Z Z
= xµX (dx) yµY (dy) = E [X] E [Y ] .
R R

Osservazione 3.3.29. Si ricordi che, per l’Esercizio 3.2.36, in generale X, Y ∈ L1 (Ω, P ) non implica XY ∈
L1 (Ω, P ): tuttavia, per il Teorema 3.3.28, ciò è vero se X, Y sono indipendenti.

Corollario 3.3.30. Se X, Y ∈ L2 (Ω, P ) sono indipendenti allora sono scorrelate, ossia si ha

cov(X, Y ) = 0 e var(X + Y ) = var(X) + var(Y ). (3.3.9)

Dimostrazione. Se X, Y sono indipendenti anche Xe := X − E [X] e Y


e := Y − E [Y ] lo sono, per l’Osservazione
3.3.22: quindi si ha h i h i h i
cov(X, Y ) = E X e =E X
eY e E Y e = 0.

Ricordando la (3.2.19), si conclude che vale anche var(X + Y ) = var(X) + var(Y ).

Esempio 3.3.31. Un esempio di v.a. scorrelate ma non indipendenti è il seguente: sia Ω = {0, 1, 2} con la
probabilità uniforme P . Poniamo
 


1 ω = 0, 

0 ω = 0,
 
X(ω) = 0 ω = 1, Y (ω) = 1 ω = 1,
 

 

−1 ω = 2, 0 ω = 2.
 

Allora si ha E [X] = 0 e XY = 0 da cui cov(X, Y ) = E [XY ]−E [X] E [Y ] = 0, ossia X, Y sono scorrelate. Tuttavia

1
P ((X = 1) ∩ (Y = 1)) = 0 e P (X = 1) = P (Y = 1) =
3
e quindi X, Y non sono indipendenti in P .

Esempio 3.3.32. [!] L’esempio precedente mostra che due v.a. scorrelate non sono necessariamente in-
dipendenti. Tuttavia nel caso della distribuzione normale bidimensionale (cfr. Esempio 3.2.49) vale il
seguente risultato: se (X1 , X2 ) ∼ N0,C e cov(X1 , X2 ) = 0 allora X1 , X2 sono indipendenti. Questo segue dal
Teorema 3.3.23-iv e dal fatto che se X1 , X2 sono scorrelate allora la densità congiunta è uguale al prodotto
delle densità marginali. Si noti che l’ipotesi che X1 , X2 abbiano distribuzione congiunta normale è cruciale:
al riguardo si veda l’Esempio 3.5.19.

Esempio 3.3.33. Consideriamo due v.a. indipendenti X ∼ N0,1 e Y ∼ Poissonλ . Per il Teorema 3.3.25, la
distribuzione congiunta di X, Y è
N0,1 ⊗ Poissonλ
140 CAPITOLO 3. VARIABILI ALEATORIE

e quindi, per ogni funzione misurabile e limitata, si ha


Z
f (x, y) N0,1 ⊗ Poissonλ (dx, dy) =

E [f (X, Y )] =
R2

(per il Teorema di Fubini)


Z Z
= f (x, y)N0,1 (dx)Poissonλ (dy)
R R
∞ x2
λn e− 2
X Z
−λ
=e f (x, n) √ dx.
n! R 2π
n=0
h i h i
Per esercizio, calcolare E eX+Y e E eXY .

Esempio 3.3.34. Consideriamo la distribuzione uniforme bidimensionale nel caso dei seguenti tre domini:
i) un quadrato: Q = [0, 1] × [0, 1];
ii) un cerchio: C = {(x, y) ∈ R2 | x2 + y 2 ≤ 1};
iii) un triangolo: T = {(x, y) ∈ R2≥0 | x + y ≤ 1}.
[Caso i)] La funzione di densità di (X, Y ) ∼ UnifQ è

γ(X,Y ) = 1[0,1]×[0,1] .

Quindi
Z
1
E [X] = x1[0,1]×[0,1] (x, y)dxdy = ,
R2 2
1 2
Z
1
 
var(X) = x−1[0,1]×[0,1] (x, y)dxdy = ,
2 2 12
ZR 
1 1
 
cov(X, Y ) = x− y − 1[0,1]×[0,1] (x, y)dxdy = 0,
R2 2 2
e quindi X, Y sono scorrelate. Di più, siccome per la (3.2.24), la densità di X è
Z
γX = 1[0,1]×[0,1] (·, y)dy = 1[0,1]
R

e analogamente γY = 1[0,1] , si ha che X, Y sono indipendenti perché vale la (3.3.5).


[Caso ii)] La funzione di densità di (X, Y ) ∼ UnifC è
1
γ(X,Y ) = 1 .
π C
Quindi
Z
1
E [X] = x1 (x, y)dxdy = 0 = E [Y ] ,
π R2 C
Z
1 1
var(X) = x2 1C (x, y)dxdy = ,
π R2 4
Z
1
cov(X, Y ) = xy1C (x, y)dxdy = 0,
π R2
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 141

e quindi X, Y sono scorrelate. Tuttavia X, Y non sono indipendenti perché, per la (3.2.24), la densità di X è

2 1 − x2
Z
1
γX (x) = 1 (x, y)dy = 1[−1,1] (x), x ∈ R,
π R C π

2 1−y 2
e analogamente γY (y) = π 1[−1,1] (y): quindi la densità congiunta non è il prodotto delle marginali. In
alternativa, una verifica diretta mostra che
Z √
1 1 4π − 3 3 1
   
P X≥ = 1 1
  (x)1C (x, y)dxdy = =P Y ≥ ,
2 π R2 2 ,+∞ 12π 2

1 1 3−3 3+π 1 1
       
P X≥ ∩ Y≥ = ,P X≥ P Y≥ .
2 2 12π 2 2
Questo esempio, come anche l’Esempio 3.3.31, mostra che la proprietà di indipendenza è più forte della
proprietà di scorrelazione.
[Caso iii)] La funzione di densità di (X, Y ) ∼ UnifT è

γ(X,Y ) = 21T .

Quindi
Z
1
E [X] = 2 x1T (x, y)dxdy = = E [Y ] ,
R2 3
1 2
Z
1
 
var(X) = 2 1T (x, y)dxdy =
x− ,
R2 3 18
Z 
1 1 1
 
cov(X, Y ) = 2 x− y − 1T (x, y)dxdy = − ,
R2 3 3 36
e dunque X, Y sono negativamente correlate (e perciò non indipendenti). Per la (3.2.24), la densità di X è
Z
γX (x) = 2 1T (x, y)dy = 2(1 − x)1[0,1] (x), x ∈ R.
R

3.4 Distribuzione e valore atteso condizionato ad un evento


In uno spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile, B ∈ F con P (B) > 0. Ricordiamo
che P (· | B) indica la probabilità condizionata a B, che è la misura di probabilità su (Ω, F ) definita da
P (A ∩ B)
P (A | B) = , A ∈ F.
P (B)

Definizione 3.4.1. Sia X una v.a. su (Ω, F , P ) a valori in Rd :


i) la distribuzione di X condizionata a B è la distribuzione di X relativa alla probabilità condizionata
P (· | B): essa è definita da
µX|B (H) := P (X ∈ H | B), H ∈ Bd ;

ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a B è il valore atteso di X rispetto alla probabilità condizio-
nata P (· | B): essa è definita da Z
E [X | B] := XdP (· | B).

142 CAPITOLO 3. VARIABILI ALEATORIE

Proposizione 3.4.2. [!] Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
1
E [f (X) | B] = f (X)dP (3.4.1)
P (B) B
Z
= f (x)µX|B (dx). (3.4.2)
Rd

Dimostrazione. È sufficiente provare la (3.4.1) per f = 1H con H ∈ Bd : il caso generale segue dalla proce-
dura standard dell’Osservazione 3.2.21. Essendo 1H (X) = 1(X∈H) , si ha
Z
h i P ((X ∈ H) ∩ B) 1
E 1(X∈H) | B = P (X ∈ H | B) = = 1 (X)dP .
P (B) P (B) B H
Per quanto riguarda la (3.4.2), notiamo che f (X) ∈ L1 (Ω, P (· | B)) poiché, per la (3.4.1), si ha
Z
1
E [|f (X)| | B] ≤ |f (X)| dP < ∞
P (B) Ω
per ipotesi. Allora la (3.4.2) segue dal Teorema 3.2.25 del calcolo della media.
Esercizio 3.4.3. Verificare che se X e B sono indipendenti in P allora
µX|B = µX e E [X | B] = E [X] .
Osservazione 3.4.4. Analogamente al concetto di distribuzione condizionata di X a B, si definisce la densità
condizionata di X a B che indicheremo con γX|B e la CDF condizionata di X a B che indicheremo con FX|B .
La distribuzione condizionata è lo strumento naturale per studiare problemi del tipo seguente.
Esempio 3.4.5. Da un’urna che contiene 90 palline numerate, si estraggono in sequenza e senza reinseri-
mento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il numero della prima e seconda
pallina estratta. Chiaramente si ha µX1 = UnifI90 e sappiamo che anche µX2 = UnifI90 (cfr. Esempio 3.3.24).
Ora aggiungiamo l’informazione che la prima pallina estratta abbia il numero k, ossia condizioniamo
all’evento B = (X1 = k): si ha

1
 89 , se h, k ∈ I90 , h , k,


P (X2 = h | X1 = k) = 
0
 altrimenti,

e quindi
µX2 |X1 =k = UnifI90 \{k} .
In definitiva, l’informazione aggiuntiva data dall’evento B, modifica la distribuzione di X2 .
Utilizzando la (3.4.2), per esercizio si calcoli var(X2 | X1 = k) per verificare che var(X2 | X1 = k) < var(X2 ):
intuitivamente ciò significa che l’incertezza sul valore di X2 diminuisce aggiungendo l’informazione (X1 =
k).
Il resto della sezione contiene altri esempi particolari.
Esempio 3.4.6. Siano T ∼ Expλ e B = (T > t0 ) con λ, t0 ∈ R>0 . Per determinare la distribuzione condizionata
µT |B , calcoliamo la CDF condizionata di T a B o equivalentemente

1 se t ≤ t0 ,


P (T > t | T > t0 ) = 
P (T > t − t0 ) se t > t0 ,

che segue dalla proprietà di assenza di memoria (3.1.10). Ne viene che µT |B è la distribuzione esponenziale
“traslata” che ha per densità
γT |B (t) = λe−λ(t−t0 ) 1[t0 ,+∞[ (t).
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 143

Esempio 3.4.7. Siano X ∈ N0,1 e B = (X ≥ 0). Allora P (B) = e, per H ∈ B, si ha


1
2
Z
P ((X ∈ H) ∩ B) 1 x2
µX|B (H) = P (X ∈ H | B) = = 2P (X ∈ H ∩ R≥0 ) = 2 √ e− 2 dx.
P (B) H∩R≥0 2π

In altri termini, µX|B è una distribuzione assolutamente continua e per ogni H ∈ B si ha


Z r
2 − x2
µX|B (H) = γX|B (x)dx, γX|B (x) := e 2 1R≥0 (x);
H π

per questo motivo la funzione γX|B è anche detta densità di X condizionata a B. Infine per la (3.4.2) si ha
Z +∞
E [X | B] = xµX|B (dx)
0
Z +∞
= xγX|B (x)dx
0
r  r
2 2 x=+∞ 2
− x2
= −e = .
π x=0 π
Esempio 3.4.8. Siano X, Y ∼ Bep , con 0 < p < 1, indipendenti e B = (X + Y = 1). Determiniamo:
i) la distribuzione condizionata µX|B ;
ii) media e varianza condizionate, E [X | B] e var(X | B).
Anzitutto sappiamo che X + Y ∼ Bin2,p e quindi P (B) = 2p(1 − p) > 0. Poiché X assume solo i valori 0 e 1,
calcoliamo
P ((X = 0) ∩ (X + Y = 1))
µX|B ({0}) =
2p(1 − p)
P ((X = 0) ∩ (Y = 1))
=
2p(1 − p)
P (X = 0)P (Y = 1) 1
= = .
2p(1 − p) 2

In definitiva µX = Bep ma, indipendentemente dal valore di p, µX|B = Be 1 ossia, condizionatamente all’evento
2
(X + Y = 1), X ha distribuzione di Bernoulli di parametro 12 . Allora, per la (3.4.2) e ricordando le formule
(3.2.12) per media e varianza di una variabile binomiale, si conclude che
1 1
E [X | B] = , var(X | B) = .
2 4
Un’interpretazione concreta è la seguente: come si può rendere equa una moneta truccata (senza pe-
raltro conoscere la probabilità p ∈ ]0, 1[ di ottenere testa)? Il risultato X di un lancio della moneta truccata
ha distribuzione Bep dove T := (X = 1) è l’evento “testa”. In base a quanto visto sopra, per rendere equa
la moneta è sufficiente lanciarla due volte, considerando valido il lancio solo se si ottiene esattamente una
testa: allora i due eventi T C oppure CT hanno probabilità 1/2, qualsiasi sia p ∈]0, 1[.
Esempio 3.4.9. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche,
2 nere e 2 rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte.
Determiniamo la distribuzione di X condizionata a (Y = 0) e l’attesa condizionata E [X | Y = 0]. Si ha
3
P (X = 0 | Y = 0) = 0, P (X = 1 | Y = 0) = ,
10
144 CAPITOLO 3. VARIABILI ALEATORIE

6 1
P (X = 2 | Y = 0) = , P (X = 0 | Y = 0) = ,
10 10
e
3
X 9
E [X | Y = 0] = kP (X = k | Y = 0) = .
5
k=0

Esempio 3.4.10. Sia (X, Y ) un vettore aleatorio assolutamente continuo con densità γ(X,Y ) e B = (Y ∈ K) con
K ∈ B tale che P (B) > 0. Allora, per ogni H ∈ B, si ha

P ((X ∈ H) ∩ (Y ∈ K))
µX|Y ∈K (H) = (3.4.3)
P (Y ∈ K)
µ(X,Y ) (H × K)
=
µY (K)
"
1
= γ (x, y)dxdy =
P (Y ∈ K) H×K (X,Y )

(per il Teorema di Fubini)


Z Z !
1
= γ(X,Y ) (x, y)dy dx
H P (Y ∈ K) K

da cui segue la formula


Z
1
γX|Y ∈K (x) = γ(X,Y ) (x, y)dy (3.4.4)
P (Y ∈ K) K

per la densità di X condizionata all’evento (Y ∈ K). Notiamo che nel caso in cui K = R (e quindi (Y ∈ K) = Ω)
la (3.4.4) coincide con la formula (3.2.24) che esprime la densità marginale a partire dalla congiunta.
Come esempio particolare, consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ N0,C con
matrice di covarianza !
1 1
C=
1 2

e poniamo B = (Y > 0). Ricordando l’espressione (3.5.18) della densità Gaussiana bidimensionale, (X, Y ) ha
densità uguale a
1 −x2 +xy− y 2
Γ (x, y) = e 2 .

Allora come in (3.4.3) si ha
Z Z +∞ !
1
µX|Y >0 (H) = Γ (x, y)dy dx, H ∈ B,
H P (Y > 0) 0

da cui si calcola l’espressione della densità di X condizionata a (Y > 0):

x2
 
Z +∞ e− 2 1 + erf √x
1 2
ΓX|Y >0 (x) = Γ (x, y)dy = √ , x ∈ R.
P (Y > 0) 0 2π

Notiamo che E [X] = 0 ma


Z
1
E [X | Y > 0] = xΓX|Y >0 (x)dx = √ .
R π
3.5. FUNZIONE CARATTERISTICA 145

3.5 Funzione caratteristica


Definizione 3.5.1 (Funzione caratteristica). Sia

X : Ω −→ Rd

una v.a. sullo spazio di probabilità (Ω, F , P ). La funzione

ϕX : Rd −→ C

definita da h i
ϕX (η) = E ei⟨η,X⟩ = E [cos⟨η, X⟩] + iE [sin⟨η, X⟩] , η ∈ Rd ,
è detta funzione caratteristica della v.a. X. Utilizziamo anche l’abbreviazione CHF per la funzione caratteri-
stica.
Osservazione 3.5.2. Per semplicità, useremo anche la notazione x · η ≡ ⟨x, η⟩ per il prodotto scalare in Rd .
Se X ∼ µX , per definizione si ha Z
ϕX (η) = eiη·x µX (dx).
Rd

P
Se X ha distribuzione discreta pn δxn allora ϕX è data dalla serie di Fourier
n=1


X
ϕX (η) = pn eiη·xn .
n=1

Ricordiamo che, data una funzione sommabile f ∈ L1 (Rd ), solitamente si indica con16
Z
fˆ(η) = eiη·x f (x)dx, (3.5.1)
Rd

la trasformata di Fourier della funzione f . Se X ∈ AC con densità γX allora


Z
ϕX (η) = eiη·x γX (x)dx,
Rd

ossia la funzione caratteristica ϕX = γ̂X è la trasformata di Fourier della densità di X.


Proposizione 3.5.3. Valgono le seguenti proprietà:
i) ϕX (0) = 1;
h i
ii) ϕX (η) ≤ E eiη·X = 1 per ogni η ∈ Rd ;
16 In realtà, a seconda dei campi di applicazione, si utilizzano diverse convenzioni per la definizione della trasformata di Fourier:
per esempio, di solito nei corsi di analisi matematica si definisce
Z
fˆ(η) = e−iη·x f (x)dx
Rd
mentre nelle applicazioni all’ingegneria, a volte si usa la definizione
Z
1
fˆ(η) = d
eiη·x f (x)dx.
d
(2π) 2 R

Quest’ultima è anche la definizione utilizzata nel software Mathematica. Noi useremo sempre la (3.5.1) che è la definizione usata
abitualmente in teoria della probabilità. Occorre in particolare fare attenzione alla formula per l’inversione della trasformata di
Fourier che è diversa in base alla notazione utilizzata.
146 CAPITOLO 3. VARIABILI ALEATORIE

h i
iii) ϕX (η + h) − ϕX (η) ≤ E eih·X − 1 e quindi, per il Teorema della convergenza dominata, ϕX è unifor-
memente continua su Rd ;
iv) indicando con α ∗ la matrice trasposta di α, si ha
h i h ∗ i
ϕαX+b (η) = E ei⟨η,αX+b⟩ = ei⟨b,η⟩ E ei⟨α η,X⟩ = ei⟨b,η⟩ ϕX (α ∗ η); (3.5.2)

v) nel caso d = 1, ϕX (−η) = ϕ−X (η) = ϕX (η) dove z̄ indica il coniugato di z ∈ C. Di conseguenza, se X ha
distribuzione pari17 , ossia µX = µ−X , allora ϕX assume valori reali e in tal caso vale
Z Z
iηx
ϕX (η) = e µX (dx) = cos(xη)µX (dx).
R R

Consideriamo ora alcuni esempi notevoli.


i) Se X ∼ δx0 , con x0 ∈ Rd , allora
ϕX (η) = eiη·x0 .

Osserviamo che in questo caso ϕX < L1 (Rd ) perché ϕX (η) ≡ 1 per ogni η ∈ Rd . Come caso particolare,
se X ∼ δ0 allora ϕX ≡ 1. Inoltre se X ∼ 21 (δ−1 + δ1 ) allora ϕX (η) = cos η.
ii) Se X ∼ Bep , con p ∈ [0, 1], allora
 
ϕX (η) = 1 + p eiη − 1 .
Inoltre, poiché X ∼ Binn,p è uguale in legge alla somma X1 + · · · + Xn di n v.a. di Bernoulli indipendenti
(cfr. Proposizione 3.6.3) allora
h i  h in   n
ϕX (η) = E eiη(X1 +···+Xn ) = E eiηX1 = 1 + p eiη − 1 . (3.5.3)

iii) Se X ∼ Poissonλ , con λ > 0, allora



X λk ikη   
ϕX (η) = e−λ e = exp λ eiη − 1 .
k!
k=0

iv) Se X ∼ Unif[−1,1] allora


sin η
ϕX (η) = , η ∈ R. (3.5.4)
η
Si veda la Figura 3.7 per il grafico della densità uniforme e della sua trasformata di Fourier. Anche in
questo caso ϕX < L1 (R) (si veda, per esempio, [68] Cap.5 Sez.12).
v) Se X è una v.a. con distribuzione di Cauchy, ossia X ha densità
1
γX (x) = , x ∈ R, (3.5.5)
π (1 + x2 )
allora
ϕX (η) = e−|η| , η ∈ R. (3.5.6)
Si veda la Figura 3.8 per il grafico della densità di Cauchy e della sua trasformata di Fourier. Si noti
che in questo caso ϕX è una funzione continua ma non differenziabile nell’origine.
17 Ciò è vero in particolare se X ha densità γ che è una funzione pari, ossia γ (x) = γ (−x), x ∈ R.
X X X
3.5. FUNZIONE CARATTERISTICA 147

1.0

0.8

0.6

0.4

0.2

-10 -5 5 10

-0.2

Figura 3.7: Grafico della densità uniforme su [−1, 1] (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)

1.0

0.8

0.6

0.4

0.2

-6 -4 -2 2 4 6

Figura 3.8: Grafico della densità di Cauchy (3.5.5) (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)

vi) Se X ∼ Nµ,σ 2 , con µ ∈ R e σ ≥ 0, allora


1 2η2
ϕX (η) = eiηµ− 2 σ , η ∈ R. (3.5.7)

Osserviamo che per σ = 0 ritroviamo la CHF della delta di Dirac centrata in µ.


Anzitutto proviamo la (3.5.7) nel caso standard µ = 0 e σ = 1. Preliminarmente osserviamo che
trattandosi della trasformata di Fourier di una funzione pari si ha (cfr. Proposizione 3.5.3-v))
x2
e− 2
Z
ϕX (η) = cos(ηx) √ dx.
R 2π
Ora calcoliamo la derivata di ϕX : utilizzando un teorema di scambio di segno di derivata-integrale
nella prima uguaglianza, si ha
x2
e− 2
Z
d
ϕ (η) = sin(ηx)(−x) √ dx
dη X R 2π
148 CAPITOLO 3. VARIABILI ALEATORIE

x2 2
d − x2
(poiché −xe− 2 = dx e )

x2
d e− 2
Z
= sin(ηx) √ dx =
R dx 2π

(integrando per parti )

x2
2 x=+∞ e− 2
Z
1

− x2
=√ sin(ηx)e − η cos(ηx) √ dx
2π x=−∞ R 2π
= −ηϕX (η).

In definitiva, ϕX è la soluzione del problema di Cauchy



d
 dη ϕX (η) = −ηϕX (η),



ϕX (0) = 1,

da cui si ha la tesi:
η2
ϕX (η) = e− 2 . (3.5.8)
Y −µ
Per il caso generale in cui Y ∼ Nµ,σ 2 , basta considerare X := σ ∼ N0,1 e combinare la (3.5.8) con la
(3.5.2).

vii) Se X ∼ Expλ , con λ ∈ R>0 , allora


Z +∞
λ
ϕX (η) = λ eiηx−λx dx = .
0 λ − iη

Esempio 3.5.4. [!] Siano N e Z1 , Z2 , . . . v.a. indipendenti con N ∼ Poissonλ e Zn identicamente distribuite
per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk se N ≥ 1.


k=1

Si ha
 P n 
h i X∞  iη Zk 
ϕX (η) = E eiηX = E e k=1 1(N =n)  =
 
 
n=0

(per l’indipendenza di N e Zk , k ≥ 1)
 P n 

X  iη Zk 
= E e k=1  P (N = n)
 
n=0

(perchè le Zk sono indipendenti e identicamente distribuite)



X in λn
= eλ(ϕZ1 (η)−1)
h
= e−λ E eiηZ1
n!
n=0

dove ϕZ1 indica la CHF di Z1 .


3.5. FUNZIONE CARATTERISTICA 149

3.5.1 Il teorema di inversione


In questa sezione dimostriamo l’importante formula di inversione della funzione caratteristica (Teore-
ma 3.5.6). Cominciamo con un esercizio preliminare.
sin x
Esercizio 3.5.5. Proviamo che vale la seguente formula per l’integrale generalizzato di x :
Z +∞ Z a
sin x sin x π
dx := lim dx = . (3.5.9)
0 x a→+∞ 0 x 2

Consideriamo la funzione
f (x, y) = e−xy sin x, x > 0, y > 0.
Poiché per ogni x, y, a > 0 vale
Z +∞
sin x
f (x, y)dy = ,
0 x
Za
1 e−ay ye−ay
f (x, y)dx = − cos a − sin a,
0 1 + y2 1 + y2 1 + y2

per il Teorema di Fubini si ha


Za Z +∞ −ay Z +∞ −ay
sin x π e ye
dx = − cos a 2
dy − sin a dy, a > 0,
0 x 2 0 1 + y 0 1 + y2
1
e di conseguenza, poiché 1+y 2
≤ 1,
Z a Z +∞
sin x π 1+a
− ≤ (1 + y)e−ay dy = 2 , a > 0.

0 x 2 0 a
sin x
Questo prova la (3.5.9). Osserviamo che x è integrabile in senso generalizzato ma non è una funzione
sommabile.

Teorema 3.5.6 (Teorema di inversione). [!!]


Sia µ una distribuzione su (R, B) e
Z
ϕ(η) := eixη µ(dx), η ∈ R. (3.5.10)
R

Allora per ogni a < b si ha


R
e−iaη − e−ibη
Z
µ({a}) + µ({b}) 1
µ(]a, b[) + = lim ϕ(η)dη. (3.5.11)
2 R→+∞ 2π −R iη

Inoltre se ϕ ∈ L1 (R) allora µ è assolutamente continua e ha per densità la funzione


Z
1
γ(x) := e−ixη ϕ(η)dη, x ∈ R. (3.5.12)
2π R

Osservazione 3.5.7. [!] Come conseguenza del Teorema 3.5.6, si ha che la CHF di una v.a. identifica la sua
legge: in altri termini, se X e Y sono v.a. con funzioni caratteristiche uguali,

ϕX (η) = ϕY (η), η ∈ R,
150 CAPITOLO 3. VARIABILI ALEATORIE

allora anche le relative leggi µX e µY coincidono

µX (H) = µY (H), H ∈ B.

Infatti per la (3.5.11) si ha µX (]a, b[) = µY (]a, b[) per ogni a, b ∈ R \ A dove

A := {x ∈ R | µX ({x}) + µY ({x}) > 0}.

D’altra parte, per l’Osservazione 2.4.11, A è finito o al più numerabile e quindi R \ A è denso in R: dal
Teorema di Caratheodory segue che µX ≡ µY .
Corollario 3.5.8. [!] Se µ, ν sono distribuzioni tali che
Z Z
f dµ = f dν
R R

per ogni f ∈ bC(R) allora µ ≡ ν. Analogamente, se X, Y sono v.a. tali che E [f (X)] = E [f (Y )] per ogni
f ∈ bC(R), allora X, Y sono uguali in legge.
Dimostrazione. Scegliendo f della forma f (x) = cos(xη) o f (x) = sin(xη), con η ∈ R, dall’ipotesi si deduce
che le CHF di µ e ν sono uguali. La tesi segue dal Teorema 3.5.6.

Osservazione 3.5.9. Sia µ una distribuzione con densità f tale che fˆ ∈ L1 (R): per il Teorema 3.5.6 anche γ
definita da (3.5.10)-(3.5.12) è densità di µ e quindi per l’Osservazione 2.4.19 si ha f = γ q.o. ossia
Z
1
f (x) = e−ixη fˆ(η)dη per quasi ogni x ∈ R, (3.5.13)
2π R

dove l’integrale nel membro a destra, come funzione di x, è limitato e uniformemente continuo su R (per
la Proposizione 3.5.3). La (3.5.13) è la classica formula di inversione della trasformata di Fourier.
Si noti che una densità f non è necessariamente limitata e continua (anzi, si può modificare su ogni
Boreliano Lebesgue-trascurabile, mantenendo invariata la sua trasformata di Fourier): tuttavia se fˆ ∈ L1 (R)
allora f è necessariamente uguale q.o. a una funzione limitata e continua.
Osservazione 3.5.10. In base al Teorema 3.5.6, se ϕX ∈ L1 (R) allora X ∈ AC e una densità di X è data dalla
formula di inversione Z
1
γX (x) = e−ixη ϕX (η)dη, x ∈ R.
2π R
La condizione ϕX ∈ L1 (R) è solo sufficiente ma non necessaria per l’assoluta continuità di µ. Infatti, per
l’Osservazione 3.5.9, se ϕX ∈ L1 (R) allora necessariamente la densità di X è uguale q.o. a una funzione
continua: tuttavia, per esempio, la distribuzione uniforme su [−1, 1] è assolutamente continua ma ha den-
sità γ(x) = 21 1[−1,1] (x) che non è uguale q.o. a una funzione continua; in effetti, la sua CHF in (3.5.4) non è
sommabile.
Dimostrazione del Teorema 3.5.6. Fissati a, b ∈ R con a < b, poniamo
b
e−iaη − e−ibη
Z
ga,b (η) := e−ixη dx = , η ∈ R. (3.5.14)
a iη

Osserviamo che, per la disuguaglianza triangolare, ga,b (η) ≤ b − a. Dunque per il Teorema di Fubini, per
ogni R > 0 si ha
ZR Z ZR !
ga,b (η)ϕ(η)dη = ga,b (η)eixη dη µ(dx). (3.5.15)
−R R −R
3.5. FUNZIONE CARATTERISTICA 151

Essendo coseno e seno rispettivamente funzioni pari18 e dispari, si ha



Z R Z R

π ! se x = a oppure x = b,
ixη sin((x − a)η) sin((x − b)η) 

ga,b (η)e dη = 2 − dη −→ Ga,b (x) := 2π se a < x < b,

−R 0 η η 

0

se x < a oppure x > b,
(3.5.16)
al limite per R → +∞: questo segue dal fatto che per la (3.5.9), vale19

π
Z R Z λR Z |λ|R

 2 se λ > 0,
sin λη sin η sin η 

dη = dη = sgn(λ) dη −→ 0 se λ = 0,

0 η 0 η 0 η 
 π
− se λ < 0.

2

Ora utilizziamo il Teorema 3.2.11 della convergenza dominata20 per passare al limite per R → +∞ in
(3.5.15) si ha
Z R Z Z Z Z
1 1 1 1
lim ga,b (η)ϕ(η)dη = Ga,b (x)µ(dx) = µ(dx) + µ(dx) + µ(dx)
R→+∞ 2π −R 2π R 2 {a} ]a,b[ 2 {b}

e questo prova la (3.5.11).



Proviamo la seconda parte della tesi: se ϕ ∈ L1 (R) allora, ricordando che ga,b (η)ϕ(η) ≤ (b − a)|ϕ(η)| e
applicando il Teorema della convergenza dominata per passare al limite in R nella (3.5.11), otteniamo
Z
1 1
g (η)ϕ(η)dη = µ(]a, b[) + µ({a, b}) ≥ µ({b}). (3.5.17)
2π R a,b 2

Ma la disuguaglianza in (3.5.17), ancora per il Teorema della convergenza dominata e passando al limite
per a → b− , implica che µ({b}) = 0 per ogni b ∈ R e quindi vale
Z
1
µ(]a, b[) = g (η)ϕ(η)dη =
2π R a,b

(utilizzando la seconda uguaglianza nella (3.5.14) e il Teorema di Fubini)


Z b Z ! Z b
1 −ixη
= e ϕ(η)dη dx = γ(x)dx,
a 2π R a

e quindi γ in (3.5.12) è una densità di µ.

Sia X = (X1 , . . . , Xn ) una v.a. La CHF di X è detta anche funzione caratteristica congiunta delle v.a.
X1 , . . . , Xn ; viceversa, ϕX1 , . . . , ϕXn sono dette CHF marginali di X.

Proposizione 3.5.11. Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ), si ha:
18 Di conseguenza l’integrale fra −R e R della funzione pari cos η moltiplicata per la funzione dispari 1 si annulla.
η
19 Definiamo la funzione segno nel modo seguente



1 se λ > 0,

sgn(λ) =  0 se λ = 0,



−1 se λ < 0.

Rr
20 Per la (3.5.16), il modulo dell’integrando in (3.5.15) è limitato da 2 sup sin η dη < +∞
η
r>0 0
152 CAPITOLO 3. VARIABILI ALEATORIE

i) ϕXi (ηi ) = ϕX (0, . . . , 0, ηi , 0, . . . , 0);

ii) X1 , . . . , Xn sono indipendenti se e solo se


n
Y
ϕX (η) = ϕXi (ηi ), η = (η1 , . . . , ηn ).
i=1

Dimostrazione. La proprietà i) è immediata conseguenza della definizione di funzione caratteristica. Pro-


viamo la ii) solo nel caso n = 2. Se X1 , X2 sono indipendenti allora lo sono anche le v.a. eiη1 ·X1 , eiη2 ·X2 e
quindi si ha
h i h i h i
ϕX (η1 , η2 ) = E eiη1 ·X1 +iη2 ·X2 = E eiη1 ·X1 E eiη2 ·X2 = ϕX1 (η1 )ϕX2 (η2 ).

d d
Viceversa, consideriamo due v.a. X e2 indipendenti e tali che X
e1 , X e1 = X1 e X
e2 = X2 . Allora si ha

ϕ(Xe1 ,Xe2 ) (η1 , η2 ) = ϕXe1 (η1 )ϕXe2 (η2 ) = ϕX1 (η1 )ϕX2 (η2 ) = ϕ(X1 ,X2 ) (η1 , η2 ).

Poiché (X1 , X2 ) e (X e2 ) hanno uguale CHF, per il Teorema 3.5.6, hanno anche uguale legge: da questo
e1 , X
segue che X1 , X2 sono indipendenti.

3.5.2 Distribuzione normale multidimensionale


Fissati µ ∈ Rd e C, matrice d ×d, simmetrica e definita positiva, definiamo la funzione di densità Gaussiana
d-dimensionale di parametri µ e C nel modo seguente:

1 1 −1
Γ (x) = p e− 2 ⟨C (x−µ),x−µ⟩ , x ∈ Rd . (3.5.18)
d
(2π) det C

Un calcolo diretto mostra che


Z
Γ (x)dx = 1, (3.5.19)
Rd
Z
xi Γ (x)dx = µi , (3.5.20)
d
ZR  
(xi − µi ) xj − µj Γ (x)dx = Cij , (3.5.21)
Rd

per ogni i, j = 1, . . . , d. La (3.5.19) mostra semplicemente che Γ è una densità; le (3.5.20) e (3.5.21) motivano
la seguente

Definizione 3.5.12. Se X è una v.a. d-dimensionale con densità Γ in (3.5.18) allora diciamo che X ha
distribuzione multi-normale con media µ e matrice di covarianza C e scriviamo X ∼ Nµ,C .

Chiaramente, se X ∼ Nµ,C allora E [X] = µ per la (3.5.20) e cov(X) = C per la (3.5.21).

Proposizione 3.5.13. [!] La CHF di X ∼ Nµ,C è data da

1
ϕX (η) = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ , η ∈ Rd . (3.5.22)

Dimostrazione. Si tratta del calcolo della trasformata di Fourier di Γ in (3.5.18): esso è analogo al caso
unodimensionale (cfr. formula (3.5.7)).
3.5. FUNZIONE CARATTERISTICA 153

Osserviamo che la CHF in (3.5.22) è una funzione Gaussiana in cui all’esponente appaiono un termine
lineare in η che dipende solo dal parametro di media µ e un termine quadratico in η che dipende solo dalla matrice
di covarianza C.
È notevole il fatto che, a differenza della densità Γ in cui compare l’inversa di C, nella funzione carat-
teristica ϕX compare la forma quadratica della matrice C stessa. Dunque affinché ϕX sia ben definita non
è necessario che C sia strettamente definita positiva. In effetti in molte applicazioni capita di avere matrici
di covarianza degeneri e pertanto risulta utile estendere la Definizione 3.5.12 nel modo seguente:

Definizione 3.5.14. Dati µ ∈ Rd e C matrice d × d, simmetrica e semi-definita positiva, diciamo che X ha


distribuzione multi-normale e scriviamo X ∼ Nµ,C , se la CHF di X è la ϕX in (3.5.22).

In base al Teorema 3.5.6, la definizione precedente è ben posta poiché la funzione caratteristica identi-
fica univocamente la distribuzione. Inoltre la Definizione 3.5.14 non è vuota nel senso che una v.a. X, che
abbia ϕX in (3.5.22) come funzione caratteristica, esiste: infatti per l’Osservazione 3.2.44, data C, matrice
d × d simmetrica e semi-definita positiva, esiste α tale che C = αα ∗ ; allora basta porre X = αZ + µ dove Z è
una v.a. multi-normale standard, ossia Z ∼ N0,I con I matrice identità d × d. Infatti per la (3.5.2) si ha

|α ∗ η |2 1
ϕαZ+µ (η) = eiη·µ ϕZ (α ∗ η) = eiη·µ− 2 = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ .

Utilizzando la funzione caratteristica è facile provare alcune proprietà fondamentali della distribuzione
normale, come per esempio l’invarianza per trasformazioni lineari. Nel seguito, quando usiamo notazioni
matriciali, il vettore aleatorio d-dimensionale X viene identificato con la matrice colonna d × 1.

Proposizione 3.5.15. [!] Siano X ∼ Nµ,C , una matrice α costante N × d e β ∈ RN con N ∈ N. Allora αX + β
è una v.a. con distribuzione normale N -dimensionale:

αX + β ∼ Nαµ+β,αCα ∗ . (3.5.23)

Dimostrazione. Calcoliamo la CHF di αX + β: per la Proposizione 3.5.3-iv) si ha

ϕαX+β (η) = ei⟨η,β⟩ ϕX (α ∗ η) =

(per l’espressione (3.5.22) della CHF di X calcolata in α ∗ η)


∗ η⟩− 1 ⟨Cα ∗ η,α ∗ η⟩
= ei⟨η,β⟩ ei⟨µ,α 2

1 ∗ η,η⟩
= ei⟨αµ+β,η⟩− 2 ⟨αCα ,

da cui la tesi.

Come conseguenze notevoli della (3.5.23) si ha che se (X, Y ) ha distribuzione normale bidimensionale
allora, per esempio, X e X + Y sono v.a. con distribuzione normale.

Esempio 3.5.16. Siano X, Y ∼ N0,1 indipendenti e (u, v) ∈ R2 tale che u 2 + v 2 = 1. Proviamo che

Z := uX + vY ∼ N0,1 .

Una semplice applicazione del Teorema 3.3.23 mostra che (X, Y ) ∼ N0,I dove I indica la matrice identità
2 × 2; allora poiché !
X  
uX + vY = α , con α = u v ,
Y
la tesi segue dalla (3.5.23), essendo
var(Z) = αα ∗ = u 2 + v 2 = 1.
154 CAPITOLO 3. VARIABILI ALEATORIE

Esempio 3.5.17. Sia (X, Y , Z) ∼ Nµ,C con


 
 1 −1 1 
µ = (µX , µY , µZ ) , C = −1 2 −2 .
 
1 −2 2
 

Si noti che C ≥ 0 e det C = 0 (le ultime due righe di C sono linearmente dipendenti): dunque (X, Y , Z) non
ha densità. Tuttavia Y ∼ NµY ,2 e (X, Z) ∼ N(µX ,µZ ),Ĉ con
!
1 1
Ĉ = ,
1 2

e quindi Y e (X, Z) hanno densità Gaussiana. Per completezza riportiamo la matrice α della fattorizzazione
C = αα ∗ di Cholesky (cfr. Osservazione 3.2.44):
 
1 −1 1 
α = 0 1 −1 .
 
0 0 0
 

Proposizione 3.5.18. [!] Sia X = (X1 , . . . , Xd ) una v.a. con distribuzione normale d-dimensionale. Le v.a
X1 , . . . , Xd sono indipendenti se e solo se sono scorrelate, ossia cov (Xh , Xk ) = 0 per ogni h, k = 1, . . . , d.
Dimostrazione. Se X1 , . . . , Xd sono v.a. indipendenti allora cov (Xh , Xk ) = 0 per il Teorema 3.3.28. Viceversa,
poniamo µh = E [Xh ] e Chk = cov (Xh , Xk ): per la Proposizione 3.5.15, la v.a. Xh ha distribuzione normale con
CHF data da 1 2
ϕXh (ηh ) = eiµh ηh − 2 Chh ηh , ηh ∈ R.
D’altra parte, per ipotesi Chk = Ckh = 0 e quindi
d
iµ·η− 21
P
Chh ηh2 d
Y
ϕX (η) = e h=1 = ϕXh (ηh ), η = (η1 , . . . , ηd ) ∈ Rd ,
h=1

e quindi la tesi segue dalla Proposizione 3.5.11.


Esempio 3.5.19. In questo esempio mostriamo che, nella Proposizione 3.5.18, l’ipotesi che X1 , . . . , Xd ab-
biano distribuzione congiunta normale non si può rimuovere, dando un esempio di v.a. con distribuzioni
marginali normali che sono scorrelate ma non indipendenti.
Consideriamo due v.a. indipendenti, rispettivamente con distribuzione normale standard, X ∼ N0,1 ,
e di Bernoulli, Z ∼ µZ := 12 (δ−1 + δ1 ). Posto Y = ZX, proviamo che Y ∼ N0,1 : infatti, per l’ipotesi di
indipendenza, la distribuzione congiunta di X e Z è la distribuzione prodotto

N0,1 ⊗ µZ

e quindi per ogni f ∈ mB e limitata si ha


Z
f (zx) N0,1 ⊗ µZ (dx, dz) =

E [f (ZX)] =
R2

(per il Teorema di Fubini)


Z Z !
= f (zx)N0,1 (dx) µZ (dz)
R R
Z Z
1 1
= f (−x)N0,1 (dx) + f (x)N0,1 (dx)
2 R 2 R
3.5. FUNZIONE CARATTERISTICA 155
Z
= f (x)N0,1 (dx).
R

In particolare, se f = 1H con H ∈ B, si ottiene

P (Y ∈ H) = N0,1 (H),

ossia Y ∼ N0,1 .

Proviamo ora che cov(X, Y ) = 0 ma X, Y non sono indipendenti. Si ha:


h i
cov(X, Y ) = E [XY ] = E ZX 2 =

(per l’indipendenza di X e Z)
h i
= E [Z] E X 2 = 0.

Verifichiamo che X, Y non sono indipendenti:

P ((X ∈ [0, 1]) ∩ (Y ∈ [0, 1])) = P ((X ∈ [0, 1]) ∩ (ZX ∈ [0, 1])) =

(poiché sull’evento (X ∈ [0, 1]) si ha (ZX ∈ [0, 1]) = (Z = 1) ∩ (X ∈ [0, 1]))

= P ((X ∈ [0, 1]) ∩ (Z = 1)) =

(per l’indipendenza di X e Z)

1
= P (X ∈ [0, 1]).
2

D’altra parte, essendo Y ∼ N0,1 , si ha P (Y ∈ [0, 1]) < 1


2 e quindi P ((X ∈ [0, 1])∩(Y ∈ [0, 1])) < P (X ∈ [0, 1])P (Y ∈
[0, 1]).

Questo esempio non contraddice la Proposizione 3.5.18 poiché X, Y non hanno distribuzione congiunta
normale. Infatti la CHF congiunta è data da
h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y )
h i h i
= E eiX(η1 −η2 ) 1(Z=−1) + E eiX(η1 +η2 ) 1(Z=1) =

(per l’indipendenza di X e Z)

1 h iX(η1 −η2 ) i 1 h iX(η1 +η2 ) i


= E e + E e =
2 2

(poiché X ∼ N0,1 )
2 2
eη1 η2 + e−η1 η2 − η1 +η2
!
1 − (η1 −η2 )2 (η1 +η2 )2
= e 2 + e− 2 = e 2 ,
2 2

che non è la CHF di una normale bidimensionale. Incidentalmente questo prova anche che ϕ(X,Y ) (η1 , η2 ) ,
ϕX (η1 )ϕY (η2 ), ossia conferma che X, Y non sono indipendenti.
156 CAPITOLO 3. VARIABILI ALEATORIE

3.5.3 Sviluppo in serie della funzione caratteristica e momenti


h Proviamo
i un interessante risultato che mostra che i momenti di una v.a. X ∈ Lp (Ω, P ), ossia i valori attesi
E X k delle potenze di X con k ≤ p, possono essere ottenuti derivando la CHF di X (si veda in particolare
l’Osservazione 3.5.21).

Teorema 3.5.20. [!] Sia X una v.a. reale appartenente a Lp (Ω, P ) con p ∈ N. Allora vale il seguente sviluppo
della CHF di X intorno all’origine:
h i
p
X E (iX)k
ϕX (η) = η k + o(η p ) per η → 0. (3.5.24)
k!
k=0

Dimostrazione. Ricordiamo la formula di Taylor con resto di Lagrange per f ∈ C p (R): per ogni η ∈ R esiste
λ ∈ [0, 1] tale che
p−1 (k)
X f (0) f (p) (λη) p
f (η) = ηk + η .
k! p!
k=0

Applichiamo tale formula alla funzione f (η) = eiηX e otteniamo


 
p
X (iX) k (iX)p eiληX − 1
eiηX = ηk + ηp,
k! p!
k=0

dove in questo caso λ ∈ [0, 1] dipende da X e quindi è aleatorio. Applicando il valore atteso all’ultima
identità otteniamo h i
p
X E (iX)k
ϕX (η) = η k + R(η)η p
k!
k=0

dove
1 h p  iληX i
R(η) = E (iX ) e − 1 −→ 0 per η → 0,
p!
per il Teorema della convergenza dominata, poiché per ipotesi
 
(iX p ) eiληX − 1 ≤ 2|X|p ∈ L1 (Ω, P ).

Osservazione 3.5.21. [!] Sia X ∈ Lp (Ω, P ). La (3.5.24) implica che ϕX è derivabile p volte nell’origine e
inoltre, per l’unicità dello sviluppo in serie di Taylor, vale

d k ϕX (η) h
k
i
|η=0 = E (iX) (3.5.25)
dη k

per ogni k = 0, . . . , p.

Osservazione 3.5.22. Supponiamo che X ∈ Lp (Ω, P ) per ogni p ∈ N e che ϕX sia una funzione analitica.
Allora a partire dai momenti di X è possibile ricavare ϕX e quindi la legge di X.

Esempio 3.5.23. Sia X una v.a. con distribuzione di Cauchy come in (3.5.5). Allora X < L1 (Ω, P ) e la CHF
ϕX in (3.5.6) non è differenziabile nell’origine.
3.5. FUNZIONE CARATTERISTICA 157

Esempio 3.5.24. Data X ∼ Nµ,σ 2 si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poiché

σ 2 η2
ϕX (η) = eiµη− 2

allora con molta pazienza (oppure con un software di calcolo simbolico) possiamo calcolare:
 
ϕ ′ (η) = i µ + iησ 2 ϕ(η),
  2 
ϕ (2) (η) = i 2 σ 2 + µ + iησ 2 ϕ(η),
   2 
ϕ (3) (η) = i 3 µ + iησ 2 3σ 2 + µ + iησ 2 ϕ(η),
 
ϕ (4) (η) = i 4 µ4 + 2µ2 σ 2 (3 + 2iµη) + 2η 2 σ 6 (−3 − 2iµη) + 3σ 4 (1 − 2µη(µη − 2i)) + η 4 σ 8 ϕ(η),

da cui

ϕ ′ (0) = iµ,
 
ϕ (2) (0) = − µ2 + σ 2 ,
 
ϕ (3) (0) = −i µ3 + 3µσ 2 ,
ϕ (4) (0) = µ4 + 6µ2 σ 2 + 3σ 4 .

Allora per la (3.5.25) si ha

E [X] = µ,
h i
E X 2 = µ2 + σ 2 ,
h i
E X 3 = µ3 + 3µσ 2 ,
h i
E X 4 = µ4 + 6µ2 σ 2 + 3σ 4 .

Esempio 3.5.25. Data X ∼ Expλ si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poiché

λ
ϕX (η) =
λ − iη

allora abbiamo:

i k k!λ
ϕ (k) (η) = , k ∈ N,
(λ − iη)k+1

da cui

i k k!
ϕ (k) (0) = .
λk
Allora per la (3.5.25) si ha
h i k!
E Xk = k .
λ
158 CAPITOLO 3. VARIABILI ALEATORIE

3.6 Complementi
3.6.1 Somma di variabili aleatorie
Teorema 3.6.1. Siano X, Y ∈ AC su (Ω, F , P ) a valori in Rd , con densità congiunta γ(X,Y ) . Allora X + Y ∈ AC
e ha densità Z
γX+Y (z) = γ(X,Y ) (x, z − x)dx, z ∈ Rd . (3.6.1)
Rd
Inoltre se X, Y sono indipendenti allora
Z
γX+Y (z) = (γX ∗ γY ) (z) := γX (x)γY (z − x)dx, z ∈ Rd . (3.6.2)
Rd

ossia la densità di X + Y è la convoluzione delle densità di X e Y .


Analogamente, se X, Y sono v.a. discrete su (Ω, P ) a valori in Rd , con funzione di distribuzione congiunta
µ̄(X,Y ) , allora X + Y è una v.a. discreta con funzione di distribuzione
X
µ̄X+Y (z) = µ̄(X,Y ) (x, z − x), z ∈ Rd .
x∈X(Ω)

In particolare, se X, Y sono indipendenti allora


X
µ̄X+Y (z) = (µ̄X ∗ µ̄Y )(z) := µ̄X (x)µ̄Y (z − x), (3.6.3)
x∈X(Ω)

ossia µ̄X+Y è la convoluzione discreta delle funzioni di distribuzione µ̄X di X e µ̄Y di Y .


Dimostrazione. Per ogni H ∈ Bd si ha
Z
P (X + Y ∈ H) = E [1H (X + Y )] = 1H (x + y)γ(X,Y ) (x, y)dxdy =
Rd ×Rd

(col cambio di variabili z = x + y)


Z
= 1H (z)γ(X,Y ) (x, z − x)dxdz =
Rd ×Rd

(per il Teorema di Fubini)


Z Z !
= γ(X,Y ) (x, z − x)dx dz,
H Rd

e questo prova che la funzione γX+Y in (3.6.1) è una densità di X + Y . Infine la (3.6.2) segue dalla (3.6.1) e
dalla (3.3.5).
Per quanto riguarda il caso discreto, si ha
 
 [  
µ̄X+Y (z) = P (X + Y = z) = P  (X, Y ) = (x, z − x)  =

 
x∈X(Ω)

(per la σ -additività di P )
X
= µ̄(X,Y ) (x, z − x) =
x∈X(Ω)
3.6. COMPLEMENTI 159

(nel caso in cui X, Y siano indipendenti, per la (3.3.6))


X
= µ̄X (x)µ̄Y (z − x).
x∈X(Ω)

Esempio 3.6.2. Siano X, Y v.a. indipendenti su (Ω, F , P ) a valori in Rd . Procedendo come nella dimostra-
zione del Teorema 3.6.1, si prova che se X ∈ AC allora anche (X + Y ) ∈ AC e ha densità
Z
γX+Y (z) = γX (z − y)µY (dy), z ∈ Rd . (3.6.4)
Rd

Per esempio, siano X ∼ Nµ,σ 2 e Y ∼ Bep indipendenti. Allora X + Y è assolutamente continua e, posto

1 1 x−µ 2
Γµ,σ 2 (x) = √ e− 2 ( σ ) ,
2πσ 2
per la (3.6.4), X + Y ha densità
Z
γX+Y (z) = Γµ,σ 2 (z − y)Bep (dy)
Rd
= pΓµ,σ 2 (z − 1) + (1 − p)Γµ,σ 2 (z)
= pΓµ+1,σ 2 (z) + (1 − p)Γµ,σ 2 (z)

Più in generale, se Y è una v.a. discreta con distribuzione del tipo (3.1.4), ossia
X
pn δyn ,
n≥1

allora X + Y ha densità che è combinazione lineare di Gaussiane con la medesima varianza e con i poli
traslati di yn : X
γX+Y (z) = pn Γµ+yn ,σ 2 (z).
n≥1

3.6.2 Esempi notevoli


Proposizione 3.6.3 (Somma di Bernoulli indipendenti). Sia (Xi )i=1,...,n una famiglia di v.a. indipendenti
di Bernoulli, Xi ∼ Bep . Allora
S := X1 + · · · + Xn ∼ Binn,p . (3.6.5)
Di conseguenza se X ∼ Binn,p allora E [X] = E [S] e quindi

E [X] = nE [X1 ] = np, var(S) = nvar(X1 ) = np(1 − p). (3.6.6)

Inoltre se X ∼ Binn,p e Y ∼ Binm,p sono v.a. indipendenti allora X + Y ∼ Binn+m,p .

Dimostrazione. Posto
Ci = (Xi = 1), i = 1, . . . , n,
si ha che (Ci )i=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p. La v.a. S in
(3.6.5) indica il numero di successi fra le n prove (come nell’Esempio 3.1.7-iii)) e quindi, come abbiamo
già provato, S ∼ Binn,p . In alternativa, si può calcolare la funzione di distribuzione di S come convoluzione
discreta mediante la (3.6.3), ma i calcoli sono un po’ noiosi. Le formule (3.6.6) sono immediata conseguenza
160 CAPITOLO 3. VARIABILI ALEATORIE

della linearità dell’integrale e del fatto che la varianza di v.a. indipendenti è uguale alla somma delle singole
varianze (cfr. formula (3.3.9)).
Per provare la seconda parte dell’enunciato, consideriamo prima il caso in cui

X = X1 + · · · + Xn , Y = Y1 + · · · + Ym

con X1 , . . . , Xn , Y1 , . . . , Ym ∼ Bep indipendenti. Allora per quanto precedentemente provato si ha

X + Y = X1 + · · · + Xn + Y1 + · · · + Ym ∼ Binn+m,p .

d d
Consideriamo ora il caso generale in cui X ′ ∼ Binn,p e Y ′ ∼ Binm,p sono indipendenti: allora X ′ = X, Y ′ = Y
e la tesi segue dalla (3.6.3) poiché

µ̄X ′ +Y ′ = µ̄X ′ ∗ µ̄Y ′ = µ̄X ∗ µ̄Y = µ̄X+Y .

Esempio 3.6.4 (Modello binomiale). Uno dei più classici modelli utilizzati in finanza per descrivere l’e-
voluzione del prezzo di un titolo rischioso è il cosiddetto modello binomiale. Introduciamo una successione
(Xk ) di v.a. dove Xk rappresenta il prezzo del titolo al tempo k, con k = 0, 1, . . . , n: si assume che X0 ∈ R>0 e,
fissati due parametri 0 < d < u, si definisce ricorsivamente

Xk = u αk d 1−αk Xk−1 , k = 1, . . . , n,

dove le αk sono v.a. indipendenti di Bernoulli, αk ∼ Bep . In definitiva si ha



uXk−1

 con probabilità p,
Xk = 
dXk−1
 con probabilità 1 − p,

e
Xn = u Yn d n−Yn S0
n
P
dove Yn = αk ∼ Binn,p per la Proposizione 3.6.3. Allora vale
k=1
!
n k
P (Xn = u k d n−k X0 ) = P (Yn = k) = p (1 − p)n−k , k = 0, . . . , n,
k

sono le probabilità dei possibili prezzi al tempo n.

Esempio 3.6.5 (Somma di Poisson indipendenti). Siano λ1 , λ2 > 0 e X1 ∼ Poissonλ1 , X2 ∼ Poissonλ2


indipendenti. Allora X1 + X2 ∼ Poissonλ1 +λ2 .
Infatti, se µ̄1 , µ̄2 sono le funzioni di distribuzione di X1 , X2 , per il Teorema 3.6.1 si ha
n
X
µ̄X1 +X2 (n) = (µ̄1 ∗ µ̄2 )(n) = µ̄1 (k)µ̄2 (n − k) =
k=0

(gli estremi in cui varia k nella sommatoria sono determinati dal fatto che µ̄1 (k) , 0 solo se k ∈ N0 e
µ̄2 (n − k) , 0 solo se n − k ∈ N0 )
n k n
λ2n−k e−λ1 −λ2 X n k n−k e−(λ1 +λ2 )
!
−λ1 λ1 −λ2
X
= e e = λ λ = (λ1 + λ2 )n .
k! (n − k)! n! k 1 2 n!
k=0 k=0
3.6. COMPLEMENTI 161

12.5

12.0

11.5

11.0

10.5

10.0

9.5

0.2 0.4 0.6 0.8 1.0

Figura 3.9: Grafico di una traiettoria del processo binomiale

Esempio 3.6.6 (Somma di normali indipendenti). Se X ∼ Nµ,σ 2 e Y ∼ Nν,δ2 sono v.a. reali indipendenti,
allora
X + Y ∼ Nµ+ν,σ 2 +δ2 .
Infatti, per la (3.6.2) e posto
1 1 x−µ 2
γµ,σ 2 (x) := √ e− 2 ( σ ) , x ∈ R,
σ 2π
un calcolo diretto mostra che
γµ,σ 2 ∗ γν,δ2 = γµ+ν,σ 2 +δ2 .

Esempio 3.6.7 (Chi-quadro a n gradi di libertà). Come diretta conseguenza del Teorema 3.6.1, si verifica
che se X ∼ Gammaα,λ e Y ∼ Gammaβ,λ v.a. reali indipendenti, allora

X + Y ∼ Gammaα+β,λ . (3.6.7)

Come caso particolare si ha che se X, Y ∼ Expλ = Gamma1,λ sono v.a. indipendenti, allora

X + Y ∼ Gamma2,λ

con densità γX+Y (t) = λ2 te−λt 1R>0 (t).


Ricordiamo l’Esempio 3.1.38: la distribuzione chi-quadro χ2 := Gamma 1 , 1 è la distribuzione della
2 2
v.a. X 2 dove X ∼ N0,1 è una normale standard. Più in generale, date X1 , . . . , Xn v.a. indipendenti con
distribuzione N0,1 allora per la (3.6.7) si ha

Z := X12 + · · · + Xn2 ∼ Γ n , 1 . (3.6.8)


2 2

Le v.a. del tipo (3.6.8) intervengono in molte applicazioni e in particolare in statistica matematica (si veda,
per esempio, il Capitolo 8 in [25]). La distribuzione Γ n , 1 viene detta distribuzione chi-quadro a n gradi di
2 2
libertà ed è indicata con χ2 (n): dunque Z ∼ χ2 (n) se ha densità
x
1 e− 2
γn (x) = n   n 1R>0 (x). (3.6.9)
2 2 Γ n2 x1− 2
162 CAPITOLO 3. VARIABILI ALEATORIE

Più in generale, γn in (3.6.9) è una densità se n è un qualsiasi numero reale positivo, non necessariamente
intero.

Esempio 3.6.8. Studiamo la v.a. Z uguale alla “somma del lancio di due dadi”. Le v.a. che indicano
il risultato del lancio di ognuno dei due dadi hanno distribuzione uniforme Unif6 e sono indipendenti.
Allora se µ̄ indica la funzione di distribuzione di Unif6 , ossia µ̄(n) = 16 per n ∈ I6 = {1, . . . , 6}, per la (3.6.3) la
funzione di distribuzione di Z è data dalla convoluzione µ̄ ∗ µ̄:
X
(µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k), 2 ≤ n ≤ 12,
k

dove, affinché µ̄(k) e µ̄(n − k) siano non nulli, deve valere k ∈ I6 e n − k ∈ I6 ossia

(n − 6) ∨ 1 ≤ k ≤ (n − 1) ∧ 6.

Dunque
(n−1)∧6
X (n − 1) ∧ 6 − (n − 6) ∨ 1 + 1
P (Z = n) = (µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k) = .
36
k=(n−6)∨1

Proposizione 3.6.9 (Massimo e minimo di variabili indipendenti). Siano X1 , . . . , Xn v.a. reali indipenden-
ti. Posto
X = max{X1 , . . . , Xn } e Y = min{X1 , . . . , Xn },

si ha la seguente relazione fra le funzioni di ripartizione21


n
Y
FX (x) = FXk (x), x ∈ R, (3.6.10)
k=1
n 
Y 
FY (y) = 1 − 1 − FXk (y) , y ∈ R.
k=1

Dimostrazione. È sufficiente osservare che


n
\
(X ≤ x) = (Xk ≤ x), x ∈ R,
k=1

e quindi, sfruttando l’ipotesi di indipendenza,


 n  n n
\  Y Y
FX (x) = P (X ≤ x) = P  (Xk ≤ x) =
 P (Xk ≤ x) = FXk (x).
k=1 k=1 k=1

Per la seconda identità, si procede in maniera analoga utilizzando la relazione


n
\
(Y > x) = (Xk > x), x ∈ R.
k=1

21 Attenzione a non confondere la (3.6.10) e la (3.3.8)!


3.6. COMPLEMENTI 163

Esempio 3.6.10. Se Xk ∼ Expλk , k = 1, . . . , n, sono v.a. indipendenti allora

Y := min{X1 , . . . , Xn } ∼ Expλ1 +···+λn .

Infatti, ricordiamo che le funzioni di densità e di ripartizione della distribuzione Expλ sono rispettivamente

γ(t) = λe−λt e F(t) = 1 − e−λt , t ≥ 0,

e sono nulle per t < 0. Allora per la Proposizione 3.6.9 si ha che


n 
Y  n
Y
FY (t) = 1 − 1 − FXk (t) = 1 − e−λk t , t ≥ 0,
k=1 k=1

che è proprio la CDF di Expλ1 +···+λn .


Esercizio 3.6.11. Sia X il massimo fra il risultato del lancio di due dadi. Determinare P (X ≥ 4).
Soluzione. Consideriamo le v.a. indipendenti Xi ∼ Unif6 , i = 1, 2, dei risultati dei due lanci di dado. Allora
X = max{X1 , X2 } e si ha

P (X ≥ 4) = 1 − P (X ≤ 3) = 1 − FX (3) =

(per la Proposizione 3.6.9)

= 1 − FX1 (3)FX1 (3) =

(ricordando la (2.4.8))

3 3 3
= 1− · = .
6 6 4
Esercizio 3.6.12. Provare che se Xi ∼ Geompi , i = 1, 2, sono indipendenti allora min{X1 , X2 } ∼ Geomp con
p = p1 + p2 − p1 p2 . Generalizzare il risultato al caso di n v.a. geometriche indipendenti.
Esercizio 3.6.13. Determinare la distribuzione di max{X, Y } e min{X, Y } dove X, Y sono v.a. indipendenti
con distribuzione X ∼ Unif[0,2] e Y ∼ Unif[1,3] .
164 CAPITOLO 3. VARIABILI ALEATORIE
Capitolo 4

Successioni di variabili aleatorie

The new always happens against the


overwhelming odds of statistical
laws and their probability, which for
all practical, everyday purposes
amounts to certainty; the new
therefore always appears in the guise
of a miracle.

Hannah Arendt

L’oggetto di questo capitolo sono le successioni di variabili aleatorie. Il problema dell’esistenza e co-
struzione di tali successioni non è ovvio e richiede strumenti avanzati che vanno al di là dello scopo del
presente testo: pertanto, dando per assunta l’esistenza, ci occuperemo solo di studiare varie nozioni di
convergenza per successioni di variabili aleatorie. Inoltre proveremo alcuni risultati classici, la Legge dei
grandi numeri e il Teorema centrale del limite, e ne analizzeremo alcune applicazioni fra cui l’importante
metodo numerico stocastico noto come metodo Monte Carlo.

4.1 Convergenza per successioni di variabili aleatorie


In questa sezione riepiloghiamo e confrontiamo varie definizioni di convergenza di successioni di varia-
bili aleatorie. Consideriamo uno spazio di probabilità (Ω, F , P ) su cui sono definite una successione di v.a.
(Xn )n∈N e una v.a. X valori in Rd :

i) (Xn )n∈N converge quasi certamente a X se1


 
P lim Xn = X = 1,
n→∞

ossia se
lim Xn (ω) = X(ω)
n→∞

per quasi ogni ω ∈ Ω. In tal caso scriviamo


q.c.
Xn −−−−→ X.
1 Per l’Osservazione 3.1.9, l’insieme
 
lim X = X := {ω ∈ Ω | lim Xn (ω) = X(ω)}
n→∞ n n→∞
è un evento.

165
166 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

ii) Siano (Xn )n∈N e X rispettivamente una successione e una v.a. in Lp (Ω, P ) con p ≥ 1. Diciamo che
(Xn )n∈N converge a X in Lp se
lim E [|Xn − X|p ] = 0.
n→∞

In tal caso scriviamo


Lp
Xn −−−→ X.

iii) (Xn ) converge in probabilità a X se, per ogni ε > 0, vale

lim P (|Xn − X| ≥ ε) = 0.
n→∞

In tal caso scriviamo


P
Xn −−→ X.

iv) (Xn ) converge debolmente (o in legge o in distribuzione) a X se vale

lim E [f (Xn )] = E [f (X)]


n→∞

per ogni f ∈ bC dove bC = bC(Rd ) indica la famiglia delle funzioni continue e limitate da Rd a R. In
tal caso scriviamo
d
Xn −−−−→ X.

Osservazione 4.1.1 (Convergenza debole di distribuzioni). La convergenza debole non richiede che le va-
riabili Xn siano definite sullo stesso spazio di probabilità, ma dipende solo dalle distribuzioni delle variabili
stesse. Diciamo che una successione (µn )n∈N di distribuzioni su Rd converge debolmente alla distribuzione
µ e scriviamo
d
µn −−−−→ µ,
se vale Z Z
lim f dµn = f dµ per ogni f ∈ bC. (4.1.1)
n→∞ Rd Rd

Poiché Z
E [f (Xn )] = f dµXn ,
Rd

la convergenza debole di (Xn )n∈N equivale alla convergenza debole della successione (µXn )n∈N delle corri-
d d
spondenti distribuzioni: in altri termini, Xn −−−−→ X se e solo se µXn −−−−→ µX .

d
Esempio 4.1.2. [!] Sia (xn )n∈N una successione di numeri reali convergente a x ∈ R. Allora δxn −−−−→ δx
poiché, per ogni f ∈ bC, si ha
Z Z
f dδxn = f (xn ) −−−−−−→ f (x) = f dδx .
R n→∞ R

Tuttavia non è vero che


lim δxn (H) = δx (H)
n→∞

per ogni H ∈ B: per esempio, se xn = n1 e H = R>0 . Questo spiega perché nella definizione (4.1.1) di
convergenza di distribuzioni è naturale assumere f ∈ bC e non f = 1H per ogni H ∈ B.
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 167

Esempio 4.1.3. Siano date due successioni di numeri reali (an )n∈N e (σn )n∈N tali che an −→ a ∈ R e 0 <
d
σn −→ 0 per n → ∞. Se Xn ∼ Nan ,σn2 allora Xn −−−−→ X con X ∼ δa . Infatti, per ogni f ∈ bC(R), si ha
Z Z  x−a 2
1 − 12 n
E[f (Xn )] = f dNan ,σn2 = f (x) p e σn dx =
R R 2πσn2
x−an
(col cambio di variabili z = √ )
σn 2

Z  √  e−z2
= f an + zσn 2 √ dz,
R π

che tende ad f (a) = E[f (X)] per il Teorema della convergenza dominata.
Notiamo che se le variabili X e Xn , per ogni n ∈ N, sono definite sullo stesso spazio di probabilità
(Ω, F , P ), si ha anche convergenza in L2 : infatti Xn , X ∈ L2 (Ω, P ) e si ha
h i h i h i
E |Xn − X|2 ≤ 2E |Xn − an |2 + 2E |an − X|2
h i
= 2E |Xn − an |2 + 2|an − a|2
= 2σn2 + 2|an − a|2 −−−−−−→ 0.
n→∞

4.1.1 Disuguaglianza di Markov


Teorema 4.1.4 (Disuguaglianza di Markov). [!]
Per ogni X v.a. a valori in Rd , λ > 0 e p ∈ [0, +∞[, vale la disuguaglianza di Markov:

E [|X|p ]
P (|X| ≥ λ) ≤ . (4.1.2)
λp

In particolare, se Y ∈ L2 (Ω, P ) è una v.a. reale, vale la disuguaglianza di Chebyschev:

var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ . (4.1.3)
λ2
Dimostrazione. Per quanto riguarda la (4.1.2), se E [|X|p ] = +∞ non c’è nulla da provare, altrimenti per la
proprietà di monotonia si ha
h i h i
E [|X|p ] ≥ E |X|p 1(|X|≥λ) ≥ λp E 1(|X|≥λ) = λp P (|X| ≥ λ) .

La (4.1.3) segue dalla (4.1.2) ponendo p = 2 e X = Y − E [Y ], infatti


h i
E |Y − E [Y ]|2 var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ = .
λ2 λ2

Osservazione 4.1.5. In modo simile si prova la seguente generalizzazione della disuguaglianza di Markov:
per ogni X v.a. a valori in Rd , λ > 0 e f funzione reale su [0, +∞[ monotona (debolmente) crescente, vale

P (|X| ≥ λ)f (λ) ≤ E [f (|X|)] .


2
Un esempio interessante è f (λ) = eαλ con α > 0.
168 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

La disuguaglianza di Markov fornisce una stima per i valori estremi di X in termini della sua norma Lp .
Viceversa, si ha la seguente
Proposizione 4.1.6. [!] Siano X una v.a. e f ∈ C 1 (R≥0 ) tale che f ′ ≥ 0 o f ′ ∈ L1 (R≥0 , µ|X| ). Allora
Z +∞
E [f (|X|)] = f (0) + f ′ (λ)P (|X| ≥ λ)dλ. (4.1.4)
0

Dimostrazione. Si ha
Z +∞
E [f (|X|)] = f (y)µ|X| (dy) =
0
Z +∞ Zy !

= f (0) + f (λ)dλ µ|X| (dy) =
0 0

(per il Teorema di Fubini)


Z +∞ Z +∞

= f (0) + f (λ) µ|X| (dy)dλ =
0 λ
Z +∞
= f (0) + f ′ (λ)P (|X| ≥ λ)dλ.
0

Esempio 4.1.7. Per f (λ) = λp , p ≥ 1, dalla (4.1.4) abbiamo


Z +∞
p
E [|X| ] = p λp−1 P (|X| ≥ λ) dλ. (4.1.5)
0

Di conseguenza, per provare che X ∈ Lp è sufficiente avere una buona stima di P (|X| ≥ λ), almeno per λ ≫ 1.
2
Analogamente, per f (λ) = eαλ , α > 0, si ha
Z +∞
α|X|2 2
h i
E e = 1+ 2αλeαλ P (|X| ≥ λ) dλ.
0

4.1.2 Relazioni fra le diverse definizioni di convergenza


Lemma 4.1.8. Sia (an )n∈N una successione in uno spazio topologico (E, T ). Se ogni sotto-successione
(ank )k∈N ammette una sotto-successione (ank )i∈N convergente al medesimo a ∈ E, allora anche (an )n∈N
i
converge ad a.
Dimostrazione. Per assurdo, se (an )n∈N non convergesse ad a allora esisterebbe U ∈ T tale che a ∈ U e una
sotto-successione (ank )k∈N tale che ank < U per ogni k ∈ N. In questo caso nessuna sotto-successione di
(ank )k∈N convergerebbe ad a, contraddicendo l’ipotesi.
Il seguente risultato riassume le relazioni fra i vari tipi di convergenza di successioni di v.a.: queste sono
rappresentate schematicamente nella Figura 4.1.
Teorema 4.1.9. Siano (Xn )n∈N una successione di v.a. e X una v.a. definite sullo stesso spazio di probabilità
(Ω, F , P ), a valori in Rd . Valgono le seguenti implicazioni:
q.c. P
i) se Xn −−−−→ X allora Xn −−→ X;
Lp P
ii) se Xn −−−→ X per qualche p ≥ 1 allora Xn −−→ X;
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 169

P q.c.
iii) se Xn −−→ X allora esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X;
P d
iv) se Xn −−→ X allora Xn −−−−→ X;
P
v) se Xn −−→ X ed esiste Y ∈ Lp (Ω, P ) tale che |Xn | ≤ Y q.c., per ogni n ∈ N, allora Xn , X ∈ Lp (Ω, P ) e
Lp
Xn −−−→ X;
d P
vi) se Xn −−−−→ X, con X ∼ δc , c ∈ Rd , allora Xn −−→ X.

Lp
 
Xn −−−→ X

se |Xn |≤Y ∈Lp

q.c.
     
P d
Xn −−−−→ X Xn −−→ X Xn −−−−→ X

sotto-successione se X ∼ δc

Figura 4.1: Relazioni fra i vari tipi di convergenza di v.a.

q.c.
Dimostrazione. i) Fissato ε > 0, se Xn −−−−→ X allora
q.c.
1(|Xn −X|≥ε) −−−−→ 0

e quindi per il Teorema della convergenza dominata si ha


h i
P (|Xn − X| ≥ ε) = E 1(|Xn −X|≥ε) −→ 0.

ii) Fissato ε > 0, per la disuguaglianza di Markov (4.1.2) si ha


E [|Xn − X|p ]
P (|Xn − X| ≥ ε) ≤
εp
da cui la tesi.
1
iii) Per ipotesi esiste una successione di indici (nk )k∈N , con nk → +∞, tale che P (Ak ) ≤ k2
dove
 
Ak := |X − Xnk | ≥ 1/k .

Poiché X
P (Ak ) < ∞,
k≥1
per il Lemma 2.3.28-i) di Borel-Cantelli si ha P (Ak i.o.) = 0. Dunque l’evento (Ak i.o.)c ha probabilità uno:
per definizione2 , per ogni ω ∈ (Ak i.o.)c esiste k̄ = k̄(ω) ∈ N tale che
1
|X(ω) − Xnk (ω)| < , k ≥ k̄
k
e di conseguenza vale
lim Xnk (ω) = X(ω)
k→∞
2 Gli elementi di (A i.o.)c sono quelli che appartengono solo ad un numero finito di A .
k k
170 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

che prova la tesi.


iv) Sia f ∈ bC. Per il punto iii), ogni sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N
i
q.c. q.c.
tale che Xnk −−−−→ X. Poiché f è continua, si ha anche f (Xnk ) −−−−→ f (X) e poiché f è limitata si applica il
i i
Teorema della convergenza dominata per avere
h  i
lim E f Xnk = E [f (X)] .
i→∞ i

Ora per il Lemma 4.1.8 (applicato alla successione an := E [f (Xn )] in R munito della topologia Euclidea) si
ha anche
lim E [f (Xn )] = E [f (X)]
n→∞
da cui la tesi.
v) Dato che |Xn | ≤ Y q.c. e Y ∈ Lp (Ω, P ), è chiaro che Xn ∈ Lp (Ω, P ). Per quanto riguarda X, dal punto iii)
q.c.
sappiamo che esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X. Dato che |Xnk | ≤ Y q.c., per k → ∞
Lp
si ottiene |X| ≤ Y q.c., quindi X ∈ Lp (Ω, P ). Infine, mostriamo che Xn −−−→ X. Sempre per il punto iii), ogni
q.c.
sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N tale che Xnk −−−−→ X. Per il Teorema
i i
Lp Lp
della convergenza dominata si ha che Xnk −−−→ X. Dal Lemma 4.1.8 segue che Xn −−−→ X.
i
vi) Dati c ∈ Rd ed ε > 0, sia fε ∈ bC, non-negativa e tale che fε (x) ≥ 1 se |x − c| > ε e fε (c) = 0. Si ha
h i
P (|Xn − X| ≥ ε) = P (|Xn − c| ≥ ε) = E 1(|Xn −c|≥ε) ≤ E [fε (Xn )] −−−−−−→ fε (c) = 0.
n→∞

Diamo alcuni controesempi relativi alle implicazioni studiate nel Teorema 4.1.9. Nei primi due esempi
consideriamo Ω = [0, 1] con la misura di Lebesgue.
Esempio 4.1.10. La successione Xn (ω) = n2 1[0, 1 ] (ω), per ogni ω ∈ [0, 1], converge a zero quasi certamente
n
(e di conseguenza anche in probabilità), ma E [|Xn |p ] = n2p−1 diverge per ogni p ≥ 1.
Esempio 4.1.11. Diamo un esempio di successione (Xn ) che converge in Lp (e quindi anche in probabilità)
con 1 ≤ p < ∞, ma non quasi certamente. Rappresentiamo ogni intero positivo n come n = 2k + ℓ, con
k = 0, 1, 2, . . . e ℓ = 0, . . . , 2k − 1. Notiamo che la rappresentazione è unica. Poniamo
" #
ℓ ℓ+1
Jn = k , k ⊆ [0, 1] e Xn (ω) = 1Jn (ω), ω ∈ [0, 1].
2 2
Per ogni p ≥ 1, vale
1
E [|Xn |p ] = E [Xn ] = Leb(Jn ) = ,
2k
Lp
e quindi Xn −−−→ 0 dato che k → ∞ quando n → ∞. D’altra parte, ciascun ω ∈ [0, 1] appartiene ad un numero
infinito di intervalli Jn e quindi la successione reale Xn (ω) non converge per ogni ω ∈ [0, 1].
Esempio 4.1.12. Data una variabile aleatoria X ∼ Be 1 , poniamo
2

X,

 se n pari,
Xn = 
1 − X,
 se n dispari.

d
Poiché (1 − X) ∼ Be 1 allora chiaramente Xn −−−−→ X. Tuttavia |Xn+1 − Xn | = |2X − 1| = 1 per ogni n ∈ N: allora
2
P (|Xn+1 −Xn | ≥ 1/2) = 1 per ogni n e quindi Xn non converge a X in probabilità (e, di conseguenza, nemmeno
in Lp o quasi certamente).
4.2. LEGGE DEI GRANDI NUMERI 171

Osservazione 4.1.13. Non esiste una metrica (e neppure una topologia) che induce la convergenza quasi
certa di variabili aleatorie: in caso contrario si potrebbe combinare il Lemma 4.1.8 con il punto iii) del
P q.c.
Teorema 4.1.9 per concludere che se Xn −−→ X allora Xn −−−−→ X, in contraddizione con l’Esempio 4.1.11.
Al contrario, le convergenze in Lp e in probabilità sono “metrizzabili”. Infatti, la convergenza in Lp è
1
semplicemente la convergenza relativa alla norma ∥X∥p = E [|X|p ] p nello spazio Lp (Ω, P ): è dunque un tipo
di convergenza definita solo per variabili sommabili di ordine p. Invece la convergenza in probabilità è
P
definita per variabili qualsiasi e si ha che Xn −−→ X se e solo se
" #
|X − Xn |
lim E = 0. (4.1.6)
n→∞ 1 + |X − Xn |

Proviamo questo fatto nell’ipotesi (non restrittiva) che X ≡ 0. Notiamo che per ogni ε > 0 si ha

|x| |x|
≤ 1 + ε1|x|<ε ≤ 1|x|≥ε + ε1|x|<ε .
1 + |x| 1 + |x| |x|≥ε
Applicando il valore atteso si ha
" #
|Xn |
E ≤ P (|Xn | ≥ ε) + εP (|Xn | < ε) ≤ P (|Xn | ≥ ε) + ε.
1 + |Xn |

P
Allora, nel caso in cui Xn −−→ 0, si ha " #
|Xn |
lim E ≤ε
n→∞ 1 + |Xn |
e la (4.1.6) segue dall’arbitrarietà di ε.
Viceversa, notiamo che
ε x x
1 ≤ 1 ≤
1 + ε x>ε 1 + x x>ε 1 + x
e quindi
ε |Xn |
1 ≤ .
1 + ε |Xn |>ε 1 + |Xn |
Applicando il valore atteso si ottiene
" #
ε |Xn |
P (|Xn | > ε) ≤ E
1+ε 1 + |Xn |

P
da cui la (4.1.6) implica che Xn −−→ 0.
Anche la convergenza debole è metrizzabile nello spazio delle distribuzioni: per approfondimenti si
vedano, per esempio, la monografie [19] e [56].

4.2 Legge dei grandi numeri


In questa sezione dimostriamo due versioni della Legge dei grandi numeri. Tale legge riguarda succes-
sioni di v.a. reali (Xn )n∈N , definite sullo stesso spazio di probabilità (Ω, F , P ), con l’ulteriore ipotesi che
siano indipendenti e identicamente distribuite (abbreviato in i.i.d.). Denotiamo con

Sn
Sn = X1 + · · · + Xn , Mn = , (4.2.1)
n
rispettivamente la somma e la media aritmetica di X1 , . . . , Xn .
172 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Teorema 4.2.1 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L2 (Ω, P ),
con valore atteso µ := E [X1 ] e varianza σ 2 := var(X1 ). Allora si ha
h i σ2
E (Mn − µ)2 = (4.2.2)
n
e di conseguenza la media aritmetica Mn converge in norma L2 (Ω, P ) alla v.a. costante uguale µ:

L2
Mn −−−→µ.

Osservazione 4.2.2. Combinando la (4.2.2) con la disuguaglianza di Markov si ha

σ2
P (|Mn − µ| ≥ ε) ≤ , ε > 0, n ∈ N,
nε2
e quindi Mn converge anche in probabilità a µ. Inoltre, dal Teorema 4.1.9-iv) segue che Mn converge anche
debolmente:
d
Mn −−−−→ µ.
Dimostrazione. Per linearità, si ha
n
1X
E [Mn ] = E [Xk ] = µ,
n
k=1
e quindi
h i var(X1 + · · · + Xn )
E (Mn − µ)2 = var(Mn ) = =
n2
(per l’indipendenza, ricordando la (3.2.19))

var(X1 ) + · · · + var(Xn ) σ 2
= = . (4.2.3)
n n

La convergenza di Mn in L2 (Ω, P ) implica la convergenza q.c. di una sotto-successione di Mn , per il


Teorema 4.1.9-iii). In realtà, con un po’ di lavoro in più è possibile verificare che la successione stessa Mn
converge q.c.: riportiamo la prova data in [55].
Teorema 4.2.3 (Legge forte dei grandi numeri). Nelle ipotesi del Teorema 4.2.1 si ha anche
q.c.
Mn −−−−→ µ.

Dimostrazione. A meno di traslare le variabili Xn non è restrittivo assumere µ = 0. Cominciamo col provare
che la sotto-successione Mn2 converge q.c.: infatti, per la (4.2.3), si ha
N  N N
X
2
 X h i X σ2
E  Mn2  = E Mn22 = , N ∈ N,
n2
n=1 n=1 n=1

e per il Teorema di Beppo-Levi ∞  ∞


X  X σ 2
2
E  Mn2  = <∞
n2
n=1 n=1
da cui
q.c.
Mn2 −−−−→ 0. (4.2.4)
4.2. LEGGE DEI GRANDI NUMERI 173

Ora cerchiamo di controllare


√ tutti i termini della successione Mn con termini del tipo Mn2 . Per ogni n ∈ N
indichiamo con pn = [ n] la parte intera della radice di n, cosicché si ha

pn2 ≤ n < (pn + 1)2 .

Per definizione di Mn vale


n
pn2 1 X
Mn − Mpn2 = Xk
n n 2
k=pn +1

da cui, come per la (4.2.3), si ha



2
!2 
 p n  n − pn2 2
E  Mn − Mpn2  = σ ≤
n n2

(poiché 0 ≥ n − (pn + 1)2 = n − pn2 − 2pn − 1)



2pn + 1 2 2 n + 1 2 3σ 2
≤ σ ≤ σ ≤ 3 .
n2 n2 n2
Ancora per il Teorema di Beppo-Levi si ha
∞ !2  X
X p 2
n
 ∞ 3σ 2
E  Mn − Mpn2  ≤ 3
<∞
n n 2
n=1 n=1

da cui
pn2 q.c.
Mn − Mpn2 −−−−→ 0.
n
q.c. pn2 q.c.
Ora Mpn2 −−−−→ 0 per la (4.2.4) e d’altra parte n → 1 per n → ∞: di conseguenza anche Mn −−−−→ 0 e questo
conclude la prova.

Esempio 4.2.4 (Strategia del raddoppio). Nel gioco della roulette si lancia una pallina che si può fermare
in una fra le 37 posizioni possibili, composte da 18 numeri rossi, 18 numeri neri e lo zero che è verde.
Consideriamo la strategia di gioco che consiste nel puntare sul rosso (la vincita è il doppio della giocata)
e raddoppiare la giocata ogni volta che si perde. Dunque alla prima giocata si punta 1 (ossia 20 ) Euro e,
in caso di perdita, alla seconda giocata si puntano 2 (ossia 21 ) Euro e cosı̀ via fino alla n-esima giocata in
cui, se si è sempre perso, si puntano 2n−1 Euro. A questo punto (ossia alla n-esima giocata avendo sempre
perso), l’ammontare giocato è pari a3

1 + 2 + · · · + 2n−1 = 2n − 1,

e ci sono due casi:

i) si perde e in tal caso la perdita complessiva è pari a 2n − 1;

ii) si vince e si incassano 2 · 2n−1 Euro. Il bilancio totale è dunque positivo ed è pari alla differenza fra la
vincita e l’ammontare giocato:
2n − (2n − 1) = 1.
n
3 Si ricordi che P ak = an+1 −1 per a , 1.
a−1
k=0
174 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

La probabilità di perdere per n volte consecutive è pari a pn , dove p = 19


37 è la probabilità che la pallina si
fermi sul nero o sul verde. Di conseguenza, la probabilità di vincere almeno una volta su n giocate è pari a
1 − pn .
Consideriamo ora il caso in cui decidiamo di attuare la strategia del raddoppio fino ad un massimo di
10 giocate. Precisamente indichiamo con X il guadagno/perdita che otteniamo giocando al raddoppio e
incassando 1 Euro se vinciamo entro la decima giocata oppure perdendo 210 − 1 = 1023 Euro nel caso di 10
perdite consecutive. Allora X è una v.a. di Bernoulli che assume i valori −1023 con probabilità p10 ≈ 0.13%
e 1 con probabilità 1 − p10 ≈ 99.87%. Dunque attuando la strategia del raddoppio abbiamo che vinciamo 1
Euro con grande probabilità a fronte di una perdita rilevante (1023 Euro) in casi molto rari.
Potremmo pensare allora di attuare la strategia del raddoppio ripetutamente per N volte: per capire se
è conveniente possiamo calcolare la media

0.13 99.87
E [X] ≈ −1023 · +1· ≈ −0.3
100 100
e interpretare tale risultato alla luce della Legge dei grandi numeri. Il fatto che E [X] sia pari a −0.3 significa
che se X1 , . . . , XN indicano i singoli guadagni/perdite allora complessivamente

X1 + · · · + XN

molto probabilmente sarà vicino a −0.3N . Questo è dovuto al fatto che il gioco non è equo per la presenza
dello zero (verde) per cui la probabilità di vincere puntando sul rosso è leggermente minore di 21 . In realtà
si può provare che se anche fosse p = 12 allora la strategia del raddoppio, col vincolo di raddoppiare al
massimo n volte, produrrebbe un guadagno medio nullo. Lo studio di questo tipo di problemi legati ai
giochi d’azzardo è all’origine di un ampio settore della Probabilità, la cosiddetta teoria delle martingale, che
insieme alle numerose applicazioni ha fondamentali e profondi risultati teorici.

4.2.1 Cenni al metodo Monte Carlo


La Legge dei grandi numeri è alla base di un metodo numerico probabilistico molto importante, noto
come metodo Monte Carlo. In molte applicazioni si è interessati a calcolare (o almeno approssimare nume-
ricamente) il valore atteso E [f (X)] dove X è una v.a. in Rd e f ∈ L2 (Rd , µX ) (e quindi f (X) ∈ L2 (Ω, P )). Per
esempio, nel caso d = 1, se X ∼ Unif[0,1] e f ∈ L2 ([0, 1]), allora
Z 1
f (x)dx = E [f (X)] .
0

Dunque un integrale (anche multidimensionale) ammette una rappresentazione probabilistica e il calcolo


di esso può essere ricondotto al calcolo di un valore atteso.
Ora supponiamo che (Xn )n∈N sia una successione di v.a. reali i.i.d. con la medesima distribuzione4 di
X. Per la Legge forte dei grandi numeri vale

f (X1 ) + · · · + f (Xm )
E[f (X)] = lim q.c.
m→∞ m
Questo risultato può essere tradotto in termini “pratici” nel modo seguente. Supponiamo di poter estrarre
casualmente un valore xn dalla v.a. Xn , per ogni n = 1, . . . , m con m ∈ N fissato, sufficientemente grande:
diciamo che xn è una realizzazione o simulazione della v.a. Xn . Allora un’approssimazione di E [f (X)] è data
dalla media aritmetica
m
1X
f (xn ). (4.2.5)
m
n=1
4 Si dice (X )
n n∈N è una successione di copie indipendenti di X.
4.2. LEGGE DEI GRANDI NUMERI 175

In (4.2.5) x1 , . . . , xm rappresentano m realizzazioni (simulazioni) indipendenti di X: in altri termini, xn è un


numero (non una v.a.) che è un particolare valore della v.a. Xn generato in modo indipendente da Xh per h , n.
La maggior parte dei software di calcolo scientifico possiede generatori di numeri aleatori per le principali
distribuzioni (uniforme, esponenziale, normale etc...). In definitiva, il metodo Monte Carlo permette di ap-
prossimare numericamente il valore atteso di una funzione di una v.a. di cui si sia in grado di generare (simulare)
dei valori casuali in modo indipendente.
I principali vantaggi rispetto ai metodi deterministici di integrazione numerica sono i seguenti:
i) per la convergenza del metodo non si richiedono ipotesi di regolarità sulla funzione f se non la somma-
bilità;
ii) l’ordine di convergenza del metodo è indipendente dalla dimensione d e l’implementazione in dimen-
sione maggiore di uno non comporta alcuna difficoltà aggiuntiva.
Le questioni della convergenza e della stima dell’errore numerico del metodo Monte Carlo saranno breve-
mente discusse nell’Osservazione 4.4.7. Il metodo Monte Carlo può anche essere applicato alla risoluzione
numerica di vari tipi di equazioni alle derivate parziali. Al momento il Monte Carlo è l’unico metodo numerico
conosciuto per risolvere problemi di grandi dimensioni che tipicamente sorgono nelle applicazioni reali. Esistono
molte monografie dedicate al Monte Carlo, fra cui segnaliamo [49]; una presentazione sintetica del metodo
si trova anche in [94].
La Figura 4.2 rappresenta l’istogramma di un vettore di 10.000 numeri casuali generati da una distri-
buzione N1,3 : si vede in figura come l’istogramma “approssima” il grafico (la linea continua) della densità
Gaussiana di N1,3 .

Figura 4.2: Istogramma di un vettore di 10.000 numeri casuali estratti dalla distribuzione N1,3 e grafico
della densità Gaussiana di N1,3

4.2.2 Polinomi di Bernstein


Forniamo una dimostrazione probabilistica del noto risultato di densità dei polinomi nello spazio C([0, 1])
delle funzioni continue sull’intervallo [0, 1], rispetto alla norma uniforme.
Proposizione 4.2.5. Data f ∈ C([0, 1]), definiamo il polinomio di Bernstein di grado n associato a f nel modo
seguente
n !
X n k
fn (p) = p (1 − p)n−k f (k/n) , p ∈ [0, 1]. (4.2.6)
k
k=0
176 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Allora si ha
lim ∥f − fn ∥∞ = 0,
n→∞
dove ∥f ∥∞ = max |f (p)|.
p∈[0,1]

Dimostrazione. Sia (Xn )n∈N una successione di v.a. reali i.i.d. aventi distribuzione Bep . Poniamo Mn =
X1 +···+Xn
n . Ricordiamo che, per la Proposizione 3.6.3, X1 + · · · + Xn ∼ Binn,p . Allora l’interpretazione probabi-
listica della formula (4.2.6) è
fn (p) = E [f (Mn )] , p ∈ [0, 1].
Ora osserviamo che
p(1 − p) 1
var (Mn ) =
≤ ,
n 4n
ed essendo E [Mn ] = p, per la disuguaglianza di Markov (4.1.3) si ha
1
P (|Mn − p| ≥ λ) ≤ , λ > 0. (4.2.7)
4nλ2
Poiché f è uniformemente continua su [0, 1], per ogni ε > 0 esiste λε tale che |f (x) − f (y)| ≤ ε se |x − y| ≤ λε .
Allora si ha
|f (p) − fn (p)| = |f (p) − E [f (Mn )]| ≤
(per la disuguaglianza di Jensen)
≤ E [|f (p) − f (Mn )|]
h i
≤ ε + E |f (p) − f (Mn )| 1(|Mn −p|≥λε )
≤ ε + 2∥f ∥∞ P (|Mn − p| ≥ λε ) .
Utilizzando la (4.2.7) si ottiene
lim sup ∥f − fn ∥∞ ≤ ε
n→∞
e la tesi segue dall’arbitrarietà di ε.

4.3 Condizioni necessarie e sufficienti per la convergenza debole


In questa sezione forniamo due condizioni necessarie e sufficienti per la convergenza debole di una
successione (Xn )n∈N di v.a. reali: la prima è espressa in termini delle CDF (FXn )n∈N e la seconda in termini
delle CHF (ϕXn )n∈N .

4.3.1 Convergenza di funzioni di ripartizione


Poiché ogni distribuzione è identificata dalla propria CDF, è naturale chiedersi se ci sia una relazione
fra la convergenza debole e la convergenza puntuale delle relative CDF. Consideriamo un paio di semplici
esempi.
Esempio 4.3.1. La successione delle distribuzioni uniformi Unif[0, 1 ] , con n ∈ N, converge debolmente alla
n
delta di Dirac δ0 poiché, per ogni f ∈ bC, si ha
Z Z 1 Z
n
f dUnif[0, 1 ] = n f (x)dx −−−−−−→ f (0) = f dδ0 .
R n
0 n→∞ R
D’altra parte, la successione delle CDF FUnif 1]
, rappresentata in Figura 4.3, converge puntualmente a Fδ0
[0, n
solo su R \ {0}: notiamo che 0 è l’unico punto di discontinuità di Fδ0 .
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 177

1.0

0.8

0.6

0.4

0.2

-2 -1 1 2

Figura 4.3: CDF delle distribuzioni Unif[0,1] (linea continua), Unif[0, 1 ] (linea tratteggiata) e Unif[0, 1 ] (linea
2 5
punteggiata).

Esempio 4.3.2. Non è difficile verificare che:

• se xn ↗ x0 allora Fδxn (x) −→ Fδx (x) per ogni x ∈ R;


0

• se xn ↘ x0 allora Fδxn (x) −→ Fδx (x) per ogni x ∈ R \ {x0 }.


0

Teorema 4.3.3. Siano (µn )n∈N una successione di distribuzioni reali e µ una distribuzione reale. Sono
equivalenti le seguenti affermazioni:
d
i) µn −−−−→ µ;

ii) Fµn (x) −−−−−−→ Fµ (x) per ogni x punto di continuità di Fµ .


n→∞

Dimostrazione. Ovviamente l’enunciato ha la seguente formulazione equivalente in termini di variabili


aleatorie: siano (Xn )n∈N una successione di v.a. reali e X una v.a. reale. Sono equivalenti le seguenti
affermazioni:
d
i) Xn −−−−→ X;

ii) FXn (x) −−−−−−→ FX (x) per ogni x punto di continuità di FX .


n→∞

[i) =⇒ ii)] Fissiamo x, punto di continuità di FX : allora per ogni ε > 0 esiste δ > 0 tale che FX (x) − FX (y) ≤ ε
se |x − y| ≤ δ. Sia f ∈ bC tale che |f | ≤ 1 e

1 per y ≤ x,


f (y) = 
0 per y ≥ x + δ.

Notiamo che h i
E [f (Xn )] ≥ E f (Xn )1(Xn ≤x) = P (Xn ≤ x) = FXn (x).
Allora abbiamo

lim sup FXn (x) ≤ lim sup E [f (Xn )] =


n→∞ n→∞

d
(per ipotesi, poiché Xn −−−−→ X)

= E [f (X)] ≤ FX (x + δ) ≤ FX (x) + ε.
178 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Analogamente, se f ∈ bC è tale che |f | ≤ 1 e



1 per y ≤ x − δ,


f (y) = 
0
 per y ≥ x,

allora h i
E [f (Xn )] ≤ E 1{Xn ≤x} = FXn (x).
Quindi abbiamo

lim inf FXn (x) ≥ lim inf E [f (Xn )] =


n→∞ n→∞

(per ipotesi)

= E [f (X)] ≥ FX (x − δ) ≥ FX (x) − ε.

La tesi segue dall’arbitrarietà di ε.


[ii) =⇒ i)] Dati a, b punti di continuità di FX , per ipotesi si ha
h i h i
E 1]a,b] (Xn ) = FXn (b) − FXn (a) −−−−−−→ FX (b) − FX (a) = E 1]a,b] (X) .
n→∞

Fissiamo R > 0 e f ∈ bC col supporto contenuto nel compatto [−R, R]. Poiché i punti di discontinuità di
FX sono al più un’infinità numerabile, f può essere approssimata uniformemente (in norma L∞ ) mediante
combinazioni lineari di funzioni del tipo 1]a,b] con a, b punti di continuità di FX . Ne viene che anche per
tale f vale
lim E [f (Xn )] = E [f (X)] .
n→∞

Infine, fissiamo ε > 0 e consideriamo R abbastanza grande in modo che FX (−R) ≤ ε e FX (R) ≥ 1 − ε:
assumiamo inoltre che R e −R siano punti di continuità di FX . Allora per ogni f ∈ bC vale

E [f (Xn ) − f (X)] = J1,n + J2,n + J3

dove
h i h i
J1,n = E f (Xn )1]−R,R] (Xn ) − E f (X)1]−R,R] (X) ,
h i
J2,n = E f (Xn )1]−R,R]c (Xn ) ,
h i
J3 = −E f (X)1]−R,R]c (X) .

Ora, per quanto provato sopra, si ha


lim J1,n = 0
n→∞
mentre, per ipotesi,
 
J2,n ≤ ∥f ∥∞ FXn (−R) + (1 − FXn (R)) −−−−−−→ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ ,
n→∞

e
|J3 | ≤ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ .
Questo conclude la prova.

Non è sufficiente che le CDF Fµn convergano ad una funzione continua per concludere che µn converge
debolmente, come mostra il seguente
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 179

Esempio 4.3.4. La successione di delta di Dirac δn non converge debolmente, tuttavia

Fδn (x) = 1[n,+∞[ (x) −−−−−−→ 0, x ∈ R,


n→∞

ossia Fδn converge puntualmente alla funzione identicamente nulla che, ovviamente, è continua su R ma
non è una CDF.

L’Esempio 4.3.4 non contraddice il Teorema 4.3.3 poiché la funzione limite delle Fδn non è una funzione
di ripartizione. Tale esempio mostra anche che è possibile che una successione di CDF converga ad una
funzione che non è una CDF.

4.3.2 Compattezza nello spazio delle distribuzioni


In questa sezione introduciamo la proprietà di tightness5 che fornisce una caratterizzazione della relati-
va compattezza nello spazio delle distribuzioni reali: essa garantisce che da una successione di distribuzioni
si possa estrarre una sotto-successione convergente debolmente. In particolare, la tightness evita situazioni
come quella dell’Esempio 4.3.4.

Definizione 4.3.5 (Tightness). Una famiglia di distribuzioni reali (µi )i∈I è tight se per ogni ε > 0 esiste
M > 0 tale che  
µi ] − ∞, −M] ∪ [M, +∞[ ≤ ε per ogni i ∈ I.

Esercizio 4.3.6. Provare che ogni famiglia costituita da una singola distribuzione reale è tight6 .

La proprietà di tightness si può anche attribuire a famiglie di v.a. (Xi )i∈I oppure di CDF (Fi )i∈I : esse
sono tight se lo sono le relative famiglie di distribuzioni, ossia vale

P (|Xi | ≥ M) ≤ ε per ogni i ∈ I,

e
Fi (−M) ≤ ε, Fi (M) ≥ 1 − ε per ogni i ∈ I.

Teorema 4.3.7 (Teorema di Helly). [!!] Ogni successione tight di distribuzioni reali (µn )n∈N ammette una
sotto-successione convergente debolmente ad una distribuzione µ.

Dimostrazione. Sia (µn )n∈N una successione tight di distribuzioni e sia (Fn )n∈N la successione delle relative
CDF. In base al Teorema 4.3.3, è sufficiente provare che esiste una CDF F ed una sotto-successione Fnk che
converge a F nei punti di continuità di F.
La costruzione di F è basata sull’argomento diagonale di Cantor. Consideriamo una enumerazione
(qh )h∈N dei numeri razionali. Poiché (Fn (q1 ))n∈N è una successione in [0, 1], essa ammette una sotto-
 
successione F1,n (q1 ) n∈N convergente a un valore che indichiamo con F(q1 ) ∈ [0, 1]. Ora F1,n (q2 ) n∈N

è una successione in [0, 1] che ammette una sotto-successione F2,n (q2 ) n∈N convergente a un valore che
indichiamo con F(q2 ) ∈ [0, 1]: notiamo che si ha anche

F2,n (q1 ) −−−−−−→ F(q1 )


n→∞

poiché F2,n è sotto-successione di F1,n . Ripetiamo l’argomento fino a costruire, per ogni k ∈ N, una succes-

sione Fk,n n∈N tale che
Fk,n (qh ) −−−−−−→ F(qh ), ∀h ≤ k.
n→∞
5 Preferiamo non tradurre il termine tecnico “tight”. In alcuni testi, “famiglia tight” è tradotto con “famiglia tesa” o “famiglia
stretta”.
6 Più in generale, ogni distribuzione µ su uno spazio metrico separabile e completo (M, ϱ), è tight nel senso seguente: per ogni ε > 0
esiste un compatto K tale che µ(M \ K) < ε. Per la dimostrazione, si veda il Teorema 1.4 in [19].
180 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

In base all’argomento diagonale, consideriamo la sotto-successione Fnk := Fk,k : essa è tale che

Fnk (q) −−−−−−→ F(q), q ∈ Q.


n→∞

Completiamo la definizione di F ponendo

F(x) := inf F(q), x ∈ R \ Q.


x<q∈Q

Per costruzione F assume valori in [0, 1], è monotona (debolmente) crescente e continua a destra. Per
provare che F è una funzione di ripartizione, rimane da verificare che

lim F(x) = 0, lim F(x) = 1. (4.3.1)


x→−∞ x→+∞

Soltanto a questo punto7 e solo per provare la (4.3.1), utilizziamo l’ipotesi che (Fn )n∈N sia una successione
tight: fissato ε > 0, esiste M (non è restrittivo assumere M ∈ Q) tale che vale Fnk (−M) ≤ ε per ogni k ∈ N.
Dunque, per ogni x ≤ −M, si ha
F(x) ≤ F(−M) = lim Fnk (−M) ≤ ε.
k→∞

Analogamente si ha, per ogni x ≥ M, si ha

1 ≥ F(x) ≥ F(M) = lim Fnk (M) ≥ 1 − ε.


k→∞

La (4.3.1) segue dall’arbitrarietà di ε.


Infine concludiamo provando che Fnk converge a F nei suoi punti di continuità. Infatti, se F è continua
in x allora per ogni ε > 0 esistono a, b ∈ Q tali che a < x < b e

F(x) − ε ≤ F(y) ≤ F(x) + ε, y ∈ [a, b].

Allora si ha

lim inf Fnk (x) ≥ lim inf Fnk (a) = F(a) ≥ F(x) − ε,
k→∞ k→∞
lim sup Fnk (x) ≤ lim sup Fnk (b) = F(b) ≤ F(x) + ε,
k→∞ k→∞

da cui la tesi per l’arbitrarietà di ε.

4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy


In questa sezione esaminiamo il rapporto fra la convergenza debole di distribuzioni e la convergenza
puntuale delle relative CHF. Consideriamo il caso d = 1 anche se quanto segue può essere facilmente esteso
al caso multidimensionale.

Teorema 4.3.8 (Teorema di continuità di Lévy). [!!] Sia (µn )n∈N una successione di distribuzioni reali e
sia (ϕn )n∈N la successione delle corrispondenti funzioni caratteristiche. Vale:
d
i) se µn −−−−→ µ allora ϕn converge puntualmente alla CHF ϕ di µ, ossia ϕn (η) −−−−−−→ ϕ(η) per ogni η ∈ R;
n→∞

ii) viceversa, se ϕn converge puntualmente a una funzione ϕ continua in 0, allora ϕ è la CHF di una
d
distribuzione µ e vale µn −−−−→ µ.
7 Si ripensi alla successione dell’Esempio 4.3.4, definita da X ≡ n per n ∈ N: essa non ammette sotto-successioni convergenti
n
debolmente eppure si ha lim FXn (x) = F(x) ≡ 0 per ogni x ∈ R. Infatti (Xn )n∈N non è una successione tight di v.a.
n→∞
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 181

d
Dimostrazione. i) Per ogni η fissato, la funzione f (x) := eixη è continua e limitata: quindi, se µn −−−−→ µ allora
Z Z
ϕn (η) = f dµn −−−−−−→ f dµ = ϕ(η).
R n→∞ R

ii) Dimostriamo che se ϕn converge puntualmente a ϕ, con ϕ funzione continua in 0, allora (µn )n∈N è tight.
Osserviamo che ϕ(0) = 1 e, per l’ipotesi di continuità di ϕ in 0, vale

1 t
Z
(1 − ϕ(η)) dη −−−−−−+→ 0. (4.3.2)
t −t t→0

Sia ora t > 0: vale


Zt Zt
iηx
 2 sin(xt)
J1 (x, t) := 1−e dη = 2t − (cos(xη) + i sin(xη)) dη = 2t − =: J2 (x, t).
−t −t xt
Osserviamo che J2 (x, t) ≥ 0 poiché Z x
|sin x| = cos tdt ≤ |x|.

0
Allora, integrando rispetto a µn , da una parte si ha
Z Z
J2 (x, t)µn (dx) ≥ J2 (x, t)µn (dx) ≥
R t|x|≥2

sin(tx) 1 1
(poiché tx ≤ t|x|
≤ 2 se t|x| ≥ 2)
Z
2 2
   
≥ µn (dx) = µn − ∞, − ∪ , +∞ . (4.3.3)
t|x|≥2 t t

D’altra parte, per il Teorema di Fubini si ha

1 t 1 t
Z Z Z
J1 (x, t)µn (dx) = (1 − ϕn (η)) −−−−−−→ (1 − ϕ(η)) dη,
R t −t n→∞ t −t

per il Teorema della convergenza dominata. Dalla (4.3.2) segue che, per ogni ε > 0, esistono t > 0 e n̄ =
n̄(ε, t) ∈ N tali che Z
J (x, t)µ (dx) ≤ ε, n ≥ n̄.
1 n
R
Combinando questa stima con la (4.3.3), si conclude che
2 2
   
µn − ∞, − ∪ , +∞ ≤ ε, n ≥ n̄,
t t
e quindi (µn )n∈N è tight.
Ora concludiamo la dimostrazione. Data una sotto-successione µnk , per quanto appena provato, essa
è tight e quindi, per il Teorema di Helly, ammette un’ulteriore sotto-successione µnk che converge debol-
j
mente a una distribuzione µ. Per il punto i), ϕnk converge puntualmente alla CHF di µ: d’altra parte, per
j
ipotesi, ϕnk converge puntualmente ϕ e quindi ϕ è la CHF di µ. Riassumendo, ogni sotto-successione µnk
j
ammette una sotto-successione che converge debolmente alla distribuzione µ Rche ha CHF uguale a ϕ.
Sia ora f ∈ bC: per quanto appena provato, ogni sotto-successione di R f dµn ammette una sotto-
R R R
successione che converge a R f dµ. Per il Lemma 4.1.8, R f dµn converge a R f dµ. La tesi segue dal-
l’arbitrarietà di f .
182 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Esempio 4.3.9. L’ipotesi di continuità in 0 del Teorema di Lévy è necessaria. Infatti consideriamo Xn ∼ N0,n
con n ∈ N. Allora
nη 2
ϕXn (η) = e− 2

converge a zero per n → ∞ per ogni η , 0 e vale ϕXn (0) = 1. D’altra parte, per ogni x ∈ R si ha
Zx
1 y2
FXn (x) = √ e− 2n dy =
−∞ 2πn
y
(col cambio z = √ )
2n
Z √x
2n 1 2 1
= √ e−z dz −−−−−−→ ,
−∞ π n→∞ 2

e quindi, per il Teorema 4.3.3, Xn non converge debolmente.

4.3.4 Esempi notevoli di convergenza debole


In questa sezione esibiamo alcuni esempi notevoli di convergenza debole. Vedremo successioni di v.a.
discrete che convergono a v.a. assolutamente continue e, viceversa, successioni di v.a. assolutamente conti-
d
nue che convergono a v.a. discrete. Negli esempi seguenti la convergenza Xn −−−−→ X è dimostrata tramite
il Teorema di continuità di Lévy, ovvero studiando la convergenza puntuale della successione delle CHF
(ϕXn )n∈N .
Esempio 4.3.10 (Dalla geometrica all’esponenziale). Consideriamo una successione di v.a. con distribu-
zione geometrica
Xn ∼ Geompn , n ∈ N,
dove 0 < pn < 1, per cui si ha
P (Xn = k) = pn (1 − pn )k−1 , k ∈ N.
Si calcola facilmente la CHF di Xn :
∞ ∞ 
X X k−1 eiη pn pn
ϕXn (η) = eiηk pn (1 − pn )k−1 = eiη pn eiη (1 − pn ) = = .
k=1 k=1
1 − eiη (1 − pn ) e−iη − 1 + pn

Xn d
Verifichiamo ora che se npn −−−−−→ λ per un certo λ ∈ R>0 allora n −−−−→ X ∼ Expλ . Infatti si ha
n→∞
η pn
 X   
n
ϕ Xn (η) = E eiη n = ϕXn = η =
n n −i
e n − 1 + pn
(sviluppando in serie di Taylor l’esponenziale per n → ∞)
pn npn λ
= η
  = −−−−−−→ = ϕExpλ (η).
−i n 1
+ o n + pn −iη + o (1) + npn n→∞ λ − iη

Esempio 4.3.11 (Dalla normale alla Delta di Dirac). Riprendiamo l’Esempio 4.1.3 e consideriamo una
successione (Xn )n∈N di v.a. con distribuzione normale Xn ∼ Nan ,σn2 dove an −→ a ∈ R e σn −→ 0. Grazie al
d
Teorema di continuità di Lévy è facile verificare che Xn −−−−→ X ∼ δa . Infatti
η 2 σn2
ϕXn (η) = eian η− 2 −−−−−−→ eiaη , η ∈ R,
n→∞

d
perciò dal Teorema di continuità di Lévy segue che Xn −−−−→ X ∼ δa , ossia Xn converge debolmente a una
v.a. con distribuzione Delta di Dirac centrata in a.
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 183

Esempio 4.3.12 (Dalla binomiale alla Poisson). Consideriamo una successione di v.a. con distribuzione
binomiale
Xn ∼ Binn,pn , n ∈ N.
d
Se npn −−−−−→ λ per un certo λ ∈ R>0 allora Xn −−−−→ X ∼ Poissonλ : infatti per la (3.5.3) e il Lemma 4.4.1, si
n→∞
ha
n  np  n iη
ϕXn (η) = 1 + pn eiη − 1 = 1 + n eiη − 1
 
−−−−−−→ eλ(e −1) = ϕPoissonλ (η).
n n→∞

Esempio 4.3.13 (Dalla binomiale alla normale). Sia Xn ∼ Binn,p . Ricordiamo (cfr. Proposizione 3.6.3) che
la distribuzione di Xn coincide con la distribuzione della somma di n v.a. di Bernoulli indipendenti. Allora,
come conseguenza diretta del Teorema centrale del limite (Teorema 4.4.4, che proveremo fra poco e la cui
dimostrazione si basa sul Teorema di continuità di Lévy), vale:
d
Zn −−−−→ X ∼ N0,1 ,
dove
Xn − µ n
Zn = , µn = E [Xn ] = np, σn2 = var(Xn ) = np(1 − p).
σn
Il risultato appena ottenuto può essere espresso informalmente dicendo che per ogni p ∈ ]0, 1[, la distribu-
zione Nnp,np(1−p) è una buona approssimazione di Binn,p per n abbastanza grande: si veda per esempio la
Figura 4.4 per un confronto fra i grafici della densità normale Nnp,np(1−p) e della funzione di distribuzione
binomiale Binn,p , per p = 0.5 e n = 20. Questo risultato sarà ripreso e spiegato con maggior precisione
nell’Osservazione 4.4.8.


● ●
0.15

● ●

0.10

● ●

0.05
● ●

● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20 25 30

Figura 4.4: Densità della distribuzione normale Nnp,np(1−p) e funzione di distribuzione binomiale Binn,p per
p = 0.5 e n = 20.

4.4 Legge dei grandi numeri e Teorema centrale del limite


In questa sezione presentiamo un approccio unificato alla dimostrazione della Legge debole dei grandi
numeri e del Teorema centrale del limite. Tale approccio è basato sul Teorema di continuità di Lévy e sul
Teorema 3.5.20 di sviluppabilità in serie di Taylor della funzione caratteristica. Ricordiamo la notazione
Sn
Sn = X1 + · · · + Xn , Mn = (4.4.1)
n
184 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

rispettivamente per la somma e la media aritmetica delle v.a. X1 , . . . , Xn . Vale il seguente risultato, ben noto
nel caso di successioni reali.
Lemma 4.4.1. Sia (zn )n∈N una successione di numeri complessi convergente a z ∈ C. Allora si ha
z n
 
lim 1 + n = ez .
n→∞ n
Dimostrazione. Seguiamo la prova di [35], Teorema 3.4.2. Proviamo anzitutto che per ogni w1 , . . . , wn , ζ1 , . . . , ζn ∈
C, con modulo minore o uguale a c, vale

Y n Yn Xn
wk − ζk ≤ cn−1 |wk − ζk |. (4.4.2)
k=1 k=1
k=1

La (4.4.2) è vera per n = 1 e in generale si prova per induzione osservando che



Y n Yn Y n−1 n−1
Y Y n−1 n−1
Y
wk − ζk ≤ wn wk − zn ζk + wn ζk − ζn ζk
k=1 k=1
k=1 k=1
k=1 k=1


Yn−1 n−1
Y
≤ c wk − ζk + cn−1 |wn − ζn |.
k=1 k=1

Poi osserviamo che per ogni w ∈ C con |w| ≤ 1 vale |ew − (1 + w)| ≤ |w|2 poichè

X wk X |w|k X1
w
|e − (1 + w)| = − (1 + w) ≤ = |w|2 ≤ |w|2 . (4.4.3)
k! k! k!
k≥0 k≥2 k≥2

Per provare la tesi, fissiamo R > |z|: per ogni n ∈ N abbastanza grande si ha anche R > |zn |. Applichiamo
la (4.4.2) con
z zn
wk = 1 + n , ζk = e n , k = 1, . . . , n;
n
R
osservando che |wk | ≤ 1 + |znn | ≤ e n , abbiamo
n
1 + zn n − ezn ≤ e Rn n−1
   X
zn

zn
1 + − e n ≤
n n

k=1

(per la (4.4.3))

R(n−1)
z 2 R2
≤e n n n ≤ eR
n n
da cui la tesi.
Teorema 4.4.2 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L1 (Ω, P ),
con valore atteso µ := E [X1 ]. Allora la media aritmetica Mn converge debolmente alla v.a. costante uguale a
µ:
d
Mn −−−−→ µ.
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
funzioni caratteristiche ϕMn converge puntualmente alla CHF della distribuzione δµ :

lim ϕMn (η) = eiµη , η ∈ R. (4.4.4)


n→∞
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 185

Abbiamo
 η 
ϕMn (η) = E ei n Sn =

(poiché le Xn sono i.i.d.)


 h η in
= E ei n X1 =

(per il Teorema 3.5.20 e l’ipotesi di sommabilità)


 !n
iµη 1
= 1+ +o −−−−−−→ eiµη
n n n→∞

grazie al Lemma 4.4.1. Questo prova la (4.4.4) e conclude la dimostrazione.


Osservazione 4.4.3. Le ipotesi del Teorema 4.4.2 sono più deboli rispetto alla Legge dei grandi numeri
nella versione del Teorema 4.2.1 in cui si assume che Xn ∈ L2 (Ω, P ). Con metodi più sofisticati è anche
possibile estendere il Teorema 4.2.3 ed ottenere la cosiddetta Legge forte dei grandi numeri di Kolmogorov:
se (Xn )n∈N è una successione di v.a. reali i.i.d. in L1 (Ω, P ) con valore atteso µ := E [X1 ], allora Mn converge
quasi certamente a µ. Per maggiori dettagli si veda, per esempio, [55].

Supponiamo ora che (Xn )n∈N sia una successione di v.a. reali i.i.d. in L2 (Ω, P ). Poniamo

µ := E [X1 ] e σ 2 := var(X1 ).

Ricordiamo che valore atteso e varianza della media aritmetica Mn in (4.2.1) sono dati rispettivamente da

σ2
E [Mn ] = µ e var(Mn ) = .
n
Consideriamo allora la media aritmetica normalizzata, definita da

en := Mpn − E [Mn ] = Mn − µ .
M
var(Mn ) √σ
n

Notiamo che
n
e n = Sn −
M √
µn
=√
1 X Xk − µ
. (4.4.5)
σ n n k=1 σ

Il Teorema centrale del limite8 afferma che, a prescindere dalla distribuzione delle Xn , la successione delle
medie aritmetiche normalizzate M en converge debolmente a una normale standard.

Teorema 4.4.4 (Teorema centrale del limite). [!!!] Per ogni successione (Xn )n∈N di v.a. reali i.i.d. in
L2 (Ω, P ) vale
Men −−−d−→ Z ∼ N0,1 . (4.4.6)
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
en converge puntualmente alla CHF della distribuzione N0,1 :
funzioni caratteristiche ϕM

η2

lim ϕM
en (η) = e 2 , η ∈ R. (4.4.7)
n→∞
8 Il nome Teorema centrale del limite è stato dato dal matematico ungherese George Pólya per sottolineare come tale teorema abbia
un ruolo centrale in Probabilità.
186 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE

Per la (4.4.5) si ha
 n 
 i √ηn P Xkσ−µ 
en (η) = E 
ϕM e
k=1  =
 

(poiché le Xn sono i.i.d.)


" η X −µ #!n
i√ 1
= E e n σ =

X1 −µ
(per il Teorema 3.5.20, essendo per ipotesi σ ∈ L2 (Ω, P ) con media nulla e varianza unitaria)
 !n
(iη)2 1 η2
= 1+ +o −−−−−−→ e− 2
2n n n→∞

grazie al Lemma 4.4.1. Questo prova la (4.4.7) e conclude la dimostrazione.


Osservazione 4.4.5. Nel caso particolare, nel caso in cui µ = 0 e σ = 1, la (4.4.6) diventa
S d
√n −−−−→ Z ∼ N0,1 .
n

Osservazione 4.4.6 (Teorema centrale del limite e Legge dei grandi numeri). Data l’espressione di M
en in
(4.4.5), il Teorema centrale del limite si riformula nel modo seguente:
σ
Mn ≃ µ + √ Z ∼ Nµ, σ 2 , per n ≫ 1, (4.4.8)
n n

dove il simbolo ≃ indica che Mn e µ + √σn Z hanno approssimativamente la stessa distribuzione. La (4.4.8)
fornisce un’approssimazione della distribuzione della v.a. Mn che precisa ed esplicita il risultato di conver-
genza della Legge dei grandi numeri.
Osservazione 4.4.7 (Teorema centrale del limite e metodo Monte Carlo). [!] Medie Mn di variabili i.i.d.,
definite come in (4.4.1), appaiono in modo naturale nel metodo Monte Carlo che abbiamo introdotto nella
Sezione 4.2.1. Sotto le ipotesi del Teorema centrale del limite, posto
!
σ  
pλ := P Mn − µ ≤ λ √ = P M en ≤ λ , λ > 0,
n
si ha la stima
pλ ≃ P (|Z| ≤ λ) , Z ∼ N0,1 .
Ora ricordiamo (cfr. (3.1.12)) che

P (|Z| ≤ λ) = 2F(λ) − 1, λ > 0,

con F in (4.4.10). Per la stima dell’errore numerico del metodo


 p+1  Monte Carlo, si parte dai valori di p usati
più comunemente, ossia p = 95% e p = 99%: posto λ = F −1
2 , si ottiene
! !
σ σ
P Mn − µ ≤ 1.96 √ ≃ 95% e P Mn − µ ≤ 2.57 √ ≃ 99%.
n n
Per questo motivo
σ σ
r95 := 1.96 √ e r99 := 2.57 √
n n
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 187

sono comunemente chiamati raggi degli intervalli di confidenza al 95% e al 99% per µ: se Mn rappresenta il
risultato (aleatorio) dell’approssimazione Monte Carlo del valore atteso µ, allora

[Mn − r95 , Mn + r95 ] e [Mn − r99 , Mn + r99 ]

sono gli intervalli (di estremi aleatori) a cui µ (che è il valore incognito che si intende approssimare) appar-
tiene con probabilità pari, rispettivamente, al 95% e 99%. In altri termini, è bene ricordare che il risultato di
un’approssimazione numerica col metodo Monte Carlo non è un singolo numero bensı̀ un intervallo di confidenza.
Osservazione 4.4.8 (Teorema centrale del limite e somme di v.a. i.i.d.). Come già anticipato nell’Esempio
4.3.13, il Teorema centrale del limite è un valido strumento per approssimare la legge di v.a. definite come
somme di variabili i.i.d. Per esempio, sappiamo (cfr. Proposizione 3.6.3) che X ∼ Binn,p è uguale in legge a
X1 + · · · + Xn con Xj ∼ Bep i.i.d. Allora abbiamo la seguente approssimazione asintotica della CDF di X per
n → +∞:  
k − pn 
Z ∼ N0,1 .

P (X ≤ k) ≈ P Z ≤ p

 , (4.4.9)
np(1 − p)
La (4.4.9) segue semplicemente dal fatto che, posto µ = E [X1 ] = p e σ 2 = var(X1 ) = p(1 − p), per il Teorema
centrale del limite si ha ! !
X − µn k − µn k − µn
P (X ≤ k) = P √ ≤ √ ≈P Z ≤ √ .
σ n σ n σ n
La (4.4.9) equivale a  
 k − pn 
FX (k) ≈ F  p
 
np(1 − p)

dove FX indica la CDF di X ∼ Binn,p e


x z2
e− 2
Z
F(x) = √ dz (4.4.10)
−∞ 2π
è la CDF normale standard.
Sotto ipotesi più forti, una stima esplicita della velocità di convergenza nel Teorema centrale del limite è
data dal Teorema di Berry-Esseen che qui ci limitiamo ad enunciare9 .

Teorema 4.4.9 (Teorema di Berry-Esseen). Esiste una costante10 C < 1 tale che, se (Xn ) è una successione
di v.a. i.i.d. in L3 (Ω, P ) con
h i
E [X1 ] = 0, var(X1 ) := σ 2 , E |X1 |3 =: ϱ,

allora si ha

|Fn (x) − F(x)| ≤ √ , x ∈ R, n ∈ N,
σ3 n
dove Fn indica la CDF della media normalizzata M
en in (4.4.5) e F è la CDF normale standard in (4.4.10).

9 Per la dimostrazione si veda, per esempio, [35].


10 Non è noto il valore ottimale di C: al momento si sa che 0.4097 < C < 0.56.
188 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
Capitolo 5

Probabilità condizionata

We have not succeeded in answering


all our problems - indeed we
sometimes feel we have not
completely answered any of them.
The answers we have found have
only served to raise a whole set of
new questions. In some ways we feel
that we are as confused as ever, but
we think we are confused on a higher
level, and about more important
things.

Earl C. Kelley

In uno spazio di probabilità (Ω, F , P ), siano X una variabile aleatoria e G una sotto-σ -algebra di F .
In questo capitolo introduciamo i concetti di distribuzione e attesa di X condizionate a G . Ricordando
che una σ -algebra può essere interpretata come un insieme di “informazioni”, l’attesa di X condizionata a
G rappresenta la miglior stima del valore aleatorio X in base alle informazioni contenute in G . Tanto più G
è grande, tanto migliore e più dettagliata è la stima di X data dall’attesa condizionata: quest’ultima, dal
punto di vista matematico, è definita come una variabile aleatoria che gode di determinate proprietà. I
concetti di attesa e distribuzione condizionata sono alla base della teoria dei processi stocastici e di tutte
le applicazioni della teoria della probabilità in cui si vuole modellizzare un fenomeno aleatorio che evolve
nel tempo: in tal caso è necessario descrivere non solo l’evoluzione del valore aleatorio X ma anche quella
delle informazioni che, col passare del tempo, diventano disponibili e permettono di stimare X. In questo
capitolo, salvo diversamente specificato, X indica una variabile aleatoria a valori in Rd .

5.1 Il caso discreto


Introduciamo il concetto di condizionamento alla σ -algebra generata da una v.a. discreta: trattia-
mo questo caso molto particolare con uno scopo meramente introduttivo alla definizione generale che è
tecnicamente più complessa e sarà introdotta nelle sezioni successive.
Consideriamo una variabile aleatoria Y definita sullo spazio (Ω, F , P ) e assumiamo che Y sia discreta1
nel senso seguente:

1 L’ipotesi ii) non è realmente restrittiva: se Z verifica i) allora esiste una v.a. Y discreta tale che P (Y = y) > 0 per ogni y ∈ Y (Ω) e
Z = Y q.c.

189
190 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

i) i valori distinti assunti da Y formano un insieme di cardinalità al più numerabile: in altri termini,
l’immagine di Ω mediante Y è della forma Y (Ω) = (yn )n∈N con yn distinti;

ii) per ogni n ∈ N, l’evento Bn := (Y = yn ) non è trascurabile, ossia P (Bn ) > 0.

In queste ipotesi, la famiglia (Bn )n∈N forma una partizione finita o numerabile di Ω, i cui elementi sono even-
ti non trascurabili. Notiamo che σ (Y ), la σ -algebra generata da Y , è costituita dall’insieme vuoto, dagli
elementi della partizione (Bn )n∈N e dalle unioni di essi.

Definizione 5.1.1 (Probabilità condizionata).


  Nello spazio (Ω, F , P ) la probabilità condizionata alla v.a.
discreta Y è la famiglia P (· | Y ) = Pω (· | Y ) di misure di probabilità su (Ω, F ) definite da
ω∈Ω

Pω (A | Y ) := P (A | Y = Y (ω)), A ∈ F, (5.1.1)

dove P (· | Y = Y (ω)) indica la probabilità condizionata all’evento (Y = Y (ω)) (cfr. Definizione 2.3.2).

Osservazione 5.1.2. Per ogni A ∈ F , P (A | Y ) è una variabile aleatoria costante sugli elementi della parti-
zione (Bn )n∈N :
X
P (A | Y ) = P (A | Bn )1Bn .
n≥1

Poiché Pω (· | Y ) è una misura di probabilità per ogni ω ∈ Ω, sono definiti in modo naturale i concetti di
distribuzione e attesa condizionate a Y .

Definizione 5.1.3 (Distribuzione e attesa condizionata). Data X una v.a. su (Ω, F , P ) a valori in Rd ,

i) la distribuzione (o legge) di X condizionata a Y , indicata con µX|Y , è la distribuzione di X relativa alla


probabilità condizionata P (· | Y ):

µX|Y (H) := P (X ∈ H | Y ), H ∈ Bd ; (5.1.2)

ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a Y , indicata con E [X | Y ], è il valore atteso di X nella


probabilità condizionata P (· | Y ):
Z
E [X | Y ] := XdP (· | Y ). (5.1.3)

Osservazione 5.1.4. Si noti che la distribuzione e l’attesa condizionate dipendono da ω e quindi sono
quantità aleatorie, infatti:

i) il significato della definizione (5.1.2) è

µX|Y (H; ω) := Pω (X ∈ H | Y ), H ∈ Bd , ω ∈ Ω.

Di conseguenza:

i-a) per ogni ω ∈ Ω, µX|Y (·; ω) è una distribuzione su (Rd , Bd ): diciamo quindi che µX|Y è una distri-
buzione aleatoria;
i-b) per ogni H ∈ Bd , µX|Y (H) è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
µX|Y (H) = P (X ∈ H | Bn )1Bn ; (5.1.4)
n≥1
5.1. IL CASO DISCRETO 191

ii) il significato della definizione (5.1.3) è


Z
E [X | Y ] (ω) := XdPω (· | Y ), ω ∈ Ω.

Di conseguenza, E [X | Y ] è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
E [X | Y ] = E [X | Bn ] 1Bn , (5.1.5)
n≥1

dove, per la Proposizione 3.4.2, Z


1
E [X | Bn ] = XdP .
P (Bn ) Bn

Esempio 5.1.5. Riprendiamo l’Esempio 3.4.5: da un’urna che contiene n ≥ 2 palline numerate, si estrag-
gono in sequenza e senza reinserimento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il
numero della prima e seconda pallina estratta. Allora per ogni k ∈ In si ha

1
 n−1 , se h ∈ In \ {k},


µX2 |X1 =k ({h}) = 
0
 altrimenti,

o equivalentemente
µX2 |X1 = UnifIn \{X1 } .

Generalizziamo ora due ben noti strumenti fondamentali per il calcolo dell’attesa.

Teorema 5.1.6 (Teorema del calcolo della media). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Se
f ∈ mBd e f (X) ∈ L1 (Ω, P ) allora Z
E [f (X) | Y ] = f dµX|Y .
Rd

Dimostrazione. Per ogni ω ∈ Ω si ha


Z
E [f (X) | Y ] (ω) = f (X)dPω (· | Y ) =

(per il Teorema 3.2.25 del calcolo della media)


Z
= f (x)µX|Y (dx; ω).
Rd

Teorema 5.1.7 (Formula della probabilità totale). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Si ha
h i
µX = E µX|Y . (5.1.6)

Dimostrazione. Per ogni H ∈ Bd , per la (5.1.4) si ha


h i X X
E µX|Y (H) = P (X ∈ H | Bn )P (Bn ) = P ((X ∈ H) ∩ Bn ) = P (X ∈ H) = µX (H).
n≥1 n≥1
192 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Esempio 5.1.8. Il numero di mail di spam ricevute ogni giorno da una casella di posta è una v.a. con di-
stribuzione Poisson10 . Installando un software antispam è possibile dimezzare il numero medio di mail di
spam ricevute. Sapendo che tale software protegge solo l’80% delle caselle di posta di un’azienda, determi-
niamo la distribuzione e la media del numero di mail di spam ricevute ogni giorno da ogni casella di posta
dell’azienda.
Sia Y ∼ Bep , con p = 80%, la v.a. che vale 1 se una casella di posta è protetta e 0 altrimenti. Se X indica
il numero di mail di spam ricevute, si ha per ipotesi

µX|Y = Y Poisson5 + (1 − Y )Poisson10 .

Allora, per la Formula della probabilità totale (5.1.6), si ha


h i
µX = E µX|Y = pµX|Y =1 + (1 − p)µX|Y =0 = pPoisson5 + (1 − p)Poisson10

da cui
E [X] = pE [X | Y = 1] + (1 − p)E [X | Y = 0] = 80% · 5 + 20% · 10 = 6.
Infine, per il Teorema del calcolo della media si ha
Z
E [X | Y ] = xµX|Y (dx)
R
Z Z
=Y xPoisson5 (dx) + (1 − Y ) xPoisson10 (dx) = 5Y + 10(1 − Y ).
R R

Esempio 5.1.9. Supponiamo che µX|Y = ExpY con Y ∼ Geomp : allora si ha


Z +∞ h it=+∞
P (X ≥ x | Y ) = ExpY ([x, +∞[) = Y e−tY dt = −e−tY = e−xY ,
t=x
x

per ogni x ≥ 0. Quindi si ha


h i X p
E [P (X ≥ x | Y )] = E e−xY = e−nx p(1 − p)n−1 =
p − 1 + ex
n∈N

e d’altra parte, per la Formula della probabilità totale, vale

E [P (X ≥ x | Y )] = P (X ≥ x)

che fornisce l’espressione della CDF (e quindi della distribuzione) di X. Infatti, osservando che chiaramente
P (X ≥ x | Y ) = 1 se x < 0, si ha 
1 se x < 0,


P (X ≥ x) =  p
 p−1+ex se x ≥ 0,

da cui si deduce che X è una v.a. assolutamente continua con densità (si veda la Figura 5.1)

d 0 x se x < 0,


γX (x) = (1 − P (X ≥ x)) =  pe (5.1.7)
dx 
 x 2
se x ≥ 0.
(p−1+e )

Si può pensare a X come a una v.a. di tipo esponenziale con intensità2 stocastica. Questo esempio mostra
che tramite il concetto di distribuzione condizionata è possibile considerare modelli probabilistici in cui il
valore dei parametri è incerto o stocastico. Da qui viene la fondamentale importanza della distribuzione
condizionata in molte applicazioni e, in particolare, in statistica.
2 Nella distribuzione esponenziale Exp , il parametro λ > 0 è usualmente chiamato intensità.
λ
5.1. IL CASO DISCRETO 193

2.0

1.5

1.0

0.5

0.5 1.0 1.5 2.0

Figura 5.1: Grafico della densità in (5.1.7) per p=0.5

L’attesa condizionata gode di due proprietà che la caratterizzano univocamente.

Proposizione 5.1.10. [!] Date due variabili aleatorie X e Y su (Ω, F , P ), con X ∈ L1 (Ω, P ) e Y discreta,
poniamo Z = E [X | Y ]. Allora si ha:

i) Z ∈ mσ (Y );

ii) per ogni W ∈ bσ (Y ) vale


E [ZW ] = E [XW ] .

Inoltre, se Z ′ è una v.a. che verifica le proprietà i) e ii) allora Z ′ (ω) = Z(ω) per ogni ω ∈ Ω.

Dimostrazione. La i) è immediata conseguenza della (5.1.5). Per quanto riguarda la ii), per il Teorema 3.3.3
di Doob esiste f misurabile e limitata tale che W = f (Y ) o, più esplicitamente
X
W= f (yn )1Bn . (5.1.8)
n≥1

Allora per la (5.1.5) si ha


 
 X 
E [W Z] = E f (Y )
 E [X | Bn ] 1Bn 
n≥1
X h i
= f (yn )E [X | Bn ] E 1Bn =
n≥1

(per la (3.4.1))
X h i
= f (yn )E X1Bn = E [XW ] .
n≥1

Infine, se Z ′ gode delle proprietà i) e ii) allora Z ′ è della forma (5.1.8) e, per la ii) con W = 1Bn , si ha
h i h i
f (yn )P (Bn ) = E Z ′ 1Bn = E X1Bn

da cui segue f (yn ) = E [X | Bn ].


194 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Osservazione 5.1.11 (Funzione probabilità condizionata). [!] Sia Y una v.a. discreta a valori in uno
spazio misurabile (E, E ). Secondo la definizione (5.1.1), la probabilità condizionata è una famiglia di misure
di probabilità Pω (· | Y ) al variare di ω ∈ Ω e in tal senso può essere interpretata come una probabilità
aleatoria. È possibile dare una definizione alternativa di probabilità condizionata in cui P (· | Y ) dipende da
y ∈ Y (Ω) invece che da ω ∈ Ω: precisamente, si dice che la famiglia P (· | Y ) = (P (· | Y = y))y∈Y (Ω) di misure
di probabilità su (Ω, F ) è la funzione3 probabilità condizionata a Y . In modo analogo si definisce la funzione
legge della v.a. X condizionata a Y come
µX|Y (H; y) = P (X ∈ H | Y = y), H ∈ B, y ∈ Y (Ω),
e la funzione attesa condizionata come
Z
E [X | Y = y] = XdP (· | Y = y) =

(per la Proposizione 3.4.2)


Z
1
= XdP , y ∈ Y (Ω).
P (Y = y) (Y =y)

Ricordiamo anche la definizione di funzione di distribuzione di una variabile aleatoria discreta X, data
nell’Osservazione 2.4.16:
µ̄X (x) = P (X = x), x ∈ X(Ω).
Per analogia indichiamo con µ̄X|Y (x, y) = P (X = x | Y = y) la funzione di distribuzione di X condizionata a Y e
osserviamo che vale
P ((X = x) ∩ (Y = y)) µ̄(X,Y ) (x, y)
µ̄X|Y (x, y) = = , x ∈ X(Ω), y ∈ Y (Ω). (5.1.9)
P (Y = y) µ̄Y (y)
Esempio 5.1.12. Il numero di email ricevute ogni giorno è una v.a. Y ∼ Poissonλ con λ = 20. Ogni email ha
probabilità p = 15% di essere spam, indipendentemente dalle altre. Determiniamo la distribuzione della
v.a. X che indica il numero di email di spam ricevute ogni giorno.
Intuitivamente ci aspettiamo che X ∼ Poissonλp . In effetti, per ipotesi si ha

Binn,p ({k}) se k ≤ n,


P (X = k | Y = n) = 
0
 se k > n,

è la probabilità che, su n email ricevute, ce ne siano esattamente k di spam. Per la Formula della probabilità
totale si ha
X
P (X = k) = P (X = k | Y = n)P (Y = n)
n≥0
X n! λn
= pk (1 − p)n−k e−λ
k n!
n≥k
e−λ (λp)k X (1 − p)n−k λn−k
= =
k! (n − k)!
n≥k

(posto h = n − k)

e−λ (λp)k X (1 − p)h λh (λp)k


= = e−λp = Poissonλp ({k}).
k! h! k!
h≥0
3 Usiamo il termine funzione probabilità condizionata a Y per sottolineare il fatto che, secondo questa definizione, P (· | Y ) è una
funzione che ad ogni y ∈ Y (Ω) associa la misura di probabilità P (· | Y = y).
5.1. IL CASO DISCRETO 195

Osservazione 5.1.13. Consideriamo Y = 1B con B ∈ F tale che 0 < P (B) < 1: nelle applicazioni si interpreta
la σ -algebra generata da Y
σ (Y ) = {∅, Ω, B, Bc }
come “l’informazione riguardo al fatto che l’evento B sia avvenuto o meno”. Notiamo la differenza concet-
tuale fra:

i) condizionare a B, nel senso di condizionare al fatto che B è avvenuto;

ii) condizionare a Y , nel senso di condizionare al fatto di sapere se B sia avvenuto o meno.

Per questo motivo l’attesa condizionata E [X | Y ] è definita come in (5.1.5) ossia:



E [X | B] se ω ∈ B,


E [X | Y ] (ω) := 
E [X | Bc ] se ω ∈ Bc .

Intuitivamente, E [X | B] rappresenta l’attesa di X stimata in base all’osservazione che B è accaduto: pertanto


E [X | B] è un numero, un valore deterministico. Al contrario, si può pensare a E [X | Y ] come a una stima
futura di X che dipenderà dall’osservare se B avviene o no (oppure alla stima di X che è data da un individuo
che sa se B è avvenuto o no): per questo motivo E [X | Y ] è definita come una variabile aleatoria.

5.1.1 Esempi
Esempio 5.1.14. Calcoliamo E [X1 | Y ] dove X1 , . . . , Xn ∼ Bep , con 0 < p < 1, sono indipendenti e Y = X1 +
· · · + Xn . Poiché Y ∼ Binn,p , abbiamo

E [X1 | Y = k] = 0 · P (X1 = 0 | Y = k) + 1 · P (X1 = 1 | Y = k) =

(posto Z = X2 + · · · + Xn ∼ Binn−1,p )

P ((X1 = 1) ∩ (Z = k − 1))
= =
P (Y = k)

(per l’indipendenza di X1 e Z)

P (X1 = 1)P (Z = k − 1)
=
P (Y = k)
n−1 k−1
p p (1 − p)n−1−(k−1) k
= k−1 n k n−k
= , k = 0, . . . , n,
k p (1 − p)
n

è la funzione attesa di X1 condizionata a Y . Equivalentemente si ha

Y
E [X1 | Y ] = .
n
Esempio 5.1.15. L’urna A contiene n ∈ N palline di cui solo k1 ≤ n sono bianche. L’urna B contiene n ∈ N
palline di cui solo k2 ≤ n sono bianche. Si sceglie a caso un’urna e si effettua una successione di estrazioni
con reinserimento. Determiniamo la distribuzione del numero X di estrazioni necessarie per trovare la
prima pallina bianca.
Sia Y ∼ Bep , con p = 21 , la v.a. che vale 1 se viene scelta l’urna A e vale 0 altrimenti. Allora, ricordando
l’Esempio 3.1.25 sulla distribuzione geometrica, si ha

µX|Y = Y Geom k1 + (1 − Y )Geom k2 ,


n n
196 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

e per la formula della probabilità totale (5.1.6) si ha

1
 
µX = Geom k1 + Geom k2 .
2 n n

Infine
n(k1 + k2 )
E [X] = .
2k1 k2
Esempio 5.1.16. Siano Xi ∼ Poissonλi , i = 1, 2, indipendenti e Y := X1 + X2 . Sappiamo (cfr. Esempio 3.6.5)
che Y ∼ Poissonλ1 +λ2 . Proviamo che
µX1 |Y = BinY , λ1 .
λ1 +λ2

Indichiamo con µX1 |Y =· la funzione distribuzione di X1 condizionata a Y . Per k ∈ {0, 1, . . . , n}, si ha

P ((X1 = k) ∩ (Y = n))
µX1 |Y =n ({k}) = =
P (Y = n)

(per l’indipendenza di X1 e X2 )

e−λ1 λk1 e−λ2 λn−k


2
P (X1 = k)P (X2 = n − k) k! (n−k)!
= =
P (Y = n) e−λ1 −λ2 (λ1 +λ2 )n
n!

e d’altra parte µX1 |Y =n ({k}) = 0 per gli altri valori di k. Da ciò si conclude facilmente.

Esercizio 5.1.17. Siano Xi ∼ Geomp , i = 1, 2, indipendenti e Y := X1 + X2 . Provare che

i) µY ({n}) = (n − 1)p2 (1 − p)n−2 , per n ≥ 2;

ii) µX1 |Y = Unif{1,2,...,Y −1} .

5.2 Attesa condizionata


In uno spazio (Ω, F , P ) siano X una v.a. sommabile e G una sotto-σ -algebra di F . In questa sezione
diamo la definizione di attesa di X condizionata a G . Osserviamo che non è possibile in generale definire
E [X | G ] come nel caso discreto perché non è chiaro come partizionare lo spazio campionario Ω a partire da
G . Il problema è che una σ -algebra può avere una struttura molto complicata: si pensi, per esempio, alla
σ -algebra di Borel sullo spazio Euclideo. Inoltre, nel caso G = σ (Y ) con Y assolutamente continua, la defi-
nizione (5.1.1) perde significato perché ogni evento del tipo (Y = Y (ω)) è trascurabile. Per superare questi
problemi, la definizione generale di attesa condizionata è data in termini delle due proprietà fondamentali
della Proposizione 5.1.10. Il seguente risultato mostra che una v.a. che soddisfa tali proprietà esiste sempre
e, in un certo senso, è unica.

Teorema 5.2.1. Siano X ∈ L1 (Ω, F , P ) a valori in Rd e G una sotto-σ -algebra di F . Esiste una v.a. Z ∈
L1 (Ω, P ) a valori in Rd che soddisfa le seguenti proprietà:

i) Z ∈ mG ;

ii) per ogni v.a. W ∈ mG limitata, vale


E [ZW ] = E [XW ] . (5.2.1)

Inoltre se Z ′ verifica i) e ii) allora Z = Z ′ quasi certamente.


5.2. ATTESA CONDIZIONATA 197

Dimostrazione. (Unicità) Consideriamo il caso d = 1. Dimostriamo un risultato leggermente più generale


da cui segue facilmente l’unicità: siano X, X ′ v.a. sommabili, tali che X ≤ X ′ quasi certamente e siano Z, Z ′
v.a. che verificano le proprietà i) e ii) rispettivamente per X e X ′ . Allora Z ≤ Z ′ quasi certamente.
Infatti, poniamo
An = (Z − Z ′ ≥ 1/n) , n ∈ N.
Allora An ∈ G per la i), e vale
h i h i h i
0 ≥ E (X − X ′ )1An = E X1An − E X ′ 1An =

(per ii))
h i h i h i 1
= E Z1An − E Z ′ 1An = E (Z − Z ′ )1An ≥ P (An )
n
da cui P (An ) = 0 e, per la continuità dal basso di P , si ha anche P (Z > Z ′ ) = 0. Il caso d > 1 segue ragionando
componente per componente.
(Esistenza) Diamo una dimostrazione dell’esistenza basata su risultati di analisi funzionale, in particolare
relativi alla proiezione ortogonale in spazi di Hilbert. Consideriamo dapprima l’ipotesi più restrittiva che
X appartenga a L2 (Ω, F , P ) che è uno spazio di Hilbert col prodotto scalare

⟨X, Z⟩ = E [XZ] .

Anche L2 (Ω, G , P ) è uno spazio di Hilbert ed è un sotto-spazio chiuso di L2 (Ω, F , P ) poiché G ⊆ F . Allora
esiste la proiezione Z di X su L2 (Ω, G , P ) e per definizione si ha:

i) Z ∈ L2 (Ω, G , P ) e quindi in particolare Z è G -misurabile;

ii) per ogni W ∈ L2 (Ω, G , P ) si ha


E [(Z − X)W ] = 0. (5.2.2)

Dunque Z è proprio la v.a. cercata: dal punto di vista geometrico, Z è la v.a. G -misurabile che meglio
approssima X nel senso che, fra le v.a. G -misurabili, è la meno distante da X rispetto alla distanza di L2 .
Consideriamo ora X ∈ L1 (Ω, F , P ) tale che X ≥ 0 quasi certamente. Il caso di X a valori in Rd si prova
ragionando sulla parte positiva e negativa di ogni singola componente. La successione definita da

Xn = X ∧ n, n ∈ N,

è crescente, appartiene a L2 e tende puntualmente a X: ad ogni Xn associamo Zn definita come sopra,


ossia come proiezione di Xn su L2 (Ω, G , P ). Per quanto visto nella prima parte della dimostrazione, per
ogni n ∈ N vale 0 ≤ Zn ≤ Zn+1 quasi certamente: di conseguenza si ha anche che, a meno di un evento A
trascurabile, vale
0 ≤ Zn ≤ Zn+1 , ∀n ∈ N.
Definiamo
Z(ω) = sup Zn (ω), ω ∈ Ω \ A,
n∈N

e Z = 0 su A. Allora Z ∈ mG essendo limite puntuale di v.a. in mG . Inoltre, sia W limitata e G -misurabile:


a meno di considerare separatamente parte positiva e negativa, non è restrittivo considerare W ≥ 0. Per il
Teorema di Beppo-Levi, si ha

E [XW ] = lim E [Xn W ] = lim E [Zn W ] = E [ZW ] .


n→∞ n→∞
198 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Osservazione 5.2.2. [!] Per il secondo Teorema di Dynkin (Teorema A.1.8), la proprietà ii) del Teorema
5.2.1 equivale alla seguente proprietà, in generale più semplice da verificare:
ii-b) vale
E [Z1G ] = E [X1G ]
per ogni G ∈ A , dove A è una famiglia ∩-chiusa tale che σ (A ) = G .
Definizione 5.2.3 (Attesa condizionata). Siano X ∈ L1 (Ω, F , P ) e G una sotto-σ -algebra di F . Se Z
soddisfa le proprietà i) e ii) del Teorema 5.2.1 allora scriviamo

Z = E [X | G ] (5.2.3)

e diciamo che Z è una versione dell’attesa condizionata di X a G . In particolare, se G = σ (Y ) con Y v.a. su


(Ω, F , P ), scriviamo
Z = E [X | Y ]
invece di Z = E [X | σ (Y )].
Osservazione 5.2.4. [!] La (5.2.3) non è da intendersi come un’equazione, ossia come un’identità fra i membri
a destra e a sinistra dell’uguaglianza: al contrario, essa è una notazione, un simbolo che indica che Z gode
delle proprietà i) e ii) del Teorema 5.2.1 (e quindi è una versione dell’attesa condizionata di X a G ). L’attesa
condizionata è definita implicitamente, mediante le proprietà i) e ii), a meno di eventi trascurabili di G : in
altri termini se Z = E [X | G ] e Z ′ differisce da Z su un evento trascurabile di G , allora anche Z ′ = E [X | G ].
Per questo motivo si parla di versione dell’attesa condizionata, anche se nel seguito per semplicità diremo
impropriamente che Z è attesa condizionata di X a G . Però attenzione: se Z = E [X | G ] e Z ′ = Z q.c., non
è detto che Z ′ = E [X | G ]. Si tratta di una sottigliezza a cui si deve porre attenzione: modificando Z su un
evento C trascurabile ma tale che C < G si può perdere la proprietà di G -misurabilità.
Convenzione 5.2.5. [!] Nel seguito sarà utile considerare uguaglianze di attese condizionate. Per evitare
ambiguità useremo la seguente convenzione: se H ⊆ G la scrittura

E [X | H ] = E [X | G ]

significa che se Z = E [X | H ] allora Z = E [X | G ] (tuttavia può esistere una versione Z ′ di E [X | G ] che non è
attesa di X condizionata a H , in particolare se Z ′ ∈ mG \ mH ). Si noti che le notazioni E [X | H ] = E [X | G ]
e E [X | G ] = E [X | H ] non sono equivalenti a meno che non sia H = G .
Osservazione 5.2.6. [!] Ci si può chiedere perché non si definisca l’attesa condizionata come classe di equi-
valenza, identificando le funzioni (variabili aleatorie) che sono uguali quasi certamente come si è soliti fare
nella teoria dell’analisi funzionale. Certamente la presentazione risulterebbe più elegante e si eviterebbe di
dover menzionare continuamente la versione (ossia il rappresentante della classe di equivalenza) dell’attesa
condizionata. Vorrei cercare di chiarire questa questione che è discussa anche nell’introduzione del libro di
Williams [126]. Anzitutto occorre considerare il fatto che l’identificazione per classi di equivalenza dipende
dalla misura di probabilità fissata: mentre in analisi funzionale la struttura di spazio misurabile è general-
mente fissata una volta per tutte, in teoria della probabilità è normale lavorare contemporaneamente con
diverse misure e σ -algebre. Di più, la situazione tipica è quella in cui tali misure, anche se definite sulla
stessa σ -algebra, non sono equivalenti (ossia non hanno gli stessi eventi trascurabili e certi): si pensi al caso
di una probabilità P e della probabilità condizionata P (· | B) con 0 < P (B) < 1 per la quale P (Bc | B) = 0. La
situazione si complica ulteriormente nella teoria dei processi stocastici in cui si considerano famiglie non
numerabili di σ -algebre e di misure di probabilità: in questo ambito, la definizione di variabile aleatoria
come classe di equivalenza semplicemente non è utilizzabile.
Osservazione 5.2.7. [!] Siano X, Y ∈ L2 (Ω, P ) e Z = E [X | Y ]. Allora

E [X − Z] = 0, cov (X − Z, Y ) = 0, (5.2.4)
5.2. ATTESA CONDIZIONATA 199

ossia X − Z ha media nulla ed è scorrelata da Y . La prima equazione segue dalla (5.2.2) con W = 1. Per la
seconda si ha

cov (X − Z, Y ) = E [(X − Z)Y ] − E [X − Z] E [Y ] = 0

poiché E [(X − Z)Y ] = 0 per la4 (5.2.1) con W = Y .

Esempio 5.2.8. [!] Consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ Nµ,C con

σX2
!
σXY
µ = (eX , eY ), C= ≥ 0.
σXY σY2

Proviamo che esistono a, b ∈ R tali che aY + b = E [X | Y ]. Se aY + b = E [X | Y ] allora a, b sono determinati


univocamente dalle equazioni in (5.2.4) che qui diventano

E [aY + b] = E [X] , cov (X − (aY + b), Y ) = 0.

Quindi
aeY + b = eX , aσY2 = σXY
da cui, supposto σY , 0,
σXY σXY
a= , b = eX − eY ,
σY2 σY2
che fornisce un’ulteriore interpretazione della retta di regressione vista nella Sezione 3.2.9. D’altra parte,
se a, b sono determinate in questo modo allora Z := aY + b = E [X | Y ] poiché:

i) chiaramente Z ∈ mσ (Y );

ii) X − Z e Y hanno distribuzione congiunta normale (poiché è (X − Z, Y ) è funzione lineare di (X, Y )) e


quindi non sono solo scorrelate ma anche indipendenti (cfr. Proposizione 3.5.18). Di conseguenza,
per ogni W ∈ mσ (Y ) (che quindi è indipendente da X − Z), si ha

E [(X − Z)W ] = (E [X] − E [Z]) E [W ] = 0.

Dunque la distribuzione multi-normale ha la notevole proprietà di avere le distribuzioni marginali (µX e µY ) e le


distribuzioni marginali condizionate (ossia µX|Y ) che sono ancora normali.

Nella prova del Teorema 5.2.1 abbiamo dimostrato anche il risultato seguente:

Corollario 5.2.9. Siano X ∈ mF + e G una sotto-σ -algebra di F . Esiste una v.a. Z che soddisfa le seguenti
proprietà:

i) Z ∈ mG + ;

ii) per ogni v.a. W ∈ mG + , vale


E [ZW ] = E [XW ] .

Inoltre se Z ′ verifica i) e ii) allora Z = Z ′ quasi certamente.

Il Corollario 5.2.9 permette di estendere la Definizione 5.2.3 di attesa condizionata alle v.a. integrabili
(non necessariamente sommabili).
4 Più precisamente, si veda la (5.2.2).
200 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

5.2.1 Proprietà dell’attesa condizionata


In questa sezione proviamo alcune proprietà dell’attesa condizionata. Consideriamo due v.a. reali X, Y ∈
L1 (Ω, F , P ) e G , H sotto-σ -algebre di F .

Teorema 5.2.10. Valgono le seguenti proprietà:

1) (Formula della probabilità totale)


E [X] = E [E [X | G ]] . (5.2.5)

2) Se X ∈ mG allora
X = E [X | G ] .

3) Se X e G sono indipendenti allora


E [X] = E [X | G ] .

4) (Linearità) per ogni a ∈ R si ha

aE [X | G ] + E [Y | G ] = E [aX + Y | G ] .

5) (Monotonia) Se P (X ≤ Y ) = 1 allora
E [X | G ] ≤ E [Y | G ] ,
nel senso che se Z = E [X | G ] e W = E [Y | G ] allora P (Z ≤ W ) = 1.

6) Se X è G -misurabile e limitata, si ha

XE [Y | G ] = E [XY | G ] . (5.2.6)

7) (Proprietà della torre) Se H ⊆ G , si ha5

E [E [X | G ] | H ] = E [X | H ] .

8) (Teorema di Beppo-Levi) Se 0 ≤ Xn ↗ X allora

lim E [Xn | G ] = E [X | G ] .
n→∞

9) (Lemma di Fatou) Se (Xn )n∈N è una successione di v.a. in mF + , allora


 
E lim inf Xn | G ≤ lim inf E [Xn | G ] .
n→∞ n→∞

10) (Teorema della convergenza dominata) Se (Xn )n∈N è una successione che converge q.c. a X e vale
|Xn | ≤ Y ∈ L1 (Ω, P ) q.c. per ogni n ∈ N, allora si ha

lim E [Xn | G ] = E [X | G ] .
n→∞

11) (Disuguaglianza di Jensen) Se ϕ è una funzione convessa tale che ϕ(X) ∈ L1 (Ω, P ), si ha

ϕ (E [X | G ]) ≤ E [ϕ(X) | G ] .
5 Vale anche
E [X | H ] = E [E [X | H ] | G ]
che segue direttamente dalla proprietà 2) e dal fatto che E [X | H ] ∈ mG poiché H ⊆ G .
5.2. ATTESA CONDIZIONATA 201

12) Per ogni p ≥ 1 si ha


∥E [X | G ]∥p ≤ ∥X∥p .

13) (Lemma di freezing) Siano G , H indipendenti, X ∈ mG e f = f (x, ω) ∈ m (B ⊗ H ) tale che f (X, ·) ∈


L1 (Ω, P ) oppure f ≥ 0. Allora si ha

E [f (X, ·) | G ] = F(X) dove F(x) := E [f (x, ·)] , (5.2.7)

o, con una scrittura più compatta,

E [f (X, ·) | G ] = E [f (x, ·)] |x=X .

14) (CHF condizionata e indipendenza) X e G sono indipendenti se e solo se


h i h i
E eiηX | G = E eiηX , η ∈ R,

ossia se la CHF ϕX e la CHF condizionata ϕX|G coincidono.

15) Se Z = E [X | G ] e Z ∈ mH con H ⊆ G allora Z = E [X | H ].

Dimostrazione. 1) Basta porre W = 1 nella (5.2.1).

2) Segue direttamente dalla definizione.

3) La v.a. costante Z := E [X] è chiaramente G -misurabile (perché σ (Z) = {∅, Ω}) e inoltre, per ogni v.a.
W ∈ mG limitata, per l’ipotesi di indipendenza vale

E [XW ] = E [X] E [W ] = E [E [X] W ] = E [ZW ] .

Questo prova che Z = E [X | G ].

4) Si tratta di dimostrare che se Z = E [X | G ] e W = E [Y | G ], nel senso che verificano le proprietà i) e ii)


del Teorema 5.2.1, allora aZ + W = E [aX + Y | G ]. È una semplice verifica lasciata per esercizio.

5) Questa proprietà è provata nella prima parte della dimostrazione del Teorema 5.2.1.

6) Sia Z = E [Y | G ]. Dobbiamo provare che XZ = E [XY | G ]:

i) X ∈ mG per ipotesi e quindi XZ ∈ mG ;


ii) data W ∈ mG limitata, si ha che anche XW ∈ mG limitata e quindi

E [(XZ)W ] = E [Z(XW )] =

(poiché Z = E [Y | G ])

= E [Y (XW )] = E [(XY )W )]

da cui la tesi.

7) Sia Z = E [X | H ]. Dobbiamo provare che Z = E [E [X | G ] | H ]. Per definizione

i) Z ∈ mH ;
ii) data W ∈ mH limitata, si ha
E [ZW ] = E [XW ] .
202 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

D’altra parte, se W ∈ mH allora W ∈ mG poiché H ⊆ G , e quindi

E [E [X | G ] W ] = E [XW ] .

Allora E [ZW ] = E [E [X | G ] W ] da cui la tesi.


8) Poniamo Yn := E [Xn | G ], n ≥ 1. Per la monotonia dell’attesa condizionata, 0 ≤ Yn ≤ Yn+1 q.c. e quindi
esiste q.c.
Y := lim E [Xn | G ] ,
n→∞
con Y ∈ mG + perché limite puntuale di v.a. G -misurabili. Inoltre, per ogni W ∈ mG + , si ha 0 ≤ Yn W ↗
Y W e 0 ≤ Xn W ↗ XW q.c.; quindi per il Teorema di Beppo-Levi si ha

E [Y W ] = lim E [Yn W ] = lim E [Xn X] = E [XW ] ,


n→∞ n→∞

che prova la tesi.


9)-10)-11) La dimostrazione è sostanzialmente analoga al caso deterministico.
12) Segue facilmente dalla disuguaglianza di Jensen con ϕ(x) = |x|p .
13) Sia M la famiglia delle funzioni f ∈ b(B⊗H ) che verificano la (5.2.7): M è una famiglia monotona di
funzioni (cfr. Definizione A.1.7), come si dimostra facilmente utilizzando il Teorema di Beppo-Levi
per l’attesa condizionata. Inoltre, la (5.2.7) vale per le funzioni della forma f (x, ω) = g(x)Y (ω) con
g ∈ bB e Y ∈ bH : infatti in questo caso si ha F(x) = g(x)E [Y ] e, per la proprietà (5.2.6),

E [g(X)Y | G ] = g(X)E [Y | G ] = g(X)E [Y ] = F(X).

Allora la tesi segue dal secondo Teorema di Dynkin (Teorema A.1.8).


14) Per ogni Y ∈ mG e η1 , η2 ∈ R, si ha
h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 X eiη2 Y =

(per definizione di attesa condizionata)


h h i i
= E E eiη1 X | G eiη2 Y =

(per ipotesi)
h i h i
= E eiη1 X E eiη2 Y = ϕX (η1 )ϕY (η2 )

e la tesi segue dalla Proposizione 3.5.11-ii).


15) È un semplice esercizio.

Una conseguenza immediata del punto 13) del Teorema 5.2.10 è la seguente versione particolare del
Lemma di freezing di cui diamo una dimostrazione alternativa più semplice.
Lemma 5.2.11 (Lemma di freezing). Sia G una sotto-σ -algebra di F . Se X ∈ mG , Y è una v.a. indipendente
da G e f ∈ mB2 è tale che f (X, Y ) ∈ L1 (Ω, P ), allora si ha

E [f (X, Y ) | G ] = F(X) dove F(x) := E [f (x, Y )] , (5.2.8)

o, con una scrittura più compatta,

E [f (X, Y ) | G ] = E [f (x, Y )] |x=X .


5.2. ATTESA CONDIZIONATA 203

Dimostrazione. Per il teorema di Fubini la funzione F in (5.2.8) è Borel misurabile e quindi F(X) ∈ mG .
Inoltre Y è indipendente da (W , X) per ogni W ∈ bG : allora si ha
Z
E [W f (X, Y )] = wf (x, y)µ(W ,X,Y ) (dw, dx, dy) =
R3

(per indipendenza)
Z
= wf (x, y)µ(W ,X) ⊗ µY (dw, dx, dy) =
R3

(per il teorema di Fubini)


Z Z !
= w f (x, y)µY (dy) µ(W ,X) (dw, dx)
2
ZR R

= wF(x)µ(W ,X) (dw, dx) = E [W F(X)]


R2

da cui la tesi.
Esempio 5.2.12. [!] Riprendiamo l’Esempio 3.5.4 e consideriamo N e Z1 , Z2 , . . . v.a. indipendenti con
N ∼ Poissonλ e Zn identicamente distribuite per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk

 se N ≥ 1.
k=1

Si ha
N 
h i Y 
ϕX (η) = E eiηX = E  eiηZk  =
k=1

(per la formula della probabilità totale (5.2.5))


 N 
 Y   N 
= E E  eiηZk | N  = E ϕZ1 (η)
k=1

dove nell’ultimo passaggio abbiamo utilizzato il Lemma di freezing e il fatto che, per l’indipendenza delle
v.a. Zk , si ha
 n 
Y 
E  e k  = ϕZ1 (η)n ,
iηZ
n ∈ N.
k=1

Allora si ha X λn
ϕX (η) = e−λ ϕZ1 (η)n = eλ(ϕZ1 (η)−1)
n!
n≥0

dove ϕZ1 indica la CHF di Z1 .

Esempio 5.2.13. Siano X, Y , U , V v.a. indipendenti con X, Y ∼ N0,1 e U 2 + V 2 , 0 q.c. Proviamo che

XU + Y V
Z := √ ∼ N0,1 .
U2 + V 2
204 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Infatti si ha
iη √XU +Y V
" #
ϕZ (η) = E e U 2 +V 2 =

(per la formula della probabilità totale (5.2.5))


" " XU +Y V ##
iη √
2 +V 2
=E E e U | (U , V ) =

(per il Lemma di freezing e l’Esempio 3.5.16)


" #
η2 η2

=E e 2 = e− 2

da cui segue la tesi.

5.2.2 Attesa condizionata e cambi di misura di probabilità


Richiamiamo le notazioni dell’Appendice A.2.1 e scriviamo Q ≪F P per indicare che Q è una misura
assolutamente continua rispetto a P sulla σ -algebra F .
Teorema 5.2.14 (Formula di Bayes). Siano P , Q misure di probabilità su (Ω, F ) con Q ≪F P . Se X ∈
L1 (Ω, Q) e G è una sotto-σ -algebra di F vale

E P [XL | G ]
E Q [X | G ] = (5.2.9)
E P [L | G ]
dQ
dove L = dP |F è la derivata di Radon-Nikodym di Q rispetto a P su F .

Dimostrazione. Poniamo Z = E Q [X | G ] e LG = E P [L | G ]. Osserviamo che Q(LG > 0) = 1 poiché

Q(LG = 0) = E Q 1(LG =0) = E P 1(LG =0) L =


h i h i

(essendo (LG = 0) ∈ G )

= E Q 1(LG =0) LG = 0.
h i

Allora la (5.2.9) equivale a ZLG = E P [XL | G ]: per mostrare quest’ultima, osserviamo che ZLG è ovviamente
G -misurabile e per concludere usiamo l’Osservazione 5.2.2: per ogni G ∈ G si ha
Z Z Z Z Z Z
G P Q
ZL dP = E [ZL | G ] dP = ZLdP = E [X | G ] dQ = XdQ = XLdP .
G G G G G G

Osservazione 5.2.15. Indichiamo rispettivamente con LF e LG le derivate di Radon-Nikodym di Q rispetto


a P su F e su G : si noti che LF , a differenza di LG , non è necessariamente G -misurabile. D’altra parte si ha

LG = E P LF | G ,
h i

poiché LG è sommabile e G -misurabile e si ha


Z Z
G
L dP = Q(G) = LF dP , G ∈G,
G G

essendo G ⊆ F .
5.2. ATTESA CONDIZIONATA 205

5.2.3 Funzione attesa condizionata


In questa sezione consideriamo il caso G = σ (Y ) con Y v.a. su (Ω, F , P ) a valori in uno spazio misurabile
(E, E ). In analogia con l’Osservazione 5.1.11, diamo una definizione alternativa di attesa condizionata come
funzione.
Sia X ∈ L1 (Ω, F , P ) a valori in Rd . Se Z = E [X | Y ] allora Z ∈ mσ (Y ) e quindi, per il Teorema 3.3.3
di Doob, esiste (e in generale non è unica) una funzione Φ ∈ mE tale che Z = Φ(Y ): per fissare le idee, si
osservi il grafico seguente

E [X | Y ]  
(Ω, F ) Rd , Bd

Y Φ
(E, E )

Definizione 5.2.16 (Funzione attesa condizionata). Sia


 
Φ : (E, E ) −→ Rd , Bd

una funzione tale che


i) Φ ∈ mE ;
ii) Φ(Y ) = E [X | Y ].
Allora diciamo che Φ è una versione della funzione attesa condizionata di X a Y e scriviamo

Φ(y) = E [X | Y = y] . (5.2.10)

Osservazione 5.2.17. La scrittura E [X | Y = y] in (5.2.10) non indica l’attesa di X condizionata all’evento (Y =


y) nel senso della Definizione 2.3.2. Infatti tale definizione richiede che (Y = y) non sia trascurabile mentre
in (5.2.10) Y è una v.a. generica: per esempio, se Y è una v.a. reale assolutamente continua allora l’evento
(Y = y) ha probabilità nulla per ogni y ∈ R. Pertanto la (5.2.10) non è da intendersi come un’equazione e
non identifica univocamente Φ: si tratta di una notazione per indicare che Φ è una qualsiasi funzione che
verifica le due proprietà i) e ii) della Definizione 5.2.16. In altri termini, una funzione misurabile Φ è una
versione della funzione attesa condizionata di X a Y se e solo se la variabile aleatoria Φ(Y ) è una versione
dell’attesa condizionata di X a Y .
In definitiva, l’attesa condizionata a σ (Y ) può essere interpretata come variabile aleatoria oppure co-
me funzione: i due punti di vista sono sostanzialmente equivalenti e la scelta di quale adottare dipende
generalmente dal contesto.
Esempio 5.2.18. Nell’Esempio 5.2.8 abbiamo visto che se (X, Y ) ha distribuzione normale bidimensionale
allora esistono a, b ∈ R tali che ay + b = E [X | Y = y], ossia la funzione lineare Φ(y) = ay + b è una versione
della funzione attesa condizionata di X a Y .
Se f ∈ bBd e Y una v.a. in Rd , allora

f (y) = E [f (Y ) | Y = y] , y ∈ Rd .

5.2.4 Least Square Monte Carlo


Per quanto visto nella dimostrazione del Teorema 5.2.1, nello spazio delle variabili aleatorie di quadra-
to sommabili, l’attesa condizionata si può definire come proiezione ortogonale e quindi si esprime come
soluzione di un problema ai minimi quadrati. Precisamente vale la seguente
206 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Proposizione 5.2.19 (Caratterizzazione dell’attesa condizionata in L2 ). Sia Z = E [X | G ] con X ∈ L2 (Ω, F , P )


e G sotto-σ -algebra di F . Allora vale
h i h i
E |X − Z|2 ≤ E |X − W |2 , W ∈ L2 (Ω, G , P ). (5.2.11)

Dimostrazione. Si ha
h i h i
E |X − W |2 | G = E |X − Z + Z − W |2 | G
h i h i
= E |X − Z|2 | G + E |Z − W |2 | G + 2E [⟨X − Z, Z − W ⟩ | G ] =

(essendo Z − W ∈ mG e per la (5.2.6))


h i
= E |X − Z|2 | G + |Z − W |2 + 2⟨E [X − Z | G ] , Z − W ⟩ =

(essendo E [X − Z | G ] = 0)
h i h i
= E |X − Z|2 | G + |Z − W |2 ≥ E |X − Z|2 | G .

Applicando il valore atteso si ottiene la (5.2.11).


Assegnata una funzione Borel-misurabile F tale che F(X, Y ) ∈ L2 (Ω, F , P ), un problema classico è quello
del calcolo dell’attesa condizionata
E [F(X, Y ) | Y ]
a partire dalla conoscenza della legge congiunta di X e Y . Il problema si riconduce al calcolo di una versione
Φ della funzione attesa condizionata, ossia Φ(y) = E [F(X, Y ) | Y = y]: per la (5.2.11) si ha6
h i h i
E |F(X, Y ) − Φ(Y )|2 = min E |F(X, Y ) − f (Y )|2 .
f ∈L2 (Rn ,Bn ,µY )

In altri termini, determinare Φ equivale a risolvere il problema ai minimi quadrati


h i
Φ = arg min E |F(X, Y ) − f (Y )|2 . (5.2.12)
f ∈L2 (Rn ,Bn ,µY )

A volte questo problema può essere risolto in modo esatto: è il caso dell’Esempio 5.2.8, in cui F(x, y) =
x e (X, Y ) ∼ Nµ,C . Spesso tuttavia è necessario ricorrere a metodi numerici. Nel caso in cui X, Y siano
indipendenti allora per il Lemma di freezing si ha semplicemente Φ(y) = E [F(X, y)], y ∈ R: quindi per
determinare Φ è sufficiente calcolare un valore atteso e ciò può essere fatto numericamente col metodo
Monte Carlo. Più in generale, esiste un’estensione di tale metodo, detta Least Square Monte Carlo (LSMC),
che è basata su una regressione multi-lineare del tipo visto nella Sezione 3.2.9.
Vediamo come si procede nel caso unodimensionale: consideriamo una base di L2 (R, B, µY ), per esempio
le funzioni polinomiali βk (y) := y k con k = 0, 1, 2, . . . , e fissato n ∈ N, poniamo

β = (β0 , β1 , . . . , βn ).

Approssimiamo in dimensione finita il problema (5.2.12) cercando una soluzione λ̄ ∈ Rn+1 di


 2 
min E ⟨β(Y ), λ⟩ − F(X, Y ) . (5.2.13)
λ∈Rn+1

Una volta determinato λ̄, l’approssimazione della funzione attesa condizionata in (5.2.12) è data da

Φ(y) ≃ ⟨β(y), λ̄⟩.


6 Si ricordi che, per il teorema di Doob, ogni W ∈ L2 (Ω, σ (Y ), P ) si esprime nella forma W = f (Y ) per una certa f ∈ L2 (Rn , B , µ ).
n Y
5.2. ATTESA CONDIZIONATA 207

Risolviamo il problema (5.2.13) approssimando il valore atteso con il metodo Monte Carlo. Costruiamo
due vettori x, y ∈ RM le cui componenti sono ottenute simulando M valori delle variabili X e Y , con M
sufficientemente grande. Per fissare le idee, M può essere dell’ordine di 105 o maggiore, mentre al contrario
è sufficiente che il numero di elementi della base n sia piccolo, dell’ordine di qualche unità (per maggiori
dettagli si veda, per esempio, [50] o la monografia [49]). Posto
M 
X 2
Q(λ) := ⟨β(yk ), λ⟩ − F(xk , yk ) , λ ∈ Rn+1 ,
k=1

il valore atteso in (5.2.13) è approssimato da

Q(λ)
 2 
≈ E ⟨λ, β(Y )⟩ − F(X, Y ) , M ≫ 1.
M
Come nella Sezione 3.2.9, essendo Q una funzione quadratica di λ, il minimo si determina imponendo
∇Q(λ) = 0. In notazioni vettoriali si ha
Q(λ) = |Bλ − F|2
dove B = (bki ) con bki = βi (yk ) e F = (F(xk , yk )) per k = 1, . . . , M e i = 0, . . . , n. Quindi

∇Q(λ) = 2B∗ (Bλ − F)

e imponendo la condizione ∇Q(λ) = 0, nel caso la matrice B∗ B sia invertibile, si ottiene

λ̄ = (B∗ B)−1 B∗ F.

Il calcolo di λ̄ richiede l’inversione della matrice B∗ B che ha dimensione (n + 1) × (n + 1), da cui l’importanza
di mantenere n piccolo. Notiamo che invece B è una matrice di grandi dimensioni, M × (n + 1).
Come esempio, in Figura 5.2 mostriamo il grafico delle prime quattro approssimazioni LSMC, con base
polinomiale, della funzione attesa condizionata a Y
2
Φ(y) = E [F(X, Y ) | Y = y] , F(x, y) = max{1 − ex y , 0},

con (X, Y ) normale bidimensionale con media nulla, deviazioni standard σX = 0.8, σY = 0.5 e correlazione
ϱ = −0.7.

-1

-1 0 1 2

Figura 5.2: Approssimazioni LSMC.


208 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

5.3 Probabilità condizionata


Siano (Ω, F , P ) uno spazio di probabilità e G una sotto-σ -algebra di F . Per ogni A ∈ F fissiamo una
versione ZA = E [1A | G ] dell’attesa di 1A condizionata a G . Sembrerebbe naturale definire la probabilità
condizionata a G ponendo
Pω (A | G ) = ZA (ω), ω ∈ Ω. (5.3.1)

In realtà, poiché ZA è determinata a meno di un evento P -trascurabile che dipende da A, non è detto (e in
generale non è vero) che Pω (· | G ) cosı̀ definita sia una misura di probabilità per ogni ω ∈ Ω.

Definizione 5.3.1 (Versione regolare della probabilità condizionata). Nello spazio  (Ω, F , P ), una versio-
ne regolare della probabilità condizionata a G è una famiglia P (· | G ) = Pω (· | G ) di misure di probabilità
ω∈Ω
su (Ω, F ) tale che7
P (A | G ) = E [1A | G ] , A ∈ F. (5.3.2)

L’esistenza di una versione regolare della probabilità condizionata è un problema tutt’altro che banale:
in [32], [33] p.624, [52] p.210, sono dati esempi di non esistenza. Condizioni su (Ω, F , P ) sufficienti8
a garantire l’esistenza di una versione regolare della probabilità condizionata sono state fornite da vari
autori: il risultato più classico al riguardo è il seguente Teorema 5.3.2. Ricordiamo che uno spazio polacco è
uno spazio metrico separabile9 e completo.

Teorema 5.3.2. Sia P una misura di probabilità definita su (Ω, B) dove Ω è uno spazio polacco e B è la
relativa σ -algebra di Borel. Per ogni sotto-σ -algebra G di B, esiste una versione regolare della probabilità
condizionata P (· | G ).

Dimostriamo il Teorema 5.3.2 nel caso particolare in cui Ω = Rd (cfr. Teorema 5.3.4): per la dimo-
strazione generale si veda, per esempio, [118] p.13 oppure [33] p.380. L’idea è di sfruttare l’esistenza di
un sottoinsieme A numerabile e denso in Ω, per definire dapprima una famiglia di misure di probabilità
(Pω (· | G ))ω∈A che verifichi la (5.3.1) e poi provare la tesi per densità di A in Ω.

Esempio 5.3.3. Assumiamo esista P (· | G ). Se G ∈ G allora P (G | G ) assume solo i valori 0 e 1. Infatti si ha

P (G | G ) = E [1G | G ] = 1G .

Sia ora X una v.a. su (Ω, F , P ) a valori in Rd . Nel caso in cui esista una versione regolare P (· | G ) della
probabilità condizionata a G , si pone

µX|G (H) := P (X ∈ H | G ), H ∈ Bd .
 
Notiamo che, per definizione, µX|G = µX|G (·; ω) è una famiglia di distribuzioni in Rd e per questo
ω∈Ω
motivo è chiamata versione regolare della distribuzione di X condizionata a G .
Anche non assumendo l’esistenza di P (· | G ), possiamo comunque definire una versione regolare della
distribuzione di X condizionata a G basandoci sul concetto di attesa condizionata. È questo il contenuto
del seguente
7 Ricordiamo che la (5.3.2) significa che per ogni A ∈ F si ha :

i) ω 7→ Pω (A | G ) è una v.a. G -misurabile;


ii) per ogni W ∈ bG vale
E [W P (A | G )] = E [W 1A ] .

8 Il problema di fornire condizioni necessarie e sufficienti è complesso e in parte ancora aperto: al riguardo si veda [40].
9 Uno spazio metrico S si dice separabile se esiste un sottoinsieme numerabile e denso in S .
5.3. PROBABILITÀ CONDIZIONATA 209

Teorema 5.3.4 (Versione regolare della legge condizionata). [!] In uno spazio di probabilità  (Ω, F, P ),
siano X una v.a. a valori in R e G una sotto-σ -algebra di F . Allora esiste una famiglia µX|G = µX|G (·; ω)
d
ω∈Ω
di distribuzioni su Rd tali che, per ogni H ∈ Bd , valga10

µX|G (H) = E [1H (X) | G ] . (5.3.3)

Diciamo che µX|G è una versione regolare della distribuzione di X condizionata a G .

Dimostrazione. Si veda la Sezione 5.4.1.

Osservazione 5.3.5. [!] Anche se l’esistenza di una versione regolare P (· | G ) della probabilità condizionata a G
non è garantita in generale, tuttavia con un piccolo abuso di notazione scriveremo indifferentemente µX|G (H)
e P (X ∈ H | G ) per indicare una versione regolare della distribuzione di X condizionata a G .
La dimostrazione del Teorema 5.3.4 sfrutta in maniera cruciale il fatto che X sia a valori in Rd per
utilizzare la densità di Qd in Rd . Il risultato si estende al caso di X a valori in uno spazio metrico polacco, come
per esempio lo spazio delle funzioni continue C([a, b]; R) con la norma del massimo: per la trattazione
generale si veda, per esempio, il Teorema 1.1.6 in [118].

Notazione 5.3.6. Nel seguito spesso ometteremo di indicare la dipendenza da ω ∈ Ω e scriveremo µX|G
invece di µX|G (·; ω), interpretando µX|G come una “distribuzione aleatoria”. Se G = σ (Y ) dove Y è una
qualsiasi v.a. su (Ω, F , P ), scriveremo µX|Y invece di µX|σ (Y ) .

Esempio 5.3.7. [!] Se X ∈ mG allora µX|G = δX . Infatti la famiglia (δX(ω) )ω∈Ω gode delle seguenti proprietà:

i) ovviamente δX(ω) è una distribuzione su Rd per ogni ω ∈ Ω;

ii) per ogni H ∈ Bd vale

δX (H) = 1H (X) =

(poiché X ∈ mG per ipotesi)

= E [1H (X) | G ] .

Teorema 5.3.8 (Teorema del calcolo della media). [!] In uno spazio di probabilità (Ω, F , P ), siano X una
v.a. a valori in Rd e G una sotto-σ -algebra di F . Se f ∈ mBd e f (X) ∈ L1 (Ω, P ) si ha
Z
f dµX|G = E [f (X) | G ] . (5.3.4)
Rd

Dimostrazione. La tesi si prova applicando la procedura standard dell’Osservazione 3.2.21, sfruttando la


linearità e il Teorema di Beppo-Levi per l’attesa condizionata. Basta considerare d = 1. Posto
Z
Z(ω) := f (x)µX|G (dx; ω), ω ∈ Ω,
R

dobbiamo provare che Z = E [f (X) | G ]. Ciò è vero per definizione (cfr. (5.3.3)) se f = 1H con H ∈ B.
Per linearità, la (5.3.4) si estende alle funzioni semplici. Inoltre, se f è a valori reali non-negativi, allora
10 La (5.3.3) significa che, per ogni H ∈ B , si ha
d
i) µX|G (H) è una v.a. G -misurabile;
ii) per ogni W ∈ bG vale h i
E W µX|G (H) = E [W 1H (X)] .
210 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

si considera una successione approssimante 0 ≤ fn ↗ f di funzioni semplici e, applicando il Teorema di


Beppo-Levi prima nella versione classica11 e poi per l’attesa condizionata, si ha
Z Z
f dµX|G = lim fn dµX|G = lim E [fn (X) | G ] = E [f (X) | G ] .
R n→∞ R n→∞

Il caso di una f generica si tratta al solito separando la parte positiva e negativa e riutilizzando la linearità
dell’attesa condizionata.
Osservazione 5.3.9. [!] Il Teorema 5.3.8 chiarisce l’importanza del concetto di versione regolare della
distribuzione condizionata, poiché esso garantisce che l’integrale in (5.3.4) sia ben definito.
Esempio 5.3.10. Supponiamo che X ∼ NY ,1 dove Y ∼ Expλ con λ > 0 fissato. Allora per il Teorema 5.3.8
del calcolo della media si ha
(x−Y )2
Z
1
E [X | Y ] = x √ e− 2 dx = Y .
R 2π
Inoltre per la (5.2.5)
1
E [X] = E [E [X | Y ]] = E [Y ] =
λ
e

cov(X, Y ) = E [XY ] − E [X] E [Y ]


1
= E [E [XY | Y ]] − 2 =
λ
(per la (5.2.6))
1
= E [Y E [X | Y ]] −
λ2
h i 1 1
= E Y2 − 2 = 2.
λ λ
Teorema 5.3.11 (Formula della probabilità totale). [!] In uno spazio di probabilità (Ω, F , P ), siano X
una v.a. a valori in Rd e G una sotto-σ -algebra di F . Allora si ha
h i
µX = E µX|G . (5.3.5)

Dimostrazione. Per definizione, per ogni H ∈ Bd si ha


h i h h ii h i
E µX|G (H) = E E 1(X∈H) | G = E 1(X∈H) = µX (H).

Esempio 5.3.12. Riprendiamo l’Esempio 5.3.10: per la (5.3.5), per ogni H ∈ B si ha


h i
µX (H) = E µX|Y (H)
"Z #
1 (x−Y )2
=E √ e− 2 dx =
H 2π

(per il teorema di Fubini)


" #
(x−Y )2
Z Z
1 − 2
= √ E e dx = γ(x)dx
H 2π H
11 Qui utilizziamo il fatto che µ
X|G = µX|G (·; ω) è una distribuzione per ogni ω ∈ Ω.
5.3. PROBABILITÀ CONDIZIONATA 211

con Z +∞ (x−y)2
1
γ(x) := √ e− 2 λe−λy dy
2π 0

che è quindi la densità di X.

Corollario 5.3.13. Siano X, Y v.a. su (Ω, F , P ), rispettivamente a valori in Rd e Rn . Allora si ha


h i
µ(X,Y ) (H × K) = E µX|Y (H)1(Y ∈K) , H ∈ Bd , K ∈ Bn , (5.3.6)
h i
iη2 ·Y
ϕ(X,Y ) (η1 , η2 ) = E e ϕX|Y (η1 ) , η 1 ∈ Rd , η 2 ∈ Rn . (5.3.7)

La (5.3.6) mostra come si ricava la legge congiunta di X, Y a partire dalla legge condizionata µX|Y e dalla legge
marginale µY : infatti la v.a. µX|Y (H)1(Y ∈K) è funzione di Y e pertanto il valore atteso in (5.3.6) è calcolabile a
partire da µY . Analogamente la (5.3.7) mostra come si ricava la CHF congiunta di X, Y a partire dalla CHF
condizionata ϕX|Y e dalla legge marginale µY .

Dimostrazione del Corollario 5.3.13. Per definizione si ha


h i h h i i
E µX|Y (H)1(Y ∈K) = E E 1(X∈H) | Y 1(Y ∈K) =

(per la proprietà ii) del Teorema 5.2.1 con W = 1(Y ∈K) )


h i
= E 1(X∈H) 1(Y ∈K) = µ(X,Y ) (H × K).

Per quanto riguarda la (5.3.7), abbiamo


h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 ·X+iη2 ·Y
h h ii
= E E eiη1 ·X+iη2 ·Y | Y =

(per la (5.2.6))
h h ii
= E eiη2 ·Y E eiη1 ·X | Y
h i
= E eiη2 ·Y ϕX|Y (η1 ) .

Esempio 5.3.14. Riprendiamo l’Esempio 5.3.10: per la (5.3.7) si ha

η2 η12
" #
h
iη2 Y
i
iη2 Y iη1 Y − 21 λ
ϕ(X,Y ) (η1 , η2 ) = E e ϕX|Y (η1 ) = E e e = e− 2 .
λ − i(η1 + η2 )

Esempio 5.3.15. Data una v.a. bidimensionale (X, Y ), supponiamo che Y ∼ Unif[0,1] e µX|Y = ExpY . Provia-
mo che (X, Y ) è assolutamente continua e determiniamo la densità congiunta di X, Y e la densità marginale
di X. Un’immediata conseguenza della (5.3.6) è la seguente formula per la CDF congiunta: dati x ∈ R≥0 e
y ∈ [0, 1], si ha
h i
P ((X ≤ x) ∩ (Y ≤ y)) = E ExpY (] − ∞, x])1(Y ≤y)
h  i
= E 1 − e−xY 1(Y ≤y)
Z y  e−xy − 1 + xy
= 1 − e−xt dt = .
0 x
212 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Ne segue che la CDF di (X, Y ) è





0 se (x, y) ∈ R<0 × R<0 ,
 e−xy −1+xy

F(X,Y ) (x, y) = 
 x se (x, y) ∈ R≥0 × [0, 1],
 e−x −1+x
se (x, y) ∈ R≥0 × [1, +∞[.


x

Da ciò si ricava12 la densità congiunta


γ(X,Y ) (x, y) = ∂x ∂y F(x, y) = ye−xy 1R≥0 ×[0,1] (x, y).
Per la densità marginale, si ha
e−x (ex − 1 − x)
γX (x) = ∂x P (X ≤ x) = ∂x F(x, 1) = 1R≥0 (x).
x2

5.3.1 Funzione distribuzione condizionata


Teorema 5.3.16 (Versione regolare della funzione distribuzione condizionata). [!] In uno spazio di pro-
babilità (Ω, F , P ), siano X una v.a. a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Allora
esiste una famiglia (µ(·; y))y∈E di distribuzioni su Rd tale che, per ogni H ∈ Bd ,
i) la funzione y 7→ µ(H; y) è E -misurabile;
ii) µ(H, Y ) = P (X ∈ H | Y ) ossia13 , per ogni W ∈ bσ (Y ) si ha
h i
E [W µ(H; Y )] = E W 1(X∈H) .

Diciamo che (µ(·; y))y∈E è una versione regolare della funzione distribuzione di X condizionata a Y e scriviamo
µ(·; y) = µX|Y =y .
Dimostrazione. La prova è leggermente più sofisticata ma sostanzialmente analoga a quella del Teorema
5.3.4: per questo motivo non la riportiamo e rimandiamo a [57], Teorema 6.3, per i dettagli.
Osservazione 5.3.17. Se µ(·; y) = µX|Y =y allora (µX|Y (·; Y (ω)))ω∈Ω è una versione regolare della distribuzione
di X condizionata a Y nel senso del Teorema 5.3.4.
Esempio 5.3.18. Riprendiamo l’Esempio 5.3.7: se Y è una v.a. reale allora µY |Y = δY . In altri termini, la
distribuzione aleatoria δY è una versione regolare della distribuzione di Y condizionata ad Y .
Per esempio, se Y ∼ Unif[0,1] allora (δy )y∈R è una versione regolare della funzione distribuzione di Y
condizionata a Y . In realtà sarebbe sufficiente definire la versione regolare solo per y ∈ E = [0, 1]: il valore
assunto fuori da [0, 1] è irrilevante poiché Y assume valori in [0, 1] q.c.
Nell’Esempio 5.3.15, ExpY = µX|Y ossia ExpY è una versione regolare della distribuzione di X condizio-
nata a Y ∼ Unif[0,1] : equivalentemente (Expy )y∈[0,1] è una versione regolare della funzione distribuzione di
X condizionata a Y .
Ricordiamo la notazione (5.2.10), E [X | Y = y], per indicare la funzione attesa di X condizionata a Y .
Vale il seguente risultato analogo al Teorema 5.3.8.
Teorema 5.3.19 (Teorema del calcolo della media). In uno spazio di probabilità (Ω, F , P ), siano X una v.a.
a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P )
si ha Z
f dµX|Y =y = E [f (X) | Y = y] .
Rd
12 Si ricordi che
Zx Zy
F(x, y) = γ(X,Y ) (ξ, η)dξdη.
−∞ −∞
13 Si ricordi la notazione dell’Osservazione 5.3.5.
5.3. PROBABILITÀ CONDIZIONATA 213

5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente con-
tinuo
Abbiamo visto nel Corollario 5.3.13 come ricavare la distribuzione congiunta a partire dalle marginali
condizionate. In questa sezione consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo
con densità γ(X,Y ) e ricaviamo l’espressione della densità marginale condizionata γX|Y .
Ricordiamo che, per il Teorema di Fubini,
Z
γY (y) := γ(X,Y ) (x, y)dx, y ∈ R, (5.3.8)
Rd

è una14 densità di Y e l’insieme


(γY > 0) := {y ∈ R | γY (y) > 0}
appartiene a B. Il seguente risultato fornisce la versione continua della formula (5.1.9).
Proposizione 5.3.20. [!] Sia (X, Y ) ∈ AC un vettore aleatorio con densità γ(X,Y ) . Allora la funzione

γ(X,Y ) (x, y)
γX|Y (x, y) := , x ∈ Rd , y ∈ (γY > 0), (5.3.9)
γY (y)

è una versione regolare della densità di X condizionata a Y nel senso che la famiglia (µ(·; y))y∈(γY >0) definita
da Z
µ(H; y) := γX|Y (x, y)dx, H ∈ Bd , y ∈ (γY > 0), (5.3.10)
H
è una versione regolare della funzione distribuzione di X condizionata a Y . Di conseguenza, per ogni f ∈
mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
f (x)γX|Y (x, y)dx = E [f (X) | Y = y] (5.3.11)
Rd

o equivalentemente Z
f (x)γX|Y (x, Y )dx = E [f (X) | Y ] . (5.3.12)
Rd

Dimostrazione. Si veda la Sezione 5.4.2.


Osservazione 5.3.21. [!] Segue dalla (5.3.9) la formula

γ(X,Y ) (x, y) = γX|Y (x, y)γY (y)

che esprime la densità congiunta come prodotto della marginale γY per la marginale condizionata γX|Y . Si
generalizza cosı̀ la formula
γ(X,Y ) (x, y) = γX (x)γY (y)
valida sotto la restrittiva ipotesi che X, Y siano indipendenti.
Esempio 5.3.22. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su

S = {(x, y) ∈ R2 | x > 0, y > 0, x2 + y 2 < 1}.

Determiniamo:
i) la distribuzione condizionata µX|Y ;
14 Ricordiamo (cfr. Osservazione 2.4.19) che la densità di una v.a. è definita a meno di insiemi di Borel di misura nulla secondo
Lebesgue.
214 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

ii) E [X | Y ] e var(X | Y );

iii) la densità della v.a. E [X | Y ].

i) La densità congiunta è
4
γ(X,Y ) (x, y) = 1 (x, y)
π S
e la marginale di Y è p
4 1 − y2
Z
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y).
R π
Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = =p 1 √ 2 (x), y ∈ ]0, 1[,
γY (y) 1 − y 2 [0, 1−y ]
da cui riconosciamo che
µX|Y = Unif[0,√1−Y 2 ] . (5.3.13)

ii) Per la (5.3.13) si ha √


1−Y2 1−Y2
E [X | Y ] = , var(X | Y ) = .
2 12
In alternativa, in base alla (5.3.11) della Proposizione 5.3.20 si ha, per y ∈ ]0, 1[,
p
1 − y2
Z
E [X | Y = y] = xγX|Y (x, y)dx = ,
R 2
Z  p 2
 1 − y 2  1 − y2
var (X | Y = y) = x −
  γX|Y (x, y)dx = .
R 2 12

2
iii) Infine per determinare la densità della v.a. Z = 1−Y2 utilizziamo la CDF: si ha P (Z ≤ 0) = 0, P (Z ≤
1/2) = 1 e per 0 < z < 1/2 vale
√ 
P (Z ≤ z) = P 1 − Y 2 ≤ 2z
 
= P Y 2 ≥ 1 − 4z2
 √ 
= P Y ≥ 1 − 4z2
Z √1−4z2 p
4 1 − y2
= 1− dy.
0 π

Derivando otteniamo la densità di Z:


32z2
γZ (z) = √ 1]0,1/2[ (z).
π 1 − 4z2
Corollario 5.3.23 (Formula della probabilità totale per la densità). Sia (X, Y ) ∈ AC un vettore aleatorio
con densità γ(X,Y ) . Vale
h i
γX = E γX|Y (·, Y ) . (5.3.14)

Dimostrazione. Per ogni f ∈ bB si ha

E [f (X)] = E [E [f (X) | Y ]] =
5.3. PROBABILITÀ CONDIZIONATA 215

(per la (5.3.12))
"Z #
=E f (x)γX|Y (x, Y )dx =
Rd

(per il Teorema di Fubini)


Z h i
= f (x)E γX|Y (x, Y ) dx
Rd

e questo prova la tesi, data l’arbitrarietà di f .

Esempio 5.3.24. Siano X, Y v.a. reali. Supponiamo Y ∼ Expλ , con λ > 0, e che la densità di X condizionata
a Y sia di tipo esponenziale:
γX|Y (x, y) = ye−xy 1[0,+∞[ (x),
ossia µX|Y = ExpY . Determiniamo la densità di X: utilizzando la (5.3.14) si ha
h i
γX (x) = E Y e−xY 1[0,+∞ (x)
Z +∞
= ye−xy λe−λy dy1[0,+∞ (x)
0
λ
= 1[0,+∞ (x).
(x + λ)2

Si noti che X < L1 (Ω, P ).

Esempio 5.3.25. Riprendiamo l’Esempio 5.2.8 e consideriamo un vettore aleatorio normale bidimensionale
(X, Y ) ∼ Nµ,C con
σX2 σXY
!
µ = (µ1 , µ2 ), C= > 0.
σXY σY2
Determiniamo:

i) la funzione caratteristica ϕX|Y e la distribuzione µX|Y di X condizionata a Y ;

ii) E [X | Y ].

i) La densità di X condizionata a Y è

γ(X,Y ) (x, y)
γX|Y (x, y) = , (x, y) ∈ R2 ,
γY (y)

da cui, con qualche calcolo, si trova


h i
ϕX|Y (η1 , Y ) = E eiη1 X | Y
Z
= eiη1 x γX|Y (x, Y )dx
R
σ2
! !
σXY
iη1 µ1 +(Y −µ2 ) − 21 η12 σX2 − XY
σY2 2 σY
=e ,

ossia
µX|Y = N σXY
2
σXY . (5.3.15)
µ1 +(Y −µ2 ) ,σX2 −
σY2 σY2
216 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

ii) Da (5.3.15) si ha
σXY
E [X | Y ] = µ1 + (Y − µ2 ) (5.3.16)
σY2
in accordo con quanto visto nell’Esempio 5.2.8. Lo stesso risultato si ottiene con la (5.3.11), calcolando
Z
σ
E [X | Y = y] = xγX|Y (x, y)dx = µ1 + (y − µ2 ) XY .
R σY2

Esempio 5.3.26. Sia (X1 , X2 , X3 ) un vettore aleatorio con distribuzione normale Nµ,C dove
 
1 1 0
µ = (0, 1, 0) , C = 1 2 1 .
 
0 1 3
 

Per determinare
E [(X1 , X2 , X3 ) | X3 ] ,
anzitutto osserviamo che (X1 , X3 ) ∼ N(0,0),C2 e (X2 , X3 ) ∼ N(1,0),C1 dove
! !
1 0 2 1
C2 = , C1 = .
0 3 1 3

Ricordando il Teorema 5.2.10-3) e osservando che X1 e X3 sono indipendenti poiché cov(X1 , X3 ) = 0,


abbiamo che E [X1 | X3 ] = E [X1 ] = 0. Inoltre, per la (5.3.16),
X3
E [X2 | X3 ] = 1 + .
3
Infine, ancora per Teorema 5.2.10-2), si ha E [X3 | X3 ] = X3 . In definitiva
X
   
E [(X1 , X2 , X3 ) | X3 ] = E [X1 | X3 ] , E [X2 | X3 ] , E [X3 | X3 ] = 0, 1 + 3 , X3 .
3
Esempio 5.3.27. Il petrolio ricevuto da una raffineria contiene una concentrazione di detriti pari a Y
Kg/barile dove Y ∼ Unif[0,1] . Si stima che il processo di raffinazione porti la concentrazione di detriti
da Y a X con X ∼ Unif[0,αY ] dove α < 1 è un parametro positivo noto. Determiniamo:
i) le densità γ(X,Y ) e γX ;
ii) il valore atteso della concentrazione di detriti Y prima della raffinazione, dando per nota la concen-
trazione X dopo la raffinazione.
i) I dati del problema sono:
µY = Unif[0,1] , µX|Y = Unif[0,αY ] ,
ossia
1
γY (y) = 1[0,1] (y), γX|Y (x, y) = 1 (x), y ∈ ]0, 1].
αy [0,αy]
Dalla formula (5.3.9) per la densità condizionata ricaviamo
1
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = 1 (x, y)
αy ]0,αy[×]0,1[
e Z Z 1
1 log α − log x
γX (x) = γ(X,Y ) (x, y)dy = dy 1]0,α[ (x) = 1]0,α[ (x).
R x αy α
α
5.4. APPENDICE 217

ii) Calcoliamo E [Y | X]. Si ha

γ(X,Y ) (x, y) 1
γY |X (y, x) = 1(γX >0) (x) = 1 (x, y) (5.3.17)
γX (x) y(log α − log x) ]0,αy[×]0,1[

da cui
Z Z 1
1 α−x
E [Y | X = x] = yγY |X (y, x)dy = 1 (x) dy = 1 (x).
R log α − log x ]0,α[ x α(log α − log x) ]0,α[
α

In definitiva si ha
α−X
E [Y | X] = .
α(log α − log X)
Notiamo che nella (5.3.17) abbiamo usato la relazione

γ(X,Y ) (x, y) γX|Y (x, y)


γY |X (y, x) = 1(γX >0) (x) = γY (y),
γX (x) γX (x)

che è una versione della formula di Bayes.

Esempio 5.3.28. Sia (X, Y ) un vettore aleatorio con distribuzione marginale µY = χ2 e distribuzione condi-
zionata µX|Y = N0, 1 . Ricordiamo che le relative densità sono
Y

r
1 −2
y y − x2 y
γY (y) = p e , γX|Y (x, y) = e 2 , y > 0.
2πy 2π

Allora la densità congiunta è data da

1 − (1+x2 )y
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = e 2 , y > 0,

e la marginale di X è
Z +∞
1
γX (x) = γ(X,Y ) (x, y)dy = , x ∈ R,
0 π(1 + x2 )
ossia X ha distribuzione di Cauchy (cfr. (3.5.5)).

5.4 Appendice
5.4.1 Dimostrazione del Teorema 5.3.4
Alla dimostrazione del Teorema 5.3.4 premettiamo il seguente risultato: diciamo che

F : Q −→ [0, 1]

è una funzione di ripartizione (o CDF) su Q se:

i) F è monotona crescente;

ii) F è continua a destra nel senso che, per ogni q ∈ Q, vale

F(q) = F(q+) := lim F(p); (5.4.1)


p↓q
p∈Q
218 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

iii) vale
lim F(q) = 0
q→−∞
e lim F(q) = 1.
q→+∞
(5.4.2)
q∈Q q∈Q

Lemma 5.4.1. Data una CDF F su Q, esiste una distribuzione µ su R tale che

F(q) = µ(] − ∞, q]), q ∈ Q. (5.4.3)

Dimostrazione. La funzione definita da15

F̄(x) := lim F(y), x ∈ R,


y↓x
y∈Q

è una CDF su R (provarlo per esercizio) e F = F̄ su Q. Allora per il Teorema 2.4.33 esiste una distribuzione
µ che verifica la (5.4.3).
Dimostrazione del Teorema 5.3.4. Basta considerare il caso d = 1. Per ogni q ∈ Q, fissiamo una versione
dell’attesa condizionata h i
F(q) := E 1(X≤q) | G
la cui esistenza è garantita dal Teorema 5.2.1. In realtà, F = F(q, ω) dipende anche da ω ∈ Ω ma per brevità
scriveremo F = F(q) considerando F(q) come variabile aleatoria (G -misurabile, per definizione). In base alle
proprietà dell’attesa condizionata e alla numerabilità di Q, si ha che P -quasi certamente F è una CDF su Q:
più precisamente, esiste un evento trascurabile C ∈ G tale che F = F(·, ω) è una CDF su Q per ogni ω ∈ Ω\C.
Infatti, se p, q ∈ Q con p ≤ q, allora 1(X≤p) ≤ 1(X≤q) e quindi
h i h i
F(p) = E 1(X≤p) | G ≤ E 1(X≤q) | G = F(q)

a meno di un evento G -misurabile trascurabile, per la proprietà di monotonia dell’attesa condizionata.


Analogamente si provano le proprietà (5.4.1) e (5.4.2) come conseguenza del Teorema della convergenza
dominata per l’attesa condizionata:
 per esempio, se (pn )n∈N è una successione in Q tale che pn ↓ q ∈ Q allora
la successione di v.a. 1(X≤pn ) è limitata e converge puntualmente
n∈N

lim 1(X≤pn ) (ω) = 1(X≤q) (ω), ω ∈ Ω,


n→∞

da cui h i h i
lim F(pn ) = lim E 1(X≤pn ) | G = E 1(X≤q) | G = F(q).
n→∞ n→∞
In base al Lemma 5.4.1, per ogni ω ∈ Ω \ C esiste una distribuzione µ = µ(·, ω) (ma scriveremo semplice-
mente µ = µ(H), per H ∈ B) tale che

µ(] − ∞, p]) = F(p), p ∈ Q.

Per costruzione, µ è una distribuzione su R, a meno dell’evento trascurabile C ∈ G : in realtà possiamo


supporre che µ sia una distribuzione su tutto Ω ponendo, per esempio, µ(·, ω) ≡ δ0 per ω ∈ C. Proviamo ora
che µ soddisfa anche la (5.3.3): a tal fine utilizziamo il Teorema A.1.3 di Dynkin e poniamo
h i
M = {H ∈ B | µ(H) = E 1(X∈H) | G }.

La famiglia
A = {] − ∞, p] | p ∈ Q}
è ∩-chiusa, σ (A ) = B e, per costruzione, A ⊆ M . Se verifichiamo che M è una famiglia monotona, per il
Teorema di Dynkin ne verrà che M = B da cui la tesi. Ora si ha:
15 Il limite esiste per la monotonia di F.
5.4. APPENDICE 219

i) R ∈ M poiché 1R (X) ≡ 1 è G -misurabile e quindi coincide con la propria attesa condizionata. D’altra
parte, µ(R) = 1 su Ω e quindi µ(R) = E [1R (X) | G ];

ii) se H, K ∈ M e H ⊆ K, allora

µ(K \ H) = µ(K) − µ(H)


= E [1K (X) | G ] − E [1H (X) | G ] =

(per la linearità dell’attesa condizionata)

= E [1K (X) − 1H (X) | G ]


h i
= E 1K\H (X) | G ;

iii) sia (Hn )n∈N una successione crescente di elementi di M . Per la continuità dal basso delle distribuzio-
ni, si ha [
µ(H) = lim µ(Hn ), H := Hn .
n→∞
n≥1

D’altra parte, per il Teorema di Beppo-Levi per l’attesa condizionata, si ha


h i
lim µ(Hn ) = lim E 1Hn (X) | G = E [1H (X) | G ] .
n→∞ n→∞

5.4.2 Dimostrazione della Proposizione 5.3.20


Consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo con densità γ(X,Y ) .

Lemma 5.4.2. Per ogni g ∈ bBd+1 vale


Z Z
g(x, y)γ(X,Y ) (x, y)dxdy = 0. (5.4.4)
(γY =0) Rd

Dimostrazione. Sia γY la densità di Y in (5.3.8). Essendo γ(X,Y ) ≥ 0, per il Corollario 3.2.14 si ha

γY (y) = 0 =⇒ γ(X,Y ) (·, y) = 0 q.o.

Allora, per ogni g ∈ bBd+1 e per ogni y tale che γY (y) = 0, vale
Z
g(x, y)γ(X,Y ) (x, y)dx = 0,
Rd

da cui segue la (5.4.4).

Dimostrazione della Proposizione 5.3.20. Dobbiamo provare che la famiglia (µ(·; y))y∈(γY >0) definita in (5.3.10)-
(5.3.9) è una versione regolare della funzione distribuzione di X condizionata a Y secondo la definizione del
Teorema 5.3.16.
Anzitutto µ(·; y) è una distribuzione: infatti γX|Y (·, y) in (5.3.9) è una densità poiché è una funzione
misurabile, non-negativa e tale che, per la (5.3.8), vale
Z Z
1
γX|Y (x, y)dx = γ (x, y)dx = 1.
Rd γY (y) Rd (X,Y )
220 CAPITOLO 5. PROBABILITÀ CONDIZIONATA

Fissiamo H ∈ Bd . Per quanto riguarda la i) del Teorema 5.3.16, il fatto che y 7→ µ(H; y) ∈ mB segue
dal Teorema di Fubini e dal fatto che γX|Y è una funzione Borel-misurabile. Per quanto riguarda la ii) del
Teorema 5.3.16, consideriamo W ∈ bσ (Y ): per il Teorema di Doob, W = g(Y ) con g ∈ bB e quindi si ha
Z
E [W µ(H; Y )] = g(y)µ(H; y)γY (y)dy =
R

(per il Teorema di Fubini)


Z Z !
= g(y) γX|Y (x, y)dx γY (y)dy
(γY >0) H
Z Z
= g(y)γ(X,Y ) (x, y)dx dy =
(γY >0) H

(per la (5.4.4))
" h i
= g(y)1H (x)γ(X,Y ) (x, y)dx dy = E W 1(X∈H) .
Rd ×R
Parte II

Processi e calcolo stocastico

221
223

Se qualcuno dovesse chiedermi, come


filosofa, che cosa si dovrebbe
imparare al liceo, risponderei:
“prima di tutto, solo cose “inutili”,
greco antico, latino, matematica
pura e filosofia. Tutto quello che è
inutile nella vita”. Il bello è che cosı̀,
all’età di 18 anni, si ha un bagaglio
di sapere inutile con cui si può fare
tutto. Mentre col sapere utile si
possono fare solo piccole cose.

Agnes Heller, Solo se sono libera


224
Capitolo 6

Processi stocastici

De te fabula narratur
Dante

Le variabili aleatorie descrivono lo stato di un fenomeno aleatorio, per esempio una posizione non os-
servabile con certezza di una particella in un modello della fisica o il prezzo in una data futura di un titolo
azionario in un modello finanziario. I processi stocastici descrivono la dinamica, nel tempo o in dipendenza
da altri parametri, di un fenomeno aleatorio. Si può definire un processo stocastico come una famiglia
parametrizzata di variabili aleatorie, ognuna delle quali rappresenta lo stato del fenomeno corrispondente
ad un fissato valore dei parametri. Abbiamo già incontrato un semplice processo stocastico nell’Esempio
3.6.4 in cui (Xn )n∈N rappresenta l’evoluzione nel tempo del prezzo di un titolo rischioso. Da un punto di
vista più astratto, un processo stocastico può essere definito come una variabile aleatoria a valori in uno
spazio funzionale, tipicamente uno spazio di curve di RN : ogni curva rappresenta una traiettoria o possibile
evoluzione del fenomeno in RN al variare dei parametri.
La teoria dei processi stocastici è oggigiorno uno dei campi della matematica più ricchi e affascinanti:
segnaliamo l’eccellente articolo di rassegna [82] che, con dovizia di spunti, racconta la storia della ricerca
sui processi stocastici dalla metà del secolo scorso in poi.

6.1 Processi stocastici: legge e distribuzioni finito-dimensionali


In questa sezione diamo due definizioni equivalenti di processo stocastico. La prima definizione è abbastan-
za semplice ed intuitiva; la seconda è più astratta ma indispensabile per la prova di alcuni risultati generali
sui processi stocastici. Introduciamo anche alcune nozioni accessorie: lo spazio delle traiettorie, la legge e le
distribuzioni finito-dimensionali.
Sia I un generico insieme non vuoto. Fissato d ∈ N, indichiamo con mF l’insieme delle variabili aleato-
rie a valori in Rd , definite su uno spazio di probabilità (Ω, F , P ). Il concetto di processo stocastico estende
quello di funzione da I in Rd , ammettendo che i valori assunti possano essere aleatori: in altri termini, cosı̀
come una funzione
f : I −→ Rd
associa a t ∈ I la variabile dipendente f (t) ∈ Rd , analogamente un processo stocastico

X : I −→ mF

associa a t ∈ I la variabile aleatoria d-dimensionale Xt ∈ mF .

225
226 CAPITOLO 6. PROCESSI STOCASTICI

Definizione 6.1.1 (Processo stocastico). Un processo stocastico è una funzione a valori aleatori d-dimen-
sionali
X : I −→ mF
t −→ Xt .

Se d = 1 diciamo che X è un processo stocastico reale. Se I è finito o numerabile allora diciamo che X è un
processo stocastico discreto.

Più in generale, si può definire in modo completamente analogo un processo stocastico X con Xt a valori
in un generico spazio misurabile (E, E ) al posto di Rd .
Può essere utile pensare al processo stocastico X come una famiglia indicizzata X = (Xt )t∈I di variabili
aleatorie. Per fissare le idee, spesso il dominio I sarà un sottoinsieme di R che rappresenta un insieme di
indici temporali; per esempio, se I = N allora un processo (Xn )n∈N è semplicemente una successione di
variabili aleatorie.
Per dare la seconda definizione di processo stocastico, occorre introdurre preliminarmente alcune nota-
zioni. Indichiamo con
RI = {x : I −→ R}
la famiglia delle funzioni da I in R. Per ogni x ∈ RI e t ∈ I, scriviamo xt invece di x(t) e diciamo che xt è la
componente t-esima di x: in questo modo interpretiamo RI come il prodotto cartesiano di R per un numero
|I| di volte (anche se I non è finito o numerabile). Per esempio, se I = {1, . . . , d} allora RI è identificabile con
Rd , mentre se I = N allora RN è l’insieme delle successioni x = (x1 , x2 , . . . ) di numeri reali. Un elemento
x ∈ RI può essere visto come una curva parametrizzata in R, dove I è l’insieme dei parametri.
Diciamo che RI è lo spazio delle traiettorie da I in R e x ∈ RI è una traiettoria reale. Non c’è nulla di
speciale nel considerare traiettorie reali: potremmo direttamente considerare Rd o addirittura un generico
spazio misurabile (E, E ) al posto di R. In tal caso, lo spazio delle traiettorie è E I , l’insieme delle funzioni
da I a valori in E. Tuttavia almeno per il momento ci limiteremo a considerare E = R che interviene nello
studio dei processi stocastici uno-dimensionali (o reali).
Muniamo lo spazio delle traiettorie di una struttura di spazio misurabile. Su RI introduciamo una
σ -algebra che generalizza la σ -algebra prodotto definita nella Sezione 3.3.2. Chiamiamo cilindro finito-
dimensionale, o semplicemente cilindro, un sottoinsieme di RI di cui è “fissato” un numero finito di compo-
nenti.

Definizione 6.1.2 (Cilindro finito-dimensionale). Dati t ∈ I e H ∈ B, diciamo che l’insieme

Ct (H) := {x ∈ RI | xt ∈ H}

è un cilindro uno-dimensionale. Dati t1 , . . . , tn ∈ I distinti e H1 , . . . , Hn ∈ B, poniamo H = H1 × · · · × Hn e


diciamo che
n
\
I
Ct1 ,...,tn (H) := {x ∈ R | (xt1 , . . . , xtn ) ∈ H} = Cti (Hi ) (6.1.1)
i=1

è un cilindro finito-dimensionale. Indichiamo con C la famiglia dei cilindri finito-dimensionali e

F I := σ (C )

la σ -algebra generata da tali cilindri.

La σ -algebra F I è un oggetto molto astratto e, almeno per il momento, non è importante cercare di
visualizzarla concretamente o comprenderne a fondo la struttura: alcune informazioni aggiuntive su F I
verranno fornite nell’Osservazione 6.1.10. Abbiamo introdotto F I al fine di dare la seguente definizione
alternativa.
6.1. PROCESSI STOCASTICI: LEGGE E DISTRIBUZIONI FINITO-DIMENSIONALI 227

Definizione 6.1.3 (Processo stocastico). Un processo stocastico reale X = (Xt )t∈I sullo spazio di probabilità
(Ω, F , P ) è una variabile aleatoria a valori nello spazio delle traiettorie (RI , F I ):
X : Ω −→ RI .
Osservazione 6.1.4. Il fatto che X sia una variabile aleatoria significa che vale la condizione di misurabilità
(X ∈ C) ∈ F per ogni C ∈ F I . (6.1.2)
A sua volta, la condizione (6.1.2) equivale1 al fatto che
(Xt ∈ H) ∈ F per ogni H ∈ B, t ∈ I, (6.1.3)
e quindi le Definizioni 6.1.1 e 6.1.3 sono equivalenti. Riassumendo, si può anche dire che un processo
stocastico reale X è una funzione
X : I × Ω −→ R
(t, ω) −→ Xt (ω)
che
• ad ogni t ∈ I associa la variabile aleatoria ω 7→ Xt (ω): questo è il punto di vista della Definizione 6.1.1;
• ad ogni ω ∈ Ω associa la traiettoria t 7→ Xt (ω): questo è il punto di vista della Definizione 6.1.3. Si
noti che ogni esito ω ∈ Ω corrisponde a (e può essere identificato con) una traiettoria del processo.

Esempio 6.1.5. Ogni funzione f : I −→ R può essere vista come un processo stocastico interpretando, per
ogni fissato t ∈ I, f (t) come una variabile aleatoria costante. In altri termini, se Ω = {ω} è uno spazio
campionario costituito da un solo elemento, il processo definito da Xt (ω) = f (t) ha una sola traiettoria che è
la funzione f . La condizione di misurabilità (6.1.3) è ovvia essendo F = {∅, Ω}. In questo senso il concetto
di processo stocastico generalizza quello di funzione perché consente l’esistenza di molteplici traiettorie.
Dal punto di vista della Definizione 6.1.3 un processo stocastico è una variabile aleatoria e quindi
possiamo definirne la legge.
Definizione 6.1.6 (Legge). La distribuzione (o legge) del processo stocastico X è la misura di probabilità
su (RI , F I ) definita da
µX (C) = P (X ∈ C), C ∈ FI.
Osservazione 6.1.7 (Distribuzioni finito-dimensionali). Anche il concetto di legge di un processo sto-
castico è astratto e poco maneggevole: dal punto di vista operativo, uno strumento molto più efficace
sono le cosiddette distribuzioni finito-dimensionali che sono le distribuzioni µ(Xt ,...,Xtn ) dei vettori aleatori
1
(Xt1 , . . . , Xtn ) al variare della scelta di un numero finito di indici t1 , . . . , tn ∈ I. La legge di un processo è
univocamente determinata dalle distribuzioni finito-dimensionali: in altri termini, è equivalente conoscere la
legge oppure le distribuzioni finito-dimensionali di un processo stocastico2 .
1 Infatti, (X ∈ H) = (X ∈ C) dove C è il cilindro uno-dimensionale (ossia in cui è fissata solo una componente) definito da {x ∈ RI |
t
xt ∈ H}: quindi è chiaro che se X è un processo stocastico allora Xt ∈ mF per ogni t ∈ I. Viceversa, la famiglia
H := {C ∈ F I | X −1 (C) ∈ F }
è una σ -algebra che, per ipotesi, include i cilindri uno-dimensionali e quindi anche C (i cilindri sono intersezioni finite di cilindri
uno-dimensionali). Allora H ⊇ σ (C ) = F I .
2 La misura di un generico cilindro C
t1 ,...,tn (H) si esprime come
 
µX Ct1 ,...,tn (H) = µ(Xt ,...,Xt ) (H)
1 n
I
e quindi le distribuzioni finito-dimensionali identificano
  µX su C . D’altra parte, C è una famiglia ∩-chiusa e genera F : per il
Corollario A.1.5 se due misure di probabilità su RI , F I coincidono su C allora sono uguali. In altri termini, se µ1 (C) = µ2 (C) per
ogni C ∈ C allora µ1 ≡ µ2 . Vedremo che, grazie al Teorema di Carathéodory, una misura di probabilità si estende in modo unico da C a
F I : questo è il contenuto di uno dei primi risultati fondamentali sui processi stocastici, il Teorema di estensione di Kolmogorov, che
esamineremo nella Sezione 6.3.
228 CAPITOLO 6. PROCESSI STOCASTICI

Le distribuzioni uno-dimensionali non sono sufficienti ad identificare la legge di un processo. Questo


è chiaro nel caso in cui I sia finito e quindi il processo sia semplicemente un vettore aleatorio: infatti
le distribuzioni uno-dimensionali sono le leggi marginali del vettore che ovviamente non identificano la
legge congiunta. Un altro esempio interessante è dato nell’Osservazione 10.1.5.

Esempio 6.1.8. Siano A, B ∼ N0,1 v.a. indipendenti. Consideriamo il processo stocastico X = (Xt )t∈R
definito da
Xt = At + B, t ∈ R.
Ogni traiettoria di X è una funzione lineare (una retta) su R. Non è immediato esplicitare la distribuzione
del processo ma è facile calcolare le distribuzioni finito-dimensionali, infatti fissati t1 , . . . , tn ∈ R si ha

Xt1  t1 1


   
!
 .  = α A ,
 . 
α =  ... .. 

 .  B . 
   
Xtn tn 1

e quindi, per la Proposizione 3.5.23, (Xt1 , . . . , Xtn ) ∼ N0,αα ∗ .

Esempio 6.1.9 (Processo Gaussiano). Diciamo che un processo stocastico è Gaussiano se ha distribuzioni
finito-dimensionali normali. Se X = (Xt )t∈I è Gaussiano, consideriamo le funzioni di media e covarianza

m(t) := E [Xt ] , c(s, t) := cov(Xs , Xt ), s, t ∈ I.

Queste funzioni determinano le distribuzioni finito-dimensionali (e quindi anche la legge!) del processo poiché,
per ogni scelta t1 , . . . , tn ∈ I, si ha
(Xt1 , . . . , Xtn ) ∼ NM,C
dove  
M = (m(t1 ), . . . , m(tn )) e C = c(ti , tj ) . (6.1.4)
i,j=1,...,n
 
Osserviamo che C = c(ti , tj ) è una matrice simmetrica e semi-definita positiva. Ovviamente, se I
i,j=1,...,n
è finito allora X non è altro che un vettore aleatorio con distribuzione multi-normale. Il processo dell’E-
sempio 6.1.8 è Gaussiano con media nulla e funzione di covarianza c(s, t) = st + 1. Anche il processo banale
dell’Esempio 6.1.5 è Gaussiano con funzione di media f (t) e funzione di covarianza identicamente nulla:
in questo caso, Xt ∼ δf (t) per ogni t ∈ I. Infine, un esempio fondamentale di processo Gaussiano è il moto
Browniano che definiremo nel Capitolo 10.

Osservazione 6.1.10. [!] Esistono famiglie di traiettorie, anche molto significative, che non appartengono
alla σ -algebra F I . Il fatto è che ogni elemento di F I è caratterizzato da un’infinità al più numerabile di
coordinate3 e questo è fortemente restrittivo nel caso in cui I non sia numerabile. Per esempio, se I = [0, 1]
si ha
C[0, 1] < B [0,1]
3 Più precisamente, risolviamo l’Esercizio 1.4 in [10]: consideriamo I = [0, 1] (quindi lo spazio delle traiettorie RI è la famiglia delle
funzioni da [0, 1] a R). Data una successione τ = (tn )n≥1 ∈ [0, 1]N , identifichiamo τ con la mappa

τ : R[0,1] −→ RN , τ(x) := (xtn )n≥1 ,


e poniamo
M = {τ −1 (H) | τ ∈ [0, 1]N , H ∈ B N }, τ −1 (H) = {x ∈ R[0,1] | τ(x) ∈ H},
dove B N indica la σ -algebra generata dai cilindri finito-dimensionali in RN . Allora M ⊆ B [0,1] e contiene la famiglia dei cilindri
finito-dimensionali di R[0,1] , che è una famiglia ∩-chiusa che genera B [0,1] . Inoltre si prova che M è una famiglia monotona: segue
dal Lemma A.1.4 che M = B [0,1] ossia ogni elemento C ∈ B [0,1] è della forma C = τ −1 (H) per una certa successione τ in [0, 1] e
un certo H ∈ B N . In altri termini, C è caratterizzato da una scelta di una quantità numerabile di coordinate τ = (tn )n≥1 (oltre che da
H ∈ B N ).
6.1. PROCESSI STOCASTICI: LEGGE E DISTRIBUZIONI FINITO-DIMENSIONALI 229

poiché la famiglia C[0, 1] delle funzioni continue non può essere caratterizzata, nello spazio di tutte le
funzioni da [0, 1] in R, imponendo condizioni su una quantità numerabile di coordinate4 . Per il medesimo
motivo, addirittura i singoletti {x} con x ∈ R[0,1] , i sottoinsiemi di R[0,1] con un numero finito di elementi e
altre famiglie significative come per esempio
n o
x ∈ R[0,1] | sup xt < 1
t∈[0,1]

non appartengono B [0,1] .


Questi esempi possono suscitare una forte perplessità nei confronti della σ -algebra F I che non è suf-
ficientemente ampia da contenere importanti famiglie di traiettorie come quelle appena considerate. In
realtà il problema è che lo spazio campionario RI , di tutte le funzioni da I in R, è talmente grande da essere
difficilmente trattabile come spazio misurabile cosı̀ da rendere difficile lo sviluppo di una teoria generale
dei processi stocastici. Per questo motivo, non appena possibile cercheremo di sostituire RI con uno spazio
di traiettorie che, oltre a essere “più piccolo”, possegga anche un’utile struttura di spazio metrico: è questo
il caso dello spazio delle traiettorie continue che esamineremo nella Sezione 9.2.

6.1.1 Processi misurabili


Abbiamo dato due definizioni equivalenti di processo stocastico, ognuna delle quali ha i propri pregi e
difetti:
i) un processo stocastico è una funzione a valori aleatori (Definizione 6.1.1)

X : I −→ mF

che ad ogni t ∈ I associa la variabile aleatoria Xt definita sullo spazio di probabilità (Ω, F , P );
ii) un processo stocastico è una variabile aleatoria a valori in uno spazio di traiettorie (Definizione
6.1.3): secondo questa definizione decisamente più astratta, un processo X = X(ω) è una variabile
aleatoria
X : Ω −→ RI
dallo spazio di probabilità (Ω, F , P ) a valori nello spazio delle traiettorie RI , munito della struttura
di spazio misurabile con la σ -algebra F I . Questa definizione si utilizza nella prova dei risultati più
generali e teorici anche se è una nozione meno operativa e più difficilmente applicabile allo studio di
esempi concreti.
Notiamo che le definizioni precedenti non richiedono alcuna ipotesi sul tipo di dipendenza di X rispetto
alla variabile t (per esempio, la misurabilità o qualche tipo di regolarità). Ovviamente il problema non si
pone nel caso in cui I sia un insieme generico, privo di qualsiasi struttura di spazio misurabile o metrico;
tuttavia se I è un intervallo reale allora è possibile dotare lo spazio prodotto I × Ω di una struttura di spazio
misurabile con la σ -algebra prodotto B ⊗ F .
Definizione 6.1.11 (Processo misurabile). Un processo stocastico misurabile è una funzione misurabile

X : (I × Ω, B ⊗ F ) −→ (R, B).

Per il Lemma 3.3.11, se X è un processo stocastico misurabile allora:


• Xt è una variabile aleatoria per ogni t ∈ I;
• la traiettoria t 7→ Xt (ω) è una funzione misurabile da I a R, per ogni ω ∈ Ω.
4 Per assurdo, se fosse C[0, 1] = τ −1 (H), con τ = (t )
n n≥1 successione di coordinate in [0, 1] e H ∈ B , allora modificando x ∈ C[0, 1]
N
in un punto t < τ si dovrebbe ottenere ancora una funzione continua e questo è chiaramente falso.
230 CAPITOLO 6. PROCESSI STOCASTICI

Se I ⊆ R è naturale interpretare t ∈ I come un indice temporale: allora, come vedremo nella Sezione 6.4, lo
spazio di probabilità si arricchirà di nuovi elementi (le filtrazioni) e un ruolo predominante sarà assunto
da una particolare classe di processi stocastici, le martingale. In questo contesto, rinforzeremo la nozione di
misurabilità introducendo il concetto di processo progressivamente misurabile (cfr. Definizione 11.2.28).
In letteratura ci si riferisce alla “Teoria Generale dei Processi Stocastici” per indicare il settore che si
occupa dello studio delle proprietà generali dei processi nel caso I = R≥0 : per un’introduzione sintetica si
veda, per esempio, il Capitolo 16 in [10] e il Capitolo 1 in [56].

6.2 Unicità
Esistono varie nozioni di equivalenza fra processi stocastici. Anzitutto, due processi X = (Xt )t∈I e
Y = (Yt )t∈I sono uguali in legge se hanno la stessa distribuzione (o, equivalentemente, se hanno le stes-
se distribuzioni finito-dimensionali): in questo caso X e Y potrebbero anche essere definiti su spazi di
probabilità differenti.
Nel caso in cui X e Y siano definiti sullo stesso spazio di probabilità (Ω, F , P ), possiamo dare altre
nozioni di equivalenza espresse in termini di uguaglianza delle traiettorie. Ricordiamo anzitutto che, in
uno spazio di probabilità (Ω, F , P ), un sottoinsieme A di Ω è quasi certo (rispetto a P ) se esiste un evento
C ⊆ A tale che P (C) = 1. Se lo spazio di probabilità è completo5 allora ogni insieme quasi certo A è un evento
e quindi è lecito scrivere P (A) = 1.
Definizione 6.2.1 (Modificazioni). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Diciamo che X
e Y sono modificazioni se P (Xt = Yt ) = 1 per ogni t ∈ I.
Osservazione 6.2.2. La definizione precedente può essere facilmente generalizzata al caso di X, Y generiche
funzioni da Ω a valori in RI : in questo caso (Xt = Yt ) non è necessariamente un evento e quindi diciamo che
X è una modificazione di Y se l’insieme (Xt = Yt ) è quasi certo. Ciò può essere utile se non si sa a priori che
X e/o Y sono processi stocastici.
Definizione 6.2.3 (Processi indistinguibili). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Dicia-
mo che X e Y sono indistinguibili se l’insieme

(X = Y ) := {ω ∈ Ω | Xt (ω) = Yt (ω) per ogni t ∈ I}

è quasi certo.
Osservazione 6.2.4. [!] Due processi X e Y sono indistinguibili se l’insieme delle traiettorie coincidenti è
quasi certo. Notiamo che, anche se X e Y sono processi stocastici, non è detto che (X = Y ) sia un evento.
Infatti, (X = Y ) = (X − Y )−1 ({0}) dove 0 indica la traiettoria identicamente nulla: tuttavia {0} < BI a meno
che I non sia finito o numerabile (cfr. Osservazione 6.1.10).
D’altra parte, se lo spazio (Ω, F , P ) è completo allora X e Y sono indistinguibili se e solo se P (X = Y ) = 1
poiché la completezza dello spazio garantisce che (X = Y ) ∈ F nel caso (X = Y ) sia quasi certo. Per questo
e altri motivi che spiegheremo in seguito, d’ora in poi assumeremo spesso che (Ω, F , P ) sia completo.
Osservazione 6.2.5. [!] Se X e Y sono modificazioni allora hanno le stesse distribuzioni finito-dimensionali
e quindi sono uguali in legge. Se X e Y sono indistinguibili allora sono anche modificazioni poiché per ogni
t ∈ I si ha (X = Y ) ⊆ (Xt = Yt ). Viceversa, X, Y modificazioni non sono necessariamente indistinguibili
poiché \
(X = Y ) = (Xt = Yt )
t∈I
ma se I non è numerabile tale intersezione potrebbe non appartenere a F oppure avere probabilità minore
di uno. Se I è finito o numerabile allora X, Y sono modificazioni se e solo se sono indistinguibili.
5 Ricordiamo la definizione data nell’Osservazione 3.1.11: uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F dove N indica
la famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16).
6.3. ESISTENZA 231

Diamo un esempio esplicito di processi che sono modificazioni ma non sono indistinguibili.
Esempio 6.2.6. [!] Consideriamo lo spazio campionario Ω = [0, 1] con la misura di Lebesgue come misura
di probabilità. Siano I = [0, 1], X = (Xt )t∈I il processo identicamente nullo e Y = (Yt )t∈I il processo definito
da 
1 se ω = t,


Yt (ω) = 
0 se ω ∈ [0, 1] \ {t}.

Allora X e Y sono modificazioni poiché, per ogni t ∈ I,


(Xt = Yt ) = {ω ∈ Ω | ω , t} = [0, 1] \ {t}
ha misura di Lebesgue uguale a uno ossia è un evento certo. D’altra parte, tutte le traiettorie di X sono
differenti da quelle di Y in un punto.
Notiamo anche che X e Y sono uguali in legge ma X ha tutte le traiettorie continue e Y ha tutte le
traiettorie discontinue: dunque ci sono importanti proprietà delle traiettorie di un processo stocastico (come, per
esempio, la continuità), che non dipendono dalla distribuzione del processo.
Nel caso di processi continui si ha il seguente risultato particolare.
Proposizione 6.2.7. Sia I un intervallo reale e siano X = (Xt )t∈I e Y = (Yt )t∈I processi con traiettorie quasi
certamente continue6 . Se X è modificazione di Y allora X, Y sono indistinguibili.
Dimostrazione. Per ipotesi le traiettorie X(ω) e Y (ω) sono continue per ogni ω ∈ A con A quasi certo. Inoltre
P (Xt = Yt ) = 1 per ogni t ∈ I e di conseguenza l’insieme
\
C := A ∩ (Xt = Yt )
t∈I∩Q

è quasi certo. Per ogni t ∈ I esiste una successione approssimante (tn )n∈N in I ∩Q: per l’ipotesi di continuità,
per ogni ω ∈ C si ha
Xt (ω) = lim Xtn (ω) = lim Ytn (ω) = Yt (ω)
n→∞ n→∞
e questo prova che X, Y sono indistinguibili.
Osservazione 6.2.8. Il risultato della Proposizione 6.2.7 rimane valido per processi che siano solo continui
a destra o a sinistra.

6.3 Esistenza
In questa sezione proviamo che è “sempre” possibile costruire un processo stocastico che abbia assegnate
distribuzioni finito-dimensionali.
Facciamo un’osservazione preliminare. Se µt1 ,...,tn sono le distribuzioni finito-dimensionali di un proces-
so stocastico (Xt )t∈I allora si ha
 
µt1 ,...,tn (H1 × · · · × Hn ) = P (Xt1 ∈ H1 ) ∩ · · · ∩ (Xtn ∈ Hn ) , t1 , . . . , tn ∈ I, H1 , . . . , Hn ∈ B. (6.3.1)
Di conseguenza valgono le seguenti proprietà di consistenza: per ogni famiglia finita di indici t1 , . . . , tn ∈ I,
per ogni H1 , . . . , Hn ∈ B e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha
µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ), (6.3.2)
µt1 ,...,tn (H1 × · · · × Hn−1 × R) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ). (6.3.3)
A posteriori, è chiaro che (6.3.2)-(6.3.3) sono condizioni necessarie affinché le distribuzioni µt1 ,...,tn possano
essere le distribuzioni finito-dimensionali di un processo stocastico. Il seguente risultato mostra che tali
condizioni sono anche sufficienti.
6 L’insieme degli ω ∈ Ω tali che X(ω), Y (ω) sono funzioni continue di t è quasi certo.
232 CAPITOLO 6. PROCESSI STOCASTICI

Teorema 6.3.1 (Teorema di estensione di Kolmogorov). [!!!] Sia I un insieme non vuoto. Supponiamo
che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn su Rn , e siano soddisfatte
 
le proprietà di consistenza (6.3.2)-(6.3.3). Allora esiste un’unica misura di probabilità µ su RI , F I che
abbia µt1 ,...,tn come distribuzioni finito-dimensionali, ossia tale che valga

µ(Ct1 ,...,tn (H)) = µt1 ,...,tn (H) (6.3.4)

per ogni famiglia finita di indici t1 , . . . , tn ∈ I e H = H1 × · · · × Hn ∈ Bn .

Osservazione 6.3.2. [!] Nelle ipotesi del teorema precedente, la misura µ si estende ulteriormente ad una
σ -algebra FµI che contiene F I e tale che lo spazio di probabilità (RI , FµI , µ) sia completo: ciò è conseguenza
del Corollario 2.5.11 e del metodo costruttivo utilizzato nella dimostrazione del Teorema di Carathéodory.
A volte, FµI è chiamata µ-completamento di F I .

Rimandiamo la dimostrazione del Teorema 6.3.1 alla Sezione 6.5 ed esaminiamo ora alcune notevoli
applicazioni.

Corollario 6.3.3 (Esistenza di processi con distribuzioni finito-dimensionali assegnate.). [!] Sia I un
insieme. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn
su Rn , e siano soddisfatte le proprietà di consistenza (6.3.2)-(6.3.3). Allora esiste un processo stocasti-
co X = (Xt )t∈I che è definito su uno spazio di probabilità completo e ha µt1 ,...,tn come distribuzioni finito-
dimensionali.

Dimostrazione. Si procede in maniera analoga al caso delle variabili aleatorie reali (cfr. Osservazione
3.1.17). Sia (Ω, F , P ) = (RI , FµI , µ) lo spazio di probabilità completo definito nell’Osservazione 6.3.2. La
funzione identità
X : (RI , FµI ) −→ (RI , F I )

definita da X(w) = w per ogni w ∈ RI , è un processo stocastico poiché X −1 (F I ) = F I ⊆ FµI . Inoltre, X


ha µt1 ,...,tn come distribuzioni finito-dimensionali poiché, per ogni cilindro finito-dimensionale Ct1 ,...,tn (H)
come in (6.1.1), si ha

µX (Ct1 ,...,tn (H)) = µ(X ∈ Ct1 ,...,tn (H)) =

(poiché X è la funzione identità)

= µ(Ct1 ,...,tn (H)) =

(per la (6.3.4))

= µt1 ,...,tn (H).

Consideriamo ora un processo stocastico X sullo spazio (Ω, F , P ). Indichiamo con µX la legge di X e
con FµIX il µX -completamento di F I (cfr. Osservazione 6.3.2).

Definizione 6.3.4 (Versione canonica di un processo stocastico). [!] La versione (o realizzazione) cano-
nica di un processo X è il processo X, sullo spazio di probabilità (RI , FµIX , µX ), definito da X(w) = w per
ogni w ∈ RI .

Osservazione 6.3.5. Per il Corollario 6.3.3, X e la sua realizzazione canonica X sono uguali in legge. Inoltre
X è definito sullo spazio di probabilità completo (RI , FµIX , µX ) in cui lo spazio campionario è lo spazio
funzionale RI (e non un generico insieme Ω): in particolare, gli esiti sono le traiettorie del processo.
6.3. ESISTENZA 233

Corollario 6.3.6 (Esistenza di processi Gaussiani). [!] Siano

m : I −→ R, c : I × I −→ R
 
funzioni tali che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, la matrice C = c(ti , tj ) sia simmetrica
i,j=1,...,n
e semi-definita positiva. Allora esiste un processo Gaussiano, definito su uno spazio di probabilità completo
(Ω, F , P ), con funzione di media m e funzione di covarianza c.
In particolare, scelto I = R≥0 , esiste un processo Gaussiano con funzioni di media m ≡ 0 e covarianza
c(s, t) = t ∧ s ≡ min{s, t}.

Dimostrazione. La famiglia di distribuzioni NM,C , con M, C come in (6.1.4), è ben definita grazie all’ipotesi
sulla funzione di covarianza c. Inoltre essa soddisfa le proprietà di consistenza (6.3.2)-(6.3.3), come si
verifica applicando la (6.3.1) con NM,C al posto di µt1 ,...,tn e (Xt1 , . . . , Xtn ) ∼ NM,C . Allora la prima parte della
tesi segue dal Corollario 6.3.3.
 
Ora siano t1 , . . . , tn ∈ R≥0 : la matrice C = min{ti , tj } è ovviamente simmetrica ed è anche semi-
i,j=1,...,n
definita positiva poiché, per ogni η1 , . . . , ηn ∈ R, si ha

n
X n
X Z ∞
ηi ηj min{ti , tj } = ηi ηj 1[0,ti ] (s)1[0,tj ] (s)ds
i,j=1 i,j=1 0

n
 2
Z ∞ X 
= ηi 1[0,ti ] (s) ds ≥ 0.



0 i=1

Corollario 6.3.7 (Esistenza di successioni di v.a. indipendenti). [!] Sia (µn )n∈N una successione di di-
stribuzioni reali. Esiste una successione (Xn )n∈N di v.a. indipendenti definite su uno spazio di probabilità
completo (Ω, F , P ), tali che Xn ∼ µn per ogni n ∈ N.

Dimostrazione. Applichiamo il Corollario 6.3.3 con I = N. La famiglia di distribuzioni finito-dimensionali


definite da
µk1 ,...,kn := µk1 ⊗ · · · ⊗ µk1 , k1 , . . . , kn ∈ N,

verifica le proprietà di consistenza (6.3.2)-(6.3.3). Per il Corollario 6.3.3, esiste un processo (Xk )k∈N che ha
µk1 ,...,kn come distribuzioni finito-dimensionali. L’indipendenza segue dal Teorema 3.3.25 e dall’arbitrarietà
della scelta degli indici k1 , . . . , kn ∈ N.

Il Corollario 6.3.7 ammette la seguente versione leggermente più generale, la cui dimostrazione è lascia-
ta per esercizio. Il seguente risultato richiede una versione semplificata, rispetto al Corollario 6.3.3, della
proprietà di consistenza.

Corollario 6.3.8 (Esistenza di successioni di v.a. con distribuzione assegnata). [!] Sia data una succes-
sione (µn )n∈N dove µn è una distribuzione su Rn e vale

µn+1 (H × R) = µn (H), H ∈ Bn , n ∈ N.

Allora esiste una successione (Xn )n∈N di v.a. definite su uno spazio di probabilità completo (Ω, F , P ), tali
che (X1 , . . . , Xn ) ∼ µn per ogni n ∈ N.
234 CAPITOLO 6. PROCESSI STOCASTICI

6.4 Filtrazioni e martingale


In questa sezione consideriamo il caso particolare in cui I è un sottoinsieme di R, tipicamente

I = R≥0 oppure I = [0, 1] oppure I = N.

In questo caso è utile pensare a t come un parametro che rappresenta un istante di tempo.
Definizione 6.4.1 (Filtrazione). Siano I ⊆ R e (Ω, F , P ) uno spazio di probabilità. Una filtrazione (Ft )t∈I è
una famiglia crescente di sotto-σ -algebre di F , nel senso che vale

Fs ⊆ Ft ⊆ F , s, t ∈ I, s ≤ t.

In molte applicazioni le σ -algebre rappresentano insiemi di informazioni. Per quanto riguarda le


filtrazioni, l’idea è che
◦ la σ -algebra Ft rappresenta le informazioni disponibili all’istante t;
◦ la filtrazione (Ft )t∈I rappresenta il flusso di informazioni che aumenta col passare del tempo.
Abbiamo visto l’importanza del concetto di informazione nel calcolo delle probabilità: per esempio, la de-
finizione stessa di probabilità condizionata è sostanzialmente motivata dal problema di descrivere l’effetto
dell’informazione sulla probabilità degli eventi. Le filtrazioni costituiscono lo strumento matematico che
descrive in modo dinamico (in funzione del tempo) le informazioni disponibili e per questo motivo giocano
un ruolo fondamentale nella teoria dei processi stocastici. Con la seguente definizione si formalizza l’idea
che un processo stocastico sia osservabile in base alla informazioni di una certa filtrazione.
Definizione 6.4.2 (Processo adattato). Sia X = (Xt )t∈I un processo stocastico sullo spazio (Ω, F , P ). Si dice
che X è adattato alla filtrazione (Ft )t∈I se Xt ∈ mFt per ogni t ∈ I.
Definizione 6.4.3 (Filtrazione generata da un processo). Ad ogni processo stocastico X = (Xt )t∈I sullo
spazio (Ω, F , P ) è associata la filtrazione G X = (GtX )t∈I definita in modo naturale da

GtX := σ (Xs , s ≤ t) ≡ σ (Xs−1 (H), s ≤ t, H ∈ B), t ∈ I. (6.4.1)

Essa è chiamata filtrazione generata da X.


Osservazione 6.4.4. Abbiamo indicato con G X la filtrazione generata da X perché vogliamo riservare il
simbolo F X per un’altra filtrazione che definiremo più avanti nella Sezione 11.2.2 e chiameremo filtrazione
standard per X. La filtrazione generata da X è la “minima” filtrazione che contiene le informazioni sul
processo X al variare del tempo: X è adattato a (Ft )t∈I se e solo se GtX ⊆ Ft per ogni t ∈ I.
Osservazione 6.4.5. Se X è la versione canonica di X (cfr. Definizione 6.3.4) allora

GtX = σ (Cs (H) | s ∈ I, s ≤ t, H ∈ B), t ∈ I,

ossia la filtrazione generata da X è quella generata dai cilindri uno-dimensionali.


Introduciamo ora una fondamentale classe di processi stocastici.
Definizione 6.4.6 (Martingala). [!!!] Sia X = (Xt )t∈I , con I ⊆ R, un processo stocastico sullo spazio con
filtrazione (Ω, F , P , (Ft )t∈I ). Si dice che X è una martingala se:
i) X è un processo sommabile, nel senso che Xt ∈ L1 (Ω, P ) per ogni t ∈ I;
ii) vale
Xt = E [XT | Ft ] , t, T ∈ I, t ≤ T . (6.4.2)
6.4. FILTRAZIONI E MARTINGALE 235

Se I è finito o numerabile diciamo che X è una martingala discreta.

Il concetto di martingala è centrale nella teoria dei processi stocastici e in molte applicazioni. La (6.4.2),
detta proprietà di martingala, significa che il valore attuale (al tempo t) del processo è la miglior stima del
valore futuro (in un tempo T ≥ t) condizionata alle informazioni attualmente disponibili. In economia, per
esempio, la proprietà di martingala si traduce nel fatto che se X rappresenta il prezzo di un bene, allora
tale prezzo è equo nel senso che è la miglior stima del valore futuro del bene in base alle informazioni
disponibili al momento.
Sia X una martingala sullo spazio con filtrazione (Ω, F , P , Ft ). Come conseguenza immediata della
Definizione 6.4.6 e delle proprietà dell’attesa condizionata si ha:

i) X è adattato a (Ft )t∈I ;

ii) X è costante in media poiché, applicando il valore atteso in ambo i membri della (6.4.2) si ha7

E [Xt ] = E [XT ] , t, T ∈ I.

Osservazione 6.4.7. Il termine martingala si riferiva originariamente ad una serie di strategie utilizzate
dagli scommettitori francesi nel XVIII secolo, fra cui la strategia del raddoppio a cui avevamo accennato
nell’Esempio 4.2.4. L’interessante monografia [80] illustra la storia del concetto di martingala attraverso il
contributo di molti storici e matematici famosi.

Esempio 6.4.8. [!] La sequenza nel tempo delle vincite e perdite in un gioco d’azzardo equo può essere
rappresentato con una martingala discreta: a volte si vince e a volte si perde ma, se il gioco è equo, vincite
e perdite in media si bilanciano.
Più precisamente, sia (Zn )n∈N una successione di v.a. i.i.d. con Zn ∼ qδ1 + (1 − q)δ−1 e 0 < q < 1 fissato.
Consideriamo il processo stocastico

Xn := Z1 + · · · + Zn , n ∈ N.

Qui Zn rappresenta la vincita o perdita alla n-esima giocata, q è la probabilità di vincita e Xn è il bilancio
dopo n giocate. Consideriamo la filtrazione (GnZ )n∈N delle informazioni sugli esiti delle giocate, GnZ =
σ (Z1 , . . . , Zn ). Allora si ha
h i h i
E Xn+1 | GnZ = E Xn + Zn+1 | GnZ =

(poiché Xn ∈ mGnZ e Zn+1 è indipendente da GnZ )

= Xn + E [Zn+1 ] = Xn + 2q − 1.

Dunque (Xn ) è una martingala se q = 12 ossia se il gioco è equo. Se q > 21 , ossia se la probabilità di vincere
h i
nelle singole giocate è maggiore rispetto alla probabilità di perdere, allora Xn < E Xn+1 | GnZ (e si dice che
(Xn ) è una sub-martingala): in questo caso si ha anche E [Xn ] < E [Xn+1 ], ossia il processo è crescente in media.
Questo esempio mostra che la proprietà di martingala non è una proprietà delle traiettorie del processo ma
dipende dalla misura di probabilità e dalla filtrazione considerate.

Esempio 6.4.9. Siano X ∈ L1 (Ω, P ) e (Ft )t∈I una filtrazione su (Ω, F , P ). Una semplice applicazione della
proprietà della torre mostra che il processo definito da Xt = E [X | Ft ], t ∈ I, è una martingala, infatti si ha

E [XT | Ft ] = E [E [X | FT ] | Ft ] = E [X | Ft ] = Xt , t, T ∈ I, t ≤ T .
7 Ricordiamo che E [E [X | F ]] = E [X ] per definizione di attesa condizionata.
T t T
236 CAPITOLO 6. PROCESSI STOCASTICI

Osservazione 6.4.10. [!] Useremo spesso


h i in seguito la seguente identità valida per una martingala X di
quadrato sommabile, ossia tale che E Xt2 < ∞ per t ∈ I:
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs , s ≤ t. (6.4.3)

Basta osservare che


h i h i
E (Xt − Xs )2 | Fs = E Xt2 − 2Xt Xs + Xs2 | Fs
h i
= E Xt2 | Fs − 2Xs E [Xt | Fs ] + Xs2 =

(per la proprietà di martingala)


h i
= E Xt2 | Fs − Xs2

da cui segue la (6.4.3).

Definizione 6.4.11. Sia X = (Xt )t∈I un processo stocastico sullo spazio con filtrazione (Ω, F , P , Ft ). Si dice
che X è una sub-martingala se:

i) X è un processo sommabile e adattato a (Ft )t∈I ;

ii) vale
Xt ≤ E [XT | Ft ] , t, T ∈ I, t ≤ T .

Inoltre X è una super-martingala se −X è una sub-martingala.

Proposizione 6.4.12. [!] Se X è una martingala e ϕ : R −→ R è una funzione convessa e tale che ϕ(Xt ) ∈
L1 (Ω, P ) per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Se X è una sub-martingala e ϕ : R −→ R è una funzione convessa, crescente e tale che ϕ(Xt ) ∈ L1 (Ω, P )
per ogni t ∈ I, allora ϕ(X) è una sub-martingala.

Osservazione 6.4.13. Se X è una martingala allora |X| è una sub-martingala non-negativa. Tuttavia si faccia
attenzione che ciò non è necessariamente vero se X è una sub-martingala poiché x 7→ |x| non è crescente.
Inoltre, se X è una sub-martingala allora anche X + := X ∨ 0 = |X|+X
2 lo è.

Dimostrazione della Proposizione 6.4.12. La prima parte è un’immediata conseguenza della disuguaglianza
di Jensen. Analogamente, se X è una sub-martingala allora Xt ≤ E [XT | Ft ] per t ≤ T ed essendo ϕ crescente
si ha anche
ϕ(Xt ) ≤ ϕ (E [XT | Ft ]) ≤ E [ϕ(XT ) | Ft ]
dove per la seconda disuguaglianza abbiamo riapplicato Jensen.

In quest’ultima parte della sezione, consideriamo il caso particolare in cui I = N ∪ {0}. Sotto queste
ipotesi particolari diamo un risultato profondo, e valido anche in ambito molto più generale, sulla struttura
dei processi stocastici adattati: il Teorema di decomposizione di Doob. Prima introduciamo la seguente

Definizione 6.4.14 (Processo predicibile). Sia A = (An )n≥0 un processo stocastico discreto, definito sullo
spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Si dice che A è predicibile se:

i) A0 = 0;

ii) An ∈ mFn−1 per ogni n ∈ N.


6.5. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 237

Teorema 6.4.15 (Teorema di decomposizione di Doob). Sia X = (Xn )n≥0 un processo stocastico adattato e
sommabile sullo spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Esistono e sono unici q.c. una martingala M e un
processo predicibile A tali che
Xn = Mn + An , n ≥ 0. (6.4.4)
In particolare, se X è una martingala allora M ≡ X e A ≡ 0; se X è una sub-martingala allora il processo A
ha le traiettorie monotone crescenti q.c.

Dimostrazione. [Unicità] Se due processi M e A, con le proprietà dell’enunciato, esistono allora si ha

Xn+1 − Xn = Mn+1 − Mn + An+1 − An , n ≥ 0. (6.4.5)

Condizionando a Fn e sfruttando il fatto che X è adattato, M è una martingala e A è predicibile, si ha

E [Xn+1 | Fn ] − Xn = E [Mn+1 | Fn ] − Mn + An+1 − An = An+1 − An .

Di conseguenza, il processo A è univocamente determinato dalla formula ricorsiva



An+1 = An + E [Xn+1 | Fn ] − Xn , se n ∈ N,


(6.4.6)
A0 = 0.

Si noti che dalla (6.4.6) segue che se X è una sub-martingala allora il processo A ha le traiettorie monotone
crescenti q.c.
Inserendo la (6.4.6) nella (6.4.5) si trova anche

Mn+1 = Mn + Xn+1 − E [Xn+1 | Fn ] , se n ∈ N,


(6.4.7)
M0 = X0 .

[Esistenza] Basta provare che i processi M e A, definiti rispettivamente da (6.4.7) e (6.4.6), verificano le
proprietà dell’enunciato. Si tratta di una semplice verifica: per esempio, si prova facilmente per induzione
su n il fatto che A sia predicibile. Analogamente si prova che M è una martingala e vale la (6.4.4).

Esempio 6.4.16. [!] Sia X come nell’Esempio 6.4.8. Allora si calcolano facilmente i processi della decom-
posizione di Doob di X:
Mn = Xn − n(2q − 1), An = n(2q − 1).
1
Si noti che in questo caso il processo A è deterministico; inoltre X è una sub-martingala per q > 2 e in tal
caso (An )n≥0 è una successione monotona crescente.

6.5 Dimostrazione del Teorema di estensione di Kolmogorov


Lemma 6.5.1. La famiglia C dei cilindri finito-dimensionali è un semianello.

Dimostrazione. Ricordando la definizione (6.1.1) di cilindro finito-dimensionale


n
\
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ), (6.5.1)
i=1

e osservando che Ct (H) ∩ Ct (K) = Ct (H ∩ K) per ogni t ∈ I e H, K ∈ B, non è difficile provare che C è una
famiglia ∩-chiusa e ∅ ∈ C . Rimane da provare che la differenza di cilindri è unione finita e disgiunta di
cilindri: poiché C \ D = C ∩ D c , per C, D ∈ C , è sufficiente provare che il complementare di un cilindro è
unione disgiunta di cilindri.
238 CAPITOLO 6. PROCESSI STOCASTICI

Per un cilindro uno-dimensionale si ha

(Ct (H))c = Ct (H c ),

e quindi, per la (6.5.1),

 n 
c [ n
c [
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ) = Cti (Hic )
i=1 i=1

dove in generale l’unione non è disgiunta: tuttavia osserviamo che

Ct1 (H1 ) ∪ Ct2 (H2 ) = Ct1 ,t2 (H1 × H2 ) ⊎ Ct1 ,t2 (H1c × H2 ) ⊎ Ct1 ,t2 (H1 × H2c ),

e in generale
n
[ ]
Cti (Hi ) = Ct1 ,...,tn (K1 × · · · × Kn )
i=1

dove l’unione disgiunta è presa fra tutte le possibili combinazioni differenti di K1 × · · · × Kn dove Ki è Hi
oppure Hic , tranne il caso in cui Ki = Hic per ogni i = 1, . . . , n.

Definiamo µ su C come in (6.3.4), ossia

µ(Ct1 ,...,tn (H1 × · · · × Hn )) := µt1 ,...,tn (H1 × · · · × Hn ), t1 , . . . , tn ∈ I, H1 , · · · Hn ∈ B.

Se proviamo che µ è una pre-misura (ossia µ è additiva, σ -sub-additiva e tale che µ(∅) = 0) su C allora per
il Teorema 2.5.5 di Carathéodory µ si estende in modo unico ad una misura di probabilità su F I .
Chiaramente µ(∅) = 0 e non è difficile provare che µ è finitamente additiva. Per provare che µ è σ -
sub-additiva, consideriamo una successione (Cn )n∈N di cilindri disgiunti la cui unione è un cilindro C e
dimostriamo che8 X
µ(C) = µ(Cn ). (6.5.2)
n∈N

A tal fine poniamo


n
]
Dn = C \ Ck , n ∈ N.
k=1

Per il Lemma 6.5.1 Dn è unione finita e disgiunta di cilindri: pertanto µ(Dn ) è ben definito (per l’additività
di µ) e vale
n
X
µ(C) = µ(Ck ) + µ(Dn ).
k=1
8 La (6.5.2) implica la σ -sub-addivitità: se A ∈ C e (A )
n n∈N è una successione di elementi in C tale che
[
A⊆ An
n∈N

basta porre C1 = A ∩ A1 ∈ C e
n−1
[
Cn = (A ∩ An ) \ Ak
k=1
con Cn che, per il Lemma 6.5.1, è unione finita e disgiunta di cilindri per ogni n ≥ 2. Allora dalla (6.5.2) segue che
X
µ(A) ≤ µ (An ) .
n∈N
6.5. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 239

Allora basta provare che


lim µ(Dn ) = 0. (6.5.3)
n→∞
Chiaramente Dn ↘ ∅ per n → ∞. Dimostriamo la (6.5.3) per assurdo e, a meno di passare ad una sotto-
successione, supponiamo esista ε > 0 tale che µ(Dn ) ≥ ε per ogni n ∈ N: utilizzando un argomento di
compattezza, proviamo che in tal caso l’intersezione dei Dn non è vuota, da cui l’assurdo.
Sappiamo che Dn è un’unione finita e disgiunta di cilindri: poiché Dn ⊇ Dn+1 , eventualmente ripetendo9
gli elementi della successione, possiamo supporre
Nn
]
Dn = C
ek , ek = {x ∈ RI | (xt , . . . , xt ) ∈ Hk,1 × · · · × Hk,n }
C 1 n
k=1

per una certa successione (tn )n∈N in I e Hk,n ∈ B. Ora utilizziamo il seguente fatto di cui posticipiamo la
prova al termine della dimostrazione: è possibile costruire una successione (Kn )n∈N tale che:
◦ Kn ⊆ Rn è un sottoinsieme compatto di
Nn
[
Bn := (Hk,1 × · · · × Hk,n ); (6.5.4)
k=1

◦ Kn+1 ⊆ Kn × R;
◦ µt1 ,...,tn (Kn ) ≥ 2ε .
Dunque, concludiamo la prova di (6.5.3). Poiché Kn , ∅, per ogni n ∈ N esiste un vettore
(n) (n)
(y1 , . . . , yn ) ∈ Kn .
(n) (k )
Per compattezza, la successione (y1 )n∈N ammette una sotto-successione (y1 n )n∈N convergente a un pun-
(k ) (k )
to y1 ∈ K1 . Analogamente, la successione (y1 n , y2 n )n∈N ammette una sotto-successione convergente a
(y1 , y2 ) ∈ K2 . Ripetendo l’argomento, costruiamo una successione (yn )n∈N tale che (y1 , . . . , yn ) ∈ Kn per ogni
n ∈ N. Pertanto
{x ∈ RI | xtk = yk , k ∈ N} ⊆ Dn
per ogni n ∈ N e questo prova l’assurdo.
Infine, proviamo l’esistenza della successione (Kn )n∈N . Per ogni n ∈ N esiste10 un sottoinsieme compatto
en di Bn in (6.5.4) tale che µt ,...,t (Bn \ K ε
en ) ≤ n+1
K 1 n 2
. Posto
n
\
Kn := eh × Rn−h ),
(K (6.5.5)
h=1

si ha che Kn è un sottoinsieme compatto di Bn e Kn+1 ⊆ Kn × R. Ora osserviamo che


n
[
Bn \ Kn ⊆ eh × Rn−h )
Bn \ ( K
h=1
9 Definendo una nuova successione della forma

RI , . . . , RI , D1 , . . . , D1 , D2 , . . . , D2 , D3 . . .
in cui RI e gli elementi di (Dn )n∈N sono ripetuti un numero sufficiente di volte.
10 Basta combinare la proprietà di regolarità interna di µ
t1 ,...,tn (cfr. Proposizione 2.4.9) col fatto che, per la continuità dal basso, per
ogni ε > 0 esiste un compatto K tale che µt1 ,...,tn (Rn \ K) < ε: si osservi che quest’ultimo fatto altro non è che la proprietà di tightness
della distribuzione µt1 ,...,tn (cfr. Definizione 4.3.5).
240 CAPITOLO 6. PROCESSI STOCASTICI

n
[
⊆ eh ) × Rn−h
(Bh \ K
h=1

e di conseguenza
n
X  
µt1 ,...,tn (Bn \ Kn ) ≤ eh ) × Rn−h
µt1 ,...,tn (Bh \ K
h=1
n
X
= µt1 ,...,th (Bh \ K
eh )
h=1
n
X ε ε
≤ h+1
≤ .
2 2
h=1

Allora si ha
ε
µt1 ,...,tn (Kn ) = µt1 ,...,tn (Bn ) − µt1 ,...,tn (Bn \ Kn ) ≥
,
2
poiché µt1 ,...,tn (Bn ) = µ(Dn ) ≥ ε per ipotesi. Questo conclude la dimostrazione. 2
Il Teorema di estensione di Kolmogorov si generalizza, con dimostrazione sostanzialmente identica, al
caso in cui le traiettorie siano a valori in uno spazio metrico (M, ϱ) separabile e completo11 . Ricordiamo la
notazione Bϱ per la σ -algebra di Borel su (M, ϱ); inoltre MI è la famiglia delle funzioni da I a valori in M
e FϱI è la σ -algebra generata dai cilindri finito-dimensionali

Ct1 ,...,tn (H) := {x ∈ MI | (xt1 , . . . , xtn ) ∈ H}

dove t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .
Teorema 6.5.2 (Teorema di estensione di Kolmogorov). [!!!] Siano I un insieme e (M, ϱ) uno spazio me-
trico separabile e completo. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una
distribuzione µt1 ,...,tn su Mn , e siano soddisfatte le seguenti proprietà di consistenza: per ogni famiglia finita
di indici t1 , . . . , tn ∈ I, per ogni H1 , . . . , Hn ∈ Bϱ e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha

µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ),


µt1 ,...,tn (H1 × · · · × Hn−1 × M) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ).
 
Allora esiste un’unica misura di probabilità µ su MI , FϱI che abbia µt1 ,...,tn come distribuzioni finito-
dimensionali, ossia tale che valga
µ(Ct1 ,...,tn (H)) = µt1 ,...,tn (H)
per ogni famiglia finita di indici t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .

11 La prima parte della dimostrazione, basata sul Teorema di Carathéodory, è identica. Nella seconda parte, e in particolare nella
costruzione della successione di compatti Kn in (6.5.5), si sfrutta la proprietà di tightness: è qui che gioca un ruolo cruciale il fatto
che, nell’ipotesi che (M, ϱ) sia separabile e completo, ogni distribuzione su Bϱ è tight (si veda, per esempio, il Teorema 1.4 in [19]). Il
Teorema di Kolmogorov non si estende al caso di un generico spazio misurabile: al riguardo si veda, per esempio, [52] p. 214.
6.6. RIASSUNTO DELLE NOTAZIONI 241

6.6 Riassunto delle notazioni


• RI = {x : I −→ R}: spazio delle traiettorie, I è l’insieme generico dei parametri, p.226

• Ct1 ,...,tn (H) := {x ∈ RI | xti ∈ Hi , i = 1, . . . , n}: cilindro finito-dimensionale con ti ∈ I e Hi ∈ B, p.226


• C : famiglia dei cilindri finito-dimensionali, p.226
• F I = σ (C ): σ -algebra generata dai cilindri finito-dimensionali, p.226
• FµI : completamento di F I rispetto alla misura di probabilità µ, p.232

• GtX = σ (Xs , s ≤ t): filtrazione generata dal processo X, p.234

6.7 Sintesi
Riassumiamo i risultati più rilevanti del capitolo e i concetti essenziali da trattenere ad una prima
lettura, a scapito delle questioni più tecniche o di importanza secondaria.
• Sezione 6.1: introduciamo le nozioni di base, a partire dalla definizione di processo stocastico con le sue
diverse, anche se equivalenti, formulazioni. Le distribuzioni finito-dimensionali di un processo giocano
lo stesso ruolo della legge di una variabile aleatoria.
• Sezione 6.2: confrontiamo le differenti nozioni di uguaglianza fra processi stocastici, introducendo le
definizioni di processi indistinguibili, modificazioni e uguali in legge.
• Sezione 6.3: per quanto riguarda l’esistenza, il risultato principale è il Teorema 6.3.1 di estensione di
Kolmogorov che afferma che è possibile costruire un processo stocastico con assegnate distribuzioni
finito-dimensionali; tale risultato è un corollario del Teorema 2.4.29 di Carathéodory: la dimostra-
zione, essendo un po’ tecnica, è posticipata alla Sezione 6.5 e può essere tranquillamente sorvolata ad
una prima lettura.
• Sezione 6.4: le martingale costituiscono una classe fondamentale di processi stocastici che insieme
ai processi di Markov saranno il principale oggetto di studio nel seguito. Le filtrazioni descrivono il
flusso crescente delle informazioni osservabili al variare dell’indice temporale.
242 CAPITOLO 6. PROCESSI STOCASTICI
Capitolo 7

Processi di Markov

We are too small and the universe


too large and too interrelated for
thoroughly deterministic thinking.

Don S. Lemons, [74]

In questo capitolo introduciamo una classe fondamentale di processi stocastici, caratterizzati da una
proprietà di “assenza di memoria” che li rende particolarmente maneggevoli e utili nelle applicazioni. Qui
assumiamo I = R≥0 come insieme degli indici, interpretando t ∈ I come un istante temporale.

7.1 Legge di transizione e processi di Feller


Definizione 7.1.1 (Legge di transizione). Una legge di transizione è una funzione
p = p(t, x; T , H), 0 ≤ t ≤ T , x ∈ RN , H ∈ BN ,
che soddisfa le seguenti condizioni:
i) per ogni 0 ≤ t ≤ T e x ∈ RN , p(t, x; T , ·) è una distribuzione e p(t, x; t, ·) = δx ;
ii) per ogni 0 ≤ t ≤ T e H ∈ BN , p(t, ·; T , H) ∈ mBN .
Sia X = (Xt )t≥0 un processo stocastico sullo spazio (Ω, F , P ) a valori in RN . Diciamo che X ha legge di
transizione p se:
i) p è una legge di transizione;
ii) vale1
p(t, Xt ; T , H) = P (XT ∈ H | Xt ), 0 ≤ t ≤ T , H ∈ BN .

Osservazione 7.1.2. [!] Come diretta conseguenza delle proprietà i) e ii) della Definizione 7.1.1, se X ha
legge di transizione p allora p(t, Xt ; T , ·) è una versione regolare della legge di XT condizionata a Xt (cfr.
Definizione 5.3.1). Allora per il Teorema 5.3.8 si ha
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Xt ] , ϕ ∈ bBN . (7.1.1)
RN
1 Ricordiamo la convenzione secondo cui indichiamo con P (X ∈ H | X ) l’usuale attesa condizionata E [1 (X ) | X ], come
T t H T t
nell’Osservazione 5.3.5.

243
244 CAPITOLO 7. PROCESSI DI MARKOV

Analogamente p(t, x; T , ·) è una versione regolare della funzione distribuzione di XT condizionata a Xt (cfr.
Teorema 5.3.16) e quindi per il Teorema 5.3.19 si ha
Z
p(t, x; T , dy)ϕ(y) = E [ϕ (XT ) | Xt = x] . (7.1.2)
RN

Notiamo che la funzione Z


u(x) := p(t, x; T , dy)ϕ(y), x ∈ RN ,
RN
è BN -misurabile e limitata: infatti, per la ii) della Definizione 7.1.1, u ∈ bBN se ϕ = 1H e per approssima-
zione, grazie al Lemma 3.2.3 e al Teorema di Beppo-Levi, lo è anche per ogni ϕ ∈ bBN . In accordo con la
notazione (5.2.10), la formula (7.1.2) indica che u è una versione della funzione attesa di ϕ (XT ) condizionata
a Xt .
Osservazione 7.1.3. La Definizione 7.1.1 si estende in modo ovvio al caso in cui, al posto di (RN , BN ), si
consideri un generico spazio metrico (M, ϱ) munito della σ -algebra di Borel Bϱ (cfr. Definizione 2.4.4).
Esempio 7.1.4. [!] Consideriamo il caso “banale” del processo deterministico Xt = γ(t) con γ : R≥0 −→ RN
che si interpreta come una curva parametrizzata in RN . Si ha
E [ϕ(XT ) | Xt ] = ϕ(γ(T )) = ϕ(γ(t) + γ(T ) − γ(t))
e quindi una versione regolare della funzione attesa di ϕ(XT ) condizionata a Xt è data da
Z
E [ϕ(XT ) | Xt = x] = ϕ(x + γ(T ) − γ(t)) = δx+γ(T )−γ(t) (dy)ϕ(y).
R

In altri termini,
p(t, x; T , ·) = δx+γ(T )−γ(t)
è una legge di transizione di X: questo risultato è un caso molto particolare della Proposizione 7.3.2 che
proveremo in seguito. Si noti che la legge non è unica: per esempio, se per ogni 0 ≤ t ≤ T poniamo

δx+γ(T )−γ(t) se x = γ(t),


p(t, x; T , ·) = 
e
δx
 se x , γ(t),

allora anche e
p è una legge di transizione per X.
Osservazione 7.1.5 (Legge di transizione omogenea nel tempo). Si dice che una legge di transizione p è
omogenea nel tempo se
p(t, x; T , H) = p(0, x; T − t, H), 0 ≤ t ≤ T , x ∈ R, H ∈ B.
Se X ha legge di transizione p omogenea nel tempo allora
Z
E [ϕ(XT ) | Xt = x] = p(t, x; T , dy)ϕ(y)
R
Z
= p(0, x; T − t, dy)ϕ(y) = E [ϕ(XT −t ) | X0 = x] . (7.1.3)
R

La (7.1.3) significa che la funzione attesa di ϕ(XT ) condizionata a Xt è uguale alla funzione attesa condizio-
nata del processo traslato temporalmente al tempo iniziale2 .
2 Se, per semplicità, indichiamo
Ex [Y ] = E [Y | X0 = x] ,
la (7.1.3) si scrive nella forma più compatta
E [ϕ (XT ) | Xt ] = EXt [ϕ (XT −t )] . (7.1.4)
Per chiarezza: il membro a destra della (7.1.4) è la funzione attesa di ϕ (XT −t ) condizionata a X0 , calcolata in Xt .
7.1. LEGGE DI TRANSIZIONE E PROCESSI DI FELLER 245

Esempio 7.1.6 (Legge di transizione di Poisson). [!] Ricordiamo che Poissonx,λ indica la distribuzione
di Poisson di parametro λ > 0 e centrata in x ∈ R, definita in (2.4.4). La legge di transizione di Poisson di
parametro λ > 0, è definita da
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0

Le proprietà i) e ii) della Definizione 7.1.1 sono ovvie. La legge di transizione di Poisson è omogenea nel
tempo e invariante per traslazioni nel senso che vale

p(t, x; T , H) = p(0, 0; T − t, H − x), 0 ≤ t ≤ T , x ∈ R, H ∈ B.

Definizione 7.1.7 (Densità di transizione). Una legge di transizione p è assolutamente continua se, per
ogni 0 ≤ t < T e x ∈ RN , esiste una densità Γ = Γ (t, x; T , ·) per cui vale
Z
p(t, x; T , H) = Γ (t, x; T , y)dy, H ∈ BN .
H

Diciamo che Γ è una densità di transizione di p (o di X, nel caso in cui p sia la legge di transizione di un
processo X).

Osservazione 7.1.8. Una densità di transizione Γ = Γ (t, x; T , y) di un processo X è una funzione di quattro
variabili: la prima coppia (t, x) rappresenta il tempo e punto di partenza di X; la seconda coppia (T , y)
rappresenta il tempo e la posizione aleatoria d’arrivo di X. Per ogni ϕ ∈ bBN si ha
Z
Γ (t, Xt ; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt ] ,
RN
Z
Γ (t, x; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt = x] , x ∈ RN .
RN

Esempio 7.1.9 (Legge di transizione Gaussiana). [!] La legge di transizione Gaussiana è definita da
p(t, x; T , ·) = Nx,T −t per ogni 0 ≤ t ≤ T e x ∈ R. È una legge di transizione assolutamente continua poiché
Z
p(t, x; T , H) := Nx,T −t (H) = Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H

dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)

è la densità di transizione Gaussiana. È chiaro che p verifica le proprietà i) e ii) della Definizione 7.1.1.

Introduciamo ora una nozione di “dipendenza continua” della legge di transizione rispetto al dato
iniziale (t, x).

Definizione 7.1.10 (Proprietà di Feller). Une legge di transizione p gode della proprietà di Feller se per
ogni h > 0 e ϕ ∈ bC(RN ) la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
RN

è continua. Un processo di Feller è un processo con legge di transizione che verifica la proprietà di Feller.
246 CAPITOLO 7. PROCESSI DI MARKOV

La proprietà di Feller equivale alla continuità nella convergenza debole della legge di transizione p =
p(t, x; t+h, ·) rispetto alla coppia (t, x) del tempo e punto iniziale: più precisamente, ricordando la definizione
di convergenza debole di distribuzioni (cfr. Osservazione 4.1.1), il fatto che X sia un processo di Feller con
legge di transizione p significa che

d
p(tn , xn ; tn + h, ·) −−−−→ p(t, x; t + h, ·)

per ogni successione (tn , xn ) che converge a (t, x) per n → +∞.


Nel caso p sia omogenea nel tempo, la proprietà di Feller si riduce alla continuità rispetto a x: precisa-
mente, p gode della proprietà di Feller se per ogni h > 0 e ϕ ∈ bC(RN ) la funzione
Z
x 7−→ p(0, x; h, dy)ϕ(y)
RN

è continua. La proprietà di Feller gioca un ruolo importante nello studio dei processi di Markov (cfr.
Sezione 12) e delle proprietà di regolarità delle filtrazioni in tempo continuo (cfr. Sezioni 11.2.1).

Esempio 7.1.11. [!] Le leggi di transizione di Poisson e Gaussiana godono della proprietà di Feller (lo
vedremo negli Esempi 7.4.5 e 7.4.6): pertanto diremo che i relativi processi stocastici che introdurremo in
seguito, rispettivamente il processo di Poisson e il moto Browniano, sono processi di Feller.

Concludiamo la sezione con un risultato di carattere tecnico. Ricordiamo la Definizione 6.3.4 di versione
canonica di un processo stocastico.

Proposizione 7.1.12. Se p è una legge di transizione per il processo X, definito sullo spazio (Ω, F , P ), allora
lo è anche per la sua versione canonica X.

Dimostrazione. Ricordiamo che X è definito sullo spazio di probabilità (RI , FµIX , µX ), dove FµIX indica il
µX -completamento di F I , e X(w) = w per ogni w ∈ RI . Dati 0 ≤ t ≤ T e H ∈ B, poniamo Z := p(t, Xt , T , H):
dobbiamo verificare che
Z = E µX [1H (XT ) | Xt ] (7.1.5)

dove E µX [·] indica il valore atteso nella misura di probabilità µX . Chiaramente Z ∈ mσ (Xt ). Inoltre, se
W ∈ bσ (Xt ) allora per il teorema di Doob W = ϕ(Xt ) con ϕ ∈ bB e si ha

E µX [ZW ] = E µX [p(t, Xt , T , H)ϕ(Xt )] =

(poiché X e X sono uguali in legge)

= E P [p(t, Xt , T , H)ϕ(Xt )] =

(poiché p è legge di transizione di X)

= E P [1H (XT )ϕ(Xt )] =

(ancora per l’uguaglianza in legge di X e X)

= E µX [1H (XT )ϕ(Xt )] .

Questo prova la (7.1.5).


7.2. PROPRIETÀ DI MARKOV 247

7.2 Proprietà di Markov


Per semplicità consideriamo il caso scalare, N = 1.
Definizione 7.2.1 (Processo di Markov). Sia X = (Xt )t≥0 un processo stocastico adattato sullo spazio con
filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che X è un processo di Markov se ha una legge di transizione p tale
che3
p(t, Xt ; T , H) = P (XT ∈ H | Ft ), 0 ≤ t ≤ T , H ∈ B. (7.2.1)
La (7.2.1) è una proprietà di assenza di memoria: intuitivamente, esprime il fatto che la conoscenza di
tutta la traiettoria di X fino al tempo t oppure del solo valore Xt forniscono le stesse informazioni riguardo
alla distribuzione del valore futuro XT .
Proposizione 7.2.2 (Proprietà di Markov). Sia X = (Xt )t≥0 un processo stocastico adattato sullo spazio con
filtrazione (Ω, F , P , (Ft )t≥0 ), con legge di transizione p. Allora X è un processo di Markov se e solo se
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Ft ] , 0 ≤ t ≤ T , ϕ ∈ bB. (7.2.2)
R

Dimostrazione. Se X è un processo di Markov allora p(t, Xt ; T , ·) è una versione regolare della legge di XT
condizionata a Ft e la (7.2.2) segue dal Teorema 5.3.8, Il viceversa è ovvio, con la scelta ϕ = 1H , H ∈ B.
Osservazione 7.2.3. Combinando la (7.1.1) con la (7.2.2), a volte si usa scrivere4

E [ϕ(XT ) | Xt ] = E [ϕ(XT ) | Ft ] . (7.2.3)

La proprietà di Markov si può generalizzare nel modo seguente. Osserviamo che se t ≤ t1 < t2 e ϕ1 , ϕ2 ∈
bB allora, per la proprietà della torre, si ha
h i h h i i
E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Xt = E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Xt
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Xt =

(per la proprietà di Markov)


h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 | Xt =
h i
(per la proprietà di Markov applicata all’attesa condizionata esterna, essendo ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 fun-
zione limitata e Borel-misurabile di Xt1 per il Teorema di Doob)
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 | Ft =

(per la proprietà di Markov applicata all’attesa condizionata interna)


h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Ft
h h i i
= E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Ft
3 Qui, come nell’Osservazione 5.3.5, P (X ∈ · | F ) indica una versione regolare della distribuzione di X condizionata a F . La
T t T t
(7.2.1) equivale a p(t, Xt ; T , H) = E [1H (XT ) | Ft ] ossia p(t, Xt ; T , H) è una versione dell’attesa di 1H (XT ) condizionata a Ft .
4 La (7.2.3) non è un’uguaglianza ma una notazione che deve essere interpretata nel senso della Convenzione 5.2.5: precisamente,
la (7.2.3) significa che se Z = E [ϕ(XT ) | Xt ] allora Z = E [ϕ(XT ) | Ft ]. Tuttavia può esistere una versione Z ′ di E [ϕ(XT ) | Ft ] che non
è σ (Xt )-misurabile5 e quindi non è attesa di ϕ(XT ) condizionata a Xt . D’altra parte, se vale la (7.2.3) e Z ′ = E [ϕ(XT ) | Ft ] allora
Z ′ = f (Xt ) q.c. per una certa f ∈ mB: infatti, presa una versione Z di E [ϕ(XT ) | Xt ], per il Teorema di Doob, Z = f (Xt ) e per la (7.2.3)
(e l’unicità dell’attesa condizionata) Z = Z ′ q.c. Questi sottigliezze sono rilevanti quando si deve verificare in concreto la validità della
proprietà di Markov: l’Esempio 16.1.10 è illuminante in questo senso.
248 CAPITOLO 7. PROCESSI DI MARKOV
h i
= E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft .

Dunque vale
E [Y | Xt ] = E [Y | Ft ] (7.2.4)
nel senso della Convenzione 5.2.5, per Y = ϕ1 (Xt1 )ϕ2 (Xt2 ) con t ≤ t1 < t2 e ϕ1 , ϕ2 ∈ bB. Per induzione, non
è difficile provare che la (7.2.4) vale anche se
n
Y
Y= ϕk (Xtk ) (7.2.5)
k=1

per ogni t ≤ t1 < · · · < tn e ϕ1 , . . . , ϕn ∈ bB. Infine, per il secondo teorema di Dynkin6 (Teorema A.1.8), la
(7.2.4) è valida per ogni v.a. limitata e misurabile rispetto alla σ -algebra generata dalle v.a. del tipo Xs con
s ≥ t, che in analogia con la Definizione 6.4.3 indichiamo nel modo seguente
X
Gt,∞ := σ (Xs , s ≥ t). (7.2.6)

Gt,∞
X
rappresenta le informazioni future su X a partire dal tempo t. In definitiva abbiamo provato la seguente
estensione della proprietà di Markov.
Teorema 7.2.4 (Proprietà di Markov estesa). [!] Se X è un processo di Markov su (Ω, F , P , (Ft )t≥0 ) si ha
X
E [Y | Xt ] = E [Y | Ft ] , Y ∈ bGt,∞ , (7.2.7)
nel senso della Convenzione 5.2.5.
Il seguente corollario esprime l’essenza della proprietà di Markov: il passato (ossia Ft ) e il futuro (ossia
Gt,∞
X
) sono indipendenti condizionatamente al presente (ossia σ (Xt ))7 .
Corollario 7.2.5. [!] Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Vale
X
E [Y | Xt ] E [Z | Xt ] = E [Y Z | Xt ] , Y ∈ bGt,∞ , Z ∈ bFt . (7.2.8)
Dimostrazione. Verifichiamo che E [Y | Xt ] E [Z | Xt ] è una versione dell’attesa di Y Z condizionata a Xt : la
proprietà di misurabilità E [Y | Xt ] E [Z | Xt ] ∈ mσ (Xt ) è ovvia. Data W ∈ bσ (Xt ), si ha
E [W E [Y | Xt ] E [Z | Xt ]] =
(poiché W E [Y | Xt ] ∈ bσ (Xt ) e per la proprietà ii) della definizione di attesa condizionata E [Z | Xt ])
= E [W E [Y | Xt ] Z] =
(per la proprietà di Markov estesa (7.2.7))
= E [W E [Y | Ft ] Z]
= E [E [W Y Z | Ft ]] = E [W Y Z]
che prova la seconda proprietà della definizione di attesa condizionata.
n
6 Usiamo il Teorema A.1.8 di Dynkin nel modo seguente: sia A la famiglia dei cilindri della forma C = T (X ∈ H ) al variare
tk k
k=1
di t ≤ t1 ≤ · · · ≤ tn e H1 , . . . , Hn ∈ B. Allora A è una famiglia ∩-chiusa di eventi. Sia H la famiglia delle v.a. limitate per cui vale la
(7.2.4): per il teorema di Beppo-Levi per l’attesa condizionata, H è una famiglia monotona; inoltre, scegliendo ϕk = 1Hk in (7.2.5), si
ha che H contiene le funzioni indicatrici di elementi di A . Allora il Teorema A.1.8 assicura che H contiene anche le v.a. limitate e
σ (A )-misurabili.
7 Più precisamente: se esiste una versione regolare della probabilità condizionata P (· | X ) (ciò è garantito se Ω è uno spazio polacco)
t
X , e Z = 1 , B ∈ F , diventa
allora la (7.2.8) con Y = 1A , A ∈ Gt,∞ B t
P (A | Xt )P (B | Xt ) = P (A ∩ B | Xt ).
7.3. PROCESSI A INCREMENTI INDIPENDENTI E MARTINGALE 249

Infine introduciamo la versione canonica di un processo di Markov. L’insistenza nel considerare la


versione canonica (cfr. Definizione 6.3.4) di un processo è giustificata dall’importanza della proprietà di
completezza dello spazio e dal fatto di poter identificare gli esiti con le traiettorie del processo: ciò sarà
ancor più chiaro quando, nel Capitolo12, esprimeremo la proprietà di Markov utilizzando un opportuno
operatore di traslazione temporale.
Proposizione 7.2.6 (Versione canonica di un processo di Markov). Sia X un processo di Markov X sullo
spazio (Ω, F , P , (Ft )t≥0 ) con legge di transizione p e sia X la versione canonica di X. Allora X è un processo
di Markov con legge di transizione p su (RI , FµIX , µX , G X ) dove, al solito, G X indica la filtrazione generata
da X (cfr. (6.4.1) e Osservazione 6.4.5).
Dimostrazione. Per la Proposizione 7.1.12 p è anche legge di transizione di X, dunque occorre provare che,
per ogni 0 ≤ t ≤ T e H ∈ B, posto Z := p(t, Xt , T , H) si ha
h i
Z = E µX 1H (XT ) | GtX

dove E µX [·] indica il valore atteso nella misura di probabilità µX . Ovviamente Z ∈ GtX e quindi rimane da
verificare che
E µX [ZW ] = E µX [1H (XT )W ] , W ∈ bGtX .
In realtà, grazie al secondo teorema di Dynkin8 è sufficiente considerare W della forma

W = ϕ(Xt1 , . . . , Xtn )

con 0 ≤ t1 < · · · < tn ≤ t e ϕ ∈ bBn . A questo punto basta procedere come nella dimostrazione della
Proposizione 7.1.12:
h i
E µX [ZW ] = E µX p(t, Xt , T , H)ϕ(Xt1 , . . . , Xtn ) =

(poiché X e X sono uguali in legge)


h i
= E P p(t, Xt , T , H)ϕ(Xt1 , . . . , Xtn ) =

(per la proprietà di Markov di X)


h i
= E P 1H (XT )ϕ(Xt1 , . . . , Xtn ) =

(ancora per l’uguaglianza in legge di X e X)


h i
= E µX 1H (XT )ϕ(Xt1 , . . . , Xtn ) .

7.3 Processi a incrementi indipendenti e martingale


Consideriamo un processo X = (Xt )t≥0 sullo spazio (Ω, F , P , (Ft )t≥0 ).
Definizione 7.3.1 (Processo a incrementi indipendenti). Diciamo che X è un processo a incrementi indi-
pendenti se:
i) X è adattato a (Ft )t≥0 ;
ii) l’incremento XT − Xt è indipendente da Ft per ogni 0 ≤ t < T .
8 Usiamo il Teorema A.1.8 di Dynkin in modo analogo a quanto fatto nella dimostrazione del Teorema 7.2.4.
250 CAPITOLO 7. PROCESSI DI MARKOV

Proposizione 7.3.2. [!] Sia X = (Xt )t≥0 un processo a incrementi indipendenti allora X è un processo di
Markov con legge di transizione p = p(t, x; T , ·) uguale alla legge di
XTt,x := XT − Xt + x, 0 ≤ t ≤ T , x ∈ R.
Dimostrazione. Proviamo che p è una legge di transizione per X. Chiaramente p(t, x; T , ·) è una distribuzio-
ne. Inoltre, se µXT −Xt indica la legge di XT − Xt , allora per il Teorema di Fubini la funzione
x 7−→ p(t, x; T , H) = µXT −Xt (H − x)
è B-misurabile. Infine, fissato H ∈ B, p(t, Xt ; T , H) = P (XT ∈ H | Xt ) come conseguenza del fatto che per
ogni funzione ϕ ∈ bB si ha
E [ϕ(XT ) | Xt ] = E [ϕ(XT − Xt + Xt ) | Xt ] =
(per il Lemma 5.2.11 di freezing, poiché XT − Xt è indipendente da Xt e ovviamente Xt è σ (Xt )-misurabile)
Z
t,x
h i
= E ϕ(XT ) |x=Xt = p(t, Xt ; T , dy)ϕ(y).
R
Allo stesso modo si prova la proprietà di Markov (7.2.2) (e quindi la (7.2.1)), condizionando a Ft invece
che a Xt .
È interessante confrontare le definizioni di processo a incrementi indipendenti e di martingala. Co-
minciamo con l’osservare che se X è un processo a incrementi indipendenti allora, per ogni n ∈ N e
0 ≤ t0 < t1 < · · · < tn , gli incrementi Xtk − Xtk−1 sono indipendenti; in particolare, se X è di quadrato
sommabile, ossia Xt ∈ L2 (Ω, P ), allora gli incrementi sono scorrelati:
cov(Xtk − Xtk−1 , Xth − Xth−1 ) = 0, 1 ≤ k < h ≤ n.
Anche una martingala ha gli incrementi scorrelati (ma non necessariamente indipendenti).
Proposizione 7.3.3. Sia X una martingala di quadrato sommabile. Allora X ha incrementi scorrelati.
Dimostrazione. Siano t0 ≤ t1 ≤ t2 ≤ t3 . Si ha
h i
cov(Xt1 − Xt0 , Xt3 − Xt2 ) = E (Xt1 − Xt0 )(Xt3 − Xt2 )
h h ii
= E E (Xt1 − Xt0 )(Xt3 − Xt2 ) | Ft2
h h ii
= E (Xt1 − Xt0 )E Xt3 − Xt2 | Ft2 = 0.

Ogni martingala è sommabile e costante in media. Un processo a incrementi indipendenti non è neces-
sariamente sommabile, né costante in media, e quindi non è necessariamente una martingala. Tuttavia si
ha la seguente
Proposizione 7.3.4. Sia X un processo a incrementi indipendenti e sommabile. Allora il processo “com-
pensato” definito da X
et := Xt − E [Xt ] è una martingala.
Dimostrazione. Basta osservare che per ogni t ≤ T si ha
h i h i
E X eT | Ft = E X et | Ft + X
eT − X et =

(poiché anche X
e ha gli incrementi indipendenti)
h i
=E X et + X
eT − X et = X
et

poiché X
e ha media nulla.

Osservazione 7.3.5. La Proposizione 7.3.4 fornisce la decomposizione di Doob del processo X che si scrive
come somma X = X e + A: in questo caso il processo di drift At = E [Xt ] è deterministico.
7.4. LEGGI FINITO-DIMENSIONALI ED EQUAZIONE DI CHAPMAN-KOLMOGOROV 251

7.4 Leggi finito-dimensionali ed equazione di Chapman-Kolmogorov


Sia X un processo di Markov con distribuzione iniziale µ (ossia X0 ∼ µ) e legge di transizione p. Il
risultato seguente mostra che, a partire dalla conoscenza di µ e p, è possibile determinare le distribuzioni
finito-dimensionali (e quindi la legge) di X.

Proposizione 7.4.1 (Distribuzioni finito-dimensionali). [!] Sia X = (Xt )t≥0 un processo di Markov con
legge di transizione p e tale che X0 ∼ µ. Per ogni t0 , t1 , . . . , tn ∈ R con 0 = t0 < t1 < t2 < · · · < tn , e H ∈ Bn+1 si
ha
Z n
Y
P ((Xt0 , Xt1 , . . . , Xtn ) ∈ H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ). (7.4.1)
H i=1

Dimostrazione. Per il Corollario A.1.5 è sufficiente provare la tesi con H = H0 × · · · × Hn con Hi ∈ B.


Procediamo per induzione: nel caso n = 1 si ha
h i
P ((Xt0 , Xt1 ) ∈ H0 × H1 ) = E 1H0 (Xt0 )1H1 (Xt1 )
h h ii
= E 1H0 (Xt0 )E 1H1 (Xt1 ) | Xt0
" Z #
= E 1H0 (Xt0 ) p(t0 , Xt0 ; t1 , dx1 ) =
H1

(per il Teorema di Fubini)


Z
= µ(dx0 )p(t0 , x0 ; t1 , dx1 ).
H0 ×H1

Supponiamo ora vera la (7.4.1) per n e proviamo il caso n + 1: per H ∈ Bn+1 e K ∈ B si ha


h h ii
P ((Xt0 , . . . , Xtn+1 ) ∈ H × K) = E 1H (Xt0 , . . . , Xtn )E 1K (Xtn+1 ) | Ftn =

(per la proprietà di Markov)


h h ii
= E 1H (Xt0 , . . . , Xtn )E 1K (Xtn+1 ) | Xtn
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; tn+1 , dxn+1 ) =
K

(per ipotesi induttiva e per il Teorema di Fubini)


Z n+1
Y
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ).
H×K i=1

Osservazione 7.4.2. Nel caso particolare µ = δx0 , con x0 ∈ R, la (7.4.1) diventa


n
Z Y
P ((Xt1 , . . . , Xtn ) ∈ H) = p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn . (7.4.2)
H i=1

Il seguente notevole risultato fornisce una condizione necessaria affinché una legge di transizione sia la
legge di transizione di un processo di Markov.
252 CAPITOLO 7. PROCESSI DI MARKOV

Proposizione 7.4.3 (Equazione di Chapman-Kolmogorov). [!!] Sia X un processo di Markov con legge di
transizione p. Per ogni 0 ≤ t1 < t2 < t3 e H ∈ B, si ha
Z
p(t1 , Xt1 ; t3 , H) = p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H). (7.4.3)
R

Dimostrazione. Intuitivamente, l’equazione di Chapman-Kolmogorov esprime il fatto che la probabilità di


muoversi dalla posizione x1 al tempo t1 ad una posizione in H al tempo t3 equivale alla probabilità di
muoversi ad una posizione x2 in un tempo intermedio t2 e poi da x2 ad H, integrando fra tutti i valori
possibili di x2 . Si ha
h i
p(t1 , Xt1 ; t3 , H) = E 1H (Xt3 ) | Xt1 =

(per la proprietà della torre)


h h i i
= E E 1H (Xt3 ) | Ft2 | Xt1 =

(per la proprietà di Markov (7.2.1))


h i
= E p(t2 , Xt2 ; t3 , H) | Xt1 =

(per la (7.1.1))
Z
= p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H).
R

Mostriamo ora che la Chapman-Kolmogorov è in realtà una condizione necessaria e sufficiente, nel senso
che è sempre possibile costruire un processo di Markov a partire da una legge iniziale e da una legge di
transizione p che verifichi la (7.4.3).
Teorema 7.4.4. [!] Sia µ una distribuzione su R e sia p = p(t, x; T , H) una legge di transizione9 che verifica
l’equazione di Chapman-Kolmogorov
Z
p(t1 , x; t3 , H) = p(t1 , x; t2 , dy)p(t2 , y; t3 , H), (7.4.4)
R

per ogni 0 ≤ t1 < t2 < t3 , x ∈ R e H ∈ B. Allora esiste un processo di Markov X = (Xt )t≥0 con legge di
transizione p e tale che X0 ∼ µ.
Dimostrazione. Consideriamo la famiglia di distribuzioni finito-dimensionali definita mediante la (7.4.1):
precisamente, se 0 = t0 < t1 < t2 < · · · < tn poniamo
Z n
Y
µt0 ,...,tn (H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn+1 ,
H i=1

e nel caso in cui t0 , . . . , tn non siano ordinati in modo crescente, definiamo µt0 ,...,tn tramite la (6.3.2) riordi-
nando i tempi. In questo modo la proprietà di consistenza (6.3.2) è automaticamente soddisfatta per costru-
zione. D’altra parte, l’equazione di Chapman-Kolmogorov garantisce la validità della seconda proprietà di
consistenza (6.3.3) poiché, dopo aver ordinato in modo crescente i tempi, si ha

µt0 ,...,tk−1 ,tk ,tk+1 ,...,tn (H0 × · · · × Hk−1 × R × Hk+1 × · · · × Hn ) = µt0 ,...,tk−1 ,tk+1 ,...,tn (H0 × · · · × Hk−1 × Hk+1 × · · · × Hn ).
9 Ossia p verifica le proprietà i) e ii) della Definizione 7.1.1.
7.4. LEGGI FINITO-DIMENSIONALI ED EQUAZIONE DI CHAPMAN-KOLMOGOROV 253

Essendo soddisfatte le ipotesi del Teorema di estensione di Kolmogorov, consideriamo il processo stoca-
stico X = (Xt )t≥0 costruito in maniera canonica come nel Corollario 6.3.3: X ha le distribuzioni finito-
dimensionali in (7.4.1) ed è definito sullo spazio con filtrazione (Ω, F , P , (GtX )t≥0 ) con Ω = R[0,+∞) : ricor-
diamo che, per l’Osservazione 6.4.4, la filtrazione (GtX )t≥0 è quella generata dai cilindri finito-dimensionali.
Rimane da provare che X è un processo di Markov con distribuzione di transizione p. Fissati 0 ≤ t < T e
ϕ ∈ bB, proviamo che Z h i
p(t, Xt ; T , dy)ϕ(y) = E ϕ(XT ) | GtX ,
R
verificando direttamente le proprietà dell’attesa condizionata. Posto
Z
Z= p(t, Xt ; T , dy)ϕ(y)
R

chiaramente Z ∈ mGtX . Per concludere, in base all’Osservazione 5.2.2, è sufficiente dimostrare che
E [1C ϕ(XT )] = E [1C Z]
dove C è un cilindro finito-dimensionale in GtX della forma in (6.1.1): in particolare, non è restrittivo
assumere C = Ct0 ,t1 ,...,tn (H) con H ∈ Bn+1 e tn = t. Questo ci permette di utilizzare le distribuzioni finito-
dimensionali in (7.4.1): infatti si ha
h i h i
E 1Ct ,...,tn (H) ϕ(XT ) = E 1H (Xt0 , Xt1 , . . . , Xtn )ϕ(XT )
0
Z n
Y Z
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ) p(tn , xn ; T , dy)ϕ(y)
H i=1 R
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; T , dy)ϕ(y)
R
h i
= E 1Ct ,...,tn (H) Z .
0

Questo conclude la prova.


Esempio 7.4.5 (Legge di transizione di Poisson). Riprendiamo la legge di transizione di Poisson di para-
metro λ > 0 dell’Esempio 7.1.6:
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0

L’equazione di Chapman-Kolmogorov si verifica con un conto simile10 a quello fatto nell’Esempio 3.6.5
10 Per 0 ≤ t < s < T , si ha
+∞
(λ(s − t))n
Z X
p(t, x; s, dy)p(s, y; T , H) = e−λ(s−t) p(s, x + n; T , H)
R n!
n=0
+∞
X (λ(s − t))n (λ(T − s))m
= e−λ(T −t) δ x+n+m (H) =
n! m!
n,m=0
(col cambio di indici i = n + m e j = n)
+∞ X
i
X (s − t)j (T − s)i−j
= e−λ(T −t) λi δ (H)
j! (i − j)! x+i
i=0 j=0
+∞ i i !
X λ X i
= e−λ(T −t) δx+i (H) (s − t)j (T − s)i−j
i! j
i=0 j=0
= p(t, x; T , H).
254 CAPITOLO 7. PROCESSI DI MARKOV

sulla somma di v.a. di Poisson indipendenti. Il processo di Markov associato a p è detto processo di Poisson
e sarà studiato nel Capitolo 8. Per ogni ϕ ∈ bC e t > 0 la funzione

+∞
(λt)n
Z X
x 7−→ Poissonx,λt (dy)ϕ(y) = e−λt ϕ(x + n)
R n!
n=0

è continua e quindi il processo di Poisson è un processo di Feller.

Esempio 7.4.6 (Legge di transizione Gaussiana). Riprendiamo la legge di transizione Gaussiana dell’E-
sempio 7.1.9:
Z
p(t, x; T , H) := Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H

dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)

è la densità di transizione Gaussiana. La legge di transizione Gaussiana soddisfa l’equazione di Chapman-


Kolmogorov come si verifica direttamente calcolando la convoluzione di due Gaussiane o, più facilmente,
il prodotto delle loro funzioni caratteristiche. Studieremo in seguito, nel Capitolo 10, il processo di Markov
associato a p, il cosiddetto moto Browniano. Per ogni ϕ ∈ bC e T > 0 la funzione
Z
x 7−→ Γ (0, x; T , y)ϕ(y)dy (7.4.5)
R

è continua e quindi il moto Browniano è un processo di Feller. In realtà, si verifica che la funzione in (7.4.5) è
C ∞ per ogni T > 0 e ϕ ∈ bB (non solo per ϕ ∈ bC): per questo motivo si dice che il moto Browniano verifica
la proprietà di Feller forte.

Osservazione 7.4.7 (Legge di transizione e semigruppi). Ad ogni legge di transizione p = p(t, x; T , ·) è



associata una famiglia p = pt,T 0≤t≤T di operatori lineari e limitati

pt,T : bB −→ bB

definiti da
Z
pt,T ϕ := p(t, ·; T , dy)ϕ(y), ϕ ∈ bB.
R

Si noti in particolare che pt,T ϕ ∈ bB per ogni ϕ ∈ bB e per la disuguaglianza triangolare si ha

∥pt,T ϕ∥∞ ≤ ∥ϕ∥∞ .

L’equazione di Chapman-Kolmogorov (7.4.4) corrisponde alla cosiddetta proprietà di semigruppo di p:

pt,s ◦ ps,T = pt,T , t ≤s ≤T.



Si dice che la famiglia p = pt,T 0≤t≤T è il semigruppo di operatori associato alla legge di transizione p.
Inoltre, si dice che p è un semigruppo omogeneo se pt,T = p0,T −t per ogni t ≤ T : in questo caso si usa scrivere
semplicemente pt al posto di p0,t . Esistono molte monografie su processi di Markov e teoria dei semigruppi:
fra le più recenti, citiamo [62], [123] e [120].
7.5. OPERATORE CARATTERISTICO ED EQUAZIONI DI KOLMOGOROV 255

7.5 Operatore caratteristico ed equazioni di Kolmogorov


Sia X un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ). In numerose applicazioni interessa calcolare
l’attesa condizionata
E [ϕ(XT ) | Ft ] , 0≤t <T,
dove ϕ ∈ bB è un’assegnata funzione. Il problema non è banale, anche dal punto di vista computazionale,
perché tale attesa condizionata è una variabile aleatoria Ft -misurabile, ossia dipende dalle informazioni
fino al tempo t. Tuttavia, se X è un processo di Markov con legge di transizione p allora, per la proprietà di
perdita di memoria, si ha
E [ϕ(XT ) | Ft ] = u(t, Xt ) (7.5.1)
dove Z
u(t, x) := p(t, x; T , dy)ϕ(y), 0 ≤ t ≤ T , x ∈ RN . (7.5.2)
RN
Dunque il problema si riconduce al calcolo della funzione u e questo è un notevole vantaggio dei processi
di Markov.
In questa sezione mostriamo che, come conseguenza dell’equazione di Chapman-Kolmogorov, la fun-
zione u in (7.5.2) è soluzione di un problema di Cauchy per il quale sono disponibili risultati teorici e
metodi efficienti di calcolo numerico. Più in generale proviamo che, sotto opportune ipotesi, la legge di
transizione p = p(t, x; T , dy) risolve le cosiddette equazioni di Kolmogorov backward e forward: si tratta di
equazioni integro-differenziali risolte da p(t, x; T , dy) rispettivamente nelle variabili backward (t, x) (corri-
spondenti al tempo e valore iniziale del processo X) e nelle variabili forward (T , y) (corrispondenti al tempo
e valore finale del processo X).

Notazione 7.5.1. Data una funzione f = f (t, T ) definita per t < T usiamo la notazione

lim f (t, T ) := lim+ f (t, T ) = lim− f (t, T )


T −t→0+ T →t t→T

quando il secondo e terzo limite esistono e coincidono.

Definizione 7.5.2 (Operatore caratteristico). Siano (t, x) ∈ R>0 × RN e p una legge di transizione su RN .
Supponiamo esista il limite
Z
p(t, x; T , dy) − p(t, x; t, dy)
At ϕ(x) := lim + ϕ(y)
T −t→0 R N T −t

per ogni ϕ ∈ D dove D è un opportuno sotto-spazio vettoriale dello spazio bBN delle funzioni misurabili e
limitate da RN in R. Allora diciamo che At è l’operatore caratteristico (o generatore infinitesimale) di p. Se p è
la legge di transizione di un processo di Markov X allora diciamo anche che At è l’operatore caratteristico
di X.

Si noti che At è un operatore lineare su D. Il “dominio” D su cui è definito l’operatore caratteristico


dipende dalla legge di transizione p: nelle sezioni seguenti presentiamo alcuni casi particolari in cui D è
esplicito. Cominciamo col seguente semplice

Esempio 7.5.3. [!] Consideriamo il processo di Markov deterministico Xt = γ(t) dell’Esempio 7.1.4. Una
legge di transizione di X è
p(t, x; T , ·) = δx+γ(T )−γ(t) (7.5.3)
e quindi

ϕ(x + γ(T ) − γ(t)) − ϕ(x)


At ϕ(x) = lim + =
T −t→0 T −t
256 CAPITOLO 7. PROCESSI DI MARKOV

(assumendo ϕ ∈ D := bC 1 (RN ), lo spazio vettoriale delle funzioni limitate e di classe C 1 , e sviluppando in


serie di Taylor al prim’ordine)
1
= lim + (∇ϕ(x) · (γ(T ) − γ(t)) + o (|γ(T ) − γ(t)|)) .
T −t→0 T −t
Tale limite esiste solo se la funzione γ è sufficientemente regolare: in particolare, se γ è differenziabile
allora si ha
At ϕ(x) = γ ′ (t) · ∇ϕ(x).
In questo caso l’operatore caratteristico è semplicemente la derivata direzionale di ϕ lungo la curva γ:
precisamente, At è l’operatore differenziale del prim’ordine a coefficienti costanti
N
X
At = γ ′ (t) · ∇ = γj′ (t)∂xj .
j=1

Osservazione 7.5.4. [!] Poiché p(t, x; t, ·) = δx per ogni t ≥ 0, si ha


Z
ϕ(y) − ϕ(x)
At ϕ(x) = lim + p(t, x; T , dy) . (7.5.4)
T −t→0 RN T −t

Dunque, se p è la legge di transizione di un processo di Markov X, si ha


" #
ϕ(XT ) − ϕ(Xt )
At ϕ(x) = lim + E | Xt = x (7.5.5)
T −t→0 T −t

da cui segue che l’operatore caratteristico At dipende dal processo X e non dalla particolare versione della sua
legge di transizione. Per la (7.5.5), in analogia con quanto visto nell’Esempio 7.5.3, possiamo interpretare
At ϕ(x) come una “derivata direzionale media” (o incremento infinitesimo medio) di ϕ lungo le traiettorie
di X che partono al tempo t da x. Notiamo anche che vale
Z
p(T , x; T , dy) − p(t, x; T , dy)
At ϕ(x) = − lim + ϕ(y). (7.5.6)
T −t→0 RN T −t

Nella sezione seguente vediamo che per un’ampia classe di leggi di transizione è possibile dare una
rappresentazione esplicita dell’operatore caratteristico.

7.5.1 Il caso locale


Definizione 7.5.5. Sia x0 ∈ RN . Diciamo che un operatore lineare A : C 2 (RN ) −→ R
• soddisfa il principio del massimo in x0 se vale l’implicazione

ϕ(x0 ) = max ϕ(x) =⇒ A ϕ ≤ 0;


x∈RN

• è locale in x0 se A ϕ = 0 per ogni ϕ ∈ C 2 (RN ) che si annulla in un intorno di x0 .


Osservazione 7.5.6. Notiamo che:
i) se A soddisfa il principio del massimo in x0 allora A ϕ = 0 per ogni funzione costante ϕ;
ii) se A è un operatore locale in x0 allora A ϕ = A ψ per ogni ϕ, ψ che sono uguali in un intorno di x0 ;
iii) combinando i) e ii) si ha che se A soddisfa il principio del massimo ed è locale in x0 allora A ϕ = 0
per ogni ϕ che sia costante in un intorno di x0 ;
7.5. OPERATORE CARATTERISTICO ED EQUAZIONI DI KOLMOGOROV 257

iv) se A soddisfa il principio del massimo ed è locale in x0 allora A ϕ = A T2,x0 (ϕ) dove T2,x0 (ϕ) è il
polinomio di Taylor del second’ordine di ϕ di punto iniziale x0 .
Infatti, essendo A un operatore lineare, basta provare che A ϕ = 0 per ogni ϕ ∈ C 2 (RN ) il cui poli-
nomio di Taylor di ordine due di punto iniziale x0 è nullo. Inoltre non è restrittivo assumere x0 = 0.
Consideriamo una funzione “cut-off”
  χ ∈ C0∞ (RN ; R) tale che 0 ≤ χ ≤ 1, χ(x) ≡ 1 per |x| ≤ 1 e χ(x) ≡ 0
per |x| ≥ 2. Posto ϕδ (x) = ϕ(x)χ δx per δ > 0, esiste11 una funzione g tale che g(δ) → 0 per δ → 0+ e

1
|ϕδ (x)| ≤ g(δ)|x|2 χ(x), x ∈ RN , 0 < δ ≤ . (7.5.7)
2
Allora applicando il principio del massimo in 0 alle funzioni ψδ± (x) = −g(δ)|x|2 χ(x) ± ϕδ (x) si ottiene
A ψδ± ≤ 0 o equivalentemente, per il punto i),

±A ϕ = ±A ϕδ ≤ g(δ)A ψ, ψ(x) := |x|2 χ(x),

da cui la tesi scegliendo δ > 0 arbitrariamente piccolo.


Il seguente risultato, che è un caso particolare del Teorema di Courrège [29], fornisce un’interessante
caratterizzazione degli operatori lineari locali che soddisfano il principio del massimo.
Teorema 7.5.7 (di Courrège). Un operatore lineare A su C 2 (RN ) soddisfa il principio del massimo ed
è locale in x0 ∈ RN se e solo se esistono b ∈ RN e una matrice simmetrica e semi-definita positiva C =
(cij )1≤i,j≤N tali che
N N
1X X
Aϕ= cij ∂xi xj ϕ(x0 ) + bi ∂xi ϕ(x0 ), ϕ ∈ C 2 (RN ). (7.5.8)
2
i,j=1 i=1

Dimostrazione. Per l’Osservazione 7.5.6 si ha

A ϕ = A T2,x0 (ϕ) =

(per la linearità di A )
N N
1X X
= cij ∂xi xj ϕ(x0 ) + bi ∂xi ϕ(x0 )
2
i,j=1 i=1

dove cij := A ϕij e bj := A ϕj con

ϕij (x) = (x − x0 )i (x − x0 )j , ϕj (x) = (x − x0 )j , x ∈ RN . (7.5.9)

Per verificare che C = (cij ) ≥ 0, consideriamo η ∈ RN e poniamo

N
X
2
ϕη (x) = −⟨x − x0 , η⟩ = − ηi ηj ϕij (x);
i,j=1

allora per linearità e per il principio del massimo in x0 si ha

A ϕη = −2⟨C η, η⟩ ≤ 0.
11 Per ipotesi, |ϕ(x)| ≤ |x|2 g(|x|) per |x| ≤ 1 con g che tende a zero per |x| → 0+ e non è restrittivo assumere g monotona crescente.
Allora la (7.5.7) segue dal fatto che
x 1
 
g(|x|)χ ≤ χ(x)g(δ), x ∈ RN , 0 < δ ≤ .
δ 2
258 CAPITOLO 7. PROCESSI DI MARKOV

Viceversa, se A è della forma (7.5.8) allora è chiaramente locale in x0 . Inoltre esiste una matrice
simmetrica e semi-definita positiva M = (mij ) tale che
N  N 
X  X 
2
C = M =  mih mhj  =  mih mjh  .
h=1 i,j h=1 i,j

Se x0 è punto di massimo per ϕ allora ∇ϕ(x0 ) = 0 e la matrice Hessiana di ϕ in x0 è semi-definita negativa,


quindi si ha

N N N N
1X X 1XX
Aϕ= ∂xi xj ϕ(x0 ) mih mjh = ∂xi xj ϕ(x0 )mih mjh ≤ 0,
2 2
i,j=1 h=1 h=1 i,j=1

ossia A soddisfa il principio del massimo in x0 .

Osservazione 7.5.8. [!] Per ogni x ∈ RN , l’operatore caratteristico At di una legge di transizione p soddisfa
il principio del massimo in x: ciò segue immediatamente dalla (7.5.4). Allora, sotto l’ulteriore ipotesi che
At sia locale12 in x, il Teorema 7.5.7 fornisce la rappresentazione

N N
1X X
At ϕ(x) = cij (t, x)∂xi xj ϕ(x) + bi (t, x)∂xi ϕ(x), (t, x) ∈ R>0 × RN , (7.5.10)
2
i,j=1 i=1

con C (t, x) = (cij (t, x)) matrice N × N simmetrica, semi-definita positiva e b(t, x) = (bj (t, x)) ∈ RN . In altri
termini, At è un operatore alle derivate parziali del second’ordine di tipo ellittico-parabolico.
Combinando la (7.5.4) con l’espressione dei coefficienti di At data dalle funzioni in (7.5.9), si ottengono
le formule13
Z " #
p(t, x; T , dy) (XT − Xt )i
bj (t, x) = lim + (y − x)i = lim + E | Xt = x , (7.5.11)
T −t→0 T −t T −t→0 T −t
RN
(XT − Xt )i (XT − Xt )j
Z " #
p(t, x; T , dy)
cij (t, x) = lim + (y − x)i (y − x)j = lim + E | Xt = x , (7.5.12)
T −t→0 T −t T −t→0 T −t
RN

per i, j = 1, . . . , N . Dunque, i coefficienti di At si interpretano come gli incrementi infinitesimi di media e matrice
di covarianza14 di X a partire da (t, x). Dalle formule (7.5.11)-(7.5.12) segue anche che cij = cij (t, x) e bj =
bj (t, x) sono funzioni misurabili su R>0 × RN .
12 Si può provare che la proprietà di essere locale corrisponde alla continuità delle traiettorie del processo di Markov associato. Per
la caratterizzazione dell’operatore caratteristico di un generico processo di Markov si veda, per esempio, [114].
13 Se A è locale in x allora il dominio di integrazione in (7.5.11) e (7.5.12) si può restringere a |x − y| < 1.
t
14 Notiamo che si ha anche
Z
p(t, x; T , dy)
cij (t, x) = lim (y − x − (T − t)b(t, x))i (y − x − (T − t)b(t, x))j
T −t→0+ T −t
RN
(XT − Xt − (T − t)b(t, Xt ))i (XT − Xt − (T − t)b(t, Xt ))j
" #
= lim E | Xt = x
T −t→0+ T −t

come si verifica sviluppando il prodotto all’interno dell’integrale ed osservando che


Z Z
lim (T − t) p(t, x; T , dy)bi (t, x)bj (t, x) = lim p(t, x; T , dy)(y − x)i bj (t, x) = 0.
T −t→0+ T −t→0+
RN RN
7.5. OPERATORE CARATTERISTICO ED EQUAZIONI DI KOLMOGOROV 259

7.5.2 Equazione di Kolmogorov backward


Supposto che p sia la legge di transizione di un processo di Markov X, sfruttiamo l’equazione di Chapman-
Kolmogorov per studiare la funzione attesa condizionata in (7.5.2), definita da
Z
u(t, x) := p(t, x; T , dy)ϕ(y) = E [ϕ(XT ) | Xt = x] , 0 ≤ t ≤ T , x ∈ RN , (7.5.13)
RN

con ϕ ∈ bB. Ammesso che esista, la derivata ∂t u(t, x) è data da


Z
p(t, x; T , dy) − p(t − h, x; T , dy)
∂t u(t, x) = lim ϕ(y) =
h→0 +
RN h

(per l’equazione di Chapman-Kolmogorov)


Z Z
p(t, x; t, dz) − p(t − h, x; t, dz)
= lim p(t, z; T , dy)ϕ(y) = −At u(t, x) (7.5.14)
h→0+ RN h RN
| {z }
=u(t,z)

in base alla definizione di operatore caratteristico nella forma (7.5.6). I passaggi precedenti si giustificano in
maniera rigorosa sotto l’ipotesi che u(t, ·) ∈ D: nell’Esempio 7.5.12 tale ipotesi è soddisfatta se ϕ ∈ C 1 (RN )
poiché x 7→ u(t, x) = ϕ(x + γ(T ) − γ(t)) eredita le proprietà di regolarità di ϕ. Esamineremo in seguito altri
esempi significativi in cui u(t, ·) ∈ bC 2 (RN ) grazie alle proprietà regolarizzanti del nucleo p(t, x; T , dy).
Dunque, sotto ipotesi opportune, la funzione u in (7.5.13) è soluzione del problema di Cauchy per
l’equazione di Kolmogorov backward15 (con dato finale)

∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ [0, T [×RN ,


(7.5.15)
u(T , x) = ϕ(x), x ∈ RN ,

o in forma integrale
Z T
u(t, x) = ϕ(x) + As u(s, x)ds, (t, x) ∈ [0, T ] × RN .
t
Sottolineiamo che il problema (7.5.15) è scritto nelle variabili backward (t, x) assumendo le variabili forward
(T , y) fissate.

Esempio 7.5.9. [!] Consideriamo la legge di transizione Gaussiana p(t, x; T , dy) = Γ (t, x; T , y)dy dell’Esem-
pio 7.1.9 con densità di transizione definita da
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R. (7.5.16)
2π(T − t)

Il processo di Markov associato a p è il moto Browniano che sarà introdotto nel Capitolo 10. Un calcolo
diretto mostra che
T − t − (x − y)2
∂t Γ (t, x; T , y) = −∂T Γ (t, x; T , y) = Γ (t, x; T , y),
2(T − t)2
15 Essendo u(t, x) =
R
p(t, x; T , dy)ϕ(y), si usa anche scrivere che p risolve il problema backward
RN

∂t p(t, x; T , dy) + At p(t, x; T , dy) = 0, (t, x) ∈ [0, T [×RN ,




p(T , x; T , ·) = δ , x ∈ RN .

x
260 CAPITOLO 7. PROCESSI DI MARKOV

y −x
∂x Γ (t, x; T , y) = −∂y Γ (t, x; T , y) = Γ (t, x; T , y),
T −t
T − t − (x − y)2
∂xx Γ (t, x; T , y) = ∂yy Γ (t, x; T , y) = − Γ (t, x; T , y),
(T − t)2
da cui si ottiene l’equazione di Kolmogorov backward
1
 
∂t + ∂xx Γ (t, x; T , y) = 0, t < T , x, y ∈ R (7.5.17)
2
e anche
1
 
∂T − ∂yy Γ (t, x; T , y) = 0, t < T , x, y ∈ R (7.5.18)
2
che è chiamata equazione di Kolmogorov forward e sarà studiata nella Sezione 7.5.3. L’operatore caratteristico
di p è l’operatore di Laplace
1
At = ∂xx
2
come si può verificare anche mediante le formule (7.5.11)-(7.5.12) che qui diventano
Z
Γ (t, x; T , y)
b(t, x) = lim + (y − x)dy = 0,
T −t→0 T −t
RN
Z
Γ (t, x; T , y)
c(t, x) = lim + (y − x)2 dy = 1.
T −t→0 T −t
RN

Ovviamente At è un operatore locale in ogni x ∈ R.


Le equazioni (7.5.17)-(7.5.18) sono ben note per la loro importanza in fisica e in economia:
• la (7.5.17) è anche chiamata equazione del calore forward ed interviene nei modelli che descrivono il
fenomeno fisico della diffusione del calore in un corpo. Precisamente, la soluzione v = v(T , y) del
problema di Cauchy forward

1
∂T v(T , y) = 2 ∂yy v(T , y), (T , y) ∈ ]t, +∞[×R,


(7.5.19)
v(t, y) = ϕ(y),

 y ∈ R,

rappresenta la temperatura, al tempo T e nella posizione y, di un corpo di lunghezza infinita di cui è


assegnata la temperatura ϕ al tempo iniziale t;
• la (7.5.18) è chiamata equazione del calore backward ed interviene in modo naturale in finanza matema-
tica, nella valutazione di certi strumenti finanziari complessi, detti derivati, di cui è noto il valore ϕ
al tempo futuro T : il prezzo al tempo t < T è dato dalla soluzione u = u(t, x) del problema di Cauchy
backward 
1
∂t u(t, x) + 2 ∂xx u(t, x) = 0, (t, x) ∈ [0, T [×R,


(7.5.20)
u(T , x) = ϕ(x),

 x ∈ R.

Si noti che, se v indica la soluzione del problema forward (7.5.19) con tempo iniziale t = 0, allora u(t, x) :=
v(T − t, x) risolve il problema backward (7.5.20); inoltre u è data dalla formula (7.5.13) che qui diventa
Z
u(t, x) = Γ (t, x; T , y)ϕ(y)dy, (t, x) ∈ [0, T ] × R. (7.5.21)
R

Per il teorema di scambio di segni di derivata e integrale, si ha u ∈ C ∞ ([0, T [×R) e ∥u∥∞ ≤ ∥ϕ∥∞ per ogni
ϕ ∈ bB e ciò giustifica la validità della (7.5.14).
7.5. OPERATORE CARATTERISTICO ED EQUAZIONI DI KOLMOGOROV 261

Osservazione 7.5.10. Nella teoria delle equazioni differenziali, Γ in (7.5.16) è detta soluzione fondamentale
dell’operatore del calore poiché, tramite la formula risolutiva (7.5.21), fornisce la soluzione del problema
backward (7.5.20) per ogni dato finale ϕ ∈ bC (e analogamente del problema problema forward (7.5.19)
per ogni dato iniziale ϕ ∈ bC). Rimandiamo alla Sezione 26.3 per la definizione generale di soluzione
fondamentale.
Un legame profondo fra la teoria dei processi stocastici e quella delle equazioni alle derivate parziali è
dato dal fatto che, se esiste, la densità di transizione di un processo di Markov (per esempio, la densità Gaussiana
nel caso del moto Browniano) è soluzione fondamentale dell’operatore ∂t + At (corrispondente all’operatore del
calore nel caso del moto Browniano). Una trattazione generale sull’esistenza e unicità della soluzione del
problema di Cauchy per equazioni alle derivate parziali di tipo parabolico è data nel Capitolo 26, mentre
nel Capitolo 20 approfondiamo il legame con le equazioni differenziali stocastiche.
Esempio 7.5.11. [!] Consideriamo la legge di transizione di Poisson di parametro λ > 0 dell’Esempio 7.4.5:
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0

Per u come in (7.5.13) vale


 

−λ(T −t)
X (λ(T − t))n 
∂t u(t, x) = ∂t e
 ϕ(x + n) 
n! 
n≥0
X (λ(T − t))n X (λ(T − t))n
= λe−λ(T −t) ϕ(x + n) + e−λ(T −t) ∂t ϕ(x + n) =
n! n!
n≥0 n≥0

(lo scambio serie-derivata è giustificato dal fatto che si tratta di una serie di potenze con raggio di conver-
genza infinito se ϕ ∈ bB)
X (λ(T − t))n−1
= λu(t, x) − λe−λ(T −t) ϕ(x + n)
(n − 1)!
n≥1
X (λ(T − t))n
= λu(t, x) − λe−λ(T −t) ϕ(x + n + 1)
n!
n≥0
= −λ (u(t, x + 1) − u(t, x)) .

Dunque At è definito da
At ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , ϕ ∈ D := bB.
In questo caso At non è un operatore locale in alcun x ∈ R.

7.5.3 Equazione di Kolmogorov forward (o di Fokker-Planck)


Assumiamo che p sia la legge di transizione di un processo di Markov X e quindi verifichi l’equazione di
Chapman-Kolmogorov. Per definizione di operatore caratteristico e supponendo l’esistenza della derivata
∂T p(t, x; T , dz), per ogni ϕ ∈ D si ha
Z Z
p(t, x; T + h, dz) − p(t, x; T , dz)
∂T p(t, x; T , dz)ϕ(z) = lim ϕ(z) =
RN RN h→0
+ h

(per l’equazione di Chapman-Kolmogorov)


Z Z
p(T , y; T + h, dz) − p(T , y; T , dz)
= p(t, x; T , dy) lim ϕ(z)
RN h→0+ RN h
262 CAPITOLO 7. PROCESSI DI MARKOV
Z
= p(t, x; T , dy)AT ϕ(y).
RN

In definitiva, si ha Z Z
∂T p(t, x; T , dy)ϕ(y) = p(t, x; T , dy)AT ϕ(y), ϕ ∈ D, (7.5.22)
RN RN
che è chiamata equazione di Kolmogorov forward o anche equazione di Fokker-Planck. Qui ϕ deve essere
interpretata come una funzione test e la (7.5.22) come la scrittura in forma debole (o distribuzionale)
dell’equazione
∂T p(t, x; T , ·) = AT∗ p(t, x; T , ·)
dove AT∗ è l’operatore aggiunto di AT . Per esempio, se AT è un operatore differenziale della forma (7.5.10)
allora AT∗ si ottiene formalmente per integrazione per parti:
Z Z

AT u(y) v(y)dy =

u(y)AT v(y)dy,
RN RN

con u, v coppia di funzioni test. Se i coefficienti sono sufficientemente regolari, è possibile scrivere l’opera-
tore forward in modo più esplicito:

N N
1X X
AT∗ u = cij ∂yi yj u + bj∗ ∂yj + a∗ , (7.5.23)
2
i,j=1 j=1

dove
N N N
X X 1X
bj∗ := −bj + ∂yi cij , a∗ := − ∂yi bi + ∂yi yj cij . (7.5.24)
2
i=1 i=1 i,j=1

La (7.5.22) si esprime anche dicendo che p(t, x; ·, ·) è soluzione distribuzionale del problema di Cauchy
forward (con dato iniziale) 
∂T p(t, x; T , ·) = AT p(t, x; T , ·), T > t,

 ∗
(7.5.25)
p(t, x; t, ·) = δx .

Si usa il termine “soluzione distribuzionale” per indicare il fatto che p(t, x; T , ·), essendo una distribuzione,
non ha in generale la regolarità necessaria per supportare l’operatore AT che infatti in (7.5.22) appare
applicato alla funzione test ϕ. Si noti che il problema (7.5.25) è scritto nelle variabili forward (T , y) su
]t, +∞[×RN , assumendo fissate le variabili backward (t, x).
Si dimostra l’esistenza della soluzione distribuzionale di (7.5.25) sotto ipotesi generali (si veda, per
esempio, il Teorema 1.1.9 in [115]): benché la nozione di soluzione distribuzionale sia molto debole, que-
sto è il risultato migliore che si può sperare di ottenere senza assumere ulteriori ipotesi, come mostra il
seguente

Esempio 7.5.12. [!] Riprendiamo l’Esempio 7.5.3. L’operatore At = γ ′ (t) · ∇x , con ∇x = (∂x1 , . . . , ∂xN ), è
ovviamente locale in ogni x ∈ RN e può essere determinato anche mediante le formule (7.5.11)-(7.5.12) che,
per p come in (7.5.3) con γ differenziabile, danno
Z
1
b(t, x) = lim + δx+γ(T )−γ(t) (dy)(y − x) = γ ′ (t),
T −t→0 T − t
RN
Z
1
cij (t, x) = lim + δx+γ(T )−γ(t) (dy)(y − x)i (y − x)j = 0.
T −t→0 T − t
RN
7.5. OPERATORE CARATTERISTICO ED EQUAZIONI DI KOLMOGOROV 263

Il problema di Cauchy (7.5.25) per l’equazione di Kolmogorov forward è



∂T p(t, x; T , ·) = −γ ′ (T ) · ∇y p(t, x; T , ·), T > t,


(7.5.26)
p(t, x; t, ·) = δx .

Chiaramente, essendo p(t, x; T , ·) una misura, il gradiente ∇y p(t, x; T , ·) non è definito in senso classico ma
nel senso delle distribuzioni. Pertanto il problema (7.5.26) va inteso come in (7.5.22), ossia come equazione
integrale scaricando il gradiente sulla funzione ϕ
Z T
ϕ(x + γ(T ) − γ(t)) = ϕ(x) + γ ′ (s) · (∇ϕ)(x + γ(s) − γ(t))ds, ϕ ∈ C 1 (RN ),
t

da cui, differenziando, ritroviamo


d
ϕ(x + γ(T ) − γ(t)) = γ ′ (T ) · (∇ϕ)(x + γ(T ) − γ(t)).
dT

Intuitivamente l’operatore caratteristico fornisce l’incremento infinitesimale (drift) di un processo: ri-


muovendo tale drift si ottiene una martingala. Questo fatto è reso rigoroso dal seguente notevole ri-
sultato che mostra come compensare un processo, per renderlo una martingala, utilizzando l’operatore
caratteristico.
Teorema 7.5.13. [!] Sia X un processo di Markov con operatore caratteristico At definito su D. Se ϕ ∈ D è
tale che At ϕ(Xt ) ∈ L1 ([0, T ] × Ω) per ogni T ≥ 0, allora il processo
Z t
Mt := ϕ(Xt ) − As ϕ(Xs )ds, t ≥ 0,
0

è una martingala.
Dimostrazione. Il processo M è sommabile grazie alle ipotesi16 su ϕ. Rimane da provare che

E [MT − Mt | Ft ] = 0, 0≤t ≤T,

ossia " Z T #
E ϕ(XT ) − ϕ(Xt ) − As ϕ(Xs )ds | Ft = 0, 0≤t ≤T.
t

Inegrando nel tempo l’equazione di Kolmogorov forward (7.5.22) con x = Xt si ha


Z Z T Z
0= p(t, Xt ; T , dy)ϕ(y) − ϕ(Xt ) − p(t, Xt ; s, dy)As ϕ(y)ds =
R t RN

(per la proprietà di Markov (7.5.1) applicata al primo e ultimo termine)


Z T
= E [ϕ(XT ) | Ft ] − ϕ(Xt ) − E [As ϕ(Xs ) | Ft ] ds =
t

(poiché, come proveremo fra breve, è possibile scambiare l’integrale nel tempo con l’attesa condizionata)
" Z T #
= E ϕ(XT ) − ϕ(Xt ) − As ϕ(Xs )ds | Ft
t
16 Ricordiamo anche che ϕ è limitata poiché D ⊆ bB : tale ipotesi non è restrittiva e può essere notevolmente indebolita.
N
264 CAPITOLO 7. PROCESSI DI MARKOV

da cui la tesi.
Per giustificare lo scambio fra integrale e attesa condizionata, verifichiamo che la v.a.
ZT
Z := E [As ϕ(Xs ) | Ft ] ds
t

RT
è una versione dell’attesa condizionata di As ϕ(Xs )ds a Ft . Anzitutto, dal fatto che E [As ϕ(Xs ) | Ft ] ∈ mFt
t
segue che anche Z ∈ mFt . Poi, per ogni G ∈ Ft , abbiamo
"Z T #
E [Z1G ] = E E [As ϕ(Xs ) | Ft ] ds 1G =
t

(per il Teorema di Fubini, data l’ipotesi di sommabilità su As ϕ(Xs ))


ZT
= E [E [As ϕ(Xs ) | Ft ] 1G ] ds =
t

(per le proprietà dell’attesa condizionata)


Z T
= E [As ϕ(Xs )1G ] ds =
t

(riapplicando il Teorema di Fubini)


"Z T #
=E As ϕ(Xs )ds 1G .
t

7.6 Processi di Markov e diffusioni


I processi di Markov continui sono talvolta chiamati diffusioni, anche se è opportuno precisare che in
letteratura non c’è un accordo unanime su tale definizione. Ad ogni diffusione N -dimensionale sono asso-
ciate le funzioni misurabili b = (bi )1≤i≤N e C = (cij )1≤i,j≤N definite in (7.5.11)-(7.5.12); tali funzioni sono i
coefficienti dell’operatore caratteristico (7.5.10):
N N
1X X
At = cij (t, x)∂xi xj + bi (t, x)∂xi , (t, x) ∈ R × RN .
2
i,j=1 i=1

Ricordiamo che C è una matrice N × N simmetrica e semi-definita positiva.


Storicamente esistono due approcci alla costruzione di diffusioni. Il primo e più classico è basato sulle
equazioni di Kolmogorov: precisamente, l’idea di A. N. Kolmogorov [60] e W. Feller [41] è di determinare
una legge di transizione p(t, x; T , dy) come soluzione dell’equazione di Kolmogorov forward

∂T p(t, x; T , dy) = AT∗ ∂T p(t, x; T , dy) (7.6.1)

associata al dato iniziale p(t, x; t, ·) = δx come in (7.5.25). L’equazione (7.6.1) è il punto di partenza per lo
studio dell’esistenza e regolarità della densità di p tramite tecniche analitiche (il risultato classico più im-
portante in questo ambito è il famoso Teorema di Hörmander [53]) e probabilistiche (il calcolo di Malliavin
per il quale si veda, per esempio, [87]). Pur sembrando l’approccio più naturale, l’equazione (7.6.1) pre-
senta alcune difficoltà tecniche dovute al fatto di essere interpretata in senso distribuzionale nelle variabili
7.7. SINTESI 265

forward e alla presenza dell’operatore aggiunto di At la cui definizione precisa richiede opportune ipotesi
di regolarità dei coefficienti (cfr. (7.5.23)-(7.5.24)). Per questo motivo, in seguito l’attenzione si è spostata
sull’equazione di Kolmogorov backward. Lo studio delle diffusioni mediante l’equazione backward è stato
uno degli approcci più efficaci e di successo: la Sezione 9.4 è dedicata ad un riassunto dei principali risultati
al riguardo.
La principale obiezione all’uso delle equazioni di Kolmogorov per lo studio delle diffusioni è che gli
strumenti utilizzati sono di carattere prevalentemente analitico e poggiano su risultati tecnicamente com-
plessi della teoria delle equazioni alle derivate parziali: fra questi, in primo luogo, la costruzione della
soluzione fondamentale di equazioni paraboliche che presenteremo in maniera sintetica nel Capitolo 26.
Il secondo approccio alla costruzione di diffusioni è quello iniziato da K. Itô: esso prende spunto dal-
l’idea di P. Lévy di considerare l’incremento infinitesimo Xt+dt − Xt di una diffusione come un incremen-
to Gaussiano con drift b(t, Xt ) e matrice di covarianza C (t, Xt ), coerentemente con le equazioni (7.5.11)-
(7.5.12). Itô sviluppa una teoria del calcolo differenziale stocastico in base alla quale l’idea precedente può
essere formalizzata in termini dell’equazione differenziale stocastica

dXt = b(t, Xt )dt + σ (t, Xt )dWt , (7.6.2)

dove C = σ σ ∗ e W indica un processo stocastico con incrementi indipendenti e Gaussiani (un moto Bro-
wniano, cfr. Capitolo 10). La prima difficoltà di questo approccio è la definizione di differenziale (o in-
tegrale) stocastico di processi le cui traiettorie, pur essendo continue, sono talmente irregolari da rendere
inefficaci gli strumenti classici dell’analisi matematica: il Capitolo 15 è interamente dedicato alla teoria
dell’integrazione stocastica secondo Itô. In secondo luogo, per costruire una diffusione X come soluzione
dell’equazione (7.6.2) occorrono risultati di esistenza e unicità per tale equazione: anche questo problema
è stato risolto da Itô sotto ipotesi standard di locale Lipschitzianità e crescita lineare dei coefficienti in per-
fetta analogia con le equazioni differenziali ordinarie. In seguito, un significativo passo in avanti è stato
fatto da Stroock e Varadhan [116, 117] che hanno gettato un ponte fra la teoria delle diffusioni e quella
delle martingale: Stroock e Varadhan mostrano che il problema dell’esistenza di una diffusione, come so-
luzione di (7.6.2), equivale al cosiddetto “problema della martingala”, ossia al problema dell’esistenza di
una misura di probabilità, sullo spazio canonico delle traiettorie, rispetto alla quale il processo compensato
del Teorema 7.5.13 sia una martingala. I risultati di Stroock e Varadhan sono presentati sinteticamente nel
Capitolo 23.

7.7 Sintesi
Riassumiamo i risultati più rilevanti del capitolo e i concetti essenziali da trattenere ad una prima
lettura, a scapito delle questioni più tecniche o di importanza secondaria.

• Sezione 7.1: introduciamo il concetto di legge di transizione di un processo stocastico X = (Xt )t≥0 : la
legge di transizione di X è la famiglia, al variare di t ≤ T , delle distribuzioni di XT condizionate a Xt .
Due esempi notevoli di leggi di transizione sono quella Gaussiana e quella di Poisson.

• Sezione 7.2: per un processo di Markov condizionare a Ft (la σ -algebra delle informazioni fino al tempo
t) equivale a condizionare a Xt : in questo senso si dice che la proprietà di Markov è una proprietà di
“perdita di memoria”.

• Sezione 7.3: i processi a incrementi indipendenti sono un esempio significativo di processi di Markov.

• Sezione 7.4: dalla legge di transizione di un processo di Markov è possibile ricavare le distribuzioni
finito-dimensionali, e quindi la legge del processo: inoltre la legge di transizione di un processo di
Markov verifica un’importante identità, l’equazione (7.4.3) di Chapman-Kolmogorov, che esprime una
proprietà di consistenza fra le distribuzioni che compongono la legge di transizione.
266 CAPITOLO 7. PROCESSI DI MARKOV

• Sezione 7.5: la derivata direzionale media lungo le traiettorie di X, se esiste,


" #
ϕ(XT ) − ϕ(Xt )
lim E | Xt = x =: At ϕ(x)
T −t→0+ T −t

definisce l’operatore caratteristico At del processo di Markov X, almeno per ϕ in un’opportuna classe
di funzioni.
• Sezione 7.5.1: per i processi di Markov continui, At è un operatore differenziale alle derivate parziali
del second’ordine di tipo ellittico-parabolico il cui prototipo è l’operatore di Laplace. I coefficienti
di At sono gli incrementi infinitesimi di media e matrice di covarianza di X (cfr. formule (7.5.11)-
(7.5.12)).
• Sezioni 7.5.2 e 7.5.3: la legge di transizione è soluzione delle equazioni di Kolmogorov backward e
forward. Il prototipo di tali equazioni sono le versioni backward e forward dell’equazione del calore.
• Sezione 7.6: chiamiamo diffusione un processo di Markov continuo. Un approccio classico alla costru-
zione di diffusioni consiste nel determinarne la legge di transizione come soluzione dell’equazione
di Kolmogorov (backward o forward). In alternativa, le diffusioni sono costruite come soluzioni di
equazioni differenziali stocastiche, la cui teoria sarà sviluppata a partire dal Capitolo 19.
Capitolo 8

Processo di Poisson

Il processo di Poisson, che indicheremo (Nt )t≥0 , è il prototipo dei cosiddetti “processi di puro salto”.
Intuitivamente Nt indica il numero di volte nell’intervallo temporale [0, t] in cui si verifica un determinato
avvenimento (lo chiameremo episodio): per esempio, se il singolo episodio consiste nell’arrivo di un’email di
spam in un casella di posta, allora Nt rappresenta il numero di email di spam che arrivano nel periodo [0, t];
analogamente, Nt può indicare il numero di bambini nati in un certo paese o il numero di terremoti che si
verificano in una certa area geografica nel periodo [0, t].

8.1 Definizione
Riferendoci alla notazione generale della Definizione 6.1.3, nel seguito assumiamo I = R≥0 . Per co-
struire il processo di Poisson consideriamo una successione (τn )n∈N di v.a. indipendenti e identicamente
distribuite1 con distribuzione esponenziale, τn ∼ Expλ , di parametro λ > 0, definite su uno spazio di proba-
bilità completo (Ω, F , P ): qui τn rappresenta il tempo che intercorre fra l’episodio (n−1)-esimo e il successivo.
Poi definiamo la successione
T0 := 0, Tn := τ1 + · · · + τn , n ∈ N,
in cui Tn rappresenta l’istante in cui si verifica l’episodio n-esimo.

Lemma 8.1.1. Si ha2


Tn ∼ Gamman,λ n ∈ N. (8.1.1)
Inoltre, quasi certamente3 la successione (Tn )n≥0 è monotona crescente e

lim Tn = +∞. (8.1.2)


n→∞

Dimostrazione. La (8.1.1) segue dalla (3.6.7). La monotonia segue dal fatto che quasi certamente τn ≥ 0 per
ogni n ∈ N. Infine, la (8.1.2) segue dal Lemma 2.3.28 di Borel-Cantelli: infatti, per ogni ε > 0, vale
  \[
lim Tn = +∞ ⊇ ((τn > ε) i.o.) = (τk > ε)
n→∞
n≥1 k≥n

1 Tale successione esiste per il Corollario 6.3.7.


2 Quindi T è assolutamente continua con densità
n

(λt)n−1
γn,λ (t) := λe−λt 1 (t), n ∈ N.
(n − 1)! R≥0

3 L’insieme degli ω ∈ Ω tali che T (ω) ≤ T


n n+1 (ω) per ogni n ∈ N e n→∞
lim Tn (ω) = +∞, è un evento di probabilità uno.

267
268 CAPITOLO 8. PROCESSO DI POISSON

e gli eventi (τk > ε) sono indipendenti e tali che


X
P (τn > ε) = +∞.
n≥1

Definizione 8.1.2 (Processo di Poisson, I). Il processo di Poisson (Nt )t≥0 di parametro λ > 0 è definito da

X
Nt = n1[Tn ,Tn+1 [ (t), t ≥ 0. (8.1.3)
n=1

8 ●●

6 ●

4 ●

2 ●


2 4 6 8 10

Figura 8.1: Grafico di una traiettoria del processo di Poisson.

Daremo in seguito una caratterizzazione più generale del processo di Poisson (cfr. Definizione 8.2.3).
Per definizione Nt assume valori interi non-negativi e precisamente Nt = n se e solo se t appartiene all’inter-
vallo di estremi aleatori [Tn , Tn+1 [; pertanto si ha l’uguaglianza di eventi

(Nt = n) = (Tn ≤ t < Tn+1 ), n ∈ N ∪ {0}. (8.1.4)

In corrispondenza all’istante aleatorio Tn , in cui si verifica l’n-esimo episodio, il processo compie un salto
di ampiezza 1: la Figura 8.1 mostra il grafico di una traiettoria del processo di Poisson nell’intervallo
temporale [0, 10]. Ricordiamo che una traiettoria di N è una funzione del tipo t 7→ Nt (ω), definita da R≥0
a valori in N ∪ {0}, che si ottiene fissando un ω ∈ Ω; ad ogni ω ∈ Ω corrisponde una diversa traiettoria. In
definitiva, il valore aleatorio Nt è pari al numero di salti (ovvero al numero di episodi) fra 0 e t:

Nt = ♯{n ∈ N | Tn ≤ t}.

Proposizione 8.1.3. Il processo di Poisson (Nt )t≥0 gode delle seguenti proprietà:

i) quasi certamente le traiettorie sono funzioni continue a destra e monotone crescenti. Inoltre, per ogni
t > 0, vale4
 
P lim Ns = Nt = 1; (8.1.5)
s→t
4 In altri termini, ogni t fissato è quasi certamente (ossia per quasi tutte le traiettorie) un punto di continuità per il processo di
Poisson. Questo apparente paradosso si spiega col fatto che quasi ogni traiettoria ha un’infinità al più numerabile di discontinuità,
essendo monotona crescente, e tali discontinuità sono disposte sull’intero intervallo [0, +∞[ che ha la cardinalità del continuo. Quindi
tutte le traiettorie sono discontinue ma ogni singolo punto t è di discontinuità per una famiglia trascurabile di traiettorie.
8.1. DEFINIZIONE 269

ii) Nt ∼ Poissonλt ossia


(λt)n
P (Nt = n) = e−λt , t ≥ 0, n ∈ N ∪ {0}. (8.1.6)
n!
Di conseguenza N0 = 0 q.c. e si ha
E [Nt ] = var(Nt ) = λt.
In particolare, il parametro λ, chiamato intensità del processo N , è uguale al numero atteso di salti
nell’intervallo unitario [0, 1];

iii) la funzione caratteristica di Nt è data da


iη −1)
ϕNt (η) = eλt(e , t ≥ 0, η ∈ R; (8.1.7)

Dimostrazione. i) Continuità a destra e monotonia seguono dalla definizione. Per ogni t > 0, poniamo
Nt− = lim Ns e ∆Nt = Nt − Nt− . Notiamo che ∆Nt ∈ {0, 1} q.c. e, fissato t > 0, l’insieme delle traiettorie che
s↗t
sono discontinue in t è dato da

[
(∆Nt = 1) = (Tn = t)
n=1

che è un evento trascurabile poiché le v.a. Tn sono assolutamente continue. Questo prova la (8.1.5).
ii) Per la (8.1.4) si ha

P (Nt = n) = P (Tn ≤ t < Tn+1 ) =

(poiché (t ≥ Tn+1 ) ⊆ (t ≥ Tn ))

= P (Tn ≤ t) − P (Tn+1 ≤ t) =

(poiché Tn ∼ Gamman,λ )
t t
(λs)n−1 (λs)n
Z Z
= λe−λs ds − λe−λs ds
0 (n − 1)! 0 n!

da cui, integrando per parti il secondo integrale, segue la (8.1.6).


iii) È un semplice calcolo: per la ii) si ha
h i X (λt)n iηn X (λteiη )n
E eiηNt = e−λt e = e−λt
n! n!
n≥0 n≥0

da cui la tesi.

Osservazione 8.1.4 (Esponente caratteristico). La funzione caratteristica del processo di Poisson ha un’in-
teressante proprietà di omogeneità rispetto al tempo: infatti, per la (8.1.7) la CHF di Nt è della forma
ϕNt (η) = etψ(η) dove
ψ(η) = λ(eiη − 1) (8.1.8)
è una funzione che dipende da η ma non da t. Di conseguenza la funzione ψ determina la CHF di Nt per
ogni t e per questo motivo è chiamata esponente caratteristico del processo di Poisson.

Esempio 8.1.5 (Processo di Poisson composto). [!] Il processo di Poisson N è il punto di partenza per la
costruzione di processi stocastici ancor più interessanti e utili nelle applicazioni. La prima generalizzazione
consiste nel rendere aleatoria l’ampiezza dei salti che in N è fissata uguale a 1.
270 CAPITOLO 8. PROCESSO DI POISSON


0.4

● 1
0.3

● ●

0.2 ●
● 0.2 0.4 0.6 0.8 1.0

0.1 ●

-1


0.2 0.4 0.6 0.8 1.0
●●
-0.1 ● -2
● ●

Figura 8.2: A sinistra: grafico di una traiettoria del processo di Poisson composto con λ = 10 e Zn ∼ N0,10−2 .
A destra: grafico di una traiettoria del processo di Poisson composto con λ = 1000 e Zn ∼ N0,10−2 .

Consideriamo uno spazio di probabilità su cui è definito un processo di Poisson N e una successio-
ne (Zn )n∈N di v.a. reali identicamente distribuite. Supponiamo che la famiglia costituita dalle (Zn )n∈N e
(τn )n∈N (le v.a. esponenziali che definiscono N ) sia una famiglia di v.a. indipendenti: questa costruzione
è possibile grazie al Corollario 6.3.7. Poniamo per convenzione Z0 = 0 e definiamo il processo di Poisson
composto nel modo seguente:
Nt
X
Xt = Zn , t ≥ 0.
n=0

Notiamo che il processo di Poisson è un caso particolare di X in cui Zn ≡ 1 per n ∈ N. In Figura 8.2
sono rappresentate due traiettorie del processo di Poisson composto con salti normali e diverse scelte del
parametro di intensità.
Sfruttando l’ipotesi di indipendenza è facile calcolare la CHF di Xt : in realtà è un calcolo già svolto
nell’Esercizio 3.5.4 dove avevamo provato che vale

ϕXt (η) = etψ(η) , ψ(η) = λ (ϕZ (η) − 1)

dove ϕZ (η) è la CHF di Z1 . Anche in questo caso la CHF di Xt è omogenea nel tempo e ψ è detto esponente
caratteristico del processo di Poisson composto. Come caso particolare, si ritrova la (8.1.8) se Zn ∼ δ1 ossia se i
salti sono unitari come nel processo di Poisson.

8.2 Proprietà di Markov e di Feller


Il seguente teorema fornisce due proprietà
 cruciali degli incrementi Nt − Ns del processo di Poisson.
Ricordiamo (cfr. (6.4.1)) la notazione GtN
per la filtrazione generata da N .
t≥0

Teorema 8.2.1. [!] Per ogni 0 ≤ s < t si ha:

i) Nt − Ns ∼ Poissonλ(t−s) ;

ii) Nt − Ns è indipendente da GsN .

La i) implica che le v.a. Nt − Ns e Nt−s sono uguali in legge e per questo si dice che N ha gli incrementi
stazionari. La ii) afferma che N è un processo a incrementi indipendenti secondo la Definizione 7.3.1.

La dimostrazione del Teorema 8.2.1 è rinviata alla Sezione 8.4.


8.2. PROPRIETÀ DI MARKOV E DI FELLER 271

Definizione 8.2.2 (Funzione càdlàg). Si dice che una funzione f da un intervallo I a valori reali è càdlàg
(dal francese “continue à droite, limite à gauche”) se in ogni punto è continua da destra e ha limite finito
da sinistra5 .

La definizione di processo di Poisson può essere generalizzata nel modo seguente.

Definizione 8.2.3 (Processo di Poisson, II). Sia (Ω, F , P ) spazio di probabilità su cui è definita una filtra-
zione (Ft )t≥0 . Un processo di Poisson con intensità λ > 0 su tale spazio è un processo stocastico (Nt )t≥0 tale
che:

i) N0 = 0 q.c.;

ii) le traiettorie di N sono càdlàg q.c.;

iii) N è adattato a (Ft )t≥0 , ossia Nt ∈ mFt per ogni t ≥ 0;

iv) se s < t allora Nt − Ns è indipendente da Fs ;

v) se s < t allora Nt − Ns ha distribuzione Poissonλ(t−s) .

Per il Teorema 8.2.1, il processo N definito in (8.1.3) è un processo di Poisson secondo la Definizione
8.2.3 con la filtrazione G N generata da N . Viceversa, si può provare che se N è un processo di Poisson
secondo la Definizione 8.2.3 allora le v.a. Tn , definite ricorsivamente da

T1 = inf{t ≥ 0 | ∆Nt = 1}, Tn+1 := inf{t > Tn | ∆Nt = 1},

sono indipendenti e hanno distribuzione Expλ : per maggiori dettagli si veda, per esempio, il Cap.5 in [10].
Si noti che nella Definizione 8.2.3 la filtrazione non è necessariamente quella generata dal processo.

Teorema 8.2.4 (Proprietà di Markov). [!] Il processo di Poisson N è un processo di Markov e di Feller con
legge di transizione
p(t, x; T , ·) = Poissonx,λ(T −t)
e operatore caratteristico definito da

At ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , x ∈ R.

Per ogni ϕ ∈ bB si ha
E [ϕ(NT ) | Ft ] = u(t, Nt )
dove u è soluzione del problema di Cauchy backward

∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ [0, T [×R,


u(T , x) = ϕ(x),

 x ∈ R.

Dimostrazione. La tesi è una immediata conseguenza della Proposizione 7.3.2 e di quanto visto nella Se-
zione 7.5.2 relativa all’equazione di Kolmogorov backward: si veda in particolare l’Esempio 7.5.11. La
proprietà di Feller è stata provata nell’Esempio 7.4.5.

Diamo un’utile caratterizzazione del processo di Poisson.

Proposizione 8.2.5. [!] Sia N = (Nt )t≥0 un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ), che verifichi
le proprietà i), ii) e iii) della Definizione 8.2.3. Allora N è un processo di Poisson di parametro λ > 0 se e
solo se h i iη
E eiη(Nt −Ns ) | Fs = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R. (8.2.1)
5 Se I = [a, b], agli estremi assumiamo per definizione che lim f (x) = f (a) ed esista finito lim f (x).
x↘a x↗b
272 CAPITOLO 8. PROCESSO DI POISSON

Dimostrazione. Se N è un processo di Poisson allora per l’indipendenza e stazionarietà degli incrementi e


per la (8.1.7) si ha
h i h i h i iη
E eiη(Nt −Ns ) | Fs = E eiη(Nt −Ns ) = E eiηNt−s = eλ(e −1)(t−s) .

Viceversa, se N verifica la (8.2.1) e le proprietà i), ii) e iii) della Definizione 8.2.3, rimangono da provare
le proprietà iv) e v). Applicando il valore atteso alla (8.2.1) si ha
h i iη
E eiη(Nt −Ns ) = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R.

Allora la iv) è ovvia conseguenza del fatto che la funzione caratteristica determina la distribuzione; la
proprietà v) di indipendenza degli incrementi segue dal punto 14) del Teorema 5.2.10.

Osservazione 8.2.6 (Processo di Poisson a intensità stocastica). La caratterizzazione data nella Proposi-
zione 8.2.5 permette di definire un’ampia classe di processi di cui il Poisson è un caso molto particolare.
In uno spazio (Ω, F , P , (Ft )t≥0 ) consideriamo un processo N = (Nt )t≥0 che verifichi le proprietà i), ii) e iii)
della Definizione 8.2.3 e un processo λ = (λt )t≥0 a valori non-negativi tale che per ogni t ≥ 0 valga
Z t
λt ∈ mF0 e λs ds < ∞ q.c.
0

Se
Rt
h i iη
E eiη(Nt −Ns ) | Fs = e(e −1) s λr dr

per ogni 0 ≤ s ≤ t e η ∈ R, allora N è chiamato processo di Poisson a intensità stocastica λ. Per maggiori
informazioni sui processi a intensità stocastica e le relative importanti applicazioni, si veda per esempio
[24].

8.3 Proprietà di martingala


Consideriamo un processo di Poisson N = (Nt )t≥0 sullo spazio (Ω, F , P , (Ft )t≥0 ). Notiamo che N non
è una martingala poiché E [Nt ] = λt è una funzione strettamente crescente e quindi il processo non è co-
stante in media. Tuttavia essendo un processo a incrementi indipendenti, dalla Proposizione 7.3.4 segue la
seguente

Proposizione 8.3.1 (Processo di Poisson compensato). Il processo di Poisson compensato, definito da

et := Nt − λt,
N t ≥ 0,

è una martingala.

Osserviamo esplicitamente che N e assume valori reali, al contrario di N che assume solo valori interi:
nella Figura 8.3 è rappresentata una traiettoria di un processo di Poisson compensato.

Osservazione 8.3.2. Il fatto che N e sia una martingala segue anche dal Teorema 7.5.13 applicato con ϕ(x) =
x. Più in generale, il Teorema 7.5.13 mostra come è possibile “compensare” un processo che sia funzione di
Nt in modo da ottenere una martingala.
8.4. APPENDICE 273

0.2 0.4 0.6 0.8 1.0

-1

-2

-3

Figura 8.3: Grafico di una traiettoria del processo di Poisson compensato.

8.4 Appendice
Dimostriamo il Teorema 8.2.1. Se N è un processo di Poisson allora per ogni 0 ≤ s < t si ha:
i) Nt − Ns ∼ Poissonλ(t−s) ;

ii) Nt − Ns è indipendente da GsN .


Dividiamo la dimostrazione in due passi.
[Primo passo] Dimostriamo che, fissati s > 0 e k ∈ N ∪ {0}, il processo definito da
(s)
Nh = Ns+h − Ns , h ∈ R≥0 , (8.4.1)

è un processo di Poisson rispetto alla probabilità condizionata all’evento (Ns = k), ossia N (s) è un processo
di Poisson sullo spazio (Ω, F , P (· | Ns = k)).
A tal fine, definiamo i salti “traslati”
(s) (s)
T0 = 0, Tn = Tk+n − s, n ∈ N,

che, sull’evento A := (Ns = k) ≡ (Tk ≤ s < Tk+1 ), formano una successione crescente q.c. (si veda la Figura
8.4). Osserviamo che

(s) (s)
0 T1 T2

Tk−1 Tk s Tk+1 Tk+2

(s)
Figura 8.4: Tempi di salto Tn e tempi di salto “traslati” Tn

 
(s) (s) (s)
(Nh = n) ∩ A = (Ns+h = n + k) ∩ A = (Tn+k ≤ s + h < Tn+k+1 ) ∩ A = Tn ≤ h < Tn+1 ∩ A
274 CAPITOLO 8. PROCESSO DI POISSON

ossia, in accordo con la definizione di processo di Poisson nella forma (8.1.4), sull’evento A si ha
(s) (s) (s)
(Nh = n) = (Tn ≤ h < Tn+1 ), n ∈ N ∪ {0}.

Dunque è sufficiente verificare che i tempi


(s) (s) (s) (s)
τ1 := Tk+1 − s, τn := Tn − Tn−1 ≡ τk+n , n ≥ 2,

formino una successione di v.a. che, relativamente a P (· | Ns = k), hanno distribuzione Expλ e sono
indipendenti: pertanto, si tratta di provare che
 
\ J  YJ
(s)
P  (τj ∈ Hj ) | Ns = k  = Expλ (Hj ) (8.4.2)
 
 
j=1 j=1

per ogni J ∈ N e H1 , . . . , HJ ∈ B(R≥0 ). La (8.4.2) equivale a


 
 \J  J
Y
P (Ns = k) ∩ (Tk+1 − s ∈ H1 ) ∩ (τk+j ∈ Hj ) = P (Ns = k) Expλ (Hj ). (8.4.3)
 
 
j=2 j=1

Sfruttando il fatto che (Ns = k) ∩ (Tk+1 − s ∈ H1 ) = (Tk ≤ s) ∩ (Tk+1 − s ∈ H1 ), Tk+1 = Tk + τk+1 e le v.a.
Tk , τk+1 , . . . , τk+J sono indipendenti in P , la (8.4.3) si riduce a

P ((Tk ≤ s) ∩ (Tk + τk+1 − s ∈ H1 )) = P (Ns = k)Expλ (H1 ). (8.4.4)

Ora è sufficiente considerare il caso in cui H1 è un intervallo, H1 = [0, c]: poiché Tk e τk+1 sono indipendenti
in P , la densità congiunta è data dal prodotto delle marginali e, ricordando il Lemma 8.1.1, si ha
Z s Z c+s−x !
−λy
P ((Tk ≤ s) ∩ (τk+1 ∈ [s − Tk , c + s − Tk ])) = λe dy Gammak,λ (dx)
0 s−x
Zs
= e−λ(c+s−x) (eλc − 1)Gammak,λ (dx)
0
(sλ)k −λ(c+s) λc
= e (e − 1) = Poissonλs ({k})Expλ ([0, c])
k!
che prova la (8.4.4) con H1 = [0, c].
[Secondo passo] Per il primo passo, Nt − Ns è un processo di Poisson condizionatamente a (Ns = k) e quindi
vale
P (Nt − Ns = n | Ns = k) = Poissonλ(t−s) ({n}) (8.4.5)
per ogni s < t e n, k ∈ N ∪ {0}. Per la formula della probabilità totale si ha
X
P (Nt − Ns = n) = P (Nt − Ns = n | Ns = k)P (Ns = k) =
k≥0

(per la (8.4.5))
X
= Poissonλ(t−s) ({n})P (Ns = k) = Poissonλ(t−s) ({n}), (8.4.6)
k≥0

e questo prova la proprietà i). Inoltre, come conseguenza della (8.4.6), la formula (8.4.5) equivale a

P ((Nt − Ns = n) ∩ (Ns = k)) = P (Ns = k)P (Nt − Ns = n)


8.4. APPENDICE 275

che prova che gli incrementi adiacenti Nt − Ns e Ns = Ns − N0 sono indipendenti in P .


Più in generale, verifichiamo che gli incrementi adiacenti Nt − Nr e Nr − Ns , con 0 ≤ s < r < t, sono
indipendenti in P . Ricordando la notazione (8.4.1), si ha
(s) (s) (s)
P ((Nt − Nr = n) ∩ (Nr − Ns = k)) = P ((Nt−s − Nr−s = n) ∩ (Nr−s = k)) =

(per la formula della probabilità totale)


(s) (s) (s)
X
= P ((Nt−s − Nr−s = n) ∩ (Nr−s = k) | Ns = j)P (Ns = j) =
j≥0

(qui usiamo il fatto che N (s) è un processo di Poisson condizionatamente a (Ns = j) e quindi, per quanto
(s) (s) (s) (s)
appena provato, gli incrementi Nt−s − Nr−s e Nr−s sono indipendenti in P (· | Ns = j). Inoltre, Nr−s = Nr − Ns e
(s) (s)
Ns sono indipendenti in P e perciò P (Nr−s = k | Ns = j) = P (Nr−s = k))
(s) (s) (s)
X
= P (Nt−s − Nr−s = n | Ns = j)P (Nr−s = k)P (Ns = j)
j≥0
(s) (s) (s)
= P (Nt−s − Nr−s = n)P (Nr−s = k)
= P (Nt − Nr = n)P (Nr − Ns = k).

Dunque abbiamo provato che, per 0 ≤ s < r < t, l’incremento Nt − Nr è indipendente da X := Nr e da


Y := Nr − Ns : di conseguenza, Nt − Nr è indipendente anche da Ns = X − Y e questo prova la proprietà ii). 2
276 CAPITOLO 8. PROCESSO DI POISSON
Capitolo 9

Processi continui

Probability is not a mere


computation of odds on the dice or
more complicated variants; it is the
acceptance of the lack of certainty in
our knowledge and the development
of methods for dealing with our
ignorance.

Nassim Nicholas Taleb

La nozione di continuità per processi stocastici, benché intuitiva, nasconde qualche piccola insidia e va
pertanto analizzata con attenzione. In questo capitolo assumiamo che I sia un intervallo reale della forma
I = [0, T ] oppure I = [0, +∞[. Inoltre indichiamo con C(I) l’insieme delle funzioni continue da I a valori
reali.

9.1 Continuità e continuità q.c.


Definizione 9.1.1 (Processo continuo q.c.). Un processo stocastico X = (Xt )t∈I sullo spazio (Ω, F , P ) è
continuo quasi certamente (q.c.) se la famiglia delle traiettorie continue

(X ∈ C(I)) := {ω ∈ Ω | X(ω) ∈ C(I)}

è un insieme quasi certo, ossia (X ∈ C(I)) ⊇ A con A ∈ F tale che P (A) = 1.

Osservazione 9.1.2 (Continuità e completezza). Se lo spazio (Ω, F , P ) è completo allora X è continuo


q.c. se e solo se P (X ∈ C(I)) = 1. Se (Ω, F , P ) non è completo, allora non è detto che (X ∈ C(I)) sia un
evento: infatti per definizione di processo stocastico si ha X −1 (H) ∈ F per ogni H ∈ B I ma C(I) < F I (cfr.
Osservazione 6.1.10) e quindi non è necessariamente vero che (X ∈ C(I)) ∈ F . Analogamente, in uno spazio
non completo, anche se X è continuo q.c., non è detto che quantità come

inf I + se I + := {t ∈ I | Xt > 0} , ∅,
Z 

M := sup Xt , J := Xt dt, T :=  (9.1.1)
t∈I I 0
 altrimenti,

siano variabili aleatorie.

277
278 CAPITOLO 9. PROCESSI CONTINUI

Osservazione 9.1.3 (Continuità e continuità q.c.). Sia X un processo continuo q.c. definito sullo spazio
(Ω, F , P ) e sia A come nella Definizione 9.1.1. Allora X è indistinguibile da X̄ := X1A che ha tutte le
traiettorie continue1 . Più esplicitamente, X̄ è definito da

X(ω) se ω ∈ A,


X̄(ω) = 
0
 altrimenti.

Diciamo che X̄ è una versione continua di X. Dunque, a meno di passare ad una versione continua, nel
seguito possiamo eliminare il “q.c.” e considerare processi continui invece di continui q.c.

A questo punto ci si può chiedere perché mai si sia introdotta la definizione di processo continuo q.c.
e non direttamente quella di processo continuo. Il fatto è che di solito si costruisce un processo stocastico,
per esempio il moto Browniano, a partire da una legge assegnata, mediante il Teorema di estensione di
Kolmogorov: in questo modo si riesce a dimostrare2 solo la continuità quasi certa delle traiettorie e quindi
solo in un secondo momento si passa alla versione continua.

Osservazione 9.1.4. Se X = (Xt )t∈I , con I = [0, 1], è un processo continuo allora M, J e T in (9.1.1) sono ben
definite e sono variabili aleatorie. Infatti basta osservare che

M= sup Xt .
t∈[0,1]∩Q

Inoltre J(ω) è ben definito per ogni ω ∈ Ω essendo tutte le traiettorie di X continue e vale
n
1X
J(ω) = lim X k (ω)
n→∞ n n
k=1

essendo l’integrale di una funzione continua uguale al limite delle somme di Riemann. Infine, (I + = ∅) =
(M ≤ 0) ∈ F e dunque anche [
(T < t) = (I + = ∅) ∪ (Xs > 0)
s∈Q∩[0,t[

appartiene a F per ogni 0 < t ≤ 1: questo basta a provare che T ∈ mF .

9.2 Versione canonica di un processo continuo


In questa sezione ci concentriamo sul caso I = [0, 1]. Ricordiamo che C([0, 1]) (scriviamo anche, più
semplicemente, C[0, 1]) è uno spazio metrico separabile e completo, ossia uno spazio polacco, con la distanza
uniforme
ϱmax (v, w) = max |v(t) − w(t)|, v, w ∈ C[0, 1].
t∈[0,1]

Consideriamo I = [0, 1] solo per semplicità: i risultati di questa sezione si estendono evidentemente al caso
in cui I = [0, T ] o anche I = R≥0 considerando la distanza
X 1 ( )
ϱmax (v, w) = min 1, max |v(t) − w(t)| , v, w ∈ C(R≥0 ).
2n t∈[0,n]
n≥1

Indichiamo Bϱmax la σ -algebra di Borel introdotta nella Sezione 2.4.2.


1 Non possiamo usare (X ∈ C(I)) al posto di A perché se (Ω, F , P ) non è completo allora X1
(X∈C(I)) non sarebbe necessariamente
un processo stocastico.
2 In realtà il discorso è più sottile e verrà precisato nella Sezione 9.3.
9.2. VERSIONE CANONICA DI UN PROCESSO CONTINUO 279

Secondo la definizione generale, un processo stocastico X = (Xt )t∈I è una funzione misurabile da (Ω, F )
a (RI , F I ). Mostriamo ora che se X è continuo allora è possibile sostituire il codominio (RI , F I ) con
(C(I), Bϱmax ), mantenendo la proprietà di misurabilità rispetto alla σ -algebra Bϱmax . Questo fatto non è
banale e merita di essere provato rigorosamente. Infatti, in base all’Osservazione 6.1.10, lo stesso C[0, 1]
non appartiene B [0,1] e quindi non è necessariamente vero che X −1 (C[0, 1]) sia un evento. Allo stesso modo,
i singoletti {w} non sono elementi a B [0,1] e quindi se

X : (Ω, F ) −→ (R[0,1] , B [0,1] )


è un processo stocastico, allora non necessariamente (X = w) è un evento. Al contrario, nello spazio
(C[0, 1], Bϱmax ) i singoletti sono misurabili (sono dischi di raggio zero nella metrica uniforme), ossia {w} ∈
Bϱmax per ogni w ∈ C[0, 1].
Proposizione 9.2.1. Sia X = (Xt )t∈[0,1] un processo stocastico continuo sullo spazio (Ω, F , P ). Allora la
mappa
X : (Ω, F ) −→ (C[0, 1], Bϱmax )
è misurabile.
Dimostrazione. Anzitutto mostriamo che Bϱmax è la σ -algebra generata dalla famiglia Ce dei cilindri della
forma3
Cet (H) := {w ∈ C[0, 1] | w(t) ∈ H}, t ∈ [0, 1], H ∈ B. (9.2.1)
Infatti, i cilindri del tipo (9.2.1) con H aperto di R generano σ (Ce) e sono aperti rispetto a ϱmax : di conse-
guenza Bϱmax ⊇ σ (Ce).
Viceversa, poiché (C[0, 1], ϱmax ) è separabile, ogni aperto è unione numerabile di dischi aperti. Quindi
Bϱmax è generata dalla famiglia dei dischi aperti che sono insiemi della forma
D(w, r) = {v ∈ C[0, 1] | ϱmax (v, w) < r},
dove w ∈ C[0, 1] è il centro e r > 0 è il raggio del disco. D’altra parte, ogni disco si ottiene mediante
operazioni numerabili di unione e intersezione di cilindri di Ce nel modo seguente
[ \
D(w, r) = {v ∈ C[0, 1] | |v(t) − w(t)| < r − n1 }.
n∈N t∈[0,1]∩Q

Quindi ogni disco appartiene a σ (Ce) e questo prova l’inclusione opposta.


Proviamo ora la tesi: per quanto appena provato, si ha
   
X −1 Bϱmax = X −1 σ (Ce) =

(poiché X è continuo)
= X −1 (σ (C )) ⊆ F
dove l’ultima inclusione è dovuta al fatto che X è un processo stocastico.
La Proposizione 9.2.1 permette di dare la seguente
Definizione 9.2.2 (Legge di un processo continuo q.c.). Sia X = (Xt )t∈I un processo continuo4 sullo spazio
(Ω, F , P ). La legge di X è la distribuzione µX definita su (C(I), Bϱmax ) da
µX (H) = P (X ∈ H), H ∈ Bϱmax .
d
Due processi continui X e Y sono uguali in legge se µX = µY : in tal caso scriviamo X = Y .
3 Usiamo la “tilde” per distinguere i cilindri di funzioni continue dai cilindri di R[0,1] definiti in (6.1.1).
4 Per l’Osservazione 9.1.3, la definizione si estende al caso di X continuo q.c. in modo ovvio.
280 CAPITOLO 9. PROCESSI CONTINUI

In analogia con la Definizione 6.3.4 diamo la seguente


Definizione 9.2.3 (Versione canonica di un processo continuo q.c.). [!] Sia X = (Xt )t∈I un processo
continuo q.c. definito sullo spazio (Ω, F , P ) e con legge µX . La versione canonica di X è il processo stocastico
definito come funzione identità X(w) = w, w ∈ C(I), sullo spazio di probabilità (C(I), BµX , µX ) dove BµX è il
completamento5 di Bϱmax relativo a µX .
Osservazione 9.2.4. Le principali proprietà della versione canonica X sono:
i) X è un processo continuo uguale in legge a X;
ii) X è definito sullo spazio metrico polacco (C(I), ϱmax ): questo fatto è rilevante ai fini dell’esistenza della
versione regolare della probabilità condizionata (cfr. Teorema 5.3.2) ed è cruciale nello studio delle
equazioni differenziali stocastiche. Nel Capitolo 19 faremo ampio uso della versione canonica di
processi continui;
iii) X è definito su uno spazio di probabilità completo in cui gli esiti sono le traiettorie: t 7→ Xt (w) ≡ w(t),
t ∈ I. Questo fatto permette, per esempio, di dare una caratterizzazione intuitiva della proprietà di
Markov forte (cfr. Sezione 12.3).
Osservazione 9.2.5 (Spazio di Skorokhod). Lo spazio di Skorokhod è un ampliamento dello spazio delle
traiettorie continue che interviene nello studio dei processi stocastici discontinui (come, per esempio, il
processo di Poisson). Lo spazio di Skorokhod D(I) è formato dalle funzioni càdlàg (cfr. Definizione 8.2.2)
da I in R o, più in generale, a valori in uno spazio metrico. Tutti i risultati di questa sezione si estendono
al caso di processi con traiettorie càdlàg q.c. In particolare, è possibile definire su D(I) una metrica, la
distanza di Skorokhod, con la quale D(I) è uno spazio polacco. Ovviamente C(I) è un sotto-spazio di D(I)
e si dimostra che le distanze uniforme e di Skorokhod sono equivalenti su C(I). Il testo [19] fornisce una
trattazione completa sullo spazio di Skorokhod e sulle proprietà di compattezza (tightness) di famiglie di
misure di probabilità su D(I), in analogia con quanto visto nella Sezione 4.3.2.

9.3 Teorema di continuità di Kolmogorov


Il Teorema di estensione di Kolmogorov stabilisce l’esistenza di un processo che abbia una legge asse-
gnata ma non fornisce informazioni sulla regolarità delle traiettorie. In effetti, l’Esempio 6.2.6 mostra che
non si può dir nulla sulla continuità delle traiettorie di un processo a partire dalla sua distribuzione: mo-
dificando6 un processo continuo si può renderlo discontinuo senza cambiarne la legge. Per questo motivo
la costruzione di un processo mediante il Teorema di estensione di Kolmogorov avviene sullo spazio RI di
tutte le traiettorie.
D’altra parte, il seguente teorema mostra che se la legge di un processo X verifica opportune condizioni
allora esiste una modificazione continua di X: il risultato fondamentale al riguardo è il classico Teorema di
continuità di Kolmogorov di cui forniamo alcune versioni fra cui la più semplice è data dal seguente
Teorema 9.3.1 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈[0,1] un processo stocastico
reale definito su uno spazio di probabilità (Ω, F , P ). Se esistono tre costanti positive c, ε, p, con p > ε, tali
che
E [|Xt − Xs |p ] ≤ c|t − s|1+ε , t, s ∈ [0, 1], (9.3.1)
allora X ammette una modificazione X e con traiettorie α-Hölderiane per ogni α ∈ [0, ε [: precisamente, per
p
ε
ogni α ∈ [0, p [ e ω ∈ Ω esiste una costante positiva cα,ω , che dipende solo da α e ω, tale che

|X es (ω)| ≤ cα,ω |t − s|α ,


et (ω) − X t, s ∈ [0, 1].
5 Si ricordi l’Osservazione 2.4.3.
6 Qui “modificare un processo” significa prenderne una modificazione.
9.3. TEOREMA DI CONTINUITÀ DI KOLMOGOROV 281

Nella Sezione 9.5 diamo una dimostrazione del Teorema 9.3.1, ispirata alle idee originali di Kolmogorov,
alla fine della sezione. Consideriamo prima alcuni esempi.
Esempio 9.3.2. [!] Riprendiamo il Corollario 6.3.6 e consideriamo un processo Gaussiano (Xt )t∈[0,1] con
funzione di media m ≡ 0 e covarianza c(s, t) = s ∧ t. Per definizione, (Xt , Xs ) ∼ N0,Ct,s dove
!
t s∧t
Ct,s =
s∧t s

e quindi Xt −Xs ∼ N0,t+s−2s∧t . È facile provare una stima del tipo (9.3.1): anzitutto non è restrittivo assumere

s < t cosicché Xt − Xs = t − sZ con Z ∼ N0,1 ; allora, per ogni p > 0 si ha
p
E [|Xt − Xs |p ] = |t − s| 2 E [|Z|p ]

dove E [|Z|p ] < ∞ è una costante. Per il Teorema di continuità di Kolmogorov, X ammette una modificazione
e che è α-Hölderiana per ogni α < p/2−1 = 1 − 1 . Data l’arbitrarietà di p, si ha che X
X e è α-Hölderiana per
p 2 p
ogni α < 12 .
Esempio 9.3.3. [!] Proviamo ad applicare il criterio (9.3.1) di Kolmogorov ad un processo di Poisson N che
sappiamo avere le traiettorie discontinue: ricordando che Nt − Ns ∼ Poissonλ(t−s) , per p > 0 si ha

X (λ(t − s))n
E [|Nt − Ns |p ] = e−λ(t−s) np =
n!
n=0

(poiché il primo termine della serie è nullo)



X (λ(t − s))n
= e−λ(t−s) np
n!
n=1

X (λ(t − s))n
≥ e−λ(t−s)
n!
n=1
 
= e−λ(t−s) eλ(t−s) − 1 ≈ λ(t − s) + o(t − s)

per t − s → 0. Ne segue che la stima (9.3.1) non è vera per nessun valore di ε > 0.
Il Teorema 9.3.1 può essere esteso in diverse direzioni: quelle più interessanti riguardano la regolarità
di ordine superiore, l’estensione al caso di I multidimensionale e al caso di processi a valori in spazi di
Banach. In tempi relativamente recenti, è stato osservato che il Teorema di continuità di Kolmogorov è
essenzialmente un risultato di natura analitica che può essere dimostrato come corollario del Teorema di
immersione di Sobolev, in una versione molto generale per i cosiddetti spazi di Besov. Riportiamo qui
l’enunciato dato in [109].
Teorema 9.3.4 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈Rd un processo stocastico reale.
Se esistono k ∈ N0 , 0 < ε < p e δ > 0 tali che

E [|Xt − Xs |p ] ≤ c|t − s|d+ε+kp

per ogni t, s ∈ Rd con |t − s| < δ, allora X ammette una modificazione X


e le cui traiettorie sono differenziabili
fino all’ordine k, con derivate localmente α-Hölderiane per ogni α ∈ [0, pε [.

Il Teorema 9.3.4 si estende anche al caso in cui X sia un processo a valori in uno spazio di Banach: il
seguente esempio è particolarmente rilevante nello studio delle equazioni differenziali stocastiche.
282 CAPITOLO 9. PROCESSI CONTINUI

Esempio 9.3.5. Sia (Xtx )t∈[0,1] una famiglia di processi stocastici continui, indicizzata da x ∈ Rd : per quanto
 
visto nella Sezione 9.2, possiamo considerare X x come un processo a valori in C[0, 1], Bϱmax che è uno
spazio di Banach con la norma del massimo

∥X∥∞ := max |Xt |.


t∈[0,1]

Se vale h p i
E ∥X x − X y ∥∞ ≤ c|x − y|d+ε , x, y ∈ Rd ,

allora esiste una modificazione X


e (ossia X e tale che, per ogni x ∈ Rd , vale7 X
ex = X x q.c.) tale che

ety (ω)) ≤ c |x − y|α ,



Xetx (ω) − X x, y ∈ K,

per ogni K compatto di Rd e α < pε , con c > 0 che dipende solo da ω, α e K.

9.4 Diffusioni e PDE paraboliche


Fissato T > 0, consideriamo l’operatore differenziale del second’ordine

N N
1X X
At = cij (t, x)∂xi xj + bi (t, x)∂xi , (t, x) ∈ ]0, T [×RN , (9.4.1)
2
i,j=1 i=1

dove b = (bi )i=1,...,N e C = (ci,j )i,j=1,...,N sono funzioni misurabili e la matrice C è simmetrica e semi-definita
positiva. Pur non essendo una definizione universalmente accettata in letteratura, possiamo definire una
diffusione con coefficienti b e C come un processo di Markov con operatore caratteristico della forma (9.4.1):
si ricordi che, per i risultati della Sezione 7.5.1, ciò equivale al fatto che l’operatore caratteristico del
processo sia locale (e, in pratica, che il processo sia continuo).
In questa sezione mostriamo che, sotto opportune ipotesi sui coefficienti, l’equazione alle derivate
parziali (in breve, PDE8 ) parabolica
(∂t + At )u(t, x) = 0
possiede una “soluzione fondamentale” che è la densità di transizione di un processo di Markov continuo.
In altri termini, è possibile costruire una diffusione con assegnati coefficienti b e C a partire da risultati
di risolubilità per l’operatore At in (9.4.1) che ha come coefficienti b e C : tali risultati sono di carattere
analitico e sono ben noti nell’ambito della teoria delle equazioni alle derivate parziali di evoluzione.
Per specificare le condizioni di regolarità sui coefficienti di At , introduciamo lo spazio bC α (]0, T [×RN )
delle funzioni continue, limitate e uniformemente Hölderiane nella variabile x di esponente α ∈ ]0, 1] con
la norma
|g(t, x) − g(t, y)|
[g]α := sup |g| + sup < ∞. (9.4.2)
]0,T [×RN 0<t<T |x − y|α
x,y

Sottolineiamo il fatto che gli elementi di bC α (]0, T [×RN ) sono funzioni continue in (t, x) e Hölderiane nella
variabile spaziale x, uniformemente rispetto alla variabile temporale t.

Ipotesi 9.4.1.

i) cij , bi ∈ bC α (]0, T [×RN ) per un certo α ∈ ]0, 1] e per ogni i, j = 1, . . . , N ;


 
ex = X x , t ∈ [0, 1] =1.
7 Nel senso che P X
t t
8 Acronimo per Partial Differential Equations.
9.4. DIFFUSIONI E PDE PARABOLICHE 283

ii) la matrice C := (cij )1≤i,j≤N è simmetrica e soddisfa la seguente condizione di uniforme parabolicità:
esiste una costante λ0 > 1 tale che
1 2
|η| ≤ ⟨C (t, x)η, η⟩ ≤ λ0 |η|2 , (t, x) ∈ ]0, T [×RN , η ∈ RN .
λ0

Indichiamo con C 1,2 (]0, T [×RN ) lo spazio delle funzioni differenziabili con continuità in ]0, T [×RN al
prim’ordine nella variabile t e fino al second’ordine in x.
Definizione 9.4.2 (Problema backward di Cauchy). Una soluzione classica del problema backward di
Cauchy per l’operatore ∂t + At su ]0, T [×RN , è una funzione u ∈ C 1,2 (]0, T [×RN ) ∩ C(]0, T ] × RN ) tale che

∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ ]0, T [×RN ,


(9.4.3)
u(T , x) = ϕ(x), x ∈ RN ,

dove ϕ è una funzione assegnata, chiamata dato finale.


La Sezione 26.4 è dedicata alla dimostrazione, decisamente lunga e complessa, del seguente risultato9 .
Teorema 9.4.3 (Soluzione fondamentale). [!!!] Sotto l’Ipotesi 9.4.1, esiste una funzione continua Γ =
Γ (t, x; s, y), definita per 0 < t < s ≤ T e x, y ∈ RN , tale che:
i) per ogni s ∈ ]0, T ] e ϕ ∈ bC(RN ) la funzione definita da
Z
u(t, x) = Γ (t, x; s, y)ϕ(y)dy, (t, x) ∈ ]0, s[×RN ,
RN

è soluzione classica del problema backward di Cauchy su ]0, s[×RN con dato finale ϕ. Per questo
motivo si dice che Γ è soluzione fondamentale dell’operatore ∂t + At su ]0, T [×RN ;
ii) la funzione Z
p(t, x; s, H) := Γ (t, x; s, y)dy, 0 < t < s ≤ T , x ∈ RN , H ∈ BN ,
H
è una legge di transizione10 che gode della proprietà di Feller (cfr. Definizioni 7.1.1 e 7.1.10) e
soddisfa l’equazione di Chapman-Kolmogorov (7.4.4);
iii) per ogni (s, y) ∈ ]0, T ] × RN , si ha Γ (·, ·; s, y) ∈ C 1,2 (]0, s[×RN ) e valgono le seguenti stime Gaussiane:
esistono due costanti positive λ, c che dipendono solo11 da T , N , α, λ0 e per le quali si ha
1  −1 
Γ0 λ (s − t), x − y ≤ Γ (t, x; s, y) ≤ c Γ0 (λ(s − t), x − y) , (9.4.4)
c
c
∂xi Γ (t, x; s, y) ≤ √ Γ0 (λ(s − t), x − y) ,
s−t
∂x x Γ (t, x; s, y) + ∂t Γ (t, x; s, y) ≤ c Γ0 (λ(s − t), x − y)

i j
s−t
per ogni (t, x) ∈ ]0, s[×RN , dove Γ0 indica la Gaussiana standard N -dimensionale
1 |x|2
Γ0 (t, x) = N
e− 2t , t > 0, x ∈ RN .
(2πt) 2
9 Nella Sezione 26.4 proveremo un risultato equivalente, il Teorema 26.3.5, che è la versione forward del Teorema 9.4.3.
10 Per definizione, poniamo anche
p(s, x; s, ·) := lim− p(t, x; s, ·) = δx
t→s
con il limite inteso nel senso della convergenza debole.
11 Per comodità, assumiamo λ abbastanza grande in modo che [c ] , [b ] ≤ λ per ogni i, j = 1, . . . , N .
0 ij α i α 0
284 CAPITOLO 9. PROCESSI CONTINUI

Osservazione 9.4.4. Raccogliamo alcune conseguenze del Teorema 9.4.3. Sotto l’Ipotesi 9.4.1 sulle funzioni
b, C , indichiamo con Γ la soluzione fondamentale del corrispondente operatore ∂t + At con At in (9.4.1).
Inoltre sia µ distribuzione su RN . Allora:

i) per il Teorema 7.4.4, esiste un processo di Markov X = (Xt )t∈[0,T ] che ha densità di transizione Γ ed è
tale che X0 ∼ µ. Per l’Osservazione 7.5.8, At è l’operatore caratteristico di X;

ii) per il Teorema 9.3.4 di continuità di Kolmogorov, il processo X ammette una modificazione con tra-
iettorie α-Hölderiane per ogni α < 21 . Infatti, per ogni 0 ≤ t < s ≤ T e p > 0, vale la seguente stima
integrale

E [|Xt − Xs |p ] = E [E [|Xt − Xs |p | Xt ]]
"Z #
p
=E |Xt − y| Γ (t, Xt ; s, y)dy ≤
RN

(per la stima Gaussiana dall’alto (9.4.4))


"Z #
p
p
≤ cE |Xt − y| Γ0 (λ(s − t), Xt − y) dy ≤ c(s − t) 2
RN

Xt −y
dove l’ultimo passaggio si giustifica col cambio di variabile z = √ ;
s−t

iii) vedremo in seguito che il processo X gode di una versione “forte” della proprietà di Markov (cfr.
Capitolo 12): ciò segue dal Teorema 12.1.2 e dal fatto che la legge di transizione p gode della proprietà
di Feller, ancora per Teorema 9.4.3-ii).

9.5 Dimostrazione del Teorema di continuità di Kolmogorov


Dobbiamo provare che, se X = (Xt )t∈[0,1] è un processo stocastico reale ed esistono tre costanti p, ε, c > 0
tali che
E [|Xt − Xs |p ] ≤ c|t − s|1+ε , t, s ∈ [0, 1], (9.5.1)
allora X ammette una modificazione Xe con traiettorie α-Hölderiane per ogni α ∈ [0, ε [.
p
Suddividiamo la dimostrazione in quattro passi di cui il terzo è il più tecnico e può essere saltato ad una
prima lettura.
[Primo passo] Combiniamo la disuguaglianza di Markov (4.1.2) con la (9.5.1) per ottenere la stima

E [|Xt − Xs |p ] c|t − s|1+ε


P (|Xt − Xs | ≥ λ) ≤ ≤ , λ > 0. (9.5.2)
λp λp
Osserviamo che dalla (9.5.2) segue che, fissato t ∈ [0, 1], esiste il limite in probabilità

lim Xs = Xt
s→t

e di conseguenza si ha anche convergenza quasi certa. Questo tuttavia non è sufficiente a dimostrare la tesi:
infatti lo stesso risultato vale, per esempio, per il processo di Poisson che ha tutte le traiettorie discontinue
(si ricordi la (8.1.5)). In effetti, Kolmogorov si rese conto che dalla (9.5.2) non è possibile ricavare diretta-
mente una stima dell’incremento Xt − Xs per ogni t, s a causa della non-numerabilità di [0, 1]. La sua idea fu
allora di restringere dapprima t, s alla famiglia numerabile dei razionali diadici di [0, 1] definiti da
[ n o
D= Dn , Dn = 2kn | k = 0, 1, . . . , 2n .
n≥1
9.5. DIMOSTRAZIONE DEL TEOREMA DI CONTINUITÀ DI KOLMOGOROV 285

Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N. Due elementi t, s ∈ Dn si dicono consecutivi se |t − s| = 2−n .
[Secondo passo] Stimiamo l’incremento Xt − Xs assumendo che t, s siano consecutivi di Dn : per la (9.5.2) si
ha  
P |X kn − X k−1
n
| ≥ 2 −nα
≤ c 2n(αp−1−ε) .
2 2

Allora, posto   [  
−nα −nα
An = max |X k − X k−1 | ≥ 2 = |X k − X k−1 | ≥ 2 ,
1≤k≤2n 2n n 2 2n n2
1≤k≤2n
per la sub-additività di P , si ha
2n
X   2n
X
P (An ) ≤ P |X k − X k−1 |≥2 −nα
≤ c 2n(αp−1−ε) = c 2n(αp−ε) .
2n n 2
k=1 k=1

Dunque, se α < pε , si ha
X
P (An ) < ∞
n≥1
e per il Lemma 2.3.28 di Borel-Cantelli P (An i.o.) = 0: questo significa che esiste N ∈ F , con P (N ) = 0, tale
che per ogni ω ∈ Ω \ N esiste nα,ω ∈ N per cui

max |X k (ω) − X k−1 (ω)| ≤ 2−nα , n ≥ nα,ω .


1≤k≤2n 2n n 2

Di conseguenza si ha anche che per ogni ω ∈ Ω \ N esiste cα,ω > 0 tale che

max |X k (ω) − X k−1 (ω)| ≤ cα,ω 2−nα , n ∈ N.


1≤k≤2n 2n n 2

[Terzo passo] Stimiamo l’incremento Xt − Xs con t, s ∈ D, costruendo un’opportuna catena di punti con-
secutivi che congiunge s a t, per poi utilizzare, tramite la disuguaglianza triangolare, la stima ottenuta al
passo precedente. Dunque siano t, s ∈ D con s < t: poniamo

n̄ = min{k | t, s ∈ Dk }, n = max{k | t − s < 2−k },

cosicché n < n̄. Inoltre, per k = n + 1, . . . , n̄, definiamo ricorsivamente la sequenza

sn = max{τ ∈ Dn | τ ≤ s}, sk = sk−1 + 2−k sgn(s − sk−1 )

dove sgn(x) = x
|x|
se x , 0 e sgn(0) = 0. Si definisce (tk )n≤k≤n̄ in modo analogo. Allora sk , tk ∈ Dk e vale

|sk − sk−1 | ≤ 2−k , |tk − tk−1 | ≤ 2−k , k = n + 1, . . . , n̄.

Inoltre si prova che |tn − sn | ≤ 2−n e vale

|s − sk | < 2−k , |t − tk | < 2−k , k = n, . . . , n̄,

da cui sn̄ = s e tn̄ = t. Allora abbiamo



X n̄
X
Xt − Xs = Xtn − Xsn + (Xtk − Xtk−1 ) − (Xsk − Xsk−1 )
k=n+1 k=n+1

e quindi, per ogni ω ∈ Ω \ N ,



X
|Xt (ω) − Xs (ω)| ≤ cα,ω 2−nα + 2 cα,ω 2−kα
k=n+1
286 CAPITOLO 9. PROCESSI CONTINUI


X
≤ 2cα,ω 2−kα
k=n
2cα,ω −nα
= 2 ,
1 − 2−α
′ |t − s|α per una certa costante positiva c′ .
da cui segue che |Xt − Xs | ≤ cα,ω α,ω
[Quarto passo] Abbiamo provato che per ogni ω ∈ Ω\N la traiettoria X(ω) è α-Hölderiana su D e quindi si
prolunga in modo unico ad una funzione α-Hölderiana su [0, 1], che indichiamo con X(ω). e Ora definiamo
il processo X e le cui traiettorie sono X(ω)
e se ω ∈ Ω \ N e sono identicamente nulle su N . Proviamo che X e è
una modificazione di X, ossia P (Xt = X et ) = 1 per ogni fissato t ∈ [0, 1]: ciò è ovvio se t ∈ D. D’altra parte, se
t ∈ [0, 1] \ D, consideriamo una successione (tn )n∈N in D che approssima t. Abbiamo già osservato che per
la (9.5.2) si ha che Xtn converge a Xt in probabilità e quindi anche puntualmente q.c., a meno di passare ad
una sotto-successione: poiché Xtn = X et q.c., si ha anche Xt = X
n
et q.c. e questo conclude la prova.
Capitolo 10

Moto Browniano

In this section we will define


Brownian motion and construct it.
This event, like the birth of a child, is
messy and painful, but after a while
we will be able to have fun with our
new arrival.

Richard Durrett

Il moto Browniano è in assoluto il processo stocastico più importante. Deve il nome al botanico Robert
Brown per le sue osservazioni, attorno al 1820, sul movimento casuale di granelli di polline in sospensione
in una soluzione. Il moto Browniano fu utilizzato da Louis Bachelier nel 1900 nella sua tesi di dottorato
come modello per il prezzo dei titoli azionari e fu studiato da Albert Einstein in uno dei suoi famosi articoli
del 1905. La prima definizione matematica rigorosa di moto Browniano è dovuta a Norbert Wiener nel
1923.

10.1 Definizione
Definizione 10.1.1 (Moto Browniano). [!!!] Sia W = (Wt )t≥0 un processo stocastico reale definito su uno
spazio di probabilità con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che W è un moto Browniano se verifica le
seguenti proprietà:
i) W0 = 0 q.c.;
ii) W è continuo q.c.;
iii) W è adattato a (Ft )t≥0 , ossia Wt ∈ mFt per ogni t ≥ 0;
iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;
v) Wt − Ws ∼ N0,t−s per ogni t ≥ s ≥ 0.
Osservazione 10.1.2. Commentiamo brevemente le proprietà della Definizione 10.1.1: per la i) un moto
Browniano parte dall’origine. La ii) assicura che quasi tutte le traiettorie di W sono continue. Inoltre
W è adattato alla filtrazione (Ft ): questo significa che, in ogni fissato istante t, le informazioni in Ft sono
sufficienti ad osservare tutta la traiettoria di W fino al tempo t. Le iv) e v) sono meno intuitive ma possono
essere giustificate da alcune note proprietà, osservabili a livello statistico, dei moti casuali. Come per il

287
288 CAPITOLO 10. MOTO BROWNIANO

processo di Poisson, la iv) e v) sono chiamate rispettivamente proprietà di indipendenza e stazionarietà degli
incrementi (cfr. Definizione 7.3.1). In particolare, Wt − Ws è uguale in legge a Wt−s . In Figura 10.1 è
rappresentato il grafico di una traiettoria di un moto Browniano.

0.3

0.2

0.1

0.2 0.4 0.6 0.8 1.0

-0.1

-0.2

Figura 10.1: Grafico di una traiettoria di un moto Browniano

0
1.2

-1

-3

Figura 10.2: Grafico di 1.000 traiettorie di un moto Browniano e istogramma della sua distribuzione
campionaria al tempo t = 1

Osservazione 10.1.3. Nella Definizione 10.1.1 la filtrazione (Ft ) non è necessariamente quella generata da
W e indicata (GtW )t≥0 (cfr. Definizione 6.4.3). Chiaramente la proprietà iii) del moto Browniano implica che
GtW ⊆ Ft per ogni t ≥ 0. Vedremo nella Sezione 11.2 che è generalmente preferibile lavorare con filtrazioni
strettamente più grandi di G W affinché siano soddisfatte opportune ipotesi di carattere tecnico fra cui, per
esempio, la completezza.
Diamo un’utile caratterizzazione del moto Browniano.
10.1. DEFINIZIONE 289

Proposizione 10.1.4. [!] Un processo stocastico continuo q.c. W = (Wt )t≥0 è un moto Browniano relativa-
mente alla filtrazione (GtW )t≥0 generata da W se e solo se è un processo Gaussiano con funzione di media
nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Dimostrazione. Sia W un moto Browniano su (Ω, F , P , (GtW )t≥0 ). Per ogni 0 = t0 < t1 < · · · < tn , le variabili
aleatorie Zk := Wtk −Wtk−1 , hanno distribuzione normale; inoltre, per le proprietà iii) e v) del moto Brownia-
no, Zk è indipendente da GtW k−1
e quindi da Z1 , . . . , Zk−1 ∈ mGtW
k−1
. Questo prova che (Z1 , . . . , Zn ) è un vettore
multi-normale con componenti indipendenti. Anche (Wt1 , . . . , Wtn ) è multi-normale perché si ottiene da
(Z1 , . . . , Zn ) mediante la trasformazione lineare
h
X
Wth = Zk , h = 1, . . . , n,
k=1

e questo prova che W è un processo Gaussiano. Osserviamo anche che, assumendo s < t, si ha
cov(Ws , Wt ) = cov(Ws , Wt − Ws + Ws ) = cov(Ws , Wt − Ws ) + var(Ws ) = s
per l’indipendenza di Ws e Wt − Ws : questo prova che cov(Ws , Wt ) = s ∧ t.
Viceversa, sia W un processo Gaussiano con funzioni di media nulla e di covarianza cov(Ws , Wt ) = s ∧ t.
Poiché E [W0 ] = var(W0 ) = 0 si ha W0 = 0 q.c. Le proprietà ii) e iii) della definizione di moto Browniano
sono ovvie. Per provare la v) basta osservare che, se s < t, si ha
var(Wt − Ws ) = var(Wt ) + var(Ws ) − 2cov(Wt , Ws ) = t + s − 2(s ∧ t) = t − s.
Infine, dati τ ≤ s < t, il vettore (Wt − Ws , Wτ ) ha distribuzione normale perché combinazione lineare di
(Wτ , Ws , Wt ) e
cov(Wt − Ws , Wτ ) = cov(Wt , Wτ ) − cov(Ws , Wτ ) = τ − τ = 0.
Di conseguenza, Wt − Ws e Wτ sono indipendenti: poiché W è Gaussiano, ne segue anche che Wt − Ws è
indipendente da (Wτ1 , . . . , Wτn ) per ogni τ1 , . . . , τn ≤ s. Allora, per il Lemma 3.3.20, Wt − Ws è indipendente
da GsW e questo dimostra la validità della proprietà iv).
Osservazione 10.1.5. La Proposizione 10.1.4 afferma che le distribuzioni finito-dimensionali del moto
Browniano sono univocamente determinate: dunque √il moto Browniano è unico in legge.
ft := tW1 ha le stesse distribuzioni uno-dimensionali di W
Dato un moto Browniano W , il processo W
ma non è ovviamente un moto Browniano.
Esistono numerose dimostrazioni dell’esistenza del moto Browniano: alcune di esse si trovano, per
esempio, nelle monografie di Schilling [110] e Bass [10]. Qui vediamo il risultato come un corollario dei
Teoremi di estensione e continuità di Kolmogorov.
Teorema 10.1.6. Un moto Browniano esiste.
Dimostrazione. Il passo principale è la costruzione di un moto Browniano sull’intervallo temporale limitato
[0, 1]. Per il Teorema di estensione di Kolmogorov (in particolare, per il Corollario 6.3.6) esiste un processo
(0) (0) (0)
Gaussiano W (0) = (Wt )t∈[0,1] con funzione di media nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Per il Teorema di continuità di Kolmogorov e l’Esempio 9.3.2, W (0) ammette una modificazione continua
che, per la Proposizione 10.1.4, verifica le proprietà del moto Browniano su [0, 1].
Ora prendiamo una successione (W (n) )n∈N di copie indipendenti di W (0) . “Incolliamo” tali processi
(0)
definendo Wt = Wt per t ∈ [0, 1] e
[t]−1
(k)
X [t]
Wt = W1 + Wt−[t] , t > 1,
k=0

dove [t] indica la parte intera di t. Allora si prova facilmente che W è un moto Browniano.
290 CAPITOLO 10. MOTO BROWNIANO

Osservazione 10.1.7. Per quanto visto nell’Esempio 9.3.2, un moto Browniano ammette una modificazione
con traiettorie non solo continue ma anche localmente α-Hölderiane per ogni α < 21 . L’esponente α è stret-
tamente minore di 12 e tale risultato non è migliorabile: per maggiori dettagli rimandiamo, per esempio, al
Cap.7 in [10]. Un classico risultato, la Legge del logaritmo iterato, descrive precisamente il comportamento
asintotico degli incrementi Browniani: vale

|Wt |
lim sup q =1 q.c.
+
t→0 2t log log 1t

Di conseguenza, quasi certamente le traiettorie di un moto Browniano non sono differenziabili in nessun
punto: precisamente, esiste N ∈ F , con P (N ) = 0, tale che per ogni ω ∈ Ω \ N la funzione t 7→ Wt (ω) non è
differenziabile in nessun punto di [0, +∞[.

10.2 Proprietà di Markov e di Feller


Sia W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ). Fissati t ≥ 0 e x ∈ R, poniamo

WTt,x := WT − Wt + x, T ≥ t.

Definizione 10.2.1. Il processo W t,x = (WTt,x )T ≥t è chiamato moto Browniano di punto iniziale x al tempo t e
gode delle seguenti proprietà:
i) Wtt,x = x;

ii) quasi certamente le traiettorie T 7→ WTt,x sono continue;

iii) WTt,x ∈ mFT per ogni T ≥ t;

iv) WTt,x − Wst,x = WT − Ws è indipendente da Fs per ogni T ≥ s ≥ t;

v) WTt,x − Wst,x ∼ N0,T −s per ogni T ≥ s ≥ t.


Osservazione 10.2.2. Il processo W t,x è un moto Browniano anche rispetto alla propria filtrazione generata,
definita da
GTt,x := σ (Wst,x , s ∈ [t, T ]), T ≥ t.
Si noti che GTt,x ⊆ FT e si ha l’inclusione stretta Gtt,x = {∅, Ω} ⊂ Ft se t > 0.
Per la Proposizione 7.3.2 vale il seguente
Teorema 10.2.3 (Proprietà di Markov). [!]
Sia W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ). Allora W è un processo di Markov con densità di
transizione Gaussiana
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R, (10.2.1)
2π(T − t)

e di conseguenza, per ogni ϕ ∈ bB, vale

E [ϕ(WT ) | Ft ] = u(t, Wt )

con Z
u(t, x) := Γ (t, x; T , y)ϕ(y)dy. (10.2.2)
R
10.3. SPAZIO DI WIENER 291

Abbiamo provato nell’Esempio 7.4.6 la seguente


Proposizione 10.2.4 (Proprietà di Feller). Il moto Browniano verifica la proprietà di Feller forte.
Osservazione 10.2.5. La funzione u in (10.2.2) è di classe C ∞ ([0, T [×R) e inoltre, se ϕ ∈ bC(R), un conto
analogo a quello svolto nell’Esempio 4.1.3, mostra che
lim u(t, x) = ϕ(y)
(t,x)→(T ,y)
t<T

e quindi u ∈ C ([0, T ] × R) e u(0, ·) ≡ ϕ. Allora u è soluzione classica (cfr. Definizione 9.4.2) del problema di
Cauchy backward 
1
∂t u(t, x) + 2 ∂xx u(t, x) = 0, t ∈ [0, T [, x ∈ R,


u(T , x) = ϕ(x)

 x ∈ R.

Ciò è in accordo con l’Esempio 7.5.9, essendo At = 21 ∂xx l’operatore caratteristico della distribuzione di
transizione Gaussiana. Si noti che l’ipotesi ϕ ∈ bC(R) serve solo1 a dimostrare la continuità di u(t, x) fino a
t =T.

10.3 Spazio di Wiener


Per la Proposizione 10.1.4, un moto Browniano ha distribuzioni finito-dimensionali multi-normali. Più
precisamente, per la Proposizione 7.4.1 (in particolare, per la formula (7.4.2)) abbiamo il seguente
Teorema 10.3.1 (Densità finito-dimensionali). Sia W = (Wt )t≥0 un moto Browniano reale. Per ogni 0 <
t1 < · · · < tn , il vettore (Wt1 , . . . , Wtn ) ha densità
γ(Wt
1
,...,Wtn ) (x1 , . . . , xn ) = Γ (0, 0; t1 , x1 )Γ (t1 , x1 ; t2 , x2 ) · · · Γ (tn−1 , xn−1 ; tn , xn )

con Γ come in (10.2.1). La legge2 di W è detta misura di Wiener.


Definizione 10.3.2 (Spazio di Wiener). Lo spazio di probabilità (C(R≥0 ), BµW , µW ), dove µW è la misura
di Wiener e BµW è il µW -completamento3 della σ -algebra di Borel, è detto spazio di Wiener.
Ricordiamo la Definizione 9.2.3 di versione canonica di un processo continuo q.c. Un’immediata conse-
guenza della Proposizione 10.1.4 è il seguente
Corollario 10.3.3. Dato un moto Browniano W , la sua versione canonica W è un moto Browniano sullo
spazio di Wiener munito della filtrazione G W generata da W.
Anticipiamo il fatto che, dato un moto Browniano W , introdurremo in seguito (cfr. Sezione 11.2.3) una
filtrazione più ampia di quella generata da W in modo che valgano alcune proprietà di regolarità.
Esempio 10.3.4. Siano W un moto Browniano reale e 0 < t < T . Abbiamo le seguenti espressioni per le
densità congiunte di Wt e WT :
2
(T x −2txy+ty ) 2
1 −
γ(Wt ,WT ) (t, x; T , y) = γ(WT ,Wt ) (T , y; t, x) = p e 2t(T −t) .
2π t(T − t)
Per la Proposizione 5.3.20 abbiamo le densità condizionate
γ(WT ,Wt ) (T , y; t, x)
γWT |Wt (T , y; t, x) = = Γ (t, x; T , y),
γWt (t, x)
1 u ∈ C ∞ ([0, T [×R) per ogni ϕ ∈ bB.
2 Definizione 9.2.2
3 Osservazione 2.4.3.
292 CAPITOLO 10. MOTO BROWNIANO

2
T x− Tt y
( )
γ(Wt ,WT ) (t, x; T , y) 1 −
γWt |WT (t, x; T , y) = =q e 2t(T −t) .
γWT (T , y) t(T −t)
2π T

Dunque, in accordo col Teorema 10.2.3, abbiamo

µWT |Wt = NWt ,T −t .

Inoltre si ha anche
µWt |WT = N t W t(T −t) .
T T, T

10.4 Martingale Browniane


Sia W un moto Browniano sullo spazio (Ω, F , P , Ft ).
Proposizione 10.4.1. I seguenti processi sono martingale:
i) il moto Browniano W ;
ii) la martingala quadratica
Xt := Wt2 − t;

iii) la martingala esponenziale


σ2 t
Yt = e σ W t − 2

per ogni σ ∈ C.
Dimostrazione. Per la disuguaglianza di Hölder si ha
h i1 √
E [|Wt |] ≤ E Wt2 2 = t

e quindi W è un processo sommabile. La i) segue dalla Proposizione 7.3.4, essendo W un processo a media
costante nulla e incrementi indipendenti.
In modo simile, si provano ii) e iii): per esempio, si ha
h i h i
E [XT | Ft ] = E (WT − Wt + Wt )2 | Ft − T = E (WT − Wt )2 | Ft +2Wt E [WT − Wt | Ft ] +Wt2 − T = Wt2 − t.
| {z } | {z }
=T −t =0

Diamo un’utile caratterizzazione del moto Browniano in termini di martingale esponenziali.


Proposizione 10.4.2. Un processo continuo e adattato W , definito sullo spazio (Ω, F , P , Ft ) e tale che W0 =
0 q.c., è un moto Browniano se e solo se
η η2
Mt := eiηWt + 2 t

è una martingala per ogni η ∈ R.


Dimostrazione. Se W è un moto Browniano allora M η è una martingala per la Proposizione 10.4.1-iii).
Viceversa, è sufficiente verificare che per 0 ≤ s ≤ t:
i) Wt − Ws ha distribuzione normale N0,t−s ;
ii) Wt − Ws è indipendente da Fs .
10.4. MARTINGALE BROWNIANE 293

η
La proprietà di martingala di Mt equivale a
h i η2
E eiη(Wt −Ws ) | Fs = e− 2 (t−s) , η ∈ R.

Applicando il valore atteso ricaviamo la funzione caratteristica di Wt − Ws :


h i η2
E eiη(Wt −Ws ) = e− 2 (t−s) , η ∈ R,

da cui la tesi: in particolare, la proprietà di indipendenza segue dal 14) del Teorema 5.2.10.

La seguente versione del Teorema 7.5.13 fornisce un metodo generale per costruire una martingala
componendo un moto Browniano W con una funzione f = f (t, x) sufficientemente regolare. Assumiamo su
f anche una condizione di crescita del tipo
α
|f (t, x)| ≤ cT ecT |x| , (t, x) ∈ [0, T ] × R, (10.4.1)

con cT costante positiva dipendente da T e α ∈ [0, 2[: ciò garantisce la sommabilità del processo f (t, Wt ) per
t ∈ [0, T ].

Teorema 10.4.3. [!] Sia f = f (t, x) ∈ C 1,2 (R≥0 ×R) una funzione che verifica, insieme alle sue derivate prime
e seconde, la condizione di crescita (10.4.1). Allora il processo
Z t
1

Mt := f (t, Wt ) − f (0, W0 ) − ∂s f + ∂xx f (s, Ws )ds, t ∈ [0, T ],
0 2

è una martingala. In particolare, se f risolve l’equazione del calore backward allora f (t, Wt ) è una martin-
gala.

Dimostrazione. La dimostrazione è del tutto analoga a quella del Teorema 7.5.13. Per ogni s > t e x ∈ R, si
ha
Z Z  
∂s Γ (t, x; s, y)f (s, y)dy = ∂s Γ (t, x; s, y)f (s, y) dy =
R R

(essendo ∂s Γ (t, x; s, y) = 12 ∂yy Γ (t, x; s, y))


Z Z
1
= Γ (t, x; s, y)∂s f (s, y)dy + ∂yy Γ (t, x; s, y)f (s, y)dy =
R R2

(integrando per parti nel secondo integrale)


Z
1
 
= Γ (t, x; s, y) ∂s f + ∂yy f (s, y)dy.
R 2

Posto x = Wt nella precedente formula, per la proprietà di Markov si ha

1
  
∂s E [f (s, Ws ) | Ft ] = E ∂s f + ∂xx f (s, Ws ) | Ft .
2
Ora integriamo in s fra t e T per ottenere
Z T
1
  
E [f (T , WT ) | Ft ] − f (t, Wt ) = E ∂s f + ∂xx f (s, Ws ) | Ft ds =
t 2
294 CAPITOLO 10. MOTO BROWNIANO

(scambiando i segni di integrale e attesa condizionata come nella prova del Teorema 7.5.13)
"Z T #
1
 
=E ∂s f + ∂xx f (s, Ws )ds | Ft .
t 2

In definitiva si ha
" Z T #
1
 
E [MT − Mt | Ft ] = E f (T , WT ) − f (t, Wt ) − ∂s f + ∂xx f (s, Ws )ds | Ft = 0
t 2

e questo conclude la prova.


Capitolo 11

Tempi d’arresto

n
B > n1
P
xi
i=1
(Be greater than average)

Kennedy Space Center

I tempi d’arresto sono uno strumento fondamentale nello studio dei processi stocastici: si tratta di
particolari tempi aleatori che soddisfano una proprietà di coerenza rispetto all’assegnata filtrazione delle
informazioni. Il concetto di tempo d’arresto è alla base di alcuni risultati profondi sulla struttura delle
martingale: il teorema di optional sampling, le disuguaglianze massimali e il lemma di upcrossing. Le
difficoltà principali della prova di questi risultati sono già evidenti in ambito discreto. Per passare al tempo
continuo sarà necessario introdurre ulteriori ipotesi sulle filtrazioni, le cosiddette ipotesi usuali. La seconda
parte del capitolo raccoglie alcuni risultati di carattere tecnico: si mostra come ampliare le filtrazioni di
processi di Markov e di altre classi importanti di processi stocastici, in modo da garantire le ipotesi usuali
mantenendo valide le proprietà dei processi.

11.1 Il caso discreto


In questa sezione consideriamo il caso in cui ci siano un numero finito di istanti temporali e per questo
fissiamo uno spazio di probabilità con filtrazione (Ω, F , P , (Fn )n=0,1,...,N ) con N ∈ N fissato.
Definizione 11.1.1 (Tempo d’arresto discreto). Un tempo d’arresto discreto è una variabile aleatoria

τ : Ω −→ {0, 1, . . . , N , ∞}

tale che
(τ = n) ∈ Fn , n = 0, . . . , N . (11.1.1)
Usiamo il simbolo “∞” per indicare un numero fissato non appartenente all’insieme {0, 1, . . . , N } degli
istanti temporali considerati: il motivo dell’utilizzo di tale simbolo sarà più chiaro in seguito, per esempio
nell’Esempio 11.1.3. Assumiamo ∞ > N cosicché

(τ ≥ n) := (τ = n) ∪ · · · ∪ (τ = N ) ∪ (τ = ∞)

per ogni n = 0, . . . , N .

295
296 CAPITOLO 11. TEMPI D’ARRESTO

Osservazione 11.1.2. Notiamo che:


i) la condizione (11.1.1) equivale a

(τ ≤ n) ∈ Fn , n = 0, 1, . . . , N ;

ii) si ha
(τ ≥ n + 1) = (τ ≤ n)c ∈ Fn , n = 0, . . . , N , (11.1.2)
e in particolare (τ = ∞) ∈ FN ;
iii) se τ, σ sono tempi d’arresto allora τ ∧ σ e τ ∨ σ sono tempi d’arresto poiché

(τ ∧ σ ≤ n) = (τ ≤ n) ∪ (σ ≤ n), (τ ∨ σ ≤ n) = (τ ≤ n) ∩ (σ ≤ n), n = 0, . . . , N ;

iv) i tempi costanti sono tempi d’arresto: precisamente, se τ ≡ k per un certo k ∈ {0, . . . , ∞}, allora τ è un
tempo d’arresto.
Esempio 11.1.3 (Tempo d’uscita). Dati X = (Xn )n=0,1,...,N , processo adattato a valori reali e H ∈ B, poniamo

J(ω) = {n | Xn (ω) < H}, ω ∈ Ω.

Il primo tempo d’uscita di X da H è definito da



min J(ω) se J(ω) , ∅,


τ(ω) = 
∞
 altrimenti.

D’ora in poi adotteremo la convenzione min ∅ = ∞ e quindi scriveremo in modo più compatto

τ = min{n | Xn < H}.

È facile vedere che τ è un tempo d’arresto: infatti (τ = 0) = (X0 < H) ∈ F0 e si ha

(τ = n) = (X0 ∈ H) ∩ · · · ∩ (Xn−1 ∈ H) ∩ (Xn < H) ∈ Fn , n = 1, . . . , N .

Al contrario, l’ultimo tempo di uscita



max J(ω) se J(ω) , ∅,


τ̄(ω) = 
∞
 altrimenti,

non è un tempo d’arresto.


Notazione 11.1.4. Dati un tempo d’arresto discreto τ e un processo stocastico X = (Xn )n=0,1,...,N , poniamo
Xτ := Xτ∧N ossia, per ogni ω ∈ Ω,

Xτ(ω) (ω) se τ(ω) ∈ {0, . . . , N },


(Xτ )(ω) := 
XN (ω)
 se τ(ω) = ∞,

Fτ := {A ∈ F | A ∩ (τ = n) ∈ Fn per ogni n = 0, . . . , N }. (11.1.3)

È facile provare che Fτ è una σ -algebra: infatti, per esempio, se A ∈ Fτ allora Ac ∩ (τ = n) = (τ = n) \


(A ∩ (τ = n)) ∈ Fn e quindi Ac ∈ Fτ . Notiamo che Fτ = {A ∈ F | A ∩ (τ ≤ n) ∈ Fn per ogni n = 0, . . . , N }.
Inoltre F∞ (ossia Fτ con τ ≡ ∞) è uguale a F .
11.1. IL CASO DISCRETO 297

La seguente proposizione raccoglie altre utili proprietà di Fτ .

Proposizione 11.1.5. Dati τ, σ tempi d’arresto discreti, si ha:

i) se τ ≡ k per un certo k ∈ {0, . . . , N } allora Fτ = Fk ;

ii) se τ ≤ σ allora Fτ ⊆ Fσ ;

iii) (τ ≤ σ ) ∈ Fτ ∩ Fσ ≡ Fτ∧σ ;

iv) se X = (Xn )n=0,...,N è un processo adattato allora Xτ ∈ mFτ .

Dimostrazione. La i) segue dal fatto che se τ ≡ k allora



A se k = n,


A ∩ (τ = n) = 
∅ se k , n.

Per quanto riguarda la ii) basta osservare che, dato n ∈ {0, . . . , N }, se τ ≤ σ allora (σ = n) ⊆ (τ ≤ n) e di
conseguenza per ogni A ∈ Fτ si ha

A ∩ (σ = n) = A ∩ (τ ≤ n) ∩ (σ = n) .
| {z } | {z }
∈Fn ∈Fn

Per la iii), ricordando la (11.1.2) si ha

(τ ≤ σ ) ∩ (τ = n) = (σ ≥ n) ∩ (τ = n) ∈ Fn ,
(τ ≤ σ ) ∩ (σ = n) = (τ ≤ n) ∩ (σ = n) ∈ Fn ,

da cui (τ ≤ σ ) ∈ Fτ ∩ Fσ . Ora, se A ∈ Fτ ∩ Fσ si ha

A ∩ (τ ∧ σ ≤ n) = A ∩ ((τ ≤ n) ∪ (σ ≤ n)) = (A ∩ (τ ≤ n)) ∪ (A ∩ (σ ≤ n)) ∈ Fn , n = 0, . . . , N ,

da cui segue che Fτ ∩ Fσ ⊆ Fτ∧σ . Viceversa, se A ∈ Fτ∧σ , poiché (τ = n) ⊆ (τ ∧ σ = n), si ha

A ∩ (τ = n) = (A ∩ (τ ∧ σ = n)) ∩ (τ = n) ∈ Fn

che prova l’inclusione opposta.


Infine, consideriamo H ∈ B: per provare che (Xτ ∈ H) ∈ Fτ basta osservare che

(Xτ ∈ H) ∩ (τ = n) = (Xn ∈ H) ∩ (τ = n) ∈ Fn , n = 0, . . . , N .

Questo prova la iv).

Definizione 11.1.6 (Processo stoppato). Dati un processo X = (Xn )n=0,...,N e un tempo d’arresto τ, il pro-
cesso stoppato X τ = (Xnτ )n=0,...,N è definito da

Xnτ = Xn∧τ , n = 0, . . . , N .

Proposizione 11.1.7. Si ha:

i) se X è adattato anche X τ lo è;

ii) se X è una sub-martingala anche X τ lo è.


298 CAPITOLO 11. TEMPI D’ARRESTO

Dimostrazione. La i) segue dal fatto che, per n = 0, . . . , N , si ha1


τ∧n
X
Xτ∧n = X0 + (Xk − Xk−1 )
k=1
n
X
= X0 + (Xk − Xk−1 )1(k≤τ)
k=1

e, per la (11.1.2), (k ≤ τ) ∈ Fk−1 . La ii) segue applicando l’attesa condizionata a Fn−1 all’identità

Xnτ − Xn−1
τ
= (Xn − Xn−1 )1(τ≥n) , n = 1, . . . , N ,

e ricordando che (τ ≥ n) ∈ Fn−1 .


Dalla Proposizione 11.1.7 segue anche che se X è una martingala (o una super-martingala) anche X τ lo
è. Lasciamo per esercizio la prova del seguente
Lemma 11.1.8. Siano X ∈ L1 (Ω, F , P ) e Z ∈ L1 (Ω, G , P ), dove G è una sotto-σ -algebra di F . Allora2 Z ≤
E [X | G ] se e solo se
E [Z1G ] ≤ E [X1G ] per ogni G ∈ G .
Proposizione 11.1.9. Sia X = (Xn )n=0,1,...,N un processo sommabile e adattato su (Ω, F , P , (Fn )n=0,1,...,N ). Le
seguenti proprietà sono equivalenti:
i) X è una sub-martingala;
ii) per ogni coppia di tempi d’arresto σ , τ si ha

Xτ∧σ ≤ E [Xτ | Fσ ] ;

iii) per ogni tempo d’arresto τ0 il processo stoppato X τ0 è una sub-martingala.


Dimostrazione. [i) =⇒ ii)] Osserviamo che
X
Xτ = Xτ∧σ + (Xk − Xk−1 ) = (11.1.4)
σ <k≤τ

(ricordando che, per la Notazione 11.1.4, Xτ = Xτ∧N )


N
X
= Xτ∧σ + (Xk − Xk−1 )1(σ <k≤τ) .
k=1

Ora, per i punti ii) e iv) della Proposizione 11.1.5, Xτ∧σ ∈ mFτ∧σ ⊆ mFσ e quindi condizionando (11.1.4) a
Fσ si ha
N
X h i
E [Xτ | Fσ ] = Xτ∧σ + E (Xk − Xk−1 )1(σ <k≤τ) | Fσ .
k=1
h i
Per concludere è sufficiente provare che E (Xk − Xk−1 )1(σ <k≤τ) | Fσ ≥ 0 per k = 1, . . . , N o equivalentemente,
grazie al Lemma 11.1.8,
h i h i
E Xk−1 1(σ <k≤τ) 1G ≤ E Xk 1(σ <k≤τ) 1G , G ∈ Fσ , k = 1, . . . , N . (11.1.5)
0
1 Con la convenzione P · · · = 0
k=1
2 Z ≤ E [X | G ] significa Z ≤ Y q.c. se Y = E [X | G ].
11.1. IL CASO DISCRETO 299

La (11.1.5) segue dalla proprietà di sub-martingala di X una volta osservato che, per definizione di Fσ e
per l’Osservazione 11.1.2-ii), vale

(σ < k ≤ τ) ∩ G = (σ < k) ∩ G ∩ (τ ≥ k) .
| {z } | {z }
∈Fk−1 ∈Fk−1

[ii) =⇒ iii)] Per il punto ii) con τ = τ0 ∧ n e σ = n − 1 si ha


h i
Xτ0 ∧(n−1) ≤ E Xτ0 ∧n | Fn−1 , n = 1, . . . , N ,

da cui la proprietà di sub-martingala di X τ0 .


[iii) =⇒ i)] La tesi è immediata scegliendo τ0 ≡ ∞.

11.1.1 Optional sampling, disuguaglianze massimali e lemma di upcrossing


Il seguente risultato è immediata conseguenza della Proposizione 11.1.9 (si ricordi anche la Notazione
11.1.4).
Teorema 11.1.10 (Teorema di optional sampling). [!!!] Sia X = (Xn )n=0,...,N una sub-martingala sullo
spazio (Ω, F , P , (Fn )n=0,...,N ). Se τ, σ sono tempi d’arresto discreti tali che σ ≤ τ allora

Xσ ≤ E [Xτ | Fσ ] . (11.1.6)

Se X è una martingala (rispettivamente, una super-martingala) allora la (11.1.6) diventa un’uguaglianza


(rispettivamente, si inverte il senso della disuguaglianza).
Proviamo ora due importanti conseguenze del Teorema di optional sampling:
• le disuguaglianze massimali di Doob che forniscono una stima del massimo di una martingala;
• il Lemma di risalita (Upcrossing lemma) che fornisce una stima sul comportamento locale di una
martingala e in particolare di “quante volte può oscillare intorno ad un intervallo”.
Una caratteristica fondamentale di entrambi i risultati è di fornire stime che dipendono solo dal valore
finale della martingala e non dal numero N di istanti temporali considerato: questo fatto cruciale permetterà
di passare facilmente dal caso discreto a quello continuo come vedremo nel Capitolo 13.
Teorema 11.1.11 (Disuguaglianze massimali di Doob). [!!!] Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Allora:
i) per ogni λ > 0 vale
E [|MN |]
 
P max |Mn | ≥ λ ≤ ; (11.1.7)
0≤n≤N λ
ii) per ogni p > 1 vale !p
p
 
p
E max |Mn | ≤ E [|MN |p ] . (11.1.8)
0≤n≤N p−1

Dimostrazione. La (11.1.7) è una versione della disuguaglianza di Markov (4.1.2), con p = 1, per le mar-
tingale discrete. Se M è una martingala allora, per la Proposizione 6.4.12, |M| è una sub-martingala non-
negativa: dunque basta provare la tesi nell’ipotesi che M sia una sub-martingala non-negativa. In tal caso
indichiamo con τ il primo istante in cui M supera il livello λ,

τ = min{n | Mn ≥ λ},
300 CAPITOLO 11. TEMPI D’ARRESTO

e poniamo
M̄ = max Mn .
0≤n≤N

Per l’Esempio 11.1.3 τ è un tempo d’arresto e per la Proposizione 11.1.5-iii) vale

(M̄ ≥ λ) = (τ ≤ N ) ∈ Fτ∧N .

Allora si ha
h i h i
λP (M̄ ≥ λ) = E λ1(M̄≥λ) ≤ E Mτ∧N 1(M̄≥λ) ≤

(per il Teorema di optional sampling)


h i
≤ E E [MN | Fτ∧N ] 1(M̄≥λ) =

(poiché (M̄ ≥ λ) ∈ Fτ∧N )


h h ii h i
= E E MN 1(M̄≥λ) | Fτ∧N = E MN 1(M̄≥λ) (11.1.9)

da cui segue la (11.1.7).


p
Ora osserviamo che M̄ p = max Mn . Dalla (4.1.5) abbiamo
0≤n≤N

h i Z +∞  
E M̄ p = p λp−1 P M̄ ≥ λ dλ ≤
0

(per la (11.1.9))
Z +∞ h i
≤p λp−2 E MN 1(M̄≥λ) dλ ≤
0

(per il teorema di Fubini)



 Z 
p−2 p h i
E MN M̄ p−1 ≤
 
≤ pE MN
 λ dλ =
0 p−1
p
(per la disuguaglianza di Hölder, essendo p−1 l’esponente coniugato di p)

p h p i 1 h i1− 1
≤ E MN p E M̄ p p
p−1
h i1− 1
da cui segue la (11.1.8) dividendo per E M̄ p p ed elevando alla p.

Corollario 11.1.12 (Disuguaglianze massimali di Doob). Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Per ogni tempo d’arresto discreto τ si ha:

i) per ogni λ > 0 vale


E [|Mτ |]
 
P max |Mn | ≥ λ ≤ ;
0≤n≤τ∧N λ

ii) per ogni p > 1 vale !p


p
 
p
E max |Mn | ≤ E [|Mτ |p ] .
0≤n≤τ∧N p−1
11.1. IL CASO DISCRETO 301

Dimostrazione. É sufficiente applicare il Teorema 11.1.11 alla martingala stoppata M τ (cfr. Definizione
11.1.6 e Proposizione 11.1.7).

Proviamo ora un risultato, decisamente bizzarro e sorprendente, che giocherà un cruciale nello studio
delle proprietà di regolarità e di convergenza delle martingale: il Lemma di “risalita” (Upcrossing lemma).
Esso mostra che il numero di “oscillazioni” di una martingala è controllato dal suo valore atteso finale.
Questo risultato è inaspettato e va contro l’idea che potremmo esserci fatti di una martingala come un
processo le cui traiettorie sono fortemente “oscillanti” (si pensi, per esempio, al moto Browniano).
Per formalizzare il risultato, fissiamo a, b ∈ R con a < b. Il Lemma di risalita fornisce una stima del
numero di volte in cui una martingala “risale” da un valore minore di a a un valore maggiore di b. Più
precisamente, data una martingala M = (Mn )n=0,...,N sullo spazio (Ω, F , P , (Fn )n=0,...,N ), poniamo τ0 := 0 e,
ricorsivamente al variare di k ∈ N,

σk := min{n ∈ {τk−1 , . . . , N } | Mn ≤ a}, τk := min{n ∈ {σk , . . . , N } | Mn ≥ b},

assumendo al solito la convenzione min ∅ = ∞. Per definizione, τk ≥ σk ≥ τk−1 e σk , τk sono tempi d’arresto a
valori in {0, . . . , N , ∞}. Se τk (ω) ≤ N allora τk (ω) è l’istante della k-esima risalita della traiettoria M(ω); invece,
se τk (ω) = ∞ allora il numero totale di risalite della traiettoria M(ω) è minore di k. In definitiva il numero di
risalite di M su [a, b] è dato da
νa,b := max{k ∈ N ∪ {0} | τk ≤ N }. (11.1.10)
Un ingrediente fondamentale della prova del Lemma di risalita è il Teorema di optional sampling in base
al quale, per ogni sub-martingala M, si ha
h i h i
E Mτk ≤ E Mσk+1 , k ∈ N. (11.1.11)

Ora è bene ricordare che, per definizione (cfr. Notazione 11.1.4), Mτk ≡ Mτk ∧N cosicché Mτk = MN su
(τk = ∞): in particolare, non è detto che Mτk (ω) ≥ b se τk (ω) = ∞. Questa osservazione è importante perché,
tra un istante di risalita τk (ω) ≤ N e il successivo, la traiettoria M(ω) deve “ridiscendere” da Mτk (ω) ≥ b
a Mσk+1 (ω) ≤ a. Il Teorema di optional sampling dice che questo non può accadere “troppo spesso”: se
h i h i
fosse σk+1 ≤ N , per la (11.1.11) si avrebbe b ≤ E Mτk ≤ E Mσk+1 ≤ a e questo è assurdo per l’ipotesi a < b.
Dunque, per ogni k ∈ N, l’evento (τk = ∞) non può essere trascurabile e, come già detto, tale evento è
identificabile con l’insieme delle traiettorie che hanno meno di k risalite. In questo senso la proprietà di
martingala e il Teorema di optional sampling limitano il numero di possibili risalite, e quindi di oscillazioni,
di M su [a, b]. Ora è chiaro che νa,b ≤ N , anzi più precisamente νa,b ≤ N2 se N ≥ 2: il fatto sorprendente del
Lemma di risalita è che fornisce una stima di νa,b indipendente da N .

Lemma 11.1.13 (Lemma di risalita). [!!] Per ogni sub-martingala M = (Mn )n=0,...,N e a < b, si ha

  E [(MN − a)+ ]
E νa,b ≤
b−a
dove νa,b in (11.1.10) indica il numero di risalite di M su [a, b].

Dimostrazione. Poiché a, b sono fissati, nel corso della dimostrazione indichiamo νa,b semplicemente con ν.
Per definizione, τk ≤ N su (k ≤ ν) e τk = ∞ su (k > ν): pertanto, ricordando ancora che Mτ ≡ Mτ∧N per ogni
tempo d’arresto τ, si ha
N
X ν
X
(Mτk − Mσk ) = (Mτk − Mσk ) + Mτν+1 − Mσν+1 . (11.1.12)
k=1 k=1

Ora c’è un piccolo problema: l’ultimo termine Mτν+1 −Mσν+1 = MN −Mσν+1 può avere segno negativo (poiché
MN potrebbe anche essere minore di a). Per risolvere questo problema (vedremo tra poco quale sarà il
302 CAPITOLO 11. TEMPI D’ARRESTO

vantaggio) introduciamo il processo Y definito da Yn = (Mn − a)+ . Ricordiamo che Y è una sub-martingala
non-negativa (Proposizione 6.4.12) e il numero di risalite di M su [a, b] è uguale al numero di risalite di Y
su [0, b − a] poiché

σk = min{n ∈ {τk−1 , . . . , N } | Yn = 0}, τk = min{n ∈ {σk , . . . , N } | Yn ≥ b − a}.

Riscrivendo la (11.1.12) per Y , ora abbiamo


N
X ν
X ν
X
(Yτk − Yσk ) = (Yτk − Yσk ) + Yτν+1 − Yσν+1 ≥ (Yτk − Yσk ) ≥ (b − a)ν, (11.1.13)
k=1 k=1 k=1

poiché3 Yτν+1 − Yσν+1 ≥ 0. Per concludere, osserviamo che YN = YσN +1 e

N
X
YN ≥ YσN +1 − Yσ1 = (Yσk+1 − Yσk )
k=1
XN N
X
= (Yσk+1 − Yτk ) + (Yτk − Yσk ) ≥
k=1 k=1

(per la (11.1.13))
N
X
≥ (Yσk+1 − Yτk ) + (b − a)ν.
k=1

Applicando il valore atteso e il Teorema di optional sampling (la (11.1.11) con M = Y ) abbiamo infine la
tesi
E [YN ] ≥ E [(b − a)ν] .

Esercizio 11.1.14. Provare che, per ogni a < b, una funzione continua f : [0, 1] −→ R può avere solo un
numero finito di risalite su [a, b].

11.2 Il caso continuo


Lo studio dei tempi d’arresto nel caso continuo I = R≥0 richiede ulteriori ipotesi di carattere tecnico
sulle filtrazioni, le cosiddette “ipotesi usuali”, di cui discutiamo nelle prossime sezioni.

11.2.1 Ipotesi usuali e tempi d’arresto


Definizione 11.2.1 (Ipotesi usuali). Diciamo che una filtrazione (Ft )t≥0 nello spazio completo (Ω, F , P )
verifica le ipotesi usuali se:
i) è completa, ossia F0 (e quindi anche Ft per ogni t > 0) contiene la famiglia N degli eventi4 trascura-
bili;
ii) è continua a destra, ossia per ogni t ≥ 0 vale Ft = Ft+ dove
\
Ft+ := Ft+ε . (11.2.1)
ε>0
3 Si ha Y
τν+1 − Yσν+1 = YN ≥ 0 su (σν+1 ≤ N ) e Yτν+1 − Yσν+1 = 0 su (σν+1 = ∞).
4 Per ipotesi (Ω, F , P ) è completo e quindi ogni insieme trascurabile è un evento.
11.2. IL CASO CONTINUO 303

Se X è adattato ad una filtrazione (Ft ) che verifica le ipotesi usuali, allora anche ogni modificazione
di X è adattata a (Ft ). Senza l’ipotesi di completezza della filtrazione, l’affermazione è falsa. L’ipotesi di
continuità a destra della filtrazione è molto più sottile: essa significa che la conoscenza delle informazioni
fino al tempo t, rappresentate da Ft , permette di conoscere cosa succede “subito dopo” t, ossia Ft+ . Per
capire meglio questo fatto, che ora può apparire oscuro, introduciamo i concetti di tempo d’arresto in R≥0
e tempo d’uscita di un processo adattato.

Definizione 11.2.2 (Tempo d’arresto). In uno spazio con filtrazione (Ω, F , P , Ft ), un tempo d’arresto è una
variabile aleatoria5
τ : Ω −→ R≥0 ∪ {∞}

tale che
(τ ≤ t) ∈ Ft , t ≥ 0. (11.2.2)

Esempio 11.2.3 (Primo tempo di uscita). [!] Dati un processo X = (Xt )t≥0 e H ⊆ R poniamo

inf J(ω) se J(ω) , ∅,


τ(ω) =  dove J(ω) = {t ≥ 0 | Xt (ω) < H}.
∞
 se J(ω) = ∅,

Nel seguito scriveremo anche


τ = inf{t ≥ 0 | Xt < H}

assumendo per convenzione che l’estremo inferiore dell’insieme vuoto sia ∞ cosicché τ(ω) = ∞ se Xt (ω) ∈ H
per ogni t ≥ 0. Diciamo che τ è il primo tempo di uscita di X da H.

Proposizione 11.2.4 (Tempo di uscita da un aperto). [!] Sia X un processo adattato e continuo sullo spazio
(Ω, F , P , Ft ). Il primo tempo di uscita di X da un aperto H è un tempo d’arresto.

Dimostrazione. La tesi è conseguenza dell’uguaglianza


[ \  
(τ > t) = dist(Xs , H c ) ≥ n1 (11.2.3)
n∈N s∈Q∩[0,t)

 
poiché dist(Xs , H c ) ≥ n1 ∈ Fs per s ≤ t e quindi (τ ≤ t) = (τ > t)c ∈ Ft . Proviamo la (11.2.3): se ω appartiene
al membro destro allora esiste n ∈ N tale che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ Q∩[0, t); poiché X ha traiettorie
continue, ne viene che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ [0, t] e quindi, sempre per la continuità di X, deve
essere τ(ω) > t.
Viceversa, se τ(ω) > t allora l’insieme compatto K := {Xs (ω) | s ∈ [0, t]} è incluso in H: essendo H aperto
si ha che dist(K, H c ) > 0 e questo basta a concludere.

Nel prossimo lemma proviamo che per ogni tempo d’arresto τ vale

(τ < t) ∈ Ft , t > 0. (11.2.4)

In generale, la (11.2.4) è più debole della (11.2.2) ma, sotto le ipotesi usuali sulla filtrazione, tali condizioni
sono equivalenti.

Lemma 11.2.5. Ogni tempo d’arresto τ soddisfa la (11.2.4). Viceversa, se vale la (11.2.4) e la filtrazione
(Ft )t≥0 è continua a destra allora τ è un tempo d’arresto.
5 Ossia vale (τ ∈ H) ∈ F per ogni H ∈ B. Di conseguenza anche (τ = ∞) = (τ ∈ [0, ∞))c ∈ F .
304 CAPITOLO 11. TEMPI D’ARRESTO

Dimostrazione. Si ha [ 
(τ < t) = τ ≤ t − n1 .
n∈N
 
Se τ è un tempo d’arresto allora τ ≤ t − n1 ∈ F 1 ⊆ Ft per ogni n ∈ N, da cui segue la prima parte della
t− n
tesi.
Viceversa, se vale la (11.2.4) allora per ogni ε > 0 si ha
\ 
(τ ≤ t) = τ < t + n1 ∈ Ft+ε .
n∈N
1
n <ε

Quindi \
(τ ≤ t) ∈ Ft+ε = Ft
ε>0
grazie all’ipotesi di continuità a destra della filtrazione.
Osservazione 11.2.6. Se τ è un tempo d’arresto si ha

(τ = t) = (τ ≤ t) \ (τ < t) ∈ Ft .

Inoltre \ [
(τ = ∞) = (τ ≥ t) ∈ Ft .
t≥0 t≥0

Notiamo che l’unione di σ -algebre non è in generale una σ -algebra. Pertanto indichiamo con
[ !
F∞ := σ Ft (11.2.5)
t≥0

la più piccola σ -algebra che contiene Ft per ogni t ≥ 0. Chiaramente (τ = ∞) ∈ F∞ .


Proposizione 11.2.7 (Tempo d’uscita da un chiuso). Sia X un processo adattato e continuo sullo spazio
(Ω, F , P , Ft ). Il primo tempo di uscita τ di X da un chiuso H verifica la (11.2.4). Se la filtrazione è continua
a destra allora τ è un tempo d’arresto.
Dimostrazione. Poiché H c è aperto e X è continuo, per ogni t > 0 si ha
[
(τ < t) = (Xs ∈ H c )
s∈Q∩[0,t)

e la tesi segue dal fatto che (Xs ∈ H c ) ∈ Ft per s ≤ t poiché X è adattato a (Ft ). La seconda parte della tesi
segue direttamente dal Lemma 11.2.5.
Osservazione 11.2.8. Sotto le ipotesi usuali anche il tempo d’uscita da un Boreliano è un tempo d’arresto,
ma il risultato è molto più difficile da provare: si veda, per esempio, la Sezione I.10 in [23].

Osservazione 11.2.9. [!] Commentiamo la Proposizione 11.2.7 osservando la Figura 11.1 dove è rappre-
sentato il primo tempo di uscita τ di X dal chiuso H. Fino al tempo τ, compreso τ, la traiettoria di X è
inclusa in H. Ora si noti la differenza fra gli eventi

(τ < t) = “X esce da H prima del tempo t”,


(τ ≤ t) = “X esce da H prima o subito dopo t”.
11.2. IL CASO CONTINUO 305

Figura 11.1: Grafico di una traiettoria di un processo continuo X e del suo primo tempo di uscita da un
chiudo H

Intuitivamente è plausibile che, senza la necessità di imporre condizioni sulla filtrazione, si possa dimo-
strare (è ciò che abbiamo fatto nella Proposizione 11.2.7) che (τ < t) ∈ Ft ossia che il fatto che X esca da H
prima del tempo t sia osservabile in base alla conoscenza di cosa è successo fino al tempo t (cioè Ft , in parti-
colare conoscendo la traiettoria del processo fino al tempo t). Al contrario, è solo grazie alla continuità a
destra della filtrazione che si può provare che (τ ≤ t) ∈ Ft . Infatti, se t = τ(ω) allora Xt (ω) ∈ ∂H e in base
all’osservazione della traiettoria di X fino al tempo t (ossia, avendo le informazioni in Ft ) non è possibile
sapere se X(ω) continuerà a rimanere dentro H oppure uscirà da H immediatamente dopo t. In effetti, per
una filtrazione generica (τ ≤ t) < Ft ossia, come già osservato, la condizione (τ < t) ∈ Ft è più debole di
(τ ≤ t) ∈ Ft . D’altra parte, se (Ft )t≥0 verifica le ipotesi usuali (in particolare, la continuità da destra) allora
le due condizioni (τ < t) ∈ Ft e (τ ≤ t) ∈ Ft sono equivalenti (Lemma 11.2.5). Come avevamo anticipato,
questo significa che la continuità da destra della filtrazione fa sı̀ che conoscendo Ft possiamo anche sapere
cosa succede “subito dopo” il tempo t.

11.2.2 Ampliamento di filtrazioni e processi di Markov


Osservazione 11.2.10. I risultati di questa sezione e del resto del capitolo sono utili ma hanno dimostrazio-
ni abbastanza tecniche e poco informative: ad una prima lettura si consiglia quindi di leggere gli enunciati
ma di saltare le dimostrazioni.
Abbiamo spiegato l’importanza delle ipotesi usuali sulle filtrazioni e i motivi per cui è preferibile assu-
mere la validità di tali ipotesi. In questa sezione proviamo che è sempre possibile modificare una filtrazione
in modo che soddisfi le ipotesi usuali e, sotto opportune condizioni, è anche possibile conservare alcune
proprietà fondamentali dei processi considerati, come per esempio la proprietà di Markov.
Consideriamo uno spazio completo (Ω, F , P ) munito di una generica filtrazione (Ft )t≥0 e indichiamo
con N la famiglia degli eventi trascurabili. Si può sempre ampliare (Ft )t≥0 in modo che le ipotesi usuali
siano soddisfatte:
i) ponendo
F¯t := σ (Ft ∪ N ) , t ≥ 0, (11.2.6)
definiamo la più piccola filtrazione6 in (Ω, F , P ), che completa ed estende (Ft )t≥0 .
ii) la filtrazione (Ft+ )t≥0 definita da (11.2.1) è continua a destra.
 
Combinando i punti i) e ii) (non importa in quale ordine), si ottiene la filtrazione F¯t+ che è la più
t≥0
piccola filtrazione che estende (Ft )t≥0 e verifica le ipotesi usuali.
6 Si ha ovviamente F¯ ⊆ F¯ se 0 ≤ t ≤ T . Inoltre F¯ ⊆ F per ogni t ≥ 0 grazie all’ipotesi di completezza di (Ω, F , P ).
t T t
306 CAPITOLO 11. TEMPI D’ARRESTO
 
Definizione 11.2.11 (Ampliamento standard di una filtrazione). La filtrazione F¯t+ è detta amplia-
t≥0
mento standard della filtrazione (Ft )t≥0 .

Ora consideriamo un processo stocastico X = (Xt )t≥0 su (Ω, F , P ) e usiamo al solito7 la notazione

GtX = σ (Xs , s ≤ t), t ≥ 0,

per indicare la filtrazione generata da X.

 standard di un processo). La filtrazione standard di un processo X, nel


Definizione 11.2.12 (Filtrazione

seguito indicata con F X = FtX , è l’ampliamento standard di G X .
t≥0

Supponiamo che X = (Xt )t≥0 sia un processo di Markov con legge di transizione p sullo spazio completo
con filtrazione (Ω, F , P , (Ft )t≥0 ). In generale non è un problema “rimpicciolire” la filtrazione: più preci-
samente, se (Gt )t≥0 è una filtrazione tale che GtX ⊆ Gt ⊆ Ft per ogni t ≥ 0, ossia (Gt )t≥0 è più piccola di
(Ft )t≥0 ma più grande di (GtX )t≥0 , allora è immediato verificare che X è un processo di Markov anche sullo
spazio (Ω, F , P , (Gt )t≥0 ). Il problema non è ovvio quando si vuole ampliare la filtrazione. I risultati seguenti
forniscono condizioni sotto le quali è possibile ampliare la filtrazione di un processo di Markov in modo
che verifichi le ipotesi usuali e rimanga valida la proprietà di Markov.

Proposizione 11.2.13. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , Ft ). Allora X è un processo di Markov con legge di transizione p su (Ω, F , P )
con la filtrazione (F¯t )t≥0 in (11.2.6).

Dimostrazione. Chiaramente X è adattato rispetto a F¯ quindi c’è solo da provare che

p(t, Xt ; T , H) = P (XT ∈ H | F¯t ), 0 ≤ t ≤ T , H ∈ B.

Posto Z = p(t, Xt ; T , H) si ha Z ∈ mσ (Xt ) ⊆ mF¯t ; in base alla definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ F¯t si ha h i
E [Z1G ] = E 1(XT ∈H) 1G . (11.2.7)

La (11.2.7) è vera se G ∈ Ft : d’altra parte (cfr. Osservazione 2.4.3) G ∈ F¯t = σ (Ft ∪ N ) se e solo se
G △ A ∈ N per un certo A ∈ Ft . Dunque si ha
h i h i
E [Z1G ] = E [Z1A ] = E 1(XT ∈H) 1A = E 1(XT ∈H) 1G .

È possibile ampliare la filtrazione in modo da renderla continua a destra e mantenere la proprietà di


Markov, assumendo ulteriori ipotesi di continuità delle traiettorie del processo (continuità a destra q.c.) e
di continuità della legge di transizione del processo (proprietà di Feller, Definizione 7.1.10).

Proposizione 11.2.14. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , (Ft )t≥0 ). Supponiamo che X sia un processo di Feller con traiettorie continue
a destra q.c. Allora X è un processo di Markov con legge di transizione p su (Ω, F , P , (Ft+ )t≥0 ).

Dimostrazione. Chiaramente X è adattato rispetto a (Ft+ )t≥0 quindi c’è solo da provare la proprietà di
Markov ossia che per ogni 0 ≤ t < T e ϕ ∈ bB valga
Z
Z = E [ϕ(XT ) | Ft+ ] dove Z := p(t, Xt ; T , dy)ϕ(y).
R
7 Come in (6.4.1).
11.2. IL CASO CONTINUO 307

Per il teorema di Fubini, Z ∈ mFt ⊆ mFt+ . Quindi, per definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ Ft+ si abbia

E [ϕ(XT )1G ] = E [Z1G ] . (11.2.8)

Ora, sia h > 0 tale che t + h < T : si ha G ∈ Ft+h e quindi, per la proprietà di Markov di X rispetto a (Ft )t≥0 ,
si ha "Z #
E [ϕ(XT )1G ] = E p(t + h, Xt+h ; T , dy)ϕ(y)1G . (11.2.9)
R

Per la continuità da destra delle traiettorie di X e la proprietà di Feller di p, passando al limite per h → 0+
in (11.2.9) grazie al teorema della convergenza dominata si trova la (11.2.8).

Osservazione 11.2.15. [!] Combinando le Proposizioni 11.2.13 e 11.2.14 si ha il seguente risultato: se X è


un processo di Markov, continuo a destra e di Feller, sullo spazio completo (Ω, F , P , (Ft )t≥0 ) allora X è un processo
di Markov anche sullo spazio completo (Ω, F , P , (F¯t+ )t≥0 ) in cui valgono le ipotesi usuali.

Nel caso particolare in cui X sia un processo di Markov rispetto alla propria filtrazione standard F X si
prova che
FtX = σ (GtX ∪ N ), t ≥ 0. (11.2.10)
In altri termini, F X si ottiene completando la filtrazione generata da X e la proprietà di continuità a destra
è automaticamente soddisfatta.

Proposizione 11.2.16. [!] Se X un processo di Markov rispetto alla propria filtrazione standard F X allora
vale la (11.2.10).

Dimostrazione. La dimostrazione è basata sulla proprietà di Markov estesa del Teorema 7.2.4 in base al
quale si ha8
h i
ZE [Y | Xt ] = E ZY | FtX , Z ∈ bσ (GtX ∪ N ), Y ∈ bGt,∞
X
.

Poiché ogni versione di E [Y | Xt ] è σ (Xt )-misurabile


h e data il’unicità dell’attesa condizionata a meno di
eventi trascurabili, si deduce che ogni versione di E ZY | FtX è σ (GtX ∪ N )-misurabile: date le ipotesi su
Y e Z, tale proprietà di misurabilità vale anche se al posto di ZY mettiamo una qualsiasi variabile aleatoria
X ∪ N ). In particolare, per A ∈ F X ⊆ σ (G X ∪ N ) otteniamo
in bσ (G∞ t ∞
h i
1A = E 1A | FtX ∈ bσ (GtX ∪ N ).

Osservazione 11.2.17. [!] Combinando le Proposizioni 11.2.13, 11.2.14 e 11.2.16 si ha il seguente risultato:
sia X un processo di Markov rispetto alla propria filtrazione generata G X e supponiamo che X sia continuo a destra
e di Feller; allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Markov anche rispetto alla filtrazione
standard F X (che verifica le ipotesi usuali).

Consideriamo ora un processo di Markov X sullo spazio (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali
e ricordiamo la definizione (7.2.6) della σ -algebra Gt,∞
X
delle informazioni future su X a partire dal tempo
t.

Teorema 11.2.18 (Legge 0-1 di Blumenthal). Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Se A ∈
Ft ∩ Gt,∞
X
allora P (A | Xt ) = 1 oppure P (A | Xt ) = 0.
8 Nel senso della Convenzione 5.2.5. Si noti che Z ∈ bσ (G X ∪ N ) ⊆ bF X .
t t
308 CAPITOLO 11. TEMPI D’ARRESTO

Dimostrazione. Notiamo esplicitamente che A non è necessariamente σ (Xt )-misurabile9 : se cosı̀ fosse, la
tesi sarebbe ovvia conseguenza dell’Esempio 5.3.3. D’altra parte, per il Corollario 7.2.5, Ft e Gt,∞
X
sono,
condizionatamente a Xt , indipendenti: ne viene che A è indipendente da sè stesso (condizionatamente a
Xt ) e quindi vale
P (A | Xt ) = P (A ∩ A | Xt ) = P (A | Xt )2 .
Da ciò si deduce che P (A | Xt ) può assumere solo i valori 0 oppure 1.
Esempio 11.2.19. [!] Riprendiamo l’Esempio 11.2.3 e supponiamo che τ sia il tempo di uscita da un chiuso
H, di un processo continuo di Markov X sullo spazio (Ω, F , P , F X ). Applichiamo la Legge 0-1 di Blumen-
thal con t = 0: chiaramente (τ = 0) ∈ F0X = F0X ∩ F0,∞ X
poiché τ è un tempo d’arresto; qui (τ = 0) indica
l’evento secondo il quale il processo X esce immediatamente da H. Allora si ha P (τ = 0 | X0 ) = 0 oppure
P (τ = 0 | X0 ) = 1, ossia quasi tutte le traiettorie di X escono subito da H oppure quasi nessuna. Questo fatto
è particolarmente interessante quando X0 appartiene al bordo di H.

11.2.3 Ampliamento di filtrazioni e processi di Lévy


Studiamo ora il problema dell’ampliamento della filtrazione nel caso del processo di Poisson e del moto
Browniano. Per trattare l’argomento in modo unificato, introduciamo una classe di processi di cui il Poisson
e il Browniano sono casi particolari.
Definizione 11.2.20 (Processo di Lévy). Sia X = (Xt )t≥0 un processo stocastico reale definito su uno spazio
di probabilità completo con filtrazione (Ω, F , P , Ft ). Diciamo che X è un processo di Lévy se verifica le
seguenti proprietà:
i) X0 = 0 q.c.;
ii) le traiettorie di X sono càdlàg q.c.;
iii) X è adattato a (Ft );
iv) Xt − Xs è indipendente da Fs per ogni 0 ≤ s ≤ t;
v) gli incrementi Xt − Xs e Xt+h − Xs+h hanno la stessa legge per ogni 0 ≤ s ≤ t e h ≥ 0.
Osservazione 11.2.21. [!!] Le proprietà iv) e v) si esprimono dicendo che X ha gli incrementi indipen-
denti e stazionari. Per la Proposizione 7.3.2, un processo di Lévy X è un processo di Markov con legge di
transizione p(t, x; T , ·) uguale alla distribuzione di XT − Xt + x: tale legge è omogenea nel tempo grazie alla
stazionarietà degli incrementi. Ne segue in particolare che ogni processo di Lévy è un processo di Feller:
infatti, per ogni ϕ ∈ bC(R) e h > 0 si ha
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y) =
R

(poiché p(t, x; t +h, ·) è la distribuzione di Xt+h −Xt +x che è uguale in legge a Xh +x per la stazionarietà degli
incrementi)
Z
= p(0, x; h, dy)ϕ(y) = E [ϕ(Xh + x)]
R

e la continuità in (t, x) segue dal teorema della convergenza dominata di Lebesgue.


9 In altri termini, in generale σ (X ) è incluso strettamente in F ∩ F X poiché, per la continuità a destra di F X , si ha
t t t,∞
\
σ (Xt ) ⊆ X .
σ (Xs , t ≤ s ≤ t + ε) ⊆ Ft ∩ Ft,∞
ε>0
11.2. IL CASO CONTINUO 309

Inoltre, si prova che la CHF di un processo di Lévy X è della forma


ϕXT (η) = eT ψ(η)
η2
dove ψ è detto esponente caratteristico di X: per esempio, ψ(η) = − 2 per il moto Browniano e ψ(η) = λ(eiη −1)
per il processo di Poisson (cfr. Osservazione 8.1.4). Allora, posto per semplicità p(T , ·) = p(0, 0; T , ·), si ha la
seguente notevole relazione:
ψ(η)eT ψ(η) = ∂T eT ψ(η)
Z
= ∂T eiηy p(T , dy) =
R
(supponendo di poter scambiare i segni di derivata e integrale)
Z
= eiηy ∂T p(T , dy) =
R
(poiché p(T , dy) risolve l’equazione di Kolmogorov forward (7.5.25), ∂T p(T , ·) = AT∗ p(T , ·) dove AT∗ è l’ag-
giunto del generatore infinitesimale di X)
Z
= eiηy AT∗ p(T , dy).
R
Questo fatto, nel linguaggio della teoria degli operatori pseudo-differenziali, si esprime dicendo che ψ è il
simbolo dell’operatore AT∗ e si scrive
AT∗ = ψ(i∂y ).
η2
Per esempio, per il moto Browniano si ha ψ(η) = − 2 e
1
AT∗ = ψ(i∂y ) = ∂ ,
2 yy
e per il processo di Poisson, essendo ψ(η) = λ(eiη − 1), si ha
AT∗ ϕ(y) = ψ(i∂y )ϕ(y) = λ(ϕ(y − 1) − ϕ(y)). (11.2.11)
La rappresentazione (11.2.11) di AT∗ come operatore pseudo-differenziale è giustificata dall’espressione
formale

X (α∂y )n
eα∂y ϕ(y) = ϕ(y) = ϕ(y + α)
n!
n=0
come sviluppo in serie di Taylor valido per ogni funzione analitica ϕ.
Si prova che l’espressione generale dell’esponente caratteristico di un processo di Lévy è data dalla
formula di Lévy-Khintchine
σ 2η2
Z  
ψ(η) = iµη − + eiηx − 1 − iηx1|x|≤1 ν(dx)
2 R
dove µ, σ ∈ R e ν è una misura su R tale che ν({0}) = 0 e
Z
(1 ∧ |x|2 )ν(dx) < ∞.
R
Per ogni H ∈ B, ν(H) indica il numero atteso di salti delle traiettorie del processo in un periodo di tempo
unitario, con ampiezza ∆t X ∈ H: per esempio, per il processo di Poisson si ha ν = λδ1 e per il processo di
Poisson composto dell’Esempio 8.1.5 si ha ν = λµZ dove µZ è la legge delle variabili Zn ossia dei singoli
salti del processo. Se un processo di Lévy X è continuo q.c. allora ν ≡ 0 e quindi necessariamente X è un
moto Browniano con drift, ossia un processo della forma Xt = µt + σ Wt con µ, σ ∈ R e W moto Browniano.
Fra i testi di riferimento per la teoria generale dei processi di Lévy indichiamo la monografia [3].
310 CAPITOLO 11. TEMPI D’ARRESTO

Proposizione 11.2.22. Sia X = (Xt )t≥0 un processo di Lévy sullo spazio completo (Ω, F , P , (Ft )t≥0 ). Allora
X è un processo di Lévy anche su (Ω, F , P , (F¯t )t≥0 ) e su (Ω, F , P , (Ft+ )t≥0 ).

Dimostrazione. Si tratta solo di verificare che, per ogni 0 ≤ s < t, l’incremento Xt − Xs è indipendente da F¯s
e da Fs+ , ossia vale
P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H), H ∈ B, (11.2.12)

se G ∈ F¯s ∪ Fs+ con P (G) > 0.


Consideriamo prima il caso G ∈ F¯s (sempre assumendo P (G) > 0). La (11.2.12) è vera se G ∈ Fs : d’al-
tra parte (cfr. Osservazione 2.4.3) G ∈ F¯s = σ (Fs ∪ N ) se e solo se G △ A ∈ N per un certo A ∈ Fs (e
necessariamente P (A) > 0 essendo P (G) > 0). Dunque si ha

P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H | A) = P (Xt − Xs ∈ H).

Consideriamo ora il caso G ∈ Fs+ con P (G) > 0. Qui usiamo il fatto che, per il Corollario 3.5.8, la
(11.2.12) è vera se e solo se vale
E [ϕ(Xt − Xs ) | G] = E [ϕ(Xt − Xs )] ,

per ogni ϕ ∈ bC. Osserviamo che, per ogni h > 0, G ∈ Fs+h e quindi G è indipendente da Xt+h − Xs+h : ne
viene
E [ϕ(Xt+h − Xs+h ) | G] = E [ϕ(Xt+h − Xs+h )]

e si conclude passando al limite per h → 0+ , per il teorema della convergenza dominata grazie alla conti-
nuità da destra delle traiettorie di X e la continuità e limitatezza di ϕ.

Combinando i risultati precedenti con l’Osservazione 11.2.17 si ha il seguente

Teorema 11.2.23. [!] Sia X è un processo di Lévy sullo spazio completo (Ω, F , P ) munito della filtrazione
G X generata da X. Allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Lévy anche rispetto alla
filtrazione standard F X .

Come conseguenza della Legge 0-1 di Blumenthal del Teorema 11.2.18, si ha

Corollario 11.2.24 (Legge 0-1 di Blumenthal). Sia X = (Xt )t≥0 un processo di Lévy. Per ogni A ∈ F0X si ha
P (A) = 0 oppure P (A) = 1.

Ricordiamo la Definizione 10.3.2 di spazio di Wiener (C(R≥0 ), BµW , µW ) dove µW è la misura di Wiener
(ossia la legge di un moto Browniano) definita sul µW -completamento BµW della σ -algebra di Borel.

Definizione 11.2.25 (Moto Browniano canonico). Il moto Browniano canonico W è il processo identità10
sullo spazio di Wiener munito della filtrazione standard F W .

Osservazione 11.2.26. [!] Per il Corollario 10.3.3 e il Teorema 11.2.23, il moto Browniano canonico è un
moto Browniano, secondo la Definizione 10.1.1, sullo spazio (C(R≥0 ), BµW , µW , F W ). Ricordiamo che lo
spazio di Wiener è uno spazio metrico polacco ed uno spazio di probabilità completo in cui la filtrazione
standard F W verifica le ipotesi usuali: per queste importanti proprietà, lo spazio di Wiener e il moto Bro-
wniano canonico costituiscono rispettivamente lo spazio e il processo canonici di riferimento nello studio
delle equazioni differenziali stocastiche.
10 Ossia W (w) = w(t) per ogni w ∈ C(R ) e t ≥ 0.
t ≥0
11.2. IL CASO CONTINUO 311

11.2.4 Risultati generali sui tempi d’arresto


Riprendiamo lo studio dei tempi d’arresto a valori in R≥0 ∪ {∞} (cfr. Definizione 11.2.2), definiti su
uno spazio con filtrazione (Ω, F , P , Ft ) che soddisfa le ipotesi usuali. Lasciamo per esercizio la prova della
seguente
Proposizione 11.2.27. Valgono le seguenti proprietà:
i) se τ = t q.c. allora τ è un tempo d’arresto;
ii) se τ, σ sono tempi d’arresto allora anche τ ∧ σ e τ ∨ σ sono tempi d’arresto;
iii) se (τn )n≥1 è una successione crescente (ossia, τn ≤ τn+1 q.c. per ogni n ∈ N) allora sup τn è un tempo
n∈N
d’arresto;
iv) se (τn )n≥1 è una successione decrescente (ossia, τn ≥ τn+1 q.c. per ogni n ∈ N) allora inf τn è un tempo
n∈N
d’arresto;
v) se τ è un tempo d’arresto allora per ogni ε ≥ 0 anche τ + ε è un tempo d’arresto.
Consideriamo ora un processo stocastico X = (Xt )t≥0 sullo spazio con filtrazione (Ω, F , P , Ft ) che veri-
fica le ipotesi usuali. Per lo studio dei tempi d’arresto (e, più avanti, dell’integrazione stocastica) occorre
assumere un’ipotesi minimale di misurabilità di X rispetto alla variabile temporale, che rinforza il concetto
di processo adattato.
Definizione 11.2.28 (Processo progressivamente misurabile). Un processo X = (Xt )t≥0 è progressivamen-
te misurabile se, per ogni t > 0, la funzione (s, ω) 7→ Xs (ω) da [0, t]×Ω a R è misurabile rispetto alla σ -algebra
prodotto B ⊗ Ft .
In altri termini, X è progressivamente misurabile se, per ogni t > 0, la funzione g := X|[0,t]×Ω , definita da

g : ([0, t] × Ω, B ⊗ Ft ) −→ (R, B), g(s, ω) = Xs (ω), (11.2.13)

è (B ⊗ Ft )-misurabile.
Se X è progressivamente misurabile allora, per il Lemma 3.3.11, è adattato a (Ft ). Viceversa, è stato
provato da Chung e Doob [27] che se X è adattato e misurabile11 allora possiede una modificazione progressi-
vamente misurabile (per una dimostrazione di questo fatto si veda, per esempio [81], Teorema T46 a p.68).
A noi basterà il seguente risultato molto più semplice:
Proposizione 11.2.29. Se X è adattato a (Ft ) e ha traiettorie continue a destra q.c. (oppure ha traiettorie
continue a sinistra q.c.) allora è progressivamente misurabile.
Dimostrazione. Consideriamo le successioni
∞ ∞
(n)
⃗ t(n) :=
X X
X X k−1
n
1[ k−1
n ,
k ) (t), X⃗t := X k 1[ k−1
n ,
k ) (t), t ∈ [0, T ], n ∈ N.
2 2 2n 2n 2 2n
k=1 k=1

(n)
⃗ (n) ∈ m(B ⊗ FT ) e X⃗ ∈ m(B ⊗ F
Poiché X è adattato, segue dal Corollario 3.3.9 che X 1 ). Se X ha
T+ 2n
traiettorie continue a sinistra q.c. allora ⃗ (n)
converge puntualmente (Leb ⊗ P )-q.o. a X su [0, T ] × Ω per
X
n → ∞: data l’arbitrarietà di T , ne viene che X è progressivamente misurabile.
(n)
Analogamente, se X ha traiettorie continue a destra q.c. allora X⃗ converge puntualmente (Leb⊗P )-q.o.
a X su [0, T ]×Ω per n → ∞: ne viene che, per ogni ε > 0, la mappa (t, ω) 7→ Xt (ω) è (B ⊗FT +ε )-misurabile su
[0, T ] × Ω. Per la continuità a destra della filtrazione si conclude che X è progressivamente misurabile.
11 Ossia (t, ω) 7→ X (ω) è B ⊗ F -misurabile.
t
312 CAPITOLO 11. TEMPI D’ARRESTO

Dato un tempo d’arresto τ, ricordiamo la definizione (11.2.5) di F∞ e, in analogia con la (11.1.3),


definiamo
Fτ := {A ∈ F∞ | A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0}.
Notiamo che Fτ è una σ -algebra e Fτ = Ft se τ è il tempo d’arresto costante uguale a t. Inoltre dato un
processo X = (Xt )t≥0 definiamo

Xτ(ω) (ω) se τ(ω) < ∞,


(Xτ )(ω) := 
0
 se τ(ω) = ∞.

Proposizione 11.2.30. Valgono le seguenti proprietà:

i) τ ∈ mFτ ;
ii) se τ ≤ σ allora Fτ ⊆ Fσ ;
iii) Fτ ∩ Fσ = Fτ∧σ ;

iv) se X è progressivamente misurabile allora Xτ ∈ mFτ ;


v) Fτ = Fτ+ := Fτ+ε ;
T
ε>0

Dimostrazione. i) Occorre mostrare che (τ ∈ H) ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B: la tesi segue


facilmente poiché per il Lemma 3.1.5 è sufficiente considerare H del tipo (−∞, s] con s ∈ R.
ii) Se τ ≤ σ allora (σ ≤ t) ⊆ (τ ≤ t): dunque per ogni A ∈ Fτ si ha

A ∩ (σ ≤ t) = A ∩ (τ ≤ t) ∩ (σ ≤ t) .
| {z } | {z }
∈Ft ∈Ft

iii) Per il punto ii) vale l’inclusione Fτ ∩ Fσ ⊇ Fτ∧σ . Viceversa, se A ∈ Fτ ∩ Fσ allora

A ∩ (τ ∧ σ ≤ t) = A ∩ ((τ ≤ t) ∪ (σ ≤ t)) = (A ∩ (τ ≤ t)) ∪ (A ∩ (σ ≤ t)) .


| {z } | {z }
∈Ft ∈Ft

iv) Dobbiamo provare che (Xτ ∈ H)∩(τ ≤ t) = (Xτ∧t ∈ H)∩(τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B. Poiché (τ ≤
t) ∈ Ft è sufficiente provare che Xτ∧t ∈ mFt : questo è conseguenza del fatto che Xτ∧t (ω) = (f ◦ g)(t, ω)
con f e g funzioni misurabili definite da

f : (Ω, Ft ) −→ ([0, t] × Ω, B ⊗ Ft ), f (t, ω) := (τ(ω) ∧ t, ω),

e g come in (11.2.13). La misurabilità di f segue dal Corollario 3.3.9 e dal fatto che, per i), (τ ∧ t) ∈
mFτ∧t ⊆ mFt ; g è misurabile poiché X è progressivamente misurabile.
v) L’inclusione Fτ ⊆ Fτ+ è ovvia per ii). Viceversa, se A ∈ Fτ+ allora per definizione A ∩ (τ + ε ≤ t) ∈ Ft
per ogni t ≥ 0 e ε > 0: quindi A ∩ (τ ≤ t − ε) ∈ Ft per ogni t ≥ 0 e ε > 0, o equivalentemente A ∩ (τ ≤
t) ∈ Ft+ε per ogni t ≥ 0 e ε > 0. Per l’ipotesi di continuità a destra della filtrazione, si ha quindi
A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 ossia A ∈ Fτ .
Capitolo 12

Proprietà di Markov forte

We may not be able to get certainty,


but we can get probability, and half
a loaf is better than no bread.

C. S. Lewis

In questo capitolo X = (Xt )t≥0 indica un processo di Markov con legge di transizione p sullo spazio
(Ω, F , P , Ft ) in cui valgono le ipotesi usuali sulla filtrazione. La proprietà di Markov forte è una estensione
della proprietà di Markov in cui l’istante iniziale è un tempo d’arresto.

12.1 Proprietà di Feller e di Markov forte


Definizione 12.1.1 (Proprietà di Markov forte). Diciamo che X soddisfa la proprietà di Markov forte se
per ogni τ tempo d’arresto finito q.c., h > 0 e ϕ ∈ bB vale
Z
p(τ, Xτ ; τ + h, dy)ϕ(y) = E [ϕ (Xτ+h ) | Fτ ] . (12.1.1)
R

Ricordiamo dalla Definizione 7.1.10 che la legge di transizione p di un processo di Feller è tale che, per
ogni h > 0 e ϕ ∈ bC(R), la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
R

è continua.
Teorema 12.1.2. Sia X un processo di Markov. Se X è un processo di Feller continuo a destra allora soddisfa
la proprietà di Markov forte.
Dimostrazione. Dati h > 0 e ϕ ∈ bC, proviamo che, posto
Z
Z := p(τ, Xτ ; τ + h, dy)ϕ(y),
R

si ha Z = E [ϕ (Xτ+h ) | Fτ ]. Verifichiamo le proprietà dell’attesa condizionata. Anzitutto Z ∈ mFτ poiché:

313
314 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
R
• Z = f (τ, Xτ ) con f (t, x) := p(t, x; t + h, dy)ϕ(y) funzione continua per la proprietà di Feller;
R

• Xτ ∈ mFτ per la Proposizione 11.2.30-iv), essendo X adattato e continuo a destra (quindi progressi-
vamente misurabile per la Proposizione 11.2.29).

In secondo luogo, proviamo che per ogni A ∈ Fτ si ha

E [Z1A ] = E [ϕ (Xτ+h ) 1A ] . (12.1.2)

Consideriamo prima il caso in cui τ assuma solo un’infinità numerabile di valori tk , k ∈ N: in questo caso
la (12.1.2) segue dal fatto che

X h i
E [Z1A ] = E Z1A∩(τ=tk )
k=1
 

X Z 
= E  p(tk , Xtk ; tk + h, dy)ϕ(y)1A∩(τ=tk )  =
 
 
k=1 R

(per la proprietà di Markov (7.2.2), poiché A ∩ (τ = tk ) ∈ Ftk )


X h i
= E ϕ(Xtk +h )1A∩(τ=tk ) = E [ϕ(Xτ+h )1A ] .
k=1

Nel caso generale, consideriamo la successione di tempi d’arresto che approssimano τ, definiti da

k

 2n
 se k−1
2n ≤ τ(ω) <
k
2n per k ∈ N,
τn (ω) = 
∞
 se τ(ω) = ∞.

Per ogni n ∈ N, τn assume solo un’infinità numerabile di valori. Inoltre, τn ≥ τ e quindi se A ∈ Fτ allora
anche A ∈ Fτn e si ha
 
Z  h   i
E  p(τn , Xτn ; τn + h, dy)ϕ(y)1A  = E ϕ Xτn +h 1A .
 
 
R

Passando al limite in n → ∞ si ottiene la (12.1.2). Il passaggio al limite è giustificato dal teorema della con-
vergenza dominata e dal fatto che gli integrandi sono limitati e convergono puntualmente q.c.: nel membro
a destra, per la continuità da destra di X e la continuità di ϕ; nel membro a sinistra, per la continuità da
destra di X e la proprietà di Feller.

Osservazione 12.1.3. [!] In base al Teorema 12.1.2, il moto Browniano, il processo di Poisson e più in
generale i processi di Lévy (cfr. Definizione 11.2.20) godono della proprietà di Markov forte.

In analogia con i risultati della Sezione 10.2, vale la seguente

Proposizione 12.1.4. Siano W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ) e τ un tempo d’arresto
finito q.c. Allora il processo
Wtτ := Wt+τ − Wτ , t ≥ 0, (12.1.3)

è un moto Browniano su (Ω, F , P , (Ft+τ )t≥0 ). In particolare, W τ è indipendente da Fτ .


12.2. PRINCIPIO DI RIFLESSIONE 315

Dimostrazione. Per ogni η ∈ R, si ha


h τ i h i
E eiηWt | Fτ = E eiη(Wt+τ −Wτ ) | Fτ
h i
= eiηWτ E eiηWt+τ | Fτ
h i η 2 t2
= eiηWτ E eiηWt+τ | Wτ = e− 2

grazie alla proprietà di Markov forte nella forma (12.1.1). Dal Teorema 5.2.10-14) segue che Wtτ ∼ N0,t ed
è indipendente da Fτ . In modo simile si prova che Wtτ − Wsτ ∼ N0,t−s ed è indipendente da Fτ+s per ogni
0 ≤ s ≤ t.

12.2 Principio di riflessione


Consideriamo un moto Browniano W definito su (Ω, F , P , Ft ) e fissiamo t0 ≥ 0. Diciamo che
 
ft := Wt∧t − Wt − Wt∧t ,
W t ≥ 0,
0 0

è il processo riflesso di W a partire da t0 . La Figura 12.1 rappresenta una traiettoria di W e del suo riflesso W
f
a partire da t0 = 0.2.

0.2 0.4 0.6 0.8 1.0

-1

Figura 12.1: Grafico di una traiettoria Browniana e della sua riflessa a partire da t0 = 0.2

Non è difficile verificare1 che anche W f è un moto Browniano su (Ω, F , P , Ft ). È notevole il fatto che
questo risultato si generalizzi al caso in cui t0 è un tempo d’arresto.
Teorema 12.2.1 (Principio di riflessione). [!] Siano W = (Wt )t≥0 un moto Browniano sullo spazio con
filtrazione (Ω, F , P , Ft ) e τ un tempo d’arresto. Allora il processo riflesso a partire da τ, definito da
ft := Wt∧τ − (Wt − Wt∧τ ) ,
W t ≥ 0,
1 Per s ≤ t si ha

Wt
ft =  se t ≤ t0 ,
W
2Wt0 − Wt se t > t0 ,

da cui W
ft ∈ mFt e



Wt − Ws se s, t ≤ t0 ,

Wt − Ws = Wt0 − Ws − (Wt − Wt0 ) se s < t0 < t,
f f 


−(Wt − Ws )

se t0 ≤ s, t,
da cui segue che W fs è indipendente da Fs ed ha distribuzione N0,t−s .
ft − W
316 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE

è un moto Browniano su (Ω, F , P , F ).

Dimostrazione. Basta provare la tesi su un intervallo temporale [0, T ] con T > 0 fissato e quindi non è
restrittivo assumere τ < ∞ cosicché è ben definito il moto Browniano W τ in (12.1.3). Osserviamo che
τ τ
Wt = Wt∧τ + Wt−τ 1(t≥τ) , ft = Wt∧τ − Wt−τ
W 1(t≥τ) .

La tesi segue dal fatto che, essendo un moto Browniano, W τ è uguale in legge a −W τ ed è indipendente da
Fτ e quindi da Wt∧τ e da τ: ne viene che W e Wf sono uguali in legge.

Consideriamo il processo del massimo di W , definito da

W̄t := max Ws , t ≥ 0.
s∈[0,t]

Corollario 12.2.2. Per ogni a > 0 vale

P (W̄t ≥ a) = 2P (Wt ≥ a), t ≥ 0. (12.2.1)

Dimostrazione. Scomponiamo (W̄t ≥ a) nell’unione disgiunta

(W̄t ≥ a) = (Wt > a) ∪ (Wt ≤ a, W̄t ≥ a).

Introduciamo il tempo d’arresto


τa := inf{t ≥ 0 | Wt ≥ a}
f, riflesso di W a partire da τa . Allora si ha2
e il processo W

(Wt ≤ a, W̄t ≥ a) = (W
ft ≥ a)

e la tesi segue dal Principio di riflessione.

Osservazione 12.2.3. [!] Alcune conseguenze notevoli del Corollario 12.2.2 sono:

i) poiché P (|Wt | ≥ a) = 2P (Wt ≥ a), dalla (12.2.1) segue che W̄t e |Wt | sono uguali in legge;

ii) poiché (τa ≤ t) = (W̄t ≥ a), dalla (12.2.1) si ha


Z
2 2
P (τa ≤ t) = 2P (Wt ≥ a) = √ e−y dy, (12.2.2)
π √a
2t

da cui si deduce che


P (τa < +∞) = lim P (τa ≤ n) = 1
n→+∞

e, derivando la (12.2.2), si ottiene l’espressione della densità di τa :

a2
ae− 2t
γτa (t) = √ 1]0,+∞[ (t).
2πt 3/2

iii) per ogni ε > 0


P (Wt ≤ 0 ∀t ∈ [0, ε]) = P (W̄ε ≤ 0) = P (|Wε | ≤ 0) = 0.
2 Poniamo A = (W ≤ a, W̄ ≥ a) e B = (W
ft ≥ a). Se ω ∈ A allora τa (ω) ≤ t e quindi W
ft (ω) = 2Wτ (ω) (ω) − Wt = 2a − Wt ≥ a da cui
t t a
ω ∈ B. Viceversa, assumiamo W ft (ω) ≥ a: se fosse τa (ω) > t si avrebbe a ≤ W
ft (ω) = Wt (ω) che è assurdo. Allora deve essere τa (ω) ≤ t e
quindi ovviamente W̄t (ω) ≥ a e inoltre a ≤ W
ft (ω) = 2a − Wt (ω) da cui Wt (ω) ≥ a.
12.3. IL CASO OMOGENEO 317

12.3 Il caso omogeneo


Nel seguito I = R≥0 . Supponiamo che X sia la versione canonica (cfr. Proposizione 7.2.6) di un processo di
Markov con legge di transizione p omogenea nel tempo e X sia definito sullo spazio completo (RI , FµI , µ, F X )
dove µ è la legge del processo X e F X è la filtrazione standard di X (cfr. Definizione 11.2.12). Inoltre
Xt (ω) = ω(t) per ogni t ≥ 0 e ω ∈ RI .
Per esprimere in maniera più efficace la proprietà di Markov, introduciamo la famiglia di traslazioni
(θt )t≥0 definite da
θt : RI −→ RI , (θt ω)(s) = ω(t + s), s ≥ 0, ω ∈ RI .
Intuitivamente, l’operatore di traslazione θt “taglia e rimuove” la parte di traiettoria ω fino al tempo t.
Data una v.a. Y , indichiamo con Y ◦ θt la v.a. traslata definita da

(Y ◦ θt )(ω) := Y (θt (ω)), ω ∈ RI .

Notiamo che (Xs ◦ θt )(ω) = ω(t + s) = Xt+s (ω) o, più semplicemente,

Xs ◦ θt = Xt+s .

Nel seguente enunciato indichiamo con

Ex [Y ] := E [Y | X0 = x]

una versione della funzione attesa di Y condizionata a X0 (cfr. Definizione 5.2.16) e F0,∞
X
= σ (Xs , s ≥ 0) (cfr.
definizione (7.2.6)).
Teorema 12.3.1 (Proprietà di Markov forte nel caso omogeneo). [!] Sia X la versione canonica di un
processo di Markov forte con legge di transizione omogenea nel tempo. Per ogni tempo d’arresto τ, finito
X
q.c., e per ogni Y ∈ bF0,∞ si ha
EXτ [Y ] = E [Y ◦ θτ | Fτ ] . (12.3.1)
Dimostrazione. Per chiarezza, osserviamo esplicitamente che il membro sinistro della (12.3.1) indica la
funzione Ex [Y ] calcolata in x = Xτ . Se X soddisfa la proprietà di Markov forte (12.1.1) si ha

E [ϕ (Xh ) ◦ θτ | Fτ ] = E [ϕ (Xτ+h ) | Fτ ]
Z
= p(τ, Xτ ; τ + h, dy)ϕ(y) =
R

(per l’ipotesi di omogeneità)


Z
= p(0, Xτ ; h, dy)ϕ(y) = EXτ [ϕ(Xh )]
R

che prova la (12.3.1) per Y = ϕ(Xh ) con h ≥ 0 e ϕ ∈ bB. Il caso generale si prova come il Teorema 7.2.4,
estendendo prima la (12.3.1) al caso
Yn
Y= ϕi (Xhi )
i=1
con 0 ≤ h1 < · · · < hn e ϕ1 , . . . , ϕn ∈ bB, e infine utilizzando il secondo teorema di Dynkin.
Tutti i risultati sui processi di Markov visti finora si estendono al caso multidimensionale (ossia, al caso
di processi a valori in Rd ) senza alcuna difficoltà. Il seguente Teorema 12.3.2 è preliminare allo studio della
relazione fra i processi di Markov e le funzioni armoniche: ricordiamo che una funzione armonica è una
soluzione dell’operatore di Laplace o più in generale di un’equazione differenziale alle derivate parziali di
tipo ellittico. Assumiamo le seguenti ipotesi generali:
318 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE

• D è un aperto di Rd ;
• X è la versione canonica di un processo di Markov forte a valori in Rd ;
• X è continuo e ha legge di transizione p omogenea nel tempo;
• X0 ∈ D q.c.;
• τD < ∞ q.c. dove τD è il tempo di uscita di X da D (cfr. Esempio 11.2.3).
Indichiamo con ∂D il bordo di D e osserviamo che, in base alle ipotesi assunte, XτD ∈ ∂D q.c. Nel seguente
enunciato Ex [·] ≡ E [· | X0 = x] indica la funzione attesa condizionata a X0 .
Teorema 12.3.2. Sia ϕ ∈ bB(∂D). Se3 h i
u(x) = Ex ϕ(XτD ) (12.3.2)
allora si ha:
X
i) il processo (u(Xt∧τD ))t≥0 è una martingala rispetto alla filtrazione (Ft∧τ ) ;
D t≥0

ii) per ogni y ∈ D e ε > 0 tale che D(y, ε) := {z ∈ Rd | |z − y| < ε} ⊆ D vale


h  i
u(x) = Ex u XτD(y,ε) (12.3.3)

dove τD(y,ε) indica il tempo di uscita di X da D(y, ε).


Dimostrazione. La dimostrazione è basata sull’osservazione cruciale che se τ è un tempo d’arresto e τ ≤ τD ,
allora vale
XτD ◦ θτ = XτD . (12.3.4)
Più esplicitamente, per ogni ω ∈ RI vale

(XτD ◦ θτ )(ω) = XτD (θτ (ω)) = XτD (ω)

poiché la traiettoria ω e la traiettoria θτ (ω), ottenuta tagliando e rimuovendo la parte di ω fino all’istante
τ(ω), escono per la prima volta da D nello stesso punto XτD (ω).
Proviamo la i): per 0 ≤ s ≤ t si ha
h i h h i i
E u(Xt∧τD ) | Fs∧τD = E EXt∧τ ϕ(XτD ) | Fs∧τD =
D

X
(per la proprietà di Markov forte (12.3.1), poiché ϕ(XτD ) ∈ bF0,∞ )
h h i i
= E E ϕ(XτD ) ◦ θt∧τD | Ft∧τD | Fs∧τD =

(per la (12.3.4) con τ = t ∧ τD )


h h i i
= E E ϕ(XτD ) | Ft∧τD | Fs∧τD =

(poiché Fs∧τD ⊆ Ft∧τD )


h i
= E ϕ(XτD ) | Fs∧τD =

(riapplicando la proprietà di Markov forte (12.3.1))


h i
= EXs∧τ ϕ(XτD ) = u(Xs∧τD ).
D

3 La (12.3.2) significa che u è una versione della funzione attesa di ϕ(X ) condizionata a X .
τD 0
12.3. IL CASO OMOGENEO 319

Ora proviamo la ii). Se x < D(y, ε), τD(y,ε) = 0 e la tesi è ovvia conseguenza dell’Esempio 5.2.18. Se
x ∈ D(y, ε), osserviamo che τD(y,ε) ≤ τD < ∞ q.c. poiché X è continuo e applicando il Teorema di optional
sampling, nella forma del Teorema 13.5.4, alla martingala Mt := u(Xt∧τD ) abbiamo
h i
M0 = E MτD(y,ε) | F0X

ossia h i
u(X0 ) = E u(XτD(y,ε) ) | X0
che prova la (12.3.3).
320 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
Capitolo 13

Martingale continue

We balance probabilities and choose


the most likely. It is the scientific use
of the imagination.

Arthur Conan Doyle

In questo capitolo estendiamo dal discreto al continuo alcuni importanti risultati come il teorema di
optional sampling e le disuguaglianze massimali di Doob per le martingale. La strategia generale consiste
di tre passaggi:

• i risultati vengono prima estesi dal caso discreto, in cui il numero di istanti temporali è finito, al caso
in cui gli istanti temporali siano i cosiddetti razionali diadici definiti da
[ n o n o
D := Dn , Dn := k
2n | k ∈ N0 = 0, 21n , 22n , 23n , . . . .
n≥1

Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N e D è un insieme numerabile e denso in R≥0 ;

• sotto l’ipotesi di continuità da destra delle traiettorie è pressoché immediato estendere la validità dei
risultati dai diadici al continuo;

• infine si mostra che l’ipotesi di continuità delle traiettorie non è restrittiva poiché ogni martingala
ammette una modificazione con traiettorie càdlàg: la dimostrazione è basata sulle disuguaglianze mas-
simali di Doob (che permettono di provare che le traiettorie non divergono quasi certamente) e sul
lemma di risalita (che permette di provare che le traiettorie non oscillano quasi certamente). Il terzo
ingrediente fondamentale è il teorema di convergenza di Vitali (Teorema A.3.0.2) che garantisce la
sussistenza della proprietà di martingala nei passaggi al limite.

Nella seconda parte del capitolo introduciamo alcuni notevoli spazi di martingale che giocheranno un
ruolo centrale nella teoria dell’integrazione stocastica. Diamo anche la definizione di martingala locale, una
nozione che generalizza quella di martingala indebolendo le ipotesi di sommabilità.

321
322 CAPITOLO 13. MARTINGALE CONTINUE

13.1 Optional sampling e continuità


Consideriamo uno spazio (Ω, F , P ) munito della filtrazione (Ft )t≥0 . In questa sezione non assumiamo
le ipotesi usuali sulla filtrazione. Nel seguito, fissato T > 0, usiamo la notazione
[ n o
D(T ) := DT ,n , DT ,n := T2nk | k = 0, 1, . . . , 2n , n ∈ N. (13.1.1)
n≥1

Lemma 13.1.1 (Disuguaglianze massimali di Doob sui diadici). Sia X = (Xt )t≥0 una martingala o una
sub-martingala non-negativa. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.2)
t∈D (T ) λ
  !p
p p
E [|XT |p ] .
 
E  sup |Xt |  ≤ (13.1.3)
t∈D (T ) p − 1

Dimostrazione. Se X è una martingala allora |X| è una sub-martingala non-negativa per Proposizione 6.4.12.
Dunque è sufficiente provare la tesi per X sub-martingala non-negativa. Fissato T > 0, per ogni n ∈ N consi-
deriamo il processo (Xt )t∈DT ,n che è una sub-martingala non-negativa discreta relativamente alla filtrazione
(Ft )t∈DT ,n e poniamo
Mn := sup Xt , M := sup Xt .
t∈DT ,n t∈D (T )

Fissiamo ε > 0. Ricordando che DT ,n ⊆ DT ,n+1 , per il Teorema di Beppo-Levi si ha1

P (M > λ − ε) = lim P (Mn > λ − ε) ≤


n→∞

(per la disuguaglianza massimale di Doob per le sub-martingale discrete, Teorema 11.1.11)

E [XT ]
≤ .
λ−ε
La (13.1.2) segue dall’arbitrarietà di ε.
p p p p
Sia ora p > 1. Poiché DT ,n ⊆ DT ,n+1 e Mn = sup Xt , si ha 0 ≤ Mn ↗ M = sup Xt per n → ∞. Allora
t∈DT ,n t∈D (T )
per il teorema di Beppo-Levi si ha
h pi
E [M p ] = lim E Mn ≤
n→∞

(per la disuguaglianza massimale di Doob per le sub-martingale discrete, Teorema 11.1.11)


!p
p h pi
≤ E XT .
p−1

Negli enunciati seguenti assumeremo sempre l’ipotesi di continuità a destra dei processi: come vedremo
nella Sezione 13.2, nel caso in cui la filtrazione soddisfi le ipotesi usuali, ogni martingala ammette una
modificazione càdlàg.
1 Si noti che
h i h i
P (M > λ − ε) = E 1(M>λ−ε) = lim E 1(Mn >λ−ε) = lim P (Mn > λ − ε),
n→∞ n→∞
poiché la successione 1(Mn >λ−ε) è monotona crescente.
13.1. OPTIONAL SAMPLING E CONTINUITÀ 323

Teorema 13.1.2 (Disuguaglianze massimali di Doob). [!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.4)
t∈[0,T ] λ
  !p
p p
E [|XT |p ] .
 
E  sup |Xt |  ≤ (13.1.5)
t∈[0,T ] p − 1

Dimostrazione. La tesi è immediata conseguenza del Lemma 13.1.1 poiché se X ha traiettorie continue a
destra si ha sup |Xt | = sup |Xt |.
t∈[0,T ] t∈D (T )

In analogia col caso discreto, si ha il seguente semplice


Corollario 13.1.3 (Disuguaglianze massimali di Doob). [!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni λ > 0, p > 1 e τ tempo d’arresto tale che τ ≤ T q.c. per
un certo T , si ha
!
E [|Xτ |]
P sup |Xt | ≥ λ ≤ ,
t∈[0,τ] λ
  !p
p p
E [|Xτ |p ] .

E  sup |Xt |  ≤
 
t∈[0,τ] p−1

Dimostrazione. Vedremo in seguito (cfr. Corollario 13.4.1) che stoppando una martingala continua a destra
si ottiene ancora una martingala. Allora la tesi segue dal Teorema 13.1.2 applicato a (Xt∧τ )t≥0 .
Per estendere alcuni risultati su tempi d’arresto e martingale dal caso discreto a quello continuo, è utile
il seguente risultato tecnico di approssimazione.
Lemma 13.1.4. Dato un tempo d’arresto τ : Ω −→ [0, +∞] esiste una successione (τn )n∈N di tempi d’arresto
discreti (cfr. Definizione 11.1.1)
τn : Ω −→ { 2kn | k = 1, 2, . . . , n2n }
tali che:
i) τn −→ τ per n → ∞;
ii) τn+1 (ω) ≤ τn (ω) se n > τ(ω).
Dimostrazione. Per ogni n ∈ N poniamo

k k−1 k
 2n se 2n ≤ τ(ω) <

 2n per k ∈ {1, 2, . . . , n2n },
τn (ω) = 
n
 se τ(ω) ≥ n.

Per ogni ω ∈ Ω e n ∈ N tali che τ(ω) < n si ha


τn (ω) − 21n ≤ τ(ω) ≤ τn (ω)
e da questo seguono la i) e la ii). Infine, per ogni fissato n ∈ N, τn è un tempo d’arresto discreto rispetto alla
filtrazione definita da F k per k = 0, 1, . . . , n2n , poiché si ha
2n
   
τn = k
2n = ∈F k ,
k−1
2n ≤τ < k
2nk = 0, 1, . . . , n2n − 1,
2n
   c
(τn = n) = τ ≥ n − 21n = τ < n − 21n ∈ F 1 ⊆ Fn .
n− 2n
324 CAPITOLO 13. MARTINGALE CONTINUE

Osservazione 13.1.5. In base alla ii) del Lemma 13.1.4, se τ(ω) < ∞, la successione approssimante (τn (ω))n∈N
ha la proprietà di essere monotona decrescente almeno per n abbastanza grande. D’altra parte, se τ(ω) = ∞
allora τn (ω) = n.
Diamo una prima versione del teorema di optional sampling: ne vedremo una seconda, con ipotesi più
deboli sui tempi d’arresto, nel Teorema 13.5.4.
Teorema 13.1.6 (Teorema di optional sampling). [!!!] Sia X = (Xt )t≥0 una sub-martingala continua a
destra. Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 ≤ T per un certo T > 0, allora si ha
h i
Xτ1 ≤ E Xτ2 | Fτ1 .

Dimostrazione. Supponiamo che X sia una martingala continua a destra. Consideriamo le successioni
(τi,n )n∈N , i = 1, 2, costruite come nel Lemma 13.1.4, di tempi d’arresto discreti tali che τi,n −−−−−→ τi : per
n→∞
costruzione si ha anche τ1,n ≤ τ2,n per ogni n ∈ N. Poniamo inoltre τ̄i,n = τi,n ∧ T . Per la proprietà di mono-
tonia di τ̄i,n (cfr. Lemma 13.1.4-ii)) e la continuità a destra di X, si ha Xτ̄i,n −−−−−→ Xτi . D’altra parte, per la
n→∞
versione discreta del Teorema di optional sampling (cfr. Teorema 11.1.10) si ha
h i
Xτ̄i,n = E XT | Fτ̄i,n (13.1.6)

e quindi per la Proposizione A.3.0.7 (e l’Osservazione A.3.0.8) le successioni (Xτ̄i,n )n∈N sono uniformemente
integrabili. Ne viene che, per il Teorema A.3.0.2 di convergenza di Vitali, si ha anche convergenza in
L1 (Ω, P ):
L1
Xτ̄i,n −−−−−→ Xτi , i = 1, 2. (13.1.7)
n→∞
Ancora per il Teorema 11.1.10 di optional sampling si ha
h i
Xτ̄1,n = E Xτ̄2,n | Fτ̄1,n

da cui, condizionando a Fτ̄1 e usando la proprietà della torre, si ha


h i h i
E Xτ̄1,n | Fτ̄1 = E Xτ̄2,n | Fτ̄1 .

La tesi segue passando al limite per n → ∞, grazie alla (13.1.7)


h e ricordando
i che la convergenza in L1 (Ω, P )
di Xτ̄i,n implica la convergenza delle attese condizionate E Xτ̄i,n | Fτ1 (cfr. punto 12 del Teorema 5.2.10).
Nel caso in cui X è una sub-martingala, la dimostrazione è completamente analoga tranne per il fatto che
non si può dedurre l’uniforme integrabilità direttamente dalla (13.1.6) ma occorre utilizzare un argomento
leggermente più sottile: per i dettagli rimandiamo a [6], Teorema 5.13.
Il seguente utile risultato mostra che, se si considerano anche i tempi aleatori (che siano tempi d’arresto
limitati), allora la proprietà di martingala è equivalente alla proprietà di essere costante in media.
Teorema 13.1.7. [!] Sia X = (Xt )t≥0 un processo adattato, continuo a destra e sommabile (ossia tale che
Xt ∈ L1 (Ω, P ) per ogni t ≥ 0). Allora X è una martingala se e solo se E [Xτ ] = E [X0 ] per ogni τ tempo
d’arresto limitato (ossia tale che τ ≤ T per un certo T > 0).
Dimostrazione. Se X è una martingala continua a destra2 allora è costante in media sui tempi d’arresto
limitati per il Teorema 13.1.6 di optional sampling. Viceversa, essendo X adattato per ipotesi, rimane solo
da verificare che
E [Xt 1A ] = E [Xs 1A ] , s ≤ t, A ∈ Fs .
2 Sotto le ipotesi usuali sulla filtrazione, questa ipotesi non è restrittiva poiché vedremo nella Sezione 13.2 che ogni martingala
ammette una modificazione càdlàg.
13.2. MARTINGALE CÀDLÀG 325

A tal fine si considera


τ := s1A + t1Ac
che si verifica facilmente essere un tempo d’arresto limitato. Allora per ipotesi vale
E [X0 ] = E [Xτ ] = E [Xs 1A ] + E [Xt 1Ac ] ,
E [X0 ] = E [Xt ] = E [Xt 1A ] + E [Xt 1Ac ] ,
e sottraendo un’equazione dall’altra si ottiene la tesi.

13.2 Martingale càdlàg


In questa sezione proviamo che, sotto le ipotesi usuali sulla filtrazione, ogni martingala ammette una modi-
ficazione con traiettorie càdlàg e dunque l’ipotesi di continuità a destra assunta negli enunciati della sezione
precedente può essere rimossa. Proviamo dapprima che una martingala può avere solo discontinuità di
prima specie (salti di ampiezza finita) sui razionali diadici di R≥0 .
Lemma 13.2.1. Sia X = (Xt )t∈D una martingala o una sub-martingala non-negativa. Esiste un evento
trascurabile N tale che, per ogni t ≥ 0, i limiti
lim Xs (ω), lim Xs (ω) (13.2.1)
s→t − s→t +
s∈D s∈D

esistono e sono finiti per ogni ω ∈ Ω \ N . Inoltre, se sup E [|Xt |] < ∞ allora esiste ed è finito anche il limite
t∈D

lim Xt (ω). (13.2.2)


t→+∞
t∈D

Dimostrazione. L’idea della prova è la seguente. Il fatto che i limiti in (13.2.1) divergano o non esistano
è possibile solo in due casi: se sup |Xt (ω)| = ∞ oppure se esiste un intervallo non banale [a, b] che è “at-
t∈D
traversato” da X un numero infinito di volte. La disuguaglianza massimale di Doob e il lemma di risalita
escludono rispettivamente queste due eventualità o, più precisamente, implicano che si verificano solo per
ω appartenente ad un evento trascurabile.
Consideriamo prima il caso in cui κ := sup E [|Xt |] < ∞. Fissato n ∈ N, applichiamo la disuguaglianza
t∈D
massimale (11.1.7) e il Lemma 11.1.13 di risalita alla sub-martingala discreta non-negativa (|Xt |)t∈Dn ∩[0,n] :
per ogni λ > 0 e 0 ≤ a < b, abbiamo
 E [(|Xn | − a)+ ]
!
E [|Xn |] κ  κ
P max |Xt | ≥ λ ≤ ≤ , E νn,a,b ≤ ≤ ,
t∈Dn ∩[0,n] λ λ b−a b−a
dove νn,a,b è il numero di risalite di (|Xt |)t∈Dn ∩[0,n] su [a, b]. Passando al limite per n → ∞ e usando il teorema
di Beppo-Levi, abbiamo
!
κ   κ
P sup |Xt | ≥ λ ≤ , E νa,b ≤ ,
t∈D λ b −a

dove νa,b è il numero di risalite di (|Xt |)t∈D su [a, b]. Questo implica l’esistenza di due eventi trascurabili N0
e Na,b per cui vale
sup |Xt | < ∞ su Ω \ N0 , νa,b < ∞ su Ω \ Na,b .
t∈D
Anche l’evento [
N := Na,b ∪ N0
a,b∈Q
0≤a<b
326 CAPITOLO 13. MARTINGALE CONTINUE

è trascurabile: per ogni ω ∈ Ω \ N si ha che sup |Xt (ω)| < ∞ e, su ogni intervallo con estremi razionali
t∈D
non-negativi, ci sono solo un numero finito di risalite di |X(ω)|; di conseguenza i limiti in (13.2.1)-(13.2.2)
esistono e sono finiti su Ω \ N .
Consideriamo ora il caso in cui X è una martingala generica. Per ogni n ∈ N, possiamo applicare
quanto appena provato al processo stoppato (Xt∧n )t∈D . Infatti è immediato verificare che (Xt∧n )t∈D è una
martingala e vale
sup E [|Xt∧n |] ≤ E [|Xn |]
t∈D

come conseguenza del fatto che, per la Proposizione 6.4.12, (|Xt∧n |)t∈D è una sub-martingala.
Dunque i limiti in (13.2.1) esistono e sono finiti quasi certamente per t ≤ n. La tesi segue dall’arbitrarietà
di n ∈ N.

L’argomento usato nella seconda parte della dimostrazione del Lemma 13.2.1 si adatta facilmente per
provare il seguente

Teorema 13.2.2. [!] Sia X = (Xn )n∈N una martingala discreta tale che sup E [|Xn |] < ∞. Allora, per quasi
n∈N
ogni ω ∈ Ω, esiste ed è finito il limite
X∞ (ω) := lim Xn (ω).
n→∞

Nella dimostrazione del prossimo risultato è cruciale l’assunzione delle ipotesi usuali sulla filtrazione,
in particolare della continuità a destra della filtrazione.

Teorema 13.2.3. [!] Assumiamo che nello spazio su (Ω, F , P , Ft ) valgano le ipotesi usuali sulla filtrazio-
ne. Allora ogni martingala (o sub-martingala non-negativa) X = (Xt )t≥0 ammette una modificazione che è
ancora una martingala (rispettivamente, sub-martingala non-negativa) con traiettorie càdlàg.

Dimostrazione. Proviamo solo in caso in cui X è una martingala. Per il Lemma 13.2.1 le traiettorie di (Xt )t∈D
hanno limiti finiti da destra e sinistra quasi certamente. Allora è ben definito il processo

et := lim Xs ,
X t ≥ 0,
+
s→t
s∈D

che ha traiettorie càdlàg per costruzione. Proviamo che

et = E [XT | Ft ] ,
X 0≤t ≤T, (13.2.3)

da cui seguirà che X et = Xt q.c., ossia X


e è una modificazione di X, e di conseguenza anche che X e è una
martingala.
Proviamo la (13.2.3) verificando le due proprietà dell’attesa condizionata. Anzitutto, per definizione
et ∈ mFt+ = mFt grazie alle ipotesi usuali. In secondo luogo, essendo X una martingala, per ogni A ∈ Ft
X
si ha
E [Xs 1A ] = E [XT 1A ] , s ∈ [t, T ]. (13.2.4)
h i
Passando al limite in (13.2.4) per s → t + , con s ∈ D ∩ (t, T ], si ha E X et 1A = E [XT 1A ] che prova la (13.2.3). Il
passaggio al limite è giustificato dal Teorema A.3.0.2 di convergenza di Vitali poiché Xs = E [XT | Fs ], con
s ∈ D ∩ (t, T ], è uniformemente integrabile per la Proposizione A.3.0.7.

Esempio 13.2.4. Per ogni variabile aleatoria sommabile X esiste una versione càdlàg della martingala Mt :=
E [X | Ft ].

Osservazione 13.2.5. [!] Alla luce del Teorema 13.2.3 d’ora in poi, data una martingala rispetto a una
filtrazione che verifica ipotesi usuali, assumiamo implicitamente di considerarne sempre una versione càdlàg.
13.3. MARTINGALE CONTINUE DI QUADRATO SOMMABILI: LO SPAZIO M c,2 327

13.3 Martingale continue di quadrato sommabili: lo spazio M c,2


In questa sezione introduciamo lo spazio dei processi su cui costruiremo l’integrale stocastico e provia-
mo che si tratta di uno spazio di Banach.
Definizione 13.3.1. Fissato T > 0, indichiamo con MTc,2 lo spazio delle martingale continue X = (Xt )t∈[0,T ]
di quadrato sommabili, ossia tali che
q h i
∥X∥T := ∥XT ∥L2 (Ω,P ) = E XT2 < ∞.

Indichiamo con M c,2 lo spazio delle martingale continue X = (Xt )t≥0 tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0.
Osservazione 13.3.2. Notiamo che ∥ · ∥T è una semi-norma in MTc,2 , nel senso che ∥X∥T = 0 se e solo se X è
indistinguibile dal processo identicamente nullo. Questo fatto è conseguenza dell’ipotesi di continuità di X
e della disuguaglianza massimale di Doob in base alla quale si ha
 
h i
2
E  sup Xt  ≤ 4E XT2 = 4∥X∥2T .
 
t∈[0,T ]

Identificando i processi indistinguibili di MTc,2 e quindi considerando MTc,2 come lo spazio delle classi di
equivalenza di processi (nel senso dell’indistinguibilità), si ottiene uno spazio normato completo.
Proposizione 13.3.3. (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.
Dimostrazione. Sia (Xn )n∈N una successione di Cauchy in MTc,2 rispetto a ∥ · ∥T . Basta mostrare che (Xn )n∈N
ammette una sotto-successione convergente in MTc,2 .
Per la disuguaglianza massimale di Doob (13.1.4), per ogni ε > 0 e n, m ∈ N si ha
   
  E |Xn,T − Xm,T |
P  sup |Xn,t − Xm,t | ≥ ε ≤ ≤
t∈[0,T ] ε
(per la disuguaglianza di Hölder)
h i1
E |Xn,T − Xm,T |2 2 ∥Xn − Xm ∥T
≤ = .
ε ε
Di conseguenza, per ogni k ∈ N esiste nk ∈ N tale che
 
 1  1
P  sup |Xn,t − Xm,t | ≥  ≤ k , n, m ≥ nk ,
t∈[0,T ] k 2
e per il Lemma 2.3.28 di Borel-Cantelli Xnk ,· converge uniformemente su [0, T ] quasi certamente: il valore
limite, che indichiamo con X, è un processo continuo (possiamo porre a zero le traiettorie non continue).
 Fissiamo
 t ∈ [0, T ]: per la disuguaglianza di Doob (13.1.5), anche la successione di variabili aleatorie
Xnk ,t è di Cauchy in L2 (Ω, P ) che è uno spazio completo e, per l’unicità del limite, converge a Xt nel
k∈N
senso che  2 
lim E Xt − Xnk ,t = 0. (13.3.1)
k→∞
In particolare, se t = T , si ha
lim X − Xnk T = 0.
k→∞
Infine proviamo che X è una martingala. Per 0 ≤ s ≤ t ≤ T e G ∈ Fs si ha
h i h i
E Xnk ,t 1G = E Xnk ,s 1G

poiché Xnk ∈ MTc,2 . Passando al limite per n → ∞ grazie alla (13.3.1) si ha E [Xt 1G ] = E [Xs 1G ] che prova la
tesi.
328 CAPITOLO 13. MARTINGALE CONTINUE

13.4 Martingale locali: lo spazio M c,loc


Una delle principali motivazioni per l’introduzione dei tempi d’arresto è il fatto che essi permetto-
no l’utilizzo di tecniche, dette “di localizzazione”, che permettono di indebolire fortemente le ipotesi di
sommabilità. In questa sezione analizziamo il caso specifico delle martingale.
Consideriamo uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali. Il concetto
di martingala locale estende quello di martingala rimuovendo la condizione di sommabilità del processo.
In questo modo si possono includere importanti classi di processi (per esempio, gli integrali stocastici) che
sono martingale solo se stoppate (o “localizzate”). Osserviamo anzitutto che, come nel caso discreto (cfr.
Proposizione 11.1.7), la proprietà di martingala si conserva stoppando il processo.
Corollario 13.4.1 (Martingala stoppata). Siano X = (Xt )t≥0 una martingala (càdlàg) e τ0 un tempo d’arre-
sto. Allora anche il processo stoppato (Xt∧τ0 )t≥0 è una martingala.
Dimostrazione. Essendo X càdlàg e adattato per ipotesi, per la Proposizione 11.2.30 si ha Xt∧τ0 ∈ mFt∧τ0 ⊆
h i
mFt . Inoltre, per il Teorema 13.1.6 Xt∧τ0 = E Xt | Ft∧τ0 ∈ L1 (Ω, P ) per ogni t ≥ 0. Ancora per il Teorema
h i
13.1.6, per ogni tempo d’arresto limitato τ si ha E Xτ∧τ0 = E [X0 ] e quindi la tesi segue dal Teorema 13.1.7.

Definizione 13.4.2 (Martingala locale). Diciamo che X = (Xt )t≥0 è una martingala locale se X0 ∈ mF0 ed
esiste una successione crescente (τn )n∈N di tempi d’arresto, detta successione localizzante per X, tale che:
i) τn ↗ ∞ per n → ∞;
ii) per ogni n ∈ N, il processo stoppato e traslato (Xt∧τn − X0 )t≥0 è una martingala.

Indichiamo con M c,loc lo spazio delle martingale locali continue.


Per il Corollario 13.4.1 ogni martingala (càdlàg) è una martingala locale con successione localizzante
τn ≡ ∞.
Esempio 13.4.3. Consideriamo il processo costante X = (Xt )t≥0 con Xt ≡ X0 ∈ mF0 per ogni t ≥ 0. Se
X0 ∈ L1 (Ω, P ) allora X è una martingala. Se X0 < L1 (Ω, P ), il processo X non è una martingala a causa della
mancanza di sommabilità ma è ovviamente una martingala locale: infatti, posto τn ≡ ∞, si ha Xt∧τn −X0 ≡ 0.
Esempio 13.4.4. Sia W un moto Browniano su (Ω, F , P , Ft ) e Y ∈ mF0 . Allora il processo

Xt := Y Wt

è adattato. Inoltre, se Y ∈ L1 (Ω, P ), essendo Wt = Wt − W0 e Y indipendenti, si ha anche Xt ∈ L1 (Ω, P ) per


ogni t ≥ 0 e
E [Y Wt | Fs ] = Y E [Wt | Fs ] = Y Ws , s ≤ t,
da cui segue che X è una martingala.
Senza ulteriori ipotesi su Y a parte la F0 -misurabilità, il processo X può non essere una martingala per
la mancanza di sommabilità ma è comunque una martingala locale: l’idea è di rimuovere le traiettorie in
cui Y è “troppo grande” ponendo 
0 se |Y | > n,


τn := 
∞ se |Y | ≤ n,

che definisce una successione crescente di tempi d’arresto (si noti che (τn ≤ t) = (|Y | > n) ∈ F0 ⊆ Ft ). Allora,
per ogni n ∈ N, il processo
t 7→ Xt∧τn = Xt 1(τn =∞) = Wt Y 1(|Y |≤n)
è una martingala poiché è del tipo Wt Ȳ con Ȳ = Y 1(|Y |≤n) variabile aleatoria limitata.
13.5. MARTINGALE UNIFORMEMENTE IN L2 329

Osservazione 13.4.5. Se X è una martingala locale con successione localizzante (τn )n∈N allora:

i) X ha una modificazione con traiettorie càdlàg che si costruisce a partire dall’esistenza di una modi-
ficazione càdlàg di ogni martingala Xt∧τn . Nel seguito, il fatto che X sia càdlàg sarà implicitamente
assunto per ipotesi;

ii) X è adattato poiché X0 ∈ mF0 per definizione e Xt − X0 è limite puntuale di Xt∧τn − X0 che è mFt -
misurabile per definizione di martingala;

iii) a priori Xt non gode di nessuna proprietà di sommabilità;

iv) se X ha traiettorie càdlàg allora esiste una successione localizzante (τ̄n )n∈N tale che

|τ̄n | ≤ n, Xt∧τ̄n ≤ n, t ≥ 0, n ∈ N.

Infatti, per la Proposizione 11.2.7, il tempo di uscita σn di |X| dall’intervallo [−n, n] è un tempo d’ar-
resto; inoltre, poiché X è càdlàg (e quindi ogni traiettoria di X è limitata su ogni intervallo temporale
compatto) si ha σn ↗ ∞. Allora
τ̄n := τn ∧ σn ∧ n
è una successione localizzante per X: in particolare, poiché Xt∧τn − X0 è una martingala, per il
Corollario 13.4.1 anche Xt∧τ̄n − X0 = X(t∧τ̄n )∧(σn ∧n) − X0 lo è;

v) se esiste Y ∈ L1h(Ω, P ) tale che i|Xt | ≤ Y per ogni t ≥ 0, allora X è una martingala: infatti per s ≤ t si ha
Xs∧τn − X0 = E Xt∧τn − X0 | Fs che, grazie all’ipotesi di sommabilità, equivale a
h i
Xs∧τn = E Xt∧τn | Fs . (13.4.1)

La tesi segue passando al limite per n → ∞ e utilizzando il Teorema della convergenza dominata
per l’attesa condizionata. In particolare, ogni martingala locale limitata è una martingala. Il pas-
saggio al limite in (13.4.1) è una questione molto delicata: per esempio, esistono martingale locali
uniformemente integrabili che non sono martingale3 ;

vi) se X ≥ 0 allora X è una super-martingala poiché, ragionando come nel punto precedente e utilizzando
il lemma di Fatou invece del Teorema della convergenza dominata, si ottiene

Xs ≥ E [Xt | Fs ] , 0≤s ≤t ≤T. (13.4.2)

Inoltre, se E [XT ] = E [X0 ] allora (Xt )t∈[0,T ] è una vera martingala. Infatti, da (13.4.2) è facile dedurre

E [X0 ] ≥ E [Xt ] ≥ E [XT ] , 0≤t ≤T,

e quindi dall’ipotesi si ha E [Xt ] = E [X0 ] per ogni t ∈ [0, T ]. Se fosse Xs > E [Xt | Fs ] su un evento non
trascurabile, avremmo una contraddizione dalla (13.4.2).

13.5 Martingale uniformemente in L2


In questa sezione proviamo un’ulteriore versione del teorema di optional sampling. Sia (Ω, F , P , Ft )
uno spazio con filtrazione che soddisfa le ipotesi usuali. Per trattare il caso in cui l’indice temporale varia
in R≥0 introduciamo una condizione di sommabilità che permetterà, con argomenti basati sull’utilizzo di
tempi d’arresto, di ricondursi facilmente al caso [0, T ].
3 Si veda, per esempio, il Capitolo 2 in [34].
330 CAPITOLO 13. MARTINGALE CONTINUE

Definizione 13.5.1. Sia p ≥ 1. Diciamo che un processo X = (Xt )t≥0 è uniformemente in Lp se

sup E [|Xt |p ] < ∞.


t≥0

Proposizione 13.5.2. Sia X = (Xt )t≥0 una martingala. Sono equivalenti le seguenti affermazioni:
i) X è uniformemente in L2 ;
ii) esiste una v.a. X∞ ∈ L2 (Ω, P ) e F∞ -misurabile4 , tale che

Xt = E [X∞ | Ft ] , t ≥ 0.

In tal caso vale anche " #


h i
E sup Xt2 2
≤ 4E X∞ . (13.5.1)
t≥0

Dimostrazione. [ii) ⇒ i)] Per la disuguaglianza di Jensen si ha


h i h i h h ii h i
E Xt2 = E E [X∞ | Ft ]2 ≤ E E X∞ 2 2
| Ft = E X∞ < ∞. (13.5.2)

[i) ⇒ ii)] Consideriamo la martingala discreta (Xn )n∈N . Per il Teorema 13.2.2, per quasi ogni ω ∈ Ω esiste ed
è finito il limite
X∞ (ω) := lim Xn (ω)
n→∞

e poniamo X∞ (ω) = 0 per gli ω per cui tale limite non esiste o non è finito. Chiaramente X∞ ∈ mF∞ e
inoltre X∞ ∈ L2 (Ω, P ) poiché per il lemma di Fatou vale
h i h i h i
2
E X∞ ≤ lim E Xn2 ≤ sup E Xt2 < ∞
n→∞ t≥0

per ipotesi. Grazie all’Osservazione A.3.0.10, (Xn )n∈N è uniformemente integrabile e quindi per il Teorema
A.3.0.2 di Vitali si ha anche che Xn converge a X∞ in L1 (Ω, P ): da questo segue anche che

Xn = E [X∞ | Fn ] , n ∈ N; (13.5.3)

infatti, usando la definizione di attesa condizionata, è sufficiente osservare che per ogni A ∈ Fn si ha

0 = lim E [(Xn − XN )1A ] = E [(Xn − X∞ )1A ] .


N →∞

Allora, dato t ≥ 0 e preso n ≥ t, si ha

Xt = E [Xn | Ft ] = E [E [X∞ | Fn ] | Ft ] = E [X∞ | Ft ] .

Infine, per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha


 
h i
E  sup Xt  ≤ 4E Xn2 ≤
2
 

t∈[0,n]

(per la (13.5.3) e procedendo come nella prova della (13.5.2))


h i
2
≤ 4E X∞

e la (13.5.1) segue passando al limite per n → +∞, per il Teorema di Beppo-Levi.


4 Si ricordi la definizione di F in (11.2.5).

13.5. MARTINGALE UNIFORMEMENTE IN L2 331
h i
Esempio 13.5.3. Un moto Browniano reale W non è uniformemente in L2 poiché E Wt2 = t. Tuttavia, per
ogni fissato T > 0, il processo Xt := Wt∧T è una martingala uniformemente in L2 con X∞ = WT .
Il prossimo risultato è una versione del Teorema di optional sampling per martingale uniformemente
in L2 . Tale condizione di sommabilità è necessaria come risulta evidente dal seguente esempio: dati un
moto Browniano reale W e a > 0, consideriamo il tempo d’arresto τa = inf{t ≥ 0 | Wt ≥ a}. Abbiamo visto
nell’Osservazione 12.2.3-ii) che τa < ∞ q.c. ma
h i
0 = W0 < E Wτa = a.

Teorema 13.5.4 (Teorema di optional sampling). [!] Sia X = (Xt )t≥0 una martingala (càdlàg) uniforme-
mente in L2 . Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 < ∞ allora si ha
h i
Xτ1 = E Xτ2 | Fτ1 .

Dimostrazione. Cominciamo col provare che se X = (Xt )t≥0 è una sub-martingala càdlàg uniformemente in
L2 , allora per ogni tempo d’arresto τ finito q.c. (ossia P (τ < ∞) = 1) vale

X0 ≤ E [Xτ | F0 ] . (13.5.4)

Osserviamo anzitutto che se τ è un tempo d’arresto finito q.c. allora Xτ ∈ L2 (Ω, P ) per la (13.5.1). Ap-
plicando il Teorema 13.1.6 di optional sampling con la successione di tempi d’arresto limitati τ ∧ n, si
ha
X0 ≤ E [Xτ∧n | F0 ] . (13.5.5)
Passando al limite per n → ∞ si ha (13.5.4): il passaggio al limite nel membro a destra della (13.5.5) è
giustificato dal teorema della convergenza dominata poiché

|Xτ∧n | ≤ 1 + sup Xt2 ∈ L1 (Ω, P )


t≥0

grazie alla (13.5.1).


Per provare la tesi è sufficiente verificare che per ogni A ∈ Fτ1 vale
h i h i
E Xτ1 1A = E Xτ2 1A . (13.5.6)

Consideriamo
τ := τ1 1A + τ2 1Ac
che è un tempo d’arresto poiché

(τ < t) = (A ∩ (τ1 < t)) ∪ (Ac ∩ (τ2 < t)) ∈ Ft , t ≥ 0.

Allora per la (13.5.4) si ha


h i h i
E [X0 ] = E [Xτ ] = E Xτ1 1A + E Xτ2 1Ac ,
h i h i h i
E [X0 ] = E Xτ1 = E Xτ1 1A + E Xτ1 1Ac ,

da cui la (13.5.6).
332 CAPITOLO 13. MARTINGALE CONTINUE
Capitolo 14

Teoria della variazione

In questo capitolo facciamo alcuni richiami di teoria dell’integrazione deterministica secondo Riemann-
Stieltjes e Lebesgue-Stieltjes. Le traiettorie del moto Browniano (e, in generale, delle martingale) non han-
no la regolarità sufficiente per poter utilizzare tali teorie al fine di definire l’integrale Browniano in senso
deterministico, traiettoria per traiettoria. Questo fatto viene precisato tramite i concetti di variazione pri-
ma e seconda (o quadratica) di una funzione che sono cruciali nella costruzione dell’integrale stocastico.
Successivamente introduciamo un’importante classe di processi stocastici chiamati semimartingale. Una
semimartingala è la somma di una martingala locale con un processo le cui traiettorie hanno variazione
prima limitata: sotto opportune ipotesi, tale decomposizione è unica. Proviamo una versione particolare
del fondamentale Teorema di decomposizione di Doob-Meyer: se X è una martingala allora X 2 è una se-
mimartingala, ossia può essere decomposto nella somma di una martingala e di un processo a variazione
limitata: quest’ultimo è il cosiddetto processo variazione quadratica di X. I risultati di questo capitolo sono
alla base della definizione di integrale stocastico che daremo in seguito.

14.1 Integrale di Riemann-Stieltjes


In questa sezione richiamiamo alcuni risultati classici sull’integrazione in ambito deterministico. Fissa-
to T > 0, una partizione dell’intervallo [0, T ] è un insieme del tipo π = {t0 , t1 , . . . , tN } con 0 = t0 < t1 < · · · <
tN = T . Indichiamo con PT l’insieme delle partizioni di [0, T ]. Data una funzione

g : [0, T ] −→ Rd

la variazione prima di g su π ∈ PT è definita da


N
X
V (g; π) = |g(tk ) − g(tk−1 )| .
k=1

Definizione 14.1.1 (Funzione BV). Si dice che g ha variazione limitata su [0, T ], e si scrive g ∈ BVT , se

VT (g) := sup V (g; π) < ∞.


π∈PT

Si dice che
g : R≥0 −→ Rd
è localmente a variazione limitata, e si scrive g ∈ BV, se g|[0,T ] ∈ BVT per ogni T > 0.

Si noti che la funzione t 7→ Vt (g) è crescente e non-negativa.

333
334 CAPITOLO 14. TEORIA DELLA VARIAZIONE

Esempio 14.1.2. i) Sia d = 1. Se g è una funzione monotona su [0, T ] allora g ∈ BVT . Infatti se, per
esempio, g è crescente allora
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| = (g(tk ) − g(tk−1 )) = g(T ) − g(0)
k=1 k=1

per ogni π ∈ PT . Nel caso d = 1 la monotonia è pressoché una caratterizzazione: è noto che g ∈ BVT
se e solo se g è differenza di funzioni monotone crescenti, g = g+ − g− . Inoltre, se g è continua allora
anche g+ e g− lo sono.
ii) Non è difficile mostrare che, se g è continua allora

VT (g) = lim V (g; π) (14.1.1)


|π|→0

dove
|π| := max |tk − tk−1 |
1≤k≤N

è detto parametro di finezza di π. Interpretando t 7→ g(t) come una traiettoria (o curva parametrizzata)
in Rd , il fatto che g ∈ BVT significa che g è una traiettoria rettificabile (ossia, con lunghezza appros-
simabile mediante spezzate) e, per definizione, VT (g) è la lunghezza di g. La (14.1.1) non vale se g è
discontinua: per esempio, fissato s ∈ ]0, T [, la funzione

1 se t = s,


g(t) = 
0 se t ∈ [0, s[∪ ]s, T ],

è tale che V (g; π) = 2 per ogni π ∈ PT tale che s ∈ π e V (g; π) = 0 per ogni π ∈ PT tale che s < π.
iii) Se g ∈ Lip([0, T ]; Rd ), ossia esiste una costante c tale che |g(t) − g(s)| ≤ c|t − s| per ogni t, s ∈ [0, T ], allora
g ∈ BVT poiché
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| ≤ c (tk − tk−1 ) = cT
k=1 k=1
per ogni π ∈ PT .
iv) Se g è una funzione integrale del tipo
Z t
g(t) = u(s)ds, t ∈ [0, T ],
0

con u ∈ L1 ([0, T ]; Rd ) allora g ∈ BVT poiché


N Z tk
N Z
X X tk
V (g; π) = u(s)ds ≤ |u(s)|ds = ∥u∥L1 ,
k=1 tk−1 tk−1
k=1

per ogni π ∈ PT .
v) Non è difficile provare che la funzione

0 se t = 0,


g(t) = 
t sin 1t
 se 0 < t ≤ T ,

è continua ma non ha variazione limitata.


14.1. INTEGRALE DI RIEMANN-STIELTJES 335

Introduciamo ora l’integrale di Riemann-Stieltjes. Data π = {t0 , . . . , tN } ∈ PT , indichiamo con Tπ la


famiglia delle scelte di punti relative a π: un elemento di Tπ è della forma

τ = {τ1 , . . . , τN }, τk ∈ [tk−1 , tk ], k = 1, . . . , N .

Date due funzioni f , g : [0, T ] −→ R, π ∈ PT e τ ∈ Tπ , diciamo che


N
X
S(f , g; π, τ) := f (τk )(g(tk ) − g(tk−1 ))
k=1

è la somma di Riemann-Stieltjes di f rispetto a g, relativamente alla partizione π e alla scelta di punti τ.


Proposizione 14.1.3 (Integrale di Riemann-Stieltjes). Per ogni f ∈ C[0, T ] e g ∈ BVT esiste ed è finito il
limite
lim S(f , g; π, τ). (14.1.2)
|π|→0

Tale limite è chiamato integrale di Riemann-Stieltjes di f rispetto a g su [0, T ] ed indicato con


ZT ZT
f dg oppure f (t)dg(t).
0 0

Più precisamente, per ogni ε > 0 esiste δε > 0 tale che


ZT

S(f , g; π, τ) − f dg < ε
0

per ogni π ∈ PT , con |π| < δε , e τ ∈ Tπ .


Dimostrazione. Usiamo il criterio di Cauchy e mostriamo che per ogni ε > 0 esiste δε > 0 tale che

S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) < ε

per ogni π′ , π′′ ∈ PT tali che |π′ |, |π′′ | < δε e per ogni τ ′ ∈ Tπ′ e τ ′′ ∈ Tπ′′ .
Poniamo π = π′ ∪ π′′ = {t0 , . . . , tN }. Poiché f è uniformemente continua sul compatto [0, T ], fissato ε > 0
esiste δε > 0 tale che, per |π′ |, |π′′ | < δε , si ha

N
X
S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) ≤ ε |g(tk ) − g(tk−1 )| ≤ εV (g; π)
k=1

da cui segue la tesi.


Vediamo alcuni casi particolari in cui si riesce a calcolare un integrale di Riemann-Stieltjes a partire
dalla definizione generale (14.1.2).
Esempio 14.1.4. Fissato t̄ ∈ ]0, T [, sia 
0 se t ∈ [0, t̄[,


g(t) = 
1 se t ∈ [t̄, T ].

Per ogni f ∈ C[0, T ], π = {t0 , . . . , tN } ∈ PT e τ ∈ Tπ , sia k̄ l’indice per cui vale t̄ ∈ ]tk̄−1 , tk̄ ]. Allora si ha

S(f , g; π, τ) = f (τk̄ ) (g(tk̄ ) − g(tk̄−1 )) = f (τk̄ ) −−−−−→ f (t̄).


|π|→0

Dunque
Z T
f dg = f (t̄).
0
336 CAPITOLO 14. TEORIA DELLA VARIAZIONE

Si noti che Z T Z
f (t)dg(t) = f (t)δt̄ (dt)
0 [0,T ]
dove il membro a destra è l’integrale rispetto alla misura delta di Dirac centrata in t̄.
Esempio 14.1.5. Sia Z t
g(t) = u(s)ds, t ∈ [0, T ],
0
la funzione integrale (di Lebesgue) dell’Esempio 14.1.2-iv), con u ∈ L1 ([0, T ]; R). A meno di considerare
separatamente la parte positiva e negativa di u, non è restrittivo assumere u ≥ 0. Date π ∈ PT e f ∈ C[0, T ],
consideriamo la particolare scelta di punti
τk ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ]

Allora si ha
N
X
S(f , g; π, τ) = f (τk )(g(tk ) − g(tk−1 ))
k=1
N
X Z tk
= f (τk ) u(s)ds
k=1 tk−1

XN Z tk Z T
≤ f (s)u(s)ds = f (s)u(s)ds.
k=1 tk−1 0

Si prova una disuguaglianza analoga con la scelta


τk ∈ arg max f , k = 1, . . . , N .
[tk−1 ,tk ]

e, passando al limite per |π| → 0, si conclude che


ZT Z T
f (t)dg(t) = f (t)u(t)dt.
0 0

Il risultato generale che fornisce le regole di calcolo per l’integrale di Riemann-Stieltjes è la seguente
importante formula di Itô.
Teorema 14.1.6 (Formula di Itô deterministica). Per ogni F = F(t, x) ∈ C 1 ([0, T ] × R) e g ∈ BVT ∩ C[0, T ]
vale ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∂x F)(t, g(t))dg(t)
0 0
Dimostrazione. Per ogni π = {t0 , . . . , tN } ∈ PT si ha
N
X
F(T , g(T )) − F(0, g(0)) = (F(tk , g(tk )) − F(tk−1 , g(tk−1 ))) =
k=1

(per il teorema del valor medio e la continuità di g, con τ ′ , τ ′′ ∈ Tπ )


N 
X 
= (∂t F)(τk′ , g(τk′′ ))(tk − tk−1 ) + (∂x F)(τk′ , g(τk′′ )) (g(tk ) − g(tk−1 ))
k=1

da cui la tesi, passando al limite per |π| → 0.


14.2. INTEGRALE DI LEBESGUE-STIELTJES 337

Osservazione 14.1.7. Nel caso in cui F dipenda solo da x, la formula di Itô diventa
ZT
F(g(T )) − F(g(0)) = F ′ (g(t))dg(t)
0

che viene a volte scritta, soprattutto nell’ambito del calcolo stocastico (cfr. Notazione 15.3.4), con la
cosiddetta “notazione differenziale”
dF(g(t)) = F ′ (g(t))dg(t). (14.1.3)
Quest’ultima formalmente ricorda l’usuale regola di derivazione di funzione composta.
Nel caso multidimensionale in cui g = (g1 , . . . , gd ) sia a valori in Rd , posto ∇x = (∂x1 , . . . , ∂xd ), la formula
di Itô diventa
ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t)
0 0
Z T d Z
X T
= (∂t F)(t, g(t))dt + (∂xi F)(t, g(t))dgi (t)
0 i=1 0

o in notazione differenziale

dF(t, g(t)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t).

Esempio 14.1.8. Consideriamo alcuni esempi di applicazione della formula di Itô:


i) se F(t, x) = x si ha
Z T
g(T ) − g(0) = dg
0
che generalizza il teorema fondamentale del calcolo integrale;
ii) se F(t, x) = f (t)x, con f ∈ C 1 [0, T ], si ha
Z T Z T
f (T )g(T ) − f (0)g(0) = f ′ (t)g(t)dt + f (t)dg(t)
0 0

che generalizza la formula di integrazione per parti. In forma differenziale abbiamo

d(f (t)g(t)) = f ′ (t)g(t)dt + f (t)dg(t) (14.1.4)

che formalmente ricorda la formula per la derivata di un prodotto;


iii) se F(t, x) = x2 si ha
T
g 2 (T ) − g 2 (0)
Z
g(t)dg(t) = .
0 2

14.2 Integrale di Lebesgue-Stieltjes


Ricordiamo che una funzione g ∈ BV ∩ C(R≥0 ), a valori reali, si decompone nella differenza g = g+ − g−
con g+ , g− funzioni crescenti e continue. Per il Teorema 2.4.33, a g+ e g− sono associate due misure su1
(R≥0 , B) che indichiamo rispettivamente µ+g e µ−g , per le quali vale

µ±g ([a, b]) = µ±g (]a, b]) = g± (b) − g± (a), a ≤ b.


1 Definiamo le misure su R
≥0 poiché lo spazio dei reali non-negativi sarà nel seguito l’insieme degli indici temporali dei processi
stocastici. Per applicare il Teorema 2.4.33, possiamo prolungare le funzioni g+ , g− in modo che siano continue e costanti per t ≤ 0.
Tutti i risultati della sezione valgono ovviamente su (R, B).
338 CAPITOLO 14. TEORIA DELLA VARIAZIONE

In realtà per applicare il Teorema 2.4.33 sarebbe sufficiente assumere g continua da destra (come nell’E-
sempio 14.1.4 in cui µg = δt̄ ). Tuttavia, per semplificare la trattazione, assumeremo g continua anche perché
in seguito studieremo l’integrale stocastico solo con integratori continui. Indichiamo

|µg | := µ+g + µ−g

la misura somma di µ+g e µ−g . Inoltre, per ogni H ∈ B tale che almeno uno fra µ+g (H) e µ−g (H) sia finito,
poniamo
µg (H) = µ+g (H) − µ−g (H). (14.2.1)
Diciamo che µg è una misura con segno poiché può assumere anche valori negativi, compreso −∞.

Definizione 14.2.1 (Misura di Lebesgue-Stieltjes). Data g ∈ BV ∩ C(R≥0 ), diciamo che µg in (14.2.1) è


la misura di Lebesgue-Stieltjes associata a g. Per ogni H ∈ B e f ∈ L1 (H, |µg |), definiamo l’integrale di
Lebesgue-Stieltjes di f rispetto a g su H come
Z Z Z
f dµg := f dµ+g − f dµ−g .
H H H

L’integrale di Lebesgue-Stieltjes generalizza l’integrale di Riemann-Stieltjes, estendendo la classe delle


funzioni integrabili.

Proposizione 14.2.2 (Riemann-Stieltjes vs Lebesgue-Stieltjes). Per ogni f ∈ C(R≥0 ), g ∈ BV ∩ C(R≥0 ) e


T > 0, si ha ZT Z
f dg = f dµg .
0 [0,T ]

Dimostrazione. Data π = {t0 , . . . , tN } ∈ PT , consideriamo le funzioni semplici


N
X
fπ± (t) = f (τk± )1[tk−1 ,tk [ (t)
k=1

con
τk+ ∈ arg max f , τk− ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ] [tk−1 ,tk ]

Allora si ha
N
X Z Z Z N
X
f (τk− ) (g+ (tk ) − g+ (tk−1 )) = fπ− dµ+g ≤ f dµ+g ≤ fπ+ dµ+g = f (τk+ ) (g+ (tk ) − g+ (tk−1 )) .
k=1 [0.T ] [0,T ] [0.T ] k=1

Passando al limite per |π| → 0, otteniamo


Z T Z
f dg+ = f dµ+g
0 [0,T ]

e la prova si conclude procedendo in maniera analoga con g− .

Diamo un risultato tecnico che sarà utilizzato in seguito (si veda, per esempio, il Teorema 16.2.1).

Proposizione 14.2.3. In uno spazio (Ω, F , P , (Ft )t≥0 ) in cui sono valide le ipotesi usuali, siano:

• τ un tempo d’arresto finito, ossia tale che τ < ∞ q.c.;

• A un processo continuo, crescente e adattato con A0 = 0;


14.3. SEMIMARTINGALE 339

• X una variabile aleatoria sommabile e non negativa.

Allora si ha "Z τ # "Z τ #


E XdAt = E E [X | Ft ] dAt
0 0

che più precisamente significa che vale l’identità


"Z τ # "Z τ #
E XdAt = E Mt dAt
0 0

per ogni M che sia una versione càdlàg della martingala E [X | Ft ].

Dimostrazione. Assumiamo dapprima che A e X siano limitati q.c. da un certo N ∈ N. Fissato n ∈ N,


poniamo τk = kτ
n per k = 0, . . . , n. Si ha
 n 
"Z τ #
X  
E XdAt = E  X Aτk − Aτk−1 
0 k=1
 n 
 X h i 
= E   E X | Fτk Aτk − Aτk−1 
k=1
 n 
 X  
= E   Mτk Aτk − Aτk−1 
k=1
"Z τ #
(n)
=E Mt dAt
0

dove
n
(n)
X
Mt = M0 + Mτk 1]τk−1 ,τk ] (t).
k=1

Per la continuità a destra di M, si ha


(n)
lim Mt (ω) = Mt (ω)
n→∞

per quasi ogni ω tale che t ≤ τ(ω). Data la limitatezza di X e quindi di M, la tesi segue dal teorema della
convergenza dominata. In generale, è sufficiente applicare quanto appena provato a X ∧ N , A ∧ N e usare il
teorema di Beppo-Levi al tendere di N → ∞.

14.3 Semimartingale
Definizione 14.3.1. Diciamo che un processo X = (Xt )t≥0 è

• crescente se le traiettorie t 7→ Xt (ω) sono funzioni crescenti2 per quasi ogni ω ∈ Ω;

• localmente a variazione limitata se X(ω) ∈ BV per quasi ogni ω ∈ Ω (cfr. Definizione 14.1.1). Per bre-
vità spesso ometteremo l’aggettivo “localmente” e parleremo semplicemente di processi a variazione
limitata, usando ancora la notazione BV per indicare la famiglia di tali processi;

• una semimartingala se è della forma X = M + A dove M è una martingala locale e A è un processo


adattato, a variazione limitata e tale che A0 = 0.
2 Ossia X (ω) ≤ X (ω) se s ≤ t.
s t
340 CAPITOLO 14. TEORIA DELLA VARIAZIONE

L’interesse per le semimartingale è dovuto al fatto che utilizzeremo tali processi come integratori nel-
l’integrale stocastico di Itô. Ci limiteremo a considerare semimartingale continue, ossia processi della forma
X = M + A con M ∈ M c,loc (cfr. Definizione 13.4.2) e A continuo, adattato e a variazione limitata.
Esempio 14.3.2. Siano x, µ, σ ∈ R e W un moto Browniano standard. Il moto Browniano con drift

Xt := x + µt + σ Wt , t ≥ 0,

è una semimartingala continua con decomposizione X = M + A dove Mt = x + σ Wt e At = µt. Proveremo nel


Corollario 14.3.7 che la decomposizione di una semimartingala continua è unica.
Osservazione 14.3.3. Un risultato profondo, il Teorema di decomposizione di Doob-Meyer, afferma che
ogni sub-martingala càdlàg è una semimartingala: a differenza del caso discreto (cfr. Teorema 6.4.15), la
prova di questo fatto è tutt’altro che elementare.
In [101], Cap. IV Teorema 71, si prova che se X è una martingala locale continua, X ∈ M c,loc , con X0 = 0
e 0 < α < 21 allora il processo |X|α non è una semimartingala a meno che X non sia identicamente nullo.

14.3.1 Il moto Browniano come semimartingala


Un moto Browniano W è una martingala continua e quindi anche una semimartingala. Per mostrare che
la sua parte BV è nulla (e quasi tutte le traiettorie di W non sono BV), introduciamo il concetto di variazione
seconda (o quadratica) di una funzione g relativa alla partizione π = {t0 , t1 , . . . , tN } ∈ PT :
N
(2)
X
VT (g; π) := |g(tk ) − g(tk−1 )|2 . (14.3.1)
k=1

Proposizione 14.3.4. Se g ∈ BVT ∩ C[0, T ] allora


(2)
lim VT (g; π) = 0.
|π|→0

Dimostrazione. Essendo g uniformemente continua sull’intervallo compatto [0, T ], per ogni ε > 0 esiste
δε > 0 tale che
max |g(tk ) − g(tk−1 )| < ε
1≤k≤N
per ogni π ∈ PT tale che |π| < δε . Di conseguenza
N
(2)
X
VT (g; π) ≤ ε |g(tk ) − g(tk−1 )| ≤ εVT (g).
k=1

Esempio 14.3.5. [!] Se W un moto Browniano reale allora


(2)
lim VT (W ; π) = T in L2 (Ω, P ), (14.3.2)
|π|→0

e di conseguenza quasi certamente le traiettorie di W non hanno variazione limitata.


Per provare la (14.3.2), data una partizione π = {t0 , t1 , . . . , tN } ∈ PT , poniamo

δk = tk − tk−1 , ∆k = Wtk − Wtk−1 , k = 1, . . . , N ,


h i
e osserviamo che E ∆4k = 3δk2 e
h i h  i h  h ii
E ∆2k − δk = 0, E ∆2h − δh ∆2k − δk = E ∆2h − δh E ∆2k − δk | Fth = 0 (14.3.3)
14.3. SEMIMARTINGALE 341

se h < k. Allora si ha

N 
2 
" 2 #
(2)
X  
2
E VT (W ; π) − T = E  ∆k − δk  

 
k=1
N
X  2  X h  i
= E ∆2k − δk +2 E ∆2h − δh ∆2k − δk =
k=1 h<k

(sviluppando il primo quadrato e osservando che i termini della seconda somma sono nulli per la (14.3.3))
N
X h i
= E ∆4k − 2∆2k δk + δk2 =
k=1

(ancora per le (14.3.3))


N
X N
X
= 2δk2 ≤ 2|π| δk = 2|π|T
k=1 k=1

da cui la tesi.

14.3.2 Semimartingale a variazione limitata


Nell’Esempio 14.3.5 abbiamo ripetutamente utilizzato la proprietà di martingala per provare che W
ha variazione quadratica positiva e quindi non ha variazione prima limitata. In effetti, questo risultato si
estende a tutta la classe delle martingale locali continue le cui traiettorie non hanno variazione limitata a
meno che non siano identicamente nulle.
Teorema 14.3.6. [!] Sia X = (Xt )t≥0 una martingala locale continua, X ∈ M c,loc . Se X ∈ BV allora X è
indistinguibile dal processo identicamente uguale a X0 .
Dimostrazione. A meno di una traslazione, possiamo considerare X0 = 0. Dapprima proviamo la tesi nel ca-
so in cui X è una martingala continua limitata e con variazione prima limitata: precisamente, supponiamo
che esista una costante K tale che
sup (|Xt | + Vt (X)) ≤ K.
t≥0
Fissato T > 0 e π ∈ PT , poniamo

∆k = Xtk − Xtk−1 , ∆π = max |Xtk − Xtk−1 |.


1≤k≤N

Osserviamo che per l’identità (6.4.3) vale


h i h i
E (Xtk − Xtk−1 )2 = E Xt2k − Xt2k−1

e, per l’uniforme continuità delle traiettorie,

lim ∆π (ω) = 0, 0 ≤ ∆π (ω) ≤ 2K, ω ∈ Ω. (14.3.4)


|π|→0

Allora si ha
N  N 
h i X   X  2 
E XT2 = E  Xt2k − Xt2k−1  = E  Xtk − Xtk−1  ≤ E [∆π VT (X; π)] ≤ KE [∆π ]
k=1 k=1
342 CAPITOLO 14. TEORIA DELLA VARIAZIONE
h i
che, per |π| → 0, tende a zero per la (14.3.4) grazie al teorema della convergenza dominata. Dunque E XT2 =
0 e per la disuguaglianza massimale di Doob
" #
h i
E sup Xt2 ≤ 4E XT2 = 0.
0≤t≤T

Di conseguenza, per continuità, quasi tutte le traiettorie di X sono identicamente nulle su [0, T ]. Data
l’arbitrarietà di T si conclude che X è indistinguibile dal processo nullo.
Nel caso generale, consideriamo una successione localizzante τ̄n per cui Yn,t := Xt∧τ̄n ∈ BV. Ritocchiamo
tale successione definendo i tempi d’arresto

σn = inf{t ≥ 0 | |Yn,t | + Vt (Yn,· ) ≥ n}.

Anche τn := τ̄n ∧σn ∧n è una successione localizzante per X: inoltre, Xt∧τn è una martingala continua, limita-
ta, costante per t ≥ n e con variazione prima limitata da n. Per quanto provato sopra, Xt∧τn è indistinguibile
dal processo nullo e la tesi segue passando al limite per n → ∞.

Corollario 14.3.7. [!] Sia X una semimartingala continua. È unica la rappresentazione X = M + A, con
M ∈ M c,loc e A continuo, adattato, a variazione limitata e tale che A0 = 0.

Dimostrazione. Se X = M ′ + A′ è un’altra rappresentazione allora si ha che M − M ′ = A′ − A è una martingala


locale continua e localmente a variazione limitata. Per il Teorema 14.3.6, M è indistinguibile da M ′ e A è
indistinguibile da A′ .

Osservazione 14.3.8. Senza l’ipotesi di continuità, in generale la decomposizione di una semimartingala


non è unica. Per esempio, il processo di Poisson N è crescente e quindi BV: allora N = M + A con A := N e
M := 0 oppure si ha anche la decomposizione con At := λt e Mt := Nt − λt, dove M è il processo di Poisson
compensato (cfr. Proposizione 8.3.1).

14.4 Decomposizione di Doob e processo variazione quadratica


In questa sezione presentiamo un risultato che è alla base della teoria dell’integrazione stocastica: per
ogni martingala locale continua X esiste un processo crescente, detto processo variazione quadratica e indi-
cato con ⟨X⟩, che “compensa” la sub-martingala locale X 2 nel senso che X 2 − ⟨X⟩ è una martingala locale
continua. Il processo ⟨X⟩ può essere costruito traiettoria per traiettoria come limite della variazione secon-
da (14.3.1) per |π| → 0: ciò è coerente con quanto visto nell’Esempio 14.3.5 relativo al moto Browniano W
per il quale si ha ⟨W ⟩t = t e il processo Wt2 − t è una martingala continua.
Ricordiamo che M c,2 indica lo spazio delle martingale continue X tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0
(cfr. Definizione 13.3.1) e M c,loc indica lo spazio delle martingale locali continue (cfr. Definizione 13.4.2).

Teorema 14.4.1 (Processo variazione quadratica). [!!] Per ogni X ∈ M c,2 esistono e sono unici (a meno di
indistinguibilità) due processi M e ⟨X⟩ tali che:

i) M è una martingala continua;

ii) ⟨X⟩ è un processo adattato, continuo e crescente3 , tale che ⟨X⟩0 = 0;

iii) si ha la decomposizione
Xt2 = Mt + ⟨X⟩t , t ≥ 0;
3 Chiaramente ⟨X⟩ è anche sommabile poiché ⟨X⟩ = X 2 − M con X ∈ L2 (Ω, P ) per ipotesi e M ∈ L1 (Ω, P ) per definizione di
t t t t t
martingala.
14.5. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 343

iv) vale h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] , t ≥ s ≥ 0. (14.4.1)
La (14.4.1) è la prima versione di un’importante identità chiamata isometria di Itô (cfr. Sezione 15.2.1).
Più in generale, se X ∈ M c,loc allora valgono ancora la ii) e la iii), mentre la i) viene sostituita da
i’) M ∈ M c,loc .
Il processo ⟨X⟩ è chiamato processo variazione quadratica di X: per ogni t > 0 si ha
2n 
X 2
⟨X⟩t = lim X tkn − X t(k−1) (14.4.2)
n→∞ 2 2n
k=1

in probabilità. Più in generale, data una semimartingala continua della forma S = X + A, con X ∈ M c,loc e
A ∈ BV adattato, per ogni t > 0 si ha
2n 
X 2
⟨S⟩t := lim S tkn − S t(k−1) = ⟨X⟩t (14.4.3)
n→∞ 2 2n
k=1

in probabilità e pertanto diciamo che ⟨S⟩ è il processo variazione quadratica di S.


La dimostrazione del Teorema 14.4.1 è rimandata alla Sezione 14.5.
Esempio 14.4.2.
h iPosto Xt = t + Wt , dove W è un moto Browniano, si ha per definizione ⟨X⟩t = ⟨W ⟩t = t. Si
noti che E Xt − t = t 2 e Xt2 − t non è una martingala.
2

Osservazione 14.4.3. Il Teorema 14.4.1 è un caso particolare di un risultato profondo e più generale, noto
come Teorema di decomposizione di Doob-Meyer, che afferma che ogni sub-martingala X càdlàg di classe D
(ossia tale che la famiglia delle v.a. Xτ , al variare di τ tempo d’arresto, sia uniformemente integrabile) si scrive in
modo unico nella forma X = M + A con M martingala continua e A processo crescente e tale che A0 = 0.
Tale risultato è stato provato per la prima volta da Meyer negli anni ’60 del secolo scorso e da allora sono
state fornite molte altre dimostrazioni. Una prova particolarmente sintetica è stata recentemente proposta
in [15]: l’idea molto intuitiva è di discretizzare il processo X sui diadici, utilizzare la versione discreta del
Teorema di decomposizione di Doob (cfr. Teorema 6.4.15) e infine provare con il Lemma 14.5.1 di Komlos
che la successione delle decomposizioni discrete converge alla decomposizione cercata.
Osservazione 14.4.4. Grazie al Teorema 13.1.6 di optional sampling, l’importante identità (14.4.1) si ge-
neralizza al caso in cui al posto di t, s ci sono rispettivamente due tempi d’arresto limitati τ, σ tali che
σ ≤ τ ≤ T q.c. per un certo T > 0.

14.5 Dimostrazione del Teorema di decomposizione di Doob


Per dimostrare il Teorema 14.4.1 adattiamo un argomento proposto in [15], basato su un interessante
e utile risultato di analisi funzionale. Il classico Teorema di Bolzano-Weierstrass assicura che da ogni suc-
cessione limitata in uno spazio Euclideo è possibile estrarre una sotto-successione convergente. Anche se
tale risultato non si estende al caso infinito-dimensionale, il lemma seguente mostra che è sempre possibile
costruire una successione convergente di combinazioni convesse (le sotto-successioni sono particolari com-
binazioni convesse) degli elementi della successione di partenza. Più precisamente, data una successione
(fn )n∈N in uno spazio di Hilbert, indichiamo con

Cn = {λn fn + · · · + λN fN | N ≥ n, λn , . . . , λN ≥ 0, λn + · · · + λN = 1}

la famiglia delle combinazioni convesse di un numero finito di elementi di (fk )k≥n .


344 CAPITOLO 14. TEORIA DELLA VARIAZIONE

Lemma 14.5.1 (Lemma di Komlos [63]). Sia (fn )n∈N una successione limitata in uno spazio di Hilbert.
Allora esiste una successione convergente (gn )n∈N , con gn ∈ Cn .
Dimostrazione. Se ∥fn ∥ ≤ K per ogni n ∈ N allora, per la disuguaglianza triangolare, ∥g∥ ≤ K per ogni g ∈ Cn .
Dunque, posto
an := inf ∥g∥, n ∈ N,
g∈Cn

si ha an ≤ an+1 e a := sup an ≤ K. Allora per ogni n ∈ N esiste gn ∈ Cn tale che ∥gn ∥ ≤ a + n1 . D’altra parte,
n∈N g +g
per ogni ε > 0 esiste nε ∈ N tale che n 2 m ≥ a − ε per ogni n ≥ m ≥ nε : questo semplicemente perché
gn +gm
2 ∈ Cn e per definizione di a. Allora, per ogni n, m ≥ nε , si ha

1 2
 
∥gn − gm ∥2 = 2∥gn ∥2 + 2∥gm ∥2 − ∥gn + gm ∥2 ≤ 4 a + − 4(a − ε)2
n
che prova che (gn )n∈N è una successione di Cauchy e quindi convergente.
Dimostrazione del Teorema 14.4.1. L’unicità segue direttamente dal Teorema 14.3.6 poiché se M ′ e A′ verifi-
cano le i), ii) e iii) allora M −M ′ è una martingala continua a variazione limitata che parte da 0. Dimostriamo
l’esistenza assumendo dapprima che X = (Xt )t∈[0,1] sia una martingala continua e limitata:

sup |Xt | ≤ K (14.5.1)


t∈[0,1]

per una certa costante positiva K. Questa è la parte difficile della dimostrazione, in cui emergono le idee
principali. Procediamo per passi.
[Passo 1] Fissato n ∈ N, introduciamo le seguenti notazione per semplificare i calcoli sui diadici di [0, 1]:
k
X 2
Xn,k = X k , An,k = Xn,i − Xn,i−1 , Fn,k := F k , k = 0, 1, . . . , 2n .
2n 2n
i=1

Chiaramente k 7→ Xn,k e k 7→ An,k sono processi adattati alla filtrazione discreta (Fn,k )k=0,1,...,2n e k 7→ An,k è
crescente. Inoltre il processo
2
Mn,k := Xn,k − An,k , k = 0, 1, . . . , 2n
è una martingala discreta. Infatti si ha
h i
E An,k − An,k−1 | Fn,k−1 = E Xn,k − Xn,k−1 2 | Fn,k−1 =
  

(per la (6.4.3))
h i
2 2
= E Xn,k − Xn,k−1 | Fn,k−1 (14.5.2)

da cui la proprietà di martingala di Mn,k .


[Passo 2] Questo è il punto cruciale della dimostrazione: proviamo che
h i
sup E A2n,2n ≤ 36K 4 . (14.5.3)
n∈N

Notiamo che, per ogni fissato n ∈ N, il valore finale An,2n del processo An,· è chiaramente in L2 (Ω, P ),
essendo una somma finita di termini che sono limitati per ipotesi: tuttavia il numero di tali termini aumenta
esponenzialmente in n e questo spiega la difficoltà nella dimostrazione di (14.5.3) che è una stima uniforme
in n ∈ N. Qui utilizziamo in modo essenziale la proprietà di martingala e la limitatezza di X (si noti che
14.5. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 345

nelle ipotesi generali X è di quadrato sommabile ma in (14.5.3) compaiono potenze di X di ordine quattro).
Si ha
2n
X 2n X
X 2n
4 2 2
A2n,2n = Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 Xn,h − Xn,h−1
k=1 k=1 h=k+1
2n
X 2n
X
4 2 
= Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 An,2n − An,k . (14.5.4)
k=1 k=1

Applichiamo il valore atteso, stimiamo puntualmente la prima somma di (14.5.4) con la (14.5.1) e appli-
chiamo la proprietà della torre nella seconda somma:
2 n 2 n
h i X h  i X h i
E A2n,2n ≤ 2K 2 E Xn,k − Xn,k−1 2 + 2 E Xn,k − Xn,k−1 2 E An,2n − An,k | Fn,k =
 
k=1 k=1

2
(per la proprietà di martingala (14.5.2) di Mn,k = Xn,k − An,k )

X h 2n
 h 2 ii
2
E Xn,k − Xn,k−1 2 E Xn,2 2
n − Xn,k | Fn,k
 
= 2K E An,2n + 2 ≤
k=1

2 2 2
(poiché Xn,2n − Xn,k ≤ 2K )

h i1
≤ 6K 2 E An,2n ≤ 6K 2 E A2n,2n 2
 

avendo nell’ultimo passaggio applicato la disuguaglianza di Hölder. Questo conclude la prova della (14.5.3).
[Passo 3] Estendiamo la martingala discreta Mn,· a tutto [0, 1] ponendo
(n)
:= E Mn,2n | Ft ,
 
Mt t ∈ [0, 1].
h i
k−1 k
Per ogni t ∈ 2n , 2n si ha, per la proprietà della torre,
(n)
= E E Mn,2n | Fn,k | Ft
   
Mt
= E Mn,k | Ft
 
h i
2
= E Xn,k − An,k | Ft
h i
2
− Xn,k − Xn,k−1 2 | Ft − An,k−1

= E Xn,k
2
= E 2Xn,k Xn,k−1 | Ft − Xn,k−1
 
− An,k−1
2
= 2Xt Xn,k−1 − Xn,k−1 − An,k−1 .

Allora dalla continuità di X segue che anche M (n) è un processo continuo. Inoltre, per il Punto 2 la
successione
(n)
M1 = X12 − An,2n
(n)
è limitata in L2 (Ω, P ). Si potrebbe dimostrare che (M1 )n∈N è di Cauchy e converge in norma L2 (e quindi
in probabilità) ma la prova diretta di questo fatto è un po’ tecnica e laboriosa. Pertanto qui preferiamo
prendere una scorciatoia appoggiandoci sul Lemma 14.5.1 di Komlos: per ogni n ∈ N esistono dei pesi
(n) (n)
λn , . . . , λNn non-negativi e la cui somma è pari a uno, tali che posto

en,t = λ(n)
M
(n) (n) (Nn )
n Mt + · · · + λ N n Mt , t ∈ [0, 1],
346 CAPITOLO 14. TEORIA DELLA VARIAZIONE

si ha che Men,1 converge in L2 (Ω, P ) ad una variabile aleatoria Z. Sia M una versione càdlàg della martingala
definita da
Mt := E [Z | Ft ] , t ∈ [0, 1].
Poiché t 7→ M
en,t è una martingala continua per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha
  
2    
en,1 − M1 2 = 4E M en,1 − Z 2 .

E  sup Mn,t − Mt  ≤ 4E M
 e
t∈[0,1]

Dunque, a meno di passare ad una sotto-successione, si ha

en,t (ω) − Mt (ω) 2 = 0,



lim sup M ω ∈ Ω \ F,
n→∞ t∈[0,1]

con F trascurabile, da cui si deduce l’esistenza di una versione continua di M. Di conseguenza anche il
processo
At := Xt2 − Mt
è continuo.
Per mostrare che A è crescente fissiamo anzitutto due diadici s, t ∈ [0, 1] con s ≤ t: allora esiste n̄ tale che
s, t ∈ Dn per ogni n ≥ n̄, ossia s = 2knn e t = 2hnn per certi kn , hn ∈ {0, 1, . . . , 2n }. Ora per costruzione
2 2
Xn,k n
− Mn,kn = An,kn ≤ An,hn = Xn,h n
− Mn,hn

e un’analoga disuguaglianza vale anche per ogni combinazione convessa, quindi al limite si ha As (ω) ≤
At (ω) per ogni ω ∈ Ω \ F. Dalla densità dei diadici in [0, 1] e dalla continuità di A, segue che A è crescente
q.c. Infine proviamo la (14.4.1): per la (6.4.3) si ha
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs
= E [Mt − Ms | Fs ] + E [At − As | Fs ]
= E [At − As | Fs ] .

[Passo 4] Supponiamo ora che X = (Xt )t≥0 sia una martingala continua, non necessariamente limitata, ma
tale che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0. Utilizziamo una procedura di localizzazione e definiamo la successione
di tempi d’arresto
τn = inf{t | |Xt | ≥ n} ∧ n, n ∈ N.
Per la continuità di X si ha τn ↗ ∞ per n → ∞. Per il Corollario 13.4.1, Xt∧τn è una martingala continua,
limitata e costante per t ≥ n: allora si applicano gli argomenti dei punti precedenti per dimostrare che
esistono una martingala continua e di quadrato sommabile M (n) e un processo continuo e crescente A(n) tali
che
2 (n) (n)
Xt∧τ n
= Mt + A t , t ≥ 0.
(n) (m) (n) (m) (n)
Per unicità, per ogni m > n si ha Mt = Mt e At = At per t ∈ [0, τn ]: dunque la definizione Mt := Mt e
(n)
At := At per ogni n tale che τn ≥ t, è ben posta. Chiaramente M, A sono processi continui, A è crescente e
M è una martingala: infatti, se 0 ≤ s ≤ t, per ogni n tale che τn ≥ t si ha
h i
Ms∧τn = E Mt∧τn | Fs .

Quindi si può concludere ragionando come nella dimostrazione del Teorema 13.1.6, essendo la famiglia
{Mt∧τn | n ∈ N} uniformemente integrabile per la disuguaglianza di Doob
 
h i
E  sup |Ms |  ≤ 4E Mt2
2
 
s∈[0,t]
14.5. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 347

e l’Osservazione A.3.0.10.
La medesima successione localizzante può essere utilizzata per trattare il caso in cui X ∈ M c,loc e in
questo caso è ovvio che M ∈ M c,loc .
[Passo 5] Con gli strumenti che abbiamo ora a disposizione, la dimostrazione delle formule (14.4.2) e
(14.4.3) richiederebbe dei conti abbastanza lunghi e noiosi. Poiché non utilizzeremo tali formule nel segui-
to, preferiamo posticipare questa dimostrazione al momento in cui avremo a disposizione la formula di Itô
e tutto sarà più facile: si veda la Proposizione 16.2.4.
348 CAPITOLO 14. TEORIA DELLA VARIAZIONE
Capitolo 15

Integrazione stocastica secondo Itô

One needs for stochastic integration


a six months course to cover only the
definitions. What is there to do?

Paul-André Meyer

In questo capitolo costruiamo l’integrale stocastico


Z t
Xt := us dBs , t ≥ 0,
0

inteso come processo stocastico al variare dell’estremo di integrazione. Assumeremo opportune ipotesi sul
processo integrando u e sul processo integratore B. Il prototipo di integratore è il moto Browniano: poiché
le traiettorie di un moto Browniano non hanno variazione limitata, non possiamo adottare la teoria de-
terministica dell’integrazione secondo Lebesgue-Stieltjes per definire l’integrale traiettoria per traiettoria.
Seguiremo invece la costruzione dovuta a Kiyosi Itô (1915-2008) che è basata sulla teoria della variazione
presentata nel Capitolo 14 e sfrutta l’ipotesi cruciale che il processo integrando u sia progressivamente
misurabile. La costruzione dell’integrale stocastico è per certi versi analoga a quella dell’integrale di Lebe-
sgue ma è decisamente più lunga e laboriosa: si parte dai processi u “semplici”, ossia costanti a tratti nel
tempo, fino ad arrivare a u progressivamente misurabile con traiettorie che verificano una debole ipotesi
di sommabilità rispetto alla variabile temporale. Un’importante tappa intermedia è quella in cui u è un
“processo di quadrato sommabile” (cfr. Definizione 15.1.1); in tal caso, l’integrale stocastico gode di alcune
proprietà notevoli: è una martingala continua di quadrato sommabile, ossia appartiene allo spazio M c,2 ,
vale la cosiddetta isometria di Itô e infine il processo variazione quadratica è dato esplicitamente da
Z t
⟨X⟩t = us2 d⟨B⟩s , t ≥ 0.
0

L’ultima parte del capitolo è dedicata alla definizione di integrale stocastico nel caso in cui B sia una se-
mimartingala continua. Introdurremo anche l’importante classe dei processi di Itô che sono semimartin-
gale continue che si esprimono in modo unico come somma di un integrale di Lebesgue (di un processo
progressivamente misurabile e sommabile) con un integrale stocastico Browniano.

349
350 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

15.1 Integrale rispetto al moto Browniano


A scopo introduttivo, esaminiamo il caso particolare in cui B sia un moto Browniano reale definito su
uno spazio con filtrazione (Ω, F , P , Ft ). Per superare il problema dell’irregolarità delle traiettorie Brow-
niane, l’idea è di selezionare opportunamente la classe dei processi integrandi per poter sfruttare alcune
proprietà di carattere probabilistico.

Definizione 15.1.1. Indichiamo con L2 la classe dei processi u = (ut )t≥0 tali che:

i) u è progressivamente misurabile rispetto a (Ft );

ii) per ogni T ≥ 0 vale


"Z T #
E ut2 dt < ∞. (15.1.1)
0

La i) è più di una semplice condizione di misurabilità congiunta in (t, ω) (che sarebbe naturale poiché
stiamo definendo un integrale): essa contiene anche l’ipotesi cruciale che sia rispettata la struttura di “in-
formazioni” della filtrazione considerata. Per esempio, nel caso u sia continuo, la i) equivale al fatto che u
sia un processo adattato. Per inciso, noi tratteremo solo il caso di integratori continui: è possibile definire
l’integrale stocastico anche rispetto a processi càdlàg, come il processo di Poisson, ma in tal caso è op-
portuno richiedere una condizione ancora più stringente sull’integrando che, sostanzialmente, deve essere
approssimabile con processi continui da sinistra1 .
Come per l’integrale di Lebesgue, anche la costruzione dell’integrale stocastico avviene per passi, con-
siderando inizialmente dei processi “semplici”.

Definizione 15.1.2. Diciamo che u ∈ L2 è semplice se si scrive nella forma

N
X
ut = αk 1[tk−1 ,tk [ (t), t ≥ 0, (15.1.2)
k=1

con 0 ≤ t0 < t1 < · · · < tN e dove α1 , . . . , αN sono variabili aleatorie tali che P (αk , αk+1 ) > 0 per k = 1, . . . , N −1.
Per ogni T ≥ tN poniamo
Z T N
X  
ut dBt := αk Btk − Btk−1
0 k=1

e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z tN
ut dBt := ut 1[a,b[ (t)dBt . (15.1.3)
a 0

In questa parte introduttiva non ci preoccupiamo di chiarire tutti i dettagli della definizione di inte-
grale, come per esempio il fatto che la (15.1.3) sia ben posta perchè è indipendente, a meno di processi
indistinguibili, dalla rappresentazione (15.1.2) del processo u.

Osservazione 15.1.3. Un processo semplice è costante a tratti come funzione del tempo e ha traiettorie che
dipendono dai coefficienti α1 , . . . , αN che sono aleatori. Dal fatto che u ∈ L2 seguono alcune proprietà delle
variabili α1 , . . . , αN :
1 Il processo di Poisson ha variazione limitata e quindi non sarebbe un problema definire il relativo integrale stocastico nel senso
di Lebesgue-Stieltjes: tuttavia, se l’integrando non è continuo da sinistra l’integrale perde la fondamentale proprietà di essere una
martingala (locale): per una spiegazione intuitiva di questo fatto si veda la Sezione 2.1 in [34].
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 351

i) poiché u è progressivamente misurabile, per ogni t ∈ [tt−k , tk [ si ha αk = ut ∈ mFt e quindi in partico-


lare
αk ∈ mFtk−1 , k = 1, . . . , N ; (15.1.4)

ii) per l’ipotesi di integrabilità (15.1.1) vale


"Z tN # N
X "Z tN # N
X h i
E ut2 dt = E αk2 1[tk−1 ,tk [ (t)dt = E αk2 (tk − tk−1 ) < +∞
0 k=1 0 k=1

e quindi α1 , . . . , αN ∈ L2 (Ω, P ).
Proviamo ora alcune fondamentali proprietà dell’integrale stocastico appena definito.
Teorema 15.1.4. [!] Dati u, v ∈ L2 semplici, consideriamo i processi
Zt Zt
Xt := us dBs , Yt := vs dBs , t ≥ 0.
0 0

Per 0 ≤ s ≤ t ≤ T valgono le seguenti proprietà:


i) X è una martingala continua di quadrato sommabile, X ∈ M c,2 , e si ha
"Z t #
E ur dBr | Fs = 0; (15.1.5)
s

ii) vale l’isometria di Itô


 Zt !2  "Z t #
ur dBr | Fs  = E ur2 dr | Fs
 
E  (15.1.6)
s s

e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr dr | Fs , (15.1.7)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.1.8)
s t

iii) il processo covariazione di X e Y (cfr. Proposizione 17.1.1) è dato da


Zt
⟨X, Y ⟩t = us vs ds, t ≥ 0. (15.1.9)
0

Infine, valgono anche le versioni non condizionate delle formule (15.1.5), (15.1.6), (15.1.7) e (15.1.8).
Dimostrazione. Osserviamo anzitutto che le formule (15.1.5), (15.1.6), (15.1.7) e(15.1.8) equivalgono rispet-
tivamente a

E [Xt − Xs | Fs ] = 0, (15.1.10)
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.
352 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Proviamo la (15.1.5) che equivale alla proprietà di martingala E [Xt | Fs ] = Xs : riferendoci alla (15.1.2) e
ricordando la notazione (15.1.3), non è restrittivo supporre s = tk e t = th per certi k, h con k < h ≤ N . Si ha
"Z t #
h i h
E Xth | Ftk = Xtk + E ur dBr | Ftk
tk
h
X h   i
= Xtk + E αi Bti − Bi−1 | Ftk =
i=k+1

(per la (15.1.4) e la proprietà della torre)


h
X h h i i
= Xtk + E αi E Bti − Bti−1 | Fti−1 | Ftk = Xtk
i=k+1

dove l’ultima uguaglianza segue dall’indipendenza e stazionarietà degli incrementi Browniani per cui si ha
h i h i
E Bti − Bti−1 | Fti−1 = E Bti − Bti−1 = 0

per ogni i = 1, . . . , N .
Per quanto riguarda l’isometria di Itô, sempre nell’ipotesi che s = tk e t = th , si ha
 Zt !2   2 
ur dBr | Fs  = E Xth − Xtk | Ftk
 
E 
s

h
2 
 X    
= E  αi Bti − Bti−1  | Ftk 
  
 
i=k+1
h
1
X   2  X h     i
= E αi2 Bti − Bti−1 | Ftk + E αi Bti − Bti−1 αj Btj − Btj−1 | Ftk =
2
i=k+1 k+1≤i<j≤h

(per la (15.1.4) e la proprietà della torre)


h
X   2  
= E αi2 E Bti − Bti−1 | Fti−1 | Ftk
i=k+1
1 X h   h i i
+ E αi Bti − Bti−1 αj E Btj − Btj−1 | Ftj−1 | Ftk =
2
k+1≤i<j≤h

(poiché Btj − Btj−1 è indipendente da Ftj−1 )

h
X h i
= E αi2 (ti − ti−1 ) | Ftk
i=k+1
h
X "Z t #
= E αi2 1[ti−1 ,ti [ (r)dr | Fs
i=k+1 s
"Z t #
=E ur2 dr | Fs .
s

La (15.1.7) si prova in modo analogo. Riguardo alla (15.1.8), basta osservare che
"Z t ZT # "Z T ZT #
E ur dBr vr dBr | Fs = E ur 1[s,t[ (r)dBr vr 1[t,T [ (r)dBr | Fs =
s t s s
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 353

(per la (15.1.7))
"Z T #
=E ur vr 1[s,t[ (r)1[t,T [ (r)dr = 0.
s

Infine, il processo ⟨X, Y ⟩ in (15.1.9) è adattato, continuo, BV e tale che ⟨X, Y ⟩0 = 0. Ricordando la
Proposizione 17.1.1, per provare che ⟨X, Y ⟩ è il processo covariazione di X e Y basta verificare che XY −
⟨X, Y ⟩ è una martingala. Per 0 ≤ s ≤ t si ha

E [Xt Yt | Fs ] = Xs Ys + E [(Xt − Xs )(Yt − Ys ) | Fs ] + 2Xs E [Yt − Ys | Fs ] =

(per la (15.1.7) ed essendo E [Yt − Ys | Fs ] = 0 per la (15.1.10))


"Z t #
= Xs Ys + E ur vr dr | Fs
s
= Xs Ys + E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ]

da cui la tesi.
Grazie all’isometria di Itô (15.1.6), l’integrale stocastico si estende al caso di integrandi in L2 con
una procedura di approssimazione tramite processi semplici. Vale il seguente risultato di densità, la cui
dimostrazione è rimandata alla Sezione 15.1.1.
Lemma 15.1.5. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici di L2 che
converge a u in norma L2 (Ω × [0, T ]):
"Z T #
2
lim E us − un,s ds = 0. (15.1.11)
n→∞ 0

Dato u ∈ L2 consideriamo una successione approssimante (un )n∈N di processi semplici come nel Lemma
15.1.5 per un T > 0 fissato. Allora (un )n∈N è una successione di Cauchy in L2 ([0, T ] × Ω) e per l’isometria di
Itô si ha  Z !2 
 T ZT "Z T #
un,s − um,s 2 ds = 0.
 
lim E  un,s dBs − um,s dBs  = lim E
n,m→∞ 0 0 n,m→∞ 0

Ne segue che la successione degli integrali stocastici è di Cauchy in L2 (Ω, P ) e quindi esiste
Z T Z T
us dBs := lim un,s dBs .
0 n→∞ 0

Con questa procedura si definisce l’integrale stocastico come classe in equivalenza in L2 (Ω, P ) per un T fissa-
to. Vedremo nella Sezione 15.2.3 che, grazie alla disuguaglianza massimale di Doob, è possibile costruire
l’integrale come processo stocastico (al variare dell’estremo di integrazione) definendolo come limite nello
spazio delle martingale M c,2 . Per approssimazione si prova che le proprietà del Teorema 15.1.4 rimangono
valide sotto l’ipotesi che u ∈ L2 .
Nella Sezione 15.2.4 estenderemo ulteriormente l’integrale al caso di integrandi in u ∈ L2loc , ossia u
progressivamente misurabile che soddisfa la condizione di integrabilità
Z T
ut2 dt < ∞ T > 0, q.c. (15.1.12)
0

che è notevolmente più debole della (15.1.1): per esempio, ogni processo u adattato e continuo appartiene
a L2loc poiché l’integrale in (15.1.12), sul compatto [0, T ], è finito grazie alla continuità di ogni singola
354 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

traiettoria di u. D’altra parte, ut = exp(B4t ) appartiene a L2loc ma non2 a L2 . Il Teorema 15.1.4 non si estende
al caso di u ∈ L2loc , tuttavia proveremo che in tal caso il processo integrale è una martingala locale.

15.1.1 Dimostrazione del Lemma 15.1.5


Per dimostrare la densità della classe dei processi semplici nello spazio L2 usiamo la seguente conse-
guenza della Proposizione A.2.3.3, ossia la cosiddetta “proprietà di continuità in media” delle funzioni
sommabili.
Corollario 15.1.6 (Continuità in media). Se f ∈ L1 (R) allora per quasi ogni x ∈ R si ha

1 x+h
Z
lim |f (x) − f (y)|dy = 0.
h→0 h x

Dimostriamo il Lemma 15.1.5 inizialmente assumendo che u sia continuo. Fissato T > 0, al variare di
n ∈ N, indichiamo con
Tk
tn,k = n , k = 0, . . . , 2n , (15.1.13)
2
i diadici di [0, T ] e definiamo il processo semplice
2n
X
un,t = αn,k 1[tn,k−1 ,tn,k [ , αn,k = utn,k−1 1{|ut |≤n} , t ∈ [0, T ].
n,k−1
k=1

Allora la (15.1.11) segue dal teorema della convergenza dominata.


Per concludere basta provare che ogni u ∈ L2 può essere approssimata in norma L2 ([0, T ] × Ω) con una
successione (un )n∈N di processi continui di L2 . A tal fine, definiamo3
?t
un,t := us ds, 0 < t ≤ T , n ∈ N.
(t− n1 )∨0
Notiamo che un è continuo e adattato (e quindi progressivamente misurabile). Inoltre si ha
"Z T Z ? 2 
 T  t
#
2  
E ut − un,t dt = E  
 (ut − us )ds dt  ≤
0 0 (t− n1 )∨0
(per la disuguglianza di Jensen)
Z T ? t

 2 
≤ E  (ut − us ) ds dt 
0 (t− n1 )∨0
Z T? t h i
= E (ut − us )2 ds dt. (15.1.14)
0 (t− n1 )∨0
Ora, per il Corollario 15.1.6 si ha
? t h i
lim E (ut − us )2 ds = 0 q.o.
n→∞
(t− n1 )∨0
e quindi si può passare al limite in (15.1.14) per n → ∞ e concludere utilizzando il teorema della conver-
genza dominata di Lebesgue.
2
"Z T # Z ZT
4 4 1 − x2
E e2Bt dt = e2x √ e 2t dtdx = +∞.
0 R 0 2πt
>
3 Qui b u ds = 1
Rb
a s
u ds per a < b.
b−a a s
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 355

15.2 Integrale rispetto a martingale continue di quadrato sommabile


Assumiamo che il processo integratore B appartenga alla classe M c,2 , ossia B è una martingala continua
tale che Bt ∈ L2 (Ω, P ) per ogni t ≥ 0. La costruzione dell’integrale stocastico è analoga al caso del moto
Browniano con qualche tecnicismo in più.
Indichiamo con ⟨B⟩ il processo variazione quadratica definito nel Teorema 14.4.1: ⟨B⟩ è un processo
continuo e crescente che definisce un misura di Lebesgue-Stieltjes (cfr. Sezione 14.2) il cui integrale è
indicato con Z b
f (t)d⟨B⟩t , 0 ≤ a ≤ b.
a
Per esempio, se B è un moto Browniano allora ⟨B⟩t = t e la corrispondente misura di Lebesgue-Stieltjes è
semplicemente la misura di Lebesgue, come visto nella Sezione 15.1.
Definizione 15.2.1. Indichiamo con L2B la classe dei processi u = (ut )t≥0 tali che:
i) u è progressivamente misurabile;
ii) per ogni T ≥ 0 vale
"Z T #
E ut2 d⟨B⟩t < ∞. (15.2.1)
0

Generalmente il processo B sarà fissato una volte per tutte e quindi, se non c’è pericolo di confusione,
scriveremo semplicemente L2 invece di L2B .
In un secondo momento, indeboliremo la condizione di sommabilità ii) richiedendo che u appartenga
alla classe seguente.
Definizione 15.2.2. Indichiamo con L2B,loc (o, più semplicemente, L2loc ) la classe dei processi u tali che
i) u è progressivamente misurabile;
ii’) per ogni T ≥ 0 vale
Z T
ut2 d⟨B⟩t < ∞ q.c. (15.2.2)
0

La ii’) è una condizione molto debole di sommabilità che è verificata automaticamente se, per esempio,
u ha traiettorie continue o, più in generale, localmente limitate (si noti che il dominio di integrazione in
(15.2.2) è compatto).

15.2.1 Integrale di processi indicatori


Consideriamo una classe molto particolare di integrandi che, rispetto alla variabile temporale, sono
funzioni indicatrici di un intervallo. Chiamiamo processo indicatore un processo stocastico della forma

ut = α1[t0 ,t1 [ (t), t ≥ 0, (15.2.3)

dove α è una variabile aleatoria Ft0 -misurabile e limitata (ossia tale che |α| ≤ c q.c. con c costante positiva)
e t1 > t0 ≥ 0.
Osservazione 15.2.3. Ogni processo indicatore u appartiene a L2 : infatti u è càdlàg e adattato, quindi
progressivamente misurabile; inoltre u soddisfa la (15.2.1) poiché
"Z T #
h  i h i
E ut2 d⟨B⟩t = E α 2 ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 ≤ c2 E ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 < ∞
0

per ogni T ≥ 0.
356 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

La definizione di integrale stocastico di un processo indicatore è elementare e completamente esplicita:


esso viene definito, traiettoria per traiettoria, moltiplicando α per un incremento di B.

Definizione 15.2.4 (Integrale stocastico di processi indicatori). Siano u il processo indicatore in (15.2.3)
e B ∈ M c,2 . Per ogni T ≥ t1 poniamo
ZT  
ut dBt := α Bt1 − Bt0 (15.2.4)
0

e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z t1
ut dBt := ut 1[a,b[ (t)dBt . (15.2.5)
a 0

Osservazione 15.2.5. [!] Se [t0 , t1 [∩[a, b[, ∅, l’integrale nel membro destro della (15.2.5) è definito dal-
la (15.2.4) interpretando ut 1[a,b[ (t) come il processo semplice α1[t0 ∨a,t1 ∧b[ (t) e scegliendo T = t1 . In caso
contrario si intende che l’integrale è nullo per definizione.

Osservazione 15.2.6. Essendo definito in termini di incrementi di B, l’integrale stocastico non dipende dal
valore iniziale B0 . Inoltre X è un processo adattato e continuo.

Nel prossimo risultato stabiliamo alcune proprietà fondamentali dell’integrale stocastico. La secon-
da parte della dimostrazione è basata sulla notevole identità (14.4.1), valida per ogni B ∈ M c,2 , che qui
richiamiamo: h i
E (Bt − Bs )2 | Fs = E [⟨B⟩t − ⟨B⟩s | Fs ] , 0 ≤ s ≤ t. (15.2.6)

In tutto il capitolo insistiamo molto nel fornire l’espressione esplicita della variazione quadratica dell’in-
tegrale stocastico o della covariazione di due integrali: il motivo è che esse compaiono nel più importante
strumento per il calcolo degli integrali stocastici, la formula di Itô, che presenteremo nel Capitolo 16.
Il Teorema 15.1.4 ha la seguente naturale estensione.

Teorema 15.2.7. [!] Siano


Z t Z t
Xt := us dBs , Yt := vs dBs , t ≥ 0,
0 0

dove u, v sono processi indicatori e B ∈ M c,2 . Per 0 ≤ s ≤ t ≤ T valgono le seguenti proprietà:

i) X è una martingala continua di quadrato sommabile, X ∈ M c,2 , e si ha


"Z t #
E ur dBr | Fs = 0; (15.2.7)
s

ii) vale l’isometria di Itô


 Zt !2  "Z t #
2
ur dBr | Fs  = E ur d⟨B⟩r | Fs
 
E   (15.2.8)
s s

e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr d⟨B⟩r | Fs , (15.2.9)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.2.10)
s t
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 357

iii) il processo covariazione di X e Y è dato da


Z t
⟨X, Y ⟩t = us vs d⟨B⟩s , t ≥ 0. (15.2.11)
0

Dimostrazione. Per l’Osservazione 15.2.5 non è restrittivo assumere u = α1[s,t[ e v = β1[s,t[ con α, β ∈ mFs
limitate.
i) Allora si ha "Z t#
E ur dBr | Fs = E [α (Bt − Bs ) | Fs ] = αE [Bt − Bs | Fs ] = 0
s
dove abbiamo sfruttato il fatto che α ∈ mFs e la proprietà di martingala di B. Questo prova la (15.2.7)
che equivale alla proprietà di martingala di X. Chiaramente XT ∈ L2 (Ω, P ) per ogni T ≥ 0 poiché XT è il
prodotto di α, variabile aleatoria limitata, per un incremento di B che è di quadrato sommabile.
ii) Proviamo direttamente la (15.2.9): si ha
"Z t Zt #
h i
E ur dBr vr dBr | Fs = E αβ(Bt − Bs )2 | Fs
s s
h i
= αβE (Bt − Bs )2 | Fs =

(per la formula cruciale (15.2.6))


= αβE [⟨B⟩t − ⟨B⟩s | Fs ]
= E [αβ(⟨B⟩t − ⟨B⟩s ) | Fs ]
"Z t #
=E ur vr d⟨B⟩r | Fs .
s

La dimostrazione della (15.2.9) è analoga.


iii) Il processo ⟨X, Y ⟩ in (15.2.11) è adattato, continuo e localmente a variazione limitata poiché differenza
di processi crescenti
Zt Zt
+
⟨X, Y ⟩t = (us vs ) d⟨B⟩s − (us vs )− d⟨B⟩s .
0 0
Inoltre ⟨X, Y ⟩0 = 0. Per concludere basta provare che XY − ⟨X, Y ⟩ è una martingala: si ha
Zt ! Zt !
Xt Y t = Xs + ur dBr Ys + vr dBr
s s
Z t Z t Z t Z t
= Xs Ys + ur dBr vr dBr + Xs vr dBr + Ys ur dBr
s s s s

e quindi
"Z t Z t # "Z t # "Z t #
E [Xt Yt | Fs ] = Xs Ys + E ur dBr vr dBr | Fs + Xs E vr dBr | Fs + Ys E ur dBr | Fs =
s s s s

(per la (15.2.9) e la (15.2.7))


"Z t #
= Xs Ys + E ur vr d⟨B⟩r | Fs
s

da cui segue
E [Xt Yt − ⟨X, Y ⟩t | Fs ] = Xs Ys − ⟨X, Y ⟩s .
358 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Osservazione 15.2.8. Le formule (15.2.7), (15.2.8), (15.2.9), (15.2.10) e (15.2.11) si riscrivono rispettiva-
mente nella forma

E [Xt − Xs | Fs ] = 0,
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.

Applicando il valore atteso, si ottengono anche le versioni non condizionate dell’isometria di Itô:
 Zt !2  "Z t #
ur2 d⟨B⟩r ,
 
E  ur dBr  = E (15.2.12)
s s
"Z t Zt # "Z t #
E ur dBr vr dBr = E ur vr d⟨B⟩r ,
s s s
"Z t Z T #
E ur dBr vr dBr = 0, (15.2.13)
s t

e la (15.2.11) con u = v diventa


Z t
⟨X⟩t = us2 d⟨B⟩s , t ≥ 0.
0

15.2.2 Integrale di processi semplici


In questa sezione estendiamo la classe dei processi integrandi ai processi semplici: essi sono somme di
processi indicatori come quelli considerati nella sezione precedente. Per linearità la definizione di integrale
stocastico si estende, traiettoria per traiettoria, in modo elementare ed esplicito. Rimangono valide le
proprietà fondamentali dell’integrale: la proprietà di martingala e l’isometria di Itô.

Definizione 15.2.9 (Processo semplice). Un processo semplice u è un processo della forma

N
X
ut = uk,t , uk,t := αk 1[tk−1 ,tk [ (t), (15.2.14)
k=1

dove:

i) 0 ≤ t0 < t1 < · · · < tN ;

ii) αk è una variabile aleatoria Ftk−1 -misurabile e limitata per ogni k = 1, . . . , N .

Si può richiedere anche che P (αk , αk+1 ) > 0, per k = 1, . . . , N − 1, in modo che la rappresentazione
(15.2.14) di u sia unica.

Definizione 15.2.10 (Integrale stocastico di processi semplici). Sia u un processo semplice della forma
(15.2.14) e sia B ∈ M c,2 . L’integrale stocastico di u rispetto a B è il processo stocastico
Z t N Z
X t N
X  
us dBs := uk,s dBs = αk Bt∧tk − Bt∧tk−1 .
0 k=1 0 k=1

Teorema 15.2.11. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v siano processi semplici.
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 359

Dimostrazione. La continuità e la proprietà di martingala (15.2.7) sono immediate per linearità. Per quanto
riguarda l’isometria di Itô (15.2.9), anzitutto possiamo scrivere v nella forma (15.2.14) rispetto alla stessa
scelta di t0 , . . . , tN , per certi vk,t = βk 1[tk−1 ,tk [ (t): notiamo che

N
X N
X N
X
ut vt = uk,t vh,t = αk βk 1[tk−1 ,tk [ (t). (15.2.15)
k=1 h=1 k=1

Allora si ha
N Z N Z t

"Z t Z t #
X t X 
E ur dBr vr dBr | Fs = E  uk,r dBr vh,r dBr | Fs 
s s s
k=1 s h=1
N
X "Z t Zt #
= E uk,r dBr vk,r dBr | Fs
k=1 s s
X "Z th Z tk #
+2 E uh,r 1[s,t[ (r)dBr vk,r 1[s,t[ (r)dBr | Fs =
h<k th−1 tk−1

(per la (15.2.8) e la (15.2.10))

N
X "Z t #
= E uk,r vk,r d⟨B⟩r | Fs =
k=1 s

(per la (15.2.15))
"Z t #
=E ur vr d⟨B⟩r | Fs .
s

Infine il fatto che ⟨X, Y ⟩ in (15.2.11) sia il processo covariazione di X e Y si prova come nella dimostrazione
del Teorema 15.2.7-iii).

15.2.3 Integrale di processi in L2


In questa sezione estendiamo la classe dei processi integrandi sfruttando la densità dei processi semplici
in L2 ≡ L2B (cfr. Definizione 15.2.1). L’integrale stocastico è ora definito come limite in M c,2 e quindi,
ricordando l’Osservazione 13.3.2, come classe di equivalenza e non più traiettoria per traiettoria. Tuttavia
rimangono valide le proprietà fondamentali dell’integrale: la proprietà di martingala e l’isometria di Itô.
Il Lemma 15.1.5 ha la seguente generalizzazione che si prova con un artificio tecnico: l’idea è di fare un
cambio di variabile temporale per “riallineare” il processo continuo e crescente ⟨B⟩t al caso Browniano in
cui ⟨B⟩t ≡ t; per i dettagli rimandiamo al Lemma 2.2.7 in [58].

Lemma 15.2.12. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici tali che
"Z T #
2
lim E us − un,s d⟨B⟩s = 0.
n→∞ 0

Ricordiamo la convenzione in base alla quale MTc,2 è lo spazio delle classi di equivalenza (secondo
l’indistinguibilità) delle martingale continue X = (Xt )t∈[0,T ] di quadrato sommabile, munito della norma
q h i
∥X∥T := E XT2 .
360 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Per la Proposizione 13.3.3, (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.


Vediamo ora come definire l’integrale stocastico di u ∈ L2 . Fissato T > 0 e data una successione
approssimante (un )n∈N di processi semplici come nel Lemma 15.2.12, indichiamo con
Z t
Xn,t = un,s dBs , t ∈ [0, T ], (15.2.16)
0

la successione dei relativi integrali stocastici. Per il Teorema 15.2.11 Xn ∈ MTc,2 e per l’isometria di Itô
(15.2.8) si ha
 Z !2 
 T
"Z T #
2

∥Xn − Xm ∥T = E  (un,t − um,t )dBt  = E (un,t − um,t )2 d⟨B⟩t .
0 0

Ne segue che (Xn )n∈N è una successione di Cauchy in (MTc,2 , ∥ · ∥T ) e quindi esiste

X := lim Xn in MTc,2 . (15.2.17)


n→∞

Proposizione 15.2.13 (Integrale stocastico di processi in L2 ). Il processo limite X = (Xt )t∈[0,T ] in (15.2.17)
è indipendente dalla successione approssimante ed è chiamato processo integrale stocastico di u rispetto a B
su [0, T ] e indicato con
Zt
Xt = us dBs , t ∈ [0, T ].
0

Dimostrazione. Sia X il limite in (15.2.17) definito a partire dalla successione approssimante (un )n∈N . Sia
(vn )n∈N un’altra successione approssimante per u e
Z t
Yn,t = vn,s dBs , t ∈ [0, T ]. (15.2.18)
0

Allora ∥Yn − X∥T ≤ ∥Yn − Xn ∥T + ∥Xn − X∥T e basta osservare che, ancora per l’isometria di Itô, si ha
 Z !2 
 T
"Z T #

∥Yn − Xn ∥2T = E  (vn,t − un,t )dBt  = E
 2
(vn,t − un,t ) d⟨B⟩t −−−−−→ 0.
0 0 n→∞

Osservazione 15.2.14. [!] Per costruzione, l’integrale stocastico secondo Itô


Z t
Xt = us dBs , (15.2.19)
0

con u ∈ L2 e B ∈ M c,2 , è una classe di equivalenza in M c,2 : ogni rappresentante di tale classe è una martin-
gala continua, univocamente determinata a meno di processi indistinguibili. Da questo punto di vista, a
meno che non sia stata operata una particolare scelta del rappresentante, le singole traiettorie del processo
integrale stocastico non sono definite e non ha senso considerare o voler calcolare Xt (ω) per un particolare
ω ∈ Ω.

Teorema 15.2.15. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v ∈ L2 .

Dimostrazione. Siano (un )n∈N e (vn )n∈N successioni di processi semplici, approssimanti rispettivamente u
e v in (MTc,2 , ∥ · ∥T ). Indichiamo con (Xn )n∈N e (Yn )n∈N i corrispondenti integrali stocastici in (15.2.16) e
(15.2.18). Le (15.2.7) e (15.2.8) sono diretta conseguenza del fatto che Xn,t → Xt in L2 (Ω, P ) (e quindi
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 361

anche in L1 (Ω, P )) e Xn,t Yn,t → Xt Yt in L1 (Ω, P ) unitamente al fatto generale che4 se Zn → Z in L1 (Ω, P )
allora E [Zn | G ] → E [Z | G ] in L1 (Ω, P ). La dimostrazione della (15.2.11) è identica a quella del Teorema
15.2.7-iii).
Osservazione 15.2.16. [!] Siano B ∈ M c,2 e u ∈ L2B . Per il Teorema 15.2.15, l’integrale X in (15.2.19)
appartiene a M c,2 e quindi può essere usato come integratore. Poiché
Zt
⟨X⟩t = us2 d⟨B⟩s ,
0

si ha che v ∈ L2X se v è progressivamente misurabile e vale


"Z t # "Z t #
2 2 2
E vs d⟨X⟩s = E vs us d⟨B⟩s < ∞
0 0

per ogni t ≥ 0. In tal caso si ha


Z t Z t
vs dXs = vs us dBs
0 0
come si può verificare direttamente per u, v semplici e, in generale, per approssimazione.
In particolare, se B è un moto Browniano allora la misura di Lebesgue-Stieltjes associata a ⟨X⟩ è assolu-
tamente continua rispetto alla misura di Lebesgue, con densità u 2 .
Diamo ora due proposizioni i cui enunciati sembrano quasi ovvi ma in realtà, alla luce dell’Osservazione
15.2.14, richiedono una dimostrazione rigorosa. Entrambi i risultati si provano con una procedura, tecnica
e un po’ noiosa, di approssimazione.
Proposizione 15.2.17. [!] Supponiamo che u, v ∈ L2 siano modificazioni su un evento F nel senso che, per
ogni t ∈ [0, T ], ut (ω) = vt (ω) per quasi ogni ω ∈ F. Allora i relativi processi integrali
Zt Zt
Xt = us dBs , Yt = vs dBs ,
0 0

sono indistinguibili su F, ossia sup |Xt (ω) − Yt (ω)| = 0 per quasi ogni ω ∈ F.
t∈[0,T ]

Dimostrazione. Consideriamo le approssimazioni un e vn definite come nel Lemma 15.2.12. Per costruzio-
ne, per ogni n ∈ N e t ∈ [0, T ], un,t = vn,t quasi certamente su F. Ne segue che anche i relativi integrali
(Xn,t )t∈[0,T ] in (15.2.16) e (Yn,t )t∈[0,T ] in (15.2.18) sono modificazioni su F. Passando al limite in n, si deduce
che (Xt )t∈[0,T ] e (Yt )t∈[0,T ] sono modificazioni su F: la tesi segue dalla proprietà di continuità di X e Y .
Osservazione 15.2.18. Supponiamo che, per un certo T > 0, valga
ZT ZT
ut dBt = vt dBt
0 0

dove u, v ∈ L2 e B è un moto Browniano. Allora P (u = v q.o. su [0, T ]) = 1 ossia quasi tutte le traiettorie di
u e v sono uguali quasi ovunque su [0, T ]. Infatti, per l’isometria di Itô si ha
"Z T  Z !2 
 T
#

2
E (ut − vt ) dt = E  (ut − vt )dBt  = 0
0 0

da cui la tesi.
4 Per la disuguaglianza di Jensen, si ha

E [|E [Zn | G ] − E [Z | G ]|] ≤ E [E [|Zn − Z| | G ]] = E [|Zn − Z|] .


362 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Proposizione 15.2.19 (Integrale con estremo d’integrazione aleatorio). [!] Sia X in (15.2.19) il processo
integrale stocastico di u ∈ L2 rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo
T > 0. Allora (ut 1(t≤τ) )t≥0 ∈ L2 e vale
Z τ Z T
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0

Dimostrazione. Osserviamo anzitutto che, per la Proposizione 15.2.17, se F ∈ Ft allora


Z T Z T
1F us dBs = 1F us dBs q.c. (15.2.20)
t t

La condizione di misurabilità su F è fondamentale perché assicura che l’integrale nel membro a destra di
(15.2.20) sia ben definito, essendo l’integrando progressivamente misurabile su [t, T ].
Ora ricordiamo la notazione (15.1.13), tn,k := T2nk , per i diadici di [0, T ] e utilizziamo l’usuale discretiz-
zazione di τ:
X2n
τn = tn,k 1Fn,k
k=1
con  
T
k = 2, . . . , 2n .

Fn,1 = 0 ≤ τ ≤ 2n , Fn,k = tn,k−1 < τ ≤ tn,k ,
Notiamo che (Fn,k )k=1,...,2n forma una partizione di Ω con Fn,k ∈ Ftn,k e (τn )n∈N è una successione decrescente
di tempi d’arresto che converge a τ. Per continuità si ha Xτn → Xτ . Inoltre, posto
Z T Z T
Y= us 1(s≤τ) dBs , Yn = us 1(s≤τn ) dBs ,
0 0

usando l’isometria di Itô è facile provare che Yn → Y in L2 (Ω, P ) e quindi anche quasi certamente.
Per provare la tesi, ossia il fatto che Xτ = Y q.c., è quindi sufficiente verificare che Xτn = Yn q.c. per ogni
n ∈ N. Ora, su Fn,k si ha
ZT ZT
Xτn = Xtn,k = us dBs − us dBs ,
0 tn,k

e quindi
Z T 2n
X Z T
Xτn = us dBs − 1Fn,k us dBs . (15.2.21)
0 k=1 tn,k

D’altra parte
Z T  
Yn = us 1 − 1(s>τn ) dBs
0
Z T 2n Z
X T
= us dBs − us 1Fn,k dBs =
0 k=1 tn,k

(per la (15.2.20), con probabilità uno)


Z T 2n
X Z T
= us dBs − 1Fn,k us dBs
0 k=1 tn,k

che, combinata con la (15.2.21), prova la tesi.


15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 363

0.04
0.4

0.03
0.2

0.02
200 400 600 800 1000

-0.2 0.01

-0.4
200 400 600 800 1000

Figura 15.1: A sinistra: grafico di una traiettoria di un moto Browniano W . A destra: grafico della relativa
Rt
traiettoria di At = 0 Ws2 ds, corrispondente al processo in (15.2.22) con u = W e B moto Browniano.

15.2.4 Integrale di processi in L2loc


Definiamo l’integrale stocastico di processi in L2loc . Indebolendo la condizione di sommabilità dell’in-
tegrando, si perdono alcune delle proprietà fondamentali dell’integrale, fra cui la proprietà di martin-
gala e l’isometria di Itô. Proveremo che l’integrale è una martingala locale e forniremo un “surrogato”
dell’isometria di Itô, il Lemma 15.2.24.
Ricordiamo che u ∈ L2loc se è progressivamente misurabile e, per ogni t > 0,
Zt
At := us2 d⟨B⟩s < ∞ q.c. (15.2.22)
0

Il processo A cosı̀ definito è continuo, adattato e crescente; inoltre A è non-negativo poiché A0 = 0 (si veda
la Figura 15.1).
Fissiamo T > 0 e consideriamo la successione di tempi d’arresto definita da
τn = T ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N, (15.2.23)
e rappresentati in Figura 15.2. Per continuità di A, si ha τn ↗ T q.c. e quindi la successione di eventi
Fn := (τn = T ) è tale che Fn ↗ Ω \ N con P (N ) = 0. Troncando u al tempo τn , definiamo il processo
un,t := ut 1(t≤τn ) , t ∈ [0, T ],
che è progressivamente misurabile e tale che
"Z t # "Z t∧τn #
2
E un,s d⟨B⟩s = E us2 d⟨B⟩s ≤ n, t ∈ [0, T ].
0 0

Quindi un ∈ L2 e il relativo integrale


Z t Z t∧τn
Xn,t := un,s dBs = us dBs , t ∈ [0, T ], (15.2.24)
0 0

appartiene a M c,2 in base al Teorema 15.2.15. Inoltre per ogni n, h ∈ N, quasi certamente per ogni t ∈ [0, T ]
si ha
un,t = un+h,t = ut su Fn ,
 
e pertanto i processi Xn,t t∈[0,n] e Xn+h,t t∈[0,n] sono indistinguibili su Fn grazie alla Proposizione 15.2.17.
Allora la seguente definizione è ben posta:
364 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Figura 15.2: Grafico di due traiettorie del processo A in (15.2.22) e dei corrispondenti tempi d’arresto τn e
τn+1 in (15.2.23)

Definizione 15.2.20 (Integrale stocastico di processi in L2loc ). L’integrale stocastico di u ∈ L2loc rispetto
a B ∈ M c,2 su [0, T ] è il processo continuo e adattato X = (Xt )t∈[0,T ] che su Fn è indistinguibile da Xn in
(15.2.24) per ogni n ∈ N. Al solito, scriviamo
Zt
Xt = us dBs , t ∈ [0, T ]. (15.2.25)
0
Osservazione 15.2.21. Come già osservato in precedenza, l’integrale stocastico è definito come classe di
equivalenza di processi indistinguibili. La definizione precedente e in particolare la notazione (15.2.25)
sono ben poste nel senso che se X e X̄ indicano rispettivamente i processi integrali stocastici di u rispetto a
B sugli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ allora, con una procedura d’approssimazione a partire dai processi
semplici, si dimostra che X e X̄|[0,T ] sono processi indistinguibili. Di conseguenza è ben definito il processo
integrale stocastico secondo Itô di u rispetto a B indicato con
Zt
Xt = us dBs , t ≥ 0.
0
Vedremo in seguito, nella Proposizione 15.2.25, che vale anche
Zt Zt
us dBs = lim un,s dBs
0 n→∞ 0
con convergenza in probabilità.
La Proposizione 15.2.19 ha la seguente semplice generalizzazione.
Proposizione 15.2.22 (Integrale con estremo d’integrazione aleatorio). Sia X il processo integrale stoca-
stico di u ∈ L2loc rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo T > 0. Allora
 
ut 1(t≤τ) ∈ L2loc e vale
t≥0 Zτ ZT
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 365
 
Dimostrazione. È chiaro che ut 1(t≤τ) ∈ L2loc . Sia (τn )n∈N la successione di tempi d’arresto in (15.2.23).
t≥0
Per definizione sull’evento Fn = (τn = T ) si ha

Xτ = us 1(s≤τn ) dBs =
0

(per la Proposizione 15.2.19, poiché us 1(s≤τn ) ∈ L2 )


ZT
= us 1(s≤τn ) 1(s≤τ) dBs =
0

(poiché su Fn si ha τn = T ≥ τ)
Z T
= us 1(s≤τ) dBs .
0

La tesi segue dall’arbitrarietà di n.


Estendendo la classe di integrandi da L2 a L2loc , si perde la proprietà di martingala, tuttavia si ha il
seguente
Teorema 15.2.23. [!] Siano Z t Z t
Xt = us dBs , Yt = vs dBs
0 0
con u, v ∈ L2loc e B ∈ M c,2 . Allora:
i) X è una martingala locale continua, ossia X ∈ M c,loc , e
τn := n ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N,
con A in (15.2.22), è una successione localizzante per X (cfr. Definizione 13.4.2);
ii) il processo covariazione di X e Y è
Z t
⟨X, Y ⟩t = us vs d⟨B⟩s , t ≥ 0.
0

Dimostrazione. Per la Proposizione 15.2.22 (con la scelta τ = t ∧ τn e T = t), per ogni t ≥ 0 si ha


Zt
Xt∧τn = us 1(s≤τn ) dBs q.c.
0

e quindi, per continuità, Xt∧τn è una versione dell’integrale stocastico del processo us 1(s≤τn ) che appartiene
a L2 . Ne segue che Xt∧τn è una martingala continua e quindi X è una martingala locale con successione
localizzante (τn )n∈N .
Rt
Ora poniamo At = us vs d⟨B⟩s e
0

τn = n ∧ inf{t ≥ 0 | ⟨X⟩t + ⟨Y ⟩t ≥ n}, n ∈ N.


Per il Teorema 15.2.15 (si ricordi la (15.2.11)) e la disuguaglianza di Cauchy-Schwarz dell’Osservazione
17.1.2-iii), si ha che il processo
Zt
(XY − A)t∧τn = Xt∧τn Yt∧τn − At∧τn = Xt∧τn Yt∧τn − us vs 1(s≤τn ) d⟨B⟩s
0

è una martingala: ne viene che XY −A ∈ M c,loc con successione localizzante (τn )n∈N e quindi A = ⟨X, Y ⟩.
366 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

Per l’integrale stocastico di u ∈ L2loc non si ha più a disposizione uno strumento fondamentale come
l’isometria di Itô: in molte situazioni essa può essere convenientemente sostituita dal seguente lemma.

Lemma 15.2.24. [!] Siano


Z t Z t
Xt = us dBs , ⟨X⟩t = us2 d⟨B⟩s ,
0 0

con u ∈ L2loc e B ∈ M c,2 . Per ogni t, ε, δ > 0 vale

δ
P (|Xt | ≥ ε) ≤ P (⟨X⟩t ≥ δ) + .
ε2

Dimostrazione. Poniamo
τδ = inf{s > 0 | ⟨X⟩s ≥ δ}, δ > 0.
Fissati t, ε > 0, si ha

P (|Xt | ≥ ε) = P ((|Xt | ≥ ε) ∩ (τδ ≤ t)) + P ((|Xt | ≥ ε) ∩ (τδ > t)) ≤

(poiché (τδ ≤ t) = (⟨X⟩t ≥ δ))

≤ P (⟨X⟩t ≥ δ) + P ((|Xt | ≥ ε) ∩ (τδ > t))

e quindi rimane da provare che


δ
P ((|Xt | ≥ ε) ∩ (τδ > t)) ≤ .
ε2
Ora si ha
Z Z
t t
! ! ! !

P us dBs ≥ ε ∩ (t < τδ ) = P us 1(s<τδ ) dBs ≥ ε ∩ (t < τδ )
0 0
Z
t
!

≤ P us 1(s<τδ ) dBs ≥ ε ≤
0

(per la disuguaglianza (4.1.3) di Chebyschev)


 Z 2 
1  t 
≤ 2 E  us 1(s<τδ ) dBs  =
ε 0

(per l’isometria di Itô, poiché us 1(s<τδ ) ∈ L2 )


"Z t #
1 δ
= E us2 1(s<τδ ) d⟨B⟩s ≤ 2 .
ε2 0 ε

15.2.5 Integrale stocastico e integrale di Riemann-Stieltjes


Il seguente risultato mostra che l’integrale stocastico di u ∈ L2loc può anche essere definito per approssi-
mazione, come avevamo fatto per u ∈ L2 , a patto di usare la convergenza in probabilità invece che in norma
L2 (Ω, P ).
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 367

Proposizione 15.2.25. Siano u, un ∈ L2loc , n ∈ N, tali che


Zt
P
|un,s − us |2 d⟨B⟩s −−−−−→ 0. (15.2.26)
0 n→∞

Allora Z t Z t
P
un,s dBs −−−−−→ us dBs .
0 n→∞ 0
Dimostrazione. La tesi è immediata conseguenza dell’isometria di Itô nella forma del Lemma 15.2.24:
fissato ε > 0 e posto δ = ε3 si ha
Z
t
! Zt !
2
lim P (un,s − us )dBs ≥ ε ≤ lim P |un,s − us | d⟨B⟩s ≥ δ + ε = ε
n→∞ 0 n→∞ 0

grazie all’ipotesi (15.2.26).


Come semplice applicazione della Proposizione 15.2.25 proviamo che, nel caso in cui l’integrando sia un
processo continuo, l’integrale stocastico è in effetti il limite in probabilità delle somme di Riemann-Stieltjes
in cui l’integrando è valutato nell’estremo sinistro di ogni intervallo della partizione: ciò è coerente con la
costruzione dell’integrale secondo Itô che sfrutta in maniera cruciale l’ipotesi di progressiva misurabilità
dell’integrando. Il seguente risultato è anche alla base dei metodi di approssimazione numerica per l’integrale
stocastico.
Corollario 15.2.26. [!] Siano u un processo continuo e adattato, B ∈ M c,2 e (πn )n∈N una successione di
partizioni di [0, t], con πn = (tn,k )k=0,...,mn , tale che lim |πn | = 0. Allora
n→∞
mn
X   P Zt
utn,k−1 Btn,k − Btn,k−1 −−−−−→ us dBs .
n→∞ 0
k=1

Dimostrazione. Posto
mn
X
un,s = utn,k−1 1[tn,k−1 ,tn,k [ (s)
k=1

si ha che un ∈ L2loc e
mn
X   Z t
utn,k−1 Btn,k − Btn,k−1 = un,s dBs .
k=1 0

Inoltre, per la continuità di u e il teorema della convergenza dominata, si ha


Zt
lim |un,s − us |2 d⟨B⟩s = 0 q.c.
n→∞ 0

La tesi segue dalla Proposizione 15.2.25.


Un’utile conseguenza del Corollario 15.2.26 è il seguente
Corollario 15.2.27. [!] Per i = 1, 2, sia Z t
Xti = usi dBis
0
d
con u i , processo continuo e adattato, e Bi ∈ M c,2 definiti su (Ωi , F i , P i ). Se (u 1 , B1 ) = (u 2 , B2 ) allora si ha
d
anche (u 1 , B1 , X 1 ) = (u 2 , B2 , X 2 ).
Un risultato analogo vale sotto ipotesi molto più generali: al riguardo si veda, per esempio, l’Esercizio
IV.5.16 in [103].
368 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

15.3 Integrale rispetto a semimartingale continue


Nelle sezioni precedenti abbiamo supposto che il processo integratore B fosse una martingala continua
di quadrato sommabile. Ora estendiamo la definizione di integrale stocastico al caso in cui l’integratore,
qui indicato con S, sia una semimartingala continua: precisamente, per la Definizione 14.3.1, S è un processo
adattato e continuo della forma
S = A+B
dove A ∈ BV è tale che A0 = 0 e B ∈ M c,loc . Usiamo la notazione
Zt
ur dSr
0

per indicare l’integrale stocastico del processo u rispetto a S: esso è definito come somma
Zt Zt Zt
ur dSr := ur dAr + ur dBr
0 0 0

dove i due integrali nel membro a destra hanno il significato che ora spieghiamo.
Sia µA la misura di Lebesgue-Stieltjes5 associata ad A e definita traiettoria per traiettoria: indichiamo
con Zt Z
ur dAr := ur µA (dr)
0 [0,t]

il relativo integrale di Lebesgue-Stieltjes. Affinché tale integrale sia ben definito, imponiamo che u ∈ L2S,loc
secondo la seguente
Definizione 15.3.1. L2S,loc è la classe dei processi u progressivamente misurabili e tali che
Z Z t
|ur ||µA |(dr) + ur2 d⟨B⟩r < ∞ q.c.
[0,t] 0

per ogni t ≥ 0.

Per quanto riguarda l’integrale rispetto a B ∈ M c,loc , si può utilizzare un procedimento di localizzazione
del tutto analogo6 a quello della Sezione 15.2.4. In definitiva, ricordando la Definizione 17.1.3 di variazione
quadratica di una semimartingala, si ha la seguente
5 Secondo la Definizione 14.2.1, µ è una misura con segno.
A
6 Sia (τ )
n n∈N una successione localizzante per B: come nell’Osservazione 13.4.5-iv) possiamo supporre |Bt∧τn | ≤ n cosicché Bn :=
(Bt∧τn )t≥0 ∈ M c,2 . Se u ∈ L2S,loc allora
Zt Zt
ur2 d⟨Bn ⟩r ≤ ur2 d⟨B⟩r < ∞ q.c.
0 0
e quindi u ∈ L2B ,loc e l’integrale
n Zt
Yn,t := ur dBn,r
0
è ben definito. Sull’evento Fn,T := (T ≤ τn ) si ha q.c.

sup Yn,t − Ym,t = 0, m ≥ n.
0≤t≤T
Ciò è vero se u è semplice e, come la Proposizione 15.2.17, si dimostra in generale per approssimazione. Poiché Fn,T ↗ FT con
P (FT ) = 1, definiamo l’integrale
Zt
Yt = ur dBr , 0≤t ≤T,
0
come la classe di equivalenza dei processi continui e adattati che, per ogni n ∈ N, sono indistinguibili da (Yn,t )t∈[0,T ] su Fn,T . Se
Y e Ȳ indicano rispettivamente i processi integrali stocastici di u relativi agli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ , allora Y e Ȳ |[0,T ]
15.3. INTEGRALE RISPETTO A SEMIMARTINGALE CONTINUE 369

Proposizione 15.3.2. Siano S = A + B una semimartingala continua e u ∈ L2S,loc . Il processo integrale


stocastico Zt Zt Zt
Xt := ur dSr = ur dAr + ur dBr , t ≥ 0,
0 0 0
è una semimartingala continua con processo variazione quadratica
Zt
⟨X⟩t = ur2 d⟨B⟩r , t ≥ 0. (15.3.1)
0

Nella prossima sezione trattiamo il caso particolare in cui At = t e B sia un moto Browniano.

15.3.1 Processi di Itô reali


Un processo di Itô è una particolare semimartingala continua che è somma di un integrale di Lebesgue
e di uno stocastico. In questa sezione W indica un moto Browniano reale.
Definizione 15.3.3 (Processo di Itô). [!] Un processo di Itô è un processo della forma
Zt Zt
Xt = X0 + us ds + vs dWs , (15.3.2)
0 0

dove:
i) X0 ∈ mF0 ;
ii) u ∈ L1loc , ossia u è progressivamente misurabile e tale che
Z t
|us |ds < ∞, q.c.
0

per ogni t ≥ 0;
iii) v ∈ L2loc , ossia v è progressivamente misurabile e tale che7
Z t
|vs |2 ds < ∞ q.c.
0

per ogni t ≥ 0.
Notazione 15.3.4 (Notazione differenziale). [!] Per indicare il processo di Itô in (15.3.2) si usa spesso la
cosiddetta “notazione differenziale”:
dXt = ut dt + vt dWt . (15.3.3)
Questa notazione, oltre ad essere più compatta, ha il pregio di evocare le espressioni del calcolo differenzia-
le classico. Ovviamente, in termini rigorosi, dXt non è una “derivata” o un “differenziale del processo X”,
sono indistinguibili su [0, T ]. Quindi è ben definito il processo integrale stocastico secondo Itô di u ∈ L2S,loc rispetto a B ∈ M c,loc , che
indichiamo Zt
Yt = ur dBr , t ≥ 0.
0
Si ha che Y ∈ M c,loc con processo variazione quadratica
Zt
⟨Y ⟩t = ur2 d⟨B⟩r , t ≥ 0,
0
e una successione localizzante per Y è data da τ̄n = τn ∧ τn′ dove τn′ = inf{t ≥ 0 | ⟨I⟩t ≥ n}.
7 Si ricordi che ⟨W ⟩ = s.
s
370 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ

oggetti che non sono stati definiti, ma è un simbolo che ha senso solo all’interno dell’espressione (15.3.3):
tale espressione, a sua volta, è una scrittura il cui significato preciso è dato dall’equazione integrale (15.3.2).
Quando si parla di calcolo differenziale stocastico ci si riferisce a questo tipo di calcolo simbolico il cui ve-
ro significato è dato dalle relative espressioni integrali: dunque si tratta in realtà di un calcolo integrale
stocastico.
Il processo in (15.3.2) è una semimartingala continua e quindi può fungere a sua volta da integratore, infatti
si ha X = A + M dove:
- il processo
Z t
At := us ds
0
è continuo, adattato e a variazione limitata per l’Esempio 14.1.2-iv), ed è chiamato drift di X;
- il processo integrale stocastico
Z t
Mt := X0 + vs dWs
0
è una martingala locale continua ed è chiamato parte diffusiva o diffusione di X.
Per la (15.3.1), il processo variazione quadratica di X è
Zt
⟨X⟩t = vs2 ds,
0

ossia d⟨X⟩t = vt2 dt in notazione differenziale.


Osservazione 15.3.5. [!] La rappresentazione di un processo di Itô è unica nel senso seguente: se X è il
processo in (15.3.3) e vale
dXt = ut′ dt + vt′ dWt ,
con u ′ ∈ L1loc e v ′ ∈ L2loc , allora
P (v = v ′ q.o.) = P (u = u ′ q.o.) = 1.
In particolare, se u, u ′ , v, v ′ sono continui allora u è indistinguibile da u ′ e v è indistinguibile da v ′ .
Infatti, il processo
Zt Zt Zt Zt
′ ′
Mt := vs dWs − vs dWs = us ds − us ds
0 0 0 0
è una martingala locale continua, a variazione limitata che, per il Teorema 14.3.6, è indistinguibile dal
processo identicamente nullo. Consideriamo
Zt
τn := n ∧ inf{t ≥ 0 | At ≥ n}, At := (vs − vs′ )2 ds, n ∈ N,
0
l’usuale successione localizzante per M. Allora si ha
 Zτ !2   Zn !2 
n
 ′   ′ 
0 = E  (vs − vs )dWs  = E 
  (vs − vs )1[0,τn ] (s)dWs 
0 0
"Z n #
=E (vs − vs′ )2 1[0,τn ] (s)ds
0
dove la seconda e terza uguaglianza sono dovute rispettivamente alla Proposizione 15.2.22 e all’isometria
di Itô. Passando al limite per n → ∞, per il Teorema di Beppo-Levi, si ha
"Z ∞ #
′ 2
E (vs − vs ) ds = 0
0

da cui P (v = v′ q.o.) = 1. D’altra parte, per la Proposizione A.2.3.2 si ha che anche P (u = u ′ q.o.) = 1.
Capitolo 16

Formula di Itô

To put meaning in one’s life may end


in madness,
But life without meaning is the
torture
Of restlessness and vague desire-
It is a boat longing for the sea and
yet afraid.

Edgar Lee Master

La formula di Itô è lo strumento più importante nell’ambito del calcolo differenziale stocastico. In que-
sto capitolo ne presentiamo diverse versioni che generalizzano la formula del Teorema 14.1.6 per l’integrale
di Riemann-Stieltjes e forniscono le regole generali del calcolo stocastico.

16.1 Formula di Itô per semimartingale continue


Sebbene il caso delle semimartingale sia molto generale, diamo subito questa versione della formula
di Itô perché ha il pregio di avere un’espressione compatta e una dimostrazione intuitiva. Ricordiamo che
una semimartingala continua è un processo adattato e continuo della forma X = A + M con A ∈ BV tale che
A0 = 0 e M ∈ M c,loc , ossia M è una martingala locale continua secondo la Definizione 13.4.2.
Indichiamo con ⟨X⟩ il processo variazione quadratica di X: per il Teorema 14.4.1, vale ⟨X⟩ ≡ ⟨M⟩ dove ⟨M⟩
è l’unico processo continuo e crescente tale che ⟨M⟩0 = 0 e M 2 − ⟨M⟩ è una martingala locale. Per esempio,
se X è un moto Browniano allora A ≡ 0 e il processo variazione quadratica è deterministico: ⟨X⟩t = t per
t ≥ 0. Più in generale, se X è un processo di Itô della forma dXt = ut dt + vt dWt (cfr. Definizione 15.3.3)
allora d⟨X⟩t = vt2 dt.

Teorema 16.1.1 (Formula di Itô). [!!!] Sia X una semimartingala continua e sia F ∈ C 2 (R). Allora quasi
certamente, per ogni t ≥ 0 si ha
Z t Z t
1
F(Xt ) = F(X0 ) + F ′ (Xs )dXs + F ′′ (Xs )d⟨X⟩s (16.1.1)
0 2 0

o, con la notazione differenziale,


1
dF(Xt ) = F ′ (Xt )dXt + F ′′ (Xt )d⟨X⟩t . (16.1.2)
2

371
372 CAPITOLO 16. FORMULA DI ITÔ

Idea della dimostrazione. Data una partizione π = {t0 , . . . , tN } di [0, t], si scrive la differenza F(Xt )−F(X0 ) come
somma telescopica e poi si sviluppa in serie di Taylor al second’ordine: si ottiene

N 
X 
F(Xt ) − F(X0 ) = F(Xtk ) − F(Xtk )
k=1
N
X   1X N  2
= F ′ (Xtk−1 ) Xtk − Xtk−1 + F ′′ (Xtk−1 ) Xtk − Xtk−1 + “resto”.
2
k=1 k=1

Infine si prova che, in senso opportuno, esistono i limiti

N
X   Z t

F (Xtk−1 ) Xtk − Xtk−1 −→ F ′ (Xs )dXs ,
k=1 0
N
X  2 Zt
′′
F (Xtn,k−1 ) Xtk − Xtk−1 −→ F ′′ (Xs )d⟨X⟩s
k=1 0

per |π| che tende a zero e il termine di resto è trascurabile. La dimostrazione completa, tecnicamente più
complessa, è data nella Sezione 16.3.

Osservazione 16.1.2. Rispetto alla versione deterministica (14.1.3), nella formula di Itô (16.1.2) appare il
termine aggiuntivo di second’ordine che deriva dalla variazione quadratica di X: esso è moltiplicato per il
fattore 21 dell’espansione in serie di Taylor di F.

In maniera simile si prova la seguente versione più generale della formula di Itô.

Teorema 16.1.3 (Formula di Itô). Sia X una semimartingala continua e sia F = F(t, x) ∈ C 1,2 (R≥0 ×R). Allora
quasi certamente, per ogni t ≥ 0 si ha
Z t Z t Z t
1
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂xx F)(s, Xs )d⟨X⟩s
0 0 2 0

o, con la notazione differenziale,


1
dF(t, Xt ) = ∂t F(t, Xt )dt + (∂x F)(t, Xt )dXt + (∂xx F)(t, Xt )d⟨X⟩t .
2

16.1.1 Formula di Itô per il moto Browniano


Scriviamo la formula di Itô per un moto Browniano reale W ed esaminiamo qualche esempio. Ricordia-
mo che il processo variazione quadratica di W è semplicemente ⟨W ⟩t = t.

Corollario 16.1.4 (Formula di Itô per il moto Browniano). [!] Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Z t Z t Z t
1
F(t, Wt ) = F(0, W0 ) + (∂t F)(s, Ws )ds + (∂x F)(s, Ws )dWs + (∂xx F)(s, Ws )ds
0 0 2 0

o, con la notazione differenziale,


1
 
dF(t, Wt ) = ∂t F + ∂xx F (t, Wt )dt + (∂x F)(t, Wt )dWt .
2
Esempio 16.1.5.
16.1. FORMULA DI ITÔ PER SEMIMARTINGALE CONTINUE 373

i) se F(t, x) = f (t)x, con f ∈ C 1 (R), si ha


∂t F(t, x) = f ′ (t)x, ∂x F(t, x) = f (t), ∂xx F(t, x) = 0.
Allora si ha Z t Z t
f (t)Wt = f ′ (s)Ws ds + f (s)dWs
0 0
che corrisponde alla formula di integrazione per parti deterministica dell’Esempio 14.1.8-ii). In forma
differenziale, abbiamo equivalentemente
d(f (t)Wt ) = f ′ (t)Wt dt + f (t)dWt
che ricorda l’usuale formula per la derivazione di un prodotto;
ii) se F(t, x) = x2 si ha
∂t F(t, x) = 0, ∂x F(t, x) = 2x, ∂xx F(t, x) = 2,
e quindi
Z t
Wt2 = 2 Ws dWs + t
0
o, in forma differenziale,
dWt2 = 2Wt dWt + dt;

iii) se F(t, x) = eat+σ x , con a, σ ∈ R, si ha


∂t F(t, x) = aF(t, x), ∂x F(t, x) = σ F(t, x), ∂xx F(t, x) = σ 2 F(t, x),
e quindi, posto Xt = eat+σ Wt , otteniamo
Zt Zt
σ2 t
Z
Xt = 1 + a Xs ds + σ Xs dWs + X ds
0 0 2 0 s
ossia  2
dXt = a + σ2 Xt dt + σ Xt dWt .
2
Con la scelta a = − σ2 il drift del processo si annulla e otteniamo
Zt
Xt = 1 + σ Xs dWs
0
σ2 t
che è una martingala continua: precisamente, Xt = eσ Wt − 2 è la martingala esponenziale introdotta
nella Proposizione 10.4.1.
Osservazione 16.1.6. [!] La formula di Itô mostra che ogni processo stocastico X = (Xt )t≥0 della forma Xt =
F(t, Wt ), con F sufficientemente regolare, è un processo di Itô secondo la Definizione 15.3.3: in particolare,
X è una semimartingala e la formula di Itô fornisce l’espressione esplicita della decomposizione (unica a
meno di processi indistinguibili) di X nella somma X = A + M dove il processo a variazione limitata
Z t
1

At := ∂t F + ∂xx F (s, Ws )ds
0 2
è il drift di X e la martingala locale1
Z t
Mt := X0 + (∂x F)(s, Ws )dWs
0
1 Ritroviamo qui il risultato del Teorema 10.4.3, provato nell’ambito della teoria dei processi di Markov.
374 CAPITOLO 16. FORMULA DI ITÔ

è la parte diffusiva di X.
Si noti che se F risolve l’equazione del calore
1
∂t F(t, x) + ∂xx F(t, x) = 0, t > 0, x ∈ R, (16.1.3)
2
allora il drift di X si annulla e pertanto X è una martingala locale. Viceversa, se X è una martingala locale
allora per l’Osservazione 15.3.5 si ha che
1
(∂t F + ∂xx F)(t, Wt ) = 0 (16.1.4)
2
nel senso dell’indistinguibilità e da questo segue2 che F risolve l’equazione del calore (16.1.3).

16.1.2 Formula di Itô per processi di Itô


Sia X un processo di Itô della forma

dXt = µt dt + σt dWt (16.1.5)

con µ ∈ L1loc e σ ∈ L2loc . Nella Sezione 15.3.1 abbiamo visto che X è una semimartingala continua con
variazione quadratica
Zt
⟨X⟩t = σs2 ds
0
ossia d⟨X⟩t = σt2 dt. Dunque si ha la seguente ulteriore versione della formula di Itô.
Corollario 16.1.7 (Formula di Itô per processi di Itô). [!] Sia X il processo di Itô in (16.1.5). Per ogni
F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Zt Zt
1 t
Z
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂ F)(s, Xs )σs2 ds (16.1.6)
0 0 2 0 xx
o equivalentemente

σt2
!
dF(t, Xt ) = ∂t F + µt ∂x F + ∂xx F (t, Xt )dt + σt ∂x F(t, Xt )dWt .
2

Esempio 16.1.8. [!!] Calcoliamo il differenziale stocastico del processo


Rt
Yt = et 0
Ws dWs
.

Anzitutto notiamo che non possiamo utilizzare la formula di Itô per il moto Browniano del Corollario 16.1.4
perché Yt non è funzione di Wt ma dipende da (Ws )s∈[0,t] , ossia da tutta la traiettoria di W nell’intervallo [0, t].
Il criterio generale con cui procedere per applicare correttamente la formula di Itô è quello di analizzare
anzitutto come Yt dipenda dalla variabile t, distinguendo la dipendenza di tipo “deterministico” da quella
di tipo “stocastico”: in questo esempio, evidenziamo in grassetto la dipendenza deterministica
Zt !
t 7→ exp t Ws dWs
0
2 L’uguaglianza (16.1.4) di processi stocastici equivale all’equazione (16.1.3): basta osservare che se f è una funzione continua tale
che f (Wt ) = 0 q.c. per un t > 0 allora f ≡ 0: infatti se fosse f (x̄) > 0 per un x̄ ∈ R allora si avrebbe anche f (x) > 0 per |x − x̄| < r per un
certo r > 0 sufficientemente piccolo; ciò porta ad un assurdo poiché, essendo la densità Gaussiana strettamente positiva, si avrebbe
h i
0 < E f (Wt )1(|Wt −x̄|<r) = 0.
16.1. FORMULA DI ITÔ PER SEMIMARTINGALE CONTINUE 375

e la dipendenza stocastica
Z t !
t 7→ exp t Ws dWs
0

per stabilire che


Z t
Yt = F(t, Xt ), F(t, x) = etx , Xt = Ws dWs ,
0

e quindi dXt = Wt dWt e d⟨X⟩t = Wt2 dt. Allora possiamo applicare la formula di Itô (16.1.6): abbiamo

∂t F(t, x) = xF(t, x), ∂x F(t, x) = tF(t, x), ∂xx F(t, x) = t 2 F(t, x),

e quindi
(tWt )2
!
dYt = Xt + Yt dt + tWt Yt dWt .
2

Esempio 16.1.9. [!] Consideriamo un processo di Itô a coefficienti deterministici


Z t Z t
Xt = x + µ(s)ds + σ (s)dWs
0 0

con x ∈ R, µ ∈ L1loc (R≥0 ) e σ ∈ L2loc (R≥0 ). Come applicazione della formula di Itô (16.1.6) proviamo che
Z t Z t
Xt ∼ Nm(t),C (t) , m(t) := x + µ(s)ds, C (t) := σ 2 (s)ds,
0 0

per ogni t ≥ 0. Infatti possiamo facilmente calcolare la funzione caratteristica di X: anzitutto per ogni η ∈ R
si ha

η2
!
deiηXt = eiηXt iηdXt − d⟨X⟩t
2
η 2 σ 2 (t)
= eiηXt (a(t, η)dt + iησ (t)dWt ) , a(t, η) := iηµ(t) − .
2
Applicando il valore atteso ed essendo nulla l’attesa dell’integrale stocastico, si ha
"Z t #
iηx iηXs
ϕXt (η) = e +E a(s, η)e ds
0
Z t
= eiηx + a(s, η)ϕXs (η)ds;
0

equivalentemente, t 7→ ϕXt (η) risolve il problema di Cauchy



d
 dt ϕXt (η) = a(t, η)ϕXt (η),


ϕX0 (η) = eiηx ,

da cui segue che


η 2
ϕXt (η) = eiηm(t)− 2 C (t)
e quindi la tesi.
376 CAPITOLO 16. FORMULA DI ITÔ

Esempio 16.1.10. [!] Posto Z t


Xt := Ws ds (16.1.7)
0
si ha Xt ∼ N0, t3 . Infatti, per la formula di Itô vale
3

d(tWt ) = tdWt + Wt dt

da cui Z t Z t
Xt = tWt − sdWs = (t − s)dWs .
0 0
Notiamo che l’espressione di X in (16.1.7) è quella di un processo di Itô, mentre
Zt
(t − s)dWs
0

non è scritto nella forma di processo di Itô: per aggirare questo problema, definiamo il processo di Itô
Zt
(a)
Yt := (a − s)dWs
0

dipendente dal parametro a ∈ R. Sappiamo che


(a)
Yt ∼ N0, t3 +at(a−t)
3

(t)
e la tesi segue dal fatto che Xt = Yt .

16.2 Alcune conseguenze della formula di Itô


16.2.1 Disuguaglianze di Burkholder-Davis-Gundy
Proviamo alcune classiche disuguaglianze che sono uno strumento basilare nello studio delle martingale
e delle equazioni differenziali stocastiche.
Teorema 16.2.1 (Burkholder-Davis-Gundy). [!] Per ogni p > 0 esistono due costanti positive cp , Cp tali che
vale  
   
p/2  p  p/2
cp E ⟨X⟩τ ≤ E  sup |Xt |  ≤ Cp E ⟨X⟩τ , (16.2.1)
t∈[0,τ]

per ogni martingala locale continua X tale che X0 = 0 q.c. e per ogni tempo d’arresto τ finito (ossia tale che
τ < ∞ q.c.). In (16.2.1), ⟨X⟩ indica il processo variazione quadratica di X.
Dimostrazione. Dimostriamo solo il caso p ≥ 2 in cui è possibile dare una prova elementare basata sulla
formula di Itô. Per il caso generale si veda, per esempio, la Proposizione 3.26 in [58]. Il caso p = 2 segue
dall’isometria di Itô (14.4.1) e quindi è sufficiente considerare p > 2.  
p/2
Cominciamo col dimostrare la seconda disuguaglianza. Non è restrittivo assumere E ⟨X⟩τ > 0 altri-
menti non c’è nulla da provare. Poniamo
X̄τ = sup |Xt |
t∈[0,τ]

e assumiamo per il momento che X̄τ ≤ n q.c. per un certo n ∈ N. Allora per la disuguaglianza massimale di
Doob, Corollario 13.1.3, si ha
h pi
E X̄τ ≤ cp E [|Xτ |p ] =
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 377

(per la formula di Itô, osservando che la funzione x 7→ |x|p è di classe C 2 poiché p ≥ 2)


"Z τ "Z τ
cp
# #
p−1 p−2
= cp E p|Xt | dXt + E p(p − 1)|Xt | d⟨X⟩t =
0 2 0

(essendo il primo termine nullo perché l’integrale stocastico è una martingala, data l’ipotesi di limitatezza
di X̄τ )
"Z τ #
′ p−2
= cp E |Xt | d⟨X⟩t
0
"Z τ #
′ p−2
≤ cp E X̄τ d⟨X⟩t
0
h p−2 i
= cp′ E X̄τ ⟨X⟩τ ≤

p p
(per la disuguaglianza di Hölder con esponenti p−2 e 2)

h p i p−2  2
p/2 p
≤ cp′ E X̄τ p E ⟨X⟩τ

e da questa disuguaglianza segue facilmente la tesi. Per rimuovere l’ipotesi di limitatezza, è sufficiente
applicare il risultato appena provato al tempo d’arresto τn = inf{t ≥ 0 | |Xt | ≥ n} ∧ τ e poi passare al limite
per n → ∞ utilizzando il teorema di Beppo-Levi.
Proviamo ora la prima disuguaglianza: con l’usuale argomento di localizzazione basato sul teorema di
Beppo-Levi,
h p inon è restrittivo assumere che τ, X̄τ e ⟨X⟩τ siano limitatipda una costante positiva. Assumiamo
anche E X̄τ > 0 altrimenti non c’è nulla da provare. Poniamo r = 2 > 1 e A = ⟨X⟩. Per la formula di Itô
deterministica, Teorema 14.1.6 e formula (14.1.4), si ha

dArt = rAr−1
t dAt ,
 
r
dAt = d At Ar−1
t = At dAr−1
t + Ar−1
t dAt ,

e inserendo la prima nella seconda uguaglianza si ha

1
dArt = At dAtr−1 + dArt
r
ossia Z τ
(r − 1)Arτ =r At dAr−1
t .
0

Essendo anche Z τ Z τ
Arτ = Aτ dAr−1
t = Aτ dAr−1
t ,
0 0

otteniamo infine Z τ
Arτ =r (Aτ − At ) dAr−1
t .
0

Allora si ha
"Z τ #
E [Arτ ] = rE (Aτ − At ) dAr−1
t =
0
378 CAPITOLO 16. FORMULA DI ITÔ

(per la Proposizione 14.2.3 e poiché At = E [At | Ft ])


"Z τ #
= rE E [Aτ − At | Ft ] dAr−1
t =
0

(per le (14.4.1) e (6.4.3) (si veda anche l’Osservazione 14.4.4), ricordando la notazione A = ⟨X⟩)
"Z
h τ i
#
= rE E Xτ2 − Xt2 | Ft d⟨X⟩r−1
t
0
"Z τ #
h i
≤ rE E X̄τ2 | Ft d⟨X⟩tr−1 =
0

(ancora per la Proposizione 14.2.3)


"Z τ #
h i
= rE X̄τ2 d⟨X⟩r−1
t = rE X̄τ2 ⟨X⟩τr−1 .
0

r
Per concludere basta applicare la disuguaglianza di Hölder con esponenti r, r−1 e infine dividere per
r−1
E [⟨X⟩rτ ] r .

Si ha il seguente immediato

Corollario 16.2.2. [!] Siano σ ∈ L2 e W un moto Browniano reale. Per ogni p ≥ 2 e T > 0 si ha
Z p #
t
" "Z T #
p−2
|σs |p ds

E sup σs dWs ≤ cp T 2 E (16.2.2)
0≤t≤T 0 0

dove cp è una costante positiva che dipende solo da p.

Dimostrazione. Basta3 considerare p > 2. Applicando la disuguaglianza di Burkholder-Davis-Gundy alla


martingala continua
Zt
Xt = σs dWs , X̄T = sup |Xt | ,
0 0≤t≤T

otteniamo
 
 Z
T !p/2 
h pi p/2  
E X̄T ≤ cp E ⟨X⟩T = cp E  σt2 dt 

0

p p
e la tesi segue applicando la disuguaglianza di Hölder con esponenti 2 e p−2 .

Osservazione 16.2.3. Assumiamo p > 4 e


Z t "Z T #
p
Xt := σs dWs con E |σs | ds < ∞.
0 0

Combinando la stima (16.2.2) col Teorema di continuità di Kolmogorov si ha che il processo integrale X
ammette una versione con traiettorie α-Hölderiane per ogni α ∈ [0, 12 − p2 [.
3 Il caso p = 2 corrisponde all’isometria di Itô.
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 379

16.2.2 Processo variazione quadratica


Dimostriamo la formula (14.4.2) che avevamo lasciato in sospeso.

Proposizione 16.2.4. Sia X una martingala locale continua con processo variazione quadratica ⟨X⟩. Si ha

2n 
X 2
⟨X⟩t = lim X tkn − X t(k−1) , t ≥ 0,
n→∞ 2 2n
k=1

in probabilità. Inoltre, se S = A + X è una semimartingala continua, con A ∈ BV e X ∈ M c,loc , si ha

2n 
X 2
⟨X⟩t = lim S tkn − S t(k−1) , t ≥ 0, (16.2.3)
n→∞ 2 2n
k=1

in probabilità.

Dimostrazione. Indichiamo al solito con tn,k = 2tkn , k = 0, . . . , 2n , i razionali diadici dell’intervallo [0, t]. Sup-
poniamo dapprima che X sia una martingala locale continua limitata, |X| ≤ K con K costante positiva.
Fissati n ∈ N e k ∈ {1, . . . , 2n }, consideriamo il processo

Ys := Xs − Xtn,k−1 , s ≥ tn,k−1 ,

e osserviamo che ⟨Y ⟩s = ⟨X⟩s − ⟨X⟩tn,k−1 : infatti, basta osservare che


 
Ys2 − ⟨X⟩s − ⟨X⟩tn,k−1 = Xs2 − ⟨X⟩s + Ms , Ms := −2Xs Xtn,k−1 + Xt2n,k−1 + ⟨X⟩tn,k−1 ,

e si verifica facilmente che (Ms )s≥tn,k−1 è una martingala. Applicando la formula di Itô si ha

dYs2 = 2Ys dYs + d⟨Y ⟩s

e in forma integrale su [tn,k , tn,k−1 ]

 2 Z tn,k  
Xtn,k − Xtn,k−1 = 2 Xs − Xtn,k−1 dYs + ⟨X⟩tn,k − ⟨X⟩tn,k−1
tn,k−1

ossia
 2   Z tn,k  
Xtn,k − Xtn,k−1 − ⟨X⟩tn,k − ⟨X⟩tn,k−1 = 2 Xs − Xtn,k−1 dYs .
tn,k−1

Sommando in k otteniamo
2n 
X 2 2n Z
X tn,k  
Rn := Xtn,k − Xtn,k−1 − ⟨X⟩t = 2 Xs − Xtn,k−1 dYs .
k=1 k=1 tn,k−1

Grazie all’isometria di Itô nella forma (15.2.12) e (15.2.13) (si ricordi anche il Teorema 15.2.15), si ha

h i 2n
X
Z tn,k  2

R2n
 
E =4 E  Xs − Xtn,k−1 d⟨Y ⟩s 
k=1 tn,k−1
Z 2 n 
 t X  2 
= 4E  Xs − Xtn,k−1 1[tn,k−1 ,tn,k ] (s)d⟨Y ⟩s 
0k=1
380 CAPITOLO 16. FORMULA DI ITÔ
h i
e passando al limite, per il teorema della convergenza dominata, si ha lim E R2n = 0. Dunque, in questo
n→∞
caso particolare si prova la convergenza in norma L2 che ovviamente implica la convergenza in probabilità.
Per rimuovere l’ipotesi di limitatezza di X, è sufficiente usare un argomento di localizzazione provando
la tesi per la martingala limitata Xt∧τn , con
τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n}, n ∈ N,
per poi far tendere n ad infinito: con questa procedura si riesce a dimostrare la convergenza in probabilità.
La dimostrazione della (16.2.3) è simile ed è omessa.

16.3 Dimostrazione della formula di Itô


Dimostriamo il Teorema 16.1.1. Sia X = A + M una semimartingala continua a valori reali dove A è un
processo adattato, continuo e localmente a variazione limitata e M ∈ M c,loc . Nel Teorema 14.4.1 abbiamo
definito il processo variazione quadratica ⟨M⟩ come l’unico (a meno di indistinguibilità) processo adattato,
continuo, crescente tale che ⟨M⟩0 = 0 e M 2 − ⟨M⟩ ∈ M c,loc . Inoltre, se M è di quadrato sommabile, ossia
M ∈ M c,2 , allora si hanno le importanti identità
h i h i
E (Mt − Ms )2 | Fs = E Mt2 − Ms2 | Fs (16.3.1)
= E [⟨M⟩t − ⟨M⟩s | Fs ] , 0 ≤ s ≤ t. (16.3.2)
Anche se è un calcolo che abbiamo già svolto, è utile ricordare che la (16.3.1) viene semplicemente da
h i h i
E (Mt − Ms )2 | Fs = E Mt2 − 2Mt Ms + Ms2 | Fs
h i
= E Mt2 | Fs − 2Ms E [Mt | Fs ] + Ms2 =

(per la proprietà di martingala di M)


h i
= E Mt2 | Fs − Ms2 .

Invece la (16.3.2) equivale alla proprietà di martingala di M 2 − ⟨M⟩. La dimostrazione della formula di Itô
si basa essenzialmente su queste due identità. Un ulteriore ingrediente è la stima uniforme (14.5.3) della
norma L2 della variazione quadratica di M sui diadici.
Dividiamo la prova del Teorema 16.1.1 in quattro passi.
[Primo passo] Consideriamo la semimartingala continua X = A + M. Poiché la (16.1.1) è un’uguaglianza di
processi continui, è sufficiente dimostrare che si tratta di modificazioni: in altri termini, possiamo ragionare
per t > 0 fissato. Poniamo
τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n, ⟨X⟩s ≥ n, Vs (A) ≥ n}, n ∈ N,
dove Vs (A) indica il processo variazione prima di A su [0, s] (cfr. Definizione 14.1.1). Per continuità, τn ↗ ∞
q.c. e quindi basta provare la formula di Itô per Xt∧τn per ogni n ∈ N: equivalentemente, basta provare per
ogni fissato N̄ ∈ N vale la (16.1.1) nel caso in cui i processi |X|, |M|, A, ⟨X⟩ e V (A) siano limitati da N̄ . In tal
caso, non è restrittivo assumere che la funzione F abbia supporto compatto, eventualmente modificandola
fuori da [−N̄ , N̄ ]. In un primo momento, assumiamo anche che F ∈ C 3 (R).
Usiamo la notazione (13.1.1) per i diadici
D(t) = {tn,k = tk
2n | k = 0, . . . , 2n , n ∈ N}
di [0, t] e indichiamo con ∆n,k Y = Ytn,k − Ytn,k−1 l’incremento di un generico processo Y . Inoltre, poniamo
Fn,k := Ftn,k e
δn (Y ) = sup |Ys − Yr |, n ∈ N.
s,r∈D(t)
|s−r|< 1n
2
16.3. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 381

Sviluppando in serie di Taylor al second’ordine con resto secondo Lagrange, otteniamo

2n 
X 
F(Xt ) − F(X0 ) = F(Xtn,k ) − F(Xtn,k−1 )
k=1
2n 2n
X 1 X ′′

F (Xtn,k−1 ) ∆n,k X 2 + Rn

= F (Xtn,k−1 )∆n,k X + (16.3.3)
2
k=1 k=1

con
2n
X 3
|Rn | ≤ ∥F ′′′ ∥∞ ∆n,k X . (16.3.4)
k=1

Nei prossimi due passi stimiamo i singoli termini in (16.3.3) per mostrare che convergono ai corrispondenti
termini in (16.1.1) e Rn −→ 0 per n → ∞.
[Secondo passo] Per quanto riguarda la prima somma in (16.3.3), abbiamo

2n
X
F ′ (Xtn,k−1 )∆n,k X = In1,A + In1,M
k=1

dove, per la Proposizione 14.1.3,

2n
X Z t
In1,A := ′
F (Xtn,k−1 )∆n,k A −→ F ′ (Xs )dAs (16.3.5)
k=1 0

quasi certamente per n → ∞, con l’integrale inteso nel senso di Riemann-Stieltjes (o nel senso di Lebesgue-
Stieltjes, per la Proposizione 14.2.2) e

2n
X Z t
In1,M := ′
F (Xtn,k−1 )∆n,k M −→ F ′ (Xs )dMs
k=1 0

in probabilità, per il Corollario 15.2.26.


[Terzo passo] Per quanto riguarda la seconda somma in (16.3.3), abbiamo

2n
X
F ′′ (Xtn,k−1 )(∆n,k X)2 = In2,A + 2In2,AM + In2,M
k=1

dove
2n
X 2n
X 2n
X
In2,A := F ′′ (Xtn,k−1 )(∆n,k A)2 , In2,AM := F ′′ (Xtn,k−1 )(∆n,k A)(∆n,k M), In2,M := F ′′ (Xtn,k−1 )(∆n,k M)2 .
k=1 k=1 k=1

Ora si ha
|In2,A | ≤ ∥F ′′ ∥∞ δn (A)Vt (A) ≤ N̄ ∥F ′′ ∥∞ δn (A) −→ 0
quasi certamente per n → ∞, per l’uniforme continuità delle traiettorie di A su [0, t]. Un risultato analogo
si ha per In2,AM . Ricordando che per definizione ⟨X⟩ = ⟨M⟩, rimane da provare che
Z t
In2,M −→ F ′′ (Xs )d⟨M⟩s .
0
382 CAPITOLO 16. FORMULA DI ITÔ

Poiché analogamente a (16.3.5) si ha quasi certamente


2n
X Z t
′′
F (Xtn,k−1 )∆n,k ⟨M⟩ −→ F ′′ (Xs )d⟨M⟩s ,
k=1 0

dimostriamo che
2n
X  
F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ −→ 0
k=1
 
in norma L2 (Ω, P ). Posto Gn,k = F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ , sviluppando il quadrato della somma,
abbiamo
 n
2
2   2n 
X   X 
2
E  Gn,k   = E  Gn,k 
   
 
k=1 k=1

poiché i doppi prodotti si annullano: infatti, se h < k, si ha


h h ii
E Gn,h Gn,k = E Gn,h F ′′ (Xtn,k−1 )E (∆n,k M)2 − ∆n,k ⟨M⟩ | Fn,k−1 = 0
 

per la (16.3.2). Ora, per la disuguaglianza elementare (x + y)2 ≤ 2x2 + 2y 2 , abbiamo


 2n   2n 
X  X  
2 ′′ 4 2
E  Gn,k  ≤ 2∥F ∥∞ E 
  (∆n,k M) + (∆n,k ⟨M⟩) 
k=1 k=1
2n
 
 X 
′′ 2 2
≤ 2∥F ∥∞ E δn (M) (∆n,k M) + δn (M)Vt (⟨M⟩) ≤
k=1

(applicando la disuguaglianza di Hölder al primo termine)


2  12
  n 

 h i 12 X 2  


′′ 4 2
≤ 2∥F ∥∞ E δn (M) E  (∆n,k M)   + N̄ E [δn (⟨M⟩)] −→ 0

  
 
 
 
k=1
 

per n → ∞, poiché:
h i
• δn (M) ≤ 2N̄ e δn (M) → 0 q.c. per l’uniforme continuità di M su [0, t]: di conseguenza E δn4 (M) → 0
per il teorema della convergenza dominata. In modo analogo, E [δn (⟨M⟩)] → 0;
 n !2 
2
(∆n,k M)2  ≤ 16N̄ 4 per la stima (14.5.3).
 P 
• sup E 
n∈N k=1

In base alla (16.3.4), la prova del fatto che


h i
lim E |Rn |2 = 0
n→∞

è del tutto analoga.


[Quarto passo] Concludiamo la prova rimuovendo l’ipotesi di regolarità aggiuntiva su F. Data F ∈ C 2 (R)
con supporto compatto, consideriamo una successione (Fn )n∈N di funzioni C 3 che convergono uniforme-
mente a F insieme con le derivate prime e seconde. Applichiamo la formula di Itô a Fn e mandiamo n a
infinito: si ha Fn (Xs ) → F(Xs ) per ogni s ∈ [0, t]. Per il teorema della convergenza dominata si ha q.c.
Zt Zt
′ ′
lim (Fn (Xs ) − F (Xs )) dAs = lim (Fn′′ (Xs ) − F ′′ (Xs )) d⟨X⟩s = 0
n→∞ 0 n→∞ 0
16.3. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 383

e per l’isometria di Itô


 Zt !2  "Z t #
 
′ ′
Fn′ (Xs ) − F ′ (Xs )2 d⟨M⟩s = 0.
 
lim E  (Fn (Xs ) − F (Xs )) dMs  = lim E
n→∞ 0 n→∞ 0
384 CAPITOLO 16. FORMULA DI ITÔ
Capitolo 17

Il caso multidimensionale

17.1 Matrice di covariazione


Estendiamo il concetto di processo variazione quadratica al caso multidimensionale.

Proposizione 17.1.1 (Processo covariazione). Siano X, Y ∈ M c,loc a valori reali. Il processo covariazione di
X e Y , definito da
⟨X + Y ⟩ − ⟨X − Y ⟩
⟨X, Y ⟩ := , (17.1.1)
4
è l’unico (a meno di indistinguibilità) processo tale che

i) ⟨X, Y ⟩ ∈ BV è adattato, continuo e tale che ⟨X, Y ⟩0 = 0;

ii) XY − ⟨X, Y ⟩ ∈ M c,loc ed è una vera martingala nel caso in cui X, Y ∈ M c,2 .

Se X, Y ∈ M c,2 si ha

E [(Xt − Xs )(Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] , t ≥ s ≥ 0, (17.1.2)

e vale
2n 
X  
⟨X, Y ⟩t = lim X tkn − X t(k−1) Y tkn − Y t(k−1) , t ≥ 0, (17.1.3)
n→∞ 2 2n 2 2n
k=1

in probabilità.

Dimostrazione. Data l’uguaglianza elementare

(X + Y )2 − (X − Y )2
XY =
4
è facile verificare che il processo ⟨X, Y ⟩ definito come in (17.1.1) verifica le proprietà i) e ii). L’unicità segue
direttamente dal Teorema 14.3.6. La (17.1.2) segue dall’identità

E [(Xt − Xs )(Yt − Ys ) | Fs ] = E [Xt Yt − Xs Ys | Fs ]

e dalla proprietà di martingala di XY − ⟨X, Y ⟩. La (17.1.3) è una semplice conseguenza della (17.1.1),
applicata a X + Y e X − Y , e della Proposizione 16.2.4.

Osservazione 17.1.2. Per unicità si ha ⟨X, X⟩ = ⟨X⟩. Le seguenti proprietà sono dirette conseguenze della
definizione (17.1.1) di covariazione e della (17.1.3):

385
386 CAPITOLO 17. IL CASO MULTIDIMENSIONALE

i) simmetria: ⟨X, Y ⟩ = ⟨Y , X⟩;

ii) bi-linearità: ⟨αX + βY , Z⟩ = α⟨X, Z⟩ + β⟨Y , Z⟩, per α, β ∈ R;



iii) Cauchy-Schwarz: |⟨X, Y ⟩| ≤ ⟨X⟩⟨Y ⟩.

Poiché la variazione quadratica di una funzione BV continua è nulla (cfr. Proposizione 14.3.4), la de-
finizione di variazione quadratica si estende alle semimartingale continue in modo naturale: ricordiamo
che nel Teorema 14.4.1 abbiamo definito il processo variazione quadratica di una semimartingala continua
S = X + A, con X ∈ M c,loc e A ∈ BV adattato, come ⟨S⟩ := ⟨X⟩.

Definizione 17.1.3 (Matrice di covariazione di una semimartingala). Se S = (S 1 , . . . , S d ) è una semimar-


tingala continua d-dimensionale con decomposizione S = X + A, la matrice di covariazione di S è la matrice
d × d simmetrica definita da
⟨S⟩ := (⟨X i , X j ⟩)i,j=1,...,d .

17.2 Moto Browniano multidimensionale


Definizione 17.2.1 (Moto Browniano d-dimensionale). Sia W = (Wt1 , . . . , Wtd )t≥0 un processo stocastico a
valori in Rd definito su uno spazio di probabilità con filtrazione (Ω, F , P , Ft ). Diciamo che W è un moto
Browniano d-dimensionale se verifica le seguenti proprietà:

i) W0 = 0 q.c.;

ii) W è continuo q.c.;

iii) W è adattato;

iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;

v) Wt − Ws ∼ N0,(t−s)I per ogni t ≥ s ≥ 0, dove I indica la matrice identità d × d.

Un moto Browniano multidimensionale è un vettore di moti Browniani reali indipendenti: vale infatti
la seguente

Proposizione 17.2.2. Se W = (W 1 , . . . , W d ) è un moto Browniano d-dimensionale su (Ω, F , P , Ft ) allora:

i) W i è un moto Browniano reale su (Ω, F , P , Ft ) per ogni i = 1, . . . , d;


j j
ii) Wti − Wsi e Wt − Ws sono variabili indipendenti per ogni i , j e t ≥ s ≥ 0;

iii) la matrice di covariazione di W è ⟨W ⟩t = tI ossia, con la notazione differenziale,

d⟨W i , W j ⟩t = δij dt (17.2.1)

dove δij è la delta di Kronecker



1 se i = j,


δij = 
0 se i , j;

iv) se A è una matrice ortogonale d×d allora il processo definito da Bt := AWt è ancora un moto Browniano
d-dimensionale. Se invece A è una generica matrice N × d allora B soddisfa le proprietà i), ii), iii) e
iv) della Definizione 17.2.1 e Bt − Bs ∼ N0,(t−s)C per ogni 0 ≤ s ≤ t, dove C = AA∗ . La matrice di
covariazione di B coincide con la matrice di covarianza, ⟨B⟩t = cov(Bt ) = tC . Diciamo che B è un moto
Browniano correlato N -dimensionale.
17.2. MOTO BROWNIANO MULTIDIMENSIONALE 387

Dimostrazione. Le proprietà i) e ii) seguono dal fatto che, per t > s ≥ 0, l’incremento Wt − Ws ha densità
Gaussiana
|x|2
d x2
1 − 2(t−s)
Y 1 i
− 2(t−s)
d
e = p e , x ∈ Rd ,
(2π(t − s)) 2
i=1 2π(t − s)

che è il prodotto di Gaussiane standard unodimensionali: in particolare, l’indipendenza segue dal Teorema
3.3.23-iv).
Per quanto riguarda iii), per il punto i) si ha ⟨W i ⟩t = ⟨W i , W i ⟩t = t per ogni i = 1, . . . , d. Per i , j è un
semplice esercizio1 provare che W i W j è una martingala e quindi ⟨W i , W j ⟩t = 0.
Il punto iv) è una semplice verifica in cui si utilizza la Proposizione 3.5.15.

Esempio 17.2.3. [!] Sia W un moto Browniano bidimensionale. Posto


!
1 p 0
A=
ϱ 1 − ϱ2

con ϱ ∈ [−1, 1], si ha


!
1∗ ϱ
C = AA = .
ϱ 1

Il moto Browniano correlato bidimensionale B := AW è tale che


q
1 1
Bt = W t , 2 1
Bt = ϱWt + 1 − ϱ2 Wt2 ,

sono moti Browniani reali e vale


cov(B1t , B2t ) = ⟨B1 , B2 ⟩t = ϱt.

In questa sezione vediamo brevemente come definire l’integrale stocastico di processi multidimensio-
nali, esaminando in particolare il moto Browniano e i processi di Itô. Per semplicità, trattiamo solo il
caso in cui l’integratore è in M c,2 anche se tutti i risultati seguenti si estendono ad integratori che siano
semimartingale continue. Nel seguito d e N indicano due numeri naturali.

Definizione 17.2.4. Sia B = (B1 , . . . , Bd ) ∈ M c,2 un processo d-dimensionale. Consideriamo un processo


u = (u ij ) a valori nello spazio delle matrici di dimensione N × d. Scriviamo u ∈ L2B (o semplicemente u ∈ L2 )
se u ij ∈ L2Bj per ogni i = 1, . . . , N e j = 1, . . . , d. La classe L2loc ≡ L2B,loc è definita in modo analogo. L’integrale
stocastico di u rispetto a B è il processo N -dimensionale, definito componente per componente da
 
Zt Xd Z t
ij j

us dBs :=  us dBs 
 
0 j=1
 0 
i=1,...,N

al variare di t ≥ 0.
1 Per t ≥ s ≥ 0, si ha
     
j  j j j
E Wti Wt | Fs = E Wti − Wsi Wt | Fs + Wsi E Wt | Fs = Wsi Ws

poiché
  j    j  
j j h
E Wti − Wsi Wt | Fs = E Wti − Wsi Wt − Ws | Fs + Ws E Wti − Wsi | Fs
i

  j 
j
= E Wti − Wsi Wt − Ws = 0

per l’indipendenza degli incrementi.


388 CAPITOLO 17. IL CASO MULTIDIMENSIONALE

Teorema 17.2.5. [!] Siano


Z t Z t
Xt = us dB1s , Yt = vs dB2s ,
0 0

con B1 , B2 processi unodimensionali in M c,2 e u, v processi unodimensionali rispettivamente in L2B1 ,loc e


L2B2 ,loc . Allora:

i) si ha
Z t
⟨X, Y ⟩t = us vs d⟨B1 , B2 ⟩s ; (17.2.2)
0

ii) se u ∈ L2B1 e v ∈ L2B2 allora vale la seguente versione dell’isometria di Itô


"Z T Z T # "Z T #
E us dB1s vs dB2s | Ft = E us vs d⟨B1 , B2 ⟩s | Ft , 0≤t ≤T. (17.2.3)
t t t

Dimostrazione. Nel caso in cui u e v siano processi indicatori, la (17.2.3) si prova ripetendo la dimostrazione
del Teorema 15.2.7-ii) con l’unica differenza che, al posto della (15.2.6), occorre utilizzare la (17.1.2) nella
forma
h i h i
E (B1T − B1t )(B2T − B2t ) | Ft = E ⟨B1 , B2 ⟩T − ⟨B1 , B2 ⟩t | Ft , 0≤t ≤T.

La dimostrazione della (17.2.2) è completamente analoga al caso in cui B1 = B2 .

Corollario 17.2.6. Se W = (W 1 , . . . , W d ) è un moto Browniano d-dimensionale (cfr. Definizione 17.2.1) su


(Ω, F , P , (Ft )t≥0 ) allora per ogni u, v ∈ L2W si ha
"Z T Z T # "Z T #
j
E us dWsi vs dWs | Ft = δij E us vs ds | Ft , 0 ≤ t ≤ T , i, j = 1, . . . , d. (17.2.4)
t t t

Dimostrazione. La (17.2.4) segue direttamente dalla (17.2.3) e dal punto iii) della Proposizione 17.2.2.

Osservazione 17.2.7. Le componenti della matrice di covariazione (cfr. Definizione 17.1.3) del processo
integrale
Zt
Xt = us dBs
0
sono
d Z t d Z t
ij jk
X X
⟨X⟩t = ⟨ usih dBhs , us dBks ⟩ =
h=1 0 k=1 0

(per la (17.2.2))

d Z t
jk
X
= usih us d⟨Bh , Bk ⟩s (17.2.5)
h,k=1 0

per i, j = 1, . . . , N .
17.3. PROCESSI DI ITÔ MULTIDIMENSIONALI 389

17.3 Processi di Itô multidimensionali


Definizione 17.3.1 (Processo di Itô). [!] Sia W un moto Browniano d-dimensionale. Un processo di Itô
N -dimensionale è un processo della forma
Zt Zt
Xt = X0 + us ds + vs dWs (17.3.1)
0 0

dove:
i) X0 ∈ mF0 è una v.a. N -dimensionale;
ii) u è un processo N -dimensionale in L1loc , ossia u è progressivamente misurabile e tale che, per ogni
t ≥ 0, Zt
|us |ds < ∞, q.c.
0

iii) v è un processo in L2loc a valori nello spazio delle matrici N × d, ossia v è progressivamente misurabile
e tale che, per ogni t ≥ 0,
Zt
|vs |2 ds < ∞ q.c.
0

dove |v| indica la norma di Hilbert-Schmidt della matrice v, ossia la norma Euclidea in RN ×d , definita
da
N X
X d
|v|2 = (v ij )2 .
i=1 j=1

Con la notazione differenziale scriviamo

dXt = ut dt + vt dWt .

Combinando la (17.2.5) col fatto che ⟨W ⟩t = tI otteniamo la seguente


Proposizione 17.3.2. Sia X il processo di Itô in (17.3.1). La matrice di covariazione di X è
Zt
⟨X⟩t = vs vs∗ ds, t ≥ 0,
0

o, in notazione differenziale,
d
ij
X
d⟨X i , X j ⟩t = Ct dt, C ij = (vv ∗ )ij = v ik v jk . (17.3.2)
k=1

Proposizione 17.3.3 (Isometria di Itô). Per ogni v ∈ L2 , matrice di dimensione N ×d, e W moto Browniano
d-dimensionale vale  Z t 2  "Z t #
|v|2 ds .
 
E  vs dWs  = E
0 0

Dimostrazione. Si ha
 Z t 2  N  d Z 2 
  X X t ij j
 
E  vs dWs  = E  vs dWs  

0  0  
i=1 j=1
390 CAPITOLO 17. IL CASO MULTIDIMENSIONALE

(per la (17.2.4))
N X
d  Zt !2 
ij j 
X

= E  vs dWs 

i=1 j=1 0

(per l’isometria di Itô scalare)


N X
d "Z t #
ij 2
X
= E (vs ) ds .
i=1 j=1 0

Esempio 17.3.4. Nel caso più semplice in cui u, v sono costanti si ha

Xt = X0 + ut + vWt ,

ossia X è un moto Browniano correlato con drift.

17.4 Formula di Itô multidimensionale


Teorema 17.4.1 (Formula di Itô per semimartingale continue). Siano X = (X 1 , . . . , X d ) una semimartingala
continua d-dimensionale e F = F(t, x) ∈ C 1,2 (R≥0 × Rd ). Allora quasi certamente, per ogni t ≥ 0 si ha

t d Z t d Z
1X t
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + (∂xi xj F)(s, Xs )d⟨X i , X j ⟩s
0 0 2 0
j=1 i,j=1

o, con la notazione differenziale,


d d
X j 1X
dF(t, Xt ) = ∂t F(t, Xt )dt + (∂xj F)(t, Xt )dXt + (∂xi xj F)(t, Xt )d⟨X i , X j ⟩t .
2
j=1 i,j=1

Di seguito esaminiamo due casi particolarmente importanti in cui usiamo le espressioni (17.2.1) e
(17.3.2) delle covariazioni ⟨X i , X j ⟩:
i) se W è un moto Browniano d-dimensionale (cfr. Definizione 17.2.1) si ha

d⟨W i , W j ⟩t = δij dt (17.4.1)

dove δij è la delta di Kronecker;


ii) se X è un processo di Itô della forma

dXt = µt dt + σt dWt (17.4.2)

con µ processo N -dimensionale in L1loc e σ matrice N × d in L2loc , allora


ij
d⟨X i , X j ⟩t = Ct dt, C ij = (σ σ ∗ )ij , (17.4.3)

ossia, ricordando la notazione ⟨X⟩ per la matrice di covariazione di X (cfr. Definizione 17.1.3),

d⟨X⟩t = Ct dt.
17.4. FORMULA DI ITÔ MULTIDIMENSIONALE 391

Corollario 17.4.2 (Formula di Itô per il moto Browniano). Sia W un moto Browniano d-dimensionale.
Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × Rd ) si ha
Z t d Z t Z t
X j 1
F(t, Wt ) = F(0, 0) + (∂t F)(s, Ws )ds + (∂xj F)(s, Ws )dWs + (∆F)(s, Ws )ds
0 0 2 0
j=1

dove ∆ è l’operatore di Laplace in Rd :


d
X
∆= ∂xj xj .
j=1

Con la notazione differenziale si ha


1
 
dF(t, Wt ) = ∂t F + ∆F (t, Wt )dt + (∇x F)(t, Wt )dWt ,
2
 
dove ∇x = ∂x1 , . . . , ∂xd indica il gradiente spaziale.

Esempio 17.4.3 (Martingala quadratica). Calcoliamo il differenziale stocastico di |Wt |2 dove W è un moto
Browniano N -dimensionale. In questo caso

F(x) = |x|2 = x12 + · · · + xN


2
, ∂xi F(x) = 2xi , ∂xi xj F(x) = 2δij ,

dove δij è la delta di Kronecker. Dunque si ha

N
X
d|Wt |2 = N dt + 2Wt dWt = N dt + 2 Wti dWti .
i=1

Ne segue che il processo Xt = |Wt |2 − N t è una martingala.

Corollario 17.4.4 (Formula di Itô per processi di Itô). [!] Sia X un processo di Itô in RN della forma
(17.4.2). Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × RN ) si ha

t N Z t N Z
1 X t ij
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + Cs (∂xi xj F)(s, Xs )ds
0 0 2 0
j=1 i,j=1

dove C = σ σ ∗ . Con la notazione differenziale si ha


 
N N N X
d
 1 X ij
X j
 X jk
dF(t, Xt ) = ∂t F + Cs ∂xi xj F + µt ∂xj F  (t, Xt )dt + σt ∂xj F(t, Xt )dWtk .
 
 2 
i,j=1 j=1 j=1 k=1

Esempio 17.4.5 (Martingala esponenziale). Sia

dYt = σt dWt

con σ di dimensione N ×d e W moto Browniano d-dimensionale. Ricordiamo che la matrice di covariazione


di Y è d⟨Y ⟩t = σt σt∗ dt. Fissato η ∈ RN poniamo

1 t ∗ 2
Z !
1
 
η
Mt = exp ⟨η, Yt ⟩ − ⟨⟨Y ⟩t η, η⟩ = exp ⟨η, Yt ⟩ − |σs η| ds .
2 2 0
392 CAPITOLO 17. IL CASO MULTIDIMENSIONALE

Applichiamo la formula di Itô con F(x) = e⟨x,η⟩ e


1
dXt = dYt − σt σt∗ ηdt.
2
η
Si ha Mt = F(Xt ) e
∂xi F(x) = ηi F(x), ∂xi xj F(x) = ηi ηj F(x),
da cui
d
N X
1
 
η ij j
X
dMt = Xt ηdXt + ⟨σt σt∗ η, η⟩dt = Xt ηdYt = Xt ηi σt dWt .
2
i=1 j=1

Ne viene in particolare che M η è una martingala locale positiva (e quindi una super-martingala per l’Os-
servazione 13.4.5-vi)).
La Proposizione 10.4.2 ha la seguente generalizzazione multidimensionale: consideriamo la martingala
esponenziale
η |η|2
Mt := ei⟨η,Wt ⟩+ 2 t , t ≥ 0, η ∈ Rd , (17.4.4)
dove i è l’unità immaginaria e W è un moto Browniano d-dimensionale.
Proposizione 17.4.6. Sia W un processo d-dimensionale, continuo e adattato sullo spazio (Ω, F , P , Ft ) e
tale che W0 = 0 q.c. Se per ogni η ∈ Rd il processo M η in (17.4.4) è una martingala, allora W è un moto
Browniano.
Osservazione 17.4.7 (Regole formali per il calcolo delle covariazioni). [!] Sia X il processo di Itô in
(17.4.2) con componenti
d
X
dXti = µit dt + σtik dWtk , i = 1, . . . , N . (17.4.5)
k=1
Per determinare i coefficienti
  delle derivate seconde nella formula di Itô occorre calcolare la matrice di
covariazione ⟨X⟩ = ⟨X i , X j ⟩ che sappiamo essere data da d⟨X⟩t = σt σt∗ dt per la (17.4.3). Dal punto di vista
pratico il calcolo di σ σ ∗ può essere oneroso ed è quindi preferibile utilizzare le seguenti regole formali di
calcolo: si scrive
d⟨X i , X j ⟩ = dX i ∗ dX j
e si calcola il prodotto “∗′′ nel membro a destra come un prodotto dei “polinomi” dX i in (17.4.5) secondo
le seguenti regole di calcolo
j
dt ∗ dt = dt ∗ dWti = dWti ∗ dt = 0, dWti ∗ dWt = δij dt, (17.4.6)
dove δij è la delta di Kronecker.
Esempio 17.4.8. Supponiamo N = d = 2 in (17.4.5) e calcoliamo il differenziale stocastico del prodotto di
Zt = Xt1 Xt2 . Si ha Zt = F(Xt ) dove F(x1 , x2 ) = x1 x2 e
∂x1 F(x) = x2 , ∂x2 F(x) = x1 , ∂x1 x1 F(x) = ∂x2 x2 F(x) = 0, ∂x1 x2 F(x) = ∂x2 x1 F(x) = 1.
Di conseguenza
d(Xt1 Xt2 ) = Xt1 dXt2 + Xt2 dXt1 + d⟨X 1 , X 2 ⟩t
 
= Xt1 dXt2 + Xt2 dXt1 + σt11 σt21 + σt12 σt22 dt.

Inoltre, per quanto riguarda la variazione quadratica di X 1 , si ha


 
d⟨X 1 ⟩t = (σt11 )2 + (σt12 )2 dt.
17.5. CARATTERIZZAZIONE DI LÉVY E MOTO BROWNIANO CORRELATO 393

Esempio 17.4.9. Calcoliamo il differenziale stocastico del processo


Zt
tWt1
Yt = e Ws2 dWs1
0

dove (W 1 , W 2 ) è un moto Browniano standard bidimensionale. Procedendo come nell’Esempio 16.1.8,


individuiamo la funzione F = F(t, x1 , x2 ) = etx1 x2 e il processo di Itô

dXt1 = dWt1 , dXt2 = Wt2 dWt1

con cui applicare la formula di Itô. Si ha

∂t F = x1 F, ∂x1 F = tF, ∂x2 F = etx1 , ∂x1 x1 F = t 2 F, ∂x1 x2 F = tetx1 , ∂x2 x2 F = 0,

e per le regole formali (17.4.6) per il calcolo dei processi covariazione

d⟨X 1 ⟩t = dt, d⟨X 1 , X 2 ⟩t = Wt2 dt.

Di conseguenza
1 2
 
1 1
dYt = Wt1 Yt dt + tYt dWt1 + etWt dWt2 + t Yt + 2tetWt Wt2 dt.
2
Diamo la versione multidimensionale del Corollario 16.2.2 sulle stime Lp per l’integrale stocastico.
Omettiamo la dimostrazione che è simile al caso scalare.
Corollario 17.4.10. [!] Siano σ ∈ L2 , matrice N ×d-dimensionale, e W un moto Browniano d-dimensionale.
Per ogni p ≥ 2 e T > 0 si ha Z p #
t
" "Z T #
p−2
|σs |p ds

E sup σs dWs ≤ cT 2 E
0≤t≤T 0 0

dove |σ | indica la norma di Hilbert-Schmidt2 di σ e c è una costante positiva che dipende solo da p, N e d.

17.5 Caratterizzazione di Lévy e moto Browniano correlato


Ricordiamo l’espressione (17.4.1) delle covariazioni di un moto Browniano W . È notevole il fatto che le
covariazioni e la proprietà di martingala caratterizzino il moto Browniano come mostra il seguente classico
Teorema 17.5.1 (Caratterizzazione di Lévy del moto Browniano). Sia X un processo d-dimensionale de-
finito sullo spazio (Ω, F , P , (Ft )) e tale che X0 = 0 q.c. Allora X è un moto Browniano se e solo se X è una
martingala locale continua tale che
⟨X i , X j ⟩t = δij t, t ≥ 0. (17.5.1)

Dimostrazione. Usiamo la Proposizione 17.4.6 e verifichiamo che, per ogni η ∈ Rd , il processo esponenziale

η |η|2
Mt := eiη·Xt + 2 t

è una martingala. Per la formula di Itô abbiamo


 
 |η|2 d
η η 1 X 
dMt = Mt  dt + iη · dXt − ηi ηj d⟨X i , X j ⟩t  =
 
 2 2 
i,j=1

2 Ossia la norma Euclidea in RN ×d .


394 CAPITOLO 17. IL CASO MULTIDIMENSIONALE

(per l’ipotesi (17.5.1))


η
= Mt iη · dXt

e quindi, per il Teorema 15.2.23, M η è una martingala locale continua. D’altra parte M η è anche una vera
martingala essendo un processo limitato, da cui la tesi.

Corollario 17.5.2. Sia α = (α 1 , . . . , α d ) un processo d-dimensionale progressivamente misurabile e tale che


|αt | = 1 per t ≥ 0 quasi certamente. Per ogni un moto Browniano d-dimensionale W , il processo
Z t
Bt := αs dWs
0

è un moto Browniano reale.

Dimostrazione. Per il Teorema 15.2.15 B è una martingala continua e vale


Z t
⟨B⟩t = |αs |2 ds = t.
0

La tesi segue dal Teorema 17.5.1.

Definizione 17.5.3 (Moto Browniano correlato). Sia α un processo progressivamente misurabile a valori
nello spazio delle matrici di dimensione N ×d, le cui righe α i sono tali che |αti | = 1 per t ≥ 0 quasi certamente.
Dato un moto Browniano standard d-dimensionale W , il processo
Z t
Bt := αs dWs
0

è detto moto Browniano correlato.

Per il Corollario 17.5.2, ogni componente di B è un moto Browniano reale e per la (17.4.3) si ha
Z t
ij
⟨Bi , Bj ⟩t = ϱs ds
0

dove ϱt = αt αt∗ è detta matrice di correlazione di B. Inoltre vale


Z t
cov(Bt ) = E [ϱs ] ds,
0

poiché
 d Z d Z t

j
  X t
i j jh
X 
cov(Bit , Bt ) = E Bt Bt = E  ik
αs dWsk h
αs dWs  =
k=1 0 h=1 0

(per l’isometria di Itô, Proposizione 17.3.3)


Z d  Z
 t X jk  t 
ij

= E  αsik αs ds = E ϱs ds.
0 k=1 0

Nel caso in cui σ sia ortogonale si ha N = d, α ∗ = α −1 e quindi α i ·α j = δij per ogni coppia di righe: in questo
caso particolare anche B è un moto Browniano standard d-dimensionale secondo la Definizione 17.2.1.
17.5. CARATTERIZZAZIONE DI LÉVY E MOTO BROWNIANO CORRELATO 395

Esempio 17.5.4 (Formula di Itô per il moto Browniano correlato). In alcune applicazioni è naturale uti-
lizzare processi di Itô definiti con un moto Browniano correlato dBt = αt dWt come nella Definizione 17.5.3.
Per esempio, in un modello finanziario di tipo Black&Scholes [22], la dinamica stocastica dei prezzi di N
titoli rischiosi può essere assegnata con le equazioni

dSti = µit Sti dt + σti Sti dBit , i = 1, . . . , N , (17.5.2)

piuttosto che
d
ij j
X
dSti = µit Sti dt + vt Sti dWt , i = 1, . . . , N , (17.5.3)
j=1

con W moto Browniano standard d-dimensionale. Nella (17.5.3), la dinamica del titolo i-esimo coinvolge
esplicitamente tutti i Browniani W 1 , . . . , W d e i coefficienti di diffusione v ij incorporano le correlazioni fra i
diversi titoli. Al contrario, in (17.5.2) il titolo i-esimo dipende solo dal Browniano reale Bi : il coefficiente σ i ,
usualmente chiamato volatilità, è indicatore della “rischiosità” del titolo i-esimo; la dipendenza fra i diversi
titoli è implicita in B tramite la matrice di correlazione ϱ = αα ∗ , per cui d⟨B⟩t = ϱt dt. In questo contesto,
si preferisce spesso assegnare la dinamica (17.5.2) invece della (17.5.3), per tenere separate le strutture di
volatilità dei singoli titoli da quella di correlazione.
Nel caso del moto Browniano correlato, le regole formali di calcolo dell’Osservazione 17.4.7 si modifi-
cano in
j ij
dt ∗ dt = dt ∗ dBit = dBit ∗ dt = 0, dBit ∗ dBt = ϱt dt.
Per esempio, assumiamo la dinamica (17.5.2) con N = 2 e B moto Browniano bidimensionale definito come
nell’Esempio 17.2.3, con matrice di correlazione
!
1 ϱ
, ϱ ∈ [−1, 1].
ϱ 1

Allora si ha

St1 dSt1 St1 2St1


!
1 2
d 2= 2 − dSt2 + − 1 2
d⟨S , S ⟩t + 2 d⟨S ⟩t 2
St St (St2 )2 2 (St2 )2 (St )3
S1   S1
= t2 µ1t − µ2t − ϱt σt1 σt2 + (σt2 )2 dt + t2 (σt1 dB1t − σt2 dB2t ).
St St
396 CAPITOLO 17. IL CASO MULTIDIMENSIONALE
Capitolo 18

Cambi di misura e rappresentazione di


martingale

In questo capitolo presentiamo due risultati classici:

• il Teorema 18.3.3 di Girsanov che afferma che il processo ottenuto aggiungendo un drift ad un moto
Browniano, è ancora un moto Browniano sotto una nuova misura di probabilità;

• il Teorema 18.5.1 di rappresentazione delle martingale in base al quale ogni martingala locale rela-
tiva alla filtrazione Browniana ammette una rappresentazione in termini di integrale stocastico e di
conseguenza ammette una modificazione continua.

Questi risultati possono essere combinati per esaminare la relazione fra un cambio di misura di probabilità
e l’espressione del drift di un processo di Itô. Nella trattazione di questi problemi un ruolo centrale è
giocato dalle martingale esponenziali.

18.1 Cambi di misura e processi di Itô


Consideriamo un moto Browniano d-dimensionale W su uno spazio (Ω, F , P , Ft ) e un processo λ ∈ L2loc .
Applicando la formula di Itô al processo esponenziale
Z t Z t !
1 2
Mtλ := exp − λs dWs − |λs | ds , t ∈ [0, T ], (18.1.1)
0 2 0

otteniamo
dMtλ = −Mtλ λt dWt . (18.1.2)
Quindi M λ è una martingala locale, a volte chiamata martingala esponenziale. Essendo positiva, M λ è una
super-martingala (cfr. Osservazione (13.4.5)-vi)) e in particolare
h i
E Mtλ ≤ M0λ = 1, t ∈ [0, T ];
h i
inoltre, M λ è una vera martingala su [0, T ] se e solo se E MTλ = 1.
Le martingale esponenziali hanno un interessante legame con i cambi di misura di probabilità. Ricor-
diamo che due misure di probabilità P , Q su uno spazio (Ω, F ) si dicono equivalenti se hanno gli stessi
eventi certi e trascurabili: in tal caso si scrive Q ∼ P . Per il Teorema A.2.1.3 di Radon-Nikodym ad ogni

397
398 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE

probabilità Q, equivalente a P , è associata una variabile aleatoria Z che è strettamente positiva q.c. e tale
che
Z
Q(A) = ZdP , A ∈ F;
A

in particolare, si ha E P [Z] = 1. Z è chiamata derivata di Radon-Nikodym di Q rispetto a P ed è indicata col


simbolo Z = dQ dP . Notiamo che è equivalente assegnare Q ∼ P oppure Z che sia strettamente positiva q.c. e
tale che E P [Z] = 1.
Il seguente teorema afferma che c’è una relazione biunivoca fra le misure Q equivalenti a P e i processi
λ ∈ L2loc tali che M λ è una martingala. Inoltre, un cambio di misura di probabilità corrisponde a un cambio
di drift del moto Browniano (e, di conseguenza, dei processi di Itô).

Teorema 18.1.1 (Cambi di misura e di drift). [!] Sia W = (Wt )t∈[0,T ] un moto Browniano d-dimensionale
sullo spazio (Ω, F , P ) munito della filtrazione Browniana standard1 F W . Si ha:

i) se Q è una misura di probabilità equivalente a P allora esiste λ ∈ L2loc tale che

dQ
= MTλ (18.1.3)
dP

dove M λ è la martingala esponenziale in (18.1.1);

ii) viceversa, se λ ∈ L2loc è tale che M λ è una vera martingala allora (18.1.3) definisce una misura di
probabilità Q ∼ P .

Inoltre:

a) quasi certamente si ha
" #
dQ
Mtλ = E P | FtW , t ∈ [0, T ]; (18.1.4)
dP

b) il processo
Z t
Wtλ := Wt + λs ds, (18.1.5)
0

è un moto Browniano su (Ω, F , Q, F W );

c) se X è un processo di Itô della forma

dXt = bt dt + σt dWt (18.1.6)

con b ∈ L1loc e σ ∈ L2loc , allora


dXt = (bt − σt λt )dt + σt dWtλ . (18.1.7)

Proveremo il Teorema 18.1.1 nella Sezione 18.5.1, come corollario dei due risultati principali di questo
capitolo, il teorema di Girsanov e il teorema di rappresentazione delle martingale Browniane.

1 La filtrazione ottenuta completando la filtrazione generata da W in modo che verifichi le ipotesi usuali.
18.1. CAMBI DI MISURA E PROCESSI DI ITÔ 399

18.1.1 Un’applicazione: la valutazione neutrale al rischio di derivati finanziari


In alcune applicazioni, si è interessati a sostituire il drift bt di un processo di Itô della forma (18.1.6) con
un opportuno drift rt ∈ L1loc . Il Teorema 18.1.1, afferma che ciò è possibile cambiando misura di probabilità
a patto che che esista un processo λ ∈ L2loc per cui valga rt = bt − σt λt e M λ in (18.1.1) sia una martingala.
In questa sezione presentiamo un’applicazione specifica nell’ambito della finanza matematica.
Nel modello di Black&Scholes [22] dell’Esempio 17.5.4, il prezzo S di un titolo rischioso ha la seguente
dinamica stocastica
dSt = µSt dt + σ St dWt , (18.1.8)
dove W è un moto Browniano reale su (Ω, F , P , Ft ) e µ, σ sono due parametri reali detti rispettivamente
tasso di rendimento atteso e volatilità. Si assume σ > 0 per non cancellare l’effetto aleatorio del Browniano
che descrive la rischiosità2 del titolo. Inoltre, è ragionevole assumere µ > r dove r indica il tasso d’interesse
privo di rischio3 : ciò è motivato economicamente dal fatto che gli investitori, per assumersi il rischio di
investire sul titolo S, si aspettano un tasso di rendimento µ > r, più remunerativo rispetto al conto in banca.
Nel gergo finanziario, P è detta “misura del modo reale” perché la dinamica (18.1.8) nella misura P intende
descrivere il reale andamento del titolo rischioso e i parametri µ, σ del modello sono quelli che potrebbero
essere stimati con metodi econometrici a partire da dati reali come, per esempio, una serie storica di prezzi
del titolo: una tale stima statistica ha generalmente finalità di previsione dell’andamento futuro del prezzo
in base ai dati del passato.
In finanza matematica, a partire dal modello (18.1.8) si introduce un’altra misura di probabilità Q
definita come nel Teorema 18.1.1 con λ uguale al processo costante
µ−r
λ= ∈ R+ . (18.1.9)
σ
La scelta di λ è tale che la dinamica di S diventa

dSt = rSt dt + σ St dWtλ ,

quindi formalmente analoga4 a (18.1.8) ma con il tasso di rendimento atteso uguale al tasso privo di rischio.
La misura Q non intende descrivere il reale rendimento atteso: Q è chiamata “misura neutrale al rischio”
o anche “misura martingala” poiché il processo Set := e−rt St del prezzo scontato5 è una Q-martingala e, in
particolare, vale
S0 = e−rT E Q [St ] . (18.1.10)
La (18.1.10) è una formula di valutazione neutrale al rischio, in base alla quale il prezzo attuale S0 è equo
nel senso che è uguale al valore atteso del prezzo futuro. La misura Q viene usata per valutare particolari
strumenti finanziari chiamati derivati, di cui è noto il valore in un tempo futuro T , in funzione di ST : se
indichiamo con ϕ tale funzione, la variabile aleatoria ϕ(ST ) è chiamata “payoff” e corrisponde al valore del
derivato al tempo T . Per coerenza con la formula (18.1.10), il valore atteso nella misura neutrale al rischio

e−rT E Q [ϕ(ST )] (18.1.11)

è chiamato “prezzo neutrale al rischio” del derivato con payoff ϕ: il valore atteso in (18.1.11) può essere
calcolato esplicitamente usando il fatto che ST ha distribuzione log-normale, restituendo la famosa formula
di Black&Scholes.
2 Se σ = 0, la (18.1.8) si riduce ad un’equazione differenziale ordinaria

dSt = µSt dt
con soluzione deterministica St = S0 eµt : quest’ultima è una cosiddetta formula di capitalizzazione composta con tasso d’interesse µ.
3 Il tasso d’interesse pagato dal conto in banca che è assunto come investimento non rischioso di riferimento.
4 W λ = W + λt è un moto Browniano reale nella misura Q.
t t
5 Il fattore di sconto e−rt elimina il “valore del tempo” ossia attualizza i prezzi.
400 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE

Il parametro λ in (18.1.9) è chiamato “prezzo di mercato del rischio” perché è definito come rapporto
fra il differenziale di rendimento µ − r richiesto per assumersi il rischio di investire in S e la volatilità σ che
misura la rischiosità di S.
A differenza di P , la misura Q non ha una finalità “statistica” e non descrive le probabilità reali degli
eventi, ma è una misura artificiale rispetto alla quale tutti i prezzi di mercato (del conto in banca, del titolo
S e del derivato ϕ(ST )) sono equi: le finalità di Q sono principalmente la valutazione dei derivati e lo studio
di alcune proprietà fondamentali dei modelli finanziari, come la assenza d’arbitraggi e la completezza. Per
una trattazione completa di questi temi rimandiamo, per esempio, a [94].

18.2 Stime di sommabilità per martingale esponenziali


In questa sezione diamo alcune condizioni sul processo λ che garantiscono che la martingala esponen-
ziale (18.1.1) sia una vera martingala.

Proposizione 18.2.1. Supponiamo che


ZT
|λt |2 dt ≤ κ q.c. (18.2.1)
0

per una certa costante κ. Allora la martingala esponenziale M λ in (18.1.1) è una vera martingala e vale
" #
λ p
 
E sup Mt < ∞, p ≥ 1.
0≤t≤T

Notazione 18.2.2. Per ogni processo X poniamo

X̄T := sup |Xt |.


0≤t≤T

Consideriamo il processo integrale


Z t
Yt := λs dWs , t ∈ [0, T ], (18.2.2)
0

dove il moto Browniano W e λ ∈ L2loc sono entrambi processi d-dimensionali6 . Sotto la condizione (18.2.1),
la disuguaglianza (16.2.1) di Burkholder-Davis-Gundy fornisce la seguente stima di sommabilità per Y :
per ogni p > 0 vale
h pi  
p/2
E ȲT ≤ cE ⟨Y ⟩T ≤ cκp/2 .

In effetti, vale una stima di sommabilità più forte, di tipo esponenziale, per provare la quale abbiamo
bisogno del seguente

Lemma 18.2.3. Per ogni super-martingala continua non-negativa Z = (Zt )t∈[0,T ] vale
!
E [Z0 ]
P sup Zt ≥ ε ≤ , ε > 0.
0≤t≤T ε
6 Quindi, più esplicitamente,
d Z t
j j
X
Yt = λs dWs .
j=1 0
 
Osserviamo che Mtλ = exp −Yt − 12 ⟨Y ⟩t .
18.2. STIME DI SOMMABILITÀ PER MARTINGALE ESPONENZIALI 401

Dimostrazione. Fissato ε > 0, poniamo


τ := inf{t ≥ 0 | Zt ≥ ε} ∧ T .
Allora τ è un tempo d’arresto limitato e per il Teorema 13.1.6 di optional sampling si ha
h i
E [Z0 ] ≥ E [Zτ ] ≥ E Zτ 1(Z̄T ≥ε) ≥ εP (Z̄T ≥ ε).

Proposizione 18.2.4 (Sommabilità esponenziale). Sia Y l’integrale stocastico in (18.2.2) con λ ∈ L2 che
verifica la condizione (18.2.1). Allora si ha
  ε2
P ȲT ≥ ε ≤ 2e− 2κ , ε > 0, (18.2.3)

e di conseguenza esiste α = α(κ) > 0 tale che


 
2
E eα ȲT < ∞. (18.2.4)

Dimostrazione. Per ogni α > 0 il processo


α 2 ⟨Y ⟩
Ztα = eαYt − 2 t ,
è una super-martingala continua positiva. Inoltre, sotto la condizione (18.2.1), per ogni ε > 0 e t ∈ [0, T ]
vale   α2 κ
 
(Yt ≥ ε) = eαYt ≥ eαε ⊆ Ztα ≥ eαε− 2 .

Allora si ha
! !
α2 κ α2 κ
P sup Yt ≥ ε ≤ P sup Ztα ≥ eαε− 2 ≤ e−αε+ 2
0≤t≤T 0≤t≤T

per il Lemma 18.2.3, essendo E[Z0α ] = 1. Scegliendo α = κε in modo da minimizzare l’ultimo termine,
otteniamo !
ε2
P sup Yt ≥ ε ≤ e− 2κ
0≤t≤T
Una stima analoga vale per −Y e questo prova la (18.2.3). Infine, la (18.2.4) è immediata conseguenza della
(18.2.3) e della Proposizione 4.1.6 e del successivo Esempio 4.1.7.
Osservazione 18.2.5. La Proposizione 18.2.4 si estende a σ processo N × d-dimensionale: in questo caso
vale   ε2
P ȲT ≥ ε ≤ 2N e− 2κN , ε > 0, (18.2.5)
ed esiste α = α(κ, N ) > 0 tale che  
2
E eα ȲT < ∞.

Infatti, basta notare che !


  j ε
ȲT ≥ ε ⊆ ȲT ≥ √
N
per almeno una componente Y j , con j ∈ {1, . . . , N }, di Y . Allora si ha
N !
  X j ε
P Ȳt ≥ ε ≤ P ȲT ≥ √
j=1 N

da cui la tesi.
402 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE

Dimostrazione della Proposizione 18.2.1. Per ogni ε > 0, per la (18.2.3) si ha


! !
  (log ε)2
P sup Mtλ ≥ ε ≤ P sup e|Yt | ≥ ε = P ȲT ≥ log ε ≤ 2e− 2κ .
0≤t≤T 0≤t≤T

e di conseguenza, per la Proposizione 4.1.6, si ha


" # Z∞ !
λ p
E sup (Mt ) = p εp−1 P sup Mtλ ≥ ε dε < ∞. (18.2.6)
0≤t≤T 0 0≤t≤T

In particolare per p = 2 si ha
"Z T # " Z T #
E λ2t (Mtλ )2 dt ≤ E sup (Mtλ )2 λ2t dt ≤
0 0≤t≤T 0

(per l’ipotesi (18.2.1))


" #
≤ κE sup (Mtλ )2 < ∞
0≤t≤T

per la (18.2.6). Quindi λM λ ∈ L2 e dalla (18.1.2) segue che M λ è una martingala.


Un condizione più generale che garantisce la proprietà di martingala per il processo esponenziale M λ è
data dal seguente classico risultato di Novikov [86] che ci limitiamo ad enunciare.
Teorema 18.2.6 (Condizione di Novikov). Se λ ∈ L2loc è tale che

1 T
" Z !#
2
E exp |λs | ds < ∞
2 0

allora il processo M λ in (18.1.1) è una martingala.

18.3 Teorema di Girsanov


Sia W un moto Browniano d-dimensionale sullo spazio (Ω, F , P , Ft ). Nella Sezione 18.2 abbiamo dato
condizioni sufficienti su λ ∈ L2loc affinché il processo esponenziale
Zt
1 t
Z !
λ 2
Mt := exp − λs dWs − |λ | ds , t ∈ [0, T ]. (18.3.1)
0 2 0 s
h i
sia una vera martingala e quindi in particolare valga E MTλ = 1: in tal caso
Z
Q(A) := MTλ dP , A ∈ F,
A

è una misura di probabilità su (Ω, F ) con derivata di Radon-Nikodym


dQ
MTλ = . (18.3.2)
dP
La prova del seguente lemma è basata sulla formula di Bayes del Teorema 5.2.14: per ogni X ∈ L1 (Ω, Q)
vale h i
E P XMTλ | Ft
E Q [X | Ft ] = h i t ∈ [0, T ]. (18.3.3)
E P MTλ | Ft
18.3. TEOREMA DI GIRSANOV 403

Lemma 18.3.1. Supponiamo che M λ in (18.3.1) sia una P -martingala e sia Q la misura di probabilità in
(18.3.2). Un processo X = (Xt )t∈[0,T ] è una Q-martingala se e solo se (Xt Mtλ )t∈[0,T ] è una P -martingala.

Dimostrazione. Poiché M λ è adattato e strettamente positivo, è chiaro che X è adattato se e solo se XM λ lo


è. Inoltre, si ha
h i h h ii
E Q [|Xt |] = E P |Xt |MTλ = E P E P |Xt |MTλ | Ft =

(poiché X è adattato e M λ è una P -martingala)


h h ii h i
= E P |Xt |E P MTλ | Ft = E P |Xt |Mtλ ,

e quindi Xt ∈ L1 (Ω, Q) se e solo se Xt Mtλ ∈ L1 (Ω, P ). Analogamente, per s ≤ t vale


h i h h i i h i
E P Xt MTλ | Fs = E P E P Xt MTλ | Ft | Fs = E P Xt Mtλ | Fs .

Allora da (18.3.3) con X = Xt si ha


h i h i
E P Xt MTλ | Fs E P Xt Mtλ | Fs
Q
E [Xt | Fs ] = i = ,
Msλ
h
E P MTλ | Fs

da cui la tesi.

Osservazione 18.3.2. Nelle ipotesi del Lemma 18.3.1, il processo


Zt
1 t
Z !
λ −1
 
2
Mt = exp λs dWs + |λ | ds .
0 2 0 s
 −1
è una Q-martingala poiché M λ M λ è ovviamente una P -martingala. Inoltre, per ogni variabile aleatoria
sommabile X, vale     
−1 −1 
E P [X] = E P X MTλ MTλ = E Q X MTλ

e quindi
dP  λ −1
= MT .
dQ
In particolare P , Q sono misure equivalenti, nel senso che hanno gli stessi eventi certi e trascurabili, poiché
reciprocamente hanno densità strettamente positive.

Un moto Browniano è una martingala e quindi è un processo “privo di drift”: il teorema di Girsanov
afferma che se si aggiunge un drift ad un moto Browniano, questo nuovo processo è ancora un moto Bro-
wniano rispetto ad una certa misura di probabilità. Per comprendere questo risultato che a prima vista
appare un po’ strano, è utile aver presente l’elementare Esempio 6.4.8 alla fine del quale avevamo osservato
che la proprietà di martingala non è una proprietà delle traiettorie del processo ma dipende dalla misura di
probabilità considerata.

Teorema 18.3.3 (Girsanov). [!!] Se W è un moto Browniano e M λ in (18.3.1) è una martingala sullo spazio
(Ω, F , P , Ft ), allora il processo
Zt
Wtλ := Wt + λs ds, t ∈ [0, T ],
0
dQ
è un moto Browniano su (Ω, F , Q, Ft ) con dP = MTλ .
404 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE

Dimostrazione. Per la Proposizione 17.4.6 di caratterizzazione del moto Browniano, è sufficiente mostrare
che, per ogni η ∈ Rd , il processo
η λ |η|2
+
Xt := eiηWt 2 t , t ∈ [0, T ],

è una Q-martingala (ossia una martingala nella misura Q): equivalentemente, per il Lemma 18.3.1, provia-
mo che il processo
Zt Zt
|η|2 t 1 t
Z !
η
Xt Mtλ = exp iηWt + i ηλs ds + − λs dWs − |λs |2 ds
0 2 0 2 0
 Z 
t d
1X t j
 Z  2 
= exp − (λ − iη) dWs − λs − iη j ds
 
 0 s 2 0 
j=1

è una P -martingala. Sotto la condizione di limitatezza (18.2.1) la tesi segue dal Lemma 18.2.1 che vale
anche per processi a valori complessi e in particolare per λ − iη.
Il caso generale si tratta con un argomento tecnico di localizzazione: consideriamo la successione di
tempi d’arresto
( Zt )
τn = inf t ≥ 0 | |λs |2 ds ≥ n ∧ T , n ∈ N.
0
η λ
Per il Lemma 18.2.1, il processo (Xt∧τn Mt∧τ n
) è una P -martingala e vale
h η i η
E P Xt∧τn Mt∧τ
λ
n
λ
| Fs = Xs∧τn Ms∧τn
, s ≤ t, n ∈ N.

λ η η
Dunque, per provare che X η Z è una martingala, è sufficiente mostrare che (Xt∧τn Mt∧τ n
) converge a (Xt Mtλ )
in norma L1 per n che tende all’infinito. Poiché
η η
lim Xt∧τn = Xt q.c.
n→∞

η |ξ|2 T
e 0 ≤ Xt∧τn ≤ e 2 , basta provare che

λ
lim Mt∧τ n
= Mtλ in L1 (Ω, P ).
n→∞

Posto
λ
Mn,t = min{Mt∧τ n
, Mtλ },

si ha 0 ≤ Mn,t ≤ Mtλ e per il teorema della convergenza dominata


h i
lim E Mn,t = E Mtλ .
 
n→∞

D’altra parte
h i h i h i
λ
E Mtλ − Mt∧τ n
= E M λ
t − M n,t + E M λ
t∧τ n
− M n,t =
h i h i
(poiché E Mtλ = E Mt∧τ
λ
n
= 1)
h i
= 2E Mtλ − Mn,t

da cui la tesi.
18.4. APPROSSIMAZIONE MEDIANTE MARTINGALE ESPONENZIALI 405

18.4 Approssimazione mediante martingale esponenziali


Un ulteriore motivo di interesse per le martingale esponenziali è il fatto che sono un utile strumento
di approssimazione. Nel seguito, W è un moto Browniano sullo spazio (Ω, F , P ) munito della filtrazione
standard7 Browniana F W : la scelta di questa particolare filtrazione è cruciale per la validità dei seguenti
risultati. Le dimostrazioni di questa sezione sono un po’ tecniche e possono essere sorvolate ad una prima
lettura. Il teorema seguente è il principale ingrediente nella dimostrazione del teorema di rappresentazione
delle martingale Browniane che presenteremo nella Sezione 18.5.

Teorema 18.4.1. Lo spazio delle combinazioni lineari di variabili aleatorie della forma
Z T Z T !
1 2
MTλ = exp − λ(t)dWt − λ(t) dt ,
0 2 0

con λ funzione deterministica in L∞ ([0, T ]), è denso in L2 (Ω, FTW ).

La dimostrazione del Teorema 18.4.1 è basata sul seguente

Lemma 18.4.2. Sia (tn )n∈N una successione densa in [0, T ]. La famiglia delle variabili aleatorie della forma

ϕ(Wt1 , . . . , Wtn ), ϕ ∈ C0∞ (Rn ), n ∈ N,

è densa in L2 (Ω, FTW ).

Dimostrazione. La filtrazione discreta definita da

Gn := σ (Wt1 , . . . , Wtn ), n ∈ N,

è tale che σ (Gn , n ∈ N) = GTW dove G W indica la filtrazione generata dal moto Browniano. Data X ∈
L2 (Ω, FTW ), proviamo fra poco che
h i
lim E |X − Xn |2 = 0, Xn := E [X | Gn ] , n ∈ N. (18.4.1)
n→∞

Poiché Xn ∈ mGn , per il Teorema 3.3.3 di Doob si ha

Xn = ϕn (Wt1 , . . . , Wtn )

per una certa funzione ϕn misurabile e di quadrato sommabile rispetto alla legge µWt ,...,Wtn : per densità,
1
ϕn può essere approssimata in L2 da una successione (ϕn,k )k∈N in C0∞ (Rn ) e vale anche

lim ϕn,k (Wt1 , . . . , Wtn ) = Xn , in L2 (Ω, P ),


k→∞

da cui segue la tesi.


Rimane da provare la (18.4.1). Per la disuguaglianza massimale di Doob (13.1.3) si ha
" #
h i
E sup Xn2 ≤ 4E X 2 < ∞. (18.4.2)
n∈N

Allora, per il Teorema 13.2.2 sulla convergenza delle martingale discrete, esiste il limite puntuale q.c.

M := lim Xn .
n→∞
7 La filtrazione standard F W è ottenuta completando la filtrazione G W generata da W , secondo il Teorema 11.2.23.
406 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE

Inoltre, poiché
(Xn − M)2 ≤ 2(Xn2 + M 2 ) ≤ 2 sup Xn2 ,
n∈N

per la (18.4.2) e il teorema della convergenza dominata, si ha anche

lim Xn = M in L2 (Ω, P ).
n→∞

Posto Mn = E [M | Gn ], si ha
h i h i h i
E (Xn − Mn )2 = E (Xn − E [M | Gn ])2 = E (E [Xn − M | Gn ])2 ≤

(per la disuguaglianza di Jensen)


h i
≤ E (Xn − M)2 −−−−−−→ 0. (18.4.3)
n→∞
h i
Per concludere, proviamo che M = E X | FTW = X da cui segue che M = X q.c. Anzitutto, M ∈ mGTW ⊆
mFTW ; poi, fissato n̄ ∈ N, per Z ∈ bGn̄ e n ≥ n̄ si ha

E [Z(M − X)] = E [ZE [M − X | Gn ]] = E [Z(Mn − Xn )] −−−−−−−−→ 0


n̄≤n→∞

h Poichéi gli elementi di FT e GT differiscono solo per eventi trascurabili, si deduce che vale
W W
per la (18.4.3).
anche M = E X | FTW .

Dimostrazione del Teorema 18.4.1. È sufficiente provare che se X ∈ L2 (Ω, FTW ) e, per ogni λ ∈ L∞ ([0, T ]),
h i
⟨X, MTλ ⟩L2 (Ω) = E XMTλ = 0 (18.4.4)

allora X = 0 q.c.
Da (18.4.4), scegliendo λ costante a tratti, si ha
h i
F(η) := E Xeη1 Wt1 +···+ηn Wtn = 0, η ∈ Rn , t1 , . . . , tn ∈ [0, T ],

e l’estensione analitica di F a Cn , per il teorema del prolungamento analitico, è identicamente nulla. Allora,
per ogni ϕ ∈ C0∞ (Rn ), per il Teorema 3.5.6 d’inversione della trasformata di Fourier si ha
"Z #
h i X −i(η1 Wt1 +···+ηn Wtn )
E Xϕ(Wt1 , . . . , Wtn ) = E e ϕ̂(η)dη
(2π)n Rn
Z
1 h
−i(η1 Wt1 +···+ηn Wtn )
i
= ϕ̂(η)E e X dη = 0,
(2π)n Rn

e la tesi segue dal Lemma 18.4.2.

18.5 Rappresentazione delle martingale Browniane


L’integrale stocastico Browniano costruito nel Capitolo 15 è una martingala locale continua. Il seguente
risultato mostra che, viceversa, ogni processo che sia una martingala locale rispetto alla filtrazione standard
Browniana F W ammette una rappresentazione come integrale stocastico.
18.5. RAPPRESENTAZIONE DELLE MARTINGALE BROWNIANE 407

Teorema 18.5.1 (Rappresentazione delle martingale Browniane). [!!!] Sia W un moto Browniano sullo
spazio (Ω, F , P ) munito della filtrazione standard Browniana F W . Se X = (Xt )t∈[0,T ] è una versione càdlàg
di una martingala locale su (Ω, F , P , F W ) allora esiste ed è unico u ∈ L2loc tale che
Z t
Xt = X0 + us dWs , t ∈ [0, T ]. (18.5.1)
0

In particolare, X è un processo continuo q.c.

Osservazione 18.5.2. Il Teorema 18.5.1 rinforza il risultato provato nella Sezione 13.2 in quanto afferma
che ogni martingala locale Browniana ammette una modificazione continua, non solo càdlàg.

Alla dimostrazione del Teorema 18.5.1 premettiamo la seguente proposizione che si basa sui risultati di
approssimazione della Sezione 18.4.

Proposizione 18.5.3. Per ogni variabile aleatoria X ∈ L2 (Ω, FTW ) esiste ed è unico u ∈ L2 such that
Z T
X = E [X] + ut dWt . (18.5.2)
0

Dimostrazione. Per semplicità, consideriamo solo il caso uno-dimensionale. Per quanto riguarda l’unicità,
se u, v ∈ L2 soddisfano la (18.5.2), allora
Z T
(ut − vt )dWt = 0
0

e dall’isometria di Itô segue che P (u = v q.o. su [0, T ]) = 1 (cfr. Osservazione 15.2.18).


Per quanto riguarda l’esistenza, la tesi è semplice se X è della forma
Z T Z T !
1 2
X = MTλ := exp − λ(t)dWt − λ(t) dt (18.5.3)
0 2 0

con λ ∈ L∞ ([0, T ]) funzione deterministica. Infatti, per la formula di Itô si ha


Z T
X = 1− λ(t)Mtλ dWt
0
h i
con λM λ ∈ L2 per la Proposizione 18.2.1 e quindi, in particolare, E [X] = E MTλ = 1 per la proprietà di
martingala.
In generale, in base al Teorema 18.4.1 ogni X ∈ L2 (Ω, FTW ) è approssimata in norma L2 da una succes-
sione (Xn )n∈N di combinazioni lineari di variabili della forma (18.5.3) per le quali vale
Z T
Xn = E [Xn ] + un,t dWt (18.5.4)
0

con un ∈ L2 . Per l’isometria di Itô si ha


"Z T #
h i
E (Xn − Xm )2 = (E [Xn − Xm ])2 + E (un,t − um,t )2 dt ,
0

e quindi (un )n∈N è una successione di Cauchy in L2 . La tesi segue passando al limite in (18.5.4).
408 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE

Dimostrazione del Teorema 18.5.1. L’unicità di u segue dall’unicità della rappresentazione di un processo di
Itô (cfr. Osservazione 15.3.5).
Per quanto riguarda l’esistenza, consideriamo prima il caso in cui X è una martingala tale che XT ∈
L2 (Ω, P ). Per il Teorema 18.5.3 esiste u ∈ L2 tale che
ZT
XT = E [XT ] + ut dWt ,
0

da cui segue la (18.5.1), semplicemente applicando l’attesa condizionata a FtW per ogni t ∈ [0, T ]. In
particolare, abbiamo provato che X ammette una modificazione continua.
Ora rimuoviamo l’ipotesi XT ∈ L2 (Ω, P ) e proviamo che ogni F W -martingala X ammette una modifi-
cazione continua. Poiché XT ∈ L1 (Ω, P ) e L2 (Ω, P ) è denso in L1 (Ω, P ), esiste una successione (Yn )n∈N di
variabili aleatorie in L2 (Ω, P ) tali che
1
E [|Yn − XT |] ≤ , n ∈ N.
2n
Per il punto precedente, la successione di martingale
h i
Xn,t := E Yn | FtW , t ∈ [0, T ],

ammette una modificazione continua e per la disuguaglianza massimale di Doob, Teorema 13.1.2, vale
 
 1  h i k
P  sup Xn,t − Xt ≥  ≤ kE Xn,T − XT ≤ n , k, n ∈ N.
t∈[0,T ] k 2

Dal Lemma 2.3.28 di Borel-Cantelli segue che, quasi certamente, (Xn )n∈N converge uniformemente su [0, T ]
alla martingala X che è quindi continua q.c.
Se X è una martingale locale, consideriamo una successione localizzante (τn )n∈N : il processo Xt∧τn − X0
è una martingala e per quanto abbiamo appena provato, ammette una modificazione continua. Poiché
Xt 1(τn ≥T ) = Xt∧τn 1(τn ≥T ) , t ∈ [0, T ], n ∈ N, (18.5.5)
deduciamo che anche X ammette una modificazione continua.
Infine, proviamo la (18.5.1) nell’ipotesi che X sia una martingala locale continua. Per l’Osservazione
13.4.5, esiste una successione localizzante (τn )n∈N tale che Xt∧τn − X0 è una martingala continua e limitata
per ogni n ∈ N. Allora esiste una successione (un )n∈N in L2 per cui vale
Zt
Xt∧τn = X0 + un,s dWs , t ∈ [0, T ]. (18.5.6)
0

Per la (18.5.5) e la Proposizione 15.2.25 si può passare al limite in (18.5.6) per concludere la dimostrazione.

18.5.1 Dimostrazione del Teorema 18.1.1


Per il Teorema 18.5.1 di rappresentazione delle martingale Browniane, esiste u ∈ L2loc tale che il processo
M in (18.1.4) ammette la rappresentazione
Zt
Mt = 1 + us dWs , t ∈ [0, T ].
0
ut
Si noti che λt :=−M appartiene a L2loc poiché M è un processo adattato, continuo e strettamente positivo.
t
Di conseguenza vale
Z t
Mt = 1 − Ms λs dWs , t ∈ [0, T ],
0
18.5. RAPPRESENTAZIONE DELLE MARTINGALE BROWNIANE 409

ossia M risolve un’equazione differenziale stocastica lineare di cui la martingala esponenziale M λ in (18.1.1)
è l’unica8 soluzione. Dunque M = M λ nel senso dell’indistinguibilità.
Per costruzione M è una martingala e quindi, per il Teorema 18.3.3 di Girsanov, W λ in (18.1.5) è un
moto Browniano su (Ω, F , Q, F W ). Infine si ha

dXt = bt dt + σt dWt =

(per la (18.1.5))

= bt dt + σt (dWtλ − λt dt)

da cui segue la (18.1.7).

Osservazione 18.5.4. Ribadiamo che un cambio di misura alla Girsanov modifica solo il termine di drift di un
processo di Itô, mentre il coefficiente di diffusione rimane invariato.

8 Il fatto che M λ sia soluzione è una semplice verifica con la formula di Itô. Per l’unicità, non è difficile adattare la prova del
Teorema 22.1.1 che dimostreremo in seguito.
410 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
Capitolo 19

Equazioni differenziali stocastiche

It seems fair to say that all


differential equations are better
models of the world when a
stochastic term is added and that
their classical analysis is useful only
if it is stable in an appropriate sense
to such perturbations.

David Mumford

A partire da questo capitolo iniziamo lo studio delle equazioni differenziali stocastiche, nel seguito ab-
breviate in SDE dalla locuzione anglosassone “stochastic differential equations”. Come anticipato nella
Sezione 7.6, tali equazioni sono state originalmente introdotte per la costruzione di processi di Markov
continui o diffusioni. Nel tempo le SDE hanno assunto un ruolo centrale per la modellizzazione stocastica
in molteplici campi applicativi, al fine di generalizzare le equazioni differenziali deterministiche introdu-
cendo un fattore di perturbazione aleatoria. Le SDE permettono anche la costruzione di esempi espliciti di
semimartingale continue.
In questo capitolo introduciamo la nozione di soluzione di una SDE e i relativi problemi di esisten-
za e unicità che hanno una duplice formulazione, in senso debole e forte. Proviamo anche alcune stime
preliminari di dipendenza continua e sommabilità delle soluzioni.

19.1 Soluzioni di SDE: nozioni di esistenza e unicità


Nel seguito N , d ∈ N e 0 ≤ t0 < T sono costanti fissate. Una SDE è un’espressione della forma
dXt = b(t, Xt )dt + σ (t, Xt )dWt (19.1.1)
dove W è un moto Browniano d-dimensionale e
b = b(t, x) : ]t0 , T [×RN −→ RN , σ = σ (t, x) : ]t0 , T [×RN −→ RN ×d , (19.1.2)
sono funzioni1 misurabili: b è chiamato coefficiente di drift e σ coefficiente di diffusione della SDE. In
(19.1.2) RN ×d indica lo spazio delle matrici di dimensione N × d. Per semplificare la presentazione, assu-
meremo sempre la seguente
1 Più in generale, è possibile studiare equazioni i cui coefficienti dipendano in modo stocastico dalla variabile temporale. Questo
tipo di equazioni intervengono, per esempio, nello studio di problemi di controllo ottimo e filtraggio stocastico. Noi ci limiteremo a
considerare coefficienti deterministici. Rimandiamo, per esempio, a [65] e [57] per una trattazione generale.

411
412 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE

Ipotesi 19.1.1. Le funzioni b, σ sono localmente limitate in x uniformemente in t (in breve, scriviamo b, σ ∈
L∞ N
loc (]t0 , T [×R )): precisamente, per ogni n ∈ N esiste una costante κn tale che

|b(t, x)| + |σ (t, x)| ≤ κn , t ∈ ]t0 , T [, |x| ≤ n.

Prima di dare la definizione di soluzione di una SDE occorre ambientare opportunamente il problema
tramite la seguente
Definizione 19.1.2 (Set-up). Un set-up (W , Ft ) su [t0 , T ] è costituito da:
• uno spazio di probabilità (Ω, F , P ) con filtrazione (Ft )t∈[t0 ,T ] ;
• un moto Browniano d-dimensionale W = (Wt )t∈[t0 ,T ] di punto iniziale t0 su (Ω, F , P , Ft ).

Osservazione 19.1.3. Ricordiamo che Wt0 = 0 per definizione2 . Inoltre, osserviamo esplicitamente che Ft0
è indipendente dalla filtrazione standard Browniana (FtW )t∈[t0 ,T ] che verifica le ipotesi usuali.
Osservazione 19.1.4. A costo di appesantire un po’ le notazioni, consideriamo un intervallo temporale
generico [t0 , T ] invece che semplicemente [0, T ], perché riteniamo possa favorire la comprensione della
teoria delle “soluzioni forti” nel Capitolo 22 e di alcuni importanti risultati come la proprietà di flusso delle
soluzioni e le stime di dipendenza dai parametri. A partire dal Capitolo 23 porremo t0 = 0 per semplicità.
Definizione 19.1.5 (Soluzione di una SDE). Una soluzione della SDE di coefficienti b, σ relativa al set-up
(W , Ft ) è un processo N -dimensionale X = (Xt )t∈[t0 ,T ] definito sullo stesso spazio di W e tale che:

i) X è continuo e adattato, ossia Xt ∈ mFt per ogni t ∈ [t0 , T ];


ii) quasi certamente vale3
Z t Z t
Xt = Xt0 + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ]. (19.1.4)
t0 t0

Per indicare che X è soluzione della SDE di coefficienti b, σ relativa a (W , Ft ) scriviamo

X ∈ SDE(b, σ , W , Ft ).

Si è soliti associare ad una SDE anche una “condizione iniziale” che può essere assegnata puntualmente
tramite una variabile aleatoria Z ∈ mFt0 qualora il set-up (W , Ft ) sia stato prefissato oppure, come vedremo
in seguito, in legge tramite una distribuzione µ0 su RN .
2 Si veda la Definizione 10.2.1. La condizione W = 0 non è restrittiva poiché l’integrale stocastico che appare nella SDE dipende
t0
solo dagli incrementi Browniani (cfr. Corollario 15.2.26): quindi se B è un moto Browniano generico e Wt := Bt − Bt0 si ha q.c.
Zt Zt
us dBs = us dWs , t ≥ t0 .
t0 t0

Assumere Wt0 = 0 rende anche più “efficiente” la seguente Definizione 19.1.6 di soluzione forte poiché si ha l’inclusione stretta
FtW ⊂ FtB per t > t0 .
3 Ossia esiste una versione dell’integrale stocastico
Zt
t 7→ σ (s, Xs )dWs
t0

tale che la (19.1.4) valga per ogni t ∈ [t0 , T ] quasi certamente. Notiamo esplicitamente che, sotto l’Ipotesi 19.1.1 di locale limitatezza,
si ha
TZ Z T
|b(t, Xt )|dt + |σ (t, Xt )|2 dt < ∞ q.c. (19.1.3)
t0 t0
e quindi gli integrali in (19.1.4) sono ben definiti.
19.1. SOLUZIONI DI SDE: NOZIONI DI ESISTENZA E UNICITÀ 413

Definizione 19.1.6 (Soluzione forte di una SDE). Fissati un set-up (W , Ft ) e un dato iniziale Z ∈ mFt0 ,
indichiamo con
F Z,W = (FtZ,W )t∈[t0 ,T ]
la filtrazione generata da W e Z, completata in modo che verifichi le ipotesi usuali4 . Una soluzione X ∈
SDE(b, σ , W , Ft ), tale che Xt0 = Z, è soluzione in senso forte se è adattata alla filtrazione F Z,W .
Osservazione 19.1.7. [!] Le soluzioni forti si caratterizzano per la proprietà di essere adattate alla filtra-
zione F Z,W : poiché F Z,W è la più piccola filtrazione rispetto alla quale si può definire una soluzione della
SDE, tale condizione di misurabilità è la più restrittiva possibile.
Se il dato iniziale è deterministico, ossia Z ∈ RN , allora una soluzione forte è adattata alla filtrazione
standard Browniana F W . Ciò significa che a W , tramite la SDE di coefficienti b, σ , è associato un processo
(la soluzione) X che è un “funzionale” di W , nel senso che Xt si può esprimere in funzione di (Ws )s∈[t0 ,t] .
Questa osservazione è rilevante poiché in diverse applicazioni, come per esempio nella teoria dei segnali, W
rappresenta un insieme di dati osservati che sono utilizzati come “input” di un modello o sistema dinamico
(formalizzato dalla SDE) che produce come “output” la soluzione X: in questo caso è importante che X si
possa esprimere in funzione dei dati di partenza.
Esempio 19.1.8. Nel caso banale in cui i coefficienti b = b(t) e σ = σ (t) della SDE (19.1.1) sono funzioni L∞
della sola variabile temporale, la soluzione della corrispondente SDE è il processo di Itô
Zt Zt
Xt = Z + b(s)ds + σ (s)dWs .
t0 t0

Ricordiamo dall’Esempio 16.1.9 che se il dato iniziale è deterministico allora X è un processo Gaussiano.
Esistono diverse formulazioni del problema dell’esistenza di soluzioni di una SDE.
Definizione 19.1.9 (Risolubilità di una SDE). Diciamo che la SDE di coefficienti b, σ è risolubile
• in senso debole, se per ogni distribuzione µ0 su RN esistono un set-up (W , Ft ) e una soluzione X ∈
SDE(b, σ , W , Ft ) tale che Xt0 ∼ µ;

• in senso forte, se per ogni set-up (W , Ft ) e Z ∈ mFt0 esiste una soluzione forte X ∈ SDE(b, σ , W , FtZ,W )
tale che Xt0 = Z q.c.
Anche se sembra contro-intuitivo, è possibile che un processo soddisfi un’equazione del tipo
Zt Zt
Xt = x + b(s, Xs )ds + σ (s, Xs )dWs
0 0

con dato iniziale deterministico x e non sia adattato a F W : in altri termini, in alcuni casi un processo
∈ RN ,
X, per essere soluzione di una SDE, necessita di maggiore aleatorietà di quella che gli deriva dal moto
Browniano rispetto al quale è scritta l’equazione. Un famoso esempio è dovuto a Tanaka [121] (si veda
anche [131]): qui descriviamo l’idea generale e rimandiamo alla Sezione 9.2.1 in [94] o all’Esempio 3.5,
Capitolo 5 in [58] per i dettagli.
Esempio 19.1.10 (Tanaka). [!] Consideriamo la SDE scalare (ossia con N = d = 1)

dXt = σ (Xt )dWt (19.1.5)

con drift e dato iniziale nulli, b = Z = 0, e coefficiente di diffusione



1 se x ≥ 0,


σ (x) = sgn(x) := 
−1 se x < 0.

4 Per il Teorema 11.2.23 e l’indipendenza di Z da F W (cfr. Osservazione 19.1.3) W è un moto Browniano anche rispetto a F Z,W .
414 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE

Per provare che la SDE (19.1.5) è risolubile in senso debole, consideriamo un moto Browniano X definito
sullo spazio (Ω, F , P , F X ). Il processo
Zt
Wt := σ (Xs )dXs (19.1.6)
0

è una martingala continua con variazione quadratica ⟨W ⟩t = t e di conseguenza, per il Teorema 17.5.1, è
anch’esso un moto Browniano su (Ω, F , P , F X ). Poiché σ 2 ≡ 1, dalla definizione dWt = σ (Xt )dXt otteniamo

dXt = σ 2 (Xt )dXt = σ (Xt )dWt

che significa che X è soluzione della SDE (19.1.5) relativa a W , ossia X ∈ SDE(0, σ , 0, W , F X ). Il punto
cruciale è che si può dimostrare5 che W definito da (19.1.6) è adattato alla filtrazione standard F |X| del
processo in valore assoluto |X|: se X fosse adattato a F W allora dovrebbe essere adattato anche a F |X|
e ciò è assurdo. Questo esempio può sembrare un po’ patologico perché il coefficiente σ è una funzione
discontinua: più recentemente Barlow [7] ha dimostrato che per ogni α < 12 esiste una funzione σ che è
α-Hölderiana, limitata dall’alto e dal basso da costanti positive, e tale che la SDE (19.1.5) è risolubile in
senso debole ma non in senso forte.

In definitiva, una SDE può essere risolubile debolmente senza esserlo in senso forte: la risolubilità
debole è meno restrittiva perché dà la libertà di scelta dello spazio, del moto Browniano e della filtrazione
rispetto a cui scrivere la SDE. Al contrario, le soluzioni forti sono vincolate ad essere adattate alla filtrazione
F Z,W standard del dato iniziale Z e del Browniano W .
Come per l’esistenza, esistono anche differenti nozioni di unicità della soluzione di una SDE.

Definizione 19.1.11 (Unicità per una SDE). Diciamo che per la SDE di coefficienti b, σ si ha unicità

• in senso forte, se X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , W , Gt ) con Xt0 = Yt0 q.c. implica che X e Y sono
processi indistinguibili;

d
• in senso debole (o in legge), se X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , B, Gt ), con Xt0 = Yt0 , implica che
d
(X, W ) = (Y , B) ossia (X, W ) e (Y , B) hanno le stesse distribuzioni finito-dimensionali.

Nella definizione di unicità forte i due processi X e Y sono definiti sullo stesso spazio di probabilità
(Ω, F , P ) e sono soluzioni della SDE relative ai setup (W , Ft ) e (W , Gt ) dove W è un moto Browniano ri-
spetto ad entrambe le filtrazioni (Ft ) e (Gt ) che possono essere differenti. L’unicità forte è anche nota nella
letteratura anglosassone come “pathwise uniqueness”. Nella definizione di unicità in legge, i processi X e
Y possono essere soluzioni relative a set-up (W , Ft ) e (B, Gt ) distinti, anche definiti su spazi di probabilità
differenti.

Esempio 19.1.12. [!] Per la SDE dell’Esempio 19.1.10 c’è unicità in legge ma non forte. Infatti, ogni
soluzione X della SDE (19.1.5) è una martingala locale con ⟨X⟩t = t e quindi, per il Teorema 17.5.1 di
caratterizzazione di Lévy, X è un moto Browniano: dunque c’è unicità in legge.
D’altra parte, se X è la soluzione debole costruita nell’Esempio 19.1.10, possiamo verificare che anche
−X è soluzione della SDE e quindi non c’è unicità in senso forte: infatti, poiché σ (−x) = −σ (x) se x , 0, si ha
Z t Z t Z t
σ (−Xs )dWs = − σ (Xs )dWs + 2 1(Xs =0) dWs
0 0 0
Zt
=− σ (Xs )dWs q.c.
0

5 Qui si utilizza la formula di Meyer-Tanaka: si veda, per esempio, la Sezione 5.3.2 in [94] o la Sezione 2.11 in [34].
19.2. IPOTESI STANDARD E STIME PRELIMINARI 415

poiché, per l’isometria di Itô,


 Zt !2  Z t
  h i
E  1(Xs =0) dWs  = E 1(Xs =0) ds = 0.
0 0

Qui abbiamo usato il fatto che P (Xs = 0) = 0 per ogni s ≥ 0 poiché X è un moto Browniano.
Osservazione 19.1.13. [!] Vedremo col Teorema 23.2.1 di Yamada e Watanabe che se una SDE è risolubile
in senso forte allora lo è anche in senso debole. Inoltre, se per una SDE si ha unicità in senso forte allora si
anche unicità in legge: questo risultato sembra naturale ma la dimostrazione non è ovvia poiché l’unicità
forte riguarda soluzioni definite sullo stesso spazio mentre per provare l’unicità debole si ha a che fare con
soluzioni possibilmente definite su spazi differenti. Infine, si dimostra anche che se per una SDE si ha unicità
in senso forte allora ogni soluzione è soluzione forte.
Osservazione 19.1.14. Recentemente è stata anche studiata un’ulteriore nozione di unicità per SDE, chia-
mata “unicità traiettoria per traiettoria”: si veda al riguardo [30], [44] e [111].

19.2 Ipotesi standard e stime preliminari


In questa sezione introduciamo ipotesi aggiuntive sui coefficienti che permettono di ottenere utili stime
per le soluzioni di SDE.
Definizione 19.2.1 (Ipotesi standard). I coefficienti b, σ verificano le ipotesi standard su ]t0 , T [ se esistono
due costanti positive c1 , c2 tali che

|b(t, x)| + |σ (t, x)| ≤ c1 (1 + |x|), (19.2.1)



b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ c2 |x − y|, (19.2.2)

per ogni t ∈ ]t0 , T [ e x, y ∈ RN .


Le (19.2.1) e (19.2.2) sono rispettivamente ipotesi di crescita lineare e Lischitzianità globale in x, uni-
formi in t ∈ ]t0 , T [. Notiamo che, sotto l’Ipotesi 19.1.1, la (19.2.2) implica la (19.2.1). In alcuni risultati
indeboliremo la (19.2.2) richiedendo la Lischitzianità locale in x.
Esempio 19.2.2. Consideriamo la SDE a coefficienti lineari

dXt = µXt dt + σ Xt dWt (19.2.3)

dove µ, σ sono parametri reali. In questo caso b(t, x) = µx e σ (t, x) = σ x, quindi le ipotesi standard sono
ovviamente soddisfatte. Come nell’Esempio 16.1.5-iii), un’applicazione diretta della formula di Itô mostra
che  
2
µ− σ2 t+σ Wt
Xt = X0 e
è soluzione di (19.2.3). Il processo X, noto come moto Browniano geometrico, è usato per rappresentare la
dinamica del prezzo di un titolo finanziario rischioso nel classico modello di Black-Scholes [22]. Il modello
si generalizza al caso di coefficienti dipendenti dal tempo, µ = µ(t), σ = σ (t) ∈ L∞ (R≥0 ): anche in questo caso
è facile determinare l’espressione esplicita della soluzione.
Nelle stime che proviamo in questa sezione appaiono diverse costanti di cui è importante tenere traccia.
Convenzione 19.2.3. Per indicare che una costante c dipende solo ed esclusivamente dai valori dei parametri
α1 , . . . , αn scriveremo c = c(α1 , . . . , αn ).
Lemma 19.2.4. [!] Siano X, Y processi adattati e continui q.c. e p ≥ 2. Allora:
416 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE

• se b, σ verificano la condizione (19.2.1) di crescita lineare, esiste una costante positiva c̄1 = c̄1 (T , d, N , p, c1 ),
tale che
Z p #
t
" Zt Z t1 " #!
p−2
p
E sup b(s, Xs )ds + σ (s, Xs )dWs ≤ c̄1 (t1 − t0 ) 2 1 + E sup |Xr | ds (19.2.4)
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s

per ogni t1 ∈ ]t0 , T [;


• se b, σ verificano la condizione (19.2.2) di Lischitzianità globale, esiste una costante positiva c̄2 =
c̄2 (T , d, N , p, c2 ) tale che
Z p #
t
" Zt Z t1 " #
p−2
p
E sup (b(s, Xs ) − b(s, Ys )) ds + (σ (s, Xs ) − σ (s, Ys )) dWs ≤ c̄2 (t1 −t0 ) 2 E sup |Xr − Yr | ds
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s
(19.2.5)
per ogni t1 ∈ ]t0 , T [.
Dimostrazione. Ricordiamo la disuguaglianza elementare

|x1 + · · · + xn |p ≤ np−1 (|x1 |p + · · · |xn |p ) , x1 , . . . , xn ∈ RN , n ∈ N. (19.2.6)

Per la disuguaglianza di Hölder si ha


Z p #
t
" "Z t #
1
p−1 p
E sup b(s, Xs )ds ≤ (t1 − t0 ) E |b(s, Xs )| ds ≤
t0 ≤t≤t1 t0 t0

(per la (19.2.1))
Z t1
p
≤ (t1 − t0 )p−1 c1 E [(1 + |Xs |)p ] ds ≤
t0

(per la (19.2.6))
Z t1
p
≤ 2p−1 (t1 − t0 )p−1 c1 (1 + E [|Xs |p ]) ds
t0
Z t1 " #!
p−1 p
≤2 (t1 − t0 )p−1 c1 1 + E sup |Xr | p
ds.
t0 t0 ≤r≤s

Analogamente, per la disuguaglianza di Burkholder-Davis-Gundy, nella versione del Corollario 17.4.10,


esiste una costante c = c(d, N , p) tale che
Z p #
t
" "Z t #
p−2 1
|σ (s, Xs )|p ds ≤

E sup σ (s, Xs )dWs ≤ c(t1 − t0 ) 2 E
t0 ≤t≤t1 t0 t0

(procedendo come nella stima precedente)

p−2
Z t1 " #!
p
≤ c(t1 − t0 ) 2 2p−1 c1 1 + E sup |Xr | p
ds.
t0 t0 ≤r≤s

Questo prova la (19.2.4).


Ancora per la disuguaglianza di Hölder si ha
Z p #
t
" "Z t #
1
E sup (b(s, Xs ) − b(s, Ys )) ds ≤ (t1 − t0 )p−1 E |b(s, Xs ) − b(s, Ys )|p ds ≤

t0 ≤t≤t1 t0 t0
19.3. STIME A PRIORI DI SOMMABILITÀ 417

(per la (19.2.2))
Z t1
p
≤ (t1 − t0 )p−1 c2 E [|Xs − Ys |p ] ds
t0
Z t1 " #
p
≤ (t1 − t0 )p−1 c2 E sup |Xr − Yr | ds. p
t0 t0 ≤r≤s

Analogamente, per il Corollario 17.4.10, si ha


Z p #
t
" "Z t #
p−2 1
p
E sup (σ (s, Xs ) − σ (s, Ys )) dWs ≤ cp (t1 − t0 ) E
2 |σ (s, Xs ) − σ (s, Ys )| ds ≤
t0 ≤t≤t1 t0 t0

(procedendo come nella stima precedente, per la (19.2.2))


p−2
Z t1 " #
p
≤ cp (t1 − t0 ) 2 c2 E sup |Xr − Yr |p ds.
t0 t0 ≤r≤s

Questo prova la (19.2.5).

19.3 Stime a priori di sommabilità


In questa sezione proviamo alcune stime di sommabilità polinomiale ed esponenziale per le soluzioni
di SDE i cui coefficienti soddisfano l’ipotesi di crescita lineare (19.2.1). Si parla di stime “a priori” perché tale
condizione non è sufficiente a garantire l’esistenza della soluzione: l’esistenza è quindi assunta implicitamente
come ipotesi. Le seguenti stime hanno una notevole importanza teorica (per esempio, per la prova del
Teorema 20.4.4 di Feynman-Kac) e applicativa (per esempio, per i risultati di dipendenza continua dai
parametri della Sezione 22.4 e lo studio della convergenza di schemi di approssimazione numerica per
SDE). D’altra parte, le dimostrazioni di questa sezione, un po’ tecniche e poco informative, possono essere
tralasciate ad una prima lettura.
Per alleggerire le notazioni, in questa sezione assumiamo t0 = 0 e per ogni processo stocastico X poniamo
X̄t = sup |Xs |.
0≤s≤t

Nel seguito useremo ripetutamente il seguente classico


Lemma 19.3.1 (Gronwall). Sia v ∈ L1 ([0, T ]) che verifica la stima integrale
Zt
v(t) ≤ a + b v(s)ds, t ∈ [0, T ],
0

per certi a, b ∈ R≥0 . Allora si ha


v(t) ≤ aebt , t ∈ [0, T ].
Nel lemma di Gronwall l’ipotesi di sommabilità di v è necessaria: un contro-esempio è dato da v(t) = 0
per t = 0 e v(t) = 1t per t > 0, con a = 0 e b = 1. Se alle ipotesi del lemma di Gronwall si aggiunge v ≥ 0 e
a = 0, allora si ha v ≡ 0.
Teorema 19.3.2 (Stime a priori in Lp ). Se X = (Xt )t∈[0,T ] è soluzione della SDE
dXt = b(t, Xt )dt + σ (t, Xt )dWt ,
con b, σ che soddisfano l’ipotesi (19.2.1) di crescita lineare, allora per ogni T > 0 e p ≥ 2 esiste una costante
positiva c = c(T , p, d, N , c1 ) tale che h pi
E X̄T ≤ c(1 + E [|X0 |p ]). (19.3.1)
418 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE

Dimostrazione. Non è restrittivo assumere E [|X0 |p ] < ∞ altrimenti la tesi è ovvia. L’idea generale della
dimostrazione è semplice: dalla stima (19.2.4) si ha

h pi Z t h pi 
v(t) := E X̄t ≤ 2p−1 E [|X0 |p ] + c̄1 1 + E X̄s ds , t ∈ [0, T ],
0

o equivalentemente
Z t !
p
v(t) ≤ c 1 + E [|X0 | ] + v(s)ds , t ∈ [0, T ],
0

e quindi la tesi seguirebbe direttamente dal lemma di Gronwall.


In realtà, per applicare il lemma di Gronwall occorre sapere a priori6 che v ∈ L1 ([0, T ]). Per que-
sto motivo è necessario procedere più attentamente utilizzando un argomento tecnico di localizzazione.
Poniamo

τn = inf{t ∈ [0, T ] | |Xt | ≥ n}, n ∈ N,

con la convenzione min ∅ = T . Essendo X continuo q.c., si ha che τn è una successione crescente di tempi
d’arresto tali che τn ↗ T q.c. Con bn , σn come in (22.1.3), abbiamo
Z t∧τn Z t∧τn
Xt∧τn = X0 + b(s, Xs )ds + σ (s, Xs )dWs
0 0
Zt Z t
= X0 + bn (s, Xs∧τn )ds + σn (s, Xs∧τn )dWs .
0 0

I coefficienti bn = bn (t, x) e σn = σn (t, x), pur essendo stocastici, verificano la condizione di crescita li-
neare (19.2.1) con la stessa costante c1 : la dimostrazione della stima (19.2.4) si può ripetere in modo
sostanzialmente identico al caso di b, σ deterministici, per ottenere

t1
  Z " #! !
 p p−1 p p
vn (t1 ) := E  sup |Xt∧τn |  ≤ 2 E [|X0 | ] + c̄1 1 + E sup |Xr∧τn | ds , t1 ∈ [0, T ],
 
0≤t≤t1 0 0≤r≤s
| {z }
=vn (s)

o equivalentemente
Z t1 !
p
vn (t1 ) ≤ c 1 + E [|X0 | ] + vn (s)ds , t1 ∈ [0, T ],
0

con c costante positiva che dipende solo da T , p, d, N , c1 e non da n. Osserviamo che vn è una funzione
misurabile e limitata poichè |Xt∧τn | ≤ |X0 |1(|X0 |≥n) + n1(|X0 |<n) e quindi vn (t) ≤ E [(|X0 | + n)p ] < +∞: allora per
il lemma di Gronwall abbiamo
" #
p
E sup Xt∧τn = vn (T ) ≤ cecT (1 + E [|X0 |p ]) ,
0≤t≤T

da cui, passando al limite per n che tende all’infinito, segue la (19.3.1) grazie al teorema di Beppo-Levi.

Se il coefficiente diffusivo σ è limitato, vale una stima di sommabilità più forte di quella del Teorema
19.3.2.
6 In base a quanto provato finora non sappiamo neppure se v è una funzione continua.
19.3. STIME A PRIORI DI SOMMABILITÀ 419

Teorema 19.3.3 (Stima a priori esponenziale). Sia X = (Xt )t∈[0,T ] soluzione della SDE

dXt = b(t, Xt )dt + σ (t, Xt )dWt ,

con b che verifica l’ipotesi di crescita lineare (19.2.1) e σ limitato da una costante κ, ossia |σ (t, x)| ≤ κ per
(t, x) ∈ [0, T ] × RN . Allora esistono due costanti positive α e c, dipendenti solo da T , κ, c1 e N , tali che
 
2 h 2i
E eα X̄T ≤ cE ec|X0 | , X̄T := sup |Xt |.
0≤t≤T

Dimostrazione. Poniamo Z
t
M̄T = sup σ (s, Xs )dWs .
0≤t≤T 0
Dato δ > 0, quasi certamente su (M̄T < δ) si ha
Z t
|Xt | < |X0 | + c1 (1 + X̄s )ds + δ, t ∈ [0, T ],
0

da cui, per il lemma di Gronwall,


X̄T < (|X0 | + c1 T + δ)ec1 T .
Di conseguenza    
X̄T ≥ (|X0 | + c1 T + δ)ec1 T ⊆ M̄T ≥ δ
e per la Proposizione 18.2.4 (e la stima (18.2.5)) esiste una costante positiva c, dipendente solo da N , κ e T ,
tale che   δ2
P X̄T ≥ (|X0 | + c1 T + δ)ec1 T | X0 ≤ ce− c . (19.3.2)

Poniamo λ = (|X0 | + c1 T + δ)ec1 T e osserviamo che

λ −c1 T
δ = λe−c1 T − |X0 | − c1 T ≥ e se λ ≥ ā|X0 | + b̄ (19.3.3)
2
con ā := 2ec1 T e b̄ := 2c1 T ec1 T . Allora, combinando (19.3.2) e (19.3.3), abbiamo
  2
P X̄T ≥ λ | X0 ≤ ce−c̄λ , λ ≥ ā|X0 | + b̄, (19.3.4)

con c, c̄ costanti positive dipendenti solo da T , κ, c1 e N . Ora applichiamo la Proposizione 4.1.6 con f (λ) =
2
eαλ , dove la costante α > 0 sarà determinata in seguito: vale
  Z∞
2 2  
E eα X̄T | X0 = 1 + 2α λeαλ P X̄T ≥ λ | X0 dλ ≤
0

(per la (19.3.4))
Z ā|X0 |+b̄ Z +∞
2 2 (α−c̄)
≤ 1 + 2α λeαλ dλ + 2αc λeλ dλ
0 ā|X0 |+b̄


da cui si ottiene la tesi ponendo α = 2 e applicando il valore atteso.
420 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE
Capitolo 20

Formule di Feynman-Kac

Una bella idea ha molte più


probabilità di essere giusta di una
brutta idea.

Roger Penrose

Le formule di Feynman-Kac forniscono una rappresentazione probabilistica delle soluzioni di PDE del
tipo
N N
1X X
At u(t, x) := cij (t, x)∂xi xj u(t, x) + bj (t, x)∂xj u(t, x) = 0, c := σ σ ∗ , (20.0.1)
2
i,j=1 j=1

dove At è l’operatore associato, tramite la formula di Itô, ad una SDE della forma

dXt = b(t, Xt )dt + σ (t, Xt )dWt . (20.0.2)

Per fissare le idee, supponiamo esista una soluzione classica del problema di Cauchy

(∂t + At )u(t, x) = 0, (t, x) ∈ [0, T [×RN ,


(20.0.3)
u(T , x) = ϕ(x), x ∈ RN .

Se inoltre esiste una soluzione X t,x = (Xst,x )s∈[t,T ] della SDE (20.0.2) con dato iniziale (t, x), allora per la
formula di Itô il processo
Zs
u(s, Xst,x ) = u(t, x) + ∇u(r, Xrt,x )σ (r, Xrt,x )dWr , s ∈ [t, T ],
t

è una martingala locale: inoltre, nel caso in cui (u(s, Xst,x ))s∈[t,T ] sia una vera martingala, in valore atteso
otteniamo
u(t, x) = E u(T , XTt,x ) = E ϕ(XTt,x ) .
h i h i
(20.0.4)
La formula (20.0.4) fornisce una rappresentazione della soluzione di (20.0.3) in termini del dato finale ϕ:
dal punto di vista applicativo, tale formula è facilmente implementabile con metodi di tipo Monte Carlo per
l’approssimazione numerica della soluzione; dal punto di vista teorico, la validità della (20.0.4) permette
di stabilire un risultato di unicità della soluzione del problema (20.0.3).
In questo capitolo esaminiamo diverse varianti e generalizzazioni della formula (20.0.4), valide per
operatori alla derivate parziali del second’ordine di tipo ellittico e parabolico.

421
422 CAPITOLO 20. FORMULE DI FEYNMAN-KAC

20.1 Operatore caratteristico di una SDE


Consideriamo una SDE della forma (20.0.2) con coefficienti b, σ ∈ L∞ N
loc (]t0 , T [×R ) che soddisfano l’ipo-
tesi (19.2.1) di crescita lineare. Supponiamo esista una soluzione X t,x = (Xst,x )s∈[t,T ] con dato iniziale (t, x).
Allora, data una funzione ϕ = ϕ(x) ∈ Cb2 (RN ) (ossia ϕ ha derivate fino al second’ordine continue e limitate),
per la formula di Itô vale
ϕ(Xst,x ) − ϕ(x)
" # " Zs Zs #
1 t,x 1 t,x t,x
E =E A ϕ(Xr )dr + ∇ϕ(Xr )σ (r, Xr )dWr =
s−t s−t t r s−t t

(poiché |∇ϕ(Xrt,x )σ (r, Xrt,x )| ≤ c(1 + |Xrt,x |) ∈ L2 per il Teorema 19.3.2 sulle stime a priori di sommabilità)
" Zs #
1 t,x
=E A ϕ(Xr )dr −−−−−−−−+→ At ϕ(x)
s−t t r s−t→0

dove l’ultimo passaggio al limite è giustificato dal teorema della convergenza dominata e dalle stime del
Teorema 19.3.2. In altri termini vale1
d h i
E ϕ(Xst,x ) = At ϕ(x). (20.1.1)
ds s=t
In analogia con la definizione (7.5.5) per i processi di Markov, diamo la seguente
Definizione 20.1.1 (Operatore caratteristico di una SDE). L’operatore At in (20.0.1) è detto operatore
caratteristico della SDE (20.0.2).
Osservazione 20.1.2. [!] Fissato m ∈ RN , consideriamo le funzioni
ϕi (x) = xi , ϕij (x) = (xi − mi )(xj − mj ), x ∈ RN , i, j = 1, . . . , N ,
e osserviamo che
At ϕi (x) = bi (t, x), At ϕij (x) = cij (t, x) + bi (t, x)(xj − mj ) + bj (t, x)(xi − mi ).
L’ipotesi di crescita lineare dei coefficienti b, σ e le stime Lp del Teorema 19.3.2 giustificano i passaggi
al limite e la proprietà di martingala degli integrali stocastici per poter ripetere i passaggi precedenti e
provare la validità della formula (20.1.1) con ϕ = ϕi e ϕ = ϕij : otteniamo

d h t,x i
E Xs = b(t, x), (20.1.2)
ds s=t
d h t,x i
E (Xs − m)i (Xst,x − m)j = cij (t, x) + bi (t, x)(xj − mj ) + bj (t, x)(xi − mi )
ds s=t
e in particolare, per m = x,
d h t,x i
E (Xs − x)i (Xst,x − x)j = cij (t, x). (20.1.3)
ds s=t
In base alle formule (20.1.2) e (20.1.3), i coefficienti bi (t, x) e cij (t, x) sono usualmente chiamati incrementi
infinitesimi del drift e della covarianza di X t,x , in accordo con quanto già visto nell’Osservazione 7.5.8.
Osservazione 20.1.3. [!] Grazie alla formula di Itô, abbiamo anche il seguente risultato analogo al Teorema
7.5.13: il processo Z s
f (s, Xst,x ) − (∂r + Ar )f (r, Xrt,x )dr, s ≥ t,
t
è una martingala locale per ogni f ∈ C 1,2 (RN +1 ).
Tutte queste analogie fra processi di Markov e soluzioni di SDE non sono casuali: proveremo in seguito
(cfr. Teorema 22.3.1) che, sotto opportune ipotesi sui coefficienti, la soluzione di una SDE è una diffusione.
1 Precisamente, la derivata in (20.1.1) è una derivata destra.
20.2. TEMPO DI USCITA DA UN DOMINIO LIMITATO 423

20.2 Tempo di uscita da un dominio limitato


In questa sezione forniamo alcune semplici condizioni che assicurano che il primo tempo di uscita
della soluzione della SDE (20.0.2) da un dominio2 limitato D di RN , sia sommabile e quindi finito q.s.
Assumiamo la seguente
Ipotesi 20.2.1.
i) I coefficienti della SDE (20.0.2) sono misurabili e localmente limitati, b, σ ∈ L∞ N
loc ([0, +∞[×R );

ii) per ogni t ≥ 0 e x ∈ D esiste una soluzione X t,x di (20.0.2) con dato iniziale Xtt,x = x, relativa ad un
moto Browniano d-dimensionale W definito su uno spazio (Ω, F , P , (Ft )t≥0 ).
Indichiamo con τt,x il primo tempo di uscita di X t,x da D,

τt,x = inf{s ≥ t | Xst,x < D},

e per semplicità scriviamo X 0,x = X x e τ0,x = τx .


Proposizione 20.2.2. Se esiste una funzione f ∈ C 2 (RN ), non-negativa su D e tale che

At f (x) ≤ −1, t ≥ 0, x ∈ D, (20.2.1)

allora E [τx ] è finito per ogni x ∈ D. In particolare, tale funzione esiste se per certi λ > 0 e i ∈ {1, . . . , N } vale3

cii (t, ·) ≥ λ, t ≥ 0, x ∈ D. (20.2.2)

Dimostrazione. Fissato t, per la formula di Itô vale


Z t∧τx Z t∧τx
x x
f (Xt∧τ x
) = f (x) + A s f (X s )ds + ∇f (Xsx )σ (s, Xsx )dWs .
0 0

Poiché ∇f e σ (s, ·) sono limitati su D per s ≤ t, l’integrale stocastico ha attesa nulla e per la (20.2.1) vale
h i
x
E f (Xt∧τ x
) ≤ f (x) − E [t ∧ τx ] ,

da cui, essendo f ≥ 0,
E [t ∧ τx ] ≤ f (x).
Infine, passando al limite per t → ∞, per il Teorema di Beppo-Levi otteniamo

E [τx ] ≤ f (x).

Supponiamo ora che valga la (20.2.2) e consideriamo solo il caso i = 1: allora basta porre

f (x) = α(eβR − eβx1 )

dove α, β sono costanti positive opportune e R è abbastanza grande in modo che D sia incluso nella palla
Euclidea di raggio R, centrata nell’origine. Infatti f è non-negativa su D e vale
1
 
At f (x) = −αeβx1 c11 (t, x)β 2 + b1 (t, x)β
2
!
−βR λβ
≤ −αβe − ∥b∥L∞ (D)
2
da cui la tesi scegliendo α, β opportunamente grandi.
2 Insieme aperto e connesso.
3 La (20.2.2) è un’ipotesi di non-degenerazione della matrice (c ) dei coefficienti del second’ordine dell’operatore caratteristico A
ij t
in (20.0.1): essa è ovviamente verificata nel caso in cui (cij ) sia uniformemente definita positiva.
424 CAPITOLO 20. FORMULE DI FEYNMAN-KAC

Osservazione 20.2.3. È facile determinare una condizione sui termini del prim’ordine, simile a quella della
Proposizione 20.2.2: se esistono λ > 0 e i ∈ {1, . . . , N } tali che bi (t, ·) ≥ λ oppure b1 (t, x) ≤ −λ su D per ogni
t ≥ 0 allora E [τx ] è finito. Infatti supponiamo per esempio che b1 (t, x) ≥ λ: allora applicando la formula di
Itô alla funzione f (x) = x1 abbiamo

  Z t∧τx d Z
X t∧τx
x
Xt∧τ x
= x 1 + b1 (s, Xsx )ds + σ1i (s, Xsx )dWsi ,
1
0 i=1 0

e in valore atteso h  i
x
E Xt∧τx
≥ x1 + λE [t ∧ τx ] ,
1
da cui la tesi, passando al limite per t → ∞.

20.3 Il caso autonomo: il problema di Dirichlet


In questa sezione consideriamo il caso in cui i coefficienti b = b(x) e σ = σ (x) della SDE (20.0.2) sono
indipendenti dal tempo e indichiamo quindi At in (20.0.1) semplicemente con A . Per molti aspetti questa
condizione non è restrittiva poiché anche i problemi con dipendenza dal tempo possono essere trattati in
questo ambito inserendo il tempo fra le variabili di stato come nel seguente Esempio 20.3.7. In aggiunta
all’Ipotesi 20.2.1, assumiamo che E [τx ] sia finito per ogni x ∈ D, dove D è un dominio limitato.
Il risultato seguente fornisce una formula di rappresentazione (e, di conseguenza, un risultato di unicità)
per le soluzioni classiche del problema di Dirichlet relativo all’operatore ellittico-parabolico A :

A u − au = f , in D,


(20.3.1)
u|∂D = ϕ,

dove f , a, ϕ sono funzioni assegnate. Come già detto, la seguente formula (20.3.2) è alla base dei metodi di
tipo Monte Carlo per l’approssimazione numerica della soluzione del problema di Dirichlet (20.3.1).
Teorema 20.3.1 (Formula di Feynman-Kac). [!] Siano f ∈ L∞ (D), ϕ ∈ C(∂D) e a ∈ C(D) tale che a ≥ 0. Se
u ∈ C 2 (D) ∩ C(D̄) è soluzione del problema di Dirichlet (20.3.1) allora per ogni x ∈ D vale
" R
τx
Z τx R t #
x x
u(x) = E e− 0 a(Xt )dt ϕ(Xτxx ) − e− 0 a(Xs )ds f (Xtx )dt . (20.3.2)
0

Dimostrazione. Per ε > 0 sufficientemente piccolo, sia Dε un dominio tale che

x ∈ Dε , D̄ε ⊆ D, dist (∂Dε , ∂D) ≤ ε.

Indichiamo con τε il tempo di uscita di X x da Dε e osserviamo che, essendo X x continuo,

lim τε = τx .
ε→0

Poniamo Rt
a(Xsx )ds
Zt = e − 0 ,
e notiamo che, per ipotesi, Zt ∈ ]0, 1]. Inoltre, se uε ∈ C02 (RN ) è tale che uε = u su Dε , per la formula di Itô si
ha
d(Zt uε (Xtx )) = Zt ((A uε − auε ) (Xtx )dt + ∇uε (Xtx )σ (Xtx )dWt )
da cui Z τε Z τε
Zτε u(Xτxε ) = u(x) + Zt f (Xtx )dt + Zt ∇u(Xtx )σ (Xtx )dWt .
0 0
20.3. IL CASO AUTONOMO: IL PROBLEMA DI DIRICHLET 425

Essendo ∇u e σ limitati su D, in valore atteso otteniamo


" Z τε #
u(x) = E Zτε u(Xτxε ) − Zt f (Xtx )dt .
0

La tesi segue per passaggio al limite in ε → 0, per il teorema della convergenza dominata: infatti, ricordan-
do che Zt ∈ ]0, 1], si ha
Z τε
x
Zτε u(Xτε ) ≤ ∥u∥L∞ (D) , x

Zt f (Xt )dt ≤ τx ∥f ∥L∞ (D) ,
0

e, per ipotesi, τx è sommabile.

x
X (w1)

D
x
X ( w 2)

Figura 20.1: Problema di Dirichlet e traiettorie della soluzione della SDE associata

Osservazione 20.3.2. L’ipotesi a ≥ 0 nel Teorema 20.3.1 è essenziale: la funzione

u(x, y) = sin x sin y

è soluzione del problema di Dirichlet



1
 2 ∆u + u = 0, in D = ]0, 2π[ × ]0, 2π[ ,


u|∂D = 0,

ma non soddisfa la (20.3.2).

Osservazione 20.3.3 (Principio del massimo). Nelle ipotesi del Teorema 20.3.1 e assumendo f ≥ 0, dalla
formula (20.3.2) si deduce
 R τx x 
u(x) ≤ E e− 0 a(Xt )dt ϕ(Xτxx ) ≤ max ϕ + .
∂D

Inoltre, nel caso in cui f = a = 0 allora vale il seguente “principio del massimo”:

min u ≤ u(x) ≤ max u.


∂D ∂D

Risultati di esistenza per il problema (20.3.1) sono ben noti nel caso uniformemente ellittico: ricordiamo
il seguente classico teorema (si veda, per esempio, il Teorema 6.13 in [48]).

Teorema 20.3.4. Sotto le seguenti ipotesi


426 CAPITOLO 20. FORMULE DI FEYNMAN-KAC

i) A in (20.0.1) è un operatore uniformemente ellittico, ossia esiste una costante λ > 0 tale che
N
X
cij (x)ξi ξj ≥ λ|ξ|2 , x ∈ D, ξ ∈ RN ;
i,j=1

ii) i coefficienti sono funzioni Hölderiane, cij , bj , a, f ∈ C α (D). Inoltre le funzioni cij , bj , f sono limitate e
a ≥ 0;
iii) per ogni y ∈ ∂D esiste4 una palla Euclidea B contenuta nel complementare di D e tale che y ∈ B̄;
iv) ϕ ∈ C(∂D);
esiste una soluzione classica u ∈ C 2+α (D) ∩ C(D̄) del problema (20.3.1).
Consideriamo ora alcuni esempi significativi.
Esempio 20.3.5 (Attesa del tempo di uscita). Se il problema

A u = −1, in D,


u|∂D = 0,

ha soluzione, allora per la (20.3.2) vale u(x) = E [τx ].


Esempio 20.3.6 (Nucleo di Poisson). Nel caso a = f = 0, la (20.3.2) equivale ad una formula di media di
superficie: più precisamente, indichiamo con µx la distribuzione della variabile aleatoria Xτxx : allora µx è
una misura di probabilità su ∂D e per la (20.3.2) si ha
h i Z
x
u(x) = E u(Xτx ) = u(y)µx (dy).
∂D

La legge µx è usualmente chiamata misura armonica relativa ad A su ∂D. Se X x è un moto Browniano di


punto iniziale x ∈ RN , allora A = 21 ∆ e nel caso in cui D = B(0, R) sia la palla Euclidea di raggio R, µx ha una
densità (rispetto alla misura di superficie) la cui espressione esplicita è nota: essa corrisponde al cosiddetto
nucleo di Poisson
1 R − |x|2
,
RωN |x − y|N
dove ωN indica la misura della superficie sferica unitaria in RN .
Esempio 20.3.7 (Equazione del calore). Il processo Xt = (Wt , −t), dove W è un moto Browniano reale, è
soluzione della SDE 
1
dXt = dWt ,


dXt2 = −dt,

e il corrispondente operatore caratteristico


1
A = ∂ − ∂x 2
2 x1 x1
è l’operatore del calore in R2 . Consideriamo la formula (20.3.2) su un dominio rettangolare

D = ]a1 , b1 [ × ]a2 , b2 [ .

Esaminando l’espressione esplicita delle traiettorie di X (si veda anche la Figura 20.2), è chiaro che il
4 Questa è una condizione di regolarità della frontiera di D, verificata se per esempio ∂D è una varietà di classe C 2 .
20.3. IL CASO AUTONOMO: IL PROBLEMA DI DIRICHLET 427

D
x

X(w1)

X(w2)
Figura 20.2: Problema di Cauchy-Dirichlet e traiettorie della SDE associata

valore u(x̄1 , x̄2 ) di una soluzione dell’equazione del calore dipende solo dai valori di u sulla parte di bordo
D contenuta in {x2 < x̄2 }. In generale il valore di u in D dipende solo dai valori di u sul bordo parabolico di
D, definito da
∂p D = ∂D \ ( ]a1 , b1 [ ×{b2 }).

Questo fatto è coerente con i risultati sul problema di Cauchy-Dirichlet della Sezione 26.2.1.

Esempio 20.3.8 (Metodo delle caratteristiche). Se σ = 0 l’operatore caratteristico è un operatore differen-


ziale del prim’ordine
N
X
A = bi (x)∂xi .
i=1

La corrispondente SDE è in realtà deterministica e si riduce a


Z t
Xtx = x + b(Xsx )ds,
0

ossia X è una curva integrale del campo vettoriale b:

d
X = b(Xt ).
dt t

Se il tempo di uscita di X da D è finito5 allora abbiamo la rappresentazione


R τx Z τx Rt
− a(Xtx )dt a(Xsx )ds
u(x) = e 0 ϕ(Xτxx ) − e− 0 f (Xtx )dt, (20.3.3)
0

per la soluzione del problema



⟨b, ∇u⟩ − au = f , in D,


u|∂D = ϕ.

La (20.3.3) è un caso particolare del classico metodo delle caratteristiche per la risoluzione di PDE del
prim’ordine: per una descrizione di tale metodo rimandiamo, per esempio, al Capitolo 3.2 in [38].
5 Al riguardo si veda l’Osservazione 20.2.3.
428 CAPITOLO 20. FORMULE DI FEYNMAN-KAC

20.4 Il caso evolutivo: il problema di Cauchy


Il Teorema 20.3.1 ammette una versione “parabolica” con dimostrazione completamente analoga. Pre-
cisamente, dato il dominio limitato D, consideriamo il cilindro

DT = ]0, T [×D

e indichiamo con
∂p DT := ∂D \ ({0} × D)
il cosiddetto bordo parabolico di DT . Il seguente teorema fornisce una formula di rappresentazione per le
soluzioni classiche del problema di Cauchy-Dirichlet

At u − au + ∂t u = f , in DT ,


(20.4.1)
u|∂p DT = ϕ,

dove f , a, ϕ sono funzioni assegnate.

Teorema 20.4.1 (Formula di Feynman-Kac). [!] Siano f ∈ L∞ (DT ), ϕ ∈ C(∂p DT ) e a ∈ C(DT ) tale che
a0 := inf a sia finito. Sotto l’Ipotesi 20.2.1, se u ∈ C 2 (DT ) ∩ C(DT ∪ ∂p DT ) è una soluzione del problema
(20.4.1) allora, fissato (t, x) ∈ DT , vale
" R
T ∧τt,x
Z T ∧τt,x Rs #
a(s,Xst,x )ds a(r,Xrt,x )dr
u(t, x) =E e− t ϕ(T ∧ τt,x , XTt,x∧τt,x ) − e− t f (s, Xst,x )ds . (20.4.2)
t

Osservazione 20.4.2 (Principio del massimo). Nelle ipotesi del Teorema 20.4.1 e assumendo f = a = 0,
dalla formula (20.4.2) si deduce il seguente “principio del massimo”

min u ≤ u(x) ≤ max u


∂p DT ∂p DT

che ritroveremo, per via analitica, nella Sezione 26.2.1.

Proviamo ora una formula di rappresentazione per la soluzione classica del problema di Cauchy back-
ward 
At u − au + ∂t u = f , in [0, T [ ×RN ,


(20.4.3)
u(T , ·) = ϕ, in RN ,

dove At è l’operatore in (20.0.1) e f , a, ϕ sono funzioni assegnate. Il Capitolo 26 è dedicato ad una presen-
tazione sintetica dei principali risultati di esistenza e unicità per il problema (20.4.3) nel caso di operatori
uniformemente parabolici a coefficienti Hölderiani e limitati.
Poiché il problema (20.4.3) è posto su un dominio non limitato, è necessario introdurre opportune
ipotesi sul comportamento all’infinito dei coefficienti.

Ipotesi 20.4.3.

i) i coefficienti b = b(t, x) e σ = σ (t, x) sono funzioni misurabili, con crescita al più lineare in x uniforme-
mente in t ∈ [0, T [;

ii) a ∈ C([0, T [ ×RN ) con inf a =: a0 > −∞.

Teorema 20.4.4 (Formula di Feynman-Kac). [!] Supponiamo che esista una soluzione u ∈ C 2 ([0, T [ ×RN )∩
C([0, T ] × RN ) del problema di Cauchy (20.4.3). Assumiamo l’Ipotesi 20.4.3 e almeno una delle seguenti
condizioni:
20.4. IL CASO EVOLUTIVO: IL PROBLEMA DI CAUCHY 429

1) esistono due costanti positive M, p tali che

|u(t, x)| + |f (t, x)| ≤ M(1 + |x|p ), (t, x) ∈ [0, T [ ×RN ; (20.4.4)

2) la matrice σ è limitata ed esistono due costanti positive M e α, con α sufficientemente piccolo, tali
che
2
|u(t, x)| + |f (t, x)| ≤ Meα|x| , (t, x) ∈ [0, T [ ×RN . (20.4.5)

Se la SDE (20.0.2) ha soluzione X t,x con dato iniziale (t, x) ∈ [0, T [ ×RN allora vale la formula di rappresen-
tazione " RT Z T # Rs
a(s,Xst,x )ds a(r,Xrt,x )dr
u(t, x) = E e− t ϕ(XTt,x ) − e− t f (s, Xst,x )ds . (20.4.6)
t

Dimostrazione. Fissiamo (t, x) ∈ [0, T [ ×RN e poniamo per semplicità X = X t,x . Se τR indica il tempo di uscita
di X dalla palla Euclidea di raggio R, per il Teorema 20.4.1 vale
" R T ∧τ
R
Z T ∧τR Rs #
− a(s,Xs )ds − a(r,Xr )dr
u(t, x) = E e t u(T ∧ τR , XT ∧τR ) − e t f (s, Xs )ds . (20.4.7)
t

Poiché
lim T ∧ τR = T ,
R→∞

la tesi segue passando al limite in R in (20.4.7) grazie al teorema della convergenza dominata. Infatti si ha
convergenza puntuale degli integrandi e inoltre, nell’ipotesi 1), vale
R T ∧τ
R a(s,X )ds  p
e− t

s u(T ∧ τR , XT ∧τR ) ≤ Me|a0 |T 1 + X̄T ,
Z
T ∧τR − R s a(r,Xr )dr  p
f (s, Xs )ds ≤ T e|a0 |T M 1 + X̄T ,

e t
t

dove
X̄T = sup |Xt |
0≤t≤T

è sommabile grazie alle stime a priori del Teorema 19.3.2. Nell’ipotesi 2) si procede in maniera analoga
utilizzando la stima di sommabilità esponenziale del Teorema 19.3.3.
Osservazione 20.4.5. Dalla formula di rappresentazione (20.4.6) segue in particolare l’unicità della solu-
zione del problema di Cauchy. Come vedremo nella Sezione 26.2, le condizioni (20.4.4)-(20.4.5) di crescita
all’infinito sono necessarie al fine di selezionare una fra le soluzioni che sono, in generale, infinite.
430 CAPITOLO 20. FORMULE DI FEYNMAN-KAC
Capitolo 21

Equazioni stocastiche lineari

Finché siamo inquieti si può stare


tranquilli.

Julien Green

In questo capitolo consideriamo equazioni stocastiche della forma

dXt = (BXt + b)dt + σ dWt (21.0.1)

dove B ∈ RN ×N , b ∈ RN , σ ∈ RN ×d e W è un moto Browniano d-dimensionale. La (21.0.1) è un caso


particolare della (19.1.1) con i coefficienti b(t, x) = Bx+b e σ (t, x) = σ che sono funzioni lineari della variabile
x (in realtà il coefficiente di diffusione è addirittura costante) e pertanto diciamo che (21.0.1) è una SDE
lineare. In questo capitolo esibiamo l’espressione esplicita della soluzione e studiamo le proprietà della sua
legge di transizione, con particolare attenzione al caso assolutamente continuo, fornendo condizioni per
l’esistenza della densità di transizione.

21.1 Soluzione e legge di transizione di una SDE lineare


Il teorema seguente fornisce l’espressione esplicita della soluzione di una SDE lineare.

Teorema 21.1.1. La soluzione X x = (Xtx )t≥0 di (21.0.1) con dato iniziale X0x = x ∈ RN è data da
Z t Z t !
Xtx =e tB
x+ e −sB
bds + e −sB
σ dWs . (21.1.1)
0 0

Di conseguenza, X x è un processo Gaussiano e in particolare vale Xtx ∼ Nmt (x),Ct dove


Z t ! Z t
tB
mt (x) = e x+ e −sB
bds , Ct = esB σ (esB σ )∗ ds.
0 0

Dimostrazione. Per provare che X x in (21.1.1) risolve la SDE (21.0.1) è sufficiente applicare la formula di
Itô usando l’espressione Xtx = etB Ytx dove

dYtx = e−tB bdt + e−tB σ dWt , Y0x = x.

431
432 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI

Ricordiamo ora che, poiché Y x è un processo di Itô a coefficienti deterministici, per la versione multidi-
mensionale dell’Esempio 16.1.9 si ha
Z t Z t

Ytx ∼ Nµt (x),Ct , µt (x) = x + e −sB
bds, Ct = e−sB σ σ ∗ e−sB ds. (21.1.2)
0 0

La tesi segue facilmente dal fatto che X x è una trasformazione lineare di Y x .

Osservazione 21.1.2. [!] Il processo X t,x := (XTx −t )T ≥t risolve la SDE (21.0.1) con dato iniziale (t, x). Se la
matrice di covarianza CT −t è definita positiva allora la variabile aleatoria XTt,x è assolutamente continua con
densità Gaussiana Γ (t, x; T , ·) data da

1 1
 
Γ (t, x; T , y) = p exp − ⟨CT−1−t (y − mT −t (x)), (y − mT −t (x))⟩ .
(2π)N det CT −t 2

Per l’Osservazione1 7.5.10, Γ è una densità di transizione di X in (21.0.1) ed è soluzione fondamentale


dell’operatore di Kolmogorov At + ∂t dove

N
1X
At = cij ∂xi xj + ⟨Bx + b, ∇⟩, c := σ σ ∗ , (21.1.3)
2
i,j=1

è l’operatore caratteristico di X.

Esempio 21.1.3 (Equazione di Langevin). [!] Consideriamo la SDE in R2



dVt = dWt ,


dXt = Vt dt,

che è la versione semplificata dell’equazione di Langevin [72] utilizzata in fisica per descrivere il moto
aleatorio di una particella nello spazio delle fasi: Vt e Xt rappresentano rispettivamente la velocità e la
posizione della particella al tempo t. Paul Langevin fu il primo, nel 1908, ad applicare le leggi di Newton
al moto casuale Browniano studiato da Einstein pochi anni prima. Lemons [74] fornisce un interessante
resoconto degli approcci di Einstein e Langevin.
Riferendoci alla notazione generale (21.0.1) abbiamo d = 1, N = 2 e
! !
0 0 1
B= , σ= . (21.1.4)
1 0 0

Poiché B2 = 0, la matrice B è nilpotente e


!
tB 1 0
e = I + tB = .
t 1

Inoltre, posto z = (v, x), si ha


mt (z) = etB z = (v, x + tv),
e
t2 
 
Z t Z t ! ! !
sB ∗ sB∗ 1 0 1 0 1 s  t
Ct = e σσ e ds = ds =  t 2 2  .
t3 
(21.1.5)
0 0 s 1 0 0 0 1
2 3
1 Si veda anche il successivo Teorema 22.3.1.
21.1. SOLUZIONE E LEGGE DI TRANSIZIONE DI UNA SDE LINEARE 433

Si noti che Ct è definita positiva per ogni t > 0 e quindi (V , X) ha densità di transizione

3 1 −1
 
(T −t)B (T −t)B
Γ (t, z; T , ζ) = exp − ⟨C (ζ − e z), (ζ − e z)⟩ (21.1.6)
π(T − t)2 2 T −t

per t < T e z = (v, x), ζ = (η, ξ) ∈ R2 , dove


4
− t62
!
Ct−1 = t .
− t62 12
t3

Inoltre, (t, v, x) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov backward

1
∂ + v∂x + ∂t (21.1.7)
2 vv
e (T , η, ξ) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov forward

1
∂ − η∂ξ − ∂T . (21.1.8)
2 ηη
Gli operatori in (21.1.7) e (21.1.8) non sono uniformemente parabolici poiché la matrice della parte del
second’ordine !
∗ 1 0
σσ =
0 0
è degenere; tuttavia essi, come il classico operatore del calore, hanno una soluzione fondamentale Gaus-
siana. Kolmogorov [61] fu il primo ad esibire l’espressione esplicita (21.1.6) della soluzione fondamentale
di (21.1.7) (si veda anche l’introduzione del lavoro di Hörmander [53]). In finanza matematica l’operatore
backward (21.1.7) interviene nella valutazione di alcuni strumenti derivati complessi, come le cosiddette
opzioni Asiatiche (si veda, per esempio, [8]).
Esempio 21.1.4. [!] Nell’Esempio 21.1.3 abbiamo provato che, posto
Zt
Xt := Ws ds,
0

la coppia (W , X) ha distribuzione normale bidimensionale con matrice di covarianza data in (21.1.5). Ne


segue in particolare che Xt ∼ N0, t3 , a conferma di ciò che avevamo già osservato nell’Esempio 16.1.10.
3
Proviamo che X non è un processo di Markov. Nel Teorema 22.3.1 vedremo che la coppia (W , X), essendo
soluzione di una SDE (di Langevin), è un processo di Markov: il Teorema 22.3.1 non si applica a X che è un
processo di Itô ma non è soluzione di una SDE della forma (22.1.2). In effetti, vale
"Z T #
E [XT | Ft ] = Xt + E Ws ds | Ft = Xt + (T − t)Wt (21.1.9)
t

poiché, per la formula di Itô


d(tWt ) = Wt dt + tdWt
ossia Z T Z T
T WT = tWt + Ws ds + sdWs
t t
da cui "Z T # "Z T #
E [T WT | Ft ] = tWt + E Ws ds | Ft + E sdWs | Ft
t t
434 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI

e quindi
"Z T #
E Ws ds | Ft = (T − t)Wt .
t
Per la (21.1.9), E [XT | Ft ] è funzione non solo da Xt ma anche da Wt : incidentalmente, questa è un’ulteriore
conferma della proprietà di Markov della coppia (W , X). Se X fosse un processo di Markov allora dovrebbe
valere2
E [XT | Xt ] = E [XT | Ft ] , t ≤T, (21.1.10)
che combinata con la (21.1.9) implicherebbe Wt = f (Xt ) q.c. per una certa f ∈ mB. Tuttavia ciò è assurdo:
infatti se Wt = f (Xt ) q.c. allora µWt |Xt = δf (Xt ) e ciò contrasta con il fatto che (Wt , Xt ) ha densità Gaussiana
bidimensionale.
Osservazione 21.1.5. I risultati di questa sezione si estendono al caso di SDE lineari del tipo

dXt = (b(t) + B(t)Xt )dt + σ (t)dWt

in cui le matrici B, b e σ sono funzioni misurabili e limitate del tempo. In tal caso, nell’espressione della
soluzione fornita dal Teorema 21.1.1, al posto della matrice esponenziale etB appare la soluzione Φ(t) del
problema di Cauchy 
Φ ′ (t) = B(t)Φ(t),


Φ(0) = IN ,

dove IN indica la matrice identità N × N .

21.2 Assoluta continuità e controllabilità di un sistema lineare


Abbiamo visto che la soluzione X della SDE lineare (21.0.1) ha legge di transizione multi-normale. Chia-
ramente è di particolare interesse il caso in cui X ammetta la densità di transizione e quindi le relative equa-
zioni di Kolmogorov abbiano soluzione fondamentale. In questa sezione vediamo che la non-degenerazione
della matrice di covarianza di Xt ,
Zt
Ct = Gs Gs∗ ds, Gt := etB σ , (21.2.1)
0

può essere caratterizzata in termini di controllabilità di un sistema nell’ambito della teoria del controllo
ottimo (si veda, per esempio, [73] e [129]). Cominciamo con l’introdurre la seguente
Definizione 21.2.1. La coppia (B, σ ) è controllabile su [0, T ] se per ogni x, y ∈ RN esiste una funzione
v ∈ C([0, T ]; Rd ) tale che la soluzione γ ∈ C 1 ([0, T ]; RN ) del problema

γ ′ (t) = Bγ(t) + σ v(t), 0 < t < T ,


(21.2.2)
γ(0) = x,

verifichi la condizione finale γ(T ) = y. Diciamo che v è un controllo per (B, σ ) su [0, T ].
Teorema 21.2.2. [!] La matrice CT in (21.2.1) è definita positiva se e solo se (B, σ ) è controllabile su [0, T ].

Dimostrazione. Osserviamo preliminarmente che Ct = etB Ct etB , dove
Zt

Ct = G−s G−s ds
0
2 La (21.1.10) va interpretata secondo la Convenzione 5.2.5.
21.2. ASSOLUTA CONTINUITÀ E CONTROLLABILITÀ DI UN SISTEMA LINEARE 435

è la matrice di covarianza in (21.1.2). Chiaramente CT > 0 se e solo se CT > 0.


Supponiamo CT > 0 e proviamo che (B, σ ) è controllabile su [0, T ]. Consideriamo la soluzione
Zt !
tB
γ(t) = e x + G−s v(s)ds , t ∈ [0, T ],
0

del problema di Cauchy (21.2.2). Dato y ∈ RN , si ha γ(T ) = y se e solo se


ZT
G−s v(s)ds = z := e−T B y − x. (21.2.3)
0

Allora è facile verificare che un controllo è dato esplicitamente da



v(s) = G−s CT−1 z, s ∈ [0, T ]. (21.2.4)
Viceversa, supponiamo che (B, σ ) sia controllabile su [0, T ] e supponiamo, per assurdo, che CT sia degenere,
ossia esista w ∈ RN \ {0} tale che
⟨CT w, w⟩ = 0.
Equivalentemente, vale
Z T
|w∗ G−s |2 ds = 0
0
da cui w∗ G−s = 0 per ogni s ∈ [0, T ] e quindi anche
ZT
w∗ G−s v(s)ds = 0.
0

Ciò contraddice la (21.2.3), quindi l’ipotesi di controllabilità, e conclude la prova.


Osservazione 21.2.3. Il controllo v in (21.2.4) è ottimale nel senso che minimizza il “funzionale costo”
ZT
U (v) := ∥v∥2L2 ([0,T ]) = |v(t)|2 dt.
0

Questo è conseguenza del Teorema di Lagrange-Ljusternik (cfr., per esempio, [119]) che è l’estensione in
ambito funzionale del classico teorema dei moltiplicatori di Lagrange. Più precisamente, per minimizzare
il funzionale U sotto il vincolo (21.2.3), consideriamo il funzionale di Lagrange
ZT !
2 ∗
L (v, λ) = ∥v∥L2 ([0,T ]) − λ G−t v(t)dt − z ,
0

dove λ ∈ RN è il moltiplicatore di Lagrange. Differenziando L nel senso di Fréchet, imponiamo che v sia
un punto critico per L e otteniamo
ZT ZT
∂v L (u) = 2 v(t)∗ u(t)dt − λ∗ G−t u(t)dt = 0, u ∈ L2 ([0, T ]).
0 0
1 ∗
Allora troviamo v(s) = 2 G−s λ con λ determinato dal vincolo (21.2.3), λ = 2CT−1 z, in accordo con la (21.2.4).
Esempio 21.2.4. Riprendiamo l’Esempio 21.1.3 con le matrici B, σ come in (21.1.4). In questo caso il
controllo v = v(t) è a valori reali e il problema (21.2.2) diventa



 γ1′ (t) = v(t),

 ′

 γ2 (t) = γ1 (t), (21.2.5)

γ(0) = (x1 , x2 ).

436 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI

1.0

0.8

0.6

0.4

0.2

0.2 0.4 0.6 0.8 1.0 1.2 1.4

Figura 21.1: Grafico della triettoria ottimale γ(t) = (6(t − t 2 ), 3t 3 − 2t 3 ), soluzione del problema (21.2.5) con
condizione iniziale γ(0) = (0, 0) e finale γ(1) = (0, 1)

Il controllo agisce direttamente solo sulla prima componente di γ ma influisce anche sulla seconda com-
ponente γ2 mediante la seconda equazione: per il Teorema 21.2.2, (B, σ ) è controllabile su [0, T ] per ogni
T > 0 con un controllo dato esplicitamente dalla formula (21.2.4) (si veda la Figura 21.1).

21.3 Condizione di Kalman


Diamo un ulteriore criterio operativo per verificare che la non-degenerazione della matrice di covarian-
za C .

Teorema 21.3.1 (Condizione di Kalman). La matrice CT in (21.2.1) è definita positiva per T > 0 se e solo
se la coppia (B, σ ) verifica la seguente condizione di Kalman: la matrice di dimensione N × (N d), definita a
blocchi da  
σ Bσ B2 σ · · · BN −1 σ , (21.3.1)
ha rango massimo, pari a N .

Dimostrazione. Indichiamo con

p(λ) := det(B − λIN ) = λN + a1 λN −1 + · · · + aN −1 λ + aN

il polinomio caratteristico di una matrice B: per il Teorema di Cayley-Hamilton, vale p(B) = 0. Ne viene che
ogni potenza Bk , con k ≥ N , è combinazione lineare di IN , B, . . . , BN −1 .
Ora la matrice (21.3.1) non ha rango massimo se e solo se esiste w ∈ RN \ {0} tale che

w∗ σ = w∗ Bσ = · · · = w∗ BN −1 σ = 0. (21.3.2)

Quindi se la matrice (21.3.1) non ha rango massimo, per la (21.3.2) e il Teorema di Cayley-Hamilton, si ha

w∗ Bk σ = 0, k ∈ N0 ,

da cui anche
w∗ etB σ = 0, t ≥ 0.
Di conseguenza
Z T
⟨CT w, w⟩ = |w∗ etB σ |2 dt = 0, (21.3.3)
0
21.4. CONDIZIONE DI HÖRMANDER 437

e CT è degenere per ogni T > 0.


Viceversa, se CT è degenere allora esiste w ∈ RN \ {0} per cui vale la (21.3.3) e quindi

f (t) := w∗ etB σ = 0, t ∈ [0, T ].

Derivando otteniamo
dk
0= f (t) |t=0 = w∗ Bk σ , k ∈ N0 ,
dt k
e quindi, per la (21.3.2), la matrice (21.3.1) non ha rango massimo.

Osservazione 21.3.2. Poiché la condizione di Kalman non dipende da T , allora CT è definita positiva per
un T > 0 se e solo se lo è per ogni T > 0.

Esempio 21.3.3. Nell’Esempio 21.1.3, si ha


! ! ! !
1 0 0 1 0
σ= , Bσ = = ,
0 1 0 0 1

e quindi (σ Bσ ) è la matrice identità che ovviamente soddisfa la condizione di Kalman.

21.4 Condizione di Hörmander


La non-degenerazione della matrice di covarianza di una SDE lineare si può caratterizzare anche in
termini di una condizione ben nota nell’ambito della teoria delle equazioni alle derivate parziali.
Consideriamo la SDE lineare (21.0.1) sotto l’ipotesi che σ abbia rango d: allora, a meno di una trasfor-
mazione lineare, non è restrittivo assumere !
Id
σ= .
0
Il relativo operatore di Kolmogorov backward è

1
K = ∆ + ⟨b + Bx, ∇⟩ + ∂t , (t, x) ∈ RN +1 , (21.4.1)
2 d
dove ∆d indica l’operatore di Laplace nelle prime d variabili x1 , . . . , xd .
Per convenzione, identifichiamo un operatore differenziale del prim’ordine su RN del tipo
N
X
Z := αi (x)∂xi ,
i=1

col campo vettoriale dei suoi coefficienti e quindi scriviamo anche

Z(x) = (α1 (x), . . . , αN (x)), x ∈ RN .

Il commutatore di due campi vettoriali Z e U , con


N
X
U= βi ∂xi ,
i=1

è definito da
N
X
[Z, U ] = ZU − U Z = (Zβi − U αi ) ∂xi .
i=1
438 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI

Il Teorema di Hörmander [53] (si veda anche Stroock [115] per una più recente trattazione) è un risultato
molto generale di cui richiamiamo qui una versione molto particolare relativa ad un operatore K del tipo
(21.4.1): tale teorema stabilisce che K ha soluzione fondamentale se e solo se, in ogni punto x ∈ RN , lo
spazio vettoriale generato dagli operatori del prim’ordine (campi vettoriali)

∂x1 , . . . , ∂xd , Y := ⟨Bx, ∇⟩,

e dai loro commutatori di ogni ordine, coincide con RN . Questa è la cosiddetta condizione di Hörmander. Si
noti che ∂x1 , . . . , ∂xd sono le derivate che appaiono nella parte del second’ordine di K , corrispondenti alle
direzioni di diffusione Browniana, mentre Y è il drift dell’operatore: quindi, sostanzialmente, l’esistenza
della soluzione fondamentale equivale al fatto che RN è in ogni punto generato dalle derivate direzionali
che appaiono in K come derivate seconde e come drift, insieme ai loro commutatori di ogni ordine.

Esempio 21.4.1. .
i) Se d = N allora K è un operatore uniformemente parabolico e la condizione di Hörmander è ov-
viamente soddisfatta, senza ricorrere al drift e ai commutatori, poiché ∂x1 , . . . , ∂xN formano la base
canonica di RN .

ii) Nel caso dell’operatore di Langevin dell’Esempio 21.1.3 si ha Y = x1 ∂x2 . Quindi ∂x1 = (1, 0) insieme
al commutatore
[∂x1 , Y ] = ∂x2 = (0, 1)

formano la base canonica di R2 .

iii) Consideriamo l’operatore di Kolmogorov

1
K = ∂ + x1 ∂x2 + x2 ∂x3 + ∂t , (x1 , x2 , x3 ) ∈ R3 .
2 x1 x1
Qui N = 3, d = 1 e Y = x1 ∂x2 + x2 ∂x3 : anche in questo caso la condizione di Hörmander è verificata
poiché
∂x 1 , [∂x1 , Y ] = ∂x2 , [[∂x1 , Y ], Y ] = ∂x3 ,

formano una base di R3 . Questo esempio può essere considerato una generalizzazione del modello di
Langevin in cui, oltre a considerare posizione e velocità, si introduce un terzo processo stocastico che
rappresenta l’accelerazione di una particella ed è definito come un moto Browniano reale.

Teorema 21.4.2. Le condizioni di Kalman e Hörmander sono equivalenti.

Dimostrazione. È sufficiente notare che, per i = 1, . . . , d,

N
X
[∂xi , Y ] = bki ∂xk
k=1

è la the i-esima colonna della matrice B. Inoltre, [[∂xi , Y ], Y ] è la i-esima colonna della matrice B2 e una
rappresentazione analoga vale per i commutatori di ordine superiore.
D’altra parte, per k = 1, . . . , N , il blocco Bk σ nella matrice di Kalman (21.3.1) è la matrice di dimensione
N × d le cui colonne sono le prime d colonne di Bk .

A partire dai lavori [71], [99] e [31] una teoria, analoga a quella classica per le equazioni uniformemente
paraboliche, è stata sviluppata anche per le equazioni di Kolmogorov a coefficienti variabili del tipo ∂t + At
con At come in (21.1.3) e σ = σ (t, x) non costante.
21.5. ESEMPI 439

21.5 Esempi
Le SDE lineari sono alla base di molti importanti modelli stocastici; qui presentiamo brevemente alcuni
esempi.

Esempio 21.5.1 (Modello di Vasicek). Uno dei più semplici e famosi modelli stocastici per l’evoluzione
del tasso d’interesse, il cosiddetto tasso short o a breve, è quello proposto da Vasicek [124]:

drt = a(b − rt )dt + σ dWt .

Qui W è un moto Browniano reale, σ rappresenta la volatilità del tasso e i parametri a, b sono chiamati
rispettivamente “velocità di ritorno alla media” (speed of reversion) e “media di lungo periodo” (long term
mean level). La particolare forma del drift a(b − rt ), con a > 0, è ideata per catturare la cosiddetta proprietà
di “ritorno alla media” (mean reversion), una caratteristica essenziale del tasso di interesse che lo distingue
dagli altri prezzi finanziari: al contrario dei prezzi delle azioni, per esempio, i tassi d’interesse non possono
salire indefinitamente. Questo perché a livelli molto alti ostacolerebbero l’attività economica, inducendo
una diminuzione dei tassi di interesse. Di conseguenza, i tassi d’interesse si muovono in un range limita-
to, mostrando una tendenza a ritornare ad un valore di lungo periodo, rappresentato dal parametro b nel
modello. Non appena rt supera il livello b, il drift diventa negativo e “spinge” rt a diminuire mentre al
contrario, se rt < b, il drift è positivo e tende a far crescere rt verso b. Il fatto che rt abbia distribuzione nor-
male rende il modello molto semplice da utilizzare e permette di ottenere formule esplicite per strumenti
finanziari più complessi, come i derivati su tasso: segnaliamo [21] come testo introduttivo di riferimento
alla modellizzazione dei tassi.
0.8

0.6

0.4

0.2

2 4 6 8 10

Figura 21.2: Grafico di una traiettoria del processo di Vasicek con parametri a = 5, b = 0.5 e σ = 0.3

Esempio 21.5.2 (Brownian bridge). Fissato b ∈ R, consideriamo la SDE unodimensionale

b − Bt
dBt = dt + dWt
1−t
con soluzione Z t
dWs
Bt = B0 (1 − t) + bt + (1 − t) , 0 ≤ t < 1.
0 1−s
Si ha
E [Bt ] = B0 (1 − t) + bt,
e, per l’isometria di Itô, vale
Z t
2 ds
var(Bt ) = (1 − t) = t(1 − t),
0 (1 − s)2
440 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI

da cui segue che


lim E [Bt ] = b, lim var(Bt ) = 0.
t→1− t→1−

Proviamo che Bt converge a b per t → 1− in norma L2 :


h i
E (Bt − b)2
"Z t #  Zt !2 
2 2 2 dWs  dWs 
= (1 − t) (b − B0 ) − 2(1 − t) (b − B0 ) E +E   =
0 1−s 0 1−s
| {z }
=0
Z t !
2 2 ds
= (1 − t) (b − B0 ) + 2
=
0 (1 − s)
1
 
= (1 − t)2 (b − B0 )2 + − 1 −−−−−→ 0.
1−t t→1−

Il Brownian bridge è utile per modellare un sistema che inizia ad un certo livello B0 e ci si aspetta che rag-
giunga il livello b in un determinato momento futuro, per esempio t = 1. In Figura 21.3 sono rappresentate
quattro traiettorie di un Brownian bridge B con valore iniziale B0 = 0 e B1 = 1.

1.0

0.5

0.2 0.4 0.6 0.8 1.0

-0.5

-1.0

Figura 21.3: Grafico di quattro triettorie di un Brownian bridge

Esempio 21.5.3 (Ornstein-Uhlenbeck [90]). Il seguente sistema di equazioni per il moto di una particella
estende il modello di Langevin inserendo un termine di frizione:

1 1
dXt = −µXt dt + ηdWt


dXt2 = Xt1 dt.

Qui W è un moto Browniano reale, µ e η sono i parametri positivi di frizione e diffusione. In forma
matriciale
dXt = BXt dt + σ dWt
con ! !
−µ 0 η
B= , σ= .
1 0 0
21.5. ESEMPI 441

Si verifica facilmente la validità della condizione di Kalman. Inoltre si ha

(−µ)n 0
!
n
B = , n ∈ N,
(−µ)n−1 0

da cui
N
(tB)n e−µt 0
X !
tB
e =I+ = 1−e−µt .
n! µ 1
n=1

La soluzione Xt con dato iniziale (x1 , x2 ) ∈ R2 , è un processo Gaussiano bidimensionale con

x1 e−µt
!
tB
E [Xt ] = e x = x + x1 (1 − e−µt )
2 µ

e
Z t

Ct = esB σ σ ∗ esB ds
0
t e−µs 0 e−µs 1−e−µs
Z ! !
2 µ
=η 1−e−µs ds
0 µ 0 0 1
Z t  −2µs e−µs −e−2µs 

e µ
= η2
 
 −µs −2µs  −µs 2  ds

 e −e 1−e 
0 µ µ
    
1 −2µt 1 −µt + e−2µt 
 2µ 1 − e 2µ2 1 − 2e
= η 2  1 

  −2µt −3 
.
 2 1 − 2e + e −µt −2µt 1 −µt e
2µ µ3
µt + 2e − 2

442 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI
Capitolo 22

Soluzioni forti

In questo capitolo presentiamo i risultati classici di risolubilità ed unicità in senso forte sotto le ipotesi
standard della Definizione 19.2.1 di regolarità (Lipschitzianità locale) e crescita lineare dei coefficienti.
Precisamente proviamo i seguenti teoremi:
• il Teorema 22.1.1 di unicità in senso forte;
• il Teorema 22.2.1 sulla risolubilità in senso forte e la proprietà di flusso;
• il Teorema 22.3.1 sulla proprietà di Markov;
• il Teorema 22.4.1 e il Corollario 22.4.2 sulle stime di dipendenza dal dato iniziale, regolarità delle
traiettorie, proprietà di Feller e di Markov forte.

22.1 Unicità
Teorema 22.1.1 (Unicità in senso forte). Supponiamo che valga la seguente ipotesi di Lischitzianità locale
in x, uniforme in t: per ogni n ∈ N esiste una costante κn tale che

b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ κ |x − y|,
n (22.1.1)

per ogni t ∈ [t0 , T ] e x, y ∈ RN tali che |x|, |y| ≤ n. Allora per la SDE
dXt = b(t, Xt )dt + σ (t, Xt )dWt (22.1.2)
si ha unicità in senso forte secondo la Definizione 19.1.11.
Dimostrazione. Siano X, Y due soluzioni della SDE (22.1.2), X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , W , Gt ).
Utilizziamo un argomento1 di localizzazione: poniamo
τn = inf{t ∈ [t0 , T ] | |Xt | ∨ |Yt | ≥ n}, n ∈ N,
con la convenzione min ∅ = T . Si noti che τn = t0 su (|Z| > n). Essendo per ipotesi X, Y adattati e continui
q.c., τn è una successione crescente di tempi d’arresto2 a valori in [t0 , T ], tale che τn ↗ T q.c. Poniamo
bn (t, x) = b(t, x)1[t0 ,τn] (t), σn (t, x) = σ (t, x)1[t0 ,τn] (t), n ∈ N. (22.1.3)
1 L’argomento di localizzazione è necessario anche sotto l’ipotesi di Lischitzianità globale perché l’idea è di applicare il lemma di
Gronwall alla funzione  
v(t) = E  sup |Xs − Ys |2 
 
t0 ≤s≤t
sotto l’ipotesi che v sia limitata.
2 Relativamente alla filtrazione definita da F ∨ G := σ (F ∪ G ).
t t t t

443
444 CAPITOLO 22. SOLUZIONI FORTI

I processi Xt∧τn , Yt∧τn soddisfano quasi certamente l’equazione


Z t∧τn Z t∧τn
Xt∧τn − Yt∧τn = (b(s, Xs ) − b(s, Ys )) ds + (σ (s, Xs ) − σ (s, Ys )) dWs
t0 t0
Z t Z t 
= bn (s, Xs∧τn ) − bn (s, Ys∧τn ) ds + σn (s, Xs∧τn ) − σn (s, Ys∧τn ) dWs . (22.1.4)
t0 t0

Inoltre si ha

bn (s, Xs∧τn ) − bn (s, Ys∧τn ) = bn (s, Xs∧τn ) − bn (s, Ys∧τn ) 1(|Z|≤n) ≤

(poichè |Xs∧τn |, |Ys∧τn | ≤ n su (|Z| ≤ n) per s ∈ [t0 , T ])



≤ κn Xs∧τn − Xs∧τn (22.1.5)

e una stima analoga si ha con σn al posto di bn . Ora poniamo


" #
2
vn (t) = E sup Xs∧τn − Ys∧τn , t ∈ [t0 , T ].
t0 ≤s≤t

Da (22.1.4) e (22.1.5), procedendo esattamente come nella prova della stima (19.2.5) con p = 2, otteniamo
Zt
vn (t) ≤ c̄ v(s)ds, t ∈ [t0 , T ],
t0

per una costante positiva c̄ = c̄(T , d, N , κn ). Poiché X e Y sono processi continui q.c. e adattati (e quindi
progressivamente misurabili), il teorema di Fubini assicura che v è una funzione misurabile su [t0 , T ], ossia
vn ∈ mB. Inoltre vn è limitata, precisamente |vn | ≤ 4n2 , per costruzione. Dal lemma di Gronwall otteniamo
che vn ≡ 0 e quindi  
 2 
E  sup Xt∧τn − Yt∧τn  = vn (T ) = 0.
t0 ≤t≤T

Passando al limite per n → ∞, per il teorema di Beppo-Levi, si ha che X e Y sono indistinguibili su [t0 , T ].

Nel caso uno-dimensionale vale il seguente risultato più forte che riportiamo senza dimostrazione (si
veda, per esempio, il Teorema 5.3.3 in [34] o la Proposizione 5.2.13 in [58]).
Teorema 22.1.2 (Yamada e Watanabe [127]). Nel caso N = d = 1, si ha unicità forte per la SDE (22.1.2)
sotto le seguenti condizioni:

|b(t, x) − b(t, y)| ≤ k(|x − y|), |σ (t, x) − σ (t, y)| ≤ h(|x − y|), t ≥ 0, x, y ∈ R,

dove
i) h è una funzione strettamente crescente tale che h(0) = 0 e per ogni ε > 0

1
2
ds = ∞; (22.1.6)
0 h (s)

ii) k è una funzione strettamente crescente, concava tale che k(0) = 0 e per ogni ε > 0

1
ds = ∞.
0 k(s)
22.2. ESISTENZA 445

1
Esempio 22.1.3. La funzione h(s) = sα soddisfa la condizione (22.1.6) per α ≥ 2. D’altra parte, Itô e
Watanabe [54] hanno fornito il seguente contro-esempio: la SDE
1 2
dXt = 3Xt3 dt + 3Xt3 dWt

ha infinite soluzioni forti della forma



0 per 0 ≤ t < τα ,

Xtα

=
Wt3
 per t ≥ τα ,

dove α ∈ [0, +∞] e τα = inf{t ≥ α | Wt = 0}.

22.2 Esistenza
Siamo interessati a studiare la risolubilità in senso forte che, per quanto visto nella Sezione 19.1, richiede
che la soluzione sia adattata alla filtrazione standard del Browniano e del dato iniziale. Come affermato3
in [105], il punto in cui la teoria originale di Itô delle soluzioni forti di SDE si rivela davvero efficace è la
teoria dei flussi che riveste un ruolo importante in molte applicazioni: a tal riguardo indichiamo [66] come
monografia di riferimento (si veda anche [43], [12] e [47]).

Teorema 22.2.1 (Risolubilità in senso forte e proprietà di flusso). [!] Supponiamo che i coefficienti b, σ
soddisfino le ipotesi standard4 (19.2.1)-(19.2.2) su ]t0 , T [×RN . Dato un set-up (W , Ft ), si ha:
t ,x
i) per ogni x ∈ RN , esiste la soluzione forte X t0 ,x ∈ SDE(b, σ , W , F W ) con dato iniziale Xt00 = x. Inoltre,
per ogni t ∈ [t0 , T ] si ha
t ,x
(x, ω) 7−→ ψt0 ,t (x, ω) := Xt 0 (ω) ∈ m(BN ⊗ FtW ); (22.2.1)

ii) per ogni Z ∈ mFt0 il processo X t0 ,Z definito da

t ,Z
Xt 0 (ω) := ψt0 ,t (Z(ω), ω), ω ∈ Ω, t ∈ [t0 , T ], (22.2.2)

t ,Z
è soluzione forte della SDE (22.1.2), X t0 ,Z ∈ SDE(b, σ , W , F Z,W ) con dato iniziale Xt00 = Z;
t0 ,Z
iii) vale la proprietà di flusso: per ogni t ∈ [t0 , T [, i processi X t0 ,Z e X t,Xt sono indistinguibili su [t, T ],
ossia quasi certamente vale
t ,Z
t ,Z t,Xt 0
Xs 0 = Xs per ogni s ∈ [t, T ]. (22.2.3)

Dimostrazione. Dividiamo la prova in alcuni passi.


(1) Proviamo l’esistenza della soluzione di (22.1.2) su [t0 , T ] col dato iniziale deterministico Xt0 = x ∈
RN . Utilizziamo il metodo delle approssimazioni successive e definiamo ricorsivamente la successione di
processi di Itô
(0)
Xt ≡ x,
3 [105] pag.136: “Where the ‘strong’ or ‘pathwise’ approach of Itô ’s original theory of SDEs really comes into its own is in the
theory of flows. Flows are now very big business; and the martingale-problem approach, for all that is has other interesting things to
say, cannot deal with them in any natural way.”
4 In realtà, utilizzando un argomento di localizzazione come nella prova del Teorema 22.1.1, è sufficiente assumere l’ipotesi (22.1.1)
(Lipschitzianità locale) al posto della (19.2.2).
446 CAPITOLO 22. SOLUZIONI FORTI
Z t Z t
(n) (n−1) (n−1)
Xt =x+ b(s, Xs )ds + σ (s, Xs )dWs , n ∈ N, (22.2.4)
t0 t0

per t ∈ [t0 , T ]. La successione è ben definita e X (n) è adattato a F W e continuo q.c. per ogni n. Inoltre, con
(n) (n)
un argomento induttivo5 in n si prova che Xt = Xt (x, ω) ∈ m(BN ⊗ FtW ) per ogni n ≥ 0 e t ∈ [t0 , T ].
Proviamo per induzione la stima

cn (t1 − t0 )n
" #
(n) (n−1) 2
E sup |Xt − Xt | ≤ , t1 ∈]t0 , T [, n ∈ N, (22.2.5)
t0 ≤t≤t1 n!

con c = c(T , d, N , x, c1 , c2 ) > 0 dove c1 , c2 sono le costanti delle ipotesi standard sui coefficienti. Sia n = 1: per
la (19.2.4) si ha
Z 2 
t
" #  Zt
(1) (0) 2
σ (s, x)dWs  ≤ c̄1 (1 + |x|2 )(t1 − t0 ).
 
E sup |Xt − Xt | = E  sup b(s, x)ds +

t0 ≤t≤t1 t0 ≤t≤t1 t0 t0

Supposta vera la (22.2.5) per n, proviamola per n + 1: si ha


Z  2 
t Z t
" #   
(n+1) (n) 2  (n) (n−1) (n) (n−1) 
E sup |Xt − Xt | = E  sup b(s, Xs ) − b(s, Xs ) ds + σ (s, Xs ) − σ (s, Xs ) dWs  ≤
t0 ≤t≤t1 t0 ≤t≤t1 t0
t0

(per la (19.2.5))
Z t1 " #
(n) (n−1) 2
≤ c̄2 E sup |Xr − Xr | ds ≤
t0 t0 ≤r≤s

(per ipotesi induttiva, con c = c̄2 ∨ c̄1 (1 + |x|2 ))


Z t1
(s − t0 )n
≤ cn+1 ds
t0 n!

e questo prova la (22.2.5).


Combinando la disuguaglianza di Markov con la (22.2.5) otteniamo
   
 (n) (n−1) 1  2n  (n) (n−1) 2  (4cT )n
P  sup |Xt − Xt | ≥ n  ≤ 2 E  sup |Xt − Xt |  ≤ , n ∈ N.
t0 ≤t≤T 2 t0 ≤t≤T n!

Allora, per il Lemma 2.3.28 di Borel-Cantelli si ha


 
 (n) (n−1) 1 
P  sup |Xt − Xt |≥ n i.o = 0
t0 ≤t≤T 2

ossia, per quasi ogni ω ∈ Ω esiste nω ∈ N tale che

(n) (n−1) 1
sup |Xt (ω) − Xt (ω)| ≤ , n ≥ nω .
t0 ≤t≤T 2n

Essendo
n
(n) (k) (k−1)
X
Xt =x+ (Xt − Xt )
k=1
5 La misurabilità in (x, ω) è ovvia per n = 0. Assumendo la tesi vera per n − 1, è sufficiente approssimare l’integrando in (22.2.4) con
processi semplici e utilizzare il Corollario 15.2.26, ricordando che la convergenza in probabilità mantiene la proprietà di misurabilità.
22.2. ESISTENZA 447

(n)
si ha che, quasi certamente, Xt converge uniformemente in t ∈ [t0 , T ] per n → +∞ ad un limite che indi-
(n)
chiamo con Xt : per esprimere questo fatto, in simboli scriviamo Xt ⇒ Xt q.c. Notiamo che X = (Xt )t∈[t0 ,T ]
è un processo continuo q.c. (grazie alla convergenza uniforme) e adattato a F W : inoltre, Xt = Xt (x, ω) ∈
(n)
m(BN ⊗ FtW ) per ogni t ∈ [t0 , T ] perché tale proprietà di misurabilità vale per Xt per ogni n ∈ N.
Per la (19.2.1) ed essendo X continuo q.c. è chiaro che la condizione (19.1.3) è soddisfatta. Per verificare
che, quasi certamente, vale
Zt Zt
Xt = x + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ],
t0 t0

è sufficiente osservare che:


(n) (n)
• per la proprietà di Lipschitzianità di b e σ uniforme in t, si ha che b(t, Xt ) ⇒ b(t, Xt ) e σ (t, Xt ) ⇒
σ (t, Xt ) q.c. da cui
Zt Zt
(n)
lim b(s, Xs )ds = b(s, Xs )ds q.c.
n→+∞ t0 t0
Z t 2
(n)
lim σ (s, Xs ) − σ (s, Xs ) ds = 0 q.c. (22.2.6)
n→+∞ t0

• per la Proposizione 15.2.25, la (22.2.6) implica che


Zt Zt
(n)
lim σ (s, Xs )dWs = σ (s, Xs )dWs q.c.
n→+∞ t0 t0

Questo conclude la prova dell’esistenza nel caso del dato iniziale deterministico.
(2) Consideriamo ora il caso di un dato iniziale aleatorio Z ∈ mFt0 . Sia f = f (x, ω) la funzione su RN ×Ω
definita da Zt Zt
t0 ,x t0 ,x t0 ,x
f (x, ·) := sup Xt − x − b(s, Xs )ds − σ (s, Xs )dWs .
t0 ≤t≤T t0 t0
t ,·
Notiamo che f ∈ m(BN ⊗ FTW ) poiché Xt 0 ∈ m(BN ⊗ FtW ) per ogni t ∈ [t0 , T ]. Inoltre, per ogni x ∈ RN si ha
f (x, ·) = 0 q.c. e quindi anche F(x) := E [f (x, ·)] = 0. Allora vale

0 = F(Z) = E [f (x, ·)] |x=Z =

(per il Lemma di freezing, Teorema 5.2.10-13), poiché Z ∈ mFt0 , f ∈ m(BN ⊗ FTW ) con Ft0 e FtW σ -algebre
indipendenti per l’Osservazione 19.1.3 e f ≥ 0)
h i
= E f (Z, ·) | Ft0 .

Applicando il valore atteso abbiamo anche

E [f (Z, ·)] = 0

e quindi X t0 ,Z in (22.2.2) è soluzione della SDE (22.1.2) e lo è anche in senso forte perché è chiaramente
adattato a F Z,W .
(3) Per t0 ≤ t ≤ s ≤ T , con uguaglianze che valgono quasi certamente, si ha
Zs Zs
t0 ,Z t0 ,Z t ,Z
Xs = Z + b(r, Xr )dr + σ (r, Xr 0 )dWr
t0 t0
448 CAPITOLO 22. SOLUZIONI FORTI
Z s Z s
t ,Z t ,Z
=Z+ b(r, Xr 0 )dr + σ (r, Xr 0 )dWr
t0 t0
Z s Z s
t ,Z t ,Z
+ b(r, Xr 0 )dr + σ (r, Xr 0 )dWr
t t
Zs Zs
t0 ,Z t0 ,Z t ,Z
= Xt + b(r, Xr )dr + σ (r, Xr 0 )dWr ,
t t
t ,Z
ossia X t0 ,Z è soluzione su [t, T ] della SDE (22.1.2) con dato iniziale Xt 0 . D’altra parte, per quanto pro-
t ,Z t0 ,Z
vato al punto (2), anche X t,Xt 0 è soluzione della stessa SDE. Per unicità, i processi X t0 ,Z e X t,Xt sono
indistinguibili su [t, T ]. Ciò prova la (22.2.3) e conclude la prova del teorema.

22.3 Proprietà di Markov


In questa sezione mostriamo che la soluzione di una SDE è un processo di Markov continuo (una dif-
fusione). Nel seguito facciamo riferimento ai risultati della Sezione 7.5 sull’operatore caratteristico di un
processo di Markov.
Teorema 22.3.1 (Proprietà di Markov). Assumiamo che i coefficienti b, σ verifichino le ipotesi di crescita
lineare (19.2.1) e Lipschitzianità locale (22.1.1). Se X ∈ SDE(b, σ , W , Ft ) allora X è un processo di Markov
con legge di transizione p dove, per ogni t0 ≤ t ≤ s ≤ T e x ∈ RN , p = p(t, x; s, ·) è la legge della variabile
aleatoria Xst,x ossia della soluzione della SDE con condizione iniziale x al tempo t, calcolata al tempo s.
L’operatore caratteristico di X è
N N
1X X
At = cij (t, x)∂xi xj + bj (t, x)∂xi , cij := (σ σ ∗ )ij . (22.3.1)
2
i,j=1 j=1

Dimostrazione. Osserviamo che p è una legge di transizione secondo la Definizione 7.1.1. Infatti, si ha:
i) per ogni x ∈ RN , per definizione, p(t, x; s, ·) è una distribuzione tale che p(t, x; t, ·) = δx ;
ii) per ogni H ∈ BN h  i
x 7→ p(t, x; s, H) = E 1H Xst,x ∈ mBN
grazie alla proprietà di misurabilità (22.2.1) e al teorema di Fubini.
Proviamo che p è una legge di transizione per X: in base alla Definizione 7.1.1, si tratta di verificare che
p(t, Xt ; s, H) = P (Xs ∈ H | Xt ), t0 ≤ t ≤ s ≤ T , H ∈ BN .
Xt0 ,W
Poiché, per unicità, X è indistinguibile dalla soluzione X t0 ,Xt0 ∈ SDE(b, σ , W , Ft ) costruita nel Teorema
22.2.1, dalla proprietà di flusso (22.2.3) si ha che quasi certamente vale
t,Xt
Xs = Xs per ogni s ∈ [t, T ].
Pertanto, si ha
P (Xs ∈ H | Xt ) ≡ E [1H (Xs ) | Xt ]
h  t,X  i
= E 1H Xs t | Xt =

(per la (5.2.7) del Lemma di freezing, essendo Xt ∈ mFt e quindi, per l’Osservazione 19.1.3, indipendente
da FsW e (x, ω) 7→ 1H (Xst,x (ω)) ∈ m(BN ⊗ FsW ) grazie alla (22.2.1))
h i
= E 1H (Xst,x ) |x=Xt = p(t, Xt ; s, H).
22.3. PROPRIETÀ DI MARKOV 449

D’altra parte, basta ripetere i passaggi precedenti, condizionando a Ft invece che a Xt , per provare la
proprietà di Markov
p(t, Xt ; s, H) = P (Xs ∈ H | Ft ), 0 ≤ t0 ≤ t ≤ s ≤ T , H ∈ BN .
Infine, il fatto che At sia l’operatore caratteristico di X è stato dimostrato nella Sezione 20.1 (in particolare
si confronti la (20.1.1) con la definizione (7.5.5)).
Osservazione 22.3.2. Nelle ipotesi del Teorema 22.3.1, per la proprietà di Markov si ha
E [ϕ(XT ) | Ft ] = u(t, Xt ), ϕ ∈ bB,
dove Z
u(t, x) := p(t, x; T , dy)ϕ(y).
R
Ricordiamo che, per i risultati delle Sezioni 7.5.3 e 7.5.2, la legge di transizione p è soluzione delle equazioni
di Kolmogorov backward e forward, date rispettivamente da
(∂t + At )p(t, x; s, dy) = 0, (∂s − As∗ )p(t, x; s, dy) = 0, t0 ≤ t < s ≤ T ,
dove As∗ indica l’operatore (che agisce nelle variabili forward (s, y)) aggiunto di At in (22.3.1).
Osservazione 22.3.3 (Equazione di Kolmogorov forward). L’equazione di Kolmogorov forward di una dif-
fusione X può essere ricavata con un’applicazione diretta della formula di Itô. Sotto le ipotesi del Teorema
22.3.1, indichiamo con X t,x la soluzione della SDE (22.1.2) con dato iniziale Xtt,x = x. Data una funzione
test ϕ ∈ C0∞ (R × RN ), col supporto compatto contenuto in ]t, T [×RN , per la formula di Itô si ha
ZT ZT
t,x t,x
0 = ϕ(T , XT ) − ϕ(t, x) = (∂s + As ) ϕ(s, Xs )ds + ∇ϕ(s, Xst,x )σ (s, Xst,x )dWs
t t

dove At è l’operatore caratteristico in (22.3.1). Applicando il valore atteso, otteniamo


"Z T # ZTZ
t,x
0=E (∂s + As ) ϕ(s, Xs )ds = (∂s + As ) ϕ(s, y)p(t, x; s, dy)ds (22.3.2)
t t RN

dove p(t, x; s, dy) indica la legge della v.a. Xst,x che, per il Teorema 22.3.1, è la legge di transizione del
processo di Markov X.
Per la (22.3.2), per ogni t ≥ 0 vale
"
(∂s + As ) ϕ(s, y)p(t, x; s, dy)ds = 0, ϕ ∈ C0∞ (]t, +∞[×RN ),
RN +1

e quindi ritroviamo il risultato della Sezione 7.5.3 secondo cui p è soluzione distribuzionale dell’equazione
di Kolmogorov forward
(∂s − As∗ ) p(t, x; s, ·) = 0, s > t. (22.3.3)
In particolare, se p è assolutamente continua con densità Γ , ossia
Z
p(t, x; t, H) = Γ (t, x; t, x)dx, H ∈ BN ,
H

allora Γ (t, x; t, x) è soluzione distribuzionale della (22.3.3), ossia vale


"
Γ (t, x; s, y) (∂s + As ) ϕ(t, x)dyds = 0, ϕ ∈ C0∞ (]t, +∞[×RN ),
RN +1

e si dice che (s, y) 7→ Γ (t, x; s, y) è soluzione fondamentale dell’operatore forward ∂s − As∗ con polo in (t, x).
450 CAPITOLO 22. SOLUZIONI FORTI

22.4 Dipendenza continua dai parametri


Teorema 22.4.1 (Stime di dipendenza continua dai parametri). Sotto le ipotesi standard (19.2.1)-(19.2.2),
siano X t0 ,Z0 e X t1 ,Z1 soluzioni della SDE (22.1.2), rispettivamente con dati iniziali (t0 , Z0 ) e (t1 , Z1 ) con
0 ≤ t0 ≤ t1 ≤ t2 ≤ T . Allora per ogni p ≥ 2 esiste una costante positiva c = c(T , d, N , p, c1 , c2 ) tale che
 
t1 ,Z1 p  p p

t0 ,Z0

 p p
E  sup Xt − Xs  ≤ cE [|Z0 − Z1 | ] + c (1 + E [|Z1 | ]) |t1 − t0 | 2 + |T − t2 | 2 . (22.4.1)
 
t2 ≤t,s≤T

Dimostrazione. Per la disuguaglianza elementare (19.2.6) si ha


 p   p 
 t 0 ,Z0 t 1 ,Z1 p−1  t0 ,Z0 t0 ,Z1
E  sup Xt − Xs  ≤ 3 E  sup X − Xt
 
  t 
t2 ≤t,s≤T t2 ≤t≤T
 p    p 
p−1  t 0 ,Z 1 t 1 ,Z 1 p−1  t 1 ,Z1 t 1 ,Z1
+ 3 E  sup Xt − Xt  + 3 E  sup X − Xs  .(22.4.2)
 
  t 
t2 ≤t≤T t2 ≤t,s≤T

Ancora per la (19.2.6) e la (19.2.5) si ha


" # Zt
t ,Z p p−2

t ,Z
v(t) := E sup Xs 0 0 − Xs 0 1 ≤ 2p−1 E [|Z0 − Z1 |p ] + 2p−1 c̄2 T 2 v(s)ds,
t0 ≤s≤t t0

e, per il lemma di Gronwall,


 p 
 t 0 ,Z 0 t 0 ,Z 1  ≤ v(T ) ≤ cE [|Z0 − Z1 |p ]
E  sup Xt − Xt  (22.4.3)
t2 ≤t≤T

con c che dipende solo da p, T e c2 .


D’altra parte, per la proprietà di flusso abbiamo
 p   t ,Z
p 

X t0 ,Z1 − X t1 ,Z1  = E  sup
 t1 ,Xt10 1 t1 ,Z1 
E  sup Xt − Xt  ≤

t t  
t2 ≤t≤T t2 ≤t≤T

(per la (22.4.3))
 p 
t ,Z
≤ cE Xt10 1 − Z1 ≤

(per la (19.2.4))

p−2
Z t1 " #!
t ,Z
≤ cc̄1 |t1 − t0 | 2 1 + E sup |Xr 0 1 |p ds ≤
t0 t0 ≤r≤s

(per la stima Lp (19.3.1), con una nuova costante c = C(T , d, N , p, c1 , c2 ))


p
≤ c(1 + E [|Z1 |p ])|t1 − t0 | 2 .

L’ultimo termine della (22.4.2) si stima in modo completamente analogo e questo conclude la prova.

Corollario 22.4.2 (Proprietà di Feller e di Markov forte). Sotto le ipotesi standard (19.2.1)-(19.2.2) e le
ipotesi usuali sulla filtrazione, ogni X ∈ SDE(b, σ , W , Ft ) è un processo di Feller e soddisfa la proprietà di
Markov forte.
22.4. DIPENDENZA CONTINUA DAI PARAMETRI 451

Dimostrazione. Per il Teorema 22.3.1, X è un processo di Markov con legge di transizione p = p(t, x; T , ·)
dove, per ogni t, T ≥ 0 con t ≤ T e x ∈ RN , p(t, x; T , ·) è la legge della v.a. XTt,x . Per la (22.4.1) e il Teorema 9.3.1
di continuità di Kolmogorov (nella versione multidimensionale del Teorema 9.3.4), il processo (t, x, T ) 7→
XTt,x ammette una modificazione Xt,x T con traiettorie localmente α-Hölderiane per ogni α ∈ [0, 1[ rispetto
alla cosiddetta distanza “parabolica”: precisamente, per ogni α ∈ [0, 1[, n ∈ N e ω ∈ Ω esiste cα,n,ω > 0 tale
che
1 α
 1

s,y
Xt,x
r (ω) − Xu (ω) ≤ cα,n,ω |x − y| + |t − s| 2 + |r − u| 2 ,

per ogni t, s, r, u ∈ [0, T ] tali che t ≤ r, s ≤ u, e per ogni x, y ∈ RN tali che |x|, |y| ≤ n. Di conseguenza, per ogni
ϕ ∈ bC(RN ) e h > 0, la funzione
Z
p(t, x; t + h, dy)ϕ(y) = E ϕ(Xt,x
h i
(t, x) 7−→ t+h )
RN

è continua grazie al teorema della convergenza dominata e questo prova che X è un processo di Feller. La
proprietà di Markov forte segue dal Teorema 12.1.2.
452 CAPITOLO 22. SOLUZIONI FORTI
Capitolo 23

Soluzioni deboli

Trascorro molte ore a gironzolare per


le vie di Palermo, bevendo caffè nero
forte e chiedendomi che cos’ho che
non va. Ce l’ho fatta - sono il
tennista numero uno al mondo,
eppure mi sento vuoto.

Andre Agassi [1]

23.1 Trasferimento di soluzioni


Fissati N , d ∈ N e T > 0, consideriamo una SDE con coefficienti

b = b(t, x) : ]0, T [×RN −→ RN , σ = σ (t, x) : ]0, T [×RN −→ RN ×d .

Sia inoltre µ0 una distribuzione su RN che utilizzeremo come condizione iniziale della SDE. Richiamiamo
la Definizione 19.1.9 di risolubilità in senso debole.

Definizione 23.1.1 (Soluzione debole). La SDE di coefficienti b, σ e legge iniziale µ0 è risolubile in senso
debole se esistono un set-up (W , Ft ) e una soluzione X ∈ SDE(b, σ , W , Ft ) tale che X0 ∼ µ: allora vale quasi
certamente Z t Z t
Xt = X0 + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [0, T ],
0 0
e diciamo che la coppia (X, W ) è soluzione debole della SDE di coefficienti b, σ e legge iniziale µ0 .

Osservazione 23.1.2. [!] Per provare che una SDE è risolubile in senso debole occorre costruire non solo il
processo X ma anche il set-up (W , Ft ) rispetto al quale è scritta la SDE: per questo motivo generalmente si
indica come soluzione la coppia (X, W ) e non solo il processo X.

Vediamo ora che è sempre possibile trasferire il problema della risolubilità debole di una SDE in un “ambiente
canonico”.

Notazione 23.1.3. Dato n ∈ N, indichiamo con

Ωn = C([0, T ]; Rn )

453
454 CAPITOLO 23. SOLUZIONI DEBOLI

lo spazio delle traiettorie continue n-dimensionali munito della filtrazione (Gtn )t∈[0,T ] generata dal processo
identità
It (w) := w(t), w ∈ Ωn , t ∈ [0, T ],
e della σ -algebra di Borel1 GTn . Indicata con µX,W la legge di una soluzione (X, W ) di una SDE, ricordiamo
che se (X, W ) è definita sullo spazio (Ω, F , P ) allora µX,W è la misura di probabilità su ΩN +d = ΩN × Ωd
definita da
µX,W (H) = P ((X, W ) ∈ H), H ∈ GTN +d .

Nel seguito utilizzeremo ripetutamente il fatto che ΩN +d è uno spazio polacco sul quale è possibile
definire una versione regolare della probabilità condizionata grazie al Teorema 5.3.2.
Il seguente lemma è un ingrediente cruciale in tutta l’analisi successiva.

Lemma 23.1.4 (Trasferimento di soluzioni). [!] Se (X, W ) è una soluzione debole della SDE di coefficienti
b, σ e legge iniziale µ0 , allora il processo canonico (X, W) definito da

Xt (x, w) := x(t), Wt (x, w) := w(t), (x, w) ∈ ΩN +d , t ∈ [0, T ],

è soluzione debole della SDE di coefficienti b, σ e legge iniziale µ0 sullo spazio (ΩN +d , GTN +d , µX,W ).

Dimostrazione. Abbiamo lo schema


(X,W ) (X,W)
(Ω, F , P ) −−−−−−−→ (ΩN +d , GTN +d , µX,W ) −−−−−−→ (ΩN +d , GTN +d )

d
e per costruzione vale (X, W ) = (X, W). Il fatto che W sia un moto Browniano è conseguenza dell’uguaglian-
za in legge di (X, W ) e (X, W), e quindi in particolare di W e W. Supponiamo per il momento che la legge
iniziale sia µ0 = δx0 per un certo x0 ∈ RN e quindi X0 = x0 q.c. Posto
Z t Z t Z t Z t
Jt := b(s, Xs )ds + σ (s, Xs )dWs , Jt := b(s, Xs )ds + σ (s, Xs )dWs ,
0 0 0 0

si ha che (X, W , J) e (X, W, J) sono uguali in legge per il Corollario 15.2.27. Pertanto X−x0 −J è indistinguibile
dal processo nullo e questo prova la tesi.
Il caso in cui il dato iniziale X0 è aleatorio con legge µ0 , si tratta in modo simile condizionando a X0 .
Precisamente, per alleggerire le notazioni, poniamo P := µX,W : per il Teorema 5.3.2 esiste una versione

regolare P(· | X0 ) = Px,w (· | X0 ) (x,w)∈Ωd+N della probabilità P condizionata a X0 . Per P-quasi ogni (x, w) ∈
ΩN +d , nella misura Px,w (· | X0 ) il processo (X, W) ha la stessa legge di (X̂, W ) dove X̂ è soluzione della SDE
di coefficienti b, σ e dato iniziale X̂0 = x(0), rispetto a W . Allora, per quanto provato in precedenza, per
P-quasi ogni (x, w) ∈ ΩN +d , nella misura Px,w (· | X0 ) il processo (X, W) è soluzione della SDE di coefficienti
b, σ e dato iniziale x(0), relativa a W. Per concludere, è sufficiente osservare che, posto
Zt Zt

Z = sup Xt − X0 − b(s, Xs )ds − σ (s, Xs )dWs
0≤t≤T 0 0

per la formula della probabilità totale si ha E [Z] = E [E [Z | X0 ]] = 0.

23.2 Soluzioni deboli vs forti


Il seguente risultato stabilisce le relazioni fra risolubilità e unicità per una SDE in senso debole e forte,
secondo le Definizioni 19.1.9 e 19.1.11.
1 Nella Proposizione 9.2.1 avevamo visto che, nello spazio delle traiettorie continue, la σ -algebra generata dai cilindri (o,
equivalentemente, dal processo identità) coincide con la σ -algebra di Borel.
23.2. SOLUZIONI DEBOLI VS FORTI 455

Teorema 23.2.1 (Yamada e Watanabe [127]). [!]


i) Se una SDE è risolubile in senso forte allora lo è anche in senso debole;
ii) se per una SDE si ha unicità in senso forte allora si ha anche unicità in senso debole;
iii) se per una SDE si ha risolubilità in senso debole ed unicità in senso forte allora si ha risolubilità in
senso forte.
Dimostrazione. Diamo una traccia sufficientemente dettagliata della prova e rimandiamo al Capitolo 8 in
[118] per la trattazione completa (si vedano anche il Teorema 21.14 e Lemma 21.17 in [57] o la Sezione V.17
in [105]).
[i)] È sufficiente costruire un set-up per dedurre la risolubilità debole da quella forte. Più precisamente,
assegnata una distribuzione µ0 su RN , consideriamo lo spazio canonico RN × Ωd munito della filtrazione
(Gt )t∈[0,T ] generata dal processo identità

(Z, W) : RN × Ωd −→ RN × Ωd , Z(z, w) = z, Wt (z, w) = w(t), t ∈ [0, T ],


e della misura prodotto µ0 ⊗ µW , dove µW è la legge di un moto Browniano d-dimensionale. Allora Z ∼ µ0
è G0 -misurabile e W è un moto Browniano (rispetto a Gt ). Dunque, per l’ipotesi di risolubilità forte, esiste
una soluzione X relativa al set-up (W, Gt ) e tale che X0 = Z ∼ µ0 .
[ii)] Tralasciamo il caso in cui il dato iniziale è aleatorio: questo può essere trattato in modo completamente
analogo alla seconda parte della dimostrazione del Lemma 23.1.4 (per i dettagli si può vedere, per esempio,
la Proposizione IX.1.4 in [103]).
Consideriamo dunque due soluzioni X i ∈ SDE(b, σ , W i , Fti ) tali che X0i = x ∈ RN quasi certamente, per
i = 1, 2. Proviamo che l’ipotesi di unicità forte implica che (X 1 , W 1 ) e (X 2 , W 2 ) sono uguali in legge. Il
problema è che le soluzioni X 1 e X 2 sono in generale definite su spazi campionari differenti: quindi l’idea
è di costruire delle versioni di X 1 e X 2 che siano soluzioni della SDE sullo stesso spazio e relativamente
allo stesso Browniano. A tal fine costruiamo uno spazio canonico su cui siano definiti tre processi: un moto
Browniano e le versioni di X 1 e X 2 .  
Per il Teorema 5.3.4 (e l’Osservazione 5.3.5) esiste una versione regolare µX i |W i = µX i |W i (·; w) della
w∈Ωd
legge di X i condizionata a W i : per ogni w ∈ Ωd , µX i |W i (·; w) è una distribuzione sui Boreliani GTN di ΩN e
vale2
Z h h i i
µX i |W i (H; w)µW (dw) = E E 1H (X i ) | W i 1A (W i ) = µX i ,W i (H × A), (H, A) ∈ GTN × GTd . (23.2.1)
A

Ora sullo spazio delle traiettorie ΩN × ΩN × Ωd definiamo la misura di probabilità3


Z
P(H × K × A) := µX 1 |W 1 (H; w)µX 2 |W 2 (K; w)µW (dw), (H, K, A) ∈ GTN × GTN × GTd , (23.2.2)
A

e indichiamo con (X1 , X2 , W) il processo canonico su tale spazio. Posto rispettivamente H = ΩN oppure
K = ΩN in (23.2.2), per la (23.2.1) si ha
d
(Xi , W) = (X i , W i ), i = 1, 2, (23.2.3)
da cui si ricava in particolare che W è un moto Browniano nella misura P e, come nella dimostrazione del
Lemma 23.1.4, X1 e X2 sono entrambe soluzioni della SDE di coefficienti b, σ e con dato iniziale x, relative
a W. Per l’unicità in senso forte si ha che X1 e X2 sono indistinguibili nella misura P e quindi
d d
(X 1 , W 1 ) = (X1 , W) = (X2 , W) = (X 2 , W 2 ).
2 Qui µ ≡ µ
W W i , i = 1, 2, è la misura di Wiener su Ωd .
3 P si estende alla σ -algebra prodotto G N ⊗ G N ⊗ G d = G 2N +d .
T T T T
456 CAPITOLO 23. SOLUZIONI DEBOLI

[iii)] Anche per questo punto consideriamo solo il caso di un dato iniziale deterministico. Sia dunque
X ∈ SDE(b, σ , W , Ft ) una soluzione con dato iniziale X0 = x ∈ RN q.c. Applichiamo la costruzione del punto
ii) con X 1 = X 2 = X, ossia costruiamo sullo spazio ΩN × ΩN × Ωd la misura P come in (23.2.2) e il processo
canonico (X1 , X2 , W) in cui X1 , X2 sono entrambe versioni di X e sono soluzioni della SDE rispetto al moto
Browniano W.
Consideriamo la probabilità condizionata P(· | W) = (Pw (· | W))w∈Ωd e le relative leggi condizionate

µXi |W (H) = P(Xi ∈ H | W), H ∈ ΩN , i = 1, 2,

osservando che µXi |W = µX|W per la (23.2.3). Si verifica4 che le variabili aleatorie X1 e X2 sono contempora-
neamente uguali q.c. e indipendenti in Pw (· | W) per quasi ogni w ∈ Ωd e quindi5 X1 e X2 hanno come legge in
Pw (· | W) una delta di Dirac. In altri termini, per quasi ogni w ∈ Ωd si ha µX|W (H; w) = µXi |W (H; w) = δF(w)
per una certa mappa misurabile F da Ωd a ΩN e quindi X = F(W ) q.c. Per concludere occorre mostrare che
X è adattato alla filtrazione standard Browniana F W : per la prova di questo fatto, basata sulle proprietà
della versione regolare della probabilità condizionata, rimandiamo6 al Problema 3.21 a pag.310 in [58].

Osservazione 23.2.2. [!] Nell’Osservazione 19.1.7 avevamo sottolineato il fatto che le soluzioni forti si di-
stinguono dalle deboli per la proprietà di essere adattate alla filtrazione standard Browniana (assumendo
per semplicità che il dato iniziale sia deterministico): questa proprietà di misurabilità è ben espressa dal-
la dipendenza funzionale X = F(W ) provata nella dimostrazione precedente, per cui una soluzione forte
(X, W ) può essere costruita sullo spazio canonico Ωd . Al contrario, il Lemma 23.1.4 mostra che ogni solu-
zione debole può essere “trasportata” sullo spazio canonico ΩN × Ωd . Ciò significa che le soluzioni deboli
richiedono in generale uno spazio campionario più ricco, in cui le traiettorie della soluzione (elementi di
ΩN ) non sono necessariamente funzionali delle traiettorie del Browniano (elementi di Ωd ): è questo il caso
dell’Esempio 19.1.10 di Tanaka.

23.3 Problema della martingala


Per introdurre il “problema della martingala” di Stroock e Varadhan [118], supponiamo che (X, W ) sia
una soluzione di una SDE di coefficienti b, σ e indichiamo con µX,W la sua legge. Per il Lemma 23.1.4, sullo
spazio canonico (ΩN +d , GTN +d , µX,W ) il processo (X, W) è soluzione della SDE di coefficienti b, σ : ne segue
che il processo
Zt
Mt := Xt − b(s, Xs )ds (23.3.1)
0

4 Infatti, per l’ipotesi di unicità forte si ha P(X1 = X2 ) = 1 da cui

E P(X1 = X2 | W) = E P(X1 = X2 ) = 1
h i h i

ed essendo P(X1 = X2 | W) ≤ 1, si deduce anche Pw (X1 = X2 | W) = 1 per quasi ogni w ∈ Ωd . Inoltre, dalla definizione (23.2.2) di P non
è difficile verificare che la legge congiunta condizionata di X1 , X2 è il prodotto delle marginali

µX1 ,X2 |W (H × K) = P (X1 , X2 ) ∈ H × K | W = µX|W (H)µX|W (K) = µX1 |W (H)µX2 |W (K),


 
H, K ∈ ΩN ,

da cui l’indipendenza per quasi ogni w ∈ Ωd .


5 Si provi, per esercizio, che se X, Y sono variabili aleatorie reali su uno spazio (Ω, F , P ), uguali q.c. e indipendenti, allora X ∼ δ
x0
per un certo x0 ∈ R. Si provi che un risultato analogo vale per X, Y a valori nello spazio Ωn .
6 In effetti, in [58] si prova di più (si veda anche il Remark 2 pag.310 in [103]): evidenziando la dipendenza dal dato iniziale
x ∈ RN , la funzione F = F(x, w) è misurabile congiuntamente e, per Z ∈ mF0 , X = F(Z, W ) è soluzione forte della SDE con dato iniziale
aleatorio X0 = Z.
23.3. PROBLEMA DELLA MARTINGALA 457

è una martingala locale7 rispetto alla filtrazione GtN +d , con processo covariazione
Z t
i j
⟨M , M ⟩t := cij (s, Xs )ds, (cij ) := σ σ ∗ .
0

Inoltre, per definizione di processo covariazione o con una verifica diretta con la formula di Itô, anche i
processi
Zt
ij i j
Mt := Mt Mt − cij (s, Xs )ds, i, j = 1, . . . , N , (23.3.2)
0
sono martingale locali.
Ora, non è difficile verificare che, indicato ancora con X il processo identità sullo spazio (ΩN , GTN , µX ),
i processi definiti su tale spazio formalmente come in (23.3.1)-(23.3.2) sono martingale locali rispetto alla
filtrazione GtN generata da X: in altri termini, possiamo ignorare la componente Browniana W che in effetti
non appare nella definizione di Mi e Mij . Ciò motiva la seguente

Definizione 23.3.1 (Problema della martingala). Una soluzione del problema della martingala per b, σ è
una misura di probabilità sullo spazio canonico ΩN tale che i processi Mi , Mij in (23.3.1)-(23.3.2) sono
martingale locali rispetto alla filtrazione GtN generata dal processo identità X.

Abbiamo visto che se (X, W ) è soluzione della SDE di coefficienti b, σ allora µX è soluzione del problema
della martingala per b, σ . Mostriamo ora un risultato nella direzione opposta che ci permette di concludere
che i problemi della martingala e della risolubilità debole di una SDE sono equivalenti.

Teorema 23.3.2 (Stroock e Varadhan). [!] Se µ è una soluzione del problema della martingala per b, σ
allora esiste una soluzione della SDE di coefficienti b, σ con legge iniziale µ0 (H) = µ(X0 ∈ H), H ∈ BN .

Dimostrazione. Diamo la dimostrazione solo nel caso scalare N = d = 1 e rimandiamo, per esempio, alla
Sezione 5.4.B in [58] per il caso generale. Il fatto che µ sia una soluzione del problema della martingala per
b, σ , significa che il processo definito su (ΩN , GTN , µ) come in (23.3.1)
Z t
Mt = Xt − b(s, Xs )ds
0

è una martingala locale con processo variazione quadratica d⟨M⟩t = σ 2 (t, Xt )dt.
Se σ (t, x) , 0 per ogni (t, x), la prova è molto semplice: infatti il processo
Z t
1
Bt := dMs
0 σ (s, Xs )

è una martingala locale con variazione quadratica


Z t
1
⟨B⟩t = d⟨M⟩s = t.
0 σ 2 (s, Xs )

Allora, per il Teorema 17.5.1 di caratterizzazione di Lévy, B è un moto Browniano ed essendo dBt =
σ −1 (t, Xt )dMt = σ −1 (t, Xt ) (dXt − b(t, Xt )dt), si ha
Z t Z t
σ (s, Xs )dBs = Xt − X0 − b(s, Xs )ds,
0 0
7 Essendo
Zt
Mt = X0 + σ (s, Xs )dWs .
0
458 CAPITOLO 23. SOLUZIONI DEBOLI

ossia (X, B) è una soluzione della SDE di coefficienti b, σ . Si noti che la soluzione (X, B) è definita sullo
spazio (ΩN , GTN , µ).
Nel caso generale, consideriamo lo spazio (ΩN +d , GTN +d , µ ⊗ µW ) dove µW è la misura di Wiener d-
dimensionale e il processo canonico (X, W) è tale che W è un moto Browniano d-dimensionale. Poniamo
Jt = 1(σ (t,Xt ),0) e
Zt Zt
Js
Bt = dMs + (1 − Js )dWs .
0 σ (s, Xs ) 0
Ancora B è un moto Browniano reale poiché è una martingala locale con variazione quadratica

Jt Jt (1 − Jt )
d⟨B⟩t = 2
d⟨M⟩t + (1 − Jt )d⟨W⟩t + d⟨M, W⟩t = dt.
σ (t, Xt ) σ (t, Xt )

Inoltre, poiché (1 − Jt )σ (t, Xt ) = 0, si ha


Z t Z t Z t Z t
σ (s, Xs )dBs = Js dMs = Mt − M0 + (Js − 1)dMs = Xt − X0 − b(s, Xs )ds
0 0 0 0

dove nell’ultimo passaggio abbiamo usato il fatto che, per l’isometria di Itô,
 Zt !2  "Z t #
  2
E  (Js − 1)dMs  = E
 (Js − 1)σ (s, Xs )ds = 0.
0 0

Osservazione 23.3.3. Nella dimostrazione precedente notiamo che nel caso non degenere σ , 0, il moto
Browniano B è costruito come funzionale di X e quindi lo spazio ΩN è sufficiente a “supportare” la solu-
zione (X, B) della SDE. È nel caso degenere, in cui σ si può annullare, che entra in gioco il moto Browniano
W e quindi è necessario definire la soluzione sullo spazio “allargato” ΩN +d .

23.4 Risolubilità debole


Teorema 23.4.1 (Skorokhod). [!]
23.5. UNICITÀ IN LEGGE 459

Il resto del capitolo è provvisorio e in fase di costruzione.

23.5 Unicità in legge


23.6 Unicità forte: regolarizzazione con rumore
460 CAPITOLO 23. SOLUZIONI DEBOLI
Capitolo 24

Complementi

Il giorno in cui un uomo si rende


conto di non poter sapere tutto, è un
giorno di lutto. Poi arriva il giorno
in cui lo sfiora il sospetto che non
potrà sapere molte cose; ed infine
quel pomeriggio d’autunno in cui gli
sembrerà di non aver mai saputo
troppo bene quel che riteneva di
conoscere.

Julien Green

In questo capitolo indichiamo in maniera informale e succinta alcune direzioni in cui si può estendere
la teoria delle equazioni differenziali stocastiche. Forniamo alcuni riferimenti bibliografici per chi volesse
approfondire uno di questi filoni di studio.

24.1 Equazioni stocastiche backward


Nei capitoli precedenti abbiamo esaminato problemi per equazioni differenziali stocastiche (SDE) in cui
è assegnato un dato iniziale. In alcuni applicazioni, per esempio nella teoria del controllo ottimo stocastico
o in finanza matematica, sorgono problemi in cui risulta naturale assegnare un dato finale: si parla in questo
caso di SDE backward o BSDE. L’esempio più elementare è

dYt = 0,


(24.1.1)
YT = η.

Se il dato η ∈ RN non è aleatorio, la (24.1.1) è una semplice ODE con soluzione costante Y ≡ η. La situazio-
ne è profondamente diversa se ambientiamo il problema in uno spazio (Ω, F , P ) su cui è definito un moto
Browniano W con filtrazione standard F W e assumiamo η ∈ mFTW : infatti, per rimanere nell’ambito del
calcolo stocastico classico di Itô, vorremmo che la soluzione Y fosse un processo adattato e quindi la solu-
zione costante uguale a η non è accettabile. Il primo problema è quindi quello di formulare correttamente
il concetto di soluzione di una BSDE.
Per ogni η ∈ L2 (Ω, FTW , P ), il processo adattato che meglio (in norma L2 ) approssima il processo costante
uguale a η è h i
Yt := E η | FtW , t ∈ [0, T ]. (24.1.2)

461
462 CAPITOLO 24. COMPLEMENTI

Da questo punto di vista, il processo Y in (24.1.2) è il candidato naturale ad essere soluzione della BSDE
(24.1.1). Chiaramente non è detto che Y in (24.1.2) verifichi l’equazione dYt = 0. Anzi, poiché Y è una F W -
martingala di quadrato sommabile, per il Teorema 18.5.1 di rappresentazione delle martingale Browniane
esiste ed è unico Z ∈ L2 tale che
Zt ZT ZT
Yt = Y0 + Zs dWs = Y0 + Zs dWs − Zs dWs .
0 0 t
| {z }

Ciò significa che Y verifica la SDE forward



dYt = Zt dW ,

RT t

 (24.1.3)
Y0 = η − Zs dWs .

0

Anche se non sembra ovvio, non è difficile dimostrare che (Y , Z) è l’unica coppia di processi di L2 che
verifica la (24.1.3): infatti se la (24.1.3) fosse soddisfatta anche da (Y ′ , Z ′ ) ∈ L2 allora, posto A = Y − Y ′ e
B = Z − Z ′ , si avrebbe 
dAt = Bt dWt ,


AT = 0.

Per la formula di Itô, si ha


dA2t = 2At dAt + d⟨A⟩t
e quindi
Z T Z T
At = − 2As dAs − B2s ds
t t
da cui " Z T # "Z T #
E A2t + B2s ds =E 2As dAs = 0
t t
dove l’ultima uguaglianza è dovuta al fatto che A, e quindi anche l’integrale stocastico, è una martingala.
In base a quanto appena provato, la seguente definizione è ben posta.

Definizione 24.1.1. Sia W un moto Browniano sullo spazio (Ω, F , P ) con filtrazione standard F W . Si dice
che la coppia (Y , Z) ∈ L2 , unica soluzione della SDE (24.1.3), è la soluzione adattata della BSDE (24.1.1) con
dato finale η ∈ L2 (Ω, FTW , P ).

Osserviamo che per definizione vale 


dYt = Zt dWt ,


YT = η.

In modo analogo si studiano equazioni backward più generali della forma



dYt = f (t, Yt , Zt )dt + Zt dWt ,


YT = η.

Sotto ipotesi standard di Lipschitzianità del coefficiente f = f (t, y, z) nelle variabili (y, z), si prova l’esistenza
e unicità della soluzione adattata (Y , Z): si veda, per esempio, il Teorema 4.2, Capitolo 1 in [79].
Spesso una BSDE è accoppiata a una SDE forward del tipo

dXt = b(t, Xt )dt + σ (t, Xt )dWt .


24.2. FILTRAGGIO STOCASTICO ED EQUAZIONE DEL CALORE STOCASTICA 463

Data u = u(t, x) ∈ C 1,2 ([0, T [×RN ), applicando la formula di Itô a Yt := u(t, Xt ) otteniamo

dYt = (∂t + At )u(t, Xt )dt + Zt dWt

dove At è l’operatore caratteristico di X e

Zt := (∇x u)(t, Xt )σ (t, Xt ).

In particolare, se u è soluzione del problema di Cauchy quasi-lineare



(∂t + At )u(t, x) = f (t, x, u(t, x), ∇x u(t, x)σ (t, x)) (t, x) ∈ [0, T [×RN ,


(24.1.4)
u(T , x) = ϕ(x) x ∈ RN ,

allora (X, Y , Z) risolve il sistema di equazioni forward-backward (FBSDE)





 dXt = b(t, Xt )dt + σ (t, Xt )dWt ,

dYt = f (t, Xt , Yt , Zt )dt + Zt dWt , (24.1.5)




YT = ϕ(XT ).

Sotto opportune ipotesi che garantiscono l’esistenza di una soluzione1 del problema (24.1.4), per costruzio-
ne si ha
u(t, x) = Ytt,x (24.1.6)
dove Y t,x è la soluzione della FBSDE (24.1.5) con dato iniziale Xt = x. La (24.1.6) è chiamata formula di
Feynman-Kac non-lineare perché generalizza la classica formula di rappresentazione della Sezione 20.4.
La motivazione principale per lo studio delle BSDE viene dalla teoria del controllo ottimo stocastico,
a partire dai lavori [20] e [16]; alcune applicazioni alla finanza matematica sono discusse in [37]. I primi
risultati di esistenza e di rappresentazione di tipo Feynman-Kac non-lineare sono dovuti a [92], [96] e [2].
Come testi monografici di riferimento sulla teoria delle equazioni backward indichiamo i libri di Ma e Yong
[79], Yong e Zhou [128], Pardoux e Rascanu [93] e Zhang [130].

24.2 Filtraggio stocastico ed equazione del calore stocastica


In questa sezione accenniamo alcune idee di base della teoria del filtraggio stocastico e, in un ca-
so semplice ed esplicito, introduciamo la nozione di equazione differenziale stocastica alle derivate parziali
(abbreviato in SPDE2 ), che interviene in modo naturale in questo tipo di problemi.
Dato (W , B) un moto Browniano standard bidimensionale, consideriamo il processo

Xtσ := σ Wt + 1 − σ 2 Bt , σ ∈ [0, 1].

Supponiamo che X σ rappresenti un segnale che viene trasmesso ma non è osservabile con precisione a
causa di qualche disturbo nella trasmissione: precisamente, assumiamo di poter osservare precisamente Wt ,
chiamato processo di osservazione, mentre il moto Browniano Bt rappresenta il rumore nella trasmissione.
è facile verificare che X σ è un moto Browniano reale per ogni σ ∈ [0, 1]. Il problema del filtraggio
stocastico consiste nell’ottenere la migliore stima del segnale X σ basandosi sull’osservazione W : in effetti
non è difficile provare che
µX σ |F W = Nσ Wt ,(1−σ 2 )t (24.2.1)
t t

1 Trattandosi di un problema non-lineare, la soluzione u è intesa in un senso generalizzato, per esempio come soluzione viscosa (si
veda, per esempio, il Teorema 2.1, Cap.8 in [79]).
2 Acronimo per Stochastic Partial Differential Equations.
464 CAPITOLO 24. COMPLEMENTI

dove µX σ |F W indica la legge di Xtσ condizionata alla σ -algebra FtW delle osservazioni su W fino al tempo t
t t
(qui F W è la filtrazione standard per W ). Per provare la (24.2.1) basta calcolare la funzione caratteristica
condizionata
σ
 √ 
2
h i
ϕX σ |F W (η) = E eiηXt | FtW = eiησ Wt E eiη 1−σ Bt | FtW =
t t

(per l’indipendenza di W e B)
 √ 
2
= eiησ Wt E eiη 1−σ Bt

da cui la (24.2.1). Osserviamo che in particolare:


• nel caso in cui non ci sia rumore, σ = 1, si ha Xtσ = Wt e µX σ |F W = δWt ossia la legge condizionata
t t
degenera in una distribuzione di Dirac;
• nel caso in cui non ci sia osservazione, σ = 0, allora Xtσ = Bt e la legge condizionata è ovviamente
µX σ |F W = N0,t con densità Gaussiana
t t

1 y2
Γ (s, y) = √ e− 2s , s > 0, y ∈ R. (24.2.2)
2πs

Se 0 ≤ σ < 1 allora Xtσ ha densità condizionata a FtW data da


pt (x) = Γ ((1 − σ 2 )t, x − σ Wt ), t > 0, x ∈ R. (24.2.3)
Se σ > 0, chiaramente la densità condizionata pt (x) è un processo stocastico: dal punto di vista pratico,
avendo a disposizione l’osservazione di Wt e inserendola in (24.2.3), si ottiene l’espressione della legge di
Xtσ stimata (o “filtrata”) in base a tale osservazione. Si noti che pt (x) è una Gaussiana con drift stocastico,
dipendente dall’osservazione, e varianza proporzionale a 1 − σ 2 . La Figura 24.1 rappresenta il grafico di
una simulazione della densità Gaussiana stocastica pt (x).
In analogia col caso non condizionato esaminato nella Sezione 7.5.3 e nell’Osservazione 22.3.3, pt (x) è
soluzione dell’equazione di Kolmogorov forward (di Fokker-Planck) che in questo caso è una SPDE: infatti,
ricordando l’espressione (24.2.3) di pt (x) in funzione di Γ = Γ (s, y) in (24.2.2), per la formula di Itô si ha
dpt (x) = (1 − σ 2 )(∂s Γ )((1 − σ 2 )t, x − σ Wt )dt − σ (∂y Γ )((1 − σ 2 )t, x − σ Wt )dWt
σ2
+ (∂ Γ )((1 − σ 2 )t, x − σ Wt )dt =
2 yy
(poiché Γ risolve l’equazione del calore forward ∂s Γ (s, y) = 12 ∂yy Γ (s, y))
1
= (∂ Γ )((1 − σ 2 )t, x − σ Wt )dt − σ (∂y Γ )((1 − σ 2 )t, x − σ Wt )dWt
2 yy
1
= ∂xx pt (x)dt − σ ∂x pt (x)dWt .
2
In altri termini, la densità condizionata pt (x) è soluzione fondamentale dell’equazione del calore stocastica
1
dpt (x) = ∂ p (x)dt − σ ∂x pt (x)dWt
2 xx t
che, nel caso σ = 0 in cui l’osservazione è nulla, degenera nella classica equazione del calore.
Fra le numerose monografie sulla teoria delle SPDE menzioniamo in particolare i libri di Rozovskii
[106], Kunita [66], Prévôt e Röckner [100], Kotelenez [64], Chow [26], Liu e Röckner [77], Lototsky e
Rozovskii [78] e Pardoux [91].
24.3. INTEGRALE STOCASTICO BACKWARD E SPDE DI KRYLOV 465

Figura 24.1: Grafico di una simulazione della soluzione fondamentale pt (x) dell’equazione del calore
stocastica

24.3 Integrale stocastico backward e SPDE di Krylov


24.4 Proiezione Markoviana e Teorema di Gyöngy
Ricordiamo
√ l’Osservazione10.1.5 in base alla quale se W è un moto Browniano allora i processi W e
ft := tW1 hanno le stesse distribuzioni uno-dimensionali ma chiaramente non sono uguali in legge.
W
466 CAPITOLO 24. COMPLEMENTI
Capitolo 25

Metodi numerici stocastici

25.1 Metodo di Eulero per equazioni ordinarie


25.1.1 Schemi di ordine superiore

25.2 Metodo di Eulero per equazioni stocastiche


25.2.1 Schema di Milstein

25.3 Metodo Monte Carlo


25.3.1 Simulazione
25.3.2 Applicazioni alla risoluzione numerica di PDE
25.3.3 Analisi dell’errore

467
468 CAPITOLO 25. METODI NUMERICI STOCASTICI
Capitolo 26

Esistenza e unicità per PDE paraboliche

Il non poter essere soddisfatto da


alcuna cosa terrena, nè, per dir cosı̀,
dalla terra intera; considerare
l’ampiezza inestimabile dello spazio,
il numero e la mole maravigliosa dei
mondi, e trovare che tutto è poco e
piccino alla capacità dell’animo
proprio; immaginarsi il numero dei
mondi infinito, e l’universo infinito,
e sentire che l’animo e il desiderio
nostro sarebbe ancora più grande che
siı̀ fatto universo; e sempre accusare
le cose d’insufficienza e di nullità, e
patire mancamento e vòto, e però
noia, pare a me il maggior segno di
grandezza e di nobiltà, che si vegga
della natura umana.

Giacomo Leopardi

In questo capitolo presentiamo in maniera per quanto possibile sintetica alcuni risultati di base sul
problema di Cauchy per equazioni differenziali alle derivate parziali (abbreviato nel seguito in PDE, dalla
locuzione anglosassone “partial differential equations”) di tipo parabolico. Le monografie di Friedman
[45], Ladyzhenskaia, Solonnikov e Ural’tseva [67], Oleinik and Radkevic [89] anche se un po’ datate, sono
classici testi di riferimento per una trattazione più completa e approfondita.
Fissato T > 0, indichiamo con (t, x) il punto della striscia

ST := ]0, T [×RN .

Consideriamo un operatore alle derivate parziali del second’ordine della forma


N N
1X X
L := cij (t, x)∂xi xj + bj (t, x)∂xj + a(t, x) − ∂t (26.0.1)
2
i,j=1 j=1

definito per (t, x) ∈ ST . Nel seguito assumeremo che la matrice dei coefficienti (cij ) sia simmetrica e definita
positiva: in tal caso si dice che L in (26.0.1) è un operatore di tipo parabolico forward. Si noti che in un
operatore forward la derivata temporale appare con segno negativo: come già accennato nella Sezione 7.5.2,

469
470 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

questo tipo di operatori intervengono tipicamente in fisica nella descrizione di fenomeni che evolvono nel
tempo, come la diffusione del calore in un corpo.
Ogni operatore forward del tipo (26.0.1) può essere trasformato in un’operatore parabolico backward1 e
viceversa, col cambio di variabili s = T − t: in particolare, sottolineiamo che tutti i risultati che proviamo in
questo capitolo per operatori forward ammettono un’analoga formulazione backward. Più precisamente,
se u è soluzione classica del problema di Cauchy (9.4.3) allora û(s, y) := u(T − s, y) è soluzione classica, in
C 1,2 (ST ) ∩ C(]0, T ] × RN ), del problema di Cauchy con dato finale

Lˆ û(s, y) = fˆ(s, y), (s, y) ∈ ST ,


û(T , y) = ϕ(y), y ∈ RN ,

dove
N N
ˆ 1X X
L := ĉij (s, y)∂yi yj + b̂j (s, y)∂yj + â(s, y) + ∂s .
2
i,j=1 j=1

Per comodità e in vista delle applicazioni all’analisi stocastica, nella Sezione 26.1 raccogliamo i risultati
principali di questo capitolo, relativi all’esistenza e unicità nel caso di operatori di Kolmogorov backward
e forward associati ad una SDE.

26.1 Equazioni di Kolmogorov backward e forward


26.2 Unicità: il principio del massimo
In questa sezione studiamo il problema dell’unicità della soluzione del problema di Cauchy (9.4.3) per
l’operatore forward L in (26.0.1). Un classico esempio dovuto a Tychonoff [122] mostra che il proble-
ma (9.4.3) per l’operatore del calore ammette infinite soluzioni: infatti si verifica che, oltre alla soluzione
identicamente nulla, anche le funzioni del tipo

X x2k k − 1α
uα (t, x) := ∂ e t , α > 1, (26.2.1)
(2k)! t
k=0

sono soluzioni classiche del problema di Cauchy



1
 2 ∂xx uα − ∂t uα = 0 in R>0 × R,


uα (0, ·) = 0 in R.

Tuttavia le soluzioni in (26.2.1) sono in un certo senso “patologiche”, oscillano cambiando segno infinite
volte e hanno una crescita molto rapida per |x| → ∞. Alla luce dell’esempio di Tychonoff, lo studio del-
l’unicità della soluzione del problema (9.4.3) consiste nel determinare opportune classi di funzioni, dette
classi di unicità per L , all’interno delle quali la soluzione, se esiste, è unica. In questa sezione assumiamo
soddisfatte le seguenti ipotesi minimali sui coefficienti di L in (26.0.1):

Ipotesi 26.2.1.

i) per ogni i, j = 1, . . . , N , coefficienti cij , bi e a sono funzioni misurabili a valori reali;

ii) la matrice C (t, x) := (cij (t, x)) è simmetrica e semi-definita positiva per ogni (t, x) ∈ ST . Per questo si
dice che L è un operatore parabolico;
1 In cui la derivata temporale appare col segno positivo.
26.2. UNICITÀ: IL PRINCIPIO DEL MASSIMO 471

iii) il coefficiente a è superiormente limitato: esiste a0 ∈ R tale che

a(t, x) ≤ a0 , (t, x) ∈ ST .

Proveremo che una classe di unicità è data dalle funzioni che crescono non troppo rapidamente all’in-
finito nel senso che soddisfano la stima
2
|u(t, x)| ≤ CeC|x| , (t, x) ∈ ST , (26.2.2)

con C costante positiva. Questo risultato, contenuto nel Teorema 26.2.8, si prova sotto condizioni molto
generali, assumendo l’Ipotesi 26.2.1 e la seguente

Ipotesi 26.2.2. Esiste una costante M tale che

|cij (t, x)| ≤ M, |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M(1 + |x|2 ), (t, x) ∈ ST , i, j = 1, . . . , N .

È possibile determinare un’altra classe di unicità imponendo altre condizioni di crescita sui coefficienti.

Ipotesi 26.2.3. Esiste una costante M tale che

|cij (t, x)| ≤ M(1 + |x|2 ), |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M, (t, x) ∈ ST , i, j = 1, . . . , N .

Il Teorema 26.2.10 mostra che, sotto le Ipotesi 26.2.1 e 26.2.3, una classe di unicità è data dalle funzioni
con crescita al più polinomiale, che soddisfano una stima del tipo

|u(t, x)| ≤ C(1 + |x|p ), (t, x) ∈ ST , (26.2.3)

per certe costanti positive C e p.


Notiamo esplicitamente che le ipotesi precedenti sono talmente deboli da non garantire in generale
l’esistenza della soluzione.

26.2.1 Problema di Cauchy-Dirichlet


In questa sezione studiamo l’operatore L in (26.0.1) su un “cilindro” della forma

DT = ]0, T [×D

dove D è un dominio (insieme aperto e connesso) limitato di RN . Indichiamo con ∂D la frontiera di D e


diciamo che
∂p DT := ({0} × D) ∪ ([0, T [×∂D)
| {z } | {z }
base bordo laterale

è il bordo parabolico di DT . Come in precedenza, C 1,2 (DT ) è lo spazio delle funzioni differenziabili con
continuità in DT al prim’ordine nella variabile t e fino al second’ordine nelle variabili x.

Definizione 26.2.4 (Problema di Cauchy-Dirichlet). Una soluzione classica del problema di Cauchy-Dirichlet
per L su DT è una funzione u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) tale che

L u = f , in DT ,


(26.2.4)
u = ϕ, in ∂p DT ,

dove f ∈ C(DT ) e ϕ ∈ C(∂p DT ) sono funzioni assegnate, chiamate rispettivamente termine noto e dato al
bordo del problema.
472 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

Il risultato principale della sezione, da cui segue l’unicità della soluzione classica del problema (26.2.4)
(cfr. Corollario 26.2.6), è il seguente
Teorema 26.2.5 (Principio del massimo debole). Sotto l’Ipotesi 26.2.1, se u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) è
tale che L u ≥ 0 in DT e u ≤ 0 su ∂p DT , allora si ha u ≤ 0 su DT .
Dimostrazione. Osserviamo anzitutto che non è restrittivo assumere a0 < 0 nell’Ipotesi 26.2.1. Se non lo
fosse, basterebbe provare la tesi per la funzione

uλ (t, x) := e−λt u(t, x) (26.2.5)

che soddisfa
L uλ − λuλ = e−λt L u, (26.2.6)
scegliendo λ > a0 .
Ora procediamo per assurdo. Negando la tesi si avrebbe l’esistenza di un punto (t, x) ∈ DT tale che
u(t, x) > 0: in effetti, possiamo anche assumere che

u(t, x) = max u.
[0,t]×D

Ne viene che
H u(t, x) := (∂xi xj u(t, x)) ≤ 0, ∂xj u(t, x) = 0, ∂t u(t, x) ≥ 0,
per ogni j = 1, . . . , N . Allora esiste una matrice simmetrica e semi-definita positiva M = (mij ) tale che
 N 
 X 
H u(t, x) = −M 2 = − mih mjh 
h=1 i,j

e quindi
N N N
1X X X
L u(t, x) = − cij (t, x) mih mjh + bj (t, x)∂xj u(t, x) + a(t, x)u(t, x) − ∂t u(t, x)
2
i,j=1 h=1 j=1
N
N X
1 X
=− cij (t, x)mih mjh +a(t, x)u(t, x) − ∂t u(t, x)
2
h=1 i,j=1
| {z }
≥0 poiché C =(cij )≥0

≤ a(t, x)u(t, x) < 0,

e questo contraddice l’ipotesi L u ≥ 0 in DT .


Corollario 26.2.6 (Principio del confronto). Assumiamo l’Ipotesi 26.2.1. Siano u, v ∈ C 1,2 (DT ) ∩ C(DT ∪
∂p DT ) tali che L u ≤ L v in DT e u ≥ v su ∂p DT . Allora u ≥ v in DT . In particolare, se esiste, la soluzione
classica del problema di Cauchy-Dirichlet (26.2.4) è unica.
Dimostrazione. Basta applicare il principio del massimo debole alla funzione v − u.
Il seguente utile risultato fornisce una stima del massimo della soluzione del problema di Cauchy-
Dirichlet (26.2.4) in funzione del termine noto f e del dato al bordo ϕ.
Teorema 26.2.7. Se l’operatore L soddisfa l’Ipotesi 26.2.1 allora per ogni u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) vale
 
+  
sup |u| ≤ ea0 T  sup |u| + T sup |L u| , a+0 := max{0, a0 }. (26.2.7)
D T ∂p DTD T
26.2. UNICITÀ: IL PRINCIPIO DEL MASSIMO 473

Dimostrazione. Consideriamo prima il caso a0 ≤ 0 e quindi a+0 = 0. Supponiamo che u e L u siano limitate
rispettivamente su ∂p DT e DT , altrimenti non c’è nulla da provare. Posto

w(t) = sup |u| + t sup |L u|, t ∈ [0, T ],


∂p DT DT

abbiamo
L w = aw − sup |L u| ≤ L u, L (−w) = −aw + sup |L u| ≥ L u,
DT DT

e −w ≤ u ≤ w su ∂p DT . Allora la stima (26.2.7) segue dal principio del confronto, Corollario 26.2.6.
Sia ora a0 > 0. Consideriamo uλ in (26.2.5) con λ = a0 : per quanto appena provato, vale

sup |uλ | ≤ sup |uλ | + T sup |(L − a0 )uλ |.


DT ∂p DT DT

Allora, essendo a0 > 0, otteniamo

e−a0 T sup |u| ≤ sup |e−a0 t u(t, x)| ≤ sup |uλ | + T sup |(L − a0 )uλ | ≤
DT (t,x)∈DT ∂p DT DT

(per la (26.2.6))

≤ sup |e−a0 t u(t, x)| + T sup |e−a0 t L u(t, x)| ≤


(t,x)∈∂p DT (t,x)∈DT

(poiché a0 > 0)

≤ sup |u| + T sup |L u|,


∂p DT DT

da cui segue la tesi.

26.2.2 Problema di Cauchy


Proviamo risultati analoghi a quelli della sezione precedente per il problema di Cauchy (9.4.3).
Teorema 26.2.8 (Principio del massimo debole). Assumiamo le Ipotesi 26.2.1 e 26.2.2. Se u ∈ C 1,2 (ST ) ∩
C([0, T [×RN ) è tale che 
L u ≤ 0, in ST ,


(26.2.8)
u(0, ·) ≥ 0, in RN ,

e verifica la stima
2
u(t, x) ≥ −CeC|x| , (t, x) ∈ [0, T [×RN , (26.2.9)
per una costante positiva C, allora u ≥ 0 in [0, T [×RN .
Di conseguenza, esiste al più una sola soluzione
classica del problema di Cauchy (9.4.3) che verifica la stima (26.2.2) di crescita esponenziale all’infinito.
Notiamo esplicitamente che le Ipotesi 26.2.1 e 26.2.2 sono molto deboli, tanto che per esempio L può
essere un operatore del prim’ordine. Proviamo prima il seguente
Lemma 26.2.9. Sotto l’Ipotesi 26.2.1, se u ∈ C 1,2 (ST ) ∩ C([0, T [×RN ) verifica (26.2.8) ed è tale che

lim inf inf u(t, x) ≥ 0, (26.2.10)


|x|→∞ t∈]0,T [

allora u ≥ 0 su [0, T [×RN .


474 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

Dimostrazione. Come nella prova del Teorema 26.2.5, non è restrittivo assumere a0 < 0 cosicché, per ogni
ε > 0, si ha 
L (u + ε) ≤ 0, in ST ,


u(0, ·) + ε > 0, in RN .

Fissiamo (t0 , x0 ) ∈ ST . Grazie alla condizione (26.2.10), esiste R > |x0 | tale che
u(t, x) + ε > 0, t ∈ ]0, T [, |x| = R,
e dal principio del massimo debole del Teorema 26.2.5, applicato sul cilindro
DT = ]0, T [×{|x| < R},
si deduce che u(t0 , x0 ) + ε ≥ 0. Ne segue che u(t0 , x0 ) ≥ 0, data l’arbitrarietà di ε.
Dimostrazione del Teorema 26.2.8. Proviamo che u ≥ 0 su una striscia ST0 con T0 > 0 che dipende solo dalla
costante M dell’Ipotesi 26.2.2 e dalla costante C in (26.2.9): se necessario, basta poi applicare ripetutamente
tale risultato per provare la tesi sulla striscia ST .
Anzitutto, per capire l’idea generale, diamo la prova nel caso particolare dell’operatore del calore
1
L = ∆ − ∂t ,
2
1
Fissato γ > C, poniamo T0 = 4γ e consideriamo la funzione

γ|x|2
!
1
v(t, x) := N
exp , (t, x) ∈ [0, T0 [×RN ,
(1 − 2γt) 2 1 − 2γt

tale che
2
L v(t, x) = 0 e v(t, x) ≥ eγ|x| .
Dal Lemma 26.2.9 deduciamo che u + εv ≥ 0 per ogni ε > 0, da cui la tesi.
Il caso generale è solo tecnicamente più complicato e sfrutta l’Ipotesi 26.2.2 sui coefficienti dell’opera-
tore. Fissato γ > C e due costanti α, β ∈ R che determineremo in seguito, consideriamo la funzione

γ|x|2
!
1
v(t, x) = exp + βt , 0≤t≤ , x ∈ RN .
1 − αt 2α
Poiché
N
Lv 2γ 2 γ 2γ X αγ|x|2
= ⟨C x, x⟩ + tr C + bi x i + a − − β,
v (1 − αt)2 1 − αt 1 − αt (1 − αt)2
i=1
per l’Ipotesi 26.2.2 è possibile scegliere α, β abbastanza grandi in modo che
Lv
≤ 0. (26.2.11)
v
Posto w := uv , per la condizione (26.2.9), si ha
 
 
lim inf  inf w(t, x) ≥ 0,

|x|→∞ 1
0≤t≤ 2α

e w soddisfa l’equazione
N N
1X X Lu
cij ∂xi xj w + b̂i ∂xi w + âw − ∂t w = ≤ 0,
2 v
i,j=1 i=1
26.3. ESISTENZA: LA SOLUZIONE FONDAMENTALE 475

dove
N ∂x j v
X Lv
b̂i = bi + cij , â = .
v v
j=1

Poiché â ≤ 0 per la (26.2.11), possiamo applicare il Lemma 26.2.9 per concludere che w (quindi anche u) è
non-negativa.

Teorema 26.2.10 (Principio del massimo debole). Assumiamo le Ipotesi 26.2.1 e 26.2.3. Se u ∈ C 1,2 (ST ) ∩
C([0, T [×RN ) verifica (26.2.8) e la stima

u(t, x) ≥ −C(1 + |x|p ), (t, x) ∈ [0, T [×RN , (26.2.12)

per certe costanti positive C e p, allora u ≥ 0 in [0, T [×RN . Di conseguenza, esiste al più una sola soluzione
classica del problema di Cauchy (9.4.3) che verifica la stima (26.2.3) di crescita polinomiale all’infinito.

Dimostrazione. Proviamo solo il caso a0 < 0. Si considera la funzione


 q
v(t, x) = eαt κt + |x|2

e si verifica che per ogni q > 0 è possibile scegliere α, κ tali che L v < 0 su ST . Allora per p < 2q e per ogni
ε > 0 si ha L (u + εv) < 0 su ST e, grazie alla condizione (26.2.12), si può applicare il Lemma 26.2.9 per
dedurre che u + εv ≥ 0 su ST . La tesi segue dall’arbitrarietà di ε.

Proviamo ora l’analogo del Teorema 26.2.7: il seguente risultato fornisce delle stime, in norma L∞ , di
dipendenza della soluzione in termini del dato iniziale e del termine noto. Queste stime giocano un ruolo
cruciale, per esempio, nella prova della stabilità di alcuni metodi numerici.

Teorema 26.2.11. Se l’operatore L soddisfa le Ipotesi 26.2.1 e 26.2.2, allora per ogni u ∈ C 1,2 (ST ) ∩
C([0, T [×RN ) che verifica la stima di crescita esponenziale (26.2.2) vale
 
−a+0 T
a+0 := max{0, a0 }.
 
sup |u| ≤ e sup |u(0, ·)| + T sup |L u| ,
ST
 
[0,T [×RN RN

Dimostrazione. Se a0 < 0 allora, posto

w± = sup |u(0, ·)| + t sup |L u| ± u,


RN ST

si ha 


 L w± = a sup |u(0, ·)| − sup |L u| ± L u ≤ 0, in ST ,
ST


in RN ,

w± (0, ·) ≥ 0,

e chiaramente w± verifica la stima (26.2.9). Segue dal Teorema 26.2.8 che w± ≥ 0 in ST e questo prova la
tesi. D’altra parte, se a0 ≥ 0 allora basta procedere come nella dimostrazione del Teorema 26.2.7.

26.3 Esistenza: la soluzione fondamentale


In questa sezione diamo un risultato di esistenza di soluzioni classiche del problema di Cauchy per
l’operatore L in (26.0.1). Il concetto centrale a questo riguardo è quello di soluzione fondamentale.
476 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

Definizione 26.3.1 (Soluzione fondamentale). Una soluzione fondamentale per l’operatore L in ST è


una funzione Γ = Γ (t0 , x0 ; t, x), con 0 ≤ t0 < t < T e x0 , x ∈ RN , tale che per ogni ϕ ∈ bC(RN ) la funzione
definita da Z
u(t, x) = ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 , t0 < t < T , x ∈ RN , (26.3.1)
RN

e da u(t0 , ·) = ϕ, è soluzione classica (secondo la Definizione 9.4.2) del problema di Cauchy



L u = 0 in ]t0 , T [×RN ,


(26.3.2)
u(t0 , ·) = ϕ in RN .

Una tecnica classica per dimostrare l’esistenza della soluzione fondamentale è il metodo della parametrice
introdotto da E.E. Levi in [76] e poi sviluppato da molti altri autori2 . Si tratta di una procedura costruttiva
abbastanza lunga e complessa che si basa sulla seguente3 Ipotesi 26.3.2 sull’operatore L . Ricordiamo la
definizione dello spazio bC α (ST ) con la norma definita in (9.4.2): sottolineiamo in particolare il fatto che
le funzioni in bC α (ST ) sono Hölderiane solo rispetto alle variabili spaziali.

Ipotesi 26.3.2.

i) cij , bi , a ∈ bC α (ST ) per un certo α ∈]0, 1] e per ogni i, j = 1, . . . , N ;

ii) la matrice C := (cij )1≤i,j≤N è simmetrica e soddisfa la seguente condizione di uniforme parabolicità:
esiste una costante λ0 > 1 tale che

1 2
|η| ≤ ⟨C (t, x)η, η⟩ ≤ λ0 |η|2 , (t, x) ∈ ST , η ∈ RN . (26.3.3)
λ0

Per comodità, assumiamo λ0 abbastanza grande in modo che [cij ]α , [bi ]α , [a]α ≤ λ0 per ogni i, j =
1, . . . , N .

Osservazione 26.3.3. Poniamo


N N
1X X
A := cij (t, x)∂xi xj + bj (t, x)∂xj + a(t, x)
2
i,j=1 j=1

cosicché L = A − ∂t e assumiamo valida l’Ipotesi 26.3.2. Allora sono equivalenti:

i) u ∈ C 1,2 (]t0 , T [×RN ) ed è soluzione classica dell’equazione L u = 0 su ]t0 , T [×RN ;

ii) u ∈ C(]t0 , T [×RN ), è differenziabile con continuità fino al second’ordine nelle variabili x e soddisfa
l’equazione integro-differenziale
Z t
u(t, x) = u(t1 , x) + A u(s, x)ds, t0 < t1 < t < T , x ∈ RN . (26.3.4)
t1

Nel seguente teorema, consideriamo il problema di Cauchy con termine noto f che soddisfa le seguenti
condizioni di crescita e di Hölderianità locale.
2 Si vedano, per esempio, i lavori di Pogorzelski [98] e Aronson [4] sulla costruzione della soluzione fondamentale. Il libro di
Friedman [46] costituisce tuttora un testo classico di riferimento per il metodo della parametrice e la fonte principale a cui ci siamo
ispirati per la nostra presentazione.
3 È possibile assumere ipotesi leggermente più deboli: al riguardo si veda la Sezione 6.4 in [46]. In particolare, la condizione
di continuità nel tempo è solo di comodo: i risultati di questa sezione si estendono senza difficoltà al caso di coefficienti che siano
misurabili in t; in tal caso, la PDE va intesa in senso integro-differenziale, come in (26.3.4).
26.3. ESISTENZA: LA SOLUZIONE FONDAMENTALE 477

Ipotesi 26.3.4. f ∈ C(]t0 , T [×RN ) ed esiste β > 0 tale che:

i)
2
c1 ec2 |x|
|f (t, x)| ≤ , (t, x) ∈]t0 , T [×RN , (26.3.5)
(t − t0 )1−β
1
dove c1 , c2 sono costanti positive con c2 < 4λ0 T ;

ii) per ogni n ∈ N, esiste una costante κn tale che

|x − y|β
|f (t, x) − f (t, y)| ≤ κn β
, t0 < t < T , |x|, |y| ≤ n. (26.3.6)
(t − t0 )1− 2

Il risultato principale del capitolo è il seguente

Teorema 26.3.5. [!!] Sotto l’Ipotesi 26.3.2, esiste una soluzione fondamentale Γ per L in ST . Inoltre:

i) Γ = Γ (t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Per ogni
(t0 , x0 ) ∈ [0, T [×RN , Γ (t0 , x0 ; ·, ·) ∈ C 1,2 (]t0 , T [×RN ) e valgono le seguenti stime Gaussiane: per ogni
λ > λ0 , dove λ0 è la costante dell’Ipotesi 26.3.2, esiste una costante positiva c = c(T , N , λ, λ0 , α) tale
che

Γ (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) , (26.3.7)


c
∂xi Γ (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (26.3.8)
t − t0
∂x x Γ (t0 , x0 ; t, x) + |∂t Γ (t0 , x0 ; t, x)| ≤ c G (λ(t − t0 ), x − x0 )

i j
(26.3.9)
t − t0

per ogni (t, x) ∈]t0 , T [×RN , dove G è la funzione Gaussiana in (26.4.1). Inoltre, esistono due costanti
positive λ̄, c̄ che dipendono solo da T , N , λ0 , α e per cui vale
 
Γ (t0 , x0 ; t, x) ≥ c̄ G λ̄(t − t0 ), x − x0 (26.3.10)

per ogni (t, x) ∈]t0 , T [×RN ;

ii) per ogni f che soddisfa l’Ipotesi 26.3.4 e ϕ ∈ bC(RN ), la funzione definita da
Z Z tZ
u(t, x) = ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 − f (s, y)Γ (s, y; t, x)dyds, t 0 < t < T , x ∈ RN , (26.3.11)
RN t0 RN

e da u(t0 , ·) = ϕ, è soluzione classica del problema di Cauchy



L u = f in ]t0 , T [×RN ,


(26.3.12)
u(t0 , ·) = ϕ in RN .

La (26.3.11) è usualmente chiamata4 formula di Duhamel;

iii) vale l’equazione di Chapman-Kolmogorov


Z
Γ (t0 , x0 ; t, x) = Γ (t0 , x0 ; s, y)Γ (s, y; t, x)dy, 0 ≤ t0 < s < t < T , x, x0 ∈ RN ;
RN
4 La formula di Duhamel può essere interpretata come una “versione forward” della formula di Feynman-Kac (20.4.6).
478 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

iv) se il coefficiente a è costante si ha


Z
Γ (t0 , x0 ; t, x)dx0 = ea(t−t0 ) , t ∈]t0 , T [, x ∈ RN , (26.3.13)
RN

e in particolare se a ≡ 0 allora Γ (t0 , ·; t, x) è una densità.


La dimostrazione del Teorema 26.3.5 è lunga e complessa ed è fornita nella Sezione 26.4 insieme a
numerosi risultati preliminari.

26.4 Il metodo della parametrice


In questa sezione proviamo il Teorema 26.3.5. Consideriamo L in (26.0.1) e assumiamo che verifichi
l’Ipotesi 26.3.2. L’idea principale del metodo della parametrice è di costruire una soluzione fondamentale
per approssimazioni successive utilizzando come primo termine di approssimazione la cosiddetta parame-
trice: essa è la soluzione fondamentale Gaussiana di un operatore del calore ottenuto da L calcolando i
coefficienti in un punto fissato y, lasciando libera la variabile temporale.
Notazione 26.4.1. Data una matrice C costante N × N , simmetrica e definita positiva, poniamo
1 1 −1
G(C, x) = p e− 2 ⟨C x,x⟩ , x ∈ RN .
(2π)N det C
Notiamo che
N
1X
Cij ∂xi xj G(tC, x) = ∂t G(tC, x), t > 0, x ∈ RN .
2
i,j=1

Nel caso in cui C sia la matrice identità, C = IN , per semplicità scriviamo


1 |x|2
G(t, x) ≡ G(tIN , x) = N
e− 2t , t > 0, x ∈ RN , (26.4.1)
(2πt) 2

per indicare l’usuale Gaussiana standard, soluzione dell’equazione del calore 21 ∆G(t, x) = ∂t G(t, x).
Fissato y ∈ RN , introduciamo l’operatore Ly ottenuto calcolando i coefficienti di L in y e annullando i
termini di ordine inferiore al secondo:
N
1X
Ly := cij (t, y)∂xi xj − ∂t .
2
i,j=1

L’operatore Ly agisce nelle variabili (t, x) e ha i coefficienti che dipendono solo dalla variabile temporale t,
essendo y fissato. Grazie all’Ipotesi 26.3.2 e in particolare al fatto che la matrice C = (cij ) è uniformemente
definita positiva, si verifica che la soluzione fondamentale di Ly ha la seguente espressione esplicita
Zt
Γy (t0 , x0 ; t, x) = G(Ct0 ,t (y), x − x0 ), Ct0 ,t (y) := C (s, y)ds, (26.4.2)
t0

per 0 ≤ t0 < t < T e x0 , x ∈ RN . Definiamo la parametrice per L come


P(t0 , x0 ; t, x) := Γx0 (t0 , x0 ; t, x), 0 ≤ t0 < t < T , x0 , x ∈ RN . (26.4.3)
Secondo il metodo della parametrice si cerca la soluzione fondamentale di L nella forma
Z tZ
Γ (t0 , x0 ; t, x) = P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds (26.4.4)
t0 RN
26.4. IL METODO DELLA PARAMETRICE 479

dove Φ è una funzione incognita da determinare imponendo che valga5 L Γ (t0 , x0 ; t, x) = 0. Formalmente,
da (26.4.4) si ha6
Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x) (26.4.5)
t0 RN

da cui si ricava l’equazione per Φ


Z tZ
Φ(t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds (26.4.6)
t0 RN

valida per 0 ≤ t0 < t < T e x0 , x ∈ RN . Per approssimazioni successive si ottiene



X
Φ(t0 , x0 ; t, x) = (L P)k (t0 , x0 ; t, x) (26.4.7)
k=1

dove
(L P)1 (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x),
Z tZ
(26.4.8)
(L P)k+1 (t0 , x0 ; t, x) = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds, k ∈ N.
t0 RN

Nella Sezione 26.4.2 proviamo la seguente


Proposizione 26.4.2. La serie in (26.4.7) converge e definisce Φ = Φ(t0 , x0 ; t, x) che è una funzione continua
di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN , e risolve l’equazione (26.4.6). Inoltre, per ogni λ > λ0 esiste una
costante positiva c = c(T , N , λ, λ0 ) tale che
c
|Φ(t0 , x0 ; t, x)| ≤ α G(λ(t − t0 ), x − x0 ), (26.4.9)
(t − t0 )1− 2
α
c |x − y| 2
Φ(t0 , x0 ; t, x) − Φ(t0 , x0 ; t, y) ≤ α (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 )) (26.4.10)
(t − t0 )1− 4

per ogni 0 ≤ t0 < t < T e x, y, x0 ∈ RN .

26.4.1 Stime Gaussiane


In questa sezione proviamo alcune stime preliminari per nuclei Gaussiani.
Notazione 26.4.3. Assumiamo la Convenzione 19.2.3 per indicare la dipendenza delle costanti. Inoltre,
poiché dovremo provare numerose stime, per comodità nelle dimostrazioni indicheremo con c una costante
generica il cui valore può variare da riga a riga: dove necessario, specificheremo esplicitamente le quantità
da cui c dipende.
Lemma 26.4.4. Per ogni p > 0 e λ > λ0 esiste una costante c = c(p, N , λ, λ0 ) tale che
!p
|x|
√ G(λ0 t, x) ≤ c G(λt, x), t > 0, x ∈ RN .
t
5 Si ricordi che L agisce nelle variabili (t, x).
6 L’ultimo termine nel membro a destra della (26.4.5) deriva dall’applicare ∂ all’estremo dell’integrale in ds di (26.4.4) da cui si
t
otterrebbe Z
Φ(t0 , x0 ; t, y)P(t, y; t, x)dy = Φ(t0 , x0 ; t, x)
RN
poiché formalmente P(t, y; t, x)dy = δx (dy) dove δx indica la delta di Dirac centrata in x.
480 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

|x|
Dimostrazione. Posto per semplicità z = √ , abbiamo
t
!N
zp z2
!
λ
zp G(λ0 t, x) = N
exp − = g(z)G(λt, x)
(2πλ0 t) 2 2λ0 λ0

dove
1 1 κz2
g(z) := zp e− − > 0, 2 , κ= z ∈ R+ ,
λ0 λ
q
p
 p p
assume il massimo globale in z0 = κ in cui vale g(z0 ) = eκ 2 .

Lemma 26.4.5. Consideriamo L in (26.0.1) e assumiamo che verifichi l’Ipotesi 26.3.2. Per G e Γy , definiti
rispettivamente in (26.4.1) e (26.4.2), vale

1  t−t 
G λ0
0
, x − x0 ≤ Γy (t0 , x0 ; t, x) ≤ λN
0 G (λ0 (t − t0 ), x − x0 ) (26.4.11)
λN
0

per ogni 0 ≤ t0 < t < T e x, x0 , y ∈ RN , dove λ0 è la costante dell’Ipotesi 26.3.2. Inoltre, per ogni λ > λ0 esiste
una costante positiva c = c(T , N , λ, λ0 ) tale che
c
∂xi Γy (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (26.4.12)
t − t0
∂x x Γy (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) ,

i j
(26.4.13)
t − t0
c
∂x x x Γy (t0 , x0 ; t, x) ≤ G (λ(t − t0 ), x − x0 ) , (26.4.14)
i j k
(t − t0 )3/2

Γy (t0 , x0 ; t, x) − Γη (t0 , x0 ; t, x) ≤ c|y − η|α G (λ(t − t0 ), x − x0 ) , (26.4.15)
c|y − η|α
∂xi Γy (t0 , x0 ; t, x) − ∂xi Γη (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (26.4.16)
t − t0
α
∂x x Γy (t0 , x0 ; t, x) − ∂x x Γη (t0 , x0 ; t, x) ≤ c|y − η| G (λ(t − t0 ), x − x0 ) ,

i j i j
(26.4.17)
t − t0

per ogni 0 ≤ t0 < t < T , x, x0 , y, η ∈ RN e i, j, k = 1, . . . , N .


Dimostrazione. Per la definizione di Ct0 ,t (y) in (26.4.2) e per l’ipotesi di uniforme parabolicità (26.3.3) si ha

t − t0 2
|η| ≤ ⟨Ct0 ,t (y)η, η⟩ ≤ λ0 (t − t0 )|η|2 (26.4.18)
λ0

e di conseguenza vale

|η|2 λ0 |η|2
≤ ⟨Ct−1
0 ,t
(y)η, η⟩ ≤ (26.4.19)
λ0 (t − t0 ) t − t0

e anche
!N
t − t0
≤ det Ct0 ,t (y) ≤ λN N
0 (t − t0 ) . (26.4.20)
λ0

La (26.4.19) segue dal fatto che se A, B sono matrici simmetriche e definite positive allora la disuguaglianza
fra forme quadratiche A ≤ B (ossia ⟨Aη, η⟩ ≤ ⟨Bη, η⟩ per ogni η ∈ RN ) implica B−1 ≤ A−1 . La (26.4.20)
segue dal fatto che il minimo e massimo autovalore di una matrice simmetrica C sono rispettivamente
26.4. IL METODO DELLA PARAMETRICE 481

min⟨Cη, η⟩ e max⟨Cη, η⟩ =: ∥C∥ dove ∥C∥ è la norma spettrale di C. Notiamo che le (26.4.18)-(26.4.19) si
|η|=1 |η|=1
riscrivono rispettivamente nella forma
t − t0 1 λ
≤ ∥Ct0 ,t (y)∥ ≤ λ0 (t − t0 ), ≤ ∥Ct−1
0 ,t
(y)∥ ≤ 0 . (26.4.21)
λ0 λ0 (t − t0 ) t − t0
Le stime (26.4.11) seguono allora direttamente dalla definizione di Γy (t0 , x0 ; t, x).
Per quanto riguarda la (26.4.12), posto ∇x = (∂x1 , . . . , ∂xN ), si ha

∇x Γy (t0 , x0 ; t, x) = |Ct−1
0 ,t
(y)(x − x0 )|Γy (t0 , x0 ; t, x)
≤ ∥Ct−1
0 ,t
(y)∥ |x − x0 |Γy (t0 , x0 ; t, x) ≤

(per la seconda stima in (26.4.21))


!
λ0 |x − x0 |
≤√ √ Γy (t0 , x0 ; t, x) ≤
t − t0 t − t0
(per la (26.4.11) e il Lemma 26.4.4)
c
≤√ G(λ(t − t0 ), x − x0 ).
t − t0
Le (26.4.13) e (26.4.14) si provano in modo completamente analogo.
Usando l’espressione esplicita di Γy , la (26.4.15) è diretta conseguenza delle seguenti stime:

1 1 c|y − η|α
p − p ≤ p , (26.4.22)
det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y)

1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ c|y − η|α e− 2λ(t−t0 ) . (26.4.23)

Per quanto riguarda la (26.4.22), si ha



1 1 1 det Ct0 ,t (y) − det Ct0 ,t (η)
p −p = p p p p ≤
det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y) + det Ct0 ,t (η)

(per la (26.4.20))

λN
0
det Ct0 ,t (y) − det Ct0 ,t (η)
≤p
det Ct0 ,t (y) (t − t0 )N
λN
! !
0
1 1
=p det Ct0 ,t (y) − det Ct0 ,t (y) ≤
det Ct0 ,t (y) t − t0 t − t0

(poiché | det A − det B| ≤ c∥A − B∥ dove ∥ · ∥ indica la norma spettrale e c è una costante che dipende solo da
∥A∥, ∥B∥ e dalla dimensione delle matrici)

c 1 
≤p
Ct0 ,t (y) − Ct0 ,t (η)
det Ct0 ,t (y) t − t0

e la (26.4.22) segue dall’Ipotesi 26.3.2, in particolare dalla condizione di Hölderianità dei coefficienti cij .
Per quanto riguarda la (26.4.23), per il teorema del valor medio e la (26.4.19) si ha
1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ ⟨C −1 (y)x, x⟩ − ⟨C −1 (η)x, x⟩ e− 2λ0 (t−t0 )

t0 ,t t0 ,t
482 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

2
− 2λ |x|(t−t
≤ ∥Ct−1
0 ,t
(y) − Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤

(per l’identità A−1 − B−1 = A−1 (B − A)B−1 )


2
− 2λ |x|(t−t
≤ c∥Ct−1
0 ,t
(y)∥ ∥Ct0 ,t (y) − Ct0 ,t (η)∥ ∥Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤

(per la (26.4.21))

1   |x|2 − |x|2
≤ c Ct0 ,t (y) − Ct0 ,t (η) e 2λ0 (t−t0 ) ≤
t − t0 t − t0
(per l’ipotesi di di Hölderianità dei coefficienti cij e per il Lemma 26.4.4)
2
|x|
− 2λ(t−t
≤ c|y − η|α e 0)

e questo è sufficiente a provare la (26.4.23) e quindi la (26.4.15).


La prova delle stime (26.4.16) e (26.4.17) è simile: per esempio, si ha

∇x Γy (t0 , x0 ; t, x) − ∇x Γη (t0 , x0 ; t, x) = Ct−1 0 ,t
(y)(x − x0 )Γy (t0 , x0 ; t, x) − Ct−10 ,t
(η)(x − x0 )Γη (t0 , x0 ; t, x)
 
≤ Ct−1 0 ,t
(y) − C −1
t0 ,t (η) (x − x )
0 Γy (t0 , x0 ; t, x)


+ C −1 (η)(x − x ) Γ (t , x ; t, x) − Γ (t , x ; t, x)
t0 ,t 0 y 0 0 η 0 0

e la (26.4.16) si prova con argomenti simili a quelli usati in precedenza. In modo analogo si prova la
(26.4.17).

26.4.2 Dimostrazione della Proposizione 26.4.2


Grazie al Lemma 26.4.5 possiamo stimare i termini (L P)k in (26.4.8) del metodo della parametrice.
Lemma 26.4.6. Per ogni λ > λ0 esiste una costante positiva c = c(T , N , λ, λ0 ) tale che
mk
|(L P)k (t0 , x0 ; t, x)| ≤ αk
G(λ(t − t0 ), x − x0 ) (26.4.24)
(t − t0 )1− 2

per ogni k ∈ N, 0 ≤ t0 < t < T e x, x0 ∈ RN , dove


  k
cΓE α2
mk =  
ΓE αk
2

e ΓE indica la funzione Gamma di Eulero.


Dimostrazione. Anzitutto osserviamo che per l’Ipotesi 26.3.2 si ha

cij (t, x) − cij (t, x0 ) ≤ λ0 |x − x0 |α , 0 ≤ t < T , x, x0 ∈ RN , i, j = 1, . . . , N . (26.4.25)

Per k = 1 abbiamo

|L P(t0 , x0 ; t, x)| = (L − Lx0 )P(t0 , x0 ; t, x)
N N
1 X   X
b (t, x)∂ Γ (t , x ; t, x)
≤ c
ij (t, x) − cij (t, x 0 ) ∂ Γ (t ,
xi xj x0 0 0 x ; t, x) + i xi x0 0 0
2

i,j=1 i=1
26.4. IL METODO DELLA PARAMETRICE 483

+ |a(t, x)|Γx0 (t0 , x0 ; t, x).

λ0 +λ
Il primo termine è il più delicato: per le stime (26.4.25) e (26.4.13), per λ′ = 2 si ha
α
cij (t, x) − cij (t, x0 ) ∂x x Γx (t0 , x0 ; t, x) ≤ c |x − x0 | G(λ′ (t − t0 ), x − x0 ) ≤
 
i j 0
t − t0

(per il Lemma 26.4.4)


c
≤ α G(λ(t − t0 ), x − x0 ).
(t − t0 )1− 2

Gli altri termini si stimano facilmente usando l’ipotesi di limitatezza dei coefficienti e la stima (26.4.12)
delle derivate prime:
!
1
bi (t, x)∂xi Γx0 (t0 , x0 ; t, x) + |a(t, x)|Γx0 (t0 , x0 ; t, x) ≤ c √ + 1 G(λ(t − t0 ), x − x0 ).
t − t0

Questo è sufficiente a provare la (26.4.24) nel caso k = 1.


Ora procediamo per induzione e, supposta vera la tesi per k, la proviamo per k + 1:
Z tZ
|(L P)k+1 (t0 , x0 ; t, x)| ≤ (L P)k (t0 , x0 ; s, y) L P(s, y; t, x) dyds
t0 RN
Z t Z
mk m1
≤ αk α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 )1− 2 (t − s)1− 2 RN

(per l’equazione di Chapman-Kolmogorov (7.4.4))


Z t
mk m1
= G(λ(t − t0 ), x − x0 ) ds
1− αk α
t0 (s − t0 ) 2 (t − s)1− 2

e la tesi segue dalle proprietà della funzione Gamma di Eulero.

Osservazione 26.4.7. L’equazione di Chapman-Kolmogorov è uno strumento cruciale nel metodo della
parametrice: essa si prova con un calcolo diretto o, in alternativa, come conseguenza del risultato di unicità
del Teorema 26.2.8. Infatti, per t0 < s < t < T e x, x0 , y ∈ RN , si ha che le funzioni u1 (t, x) := G(t − t0 , x − x0 ) e
Z
u2 (t, x) = G(s − t0 , y − x0 )G(t − s, x − y)dy
RN

sono entrambe soluzioni limitate del problema di Cauchy



1
 2 ∆u − ∂t u = 0

 in ]s, T [×RN ,
u(s, y) = G(s − t0 , y − x0 ) per y ∈ RN ,

e quindi sono uguali.

Lemma 26.4.8. Sia κ > 0. Dato κ1 ∈]0, κ[ esiste una costante positiva c tale che valga
|η−x0 |2 |y−x0 |2
e−κ t ≤ ce−κ1 t (26.4.26)

per ogni t > 0 e x0 , y, η ∈ RN tali che |y − η|2 ≤ t.


484 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

Dimostrazione. Anzitutto, per ogni ε > 0 e a, b ∈ R, valgono le disuguaglianze elementari

b2
2|ab| ≤ εa2 + ,
ε
e
1
 
(a + b)2 ≤ (1 + ε)a2 + 1 + b2 .
ε
La (26.4.26) segue dal fatto che

|y − x0 |2 |η − x0 |2 1 |y − η|2 ((1 + ε)κ1 − κ) |η − x0 |2


 
κ1 −κ ≤ κ1 1 + + ≤
t t ε t t

(poiché |y − η|2 ≤ t per ipotesi e per ε sufficientemente piccolo, essendo κ1 < κ)

1
 
≤ κ1 1 + .
ε

Dimostrazione della Proposizione 26.4.2. Per ogni λ > λ0 si ha



X
|Φ(t0 , x0 ; t, x)| ≤ |(L P)k (t0 , x0 ; t, x)| ≤
k=1

(per la stima (26.4.24))



X mk
≤ αk
G(λ(t − t0 ), x − x0 )
(t − t0 )1− 2
k=1
c
≤ α G(λ(t − t0 ), x − x0 )
(t − t0 )1− 2

mk r k−1 ha raggio di convergenza in-
P
con c = c(T , N , λ, λ0 ) costante positiva, poiché la serie di potenze
k=1
finito. Questo prova la (26.4.9). La convergenza della serie è uniforme in (t0 , x0 , t, x) se t − t0 ≥ δ > 0, per
ogni δ > 0 sufficientemente piccolo, e di conseguenza Φ(t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per
0 ≤ t0 < t < T e x, x0 ∈ RN . Inoltre, scambiando i segni di serie ed integrale, si ha
Z tZ ∞ Z tZ
X
Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds
t0 RN k=1 t0 RN
X∞
= (L P)k (t0 , x0 ; t, x)
k=2
= Φ(t0 , x0 ; t, x) − L P(t0 , x0 ; t, x)

e quindi Φ risolve l’equazione (26.4.6).


Per quanto riguarda la (26.4.10), dimostriamo prima la stima

|L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y)| ≤


c |x − y|α/2 (26.4.27)
≤ (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1−α/4
26.4. IL METODO DELLA PARAMETRICE 485

per ogni λ > λ0 , 0 ≤ t0 < t < T e x, y, x0 ∈ RN , con c = c(T , N , λ, λ0 ) > 0. Ora, se |x − y|2 > t − t0 allora la
(26.4.27) segue direttamente dalla (26.4.24) con k = 1.
Per studiare il caso |x − y|2 ≤ t − t0 , osserviamo che

L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y) = (L − Lx0 )P(t0 , x0 ; t, x) − (L − Lx0 )P(t0 , x0 ; t, y) = F1 + F2

dove
N
1 X 
F1 = (cij (t, x) − cij (t, x0 ))∂xi xj P(t0 , x0 ; t, x) − (cij (t, y) − cij (t, x0 ))∂yi yj P(t0 , x0 ; t, y)
2
i,j=1
N
1X
= (cij (t, x) − cij (t, y))∂xi xj P(t0 , x0 ; t, x)
2
i,j=1
| {z }
=:G1
N
1 X  
+ (cij (t, y) − cij (t, x0 )) ∂xi xj P(t0 , x0 ; t, x) − ∂yi yj P(t0 , x0 ; t, y) ,
2
i,j=1
| {z }
=:G2
N 
X 
F2 = bj (t, x)∂xj P(t0 , x0 ; t, x) − bj (t, y)∂yj P(t0 , x0 ; t, y) + a(t, x)P(t0 , x0 ; t, x) − a(t, y)P(t0 , x0 ; t, y).
j=1

Per l’ipotesi di Hölderianità dei coefficienti e la stima Gaussiana (26.4.13), sotto la condizione |x −y|2 ≤ t −t0
si ha α
c |x − y|α c |x − y| 2
|G1 | ≤ G (λ(t − t0 ), x − x0 ) ≤ α G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− 4
Per quanto riguarda G2 , usiamo ancora l’Hölderianità dei coefficienti e combiniamo il teorema del valor
medio (con η che appartiene al segmento di estremi x, y) con la stima Gaussiana (26.4.14) delle derivate
terze: otteniamo
c |x − y| λ + λ0
 
|G2 | ≤ |y − x0 |α 3
G (t − t0 ), η − x 0 ≤
(t − t0 ) 2 2

(essendo |x − y|2 ≤ t − t0 e per il Lemma 26.4.8)


α
c |x − y| 2 λ + λ0
 
≤ 1+ α4
|y − x0 |α G (t − t0 ), y − x0 ≤
(t − t0 ) 2

(per il Lemma 26.4.4)


α
c |x − y| 2
≤ α G (λ(t − t0 ), y − x0 ) .
(t − t0 )1− 4

Una stima simile si ottiene per F2 , utilizzando l’Hölderianità dei coefficienti bj e a. Questo conclude la
prova della (26.4.27).
Proviamo ora la (26.4.10) usando il fatto che Φ risolve l’equazione (26.4.6), per cui si ha

Φ(t0 , x0 ; t, x) − Φ(t0 , x0 ; t, y) = L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y)


486 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
Z tZ
+ Φ(t0 , x0 ; s, η) (L P(s, η; t, x) − L P(s, η; t, y)) dηds .
t0 RN
| {z }
=:I(t0 ,x0 ;t,x,y)

Grazie alla (26.4.27) è sufficiente stimare il termine I(t0 , x0 ; t, x, y): ancora per le stime (26.4.9) e (26.4.27)
otteniamo
t α
Z c |x − y| 2
I(t0 , x0 ; t, x, y) ≤ α α ·
t0 (s − t0 )1− 2 (t − s)1− 4
Z
· G(λ(s − t0 ), η − x0 ) (G(λ(t − s), x − η) + G(λ(t − s), y − η)) dηds =
RN

(per l’equazione di Chapman-Kolmogorov)

t
c |x − y|α/2
Z
= α α ds (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
t0 (s − t0 )1− 2 (t − s)1− 4
c |x − y|α/2
= 3α
(G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1− 4

data la formula generale


Z t
1 Γ (1 − β) ΓE (1 − γ)
ds = E (t − t0 )1−β−γ (26.4.28)
t0 (s − t0 )β (t − s)γ ΓE (2 − β − γ)

valida per ogni β, γ < 1.

26.4.3 Stime del potenziale


Assumiamo l’Ipotesi 26.3.2 e ricordiamo la definizione (26.4.3) di parametrice. In questa sezione con-
sideriamo il cosiddetto potenziale
Z tZ
Vf (t, x) := f (s, y)P(s, y; t, x)dyds, (t, x) ∈]t0 , T [×RN , (26.4.29)
t0 RN

dove f ∈ C(]t0 , T [×RN ) soddisfa l’Ipotesi 26.3.4 di crescita e Hölderianità locale. Nel seguito sarà utile la
seguente

Osservazione 26.4.9. Poniamo


(x−y)2
Z
I(t, x) = e− t dy, t > 0, x ∈ R.
R

Per il classico teorema di scambio di segni di derivata e integrale, per ogni k ∈ N esistono e sono continue
le derivate
|x−y|2 |x−y|2
Z Z
∂kx I(t, x) = ∂kx e− t dy, ∂t I(t, x) = ∂t e− t dy.
RN RN

Il risultato principale della sezione è la seguente


26.4. IL METODO DELLA PARAMETRICE 487

Proposizione 26.4.10. La definizione (26.4.29) è ben posta e Vf ∈ C(]t0 , T [×RN ). Inoltre, per ogni i, j =
1, . . . , N esistono e sono continue su ]t0 , T [×RN le derivate
Z tZ
∂xi Vf (t, x) = f (s, y)∂xi P(s, y; t, x)dyds, (26.4.30)
t0 RN
Z tZ
∂xi xj Vf (t, x) = f (s, y)∂xi xj P(s, y; t, x)dyds, (26.4.31)
t0 RN
Z tZ
∂t Vf (t, x) = f (t, x) + f (s, y)∂t P(s, y; t, x)dyds. (26.4.32)
t0 RN

Dimostrazione. Poniamo
Z
I(s; t, x) := f (s, y)Γy (s, y; t, x)dy, t 0 ≤ s < t < T , x ∈ RN ,
RN

cosicché Z t
Vf (t, x) = I(s; t, x)ds.
t0
Per la stima (26.4.11) e l’ipotesi (26.3.5), si ha

c1 λN |x−y|2
Z
0 c2 |y|2 − 2λ
|I(s; t, x)| ≤ e 0 (t−s) dy =
N
(s − t0 )1−β (2πλ0 (t − s)) 2 RN

x−y
(col cambio di variabili z = √ e posto c0 = c1 λN π−N /2 )
2λ0 (t−s)
Z √ 2
c0 c2 x−z 2λ0 (t−s) −|z|2
= e dz ≤
(s − t0 )1−β RN

(posto κ = 1 − 4c2 λ0 T > 0 per ipotesi)


2
ce2c2 |x|
Z
c0 2 2
≤ 1−β
e2c2 |x| e−κ|z| dz ≤ (26.4.33)
(s − t0 ) RN (s − t0 )1−β

con c = c(λ0 , T , N , c1 , c2 ) costante positiva opportuna. Ne segue che la funzione Vf ∈ C(]t0 , T [×RN ) è ben
definita e 2
Vf (t, x) ≤ c(t − t0 )β e2c2 |x| , t0 < t < T , x ∈ RN , (26.4.34)
con β > 0.
[Prova della (26.4.30)] Per l’Osservazione 26.4.9, per t0 ≤ s < t < T si ha
Z
∂xi I(s; t, x) = f (s, y)∂xi P(s, y; t, x)dy ≤
RN

(procedendo come nella prova di (26.4.33), utilizzando la stima (26.4.12))


2
ce2c2 |x|
≤ √ .
(s − t0 )1−β t − s
Questo è sufficiente a provare la (26.4.30) e inoltre, per la (26.4.28) si ha
2
ce2c2 |x|
∂xi Vf (t, x) ≤ 1
, t 0 < t < T , x ∈ RN .
(t − t0 ) 2 −β
488 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

[Prova della (26.4.31)] La prova dell’esistenza della derivata seconda è più complessa poiché ripetendo
1
l’argomento precedente con la stima (26.4.13) si otterrebbe un termine singolare del tipo t−s che non è som-
mabile nell’intervallo [t0 , t]. In maniera più attenta è possibile provare delle stime più precise e uniformi
su ]t0 , T [×Dn per ogni n ∈ N fissato, dove Dn := {|x| ≤ n}.
Supponiamo x ∈ Dn . Anzitutto, come nell’Osservazione 26.4.9, per ogni s < t si ha
Z
∂xi xj I(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy = J(s; t, x) + H(s; t, x)
RN

dove
Z Z
J(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy, H(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy.
Dn+1 RN \Dn+1

Decomponiamo J nella somma di tre termini, J = J1 + J2 + J3 , dove7


Z
J1 (s; t, x) = (f (s, y) − f (s, x)) ∂xi xj Γy (s, y; t, x)dy,
Dn+1
Z    
J2 (s; t, x) = f (s, x) ∂xi xj Γy (s, y; t, x) − ∂xi xj Γη (s, y; t, x) |η=x dy,
Dn+1
Z  
J3 (s; t, x) = f (s, x) ∂xi xj Γη (s, y; t, x) |η=x dy.
Dn+1

Per l’ipotesi di Hölderianità locale di f , essendo x, y ∈ Dn+1 , e la stima (26.4.13), si ha

|x − y|β
Z
c
|J1 (s; t, x)| ≤ β
G (λ(t − s), x − y) dy ≤
(s − t0 )1− 2 Dn+1 t − s
(per il Lemma 26.4.4)
Z
c c
≤ β β
G (2λ(t − s), x − y) dy ≤ β β
,
1− 2 1− 2 1− 2
(s − t0 ) (t − s) Dn+1 (s − t0 ) (t − s)1− 2
con c costante positiva che dipende da κn in (26.3.6), oltre che da T , N , λ e λ0 . Procedendo in modo simile,
utilizzando la (26.4.17) e la (26.3.5), si ha
2 2
cec2 |x| |y − x|α cec2 |x|
Z
|J2 (s; t, x)| ≤ G (λ(t − s), x − y) dy ≤ α .
(s − t0 )1−β Dn+1 t − s (s − t0 )1−β (t − s)1− 2
Ora, notiamo che
∂xi Γη (s, y; t, x) = −∂yj Γη (s, y; t, x)
e quindi
Z   Z  
∂xi xj Γη (s, y; t, x) |η=x dy = − ∂yi xj Γη (s, y; t, x) |η=x dy =
Dn+1 Dn+1

(per il teorema della divergenza, indicando con ν la normale esterna a Dn+1 e con dσ (y) la misura di
superficie sul bordo ∂Dn+1 )
Z  
=− ∂xj Γη (s, y; t, x) |η=x ν(y)dσ (y)
∂Dn+1
 
7 Per chiarezza, il termine ∂
xi xj Γη (s, y; t, x) |η=x si ottiene applicando prima le derivate ∂xi xj Γη (s, y; t, x), tenendo η fissato, e poi
calcolando il risultato ottenuto in η = x. Si noti che, sotto l’Ipotesi 26.3.2, Γη (s, y; t, x) come funzione di η non è differenziabile.
26.4. IL METODO DELLA PARAMETRICE 489

da cui, ancora per la (26.4.12) e la (26.3.5), si ottiene


2 2
cec2 |x| cec2 |x|
Z
1
|J3 (s; t, x)| ≤ √ G (λ(t − s), x − y) dσ (y) ≤ √ .
(s − t0 )1−β ∂Dn+1 t−s (s − t0 )1−β t − s

Infine, per la (26.4.13) si ha


Z
c
|H(s; t, x)| ≤ |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s

(essendo |x − y| ≥ 1 poiché |y| ≥ n + 1 e |x| ≤ n)

|x − y|2
Z
≤c |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s

(per il Lemma 26.4.4, con λ′ > λ, e l’ipotesi (26.3.5) sulla crescita di f )


2
cec|x|
Z
c 2
≤ ec2 |y| G (λ′ (t − s), x − y) dy ≤
(s − t0 )1−β RN (s − t0 )1−β

con c > 0 opportuna, ricordando che c2 < 4λ1 T per ipotesi e scegliendo λ′ − λ0 sufficientemente piccolo. In
0
definitiva, abbiamo provato che, per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato, esiste una costante c tale
che Z
c
|∂xi xj I(s; t, x)| = f (s, y)∂xi xj P(s, y; t, x)dy ≤ β γ
(26.4.35)
R N
(s − t0 ) 2 (t − s)1− 2
1−

dove γ = α ∧ β, da cui anche


c
|∂xi xj Vf (t, x)| ≤ 1 β γ
(t − t0 ) 2 − 2 − 2
grazie alla (26.4.28). Questo conclude la dimostrazione della formula (26.4.31).
[Prova della (26.4.32)] Preliminarmente osserviamo che, come nell’Osservazione 26.4.9, vale
Z
|∂t I(s; t, x)| = f (s, y)∂t Γy (s, y; t, x)dy =


RN

(poiché Γy è soluzione fondamentale di Ly )



Z N
1 X
= f (s, y) cij (t, y)∂xi xj Γy (s, y; t, x)dy ≤
RN 2
i,j=1

(procedendo come nella prova di (26.4.35) e usando l’ipotesi di limitatezza dei coefficienti)
c
≤ γ . (26.4.36)
(s − t0 )1−β (t − s)1− 2

per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato. Ora, si ha

Vf (t + h, x) − Vf (t, x)
Z t Z t+h
I(s; t + h, x) − I(s; t, x) 1
= ds + I(s; t + h, x)ds =: I1 (t, x) + I2 (t, x).
h t0 h h t
490 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

Per il teorema del valor medio, esiste t̂s ∈ [t, t + h] tale che
Zt Zt
I1 (t, x) = ∂t I(s; t̂s , x)ds −−−−−→ ∂t I(s; t, x)ds
t0 h→0 t0

dove il passaggio al limite è giustificato dal teorema della convergenza dominata grazie alla stima (26.4.36).
Per quanto riguarda I2 , si ha
Z t+h Z t+h
1 1
I2 (t, x) − f (t, x) = (I(s; t + h, x) − f (s, x)) ds + (f (s, x) − f (t, x))ds
h t h t

dove il secondo integrale nel membro destro tende a zero per h → 0 essendo f continua, mentre per sti-
mare il primo integrale assumiamo x ∈ Dn e procediamo come nella prova della (26.4.31): precisamente,
scriviamo

1 t+h 1 t+h
Z Z Z
(I(s; t + h, x) − f (s, x)) ds = (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds
h t h t Dn+1
| {z }
=:J1 (t,x)
Z t+h Z
1
+ (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds .
h t RN \Dn+1
| {z }
=:J2 (t,x)

Assumiamo h > 0 per semplicità: per l’ipotesi di Hölderianità di f e la stima (26.4.11) di Γy , si ha

t+h Z
λN κn+1
Z
|J1 (t, x)| ≤ |x − y|β G (λ0 (t + h − s), x − y) dyds ≤
h t Dn+1

(per il Lemma 26.4.4)


Z t+h Z
c β
≤ (t + h − s) 2 G (λ0 (t + h − s), x − y) dy ds −−−−−−+→ 0.
h t Dn+1 h→0
| {z }
≤1

D’altra parte, grazie all’ipotesi (26.3.5) di crescita su f e alla (26.4.11), si verifica facilmente che
Z t+h Z
c 2
|J2 (t, x)| ≤ ec2 |y| G (λ0 (t + h − s), x − y) dyds −−−−−−+→ 0.
h t |x−y|>1 h→0

Questo è sufficiente a concludere la prova della proposizione.

26.4.4 Dimostrazione del Teorema 26.3.5


Dividiamo la prova in alcuni passi.
Passo 1. Per costruzione e per le proprietà di Φ della Proposizione 26.4.2, Γ = Γ (t0 , x0 ; t, x) in (26.4.4) è una
funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Dimostriamo che Γ è soluzione di L . Grazie
alle stime di Φ della Proposizione 26.4.2, applicando la Proposizione 26.4.10 otteniamo
Z tZ
∂xi Γ (t0 , x0 ; t, x) = ∂xi P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)∂xi P(s, y; t, x)dyds,
t0 RN
26.4. IL METODO DELLA PARAMETRICE 491
Z tZ
∂xi xj Γ (t0 , x0 ; t, x) = ∂xi xj P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds,
t0 RN
Z tZ
∂t Γ (t0 , x0 ; t, x) = Φ(t0 , x0 ; s, y)∂t P(s, y; t, x)dyds + Φ(t0 , x0 ; t, x),
t0 RN

per t0 < t < T , x, x0 ∈ RN . Allora si ha


Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x)
t0 RN

da cui si deduce che


L Γ (t0 , x0 ; t, x) = 0, 0 ≤ t0 < t < T , x, x0 ∈ RN , (26.4.37)
poiché, per la Proposizione 26.4.2, Φ risolve l’equazione (26.4.6).
Passo 2. Proviamo la stima Gaussiana dall’alto (26.3.7). Per la definizione (26.4.4) di Γ si ha
Z tZ
Φ(t , x ; s, y) P(s, y; t, x)dyds ≤
|Γ (t0 , x0 ; t, x)| ≤ P(t0 , x0 ; t, x) + 0 0
t0 RN

(per la (26.4.9) e la (26.4.11))

≤ λN G (λ(t − t0 ), x − x0 )
Zt Z
c
+ 1− α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 ) 2 RN

(per l’equazione di Chapman-Kolmogorov)


α
≤ λN G (λ(t − t0 ), x − x0 ) + c(t − t0 ) 2 G(λ(t − t0 ), x − x0 ) (26.4.38)

e questo prova in particolare la stima dall’alto (26.3.7). La (26.3.8) si dimostra in modo completamente
analogo.
Proviamo ora la (26.3.9). Ripetendo la dimostrazione della (26.4.35) con Φ(t0 , x0 ; s, y) al posto di f (s, y) e
utilizzando le stime della Proposizione 26.4.2, si prova l’esistenza di una costante positiva c = c(T , N , λ, λ0 )
tale che
Z
c

N Φ(t ,
0 0x ; s, y)∂ xi xj P(s, y; t, x)dy (s − t )1− α4 (t − s)1− α4 G(λ(t − t0 ), x − x0 ),
≤ t0 ≤ s < t < T , x, x0 ∈ RN .
R 0
(26.4.39)
Dunque per la (26.4.4) e (26.4.31), si ha
Z t Z
∂x x Γ (t0 , x0 ; t, x) ≤ ∂x x P(t0 , x0 ; t, x) +
Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds ≤
i j i j t0 RN

(per la (26.4.13) e la (26.4.39))


!
1 1
≤c + G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− α2

Passo 3. Dimostriamo che Γ è soluzione fondamentale di L . Data ϕ ∈ bC(RN ), consideriamo la funzione u


in (26.3.1). Grazie alle stime (26.3.7)-(26.3.9) si ha
Z
L u(t, x) = ϕ(ξ)L Γ (t0 , ξ; t, x)dξ = 0, 0 ≤ t0 < t < T , x ∈ RN ,
RN
492 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

per la (26.4.37). Per quanto riguarda il dato iniziale, abbiamo


Z Z Z tZ
u(t, x) = ϕ(ξ)P(t0 , ξ; t, x)dξ + ϕ(ξ) Φ(t0 , ξ; s, y)P(s, y; t, x)dyds dξ .
RN RN t0 RN
| {z } | {z }
J(t,x) H(t,x)

Ora, fissato x0 ∈ RN ,
Z   Z
J(t, x) = ϕ(ξ) Γξ (t0 , ξ; t, x) − Γx0 (t0 , ξ; t, x) dξ + ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ
RN RN
| {z }
J1 (t,x)

e, per la (26.4.15), si ha
Z
|J1 (t, x)| ≤ c |ϕ(ξ)||ξ − x0 |α G (λ(t − t0 ), x − ξ) dξ −−−−−−−−−−−−→ 0,
RN (t,x)→(t0 ,x0 )
Z
ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ −−−−−−−−−−−−→ ϕ(x0 ).
RN (t,x)→(t0 ,x0 )

I passaggi al limite si giustificano come nell’Esempio 4.1.3 e, in termini probabilistici, corrispondono alla
convergenza debole della distribuzione normale alla delta di Dirac, al tendere della varianza a zero. D’altra
parte, per la (26.4.38)
Z
α
|H(t, x)| ≤ c(t − t0 ) 2 ϕ(x0 )G(λ(t − t0 ), x − x0 )dx0 −−−−−−−−−−−→ 0.
RN (t,x)→(t0 ,x̄)

Questo prova che u ∈ C([t0 , T [×RN ) e quindi è soluzione classica del problema di Cauchy (26.3.2).
Passo 4. Proviamo che u in (26.3.11) è soluzione classica del problema di Cauchy non omogeneo (26.3.12).
Usiamo la definizione di Γ in (26.4.4) e ci concentriamo sul termine
Z tZ Z tZ
f (s, y)Γ (s, y; t, x)dyds = f (s, y)P(s, y; t, x)dyds
t0 RN t0 RN
Z tZ Z tZ
+ f (s, y) Φ(s, y; τ, η)P(τ, η; t, x)dηdτdyds =
t0 RN s RN

(con la notazione (26.4.29), posto Φ(s, y; τ, η) = 0 per τ ≤ s e scambiando l’ordine di integrazione dell’ultimo
integrale)

= Vf (t, x) + VF (t, x)

dove Z τZ
F(τ, η) := f (s, y)Φ(s, y; τ, η)dyds.
t0 RN

Proviamo fra poco che F soddisfa l’Ipotesi 26.3.4 ed è quindi possibile applicare a Vf e VF la Proposizione
26.4.10 da cui otteniamo
  Z tZ
L Vf (t, x) + VF (t, x) = −f (t, x) − F(t, x) + (f (s, y) + F(s, y)) L P(s, y; t, x)dyds
t0 RN
Z tZ
= −f (t, x) + f (s, y)I(s, y; t, x)dyds
t0 RN
26.4. IL METODO DELLA PARAMETRICE 493

dove Z tZ
I(s, y; t, x) := −Φ(s, y; t, x) + L P(s, y; t, x) + Φ(s, y; τ, η)L P(τ, η; t, x)dηdτ ≡ 0
s RN
per la (26.4.6). Questo prova che
L u(t, x) = f (t, x), 0 ≤ t0 < t < T , x, x0 ∈ RN .
Verifichiamo che F soddisfa l’Ipotesi 26.3.4: per la (26.4.9), le ipotesi su f e la (26.4.28), si ha
2
Z τZ cec2 |y| c 2
F(τ, η) ≤ β α
G(λ(τ − s), η − y)dyds ≤ α+β
ec|η| .
t0 RN (s − t )1− 2 (τ − s)1− 2 (τ − t0 )1− 2
0

Inoltre, per la (26.4.10) si ha


Z τZ 2
α ec2 |y|
F(τ, η) − F(τ, η ′ ) ≤ c|η − η ′ | 2 β α
(G(λ(τ − s), η − y) + G(λ(τ − s), η ′ − y)) dyds
t0 RN (s − t0 )1− 2 (τ − s)1− 4
α
c|η − η ′ | 2  2 ′ 2
≤ α+2β
ec|η| + ec|η | .
(τ − t0 )1− 4

Infine, usando la stima dall’alto (26.3.7) di Γ e procedendo come nella prova della stima (26.4.34), si
prova che
Z tZ
f (s, y)Γ (s, y; t, x)dyds −−−−−−−−−−−→ 0,
t0 RN (t,x)→(t0 ,x̄)

per ogni x̄ ∈ RN . Questo conclude la prova del fatto che u in (26.3.11) è soluzione classica del problema di
Cauchy non omogeneo (26.3.12).
Passo 5. L’equazione di Chapman-Kolmogorov e la formula (26.3.13) si provano come nell’Osservazione
26.4.7, come conseguenza del risultato di unicità del Teorema 26.2.8. In particolare, per quanto provato
nei punti precedenti, se a è costante, le funzioni
Z
u1 (t, x) := ea(t−t0 ) , u2 (t, x) := Γ (t0 , x0 ; t, x)dx0
RN

sono entrambe soluzioni limitate (grazie alla stima (26.4.38)) del problema di Cauchy

L u = 0 in ]t0 , T [×RN ,


u(t0 , ·) = 1 in RN ,

e quindi coincidono.
Passo 6. Come ultimo passo proviamo la stima dal basso di Γ in (26.3.10). Si tratta di un risultato non
banale, per il quale adattiamo una tecnica introdotta da D.G. Aronson che sfrutta alcune classiche stime di
J. Nash: per maggiori dettagli rimandiamo anche alla Sezione 2 in [39]. Qui, al posto delle stime di Nash
utilizziamo altre stime ricavate direttamente dal metodo della parametrice.
Anzitutto, proviamo che Γ ≥ 0: per assurdo, se fosse Γ (t0 , x0 ; t1 , x1 ) < 0 per certi x0 , x1 ∈ RN e 0 ≤ t0 <
t1 < T , allora per continuità si avrebbe
Γ (t0 , y; t1 , x1 ) < 0, |y − x0 | < r,
con r > 0 opportuno. Consideriamo ϕ ∈ bC(RN ) tale che ϕ(y) > 0 per |y − x0 | < r e ϕ(y) ≡ 0 per |y − x0 | ≥ r: la
funzione Z
u(t, x) := ϕ(y)Γ (t0 , y; t, x)dy, t ∈]t0 , T [, x ∈ RN ,
RN
494 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE

è limitata grazie alla stima (26.4.38) di Γ , è tale che u(t1 , x1 ) < 0 ed è soluzione classica del problema di
Cauchy (26.3.2). Questo è assurdo perché contraddice il principio del massimo, Teorema 26.2.8.
Ora osserviamo che per ogni λ > 1 si ha
t
 
G(λt, x) ≤ G , x
λ
√ q
se |x| < cλ t dove cλ = λλN 2 −1 log λ. Allora, per la definizione (26.4.4) si ha

Z Z
t
Γ (t0 , x0 ; t, x) ≥ P(t0 , x0 ; t, x) − Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds ≥
t0 RN

(per la (26.4.11) e procedendo come nella prova della (26.4.38))


1 t − t0
  α
≥ NG , x − x0 − c(t − t0 ) 2 G (λ(t − t0 ), x − x0 ) =
λ λ

(se |x − x0 | ≤ cλ t − t0 )
t − t0
 α
 
≥ λ−N − c(t − t0 ) 2 G , x − x0
λ
1 t − t0
 
≥ G , x − x0 (26.4.40)
2λN λ
 − 2
se 0 < t − t0 ≤ Tλ := 2cλN α ∧ T .
Dati x, x0 ∈ RN e 0 ≤ t0 < t < T , sia m ∈ N la parte intera di

 4|x − x0 |2 T 
 

max  , .

 c2 (t − t ) T 
λ 0 λ

Poniamo
t − t0 x − x0
tk = t0 + k
, x k = x0 + k , k = 1, . . . , m,
m+1 m+1
e osserviamo che, grazie alla scelta di m, si ha
t − t0 T
tk+1 − tk = ≤ ≤ Tλ . (26.4.41)
m+1 m+1
q
cλ t−t0
Inoltre, se yk ∈ D(xk , r) := {y ∈ RN | |xk − y| < r} per ogni k = 1, . . . , m allora, scelto r = 4 m+1 , si ha
r r
|x − x0 | c t − t0 t − t0
|yk+1 − yk | ≤ 2r + |xk+1 − xk | = 2r + ≤ 2r + λ = cλ (26.4.42)
m+1 2 m+1 m+1

= cλ tk+1 − tk . (26.4.43)

Applicando ripetutamente l’equazione di Chapman-Kolmogorov si ha


Z m−1
Y
Γ (t0 , x0 ; t, x) = Γ (t0 , x0 ; t1 , y1 ) Γ (tk , yk ; tk+1 , yk+1 )Γ (tm , ym ; t, x)dy1 . . . dym ≥
RN m k=1

(usando il fatto che Γ ≥ 0)


Z m−1
Y
≥ Γ (t0 , x0 ; t1 , y1 ) 1D(xk ,r) (yk )Γ (tk , yk ; tk+1 , yk+1 )1D(xm ,r) (ym )Γ (tm , ym ; t, x)dy1 . . . dym ≥
RN m k=1
26.4. IL METODO DELLA PARAMETRICE 495

(poiché, per le (26.4.41) e (26.4.43), vale la stima (26.4.40))


Z !
1 t − t0
≥ G , y − x0 ·
(2λN )m+1 RN m λ(m + 1) 1
m−1 ! !
Y t − t0 t − t0
· 1D(xk ,r) (yk )G ,y −y 1 (y )G , x − ym dy1 . . . dym ≥
λ(m + 1) k+1 k D(xm ,r) m λ(m + 1)
k=1

(indicando con ωN il volume della palla unitaria in RN , per la (26.4.42))


! N2 (m+1)
 λcλ2
 
1  m λ(m + 1)
ωN r N

≥ N m+1
exp − (m + 1) .
(2λ ) 2π(t − t0 ) 2

Ne segue l’esistenza di una costante c = c(N , T , α, λ, λ0 ) tale che

1
Γ (t0 , x0 ; t, x) ≥ N
e−cm
c(t − t0 ) 2

e per la scelta di m questo basta a provare la tesi e concludere la dimostrazione del Teorema 26.3.5.
496 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
Appendice A

A.1 Teoremi di Dynkin


Indichiamo con Ω un generico insieme non vuoto. Come anticipato nella Sezione 2.4.1, è difficile dare
una rappresentazione esplicita della σ -algebra σ (A ) generata da una famiglia A di sottoinsiemi di Ω.
I risultati di questa sezione, dal carattere piuttosto tecnico, permettono di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ).

Definizione A.1.1 (Famiglia monotona di insiemi). Una famiglia M di sottoinsiemi di Ω è una famiglia
monotona se gode delle seguenti proprietà:

i) Ω ∈ M ;

ii) se A, B ∈ M e A ⊆ B, allora B \ A ∈ M ;

iii) se (An )n∈N è una successione crescente di elementi di M , allora An ∈ M .


S
n∈N

Ogni σ -algebra è una famiglia monotona mentre il viceversa non è necessariamente vero poiché la pro-
prietà iii) di “chiusura rispetto all’unione numerabile” vale solo per successioni crescenti, ossia tali che
An ⊆ An+1 per ogni n ∈ N. Tuttavia si ha il seguente risultato.

Lemma A.1.2. Se la famiglia monotona M è ∩-chiusa1 allora è una σ -algebra.

Dimostrazione. Se M è monotona verifica le prime due proprietà della definizione di σ -algebra: rimane
solo da provare la ii-b) della Definizione 2.1.1, ossia che l’unione numerabile di elementi di M appartiene
ad M . Anzitutto, dati A, B ∈ M , poiché
A ∪ B = (Ac ∩ Bc )c ,
l’ipotesi di chiusura rispetto all’intersezione implica che A ∪ B ∈ M . Ora, data una successione (An )n∈N di
elementi di M , definiamo la successione
n
[
Ān := Ak , n ∈ N,
k=1

che è crescente e tale che Ān ∈ M per quanto appena dimostrato. Allora si conclude che
[ [
An = Ān ∈ M
n∈N n∈N

per la iii) della Definizione A.1.1.


1 Ossia tale che A ∩ B ∈ M per ogni A, B ∈ M .

497
498 APPENDICE A.

Osserviamo che l’intersezione di famiglie monotone è una famiglia monotona. Data una famiglia A
di sottoinsiemi di Ω, indichiamo con M (A ) l’intersezione di tutte le famiglie monotone che contengono
A : diciamo cheM (A ) è la famiglia monotona generata da A , ossia la più piccola famiglia monotona che
contiene A .
Teorema A.1.3 (Primo Teorema di Dynkin). [!] Sia A una famiglia di sottoinsiemi di Ω. Se A è ∩-chiusa
allora M (A ) = σ (A ).
Dimostrazione. σ (A ) è monotona e quindi σ (A ) ⊇ M (A ). Viceversa, se proviamo che M (A ) è ∩-chiusa
allora dal Lemma A.1.2 seguirà che M (A ) è una σ -algebra e quindi σ (A ) ⊆ M (A ).
Proviamo dunque che M (A ) è ∩-chiusa. Poniamo

M1 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ A },

e proviamo che M1 è una famiglia monotona: poiché A ⊆ M1 , ne seguirà M (A ) ⊆ M1 e quindi M (A ) =


M1 . Abbiamo:
i) Ω ∈ M1 ;
ii) per ogni A, B ∈ M1 con A ⊆ B, vale

(B \ A) ∩ I = (B ∩ I) \ (A ∩ I) ∈ M (A ), I ∈A,

e quindi B \ A ∈ M1 ;
iii) sia (An ) una successione crescente in M1 e indichiamo con A l’unione degli An . Allora abbiamo
[
A∩I = (An ∩ I) ∈ M (A ), I ∈A,
n≥1

e quindi A ∈ M1 .
Questo prova che M (A ) = M1 . Ora poniamo

M2 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ M (A )}.

Abbiamo provato sopra che A ⊆ M2 . Inoltre, in modo analogo possiamo provare che M2 è una famiglia
monotona: ne viene che M (A ) ⊆ M2 e quindi M (A ) = M2 ossia M (A ) è ∩-chiusa.
Segue immediatamente dal Teorema A.1.3 il seguente
Corollario A.1.4. Sia M una famiglia monotona. Se M contiene una famiglia ∩-chiusa A , allora contiene
anche σ (A ).
Come secondo corollario dimostriamo la parte sull’unicità del Teorema 2.4.29 di Carathéodory (si veda
l’Osservazione A.1.6).
Corollario A.1.5. [!] Siano µ, ν misure finite su (Ω, σ (A )) dove A è una famiglia ∩-chiusa e tale che Ω ∈ A .
Se µ(A) = ν(A) per ogni A ∈ A allora µ = ν.
Dimostrazione. Sia
M = {A ∈ σ (A ) | µ(A) = ν(A)}.
Verifichiamo che M è una famiglia monotona: dal primo Teorema di Dynkin seguirà che M ⊇ M (A ) =
σ (A ) da cui la tesi.
Delle tre condizioni della Definizione A.1.1, la i) è vera per ipotesi. Per quanto riguarda la ii), se A, B ∈
M con A ⊆ B allora si ha
µ(B \ A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B \ A)
A.2. ASSOLUTA CONTINUITÀ 499

e quindi (B \ A) ∈ M . Infine, se (An )n∈N è una successione crescente in M e A =


S
An , allora per la
n∈N
continuità dal basso delle misure (cfr. Proposizione 2.1.32) si ha

µ(A) = lim µ(An ) = lim ν(An ) = ν(A)


n→∞ n→∞

da cui A ∈ M e questo conclude la prova.

Osservazione A.1.6. La parte sull’unicità del Teorema 2.4.29 di Carathéodory segue facilmente dal Corol-
lario A.1.5: la tesi è che se µ, ν sono misure σ -finite su un’algebra A e coincidono su A allora coincidono
anche su σ (A ).
Per ipotesi, esiste una successione (An )n∈N in A tale che µ(An ) = ν(An ) < ∞ e Ω =
S
An . Fissato n ∈ N,
n∈N
poiché A è ∩-chiusa, utilizzando il Corollario A.1.5 si prova facilmente che

µ(A ∩ An ) = ν(A ∩ An ), ∀A ∈ σ (A ).

Passando al limite in n, la tesi segue dalla continuità dal basso delle misure.

Definizione A.1.7 (Famiglia monotona di funzioni). Una famiglia H di funzioni limitate, definite da un
insieme Ω a valori reali, è monotona se gode delle seguenti proprietà:

i) H è uno spazio vettoriale reale;

ii) la funzione costante 1 appartiene ad H ;

iii) se (Xn )n∈N è una successione di funzioni non-negative di H tale che Xn ↗ X con X limitata, allora
X∈H .

Teorema A.1.8 (Secondo Teorema di Dynkin). [!] Sia A una famiglia ∩-chiusa di sottoinsiemi di Ω. Se
H è una famiglia monotona che contiene le funzioni indicatrici di elementi di A , allora H contiene anche
tutte le funzioni limitate e σ (A )-misurabili.

Dimostrazione. Poniamo
M = {H ⊆ Ω | 1H ∈ H }.
Per ipotesi, A ⊆ M e, usando il fatto che H è una famiglia monotona, è facile provare che M è una famiglia
monotona di insiemi. Allora M ⊇ M (A ) = σ (A ), dove l’uguaglianza è conseguenza del primo Teorema di
Dynkin. Dunque H contiene le funzioni indicatrici di elementi di σ (A ).
Data X ∈ mσ (A ), non-negativa e limitata, per Lemma 3.2.3 esiste una successione (Xn )n∈N di funzioni
semplici σ (A )-misurabili e non-negative tali che Xn ↗ X. Ogni Xn è combinazione lineare di funzioni
indicatrici di elementi di σ (A ) e quindi appartiene ad H , essendo H uno spazio vettoriale: per la proprietà
iii) di H , si ha che X ∈ H . Infine, per provare che ogni funzione σ (A )-misurabile e limitata appartiene ad
H , è sufficiente decomporla nella somma della sua parte positiva e negativa.

A.2 Assoluta continuità


A.2.1 Teorema di Radon-Nikodym
In questa sezione approfondiamo il concetto di assoluta continuità fra misure di cui avevamo considerato
un caso particolare (l’assoluta continuità rispetto alla misura di Lebesgue) nella Sezione 2.4.5. Come ri-
sultato principale proviamo che l’esistenza della densità è condizione necessaria e sufficiente per l’assoluta
continuità: questo è il contenuto del classico Teorema di Radon-Nikodym.
500 APPENDICE A.

Definizione A.2.1.1. Siano µ, ν misure σ -finite su (Ω, F ). Diciamo che ν è µ-assolutamente continua su
F , e scriviamo ν ≪ µ, se ogni insieme µ-trascurabile di F è anche ν-trascurabile. Quando è importante
specificare la σ -algebra considerata, si scrive anche

ν ≪F µ.

Ovviamente se F1 ⊆ F2 sono σ -algebre, allora ν ≪F2 µ implica ν ≪F1 µ ma non è vero il viceversa.

Esempio A.2.1.2. La Definizione 2.4.18 di assoluta continuità è un caso particolare della definizione pre-
cedente: infatti se µ è una distribuzione assolutamente continua allora µ(H) = 0 per ogni H ∈ B tale che
Leb(H) = 0 o, in altri termini,
µ ≪B Leb
ossia µ è assolutamente continua rispetto alla misura di Lebesgue.

Teorema A.2.1.3 (Teorema di Radon-Nikodym). [!] Se µ, ν sono misure σ -finite su (Ω, F ) e ν ≪ µ, allora
esiste g ∈ mF + tale che Z
ν(A) = gdµ, A ∈ F. (A.2.1)
A

g ∈ mF + verifica (A.2.1), allora g = e


Inoltre se e g quasi ovunque rispetto a µ. Si dice che g è la densità (o la
derivata di Radon-Nikodym) di ν rispetto a µ e si scrive

dν dν
dν = gdµ oppure g= oppure g= | .
dµ dµ F

Osservazione A.2.1.4. Siano µ, ν misure come nell’enunciato precedente, definite su (Ω, F ), e f ∈ mF + :


approssimando f con una successione crescente di funzioni semplici non-negative come nel Lemma 3.2.3,
grazie al Teorema di Beppo-Levi si ha
Z Z
f dν = lim fn dν =
Ω n→∞ Ω


(per la (A.2.1) ed indicando con dµ la derivata di Radon-Nikodym di ν rispetto a µ)
Z

= lim fn dµ =
n→∞ Ω dµ

(riapplicando il Teorema di Beppo-Levi)


Z

= f dµ.
Ω dµ

Vale dunque la seguente formula per il cambio di misura di integrazione


Z Z

f dν = f dµ
Ω Ω dµ

per ogni f ∈ mF + .

g ∈ mF + verificano la (A.2.1), allora si ha


Dimostrazione del Teorema A.2.1.3. [Unicità] Se g,e
Z
(g − e
g )dµ = 0, A ∈ F. (A.2.2)
A
A.2. ASSOLUTA CONTINUITÀ 501

g > 0} ∈ F , deve essere µ(A) = 0 ossia g ≤ e


In particolare, posto A = {g − e g µ-q.o. perché in caso contrario si
avrebbe Z
(g − e
g )dµ > 0
A
che contraddice la (A.2.2). Analogamente si prova che g ≥ e
g µ-q.o.
[Esistenza] Supponiamo dapprima che µ, ν siano finite. Diamo una dimostrazione basata sul Teorema
di rappresentazione di Riesz2 per i funzionali lineari e continui su uno spazio di Hilbert. Consideriamo
l’operatore lineare Z
L(f ) := f dµ

definito sullo spazio di Hilbert L2 (Ω, F , µ + ν) munito dell’usuale prodotto scalare


Z
⟨f , g⟩ = f gd(µ + ν).

L’operatore L è limitato e quindi continuo: infatti, applicando la disuguaglianza triangolare e poi la disu-
guaglianza di Hölder, si ha
Z Z q
|L(f )| ≤ |f |dµ ≤ |f |d(µ + ν) ≤ ∥f ∥L2 (µ + ν)(Ω).
Ω Ω

Allora per il Teorema di Riesz esiste ϕ ∈ L2 (Ω, F , µ + ν) tale che


Z Z
f dµ = f ϕd(µ + ν), f ∈ L2 (Ω, F , µ + ν). (A.2.3)
Ω Ω

Proviamo che 0 < ϕ < 1 µ-quasi ovunque: a tal fine, poniamo A0 = {ϕ < 0}, A1 = {ϕ > 1} e fi = 1Ai ∈
L2 (Ω, F , µ + ν), per i = 0, 1. Se fosse µ(Ai ) > 0, dalla (A.2.3) si avrebbe
Z Z Z
µ(A0 ) = f0 dµ = ϕd(µ + ν) ≤ ϕdµ < 0,
Ω A0 A0
Z Z Z
µ(A1 ) = f1 dµ = ϕd(µ + ν) ≥ ϕdµ > µ(A1 ),
Ω A1 A1

che è assurdo.
Ora, la (A.2.3) equivale a
Z Z
f ϕdν = f (1 − ϕ)dµ, f ∈ L2 (Ω, F , µ + ν),
Ω Ω

e per il Lemma 3.2.3 e il Teorema di Beppo-Levi (che si applica poiché 0 < ϕ < 1 µ-quasi ovunque e quindi
anche ν-quasi ovunque), tale uguaglianza si estende ad ogni f ∈ mF + . In particolare, per f = 1ϕA si ottiene
Z
1−ϕ
ν(A) = dµ, A ∈ F.
A ϕ
2
Teorema A.2.1.5 (Teorema di rappresentazione di Riesz). Se L è un operatore lineare e continuo su uno spazio di Hilbert (H, ⟨·, ·⟩),
allora esiste ed è unico y ∈ H tale che
L(x) = ⟨x, y⟩, x ∈ H.

Per la dimostrazione del Teorema A.2.1.5, e più in generale per un’introduzione semplice ma completa agli spazi di Hilbert, si veda il
Capitolo 4 in [107].
502 APPENDICE A.

1−ϕ
Questo prova la tesi con g = ϕ ∈ mF + .
Consideriamo ora il caso generale in cui µ, ν siano σ -finite. Allora esiste una successione crescente
(An )n∈N in F , che ricopre Ω e tale che (µ + ν)(An ) < ∞ per ogni n ∈ N. Consideriamo le misure finite

µn (A) := µ(A ∩ An ), νn (A) := ν(A ∩ An ), A ∈ F , n ∈ N.

È facile vedere che νn ≪ µn e quindi esiste gn ∈ mF + tale che νn = gn dµn . Inoltre come nella dimostrazione
dell’unicità, si prova che gn = gm su An per n ≤ m. Allora consideriamo g ∈ mF + definita da g = gn su An .
Per ogni A ∈ F si ha Z Z
ν(A ∩ An ) = νn (A) = gn dµn = f dµ
A A∩An

e la tesi segue passando al limite per n → +∞.

A.2.2 Rappresentazione di aperti di R mediante intervalli


Lemma A.2.2.1. Ogni aperto A di R si scrive come unione numerabile di intervalli aperti disgiunti:
]
A= ]an , bn [. (A.2.4)
n≥1

Dimostrazione. Sia A un aperto di R. Dato x ∈ A poniamo

ax = inf{a ∈ R | esiste b tale che x ∈ ]ax , b[ ⊆ A} e bx = sup{b ∈ R |]ax , b[ ⊆ A}.

Allora è chiaro che x ∈ Ix := ]ax , bx [ ⊆ A. D’altra parte, se x, y ∈ A e x , y allora si ha che Ix ∩ Iy = ∅ oppure


Ix ≡ Iy . Infatti, se per assurdo fosse Ix ∩ Iy , ∅ e Ix , Iy allora I := Ix ∪ Iy sarebbe un intervallo aperto, incluso
in A e tale che x ∈ Ix ⊂ I: ciò contraddirebbe la definizione di ax e bx .
Abbiamo quindi provato che A si scrive come unione di intervalli aperti disgiunti: ognuno di essi
contiene un razionale differente e quindi si tratta di un’unione numerabile.
Osservazione A.2.2.2. [!] Come conseguenza del Lemma A.2.2.1, abbiamo che se µ è una distribuzione su
R e A è un aperto, allora per la (A.2.4) si ha
X
µ(A) = µ(]an , bn [).
n≥1

Unendo questo risultato al Corollario 2.4.10, si conclude che due distribuzioni µ1 e µ2 su R sono uguali se
e solo se µ1 (I) = µ2 (I) per ogni intervallo aperto I.
Il Lemma A.2.2.1 non si estende al caso multidimensionale (o, peggio ancora, al caso di uno spazio
metrico generico). Sembrerebbe naturale poter sostituire gli intervalli di R con i dischi. Tuttavia, cosı̀
facendo il risultato diventa falso anche in dimensione uno (almeno se si suppone che il raggio dei dischi
debba essere finito): basta considerare, per esempio, A = ]0, +∞[. Analogamente, un’unione disgiunta di
dischi aperti di R2 è un insieme connesso se e solo se consiste di un solo disco: quindi non c’è speranza di
rappresentare un generico aperto connesso di R2 come unione numerabile di dischi aperti disgiunti.
Nella dimostrazione del Lemma A.2.2.1 abbiamo usato la densità dei razionali in R: data la sottigliezza
degli argomenti, occorre fare attenzione a ciò che sembra intuitivo, come mostra il seguente
Esempio A.2.2.3. Sia (xn )n∈N una enumerazione dei punti di H := ]0, 1[∩Q ∈ B. Fissato ε ∈ ]0, 1[, sia (rn )n∈N
una successione di numeri reali positivi tali che la serie
X ε
rn < .
2
n≥1
A.2. ASSOLUTA CONTINUITÀ 503

Poniamo [
A := ]xn − rn , xn + rn [∩]0, 1[.
n≥1

Allora A è aperto, H ⊆ A e per la sub-additività (cfr. Proposizione 2.1.22-ii))


X
Leb(A) ≤ Leb(]xn − rn , xn + rn [) < ε.
n≥1

Ne segue anche che A è strettamente incluso ]0, 1[ (perché ha misura di Lebesgue minore di 1) pur essendo
aperto e denso in ]0, 1[.

A.2.3 Derivabilità di funzioni integrali


Il punto di partenza dei risultati di questa sezione è il classico Teorema di Lebesgue sulla derivabilità
delle funzioni monotone.

Teorema A.2.3.1 (di Lebesgue). [!!] Ogni funzione monotona (debolmente) crescente

F : [a, b] −→ R

è derivabile q.o. e vale


Z b
F ′ (x)dx ≤ F(b) − F(a). (A.2.5)
a

La disuguaglianza in (A.2.5) può essere stretta (si pensi alle funzioni costanti a tratti): la funzione di
Vitali dell’Esempio 2.4.36 è monotona, continua e verifica la (A.2.5) con la disuguaglianza stretta.
La dimostrazione standard del Teorema A.2.3.1 è basata sul Teorema di ricoprimento di Vitali e si
può trovare in [11], Teorema 14.18. Un’altra dimostrazione più diretta ma sotto l’ipotesi aggiuntiva di
continuità, è dovuta a Riesz (cfr. Capitolo 1.3 in [104]).

Proposizione A.2.3.2. Se γ ∈ L1 ([a, b]) e vale


Zx
γ(t)dt = 0 per ogni x ∈ [a, b],
a

allora γ = 0 q.o.

Dimostrazione. Dall’ipotesi segue anche che


Zx Zx Z x0
γ(t)dt = γ(t)dt − γ(t)dt = 0 a ≤ x0 < x ≤ b.
x0 a a

Inoltre, per il Lemma A.2.2.1 ogni aperto A ⊆ [a, b] si scrive nella forma (A.2.4) e quindi
Z ∞ Z
X bn
γ(t)dt = γ(t)dt = 0. (A.2.6)
A n=1 an

Ora sia H ∈ B, con H ⊆ [a, b]: per la Proposizione 2.4.9 sulla regolarità delle misure di Borel, per ogni n ∈ N
esiste un aperto An tale che H ⊆ An e Leb(An \ H) ≤ n1 . Allora si ha
Z Z Z
γ(t)dt = γ(t)dt − γ(t)dt =
H An An \H
504 APPENDICE A.

(per la (A.2.6))
Z
=− γ(t)dt −−−−−−−→ 0
An \H n→+∞
R
per il teorema della convergenza dominata. Dunque H γ(t)dt = 0 per ogni H ∈ B.
Allora, per ogni n ∈ N, poniamo Hn = {x ∈ [a, b] | γ(x) ≥ n1 } ∈ B: si ha
Z
Leb(Hn )
0= γ(t)dt ≥
Hn n

da cui Leb(Hn ) = 0 e quindi anche



[
{x ∈ [a, b] | γ(x) > 0} = Hn
n=1
ha misura di Lebesgue nulla, ossia γ ≤ 0 q.o. Analogamente si prova che γ ≥ 0 q.o. e questo conclude la
prova.
Proposizione A.2.3.3. Se Z x
F(x) = F(a) + γ(t)dt, x ∈ [a, b],
a
con γ ∈ L1 ([a, b]), allora esiste F ′ = γ q.o.
Dimostrazione. A meno di considerare separatamente parte positiva e negativa di γ, possiamo assumere
γ ≥ 0 q.o. (e quindi F monotona crescente). Osserviamo anzitutto che F è continua poiché3
Z x+h
F(x + h) − F(x) = γ(t)dt −−−−→ 0
x h→0

per il Teorema della convergenza dominata.


Assumiamo dapprima anche che γ ∈ L∞ : allora si ha
Z x+h
F(x + h) − F(x) = 1
γ(t)dt ≤ ∥γ∥∞
h h x

e d’altra parte, per il Teorema A.2.3.1 di Lebesgue, essendo F monotona crescente, si ha che esiste
F(x + h) − F(x)
lim = F ′ (x) q.o.
h→0 h
Dunque, ancora per il Teorema della convergenza dominata, per a < x0 < x < b abbiamo
Zx Zx
F(t + h) − F(t)
F ′ (t)dt = lim dt
x0 h→0 x0 h
Z x+h Z x0 +h !
1
= lim F(t)dt − F(t)dt
h→0 h x x0

(poiché F è continua)

= F(x) − F(x0 ).
3 Se h < 0 poniamo per definizione
Z x+h Zx
γ(t)dt = − γ(t)dt.
x x+h
A.2. ASSOLUTA CONTINUITÀ 505

Ne segue che
Z x
(F ′ (t) − γ(t)) dt = 0, x ∈ [a, b]
a

e quindi, per la Proposizione A.2.3.2, F ′ = γ q.o.


Consideriamo ora il caso in cui γ ∈ L1 ([a, b]). Per n ∈ N, consideriamo la successione

γ(t) se 0 ≤ γ(t) ≤ n,


γn (t) = 
0
 se γ(t) > n.

Allora si ha F = Fn + Gn dove
Z x Z x
Fn (x) = γn (t)dt, Gn (x) = (γ(t) − γn (t)) dt.
a a

Da una parte, Gn è una funzione crescente (e quindi derivabile q.o. con Gn′ ≥ 0) poiché γ − γn ≥ 0 e d’altra
parte, per quanto appena provato, esiste Fn′ = γn q.o. Quindi si ha

F ′ = γn + G ′ ≥ γn q.o.

e, passando al limite per n → ∞, F ′ ≥ γ q.o. Allora vale


Z b Z b
F ′ (t)dt ≥ γ(t)dt = F(b) − F(a).
a a

Ma la disuguaglianza opposta viene dal Teorema A.2.3.1 di Lebesgue (si veda la (A.2.5)) e quindi
Z b
F ′ (t)dt = F(b) − F(a).
a

Allora si ha ancora Z b
(F ′ (t) − γ(t)) dt = 0
a

e, poiché F ′ ≥ γ q.o., si conclude che F ′ = γ q.o.

A.2.4 Assoluta continuità di funzioni


Definizione A.2.4.1 (Funzione assolutamente continua). Si dice che

F : [a, b] −→ R

è assolutamente continua, e si scrive F ∈ AC([a, b]), se, per ogni ε > 0 esiste δ > 0 tale che

N
X
|F(bn ) − F(an )| < ε (A.2.7)
n=1

per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che

N
X
(bn − an ) < δ.
n=1
506 APPENDICE A.

Esercizio A.2.4.2. Provare che se F ∈ AC([a, b]) allora, per ogni ε > 0 esiste δ > 0 tale che

X
|F(bn ) − F(an )| < ε
n=1

per ogni successione di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che



X
(bn − an ) < δ.
n=1

L’importanza delle funzioni assolutamente continue sta nel fatto che sono le funzioni per cui vale il
teorema fondamentale del calcolo integrale. Il principale risultato di questa sezione è il seguente
Teorema A.2.4.3. [!] Una funzione F è assolutamente continua su [a, b] se e solo se F è derivabile q.o. con
F ′ ∈ L1 ([a, b]) e vale Z x
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b].
a

Alla dimostrazione del Teorema A.2.4.3 premettiamo alcuni risultati preliminari. Anzitutto ricordiamo
la
Definizione A.2.4.4 (Funzione a variazione limitata). Si dice che

F : [a, b] −→ R

è a variazione limitata, e si scrive F ∈ BV([a, b]), se


b
_ q
X
(F) := sup |F(tk ) − F(tk−1 )| < ∞
a σ ∈P[a,b] k=1

dove P[a,b] indica l’insieme delle partizioni σ dell’intervallo [a, b], ossia delle scelte di un numero finito di
punti σ = {t0 , t1 , . . . , tq } tali che
a = t0 < t1 < · · · < tq = b.
Una presentazione dei principali risultati sulle funzioni a variazione limitata si trova in [69]. Qui
ricordiamo solo che per ogni F ∈ BV([a, b]) si ha
b
_ c
_ b
_
(F) = (F) + (F), c ∈ ]a, b[, (A.2.8)
a a c

e inoltre F si scrive come differenza di funzioni monotone crescenti nel modo seguente: per x ∈ [a, b]
x
_
F(x) = u(x) − v(x), u(x) := (F), v(x) := u(x) − F(x). (A.2.9)
a

Lemma A.2.4.5. Se F ∈ AC([a, b]) allora F ∈ BV([a, b]) e nella decomposizione (A.2.9), le funzioni u, v sono
monotone crescenti e assolutamente continue.
Dimostrazione. Poiché F ∈ AC([a, b]), esiste δ > 0 tale che
N
X
|F(bn ) − F(an )| < 1
n=1
A.2. ASSOLUTA CONTINUITÀ 507

per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che
N
X
(bn − an ) < δ.
n=1

Questo implica che F ∈ BV su ogni sotto-intervallo di [a, b] di lunghezza minore o uguale a δ. Allora il fatto
che F ∈ BV([a, b]) segue dalla (A.2.8), suddividendo [a, b] in un numero finito di intervalli di lunghezza
minore o uguale a δ.
Proviamo ora che u ∈ AC([a, b]) (e quindi anche v ∈ AC([a, b])). Per ipotesi F ∈ AC([a, b]) e quindi dato
ε > 0 esiste δ > 0 come nella Definizione A.2.4.1. Siano [an , bn ] ⊆ [a, b], n = 1, . . . , N , intervalli disgiunti tali
che
XN
(bn − an ) < δ.
n=1
Si ha
N
X X bn
N _ N
X qn
X
(u(bn ) − u(an )) = (F) = sup F(tn,k ) − F(tn,k−1 ) < ε
n=1 n=1 an n=1 σ ∈P[an ,bn ] k=1

poiché, in base alla (A.2.7), si ha


qn
N X
X
F(tn,k ) − F(tn,k−1 ) < ε
n=1 k=1
per ogni partizione (tn,0 , . . . , tn,qn ) ∈ P[an ,bn ] .
Dimostrazione del Teorema A.2.4.3. Se F ammette una rappresentazione del tipo
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b],
a

con γ ∈ L1 ([a, b]) allora chiaramente F è assolutamente continua per il Teorema della convergenza dominata
di Lebesgue. Inoltre F ′ = γ q.o. per la Proposizione A.2.3.3.
Viceversa, se F ∈ AC([a, b]), per il Lemma A.2.4.5 non è restrittivo assumere anche che F sia monotona
crescente. Allora possiamo considerare la misura µF definita come nel Teorema 2.4.33-i):

µF (]x, y]) = F(y) − F(x), a ≤ x < y ≤ b.

Vogliamo provare che µF è assolutamente continua rispetto alla misura di Lebesgue ossia µF ≪ Leb. Con-
sideriamo B ∈ B tale che Leb(B) = 0: per definizione di misura di Lebesgue4 , per ogni δ > 0 esiste una
successione (]an , bn ])n∈N di intervalli disgiunti tale che

[
A ⊇ B, Leb(A) < δ, A := ]an , bn ]. (A.2.10)
n=1

Di conseguenza, per ogni ε > 0 esistono δ > 0 e A come in (A.2.10) per cui si ha

µF (B) ≤ µF (A ∩ [a, b]) ≤ ε,

dove la prima disuguaglianza è per la monotonia di µF e la seconda viene dal fatto che F ∈ AC([a, b])
e Leb(A) < δ (si ricordi l’Esercizio A.2.4.2). Data l’arbitrarietà di ε, si conclude che µF (B) = 0 e quindi
µF ≪ Leb.
4 Ricordiamo che (cfr. (2.5.5))
Leb(B) = inf{Leb(A) | B ⊆ A ∈ U }
dove U indica la famiglia delle unioni numerabili di intervalli disgiunti della forma ]a, b].
508 APPENDICE A.

Per il Teorema A.2.1.3 di Radon-Nikodym, esiste γ ∈ L1 ([a, b]) tale che


Zx
F(x) − F(a) = µF (]a, x]) = γ(t)dt, x ∈ [a, b],
a

e grazie alla Proposizione A.2.3.3 concludiamo che F′ = γ q.o.

A.3 Uniforme integrabilità


Forniamo uno strumento utile allo studio delle successioni di variabili aleatorie, il Teorema di Vitali:
si tratta di una generalizzazione del Teorema della convergenza dominata di Lebesgue. In questa sezione
X = (Xt )t∈I è una famiglia di v.a. sullo spazio (Ω, F , P ) a valori in Rd , con I insieme qualsiasi di indici.
Diciamo che X è un processo stocastico.
Definizione A.3.0.1 (Uniforme integrabilità). Un processo stocastico (Xt )t∈I sullo spazio (Ω, F , P ) è uni-
formemente integrabile se vale h i
lim sup E |Xt |1(|Xt |≥R) = 0,
R→∞ t∈I
h i
o, in altri termini, se per ogni ε > 0 esiste R > 0 tale che E |Xt |1(|Xt |≥R) < ε per ogni t ∈ I.
q.c.
Teorema A.3.0.2 (Teorema di convergenza di Vitali). Se Xn −−−−→ X e (Xn )n∈N è uniformemente integrabile
allora E [|Xn − X|] −→ 0.
h i
Dimostrazione. Proviamo la tesi nel caso X = 0. Fissato ε > 0, esiste R > 0 tale che E |Xn |1(|Xn |≥R) < 2ε per
ogni
h n ∈ N; inoltre,
i per il teorema della convergenza dominata esiste n̄, che dipende da ε e R, tale che
E |Xn |1(|Xn |<R) < 2ε per ogni n ≥ n̄. In definitiva
h i h i
E [|Xn |] = E |Xn |1(|Xn |≥R) + E |Xn |1(|Xn |<R) < ε

per ogni n ≥ n̄.


In generale, vedremo fra poco nel Corollario A.3.0.5, che la somma di processi uniformemente integra-
bili è uniformemente integrabile. Dunque per riportarsi al caso precedente basta considerare il processo
q.c.
Yn = Xn − X che è uniformemente integrabile e tale Yn −−−−→ 0.
Diamo una caratterizzazione dell’uniforme integrabilità.
Definizione A.3.0.3 (Uniforme assoluta continuità). Un processo (Xt )t∈I sullo spazio (Ω, F , P ) è unifor-
memente assolutamente continuo se per ogni ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F
tale che P (A) < δ.
Proposizione A.3.0.4. Sono equivalenti:
i) il processo (Xt )t∈I è uniformemente integrabile;
ii) il processo (Xt )t∈I è uniformemente assolutamente continuo e sup E [|Xt |] < ∞.
t∈I

Dimostrazione. Se (Xt )t∈I è uniformemente integrabile esiste R > 0 tale che


h i
sup E |Xt |1(|Xt |≥R) ≤ 1.
t∈I

Allora si ha h i
E [|Xt |] ≤ 1 + E |Xt |1(|Xt |≤R) ≤ 1 + R.
A.3. UNIFORME INTEGRABILITÀ 509
h i
Analogamente, dato ε > 0 esiste R tale che E |Xt |1(|Xt |≥R) < 2ε per ogni t ∈ I: allora per ogni A ∈ F tale che
ε
P (A) < 2R , si ha
h i h i ε
E [|Xt |1A ] = E |Xt |1A∩(|Xt |≥R) + E |Xt |1A∩(|Xt |<R) < + RP (A) < ε.
2
Viceversa, per ipotesi, dato ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F tale che P (A) < δ.
Per la disuguaglianza di Markov, esiste R tale che
1
P (|Xt | ≥ R) ≤ sup E [|Xt |] < δ
R t∈I
e di conseguenza h i
E |Xt |1(|Xt |≥R) < ε
per ogni t ∈ I.
Corollario A.3.0.5. Se (Xt )t∈I e (Yt )t∈I sono uniformemente integrabili allora (Xt + Yt )t∈I è uniformemente
integrabile.
Dimostrazione. Utilizzando la caratterizzazione della Proposizione A.3.0.4, si tratta di una semplice verifi-
ca.
Diamo ora qualche esempio.
Proposizione A.3.0.6. Se esiste Y ∈ L1 (Ω, P ) tale che |Xt | ≤ Y per ogni t ∈ I allora (Xt )t∈I è uniformemente
integrabile.
Dimostrazione. Sia ε > 0: per l’assoluta continuità del valore atteso (Corollario 3.2.12), esiste δ > 0 tale che
E [|Y |1A ] < ε per ogni A ∈ F tale che P (A) < δ. Ora, per la disuguaglianza di Markov si ha
E [|Xt |] E [|Y |] E [|Y |]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Allora h i h i
E |Xt |1(|Xt ≥R|) ≤ E |Y |1(|Xt ≥R|) < ε.

Dalla Proposizione A.3.0.6 deduciamo che:


• un processo formato da una sola v.a. X sommabile è uniformemente integrabile;
• il teorema della convergenza dominata è un corollario del Teorema di Vitali.
Proposizione A.3.0.7. Siano X ∈ L1 (Ω, F , P ) e (Ft )t∈I una famiglia di sotto-σ -algebre di F . Il processo
definito da Xt = E [X | Ft ] è uniformemente integrabile.
Dimostrazione. La prova è analoga a quella del Lemma A.3.0.6. Fissato ε > 0, sia δ > 0 tale che E [|X|1A ] < ε
per ogni A ∈ F tale che P (A) < δ. Combinando le disuguaglianze di Markov e di Jensen abbiamo
E [|Xt |] E [|X|] E [|X|]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Ancora per la disuguaglianza di Jensen si ha
h i h i
E |Xt |1(|Xt |≥R) ≤ E E [|X| | Ft ] 1(|Xt |≥R) =

(per le proprietà dell’attesa condizionata, essendo 1(|Xt |≥R) ∈ bFt )


h i
= E |X|1(|Xt |≥R) < ε.
510 APPENDICE A.

Osservazione A.3.0.8. [!] La Proposizione A.3.0.7 si applica spesso nello studio della convergenza di par-
ticolari processi stocastici detti martingale. La situazione tipica è quella in cui si ha una successione (Xn )n∈N
che converge puntualmente; se Xn è della forma Xn = E [X | Fn ] per una certa X ∈ L1 (Ω, P ) e una famiglia
(Fn )n∈N di sotto-σ -algebre di F , allora per la Proposizione A.3.0.7, (Xn )n∈N è uniformemente integrabile.
Il Teorema di convergenza di Vitali garantisce che (Xn )n∈N converge anche in norma L1 (Ω, P ).

Proposizione A.3.0.9. Se esiste una funzione

ϕ : R≥0 −→ R≥0
ϕ(r)
crescente, tale che lim r = +∞ e sup E [ϕ(|Xt |)] < ∞ allora (Xt )t∈I è uniformemente integrabile.
r→+∞ t∈I

ϕ(r) 1
Dimostrazione. Per ogni ε > 0 esiste rε > 0 tale che r > ε per ogni r ≥ rε . Allora, per R > rε si ha
" #
h i |Xt |
E |Xt |1(|Xt |≥R) = E ϕ(|Xt |)1(|Xt |≥R) ≤ ε sup E [ϕ(|Xt |)]
ϕ(|Xt |) t∈I

da cui la tesi per l’arbitrarietà di ε.

Osservazione A.3.0.10. Applichiamo la Proposizione A.3.0.9 con ϕ(r) = r p per un p > 1: si ha che se (Xt )t∈I
è limitata in norma Lp (Ω, P ), ossia sup E [|Xt |p ] < ∞, allora è uniformemente integrabile.
t∈I
Appendice B

Temi d’esame risolti

511
512 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2016 –

1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:

i) la probabilità di estrarre una pallina bianca;


ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:

i) la durata media (in giorni) della lampadina;


ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione

x2 − 2x + C = 0

abbia, con probabilità uno, due soluzioni reali. Per tale valore di λ si determini la densità di una delle
soluzioni dell’equazione.
4. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:

i) la funzione caratteristica congiunta ϕ(X,Y ) ;


ii) la funzione caratteristica ϕX+Y della somma X + Y ;
iii) la funzione caratteristica ϕXY e la distribuzione del prodotto XY ;
iv) facoltativo: provare che X e XY sono indipendenti.
513

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2016 –

1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:
i) la probabilità di estrarre una pallina bianca;
ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.

Soluzione.
i) la probabilità di estrarre una pallina bianca è 12 perché ci sono 3 palline bianche in totale su 6 con
uguale probabilità di essere estratte; oppure indicando con b l’evento di estrarre una pallina bianca e
con A, B gli eventi relativi alle scelte delle urne, si ha
1 1 2 1 1
P (b) = P (b | A)P (A) + P (b | B)P (B) = · + · = .
3 2 3 2 2
i) per la formula di Bayes si ha
P (b | A)P (A) 1
P (A | b) = = .
P (b) 3
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:
i) la durata media (in giorni) della lampadina;
ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.

Soluzione.
i)-ii) Sia T la v.a. aleatoria che indica il giorno in cui la lampadina si fulmina. Allora T ∼ Geomp (cfr.
Esempio 3.1.25). Quindi la durata media (in giorni) della lampadina è
1
E [T ] = = 1000.
p
Inoltre la probabilità che la lampadina duri almeno un anno è (cfr. Teorema 3.1.26)

P (T > 365) = (1 − p)365 ≈ 69.4%

iii) Indichiamo con X il numero di lampadine, fra le 10000 montate, che si fulminano in un giorno. Allora
X ∼ Bin10000,p (cfr. Esempio 3.1.21). Dobbiamo determinare il minimo N tale che

P (X ≤ N ) ≥ 99%.

Ora si ha (si potrebbe anche usare l’approssimazione con la Poisson, cfr. Esempio 3.1.24):
N !
X 10000 k
P (X ≤ N ) = p (1 − p)n−k .
k
k=0
514 APPENDICE B. TEMI D’ESAME RISOLTI

Un calcolo esplicito mostra che

P (X ≤ 17) = 98.57%, P (X ≤ 18) = 99.28%,

quindi N = 18.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione

x2 − 2x + C = 0

abbia, con probabilità uno, soluzioni reali. Per tale valore di λ si determini la densità di una delle
soluzioni dell’equazione.

Soluzione. L’equazione ha soluzioni reali se ha il discriminante non negativo:

∆ = 4 − 4C ≥ 0

ossia C ≤ 1. Dunque se λ ≤ 1 l’equazione ha soluzioni reali con probabilità uno, mentre se λ > 1 allora
la probabilità che l’equazione non abbia soluzioni reali è pari a Unifλ (]1, λ]) = λ−1
λ > 0. Dunque il valore
massimo cercato è λ = 1.

Consideriamo la soluzione X = 1 + 1 − C e calcoliamone la funzione di ripartizione. Anzitutto se C ∼
Unif[0,1] allora X assume valori in [1, 2]: dunque per x ∈ [1, 2] si ha
√ 
P (X ≤ x) = P 1−C ≤ x−1
 
= P C ≥ 1 − (x − 1)2
Z1
= dy = (x − 1)2 .
1−(x−1)2

Derivando si ottiene la densità di X:

γX (x) = (2x − 2)1[1,2] (x), x ∈ R.

3. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:


i) la funzione caratteristica congiunta ϕ(X,Y ) ;
ii) la funzione caratteristica ϕX+Y della somma X + Y ;
iii) la funzione caratteristica ϕXY e la distribuzione del prodotto XY ;
iv) facoltativo: provare che X e XY sono indipendenti.

Soluzione.
i) Essendo v.a. indipendenti, la funzione caratteristica congiunta è il prodotto delle marginali:
h i h i h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y ) = E eiη1 X E eiη2 Y = cos(η1 ) cos(η2 ),

poiché
h i 1 
ϕY (η) = ϕX (η) = E eiηX = eiη + e−iη = cos η.
2
ii) ancora per l’indipendenza, la funzione caratteristica della somma è
h i h i h i
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = (cos η)2 .
515

iii) si ha
h i "
ϕXY (η) = E eiηXY = eiηxy (µ ⊗ µ) (dx, dy) =
R2

(per il Teorema di Fubini)


Z Z !
iηxy
= e µ(dx) µ(dy)
R R
Z
= cos(ηy)µ(dy)
R
1
= (cos η + cos(−η)) = cos η.
2
Dunque XY ha la stessa funzione caratteristica di X e quindi anche la stessa distribuzione µ.
iv) per provare che X e XY sono indipendenti calcoliamo la funzione caratteristica di X e XY , e verifichia-
mo che è uguale al prodotto delle funzioni caratteristiche marginali:
h i "
i(η1 X+η2 XY )
ϕ(X,XY ) (η1 , η2 ) = E e = eix(η1 +η2 y) (µ ⊗ µ) (dx, dy) =
R2

(per il Teorema di Fubini)


Z Z !
ix(η1 +η2 y)
= e µ(dx) µ(dy)
R R
Z 
1 
= e−i(η1 +η2 y) + e−i(η1 +η2 y) µ(dy)
2 R
1  −i(η1 −η2 ) −i(η1 +η2 ) i(η1 −η2 ) i(η1 +η2 ) 
= e +e +e +e
4
= cos(η1 ) cos(η2 ) = ϕX (η1 )ϕXY (η2 ).
516 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2017 –

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:

i) P (A ∪ B);
ii) P (A ∪ B ∪ C).
2. Verificare che la funzione

γ(x, y) = (x + y)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 ,

è una densità. Siano X, Y v.a. con densità congiunta γ: determinare


i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:
i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.
4. Sia Y = Y (t) la soluzione del problema di Cauchy

Y ′ (t) = AY (t),


Y (0) = y0 ,

dove A ∼ Nµ,σ 2 e y0 > 0.

i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y (t);


ii) scrivere l’espressione della funzione caratteristica ϕA della v.a. A e da essa ricavare
h i
E eA = ϕA (−i),

e quindi calcolare E [Y (t)];


iii) le v.a. Y (1) e Y (2) sono indipendenti?
517

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2017 –

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:

i) P (A ∪ B);
ii) P (A ∪ B ∪ C).

Soluzione.

i) Si ha
1 3
P (A ∪ B) = 1 − P (Ac ∩ Bc ) = 1 − P (Ac )P (Bc ) = 1 − = .
4 4
Oppure in alternativa, ricordando che il simbolo ⊎ indica l’unione disgiunta, si ha

P (A ∪ B) = P (A ⊎ (B ∩ Ac )) = P (A) + P (B ∩ Ac ) =

(per l’indipendenza di B e Ac )

1 1 1 3
= + · = .
2 2 2 4

ii) Analogamente si ha

1 7
P (A ∪ B ∪ C) = 1 − P (Ac ∩ Bc ∩ C c ) = 1 − P (Ac )P (Bc )P (C c ) = 1 − = ,
8 8
oppure

P (A ∪ B ∪ C) = P (A ∪ B) + P (C ∩ (A ∪ B)c ) =

(per il punto i))

3
= + P (C ∩ Ac ∩ Bc ) =
4
(per l’ipotesi di indipendenza)

3 3 1 7
= + P (C)P (Ac )P (Bc ) = + = .
4 4 8 8

2. Verificare che la funzione

γ(x, y) = (x + y)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 ,

è una densità. Siano X, Y v.a. con densità congiunta γ: determinare

i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
518 APPENDICE B. TEMI D’ESAME RISOLTI

Soluzione. La funzione γ è non-negativa e vale


" #x=y=1
x2 y + xy 2
"
γ(x, y)dxdy = =1
R2 2 x=y=0

e quindi è una densità. Inoltre:

i) La densità di X è Z
1
 
γX (x) := γ(x, y)dy = x + 1[0,1] (x), x ∈ R.
R 2
In modo analogo si calcola γY e si verifica che X, Y non sono indipendenti poiché γ , γX γY ;
ii) si ha
Z 1Z 1
1
E [XY ] = xy(x + y)dxdy = ;
0 0 3

iii) per il Teorema 3.6.1, la densità di X + Y vale


Z
γX+Y (z) = γ(x, z − x)dx, z ∈ [0, 2].
R

Imponendo la condizione (x, z − x) ∈ [0, 1] × [0, 1], si ha



z 2
Z 
 se z ∈ [0, 1],
γ(x, z − x)dx = 
R

z(2 − z) se z ∈ [1, 2].

3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:

i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.

Soluzione.

i) Una permutazione con i come punto fisso equivale ad una permutazione dei restanti (n − 1) elementi
(n−1)!
quindi ci sono (n − 1)! tali permutazioni (indipendentemente da i), dunque P (Ai ) = n! = n1 .
ii) Procedendo come nel punto precedente, per i , j si ha

(n − 2)! 1 1
P (Ai ∩ Aj ) = = , = P (Ai )P (Aj )
n! n(n − 1) n2

e dunque gli eventi non sono indipendenti.


iii) Occorre determinare il valore atteso della variabile aleatoria

1A1 + 1A2 + · · · + 1An .

Per linearità del valore atteso, questo è pari a n · n1 = 1.


519

4. Sia Y = Y (t) la soluzione del problema di Cauchy



Y ′ (t) = AY (t),


Y (0) = y0 ,

dove A ∼ Nµ,σ 2 e y0 > 0.


i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y (t);
ii) scrivere l’espressione della funzione caratteristica ϕA della v.a. A e da essa ricavare
h i
E eA = ϕA (−i),

e quindi calcolare E [Y (t)];


iii) le v.a. Y (1) e Y (2) sono indipendenti?

Soluzione.
i) Si ha
Y (t) = y0 etA
e quindi Y (t) ha distribuzione log-normale. Più precisamente, per ogni y > 0 vale
! !
1 y 1 y
P (Y (t) ≤ y) = P A ≤ log = FA log
t y0 t y0

dove FA è la CDF di A. Derivando si ricava la densità di Y (t) che è nulla per y ≤ 0 e vale
!
d 1 1 y
γ(y) = P (Y (t) ≤ y) = FA′ log
dy ty t y0
2
1 ( 1t log yy0 −µ)

= √ e 2σ 2 ,
ty 2πσ 2

per y > 0.
ii) Ricordando la (3.5.7) si ha
h i σ2
E eA = ϕA (−i) = eµ+ 2 .
Poiché tA ∼ Ntµ,t 2 σ 2 si ha
h i t2 σ 2
E [Y (t)] = E y0 etA = y0 etµ+ 2 .

iii) Osserviamo che


h i 9σ 2
E [Y (1)Y (2)] = y02 E e3A = y02 e3µ+ 2
è differente da
h i h i σ2 4σ 2
E [Y (1)] E [Y (2)] = y02 E eA E e2A = y02 eµ+ 2 e2µ+ 2
tranne nel caso in cui σ = 0 (in cui chiaramente Y (1), Y (2) sono indipendenti).
520 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2017 –

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ). Determinare se:

i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.
2. Dato γ ∈ R, consideriamo la funzione

µγ (n) = (1 − γ)γ n , n ∈ N0 := N ∪ {0}.

i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che

X 1
xn = , |x| < 1;
1−x
n=0

ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].
3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:
i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?
521

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2017 –

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ). Determinare se:


i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.

Soluzione.
i) È il contenuto della Proposizione 2.3.25, in base alla quale A, B ∈ F sono indipendenti se e solo se lo
sono Ac , B oppure A, Bc oppure Ac , Bc ;
ii) in base al punto i), per dimostrare che A e B ∪ C sono indipendenti, è sufficiente verificare che A
e (B ∪ C)c = Bc ∩ C c siano indipendenti oppure che A e B ∩ C siano indipendenti: per l’ipotesi di
indipendenza di A, B, C si ha

P (A ∩ (B ∩ C)) = P (A)P (B)P (C) = P (A)P (B ∩ C)

da cui la tesi.
iii) in generale A ∪ C e B ∪ C non sono indipendenti; per far vedere ciò, usiamo ancora la Proposizione
2.3.25 e verifichiamo che A ∩ C e B ∩ C non sono, in generale, indipendenti: infatti si ha

P ((A ∩ C) ∩ (B ∩ C)) = P (A ∩ B ∩ C) = P (A)P (B)P (C),

ma

P (A ∩ C)P (B ∩ C) = P (A)P (B)P (C)2 .

2. Dato γ ∈ R, consideriamo la funzione

µγ (n) = (1 − γ)γ n , n ∈ N0 := N ∪ {0}.

i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che

X 1
xn = , |x| < 1;
1−x
n=0

ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].

Soluzione.
i) I valori µγ (n) devono essere non-negativi da cui 0 < γ < 1. Per tali valori di γ si ha che µγ è una
funzione di distribuzione poiché

X ∞
X
µγ (n) = (1 − γ) γ n = 1.
n=0 n=0
522 APPENDICE B. TEMI D’ESAME RISOLTI

ii) X è divisibile per m se esiste k ∈ N0 tale che X = km. Poiché P (X = km) = (1 − γ)γ km , allora la
probabilità cercata è
∞ ∞
X X 1−γ
P (X = km) = (1 − γ) γ km = .
1 − γm
k=0 k=0

iii) La v.a. Y = X + 1 è tale che

P (Y = n) = P (X = n − 1) = (1 − γ)γ n−1 , n ∈ N.

Quindi Y ∼ Geom1−γ .
iv) Per il punto iii) si ha
1 γ
E[X] = E[Y ] − 1 = −1 = .
1−γ 1−γ

3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:

i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?

Soluzione.

i) Sappiamo (cfr. Esempio 3.6.7) che se X, Y ∼ Expλ ≡ Gamma1,λ sono v.a. indipendenti, allora

X + Y ∼ Gamma2,λ

con densità
γX+Y (z) = λ2 ze−λz 1R>0 (z).

Calcoliamo ora la densità di X − Y come convoluzione delle densità di X e −Y . Per far ciò, anzitutto
calcoliamo la densità di −Y : si ha P (−Y ≤ y) = 1 se y ≥ 0 e, per y < 0,
Z∞ Zy
P (−Y ≤ y) = P (Y ≥ −y) = λe−λx dx = λeλz dt
−y −∞

da cui
γ−Y (y) = λeλy 1R<0 (y).
Ora
Z
λ −λ|w|
γX−Y (w) = (γX ∗ γ−Y ) (w) = γX (x)γ−Y (w − x)dx = e , w ∈ R.
R 2

λ
ii) Ricordando che ϕX (η) = λ−iη , per l’indipendenza di X e Y si ha

h i h i h i λ2
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = ,
(λ − iη)2

e analogamente
h i λ2 λ2
ϕX−Y (η) = E eiη(X−Y ) = = 2 .
(λ − iη)(λ + iη) λ + η 2
523

iii) X + Y e X − Y sono indipendenti se e solo se

ϕ(X+Y ,X−Y ) (η1 , η2 ) = ϕX+Y (η1 )ϕX−Y (η2 ).

Abbiamo già l’espressione di ϕX+Y e ϕX−Y dal punto ii). Calcoliamo


h i
ϕ(X+Y ,X−Y ) (η1 , η2 ) = E eiη1 (X+Y )+iη2 (X−Y )
h i
= E eiX(η1 +η2 )+iY (η1 −η2 ) =

(per l’indipendenza di X e Y )
h i h i λ λ
= E eiX(η1 +η2 ) E eiY (η1 −η2 ) = .
λ − i(η1 + η2 ) λ − i(η1 − η2 )

Ne viene che X + Y e X − Y non sono indipendenti.


524 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2017 –

NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.

1. Due urne contengono ciascuna 1 pallina bianca e 4 nere.


i) Estratte 3 palline dalla prima urna e tre palline dalla seconda urna, calcolare la probabilità che
almeno una di esse sia bianca.
ii) Si mettano tutte le palline nella stessa urna (che quindi contiene 2 palline bianche e 8 nere) e si
estraggano 6 palline. Calcolare la probabilità che almeno una di esse sia bianca.
iii) Come nel punto ii) assumendo che l’estrazione avvenga con reinserimento, ossia estraendo una
pallina alla volta e rimettendola nell’urna. Calcolare la probabilità che il colore di almeno una
delle sei palline estratte sia bianco.
2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.

i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
525

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2017 –

NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.

1. Due urne contengono ciascuna 1 pallina bianca e 4 nere.


i) Estratte 3 palline dalla prima urna e tre palline dalla seconda urna, calcolare la probabilità che
almeno una di esse sia bianca.
ii) Si mettano tutte le palline nella stessa urna (che quindi contiene 2 palline bianche e 8 nere) e si
estraggano 6 palline. Calcolare la probabilità che almeno una di esse sia bianca.
iii) Come nel punto ii) assumendo che l’estrazione avvenga con reinserimento, ossia estraendo una
pallina alla volta e rimettendola nell’urna. Calcolare la probabilità che il colore di almeno una
delle sei palline estratte sia bianco.

Soluzione.
3
i) La probabilità di estrarre una pallina bianca dalla prima urna (evento A) è pari a 5 e ugualmente per
la seconda urna (evento B). Inoltre A e B sono indipendenti. Allora

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
21
= P (A) + P (B) − P (A)P (B) = = 0.84.
25
ii) Numeriamo le due palline bianche (pallina 1 e pallina 2) e indichiamo con Ai , i = 1, 2, l’evento secondo
6
cui fra le 6 palline estratte c’è la pallina i. Allora si ha P (A1 ) = P (A2 ) = 10 , P (A1 | A2 ) = 59 e

P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )


13
= P (A1 ) + P (A2 ) − P (A1 | A2 )P (A2 ) = ≈ 0.87.
15
In alternativa, possiamo considerare la v.a. X ∼ Ipern,b,N con distribuzione ipergeometrica, secondo la
formula (3.1.9) con b = 2, N = 10 e n = 6. Allora X indica il numero di palline bianche estratte. La
probabilità cercata è
13
P (X = 1) + P (X = 2) = .
15
iii) In questo caso, possiamo considerare la v.a. S ∼ Binn,p con distribuzione binomiale, secondo la formula
2
(3.1.5) con n = 6 e p = 10 . Allora S indica il numero di palline bianche estratte. La probabilità cercata

X6
P (S = i) ≈ 0.74.
i=1

2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.
i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .

Soluzione.
526 APPENDICE B. TEMI D’ESAME RISOLTI

i) Si ha
P (X + Y ≤ z) = P ((X + Y ≤ z) ∩ (Y = 0)) + P ((X + Y ≤ z) ∩ (Y = 1))
(per l’indipendenza di X e Y )
= P (X ≤ z)P (Y = 0) + P (X ≤ z − 1)P (Y = 1)
= (1 − p)P (X ≤ z) + pP (X ≤ z − 1),
e inoltre ricordiamo che P (X ≤ z) = 1 − e−λz . Allora si ha



 0   se z < 0,
−λz

FX+Y (z) := P (X + Y ≤ z) =  (1 − p) 1 − e se 0 ≤ z ≤ 1,

    
(1 − p) 1 − e−λz + p 1 − e−λ(z−1)

se z > 1.

Analogamente, si ha
FXY (z) := P (XY ≤ z) = P ((XY ≤ z) ∩ (Y = 0)) + P ((XY ≤ z) ∩ (Y = 1))
(per l’indipendenza di X e Y )
= P (0 ≤ z)P (Y = 0) + P (X ≤ z)P (Y = 1)

0  se z < 0,


= 
−λz
(1 − p) + p 1 − e
 se z ≥ 0.

ii) La funzione FX+Y è assolutamente continua e la densità di X + Y si ricava semplicemente derivando


(cfr. Teorema 2.4.33):


 0 se z < 0,
d 

−λz
FX+Y (z) =  (1 − p)λe se 0 ≤ z ≤ 1,

dz 
(1 − p)λe−λz + pλe−λ(z−1) se z > 1.


La funzione FXY è discontinua in 0 e quindi la v.a. XY non è assolutamente continua: anzi si ha (cfr.
(2.4.10))
P (XY = 0) = FXY (0) − FXY (0−) = 1 − p.
iii) Per l’indipendenza (cfr. Proposizione 3.5.11) si ha
λ
ϕX+Y (η) = ϕX (η)ϕY (η) = (1 + p(eiη − 1)).
λ − iη
Inoltre
h i "  
iηXY
ϕXY (η) = E e = eiηxy Expλ ⊗ Bep (dx, dy) =
R2
(per il Teorema di Fubini)
Z Z !
= eiηxy Bep (dy) Expλ (dx)
ZR  R 
= 1 − p + peiηx Expλ (dx)
R
λ
= 1−p+p .
λ − iη
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
Soluzione. Si veda l’Esempio 3.2.36.
527

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2017 –

1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:

i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:

i) la distribuzione di Z;
ii) se X e Z sono indipendenti.
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.

i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.


ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?
4. Determinare i valori di a, b ∈ R tale che la funzione

F(x) = a arctan x + b

sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .
528 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2017 –

1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:
i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).

Soluzione.
i) Si ha
3 3
P ((X = 1) ∩ (Y = 0)) = 7
= .
35
3

ii) Poiché
5
3 2
P (Y = 0) = 7
=
7
3
si ha
P ((X = 1) ∩ (Y = 0)) 3
P (X = 1 | Y = 0) = = .
P (Y = 0) 10
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:
i) la distribuzione di Z;
ii) se X e Z sono indipendenti.

Soluzione.
i) Z può assumere solo i valori 0, 1 e vale

P (Z = 1) = P ((X = 0) ∩ (Y = 0)) = (1 − p)2

da cui
Z ∼ (1 − p)2 δ1 + (1 − (1 − p)2 )δ0 .
ii) X e Z non sono indipendenti poiché, per esempio, si ha

P ((X = 0) ∩ (Z = 1)) = P (Y = 0) = 1 − p

e
P (X = 0)P (Z = 1) = (1 − p)3 .
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.
i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.
529

ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?

Soluzione.
i) Indichiamo con E l’evento “l’analisi economica dell’Italia ha esito positivo”. Per la Formula della
probabilità totale si ha

P (E) = P (E | A)P (A) + P (E | B)P (B) + P (E | C)P (C)


1
= (99% + 80% + 30%) ≈ 70%.
3
1
ii) Si tratta di calcolare P (C | E c ): sapendo che P (C) = 3 e

P (E c | C) = 1 − P (E | C) = 70%,

per la Formula di Bayes si ha

P (E c | C)P (C)
P (C | E c ) = ≈ 77%.
P (E c )

4. Determinare i valori di a, b ∈ R tale che la funzione

F(x) = a arctan x + b

sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .
1 1
Soluzione. Affinché siano verificate le proprietà di una CDF, deve essere a = π eb= 2. La densità si
determina semplicemente derivando F:

1
γ(x) = F ′ (x) = .
π(1 + x2 )
|x|
La v.a. X non è sommabile poiché la funzione π(1+x2 )
< L1 (R).
530 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2017 –

1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie a caso un’urna e si estrae una pallina: osservato che
tale pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?
2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le
une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.

i) Determinare P (NA = k).


ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una
variabile aleatoria di Poisson, N ∼ Poissonλ con λ > 0: determinare la probabilità che ci sia una
sola stella in A.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco

D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.

i) Determinare la densità di (X, Y ) e se X, Y sono indipendenti;


ii) scrivere l’espressione (non importa calcolare gli integrali) di P (X > 12 ) e P (X > 1
2 | Y > 0).
531

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2017 –

1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie un’urna e si estrae una pallina: osservato che tale
pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?

Soluzione. Consideriamo gli eventi:

– A: scegliendo un’urna ed estraendo una pallina, essa è rossa;


– B: scegliendo a caso un’urna, essa contiene due palline rosse.

Siamo interessati a calcolare P (B | A) e per il Teorema di Bayes abbiamo

P (A | B)P (B) 1 · 13 2
P (B | A) = = 1 = .
P (A) 2
3

2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le


une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.

i) Determinare P (NA = k).


ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una
variabile aleatoria di Poisson, N ∼ Poissonλ con λ > 0: determinare la probabilità che ci sia una
sola stella in A.

Soluzione.
2
i) Poiché la distribuzione della posizione è uniforme, ogni stella ha probabilità p = 3 di essere in A
indipendentemente dalle altre. Allora

N 2k
!
P (NA = k) = BinN ,p (k) = .
k 3N

ii) Per la formula della probabilità totale, la probabilità cercata è


∞ ∞
X e−λ λN X 2N λN 2λ 2λ
P (NA = 1) = e−λ = e− 3 .
N! 3N N ! 3
N =0 N =1

3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco

D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.

i) Determinare la densità di (X, Y ) e se X, Y sono indipendenti;


ii) scrivere l’espressione (non importa calcolare gli integrali) di P (X > 12 ) e P (X > 1
2 | Y > 0).

Soluzione.
532 APPENDICE B. TEMI D’ESAME RISOLTI

i) La densità congiunta è
1
γ(X,Y ) (x, y) = 1 (x, y).
π D
Allora
2√
Z
γX (x) = γ(X,Y ) (x, y)dy = 1 − x2 1[−1,1] (x)
R π
e in modo analogo si calcola γY e si verifica facilmente che X, Y non sono indipendenti.
ii) si ha
  Z1
1
P X>2 = γX (x)dx,
1
2
  P ((X > 1 ) ∩ (Y > 0)) 2
1 2
P X> 2 |Y >0 = = Leb({(x, y) ∈ D | x > 12 , y > 0}).
P (Y > 0) π
533

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2017 –

1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.
2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.
3. Sia (X, Y ) ∼ N0,C con !
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:
i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;
ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .
4. Sia X una v.a. reale con densità γX .
i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .
5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che

E [X | B] = E [X] .
534 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2017 –

1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.

Soluzione.
i) Indichiamo con D l’evento di cui dobbiamo calcolare la probabilità. La probabilità che una scatola
prodotta da A abbia esattamente un prodotto difettoso è pA = Bin10,0.5% ({1}) ≈ 4.78%. Analogamen-
te pB = Bin10,0.1% ({1}) ≈ 0.99%. Allora, con notazioni il cui significato dovrebbe essere evidente, la
probabilità cercata è

P (D) = P (D | A)P (A) + P (D | B)P (B) = pA ∗ 30% + pB ∗ 70% ≈ 2.13%.

ii) Per la formula di Bayes, si ha

P (D | A)P (A) pA ∗ 30%


P (A | D) = = ≈ 67.39%.
P (D) 2.13%

iii) La probabilità che è un singolo prodotto sia difettoso è pari a

pD = 0.5% ∗ 30% + 0.1% ∗ 70% ≈ 0.22%.

Allora la probabilità cercata è pari a Bin10,pD ({1}) ≈ 2.15%.


2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.

Soluzione. Indichiamo con X l’evento “un’email è spam” e con S l’evento “un’email è sospetta”. Per ipotesi
si ha
P (X) = 60%, P (S | X) = 90%, P (S | X c ) = 1%.
Allora per la formula di Bayes otteniamo

P (S | X)P (X)
P (X | S) = =
P (S)

(per la formula della probabilità totale)

P (S | X)P (X)
= ≈ 99.26%.
P (S | X)P (X) + P (S | X c )P (X c )
535

3. Sia (X, Y ) ∼ N0,C con


!
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:

i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;


ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .

Soluzione.

i) Si ha ! ! !
X +Y X 1 1
=α , α= ,
X −Y Y 1 −1
e quindi (X + Y , X − Y ) ∼ N0,αCα ∗ . Inoltre
!
2(1 + ϱ) 0
αCα ∗ =
0 2(1 − ϱ)

da cui segue che X + Y e X − Y sono indipendenti per ogni ϱ ∈ [−1, 1];


ii) Da i) segue anche che X + Y ∼ N0,2(1+ϱ) e quindi X + Y ∈ AC per ϱ ∈] − 1, 1] con densità normale
2
1 − z
γX+Y (z) = p e 4(1+ϱ) , z ∈ R.
2 π(1 + ϱ)

4. Sia X una v.a. reale con densità γX .

i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .

Soluzione.

i) Chiaramente γ ≥ 0 e vale
Z Z Z ! Z
1
γ(x)dx = γX (x)dx + γX (−x)dx = γX (x)dx = 1.
R 2 R R R

ii) Si ha
h i
ϕY (η) = E eiηY
Z
γ (x) + γX (−x)
= eiηx X dx
R 2
1
= (ϕX (η) + ϕX (−η)) = Re (ϕX (η)) .
2
536 APPENDICE B. TEMI D’ESAME RISOLTI

iii) Siano X1 e X2 v.a. indipendenti, uguali in legge a X. Allora

ϕX1 +X2 (η) = ϕX1 (η)ϕX2 (η) = ϕX (η)2 .

5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che

E [X | B] = E [X] .

Soluzione. Si ha
Z
1 1
E [X | B] = XdP = E [X1B ] =
P (B) B P (B)

(per l’indipendenza di X e B)

1
= E [X] E [1B ] = E [X] .
P (B)
537

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2018 –

1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:

i) la funzione di distribuzione congiunta di X e Y ;


ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.

3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.
4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
 
1 0 0 
C = 0 1 −1 .
 
0 −1 1
 

Dati i vettori aleatori Y := (X1 , X2 ) e Z := (X2 , X3 ), si determini:


i) la distribuzione di Y e Z, specificando se sono assolutamente continui;
ii) se Y e Z sono indipendenti;
iii) le funzioni caratteristiche ϕY e ϕZ .
5. Sia X ∼ Nµ,1 con µ ∈ R e sia ϕX (η) la CHF di X.
h i
i) Dato c ∈ R, si calcoli E ecX : a tal fine si scelga un opportuno valore complesso ηc per cui vale
h i
E ecX = ϕX (ηc ).
ii) Data Y ∼ Unifn , con n ∈ N, indipendente da X, si scriva la distribuzione congiunta di X e Y . Si
h Xi
calcoli E e Y .
X
iii) Posto Z = Y, si determini la CDF di Z. Nel caso in cui Z ∈ AC, se ne determini la densità.
538 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2018 –

1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:
i) la funzione di distribuzione congiunta di X e Y ;
ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?

Soluzione.
1
i) Per h, k ∈ I10 si ha P (X = h) = 10 ossia X ∼ Unif10 e

3


 39 se h = k,
P (Y = k | X = h) =  4

 39 se h , k.

Allora la funzione di distribuzione di (X, Y ) è data da



1


 130 se h = k,
µ̄(X,Y ) (h, k) = P ((X = h) ∩ (Y = k)) = P (Y = k | X = h) P (X = h) =  2 .

 195 se h , k.

ii) Si ha
10
X 2 X 2
P (X < Y ) = µ̄(X,Y ) (h, k) = (k − 1) = · 45.
195 195
1≤h<k≤10 k=2

iii) La funzione di distribuzione di Y si ottiene da


10 10
1 X 1 3 4 1
X  
µ̄Y (k) = µ̄(X,Y ) (h, k) = P (Y = k | X = h)) = +9· =
10 10 39 39 10
h=1 h=1

ossia anche Y ∼ Unif10 . Ne viene anche che X, Y non sono indipendenti poiché la funzione di distribu-
zione congiunta non è il prodotto delle marginali (cfr. Teorema 3.3.23).
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.
k!
Soluzione. Basta considerare una qualsiasi funzione misurabile tale che f (k) = λk
per k ∈ N: per esempio si
può prendere f costante a tratti.
3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.

Soluzione. Osserviamo che X = max{Q, 1 − Q} e 21 ≤ X ≤ 1. Determiniamo la CDF di X: per 1


2 ≤ x ≤ 1 si ha
   
P (X ≤ x) = P (Q ≤ x) ∩ (Q ≥ 21 ) + P (1 − Q ≤ x) ∩ (Q ≤ 21 )
= P ( 12 ≤ Q ≤ x) + P (1 − x ≤ Q ≤ 21 ) = 2x − 1.

Ne viene che X ∈ AC e precisamente X ∼ Unif 1 . In particolare E [X] = 34 .


2 ,1
539

4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con


 
1 0 0 
C = 0 1 −1 .
 
0 −1 1
 

Dati i vettori aleatori Y := (X1 , X2 ) e Z := (X2 , X3 ), si determini:

i) la distribuzione di Y e Z, specificando se sono assolutamente continui;


ii) se Y e Z sono indipendenti;
iii) le funzioni caratteristiche ϕY e ϕZ .

Soluzione.

i) Poiché ! !
1 0 0 0 1 0
Y= X, Z= X
0 1 0 0 0 1
si ha Y ∼ N0,CY e Z ∼ N0,CZ con
! !
1 0 1 −1
CY = , CZ = .
0 1 −1 1

Ne viene che Y è assolutamente continuo, mentre Z non lo è perché CZ è singolare.


ii) Per vedere che Y e Z non sono indipendenti basta osservare che, per ogni H ∈ B1 , si ha

P ((Y ∈ R × H) ∩ (Z ∈ H × R)) = P (X2 ∈ H),

e
P (Y ∈ R × H) = P (X2 ∈ H) = P (Z ∈ H × R).

iii) Si ha
1 2 2 1 2 2
ϕY (η1 , η2 ) = e− 2 (η1 +η1 ) , ϕZ (η1 , η2 ) = e− 2 (η1 +η1 −2η1 η2 ) .

5. Sia X ∼ Nµ,1 con µ ∈ R e sia ϕX (η) la CHF di X.


h i
i) Dato c ∈ R, si calcoli E ecX : a tal fine si scelga un opportuno valore complesso ηc per cui vale
h i
E ecX = ϕX (ηc ).
ii) Data Y ∼ Unifn , con n ∈ N, indipendente da X, si scriva la distribuzione congiunta di X e Y . Si
h Xi
calcoli E e Y .
X
iii) Posto Z = Y, si determini la CDF di Z. Nel caso in cui Z ∈ AC, se ne determini la densità.

Soluzione.

i) Posto ηc = −ic si ha
h i c2
E ecX = ϕX (−ic) = ecµ+ 2 .

ii) Per l’indipendenza, si ha µ(X,Y ) = Nµ,1 ⊗ Unifn e


 X " x
E eY = e y Nµ,1 ⊗ Unifn (dx, dy) =
R2
540 APPENDICE B. TEMI D’ESAME RISOLTI

(per il Teorema di Fubini)


n Z
1X x
= e k Nµ,1 (dx) =
n R
k=1

(per quanto visto nel punto i) con c = 1k )


n
1 X µk + 12
= e 2k .
n
k=1

iii) Per la formula della probabilità totale, si ha


n
X
FZ (z) = P (Z ≤ z) = P (Z ≤ z | Y = k) P (Y = k)
k=1
n n Z kz
1X 1X
= P (X ≤ kz) = Γ (x − µ)dx
n n −∞
k=1 k=1

x2
dove Γ (x) = √1 e− 2 è la densità normale standard. Z ∈ AC poiché FZ ∈ C ∞ (R) e vale

n
1X
FZ′ (z) = kΓ (kz − µ).
n
k=1
541

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2018 –

1. Si effettuano estrazioni, senza reinserimento, da un mazzo di 40 carte. Si determini:

i) la probabilità che le prime due carte abbiano lo stesso seme;


ii) la distribuzione della v.a. N che indica il numero della prima estrazione in cui si ha un asso.

2. Siano F una CDF e α > 0.


i) Si provi che F α è ancora una CDF;
ii) sia F la CDF di Expλ : si determini la densità della v.a. con CDF F α ;
iii) sia F la CDF della distribuzione discreta Unifn , con n ∈ N fissato. Per α che tende a +∞, F α tende
a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della
normale standard?
3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?

i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità

2xy se 0 < x < 1, 0 < y <

 √1 ,
f (x, y) =  x
0
 altrimenti.

i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.


ii) Le variabili aleatorie X e Y hanno media e varianza finite?
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga

Z = X cos α + Y sin α.

Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.
542 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2018 –

1. Si effettuano estrazioni, senza reinserimento, da un mazzo di 40 carte. Si determini:

i) la probabilità che le prime due carte abbiano lo stesso seme;


ii) la distribuzione della v.a. N che indica il numero della prima estrazione in cui si ha un asso.

Soluzione.
9
i) 39 ;
4
ii) P (N = 1) = 40 e per 1 < n ≤ 36
4 D36,n−1
P (N = n) =
D
40,n

dove D36,n−1 rappresenta le disposizioni delle prime n − 1 estrazioni di carte diverse dagli assi e D40,n
tutte le possibili disposizioni delle prime n estrazioni.

2. Siano F una CDF e α > 0.

i) Si provi che F α è ancora una CDF;


ii) sia F la CDF di Expλ : si determini la densità della v.a. con CDF F α ;
iii) sia F la CDF della distribuzione discreta Unifn , con n ∈ N fissato. Per α che tende a +∞, F α tende
a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della
normale standard?

Soluzione.

i) Per ogni α > 0 la funzione f (x) = xα è continua, monotona crescente su [0, 1], f (0) = 0 e f (1) = 1. Ne
segue che le proprietà di monotonia, continuità a destra e i limiti a ±∞ si conservano componendo f
con una CDF F.
 α
ii) La funzione F α (t) = 1 − e−λt 1R≥0 (t) è assolutamente continua e derivando si ottiene la densità

γ(t) = αλe−λt (1 − e−λt )α−1 1R≥0 (t).

ii) Poiché F(x) < 1 per x < n e F(x) = 1 per x ≥ n, si ha



0 se x < n,

α

G(x) = lim F (x) = 
α→+∞ 1 se x ≥ n,

ossia G è la CDF della Delta di Dirac centrata in n. Se F è la CDF della normale standard si ha
0 < F(x) < 1 per ogni x ∈ R e quindi, per α → +∞, F α tende puntualmente alla funzione identicamente
nulla che non è una CDF.

3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?

i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
543

sin η
Soluzione. i) non implica ii): per esempio, X ∼ Unif[−1,1] è assolutamente continua ma ϕX (η) = η non è
sommabile come si può verificare direttamente oppure col Teorema di inversione. Invece ii) implica i) per il
Teorema di inversione.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità

2xy se 0 < x < 1, 0 < y <

 √1 ,
f (x, y) =  x
0
 altrimenti.
i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.
ii) Le variabili aleatorie X e Y hanno media e varianza finite?

Soluzione.
i) Si ha
R √1
 0 x 2xydy = 1 se 0 < x < 1,


fX (x) = 

0 altrimenti,
 1
 R 2
 0y 2xydx = 13 se y > 1,



 y
fY (y) = 
R 1
 2xydx = y se 0 < y < 1,
0



 0 se y < 0.
X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
ii) X ∼ Unif[0,1] e quindi ha media e varianza finite. La densità di Y è limitata sui compatti ed è uguale a
y −3 per y > 1. Ne viene che Y ha media finita e varianza infinita.
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga
Z = X cos α + Y sin α.
Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.

Soluzione.
i) Determiniamo la distribuzione di Z calcolandone la CHF:
h i
ϕZ (η) = E eiη(X cos α+Y sin α) =

(per l’ipotesi di indipendenza)


Z 2π Z Z
1
= eiη(x cos t+y sin t) N0,1 (dx)N0,1 (dy)dt =
2π 0 R R
(nota la CHF della normale standard)
Z 2π
1 1 2 2 2 η2
= e− 2 η (cos t+sin t ) dt = e− 2
2π 0
e quindi Z ∼ N0,1 .
544 APPENDICE B. TEMI D’ESAME RISOLTI

ii)
h i
cov(X, Z) = E [XZ] = E X 2 cos α + XY sin α =

(per l’ipotesi di indipendenza)


h i
= E X 2 E [cos α] = 0
h i
poiché E X 2 = var(X) = 1 e
Z 2π
1
E [cos α] = cos tdt = 0.
2π 0

iii) Si ha
h i h i
ϕ(X,Z) (1, 1) = E ei(X+Z) = E eiX(1+cos α)+iY sin α

(per l’ipotesi di indipendenza)


Z 2π Z Z
1
= eix(1+cos t)+iy sin t N0,1 (dx)N0,1 (dy)dt
2π 0 R R
Z 2π
1 1 2
− 21 sin2 t
= e− 2 (1+cos t) dt
2π 0

e−1
Z
= e− cos t dt.
2π 0

Allora X e Z non sono indipendenti perché altrimenti dovrebbe essere

ϕ(X,Z) (1, 1) = ϕX (1)ϕZ (1) = e−1 .


545

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Maggio 2018 –

1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .

2. In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra


le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa.
i) Supposto N = 100, si determini (o si spieghi come è possibile determinare) il massimo valore
n̄ ∈ N tale che
P (N1 ≥ n̄) ≥ 90%.

ii) Assumendo che N ∼ Poisson100 , si scriva una formula per calcolare

P (N1 ≥ 15).

3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.
4. Siano X e Y v.a. con densità congiunta

1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [

i) Si calcolino le densità marginali.


ii) Le v.a. Z := eX e W := eY sono indipendenti?
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:

i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .
546 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Maggio 2018 –

1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .

Soluzione.
i) Per la formula della probabilità totale si ha
90 90
X X 90 − k 1 1
P (A) = P (A | p1 = k)P (p1 = k) = · = .
89 90 2
k=1 k=1

ii) 1A ha distribuzione di Bernoulli, 1A ∼ Be 1 .


2
iii)
90
P ((p1 ≥ 45) ∩ A) X 90 − k 1
P (p1 ≥ 45 | A) = =2 · ≈ 25.8%.
P (A) 89 90
k=45

2. In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra


le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa.
i) Supposto N = 100, si determini (o si spieghi come è possibile determinare) il massimo valore
n̄ ∈ N tale che
P (N1 ≥ n̄) ≥ 90%.
ii) Assumendo che N ∼ Poisson100 , si scriva una formula per calcolare
P (N1 ≥ 15).

Soluzione.
i) Ogni cliente ha la probabilità di 15 di andare alla prima cassa, indipendentemente dagli altri, e quindi
N1 ∼ Bin100, 1 . Allora occorre determinare il massimo valore di n tale che
5

100
100 1 k 4 100−k
X !   
90% ≤ P (N1 ≥ n) = .
k 5 5
k=n

Si trova che P (N1 ≥ 16) ≈ 87.1% e P (N1 ≥ 15) ≈ 91.9%, quindi n̄ = 15.
ii) Si ha

X
P (N1 ≥ 15) = P (N1 ≥ 15 | N = h)P (N = h)
h=0
h
∞ X
h 1 k 4 h−k e−100 100h
X !   
= ≈ 89.5%.
k 5 5 h!
h=15 k=15
547

3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.

Soluzione. Per esempio  sgn(x)


 √|x|

 se x , 0,
f (x) = 
0 se x = 0.

Si ha Z 1
1
E [f (X)] = f (x)dx = 0
2 −1
e
i Z 1
h 1
var(f (X)) = E f (X)2 = dx = +∞.
−1 |x|

4. Siano X e Y v.a. con densità congiunta


1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [

i) Si calcolino le densità marginali.


ii) Le v.a. Z := eX e W := eY sono indipendenti?

Soluzione.
i) Si ha
Z Z 1
λ 1
γX (x) = γ(X,Y ) (x, y)dy = dy = − log x, x ∈ ]0, 1[,
R x y
λ
Z Z λy
1 i h
γY (y) = γ(X,Y ) (x, y)dx = dx = λ, y ∈ 0, λ1 .
R 0 y

Quindi γX (x) = log x · 1]0,1[ (x) e γY (y) = λ1]0, 1 [ (y).


λ

ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:

i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .

Soluzione.
i) La CDF di X 2 è data da


Z z √
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = λ1 e−λ1 t dt = 1 − e−λ1 z
0

se z ≥ 0 e FX 2 ≡ 0 su ] − ∞, 0]. Trattandosi di una funzione AC, ricaviamo la densità di X 2 differen-


ziando √
d λ1 e−λ1 z
γX 2 (z) = F 2 (z) = √ 1R≥0 (z).
dz X 2 z
548 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Per l’indipendenza si ha

λ1 λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = .
(λ1 − iη1 )(λ2 − iη2 )

iii) Analogamente
λ1 λ2
ϕX+Y (η) = ϕX (η)ϕY (η) = .
(λ1 − iη)(λ2 − iη)
549

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2018 –

Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.

1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?

2. Sia data la funzione  α


β − e−x se x ≥ 0,


F(x) = 
0
 se x < 0.

i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.

3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2

i) Provare che le v.a.


Z := X − Y , W := T X + (1 − T )Y ,
hanno distribuzione normale;
ii) si calcoli cov(Z, W );
iii) si determini la CHF congiunta ϕ(Z,W ) ;
iv) le v.a. Z e W sono indipendenti?
550 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2018 –

Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.

1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?

Soluzione.
i) X2 ha distribuzione uniforme su I10 = {n ∈ N | n ≤ 10}, ossia X2 ∼ UnifI10 : per verificarlo in modo
rigoroso si può procedere come nell’Esempio 3.3.24 oppure con la Formula della probabilità totale:

P (X2 = n) = P (X2 = n | X1 = n)P (X1 = n) + P (X2 = n | X1 , n)P (X1 , n)


3 1 4 9 1
= · + · = , n ∈ I10 .
39 10 39 10 10
ii) Risolviamo il quesito in due modi: utilizzando la probabilità condizionata e in particolare la formula
(2.3.5) si ha
4 24 23
P (A) = P (X1 ≤ 4)P (X2 ≥ 5 | X1 ≤ 4)P (X3 ≥ 5 | (X1 ≤ 4) ∩ (X2 ≥ 5)) = · · .
10 39 38
Si ottiene lo stesso risultato col metodo delle scelte successive: osserviamo che occorre usare le disposi-
zioni perché siamo interessati all’ordine di estrazione delle carte. Dunque
16 · |D24,2 |
P (A) = .
|D40,3 |

Poi B = B0 ⊎B1 dove B0 è l’evento “nessuna carta estratta ha valore minore o uguale a 4” e B1 è l’evento
“esattamente una carta estratta ha valore minore o uguale a 4”. Si ha P (B) = P (B0 ) + P (B1 ) e
|C24,3 | |D24,3 |
P (B0 ) = =
|C40,3 | |D40,3 |
16 · |C24,2 | 3 · 16 · |D24,2 |
P (B1 ) = = .
|C40,3 | |D40,3 |
Il fattore “3” che appare nell’ultima espressione è dovuto al fatto che, se usiamo le disposizioni, allora
dobbiamo tenere conto dell’ordine e pertanto dobbiamo anche fare la scelta della posizione (fra le tre
possibili) della carta che ha valore minore o uguale a 4.
551

iii) A ⊆ B e quindi A∩B = A. Ma P (A∩B) = P (A) , P (A)P (B) e quindi non si tratta di eventi indipendenti.
P (A)
Inoltre si ha P (A | B) = P (B) .
iv) X2 e N non sono indipendenti perché, per esempio, (X2 = 4) ∩ (N = 0) = ∅ ma

P (X2 = 4)P (N = 0) , 0.

2. Sia data la funzione  α


β − e−x se x ≥ 0,


F(x) = 
0
 se x < 0.

i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.

Soluzione.
i) Se α = 0 e β = 1 + 1e allora F è la CDF della distribuzione Delta di Dirac centrata in 0. Gli altri valori
per cui F è una CDF sono α > 0 e β = 1;
ii) se α > 0 e β = 1 allora
1
P (X ≤ 0) = F(0) = 0, P (X ≥ 1) = 1 − F(1) = .
e
Se α = 0 e β = 1 + 1e allora P (X ≤ 0) = 1 e P (X ≥ 1) = 0.
iii) X ∈ AC se α > 0 e β = 1 e in tal caso una densità si determina derivando F:
 α
αxα−1 e−x se x > 0,



γ(x) = F (x) = 
0
 se x < 0.

iv) Se α = 2 si ha Z +∞ √
h
−1
i 2
E X =2 e−x dx = π.
0
Determiniamo la CDF di Z: anzitutto P (Z ≤ 1) = 0 e per z > 1 si ha
√ √ √
P (X 2 + 1 ≤ z) = P (− z − 1 ≤ X ≤ z − 1) = P (X ≤ z − 1) = 1 − e1−z .

Allora la densità di Z è
γZ (z) = e1−z 1[1,+∞[ (z).
3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2

i) Provare che le v.a.


Z := X − Y , W := T X + (1 − T )Y ,
hanno distribuzione normale;
ii) si calcoli cov(Z, W );
iii) si determini la CHF congiunta ϕ(Z,W ) ;
552 APPENDICE B. TEMI D’ESAME RISOLTI

iv) le v.a. Z e W sono indipendenti?

Soluzione.

i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X  
Z =α , α = 1 −1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto

N0,1 ⊗ N0,1 ⊗ Be 1
2

e quindi per ogni f ∈ mB e limitata si ha


Z  
E [f (W )] = f (tx + (1 − t)y) N0,1 ⊗ N0,1 ⊗ Be 1 (dx, dy, dt) =
2
R3

(per il Teorema di Fubini)


Z Z Z ! !
= f (tx + (1 − t)y)N0,1 (dx) N0,1 (dy) Be 1 (dt)
2
R R R
Z Z ! Z Z !
1 1
= f (x)N0,1 (dx) N0,1 (dy) + f (y)N0,1 (dx) N0,1 (dy)
2 R R 2 R R
Z Z
1 1
= f (x)N0,1 (dx) + f (y)N0,1 (dy)
2 R 2 R
Z
= f (x)N0,1 (dx).
R

Quindi W ∼ N0,1 .
ii) Si ha

cov(Z, W ) = E [(X − Y )(T X + (1 − T )Y )]


h i h i
= E T X 2 + E [(1 − 2T )XY ] − E (1 − T )Y 2 =

(per l’indipendenza di X, Y , T )
h i h i
= E [T ] E X 2 − E [1 − T ] E Y 2 = 0.

iii) La CHF congiunta è data da


h i
ϕ(Z,W ) (η1 , η2 ) = E ei(η1 (X−Y )+η2 (T X+(1−T )Y ))
h i h i
= E ei(η1 (X−Y )+η2 X) 1(T =1) + E ei(η1 (X−Y )+η2 Y ) 1(T =0) =

(per l’indipendenza di X, Y , T )

1 h i(η1 +η2 )X i h −iη1 Y i 1 h iη1 X i h i(η2 −η1 )Y i


= E e E e + E e E e =
2 2
553

(poiché X, Y ∼ N0,1 )

η12
e− 2
!
(η1 +η2 )2 (y1 −η2 )2
− −
= e 2 +e 2 ,
2

che non è la CHF di una normale bidimensionale. Questo prova anche che

ϕ(Z,W ) (η1 , η2 ) , ϕZ (η1 )ϕW (η2 )

e quindi Z, W non sono indipendenti.


554 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2018 –

1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:
i) la probabilità che, lanciando i dadi una volta, vinca A;
ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).
2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.
i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.
3. Sia X una v.a. con CDF 


0 x < 0,

F(x) = λx 0 ≤ x < 1,



1

x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .

4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .
555

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2018 –

1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:

i) la probabilità che, lanciando i dadi una volta, vinca A;


ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).

Soluzione.

i) Siano NA e NB i numeri ottenuti nel primo lancio di dadi: allora

7
1 4 3 2 1 10
X  
P (NA > NB ) = P (NA > k | NB = k)P (NB = k) = + + + = =: p.
6 6 6 6 6 36
k=2

ii) La v.a. T che indica il primo istante in cui A vince ha distribuzione geometrica di parametro p: quindi

P (T ≤ 10) = 1 − P (T > 10) = 1 − (1 − p)10 ≈ 96%.

iii) Come nel punto i), si calcola


5
P (NA = NB ) =
36
5 10
 
e quindi la probabilità cercata è 36 .
iv) se N rappresenta il numero di vincite di A nei primi dieci lanci, allora N ∼ Bin10,p e quindi E [N ] =
100
36 .

2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.

i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.

Soluzione.

i) Se M è l’evento “contrarre la malattia” e V è l’evento “essere vaccinato”, si ha

P (M) = P (M | V )P (V ) + P (M | V c )(1 − P (V ))

da cui
P (M) − P (M | V c )
P (V ) = ≈ 89%
P (M | V ) − P (M | V c )
556 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Per il Teorema di Bayes, si ha


P (M | V )P (V )
P (V | M) = ≈ 0.09%
P (M)
3. Sia X una v.a. con CDF 


0 x < 0,

F(x) = λx 0 ≤ x < 1,



1

x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .

Soluzione.
i) No, P (X = 1) = F(1) − F(1−) = 1 − λ > 0. Riconosciamo che X ∼ λUnif[0,1] + (1 − λ)δ1 .
ii) Calcoliamo la CDF di Z. Per z ∈ [0, 1] si ha
P (Z ≤ z) = P ((Z ≤ z) ∩ (X < 1)) + P ((Z ≤ z) ∩ (X ≥ 1))
= P ((X ≤ z) ∩ (X < 1)) + P ((Y ≤ z) ∩ (X ≥ 1))
(per l’indipendenza)
= λz + P (Y ≤ z)P (X ≥ 1) = λz + z(1 − λ) = z.
Di conseguenza Z ∼ Unif[0,1] .
4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .

Soluzione.
i) La densità di (X, Y ) è
1
γ(X,Y ) (x, y) = 1 (x, y), T = {x, y ∈ R | x, y ≥ 0, x + y ≤ 2}.
2 T
Si ha Z Z 2−x
1 2−x
γX (x) = γ(X,Y ) (x, y)dy = 1 (x)dy = 1 (x).
R 0 2 [0,2] 2 [0,2]
Il calcolo di γY è analogo.
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha Z Z
1 z
γZ (z) = γ(X,Y ) (x, z − x)dx = 1T (x, z − x)dx = 1[0,2] (z).
R 2 R 2
Quindi Z2 2
z 4
E [Z] = dz = .
0 2 3
557

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2018 –

1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:
i) A1 = le due palline della prima estrazione sono bianche;
ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.
2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.
i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.
3. Sia (X, Y , Z) ∼ N0,C con
 
1 1 0 
C = 1 2 −1 .
 
0 −1 2
 

Determinare:
i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?
 
4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .

i) Si calcoli media, varianza e CHF di Xn .


X −1 d
ii) Si calcoli la CHF di Zn := √n e si deduca che Zn −−−−→ 0 per il Teorema di continuità di Lévy.
n−1
L2
iii) Vale anche Zn −−−→ 0 ?
P
iv) [Facoltativo] Vale anche Zn −−→ 0 ?
5. Verificare che la funzione 
4y

 se x > 0 e 0 < y < e−x ,
γ(x, y) = 
0
 altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
558 APPENDICE B. TEMI D’ESAME RISOLTI

i) Determinare le densità marginali γX e γY .


ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).
559

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2018 –

1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:

i) A1 = le due palline della prima estrazione sono bianche;


ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.

Soluzione.

|C3,2 | (3) 1
i) P (A1 ) = = 2 = 35 .
|C15,2 | (152)
|C3,2 |+|C6,2 |+|C6,2 | (32)+2(62) 11
ii) P (A2 ) = = 15 = 35 .
|C15,2 | (2)
iii) se B = “le due palline della seconda estrazione sono bianche” allora

P (A3 ) = P (B | A1 )P (A1 ) = 0.

iv) se Ci = “le due palline della i-esima estrazione sono rosse” allora

C4,2 C6,2 4 6
2 2 1
P (A4 ) = P (C1 ∩ C2 ) = P (C2 | C1 )P (C1 ) = =
13 15
= .
C C
13,2 15,2 91
2 2

2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.

i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.

Soluzione.

i) Xn è una v.a. di Bernoulli e, per la formula della probabilità totale, si ha


10 10
X 1 X
P (Xn = 1) = P (Xn = 1 | Yn = i)P (Yn = i) = pi =: p.
10
i=1 i=1

Dunque Xn ∼ Bep .
560 APPENDICE B. TEMI D’ESAME RISOLTI

ii) N ∼ Geomp e quindi E [N ] = p1 .


iii) Si ha (cfr. Teorema 3.1.26)
P (N > 100) = (1 − p)100 .

3. Sia (X, Y , Z) ∼ N0,C con


 
1 1 0 
C = 1 2 −1 .
 
0 −1 2
 

Determinare:

i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?

Soluzione. Osserviamo che (X, Y ) ∼ N0,D con


!
1 1
D=
1 2

e quindi:
!
  X
i) essendo X + Y = 1 1 , si ha X + Y ∼ N0,5 poiché
Y
!
  1
A= 1 1 D = 5.
1

ii)
1
ϕ(X,Y ) (η) = e− 2 ⟨Dη,η⟩ , η ∈ R2 .

iii) se (X, Y ) e Z fossero indipendenti, allora lo sarebbero anche Y e Z, ma cov(Y , Z) = −1.


 
4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .

i) Si calcoli media, varianza e CHF di Xn .


X −1 d
ii) Si calcoli la CHF di Zn := √n e si deduca che Zn −−−−→ 0 per il Teorema di continuità di Lévy.
n−1
L2
iii) Vale anche Zn −−−→ 0 ?
P
iv) [Facoltativo] Vale anche Zn −−→ 0 ?

Soluzione.

i) Si ha
1 1
  h i
E [Xn ] = 0 · 1 − + n · = 1, var(Xn ) = E (Xn − 1)2 = n − 1.
n n
Inoltre
h i 1 1
ϕXn (η) = E eiηXn = 1 − + eiηn .
n n
561

ii) Si ha
η  √η 
−i √ i X
ϕZn (η) = e n−1 E e n−1 n
η
!
−i √ η
=e n−1 ϕXn √
n−1
η η 
1 1 in √n−1

−i √
=e n−1 1− + e −−−−−−→ 1.
n n n→∞

Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi.
iii) Si ha
h i 1
∥Zn ∥22 = E Zn2 = var(Xn ) = 1
n−1
e quindi non si ha convergenza in L2 (Ω, P ).
iv) Si ha convergenza in probabilità per il punto vi) del Teorema 4.1.9.
5. Verificare che la funzione 
4y

 se x > 0 e 0 < y < e−x ,
γ(x, y) = 
0
 altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
i) Determinare le densità marginali γX e γY .
ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).

Soluzione. La funzione γ è non-negativa e misurabile con


Z Z +∞ Z e−x Z +∞
γ(x, y)dxdy = 4ydydx = 2e−2x dx = 1.
R2 0 0 0

i) Abbiamo appena calcolato


Z Z e−x
γX (x) = γ(x, y)dy = 4ydy = 2e−2x 1]0,+∞[ (x)
R 0

da cui si riconosce che X ∼ Exp2 . Poi osserviamo che


γ(x, y) = 4y1]0,− log y[ (x)1]0,1[ (y)
da cui Z Z − log y
γY (y) = γ(x, y)dx = 4y1]0,1[ (y)dx = −4y log y 1]0,1[ (y).
R 0
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
γ(x, y) 1
γX|Y (x, y) = 1 (y) = − 1 (x)1]0,1[ (y)
γY (y) (γY >0) log y ]0,− log y[
e quindi X ha densità condizionata uniforme su ]0, − log Y [.
iv) Per quanto visto al punto iii), si ha
− log Y (log Y )2
E [X | Y ] = , var(X | Y ) = .
2 12
562 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2019 –

1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora  α
Zα = X 2 + Y 2 , α > 0.

iii) scrivere la CDF di Zα e disegnarne il grafico;


iv) stabilire se Zα ∈ AC e in tal caso scriverne la densità;
v) determinare i valori di α > 0 per cui Z1 è sommabile e per tali valori calcolare il valore atteso.
α

4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:
i) la CDF della v.a. nX1 per n ∈ N;
ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.
5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:
i) la densità congiunta γ(S,T ) e marginale γS ;
ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).
563

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2019 –

1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.

Soluzione.
i) Sia A =“è estratta la moneta d’argento”. Allora per k = 0, 1, . . . , n si ha
!
n k
P (X = k | A) = Binn,p (k) = p (1 − p)n−k .
k

ii) Per la formula della probabilità totale, si ha


1 1 
P (X = k) = (P (X = k | Ac ) + P (X = k | A)) = Binn, 1 (k) + Binn,p (k) (B.0.1)
2 2 2

iii) Anzitutto
1 1
 
n
P (X = n) = + p .
2 2n
Per il Teorema di Bayes, si ha
P (X = n | A)P (A) pn
P (A | X = n) = = 1
.
P (X = n) 2n + pn

iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.1) si ha
1 n
 
E [X] = + np .
2 2
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.

Soluzione.
i) Imponendo Z
1= γ(x)dx = 2b
R
si ha b = 21 . Inoltre γ ≥ 0 se e solo se ax ≥ − 21 per ogni x ∈ [−1, 1] da cui si ricava la condizione
− 12 ≤ a ≤ 12 .
564 APPENDICE B. TEMI D’ESAME RISOLTI

1.0

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

-1.0 -0.5 0.5 1.0 1.5 2.0 -1.0 -0.5 0.5 1.0 1.5 2.0

Figura B.1: A sinistra: grafico di F per α > 1. A destra: grafico di F per 0 < α < 1.

ii) La CHF è data da Z 1


1 sin η sin η − η cos η
 
eiηx ax + dx = + 2ia
−1 2 η η2
e ha valori reali se a = 0.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora  α
Zα = X 2 + Y 2 , α > 0.

iii) scrivere la CDF di Zα e disegnarne il grafico;


iv) stabilire se Zα ∈ AC e in tal caso scriverne la densità;
1
v) determinare i valori di α > 0 per cui Zα è sommabile e per tali valori calcolare il valore atteso.

Soluzione.
i) γ(X,Y ) = π1 1C e E [X] = 0.
ii) Se X e X − Y fossero indipendenti allora si avrebbe
h i 1
0 = E [X] E [X − Y ] = E [X(X − Y )] = E X 2 − E [XY ] = ,
4
dove i valori attesi si determinano con un semplice calcolo come nell’Esempio 3.3.34.
iii) Si ha 
0 se t ≤ 0,


F(t) := P (Zα ≤ t) = 
1 se t ≥ 1

e, per 0 < t < 1,  


1 1
P (Zα ≤ t) = P X 2 + Y 2 ≤ t α = t α
1
dove la probabilità è calcolata come rapporto fra l’area del cerchio di raggio t 2α e quello di raggio
unitario: si veda la Figura B.1.
565
Rt
iv) F è assolutamente continua perché è derivabile q.o. e vale F(t) = 0
F ′ (s)ds (cfr. Definizione 2.4.30).
Una densità di Zα è data da
1 1
F ′ (t) = t α −1 1]0,1[ (t).
α
v) Si ha
1
h
−1
i Z F ′ (t)
E Zα = dt < ∞
0 t
h i
1 1
se 2 − α < 1 ossia 0 < α < 1. In tal caso E Zα−1 = 1−α .

4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:

i) la CDF della v.a. nX1 per n ∈ N;


ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.

Soluzione.

i) Si ha 

0 se x ≤ 0,
x
  
x

FnX1 (x) = P X1 ≤ = λn se 0 < x < λn,
n 

1 se x ≥ λn.

ii) Per la Proposizione 3.6.9, si ha




 0 se x ≤ 0,
x n

n  
 
FYn (x) = 1 − (1 − FnX1 (x)) = 
 1 − 1 − λn se 0 < x < λn,

1 se x ≥ λn.

iii) Si ha 
0

 se x ≤ 0,
lim FYn (x) =  x
n→∞ 1 − e − λ
 se x > 0,
d
e quindi per il Teorema 4.3.3 Yn −−−−→ Y ∼ Exp 1 per n → ∞.
λ

5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:

i) la densità congiunta γ(S,T ) e marginale γS ;


ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).

Soluzione.
566 APPENDICE B. TEMI D’ESAME RISOLTI

i) Per ipotesi γT (t) = te−t 1R≥0 (t) e γS|T (s, t) = 1t 1[t,2t] (s). Dalla formula (5.3.9) per la densità condizio-
nata ricaviamo

γ(S,T ) (s, t) = γS|T (s, t)γT (t) = e−t 1[t,2t]×R≥0 (s, t) = e−t 1R≥0 ×[s/2,s] (s, t)

e Z Z s  s 
γS (s) = γ(S,T ) (s, t)dt = e−t dt 1R≥0 (s) = e− 2 − e−s 1R≥0 (s).
R s/2

ii) Si ha
2
1 2
Z  
P (S < 2) = γS (s)ds = 1 − ≈ 40%,
0 e
Z 2 Z +∞
1 2(e − 2)
E [T | S < 2] = tγ(S,T ) (s, t)dtds = ≈ 0.84.
P (S < 2) 0 0 e−1

iii) Anzitutto
γ(S,T ) (s, t) e−t
γT |S (t, s) = 1(γS >0) (s) = − 2s
1R≥0 ×[s/2,s] (s, t).
γS (s) e − e−s
Allora si ha Z +∞
1 S
 
E [T | S] = t γT |S (t, S)dt = − S/2 +S +2 .
0 2 e −1
567

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2019 –

1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).
2. Sia (X, Y , Z) ∼ Nµ,C con
   
0  1 0 −1
µ = 1 , C =  0 2 2  .
   
2 −1 2 3
   

i) Si determini la CHF di (X, Y );


ii) le v.a. X + Y e Z sono indipendenti?
3. Sia B ∼ Unif[−2,2] . Determinare la probabilità che l’equazione di secondo grado

x2 + 2Bx + 1 = 0
abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n

i) Per ogni n ∈ N, determinare la distribuzione di Xn . Le v.a. X e Xn sono indipendenti?


ii) calcolare E [X], E [Xn ], var(X) e var(Xn );
iii) Xn converge a X in L2 (Ω, P )?
d
iv) Xn −−−−→ X?
P
v) Facoltativo: Xn −−→ X?
5. Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T ∼ Exp1 . Si
attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro.
i) Si determini la CDF di X, calcolando FX (x) separatamente per x ≤ 3 e x > 3;
ii) X è assolutamente continua?
iii) si calcoli E [X];
iv) si calcoli E [X | T ];
v) Facoltativo: X è discreta?
568 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2019 –

1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).

Soluzione. Lo spazio campione di tutte le scelte possibili degli studenti è Ω = DR3,9 , da cui |Ω| = 39 . Si
ricordi che Ω è lo spazio delle funzioni da I9 a I3 e ogni funzione corrisponde ad una scelta possibile dei nove
studenti.

i) Si determinano in C modi possibili i tre studenti che scelgono il primo professore e di conseguenza
9,3

9 6
C9,3 DR2,6 2
P (A) = = 3 9 ≈ 27%.
DR3,9 3

Si ha equivalentemente P (A) = Bin9, 1 ({3}).


3

ii) Si determinano in C9,3 modi possibili i tre studenti che scelgono il primo professore e in C6,3 modi
possibili i tre studenti che scelgono il secondo professore: di conseguenza

C9,3 C6,3 9 6
P (B) = = 3 3 ≈ 8.5%.
DR
3,9 39

iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 31%.
P (A)
iv) Si procede in maniera analoga al punto ii) ma con la differenza che occorre aggiungere un fattore 3!
per il fatto che non viene specificato l’ordine di scelta dei professori. In definitiva

C9,2 C7,3 9 6
P (C) = 3! = 6 3 3 ≈ 38%.
DR
3,9 39

2. Sia (X, Y , Z) ∼ Nµ,C con


   
0  1 0 −1
µ = 1 , C =  0 2 2  .
   
2 −1 2 3
   
569

i) Si determini la CHF di (X, Y );


ii) le v.a. X + Y e Z sono indipendenti?

Soluzione.
! !
0 1 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
1 0 2
1 2 2
ϕ(X,Y ) (η1 , η2 ) = eiη2 − 2 (η1 +2η2 ) .

ii) (X + Y , Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di


conseguenza, X + Y e Z sono indipendenti se e solo se sono scorrelate: poiché

cov(X + Y , Z) = cov(X, Z) + cov(Y , Z) = −1 + 2,

allora X + Y e Z non sono indipendenti.


3. Sia B ∼ Unif[−2,2] . Determinare la probabilità che l’equazione di secondo grado

x2 + 2Bx + 1 = 0

abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?

Soluzione. Si ha ∆ = 4B2 − 4. Le soluzioni sono reali se e solo se ∆ ≥ 0 ossia |B| ≥ 1: ora si ha semplicemente
P (|B| ≥ 1) = 21 . Inoltre le soluzioni sono coincidenti se e solo se |B| = 1, quindi con probabilità nulla.
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n

i) Per ogni n ∈ N, determinare la distribuzione di Xn . Le v.a. X e Xn sono indipendenti?


ii) Calcolare E [X], E [Xn ], var(X) e var(Xn );
iii) Xn converge a X in L2 (Ω, P )?
d
iv) Xn −−−−→ X?
P
v) Facoltativo: Xn −−→ X?

Soluzione.
i) Integrando la densità congiunta si vede che Xn ∼ Unif[−1− 1 ,1+ 1 ] . La densità congiunta è il prodotto
n n
delle densità marginali e quindi le X e Xn sono indipendenti.
 2
ii) È noto che E [X] = E [Xn ] = 0, var(X) = 13 e var(Xn ) = 31 1 + n1 .
iii) Si ha
h i h i h i
E (X − Xn )2 = E X 2 + E Xn2 − 2E [XXn ] =

(per l’indipendenza)

1 1 1 2
 
= var(X) + var(Xn ) = + 1+
3 3 n

e quindi non c’è convergenza in L2 (Ω, P ).


570 APPENDICE B. TEMI D’ESAME RISOLTI

iv) Data l’espressione della CHF uniforme, si ha che


1 1
eiη (1+ n ) − e−iη (1+ n )
ϕXn (η) =  
2iη 1 + n1

converge puntualmente a ϕX per n → ∞. In alternativa, senza usare l’espressione esplicita delle CHF,
basta semplicemente notare che
Z 1 Z 1
iηy 1
lim ϕXn (η) = lim e γXn (y)dy = eiηy dy = ϕX (η).
n→∞ n→∞ −1 2 −1

per il Teorema della convergenza dominata. In ogni caso, per il Teorema di continuità di Lévy si ha che
d
Xn −−−−→ X.
v) Xn non converge in probabilità a X, poiché per ogni 0 < ε < 1
"
P (|X − Xn | ≥ ε) = γ(X,Xn ) (x, y)dxdy
|x−y|>ε

non tende a zero per n → ∞: è sufficiente osservare la Figura B.2 dove in blu è rappresentato il supporto
della densità di (X, Xn ) e in arancione la striscia {(x, y) ∈ R2 | |x − y| < ε}.

-1

-2
-2 -1 0 1 2

Figura B.2:

5. Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T ∼ Exp1 . Si


attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro.

i) Si determini la CDF di X, calcolando FX (x) separatamente per x < 3 e x ≥ 3;


ii) X è assolutamente continua?
iii) si calcoli E [X];
iv) si calcoli E [X | T ];
v) Facoltativo: X è discreta?

Soluzione. Osserviamo che


X = min{T , 3} = T 1(T ≤3) + 31(T >3) .
571

i) Si ha P (X ≤ 0) = 0 e

P (X ≤ x) = P ((X ≤ x) ∩ (T ≤ 3)) + P ((X ≤ x) ∩ (T > 3))



P (T ≤ x) = 1 − e−x se 0 ≤ x < 3,


=
1
 se x ≥ 3.

ii) X non è assolutamente continua perché la CDF è discontinua nel punto 3.


iii) Si ha
h i Z3
E [X] = E T 1(T ≤3) + 31(T >3) = te−t dt + 3P (T > 3) = 1 − e−3 .
0

iv) X è σ (T )-misurabile perché è funzione (misurabile) di T . Di conseguenza

E [X | T ] = X = min{T , 3}.

v) X non è discreta poiché P (X = 3) = P (T ≥ 3) è positiva e strettamente minore di 1, e P (X = x) = 0 per


ogni x , 3.
572 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2019 – Primo appello –

1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.

i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa?


ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta
dall’urna A sia anch’essa rossa?
iii) Qual è la probabilità che le due palline estratte siano dello stesso colore?

2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.

i) Si determini la probabilità che una bottiglia sia idonea.


ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.
iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determi-
nare la distribuzione di Xn e di (Xn , Xn+1 ).
iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e
la media di N .
v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee.

3. Si verifichi che la funzione


e−x
γ(x, y) = 1 (x, y), A = {(x, y) ∈ R2 | x + y > 0, 0 < y < 1},
e−1 A
è una densità e si consideri (X, Y ) con densità γ(X,Y ) = γ.

i) Giustificare la validità della formula (senza svolgere i calcoli)





0 se x ≤ −1,
 (1+x)e−x

γX (x) =  se − 1 < x < 0,
 e−xe−1

se x ≥ 0,


e−1

e stabilire se X e Y sono indipendenti;


ii) determinare la densità di Y 2 ;
iii) determinare la densità condizionata γX|Y .

4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.

Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
573

ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.
5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:

i) le CDF di Tmax e Tmin ;


ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 secondi, assu-
1
mendo λ1 = λ2 = 10 ;
iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secondi, assumendo
1
λ1 = λ2 = 10 ;
iv) E [t ∨ T2 ] per ogni t > 0 e, tramite il Lemma di freezing, E [Tmax | T1 ].
574 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2019 – Primo appello –

1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.

i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa?


ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta
dall’urna A sia anch’essa rossa?
iii) Qual è la probabilità che le due palline estratte siano dello stesso colore?

Soluzione. Introduciamo gli eventi:

RA = “la pallina estratta dall’urna A è rossa”,


VA = “la pallina estratta dall’urna A è verde” = RcA ,
RB = “la pallina estratta dall’urna B è rossa”,
VB = “la pallina estratta dall’urna B è verde” = RcB .

i) Per la Formula della probabilità totale si ha

3 1 2 1 5
P (RB ) = P (RB | RA )P (RA ) + P (RB | VA )P (VA ) = · + · = .
7 2 7 2 14

ii) Per la formula di Bayes si ha


3
P (RB | RA )P (RA ) 7 · 21 3
P (RA |RB ) = = 5
= .
P (RB ) 14
5

iii) Ancora per la Formula della probabilità totale, se E indica l’evento di cui è richiesta la probabilità

3 1 5 1 4
P (E) = P (E | RA )P (RA ) + P (E | VA )P (VA ) = · + · = .
7 2 7 2 7

2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.

i) Si determini la probabilità che una bottiglia sia idonea.


ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.
iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determi-
nare la distribuzione di Xn e di (Xn , Xn+1 ).
iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e
la media di N .
v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee.
575

Soluzione.
i) Sia Ti , i = 1, 2, 3, l’evento “l’i-esimo test è superato”, e T = T1 ∩ T2 ∩ T3 . Per la Formula di moltiplica-
zione si ha
90 · 95 · 99
P (T ) = P (T1 )P (T2 | T1 )P (T3 | T1 ∩ T2 ) = ≈ 85%.
1003
ii) Per la formula di Bayes, si ha
P (T c | T1c )P (T1c ) 1 · 10%
P (T1c | T c ) = = ≈ 65%
P (T c ) 1 − P (T )

iii) Xn ∼ Bep con p = P (T ). Per l’indipendenza, (X1 , X2 ) ∼ Bep ⊗ Bep .


1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Si ha (cfr. Teorema 3.1.26)
P (N > 100) = (1 − (1 − p))100 = p100 .
3. Si verifichi che la funzione
e−x
γ(x, y) = 1 (x, y), A = {(x, y) ∈ R2 | x + y > 0, 0 < y < 1},
e−1 A
è una densità e si consideri (X, Y ) con densità γ(X,Y ) = γ.
i) Giustificare la validità della formula (senza svolgere i calcoli)



0 se x ≤ −1,
 (1+x)e−x

γX (x) =  se − 1 < x < 0,
 e−xe−1



e−1 se x ≥ 0,

e stabilire se X e Y sono indipendenti;


ii) determinare la densità di Y 2 ;
iii) determinare la densità condizionata γX|Y .

Soluzione. La funzione γ è misurabile, non-negativa e con integrale pari a uno.


i) Basta utilizzare la formula Z
γX (x) = γ(X,Y ) (x, y)dy.
R
Calcolando anche la densità marginale
ey
Z
γY (y) = γ(X,Y ) (x, y)dx = 1 (y),
R e − 1 [0,1]
si riconosce che X, Y non sono indipendenti poiché la densità congiunta non è il prodotto delle margi-
nali.
ii) Calcoliamo prima la CDF per 0 < z < 1:
√ √
z
√ ey e z −1
Z
FY 2 (z) = P (Y 2 ≤ z) = P (Y ≤ z) = dy = .
0 e−1 e−1
Derivando si ottiene √
e z
γY 2 (z) = √ 1[0,1] (z).
2(e − 1) z
576 APPENDICE B. TEMI D’ESAME RISOLTI

iii) Si ha
γ(X,Y ) (x, y)
γX|Y (x, y) = 1(γY >0) (y) = e−(x+y) 1A (x, y).
γY (y)

4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.

Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.

Soluzione.

i) Si ha
h i 1 Z +∞ t dt
E Yn2 = 2 (t − 1)2 e− nα α =
n 0 n
t
(col cambio di variabili τ = nα )

+∞
n2α 2n2a − 2nα + 1
Z
= (τ − n−α )2 e−τ dτ =
n2 0 n2

che tende a zero per n → ∞. Più semplicemente, senza calcolare esplicitamente l’integrale, si ha
+∞ +∞
n2α
Z Z
−α 2 −τ c
0≤ 2 (τ − n ) e dτ ≤ −→ 0, c= (τ + 1)2 e−τ dτ.
n 0 n2−2α 0

ii) Si ha
1
ϕXn (η) =
1 − iηnα
da cui, per α = 1,

η e− n 1

 
ϕYn (η) = e− n ϕXn = −→ .
n 1 − iη 1 − iη
d
Dunque per α = 1 si ha Yn −−−−→ Y ∼ Exp1 .

5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:

i) le CDF di Tmax e Tmin ;


ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 secondi, assu-
1
mendo λ1 = λ2 = 10 ;
iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secondi, assumendo
1
λ1 = λ2 = 10 ;
iv) E [t ∨ T2 ] per ogni t > 0 e, tramite il Lemma di freezing, E [Tmax | T1 ].

Soluzione.
577

i) Per la Proposizione 3.6.9 sul massimo e minimo di variabili indipendenti si ha la seguente relazione
fra le funzioni di ripartizione
  
FTmax (t) = FT1 (t)FT2 (t) = 1 − e−λ1 t 1 − e−λ2 t , t ≥ 0,
  
FTmin (t) = 1 − 1 − FT1 (t) 1 − FT2 (t) = 1 − e−(λ1 +λ2 )t , t ≥ 0.

ii) la probabilità cercata è FTmin (10) ≈ 86%;


iii) la probabilità cercata è FTmax (10) ≈ 40%;
iv) si ha
Z +∞
E [t ∨ T2 ] = (t ∨ s)λ2 e−λ2 s ds
0
t +∞
e−λ2 t
Z Z
−λ2 s
= tλ2 e ds + sλ2 e−λ2 s ds = t + .
0 t λ2

Per il Lemma di freezing (cfr. Teorema 5.2.10), si ha

e−λ2 T1
E [Tmax | T1 ] = T1 + .
λ2
578 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2019 – Secondo appello –

1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:

i) di estrarre una pallina bianca alla seconda estrazione;


ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene
estratta una pallina bianca;
iii) dopo tre estrazioni, di aver estratto tutte palline bianche;
iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore.

2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con


 
 2 1 −1
C =  1 1 −1 .
 
−1 −1 1
 

Dati i vettori aleatori Y := (X1 , X3 ) e Z := (X2 , 2X3 ), si determini:

i) le distribuzioni di Y e Z, specificando se sono assolutamente continui;


ii) Y e Z sono indipendenti?
iii) la funzione caratteristica ϕZ specificando se è una funzione sommabile su R2 .

3. Data X ∈ N0,1 , si consideri la successione


r
1 1
Xn = − 1 + X, n ∈ N.
n n

Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞

4. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T ∼ µ := 1


2 (δ−1 + δ1 ). Assu-
miamo che X, Y e T siano indipendenti.

i) Provare che le v.a.


Z := X + Y , W := X + T Y ,
hanno la stessa legge;
ii) Z e W sono indipendenti?
iii) si determini la CHF congiunta ϕ(Z,W ) .
579

5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini
i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].
580 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Giugno 2019 – Secondo appello –

1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:

i) di estrarre una pallina bianca alla seconda estrazione;


ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene
estratta una pallina bianca;
iii) dopo tre estrazioni, di aver estratto tutte palline bianche;
iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore.

Soluzione. Indichiamo con Bn l’evento “la pallina estratta all’n-esima estrazione è bianca”, con n ∈ N.
Analogamente siano definiti Nn e Rn .

i) per la Formula della probabilità totale si ha

P (B2 ) = P (B2 | B1 )P (B1 ) + P (B2 | R1 )P (R1 ) + P (B2 | N1 )P (N1 )


5 1 4 1 4 1 1
= · + · + · = .
13 3 13 3 13 3 3

ii) Per la Formula di Bayes si ha


4 1
P (B2 | R1 ) 13 · 3 4
P (R1 | B2 ) = P (R1 ) = 1
= .
P (B2 ) 3
13

iii) Per la Formula di moltiplicazione si ha

1 5 6 5
P (B1 ∩ B2 ∩ B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) = · · = .
3 13 14 91
15
iv) Per il punto iii), la probabilità che tutte le palline abbiano lo stesso colore è 91 . La probabilità cercata
15
è quindi 1 − 91 .

2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con


 
 2 1 −1
C =  1 1 −1 .
 
−1 −1 1
 

Dati i vettori aleatori Y := (X1 , X3 ) e Z := (X2 , 2X3 ), si determini:

i) le distribuzioni di Y e Z, specificando se sono assolutamente continui;


ii) Y e Z sono indipendenti?
iii) la funzione caratteristica ϕZ specificando se è una funzione sommabile su R2 .

Soluzione.
581

i) Poiché
!
1 0 0
Y = αX, α= ,
0 0 1
!
0 1 0
Z = βX, β= ,
0 0 2

si ha Y ∼ N0,αCα ∗ e Z ∼ N0,βCβ ∗ con


! !
2 −1 1 −2
αCα ∗ = , βCβ ∗ = .
−1 2 −2 4

Ne viene che Y è assolutamente continuo, mentre Z non lo è perché βCβ ∗ è singolare.


ii) Y e Z non sono indipendenti: osserviamo infatti che hanno la seconda componente proporzionale;
quindi, posto f (x1 , x2 ) = x2 si ha
h i
E [f (Y )f (Z)] = 2E X32 = 2

ma E [f (Y )] = E [f (Z)] = 0.
iii) Poiché Z ∼ N0,βCβ ∗ si ha
1 2 2
ϕZ (η1 , η2 ) = e− 2 (η1 +4η2 −4η1 η2 ) .
ϕZ non è sommabile altrimenti, per il teorema di inversione, Z sarebbe assolutamente continua.

3. Data X ∈ N0,1 , si consideri la successione


r
1 1
Xn = − 1 + X, n ∈ N.
n n
Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞

Soluzione.

i) Si ha Xn ∼ N 1 ,1+ 1 . Poiché
n n

η η 2 η 2
1
ϕXn (η) = ei n − 2 (1+ n ) −−−−−→ e− 2 = ϕX (η),
n→∞

d
per il Teorema di continuità di Lévy si ha che Xn −−−−→ X.
ii) Si ha  r  2  r 2
h i  1  1    1  1  h i
2
E (Xn − X) = E  −  1 + + 1 X   = 2 +  1 + + 1 E X 2 −−−−−→ 4
 
 n n  n n n→∞

e quindi non c’è convergenza in L2 .


582 APPENDICE B. TEMI D’ESAME RISOLTI

iii) Per ogni ω ∈ Ω si ha


Xn (ω) −−−−−→ −X(ω)
n→∞

e quindi non c’è convergenza q.c.: Xn converge a X solo sull’evento trascurabile (X = 0).

4. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T ∼ µ := 1


2 (δ−1 + δ1 ). Assu-
miamo che X, Y e T siano indipendenti.

i) Provare che le v.a.


Z := X + Y , W := X + T Y ,
hanno la stessa legge;
ii) Z e W sono indipendenti?
iii) si determini la CHF congiunta ϕ(Z,W ) .

Soluzione.

i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X  
Z =α , α= 1 1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto

N0,1 ⊗ N0,1 ⊗ µ

e quindi per ogni f ∈ mB e limitata si ha


Z
f (x + ty) N0,1 ⊗ N0,1 ⊗ µ (dx, dy, dt) =

E [f (W )] =
R3

(per il Teorema di Fubini)


Z Z Z ! !
= f (x + ty)N0,1 (dx) N0,1 (dy) µ(dt)
R R R
Z Z ! Z Z !
1 1
= f (x + y)N0,1 (dx) N0,1 (dy) + f (x − y)N0,1 (dx) N0,1 (dy)
2 R R 2 R R

(col cambio di variabili z = −y nel secondo integrale)


Z
= f (x + y)N0,1 (dx)N0,1 (dy) = E [f (Z)] .
R2

Ne segue che Z e W hanno entrambe distribuzione N0,2 .


ii) Poiché

cov(Z, W ) = E [(X + Y )(X + T Y )]


h i h i
= E X 2 + E [(1 + T )XY ] + E T Y 2 = 1

per l’indipendenza di X, Y , T , allora Z e W non sono indipendenti.


583

iii) La CHF congiunta è data da


h i
ϕ(Z,W ) (η1 , η2 ) = E ei(η1 (X+Y )+η2 (X+T Y ))
h i h i
= E ei(η1 +η2 )(X+Y ) 1(T =1) + E ei(η1 +η2 )X+i(η1 −η2 )Y 1(T =−1) =

(per l’indipendenza di X, Y , T )

1  h i(η1 +η2 )(X+Y ) i h i h i


= E e + E ei(η1 +η2 )X E ei(η1 −η2 )Y =
2
(poiché X, Y ∼ N0,1 e X + Y ∼ N0,2 )

1 −(η1 +η2 )2 −η 2 −η 2
 
= e +e 1 2 .
2

5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini

i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].

Soluzione.
i) N è una v.a. discreta che assume solo valori in N: vale
Zn
P (N = n) = P (n − 1 ≤ T < n) = λe−λt dt = e−λn (eλ − 1) =: pn , n ∈ N.
n−1

Allora

X
N∼ pn δ n
n=1

e la CDF di N è 


 0 se x < 0,
FN (x) = 
P n
 pk

 se n − 1 ≤ x < n.
k=1

ii) Si ha

X eλ
E [N ] = npn = ,
n=1
eλ − 1
h i
E N 1(T >1) ∞
X 2eλ − 1
E [N | T > 1] = = eλ npn = .
P (T > 1)
n=2
eλ − 1

iii) osserviamo che N è σ (T )-misurabile perché è funzione (misurabile) di T : precisamente N = 1 + [T ]


dove [x] indica la funzione parte intera di x ∈ R. Di conseguenza

E [N | T ] = N .
584 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2019 –

1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:

i) per quali a, b ≥ 0, la funzione γ è una densità;


ii) la densità di X e Y supponendo che γ sia densità di (X, Y );
iii) per quali a, b ≥ 0 le v.a. X e Y sono indipendenti.
4. Sia (X, Y , Z) ∼ Nµ,C con
   
1 2 0 0 
µ = 2 , C = 0 2 −1 .
   
3 0 −1 2
   

i) Si determini la CHF di (X, Y );


ii) le v.a. X e Y − Z sono indipendenti?
5. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ Unif[0,n] .
i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche ϕXn e si stabili-
sca se (Xn )n∈N converge debolmente;
ii) (Xn )n∈N converge q.c.?
585

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2019 –

1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.

Soluzione.
i) Sia A =“è scelto il primo dado”. Allora per k = 0, 1, . . . , n si ha
!
n k 1
P (X = k | A) = Binn,p (k) = p (1 − p)n−k , p= .
k 2

ii) Per la formula della probabilità totale, si ha


1 1 
P (X = k) = (P (X = k | Ac ) + P (X = k | A)) = Binn, 2 (k) + Binn, 1 (k) (B.0.2)
2 2 3 2

iii) Anzitutto
1 2n 1
!
P (X = n) = + .
2 3n 2n
Per il Teorema di Bayes, si ha
1
P (X = n | A)P (A) 2n
P (A | X = n) = = 2n
.
P (X = n) 3n + 21n

iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.2) si ha
1 2n n
 
E [X] = + .
2 3 2
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.

Soluzione.
i) Se B è l’evento “avere buoni rendimenti scolastici” e S è l’evento “svolgere attività sportiva”, si ha
P (B) = P (B | S)P (S) + P (B | S c )(1 − P (S))
da cui
P (B) − P (B | S c )
P (S) = = 75%
P (B | S) − P (B | S c )
586 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Per il Teorema di Bayes, si ha


P (B | S)P (S)
P (S | B) = ≈ 79%
P (B)
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:
i) per quali a, b ≥ 0, la funzione γ è una densità;
ii) la densità di X e Y supponendo che γ sia densità di (X, Y );
iii) per quali a, b ≥ 0 le v.a. X e Y sono indipendenti.

Soluzione.
i) γ è una funzione misurabile con "
γ(x, y)dxdy = 1
R2
per ogni a, b ≥ 0. Inoltre, poiché a, b ≥ 0, si ha
γ(x, y) ≥ γ(−1, −1) = −a − b + 1, (x, y) ∈ [−1, 1] × [−1, 1]
e quindi γ ≥ 0 se a + b ≤ 1.
ii) Z 1 Z 1
ax + 1 by + 1
γX (x) = γ(x, y)dy = 1[−1,1] (x), γY (y) = γ(x, y)dx = 1[−1,1] (y).
−1 2 −1 2
iii) (X, Y ) sono indipendenti se e solo se γ(x, y) = γX (x)γY (y) ossia
(ax + 1)(by + 1) = ax + by + 1
ossia abxy = 0 ossia a = 0 oppure b = 0.
4. Sia (X, Y , Z) ∼ Nµ,C con
   
1 2 0 0 
µ = 2 , C = 0 2 −1 .
   
3 0 −1 2
   

i) Si determini la CHF di (X, Y );


ii) le v.a. X e Y − Z sono indipendenti?

Soluzione.
! !
1 2 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
2 0 2
2 2
ϕ(X,Y ) (η1 , η2 ) = ei(η1 +2η2 )−(η1 +η2 ) .

ii) (X, Y − Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di
conseguenza, X e Y − Z sono indipendenti se e solo se sono scorrelate: poiché
cov(X, Y − Z) = cov(X, Y ) − cov(X, Z) = 0,
allora X e Y − Z sono indipendenti.
587

5. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ Unif[0,n] .


i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche ϕXn e si stabili-
sca se (Xn )n∈N converge debolmente;
ii) (Xn )n∈N converge q.c.?

Soluzione.
i) Si ha 
h
iηXn 1
i 
 se η = 0,
ϕXn (η) = E e = iηn
 e iηn−1
 altrimenti.

Si noti che ϕXn è una funzione continua poiché, per ogni n ∈ N, si ha

eiηn − 1
lim = 1.
η→0 iηn

Allora 
1 se η = 0,


lim ϕXn (η) = 
n→∞ 0 altrimenti.

che non è continua in η = 0. Dunque per il Teorema 4.3.8 di continuità di Lévy, la successione (Xn )n∈N
non converge debolmente.
ii) Poiché (Xn )n∈N non converge debolmente, per il Teorema 4.1.9, non si ha neppure la convergenza q.c.
588 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2019 –

1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:
i) che la prima pallina estratta sia nera;
ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
 
 2 1 −1
C =  1 1 0  .
 
−1 0 1
 

Si determini per quali a ∈ R:

i) Y := (aX1 + X2 , X3 ) è una v.a. assolutamente continua;


ii) aX1 + X2 e X3 sono indipendenti;
iii) la funzione caratteristica ϕY è una funzione sommabile su R2 .
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:

i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .

4. i) Per quali valori di a, b ∈ R la funzione

γ(x) = (2ax + b)1[0,1] (x), x ∈ R,

è una densità?
ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.

iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.
589

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2019 –

1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:

i) che la prima pallina estratta sia nera;


ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.

Soluzione.

i) Consideriamo i seguenti eventi: N 1=“la prima pallina estratta è nera”, T T =“il risultato dei due lanci
di moneta sono due teste”, CT =“il risultato del primo lancio di moneta è croce e del secondo è testa” e
analogamente definiamo CC e T C. Per la Formula della probabilità totale si ha

P (N 1) = P (N 1 | T T )P (T T ) + P (N 1 | CC)P (CC) + P (N 1 | CT ∪ T C)P (CT ∪ T C)


4 1 4 1 4 2 21
= · + · + · = .
11 4 11 4 10 4 55

ii) Per la Formula di Bayes si ha

P (N 1 | T T )P (T T ) 16
P (CT ∪ T C ∪ CC | N 1) = 1 − P (T T | N 1) = 1 − = .
P (N 1) 21

iii) Poniamo P¯ = P (· | CT ∪ T C). Per la formula di moltiplicazione si ha

4 3 2
P¯ (N 1 ∩ N 2) = P¯ (N 1)P¯ (N 2 | N 1) = · = .
10 9 15

2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con


 
 2 1 −1
C =  1 1 0  .
 
−1 0 1
 

Si determini per quali a ∈ R:

i) Y := (aX1 + X2 , X3 ) è una v.a. assolutamente continua;


ii) aX1 + X2 e X3 sono indipendenti;
iii) la funzione caratteristica ϕY è una funzione sommabile su R2 .

Soluzione.

i) Poiché
!
a 1 0
Y = αX, α= ,
0 0 1
590 APPENDICE B. TEMI D’ESAME RISOLTI

si ha Y ∼ N0,αCα ∗ con
!
1 + 2a + 2a2 −a
αCα ∗ = , det(αCα ∗ ) = (1 + a)2 .
−a 1

Solo per a = −1 la matrice αCα ∗ è singolare e per tale valore di a la v.a. Y non è assolutamente
continua.
ii) data l’espressione della matrice di covarianza αCα ∗ , si ha che aX1 + X2 e X3 sono scorrelate (e quindi
indipendenti) se a = 0.
iii) Poiché Y ∼ N0,αCα ∗ si ha
1 ∗ η,α ∗ η⟩
ϕY (η) = e− 2 ⟨Cα .
ϕY non è sommabile se a = −1 altrimenti, per il teorema di inversione, Y sarebbe assolutamente
continua.
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:
i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .

Soluzione.
i) Per l’indipendenza, si ha
"
E [Z] = xy Nµ,σ 2 ⊗ Bep (dx, dy) =
R2

(per il Teorema di Fubini)


Z Z
=p xNµ,σ 2 (dx) + (1 − p) Nµ,σ 2 (dx) = pµ + (1 − p).
R R

ii) Si ha

FZ (z) = P (Z ≤ z) = P ((Z ≤ z) ∩ (Y = 1)) + P ((Z ≤ z) ∩ (Y = 0)) =

(per l’indipendenza di X e Y )

= P (X ≤ z)P (Y = 1) + P (1 ≤ z)P (Y = 0) = pFX (z) + (1 − p)1[1,+∞[ (z).

Poiché FZ ha un salto in z = 1 di ampiezza 1 − p, la v.a. Z non è assolutamente continua.


iii) Si ha
h i h i h i σ 2 η2
ϕZ (η) = E eiηZ = pE eiηX + (1 − p)E eiη = pϕX (η) + (1 − p)eiη , ϕX (η) = eiµη− 2 .

Per il Teorema 3.5.20 si ha


h i
E Z 2 = −∂2η ϕZ (η)|η=0 = p(µ2 + σ 2 ) + (1 − p).

4. i) Per quali valori di a, b ∈ R la funzione

γ(x) = (2ax + b)1[0,1] (x), x ∈ R,

è una densità?
591

ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.
iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.

Soluzione.
i) Deve essere Z Z 1
1= γ(x)dx = (2ax + b)dx = a + b
R 0
da cui b = 1 − a. Inoltre γ deve essere non-negativa: se a ≥ 0 allora il minimo di γ è assunto per x = 0
e si ha la condizione 1 − a ≥ 0; se a < 0 allora il minimo di γ è assunto per x = 1 e si ha la condizione
a + 1 ≥ 0. In definitiva, per |a| ≤ 1 e b = 1 − a, γ è una densità.
ii) Si ha 

 0 se x < 0,


R √x

P ( nX1 ≤ x) = 
 n x2 √
0 2ydy = n se 0 ≤ x < n,




1 se x ≥ n.

Per la Proposizione 3.6.9, si ha




0 se x < 0,
n

 
 2 n √

FYn (x) = 1 − (1 − F nX1 (x)) = 1 − 1 − xn se 0 ≤ x < n,

 √
1 se x ≥ n.

iii) Si ha 
0

 se x < 0,
lim FYn (x) = FY (x) :=  2
n→∞ 1 − e−x
 se x ≥ 0,
d 2
e quindi per il Teorema 4.3.3 Yn −−−−→ Y per n → ∞ con Y che ha densità γY (x) = FY′ (x) = 2xe−x 1[0,+∞[ (x).
592 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2020 –

1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.
2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:
i) la probabilità che un bullone sia idoneo;
ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.
3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0
i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
4. Siano X e Y v.a. con densità congiunta

e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]
i) Si calcolino le densità marginali.
ii) Le v.a. Z := eX e W := eY sono indipendenti?
iii) Si calcoli E [Y | X > 0].
5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;
iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.
593

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2020 –

1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.

Soluzione. Consideriamo gli eventi A=“il vaccino è efficace contro il virus α” e B=“il vaccino è efficace
contro il virus β”. Sappiamo che P (A) = 55%, P (B) = 65% e P (A ∪ B) = 80%. Allora

P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 40%.

2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:

i) la probabilità che un bullone sia idoneo;


ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.

Soluzione.

i) Sia Ti , i = 1, 2, l’evento “l’i-esimo test è superato” e T = T1 ∩ T2 . Per la Formula di moltiplicazione si


ha
90 · 95
p := P (T ) = P (T1 )P (T2 | T1 ) = = 85.5%;
1002
ii) per la formula di Bayes e poiché P (T c | T1 ) = P (T2c | T1 ) = 5%, si ha

P (T c | T1 )P (T1 ) 5% · 90%
P (T1 | T c ) = = ≈ 31%;
P (T c ) 14.5%

iii) N ∼ Bin100,p ;
1
iv) M ∼ Geom1−p e E [M] = 1−p .

3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0

i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
594 APPENDICE B. TEMI D’ESAME RISOLTI

Soluzione. Calcoliamo la derivata


pex
Fp′ (x) = 1R≥0 (x)
(p − 1 + ex )2
da cui si vede che Fp è monotona crescente per p ≥ 0 e descrescente per p < 0. Fp con p = 0 è la CDF della
delta di Dirac centrata in zero. Se p > 0 allora Fp è una funzione assolutamente continua su R:
Z x
Fp (x) = Fp′ (y)dy, x ∈ R.
0

Infine Fp (x) ≡ 0 per x < 0 e


lim Fp (x) = 1.
x→∞

Applichiamo il Teorema 4.3.3: per pn −→ 0+ , si ha

Fp (x) −→ F0 (x), x ∈ R \ {0}

con 0 unico punto di discontinuità di F0 : quindi µpn converge debolmente alla delta di Dirac centrata in
zero. Se pn −→ 1, allora
Fp (x) −→ F1 (x) = 1 − e−x , x∈R
e quindi µpn converge debolmente a Exp1 .
4. Siano X e Y v.a. con densità congiunta

e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]

i) Si calcolino le densità marginali.


ii) Le v.a. Z := eX e W := eY sono indipendenti?
iii) Si calcoli E [Y | X > 0].

Soluzione.
i) Si ha

e−|x| − e−2|x|
Z
γX (x) = γ(X,Y ) (x, y)dy = ,
R |x| log 4
Z
1
γY (y) = γ(X,Y ) (x, y)dx = 1 .
R y log 2 ]1,2](y)

ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
1
iii) Per simmetria P (X > 0) = 2 e si ha
Z Z 2 Z +∞
1 y 1
E [Y | X > 0] = Y dP = 2 e−y|x| dxdy = .
P (X > 0) (X>0) 1 log 4 0 log 2

5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
595

ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;


iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.

Soluzione. Sia Nn−m il numero di chiamate ricevute dall’ora n all’ora m. Allora N8−9 ∼ Poisson2 .
i) N8−10 = N8−9 + N9−10 ∼ Poisson4 per l’ipotesi di indipendenza (Esempio 3.6.5);
ii)
3
X 4k
P (N8−10 ≥ 4) = 1 − P (N8−10 ≤ 3) = 1 − e−4 ;
k!
k=0

iii) per l’indipendenza


 1
2
 X 2 k
P ((N8−9 ≥ 2) ∩ (N9−10 ≥ 2)) = 1 − e−2  ;

k! 
k=0

iv)
P (N8−10 ≥ 4)
P (N8−10 ≥ 4 | N8−10 ≥ 2) =
P (N8−10 ≥ 2)
e le probabilità si calcolano come nel punto ii);
v)
P ((N8−10 ≥ 4) ∩ (N8−9 ≥ 2))
P (N8−10 ≥ 4 | N8−9 ≥ 2) =
P (N8−9 ≥ 2)
1 X
= P (N9−10 ≥ 4 − k)P (N8−9 = k).
P (N8−9 ≥ 2)
k≥2
596 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2020 –
1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2
i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che
lim ϕ(X,X) (η1 , η2 ) = 0?
|(η1 ,η2 )|→+∞

iii) (Y , X) e (X, X) sono indipendenti?


3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1  √   1

Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n

i) Si calcoli media e varianza di Xn .


d
ii) Si calcoli la CHF di Xn e si deduca che Xn −−−−→ 0.
L2
iii) Vale anche Xn −−−→ 0 ?
5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,

la Gaussiana standard.
i) Verificare che la funzione
γ(x, y) = 1H (x, y), H := {(x, y) ∈ R2 | 0 ≤ x ≤ Γ (y)}
è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.9) per la densità condizionata
γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)
si calcoli γX|Y e il valore atteso condizionato E [X n | Y ] con n ∈ N.
597

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2020 –

1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).

Soluzione. Lo spazio campione di tutte le disposizioni possibili delle monete è Ω = DR3,6 , da cui |Ω| = 36 . Si
ricordi che Ω è lo spazio delle funzioni da I6 a I3 e ogni funzione corrisponde ad una disposizione possibile
delle sei monete.

i) Si determinano in C modi possibili le due monete nella prima scatola e di conseguenza
6,2

6 4
C6,2 DR2,4 2
P (A) = = 2 6 ≈ 33%.
DR3,6 3

Si ha equivalentemente P (A) = Bin6, 1 ({2}).


3

ii) Si determinano in C6,2 modi possibili le due monete nella prima scatola e in C4,2 modi possibili le
due monete nella seconda scatola: di conseguenza

C6,2 C4,2 6 4
P (B) = = 2 2 ≈ 12%.
DR 3,6 36

iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 37.5%.
P (A)
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2

i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che

lim ϕ(X,X) (η1 , η2 ) = 0?


|(η1 ,η2 )|→+∞

iii) (Y , X) e (X, X) sono indipendenti?

Soluzione.
! ! ! !
Y X 0 1 2 0
i) Poiché =α con α = , si ha (X, Y ) ∈ N(0,0),C1 con C1 = αCα ∗ = .
X Y 1 0 0 1
598 APPENDICE B. TEMI D’ESAME RISOLTI
!
1 1
ii) In modo analogo si mostra che (X, X) ∈ N(0,0),C2 con C2 = . In questo caso la matrice di
1 1
covarianza è degenere e (X, X) non è assolutamente continua. Si ha
1 2 2
ϕ(X,X) (η1 , η2 ) = e− 2 (η1 +2η1 η2 +η2 )

e ϕ(X,X) (η1 , −η1 ) = 1 per ogni η1 ∈ R (da cui segue che ϕ(X,X) non tende a 0 all’infinito).
iii) Se (Y , X) e (X, X) fossero indipendenti allora lo sarebbero anche le loro seconde componenti che sono
entrambe uguali a X.
3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.

Soluzione. σ (X) è la σ -algebra i cui elementi sono ∅ e le unioni di

(X = 2) = {(1, 1)},
(X = 3) = {(1, 2), (2, 1)},
(X = 4) = {(1, 3), (3, 1), (2, 2)},
(X = 5) = {(2, 3), (3, 2)},
(X = 6) = {(3, 3)}.

L’evento (X1 = 1) < σ (X): intuitivamente non posso conoscere l’esito del primo lancio sapendo la somma dei
due lanci.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1  √   1

Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n

i) Si calcoli media e varianza di Xn .


d
ii) Si calcoli la CHF di Xn e si deduca che Xn −−−−→ 0.
L2
iii) Vale anche Xn −−−→ 0 ?

Soluzione.
i) Si ha
Z  Z 1
1 n n 2 1 1
  
2
E [Xn ] = 0, var(Xn ) = x µn (dx) = 1 + 1 − x dx = 1 + 2 1 − .
R n 2 −1 3n n
n

ii) Ricordando l’espressione della CHF uniforme si ha


 η η
1  iη √n −iη √n  1 ei n − e−i n

ϕXn (η) = e +e + 1− −−−−−−→ 1.
2n n iη n2 n→∞

Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi per il Teorema
di continuità di Lévy.
iii) Non si ha convergenza in L2 (Ω, P ) poiché, per quanto visto al punto i),

∥Xn ∥2L2 (Ω,P ) = var(Xn ) −−−−−−→ 1.


n→∞
599

5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,

la Gaussiana standard.
i) Verificare che la funzione

γ(x, y) = 1H (x, y), H := {(x, y) ∈ R2 | 0 ≤ x ≤ Γ (y)}

è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.9) per la densità condizionata

γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)

si calcoli γX|Y e il valore atteso condizionato E [X n | Y ] con n ∈ N.

Soluzione.

i) γ è una funzione misurabile, non-negativa e


" Z Z Γ (y) Z
γ(x, y)dxdy = dxdy = Γ (y)dy = 1.
R2 R 0 R

ii) Si ha
Z q  √ 
γX (x) = γ(x, y)dy = 2 −2 log x 2π 1]0, √1 ] (x),

ZR
γY (y) = γ(x, y)dx = Γ (y).
R

X e Y non sono indipendenti poiché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
1
γX|Y (x, y) = 1 (x, y)
Γ (y) H
e Z Z Γ (y)
n n 1 1 n
E [X | Y ] = x γX|Y (x, y) = xn dx = Γ (y).
R Γ (y) 0 n+1
600 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2020 –

1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:

i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).
Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:
iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.

2. Sia (X, Y ) una variabile aleatoria con distribuzione UnifH dove

H = {(x, y) ∈ R2 | 1 − e−|x| < y < 1}.

Si determini:
i) le densità congiunte e marginali di (X, Y );
ii) se X e Y sono indipendenti;
R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).

3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n

i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?
601

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Dicembre 2020 –

1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:

i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).

Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:

iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.

Soluzione.

i) Si ha σ (X) = {∅, N, 2N, 2N + 1}, dove 2N indica l’insieme dei numeri naturali pari, e σ (Y ) = P(N).
ii) No, per il Teorema 3.3.3 di Doob poiché σ (Y ) non è inclusa in σ (X). Si può anche provare direttamente
la tesi per assurdo in modo analogo all’Esercizio 3.3.6.
iii) Si ha µX = qδ1 + (1 − q)δ−1 e µY = Geomp .
iv) Vale 


 0 se x < −1,

FX (x) =  1−q se − 1 ≤ x < 1,



1 se x ≥ 1.

v) No, poiché per esempio si ha

P ((X = 1) ∩ (Y = 1)) = P (2N ∩ {1}) = 0 , P (X = 1)P (Y = 1) = pq.

2. Sia (X, Y ) una variabile aleatoria con distribuzione UnifH dove

H = {(x, y) ∈ R2 | 1 − e−|x| < y < 1}.

Si determini:

i) le densità congiunte e marginali di (X, Y );


ii) se X e Y sono indipendenti;
R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).

Soluzione.
602 APPENDICE B. TEMI D’ESAME RISOLTI

i) Poiché Z
e−|x| dx = 2
R
si ha
1
γ(X,Y ) = 1 .
2 H
Inoltre
1
e−|x|
Z Z
1
γX (x) = γ(X,Y ) (x, y)dy = dy = ,
R 2 1−e−|x| 2
Z Z − log(1−y)
1
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y) dy = −1]0,1[ (y) log(1 − y).
R 2 log(1−y)

ii) X e Y non sono indipendenti perché la densità congiunta non è il prodotto delle densità marginali.
iii) E [(X, Y )] = (E [X] , E [Y ]) con
Z
E [X] = xγX (x)dx = 0,
R
Z Z 1
3
E [Y ] = yγY (y)dy = y (− log(1 − y)) dy = .
R 0 4

iv) per la Proposizione 5.3.20, per 0 < y < 1, si ha

γ(X,Y ) (x, y) 1
γX|Y (x, y) = =− 1 (x, y), x ∈ R.
γY (y) 2 log(1 − y) H

Allora
Z Z − log(1−Y )
1 1
var(X | Y ) = x2 γX|Y (x, Y )dx = − x2 dx = log2 (1 − Y ).
R 2 log(1 − Y ) log(1−Y ) 3

3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n

i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?

Soluzione.
i) Per l’indipendenza si ha µ(Xn ,Y ) = N1, 1 ⊗ Bep ;
n

ii) ancora per l’indipendenza di Xn e Y , si ha


h i h i
E [Zn ] = E (−1)Y Xn = E (−1)Y E [Xn ] = 1 − 2p.

Inoltre
h Y i
ϕZn (η) = E eiη(−1) Xn
603
"
y
= eiη(−1) x N1, 1 ⊗ Bep (dx, dy) =
n
R2

(per il teorema di Fubini)


Z Z !
iη(−1)y x
= e Bep (dy) N1, 1 (dx)
n
R R
Z Z
=p e−iηx N1, 1 (dx) + (1 − p) eiηx N1, 1 (dx)
n n
R R
η2 η2
−iη− 2n iη− 2n
= pe + (1 − p)e ;

Zn è assolutamente continua poiché ϕZn è una funzione sommabile (cfr. Teorema 3.5.6);
iii) la convergenza in legge di Zn segue dal Teorema 4.3.8 di continuità di Lévy: si ha

lim ϕZn (η) = pe−iη + (1 − p)eiη


n→∞

che è la CHF della distribuzione pδ−1 + (1 − p)δ1 che non è assolutamente continua.
604 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2021 –

1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.
2. Sia (X, Y , Z) ∼ Nµ,C con
   
1 2 0 0 
µ = 2 , C = 0 1 −1 .
   
3 0 −1 1
   

Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.
605

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Gennaio 2021 –

1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.

Soluzione. Sia Rn l’evento “la n-esima carta estratta è rossa” e analogamente si definisca Nn .
i) Per la formula della probabilità totale si ha
10 1 9 1
P (N2 ) = P (N2 | R1 )P (R1 ) + P (N2 | N1 )P (N1 ) = · + · .
21 2 19 2

ii) Per la formula di Bayes si ha


10 1
P (N2 | R1 ) 21 · 2
P (R1 | N2 ) = P (R1 ) = 10 1 9
.
P (N2 ) 21 · 2+ 19 · 12

iii) Per la formula di moltiplicazione si ha


1 9 8 2
P (N1 ∩ N2 ∩ N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 ∩ N2 ) = · · = .
2 19 18 19
2
iv) La probabilità cercata è 1 − 19 .
2. Sia (X, Y , Z) ∼ Nµ,C con
   
1 2 0 0 
µ = 2 , C = 0 1 −1 .
   
3 0 −1 1
   

Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.

Soluzione.
i) Si ha (Y , Z) ∼ Nµ̄,C̄ con
! !
2 1 −1
µ̄ = , C̄ =
3 −1 1
e quindi
1 2
ϕ(Y ,Z) (η1 , η2 ) = ei(2η1 +3η2 )− 2 (η1 −η2 ) .
606 APPENDICE B. TEMI D’ESAME RISOLTI

ii) (X, Y +Z) ha distribuzione normale bidimensionale perché è trasformazione lineare di (X, Y , Z). Allora
X e Y + Z sono indipendenti se e solo se sono scorrelate. Poiché

cov(X, Y + Z) = cov(X, Y ) + cov(X, Z) = 0,

X e Y + Z sono indipendenti.
iii) Vale  
X   
Y + Z = A Y  , A= 0 1 1
 
Z
 

e quindi Y + Z ∼ NAµ,ACA∗ = δ5 .
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.

Soluzione.
i) Calcoliamo la CDF di Xn : FXn (y) = 0 se y ≤ 0, mentre per y > 0 si ha
1 1
FXn (y) = P (Xn ≤ y) = P (X ≤ (ny) n ) = 1 − e−λ(ny) .
n

La funzione FXn ∈ AC e derivandola si ottiene una densità:


1 1
γXn (y) = λ(ny) n −1 e−λ(ny) 1R≥0 (y).
n

ii) Si ha  
F(y) := lim FXn (y) = 1 − e−λ 1R>0 (y).
n→∞
Per ogni λ > 0, la funzione F non è una CDF (perché non converge a 1 per y → +∞): segue dal Teorema
4.3.3 che Xn non può convergere debolmente.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.

Soluzione.
i) Per ipotesi γS|T (s, t) = 1[t,t+1] (s). Per l’Osservazione 5.3.21, si ha

γ(S,T ) (s, t) = γS|T (s, t)γT (t) = 1[t,t+1] (s)1[0,1] (t) = 1[0,1] (s)1[0,s] (t) + 1[1,2] (s)1[s−1,1] (t).

Allora Z
γS (s) = γ(S,T ) (s, t)dt = s1[0,1] (s) + (2 − s)1[1,2] (s).
R
Infine
Z Z 1 Z 2
2
E [S] = sγS (s)ds = s ds + s(2 − s)ds = 1.
R 0 1
607

ii) Consideriamo λ > 0 generico. Per l’ipotesi di indipendenza si ha

γ(S,τ) (s, t) = γS (s)λe−λt 1R≥0 (t),

e quindi
Z Z +∞
P (τ ≥ S) = γS (s)λe−λt dtds
R s
Z 1 Z +∞ Z 2 Z +∞
−λt
= s λe dtds + (2 − s) λe−λt dtds
0 s 1 s
Z1 Z 2
= se−λs ds + (2 − s)e−λs ds
0 1
!2
eλ − 1
= .
λeλ

In particolare, per λ = 1 si ha
1 2
 
P (τ ≥ S) = 1 − ≈ 40%.
e
608 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2021 –

1. Quattro persone A, B, C, D lanciano un dado a testa. Determinare la probabilità che:

i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.

2. i) Verificare che la funzione


1
γ(x) = 1]0,+∞[ (x)
(x + 1)2
è una densità;
ii) sia X una variabile aleatoria con densità γ. Determinare una funzione ϕ tale che ϕ(X) ∼ Expλ
con λ > 0.

3. Sullo spazio di probabilità R, B, N0,1 consideriamo la successione di variabili aleatorie definite da




1
Xn = 1 , n ∈ N,
pn [n−1,n]

dove
pn := N0,1 ([n − 1, n]).
Determinare:

i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .

4. Siano X, Y variabili indipendenti con distribuzione Expλ . Determinare:


i) la CHF congiunta ϕ(X,Y ) ;
ii) la CHF ϕX+Y della somma;
iii) la CHF ϕXY del prodotto (non importa svolgere il calcolo fino all’espressione esplicita).
609

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Febbraio 2021 –

1. Quattro persone A, B, C, D lanciano un dado a testa. Determinare la probabilità che:


i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.

Soluzione.
 4
1
i) la probabilità cercata vale 6 ;
 4
ii) la probabilità cercata vale 6 · 5 · 16 ;
 4
iii) la probabilità cercata vale 4 · 16 .

2. i) Verificare che la funzione


1
γ(x) = 1]0,+∞[ (x)
(x + 1)2
è una densità;
ii) sia X una variabile aleatoria con densità γ. Determinare una funzione ϕ tale che ϕ(X) ∼ Expλ
con λ > 0.

Soluzione.
i) La funzione γ è misurabile, non negativa e tale che
Z Z +∞ Z +∞
1 1
γ(x)dx = 2
dx = dz = 1,
R 0 (x + 1) 1 z2
e quindi è una densità.
ii) Dato y > 0 e assumendo ϕ invertibile, calcoliamo
Z ϕ −1 (y) Z ϕ −1 (y)+1
1 1 1
P (ϕ(X) ≤ y) = P (X ≤ ϕ −1 (y)) = dx = dz = 1 − −1 .
0 (x + 1)2 1 z2 ϕ (y) + 1

Imponendo che P (ϕ(X) ≤ y) = 1 − e−λy otteniamo


1
= e−λy
ϕ −1 (y) + 1
1
da cui ϕ(x) = λ log(x + 1).
3. Sullo spazio di probabilità R, B, N0,1 consideriamo la successione di variabili aleatorie definite da


1
Xn = 1 , n ∈ N,
pn [n−1,n]
dove
pn := N0,1 ([n − 1, n]).
Determinare:
610 APPENDICE B. TEMI D’ESAME RISOLTI

i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .

Soluzione.
1
i) Xn assume solo i valori 0 e pn e quindi ha una distribuzione di tipo Bernoulli: precisamente, Xn ∼
pn δ 1 + (1 − pn )δ0 .
pn

ii) per ogni ϕ continua e limitata si ha


lim E [ϕ(Xn )] = lim (pn ϕ(1/pn ) + (1 − pn )ϕ(0)) = ϕ(0)
n→∞ n→∞

e quindi Xn converge debolmente ad una variabile aleatoria con distribuzione δ0 ;


iii) per ogni ω ∈ R si ha
lim Xn (ω) = 0
n→∞
e quindi Xn converge puntualmente (e quindi quasi certamente) alla variabile aleatoria identicamente
nulla;
iv) si ha E [Xn ] = 1 e quindi non si ha convergenza in L1 che contraddirrebbe il punto precedente.
4. Siano X, Y variabili indipendenti con distribuzione Expλ . Determinare:
i) la CHF congiunta ϕ(X,Y ) ;
ii) la CHF ϕX+Y della somma;
iii) la CHF ϕXY del prodotto (non importa svolgere il calcolo fino all’espressione esplicita).

Soluzione.
i) Per l’indipendenza, la CHF congiunta è il prodotto delle marginali
λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = ;
(λ − iη1 )(λ − iη2 )
ii) analogamente si ha
h i λ2
ϕX+Y (η) = E eiη(X+Y ) = ϕX (η)ϕY (η) = ;
(λ − iη)2
iii) si ha
h i
ϕXY (η) = E eiηXY =
(poiché, per l’indipendenza, (X, Y ) ∼ Expλ ⊗ Expλ )
"
= eiηxy Expλ ⊗ Expλ (d(x, y))
R2
(per il Teorema di Fubini)
Z Z !
iηxy
= e Expλ (dx) Expλ (dy)
ZR R
λ
= Expλ (dy)
R λ − iηy
+∞
λ2
Z
= e−λy dy.
0 λ − iηy
611

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Maggio 2021 –

1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:

i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.

2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:
i) qual è la probabilità che almeno 9 di essi siano immuni?
ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?

3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},

i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.

4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.
612 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Maggio 2021 –

1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:

i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.

Soluzione.

i)
P (S ∩ C) = P (S) + P (C) − P (S ∪ C) = 25%.

ii)
P (S \ C) = P (S) − P (S ∩ C) = 25%.

iii)
P ((S ∪ C)c ) = 1 − P (S ∪ C) = 40%.

2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:

i) qual è la probabilità che almeno 9 di essi siano immuni?


ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?

Soluzione.

i) I dati del problema sono

P (X) = P (Y ) = 0.4, P (Z) = 0.2, P (I | X) = 0.95, P (I | Y ) = 0.8, P (I | Z) = 0.2

con evidente significato degli eventi X, Y , Z, I. Per la formula della probabilità totale, la probabilità che
un individuo sia immune è

P (I) = P (I | X)P (X) + P (I | Y )P (Y ) + P (I | Z)P (Z) = 0.75.

La probabilità cercata è quindi

Bin10,p (9) + Bin10,p (10) ≈ 0.24, p := P (I).


613

ii) La probabilità che un individuo immune sia stato vaccinato è pari a

P (V | I) = P (X | I) + P (Y | I) =

(per la formula di Bayes)

P (I | X)P (X) P (I | Y )P (Y )
= + ≈ 0.93.
P (I) P (I)

La probabilità che tutti siano stati vaccinati è (0, 93)10 ≈ 0.5.

3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},

i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.

Soluzione.

i) Si ha
Z Z 1Z 2x

γλ (x, y)dxdy = λydydx = .
R2 0 0 3

Allora, essendo anche misurabile e non-negativa, la funzione γ 3 è una densità.


2

ii) Si ha, per x ∈ [0, 1],


Z 2x
γX (x) = γ 3 (x, y)dy = 3x2 1[0,1] (x),
2
0
Z 1
3y y
 
γY (y) = γ 3 (x, y)dx = 1 − 1[0,2] (y).
y 2 2 2
2

Inoltre, per z ∈ [0, 1], √



Z z
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = 3x2 dx
0
da cui derivando
3√
γX 2 (z) =
z1[0,1] (z).
2

iii) Se X 2 e Y fossero indipendenti allora lo sarebbero anche X 2 ≡ X e Y ma ciò non è vero per il punto
ii), essendo la densità congiunta diversa dal prodotto delle marginali.
iv) Si ha
γλ (x, y) 1
γX|Y (x, y) = = y 1(0< 2 <x<1)
y
γY (y) 1− 2
da cui si riconosce che la legge condizionata è uniforme, µX|Y = Unif[ Y ,1] .
2
614 APPENDICE B. TEMI D’ESAME RISOLTI

4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.

Soluzione.

i) Sappiamo che X1 assume i valori 0, 1 e Sn Binn,p : calcoliamo

P (X1 = 1) ∩ (Sn = k) P (X1 = 1) ∩ (X2 + · · · + Xn = k − 1)


P (X1 = 1 | Sn = k) = =
P (Sn = k) P (Sn = k)

(per indipendenza)

pBinn−1,p (k − 1) k
= = .
Binn,p (k) n

Dunque µX1 |Sn = Be Sn .


n
Sn
ii) Dal punto precedente segue che Yn = n e quindi per la legge dei grandi numeri Yn converge a E [X1 ] = p
in norma L2 e quasi certamente.
iii) Se k > n allora Xk e Sn sono indipendenti e quindi E [Xk | Sn ] = E [Xk ] = p.
615

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2021 –

1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.

2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.

i) Provare che Z è ben definita quasi certamente;


ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?

3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:

1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )

i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.
616 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Luglio 2021 –

1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.

Soluzione.
i) Per la formula della probabilità totale si ha
1
P (N ) = P (N | T )P (T ) + P (N | C)P (C) = (P (N | T ) + P (N | C))
2
dove N è l’evento “la pallina p è nera”, T è l’evento “il risultato del lancio della moneta è testa” e C è
l’evento “il risultato del lancio della moneta è croce”. Ancora per la formula della probabilità totale, se
NU indica l’evento “dall’urna U si estrae una pallina nera”, si ha
10 3 9 2 4
P (N | T ) = P (N | T | NU )P (NU ) + P (N | T | NUc ) (1 − P (NU )) = · + · = ,
12 5 12 5 5
4 9 3 2 7
P (N | C) = P (N | C | NV )P (NV ) + P (N | C | NVc ) (1 − P (NV )) = · + · = .
6 11 6 11 11
In definitiva
1 4 7 79
 
P (N ) = + = .
2 5 11 110
ii) Per la formula di Bayes
4 1
P (N | T )P (T ) 5·2 44
P (T | N ) = = 79
= .
P (N ) 110
79

iii) Si ha
2
P (N ∩ T ) = P (N | T )P (T ) = .
5

2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.
i) Provare che Z è ben definita quasi certamente;
ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?
617

Soluzione.

i) Z è ben definita se min{X, Y } , 0: ora si ha

P (min{X, Y } = 0) = P ((X ≤ 0) ∪ (Y ≤ 0)) ≤ P (X ≤ 0) + P (Y ≤ 0) = 0.

1
ii) si ha P (Z = 1) = P (X ≤ Y ) = 2 per simmetria oppure calcolando
Z +∞ Z y
1
P (X ≤ Y ) = λe−λx dxλe−λy dy = ;
0 0 2

1
iii) essendo Z ≥ 1 q.c. si ha P (Z ≤ t) = 0 per t < 1; abbiamo già provato che P (Z = 1) = 2 e per t > 1 si ha

P (Z ≤ t) = P (Z ≤ 1) + P (1 < Z ≤ t)
!
1 X
= +P 1 < ≤t
2 min{X, Y }
1
= + P (Y < X ≤ tY )
2
Z +∞ Z ty
1 t
= + λe−λx dxλe−λy dy = ;
2 0 y t + 1

iv) Z non è assolutamente continua per ii) e non è discreta poiché la sua CDF non è costante a tratti.

3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:

1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )

i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.

Soluzione.

i) Si ha
h i
ϕYn (η) = E eiηnX1 = ϕX1 (nη) = e−n|η| ,
h i
ϕZn (η) = E eiη(X1 +···+Xn ) =
618 APPENDICE B. TEMI D’ESAME RISOLTI

(per indipendenza)
n
Y h i
= E eiηXk =
k=1

(essendo le Xk identicamente distribuite)

= (ϕX1 (η))n = e−n|η| .

Avendo la stessa CHF, per il teorema di inversione Yn e Zn hanno la stessa legge. Yn e Zn non sono
uguali q.c. Per esempio, nel caso n = 2, Y2 = Z2 q.c. equivale a X1 = X2 q.c. ma ciò non è vero: per
esempio, per l’indipendenza, P ((X1 < 0) ∩ (X2 > 0)) = P (X1 < 0)P (X2 > 0) > 0.
ii) Procediamo come nell’Esempio 3.5.4:
 P n 

h
iηWλ
i X  iη Xk 
ϕWλ (η) = E e = E e k=1 1(N =n)  =

 
n=0

(per indipendenza di N , X1 , X2 , . . . )
 P n 

X  iη Xk 
= E e  P (N = n)
 k=1 
 
n=0

X e−λ λn
= (ϕX1 (η))n
n!
n=0
 
= exp λ(e−|η| − 1) .

iii) Per ogni η ∈ R si ha


lim ϕWλ (η) = 1
λ→0+

e quindi, per il Teorema di continuità di Lévy, Wλ converge debolmente ad una v.a. con distribuzione
delta di Dirac centrata in 0. D’altra parte, si ha

1 se η = 0,


lim ϕWλ (η) = 
λ→+∞ 0 se η , 0,

e dunque non si può avere convergenza debole perchè il limite delle CHF è una funzione discontinua
in 0 (si veda punto i) del Teorema di continuità di Lévy).
619

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2021 –

1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.

2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
1  1 0 −1
µ = 2 , C =  0 1 −1 .
   
3 −1 −1 2
   

Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .

3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:
i) la densità di X;
ii) se X e Y sono indipendenti;
iii) la densità di Y condizionata a X;
h i h i
iv) E Y 2 e E Y 2 | X .

4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
ii) Si calcoli E [Yn ] e E [Zn ].
iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?
620 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci


– Settembre 2021 –

1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.

Soluzione.
i) Sia Gi , i = 1, 2, 3, l’evento “si ha sentenza di condanna all’i-esimo grado”, e G = G1 ∩ G2 ∩ G3 . Per la
Formula di moltiplicazione si ha
70 · 80 · 90
P (G) = P (G1 )P (G2 | G1 )P (G3 | G1 ∩ G2 ) = = 50.4%.
1003

ii) Si ha
P (G)
P (G2c ∪ G3c | G1 ) = 1 − P (G2 ∩ G3 | G1 ) = 1 − = 28%.
P (G1 )
iii) Xn ∼ Bep con p = P (G). Per l’indipendenza, (Xn , Xn+1 ) ∼ Bep ⊗ Bep e Xn + Xn+1 ∼ Bin2,p .
1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Per il Teorema 3.1.26 si ha
P (N ≤ 5) = 1 − p5 ≈ 96.7%.

2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
1  1 0 −1
µ = 2 , C =  0 1 −1 .
   
3 −1 −1 2
   

Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .

Soluzione.
621

i) Si ha (X2 , X3 ) ∼ Nµ̄,C̄ con


! !
2 1 −1
µ̄ = , C̄ = .
3 −1 2

ii) Si ha
1
ϕX (η) = ei(η1 +2η2 +3η3 )− 2 ⟨Cη,η⟩ .

La matrice C è degenere (det C = 0) e quindi X non ha densità.

iii) Vale
 
X2 − X3 = AX, A= 0 1 −1

e quindi X2 − X3 ∼ N−1,ACA∗ = N−1,5 .

3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:

i) la densità di X;

ii) se X e Y sono indipendenti;

iii) la densità di Y condizionata a X;


h i h i
iv) E Y 2 e E Y 2 | X .

Soluzione.

i) La densità congiunta è γ(X,Y ) = 12 1Q dove

Q = {(x, y) ∈ R2 | |x + y| ≤ 1, |x − y| ≤ 1}.

Quindi, osservando la Figura B.3 se x ∈ [0, 1] si ha

Z Z 1−x
1
γX (x) = γ(X,Y ) (x, y)dy = dy = 1 − x,
R 2 x−1

mentre se x ∈ [−1, 0] si ha

Z x+1
1
γX (x) = dy = x + 1
2 −1−x

e γX (x) = 0 per |x| > 1.


622 APPENDICE B. TEMI D’ESAME RISOLTI

y=x+1

1.0

y=x-1
0.5

-1.5 -1.0 -0.5 0.5 1.0 1.5

-0.5

y=1-x
-1.0

y=-x-1

Figura B.3:

ii) Per simmetria si calcola anche γY e si vede facilmente che X, Y non sono indipendenti poiché la densità
congiunta non è il prodotto delle marginali.
iii) Se x ∈]0, 1] si ha

γ(X,Y ) (x, y) 1 1
γY |X (x, y) = = 1 (x, y) = 1 (y)
γX (x) 2(1 − x) Q 2(1 − x) [x−1,1−x]

e se x ∈ [−1, 0[
1 1
γY |X (x, y) = 1Q (x, y) = 1 (y).
2(x + 1) 2(x + 1) [−1−x,x+1]

iv) Si ha
h i Z1 Z 0
1
2 2
E Y = y (1 − y)dy + y 2 (1 + y)dy = .
0 −1 6
D’altra parte
h i Z
E Y2 | X = y 2 γY |X (X, y)dy
R
1−X X+1
y2 y2
Z Z
= 1[0,1] (X) dy + 1[−1,0] (X) dy
X−1 2(1 − X) −X−1 2(X + 1)
(X − 1)2 (X + 1)2
= 1[0,1] (X) + 1[−1,0] (X).
3 3

4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
623

ii) Si calcoli E [Yn ] e E [Zn ].


iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?

Soluzione.
i) Calcoliamo le CDF:
 


 0 se y ≤ 0, 

0 se z ≤ 0,
 n n
 1
FYn (y) = P (Xn ≤ (n + 1)y) =  1 se y ≥ n+1 , FZn (z) = P (Xn ≤ z ) = 1 se z ≥ n n ,
 

 n+1 
 zn
y altrimenti, altrimenti.

 

n n

Derivando tali funzioni, si trovano le densità:

n+1
γYn (y) = 1 n (y), γZn (z) = zn−1 1[0,n1/n ] (z).
n [0, n+1 ]

ii) Yn ∼ Unif[0, n
] da cui
n+1
n
E [Yn ] = .
2(n + 1)
Invece
1 n
Z nn
n n n+1
E [Zn ] = z dz = .
0 n+1
iii) Si ha 

 0 se y ≤ 0, 

 0

 se z ≤ 0,
FYn (y) −−−−−−→  1 se y ≥ 1, FZn (z) −−−−−−→ 

n→∞   n→∞  1 se z > 1,
y altrimenti,

e quindi, per il Teorema 4.3.3, Yn converge debolmente ad una v.a. con legge Unif[0,1] e Zn converge
debolmente ad una v.a. con legge delta di Dirac centrata in 1. Si noti che il limite puntuale delle FZn
non è continua a destra nel punto z = 1.
iv) Sı̀ per il Teorema 4.1.9-vi).
624 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Dicembre 2021 –

1. Pietro è un giocatore di tiro al bersaglio e dispone di cinque freccette. Quattro freccette sono perfet-
tamente bilanciate e quando Pietro le utilizza fa centro con probabilità pari al 75%. Al contrario, con
la quinta freccetta fa centro solo nel 25% dei casi. Pietro però non sa riconoscere la freccetta difettosa,
quindi quando gioca sceglie a caso la freccetta da lanciare.
i) Qual è la probabilità che Pietro faccia centro lanciando una freccetta scelta a caso tra le cinque?
ii) Sapendo che Pietro ha fatto centro, qual è la probabilità che abbia usato la freccetta difettosa?

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità


e−y
γ(X,Y ) (x, y) = α √ 1A (x, y), (x, y) ∈ R2 ,
x
dove α ∈ R e n √ o
A = (x, y) ∈ R2 | x > 0, y > x .

i) Trovare il valore del parametro α affinché γ(X,Y ) sia effettivamente una densità;
ii) determinare le densità marginali di (X, Y ) e stabilire se X, Y sono indipendenti.

3. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
1 1 1 2
µ = 0 , C = 1 1 2 .
   
2 2 2 4
   

i) Trovare la legge di (X1 , X3 );


ii) stabilire se la variabile aleatoria (X1 , X3 ) è assolutamente continua;
iii) determinare la legge di X3 − 2X1 e X2 . Sono indipendenti?

4. Sia X0 una variabile aleatoria con distribuzione di Cauchy e funzione caratteristica

ϕX0 (η) = exp(−|η|), η ∈ R.

Sia (Xn )n∈N una successione di variabili aleatorie definite ricorsivamente da

Xn = αXn−1 + β, n ∈ N,

dove −1 < α < 1 e β ∈ R.


i) Si esprima Xn in termini di X0 e si determini la funzione caratteristica di Xn per ogni n ∈ N;
ii) si studi la convergenza debole di (Xn )n∈N ;
iii) si studi la convergenza quasi certa di (Xn )n∈N .
625

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Dicembre 2021 –

1. Pietro è un giocatore di tiro al bersaglio e dispone di cinque freccette. Quattro freccette sono perfet-
tamente bilanciate e quando Pietro le utilizza fa centro con probabilità pari al 75%. Al contrario, con
la quinta freccetta fa centro solo nel 25% dei casi. Pietro però non sa riconoscere la freccetta difettosa,
quindi quando gioca sceglie a caso la freccetta da lanciare.

i) Qual è la probabilità che Pietro faccia centro lanciando una freccetta scelta a caso tra le cinque?
ii) Sapendo che Pietro ha fatto centro, qual è la probabilità che abbia usato la freccetta difettosa?

Soluzione.

i) Siano

A = “Pietro sceglie la freccetta difettosa”,


B = “Pietro sceglie una freccetta perfettamente bilanciata” = Ac ,
C = “Pietro fa centro”.

Sappiamo che P (A) = 1/5 e P (B) = 4/5. Inoltre, P (C|A) = 1/4 e P (C|B) = 3/4. Quindi, per la formula
della probabilità totale,
13
P (C) = P (C|A)P (A) + P (C|B)P (B) = .
20
ii ) Per la formula di Bayes
P (C|A)P (A) 1
P (A|C) = = .
P (C) 13

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità

e−y
γ(X,Y ) (x, y) = α √ 1A (x, y), (x, y) ∈ R2 ,
x

dove α ∈ R e n √ o
A = (x, y) ∈ R2 | x > 0, y > x .

i) Trovare il valore del parametro α affinché γ(X,Y ) sia effettivamente una densità;
ii) determinare le densità marginali di (X, Y ) e stabilire se X, Y sono indipendenti.

Soluzione.

i) α = 1/2, infatti

Z Z ∞ Z ∞ ! Z ∞ − x
1 −y e
γ(X,Y ) (x, y)dxdy = α √ √ e dy dx = α √ dx = 2α.
R2 0 x x 0 x
626 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Si ha


e− x
Z Z
1 −y
γX (x) = γ(X,Y ) (x, y)dy = √ 1]0,∞[ (x) √ e dy = √ 1]0,∞[ (x),
R 2 x x 2 x
Z Z y2
1
γY (y) = γ(X,Y ) (x, y)dx = e−y 1]0,∞[ (y) √ dx = ye−y 1]0,∞[ (y).
R 0 2 x

Dato che γ(X,Y ) (x, y) , γX (x)γY (y), X e Y non sono indipendenti.

3. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
1 1 1 2
µ = 0 , C = 1 1 2 .
   
2 2 2 4
   

i) Trovare la legge di (X1 , X3 );


ii) stabilire se la variabile aleatoria (X1 , X3 ) è assolutamente continua;
iii) determinare la legge di X3 − 2X1 e X2 . Sono indipendenti?

Soluzione.

i) (X1 , X3 ) ha legge normale bidimensionale, con media e matrice di covarianza date rispettivamente da
! !
1 1 2
e=
µ , C=
e .
2 2 4

ii) No, infatti det C


e = 0.
iii) X3 − 2X1 ∼ N0,0 = δ0 e X2 ∼ N0,1 . Inoltre

cov(X3 − 2X1 , X2 ) = cov(X3 , X2 ) − 2cov(X1 , X2 ) = 0.

Quindi X3 − 2X1 e X2 sono scorrelate. Poiché (X3 − 2X1 , X2 ) ha legge normale bidimensionale, segue
che X3 − 2X1 e X2 sono anche indipendenti.

4. Sia X0 una variabile aleatoria con distribuzione di Cauchy e funzione caratteristica

ϕX0 (η) = exp(−|η|), η ∈ R.

Sia (Xn )n∈N una successione di variabili aleatorie definite ricorsivamente da

Xn = αXn−1 + β, n ∈ N,

dove −1 < α < 1 e β ∈ R.

i) Si esprima Xn in termini di X0 e si determini la funzione caratteristica di Xn per ogni n ∈ N;


ii) si studi la convergenza debole di (Xn )n∈N ;
iii) si studi la convergenza quasi certa di (Xn )n∈N .

Soluzione.
627

i) Vale

Xn = αXn−1 + β = α 2 Xn−2 + β(1 + α) = α 3 Xn−3 + β(1 + α + α 2 ) = . . .


n−1
X 1 − αn
= α n X0 + β α k = α n X0 + β .
1−α
k=0

Quindi
1 − αn
!
n
n iηβ 1−α n
ϕXn (η) = ϕX0 (ηα )e 1−α = exp −|η||α| + iβη .
1−α
ii) Per il punto precedente, ricordando che |α| < 1, otteniamo
β
lim ϕXn (η) = eiη 1−α , η ∈ R,
n→∞

che è la funzione caratteristica della distribuzione δ β . Quindi, per il Teorema di continuità di Lévy,
1−α
β
Xn converge in legge alla variabile aleatoria costante 1−α .
iii) Dalla formula
1 − αn
Xn = α n X0 + β
1−α
β
deduciamo che Xn converge quasi certamente a 1−α .
628 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Gennaio 2022 –

1. Un segnale può assumere due stati: positivo (+) o negativo (−). Il segnale viene inizialmente trasmesso
nello stato +, quindi attraversa due canali successivi, infine viene ricevuto. Ciascun canale trasmette
correttamente con probabilità del 90%, altrimenti lo inverte (se era + diventa −, e viceversa). I canali
agiscono indipendentemente.
i) Qual è la probabilità che il segnale venga ricevuto correttamente (ossia nello stato +)?
ii) Se il segnale viene ricevuto correttamente, qual è la probabilità che il primo canale non lo abbia
trasmesso correttamente?

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità

4
γ(X,Y ) (x, y) = (x + xy)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 .
3
 
i) Calcolare P Y > X + 21 ;
ii) determinare le densità marginali di X e Y e dire se X, Y sono indipendenti;
iii) calcolare E [XY ].

3. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
−1  25 15 −5
µ =  7  , C =  15 18 0  .
   
3 −5 0 11
   

Si determini:
i) la legge di (X1 , X3 );
ii) la CHF di X e di X3 − X2 ;
iii) la covarianza di X1 e 5X2 − 3X1 . Sono indipendenti?

4. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ (1 − n1 )δ−1 + n1 δ1 . Sia inoltre Z una variabile
aleatoria a valori reali con funzione caratteristica ϕZ . Supponiamo che Z sia indipendente da Xn , per
ogni n ∈ N. Poniamo infine Yn = Xn Z, per ogni n ∈ N.
i) Si esprima la funzione caratteristica di Yn in termini di ϕZ , per ogni n ∈ N;
ii) studiare la convergenza in legge di (Yn )n∈N ;
iii) supponendo che Z sia sommabile, studiare la convergenza in L1 di (Yn )n∈N .
629

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Gennaio 2022 –

1. Un segnale può assumere due stati: positivo (+) o negativo (−). Il segnale viene inizialmente trasmesso
nello stato +, quindi attraversa due canali successivi, infine viene ricevuto. Ciascun canale trasmette
correttamente con probabilità del 90%, altrimenti lo inverte (se era + diventa −, e viceversa). I canali
agiscono indipendentemente.

i) Qual è la probabilità che il segnale venga ricevuto correttamente (ossia nello stato +)?
ii) Se il segnale viene ricevuto correttamente, qual è la probabilità che il primo canale non lo abbia
trasmesso correttamente?

Soluzione.

i) Introduciamo gli eventi

A1 = “il primo canale trasmette il segnale correttamente”,


A2 = “il secondo canale trasmette il segnale correttamente”,
B = “il segnale viene ricevuto correttamente”.

Notiamo che
B = (A1 ∩ A2 ) ∪ (Ac1 ∩ Ac2 ),
infatti il segnale viene ricevuto correttamente quando entrambi i canali lo trasmettono correttamente
oppure quando entrambi lo invertono.
Dal testo dell’esercizio sappiamo che P (A1 ) = P (A2 ) = 0.9 e inoltre A1 e A2 sono indipendenti, quindi
anche Ac1 e Ac2 sono indipendenti, pertanto

P (B) = P (A1 ∩ A2 ) + P (Ac1 ∩ Ac2 ) = P (A1 )P (A2 ) + P (Ac1 )P (Ac2 ) = 0.82.

ii) Per la formula di Bayes


P (B|Ac1 )P (Ac1 )
P (Ac1 |B) = .
P (B)
P (Ac2 )P (Ac1 ) 1
Poiché P (B|Ac1 ) = P (Ac2 |Ac1 ) = P (Ac2 ), otteniamo P (Ac1 |B) = P (B)
= 82 ≈ 0.012%.

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità

4
γ(X,Y ) (x, y) = (x + xy)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 .
3
 
i) Calcolare P Y > X + 21 ;
ii) determinare le densità marginali di X e Y e dire se X, Y sono indipendenti;
iii) calcolare E [XY ].

Soluzione.
630 APPENDICE B. TEMI D’ESAME RISOLTI

i) Sia
1
 
A = (x, y) ∈ R2 | y > x + .
2
Allora
 Z Z 1 Z
1

1 2 4x 
 
P Y >X+ = γ(X,Y ) (x, y)dxdy = (1 + y)dy  dx

2 3

A 0 1
x+ 2
Z 1
4 2 7 3 1 5

= x − x2 − x3 dx = ≈ 0.0521.
3 0 8 2 2 96

ii) Abbiamo che


Z Z1
4
γX (x) = γ(X,Y ) (x, y)dy = x1[0,1] (x) (1 + y)dy = 2x1[0,1] (x),
R 3 0
Z Z1
4 2
γY (y) = γ(X,Y ) (x, y)dx = (1 + y)1[0,1] (y) xdx = (1 + y)1[0,1] (y).
R 3 0 3

Poiché γ(X,Y ) (x, y) = γX (x)γY (y), segue che X e Y sono indipendenti.


iii) Per l’indipendenza
Z 1 ! Z 1 !
2 2 2 5 10
E [XY ] = E[X]E[Y ] = 2x dx (1 + y)ydy = · = ≈ 0.3704.
0 0 3 3 9 27

3. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
−1  25 15 −5
µ =  7  , C =  15 18 0  .
   
3 −5 0 11
   

Si determini:

i) la legge di (X1 , X3 );
ii) la CHF di X e di X3 − X2 ;
iii) la covarianza di X1 e 5X2 − 3X1 . Sono indipendenti?

Soluzione.

i) (X1 , X3 ) ha legge normale multidimensionale, con media e matrice di covarianza date rispettivamente
da ! !
−1 25 −5
e=
µ , C=
e .
3 −5 11

ii) Si ha
1
ϕX (η) = ei(−η1 +7η2 +3η3 )− 2 ⟨Cη,η⟩ , η = (η1 , η2 , η3 ) ∈ R3 .
Inoltre X3 − X2 ∼ N4,29 e quindi
1 2
ϕX3 −X2 (η) = e−4iη− 2 29η , η ∈ R.
631

iii) Si ha
cov(X1 , 5X2 − 3X1 ) = 5cov(X1 , X2 ) − 3var(X1 ) = 0.
Quindi X1 e 5X2 − 3X1 sono indipendenti.

4. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ (1 − n1 )δ−1 + n1 δ1 . Sia inoltre Z una variabile
aleatoria a valori reali con funzione caratteristica ϕZ . Supponiamo che Z sia indipendente da Xn , per
ogni n ∈ N. Poniamo infine Yn = Xn Z, per ogni n ∈ N.

i) Si esprima la funzione caratteristica di Yn in termini di ϕZ , per ogni n ∈ N;


ii) studiare la convergenza in legge di (Yn )n∈N ;
iii) supponendo che Z sia sommabile, studiare la convergenza in L1 di (Yn )n∈N .

Soluzione.
i) Abbiamo che
h i h i h i
ϕYn (η) = E eiηXn Z = E eiηXn Z 1(Xn =−1) + E eiηXn Z 1(Xn =1)
h i h i
= E e−iηZ 1(Xn =−1) + E eiηZ 1(Xn =1) =

(per indipendenza)
h i h i
= E e−iηZ P (Xn = −1) + E eiηZ P (Xn = 1)
1 1
 
= 1 − ϕZ (−η) + ϕZ (η).
n n

ii) Studiamo la convergenza puntuale di ϕYn . Per il punto precedente, abbiamo

lim ϕYn (η) = ϕZ (−η).


n→∞

Poiché la funzione η 7→ ϕZ (−η) è continua in zero, per il Teorema di continuità di Lévy, Yn converge
in legge ad una (qualunque) variabile aleatoria avente funzione caratteristica ϕZ (−η) (per esempio,
questo è il caso della variabile aleatoria −Z).
iii) Yn converge in L1 a −Z, infatti

2
E [|Yn + Z|] = E [|Xn + 1||Z|] = E [|Xn + 1|] E [|Z|] = E [|Z|] −−−−−−→ 0.
n n→∞
632 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Febbraio 2022 –

1. Elena si reca ogni giorno al lavoro in bicicletta. Qualche volta (più precisamente, nel 40% dei casi),
per fare più presto, attraversa una zona pedonale vietata alle biciclette, dove rischia (nel 20% dei
casi) di essere fermata da un vigile e, dunque, di ricevere una multa. L’attraversamento di questa
zona pedonale è l’unico motivo per cui Elena può ricevere una multa nel suo percorso in bici tra casa
e ufficio (supponiamo quindi che non commetta mai altre infrazioni).
i) Qual è la probabilità che oggi Elena, nel venire al lavoro, sia stata multata?
ii) Sapendo che Elena non è stata multata, qual è la probabilità che sia passata per la zona pedonale?

2. Sia
γ(x, y) = c(2x2 y + 1)1D (x, y), (x, y) ∈ R2 ,
dove c ∈ R e D = {(x, y) ∈ R2 | |x| < 1, |y − 1| < 1}.
i) Trovare il valore del parametro c tale che γ sia una densità;
ii) determinare le densità marginali della variabile aleatoria (X, Y ) con densità γ;
iii) X e Y sono scorrelate?
iv) X e Y sono indipendenti?

3. Siano Z1 e Z2 variabili aleatorie indipendenti con distribuzione N0,1 :


i) determinare media e matrice di covarianza del vettore aleatorio (X1 , X2 ) := (Z1 , Z1 Z2 );
h i h i
ii) si verifichi se vale l’uguaglianza E X12 X22 = E X12 ]E[X22 . Le variabili aleatorie X1 e X2 sono
h i
indipendenti? (Suggerimento: si usi che E Z14 = 3)
iii) dedurre dai punti precedenti che (X1 , X2 ) non ha distribuzione normale bidimensionale;
iv) calcolare P (X1 > X2 ).

4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità

2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3

i) Determinare la funzione di ripartizione FXn di Xn ;


ii) la successione (Xn )n∈N converge in legge? Se sı̀, qual è la legge della variabile aleatoria limite?
iii) studiare la convergenza di (Xn )n∈N in L1 .
633

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Febbraio 2022 –

1. Elena si reca ogni giorno al lavoro in bicicletta. Qualche volta (più precisamente, nel 40% dei casi),
per fare più presto, attraversa una zona pedonale vietata alle biciclette, dove rischia (nel 20% dei
casi) di essere fermata da un vigile e, dunque, di ricevere una multa. L’attraversamento di questa
zona pedonale è l’unico motivo per cui Elena può ricevere una multa nel suo percorso in bici tra casa
e ufficio (supponiamo quindi che non commetta mai altre infrazioni).

i) Qual è la probabilità che oggi Elena, nel venire al lavoro, sia stata multata?
ii) Sapendo che Elena non è stata multata, qual è la probabilità che sia passata per la zona pedonale?

Soluzione.

i) Introduciamo gli eventi

A = “Elena attraversa la zona pedonale”,


B = “Elena è stata multata”.

Dal testo dell’esercizio sappiamo che P (A) = 0.4, P (B|A) = 0.2 e P (B|Ac ) = 0. Quindi

P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ) = 0.2 · 0.4 + 0 · 0.6 = 0.08.

ii) Per la formula di Bayes, si ha

P (Bc |A)P (A) (1 − P (B|A))P (A) 0.8 · 0.4


P (A|Bc ) = = = ≈ 0.3478.
P (Bc ) 1 − P (B) 0.92

2. Sia
γ(x, y) = c(2x2 y + 1)1D (x, y), (x, y) ∈ R2 ,
dove c ∈ R e D = {(x, y) ∈ R2 | |x| < 1, |y − 1| < 1}.

i) Trovare il valore del parametro c tale che γ sia una densità;


ii) determinare le densità marginali della variabile aleatoria (X, Y ) con densità γ;
iii) X e Y sono scorrelate?
iv) X e Y sono indipendenti?

Soluzione.

i) Chiaramente γ è una funzione misurabile ed è non-negativa se e solo se c ≥ 0. Inoltre si ha


Z Z 1 Z 2 ! Z1
20
γ(x, y)dxdy = c (2x2 y + 1)dy dx = c (4x2 + 2)dx = c.
R2 −1 0 −1 3
3
Allora γ è una densità se c = 20 .
634 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Si ha che
Z Z2
3 3
γX (x) = γ(x, y)dy = 1]−1,1[ (x) (2x2 y + 1)dy = (4x2 + 2)1]−1,1[ (x),
R 20 0 20
Z Z1
3 3 4
 
γY (y) = γ(x, y)dx = 1]0,2[ (y) (2x2 y + 1)dx = y + 2 1]0,2[ (y).
R 20 −1 20 3

iii) Abbiamo che cov(X, Y ) = E[XY ] − E[X]E[Y ]. Inoltre


Z 1
3
E [X] = x(4x2 + 2)dx = 0,
−1 20
Z Z 2 Z 1 !
3 2
E[XY ] = xyγ(X,Y ) (x, y)dxdy = y x(2x y + 1)dx dy = 0.
R2 0 20 −1

Perció cov(X, Y ) = 0, ossia X e Y sono scorrelate.


iv) Dato che γ(x, y) , γX (x)γY (y), X e Y non sono indipendenti.

3. Siano Z1 e Z2 variabili aleatorie indipendenti con distribuzione N0,1 :


i) determinare media e matrice di covarianza del vettore aleatorio (X1 , X2 ) := (Z1 , Z1 Z2 );
h i h i
ii) si verifichi se vale l’uguaglianza E X12 X22 = E X12 ]E[X22 . Le variabili aleatorie X1 e X2 sono
h i
indipendenti? (Suggerimento: si usi che E Z14 = 3)
iii) dedurre dai punti precedenti che (X1 , X2 ) non ha distribuzione normale bidimensionale;
iv) calcolare P (X1 > X2 ).

Soluzione.
i) Per l’indipendenza, si ha che E[Z1 Z2 ] = E[Z1 ]E[Z2 ] = 0 e E[Z12 Z22 ] = E[Z12 ]E[Z22 ] = 1, da cui segue che
var(Z1 Z2 ) = E[Z12 Z22 ]−E[Z1 Z2 ]2 = 1. Inoltre, cov(Z1 , Z1 Z2 ) = E[Z12 Z2 ]−E[Z1 ]E[Z1 Z2 ] = E[Z12 Z2 ] =
E[Z12 ]E[Z2 ] = 0. Quindi ! !
0 1 0
µ= , C= .
0 0 1

ii) le variabili aleatorie X1 e X2 non sono indipendenti. Se lo fossero allora E[X12 X22 ] = E[X12 ]E[X22 ], invece
si ha che E[X12 X22 ] = E[Z14 Z22 ] = E[Z14 ]E[Z22 ] = 3, mentre E[X12 ] = E[Z12 ] = 1 e E[X22 ] = E[Z12 Z22 ] =
E[Z12 ]E[Z22 ] = 1.
iii) X1 e X2 sono scorrelate ma non indipendenti: se (X1 , X2 ) avesse distribuzione normale bidimensionale,
ciò sarebbe in contraddizione con la Proposizione 3.5.18.
iv)

P (X1 > X2 ) = P (Z1 > Z1 Z2 ) = P ((Z1 > Z1 Z2 ) ∩ (Z1 > 0)) + P ((Z1 > Z1 Z2 ) ∩ (Z1 < 0))
= P ((Z1 > 0) ∩ (Z2 < 1)) + P ((Z1 < 0) ∩ (Z2 > 1))
= P (Z1 > 0)P (Z2 < 1) + P (Z1 < 0)P (Z2 > 1)
1 1 1
= P (Z2 < 1) + P (Z2 > 1) = .
2 2 2
635

4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità

2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3

i) Determinare la funzione di ripartizione FXn di Xn ;


ii) la successione (Xn )n∈N converge in legge? Se sı̀, qual è la legge della variabile aleatoria limite?
iii) studiare la convergenza di (Xn )n∈N in L1 .

Soluzione.

i) Abbiamo che 
R0, x < 0,


FXn (x) =  x 2n nx(nx+2)
3 dy = , x ≥ 0.

(nx+1)2
 0 (ny+1)

ii) Studiamo la convergenza puntuale delle funzioni di ripartizioni:



0, x ≤ 0,


lim FXn (x) = 
n→∞ 1,
 x > 0.

Quindi la successione di funzioni (FXn )n∈N converge puntualmente ovunque, tranne in x = 0, alla
funzione di ripartizione della variabile aleatoria nulla, ossia

0, x < 0,


F(x) = 
1,
 x ≥ 0.

Per il Teorema 4.3.3, (Xn )n∈N converge in legge alla variabile aleatoria nulla.
iii) Il limite in L1 , se esiste, deve essere zero, per quanto visto al punto precedente. In effetti si ha
Z +∞
1 +∞ 2y
Z
2nx
E[|Xn |] = E[Xn ] = dx = dy −−−−−−→ 0
0 (nx + 1)3 n 0 (y + 1)3 n→∞

essendo l’integrale chiaramente convergente e quindi uguale a una costante finita (che, per la precisio-
ne, si mostra con un semplice calcolo essere esattamente uguale a 1). Perció (Xn )n∈N tende a zero anche
in L1 .
636 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Maggio 2022 –

1. In un’urna ci sono due palline che possono essere rosse (R) o bianche (B). La composizione esatta
non è nota, quindi le composizioni possibili sono:

RR, RB, BB.

Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale probabi-
lità pari a 31 alle tre composizioni possibili, che denotiamo H0 , H1 e H2 .
i) Se si estrae una pallina dall’urna, qual è la probabilità che sia bianca?
ii) Si effettuano due estrazioni con reimmissione: sapendo che la prima pallina estratta è bianca,
qual è la probabilità che anche la seconda pallina estratta sia bianca?

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità


c − 1+y
x 1 2
γ(X,Y ) (x, y) = e e− 2 y 1]0,+∞[×]0,+∞[ (x, y), (x, y) ∈ R2 ,
1+y
dove c > 0 è un’opportuna costante.
i) Calcolare c in modo tale che γ(X,Y ) sia effettivamente una densità;
ii) determinare la densità marginale di Y ;
X
iii) determinare la CHF di Z := 1+Y . Che legge ha Z?

3. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(1 + nx)3
i) Si calcoli la CDF di Xn ;
ii) si mostri che (Xn )n∈N converge in legge e se ne determini la legge limite;
iii) si mostri che la convergenza ha luogo anche in probabilità.

4. Un ingegnere elettronico deve costruire un sistema costituito da tre componenti in serie. Pesca i
tre componenti da una scatola in cui vi sono tre componenti nuovi, due usati ma funzionanti e due
difettosi. Siano X e Y rispettivamente il numero di componenti nuovi e di componenti usati ma
funzionanti tra quelli pescati dalla scatola.
i) Determinare la funzione di distribuzione congiunta di X e Y . Quanto vale P (Y = 0)?
ii) Calcolare la legge condizionata µX|B di X dato l’evento B := (Y = 0), in particolare riportandone
la funzione di distribuzione µ̄X|B ;
iii) determinare il valore atteso condizionato E[X|Y = 0].
637

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Maggio 2022 –

1. In un’urna ci sono due palline che possono essere rosse (R) o bianche (B). La composizione esatta
non è nota, quindi le composizioni possibili sono:

RR, RB, BB.

Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale probabi-
lità pari a 31 alle tre composizioni possibili, che denotiamo H0 , H1 e H2 .
i) Se si estrae una pallina dall’urna, qual è la probabilità che sia bianca?
ii) Si effettuano due estrazioni con reimmissione: sapendo che la prima pallina estratta è bianca,
qual è la probabilità che anche la seconda pallina estratta sia bianca?

Soluzione.
i) Introduciamo gli eventi

Bi = “all’i-esima estrazione esce una pallina bianca”, i = 1, 2.

La probabilità richiesta è P (B1 ). Dalla formula della probabilità totale si ottiene

1
P (B1 ) = P (B1 |H0 ) P (H0 ) + P (B1 |H1 ) P (H1 ) + P (B1 |H2 ) P (H2 ) = .
2

ii) La probabilità richiesta è P (B2 |B1 ). Dalla definizione di probabilità condizionata, si ha che

P (B1 ∩ B2 )
P (B2 |B1 ) = .
P (B1 )

Inoltre

P (B1 ∩ B2 ) = P (B1 ∩ B2 ∩ H0 ) + P (B1 ∩ B2 ∩ H1 ) + P (B1 ∩ B2 ∩ H2 ) =

(per la formula di moltiplicazione)

1 1 1 1 5
= 0+ · · + = .
3 2 2 3 12
Quindi
5
P (B1 ∩ B2 ) 12 5
P (B2 |B1 ) = = 1
= .
P (B1 ) 2
6

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità


c − 1+y
x 1 2
γ(X,Y ) (x, y) = e e− 2 y 1]0,+∞[×]0,+∞[ (x, y), (x, y) ∈ R2 ,
1+y

dove c > 0 è un’opportuna costante.


638 APPENDICE B. TEMI D’ESAME RISOLTI

i) Calcolare c in modo tale che γ(X,Y ) sia effettivamente una densità;


ii) determinare la densità marginale di Y ;
X
iii) determinare la CHF di Z := 1+Y . Che legge ha Z?

Soluzione.
R
i) Deve essere c > 0 e deve valere R2
γ(X,Y ) (x, y)dxdy = 1, da cui

+∞ +∞ Z +∞
1√
Z Z !
− 12 y 2 1 − 1+y
x 1 2
1=c e e dx dy = c e− 2 y dy = c 2π,
0 0 1+y 0 2
q
2
perció c = π.

ii) r r
Z +∞
2 − 1 y2 1 − 1+y
x 2 − 1 y2
γY (y) = e 2 1]0,+∞[ (y) e dx = e 2 1]0,+∞[ (y).
π 0 1+y π
iii) r
 Z +∞ Z +∞
2 − 1 y2 1 − 1+y
x iη x
 X
ϕZ (η) = E eiη 1+Y = e 2 e e 1+y dxdy.
0 π 0 1+y
x
Nell’integrale rispetto alla variabile x effettuiamo il cambio di variabile z = 1+y ottenendo
Z +∞ Z +∞
1 − 1+y
x iη x
e e 1+y dx = e−z eiηz dz.
0 1+y 0

R +∞ q
2 − 21 y 2
Quindi (usando che 0 πe dy = 1)
r
Z +∞ Z +∞ Z +∞
2 − 1 y2
ϕZ (η) = e 2 dy e−z eiηz dz = e−z eiηz dz
0 π 0 0

che è la funzione caratteristica della distribuzione esponenziale di parametro 1.

3. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità

2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(1 + nx)3

i) Si calcoli la CDF di Xn ;
ii) si mostri che (Xn )n∈N converge in legge e se ne determini la legge limite;
iii) si mostri che la convergenza ha luogo anche in probabilità.

Soluzione.

i) Si ha che FXn (x) = 0 per x ≤ 0, mentre per x > 0 otteniamo


Z x " #y=x
2n 1 1
FXn (x) = P (Xn ≤ x) = 3
dy = − 2
= 1− .
0 (1 + ny) (1 + ny) y=0 (1 + nx)2
639

ii) Studiamo la convergenza puntuale di FXn . Per il punto precedente, abbiamo



0, x ≤ 0,


G(x) := lim FXn (x) = 
n→∞ 1,
 x > 0.

La funzione G coincide ovunque tranne in x = 0 con la CDF della distribuzione δ0 . Quindi FXn
converge puntualmente alla CDF di δ0 in tutti i punti di continuità di tale CDF. Di conseguenza, per
il Teorema 4.3.3 Xn → 0 in legge.
iii) Dato che (Xn )n∈N converge in legge ad una costante (la costante zero), la convergenza ha luogo anche
in probabilità.

4. Un ingegnere elettronico deve costruire un sistema costituito da tre componenti in serie. Pesca i
tre componenti da una scatola in cui vi sono tre componenti nuovi, due usati ma funzionanti e due
difettosi. Siano X e Y rispettivamente il numero di componenti nuovi e di componenti usati ma
funzionanti tra quelli pescati dalla scatola.
i) Determinare la funzione di distribuzione congiunta di X e Y . Quanto vale P (Y = 0)?
ii) Calcolare la legge condizionata µX|B di X dato l’evento B := (Y = 0), in particolare riportandone
la funzione di distribuzione µ̄X|B ;
iii) determinare il valore atteso condizionato E[X|Y = 0].

Soluzione.
i) Si noti che, ad esempio,
3 2 2
1 1 1
µ̄(X,Y ) (1, 1) = P ((X = 1) ∩ (Y = 1)) = 7
.
3

In generale, si ha che
3 2 2 
i j 3−(i+j)
µ̄(X,Y ) (i, j) = P ((X = i) ∩ (Y = j)) = 7
, i = 1, 2, 3, j = 0, 1, 2, i + j ≤ 3.
3

Quindi
3 3 2 2 3 2 2 3 2 2
X
1 0 2 2 0 1 3 0 0 2
P (Y = 0) = µ̄Y (0) = µ̄(X,Y ) (i, 0) = 7
+ 7
+ 7
= .
7
i=1 3 3 3

ii) Si noti che


P ((X = i) ∩ (Y = 0))
µ̄X|B (i) = P (X = i|Y = 0) = , i = 1, 2, 3.
P (Y = 0)
Quindi
3 3 1
µ̄X|B (1) = , µ̄X|B (2) = , µ̄X|B (3) = .
10 5 10
iii)
3
X 9
E[X|Y = 0] = i µ̄X|B (i) = .
5
i=1
640 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Luglio 2022 –

1. Un’urna contiene una pallina bianca ed una rossa. Una pallina viene estratta a caso. Se è bianca
il gioco termina. Se è rossa la pallina viene rimessa nell’urna insieme ad un’altra dello stesso co-
lore. Supponiamo che questa procedura venga ripetuta fino ad aver fatto 4 estrazioni o alla prima
estrazione di una pallina bianca, se si presenta prima della quarta estrazione.
i) Qual è la probabilità che il gioco termini alla terza estrazione?
ii) Qual è la probabilità che il gioco termini prima della quarta estrazione?
iii) Sapendo che il gioco è terminato prima della quarta estrazione, qual è la probabilità che sia
terminato alla terza estrazione?

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità

γ(X,Y ) (x, y) = (y − x)e−y 1{0≤x≤y} , (x, y) ∈ R2 .

i) Si determinino le densità di X e Y . Che legge hanno?


ii) Le variabili aleatorie X e Y sono indipendenti?
iii) Determinare la densità di Z = X + Y .

3. Data X ∼ N0,1 , poniamo


Y := X1(|X|≤1) − X1(|X|>1) .
Si osservi che X e −X hanno la stessa legge e che 1(|X|>1) = 1(|−X|>1)
i) Determinare la CHF e la legge di Y .
ii) Mostrare che P (X + Y = 0) ∈ ]0, 1[.
iii) X e Y sono congiuntamente Gaussiane? Sono indipendenti? (Si usi il punto precedente)

4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con X1 ∼ Exp1 . Sia

Yn = max{X1 , . . . , Xn } − log n, n ∈ N.

i) Si esprima la CDF di Yn in termini della CDF della distribuzione Exp1 che indichiamo con F.
ii) Studiare la convergenza in legge di (Yn )n∈N e si determini la densità della distribuzione limite.
641

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Luglio 2022 –

1. Un’urna contiene una pallina bianca ed una rossa. Una pallina viene estratta a caso. Se è bianca
il gioco termina. Se è rossa la pallina viene rimessa nell’urna insieme ad un’altra dello stesso co-
lore. Supponiamo che questa procedura venga ripetuta fino ad aver fatto 4 estrazioni o alla prima
estrazione di una pallina bianca, se si presenta prima della quarta estrazione.

i) Qual è la probabilità che il gioco termini alla terza estrazione?


ii) Qual è la probabilità che il gioco termini prima della quarta estrazione?
iii) Sapendo che il gioco è terminato prima della quarta estrazione, qual è la probabilità che sia
terminato alla terza estrazione?

Soluzione.

i) Introduciamo gli eventi

A = “il gioco termina alla terza estrazione”,


Bi = “si estrae la pallina bianca all’i-esima estrazione”,
Ri = “si estrae una pallina rossa all’i-esima estrazione”,

per i = 1, 2, 3, 4. Notiamo che


A = R1 ∩ R2 ∩ B3 .
Quindi, utilizzando la formula di moltiplicazione, si ottiene

1 2 1 1
P (A) = P (R1 ∩ R2 ∩ B3 ) = · · = .
2 3 4 12

ii) L’evento
C = “il gioco termina prima della quarta estrazione”
è dato da   
C = R1 ∪ R1 ∩ B2 ∪ R1 ∩ R2 ∩ B3 ).
Quindi
1 1 1 1 3
P (C) = P (R1 ) + P (R1 ∩ B2 ) + P (R1 ∩ R2 ∩ B3 ) = + · + = .
2 2 3 12 4
iii) Per la formula di Bayes
P (A ∩ C) P (A) 1
P (A|C) = = = .
P (C) P (C) 9

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità

γ(X,Y ) (x, y) = (y − x)e−y 1{0≤x≤y} , (x, y) ∈ R2 .

i) Si determinino le densità di X e Y . Che legge hanno?


ii) Le variabili aleatorie X e Y sono indipendenti?
642 APPENDICE B. TEMI D’ESAME RISOLTI

iii) Determinare la densità di Z = X + Y .

Soluzione.
i) Si ha γX (x) = 0 per x < 0, mentre per x ≥ 0 otteniamo
Z +∞
γX (x) = (y − x)e−y dy = e−x .
x

Quindi X ∼ Exp1 . Analogamente, γY (y) = 0 per y < 0, mentre per y ≥ 0 otteniamo


Zy
y2
γY (y) = (y − x)e−y dx = e−y .
0 2
Quindi Y ∼ Gamma3,1 .
ii) No, infatti γ(X,Y ) (x, y) , γX (x)γY (y).
iii) Dato che (X, Y ) è una v.a. assolutamente continua sappiamo che Z è una v.a. assolutamente continua,
inoltre vale la formula
Z +∞ Z +∞
γZ (z) = γ(X,Y ) (x, z − x)dx = (z − 2x)e−z+x 1{0≤x≤z−x} dx.
−∞ −∞

Quindi γZ (z) = 0 per z < 0, mentre per z ≥ 0 vale che


Z z/2 Z z/2 Z z/2
γZ (z) = (z − 2x)e−z+x dx = ze−z ex dx − 2e−z xex dx
0 0 0
  Z z/2
= ze−z ez/2 − 1 − 2e−z [xex ]x=z/2
x=0 + 2e −z
ex dx
0
     
= ze−z ez/2 − 1 − 2e−z ez/2 + 2e−z ez/2 − 1 = ze−z ez/2 − 1 − 2e−z .

3. Data X ∼ N0,1 , poniamo


Y := X1(|X|≤1) − X1(|X|>1) .
Si osservi che X e −X hanno la stessa legge e che 1(|X|>1) = 1(|−X|>1)
i) Determinare la CHF e la legge di Y .
ii) Mostrare che P (X + Y = 0) ∈ ]0, 1[.
iii) X e Y sono congiuntamente Gaussiane? Sono indipendenti? (Si usi il punto precedente)

Soluzione.
i) Si ha
h i h i h i
ϕY (η) = E eiηY = E eiηX 1(|X|≤1) + E e−iηX 1(|X|>1)
h i h i
= E eiηX 1(|X|≤1) + E e−iηX 1(|−X|>1) .

Dato che X e −X hanno la stessa legge, segue che


h i h i
E e−iηX 1{|−X|>1} = E eiηX 1{|X|>1} .

Quindi ϕY (η) = E[eiηX ] = ϕX (η), da cui si deduce che Y ∼ N0,1 .


643

ii) Si ha
X + Y = X + X1(|X|≤1) − X1(|X|>1)
 
= X + X1(|X|≤1) − X 1 − 1(|X|≤1) = 2X1(|X|≤1) .
Quindi
 
P (X + Y = 0) = P 2X1(|X|≤1) = 0 )
Z −1
1 1 2
= P (|X| > 1) = 2P (X < −1) = 2 √ e− 2 x dx ∈]0, 1[.
−∞ 2π
iii) X e Y non sono congiuntamente Gaussiane, altrimenti X + Y dovrebbe avere distribuzione normale,
ma dal punto precedente sappiamo che P (X + Y = 0) > 0 e quindi la distribuzione di X + Y non è
assolutamente continua. Inoltre, P (X + Y = 0) < 1 quindi X + Y non ha distribuzione N0,0 = δ0 .
Infine, X e Y non sono indipendenti, altrimenti sarebbero congiuntamente Gaussiane.

4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con X1 ∼ Exp1 . Sia
Yn = max{X1 , . . . , Xn } − log n, n ∈ N.
i) Si esprima la CDF di Yn in termini della CDF della distribuzione Exp1 che indichiamo con F.
ii) Studiare la convergenza in legge di (Yn )n∈N e si determini la densità della distribuzione limite.

Soluzione.
i) Abbiamo che
FYn (t) = P (Yn ≤ t) = P (max{X1 , . . . , Xn } ≤ t + log n)
= P ((X1 ≤ t + log n) ∩ · · · ∩ (Xn ≤ t + log n))
= (P (X1 ≤ t + log n))n = (F(t + log n))n .
ii) Per ogni t ∈ R, la quantità t + log n è positiva per n sufficientemente grande, quindi
!n
n

−t−log n n
 e−t −t
FYn (t) = (F(t + log n)) = 1 − e = 1− −−−−−−→ e−e =: G(t).
n n→∞

Notiamo che G verifica le proprietà di una CDF. Quindi (Yn )n∈N converge in legge ad una variabile
aleatoria Z avente CDF data da G. La densità della distribuzione limite si ottiene derivando la CDF
−t −t
γZ (t) = G′ (t) = e−e , t ∈ R.

0.3

0.2

0.1

-4 -2 2 4

Figura B.4: Grafico della densità γZ della distribuzione limite


644 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Settembre 2022 –

1. Supponiamo che un’urna contenga una pallina rossa e una pallina bianca. Una pallina è estratta e se
ne guarda il colore. Essa viene poi rimessa nell’urna insieme ad una pallina dello stesso colore.
i) Qual è la probabilità di estrarre una pallina rossa alla seconda estrazione?
ii) Sapendo che la seconda estratta è rossa, è più probabile che la prima pallina estratta sia stata
rossa o bianca?
2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità

γ(X,Y ) (x, y) = ce−x 1D (x, y), (x, y) ∈ R2 ,

dove c > 0 è un’opportuna costante e

D = {(x, y) ∈ R2 | 0 < x < y < x + 1}.

i) Trovare la densità di X e servirsene per calcolare il valore della costante c. Che legge ha X?
i) Determinare la CDF di Z := log X.
i) Calcolare E[eX−Y ].
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con Xn ∼ Unif[0,2] . Poniamo

Yn = min{X1 , . . . , Xn }, n ∈ N.

Poniamo inoltre Y0 = 2. Sia ora (Mn )n∈N una successione di variabili aleatorie, indipendenti tra loro e
indipendenti da (Xn )n∈N , tali che Mn ∼ Poissonn . Poniamo infine

Zn = YMn , n ∈ N,

ossia 


Y0 , se Mn = 0,

Y1 , se Mn = 1,




 ..



Zn = 
.

Yk , se Mn = k,




 ...



i) Determinare la funzione di ripartizione di Y0 e di Yn per n ≥ 1. Nel caso n ≥ 1 si esprima FYn in


termini della funzione di ripartizione della distribuzione Unif[0,2] , che indichiamo con F.
ii) Determinare la funzione di ripartizione di Zn .
iii) Si mostri che (Zn )n∈N converge in legge e si determini il limite.
iv) La successione (Zn )n∈N converge anche in probabilità?
4. Sia D il risultato del lancio di un dado a tre facce, numerate da 1 a 3. Sulla base del risultato si lancino
D monete. Sia T il numero di teste cosı̀ ottenuto.
i) Determinare la legge condizionata µT |Bi di T all’evento Bi := (D = i), per i = 1, 2, 3.
ii) Calcolare E[T |D = i].
645

Probabilità e Statistica Matematica 1


Prof. Andrea Cosso e Andrea Pascucci
– Settembre 2022 –

1. Supponiamo che un’urna contenga una pallina rossa e una pallina bianca. Una pallina è estratta e se
ne guarda il colore. Essa viene poi rimessa nell’urna insieme ad una pallina dello stesso colore.
i) Qual è la probabilità di estrarre una pallina rossa alla seconda estrazione?
ii) Sapendo che la seconda estratta è rossa, è più probabile che la prima pallina estratta sia stata
rossa o bianca?

Soluzione.
i) Introduciamo gli eventi

Ri = “all’i-esima estrazione viene estratta una pallina rossa”,


Bi = “all’i-esima estrazione viene estratta una pallina bianca” = Rci ,

per i = 1, 2. Utilizzando la formula della probabilità totale e la formula di moltiplicazione, si ottiene


1 2 1 1 1
P (R2 ) = P (R1 ∩ R2 ) + P (B1 ∩ R2 ) = · + · = .
2 3 2 3 2
ii) Per la formula di Bayes
2
P (R2 |R1 )P (R1 ) 3 · 12 2
P (R1 |R2 ) = = 1
= ,
P (R2 ) 2
3
1
P (R2 |B1 )P (B1 ) 3 · 12 1
P (B1 |R2 ) = = 1
= .
P (R2 ) 2
3

Quindi è più probabile che la prima pallina estratta sia stata rossa.

2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità

γ(X,Y ) (x, y) = ce−x 1D (x, y), (x, y) ∈ R2 ,

dove c > 0 è un’opportuna costante e

D = {(x, y) ∈ R2 | 0 < x < y < x + 1}.

i) Trovare la densità di X e servirsene per calcolare il valore della costante c. Che legge ha X?
i) Determinare la CDF di Z := log X.
i) Calcolare E[eX−Y ].

Soluzione.
i) Si ha Z
γX (x) = γ(X,Y ) (x, y)dy = ce−x 1]0,+∞[ (x),
R
da cui c = 1 e X ∼ Exp1 .
646 APPENDICE B. TEMI D’ESAME RISOLTI

ii) Si ha
z
FZ (z) = P (log X ≤ z) = P (X ≤ ez ) = FX (ez ) = 1 − e−e , z ∈ R.

iii)
i Z Z Z +∞ Z x+1 !
h
X−Y x−y −y 1
E e = e γ(X,Y ) (x, y)dxdy = e dy dx = 1 − .
R R 0 x e

3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con Xn ∼ Unif[0,2] . Poniamo

Yn = min{X1 , . . . , Xn }, n ∈ N.

Poniamo inoltre Y0 = 2. Sia ora (Mn )n∈N una successione di variabili aleatorie, indipendenti tra loro e
indipendenti da (Xn )n∈N , tali che Mn ∼ Poissonn . Poniamo infine

Zn = YMn , n ∈ N,

ossia 


Y0 , se Mn = 0,

Y1 , se Mn = 1,




 ..



Zn = 
 .

Y k, se Mn = k,




.


 ..

i) Determinare la funzione di ripartizione di Y0 e di Yn per n ≥ 1. Nel caso n ≥ 1 si esprima FYn in


termini della funzione di ripartizione della distribuzione Unif[0,2] , che indichiamo con F.
ii) Determinare la funzione di ripartizione di Zn .
iii) Si mostri che (Zn )n∈N converge in legge e si determini il limite.
iv) La successione (Zn )n∈N converge anche in probabilità?

Soluzione.

i) Si ha che 
0, y < 2,


FY0 (y) = 
1, y ≥ 2.

Per n ≥ 1 abbiamo che

FYn (y) = P (Yn ≤ y) = P (min{X1 , . . . , Xn } ≤ y) = 1 − P (min{X1 , . . . , Xn } > y)


= 1 − P ((X1 > y) ∩ · · · ∩ (Xn > y)) = 1 − (P (X1 > y))n = 1 − (1 − F(y))n .

Quindi


0, y ≤ 0,

 !n

 1
FYn (y) = 1− 1− y , 0 < y < 2,




 2
1, y ≥ 2.


647

ii) FZn (z) = 0 per z ≤ 0 e FZn (z) = 1 per z ≥ 2, mentre per 0 < z < 2 si ha che (usando l’indentità
+∞
P −λ λk
e k! = 1, valida per ogni λ > 0)
k=0

+∞
X +∞
X
FZn (z) = P (Z ≤ z) = P ((Z ≤ z) ∩ (Mn = k)) = P ((Yk ≤ z) ∩ (Mn = k))
k=0 k=0
+∞ +∞ 
X X  nk
= P (Yk ≤ z)P (Mn = k) = 1 − (1 − F(z))k e−n
k!
k=0 k=0
+∞ +∞
X nk X nk
= e−n − e−n (1 − F(z))k
k! k!
k=0 k=0
+∞
X (n(1 − F(z)))k
= 1 − e−n en(1−F(z)) e−n(1−F(z))
k!
k=0
−n n(1−F(z))
= 1−e e = 1 − e−nF(z) .

Quindi 


 0, z ≤ 0,
− 21 nz

FZn (z) =  1 − e , 0 < z < 2,



1,

z ≥ 2.

iii) Si ha che 
0, z ≤ 0,


lim FZn (z) = G(z) := 
n→+∞ 1
 z > 0.
Sia Fδ0 la CDF della distribuzione δ0 . Allora G coincide con Fδ0 ovunque tranne in 0, che è un punto
di discontinuità per Fδ0 . Di conseguenza Zn → 0 in legge.
iv) Dato che (Zn )n∈N converge in legge ad una costante (la costante zero), la convergenza ha luogo anche
in probabilità.

4. Sia D il risultato del lancio di un dado a tre facce, numerate da 1 a 3. Sulla base del risultato si lancino
D monete. Sia T il numero di teste cosı̀ ottenuto.
i) Determinare la legge condizionata µT |Bi di T all’evento Bi := (D = i), per i = 1, 2, 3.
ii) Calcolare E[T |D = i].

Soluzione.
i) Si ha che µT |Bi = Bini, 1 , per i = 1, 2, 3. In altri termini, vale µT |D = BinD, 1 .
2 2

ii) Dato che µT |Bi = Bini, 1 , si ottiene E[T |D = i] = 2i . In altri termini, vale E[T |D] = D
2.
2
648 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Pascucci
– Dicembre 2022 –

1. Un’urna contiene 4 palline bianche e una rossa.


i) Si effettuano 6 estrazioni con reinserimento di una pallina: determinare la probabilità di estrarre
la pallina rossa almeno una volta.
ii) Si lancia un dado a sei facce e si effettuano un numero di estrazioni con reinserimento pari al
risultato del lancio: determinare la probabilità di estrarre la pallina rossa almeno una volta.
iii) Determinare la probabilità di estrarre la pallina rossa in 3 estrazioni senza reinserimento.

2. Sia V := (Xϱ , Yϱ , Z) un vettore aleatorio con distribuzione multinormale con media nulla e matrice di
covarianza  
1 ϱ 0
C = ϱ 1 0
 
0 0 1
 

dove ϱ ∈ [−1, 1] è un parametro.


i) Determinare i valori di ϱ per cui Wϱ := (Xϱ − Yϱ , Xϱ + Yϱ ) è assolutamente continua;
ii) determinare i valori di ϱ per cui Xϱ − Yϱ e Xϱ + Yϱ sono indipendenti;
iii) determinare il limite debole
lim (Xϱ − Yϱ )
ϱ→1−

e se c’è anche convergenza in L2 ;


iv) provare che √
lim (Xϱ + Yϱ ) = 2Z
ϱ→0

in senso debole e stabilire se c’è anche convergenza in L2 .

3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su

T = {(x, y) ∈ R2 | |x| ≤ y, y ∈ [0, 1]}.

Si determini:
i) la densità condizionata γX|Y ;
h i
ii) la CHF condizionata ϕX|Y (η) = E eiηX | Y , η ∈ R;
iii) la CHF ϕX della variabile aleatoria X.

4. Dare un esempio di due funzioni Borel misurabili f , g e di due variabili aleatorie X, Y tali che f = g
quasi ovunque, P (X = Y ) = 1 ma E [f (X)] , E [g(Y )].
649

Probabilità e Statistica Matematica 1


Prof. Andrea Pascucci
– Dicembre 2022 –

1. Un’urna contiene 4 palline bianche e una rossa.

i) Si effettuano 6 estrazioni con reinserimento di una pallina: determinare la probabilità di estrarre


la pallina rossa almeno una volta.
ii) Si lancia un dado a sei facce e si effettuano un numero di estrazioni con reinserimento pari al
risultato del lancio: determinare la probabilità di estrarre la pallina rossa almeno una volta.
iii) Determinare la probabilità di estrarre la pallina rossa in 3 estrazioni senza reinserimento.

Soluzione.

i) La probabilità è
46
1 − Bin6, 1 ({0}) = 1 − ≈ 74%.
5 56
ii) Per la formula della probabilità totale, la probabilità cercata è

6 6
4k
!
1 X  1X
1 − Bink, 1 ({0}) = 1 − k ≈ 51%.
6 5 6 5
k=1 k=1

iii) Se Bn indica l’evento “estraggo una pallina bianca all’n-esima estrazione”, per la formula di moltipli-
cazione, la probabilità cercata è

4 3 2 3
1 − P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) = 1 − · · = .
5 4 3 5

2. Sia V := (Xϱ , Yϱ , Z) un vettore aleatorio con distribuzione multinormale con media nulla e matrice di
covarianza  
1 ϱ 0
C = ϱ 1 0
 
0 0 1
 

dove ϱ ∈ [−1, 1] è un parametro.

i) Determinare i valori di ϱ per cui Wϱ := (Xϱ − Yϱ , Xϱ + Yϱ ) è assolutamente continua;


ii) determinare i valori di ϱ per cui Xϱ − Yϱ e Xϱ + Yϱ sono indipendenti;
iii) determinare il limite debole
lim (Xϱ − Yϱ )
ϱ→1−

e se c’è anche convergenza in L2 ;


iv) provare che

lim (Xϱ + Yϱ ) = 2Z
ϱ→0

in senso debole e stabilire se c’è anche convergenza in L2 .


650 APPENDICE B. TEMI D’ESAME RISOLTI

Soluzione. Premettiamo che Wϱ = AV dove


!
1 −1 0
A=
1 1 0

e quindi per la Proposizione 3.5.15, W ∈ N0,ACA∗ dove


!
2(1 − ϱ)
∗ 0
ACA = .
0 2(1 + ϱ)

Di conseguenza:
i) Wϱ è assolutamente continua se e solo se ACA∗ è non-degenere ossia per −1 < ϱ < 1;
ii) Xϱ −Yϱ e Xϱ +Yϱ sono indipendenti per ogni ϱ ∈ [−1, 1] perché sono variabili scorrelate con distribuzione
congiunta normale;
iii) Xϱ − Yϱ ∼ N0,2(1−ϱ) e
lim N0,2(1−ϱ) = δ0 .
ϱ→1−

Inoltre
∥Xϱ − Yϱ ∥2L2 = var(Xϱ − Yϱ ) = 2(1 − ϱ)
e quindi c’è anche convergenza in L2 alla variabile nulla;

iv) Xϱ + Yϱ ∼ N0,2(1+ϱ) , 2Z ∼ N0,2 e
lim N0,2(1+ϱ) = N0,2
ϱ→0

quindi c’è convergenza in senso debole. Tuttavia


h i
E |(Xϱ + Yϱ ) − Z|2 = var(Xϱ + Yϱ ) + var(Z) − 2cov(Xϱ + Yϱ , Z) = 2(1 + ϱ) + 2

poiché cov(Xϱ + Yϱ , Z) = 0. Quindi non si ha convergenza in L2 .


3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su

T = {(x, y) ∈ R2 | |x| ≤ y, y ∈ [0, 1]}.

Si determini:
i) la densità condizionata γX|Y ;
h i
ii) la CHF condizionata ϕX|Y (η) = E eiηX | Y , η ∈ R;
iii) la CHF ϕX della variabile aleatoria X.

Soluzione.
i) La densità congiunta è γ(X,Y ) = 1T e la marginale di Y è
Z
γY (y) = γ(X,Y ) (x, y)dx = 2y1]0,1[ (y). (B.0.3)
R

Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = = 1 (x), y ∈ ]0, 1[,
γY (y) 2y [−y,y]
da cui riconosciamo che µX|Y = Unif[−Y ,Y ] .
651

ii) Trattandosi della CHF di una v.a. con distribuzione uniforme, si ha


ZY
h
iηX
i 1 sin(ηY )
ϕX|Y (η) = E e |Y = eiηx dx = .
2Y −Y ηY

iii) Si ha
" #
h h ii sin(ηY )
ϕX (η) = E E eiηX | Y = E =
ηY

(per la (B.0.3))
Z 1
sin(ηy) 2 − 2 cos η
= 2ydy = .
0 ηy η2

4. Dare un esempio di due funzioni Borel misurabili f , g e di due variabili aleatorie X, Y tali che f = g
quasi ovunque, P (X = Y ) = 1 ma E [f (X)] , E [g(Y )].

Soluzione. Per esempio X = Y ≡ 0, f ≡ 0 e g funzione nulla tranne in 0, con g(0) = 1.


652 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Pascucci
– Gennaio 2023 –

1. In (Ω, F , P ) consideriamo due eventi A, B con P (A) = 1. A e B sono indipendenti in P ?

2. Un’urna contiene 5 palline numerate.


i) Si indicano con X1 e X2 i risultati di due estrazioni successive con reinserimento. Calcolare la
probabilità dell’evento A = (X1 ≤ X2 ).
ii) Si indicano con Y1 e Y2 i risultati di due estrazioni successive senza reinserimento. Calcolare la
probabilità dell’evento B = (Y1 ≤ Y2 ).
iii) Ora si considerino due urne che contengono ognuna 5 palline numerate. Si sceglie a caso una
delle due urne, si estrae una pallina il cui valore è indicato con Z1 e la si mette da parte. Si
sceglie nuovamente a caso una delle due urne e si estrae una pallina il cui valore è indicato con
Z2 . Calcolare la probabilità dell’evento C = (Z1 ≤ Z2 ).
iv) Si determini la legge della variabile aleatoria S := X1 − X2 .

3. i) Determinare l’intervallo di valori del parametro y ∈ R per cui la funzione

1
γ(x) = (2yx − y + 2) 1[0,1] (x)
2
è una densità.
ii) Si consideri poi un vettore aleatorio (X, Y ) con densità

1
γ(X,Y ) (x, y) = (2yx − y + 2) 1[0,1] (x)1[−1,0] (y).
2
Le variabili X e Y sono indipendenti?

iii) Si determini una densità di Z := 1 + Y .

4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità

2n2 x
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3

i) Determinare la funzione di ripartizione FXn di Xn ;


ii) la successione (Xn )n∈N converge in legge? Se sı̀, qual è la legge della variabile aleatoria limite?
iii) la successione (Xn )n∈N converge in probabilità?
iv) studiare la convergenza di (Xn )n∈N in Lp , per p ≥ 1.
653

Probabilità e Statistica Matematica 1


Prof. Andrea Pascucci
– Gennaio 2023 –

1. In (Ω, F , P ) consideriamo due eventi A, B con P (A) = 1. A e B sono indipendenti in P ?

Soluzione. Poiché P (B ∩ Ac ) = P (Ac ) = 0, si ha

P (B) = P (B ∩ A) + P (B ∩ Ac ) = P (B ∩ A)

da cui segue che A, B sono indipendenti in P .


2. Un’urna contiene 5 palline numerate.
i) Si indicano con X1 e X2 i risultati di due estrazioni successive con reinserimento. Calcolare la
probabilità dell’evento A = (X1 ≤ X2 ).
ii) Si indicano con Y1 e Y2 i risultati di due estrazioni successive senza reinserimento. Calcolare la
probabilità dell’evento B = (Y1 ≤ Y2 ).
iii) Ora si considerino due urne che contengono ognuna 5 palline numerate. Si sceglie a caso una
delle due urne, si estrae una pallina il cui valore è indicato con Z1 e la si mette da parte. Si
sceglie nuovamente a caso una delle due urne e si estrae una pallina il cui valore è indicato con
Z2 . Calcolare la probabilità dell’evento C = (Z1 ≤ Z2 ).
iv) Si determini la legge della variabile aleatoria S := X1 − X2 .

Soluzione.
i) Si ha
5 5
X 1 X 5 − (k − 1) 3
P (A) = P (A | X1 = k)P (X1 = k) = = .
5 5 5
k=1 k=1

ii) Si ha
5 5
X 1 X 5−k 1
P (B) = P (B | X1 = k)P (X1 = k) = = .
5 4 2
k=1 k=1

iii) Sia U l’evento “entrambe le palline sono estratte dalla stessa urna”. In base ai punti precedenti, si ha
1 3 1 11
 
P (C) = P (C | U )P (U ) + P (C | U c )P (U c ) = + = .
2 5 2 20

iv) X1 ∼ Unif{1,2,3,4,5} , −X2 ∼ Unif{−1,−2,−3,−4,−5} e sono indipendenti. La legge di S si può allora calcolare
con la formula (3.6.3). In alternativa, si possono calcolare direttamente le singole probabilità P (S = k),
con −4 ≤ k ≤ 4: 1
 25 per k = ±4,


2

per k = ±3,


 25
5 − |k| 3

P (S = k) = = 25 per k = ±2,
25 
 4
 25 per k = ±1,




5

per k = 0.
25
654 APPENDICE B. TEMI D’ESAME RISOLTI

3. i) Determinare l’intervallo di valori del parametro y ∈ R per cui la funzione

1
γ(x) = (2yx − y + 2) 1[0,1] (x)
2
è una densità.
ii) Si consideri poi un vettore aleatorio (X, Y ) con densità

1
γ(X,Y ) (x, y) = (2yx − y + 2) 1[0,1] (x)1[−1,0] (y).
2
Le variabili X e Y sono indipendenti?

iii) Si determini una densità di Z := 1 + Y .

Soluzione.

i) La funzione γ ha integrale 1 per ogni y ∈ R: per essere una densità è necessario anche che γ ≥ 0 e ciò è
vero quando γ(0) ≥ 0 e γ(1) ≥ 0 ossia per y ∈ [−2, 2].
ii) Calcoliamo le densità marginali
Z 0
5 − 2x
γX (x) = γ(X,Y ) (x, y)dy = 1[0,1] (x),
−1 4
Z 1
γY (y) = γ(X,Y ) (x, y)dx = 1[−1,0] (y).
0

Poiché la densità congiunta non è il prodotto delle marginali, le variabili non sono indipendenti.
iii) Per z ∈ [0, 1], si ha

FZ (z) = P ( 1 + Y ≤ z) = P (Y ≤ z2 − 1) = z2 .

Inoltre, FZ (z) = 0 per z ≤ 0 e FZ (z) = 1 per z ≥ 1. Ne segue che γZ (z) = 2z1[0,1] (z) è una densità di Z.

4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità

2n2 x
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3

i) Determinare la funzione di ripartizione FXn di Xn ;


ii) la successione (Xn )n∈N converge in legge? Se sı̀, qual è la legge della variabile aleatoria limite?
iii) la successione (Xn )n∈N converge in probabilità?
iv) studiare la convergenza di (Xn )n∈N in Lp , per p ≥ 1.

Soluzione.

i) Si ha

0, x < 0,


FXn (x) = 
 x
R 2n2 y n2 x 2

0 (ny+1)3
dy = (nx+1)2
, x ≥ 0.
655

ii) Studiamo la convergenza puntuale delle funzioni di ripartizioni:



0, x ≤ 0,


lim FXn (x) = 
n→∞ 1,
 x > 0.

Quindi la successione di funzioni (FXn )n∈N converge puntualmente ovunque, tranne in x = 0, alla
funzione di ripartizione della variabile aleatoria nulla, ossia

0, x < 0,


F(x) = 
1,
 x ≥ 0.

Per il Teorema 4.3.3, (Xn )n∈N converge in legge alla variabile aleatoria nulla.
iii) Il limite in probabilità, se esiste, deve essere zero, per quanto visto al punto precedente. Per ogni ε > 0
si ha Z +∞
2nx 1 + 2nε
P (|Xn | ≥ ε) = 3
dx = −−−−−−→ 0
ε (nx + 1) (nx + 1)2 n→∞
e quindi si ha convergenza in probabilità.
iv) Si ha
+∞
2nx1+p
Z
p
E[|Xn |p ] = E[Xn ] = dx = +∞
0 (nx + 1)3
per ogni p ≥ 1. Quindi Xn < Lp (Ω, P ) e non si ha convergenza in Lp .
656 APPENDICE B. TEMI D’ESAME RISOLTI

Probabilità e Statistica Matematica 1


Prof. Andrea Pascucci
– Febbraio 2023 –

1. Si effettuano una serie di estrazioni, senza reinserimento, da un’urna che contiene 1 pallina rossa, 5
palline nere e 10 palline bianche. Si determini:
i) la probabilità che le prime due palline estratte abbiano lo stesso colore;
ii) la funzione di distribuzione della variabile aleatoria X che indica il numero della prima estra-
zione di una pallina bianca.

2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
 0  1 0 1 
µ =  0  , C = 0 1 −1 .
   
−1 1 −1 2
   

Si determini:
i) la legge di (X1 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) per quale valore di a ∈ R le variabili aX1 − X2 e X3 sono indipendenti.

3. Sia (Xn )n∈N una successione di v.a. indipendenti con distribuzione

Xn ∼ Unif[−n,n] , n ∈ N.
Xn
i) Si calcoli la legge della variabile aleatoria Yn := n e si studi la convergenza debole della succes-
sione (Yn ) per n → +∞.
ii) Si provi che Yn non converge in L2 (Ω, P ), usando il fatto che
Z nZ m
x y 2 4(n4 + m4 )

− dydx = , n, m ∈ N.
−n −m n m 3nm

4. Sia data la funzione


c
γ(x) = 1[1,+∞[ (x), x ∈ R.
x2
i) Determinare c ∈ R tale che la funzione γ sia una densità. Per tale valore, si consideri X con
densità γ e si determini la media di X.
ii) Giustificare il fatto che Y := √1 è una variabile aleatoria ben definita quasi certamente.
X
iii) Determinare la legge di Y .
iv) X e Y sono indipendenti?
657

Probabilità e Statistica Matematica 1


Prof. Andrea Pascucci
– Febbraio 2023 –

1. Si effettuano una serie di estrazioni, senza reinserimento, da un’urna che contiene 1 pallina rossa, 5
palline nere e 10 palline bianche. Si determini:

i) la probabilità che le prime due palline estratte abbiano lo stesso colore;


ii) la funzione di distribuzione della variabile aleatoria X che indica il numero della prima estra-
zione di una pallina bianca.

Soluzione.

i) Sia Bi =“l’i-esima pallina estratta è bianca” e Ni definito in modo analogo per le palline nere. Si ha

5 4 1
P (N1 ∩ N2 ) = P (N1 )P (N2 | N1 ) = · = ,
16 15 12
10 9 3
P (B1 ∩ B2 ) = P (B1 )P (B2 | B1 ) = · = .
16 15 8
1
Da cui la probabilità cercata è 12 + 38 = 11
24 .
10
ii) X assume valori naturali minori o uguali a 7. In particolare P (X = 1) = P (B1 ) = 16 e, per 2 ≤ k ≤ 6,

6 5 6 − (k − 2) 10
P (X = k) = P (Bc1 ∩ Bc2 ∩ · · · ∩ Bck−1 ∩ Bk ) = · ··· · .
16 15 16 − (k − 2) 16 − (k − 1)

2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con


   
 0  1 0 1 
µ =  0  , C = 0 1 −1 .
   
−1 1 −1 2
   

Si determini:

i) la legge di (X1 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) per quale valore di a ∈ R le variabili aX1 − X2 e X3 sono indipendenti.

Soluzione.

i) Si ha (X2 , X3 ) ∼ Nµ̄,C̄ con


! !
0 1 1
µ̄ = , C̄ = .
−1 1 2

ii) Si ha
1
ϕX (η) = e−iη3 − 2 ⟨Cη,η⟩ .
La matrice C è degenere (det C = 0) e quindi X non ha densità.
658 APPENDICE B. TEMI D’ESAME RISOLTI

iii) Vale !
a −1 0
(aX1 − X2 , X3 ) = AX, A=
0 0 1
!
1 + a2 1+a
e quindi (aX1 − X2 , X3 ) ∼ N0,ACA∗ = N0,Ĉ con Ĉ = . Allora le variabili aX1 − X2 e X3
1+a 2
sono indipendenti se e solo se a = −1.

3. Sia (Xn )n∈N una successione di v.a. indipendenti con distribuzione

Xn ∼ Unif[−n,n] , n ∈ N.

Xn
i) Si calcoli la legge della variabile aleatoria Yn := n e si studi la convergenza debole della succes-
sione (Yn ) per n → +∞.
ii) Si provi che Yn non converge in L2 (Ω, P ), usando il fatto che
n m
4(n4 + m4 )
Z Z 2
x y

− dydx = , n, m ∈ N.
−n −m n m 3nm

Soluzione.

i) Si ha

Z n

 0 se z ≤ −1,
1 
 z+1

P (Yn ≤ z) = 1]−∞,nz] (x)dx =  2 se − 1 < z < 1
2n −n 

1 se z ≥ 1.

Allora Yn ∼ Unif[−1,1] e, ed essendo costante in legge, converge debolmente.


ii) Verifichiamo che (Yn ) non è una successione di Cauchy in L2 (Ω, P ): per l’ipotesi di indipendenza, si ha
n m
(n4 + m4 )
Z Z 2
1 x y
h i 
E (Yn − Ym )2 = − dydx =
4mn −n −m n m 3n2 m2

che non tende a zero per n, m → +∞.

4. Sia data la funzione


c
γ(x) = 1[1,+∞[ (x), x ∈ R.
x2
i) Determinare c ∈ R tale che la funzione γ sia una densità. Per tale valore, si consideri X con
densità γ e si determini la media di X.
ii) Giustificare il fatto che Y := √1 è una variabile aleatoria ben definita quasi certamente.
X
iii) Determinare la legge di Y .
iv) X e Y sono indipendenti?

Soluzione.
659

i) Per c = 1, poiché γ è misurabile, non-negativa e


Z
γ(x)dx = c.
R

Si ha Z +∞
1
E [X] = dx = +∞.
1 x
ii) Y è una variabile aleatoria ben definita q.c. poiché X ≥ 1 q.c. e Y è funzione Borel-misurabile di X.
iii) Y assume valori in [0, 1] q.c. quindi la CDF vale ϕY (y) = 0 per y < 0 e ϕY (y) = 1 per y > 1. Inoltre
per y ∈ [0, 1] si ha Z +∞
1
P (Y ≤ y) = P (X ≥ y −2 ) = 2
dx = y 2 .
1
2
x
y

Derivando, la CDF si deduce che γY (y) = 2y1[0,1](y) è una densità per Y .


iv) X e Y non sono indipendenti perché, per esempio, essendo (X ≤ 4) = (Y ≥ 1/2) si ha

P ((X ≤ 4) ∩ (Y ≥ 1/2)) = P (X ≤ 4) > P (X ≤ 4)P (Y ≥ 1/2).


660 APPENDICE B. TEMI D’ESAME RISOLTI
Appendice C

Tavole riassuntive delle principali


distribuzioni

Nome Simbolo Funzione di distribuzione µ̄(k) Attesa Varianza Funzione caratteristica Proprietà: vedi pag.

Delta di Dirac δx0 1{x0 } (k) x0 0 eix0 η 61, 67, 113



p
 se k = 1  
1 + p eiη − 1

Bernoulli Bep p p(1 − p) 63, 95, 113, 159
1 − p se k = 0

1 n+1 n2 −1 eiη (einη −1)


Uniforme Unifn n 1In (k) 2 12 63
n(eiη −1)

  n
n k n−k ,
Binomiale Binn,p k p (1 − p) 0≤k≤n np np(1 − p) 1 + p eiη − 1 40, 63, 96

iη −1
e−λ λk
Poisson Poissonλ k! , k ∈ N0 λ λ eλ(e ) 63, 97, 113, 118

1 1−p p
Geometrica Geomp p(1 − p)k−1 , k ∈ N p p2
98, 100
e−iη −1+p

(kb)(Nn−k
−b
) bn bn(N −b)(N −n)
Ipergeometrica Ipern,b,N N , 0 ≤ k ≤ n∧b N N 2 (N −1)
vedi file Mathematica 40, 100
(n)

661
662 APPENDICE C. TAVOLE RIASSUNTIVE DELLE PRINCIPALI DISTRIBUZIONI

Nome Simbolo Densità: γ(x) = Attesa Varianza Funzione caratteristica Pro

1 a+b (b−a)2 eibη −eiaη


Uniforme su [a, b] Unif[a,b] b−a 1[a,b] (x) 2 12 iη(b−a)
65,

1 1 λ
Esponenziale Expλ λe−λx 1R≥0 λ λ2 λ−iη 65,

1 x−µ 2 σ 2 η2
Normale reale Nµ,σ 2 √ 1 e− 2 ( σ ) µ σ2 eiµη− 2 65,
2πσ 2

λα e−λx λ α
 
α α
Gamma Gammaα,λ 1
Γ (α)x1−α R>0
(x) λ λ2 λ−iη 103

−x n
Chi-quadro a n gradi χ2 (n) = Gamma n , 1 n
1 e 2
1− n
1R>0 (x) n 2n (1 − 2iη)− 2 161
2 2 2 2 Γ n2
( ) x 2
Indice analitico

Bd , 60 cambio di drift, 398


F∞ , 304 campo vettoriale, 437
Fτ , 312 Cantor, 72
G X , 234 CDF, 67
N , 26 condizionata, 142
σ -algebra, 22 congiunta, 127
completamento, 232 del massimo, 162
di Borel, 60 di v.a., 94
generata marginale, 127
da insiemi, 59 Chapman-Kolmogorov, 252
da una v.a., 90 CHF, 145
bC, 115, 166 congiunta, 151
bF , 90 marginale, 151
mF , 90 Cholesky, 125
mF + , 90 cilindro finito-dimensionale, 226
coefficiente
algebra, 27 di correlazione, 124
ampliamento standard, 306 combinazioni, 36
arg max, 17 commutatore, 437
arg min, 17 completamento, 59
assenza di memoria, 98, 100 Condizione
assoluta continuità
di Novikov, 402
dell’integrale, 112
continuità in media, 354
assolutamente continua
convergenza
distribuzione, 65
debole, 166
funzione, 71, 505
di distribuzioni, 166
attesa, 106
in Lp , 165
condizionata, 141, 190, 196, 198
in probabilità, 165
funzione, 194, 205
puntuale, 165
Bayes, 204 q.c., 92
Bernstein, 175 convoluzione, 158
Berry-Esseen, 187 correlazione, 124
Black&Scholes, 399 campionaria, 127
Blumenthal, 307 covarianza, 123
Borel-Cantelli, 54 campionaria, 127
Brownian bridge, 439 criterio di Sylvester, 128
Burkholder-Davis-Gundy, 376
decomposizione di Cholesky, 125
càdlàg, 271 delta

663
664 INDICE ANALITICO

di Kronecker, 386 di Burkholder-Davis-Gundy, 376


delta di Dirac, 61 di Cauchy-Schwarz, 122, 124
densità di Chebyschev, 167
condizionata, 142, 213 di Hölder, 122
congiunta, 127 di Jensen, 119
di transizione, 245 condizionata, 200
marginale, 127 di Markov, 167
trasformazione lineare di, 101 di Minkowski, 123
derivata di Radon-Nikodym, 500 massimale di Doob, 299, 300, 323
deviazione standard, 117 triangolare, 111
diadici, 284 Doob, 130
differenza simmetrica, 59 drift
diffusione, 282 cambio di, 398
disposizioni
con ripetizione, 35 equazione
semplici, 35 di Chapman-Kolmogorov, 252
distribuzione, 58 erf, 69
χ2 , 104 esito, 23
χ2 (n), 161 esperimento aleatorio, 22
assolutamente continua, 65 esponente caratteristico, 269, 309
binomiale, 40, 63, 96 evento, 23
approssimazione, 183, 187
chi-quadro, 104, 161 famiglia
condizionata, 141, 190 ∩-chiusa, 22
funzione, 194, 212 ∪-chiusa, 22
versione regolare, 209 σ -∩-chiusa, 22
congiunta, 127 σ -∪-chiusa, 22
del massimo, 162 di prove ripetute e indipendenti, 55
delta di Dirac, 61, 182 monotona
di Bernoulli, 63 di funzioni, 499
di Cauchy, 146 di insiemi, 497
di Poisson, 64, 97, 183 Feller, 245
di transizione, 243 fenomeno aleatorio, 22
omogenea, 244 filtrazione, 234
di un processo stocastico, 227 G X , 234
discreta, 62 generata, 234
esponenziale, 66, 182 standard, 306
Gamma, 102, 103, 161 Formula
geometrica, 64, 98, 182 di Bayes, 204
ipergeometrica, 40, 100 formula
log-normale, 106 binomiale, 39
marginale, 127 della probabilità totale, 47, 191, 200, 210,
normale, 66, 101, 182 214
bidimensionale, 129, 139 di Bayes, 50, 217
multidimensionale, 152 di Black&Scholes, 399
standard, 66 di moltiplicazione, 49
uniforme di Newton, 39
discreta, 63 Fourier, 145
multidimensionale, 66, 101 freezing, 201, 202
distribuzioni finito-dimensionali, 227 funzione
Disuguaglianza a variazione limitata, 506
INDICE ANALITICO 665

assolutamente continua, 71, 505 del logaritmo iterato, 290


càdlàg, 271 di transizione, 243
caratteristica, 145 di Poisson, 245
di distribuzione, 63 Gaussiana, 245
condizionata, 194 omogenea, 244
congiunta, 127 di un processo continuo, 279
marginale, 127 di un processo stocastico, 227
di ripartizione, 67, 74 legge 0-1 di Blumenthal, 307
congiunta, 127 legge debole
marginale, 127 dei grandi numeri, 172
di Vitali, 72 legge forte
errore (erf), 69 dei grandi numeri, 172
Gamma di Eulero, 102 Lemma
indicatrice, 17 di Borel-Cantelli, 54
integrabile, 111 di Fatou, 110
semplice, 107 condizionato, 200
sommabile, 111 di freezing, 201, 202
LSMC, 205
Gamma di Eulero, 102
Girsanov, 403 Markov, 243
grafico di dispersione, 126 martingala, 234
Browniana, 292
Hörmander, 438 discreta, 235
Hilbert-Schmidt, 389 esponenziale, 292, 373
quadratica, 292
i.i.d., 171
sub-, 236
incrementi indipendenti, 249
super-, 236
indipendenza
matrice
di eventi, 50
definita positiva, 128
di v.a., 129
di correlazione, 125
insieme
di covarianza, 125
di Cantor, 72
semi-definita positiva, 125
quasi certo, 26
media, 113, 115
trascurabile, 26
aritmetica
integrale astratto, 109, 111
normalizzata, 185
intensità, 192, 269
campionaria, 126
stocastica, 192, 272
media aritmetica, 172, 184
intervallo di confidenza, 187
memoria, 98, 100
isometria di Itô, 343
metodo Monte Carlo, 174, 186
Itô
minimi quadrati, 205
isometria, 343
Misura
Jensen, 119, 200 armonica, 426
misura, 23, 27
Kolmogorov, 231, 240 σ -finita, 23
Kronecker, 386 di probabilità, 23
di Wiener, 291
Lévy, 180, 308, 393 esterna, 81
legge, 94 finita, 23
condizionata, 190 prodotto, 133
versione regolare, 209 modello binomiale, 160
dei grandi numeri, 184 modificazione, 230
666 INDICE ANALITICO

momento, 156 uniformemente integrabile, 508


Monte Carlo, 174 versione canonica, 232, 234, 280
Least Square, 205 processo stocastico, 226, 508
moto Browniano, 254, 287 discreto, 226
con drift, 340 misurabile, 229
correlato, 394 prodotto scalare, 17
progressivamente misurabile, 311
norma di Hilbert-Schmidt, 389 proprietà
Novikov, 402 della torre, 200
Nucleo di Poisson, 426 di assenza di memoria, 98
di Feller, 245
operatore
forte, 254
di Laplace, 260
di Markov, 247, 290
optional sampling, 299, 324, 331
estesa, 248
Ornstein-Uhlenbeck, 440
forte, 313
parte positiva, 17 di martingala, 235
partizione, 333 di semigruppo, 254
partizione diadica, 321 proprietà quasi certa, 93
permutazioni, 36 prove ripetute e indipendenti, 55
Poisson, 245, 268
q.c., 18, 93
polinomi di Bernstein, 175
q.o., 18
pre-misura, 80
quasi certamente, 93
principio del massimo, 472
probabilità, 23 Radon-Nikodym, 500
condizionata, 46, 190 razionali diadici, 321
funzione, 194 regressione, 124
versione regolare, 208 retta di regressione, 124, 126
uniforme, 25 roulette, 173
procedura standard, 115
processi semianello, 80
indistinguibili, 230 semigruppo, 254
uguali in legge, 230 simbolo di Kronecker, 386
processo Skorokhod, 280
a incrementi indipendenti, 249 soluzione fondamentale, 261
adattato, 234 somma di variabili aleatorie, 158
continuo, 277 spazio
legge, 279 campionario, 23
versione canonica, 280 delle traiettorie, 225, 226
di Feller, 245 di probabilità, 23
di Lévy, 308 completo, 26, 93, 230
di Markov, 243 discreto, 23
di Poisson, 254, 267, 268, 271 di Skorokhod, 280
a intensità stocastica, 272 di Wiener, 291
compensato, 272 misurabile, 22
composto, 269 polacco, 208, 278
Gaussiano, 228, 233 strategia del raddoppio, 173
martingala, 234 sub-martingala, 236
moto Browniano, 287 super-martingala, 236
predicibile, 236 Sylvester, 128
progressivamente misurabile, 311
stocastico, 225, 227 tempo
INDICE ANALITICO 667

tightness, 179
d’uscita, 303 traiettoria, 227
tempo d’arresto trasformata di Fourier, 145
discreto, 295
Teorema uguaglianza
centrale del limite, 185 in legge, 95
del calcolo della media, 116, 191, 209 q.c., 93
della convergenza dominata, 112 uniforme integrabilità, 508
condizionato, 200
di Beppo-Levi, 109 v.a., 18, 90
condizionato, 200 assolutamente continua, 94
di Berry-Esseen, 187 valore atteso, 113, 115
di Carathéodory, 70, 80 variabile aleatoria, 90
di continuità di Kolmogorov, 280, 281 assolutamente continua, 94
di continuità di Lévy, 180 varianza, 117, 123
di convergenza di Vitali, 508 campionaria, 126
di Courrège, 257 variazione
di decomposizione di Doob, 237 prima, 333
di Doob, 130 Vasicek, 439
di estensione di Kolmogorov, 231, 232, 240 versione canonica
di Fubini, 133 di un processo continuo, 280
di Girsanov, 403 di un processo di Markov, 249
di Helly, 179 di un processo stocastico, 232
di inversione, 149 versione regolare della distribuzione
di Lévy, 393 condizionata, 209
di optional sampling, 299, 324, 331 Vitali, 30, 508
di Radon-Nikodym, 500
di rappresentazione di Riesz, 501 Wiener, 291
668 INDICE ANALITICO
Bibliografia

[1] A. Agassi, Open: An Autobiography, Einaudi, 2011.

[2] F. Antonelli, Backward-forward stochastic differential equations, Ann. Appl. Probab., 3 (1993),
pp. 777–793.

[3] D. Applebaum, Lévy processes and stochastic calculus, vol. 93 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2004.

[4] D. G. Aronson, The fundamental solution of a linear parabolic equation containing a small parameter,
Illinois J. Math., 3 (1959), pp. 580–619.

[5] P. Baldi, Introduzione alla probabilità con elementi di statistica - Seconda edizione, McGraw-Hill, 2012.

[6] , Stochastic calculus, Universitext, Springer, Cham, 2017. An introduction through theory and
exercises.

[7] M. T. Barlow, One-dimensional stochastic differential equations with no strong solution, J. London Math.
Soc. (2), 26 (1982), pp. 335–347.

[8] E. Barucci, S. Polidoro, and V. Vespri, Some results on partial differential equations and Asian options,
Math. Models Methods Appl. Sci., 11 (2001), pp. 475–497.

[9] R. F. Bass, Probabilistic techniques in analysis, Probability and its Applications (New York), Springer-
Verlag, New York, 1995.

[10] , Stochastic processes, vol. 33 of Cambridge Series in Statistical and Probabilistic Mathematics,
Cambridge University Press, Cambridge, 2011.

[11] , Real Analysis for Graduate Students, 2013. Disponibile su http://bass.math.uconn.edu/real.


html.

[12] F. Baudoin, An introduction to the geometry of stochastic flows, Imperial College Press, London, 2004.

[13] , Diffusion processes and stochastic calculus, EMS Textbooks in Mathematics, European
Mathematical Society (EMS), Zürich, 2014.

[14] H. Bauer, Probability theory, vol. 23 of De Gruyter Studies in Mathematics, Walter de Gruyter & Co.,
Berlin, 1996. Translated from the fourth (1991) German edition by Robert B. Burckel and revised by
the author.

[15] M. Beiglböck, W. Schachermayer, and B. Veliyev, A short proof of the Doob-Meyer theorem, Stochastic
Process. Appl., 122 (2012), pp. 1204–1209.

[16] A. Bensoussan, Stochastic maximum principle for distributed parameter systems, J. Franklin Inst., 315
(1983), pp. 387–406.

669
670 BIBLIOGRAFIA

[17] F. Biagini and M. Campanino, Elements of probability and statistics, vol. 98 of Unitext, Springer,
[Cham], 2016. An introduction to probability with de Finetti’s approach and to Bayesian statistics,
Translated from the 2006 Italian original, La Matematica per il 3+2.

[18] P. Billingsley, Probability and measure, Wiley Series in Probability and Mathematical Statistics, John
Wiley & Sons, Inc., New York, third ed., 1995. A Wiley-Interscience Publication.

[19] , Convergence of probability measures, Wiley Series in Probability and Statistics: Probability and
Statistics, John Wiley & Sons, Inc., New York, second ed., 1999. A Wiley-Interscience Publication.

[20] J.-M. Bismut, Théorie probabiliste du contrôle des diffusions, Mem. Amer. Math. Soc., 4 (1976),
pp. xiii+130.

[21] T. Bjork, Arbitrage theory in continuous time, Second edition, Oxford University Press, Oxford, 2004.

[22] F. Black and M. Scholes, The pricing of options and corporate liabilities, J. Polit. Econ., 81 (1973),
pp. 637–654.

[23] R. M. Blumenthal and R. K. Getoor, Markov processes and potential theory, Pure and Applied
Mathematics, Vol. 29, Academic Press, New York-London, 1968.

[24] P. Brémaud, Point processes and queues, Springer-Verlag, New York-Berlin, 1981. Martingale dynamics,
Springer Series in Statistics.

[25] F. Caravenna and P. Dai Pra, Probabilità - Un’introduzione attraverso modelli e applicazioni, Springer,
2013.

[26] P.-L. Chow, Stochastic partial differential equations, Advances in Applied Mathematics, CRC Press,
Boca Raton, FL, second ed., 2015.

[27] K. L. Chung and J. L. Doob, Fields, optionality and measurability, Amer. J. Math., 87 (1965), pp. 397–
424.

[28] D. Costantini, Introduzione alla probabilità, Testi e manuali della scienza contemporanea. Serie di
logica matematica, Bollati Boringhieri, 1977.

[29] P. Courrège, Générateur infinitésimal d’un semi-groupe de convolution sur Rn , et formule de


Lévy-Khinchine, Bull. Sci. Math. (2), 88 (1964), pp. 3–30.

[30] A. M. Davie, Uniqueness of solutions of stochastic differential equations, Int. Math. Res. Not. IMRN,
(2007), pp. Art. ID rnm124, 26.

[31] M. Di Francesco and A. Pascucci, On a class of degenerate parabolic equations of Kolmogorov type,
AMRX Appl. Math. Res. Express, 3 (2005), pp. 77–116.

[32] J. Dieudonné, Sur le théorème de Lebesgue-Nikodym. III, Ann. Univ. Grenoble. Sect. Sci. Math. Phys.
(N.S.), 23 (1948), pp. 25–53.

[33] J. L. Doob, Stochastic processes, John Wiley & Sons, Inc., New York; Chapman & Hall, Limited,
London, 1953.

[34] R. Durrett, Stochastic calculus, Probability and Stochastics Series, CRC Press, Boca Raton, FL, 1996.
A practical introduction.

[35] R. Durrett, Probability: theory and examples, vol. 49 of Cambridge Series in Statistical and Pro-
babilistic Mathematics, Cambridge University Press, Cambridge, 2019. Disponibile su https:
//services.math.duke.edu/~rtd/PTE/pte.html.
BIBLIOGRAFIA 671

[36] V. D’Urso and F. Giusberti, Esperimenti di psicologia - seconda edizione, Zanichelli, 2000.
[37] N. El Karoui, S. Peng, and M. C. Quenez, Backward stochastic differential equations in finance, Math.
Finance, 7 (1997), pp. 1–71.
[38] L. C. Evans, Partial differential equations, vol. 19 of Graduate Studies in Mathematics, American
Mathematical Society, Providence, RI, second ed., 2010.
[39] E. B. Fabes and D. W. Stroock, A new proof of Moser’s parabolic Harnack inequality using the old ideas
of Nash, Arch. Rational Mech. Anal., 96 (1986), pp. 327–338.
[40] A. M. Faden, The existence of regular conditional probabilities: necessary and sufficient conditions, Ann.
Probab., 13 (1985), pp. 288–298.
[41] W. Feller, Zur Theorie der stochastischen Prozesse, Math. Ann., 113 (1937), pp. 113–160.
[42] W. Feller, An introduction to probability theory and its applications. Vol. II, Second edition, John Wiley
& Sons, Inc., New York-London-Sydney, 1971.
[43] F. Flandoli, Regularity theory and stochastic flows for parabolic SPDEs, vol. 9 of Stochastics
Monographs, Gordon and Breach Science Publishers, Yverdon, 1995.
[44] , Random perturbation of PDEs and fluid dynamic models, vol. 2015 of Lecture Notes in Ma-
thematics, Springer, Heidelberg, 2011. Lectures from the 40th Probability Summer School held
in Saint-Flour, 2010, École d’Été de Probabilités de Saint-Flour. [Saint-Flour Probability Summer
School].
[45] A. Friedman, Partial differential equations of parabolic type, Prentice-Hall, Inc., Englewood Cliffs, N.J.,
1964.
[46] , Stochastic differential equations and applications, Dover Publications, Inc., Mineola, NY, 2006.
Two volumes bound as one, Reprint of the 1975 and 1976 original published in two volumes.
[47] B. Fristedt, N. Jain, and N. Krylov, Filtering and prediction: a primer, vol. 38 of Student Mathematical
Library, American Mathematical Society, Providence, RI, 2007.
[48] D. Gilbarg and N. S. Trudinger, Elliptic partial differential equations of second order, vol. 224
of Grundlehren der mathematischen Wissenschaften [Fundamental Principles of Mathematical
Sciences], Springer-Verlag, Berlin, second ed., 1983.
[49] P. Glasserman, Monte Carlo methods in financial engineering, vol. 53 of Applications of Mathematics
(New York), Springer-Verlag, New York, 2004. Stochastic Modelling and Applied Probability.
[50] P. Glasserman and B. Yu, Number of paths versus number of basis functions in American option pricing,
Ann. Appl. Probab., 14 (2004), pp. 2090–2119.
[51] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, 2016. Disponibile su http:
//www.deeplearningbook.org.
[52] P. R. Halmos, Measure Theory, D. Van Nostrand Company, Inc., New York, N. Y., 1950.
[53] L. Hörmander, Hypoelliptic second order differential equations, Acta Math., 119 (1967), pp. 147–171.
[54] K. Itô and S. Watanabe, Introduction to stochastic differential equations, in Proceedings of the Inter-
national Symposium on Stochastic Differential Equations (Res. Inst. Math. Sci., Kyoto Univ., Kyoto,
1976), Wiley, New York-Chichester-Brisbane, 1978, pp. i–xxx.
[55] J. Jacod and P. Protter, Probability essentials, Universitext, Springer-Verlag, Berlin, 2000.
672 BIBLIOGRAFIA

[56] J. Jacod and A. N. Shiryaev, Limit theorems for stochastic processes, vol. 288 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, second ed., 2003.

[57] O. Kallenberg, Foundations of modern probability, Probability and its Applications (New York),
Springer-Verlag, New York, second ed., 2002.

[58] I. Karatzas and S. E. Shreve, Brownian motion and stochastic calculus, vol. 113 of Graduate Texts in
Mathematics, Springer-Verlag, New York, second ed., 1991.

[59] A. Klenke, Probability theory, Universitext, Springer, London, second ed., 2014. A comprehensive
course.

[60] A. Kolmogoroff, Über die analytischen Methoden in der Wahrscheinlichkeitsrechnung, Math. Ann., 104
(1931), pp. 415–458.

[61] A. N. Kolmogorov, Selected works of A. N. Kolmogorov. Vol. III, Kluwer Academic Publishers Group,
Dordrecht, 1993. Edited by A. N. Shiryayev.

[62] V. N. Kolokoltsov, Markov processes, semigroups and generators, vol. 38 of De Gruyter Studies in
Mathematics, Walter de Gruyter & Co., Berlin, 2011.

[63] J. Komlós, A generalization of a problem of Steinhaus, Acta Math. Acad. Sci. Hungar., 18 (1967),
pp. 217–229.

[64] P. Kotelenez, Stochastic ordinary and stochastic partial differential equations, vol. 58 of Stochastic
Modelling and Applied Probability, Springer, New York, 2008. Transition from microscopic to
macroscopic equations.

[65] N. V. Krylov, Controlled diffusion processes, vol. 14 of Stochastic Modelling and Applied Probability,
Springer-Verlag, Berlin, 2009. Translated from the 1977 Russian original by A. B. Aries, Reprint of
the 1980 edition.

[66] H. Kunita, Stochastic flows and stochastic differential equations, vol. 24 of Cambridge Studies in
Advanced Mathematics, Cambridge University Press, Cambridge, 1997. Reprint of the 1990 original.

[67] O. A. Ladyzhenskaia, V. A. Solonnikov, and N. N. Ural’tseva, Linear and quasilinear equations of


parabolic type, Translations of Mathematical Monographs, Vol. 23, American Mathematical Society,
Providence, R.I., 1968. Translated from the Russian by S. Smith.

[68] E. Lanconelli, Lezioni di Analisi Matematica 1, Pitagora Editrice Bologna, 1994.

[69] , Lezioni di Analisi Matematica 2, Pitagora Editrice Bologna, 1995.

[70] , Lezioni di Analisi Matematica 2 - Seconda parte, Pitagora Editrice Bologna, 1997.

[71] E. Lanconelli and S. Polidoro, On a class of hypoelliptic evolution operators, Rend. Sem. Mat. Univ.
Politec. Torino, 52 (1994), pp. 29–63.

[72] P. Langevin, Sur la théorie du mouvement Brownien, C.R. Acad. Sci. Paris, 146 (1908), pp. 530–532.

[73] E. B. Lee and L. Markus, Foundations of optimal control theory, Robert E. Krieger Publishing Co., Inc.,
Melbourne, FL, second ed., 1986.

[74] D. S. Lemons, An introduction to stochastic processes in physics, Johns Hopkins University Press, Balti-
more, MD, 2002. Containing “On the theory of Brownian motion” by Paul Langevin, translated by
Anthony Gythiel.
BIBLIOGRAFIA 673

[75] G. Letta, Probabilità elementare. Compendio di teorie. Problemi risolti, Zanichelli, 1993.

[76] E. E. Levi, Sulle equazioni lineari totalmente ellittiche alle derivate parziali, Rend. Circ. Mat. Palermo,
24 (1907), pp. 275–317.

[77] W. Liu and M. Röckner, Stochastic partial differential equations: an introduction, Universitext,
Springer, Cham, 2015.

[78] S. V. Lototsky and B. L. Rozovskii, Stochastic partial differential equations, Universitext, Springer,
Cham, 2017.

[79] J. Ma and J. Yong, Forward-backward stochastic differential equations and their applications, vol. 1702
of Lecture Notes in Mathematics, Springer-Verlag, Berlin, 1999.

[80] L. Mazliak and G. Shafer, The splendors and miseries of martingales - Their history from the Casino to
Mathematics, Trends in the History of Science, Birkhäuser Cham, 2022.

[81] P.-A. Meyer, Probability and potentials, Blaisdell Publishing Co. Ginn and Co., Waltham,
Mass.-Toronto, Ont.-London, 1966.

[82] P.-A. Meyer, Stochastic processes from 1950 to the present, J. Électron. Hist. Probab. Stat., 5 (2009),
p. 42. Translated from the French [MR1796860] by Jeanine Sedjro.

[83] P. Mörters and Y. Peres, Brownian motion, vol. 30 of Cambridge Series in Statistical and Probabilistic
Mathematics, Cambridge University Press, Cambridge, 2010. With an appendix by Oded Schramm
and Wendelin Werner.

[84] D. Mumford, The dawning of the age of stochasticity, Atti Accad. Naz. Lincei Cl. Sci. Fis. Mat. Natur.
Rend. Lincei (9) Mat. Appl., (2000), pp. 107–125. Mathematics towards the third millennium (Rome,
1999).

[85] J. Neveu, Mathematical foundations of the calculus of probability, Translated by Amiel Feinstein,
Holden-Day, Inc., San Francisco, Calif.-London-Amsterdam, 1965.

[86] A. A. Novikov, A certain identity for stochastic integrals, Teor. Verojatnost. i Primenen., 17 (1972),
pp. 761–765.

[87] D. Nualart, The Malliavin calculus and related topics, Probability and its Applications (New York),
Springer-Verlag, Berlin, second ed., 2006.

[88] B. Oksendal, Stochastic differential equations, Universitext, Springer-Verlag, Berlin, fifth ed., 1998. An
introduction with applications.

[89] O. A. Oleinik and E. V. Radkevic, Second order equations with nonnegative characteristic form, Plenum
Press, New York-London, 1973. Translated from the Russian by Paul C. Fife.

[90] L. S. Ornstein and G. E. Uhlenbeck, On the theory of the Brownian motion., Physical Review, 36
(1930), pp. 823–841.

[91] E. Pardoux, Stochastic partial differential equations, SpringerBriefs in Mathematics, Springer, Cham,
[2021] ©2021. An introduction.

[92] E. Pardoux and S. G. Peng, Adapted solution of a backward stochastic differential equation, Systems
Control Lett., 14 (1990), pp. 55–61.

[93] E. Pardoux and A. Rascanu, Stochastic differential equations, backward SDEs, partial differential
equations, vol. 69 of Stochastic Modelling and Applied Probability, Springer, Cham, 2014.
674 BIBLIOGRAFIA

[94] A. Pascucci, PDE and martingale methods in option pricing, vol. 2 of Bocconi & Springer Series,
Springer, Milan; Bocconi University Press, Milan, 2011.
[95] J. A. Paulos, A mathematician reads the newspaper, Basic Books, New York, 2013. Paperback edition
of the 1995 original with a new preface.
[96] S. G. Peng, A nonlinear Feynman-Kac formula and applications, in Control theory, stochastic analysis
and applications (Hangzhou, 1991), World Sci. Publ., River Edge, NJ, 1991, pp. 173–184.
[97] N. Pintacuda, Probabilità, Zanichelli, 1995.
[98] W. Pogorzelski, Étude de la solution fondamentale de l’équation parabolique, Ricerche Mat., 5 (1956),
pp. 25–57.
[99] S. Polidoro, Uniqueness and representation theorems for solutions of Kolmogorov-Fokker-Planck
equations, Rend. Mat. Appl. (7), 15 (1995), pp. 535–560.
[100] C. Prévôt and M. Röckner, A concise course on stochastic partial differential equations, vol. 1905 of
Lecture Notes in Mathematics, Springer, Berlin, 2007.
[101] P. E. Protter, Stochastic integration and differential equations, vol. 21 of Stochastic Modelling and
Applied Probability, Springer-Verlag, Berlin, 2005. Second edition. Version 2.1, Corrected third
printing.
[102] C. E. Rasmussen and C. K. I. Williams, Gaussian Processes for Machine Learning, MIT Press, 2006.
Disponibile su http://www.gaussianprocess.org/gpml/.
[103] D. Revuz and M. Yor, Continuous martingales and Brownian motion, vol. 293 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, third ed., 1999.
[104] F. Riesz and B. Sz.-Nagy, Functional analysis, Frederick Ungar Publishing Co., New York, 1955.
Translated by Leo F. Boron.
[105] L. C. G. Rogers and D. Williams, Diffusions, Markov processes, and martingales. Vol. 2, Cambridge
Mathematical Library, Cambridge University Press, Cambridge, 2000. Itô calculus, Reprint of the
second (1994) edition.
[106] B. L. Rozovskii, Stochastic evolution systems, vol. 35 of Mathematics and its Applications (Soviet
Series), Kluwer Academic Publishers Group, Dordrecht, 1990. Linear theory and applications to
nonlinear filtering, Translated from the Russian by A. Yarkho.
[107] W. Rudin, Real and complex analysis, McGraw-Hill Book Co., New York, third ed., 1987.
[108] D. Salsburg, The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century,
Henry Holt and Company, 2002.
[109] R. L. Schilling, Sobolev embedding for stochastic processes, Expo. Math., 18 (2000), pp. 239–242.
[110] , Brownian motion—a guide to random processes and stochastic calculus, De Gruyter Textbook, De
Gruyter, Berlin, [2021] ©2021. With a chapter on simulation by Björn Böttcher, Third edition [of
2962168].
[111] A. Shaposhnikov and L. Wresch, Pathwise vs. path-by-path uniqueness, preprint, arXiv:2001.02869,
(2020).
[112] A. N. Shiryaev, Probability. 1, vol. 95 of Graduate Texts in Mathematics, Springer, New York,
third ed., 2016. Translated from the fourth (2007) Russian edition by R. P. Boas and D. M. Chibisov.
BIBLIOGRAFIA 675

[113] Y. G. Sinai, Probability theory, Springer Textbook, Springer-Verlag, Berlin, 1992. An introductory
course, Translated from the Russian and with a preface by D. Haughton.
[114] D. W. Stroock, Markov processes from K. Itô’s perspective, vol. 155 of Annals of Mathematics Studies,
Princeton University Press, Princeton, NJ, 2003.
[115] , Partial differential equations for probabilists, vol. 112 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2012. Paperback edition of the 2008 original.
[116] D. W. Stroock and S. R. S. Varadhan, Diffusion processes with continuous coefficients. I, Comm. Pure
Appl. Math., 22 (1969), pp. 345–400.
[117] , Diffusion processes with continuous coefficients. II, Comm. Pure Appl. Math., 22 (1969), pp. 479–
530.
[118] D. W. Stroock and S. R. S. Varadhan, Multidimensional diffusion processes, Classics in Mathematics,
Springer-Verlag, Berlin, 2006. Reprint of the 1997 edition.
[119] M. Struwe, Variational methods, vol. 34 of Ergebnisse der Mathematik und ihrer Grenzgebiete. 3.
Folge. A Series of Modern Surveys in Mathematics [Results in Mathematics and Related Areas.
3rd Series. A Series of Modern Surveys in Mathematics], Springer-Verlag, Berlin, fourth ed., 2008.
Applications to nonlinear partial differential equations and Hamiltonian systems.
[120] K. Taira, Semigroups, boundary value problems and Markov processes, Springer Monographs in
Mathematics, Springer, Heidelberg, second ed., 2014.
[121] H. Tanaka, Note on continuous additive functionals of the 1-dimensional Brownian path, Z.
Wahrscheinlichkeitstheorie und Verw. Gebiete, 1 (1962/63), pp. 251–257.
[122] A. Tychonoff, Théorèmes d’unicité pour l’equation de la chaleur, Math. Sbornik, 42 (1935), pp. 199–
216.
[123] J. A. van Casteren, Markov processes, Feller semigroups and evolution equations, vol. 12 of Series on
Concrete and Applicable Mathematics, World Scientific Publishing Co. Pte. Ltd., Hackensack, NJ,
2011.
[124] O. Vasicek, An equilibrium characterization of the term structure, J. Financial Economics, 5 (1977),
pp. 177–188.
[125] G. Vitali, Sul problema della misura dei gruppi di punti di una retta, Bologna, Tip. Gamberini e
Parmeggiani., (1905).
[126] D. Williams, Probability with martingales, Cambridge Mathematical Textbooks, Cambridge
University Press, Cambridge, 1991.
[127] T. Yamada and S. Watanabe, On the uniqueness of solutions of stochastic differential equations, J. Math.
Kyoto Univ., 11 (1971), pp. 155–167.
[128] J. Yong and X. Y. Zhou, Stochastic controls, vol. 43 of Applications of Mathematics (New York),
Springer-Verlag, New York, 1999. Hamiltonian systems and HJB equations.
[129] J. Zabczyk, Mathematical control theory—an introduction, Systems & Control: Foundations &
Applications, Birkhäuser/Springer, Cham, [2020] ©2020. Second edition [of 2348543].
[130] J. Zhang, Backward stochastic differential equations, vol. 86 of Probability Theory and Stochastic
Modelling, Springer, New York, 2017. From linear to fully nonlinear theory.
[131] A. K. Zvonkin, A transformation of the phase space of a diffusion process that will remove the drift, Mat.
Sb. (N.S.), 93(135) (1974), pp. 129–149, 152.

Potrebbero piacerti anche