Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Andrea Pascucci1
13 febbraio 2023
1 Introduzione 11
Una rivoluzione della matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
La probabilità nel passato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
La probabilità nel presente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Nota bibliografica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Alcuni simboli e notazioni usati frequentemente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3
4 INDICE
2.5 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.1 Dimostrazione della Proposizione 2.3.30 . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.2 Dimostrazione della Proposizione 2.4.9 . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory . . . . . . . . . . . . . . . . . . . 80
2.5.4 Dimostrazione del Teorema 2.4.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3 Variabili aleatorie 89
3.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.1 Variabili aleatorie e distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.1.2 Esempi di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.1.3 Esempi di variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . 100
3.1.4 Altri esempi di variabili aleatorie notevoli . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.2 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.2.1 Integrale di variabili aleatorie semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.2.2 Integrale di variabili aleatorie non-negative . . . . . . . . . . . . . . . . . . . . . . . . 109
3.2.3 Integrale di variabili aleatorie a valori in Rd . . . . . . . . . . . . . . . . . . . . . . . . 111
3.2.4 Integrazione con distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.2.5 Valore atteso e Teorema del calcolo della media . . . . . . . . . . . . . . . . . . . . . . 115
3.2.6 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.2.7 Spazi Lp e disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.2.8 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.2.9 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta . . . . . . . . . . . 127
3.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.3.1 Dipendenza deterministica e indipendenza stocastica . . . . . . . . . . . . . . . . . . 129
3.3.2 Misura prodotto e Teorema di Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.3.3 Indipendenza fra σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3.3.4 Indipendenza fra vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.3.5 Indipendenza e valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.4 Distribuzione e valore atteso condizionato ad un evento . . . . . . . . . . . . . . . . . . . . . 141
3.5 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
3.5.1 Il teorema di inversione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
3.5.2 Distribuzione normale multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.5.3 Sviluppo in serie della funzione caratteristica e momenti . . . . . . . . . . . . . . . . 156
3.6 Complementi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
3.6.1 Somma di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
3.6.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
24 Complementi 461
24.1 Equazioni stocastiche backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
24.2 Filtraggio stocastico ed equazione del calore stocastica . . . . . . . . . . . . . . . . . . . . . . 463
24.3 Integrale stocastico backward e SPDE di Krylov . . . . . . . . . . . . . . . . . . . . . . . . . . 465
24.4 Proiezione Markoviana e Teorema di Gyöngy . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
A 497
A.1 Teoremi di Dynkin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
A.2 Assoluta continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
A.2.1 Teorema di Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
A.2.2 Rappresentazione di aperti di R mediante intervalli . . . . . . . . . . . . . . . . . . . 502
A.2.3 Derivabilità di funzioni integrali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
A.2.4 Assoluta continuità di funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
A.3 Uniforme integrabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508
Introduzione
“For over two millennia, Aristotle’s logic has ruled over the thinking of western intellectuals. All precise theo-
ries, all scientific models, even models of the process of thinking itself, have in principle conformed to the straight-
jacket of logic. But from its shady beginnings devising gambling strategies and counting corpses in medieval
London, probability theory and statistical inference now emerge as better foundations for scientific models, espe-
cially those of the process of thinking and as essential ingredients of theoretical mathematics, even the foundations
of mathematics itself. We propose that this sea change in our perspective will affect virtually all of mathematics in
the next century.”
“In conclusione, cosa ci hanno mostrato Tversky e Kahneman1 con la loro convincente serie di esperimenti?
Che l’essere umano, anche quello intelligente, colto e perfino con delle nozioni di statistica, non è un animale
probabilistico. La teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico, non è
insegnata nelle scuole, a volte non è capita molto bene neppure da coloro che dovrebbero applicarla.”
11
12 CAPITOLO 1. INTRODUZIONE
deterministici (nel senso di osservabili a livello macroscopico) e fattori stocastici (nel senso di casuali, aleatori,
non osservabili o non prevedibili).
Il termine “stocastico” deriva dal greco στόχος che significa bersaglio (del tiro a segno) o, in senso figu-
rato, congettura. A volte, come nell’esempio della farina, il fattore deterministico è prevalente nel senso che,
per vari motivi, non val la pena considerare altri fattori e si preferisce trascurarli oppure non si hanno gli
strumenti per includerli nella propria analisi: in questo modo forse semplicistico, per analogia, si potrebbe
descrivere l’approccio della fisica classica e di tutte le teorie formulate prima del XX secolo che puntano a
dare una descrizione a livello macroscopico e osservabile. D’altra parte, esistono molti fenomeni in cui il
fattore stocastico non solo non è trascurabile ma è addirittura dominante: un esempio eclatante è fornito
dalle principali teorie della fisica moderna, in particolare la meccanica quantistica. Rimanendo vicini alla
realtà quotidiana, ormai non esiste ambito applicativo della matematica in cui si possa trascurare il fatto-
re stocastico: dall’economia alla medicina, dall’ingegneria alla meteorologia, i modelli matematici devono
necessariamente includere l’incertezza; infatti il fenomeno in oggetto può essere intrinsecamente aleatorio
come il prezzo di un titolo azionario o il segnale in un sistema di riconoscimento vocale o guida automa-
tica, oppure può non essere osservabile con precisione o di difficile interpretazione come un segnale radio
disturbato, un’immagine tomografica o la posizione di una particella subatomica.
C’è anche un livello più generale in cui non si può ignorare il ruolo della probabilità nello sviluppo
della società odierna: si tratta di quella che è ormai ritenuta un’emergenza educativa, l’esigenza sempre
più pressante che si diffondano e rafforzino le conoscenze di tipo probabilistico. Una vera e propria opera
di alfabetizzazione in questo campo può evitare che banali misconcezioni, come per esempio quella dei
numeri “ritardatari” nel gioco del lotto, abbiano gli effetti devastanti a livello sociale ed economico che
oggi osserviamo: basti pensare che, in base ai dati ufficiali dei Monopoli di Stato, i soldi spesi dagli italiani
per giochi d’azzardo (e parliamo solo dei giochi legali) nel 2017 hanno superato il tetto dei 100 miliardi di
euro, il quadruplo rispetto al 2004.
Un segnale positivo è dato dall’evoluzione dell’insegnamento della probabilità nelle scuole superiori:
fino a pochi anni fa la probabilità era assente dai programmi scolastici ed ora sta velocemente incremen-
tando la propria presenza nei libri di testo e nelle prove d’esame, provocando anche un certo sconcerto
nel corpo docente a causa di un cosı̀ rapido aggiornamento dei contenuti. È bene sottolineare che la ma-
tematica stocastica (la probabilità) non vuole destituire la matematica classica ma ha in quest’ultima le
proprie fondamenta e la potenzia approfondendo i legami con le altre discipline scientifiche. Paradossal-
mente, il mondo della formazione superiore e universitaria sembra avere un’inerzia maggiore per cui tende
a rallentare il processo di passaggio dal pensiero deterministico a quello stocastico. In parte questo è com-
prensibile: la difesa dello status quo è ciò che normalmente avviene di fronte ad ogni profonda rivoluzione
scientifica e, a tutti gli effetti, stiamo parlando di una vera e propria rivoluzione, silenziosa e irreversibile, che
coinvolge tutti gli ambiti della matematica. A questo riguardo è illuminante la frase, posta all’inizio di que-
sta introduzione, del matematico anglo-statunitense David Mumford, medaglia Fields2 nel 1974 per i suoi
studi nel campo della geometria algebrica. Nell’articolo da cui è stata tratta la frase, Mumford conferma il
fatto che la teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico3 .
2 L’International Medal for Outstanding Discoveries in Mathematics, o più semplicemente medaglia Fields, è un premio riconosciu-
to a matematici che non abbiano superato l’età di 40 anni in occasione del Congresso internazionale dei matematici della International
Mathematical Union (IMU), che si tiene ogni quattro anni. È spesso considerata come il più alto riconoscimento che un matematico
possa ricevere: assieme al premio Abel è da molti definita il “Premio Nobel per la Matematica”, sebbene l’accostamento sia improprio
per varie ragioni, tra cui il limite di età insito nel conferimento della medaglia Fields (fonte Wikipedia).
3 The classical subdivisions of mathematics are geometry, algebra, and analysis. The perception of space (through senses and mu-
scular interaction) is the primitive element of our experience on which geometry is based. Analysis, I would argue, is the outgrowth of
the human experience of force and its children, acceleration and oscillation. Algebra seems to stem from the grammar of actions, i.e.,
the fact that we carry out actions in specific orders, concatenating one after the other, and making various ”higher order“ actions out
of simpler more basic ones. I believe there is a fourth branch of human experience which creates reproducible mental objects, hence
creates math: our experience of thought itself through our conscious observation of our mind at work. The division of mathematics
corresponding to this realm of experience is not logic but probability and statistics. (D. Mumford, [84])
13
è una proprietà intrinseca e oggettiva dei fenomeni casuali ma dipende dalla valutazione di un sog-
getto. Operativamente5 , la probabilità di un evento è definita come il prezzo che un individuo ritiene
equo pagare per ricevere 1 se l’evento si verifica e 0 se l’evento non si verifica: per esempio, la probabilità
di un evento è pari al 70% per un individuo che ritiene equo scommettere 70 per ricevere 100 nel
caso l’evento si verifichi e perdere tutto in caso contrario. La definizione è resa significativa assumen-
do un criterio di coerenza o razionalità dell’individuo che deve attribuire le probabilità in modo tale
che non sia possibile ottenere una vincita o una perdita certa (nel gergo finanziario odierno, si par-
lerebbe di assenza di possibilità di arbitraggio); occorre poi porre particolare attenzione per evitare
paradossi del tipo seguente: nell’esempio del lancio di una moneta, un individuo può essere disposto
a scommettere 1 euro per riceverne 2 in caso di “testa” e 0 in caso di “croce” (e quindi attribuendo
probabilità pari al 50% all’evento “testa”) ma lo stesso individuo potrebbe non essere disposto a gio-
care 1 milione di euro sulla stessa scommessa. L’approccio soggettivo è stato proposto e sviluppato da
Frank P. Ramsey (1903-1930), Bruno de Finetti (1906-1985) e successivamente da Leonard J. Savage
(1917-1971): esso generalizza i precedenti e permette di definire anche la probabilità di eventi come
E3 .
Il dibattito sulle possibili interpretazioni della probabilità si è protratto per lungo tempo ed è tuttora
aperto. Ma nella prima metà del secolo scorso c’è stato un punto di svolta decisivo, dovuto al lavoro del
matematico russo Andrej N. Kolmogorov (1903-1987). Egli per primo ha gettato le basi per la formaliz-
zazione matematica della probabilità, inserendola a pieno titolo nel novero delle discipline matematiche.
Kolmogorov ha messo in secondo piano i difficili problemi del fondamento logico e del dualismo fra la
visione oggettiva e soggettiva, concentrandosi sullo sviluppo della probabilità come teoria matematica. Il
contributo di Kolmogorov è fondamentale perché, aggirando i problemi epistemologici, ha sprigionato tut-
ta la potenza del ragionamento astratto e logico-deduttivo applicato allo studio della probabilità e ha cosı̀
agevolato il passaggio dal calcolo della probabilità alla teoria della probabilità. A partire dal lavoro di Kol-
mogorov e grazie al contributo di molti grandi matematici del secolo scorso, sono stati conseguiti risultati
profondi e aperti campi di ricerca ancora completamente inesplorati.
Ora è bene sottolineare che la formalizzazione matematica della probabilità richiede un considerevole
grado di astrazione. Pertanto, è assolutamente naturale che la teoria della probabilità risulti ostica, se
non incomprensibile, al primo impatto. Kolmogorov utilizza il linguaggio della teoria della misura: un
evento è identificato con un insieme E i cui elementi rappresentano singoli esiti possibili del fenomeno
aleatorio considerato; la probabilità P = P (E) è una misura, ossia una funzione d’insieme che gode di alcune
proprietà: per fissare le idee, si pensi alla misura di Lebesgue. L’utilizzo del linguaggio astratto della teoria
della misura è guardato da alcuni (anche da alcuni matematici) con sospetto perché sembra indebolire
l’intuizione. Tuttavia questo è il prezzo inevitabile che si deve pagare per poter sfruttare tutta la potenza
del ragionamento astratto e sintetico che è poi la vera forza dell’approccio matematico.
In queste libro presentiamo i primi rudimenti di teoria della probabilità secondo l’impostazione assio-
matica di Kolmogorov. Ci limiteremo a introdurre ed esaminare i concetti di spazio di probabilità, distribu-
zione e variabile aleatoria. Facendo un parallelo fra probabilità e analisi matematica, il contenuto di questo
testo corrisponde grossomodo all’introduzione dei numeri reali in un primo corso di analisi matematica:
ciò significa che faremo solo i primissimi passi nel vasto campo della Teoria della Probabilità.
Dal punto di vista applicativo, la teoria della probabilità è lo strumento utilizzato per modellizzare e
gestire il rischio in tutti gli ambiti in cui si studiano fenomeni in condizioni d’incertezza. Facciamo qualche
esempio:
• Fisica e Ingegneria dove si fa ampio uso dei metodi numerici stocastici di tipo Monte Carlo, forma-
lizzati fra i primi da Enrico Fermi e John von Neumann;
• Economia e Finanza, a partire dalla famosa formula di Black-Scholes-Merton per la quale gli autori
hanno ricevuto il premio Nobel. La modellistica finanziaria richiede generalmente un background
matematico-probabilistico-numerico avanzato: il contenuto di questo libro corrisponde grossomodo
all’Appendice A.1 di [94];
• Medicina e Botanica: il più importante processo stocastico, il moto Browniano, prende il nome da
Robert Brown, un botanico che verso il 1830 osservò il movimento irregolare di particelle colloidali
in sospensione. Il moto Browniano è stato utilizzato da Louis Jean Baptist Bachelier nel 1900 nella
sua tesi di dottorato di ricerca per modellizzare i prezzi delle azioni ed è stato oggetto di uno dei più
famosi lavori di Albert Einstein pubblicato nel 1905. La prima definizione matematicamente rigorosa
di moto Browniano è stata data da Norbert Wiener nel 1923.
• Genetica: è la scienza che studia la trasmissione dei caratteri e i meccanismi con i quali questi vengo-
no ereditati. Gregor Johann Mendel (1822-1884), monaco agostiniano ceco considerato il precursore
della moderna genetica, diede un fondamentale contributo di tipo metodologico applicando per la
prima volta il calcolo delle probabilità allo studio dell’ereditarietà biologica.
• Informatica: i computer quantistici sfruttano le leggi della meccanica quantistica per l’elaborazione
dei dati. In un computer attuale l’unità di informazione è il bit: mentre possiamo sempre determinare
lo stato di un bit e stabilire con precisione se è 0 o 1, non possiamo determinare con altrettanta
precisione lo stato di un qubit, l’unità di informazione quantistica, ma solo le probabilità che assuma
i valori 0 e 1.
• Meteorologia: per la previsione oltre il quinto giorno è fondamentale poter disporre di modelli me-
teorologici di tipo probabilistico; i modelli probabilistici girano generalmente nei principali centri
meteo internazionali perché necessitano di procedure statistico-matematiche molto complesse e one-
rose a livello computazionale. A partire dal 2020 il Data Center del Centro europeo per le previsioni
meteorologiche a medio termine (European Center Medium Weather Forecast, in sigla ECMWF) ha sede
a Bologna.
16 CAPITOLO 1. INTRODUZIONE
• Applicazioni militari: da [108] p.139: “In 1938, Kolmogorov had published a paper that established the
basic theorems for smoothing and predicting stationary stochastic processes. An interesting comment on
the secrecy of war efforts comes from Norbert Wiener (1894-1964) who, at the Massachusetts Institute of
Technology, worked on applications of these methods to military problems during and after the war. These
results were considered so important to America’s Cold War efforts that Wiener’s work was declared top
secret. But all of it, Wiener insisted, could have been deduced from Kolmogorov’s early paper.”
Infine la probabilità è alla base dello sviluppo delle più recenti tecnologie di Machine Learning e tutte le re-
lative applicazioni all’intelligenza artificiale, auto a guida autonoma, riconoscimento vocale e di immagini
etc (si veda, per esempio, [51] e [102]). Al giorno d’oggi, una conoscenza avanzata di Teoria della Probabi-
lità è il requisito minimo per chiunque voglia occuparsi di matematica applicata in uno degli ambiti sopra
menzionati.
Per concludere, penso si possa convenire sul fatto che se studiamo matematica è anzitutto perché ci piace
e non tanto perché ci garantirà un lavoro futuro. Certamente la matematica non ha bisogno di giustificarsi
con le applicazioni. Ma è anche vero che non viviamo sulla luna e un lavoro prima o poi dovremo trovarlo.
Allora è importante conoscere le applicazioni reali della matematica: esse sono numerose, richiedono cono-
scenze avanzate, assolutamente non banali tanto da poter soddisfare anche il gusto estetico di un cosiddetto
“matematico puro”. Infine, per chi volesse cimentarsi con la ricerca pura, la teoria della probabilità è cer-
tamente uno dei campi più affascinanti e meno esplorati, in cui il contributo delle migliori giovani menti è
fondamentale e fortemente auspicabile.
Nota bibliografica
Esistono molti eccellenti testi di introduzione alla Teoria della Probabilità: fra i miei preferiti, e che sono
stati la maggiore fonte di ispirazione e di idee, ci sono quelli di Bass [11], Durrett [35], Klenke [59] e Wil-
liams [126]. Di seguito elenco in ordine alfabetico altri importanti testi di riferimento: Baldi [5], Bass [9],
Bauer [14], Biagini e Campanino [17], Billingsley [18], Caravenna e Dai Pra [25], Feller [42], Jacod e Protter
[55], Kallenberg [57], Letta [75], Neveu [85], Pintacuda [97], Shiryaev [112], Sinai [113]. Questo libro può
essere considerato un ulteriore tentativo di raccogliere in maniera ordinata, sintetica e completa le nozioni
basilari di probabilità in modo da agevolare studi successivi più avanzati. Fra le numerose monografie di
introduzione alla ricerca nel campo della teoria dei processi stocastici e del calcolo differenziale stocastico,
mi limito a citare Baldi [6], Bass [10], Baudoin [13], Doob [33], Durrett [34], Friedman [46], Karatzas e
Shreve [58], Mörters e Peres [83], Revuz e Yor [103], Schilling [110], Stroock [115].
17
• insiemi numerici:
d
X
⟨x, y⟩ = x · y = xi y i , x = (x1 , . . . , xd ), y = (y1 , . . . , yd ) ∈ Rd
i=1
Nelle operazioni matriciali, il vettore d-dimensionale x viene identificato con la matrice colonna d ×1.
Abbreviazioni
v.a. = variabile aleatoria
q.c. = quasi certamente. Una certa proprietà vale q.c. se esiste N ∈ N (insieme trascurabile) tale che la
proprietà è vera per ogni ω ∈ Ω \ N
q.o. = quasi ovunque (rispetto alla misura di Lebesgue)
19
Capitolo 2
William Feller
Si parla genericamente di Probabilità in riferimento a fenomeni incerti, il cui esito non è noto con
sicurezza. Come sottolinea Costantini [28], non è semplice dare una definizione generale e negli ultimi
secoli molti studiosi hanno cercato risposte a domande del tipo:
1) cos’è la Probabilità?
2) come si calcola1 la Probabilità?
3) come “funziona”2 la Probabilità?
D’altra parte, solo in tempi relativamente recenti si è iniziato a comprendere la differente natura di tali
quesiti e il fatto che debbano essere indagati con metodi e strumenti specifici di discipline diverse e ben
distinte:
1) in Filosofia si indaga il concetto di Probabilità e il suo possibile significato, cercando di darne una
definizione e studiarne la natura da un punto di vista generale. L’approccio filosofico ha portato a
interpretazioni e definizioni anche molto differenti;
2) la Statistica è la disciplina che studia i metodi per la stima e la valutazione della Probabilità a partire
da osservazioni e dati disponibili sul fenomeno aleatorio considerato;
3) la Teoria della Probabilità è la disciplina puramente matematica che applica il ragionamento astratto
e logico-deduttivo per formalizzare la Probabilità e le sue regole, partendo da assiomi e definizioni
primitive (come lo sono, per analogia, i concetti di punto e di retta in Geometria).
1 Sono molti i casi in cui è importante calcolare o almeno stimare la probabilità di un evento incerto. Per esempio, un giocatore
d’azzardo è interessato a conoscere la probabilità di ottenere una certa mano al gioco del Poker; una compagnia di assicurazioni deve
stimare la probabilità che un proprio assicurato abbia uno o più incidenti nel corso di un anno; un’industria che produce auto vuole
stimare la probabilità che il prezzo dell’acciaio non superi un certo valore; una compagnia aerea può fare overbooking in base alla
probabilità che un certo numero di viaggiatori non si presenti all’imbarco.
2 In altri termini, è possibile formalizzare i principi e le regole generali della Probabilità in termini matematici rigorosi, in analogia
con quanto si fa per esempio nella geometria Euclidea?
21
22 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Quando si affronta per la prima volta lo studio della Probabilità, confusione e fraintendimenti possono de-
rivare dal non distinguere adeguatamente i diversi approcci (filosofico, statistico e matematico). In questo
testo assumiamo esclusivamente il punto di vista matematico: il nostro scopo è fornire un’introduzione alla
Teoria della Probabilità.
ii) F è una σ -algebra su Ω, ossia F è una famiglia non vuota di sottoinsiemi di Ω che soddisfa le seguenti
proprietà:
ii-a) se A ∈ F allora Ac := Ω \ A ∈ F ;
ii-b) l’unione numerabile di elementi di F appartiene ad F .
La proprietà ii-a) si esprime dicendo che F è una famiglia chiusa rispetto al passaggio al complementare;
la proprietà ii-b) si esprime dicendo che F è una famiglia σ -∪-chiusa (chiusa rispetto all’unione numerabile).
Osservazione 2.1.2. Dalla proprietà ii-b) segue anche che se A, B ∈ F allora A ∪ B ∈ F , ossia F è ∪-chiusa
(chiusa rispetto all’unione finita). Infatti dati A, B ∈ F , si può costruire la successione C1 = A, Cn = B per
ogni n ≥ 2; allora
∞
[
A∪B = Cn ∈ F .
n=1
Una σ -algebra F è non vuota per definizione e quindi esiste A ∈ F e, per la ii-a), si ha Ac ∈ F : allora anche
Ω = A ∪ Ac ∈ F e, ancora per ii-a), ∅ ∈ F . Osserviamo che {∅, Ω} è la più piccola σ -algebra su Ω; viceversa,
l’insieme delle parti P(Ω) è la più grande σ -algebra su Ω.
Notiamo anche che l’intersezione finita o numerabile di elementi di una σ -algebra F appartiene a F :
infatti se (An ) è una famiglia finita o numerabile in F , combinando le proprietà ii-a) e ii-b), si ha che
\ [ c
An = Acn ∈ F.
n n
Definizione 2.1.3 (Misura). Una misura sullo spazio misurabile (Ω, F ) è una funzione
µ : F −→ [0, +∞]
tale che:
iii-a) µ(∅) = 0;
iii-b) µ è σ -additiva su F , ossia per ogni successione (An )n∈N di elementi disgiunti di F vale3
∞ ∞
] X
µ An =
µ (An ) .
n=1 n=1
Osservazione 2.1.4. Ogni misura µ è additiva nel senso che, per ogni famiglia finita A1 , . . . , An di insiemi
disgiunti in F , vale n
] X n
µ Ak = µ (Ak ) .
k=1 k=1
Infatti, posto Ak = ∅ per k > n, si ha
n ∞
] ]
µ Ak = µ Ak =
k=1 k=1
(per la σ -additività)
∞
X
= µ (Ak ) =
k=1
Definizione 2.1.5. Una misura µ su (Ω, F ) si dice finita se µ(Ω) < ∞ e si dice σ -finita se esiste una succes-
sione (An ) in F tale che [
Ω= An e µ(An ) < +∞, n ∈ N.
n∈N
Esempio 2.1.6. Il primo esempio di misura σ -finita che si incontra nei corsi di analisi matematica è la
misura di Lebesgue; essa è definita sullo spazio Euclideo d-dimensionale, Ω = Rd , munito della σ -algebra
degli insiemi misurabili secondo Lebesgue.
Esempio 2.1.8. [!] Consideriamo il fenomeno aleatorio del lancio di un dado regolare a sei facce. Lo spazio
campionario
Ω = {1, 2, 3, 4, 5, 6}
rappresenta gli stati possibili (esiti) dell’esperimento aleatorio considerato. Intuitivamente, un evento è
un’affermazione relativa all’esito dell’esperimento, per esempio:
i) A = {1, 3, 5};
ii) B = {4};
iii) C = ∅.
Questo spiega perché matematicamente abbiamo definito un evento come un sottoinsieme di Ω. In parti-
colare, B è detto un evento elementare poiché è costituito da un singolo esito. È bene porre attenzione nel
distinguere l’esito 4 dall’evento elementare {4}.
Le operazioni logiche fra eventi hanno una traduzione in termini di operazioni insiemistiche, per esempio:
• “A oppure B” corrisponde a A ∪ B;
• “A e B” corrisponde a A ∩ B;
• “non A” corrisponde a Ac = Ω \ A;
• “A ma non B” corrisponde a A \ B.
Esempio 2.1.9. Un corridore ha la probabilità del 30% di vincere la gara dei 100 metri, la probabilità del
40% di vincere la gara dei 200 metri e la probabilità del 50% di vincere almeno una delle due gare. Qual è
la probabilità che vinca entrambe le gare?
Posto
i dati del problema sono: P (A) = 30%, P (B) = 40% e P (A ∪ B) = 50%. Si chiede di determinare P (A ∩ B).
Usando le operazioni insiemistiche (al riguardo si veda anche il successivo Lemma 2.1.25) si prova che
Osservazione 2.1.10. Lo spazio campionario Ω è, per definizione, un generico insieme non vuoto: è lecito
domandarsi che senso abbia assumere un tale grado di generalità. In effetti vedremo che nei problemi più
classici Ω sarà semplicemente un insieme finito oppure lo spazio Euclideo Rd . Tuttavia, nelle applicazioni
più interessanti può anche capitare che Ω sia uno spazio funzionale (come, per esempio, lo spazio delle
funzioni continue). Spesso Ω avrà anche una certa struttura, per esempio quella di spazio metrico, per avere
a disposizione alcuni strumenti utili allo sviluppo della teoria.
2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 25
Esempio 2.1.11 (Probabilità uniforme discreta). Sia Ω finito. Per ogni A ⊆ Ω indichiamo con |A| la
cardinalità di A e poniamo
|A|
P (A) = . (2.1.1)
|Ω|
Allora P è una misura di probabilità, detta probabilità uniforme, e per definizione vale
1
P ({ω}) = , ω ∈ Ω,
|Ω|
ossia ogni esito è “equiprobabile”. La probabilità uniforme corrisponde al concetto classico di probabilità
secondo Laplace, come ricordato nella premessa. Per esempio, nel caso del lancio di un dado regolare a sei
facce, è naturale considerare la probabilità uniforme
1
P ({ω}) = , ω ∈ Ω := {1, 2, 3, 4, 5, 6}.
6
Osservazione 2.1.12. Uno spazio di probabilità in cui ogni evento elementare è equiprobabile e ha proba-
bilità positiva, è necessariamente finito. Di conseguenza, per esempio, non è possibile definire la probabilità
uniforme su N: infatti dovrebbe essere P ({n}) = 0 per ogni n ∈ N e di conseguenza, per la σ -additività, anche
P (N) = 0 che è assurdo.
Osservazione 2.1.13. [!] In uno spazio di probabilità discreto (Ω, P ), consideriamo la funzione
p : Ω −→ [0, 1], p(ω) = P ({ω}), ω ∈ Ω.
È chiaro che p è una funzione non-negativa che gode della proprietà
X X
p(ω) = P ({ω}) = P (Ω) = 1. (2.1.2)
ω∈Ω ω∈Ω
Si noti che le somme in (2.1.2) sono serie a termini non-negativi e pertanto il loro valore non dipende
dall’ordine degli addendi. La seconda uguaglianza in (2.1.2) è conseguenza della σ -additività di P .
Possiamo dire che esiste
P una relazione biunivoca fra p e P nel senso che, data una qualsiasi funzione
non-negativa p tale che p(ω) = 1, e posto
ω∈Ω
X
P (A) := p(ω), A ⊆ Ω,
ω∈A
pi = P ({ωi }), i = 1, . . . , N .
Questa definizione di spazio di probabilità (Ω, P ) è equivalente alla definizione generale (Definizione 2.1.7,
ovviamente nel caso di Ω finito). La cosiddetta probabilità classica o uniforme è quella in cui gli esiti sono
equiprobabili, p1 = p2 = · · · = pN , per cui dalla (2.1.3) si deduce che il loro valore comune è N1 . Dunque
la probabilità classica è solo un caso molto particolare, anche se significativo, fra le infinite misure di
probabilità che si possono scegliere: in quel caso, chiaramente la (2.1.4) si riduce alla formula dei “casi
favorevoli su casi possibili”.
Esempio 2.1.15. Diamo una soluzione alternativa al problema dell’Esempio 2.1.9. Possiamo usare come
spazio campionario Ω = {vv, vp, pv, pp}, dove vv è l’esito in cui il corridore vince entrambe le gare, vp è
l’esito in cui il corridore vince la prima gara e perde la seconda, e cosı̀ via: quindi A = {vv, vp} e B = {vv, pv}.
Se p = p(ω) indica la probabilità dei singoli esiti, in base ai dati del problema otteniamo il sistema lineare
p(vv) + p(vp) = 30%
p(vv) + p(pv) = 40%
p(vv) + p(vp) + p(pv) = 50%
da cui ricaviamo p(vv) = P (A ∩ B) = 20%, p(vp) = 10%, p(pv) = 20% e p(pp) = 1 − p(vv) − p(vp) − p(pv) = 50%.
Definizione 2.1.16 (Insiemi trascurabili e quasi certi). In uno spazio di probabilità (Ω, F , P ) diciamo che:
Gli insiemi trascurabili e quasi certi non sono necessariamente eventi e quindi in generale la probabilità
P (A) non è definita per A trascurabile o quasi certo.
Osservazione 2.1.18. In uno spazio completo gli insiemi trascurabili (e di conseguenza anche i quasi certi)
per P sono eventi. Pertanto in uno spazio completo si ha che
• N è trascurabile se e solo se P (N ) = 0;
Chiaramente la proprietà di completezza dipende dalla misura di probabilità considerata. Vedremo in se-
guito che è sempre possibile “completare” uno spazio di probabilità (cfr. Osservazione 2.4.3) e spiegheremo
l’importanza della proprietà di completezza (si vedano, per esempio, le Osservazioni 3.1.11 e 3.1.14).
2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 27
Poiché ci sarà utile considerare misure definite su algebre, diamo la seguente estensione del concetto di
misura (cfr. Definizione 2.1.3).
Definizione 2.1.21 (Misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una misura su A è
una funzione
µ : A −→ [0, +∞]
tale che:
i) µ(∅) = 0;
ii) µ è σ -additiva su A nel senso che per ogni successione (An )n∈N di elementi disgiunti di A , tale che
An ∈ A , vale
U
A :=
n∈N
∞
X
µ (A) = µ (An ) .
n=1
Proviamo alcune proprietà basilari delle misure (e quindi, in particolare, delle misure di probabilità).
Proposizione 2.1.22. Sia µ una misura su un’algebra A . Valgono le seguenti proprietà:
i) Monotonia: per ogni A, B ∈ A tali che A ⊆ B vale
Dal fatto che µ(B \ A) ≥ 0 segue la (2.1.5) e, nel caso particolare in cui µ(A) < ∞, segue anche la (2.1.6).
Per provare la ii), poniamo
n
[
e1 := A1 ∩ A,
A en+1 := A ∩ An+1 \
A Ak .
k=1
Osserviamo che A en ⊆ An . Inoltre gli insiemi Aen appartengono all’algebra A poiché sono ottenuti con
operazioni finite da elementi di A e, per ipotesi, vale
]
en = A ∈ A .
A
n∈N
Esempio 2.1.23. La (2.1.7) è utile per risolvere problemi del tipo seguente: calcoliamo la probabilità di
ottenere almeno un 6 lanciando 8 volte un dado. Definiamo Ω come l’insieme delle possibili sequenze di
lanci: allora |Ω| = 68 . Possiamo determinare la probabilità dell’evento che ci interessa (chiamiamolo A) più
facilmente considerando Ac , ossia l’insieme delle sequenze che non contengono 6: infatti si avrà |Ac | = 58 e
quindi per la (2.1.7)
58
P (A) = 1 − P (Ac ) = 1 − 8 .
6
Esercizio 2.1.24. Siano A, B eventi certi, ossia tali che P (A) = P (B) = 1. Provare che anche A ∩ B è un evento
certo.
µ : A −→ [0, +∞]
Osservazione 2.1.26. Nel caso di misure di probabilità, la (2.1.8) si riscrive utilmente nella forma
Esempio 2.1.27. Lanciando due dadi, qual è la probabilità che almeno uno dei due lanci abbia un risultato
minore o uguale a 3?
Poniamo In = {k ∈ N | k ≤ n} e consideriamo lo spazio campionario Ω = I6 × I6 delle possibili coppie di
risultati dei lanci. Sia A = I3 × I6 (e rispettivamente B = I6 × I3 ) l’evento in cui il risultato del primo dado
(rispettivamente del secondo dado) sia minore o uguale a 3. Ci è chiesto di calcolare la probabilità di A ∪ B.
Notiamo che A, B non sono disgiunti e nella probabilità uniforme P , contando gli elementi, abbiamo
3·6 1 3·3 1
P (A) = P (B) = = , P (A ∩ B) = = .
6·6 2 6·6 4
Allora per la (2.1.9) otteniamo
3
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = .
4
Osservazione 2.1.28. La (2.1.8) si generalizza facilmente al caso di tre insiemi A1 , A2 , A3 ∈ F :
Allora ovviamente P (Ω) = 1 e la probabilità dell’evento [a, b] (che può essere interpretato come l’evento
“un punto scelto a caso in [0, 1] appartiene ad [a, b]”) dipende solo dalla lunghezza di [a, b] ed è invariante
per traslazione. Notiamo che P ({x}) = P ([x, x]) = 0 per ogni x ∈ [0, 1], ossia ogni esito ha probabilità nulla,
e P altro non è che la misura di Lebesgue. Giuseppe Vitali provò nel 1905 (cf. [125]) che non è possibile
estendere la misura di Lebesgue a tutto l’insieme delle parti P(Ω) o, in altri termini, non esiste P definita
30 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
sull’insieme delle parti di [0, 1], che sia σ -additiva e soddisfi la (2.1.10). Se questo è vero ne viene che, nel
caso di spazi di probabilità generali, diventa necessario introdurre una σ -algebra di eventi su cui definire P :
in generale, tale σ -algebra sarà più piccola dell’insieme delle parti di Ω.
Nel nostro contesto, il risultato di Vitali può essere enunciato nel modo seguente: non esiste una misura
di probabilità P su ([0, 1], P([0, 1])) che sia invariante per traslazioni, ossia tale che P (A) = P (Ax ) per ogni
A ⊆ [0, 1] e x ∈ [0, 1], dove
La dimostrazione procede per assurdo ed è basata sull’assioma della scelta. Consideriamo su [0, 1] la rela-
zione di equivalenza x ∼ y se e solo se (x − y) ∈ Q: per l’assioma della scelta, da ogni classe di equivalenza
è possibile selezionare un rappresentante e fatto ciò, indichiamo con A l’insieme formato da tali rappre-
sentanti. Ora, per ipotesi, P (Aq ) = P (A) per ogni q ∈ Q ∩ [0, 1] e inoltre Aq ∩ Ap = ∅ per q , p in Q ∩ [0, 1].
Dunque otteniamo ]
[0, 1] = Aq
q∈Q∩[0,1]
Tuttavia l’ultima somma può solo assumere il valore 0 (nel caso in cui P (A) = 0) oppure divergere (nel caso
in cui P (A) > 0) e ciò porta ad un assurdo. Si noti che l’assurdo è conseguenza della richiesta di additività
numerabile (ossia σ -additività) di P .
An ↗ A e Bn ↘ B
S
per indicare che (An )n∈N è una successione crescente di insiemi tale che A = An , e (Bn )n∈N è una
T n∈N
successione decrescente di insiemi tale che B = Bn .
n∈N
µ : A −→ [0, +∞]
i) µ è σ -additiva;
ii) µ è σ -subadditiva4 ;
iii) µ è continua dal basso, ossia per ogni successione (An )n∈N in A tale che An ↗ A, con A ∈ A , vale
Infine, se µ(Ω) < ∞ allora i), ii), iii) e iv) sono equivalenti.
Dimostrazione. Preliminarmente osserviamo che µ è monotona: questo si prova come la Proposizione 2.1.22-
i).
[i) ⇒ ii)] È il contenuto della Proposizione 2.1.22-ii).
[ii) ⇒ iii)] Sia A ∋ An ↗ A ∈ A . Per monotonia si ha
(per la σ -subadditività di µ)
∞
X n
X
≤ µ(Ck ) = lim µ(Ck ) =
n→∞
k=1 k=1
= lim µ(An ).
n→∞
[iii) ⇒ i)] Sia (An )n∈N una successione di elementi disgiunti di A , tale che A := An ∈ A . Posto
U
n∈N
n
[
Ān = Ak ,
k=1
si ha Ān ↗ A e Ān ∈ A per ogni n. Allora, per l’ipotesi di continuità dal basso di µ, si ha
osservando che il limite delle somme parziali esiste, finito o no, poiché µ ha valori non-negativi.
[iii) ⇒ iv)] Supponiamo valga la iii). Se Bn ↘ B allora An := B1 \ Bn è tale che An ↗ A := B1 \ B. Se µ(B1 ) < ∞,
per la proprietà (2.1.6) che vale sotto la sola ipotesi di additività, si ha5
µ (B) = µ (B1 \ A)
∞ ∞ ∞ ∞
5 Nel dettaglio: si ha B \ S A = B ∩ T Ac = T (B ∩ Ac ) = T B .
1 n 1 n 1 n n
n=1 n=1 n=1 n=1
32 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
= µ(B1 ) − µ(A) =
[iv) ⇒ iii)] Sotto l’ipotesi che µ(Ω) < ∞, il fatto che iv) implichi iii) si dimostra come nel punto prece-
dente ponendo Bn = Ω \ An e utilizzando il fatto che se (An )n∈N è crescente allora (Bn )n∈N è decrescente e
ovviamente µ(B1 ) < ∞.
Notazione 2.2.1.
In = {k ∈ N | k ≤ n} = {1, 2, . . . , n}, n ∈ N.
Si dice che un insieme A ha cardinalità n ∈ N, e si scrive |A| = n oppure ♯A = n, se esiste una funzione
biettiva da In ad A. Inoltre per definizione |A| = 0 se A = ∅. Scriviamo A ↔ B se |A| = |B|. In questa sezione
consideriamo solo insiemi con cardinalità finita.
Provare per esercizio le seguenti proprietà:
poiché AB ↔ A × · · · × A.
| {z }
|B| volte
1) estrazione con reimmissione, con k ∈ N, in cui, per l’estrazione successiva, la pallina estratta viene
reinserita nell’urna;
2) estrazione senza reimmissione, con k ∈ {1, . . . , n}, in cui la pallina estratta non viene reinserita nell’urna;
3) estrazione simultanea, con k ∈ {1, . . . , n}, in cui le k palline vengono estratte simultaneamente.
Si noti che:
• nell’estrazione con reimmissione il numero totale di palline nell’urna e la sua composizione si man-
tengono costanti nelle successive estrazioni; dato che si estrae una pallina per volta, si tiene conto
dell’ordine di estrazione; inoltre è possibile che ci siano delle ripetizioni, ovvero è possibile estrarre più
volte la stessa pallina;
• nell’estrazione senza reimmissione ad ogni estrazione il numero totale di palline nell’urna si riduce di
un’unità e quindi ogni volta si modifica la composizione dell’urna stessa; anche in questo caso si tiene
conto dell’ordine di estrazione; invece le ripetizioni non sono più possibili (infatti una volta estratta,
la pallina non viene più reinserita nell’urna);
• l’estrazione simultanea corrisponde all’estrazione senza reimmissione in cui non si tiene conto dell’or-
dine di estrazione.
Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione Estrazione
Si tiene conto dell’ordine senza con
reimmissione reimmissione
Estrazione
Non si tiene conto dell’ordine
simultanea
−
Torneremo in seguito sul quarto caso corrispondente alla casella vuota e, in particolare, sul perché non
sia stato considerato (si veda l’Osservazione 2.2.13). Per ognuno dei tre tipi di estrazione descritti sopra
vogliamo determinare uno spazio campionario Ω, con cardinalità più piccola possibile, che permetta di
descrivere tale esperimento aleatorio. Affronteremo tale questione nella Sezione 2.2.4 in cui vedremo che
Ω sarà dato rispettivamente da:
1) l’insieme DRn,k delle disposizioni con ripetizione di k elementi di {e1 , . . . , en }, nel caso dell’estrazione con
reimmissione;
2) l’insieme Dn,k delle disposizioni semplici di k elementi di {e1 , . . . , en }, nel caso dell’estrazione senza
reimmissione;
3) l’insieme Cn,k delle combinazioni di k elementi di {e1 , . . . , en }, nel caso dell’estrazione simultanea.
Prima di introdurre questi tre insiemi fondamentali, illustriamo un metodo generale che utilizzeremo per
determinare la cardinalità di DRn,k , Dn,k , Cn,k e di altri insiemi finiti.
Sia n = |A| la cardinalità di A e indichiamo con a1 , . . . , an i suoi elementi. Analogamente, sia k = |B| la
cardinalità di B e indichiamo con b1 , . . . , bk i suoi elementi. Dato che AB è l’insieme delle funzioni da B ad
A, possiamo caratterizzare univocamente ogni funzione in AB tramite le seguenti k = |B| scelte successive:
1) come prima scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b1 ; abbia-
mo n = |A| possibilità (quindi n1 = n), ossia questa prima scelta determina una partizione di A in n
sottoinsiemi (non serve scrivere quali sono questi sottoinsiemi, ma solo quanto vale n1 );
2) come seconda scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b2 ;
abbiamo n = |A| possibilità (quindi n2 = n);
3) · · ·
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 35
4) come k-esima e ultima scelta (con k = |B|) fissiamo il valore che le funzioni di AB assumono in
corrispondenza di bk ; abbiamo n = |A| possibilità (quindi nk = n).
Dal metodo delle scelte successive si deduce che
AB = |A| · · · |A| = |A||B| .
| {z }
k = |B| volte
Nel seguito, quando applicheremo il metodo delle scelte successive, procederemo come nei punti 1)-4),
limitandoci a dire quale scelta viene effettuata ad ogni passo e quante possibilità (o modi) ci sono per
fare questa scelta; mentre non faremo riferimento alla partizione che ogni scelta determina, dato che è in
generale chiaro quale essa sia.
E = {e1 , e2 , . . . , en }
che rappresenta un’urna, contenente n palline numerate, con la quale si effettuano gli esperimenti aleatori
di estrazione.
Definizione 2.2.2 (Disposizioni con ripetizione). Dato k ∈ N, diciamo che
DRn,k := E × · · · × E = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E}
| {z }
k volte
è l’insieme delle disposizioni con ripetizione di k elementi di E. Per la (2.2.2) vale DRn,k = nk .
L’insieme DRn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni con reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, DRn,k esprime i modi in cui possiamo scegliere, in maniera ordinata e ripetuta, k oggetti presi
da un insieme di n oggetti.
Esempio 2.2.3. Sia E = {a, b, c}. Allora |DR3,2 | = 32 e precisamente
DR3,2 = {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.
Esempio 2.2.4. Determiniamo i “casi possibili” dei seguenti esperimenti aleatori (le soluzioni sono a fondo
pagina6 ):
i) si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto italiano (che ha 21
lettere);
ii) si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere tra 1, 2 o X;
iii) si lancia 10 volte un dado (non truccato) a sei facce.
Definizione 2.2.5 (Disposizioni semplici). Dato k ≤ n, diciamo che
L’insieme Dn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni senza reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, Dn,k esprime i modi in cui possiamo disporre, in maniera ordinata e non ripetuta, un numero
k di oggetti scelti da un insieme di n oggetti.
La formula (2.2.3) si può dimostrare tramite il metodo delle scelte successive, caratterizzando il generico
elemento (ω1 , . . . , ωk ) di Dn,k come segue:
3) · · ·
4) come k-esima e ultima scelta fissiamo ωk : abbiamo n − k + 1 possibilità, dato che abbiamo già scelto
ω1 , . . . , ωk−1 e quindi nk = n − k + 1.
D3,2 = {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.
Esempio 2.2.7. Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione) al gioco
del lotto (in cui si estraggono senza reimmissione cinque numeri dai primi novanta naturali), supponendo
di giocare un’unica cinquina (ad esempio la sequenza ordinata 13, 5, 45, 21, 34)? Quanto vale invece la
probabilità di fare una cinquina semplice (per cui non conta l’ordine di estrazione)?
Soluzione. La probabilità di fare una cinquina secca è semplicemente D 1 ≈ 1.89 · 10−10 .
| 90,5 |
Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti modi differenti si possono ordinare 5
|D |
numeri, pari a D5,5 = 5!. Allora la probabilità di una cinquina semplice dopo 5 estrazioni è D 5,5 ≈ 2.27 · 10−8 .
| 90,5 |
Definizione 2.2.8 (Permutazioni). Indichiamo con Pn := Dn,n l’insieme delle permutazioni di n oggetti.
Vale
|Pn | = n!
L’insieme Pn esprime i modi in cui possiamo riordinare, ossia disporre in maniera ordinata e non
ripetuta, un numero n di oggetti.
Definizione 2.2.9 (Combinazioni). Dato k ≤ n, indichiamo con Cn,k l’insieme delle combinazioni di k
elementi di E, definito come la famiglia dei sottoinsiemi di E di cardinalità k:
Cn,k = {A ⊆ F | |A| = k} .
L’insieme Cn,k è lo spazio campionario naturale per descrivere l’esito dell’estrazione simultanea di k
palline da un’urna che ne contiene n: ogni elemento {ω1 , . . . , ωk } indica un gruppo di k palline estratte.
Più in generale, Cn,k esprime tutti i gruppi di k oggetti scelti da un insieme di n oggetti, in maniera non
ordinata e non ripetuta.
Proposizione 2.2.11. Si ha !
|Dn,k | n! n
Cn,k = = = . (2.2.4)
|Pk | k!(n − k)! k
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 37
Dimostrazione. A differenza del calcolo di |DRn,k | e |Dn,k |, non è possibile scomporre il calcolo di |Cn,k | in una
sequenza di scelte successive. Tuttavia, dimostrare la (2.2.4) equivale a dimostrare la seguente uguaglianza:
Dimostriamo la (2.2.5) applicando il metodo delle scelte successive all’insieme Dn,k , caratterizzando il
generico elemento ω = (ω1 , . . . , ωk ) di Dn,k in base al seguente schema:
1) come prima scelta fissiamo il sottoinsieme {ω1 , . . . , ωk } di E formato dalle componenti di ω: abbiamo
|Cn,k | possibilità e quindi n1 = |Cn,k |;
2) come seconda e ultima scelta fissiamo la permutazione dei k elementi ω1 , . . . , ωk che descrive l’ordine
in cui sono disposti in ω: abbiamo |Pk | possibilità e quindi n2 = |Pk |.
Dal metodo delle scelte successive si deduce la validità di (2.2.5) e dunque di (2.2.4).
Gli insiemi DRn,k , Dn,k (e dunque anche Pn = Dn,n ) e Cn,k sono importanti non solo perché sono gli spazi
campionari dei tre esperimenti aleatori introdotti nella Sezione 2.2.2, ma anche perché le cardinalità di tali
insiemi spesso corrispondono ai numeri n1 , n2 , . . . , nk del metodo delle scelte successive; per esempio, per il
calcolo di |Dn,k | in (2.2.5) abbiamo scelto n1 = |Cn,k | ed n2 = |Pk |.
Possiamo completare la tabella della Sezione 2.2.2, riportando anche gli spazi campionari e le loro
cardinalità (ovvero i “casi possibili”).
Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk
Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k |
= nk
|Ω| = k!
Tabella 2.2: Classificazione del tipo di estrazioni da un’urna e relazione con disposizioni e combinazioni
Osservazione 2.2.12. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sarebbe sufficiente
considerare solamente i primi due: l’estrazione senza reimmissione e l’estrazione con reimmissione. Infatti
l’estrazione simultanea può essere vista come un caso particolare dell’estrazione senza reimmissione in cui
non si tiene conto dell’ordine. Più precisamente, ad ogni elemento di Cn,k , ovvero ad ogni sottoinsieme di
k palline scelta fra n, corrispondono k! elementi (o k-uple) di Dn,k , di conseguenza vale che
Osservazione 2.2.13. La casella vuota nella tabella sopra riportata corrisponde all’insieme delle cosiddet-
te combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non ordinati ed eventualmente ripetuti,
di k oggetti scelti da un insieme di n oggetti. L’esperimento aleatorio corrispondente è l’estrazione con
38 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
reimmissione in cui non si tiene conto dell’ordine: questo esperimento aleatorio può essere descritto an-
che dallo spazio campionario DRn,k munito della probabilità uniforme discreta. Al contrario, sullo spazio
delle combinazioni con ripetizione la probabilità non può essere quella uniforme discreta. Infatti ad ogni
combinazione con ripetizione non corrisponde sempre lo stesso numero di elementi di DRn,k (come invece
accade nel caso di Cn,k e Dn,k ) e la costante di proporzionalità dipende da quante ripetizioni ci sono all’in-
terno della combinazione: le combinazioni con più ripetizioni sono meno probabili. Per questa ragione su
tale spazio non vale la formula “casi favorevoli/casi possibili”, ovvero non si possono usare le tecniche del
calcolo combinatorio.
Esempio 2.2.14. Riconsideriamo il calcolo della probabilità di una cinquina semplice al gioco del lotto:
poiché non conta l’ordine di estrazione dei numeri, siamo nel caso dell’estrazione simultanea, quindi è
naturale considerare Ω = C90,5 . In effetti la probabilità della cinquina è |C 1 | che coincide con il risultato
90,5
5!
che avevamo già trovato usando le disposizioni semplici, ossia .
|D90,5 |
Esercizio 2.2.15. Calcoliamo la probabilità di ottenere una cinquina semplice dopo k ≥ 5 estrazioni.
Soluzione. Poniamo Ω = C90,k . Indichiamo con A l’evento che ci interessa, ossia la famiglia degli insiemi di k numeri in cui 5
sono fissati e i rimanenti k − 5 sono qualsiasi fra i restanti 85 numeri. Allora si ha
|C85,k−5 |
P (A) = .
|C90,k |
(3) in 5 estrazioni senza reimmissione si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme, anche
diversi fra loro.
Soluzione. (1) L’estrazione è senza reimmissione, ma l’evento A = “si ottengono 5 denari” non tiene conto dell’ordine. Quindi
tale estrazione può essere vista anche come un’estrazione simultanea. Perciò possiamo scegliere come spazio campionario
Ω = C40,5 (scegliere Ω = D40,5 andrebbe comunque bene). L’esito ω = {ω1 , ω2 , ω3 , ω4 , ω5 } corrisponde dunque all’insieme
delle carte estratte. Allora A ↔ C10,5 (le possibile scelte, non ordinate e non ripetute, di 5 denari) e quindi
10
P (A) = 5 ≈ 0.04 %.
40
5
(2) Questa volta l’estrazione è con reimmissione, quindi occorre considerare Ω = DR40,5 (in realtà, anche in questo caso
l’evento A non tiene conto dell’ordine; tuttavia quando c’è ripetizione l’unico spazio che possiamo scegliere per poter utilizzare
le tecniche del calcolo combinatorio è lo spazio delle disposizioni con ripetizione). L’esito ω può essere identificato con la
sequenza (ω1 , ω2 , ω3 , ω4 , ω5 ), ordinata e con possibili ripetizioni, delle carte estratte. In questo caso A ↔ DR10,5 (le possibile
scelte, ordinate e ripetute, di 5 denari) e quindi
105
P (A) = 5 ≈ 0.1 %.
40
(3) In questo caso l’estrazione è senza reimmissione e l’evento A = “si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme,
anche diversi fra loro” tiene conto dell’ordine, quindi lo spazio campionario naturale è Ω = D40,5 . Abbiamo che A ↔ DR4,5
(si sceglie in modo ordinato la sequenza dei semi delle 5 carte estratte) e quindi
|DR4,5 |
P (A) = ≈ 10−3 %.
|D40,5 |
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 39
0! = 1 e 00 = 1. (2.2.6)
si ha che p0 , . . . , pn sono numeri non-negativi con somma pari a 1. Quindi, per l’Osservazione 2.1.13,
ponendo P ({k}) = pk si definisce una misura di probabilità sullo spazio campionario Ω = {0, . . . , n},
detta probabilità binomiale.
Diamo un’interpretazione della probabilità binomiale nel seguente
7 Una dimostrazione alternativa, di carattere combinatorio, della formula di Newton è la seguente: il prodotto (a + b)(a + b) · · · (a + b)
di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk con 0 ≤ k ≤ n. Quanti sono i monomi di un certo tipo (cioè
con k fisso)? Il monomio an−k bk si ottiene scegliendoil valore b da k degli n fattori disponibili nel prodotto (a + b)(a + b) · · · (a + b) (e,
quindi, scegliendo a dai rimanenti n − k), ovvero in nk modi.
40 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Esempio 2.2.19 (Ipergeometrica). Consideriamo un’urna che contiene b palline bianche ed r palline rosse,
con b, r ∈ N. Effettuiamo n ≤ b + r estrazioni senza reimmissione. Calcoliamo la probabilità dell’evento Ak
che consiste nell’estrazione di esattamente k palline bianche, con max{0, n−r} ≤ k ≤ min{n, b}. La condizione
max{0, n − r} ≤ k ≤ min{n, b} equivale a richiedere che valgano simultaneamente le tre condizioni seguenti:
• 0 ≤ k ≤ n;
• k ≤ b, ovvero il numero di palline bianche estratte non superi b;
• n − k ≤ r, ovvero il numero di palline rosse estratte non superi r.
Determiniamo lo spazio campionario: dato che non importa l’ordine di estrazione possiamo considerare
Ω = Cb+r,n (alternativamente, possiamo scegliere Ω = Db+r,n ). L’esito ω corrisponde all’insieme delle palline
estratte (supponendo di aver numerato le palline per identificarle). Caratterizziamo il generico esito ω ∈ Ak
tramite le seguenti scelte successive:
i) scegliamo le k palline bianche estratte dalle b presenti nell’urna: ci sono |Cb,k | modi possibili;
ii) scegliamo le n − k palline rosse estratte dalle r presenti nell’urna: ci sono |Cr,n−k | modi possibili.
In definitiva
b r
|Cb,k ||Cr,n−k | k n−k
P (Ak ) = = b+r
, max{0, n − r} ≤ k ≤ min{n, b}.
|Cb+r,n |
n
8 Infatti ogni sottoinsieme di cardinalità k di I identifica k estrazioni delle n, e viceversa. Ad esempio, se n = 4 e k = 2, il
n
sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a estrazione, e viceversa.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 41
2.2.6 Esempi
Proponiamo una serie di esempi utili a prendere familiarità con i problemi di conteggio.
Esempio 2.2.20. Consideriamo un gruppo di k ≥ 2 persone nate nello stesso anno (di 365 giorni). Calcolare
la probabilità che almeno due persone del gruppo siano nate nello stesso giorno.
Soluzione. Possiamo riformulare il problema come segue: un’urna contiene 365 palline numerate da 1 a 365; la pallina numero
N corrisponde all’N -esimo giorno dell’anno; si estraggono con reimmissione k palline; qual è la probabilità che di estrarre due
volte lo stesso numero? Abbiamo dunque ricondotto il problema all’estrazione con reimmissione di k palline da un’urna che
ne contiene 365. Sappiamo che lo spazio campionario naturale è Ω = DR365,k . Sia A l’evento che ci interessa, ovvero A =
“almeno due persone sono nate nello stesso giorno”. Allora Ac ↔ D365,k e quindi
|D365,k | 365!
P (A) = 1 − P (Ac ) = 1 − = 1− .
|DR365,k | (365 − k)! · 365k
Si vede che P (A) ≈ 0.507 > 12 per k = 23 e P (A) ≈ 97% per k = 50.
Esempio 2.2.21. Si estraggono (senza reimmissione) 2 carte da un mazzo di 40 carte identificate dal seme
(spade, coppe, bastoni, denari) e dal tipo (asso, 2, 3, 4, 5, 6, 7, fante, cavallo, re). Calcoliamo la probabilità
dell’evento A definito in ognuno dei modi seguenti:
(1) le due carte sono, nell’ordine, una carta di denari e una di coppe;
100 5
= = 2P (A).
|C40,2 | 39
(2) Poniamo Ω = D40,2 . Non possiamo determinare |A| tramite le due scelte successive i)-ii) del punto (1), in quanto pro-
cedendo in questo modo conteremmo anche la coppia (7D, 7D) che invece deve essere esclusa visto che le carte non vengono
reinserite nel mazzo. Invece di applicare direttamente ad A il metodo delle scelte successive, notiamo che A è unione disgiunta
di A1 = D9,1 × D4,1 (la prima carta è una carta di denari diversa da 7 e la seconda carta è uno dei quattro 7) e A2 = D3,1 (la
prima carta è il 7 di denari e la seconda carta è uno dei rimanenti tre 7). Dunque
9·4 3 1
P (A) = P (A1 ) + P (A2 ) = + = .
|D40,2 | |D40,2 | 40
1 .
(3) Poiché non conta l’ordine P (A) è il doppio rispetto al caso (2), quindi P (A) = 20
Esempio 2.2.22. Si divida un mazzo di 40 carte in due mazzi da 20. Calcoliamo la probabilità dell’evento
A definito in ognuno dei modi seguenti:
Esempio 2.2.23. Da un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N, vengono estratte
senza reimmissione k palline, con k ≤ b+r. Calcoliamo la probabilità dell’evento Bk che consiste nell’estrarre
una pallina bianca alla k-esima estrazione.
Soluzione. Poniamo Ω = Db+r,k . L’esito ω può essere identificato con il vettore che indica la sequenza ordinata e senza
ripetizioni delle k estrazioni (supponendo di aver numerato le palline per identificarle). Allora
Bk ↔ {(ω1 , . . . , ωk ) | ωk “bianca”}.
Per determinare |Bk | utilizziamo il metodo delle scelte successive, caratterizzando una generica k-upla (ω1 , . . . , ωk ) tramite il
seguente schema:
i) scegliamo la pallina bianca della k-esima estrazione, ossia ωk : ci sono b modi possibili;
ii) scegliamo la sequenza (ordinata e senza ripetizioni) delle k −1 estrazioni precedenti: ci sono |Db+r−1,k−1 | modi possibili.
In definitiva, posto b + r = n, si ha
(n−1)!
b|Dn−1,k−1 | b (n−k)! b
P (Bk ) = = = .
|Dn,k | n! n
(n−k)!
Dunque P (Bk ) = b+rb coincide con la probabilità di estrarre una pallina bianca alla prima estrazione, ovvero P (B ) = P (B ).
k 1
Questo fatto si può spiegare osservando che Bk è in corrispondenza biunivoca con l’insieme {(ω1 , . . . , ωk ) | ω1 “bianca”}.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 43
Esempio 2.2.24. Si consideri un mazzo di 40 carte, da cui si estraggono senza reimmissione k carte, con
k ≤ 40. Calcoliamo la probabilità che alla k-esima estrazione venga estratta una carta di denari.
Soluzione. L’esempio è simile al precedente: posto Ω = D40,k e Ak = “si estrae una carta di denari alla k-esima estrazione”, la
probabilità di Ak è data da
10|D39,k−1 | 1
P (Ak ) = = .
|D40,k | 4
Esempio 2.2.25. Da un’urna che contiene b palline bianche ed r palline rosse, vengono estratte con reim-
missione 2 palline. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) le due palline hanno lo stesso colore;
(2) almeno una delle due palline è rossa.
Soluzione. Poniamo Ω = DRb+r,2 . L’esito ω può essere identificato con la coppia (ω1 , ω2 ) che indica la sequenza ordinata (e
con eventuale ripetizione) delle due estrazioni (supponendo di aver numerato le palline per identificarle).
(1) Abbiamo che A è unione disgiunta di A1 = DRb,2 (le due palline sono bianche) e A2 = DRr,2 (le due palline sono rosse).
Dunque
|DRb,2 | |DRr,2 | b2 + r 2
P (A) = P (A1 ) + P (A2 ) = + = .
|DRb+r,2 | |DRb+r,2 | (b + r)2
(2) Si ha P (A) = 1 − P (Ac ) con Ac = DRb,2 (le due palline sono bianche) e quindi
b2
P (A) = 1 − .
(b + r)2
Esempio 2.2.26. Consideriamo un mazzo di carte da poker da 52 carte, identificate dal seme (cuori ♥,
quadri ♦, fiori ♣, picche ♠) e dal tipo (un numero da 2 a 10 oppure J, Q, K, A). Calcoliamo la probabilità di
avere un tris servito, ovvero di ricevere dal mazziere 5 carte di cui 3 sono dello stesso tipo, mentre le altre
due di tipo diverso tra loro e dalle prime tre.
Soluzione. Poniamo Ω = C52,5 . Sia A l’evento di cui dobbiamo calcolare la probabilità, ovvero
Come abbiamo detto in precedenza, nonostante la maggior parte degli esperimenti aleatori descritti
dalla probabilità uniforme discreta possa essere formulata su uno dei tre spazi campionari DRn,k , Dn,k ,
Cn,k , ci sono casi in cui questo non è possibile. Tuttavia, è sempre possibile scomporre l’esperimento alea-
torio in opportuni sotto-esperimenti aleatori che possono essere formulati su DRn,k , Dn,k o Cn,k , di modo
che l’esperimento aleatorio di partenza possa essere descritto sul loro prodotto cartesiano. Vediamo più
precisamente come si procede nei tre esempi che seguono.
Esempio 2.2.27. Consideriamo un mazzo di 30 carte (per esempio, denari, coppe e spade). Dopo averlo
diviso in tre mazzi da 10 carte, calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) i tre assi sono in mazzi differenti;
44 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Esempio 2.2.28. Una moneta (non truccata) viene lanciata dieci volte. Dopodiché si lancia un dado a dieci
facce (su cui sono riportati i numeri interi da 1 a 10). Calcoliamo la probabilità dell’evento
A = “il lancio della moneta, il cui numero è fornito dall’esito del dado, ha dato testa”.
In altre parole, l’evento A si verifica se, dopo aver scelto a caso uno dei 10 lanci (tramite il lancio del dado),
il risultato di quel lancio è testa.
Soluzione. Intuitivamente la probabilità è 12 . Consideriamo Ω = DR2,10 × I10 (si noti che al posto dell’insieme I10 è possibile
utilizzare indifferentemente DR10,1 , D10,1 o C10,1 , dato che |I10 | = |DR10,1 | = |D10,1 | = |C10,1 |). L’esito ω = (ω1 , . . . , ω10 , k)
corrisponde alla sequenza ω1 , . . . , ω10 dei risultati dei lanci e alla scelta k del lancio fra i 10 effettuati. Caratterizziamo il
generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il numero k del lancio: ci sono 10 valori possibili;
ii) scegliamo il risultato degli altri 9 lanci: ci sono |DR2,9 | modi possibili.
In definitiva
10|DR2,9 | 10 · 29 1
P (A) = = = .
|DR2,10 × I10 | 10 · 210 2
Esempio 2.2.29.
i) In quanti modi è possibile sistemare 3 monete (distinte: chiamiamole per esempio m1 , m2 e m3 ) in 10
scatole, sapendo che ogni scatola può contenere solo una moneta?
ii) Una volta disposte le monete, qual è la probabilità che la prima scatola contenga una moneta?
iii) Rispondere ai quesiti precedenti nel caso in cui ogni scatola possa contenere al più 2 monete.
Soluzione. 1) Possiamo immaginare che l’esperimento si svolga come segue: un’urna contiene 10 palline numerate da 1 a
10; ogni pallina corrisponde ad una scatola (supponiamo che le scatole siano state anch’esse numerate da 1 a 10); quindi
si estraggono senza reimmissione tre palline: il numero della i-esima pallina estratta indica la scatola in cui verrà messa la
moneta mi , con i = 1, 2, 3. Abbiamo dunque ricondotto l’esperimento all’estrazione senza reimmissione di 3 palline da un’urna
che ne contiene 10. Sappiamo che lo spazio campionario naturale è Ω = D10,3 . Il punto 1) chiede di calcolare i “casi possibili”,
ovvero |D10,3 | = 10!
7! = 720.
2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 45
|D9,3 | 7 3
P (A) = 1 − = 1− = .
|D10,3 | 10 10
Alternativamente, |A| può essere determinato con il metodo delle scelte successive procedendo come segue:
• scelgo la moneta da mettere nella prima scatola: 3 scelte possibili;
• scelgo dove mettere le restanti due monete nelle rimanenti nove scatole: |D9,2 | modi possibili.
Quindi |A| = 3|D9,2 |, perciò
3|DR9,2 | 3
P (A) = = .
720 10
3) Poniamo Ω = Ω1 ⊎ Ω2 , dove:
• Ω1 contiene i “casi possibili” in cui le prime due monete sono nella stessa scatola, e, di conseguenza, la terza moneta è
in una delle rimanenti nove scatole: ci sono 10 · 9 casi possibili di questo tipo, quindi |Ω1 | = 10 · 9;
• Ω2 contiene i “casi possibili” in cui le prime due monete sono in scatole diverse, mentre la terza moneta è in una
qualsiasi delle dieci scatole: ci sono |D10,2 | · 10 casi possibili di questo tipo, quindi |Ω2 | = |D10,2 | · 10.
Dato che Ω = Ω1 ⊎ Ω2 , abbiamo che
Riassumendo, in questa sezione abbiamo esaminato la probabilità uniforme discreta che è essenzial-
mente definita come rapporto fra “casi favorevoli” e “casi possibili”. Il calcolo della probabilità uniforme si
riduce a un problema di conteggio che può essere risolto con gli strumenti del calcolo combinatorio. In tale
contesto, un utile algoritmo per il conteggio di “casi favorevoli” e “casi possibili” è il cosiddetto “metodo
delle scelte successive”. Gli errori più comuni che si commettono nell’utilizzo di tale metodo sono:
Abbiamo anche visto che, nel caso della probabilità uniforme discreta, è spesso utile ripensare il fenomeno
aleatorio come un esperimento (o, eventualmente, una sequenza di esperimenti) in cui si estraggono (con
reimmissione, senza reimmissione, simultaneamente) k palline da un’urna che contiene n palline distinte.
Nell’ambito di questo tipo di problemi abbiamo infine introdotto due esempi notevoli di probabilità: la
binomiale e l’ipergeometrica.
46 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
iv) se B ⊆ A allora P (A | B) = 1;
v) se P (A) = 0 allora P (A | B) = 0.
Dimostrazione. Le proprietà seguono direttamente dalla Definizione 2.3.2: provare i dettagli è un esercizio
molto utile e istruttivo.
Esempio 2.3.5. [!] Riprendiamo il punto ii) dell’Esempio 2.3.1 e consideriamo gli eventi B =“la prima
pallina estratta è nera” e A =“la seconda pallina estratta è bianca”. Per via intuitiva avevamo detto che
la probabilità di A condizionata a B è pari a 32 : ora calcoliamo P (A | B) utilizzando la Definizione 2.3.2.
Chiaramente P (B) = 21 , mentre sullo spazio campionario D4,2 ci sono 4 possibili estrazioni in cui la prima
4
pallina è nera e la seconda è bianca e quindi P (A ∩ B) = 12 = 13 . Ne viene che
P (A ∩ B) 2
P (A | B) = =
P (B) 3
che conferma il risultato intuitivo.
Ora risolviamo il punto i) dell’Esempio 2.3.1 utilizzando il concetto di probabilità condizionata per
evitare l’uso del calcolo combinatorio. La difficoltà del quesito è nel fatto che il risultato della seconda
estrazione dipende dal risultato della prima estrazione e quest’ultimo è incognito: per questo motivo, a
prima vista, sembra impossibile9 calcolare la probabilità dell’evento A. L’idea è di partizionare lo spazio
campionario e considerare separatamente i casi in cui B accade o meno per sfruttare la definizione di pro-
babilità condizionata: abbiamo già provato che P (A | B) = 32 e in modo analogo si vede che P (A | Bc ) = 13 .
Allora si ha
P (A) = P (A ∩ B) + P (A ∩ Bc )
= P (A | B)P (B) + P (A | Bc )P (Bc )
2 1 1 1 1
= · + · =
3 2 3 2 2
che conferma quanto già visto.
Proposizione 2.3.6 (Formula della probabilità totale). [!]
Per ogni evento B tale che 0 < P (B) < 1, vale
P (A) = P (A | B)P (B) + P (A | Bc )(1 − P (B)), A ∈ F. (2.3.2)
Più in generale, se (Bi )i∈I è una partizione10 finita o numerabile di Ω, con P (Bi ) > 0 per ogni i ∈ I, allora
vale X
P (A) = P (A | Bi )P (Bi ), A∈F (2.3.3)
i∈I
9 Un’indagine svolta al quarto anno di alcuni licei di Bologna ha evidenziato un numero significativo di studenti che, di fronte a
questo quesito hanno risposto che non è possibile calcolare la probabilità dell’evento A. Per mettere in crisi questo tipo di convinzione
si può far osservare agli studenti che non c’è ragione per cui le palline nere abbiano maggiore probabilità di essere estratte per seconde
e quindi intuitivamente deve valere P (A) = 12 .
10 Ossia (B )
i i∈I è una famiglia di eventi a due a due disgiunti, la cui unione è uguale a Ω. A volte (Bi )i∈I è chiamato un sistema di
alternative.
48 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
per la σ -additività di P si ha X X
P (A) = P (A ∩ Bi ) = P (A | Bi )P (Bi ).
i∈I i∈I
Vediamo un altro esempio tipico di applicazione della Formula della probabilità totale.
Esempio 2.3.7. Consideriamo due urne: l’urna α contiene 3 palline bianche e 1 rossa; l’urna β contiene 1
pallina bianca e 1 rossa. Calcoliamo la probabilità che, scelta a caso un’urna ed estratta una pallina, essa
sia bianca.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità e con B l’evento in cui viene scelta l’urna
α. Sembra naturale porre
1 3 1
P (B) = , P (A | B) = , P (A | Bc ) = .
2 4 2
Allora per la (2.3.2) otteniamo
3 1 1 1 5
P (A) = · + · = .
4 2 2 2 8
Notiamo che abbiamo formalmente calcolato P (A) senza neppure specificare lo spazio di probabilità!
Seconda soluzione. Diamo ora una seconda soluzione più dettagliata: poniamo
dove αb1 è l’esito in cui viene scelta la prima urna ed estratta la prima pallina bianca e gli altri esiti sono definiti in modo
analogo. Chiaramente
A = {αb1 , αb2 , αb3 , βb}
ma in questo caso la probabilità corretta da utilizzare non è quella uniforme su Ω. Infatti B, l’evento in cui viene scelta l’urna
α, deve avere probabilità 21 e gli elementi di B sono equiprobabili: ne segue che P ({ω}) = 81 per ogni ω ∈ B. Analogamente
P (Bc ) = 12 e gli elementi di Bc sono equiprobabili da cui
1
P ({βb}) = P ({βr}) = .
4
Possiamo dunque calcolare
5
P (A) = P ({αb1 }) + P ({αb2 }) + P ({αb3 }) + P ({βb}) =
8
in accordo con quanto precedentemente trovato.
Esercizio 2.3.8. Si lancia un dado e di seguito si lancia una moneta un numero di volte pari al risultato del
lancio del dado. Qual è la probabilità di ottenere esattamente due teste?
Esempio 2.3.9. Un’urna contiene 6 palline bianche e 4 nere. Estraendo 2 palline senza reinserimento, qual
è la probabilità che siano entrambe bianche (evento A)?
Possiamo interpretare il quesito come un problema di conteggio, utilizzando la probabilità uniforme P
sullo spazio Ω = C10,2 delle combinazioni di due palline estratte fra le 10 disponibili. Allora si ha
6!
|C6,2 | 2!4! 6·5
P (A) = = 10!
= . (2.3.4)
|C10,2 | 2!8!
10 · 9
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 49
6
Ora notiamo che 10 = P (A1 ) dove A1 è l’evento “la prima pallina estratta è bianca”. D’altra parte, se A2
è l’evento “la seconda pallina estratta è bianca”, allora 95 è la probabilità di A2 condizionata ad A1 , ossia
5
9 = P (A2 | A1 ). In definitiva, osservando anche che A = A1 ∩ A2 , la (2.3.4) equivale a
Esempio 2.3.12. Calcoliamo la probabilità di fare un ambo al lotto con i numeri 1 e 3 (evento A), sapendo
che l’estrazione è già avvenuta e tre dei cinque numeri estratti sono dispari (evento B).
Soluzione. Poniamo Ω = C90,5 : l’esito ω = {ω1 , . . . , ω5 } può essere pensato come l’insieme dei numeri estratti. Si ha che ω ∈ A
se 1, 3 ∈ ω e dunque A ↔ C88,3 . Inoltre B ↔ C45,3 × C45,2 (corrispondente alla scelta di tre numeri dispari e due pari fra i 90)
e A ∩ B ↔ C43,1 × C45,2 (corrispondente alla scelta del terzo numero dispari, oltre a 1 e 3, e di due pari fra i 90). Allora si ha
|C88,3 | 43|C45,2 |
P (A) = ≈ 0.25% e P (A | B) = ≈ 0.3%.
|C90,5 | |C45,3 ||C45,2 |
Osservazione 2.3.13. In base alla formula (2.3.2) della probabilità totale, se 0 < P (B) < 1 possiamo determi-
nare univocamente P (A) a partire da P (B), P (A | B) e P (A | Bc ). Notiamo anche che la (2.3.2) implica che P (A)
appartiene all’intervallo di estremi P (A | B) e P (A | Bc ): quindi, indipendentemente dalla conoscenza di P (B),
si ha che P (A | B) e P (A | Bc ) forniscono delle stime del valore di P (A). In particolare se P (A | B) = P (A | Bc )
allora vale anche P (A) = P (A | B) o equivalentemente P (A ∩ B) = P (A)P (B).
Consideriamo ora un problema relativo alla rilevazione dell’opinione degli studenti sulla qualità della
didattica. Definiamo i seguenti eventi aleatori:
• A: un professore riceve un giudizio positivo nella rilevazione dell’opinione degli studenti;
• B: un professore è “bravo” (ammesso di sapere cosa ciò significhi).
Generalmente gli eventi A e B non coincidono: allora possiamo interpretare le probabilità condizionate
P (A | B) e P (B | A) nel modo seguente:
• P (A | B) è la probabilità che un professore “bravo” riceva un giudizio positivo;
• P (B | A) è la probabilità che un professore che riceve un giudizio positivo sia “bravo”.
Riflettendo attentamente sul significato di queste due probabilità condizionate, risulta chiaro che a volte si
può essere interessati a ricavarne una a partire dalla conoscenza dall’altra: tipicamente nella realtà, si può
avere una stima generale (in base a dati storici) di P (A | B) ed essere interessati a conoscere P (B | A) in base
al risultato della rilevazione appena effettuata. Una risposta a questo problema è data dal classico Teorema
di Bayes.
50 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
P (A | B)P (B)
P (B | A) = (2.3.6)
P (A)
Esempio 2.3.15. Riprendiamo l’Esempio 2.3.7: sapendo che è stata estratta una pallina bianca, qual è la
probabilità che sia stata scelta l’urna α?
Soluzione. Come prima indichiamo con A l’evento “viene estratta una pallina bianca” e con B l’evento “viene scelta l’urna α”.
Avevamo già calcolato P (A) = 58 , mentre assumiamo P (A | B) = 43 e P (B) = 12 . Allora per la formula di Bayes abbiamo
P (A | B)P (B) 3
P (B | A) = = .
P (A) 5
P (A) − P (A | Bc )
P (B) = , (2.3.7)
P (A | B) − P (A | Bc )
Esercizio 2.3.17 (Rilevazione della didattica). Supponiamo di sapere che storicamente i professori “bravi”
ricevono un giudizio positivo nel 95% dei casi e i professori “meno bravi” ricevono un giudizio positivo nel
10% dei casi (alcuni professori sono furbi...). Se i giudizi sul corso di laurea sono positivi all’80%, qual è la
probabilità che
ii) i professori che hanno ricevuto un giudizio negativo in realtà siano “bravi”?
Il concetto di indipendenza è relativo alla misura di probabilità considerata11 . Esso esprime il fatto che
l’informazione sull’accadere dell’evento B non influenza la probabilità di A: infatti, se P (B) > 0, la (2.3.8) è
equivalente a
P (A | B) = P (A),
11 A volte è necessario dichiarare esplicitamente la misura di probabilità P considerata. Infatti nelle applicazioni possono intervenire
diverse misure di probabilità contemporaneamente: non è detto che due eventi indipendenti in una misura di probabilità lo siano in
un’altra misura di probabilità.
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 51
ossia
P (A ∩ B) P (A)
=
P (B) P (Ω)
che può essere interpretata come una relazione di proporzionalità
Analogamente, se
P (A ∩ B) > P (A)P (B) (2.3.9)
allora A, B si dicono positivamente correlati in P poiché la (2.3.9) implica12
Osservazione 2.3.19. Chiaramente, il fatto che A, B siano indipendenti non significa che siano disgiunti,
anzi: se P (A) > 0, P (B) > 0 e vale la (2.3.8) allora anche P (A ∩ B) > 0 e quindi A ∩ B , ∅. D’altra parte, se
P (A) = 0 allora anche P (A ∩ B) = 0 (per la (2.1.5) e il fatto che A ∩ B ⊆ A) e quindi la (2.3.8) vale per ogni B,
ossia A è indipendente da ogni evento B.
Osservazione 2.3.20. Abbiamo definito il concetto di indipendenza ma non quello di dipendenza. Se due
eventi A, B non sono indipendenti non diciamo che sono dipendenti: definiremo in seguito un concetto di
dipendenza che è ben distinto e in qualche modo slegato da quello di indipendenza.
Esempio 2.3.21. Due atleti hanno rispettivamente la probabilità del 70% e 80% di battere un record in una
gara. Qual è la probabilità che almeno uno dei due batta il record?
Se A è l’evento “il primo atleta batte il record”, B è l’evento “il secondo atleta batte il record” e assumia-
mo che A e B siano indipendenti allora si ha
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =
(per l’indipendenza)
Esempio 2.3.22. Il fatto che due eventi siano indipendenti non significa che “non hanno nulla a che fare”.
Si consideri il lancio di due dadi e gli eventi “la somma dei lanci è 7” (evento A) e “il risultato del primo
lancio è 3”. Allora A e B sono indipendenti nella probabilità uniforme.
Esempio 2.3.23. Vedremo tra breve che il concetto di indipendenza risulta naturale per descrivere un espe-
rimento che viene ripetuto in modo che ogni ripetizione non influenzi la probabilità delle altre ripetizioni
(per esempio, un sequenza di lanci di un dado o di una moneta). In questo caso risulta naturale utilizzare
uno spazio campionario che sia un prodotto cartesiano. Per esempio, sia Ω = Ω1 × Ω2 finito, munito della
probabilità uniforme P : consideriamo A = E1 × Ω2 e B = Ω1 × E2 con Ei ⊆ Ωi , i = 1, 2. Allora
Esercizio 2.3.24. Al cinema due persone α, β decidono quale film vedere, tra due disponibili, in maniera
indipendente e con le seguenti probabilità:
1 1
P (α1 ) = , P (β1 ) =
3 4
dove α1 indica l’evento “α sceglie il primo film”. Calcolare la probabilità che α e β vedano lo stesso film.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità. Abbiamo
dove (i, j) indica l’esito “α sceglie il film i e β sceglie il film j” con i, j = 1, 2. Per ipotesi conosciamo le probabilità degli eventi
tuttavia questo non è sufficiente a determinare univocamente la probabilità P , ossia a determinare le probabilità dei singoli
esiti. In effetti per fare ciò, è necessario utilizzare anche l’ipotesi di indipendenza (in P ) di α1 e β1 , da cui ricaviamo per
esempio
1
P ({(1, 1)}) = P (α1 ∩ β1 ) = P (α1 )P (β1 ) = .
12
Analogamente possiamo calcolare tutte le probabilità degli esiti e di conseguenza risolvere il problema. Notiamo che questa
procedura basata sul conteggio risulta più laboriosa e meno intuitiva.
P (A ∩ Bc ) = P (A \ B) = P (A \ (A ∩ B)) =
(per la (2.1.6))
= P (A) − P (A ∩ B) =
Esercizio 2.3.26. Al cinema due persone α, β decidono quale film vedere fra tre disponibili, nel modo
seguente:
i) α sceglie un film a caso con le seguenti probabilità
1 1 1
P (α1 ) = , P (α2 ) = , P (α3 ) =
2 3 6
dove αi indica l’evento “α sceglie il film i-esimo” per i = 1, 2, 3;
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 53
ii) β lancia una moneta e se il risultato è “testa” allora sceglie lo stesso film di α, altrimenti sceglie un
film a caso, indipendentemente da α.
Calcoliamo la probabilità P (A) dove A è l’evento “α e β vedono lo stesso film”.
Soluzione. Indichiamo con T l’evento “il risultato del lancio della moneta è testa”. Si ha P (T ) = 12 e per ipotesi P (A | T ) = 1 e
P (βi | T c ) = 31 per i = 1, 2, 3. Inoltre, poiché P (· | T c ) è una misura di probabilità, si ha
3
X
P (A | T c ) = P (αi ∩ βi | T c ) =
i=1
3
P (αi | T c ) = 1 essendo P (· | T c ) una misura di probabilità. Allora per la (2.3.2) si ha
P
poiché
i=1
1 1 1 2
P (A) = P (A | T )P (T ) + P (A | T c )(1 − P (T )) = 1 · + · = .
2 3 2 3
Per esercizio, provare a calcolare la probabilità che α e β scelgano il primo film, ossia P (α1 ∩ β1 ).
Consideriamo ora il caso di più di due eventi.
Definizione 2.3.27. Sia (Ai )i∈I una famiglia di eventi. Diciamo che tali eventi sono indipendenti se vale
\ Y
P Aj = P (Aj )
j∈J j∈J
In particolare, una famiglia di eventi a due a due indipendenti non è in generale una famiglia di eventi
indipendenti.
Concludiamo la sezione con un utile risultato. Data una successione di eventi (An )n≥1 , indichiamo con13
\[
(An i.o.) := Ak .
n≥1 k≥n
Si noti che
(An i.o.) = {ω ∈ Ω | ∀n ∈ N ∃k ≥ n tale che ω ∈ Ak },
ossia (An i.o.) è l’evento costituito dagli ω ∈ Ω che appartengono ad un numero infinito di An .
13 i.o. sta per infinitely often.
54 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Lemma 2.3.28 (Borel-Cantelli). [!] Sia (An )n≥1 una successione di eventi nello spazio (Ω, F , P ):
i) se X
P (An ) < +∞
n≥1
allora P (An i.o.) = 0;
ii) se gli An sono indipendenti e X
P (An ) = +∞
n≥1
allora P (An i.o.) = 1.
Dimostrazione. Per la continuità dall’alto di P si ha
[ !
P (An i.o.) = lim P Ak ≤
n→∞
k≥n
Osservazione 2.3.33. Ripensiamo all’Esempio 2.2.17 relativo al calcolo della probabilità di estrarre (con
reinserimento) esattamente k palline bianche da un’urna che ne contiene b bianche e r rosse. Se Ch è l’evento
b
“la pallina della h-esima estrazione è bianca” allora p = P (Ch ) = b+r e la (2.3.14) fornisce la probabilità
cercata, in accordo con quanto avevamo ottenuto nell’Esempio 2.2.17 tramite il calcolo combinatorio.
Si noti che nell’approccio basato sul calcolo combinatorio si usa la probabilità uniforme, come sempre nei
problemi di conteggio. Invece, nell’approccio basato sulla famiglia di prove ripetute e indipendenti, impli-
citamente utilizziamo lo spazio canonico della Proposizione 2.3.30 senza tuttavia la necessità di dichiarare
esplicitamente lo spazio campionario e la misura di probabilità (che comunque non è quella uniforme).
2.3.4 Esempi
Proponiamo alcuni esempi ed esercizi riassuntivi su indipendenza e probabilità condizionata.
Esempio 2.3.34.
• Il signor Rossi ha due figli: qual è la probabilità che entrambi i figli siano maschi (evento A)?
Considerando come spazio campionario
con ovvio significato dei simboli, è chiaro che P (A) = 41 . La situazione è riassunta nella seguente
tabella in cui le celle rappresentano i quattro casi possibili e le relative probabilità sono indicate
all’interno dei cerchi: si ha A = {(M, M)}.
Maschio Femmina
1 1
Maschio (M, M) 4 (M, F) 4
1 1
Femmina (F, M) 4 (F, F) 4
• Il signor Rossi ha due figli. Sapendo che uno di questi è maschio (evento B), qual è la probabilità che
entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) purtroppo è sbagliata. Per rendersene conto è suf-
ficiente considerare ancora lo spazio campionario Ω: ora, avendo l’informazione che (F, F) non è
possibile (ossia ha probabilità nulla “condizionatamente” all’informazione data che è il verificarsi
dell’evento B) e supposto che gli esiti (M, M), (M, F), (F, M) siano equiprobabili, se ne conclude che
la probabilità cercata è pari a 31 . La tabella seguente mostra come si ridistribuisce la probabilità
condizionatamente all’informazione che si verifica B.
Maschio Femmina
1 1
Maschio (M, M) 3 (M, F) 3
1
Femmina (F, M) 3 (F, F) 0
• Il signor Rossi ha due figli. Sapendo che il primogenito è maschio (evento C, differente da B del punto
precedente), qual è la probabilità che entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) è corretta perché in questo caso FM e FF hanno
entrambe probabilità nulla (“condizionatamente” all’informazione data che è il verificarsi dell’evento
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 57
C). In altri termini, sapendo che il primogenito è maschio, tutto dipende dal fatto che il secondogenito
sia maschio o femmina, ossia da due eventi equiprobabili con probabilità pari a 21 . La tabella seguente
mostra come si ridistribuisce la probabilità condizionatamente all’informazione che si verifica C.
Maschio Femmina
1 1
Maschio (M, M) 2 (M, F) 2
P (A) 1 P (A) 1
P (A | B) = = , P (A | C) = = ,
P (B) 3 P (C) 2
P (A | B)P (B)
P (B | A) = (2.3.16)
P (A | B)P (B) + P (A | Bc )(1 − P (B))
P (M | T ) ≈ 67.35%
e dunque c’è un alto numero di “falsi positivi”. Questo è dovuto al fatto che la percentuale dei malati è relativamente bassa:
notiamo che in generale
P (T | M)P (M)
P (M | T ) = −→ 0+ per P (M) → 0+
P (T | M)P (M) + P (T | M c )(1 − P (M))
mentre P (M | T ) → 1− per P (M) → 1− . Osserviamo che in base ai dati possiamo anche calcolare, tramite la (2.3.2), la
percentuale dei test positivi
P (T ) = P (T | M)P (M) + P (T | M c )(1 − P (M)) ≈ 5.88%.
58 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Per quanto riguarda il secondo quesito, abbiamo che per ipotesi P (T | M) = 99% e P (T | M c ) = 2%. Se il dato osservato è
che P (T ) = 6% allora dalla (2.3.7) ricaviamo
P (T ) − P (T | M c )
P (M) = ≈ 4.12%
P (T | M) − P (T | M c )
Il risultato si può interpretare dicendo che, prese per valide le stime di affidabilità i) e ii) del test, si ha che su un 6% di test
positivi circa il 33% sono falsi positivi.
2.4 Distribuzioni
In questa sezione ci occupiamo della costruzione e caratterizzazione delle misure sullo spazio Euclideo,
con particolare attenzione alle misure di probabilità su Rd , chiamate distribuzioni. Il risultato fondamentale
in questa direzione è il Teorema di Carathéodory che enunciamo nella Sezione 2.4.7 e utilizzeremo spesso
nel seguito. L’idea è di definire una distribuzione dapprima su una famiglia particolare A di sottoinsiemi
dello spazio campionario Ω (per esempio, la famiglia degli intervalli nel caso Ω = R) e poi estenderla su
un’opportuna σ -algebra che contiene A . Il problema della scelta di tale σ -algebra è legato alla cardinalità
di Ω: se Ω è finito o numerabile, dare una probabilità su Ω è equivalente ad assegnare le probabilità dei
singoli esiti (cf. Osservazione 2.1.13); di conseguenza è naturale assumere P(Ω) come σ -algebra degli
eventi. Il caso generale, come abbiamo già visto nell’Esempio 2.1.30, è decisamente più complesso; infatti
la cardinalità di P(Ω) può essere “troppo grande” perché sia possibile definire su di essa una misura di
probabilità14 .
14 Se la cardinalità di Ω è finita, diciamo |Ω| = n, allora P(Ω) = 2n e se Ω ha cardinalità numerabile allora P(Ω) ha la cardinalità
del continuo (di R). Tuttavia se Ω = R, per il Teorema di Cantor la cardinalità di P(R) è strettamente maggiore della cardinalità di R.
2.4. DISTRIBUZIONI 59
Definizione 2.4.1. Data una famiglia A di sottoinsiemi di Ω, indichiamo con σ (A ) l’intersezione di tutte
le σ -algebre che contengono A . Poiché σ (A ) è la più piccola σ -algebra che contiene A , diciamo che A è la
σ -algebra generata da A .
Esempio 2.4.2. Nel caso in cui A = {A} sia formata da un solo insieme A ⊆ Ω, scriviamo σ (A) invece di
σ ({A}). Notiamo che vale
σ (A) = {∅, Ω, A, Ac }.
L’intersezione di σ -algebre è ancora una σ -algebra, ma un risultato analogo non vale per l’unione: date
due σ -algebre F1 e F2 , si ha F1 ∪ F2 ⊆ σ (F1 ∪ F2 ) e inclusione può essere stretta.
In generale è difficile dare una rappresentazione esplicita della σ -algebra generata da una famiglia
A : chiaramente σ (A ) deve contenere i complementari e le unioni numerabili di elementi di A ma, come
vedremo nella prossima sezione, ci sono casi in cui con queste operazioni non si ottengono tutti gli elementi
di σ (A ). Per questo motivo è utile introdurre delle tecniche che permettano di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ): questo
tipo di risultati sono l’oggetto dell’Appendice A.1.
Osservazione 2.4.3 (Completamento di uno spazio di probabilità). Ricordiamo che uno spazio di pro-
babilità (Ω, F , P ) è completo se N ⊆ F ossia gli insiemi trascurabili (e quelli quasi certi) sono eventi. Si
può sempre “completare” uno spazio (Ω, F , P ) estendendo P alla σ -algebra σ (F ∪ N ) nel modo seguente.
Anzitutto si prova15 che σ (F ∪ N ) = F¯ dove
F¯ := {A ⊆ Ω | A △ B ∈ N per un certo B ∈ F }.
Il completamento di uno spazio dipende dalla σ -algebra e dalla misura di probabilità fissate: al riguardo,
si veda l’Esercizio 2.4.14.
15 È chiaro che F ∪ N ⊆ F¯ ⊆ σ (F ∪ N ) e quindi è sufficiente verificare che F¯ è una σ -algebra per provare che F¯ = σ (F ∪ N ). Ciò
segue dal fatto che:
i) Ac △ Bc = A △ B;
! !
S S S
ii) An △ Bn ⊆ (An △ Bn ) .
n∈N n∈N n∈N
60 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
In uno spazio metrico (M, ϱ), la σ -algebra di Borel Bϱ è la σ -algebra generata dalla topologia (la famiglia
degli aperti) indotta da ϱ.
Definizione 2.4.4 (σ -algebra di Borel). La σ -algebra di Borel Bϱ è la più piccola σ -algebra che contiene gli
aperti di (M, ϱ). Gli elementi di Bϱ sono chiamati Boreliani.
Notazione 2.4.5. Nel seguito indicheremo con Bd la σ -algebra di Borel nello spazio Euclideo Rd . È noto
che Bd è strettamente contenuta nella σ -algebra L dei misurabili secondo Lebesgue16 . Nel caso d = 1,
scriviamo semplicemente B invece di B1 .
Osservazione 2.4.6. [!] Per definizione, Bϱ contiene tutti i sottoinsiemi di M che si ottengono a partire
dagli aperti mediante le operazioni di passaggio al complementare e unione numerabile: per esempio, i
singoletti sono Boreliani17 , ossia {x} ∈ Bϱ per ogni x ∈ M.
Tuttavia, con le sole operazioni di passaggio al complementare e unione numerabile non si ottengono tutti gli
elementi di Bϱ . Addirittura in [18] si mostra che anche con una successione numerabile di operazioni di
passaggio al complementare e unione numerabile non si ottiene Bϱ . Più precisamente, data una famiglia
H di sottoinsiemi di uno spazio Ω, indichiamo con H ∗ la famiglia che contiene gli elementi di H , i
complementari degli elementi di H e le unioni numerabili di elementi di H . Inoltre definiamo H0 = H
e, per ricorrenza, la successione crescente di famiglie
∗
Hn = Hn−1 , n ∈ N.
Per induzione si vede che Hn ⊆ σ (H ) per ogni n ∈ N; tuttavia (cfr. [18] p. 30) nel caso in cui Ω = R e H è
come nell’Esercizio 2.4.7-ii), si ha che
[∞
Hn
n=0
è strettamente incluso in B = σ (H ).
Esercizio 2.4.7. Sia d = 1. Provare che B = σ (H ) dove H è una qualsiasi delle seguenti famiglie di
sotto-insiemi di R:
ii) H = { ]a, b] | a, b ∈ Q, a < b} (si noti che H è numerabile e pertanto si dice che la σ -algebra B è
numerabilmente generata);
iii) H = { ] − ∞, a] | a ∈ R}.
2.4.3 Distribuzioni
Sia Bϱ la σ -algebra di Borel su uno spazio metrico (M, ϱ). Chiaramente, il caso Euclideo M = Rd è di
particolare interesse e dovrà sempre essere tenuto come punto di riferimento.
Definizione 2.4.8 (Distribuzione). Una distribuzione è una misura di probabilità su (M, Bϱ ).
Per fissare le idee, è bene dare la seguente interpretazione “fisica” del concetto di distribuzione µ. Pen-
siamo allo spazio campionario Rd come all’insieme delle possibili posizioni nello spazio di una particella
che non è osservabile con precisione: allora H ∈ Bd si interpreta come l’evento secondo cui “la particella è
nel Boreliano H” e µ(H) è la probabilità che la particella sia in H.
Attenzione! Il concetto di distribuzione sarà compreso pienamente solo quando avremo introdotto le va-
riabili aleatorie: ora non abbiamo ancora le nozioni sufficienti per apprezzare fino in fondo le distribuzioni.
Pertanto ci limitiamo ad accennare alcuni esempi che riprenderemo con più calma in seguito.
Cominciamo col provare alcune proprietà generali delle distribuzioni.
Proposizione 2.4.9 (Regolarità interna ed esterna). Sia µ una distribuzione su (M, Bϱ ). Per ogni H ∈ Bϱ
si ha
La dimostrazione della Proposizione 2.4.9 è rimandata alla Sezione 2.5.2. Una conseguenza immediata
è il seguente
Corollario 2.4.10. Due distribuzioni µ1 e µ2 su (M, Bϱ ) sono uguali se e solo se µ1 (H) = µ2 (H) per ogni
aperto H (oppure per ogni chiuso H).
Osservazione 2.4.11. Se µ è una distribuzione su (M, Bϱ ) allora
A := {x ∈ M | µ({x}) > 0}
Si noti in particolare che δx0 ({x0 }) = 1 e si pensi all’interpretazione “fisica” di questo fatto.
Prima di considerare altri esempi notevoli di distribuzioni, osserviamo che combinando opportunamen-
te delle distribuzioni si ottiene ancora una distribuzione.
62 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Proposizione 2.4.13. Sia (µn )n∈N una successione di distribuzioni su (M, Bϱ ) e (pn )n∈N una successione di
numeri reali tali che
X∞
pn = 1 e pn ≥ 0, n ∈ N. (2.4.1)
n=1
Allora µ definita da
∞
X
µ(H) := pn µn (H), H ∈ Bϱ ,
n=1
è una distribuzione.
Dimostrazione. È facile verificare che µ(∅) = 0 e µ(M) = 1. Rimane da provare la σ -additività: si ha
∞
] X ]
µ Hk = pn µn Hk =
k∈N n=1 k∈N
Esercizio 2.4.14. Ricordiamo il concetto di completamento di uno spazio, definito nell’Osservazione 2.4.3.
Su R consideriamo la distribuzione delta di Dirac δx centrata in x ∈ R, la σ -algebra banale {∅, R} e la
σ -algebra di Borel B. Provare che lo spazio (R, {∅, R}, δx ) è completo mentre lo spazio (R, B, δx ) non è
completo. Il completamento di (R, B, δx ) è lo spazio (R, P(R), δx ).
dove (xn ) è una successione di punti distinti di Rd e (pn ) soddisfa le proprietà in (2.4.1).
Osservazione 2.4.16. Ad una distribuzione discreta della forma (2.4.2) è naturale associare la funzione
µ̄ : Rd −→ [0, 1],
definita da
µ̄(x) = µ({x}), x ∈ Rd ,
o più esplicitamente
pn
se x = xn ,
µ̄(x) =
0
altrimenti.
2.4. DISTRIBUZIONI 63
Poiché X
µ(H) = µ̄(x), H ∈ Bd , (2.4.3)
x∈H∩{xn |n∈N}
la distribuzione µ è univocamente associata alla funzione µ̄ che viene a volte chiamata funzione di distribu-
zione di µ. Come vedremo nei prossimi esempi, in generale è molto più semplice assegnare la funzione di
distribuzione µ̄ che non la distribuzione stessa µ: infatti µ è una misura (ossia una funzione d’insieme) a
differenza di µ̄ che è una funzione su Rd .
Esempio 2.4.17.
i) (Bernoulli) Sia p ∈ [0, 1]. La distribuzione di Bernoulli di parametro p si indica con Bep ed è definita
come combinazione lineare di due delta di Dirac:
Esplicitamente si ha
0 se 0, 1 < H,
1 se 0, 1 ∈ H,
H ∈ B,
Bep (H) =
se 1 ∈ H, 0 < H,
p
1 − p se 0 ∈ H, 1 < H.
e la funzione di distribuzione è semplicemente
p
se x = 1,
µ̄(x) =
1 − p
se x = 0.
ii) (Uniforme discreta) Sia H = {x1 , . . . , xn } un sottoinsieme finito di Rd . La distribuzione uniforme discreta
su H si indica con UnifH ed è definita da
n
1X
UnifH = δxk ,
n
k=1
ossia
1
n se x ∈ H,
UnifH ({x}) =
0
altrimenti.
Notiamo che
∞
X ∞
X
p(1 − p)k−1 = p (1 − p)h =
k=1 h=0
Allora µ definita da Z
µ(H) = γ(x)dx, H ∈ Bd , (2.4.6)
H
è una distribuzione. Infatti è ovvio che µ(∅) = 0 e µ(Rd ) = 1. Inoltre se (Hn )n∈N è una successione di
Boreliani disgiunti allora, per le proprietà dell’integrale di Lebesgue19 , si ha
] Z XZ X
µ Hn = U γ(x)dx = γ(x)dx = µ(Hn ),
n≥1 Hn n≥1 Hn n≥1
n≥1
Definizione 2.4.18 (Distribuzione assolutamente continua). Una funzione Bd -misurabile γ che soddi-
sfi le proprietà in (2.4.5) è detta funzione di densità (o, semplicemente, densità). Diciamo che µ è una
distribuzione assolutamente continua su Rd , e scriviamo µ ∈ AC, se esiste una densità γ per cui valga la
(2.4.6).
Nel seguito utilizzeremo anche l’abbreviazione20 PDF per le funzioni di densità. Si noti l’analogia fra le
proprietà (2.4.5) di una densità γ e le proprietà (2.4.1).
Osservazione 2.4.19. [!] La PDF di una µ ∈ AC non è univocamente determinata: lo è a meno di insiemi di
Borel che hanno misura di Lebesgue nulla; infatti il valore dell’integrale in (2.4.6) non cambia modificando
γ su un insieme di misura nulla secondo Lebesgue.
Inoltre se γ1 , γ2 sono PDF di µ ∈ AC allora γ1 = γ2 q.o. (rispetto alla misura di Lebesgue). Infatti
poniamo
An = {x | γ1 (x) − γ2 (x) ≥ 1/n} ∈ Bd , n ∈ N.
Allora Z Z Z
Leb(An )
≤ (γ1 (x) − γ2 (x)) dx = γ1 (x)dx − γ2 (x)dx = µ(An ) − µ(An ) = 0,
n An An An
Osservazione 2.4.20. [!] Salvo diversamente specificato, quando considereremo un integrale di Lebesgue,
assumeremo sempre che la funzione integranda sia B-misurabile (e quindi, in particolare, misurabile se-
condo Lebesgue). Dunque nel seguito, a meno che non sia esplicitamente indicato, “misurabile” significa
“B-misurabile” e anche nella definizione di spazio Lp (spazio delle funzioni sommabili di ordine p) è as-
sunta implicitamente la B-misurabilità. Ciò risulta conveniente per molti motivi: per esempio, la com-
posizione di funzioni B-misurabili è ancora B-misurabile (fatto non necessariamente vero per funzioni
misurabili secondo Lebesgue).
Osservazione 2.4.21. [!] Se µ su Rd è assolutamente continua allora µ assegna probabilità nulla ai Boreliani
trascurabili secondo Lebesgue: precisamente si ha
Z
Lebd (H) = 0 =⇒ µ(H) = γ(x)dx = 0. (2.4.7)
H
Ogni funzione di densità identifica una distribuzione: in pratica, assegnare una funzione di densità è
il modo più semplice e usato comunemente per definire una distribuzione assolutamente continua, come
mostrano i seguenti esempi notevoli.
Esempio 2.4.22.
20 PDF sta per “Probability Density Function” ed è anche il comando usato in Mathematica per le funzioni di densità.
21 In realtà, per il Teorema A.2.1.3 di Radon-Nikodym, la (2.4.7) è condizione necessaria e sufficiente per l’assoluta continuità.
66 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
i) (Uniforme) La distribuzione uniforme UnifK su K, dove K ∈ Bd ha misura di Lebesgue 0 < Lebd (K) <
∞, è la distribuzione con densità
1
γ= 1 .
Lebd (K) K
Allora Z
1 Lebd (H ∩ K)
UnifK (H) = dx = , H ∈ Bd .
H∩K Lebd (K) Lebd (K)
ii) (Esponenziale) La distribuzione esponenziale Expλ di parametro λ > 0 è la distribuzione con densità
λe−λx se x ≥ 0,
γ(x) =
0
se x < 0.
Allora Z
Expλ (H) = λ e−λx dx, H ∈ B.
H∩[0,+∞[
iii) (Normale reale) La distribuzione normale reale Nµ,σ 2 di parametri µ ∈ R e σ > 0 è la distribuzione su B
con densità
1 1 x−µ 2
γ(x) = √ e− 2 ( σ ) , x ∈ R.
2πσ 2
Allora Z
1 1 x−µ 2
Nµ,σ 2 (H) = √ e− 2 (σ ) dx, H ∈ B.
2πσ 2 H
Osservazione 2.4.23. [!] Non tutte le distribuzioni sono del tipo analizzato finora (ossia discrete o assolu-
tamente continue). Per esempio in R2 si consideri il “segmento”
I = {(x, 0) | 0 ≤ x ≤ 1}
e la distribuzione
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,
dove Leb1 indica la misura di Lebesgue 1-dimensionale (o più precisamente la misura di Hausdorff22 1-
dimensionale in R2 ). Chiaramente µ < AC poiché µ(I) = 1 e I ha misura di Lebesgue nulla in R2 ; d’altra
parte µ non è una distribuzione discreta perché µ({(x, y)}) = 0 per ogni (x, y) ∈ R2 .
L’idea è che una distribuzione può concentrare la probabilità su sottoinsiemi di Rd di dimensione (nel
senso di Hausdorff23 ) minore di d: per esempio, una superficie sferica (che ha dimensione di Hausdorff
uguale a 2) in R3 . Le cose possono complicarsi ulteriormente poiché la dimensione di Hausdorff può essere
frazionaria (al riguardo si veda l’Esempio 2.4.36).
22 Si veda, per esempio, il Capitolo 2 in [70].
23 Cf. Capitolo 2.5 in [70].
2.4. DISTRIBUZIONI 67
Esempio 2.4.25.
n
1 P
ii) La CDF della distribuzione discreta Unifn := n δk è
k=1
0 se x < 1,
k
F(x) =
n se k ≤ x < k + 1, per 1 ≤ k ≤ n − 1, (2.4.8)
1
se x ≥ n.
Figura 2.1: Grafico della CDF di una v.a. con distibuzione Unif5
24 CDF sta per “Cumulative Distribution Function” ed è anche il comando usato in Mathematica per le funzioni di ripartizione.
68 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
iii) Come mostrato in Figura 2.2, le funzioni di densità e di ripartizione della distribuzione Unif[1,3] sono
rispettivamente
0 x ≤ 1,
1
x−1
γ = 1[1,3] e F(x) = 2 1 < x ≤ 3,
2
1
x > 3.
1.0
0.8
0.6
0.4
0.2
1 2 3 4
Figura 2.2: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Unif[1,3]
iv) Come mostrato in Figura 2.3 (nel caso λ = 2), le funzioni di densità e di ripartizione della distribu-
zione Expλ sono rispettivamente
2.0
1.5
1.0
0.5
-1 1 2 3
Figura 2.3: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Exp2
2.4. DISTRIBUZIONI 69
Figura 2.4: A sinistra: grafico della densità normale standard. A destra: grafico della CDF normale stan-
dard. Notare la scala differente nell’asse delle ordinate.
v) La CFD di Nµ,σ 2 è
Z x t−µ 2
1 − 21
F(x) = √ e σ dt, x ∈ R.
2πσ 2 −∞
dove Z x
2 2
erf(x) = √ e−t dt, x ∈ R,
π 0
è la funzione errore. La Figura 2.4 mostra la densità e la CDF della distribuzione normale standard.
Teorema 2.4.26. [!] La CDF Fµ di una distribuzione µ gode delle seguenti proprietà:
iii) vale
lim Fµ (x) = 0 e lim Fµ (x) = 1;
x→−∞ x→+∞
La tesi segue dall’arbitrarietà della successione (xn )n∈N . I due limiti in iii) seguono rispettivamente dalla
continuità dall’alto e dal basso di µ.
Osservazione 2.4.27. [!] Nelle ipotesi della proposizione precedente, data la monotonia di Fµ , esiste anche
il limite da sinistra
Fµ (x−) := lim− Fµ (y),
y→x
e dunque in questo caso, per la continuità dal basso di P (cf. Proposizione 2.1.32-ii)), si ha
Fµ (x−) = µ(] − ∞, x[) e µ({x}) = ∆Fµ (x) := Fµ (x) − Fµ (x−). (2.4.10)
Dunque µ assegna probabilità positiva nei punti in cui Fµ è discontinua e in tali punti la probabilità è uguale al
salto di Fµ . D’altra parte, è facile vedere che una funzione monotona crescente
F : R −→ R
ammette solo un’infinità al più numerabile di punti di discontinuità. Infatti, posto
1
An = {x ∈ R | |x| ≤ n, ∆F(x) ≥ }, n ∈ N,
n
si ha che la cardinalità |An | è finita poiché
|An | X
≤ ∆F(x) ≤ F(n) − F(−n) < ∞.
n
x∈An
Poiché l’insieme dei punti di discontinuità di F è uguale all’unione degli An al variare di n ∈ N, si conferma
quanto già detto nell’Osservazione 2.4.11 ossia che per ogni distribuzione µ, l’insieme dei punti tali che µ({x}) >
0 è finito o al più numerabile.
Esercizio 2.4.28. Provare che la CDF della distribuzione normale Nµ,σ 2 è strettamente monotona crescente.
dalla funzione di ripartizione. Allora sembra naturale domandarsi se, data una funzione F che soddisfi le
proprietà che una CDF deve avere, esista una distribuzione µ che abbia F come CDF.
La risposta è affermativa ed è contenuta nel seguente Teorema 2.4.33 che dimostriamo come corollario
del Teorema 2.4.29 di Carathéodory. Facciamo prima qualche richiamo preliminare.
Definizione 2.4.30 (Funzione assolutamente continua (AC)). Una funzione F è assolutamente continua25
su [a, b] (in simboli, F ∈ AC[a, b]) se si scrive nella forma
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b], (2.4.11)
a
Il seguente risultato, la cui dimostrazione è data in appendice (cfr. Proposizione A.2.3.3), afferma che le
funzioni assolutamente continue sono derivabili quasi ovunque.
Proposizione 2.4.31. Sia F ∈ AC[a, b] come in (2.4.11). Allora F è derivabile q.o. e vale F ′ = γ q.o.: di
conseguenza si ha Zx
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b]. (2.4.12)
a
In altri termini, le funzioni assolutamente continue costituiscono la classe di funzioni per cui vale il teorema
fondamentale del calcolo integrale ossia, in parole povere, le fuzioni che sono uguali all’integrale della propria
derivata. È bene osservare che anche se F è derivabile q.o. con F ′ ∈ L1 ([a, b]), non è detto che valga la formula
(2.4.12). Un semplice contro-esempio è dato dalla funzione F = 1[1/2,1] : si ha F ′ = 0 q.o. su [0, 1] ma
Z 1
1 = F(1) − F(0) , F ′ (x)dx = 0.
0
Vedremo nell’Esempio 2.4.36, che F può anche essere continua, derivabile q.o. con F ′ ∈ L1 ([a, b]) e questo
ancora non assicura la validità della formula (2.4.12).
Teorema 2.4.33. [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:
(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;
iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è una densità di µF .
Osservazione 2.4.34. È bene sottolineare che il Teorema 2.4.33 contiene anche un risultato di unicità, per
cui ad una CDF è associata un’unica misura per cui valga la (2.4.13). Per esempio, la misura associata alla
funzione F(x) = x è la misura di Lebesgue e lo stesso vale prendendo F(x) = x + c per ogni c ∈ R.
1) se F è costante a tratti e indichiamo con xn i punti di discontinuità di F (che, per l’Osservazione 2.4.27,
sono una quantità finita o al più numerabile) allora, per la (2.4.10), µF è la distribuzione discreta
X
µF = ∆F(xn )δxn
n
Per la Proposizione 2.4.31 dovrebbe essere γ = V ′ = 0 quasi ovunque e ciò è assurdo. Dunque µV non
è neppure una distribuzione assolutamente continua, benché la sua CDF V sia continua e derivabile quasi
ovunque.
Per chi vuole approfondire la questione, il fatto è che µV assegna probabilità 1 all’insieme di Cantor (per
maggiori dettagli si veda p.37 in [70]) che è un sottoinsieme dell’intervallo [0, 1], che ha misura di Lebesgue
log 2
nulla e dimensione di Hausdorff pari a log 3 .
2.4. DISTRIBUZIONI 73
Si verifichi che F è una CDF. Se µF è la distribuzione associata, si calcoli µF ([0, 1]), µF ([0, 1[) e µF (Q). Infine
si verifichi che µF = 32 δ1 + 31 Unif[0,1] .
Si provi che Fn è una CDF assolutamente continua e si determini la densità γn della distribuzione µn
associata. Posto
F(x) := lim Fn (x)
n→∞
Esercizio 2.4.39. Data una numerazione (qn )n∈N dei razionali di [0, 1], definiamo la distribuzione
2−n se x = qn ,
µ({x}) =
0
altrimenti.
Figura 2.6: Grafico della CDF di Dirac bidimensionale centrata in (1, 1).
ii) Uniforme sul quadrato [0, 1] × [0, 1] in Figura 2.7. La densità è la funzione indicatrice γ = 1[0,1]×[0,1] ;
iii) Normale standard bidimensionale in Figura 2.8, con densità
2
x2 − y
e− 2 2
γ(x, y) = , (x, y) ∈ R2 .
2π
e−y(x+1) − 1
!
−y
F(x, y) = 1 − e + 1R≥0 ×R≥0 (x, y),
x+1
per una certa γ ∈ mB + . Allora, come nel caso unodimensionale (cfr. Teorema 2.4.33-iii)), una densità per
F si ottiene semplicemente differenziando:
Figura 2.7: Distribuzione Unif[0,1]×[0,1] : grafico della densità (a sinistra) e della CDF (a destra).
Figura 2.8: Distribuzione normale standard bidimensionale: grafico della densità (a sinistra) e della CDF
(a destra).
76 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Ora enunciamo un teorema che è la naturale estensione dei risultati visti in dimensione uno. Osservia-
mo prima che, fissati k ∈ {1, . . . , d}, a ≤ b reali e x ∈ Rd , vale
µ(] − ∞, x1 ] × · · · ×] − ∞, xk−1 ]×]a, b]×] − ∞, xk+1 ] × · · · ×] − ∞, xd ])
(k)
= Fµ (x1 , . . . , xk−1 , b, xk+1 , . . . , xd ) − Fµ (x1 , . . . , xk−1 , a, xk+1 , . . . , xd ) =: ∆]a,b] Fµ (x),
e più in generale
(1) (d)
µ(]a1 , b1 ] × · · · ×]ad , bd ]) = ∆]a · · · ∆]a Fµ (x). (2.4.15)
1 ,b1 ] d ,bd ]
Teorema 2.4.43. La CDF Fµ di una distribuzione d-dimensionale µ gode delle seguenti proprietà:
i) Monotonia: per ogni scelta di bk > ak ≥ −∞, 1 ≤ k ≤ d, si ha
(1) (d)
∆]a · · · ∆]a Fµ (x) ≥ 0; (2.4.16)
1 ,b1 ] d ,bd ]
2.4.10 Sintesi
Come si costruisce e definisce una misura di probabilità? Il primo strumento generale di teoria della
misura è il Teorema di Carathéodory in base al quale ogni misura definita su un’algebra A si estende in
modo unico alla σ -algebra generata da A . Per esempio, in base a tale teorema, la misura definita per ogni
intervallo [a, b] come la lunghezza b − a, si estende in modo unico alla misura di Lebesgue sulla σ -algebra
di Borel.
Un ruolo particolarmente importante giocano le misure di probabilità definite su Rd , Bd , chiamate
anche distribuzioni. Fra di esse le distribuzioni discrete sono combinazioni lineari (anche numerabili) di
delta di Dirac: esempi notevoli sono le distribuzioni di Bernoulli, uniforme discreta, binomiale e di Pois-
son. Altre importanti distribuzioni sono quelle assolutamente continue, ossia quelle che si rappresentano in
termini di integrale di Lebesgue di una certa funzione, detta densità: esempi notevoli sono le distribuzioni
uniforme, esponenziale e normale (ma ne vedremo tante altre...).
Le distribuzioni discrete e quelle assolutamente continue sono definite in termini di funzioni reali: la
funzione di distribuzione nel primo caso e la densità nel secondo caso. Questo è un fatto rilevante perché è
molto più facile maneggiare una funzione di variabile reale (o, in generale, in Rd ) che non una distribuzione
(che è una misura e ha come argomento i Boreliani). D’altra parte esistono distribuzioni che non sono nè
discrete nè assolutamente continue.
Per caratterizzare una generica distribuzione in termini di una funzione reale abbiamo introdotto il
concetto di funzione di ripartizione (o CDF). Una CDF gode di alcune proprietà generali: nel caso unodi-
mensionale, una CDF è monotona crescente (e di conseguenza derivabile q.o.), continua a destra e ha limite
a +∞ e −∞ rispettivamente pari a 1 e 0. Abbiamo dimostrato che è equivalente assegnare una distribuzione o
la sua CDF.
Infine il fatto che una distribuzione µ abbia densità è equivalente al fatto che la sua CDF F sia assoluta-
mente continua, ossia al fatto che valga
Zx
µ(]a, x]) = F(x) − F(a) = F ′ (t)dt, a < x,
a
2.5 Appendice
2.5.1 Dimostrazione della Proposizione 2.3.30
Proposizione 2.3.30 Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Poniamo
Ω = {ω = (ω1 , . . . , ωn ) | ωi ∈ {0, 1}}
e consideriamo la partizione
n
[
Ω= Ωk , Ωk := {ω ∈ Ω | ω1 + · · · + ωn = k}. (2.5.1)
k=0
Definiamo P ponendo
P ({ω}) = pk (1 − p)n−k ω ∈ Ωk , k = 0, . . . , n.
Allora P è una probabilità poiché
n n X n !
X X X n k
P (Ω) = P (Ωk ) = P ({ω}) = p (1 − p)n−k = 1,
k
k=0 k=0 ω∈Ωk k=0
per la (2.2.10).
Proviamo che gli eventi
Ch = {ω ∈ Ω | ωh = 1}, h = 1, . . . , n,
formano una famiglia di n prove ripetute e indipendenti con probabilità p. Infatti siano r ∈ N, r ≤ n, e
h1 , . . . , hr ∈ In distinti. Si ha27
r n
r
\ X \
P Chi =
P Ωk ∩ Chi
i=1 k=r i=1
r
n
X \
= Ωk ∩ Chi pk (1 − p)n−k =
k=r i=1
!
r
Chi è esattamente uguale a n−r
T
(osservando che, analogamente alla (2.5.2), la cardinalità di Ωk ∩ k−r )
i=1
n !
X n−r k
= p (1 − p)n−k =
k−r
k=r
P (Ch ) = p, h = 1, . . . , n,
e per 1 < r ≤ n si ha r
\ r
Y
r
P Chi = p =
P Chi .
i=1 i=1
Quindi (Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Per quanto riguarda la seconda parte dell’enunciato: sia (Ck )k∈N una successione di eventi indipendenti
su uno spazio discreto (Ω, P ), tali che P (Ck ) = p ∈ [0, 1] per ogni k ∈ N. Non è restrittivo supporre p ≥ 12
perché altrimenti basta considerare la successione degli eventi complementari. In questo caso dimostriamo
che necessariamente p = 1. Infatti supponiamo per assurdo che sia p < 1. Fissiamo un generico esito ω ∈ Ω:
per c c
ogni
n ∈ N poniamo C̄n = Cn oppure C̄n = Cn a seconda che sia ω ∈ Cn oppure ω ∈ Cn . Notiamo che
1
P C̄n ≤ P (Cn ) poiché abbiamo assunto P (Cn ) = p ≥ 2 . Per ogni n ∈ N gli eventi C̄1 , . . . , C̄n sono indipendenti
e
\n
{ω} ⊆ C̄k
k=1
r
!
27 Si noti che l’indice nella sommatoria parte da r poiché Ω ∩ T
Chi = ∅ se k < r (perché?).
k
i=1
2.5. APPENDICE 79
da cui
n
Y
P ({ω}) ≤ P C̄k ≤ pn .
k=1
A parole, si dice che ogni Boreliano è regolare internamente (per la (2.5.3)) ed esternamente (per la (2.5.4))
per µ.
Dimostrazione. Indichiamo con R l’insieme dei Boreliani regolari (internamente ed esternamente) per µ. È
chiaro che H ∈ R se e solo se per ogni ε > 0 esistono un chiuso C e un aperto A tali che
C ⊆ H ⊆ A, µ(A \ C) < ε.
• se H ∈ R allora per ogni ε > 0 esistono un chiuso Cε e un aperto Aε tali che Cε ⊆ H ⊆ Aε e µ(Aε \Cε ) < ε.
Passando al complementare, si ha Acε ⊆ H c ⊆ Cεc , con Acε chiuso, Cεc aperto e Cεc \ Acε = Aε \ Cε . Questo
prova che H c ∈ R;
Questo prova che R è una σ -algebra. Proviamo ora che R contiene tutti i chiusi: dato C chiuso poniamo
ϱ(x, C) = inf ϱ(x, y) e
y∈C
An = {x ∈ M | ϱ(x, C) < 1/n}, n ∈ N.
T
Allora An è aperto e An ↘ C: infatti, se x ∈ n≥1 An allora ϱ(x, C) = 0 e quindi x ∈ C, essendo C chiuso.
Allora, per la continuità dall’alto di µ si ha limn→∞ µ(An ) = µ(C).
La tesi segue dal fatto che Bϱ è la più piccola σ -algebra che contiene gli aperti (e i chiusi) e quindi
Bϱ ⊆ R.
80 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Definizione 2.5.1 (Pre-misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una pre-misura
su A è una funzione
µ : A −→ [0, +∞]
tale che
i) µ(∅) = 0;
ii) µ è additiva su A nel senso che per ogni A, B ∈ A , disgiunti e tali che A ∪ B ∈ A , vale
µ (A ⊎ B) = µ(A) + µ(B);
iii) µ è σ -sub-additiva su A nel senso che per ogni A ∈ A e (An )n∈N successione di elementi in A , vale
[ X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n∈N
Si dice che µ è σ -finita se esiste una successione (An )n∈N in A tale che Ω =
S
An e µ(An ) < ∞ per ogni
n∈N
n ∈ N.
i) ∅ ∈ A
ii) A è ∩-chiusa;
]a, b], a, b ∈ R, a ≤ b,
è un semianello (ma non è un’algebra). La famiglia formata dalle unioni finite di intervalli (anche illimitati)
del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
è un’algebra (ma non è una σ -algebra). Tali famiglie generano la σ -algebra di Borel di R.
Ricordiamo che una misura µ è una funzione σ -additiva e tale che µ(∅) = 0 (cfr. Definizione 2.1.21).
Osserviamo che, per la Proposizione 2.1.32, µ è una pre-misura su un’algebra A se e solo se µ è una misura
su A . Inoltre il seguente lemma fornisce un risultato naturale la cui dimostrazione, che rinviamo alla fine
della sezione, non è del tutto ovvia.
Teorema 2.5.5 (Teorema di Carathéodory - versione generale). Sia µ una pre-misura σ -finita su un semia-
nello A . Esiste ed è unica la misura σ -finita che estende µ a σ (A ).
Osservazione 2.5.6. Il Teorema 2.4.29 è un corollario del Teorema 2.5.5: infatti ogni algebra è un semia-
nello e, per il Lemma 2.5.4, ogni misura su un semianello è una pre-misura.
2.5. APPENDICE 81
Dimostrazione del Teorema 2.5.5. L’unicità è un corollario del Teorema A.1.3 di Dynkin: per i dettagli, si
vedano il Corollario A.1.5 e l’Osservazione A.1.6. Qui proviamo l’esistenza dell’estensione: in questa di-
mostrazione non utilizziamo l’ipotesi che µ sia σ -finita; d’altra parte se µ è σ -finita allora anche la sua
estensione lo è. Dividiamo la prova in alcuni passi.
Passo 1. Introduciamo la famiglia dei ricoprimenti di B ⊆ Ω che siano finiti o numerabili e costituiti da
elementi di A : [
U (B) := {R ⊆ A | R al più numerabile e B ⊆ A}.
A∈R
Definiamo
µ∗ : P(Ω) −→ [0, +∞]
ponendo X
µ∗ (B) = inf µ(A), (2.5.5)
R ∈U (B)
A∈R
i) µ∗ (∅) = 0;
ii) µ∗ è monotona;
iii) µ∗ è σ -sub-additiva.
Dimostrazione. Poiché ∅ ∈ A la i) è ovvia. Se B ⊆ C allora U (C) ⊆ U (B) da cui segue cheSµ∗ (B) ≤ µ∗ (C) e
questo prova la ii). Infine, data una successione (Bn )n∈N di sottoinsiemi di Ω e posto B = Bn , proviamo
n∈N
che X
µ∗ (B) ≤ µ∗ (Bn ).
n∈N
È sufficiente considerare il caso µ∗ (Bn ) < ∞ per ogni n ∈ N, da cui segue in particolare che U (Bn ) , ∅. Allora,
fissato ε > 0, per ogni n ∈ N esiste Rn ∈ U (Bn ) tale che
X ε
µ(A) ≤ µ∗ (Bn ) + n .
2
A∈Rn
µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), ∀E ⊆ Ω.
Gli elementi di M (µ∗ ) sono detti µ∗ -misurabili. Proveremo che M (µ∗ ) è una σ -algebra e µ∗ è una misura su
M (µ∗ ). Cominciamo col seguente risultato parziale.
µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac )
= µ∗ (E ∩ A ∩ B) + µ∗ (E ∩ A ∩ Bc ) + µ∗ (E ∩ Ac ∩ B) + µ∗ (E ∩ Ac ∩ Bc )
| {z } | {z }
≥µ∗ (E∩A∪B) =µ∗ (E∩(A∪B)c )
poiché
(E ∩ A ∪ B) ⊆ (E ∩ A ∩ B) ∪ (E ∩ A ∩ Bc ) ∪ (E ∩ Ac ∩ B).
Questo prova che
µ∗ (E) ≥ µ∗ (E ∩ (A ∪ B)) + µ∗ (E ∩ (A ∪ B)c ).
D’altra parte µ∗ è sub-additiva e quindi A ∪ B ∈ M (µ∗ ).
Dimostrazione. È sufficiente provare che µ∗ è σ -additiva su M (µ∗ ). Per ogni A, B ∈ M (µ∗ ) con A ∩ B = ∅, si
ha
µ∗ (A ⊎ B) = µ∗ ((A ⊎ B) ∩ A) + µ∗ ((A ⊎ B) ∩ Ac ) = µ∗ (A) + µ∗ (B).
Dunque µ∗ è additiva su M (µ∗ ). Inoltre, sappiamo già dal Punto 1 che µ∗ è σ -sub-additiva e dunque la tesi
segue dalla Proposizione 2.1.32.
Dimostrazione. Sappiamo già che M (µ∗ ) è ∩-chiusa. Se verifichiamo che M (µ∗ ) è una famiglia monotona
(cfr. Definizione A.1.1) la tesi seguirà dal Lemma A.1.2. A tal fine è sufficiente provare che se (An )n∈N è
una successione in M (µ∗ ) e An ↗ A allora A ∈ M (µ∗ ). Grazie alla sub-additività di µ∗ , basta provare che
µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), E ⊆ Ω. (2.5.6)
Di conseguenza si ha
n
X
µ∗ (E ∩ An ) = µ∗ (E ∩ (Ak \ Ak−1 )) (2.5.7)
k=1
e, per la monotonia di µ∗ ,
µ∗ (E) = µ∗ (E ∩ An ) + µ∗ (E ∩ Acn )
≥ µ∗ (E ∩ An ) + µ∗ (E ∩ Ac ) =
2.5. APPENDICE 83
(per la (2.5.7))
n
X
= µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ).
k=1
σ (A ) ⊆ M (µ∗ ).
Poiché M (µ∗ ) è una σ -algebra, è sufficiente provare che A ⊆ M (µ∗ ): inoltre, essendo µ∗ sub-additiva, basta
provare che per ogni A ∈ A e E ⊆ Ω, con µ∗ (E) < ∞, vale
µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ). (2.5.8)
Fissato ε > 0, esiste un ricoprimento (An )n∈N di E formato da elementi di A e tale che
X
µ(An ) ≤ µ∗ (E) + ε. (2.5.9)
n∈N
kn
(n)
]
An ∩ Ac = An \ A = Bj .
j=1
Allora
]kn
∗ c (n)
∗
µ (An ∩ A ) = µ Bj ≤
j=1
(essendo µ∗ sub-additiva)
kn
(n)
X
≤ µ∗ (Bj ) =
j=1
kn
(n)
X
= µ(Bj ) =
j=1
84 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
(essendo µ additiva)
= µ(An ∩ Ac ). (2.5.11)
(per la (2.5.9))
≤ µ∗ (E) + ε.
Proviamo ora che la σ -algebra M (µ∗ ), costruita nel Passo 2 della dimostrazione del Teorema di Ca-
rathéodory, contiene gli insiemi trascurabili. Notiamo che in generale M (µ∗ ) è strettamente più grande di
σ (A ): è questo il caso della misura di Lebesgue se A è la famiglia degli intervalli limitati del tipo
]a, b], a, b ∈ R, a ≤ b.
In questo caso, σ (A ) è la σ -algebra di Borel e M (µ∗ ) è la σ -algebra dei misurabili secondo Lebesgue.
D’altra parte, vediamo anche che gli elementi di M (µ∗ ) differiscono da quelli di σ (A ) solo per insiemi
µ∗ -trascurabili.
Corollario 2.5.11. [!] Sotto le ipotesi del Teorema di Carathéodory, nello spazio con misura (Ω, M (µ∗ ), µ∗ )
si ha:
i) se µ∗ (M) = 0 allora M ∈ M (µ∗ ) e quindi (Ω, M (µ∗ ), µ∗ ) è uno spazio con misura completo;
ii) per ogni M ∈ M (µ∗ ), tale che µ∗ (M) < ∞, esiste A ∈ σ (A ) tale che M ⊆ A e µ∗ (A \ M) = 0.
µ∗ (E) ≤ µ∗ (E ∩ M) + µ∗ (E ∩ M c ) = µ∗ (E ∩ M c ) ≤ µ∗ (E),
1
µ∗ (An ) ≤ µ∗ (M) + . (2.5.12)
n
An ∈ σ (A ), si ha M ⊆ A e, passando al limite in (2.5.12) e grazie alla continuità dall’alto di µ∗
T
Posto A =
n∈N
su M (µ∗ ), abbiamo µ∗ (A) = µ∗ (M). Allora, poiché M ∈ M (µ∗ ), si ha
µ∗ (A) = µ∗ (A ∩ M) + µ∗ (A ∩ M c ) = µ∗ (M) + µ∗ (A \ M)
da cui µ∗ (A \ M) = 0.
Dimostrazione del Lemma 2.5.4. Se µ è una misura sul semianello A allora le proprietà i) e ii) di pre-misura
sono ovvie. Proviamo che µ è monotona: se A, B ∈ A con A ⊆ B allora, per la proprietà iii) di semianello,
esistono C1 , . . . , Cn ∈ A tali che
]n
B\A = Ck .
k=1
Quindi si ha
µ(B) = µ(A ⊎ (B \ A)) = µ(A ⊎ C1 ⊎ · · · ⊎ Cn )
(per l’additività finita di µ)
n
X
= µ(A) + µ(Ck ) ≥ µ(A),
k=1
da cui la monotonia di µ.
La dimostrazione della proprietà iii), ossia la σ -sub-additività di µ, è una versione un po’ più complicata
della dimostrazione della Proposizione 2.1.22-ii): tutta la complicazione è dovuta al fatto che µ è definita
su un semianello (invece che su un’algebra come nella Proposizione 2.1.22) e questo limita le operazioni
insiemistiche che possiamo utilizzare. Siano A ∈ A e (An )n∈N successione in A tali che
[
A⊆ An .
n∈N
Poniamo A
e1 = A1 e
n−1
[ n−1
\
en = An \
A Ak = (An \ (An ∩ Ak )) , n ≥ 2. (2.5.13)
k=1 k=1
(n) (n)
Allora, per le proprietà ii) e iii) di semianello, esistono Jn ∈ N e C1 , . . . , CJn ∈ A tali che
Jn
(n)
]
en =
A Cj .
j=1
Ora, A
en ⊆ An e quindi, per monotonia e additività, si ha
Jn
(n)
X
µ(An ) ≥ µ(A
en ) = µ(Cj ). (2.5.14)
j=1
e quindi
Jn
] ]
(n)
µ(A) = µ A ∩ Cj =
n∈N j=1
(n)
(poiché A ∩ Cj ∈ A e, per ipotesi, µ è una misura e quindi, in particolare, σ -additiva)
Jn
(n)
XX
= µ A ∩ Cj ≤
n∈N j=1
86 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
(per monotonia)
Jn
(n)
XX
≤ µ Cj =
n∈N j=1
(per la (2.5.14))
X
≤ µ(An )
n∈N
(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;
Dimostrazione. [Parte i)] Consideriamo il semianello A dell’Esempio 2.5.3, formato dagli intervalli limitati
del tipo
]a, b], a, b ∈ R, a ≤ b,
e su A definiamo µF ponendo
µF (]a, b]) = F(b) − F(a).
La tesi segue dal Teorema 2.5.5 di Carathéodory una volta provato che µF è una pre-misura σ -finita (cfr.
Definizione 2.5.1). Per definizione, µF (∅) = 0 e chiaramente µF è σ -finita. Inoltre µF è additiva poiché, se
]a, b], ]c, d] sono intervalli disgiunti tali che la loro unione è un intervallo allora necessariamente28 b = c,
cosicché
µF (]a, b]⊎]b, d]) = µF (]a, d]) = F(d) − F(a) = (F(b) − F(a)) + (F(d) − F(b)) = µF (]a, b]) + µF (]b, d]) .
Infine proviamo che µF è σS -sub-additiva. Basta considerare ]a, b] ∈ A e una successione (An )n∈N in A ,
del tipo An = ]an , bn ], tale che An = ]a, b] e provare che
n∈N
∞
X
µF (A) ≤ µF (An ).
n=1
Fissiamo ε > 0: per la continuità a destra di F, esistono δ > 0 e una successione di numeri positivi (δn )n∈N
tali che
ε
F(a + δ) ≤ F(a) + ε, F(bn + δn ) ≤ F(bn ) + n . (2.5.15)
2
28 Non è restrittivo assumere a ≤ d.
2.5. APPENDICE 87
La famiglia (]an , bn + δn [)n∈N è un ricoprimento29 aperto del compatto [a + δ, b] e quindi ammette un sotto-
ricoprimento finito: per fissare le idee, indichiamo con (nk )k=1,...,N gli indici di tale sotto-ricoprimento.
Allora, per la prima disuguaglianza in (2.5.15), si ha
F(b) − F(a) ≤ ε + F(b) − F(a + δ)
≤ ε + µF (]a + δ, b]) ≤
(poiché µF è finitamente additiva e quindi anche finitamente sub-additiva)
N
X
≤ε+ µF ]ank , bnk + δnk ]
k=1
∞
X
≤ε+ (F(bn + δn ) − F(an )) ≤
n=1
Notiamo che F ′ ≥ 0 q.o. perché limite del rapporto incrementale di una funzione monotona crescente:
passando al limite per a → −∞ e b → +∞, per il Teorema di Beppo-Levi, si ha
Z
1 = µF (R) = F ′ (x)dx
R
Allora µF coincide con µ sul semianello A degli intervalli limitati del tipo ]a, b]. Poiché A genera B, per il
risultato di unicità del Teorema di Carathéodory, si ha µF = µ su B e quindi µF ∈ AC con densità F ′ .
Viceversa, se µF ∈ AC con densità γ allora
Zx
F(x) − F(a) = γ(t)dt, a < x,
a
Variabili aleatorie
Andrej N. Kolmogorov
Le variabili aleatorie descrivono quantità che dipendono da un fenomeno o esperimento aleatorio: per esem-
pio, se l’esperimento è il lancio di due dadi, la quantità (variabile aleatoria) che interessa studiare potrebbe
essere il risultato della somma dei due lanci. Il fenomeno aleatorio è modellizzato con uno spazio di proba-
bilità (Ω, F , P ) (nell’esempio, lo spazio discreto Ω = I6 × I6 con la probabilità uniforme) e la quantità che
interessa è descritta dalla variabile aleatoria X che ad ogni esito ω ∈ Ω (ossia ad ogni possibile esito del
fenomeno aleatorio) associa il valore X(ω): nell’esempio, ω = (ω1 , ω2 ) ∈ I6 × I6 e X(ω) = ω1 + ω2 .
(X = Y ) := {ω ∈ Ω | X(ω) = Y (ω)}.
Si noti che non è detto che (X ∈ H) sia un evento, ossia non è detto che (X ∈ H) ∈ F (a parte il caso
banale degli spazi di probabilità discreti, in cui assumiamo che F = P(Ω) e quindi tutti i sottoinsiemi di
Ω sono eventi). In particolare, senza ipotesi ulteriori non ha senso scrivere P (X ∈ H). D’altra parte nelle
applicazioni si è interessati a calcolare la probabilità di (X ∈ H): ciò giustifica la seguente definizione di
variabile aleatoria.
89
90 CAPITOLO 3. VARIABILI ALEATORIE
Definizione 3.1.1. Una variabile aleatoria (abbreviato in v.a.) su (Ω, F , P ) a valori in Rd è una funzione
X : Ω −→ Rd
tale che (X ∈ H) ∈ F per ogni H ∈ Bd : scriviamo X ∈ mF e diciamo anche che X è F -misurabile. Indichiamo
con mF + la classe delle funzioni F -misurabili e non-negative; inoltre bF è la classe delle funzioni F -
misurabili e limitate. Nel caso particolare in cui (Ω, F ) = (Rn , Bn ), X è semplicemente una funzione Borel-
misurabile.
Osservazione 3.1.2. In questo capitolo ci limiteremo a considerare v.a. a valori in Rd . Tuttavia è bene
conoscere anche la seguente definizione generale: dato uno spazio misurabile (E, E ), una variabile aleatoria
su (Ω, F , P ) a valori in E è una funzione
X : Ω −→ E
F -misurabile nel senso che X −1 (E ) ⊆ F ossia (X ∈ H) ∈ F per ogni H ∈ E .
Come abbiamo spiegato sopra, nel caso di spazi discreti la condizione di misurabilità è automaticamente
soddisfatta e ogni funzione X : Ω −→ Rd è una v.a. In generale, la condizione (X ∈ H) ∈ F fa sı̀ che P (X ∈ H)
sia ben definito e quindi si possa parlare della probabilità che X assuma valori nel Boreliano H.
Osservazione 3.1.3. [!] Se
X : Ω −→ Rd
è una funzione qualsiasi, H ⊆ Rd e (Hi )i∈I è una famiglia qualsiasi di sottoinsiemi di Rd , allora si ha
c [ [
−1 c −1 −1
X (H ) = X (H) , X Hi =
X −1 (Hi ) .
i∈I i∈I
Possiamo interpretare X come la v.a. che indica se il risultato del lancio di un dado è un numero pari o
dispari. Allora si ha
σ (X) = {∅, Ω, {2, 4, 6}, {1, 3, 5}}
ossia σ (X) contiene proprio gli eventi “significativi” per la v.a. X. Nei modelli probabilistici per le appli-
cazioni, σ (X) è chiamata la σ -algebra delle informazioni su X e viene utilizzata per rappresentare l’insieme
delle informazioni riguardanti il valore aleatorio X. Ciò si spiega, almeno parzialmente, col fatto che σ (X)
contiene gli eventi del tipo (X ∈ H) con H ∈ B: questi sono gli eventi “rilevanti” ai fini di studiare la
quantità aleatoria X, nel senso che conoscere la probabilità di questi eventi equivale a conoscere con quale
probabilità X assuma i propri valori.
Lemma 3.1.5. Sia H è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd . Se X −1 (H ) ⊆ F allora
X ∈ mF .
Dimostrazione. Sia
E = {H ∈ Bd | X −1 (H) ∈ F }.
Allora E è una σ -algebra e poiché E ⊇ H per ipotesi, allora E ⊇ σ (H ) = Bd da cui la tesi.
3.1. VARIABILI ALEATORIE 91
i) X := (X1 , . . . , Xd ) ∈ mF ;
Dimostrazione. È semplice provare che i) implica ii); il viceversa segue dal Lemma 3.1.5, dal fatto che
d
\
((X1 , . . . , Xd ) ∈ H1 × · · · × Hd ) = (Xk ∈ Hk )
k=1
Presentiamo ora i primi semplici esempi di v.a., scrivendo anche esplicitamente la σ -algebra σ (X)
generata da X e l’immagine X(Ω) = {X(ω) | ω ∈ Ω} che è l’insieme dei valori possibili di X.
Esempio 3.1.7.
σ (X) = {∅, Ω}
e quindi X è una v.a. In questo caso X(Ω) = {c} e ovviamente c rappresenta l’unico valore che X può
assumere. Dunque si tratta di una variabile “non proprio aleatoria”.
iii) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. S che conta il
numero di successi fra le n prove: in altri termini
n
X
S(ω) = 1Ch (ω), ω ∈ Ω.
h=1
iv) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. T che indica il
“primo tempo” di successo fra le n prove: in altri termini
T (ω) = min{h | ω ∈ Ch }, ω ∈ Ω,
e poniamo per convenzione min ∅ = n + 1. In questo caso T (Ω) = {1, . . . , n, n + 1}. Con riferimento allo
spazio canonico della Proposizione 2.3.30, si ha anche
σ (X) contiene ∅ e tutte le unioni degli eventi (T = 1), . . . , (T = n + 1). Notiamo che
(T = 1) = C1 , (T = n + 1) = C1c ∩ · · · ∩ Cnc
e, per 1 < k ≤ n,
(T = k) = C1c ∩ · · · ∩ Ck−1
c
∩ Ck .
Proposizione 3.1.8. Valgono le seguenti proprietà delle funzioni misurabili:
i) siano
X : Ω −→ Rd , f : Rd −→ Rn ,
con X v.a. e f ∈ mBd . Allora si ha
σ (f ◦ X) ⊆ σ (X), (3.1.1)
e di conseguenza f (X) ∈ mF ;
ii) se (Xn )n∈N è una successione in mF allora anche
appartengono a mF .
Dimostrazione. La (3.1.1) segue da f −1 (Bn ) ⊆ Bd e il fatto che f (X) ∈ mF ne è immediata conseguenza.
La ii) segue dal fatto che, per ogni a ∈ R, si ha
[ ! \
inf Xn < a = (Xn < a), sup Xn < a = (Xn < a),
n n
n n
e
lim inf Xn = sup inf Xk , lim sup Xn = inf sup Xk .
n→∞ n k≥n n→∞ n k≥n
Osservazione 3.1.9. Dalla i) della Proposizione 3.1.8 segue in particolare che se X, Y ∈ mF e λ ∈ R allora
X + Y , XY , λX ∈ mF . Infatti basta osservare che X + Y , XY e λX sono funzioni continue (e quindi B-
misurabili) della coppia (X, Y ) che è una v.a. per il Corollario 3.1.6.
Inoltre, per ogni successione (Xn )n∈N di v.a. si ha
A := {ω ∈ Ω | esiste lim Xn (ω)} = {ω ∈ Ω | lim sup Xn (ω) = lim inf Xn (ω)} ∈ F . (3.1.2)
n→∞ n→∞ n→∞
Definizione 3.1.10 (Convergenza quasi certa). Se A in (3.1.2) è quasi certo, ossia P (A) = 1, allora si dice
che (Xn )n∈N converge quasi certamente.
Ricordiamo dall’Osservazione 2.4.3 che uno spazio (Ω, F , P ) è completo se N ⊆ F , ossia gli insiemi
trascurabili (e quasi certi) sono eventi. L’ipotesi di completezza è spesso utile come mostrano i seguenti
esempi.
3.1. VARIABILI ALEATORIE 93
Osservazione 3.1.11 (Proprietà quasi certe e completezza). Consideriamo una “proprietà” P = P(ω)
la cui validità dipende da ω ∈ Ω: per fissare le idee, nell’Osservazione 3.1.9 P(ω)=“esiste lim Xn (ω)”.
n→∞
Diciamo che P è quasi certa (o vale q.c.) se l’insieme
A := {ω ∈ Ω | P(ω) è vera}
è quasi certo: ciò significa che esiste C ∈ F tale che P (C) = 1 e C ⊆ A o, equivalentemente, esiste N
trascurabile tale che P(ω) è vera per ogni ω ∈ Ω \ N .
Nel caso di uno spazio completo, P vale q.c. se e solo se P (A) = 1. Se lo spazio non è completo, non
è detto che A ∈ F e quindi P (A) non è definita. Nel caso particolare dell’Osservazione 3.1.9, il fatto che
A ∈ F è conseguenza della (3.1.2) e del fatto che le Xn sono v.a.
Definizione 3.1.12 (Uguaglianza quasi certa). Date due funzioni (non necessariamente variabili aleatorie)
X, Y : Ω −→ Rd ,
q.c.
diciamo che X = Y quasi certamente, e scriviamo X = Y q.c. (o X = Y ), se l’insieme (X = Y ) è quasi certo.
Osservazione 3.1.13. Per l’Osservazione 2.1.18, in uno spazio completo
q.c.
X=Y ⇐⇒ P (X = Y ) = 1.
Senza l’ipotesi di completezza, non è detto che (X = Y ) sia un evento (a meno che, per esempio, X e Y non
siano entrambe v.a.). Di conseguenza P (X = Y ) non è ben definita e, senza l’ipotesi di completezza, non è
corretto affermare che X = Y q.c. equivale a P (X = Y ) = 1. Notiamo anche che, in uno spazio completo,
se X = Y q.c. e Y è una v.a. allora anche X è una v.a.: ciò non è necessariamente vero se lo spazio non è
completo.
Osservazione 3.1.14. [!] Sia (Xn )n∈N una successione di v.a. che converge quasi certamente sull’evento A
definito come in (3.1.2). Poniamo
X(ω) := lim Xn (ω), ω ∈ A,
n→∞
e, per convenzione, X(ω) = 0 per ogni ω ∈ Ω \ A. Allora X è una variabile aleatoria. Notiamo che, nel caso
in cui lo spazio non sia completo, è possibile modificare X su un insieme trascurabile e non misurabile: in
tal modo si può ottenere una funzione Y che non è una v.a. (ossia Y non è una misurabile) ed è tale che
(Xn )n∈N converge a Y quasi certamente. In altri termini, in uno spazio non completo la convergenza quasi certa
non conserva la proprietà di misurabilità.
(per la σ -additività di P )
∞
X X∞
= P X −1 (Hn ) = µX (Hn ).
n=1 n=1
94 CAPITOLO 3. VARIABILI ALEATORIE
Definizione 3.1.15 (Legge, CDF e densità di una v.a.). Data una v.a.
X : Ω −→ Rd
su (Ω, F , P ), la distribuzione µX definita da (3.1.3) è detta distribuzione (o legge) di X. Per indicare che X ha
distribuzione µX scriveremo
X ∼ µX .
La funzione definita da1
FX (x) := P (X ≤ x), x ∈ Rd ,
è detta funzione di ripartizione o CDF di X. Notiamo che FX è la CDF di µX . Infine, se µX ∈ AC con densità
γX , diremo che X è assolutamente continua e ha densità γX : in tal caso vale
Z
P (X ∈ H) = γX (x)dx, H ∈ Bd .
H
Osservazione 3.1.17 (Esistenza). [!] Assegnata una distribuzione µ su Rd , esiste una v.a. X su uno spazio
di probabilità (Ω, F , P ) tale che µ = µX . Basta infatti considerare (Rd , Bd , µ) e la variabile aleatoria identità
X(ω) ≡ ω, per ogni ω ∈ Rd . D’altra parte, la scelta di (Ω, F , P ) e X non è unica: in altri termini, variabili
aleatorie differenti, anche definite su spazi di probabilità diversi, possono avere la medesima distribuzione.
Per esempio, consideriamo:
d
1 Al solito, (X ≤ x) = T (X ≤ x ).
k k
k=1
3.1. VARIABILI ALEATORIE 95
ii) In uno spazio (Ω, F , P ) siano A, B ∈ F tali che P (A) = P (B). Allora le v.a. indicatrici X = 1A e Y = 1B hanno entrambe
distribuzione di Bernoulli uguale a
P (A)δ1 + (1 − P (A)) δ0 ,
poiché assumono solo i valori 1 e 0 rispettivamente con probabilità P (A) e 1 − P (A). Per quanto riguarda la CDF, si ha
0 se x < 0,
c ) se 0 ≤ x < 1,
FY (x) = FX (x) = P (X ≤ x) = P (A
1 se x ≥ 1.
d
(poiché per ipotesi X = Y )
= P Y −1 f −1 (H) = P ((f ◦ Y )−1 (H)).
Esaminiamo ora alcuni esempi di distribuzioni di v.a. con particolare riferimento al caso di v.a. assolu-
tamente continue e discrete. Abbiamo già detto che X è assolutamente continua se
Z
P (X ∈ H) = γX (x)dx, H ∈ B,
H
96 CAPITOLO 3. VARIABILI ALEATORIE
R
dove la densità γX è una funzione B-misurabile, non-negativa (ossia γX ∈ mB + ) e tale che γX (x)dx = 1.
Rd
Diciamo che una v.a. X è discreta se la sua legge è una distribuzione discreta (cfr. Definizione 2.4.15),
ossia è una combinazione finita o numerabile di Delta di Dirac:
X
µX = pk δxk , (3.1.4)
k≥1
dove (xk ) è una successione di punti distinti di Rd e (pk ) è una successione di numeri non-negativi con
somma pari a uno. Se µ̄X indica la funzione di distribuzione di µX , allora si ha
P (X = xk ) = µ̄X (xk ) = pk , k ∈ N.
Osservazione 3.1.20. I grafici della densità γX (nel caso di distribuzioni assolutamente continue) e della
funzione di distribuzione µ̄X (nel caso di distribuzioni discrete) danno una rappresentazione semplice e
immediata di come è distribuita la probabilità fra i valori possibili di X: illustriamo questo fatto nella
sezione seguente con alcuni esempi.
ii) con riferimento all’Esempio 2.3.43, in cui si suppone di disporre a caso n oggetti in r scatole, la v.a. S
che rappresenta il “numero di oggetti nella prima scatola” ha distribuzione Binn, 1 .
r
In Figura 3.1, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Binn,p con
n = 40 e p = 10%: tale grafico permette di visualizzare molto chiaramente i valori possibili di X, ossia X(Ω),
in ascissa e le corrispondenti probabilità in ordinata.
Esempio 3.1.22 (Overbooking). Supponiamo che la probabilità che un viaggiatore non si presenti all’im-
barco all’aeroporto sia pari al 10%, indipendentemente dagli altri viaggiatori. Quante prenotazioni per
un volo da 100 passeggeri si possono accettare volendo che la probabilità che tutti i viaggiatori presenti
all’imbarco trovino posto sia maggiore del 99%?
Soluzione. Supponiamo di accettare n prenotazioni e consideriamo la v.a. X “numero di passeggeri presenti all’imbarco”: allora
9 è la probabilità che un viaggiatore si presenti. Dobbiamo determinare il valore massimo di n tale che
X ∼ Binn,p dove p = 10
n
X
P (X > 100) = P (X = k) < 1%.
k=101
Si verifica direttamente2 che P (X > 100) = 0.57% se n = 104 e P (X > 100) = 1.67% se n = 105. Dunque possiamo accettare
104 prenotazioni.
2 Mostreremo più avanti (cfr. Osservazione 4.4.8) come è possibile semplificare il calcolo di P (X > 100) nel caso di X ∼ Bin
n,p con n
grande.
3.1. VARIABILI ALEATORIE 97
Figura 3.1: Grafico della funzione di distribuzione di una variabile aleatoria binomiale
Esempio 3.1.23 (Poisson). Sia λ > 0 una costante fissata. Per ogni n ∈ N, n ≥ λ, poniamo qn = λn e
consideriamo Xn ∼ Binn,qn . Per ogni k = 0, 1, . . . , n, poniamo
k
λ n−k
!
n k n! λ
pn,k := P (Xn = k) = qn (1 − qn )n−k = 1− (3.1.6)
k k!(n − k)! n n
λ n
λk n(n − 1) · · · (n − k + 1) 1 − n
= · ·
nk
k! k
1 − λn
e osserviamo che
e−λ λk
lim pn,k = =: pk , k ∈ N0 .
n→∞ k!
Ritroviamo quindi la distribuzione di Poisson
∞
X
Poissonλ = pk δk
k=0
dell’Esempio 2.4.17-iv).
Intuitivamente X ∼ Poissonλ può essere pensata come il limite di una successione di v.a. Xn ∼ Binn,qn .
In altri termini, la distribuzione di Poisson di parametro np approssima per n → +∞ (e p → 0+ ) la distribu-
zione binomiale Binn,p e pertanto scriviamo
Questo risultato verrà formalizzato in seguito nell’Esempio 4.3.12. Notiamo che nella pratica, per n gran-
de, il valore di pn,k in (3.1.6) è “difficile” da calcolare a causa della presenza dei fattoriali3 nel coefficien-
te binomiale nk . Pertanto risulta utile utilizzare la distribuzione di Poisson come approssimazione della
binomiale.
In Figura 3.2, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Poissonλ
con λ = 3.
3 Per esempio 70! > 10100 . Per calcolare n! per n ≫ 1 si può utilizzare l’approssimazione di Stirling
√ n
n
n! ≈ 2πn .
e
98 CAPITOLO 3. VARIABILI ALEATORIE
Figura 3.2: Grafico della funzione di distribuzione di una variabile aleatoria di Poisson
Esempio 3.1.24. Un macchinario produce bulloni e per ogni bullone prodotto c’è la probabilità dello 0.01%
che sia difettoso (indipendentemente dagli altri). Calcolare la probabilità che in una scatola da 1000 bulloni
ce ne siano meno di 3 difettosi.
Soluzione. La v.a. X che indica il numero di bulloni difettosi in una scatola da 1000 bulloni, ha distribuzione binomiale
Bin1000,p dove p = 0.01% è la probabilità che il singolo bullone sia difettoso. Allora
2 2 !
X X 1000 k
P (X < 3) = P (X = k) = p (1 − p)1000−k ≈ 99.9846%.
k
k=0 k=0
Utilizzando l’approssimazione con una v.a. di Poisson, diciamo Y ∼ Poissonλ dove λ = np = 0.1, otteniamo
2 2
X X λk
P (Y < 3) = P (Y = k) = e−λ ≈ 99.9845%.
k!
k=0 k=0
Esempio 3.1.25 (Geometrica). Per una v.a T con distribuzione geometrica di parametro p, T ∼ Geomp con
p ∈ ]0, 1], si ha4
P (T = k) = p(1 − p)k−1 , k ∈ N.
La v.a. T rappresenta il “primo tempo di successo” in una famiglia di prove ripetute e indipendenti con
probabilità p: al riguardo si ricordi l’Esempio 3.1.7-iv) e l’Esempio 2.3.31.
Proviamo ora una proprietà fondamentale della distribuzione geometrica, nota come proprietà di assenza
di memoria.
Viceversa, se T è una v.a. a valori in N e vale la (3.1.8) allora T ∼ Geomp dove p = P (T = 1).
4 Per convenzione poniamo 00 = 1.
3.1. VARIABILI ALEATORIE 99
P (T > k + n) (1 − p)k+n
P (T > n + k | T > n) = = = (1 − p)k = P (T > k).
P (T > n) (1 − p)n
Viceversa, supponiamo che T sia una v.a. a valori in N per cui vale la (3.1.8). Notiamo che la (3.1.8) ha
senso sotto l’ipotesi implicita che P (T > n) > 0 per ogni n ∈ N e per k = 1 si ha
P (T > n + 1)
P (T > 1) = P (T > n + 1 | T > n) =
P (T > n)
da cui
P (T > n + 1) = P (T > n)P (T > 1)
e quindi
P (T > n) = P (T > 1)n .
Inoltre, posto p = P (T = 1) = 1 − P (T > 1), si ha
P (T = n + k | T > n) = P (T = k), k ∈ N,
ossia la legge della v.a. T rispetto alla probabilità P è uguale alla legge della v.a. (T − n) rispetto alla probabilità
condizionata P (· | T > n).
Dimostrazione. Si ha
Esercizio 3.1.28. In un gioco del lotto, una volta alla settimana si estraggono 5 numeri da un’urna che
contiene 90 palline numerate. Qual è la probabilità che il numero 13 non venga estratto per 52 settimane
consecutive? Sapendo che il 13 non è stato estratto per 52 settimane, qual è la probabilità che non sia
estratto per la 53esima settimana consecutiva?
|C | 5 la probabilità che in un’estrazione venga estratto il 13. Se T indica la prima
Soluzione. Indichiamo con p = |C89,4 | = 90
90,5
settimana in cui viene estratto il 13 allora per la (3.1.7) abbiamo
Equivalentemente avremmo potuto considerare la v.a. binomiale X ∼ Bin52,p che indica il numero di volte in cui, fra 52
estrazioni, viene estratto il 13 e calcolare !
52 0
P (X = 0) = p (1 − p)52
0
che dà lo stesso risultato. Per la seconda domanda, dobbiamo calcolare
85
P (T > 53 | T > 52) = P (T > 1) = ,
90
dove la prima uguaglianza segue dalla (3.1.8).
Esempio 3.1.29 (Ipergeometrica). Una variabile aleatoria X con distribuzione ipergeometrica rappresenta
il numero di palline bianche estratte in n estrazioni senza reimmissione da un’urna che contiene N palline
di cui b bianche: al riguardo si ricordi l’Esempio 2.2.19. In particolare, siano n, b, N ∈ N con n, b ≤ N . Allora
X ∼ Ipern,b,N se5
b N −b
k n−k
P (X = k) = N
k = 0, 1, . . . , n ∧ b. (3.1.9)
n
P (X > t + s)
P (X > t + s | X > s) = =
P (X > s)
(per la (2.4.9))
e−λ(t+s)
= = e−λt = P (X > t) .
e−λs
La distribuzione esponenziale appartiene ad un’ampia famiglia di distribuzioni che introduciamo nel’E-
sempio 3.1.35.
Diamo un semplice ma utile risultato.
5 Per convenzione poniamo n = 0 per k > n.
k
3.1. VARIABILI ALEATORIE 101
Proposizione 3.1.32 (Trasformazioni lineari e densità). Sia X una v.a. in Rd , assolutamente continua con
densità γX . Allora per ogni matrice A invertibile, di dimensione d × d, e b ∈ Rd , la v.a. Z := AX + b è
assolutamente continua con densità
1
γZ (z) = γX A−1 (z − b) .
|det A|
Esempio 3.1.33 (Uniforme). Consideriamo un esempio di v.a. con distribuzione uniforme su K ∈ Bd con
misura di Lebesgue positiva come nell’Esempio 2.4.22-i). In particolare, sia K il triangolo in R2 di ver-
tici (0, 0), (1, 0) e (0, 1). Sia (X, Y ) ∼ UnifK , con densità γ(X,Y ) (x, y) = 21K (x, y): con la Proposizione 3.1.32
possiamo facilmente calcolare la densità di (X + Y , X − Y ). Infatti, essendo
! ! !
X +Y X 1 1
=A , A= ,
X −Y Y 1 −1
si ha det A = −2 e !!
2 z
γ(X+Y ,X−Y ) (z, w) = 1 A−1 = 1AK (z, w)
| det A| K w
dove AK è il triangolo di vertici6 (0, 0), (1, 1) = A · (1, 0) e (1, −1) = A · (0, 1).
Esempio 3.1.34 (Normale). Ricordiamo che X ha distribuzione normale di parametri µ ∈ R e σ > 0, ossia
X ∼ Nµ,σ 2 , se
Z
1 1 x−µ 2
P (X ∈ H) = √ e− 2 ( σ ) dx, H ∈ B.
H 2πσ 2
Notiamo che P (X ∈ H) > 0 se e solo se Leb(H) > 0, essendo la densità un esponenziale e quindi strettamente
positiva. Ovviamente P (X = x) = 0 per ogni x ∈ R perché X è assolutamente continua.
Anche se X può assumere un qualsiasi valore reale, è bene sapere che la probabilità è sostanzialmente
concentrata intorno al valore µ. Infatti, si ha
P (|X − µ| ≤ σ ) ≈ 68.27%
P (|X − µ| ≤ 2σ ) ≈ 95.45% (3.1.11)
P (|X − µ| ≤ 3σ ) ≈ 99.73%
e questo significa che i valori estremi (neanche tanto lontani da µ) sono molto improbabili (si veda la7
Figura 3.3). Per questo motivo si usa dire che la densità Gaussiana ha le “code sottili”.
!
6 Qui A · (1, 0) ≡ A 1 .
0
7 La Figura 3.3 è tratta da
commons.wikimedia.org/wiki/File:Standard_deviation_diagram.svg♯/media/File:Standard_deviation_diagram.svg
102 CAPITOLO 3. VARIABILI ALEATORIE
0.4
0.3
0.2
34.1% 34.1%
0.1
2.1% 2.1%
0.1% 13.6% 13.6% 0.1%
0.0
A prima vista, il fatto che i valori in (3.1.11) siano indipendenti da µ e σ può sembrare un po’ strano.
X−µ
D’altra parte P (|X − µ| ≤ λσ ) = P (|Z| ≤ λ) dove Z = σ e per la Proposizione 3.1.32 si ha
X ∼ Nµ,σ 2 =⇒ Z ∼ N0,1 .
In altre termini, si può sempre standardizzare una v.a. normale con una semplice trasformazione lineare.
Notiamo che la densità Gaussiana di Z ∼ N0,1 è una funzione pari e quindi, per ogni λ > 0 si ha
P (Z ≥ −λ) = P (−Z ≤ λ) = P (Z ≤ λ)
e di conseguenza
P (|Z| ≤ λ) = P (Z ≤ λ) − P (Z ≤ −λ)
= P (Z ≤ λ) − (1 − P (Z ≥ −λ))
= 2FZ (λ) − 1, (3.1.12)
Osserviamo che Γ assume valori positivi, Γ (1) = 1 e Γ (α + 1) = αΓ (α) poiché, integrando per parti, si ha
Z +∞ Z +∞
Γ (α + 1) = xα e−x dx = αxα−1 e−x dx = αΓ (α).
0 0
0.20
0.15
0.15
0.10
0.10
0.05
0.05
5 10 15 20 5 10 15 20
Figura 3.4: A sinistra: grafico della densità γα,2 per α = 1 (linea continua), α = 4 (linea tratteggiata) α = 6
(linea punteggiata). A destra: grafico della densità γ2,λ per λ = 12 (linea continua), λ = 41 (linea tratteggiata)
λ = 61 (linea punteggiata).
Notiamo anche che, fissato λ > 0, col cambio di variabile x = λt in (3.1.13) otteniamo
Z +∞
Γ (α) := λα t α−1 e−λt dt, α > 0.
0
Gamma1,λ = Expλ .
(per simmetria)
√
Z x y2 √
1
=2 √ e− 2 dy = 2 FX ( x) − FX (0)
0 2π
dove FX è la CDF di X. Ne risulta che FZ è assolutamente continua e quindi per il Teorema 2.4.33 la densità
di Z è data da
d d √ √ 1 1 x
FZ (x) = 2 FX ( x) = FX′ ( x) √ = √ e− 2 , x > 0.
dx dx x 2πx
Riconosciamo allora che
Z ∼ Γ1,1 .
2 2
dove nella seconda uguaglianza abbiamo usato il fatto che f è monotona crescente.
Esercizio 3.1.40. Determinare la densità di Y := eX dove X ∼ Unif[0,1] .
Corollario 3.1.41. [!] Se X è una v.a. a valori in un intervallo I con CDF FX continua e monotona
strettamente crescente su I, allora
FX (X) ∼ Unif[0,1] . (3.1.16)
Dimostrazione. Sia Y := FX (X). Chiaramente si ha FY (y) = 0 se y ≤ 0 e FY (y) = 1 se y ≥ 1 poiché FX assume
valori in [0, 1] per definizione ed è continua. Inoltre per la Proposizione 3.1.39 si ha FY (y) = y se 0 < y < 1,
da cui la tesi.
Il corollario precedente si applica per esempio a X ∼ Nµ,σ 2 con I = R e a X ∼ Gammaα,λ con I = R>0 .
3.1. VARIABILI ALEATORIE 105
1 1
Esercizio 3.1.42. Sia X ∼ 2 δ0 + Unif[0,1] . Si provi che FX (X) ∼ 2 δ 1 + Unif[ 1 ,1] e quindi l’ipotesi di
2 2
continuità di FX nel Corollario 3.1.41 non può essere rimossa.
Esempio 3.1.43. La Proposizione 3.1.39 viene solitamente utilizzata per costruire o simulare una v.a. con
assegnata CDF a partire da una v.a. uniforme. Infatti, se Y ∼ Unif[0,1] e F è una CDF monotona strettamente
crescente, allora la v.a.
X := F −1 (Y )
ha CDF uguale a F.
Per esempio, supponiamo di voler costruire una v.a. esponenziale a partire da una v.a. uniforme:
ricordando che
F(x) = 1 − e−λx , x ∈ R,
è la CDF della distribuzione Expλ , si ha
1
F −1 (y) = − log(1 − y), y ∈ ]0, 1[.
λ
Allora, per la Proposizione 3.1.39, se Y ∼ Unif]0,1[ si ha
1
− log(1 − Y ) ∼ Expλ .
λ
Il Corollario 3.1.41, e in particolare la (3.1.16), fornisce un metodo per generare al computer numeri aleatori
con un’assegnata CDF o densità a partire da numeri aleatori con distribuzione Unif[0,1] .
Il seguente risultato estende la Proposizione 3.1.32.
Proposizione 3.1.44. Se X ∈ AC è una v.a. reale con densità γX e f ∈ C 1 con f ′ , 0 allora Y := f (X) ∈ AC e
ha densità
γ (f −1 )
γY = X . (3.1.17)
f ′ (f −1 )
e questo prova che Y ∈ AC con densità γY in (3.1.17). Si noti che se f è monotona strettamente crescente
allora f ′ > 0 e il valore assoluto nella (3.1.17) è inutile. Tuttavia il risultato è valido anche per f monotona
strettamente decrescente e in tal caso il valore assoluto è necessario.
106 CAPITOLO 3. VARIABILI ALEATORIE
Esempio 3.1.45 (Distribuzione log-normale). Siano X ∼ N0,1 e f (x) = ex . Allora per la (3.1.17) la densità
della v.a. Y = eX è
1 (log y)2
γY (y) = √ e− 2 , y ∈ R>0 . (3.1.19)
y 2π
La funzione γY in (3.1.19) è detta densità della distribuzione log-normale: si noti che se Y ha distribuzione
log-normale allora log Y ha distribuzione normale.
Esempio 3.1.46 (Distribuzione normale bidimensionale). Siano X e Y v.a. che rappresentano la varia-
zione della temperatura a Bologna dall’inizio alla fine, rispettivamente, dei mesi di settembre e ottobre.
Assumiamo che (X, Y ) abbia densità normale bidimensionale
1 1 −1
γ(x, y) = √ e− 2 ⟨C (x,y),(x,y)⟩ , (x, y) ∈ R2
2π det C
dove !
2 1
C= .
1 3
Determiniamo:
i) P (Y < −1);
ii) P (Y < −1 | X < 0).
3x2 −2xy+2y 2
Si ha γ(x, y) = √1 e− 10 e
2 5π
Z Z −1
P (Y < −1) = γ(x, y)dydx ≈ 28%,
R −∞
P ((Y < −1) ∩ (X < 0))
P (Y < −1 | X < 0) = ≈ 39%,
P (X < 0)
essendo
Z 0 Z −1
P ((Y < −1) ∩ (X < 0)) = γ(x, y)dydx ≈ 19, 7%,
−∞ −∞
Z0 Z
1
P (X < 0) = γ(x, y)dydx = .
−∞ R 2
In altri termini, E [X] è una media dei valori di X pesata secondo la probabilità che tali valori siano assunti.
Se m = ∞ allora la somma in (3.2.1) diventa una serie ed occorre porre delle condizioni di convergenza.
3.2. VALORE ATTESO 107
Infine, nel caso in cui X assuma un’infinità più che numerabile di valori allora non è più possibile definire
E [X] come serie: nel caso generale, il valore atteso E [X] sarà definito come integrale di X rispetto alla
misura di probabilità P e indicato indifferentemente con
Z Z Z
XdP oppure X(ω)P (dω) oppure P (dω)X(ω).
Ω Ω Ω
Per dare la definizione precisa di valore atteso richiamiamo alcuni elementi della cosiddetta teoria del-
l’integrazione astratta su uno spazio di probabilità (Ω, F , P ), ricordando che una v.a. altro non è che una
funzione misurabile. Le dimostrazioni seguenti si adattano facilmente al caso di spazi misurabili σ -finiti
(fra cui Rd con la misura di Lebesgue).
Ci occuperemo di dare:
• una caratterizzazione operativa dell’integrale astratto e un metodo di calcolo esplicito nelle Sezioni
3.2.4 e 3.2.5.
dove (X = x1 ), . . . , (X = xm ) ∈ F sono disgiunti. In questo caso definiamo l’integrale astratto di X nel modo
seguente
Z Xm
XdP := xk P (X = xk ). (3.2.2)
Ω k=1
Tale definizione corrisponde ad una somma di Riemann in cui ogni addendo xk P (X = xk ) rappresenta l’area
di un rettangolo calcolata come “base”דaltezza” dove la misura della base è P (X = xk ) e l’altezza xk è il
valore di X su (X = xk ): si veda la Figura 3.5. Allora per definizione si ha
Z
1A dP = P (A) (3.2.3)
Ω
Lemma 3.2.1 (Beppo-Levi). Sia (Xn )n∈N una successione di v.a. semplici tali che 0 ≤ Xn ↗ X P -q.c. Se X è
semplice allora Z Z
lim Xn dP = XdP . (3.2.6)
n→∞ Ω Ω
Dimostrazione. Per ipotesi esiste A ∈ F con P (Ω \ A) = 0, tale che 0 ≤ Xn (ω) ↗ X(ω) per ogni ω ∈ A. Fissato
ε > 0 e posto
An,ε := (X − Xn ≥ ε) ∩ A, n ∈ N,
per ipotesi si ha che An,ε è una successione decrescente con intersezione vuota, ossia An,ε ↘ ∅ per n → ∞.
Allora per la continuità dall’alto di P si ha lim P (An,ε ) = 0 e di conseguenza
n→∞
Z Z Z Z
0≤ (X − Xn )dP = (X − Xn )dP = (X − Xn )dP + (X − Xn )dP ≤ εP (Ω) + P (An,ε ) max X
A Ω Ω\An,ε An,ε Ω
da cui segue la (3.2.6). Notiamo esplicitamente che max X < ∞ poiché X è semplice per ipotesi.
Ω
Lemma 3.2.2. Siano (Xn )n∈N e (Yn )n∈N successioni di v.a. semplici tale che 0 ≤ Xn ↗ X e 0 ≤ Yn ↗ Y P -q.c.
Se X ≤ Y P -q.c. allora Z Z
lim Xn dP ≤ lim Yn dP .
n→∞ Ω n→∞ Ω
8 Nel senso che P (X > Y ) = 0.
3.2. VALORE ATTESO 109
dove la prima uguaglianza segue dalla (3.2.6), mentre la disuguaglianza è dovuta al fatto che Xk ∧ Yn ≤ Yn .
Questo conclude la prova.
Lemma 3.2.3. Per ogni X ∈ mF + esiste una successione monotona crescente (Xn )n∈N in mF + di v.a. semplici,
tale che Xn ↗ X ossia vale
lim Xn (ω) = X(ω), ω ∈ Ω.
n→∞
Dimostrazione. Definiamo una successione di funzioni “a scala” su [0, +∞[ nel modo seguente: per ogni
n ∈ N consideriamo la partizione di [0, +∞[ costituita dai punti
0 1 2 n2n
, , , . . . ,
2n 2n 2n 2n
e poniamo
k−1
2n
se k−1
2n ≤ x <
k
2n per 1 ≤ k ≤ n2n ,
ϕn (x) = (3.2.7)
n
se x ≥ n.
1
x− ≤ ϕn (x) ≤ x, x ∈ [0, n],
2n
per cui
lim ϕn (x) = x, x ≥ 0.
n→∞
Grazie al Lemma 3.2.2, la seguente definizione è ben posta, ossia indipendente dalla successione ap-
prossimante (Xn )n∈N .
Definizione 3.2.4 (Integrale astratto di variabili aleatorie non-negative). Per ogni X ∈ mF + definiamo
Z Z
XdP := lim Xn dP ≤ +∞ (3.2.8)
Ω n→∞ Ω
dove (Xn )n∈N è una successione in mF + di v.a. semplici, tale che Xn ↗ X P -q.c. Se il limite in (3.2.8) è finito
diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ).
Osservazione 3.2.5. In base alla Definizione 3.2.4, le proprietà di linearità (3.2.4) e monotonia (3.2.5) si
estendono facilmente all’integrale di X ∈ mF + .
La definizione di integrale astratto è del tutto analoga a quella dell’integrale di Lebesgue. Anche in que-
sto caso il risultato centrale su cui si basa tutto lo sviluppo della teoria dell’integrazione è il fondamentale
risultato sulla convergenza monotona.
110 CAPITOLO 3. VARIABILI ALEATORIE
Dimostrazione. Fissato n ∈ N, costruiamo come nel Lemma 3.2.3 una successione Xn,k k∈N di v.a. semplici
in mF + , tale che Xn,k ↗ Xn e Xn − Xn,n ≤ n1 P -q.c. Inoltre poniamo
Yn = max{X1,n , . . . , Xn,n }, n ∈ N.
Notiamo che (Yn )n∈N è una successione di v.a. semplici in mF tale che 0 ≤ Yn ↗ X P -q.c. e quindi per
definizione Z Z
lim Yn dµ = Xdµ.
n→∞ Ω Ω
(per monotonia)
Z Z
≤ lim inf Xk dP = lim inf Xn dP ,
n→∞ k≥n Ω n→∞ Ω
da cui la tesi.
3.2. VALORE ATTESO 111
Notiamo che vale la disuguaglianza triangolare: per ogni X ∈ L1 (Ω, P ) a valori reali si ha
Z Z Z Z Z Z
XdP = X + dP − −
X dP ≤
+
X dP + −
X dP = |X|dP .
Ω Ω Ω Ω Ω Ω
nel caso in cui vogliamo mettere in evidenza la variabile d’integrazione. Per l’integrale rispetto alla misura
di Lebesgue scriveremo semplicemente
Z Z
f (x)dx invece di f dLeb.
Rd Rd
Dimostrazione. La dimostrazione delle tre proprietà è simile e quindi proviamo in maniera dettagliata solo
la i). Considerando separatamente la parte positiva e negativa delle v.a., è sufficiente considerare il caso
X, Y ∈ mF + e α, β ∈ R≥0 . Consideriamo le successioni approssimanti (Xn ) e (Yn ) costruite come nel Lemma
3.2.3: sfruttando la linearità del valore atteso nel caso di v.a. semplici, otteniamo per il Teorema di Beppo-
Levi
Z Z Z Z ! Z Z
(αX + βY )dP = lim (αXn + βYn )dP = lim α Xn dP + β Yn dP = α XdP + β Y dP .
Ω n→∞ Ω n→∞ Ω Ω Ω Ω
Vedremo in seguito una generalizzazione del teorema della convergenza dominata, il Teorema A.3.0.2
di Vitali. Il seguente corollario del Teorema 3.2.11 si prova facilmente per assurdo.
Corollario
R 3.2.12 (Assoluta continuità dell’integrale). Sia X ∈ L1 (Ω, P ). Per ogni ε > 0 esiste δ > 0 tale che
A
|X|dP < ε per ogni A ∈ F tale che P (A) < δ.
e quindi P (An ) = 0 per ogni n ∈ N. Per la continuità dal basso di P (cfr. Proposizione 2.1.32-ii)) ed essendo
[
(X > 0) = An ,
n∈N
una distribuzione discreta su (Rd , Bd ) (cfr. Definizione 2.4.15). Se f ∈ mF + oppure f ∈ L1 (Rd , µ) allora si
ha Z ∞
X
f dµ = f (xn )pn .
Rd n=1
ammesso che f sia non-negativa oppure sommabile (ossia che la somma converga assolutamente).
114 CAPITOLO 3. VARIABILI ALEATORIE
Esercizio 3.2.18. Provare che se α, β > 0, µ1 , µ2 sono distribuzioni su Rd e f ∈ L1 (Rd , µ1 ) ∩ L1 (Rd , µ2 ) allora
f ∈ L1 (Rd , αµ1 + βµ2 ) e vale
Z Z Z
f d(αµ1 + βµ2 ) = α f dµ1 + β f dµ2 .
Rd Rd Rd
Vediamo ora che nel caso di una distribuzione assolutamente continua, il calcolo dell’integrale astratto si
riconduce al calcolo di un integrale di Lebesgue pesato con la densità della distribuzione.
Proposizione 3.2.19. [!]
Sia µ una distribuzione assolutamente continua su Rd con densità γ. Allora f ∈ L1 (Rd , µ) se e solo se9
f γ ∈ L1 (Rd ) e in tal caso si ha Z Z
f (x)µ(dx) = f (x)γ(x)dx.
Rd Rd
Dimostrazione. Consideriamo prima il caso in cui f è semplice su R, ossia f (R) = {α1 , . . . , αm } cosicché
m
X
f = αk 1Hk , Hk := {x ∈ R | f (x) = αk }, k = 1, . . . , m,
k=1
(per la (3.2.3))
m
X
= αk µ(Hk ) =
k=1
da cui la tesi.
Ora assumiamo f ≥ 0 e consideriamo fn := ϕn (f ) con ϕn come in (3.2.7). Per il Teorema di Beppo-Levi
abbiamo
Z Z
f dµ = lim fn dµ =
R n→∞ R
(riapplicando il Teorema di Beppo-Levi all’integrale di Lebesgue e utilizzando il fatto che γ ≥ 0 per ipotesi
e di conseguenza (fn γ) è una successione monotona crescente di funzioni non-negative)
Z
= f (x)γ(x)dx.
R
Infine se f è una generica funzione in L1 (R, µ), allora è sufficiente considerarne la parte positiva e negativa
alle quali si applica il risultato precedente. Allora la tesi segue dalla linearità dell’integrale e ragionando
componente per componente si conclude la prova della tesi anche nel caso d-dimensionale.
Esempio 3.2.20. Consideriamo la distribuzione normale standard N0,1 e le funzioni f (x) = x e g(x) = x2 .
Allora f , g ∈ L1 (R, N0,1 ) e vale
Z Z
1 x2
f (x)N0,1 (dx) = √ xe− 2 dx = 0,
2π R
ZR Z
1 x2
g(x)N0,1 (dx) = √ x2 e− 2 dx = 1.
R 2π R
1) il caso di funzioni o v.a. indicatrici: di solito è una verifica diretta basata sulla definizione di integrale
o valore atteso;
2) il caso di funzioni o v.a. semplici: si sfrutta la linearità dell’integrale o del valore atteso;
3) il caso di funzioni o v.a. non-negative: si usa un argomento di approssimazione basato sul Lemma
3.2.3 e sul Teorema di Beppo-Levi;
4) il caso di funzioni o v.a. sommabili: ci si riconduce al caso precedente per linearità, considerando
parte positiva e negativa.
Una formulazione più generale di questa procedura è data dal secondo Teorema di Dynkin (cfr. Teorema
A.1.8).
Concludiamo la sezione con un utile risultato che proveremo più avanti (cfr. Corollario 3.5.8).
per ogni f ∈ bC(R) allora µ ≡ ν. Qui bC(R) indica lo spazio delle funzioni continue e limitate.
Definizione 3.2.23. In uno spazio di probabilità (Ω, F , P ), il valore atteso di una v.a. integrabile X è
definito da Z Z
E [X] := XdP = X(ω)P (dω).
Ω Ω
116 CAPITOLO 3. VARIABILI ALEATORIE
Esempio 3.2.24. [!] A partire dalla definizione (3.2.2) di integrale astratto, è facile calcolare il valore atteso
in due casi particolari: le variabili aleatorie costanti e indicatrici. Si ha infatti
E [c] = c, c ∈ Rd ,
E [1A ] = P (A), A ∈ F.
Il caso generale segue applicando la procedura standard dell’Osservazione 3.2.21. Infine, in base alla
(3.2.9), la (3.2.10) segue dalla Proposizione 3.2.16 e la (3.2.11) segue dalla Proposizione 3.2.19.
Osservazione 3.2.26. Applicando il Teorema 3.2.25 nel caso particolare della funzione identità f (x) = x, si
ha che se X ∈ L1 (Ω, P ) allora Z
E [X] = xµX (dx).
Rd
3.2. VALORE ATTESO 117
Definizione 3.2.27 (Varianza). Sia X ∈ L2 (Ω, P ) una v.a. reale. Si definisce varianza di X il numero reale
non-negativo h i h i
var(X) := E (X − E [X])2 = E X 2 − E [X]2 .
p
La radice della varianza var(X) è chiamata deviazione standard.
La deviazione standard è una media della distanza di X dal proprio valore atteso. Per esempio, vedremo
nell’Esempio 3.2.31 che nel caso di una v.a. normale X ∈ Nµ,σ 2 , la deviazione standard è uguale a σ : in
effetti avevamo usato σ per definire gli intervalli di confidenza di X come in Figura 3.3.
Osservazione 3.2.28. Più in generale, la varianza è ben definita per X ∈ L1 (Ω, P ), con valore minore o
uguale a +∞.
Per linearità, per ogni a, b ∈ R si ha
var(aX + b) = a2 var(X).
1
ii) Se X ∼ Unifn allora ha funzione di distribuzione γ(k) = n per k ∈ In e vale
n n
X 1X 1 n(n + 1) n + 1
E [X] = kγ(k) = k= · = ,
n n 2 2
k=1 k=1
n 2 n
n+1 1X 2 n+1 2
h i X
var(X) = E X 2 − E [X]2 = k 2 γ(k) − = k −
2 n 2
k=1 k=1
1 n(n + 1)(2n + 1) n + 1 2 n2 − 1
= · − = .
n 6 2 12
iv) Se X ∼ Binn,p , con un conto diretto (si veda anche la Proposizione 3.6.3) si prova che
k
v) Se X ∼ Poissonλ allora ha funzione di distribuzione γ definita da γ(k) = e−λ λk! per k ∈ N0 e vale
∞ ∞ ∞
X X λk X λk−1
E [X] = kγ(k) = ke−λ = λe−λ = λ.
k! (k − 1)!
k=0 k=1 k=1
vi) Se X ∼ Geomp allora ha funzione di distribuzione γ definita da γ(k) = p(1 − p)k−1 per k ∈ N e quindi
vale
∞ ∞ ∞ !
X X
k−1
X d k
E [X] = kγ(k) = p k(1 − p) =p − (1 − p)
dp
k=1 k=1 k=1
∞ !
d X d 1 1
= −p (1 − p)k = −p = ,
dp dp 1 − (1 − p) p
k=1
dove abbiamo usato un teorema di scambio di derivata con serie. In maniera analoga si prova che
1−p
var(X) = p2 .
Esempio 3.2.30. [!] Consideriamo un gioco d’azzardo in cui si lancia una moneta (non truccata): se viene
testa si vince un euro e se viene croce si perde un euro. Se X è la variabile aleatoria che rappresenta il
risultato della giocata, si ha
1 1
E [X] = 1 · + (−1) · = 0
2 2
e quindi si dice che il gioco è equo. Il gioco è equo anche se la vincita e la perdita fossero pari a 1000
euro, ma intuitivamente saremmo meno propensi a giocare perché percepiamo una rischiosità maggiore
(di perdere molti soldi). Matematicamente, questo si spiega col fatto che
h i 1 1
var(X) = E X 2 = 12 · + (−1)2 · = 1
2 2
mentre se Y rappresenta la v.a. nel caso in cui la posta in gioco è 1000 euro, si ha
h i 1 1
var(Y ) = E Y 2 = 10002 · + (−1000)2 · = 10002 .
2 2
In pratica, se due scommesse hanno lo stesso valore atteso, quella con varianza minore limita l’entità delle
potenziali perdite.
i) se X ∼ Unif[a,b] si ha
Z Zb
1 a+b
E [X] = yUnif[a,b] (dy) = ydy = ,
R b−a a 2
!2 Zb !2
(b − a)2
Z
a+b 1 a+b
var(X) = y− Unif[a,b] (dy) = y− dy = .
R 2 b−a a 2 12
(y−µ)2
Z Z
1 −
E [X] = yNµ,σ 2 (dy) = √ ye 2σ 2 dy =
R 2πσ 2 R
y−µ
(col cambio di variabili z = √ )
σ 2
1
Z √ −z2 µ
Z
2
=√ µ + zσ 2 e dz = √ e−z dz = µ.
π R π R
iii) se X ∼ Gammaα,1 si ha
Z ∞ Z∞
1 Γ (α + 1)
E [X] = tγα,1 (t)dt = t α e−λt dt = = α,
0 Γ (α) 0 Γ (α)
Z ∞ Z ∞
h i 1 Γ (α + 2)
E X2 = t 2 γα,1 (t)dt = t 1+α e−λt dt = = α(α + 1)
0 Γ (α) 0 Γ (α)
da cui h i
var(X) = E X 2 − E [X]2 = α.
In generale, per il Lemma 3.1.37, se X ∼ Gammaα,λ si ha
α α
E [X] = , var(X) = .
λ λ2
In particolare, se X ∼ Expλ = Gamma1,λ allora
Z Z +∞
1
E [X] = ye−λy dy = ,
yExpλ (dy) = λ
R 0 λ
Z +∞
1 2 1 2 −λy
Z
1
var(X) = y− Expλ (dy) = λ y− e dy = 2 .
R λ 0 λ λ
f (E [X]) ≤ E [f (X)] .
120 CAPITOLO 3. VARIABILI ALEATORIE
Dimostrazione. Ricordiamo che se f è convessa allora per ogni z ∈ ]a, b[ esiste m ∈ R tale che
Proviamo dopo la (3.2.13) e concludiamo prima la prova della disuguaglianza di Jensen. Posto z = E [X] (si
noti che E [X] ∈ ]a, b[ poiché X(Ω) ⊆ ]a, b[ per ipotesi) si ha
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y), ∀x, y ∈ ]a, b[, λ ∈ [0, 1],
Introduciamo la notazione
f (y) − f (x)
∆y,x = , a < x < y < b.
y −x
Non è difficile verificare10 che la (3.2.14) è equivalente a
La (3.2.15) implica11 che f è una funzione continua su ]a, b[ ed anche che le funzioni
Osservazione 3.2.33. La dimostrazione della disuguaglianza di Jensen è basata, oltre alle proprietà delle
funzioni convesse, soltanto sulle proprietà di monotonia, linearità e E [1] = 1 della media. In particolare
il fatto che E [1] = 1 è fondamentale: a differenza della disuguaglianza triangolare, la disuguaglianza di
Jensen non vale per un integrale o una somma generica.
È facile dare un esempio di X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ): è sufficiente considerare X(ω) =
Y (ω) = √1ω nello spazio ([0, 1], B, Leb). Diamo anche un esempio in uno spazio discreto.
dove c è la costante positiva13 che normalizza a 1 la somma dei P ({n}) in modo che P sia una misura di
probabilità. La v.a. X(n) = n è sommabile in P poiché
∞ ∞
X X c
E [X] = X(n)P ({n}) = n· < +∞.
n3
n=1 n=1
∥X∥p1 ≤ ∥X∥p2
e quindi
Lp2 (Ω, P ) ⊆ Lp1 (Ω, P ).
L’Esempio 3.2.36 mostra che in generale l’inclusione è stretta.
13 Per precisione, c = Zeta(3) ≈ 1.20206 dove Zeta indica la funzione zeta di Riemann.
122 CAPITOLO 3. VARIABILI ALEATORIE
Dimostrazione. La tesi è diretta conseguenza della disuguaglianza di Jensen con f (x) = xq , x ∈ [0, +∞[,
p
q = p2 ≥ 1: infatti abbiamo
1
p2
E [|X|p1 ] p1 ≤ E [|X|p2 ] .
e = |X| .
h i
E X|Y
e | ≤ ∥Y ∥q , dove X
∥X∥p
h i
ep ≥ 0 e E X
Notiamo che X ep = 1: quindi consideriamo la probabilità Q con densità X
ep rispetto a P , definita
da h i
Q(A) = E X ep 1A , A ∈ F.
Allora si ha
" #q " #q
e | q = EP Xep |Y | 1 e |Y |
h i
E P X|Y = E Q
1 e ) ≤
ep−1 (X>0)
X ep−1 (X>0
X
(per la disuguaglianza di Jensen)
|Y |q
" #
Q
≤E 1 e ) =
eq(p−1) (X>0
X
(poiché, essendo p, q coniugati, vale q(p − 1) = p)
" q #
Q |Y |
P q q
=E e ) = E |Y | 1(X>0
1(X>0 e ) ≤ ∥Y ∥q ,
Xe p
e q.c.
da cui X =Y e.
3.2. VALORE ATTESO 123
Teorema 3.2.40. Per ogni p ≥ 1, Lp (Ω, P ) è uno spazio vettoriale su cui ∥ · ∥p è una semi-norma, ossia vale
q.c.
i) ∥X∥p = 0 se e solo se X = 0;
ii) ∥λX∥p = |λ|∥X∥p per ogni λ ∈ R e X ∈ Lp (Ω, P );
iii) vale la disuguaglianza di Minkowski
∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p ,
(poiché (p − 1)q = p)
1− 1
≤ ∥X∥p + ∥Y ∥p E [|X + Y |p ] p ,
Allora si ha
" "
3
E [X] = xγ(X,Y ) (x, y)dxdy = log 2, E [Y ] = yγ(X,Y ) (x, y)dxdy =
R2 R2 2
e "
3 3
cov(X, Y ) = (x − log 2) y − γ(X,Y ) (x, y)dxdy = 1 − log 2.
R2 2 2
In questa sezione usiamo le seguenti notazioni:
- eX := E [X] per l’attesa di X;
- σXY := cov(X, Y ) := e(X−eX )(Y −eY ) = eXY − eX eY per la covarianza di X, Y ;
124 CAPITOLO 3. VARIABILI ALEATORIE
p
- σX = var(X) per la deviazione standard di X, dove
Osserviamo che:
i) per ogni c ∈ R si ha h i h i
var(X) = E (X − E [X])2 ≤ E (X − c)2
X − eX
Z= ,
σX
iii) Vale
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ). (3.2.19)
Se cov(X, Y ) = 0 si dice che le v.a. X, Y sono scorrelate.
iv) La covarianza cov(·, ·) è un operatore bilineare e simmetrico su L2 (Ω, P )×L2 (Ω, P ), ossia per ogni X, Y , Z ∈
L2 (Ω, P ) e α, β ∈ R vale
p
v) Per la disuguaglianza di Cauchy-Schwarz (3.2.18) si ha |cov(X, Y )| ≤ var(X)var(Y ) ossia
|σXY | ≤ σX σY (3.2.20)
q.c.
e si ha l’uguaglianza nella (3.2.20) se e solo se Y è funzione lineare di X nel senso che Y = āX + b̄: nel
caso in cui σX > 0, le costanti ā e b̄ sono date da
σXY σXY
ā = , b̄ = eY − eX . (3.2.21)
σX2 σX2
Come vedremo nella Sezione 3.2.9, la retta di equazione y = āx + b̄ è detta retta di regressione, e
intuitivamente fornisce una rappresentazione della dipendenza lineare fra due campioni di dati.
Definizione 3.2.43 (Correlazione). Siano X, Y ∈ L2 (Ω, P ) tali che σX , σY > 0. Il coefficiente di correlazione di
X, Y è definito da
σ
ϱXY := XY .
σX σY
q.c.
Dalla (3.2.20) segue che ϱXY ∈ [−1, 1] e |ϱXY | = 1 se e solo se Y = āX + b̄: si noti che ā > 0 se ϱXY = 1 e ā < 0
se ϱXY = −1. Dunque il coefficiente di correlazione misura il grado di dipendenza lineare fra X e Y .
3.2. VALORE ATTESO 125
Sia ora X = (X1 , . . . , Xd ) ∈ L2 (Ω, P ) una v.a. a valori in Rd . La matrice di covarianza di X è la matrice d × d
simmetrica
cov(X) = σXi Xj = E (X − E [X]) (X − E [X])∗ ,
i,j=1,...,d | {z } | {z }
d×1 1×d
dove M∗ indica la trasposta della matrice M. Poiché
2
⟨cov(X)y, y⟩ = E (X − E [X])∗ y ≥ 0, y ∈ Rd ,
la matrice di covarianza è semi-definita positiva. Si noti che gli elementi della diagonale sono le varianze σX2i
per i = 1, . . . , d. Se σXi > 0 per ogni i = 1, . . . , d, definiamo la matrice di correlazione in modo analogo:
ϱ(X) = ϱXi Xj .
i,j=1,...,d
La matrice ϱ(X) è simmetrica, semi-definita positiva e gli elementi della diagonale sono uguali a uno: per
esempio nel caso d = 2, posto ϱ = ϱX1 X2 si ha
σX21
! !
1 ϱ ϱ σX1 σX2
ϱ(X) = cov(X) = .
ϱ 1 ϱ σX1 σX2 σX22
E [Z] = AE [X] + b,
e matrice di covarianza
Osservazione 3.2.44 (Decomposizione di Cholesky). [!] Una matrice simmetrica e semi-definita positiva
C si può fattorizzare nella forma C = AA∗ : ciò segue dal fatto che, per il Teorema spettrale,
√ C=U ∗
√DU con
−1 ∗ ∗
U ortogonale (ossia tale U = U ) e D matrice diagonale; dunque basta porre A = U DU dove D indica
la matrice diagonale i cui elementi sono le radici quadrate degli elementi di D (che sono reali non-negativi,
essendo C simmetrica e semi-definita positiva).
La fattorizzazione C = AA∗ non è unica: l’algoritmo di Cholesky permette di determinare una matrice
triangolare inferiore A per cui valga C = AA∗ . Per esempio, data la matrice di correlazione in dimensione
due !
1 ϱ
C=
ϱ 1
si ha la fattorizzazione di Cholesky C = AA∗ dove
!
1 p 0
A= .
ϱ 1 − ϱ2
X : IM −→ R, X(i) := xi , i ∈ IM .
126 CAPITOLO 3. VARIABILI ALEATORIE
Munendo lo spazio campionario IM della probabilità uniforme, media e varianza di X sono date da
M M
1 X 1 X
E [X] = xi , var(X) = (xi − E [x])2 .
M M
i=1 i=1
In Statistica, E [X] e var(X) sono chiamate la media campionaria e la varianza campionaria della serie storica
x e sono spesso indicate con E [x] e var(x) rispettivamente.
Siano ora x = (x1 , . . . , xM ) e y = (y1 , . . . , yM ) due serie storiche. Un semplice strumento per visualizzare
il grado di “dipendenza” fra x e y è il cosiddetto grafico di dispersione: in esso si rappresentano sul piano
cartesiano i punti di coordinate (xi , yi )i∈IM . Un esempio è dato in Figura 3.6.
30
30
25
20
20
10 15
10
Bologna
Jan Mar May Jul Sep Nov Jan -5 5 10 15 20 25 30
Figura 3.6: A sinistra: temperature nell’anno 2012 di Bologna (linea continua) e Città del Capo (linea
tratteggiata). A destra: grafico di dispersione delle temperature nell’anno 2012 di Bologna (in ascissa) e
Città del Capo (in ordinata).
La retta di regressione, tracciata nel grafico di dispersione in Figura 3.6, è la retta di equazione y = ax + b
dove a, b minimizzano le differenze fra axi + b e yi nel senso che rendono minimo l’errore quadratico
M
X
Q(a, b) = (axi + b − yi )2 .
i=1
Annullando il gradiente
XM M
X
(∂a Q(a, b), ∂b Q(a, b)) = 2 (axi + b − yi ) xi , 2 (axi + b − yi )
i=1 i=1
Xi : Ω −→ Rdi , i = 1, . . . , n,
con di ∈ N e poniamo d = d1 + · · · + dn .
Notazione 3.2.45. Al solito indichiamo con µX e FX rispettivamente la distribuzione e la funzione di
ripartizione (CDF) di X. Esamineremo con particolare attenzione i casi in cui:
i) X è assolutamente continua: in tal caso indichiamo con γX la sua densità (che è definita univocamente
a meno di insiemi Lebesgue-trascurabili);
ii) X è discreta: in tal caso indichiamo con µ̄X la sua funzione di distribuzione definita da µ̄X (x) = P (X =
x).
Nel seguito useremo sempre notazioni vettoriali: in particolare, se x, y ∈ Rd allora x ≤ y significa xi ≤ yi per
ogni i = 1, . . . , d, e
] − ∞, x] := ] − ∞, x1 ] × · · · × ] − ∞, xd ].
Definizione 3.2.46. Si dice che µX e FX sono rispettivamente la distribuzione congiunta e la CDF congiunta
delle v.a. X1 , . . . , Xn . Analogamente, nel caso esistano, γX e µ̄X sono la densità congiunta e la funzione di
distribuzione congiunta di X1 , . . . , Xn .
Viceversa, le distribuzioni µXi , i = 1, . . . , n, delle v.a. X1 , . . . , Xn sono dette distribuzioni marginali di X.
Analogamente si parla di CDF marginali, densità marginali e funzioni di distribuzione marginali di X.
La seguente proposizione mostra che dalla congiunta si possono ricavare facilmente le marginali. Nel-
l’enunciato, per semplificare le notazioni, consideriamo solo le marginali per la prima componente X1 ma
un risultato analogo è valido per ogni componente.
Proposizione 3.2.47. [!] Sia X = (X1 , . . . , Xn ) una v.a. Si ha:
Inoltre, se X ∈ AC allora X1 ∈ AC e
Z
γX1 (x1 ) := γX (x1 , x2 , . . . , xn )dx2 · · · dxn , x1 ∈ Rd1 (3.2.24)
Rd−d1
128 CAPITOLO 3. VARIABILI ALEATORIE
P (X1 ∈ H) = P (X ∈ H × Rd−d1 )
Z
= γX (x)dx =
H×Rd−d1
(per la (2.4.3))
X X
= µ̄X (x) = µ̄X (x1 , x2 , . . . , xn ).
x∈{x1 }×Rd−d1 (x2 ,...,xn )∈Rd−d1
Osservazione 3.2.48 (Criterio di Sylvester). Ricordiamo che una matrice C di dimensione d × d è detta
definita positiva se vale
⟨Cx, x⟩ > 0, x ∈ Rd \ {0}.
In base all’utile criterio di Sylvester, una matrice reale simmetrica C è definita positiva se e solo se dk > 0
per ogni k = 1, . . . , d, dove dk indica il determinante della matrice ottenuta cancellando da C le ultime d − k
righe e le ultime d − k colonne.
La funzione Γ è detta densità della distribuzione normale bidimensionale: se X = (X1 , X2 ) ha densità Γ allora si
dice che X ha distribuzione normale bidimensionale e si scrive X ∼ N0,C .
In base alla Proposizione 3.2.47 le densità marginali di X1 e X2 sono rispettivamente
Z x 2
1 − 1
γX1 (x1 ) = Γ (x1 , x2 )dx2 = √ e 2v1 , x1 ∈ R,
R 2πv1
x2
Z
1 − 2
γX2 (x2 ) = Γ (x1 , x2 )dx1 = √ e 2v2 , x2 ∈ R,
R 2πv2
Dunque la distribuzione congiunta fornisce informazioni non solo sulle singole distribuzioni marginali, ma
anche sulle relazioni fra le diverse componenti di X. Al contrario, a partire dalla conoscenza delle distribuzioni
marginali, X1 ∼ N0,v1 e X2 ∼ N0,v2 , non si può dire nulla sulla covarianza di X1 , X2 : in generale, non è
possibile ricavare la distribuzione congiunta dalle marginali. Al riguardo si veda anche l’Esempio 3.3.24.
3.3 Indipendenza
Nella teoria della probabilità, una delle questioni di maggior interesse teorico e applicativo riguarda l’e-
sistenza e il grado di dipendenza fra quantità aleatorie. Per esempio, abbiamo già visto che la correlazione
è un indice di un particolare tipo di dipendenza, quella lineare, fra variabili aleatorie. In questo paragra-
fo diamo una trattazione generale dell’argomento introducendo i concetti di dipendenza deterministica e
indipendenza stocastica.
σ (X) ⊆ σ (Y ), (3.3.1)
Osservazione 3.3.2. [!] Siano Y una v.a. e f ∈ mB. Come visto in (3.1.1), vale
σ (f (Y )) = (f ◦ Y )−1 (B) = Y −1 f −1 (B) ⊆ Y −1 (B) = σ (Y ).
da cui
σ (f (Y )) ⊆ σ (Y ). (3.3.2)
Quindi X := f (Y ) dipende in modo deterministico da Y . Dall’inclusione (3.1.9) si deduce anche il seguente
utile risultato: se f , g ∈ mB e X, Y sono v.a. indipendenti, allora anche le v.a. f (X), g(Y ) sono indipendenti.
Teorema 3.3.3 (Teorema di Doob). [!!] Siano X, Y v.a. reali su (Ω, F , P ). Allora X ∈ mσ (Y ) se e solo se
esiste f ∈ mB tale che X = f (Y ).
Osservazione 3.3.4. Il Teorema di Doob rimane valido (con dimostrazione pressoché identica) nel caso in
cui X sia a valori in Rd e Y sia a valori in un generico spazio misurabile (E, E ). L’enunciato generale è il
seguente: X ∈ mσ (Y ) se e solo se esiste una funzione misurabile14 f : E −→ Rd tale che X = f (Y ).
X
(Ω, F ) Rd , Bd
Y f
(E, E )
Dimostrazione del Teorema 3.3.3. Se X = f (Y ) con f ∈ mB allora X ∈ mσ (Y ): ciò segue direttamente dalla
(3.3.2). Viceversa, sia X ∈ mσ (Y ). Utilizzando una trasformazione del tipo
1 1
Z= + arctan X
2 π
non è restrittivo assumere che X sia a valori in ]0, 1[.
Consideriamo prima il caso in cui X è semplice, ossia X assume solo i valori distinti x1 , . . . , xm ∈ ]0, 1[ e
quindi si scrive nella forma
X m
X= xk 1(X=xk ) .
k=1
si ha
m
X m
X m
X
f (Y ) = xk 1Hk (Y ) = xk 1(Y ∈Hk ) = xk 1(X=xk ) = X.
k=1 k=1 k=1
Consideriamo ora il caso generale in cui X assume valori in ]0, 1[: per il Lemma 3.2.3 esiste una
successione (Xn )n≥1 di v.a. semplici e σ (Y )-misurabili tali che
Per quanto provato nel punto precedente, si ha Xn = fn (Y ) con fn ∈ mB a valori in [0, 1[. Definiamo
Corollario 3.3.5. Siano X, Y , Z v.a. reali su (Ω, F , P ) con X ≥ Z. Se X, Z ∈ mσ (Y ) esistono f , g ∈ mB tali che
X = f (Y ), Z = g(Y ) e f ≥ g.
Dimostrazione. Nel caso Z ≡ 0 la tesi è conseguenza della costruzione di f fatta nella dimostrazione del
Teorema 3.3.3. Nel caso generale, poiché 0 ≤ X − Z ∈ mσ (Y ) esiste 0 ≤ h ∈ mB tale che X − Z = h(Y ). Inoltre
esiste f ∈ mσ (Y ) tale che Z + h(Y ) = X = f (Y ) e quindi Z = (f − h)(Y ) con f ≥ f − h ∈ mσ (Y ).
Per capire il concetto di dipendenza deterministica si esamini attentamente il seguente
Esercizio 3.3.6. [!] Consideriamo Ω = {1, 2, 3} e le v.a. X, Y di Bernoulli definite su Ω nel modo seguente
1 se ω ∈ {1, 2}, 1 se ω = 1,
X(ω) = Y (ω) =
0 se ω = 3, 0 se ω ∈ {2, 3}.
Notiamo che
σ (X) = {∅, Ω, {1, 2}, {3}}, σ (Y ) = {∅, Ω, {1}, {2, 3}}.
i) Verificare direttamente che non esiste una funzione f tale che X = f (Y ).
ii) Le v.a. X e Y sono indipendenti rispetto alla probabilità uniforme?
iii) Esiste una misura di probabilità su Ω rispetto alla quale X e Y sono indipendenti?
Soluzione.
i) Se esistesse una tale funzione f allora si avrebbe
che è assurdo. Dunque fra X e Y non c’è dipendenza deterministica. Notiamo che, in accordo col Teorema 3.3.3, non sussistono
relazioni di inclusione fra σ (X) e σ (Y ).
ii) X e Y non sono indipendenti nella probabilità uniforme perché gli eventi (X = 1) = {1, 2} e (Y = 0) = {2, 3} non sono
indipendenti in quanto
1
P ((X = 1) ∩ (Y = 0)) = P ({2}) =
3
ma
4
P (X = 1)P (Y = 0) = .
9
iii) Sı̀, per esempio la probabilità definita da P (1) = P (3) = 0 e P (2) = 1: più in generale, X e Y sono indipendenti rispetto
ad una probabilità tipo Delta di Dirac centrata in 1 o 2 o 3 (si veda al riguardo il punto i) dell’esercizio seguente).
Osservazione 3.3.7. [!] L’Esercizio 3.3.6 ci permette di ribadire che il concetto di indipendenza stocastica
è sempre relativo ad una particolare misura di probabilità fissata. Al contrario, la dipendenza deterministica
è una proprietà generale che non dipende dalla misura di probabilità considerata. In particolare, i concetti di
indipendenza stocastica e di dipendenza deterministica non sono “uno il contrario dell’altro”. Fra l’altro,
la dipendenza deterministica “va in una direzione”: se X dipende in modo deterministico da Y non è detto
che Y dipenda in modo deterministico da X.
132 CAPITOLO 3. VARIABILI ALEATORIE
Allora si ha
P (X = y) = P (X = y) ∩ (f (X) = f (y)) = P (X = y)P (f (X) = f (y)) = P (X = y)2
Ω := Ω1 × Ω2 = {(x, y) | x ∈ Ω1 , y ∈ Ω2 },
R := {A × B | A ∈ F1 , B ∈ F2 }.
Indichiamo con
F1 ⊗ F2 := σ (R)
la σ -algebra generata dai rettangoli, anche chiamata σ -algebra prodotto di F1 e F2 . Vale la seguente
generalizzazione del Corollario 3.1.6 e dell’Osservazione 3.1.9.
Corollario 3.3.9. Per k = 1, 2, siano Xk : Ωk −→ R funzioni sugli spazi misurabili (Ωk , Fk ). Le seguenti
proprietà sono equivalenti:
i) (X1 , X2 ) ∈ m(F1 ⊗ F2 );
ii) Xk ∈ mFk per k = 1, 2.
Inoltre, se vale i) o ii) allora per ogni f ∈ mB2 si ha che f (X1 , X2 ) ∈ m(F1 ⊗ F2 ).
Osservazione 3.3.10. Ogni disco di R2 è unione numerabile di rettangoli e di conseguenza B ⊗ B = B2 . Al
contrario, se Ld indica la σ -algebra dei misurabili secondo Lebesgue in Rd , allora L1 ⊗ L1 è strettamente
incluso in L2 . Infatti, per esempio, se H ⊆ R non è misurabile secondo Lebesgue, allora H × {0} ∈ L2 \
(L1 ⊗ L1 ).
Lemma 3.3.11. Sia
f : Ω1 × Ω2 −→ R
una funzione F1 ⊗ F2 -misurabile e limitata. Allora si ha:
i) f (·, y) ∈ mF1 per ogni y ∈ Ω2 ;
3.3. INDIPENDENZA 133
iii) vale Z Z ! Z Z !
f (x, y)µ2 (dy) µ1 (dx) = f (x, y)µ1 (dx) µ2 (dy).
Ω1 Ω2 Ω2 Ω1
Dimostrazione. Come nel lemma precedente, la tesi segue dal secondo Teorema di Dynkin applicato alla
famiglia H delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i), ii) e iii). Infatti H è
una famiglia monotona di funzioni e 1A×B ∈ H per ogni (A × B) ∈ R.
Proposizione 3.3.14 (Misura prodotto). La funzione definita da
Z Z ! Z Z !
µ(H) := 1H dµ2 dµ1 = 1H dµ1 dµ2 , H ∈ F1 ⊗ F2 ,
Ω1 Ω2 Ω2 Ω1
Dimostrazione. La (3.3.4) è vera se f = 1A×B e quindi, per il secondo Teorema di Dynkin, anche per f
misurabile e limitata. Il Teorema di Beppo-Levi e la linearità dell’integrale assicurano la validità di (3.3.4)
rispettivamente per f non-negativa e f ∈ L1 .
134 CAPITOLO 3. VARIABILI ALEATORIE
Osservazione 3.3.16. Il Teorema 3.3.15 resta valido sotto l’ipotesi che gli spazi (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 )
siano σ -finiti. A partire dal Teorema 3.3.15, si definisce per induzione la misura prodotto di più di due
misure
µ1 ⊗ · · · ⊗ µn .
Esempio 3.3.17. Sia µ = Expλ ⊗ Bep la misura prodotto su R2 delle distribuzioni esponenziale Expλ e di
Bernoulli Bep . Per il Teorema di Fubini, il calcolo dell’integrale di f ∈ L1 (R2 , µ) si svolge nel modo seguente:
" Z Z !
f (x, y)µ(dx, dy) = f (x, y)Bep (dy) Expλ (dx)
R2 R R
Z
= (pf (x, 1) + (1 − p)f (x, 0)) Expλ (dx)
R
Z +∞ Z +∞
= pλ f (x, 1)e−λx dx + (1 − p)λ f (x, 0)e−λx dx.
0 0
Definizione 3.3.18. Diciamo che le famiglie di eventi Fi , con i ∈ I, sono indipendenti in P se vale
n n
\ Y
P Ak =
P (Ak ),
k=1 k=1
Lemma 3.3.20. Siano A1 , . . . , An famiglie di eventi in (Ω, F , P ), chiuse rispetto all’intersezione. Allora
A1 , . . . , An sono indipendenti in P se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .
Per ipotesi µ = ν su A2 e inoltre µ(Ω) = P (A) = ν(Ω), quindi per il Corollario A.1.5 µ = ν su σ (A2 ) o, in altri
termini
P (A ∩ B) = P (A)P (B), B ∈ σ (A2 ).
Abbiamo provato che µ = ν su A1 e ovviamente µ(Ω) = P (B) = ν(Ω), quindi ancora per il Corollario A.1.5
si ha µ = ν su σ (A1 ) che equivale alla tesi.
3.3. INDIPENDENZA 135
Definizione 3.3.21 (Indipendenza di v.a.). Diciamo che le v.a. X1 , . . . , Xn , definite sullo spazio (Ω, F , P ),
sono indipendenti in P se le relative σ -algebre generate σ (X1 ), . . . , σ (Xn ) sono indipendenti in P o, equiva-
lentemente, se vale n
\ Yn
P (Xi ∈ Hi ) =
P (Xi ∈ Hi ), Hi ∈ Bdi , i = 1, . . . , n.
i=1 i=1
Osservazione 3.3.22. [!] Come conseguenza della (3.3.2), se X1 , . . . , Xn sono v.a. indipendenti su (Ω, F , P ) e
f1 , . . . , fn ∈ mB allora anche le v.a. f1 (X1 ), . . . , fn (Xn ) sono indipendenti in P : in altri termini, la proprietà di in-
dipendenza è invariante per trasformazioni di tipo deterministico (nello specifico, l’operazione di composizione
con funzioni misurabili).
Per esempio, supponiamo che X1 , . . . , Xn , Y1 , . . . , Ym siano v.a. reali e X := (X1 , . . . , Xn ) e Y := (Y1 , . . . , Ym )
siano indipendenti. Allora sono indipendenti anche le seguenti coppie di variabili aleatorie15
i) Xi e Yj per ogni i e j;
Teorema 3.3.23. [!!] Siano X1 , X2 v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 e Rd2 . Le seguenti tre
proprietà sono equivalenti:
i) X1 , X2 sono indipendenti in P ;
ii) F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 )FX2 (x2 ) per ogni x1 ∈ Rd1 e x2 ∈ Rd2 ;
Infine, se (X1 , X2 ) è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:
[ii) =⇒ iii)] L’ipotesi F(X1 ,X2 ) = FX1 FX2 implica che le distribuzioni µ(X1 ,X2 ) e µX1 ⊗ µX2 coincidono sulla
famiglia dei pluri-intervalli ] − ∞, x1 ]× ] − ∞, x2 ]: la tesi segue dall’unicità dell’estensione della misura del
Teorema 2.4.29 di Carathéodory (oppure si veda il Corollario A.1.5, poiché la famiglia dei pluri-intervalli
è ∩-chiusa e genera Bd1 +d2 ).
[iii) =⇒ i)] Per ogni H ∈ Bd1 e K ∈ Bd2 si ha
da cui l’indipendenza di X1 e X2 .
Assumiamo ora che (X1 , X2 ) ∈ AC e quindi, per la Proposizione 3.2.47, anche X1 , X2 ∈ AC.
[i) =⇒ iv)] Per l’ipotesi di indipendenza, si ha
Z Z
P ((X1 , X2 ) ∈ H × K) = P (X1 ∈ H)P (X2 ∈ K) = γX1 (x1 )dx1 γX2 (x2 )dx2 =
H K
(per il Teorema di Fubini e con la notazione x = (x1 , x2 ) per il punto di Rd1 +d2 )
Z
= γX1 (x1 )γX2 (x2 )dx
H×K
(per ipotesi)
Z
= γX1 (x1 )γX2 (x2 )dx
H×K
da cui l’indipendenza di X1 e X2 .
Infine assumiamo che la v.a. (X1 , X2 ) sia discreta e quindi, per la Proposizione 3.2.47, anche X1 , X2 lo
siano. La dimostrazione è del tutto analoga al caso precedente.
[i) =⇒ v)] Per l’ipotesi di indipendenza, si ha
µ̄(X1 ,X2 ) (x1 , x2 ) = P ((X1 = x1 ) ∩ (X2 = x2 )) = P (X1 = x1 )P (X2 = x2 ) = µ̄X1 (x1 )µ̄X2 (x2 )
da cui la (3.3.6).
3.3. INDIPENDENZA 137
[v) =⇒ i)] Si ha
X
P ((X1 , X2 ) ∈ H × K) = µ̄(X1 ,X2 ) (x1 , x2 ) =
(x1 ,x2 )∈H×K
(per ipotesi)
X
= µ̄X1 (x1 )µ̄X2 (x2 ) =
(x1 ,x2 )∈H×K
da cui l’indipendenza di X1 e X2 .
Il seguente esempio mostra due coppie di v.a. con uguali distribuzioni marginali ma diverse distribu-
zioni congiunte.
Esempio 3.3.24. [!] Consideriamo un’urna contenente n palline numerate. Siano:
i) X1 , X2 i risultati di due estrazioni successive con reinserimento;
ii) Y1 , Y2 i risultati di due estrazioni successive senza reinserimento.
È naturale assumere che le v.a. X1 , X2 abbiano distribuzione uniforme Unifn e siano indipendenti: per il
Teorema 3.3.23-v) la funzione di distribuzione congiunta è
1
µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ) = , (x1 , x2 ) ∈ In × In ,
n2
dove, al solito, In = {1, . . . , n}.
La v.a. Y1 ha distribuzione uniforme Unifn ma non è indipendente da Y2 . Per ricavare la funzione
di distribuzione congiunta utilizziamo la conoscenza della probabilità che la seconda estrazione sia y2 ,
condizionata al fatto che la prima pallina estratta sia y1 :
1
n−1 se y2 ∈ In \ {y1 },
P (Y2 = y2 | Y1 = y1 ) =
0
se y2 = y1 .
Allora abbiamo
P (Y1 , Y2 ) = (y1 , y2 ) = P (Y1 = y1 ) ∩ (Y2 = y2 )
= P (Y2 = y2 | Y1 = y1 ) P (Y1 = y1 ) (3.3.7)
da cui
1
n(n−1)
se y1 , y2 ∈ In , y1 , y2 ,
µ̄(Y1 ,Y2 ) (y1 , y2 ) =
0
altrimenti.
Sottolineiamo l’importanza del passaggio (3.3.7) in cui, non potendo sfruttare l’indipendenza, abbiamo
usato la formula di moltiplicazione (2.3.5). Avendo µ̄(Y1 ,Y2 ) , possiamo ora calcolare µ̄Y2 mediante la (3.2.25)
della Proposizione 3.2.47: per ogni y2 ∈ In abbiamo
X X 1 1
µ̄Y2 (y2 ) = µ̄(Y1 ,Y2 ) (y1 , y2 ) = = ,
n(n − 1) n
y1 ∈In y1 ∈In \{y2 }
Il Teorema 3.3.23 si estende al caso di un numero finito di v.a. nel modo seguente:
Teorema 3.3.25. [!!] Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ) e d = d1 + · · · + dn , le seguenti tre proprietà sono equivalenti:
i) X1 , . . . , Xn sono indipendenti in P ;
iii) vale
µX = µX1 ⊗ · · · ⊗ µXn .
Infine, se X è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:
Nella Sezione 3.1.1 abbiamo provato che è possibile costruire uno spazio di probabilità su cui è definito
un vettore aleatorio (X1 , . . . , Xn ) con distribuzione assegnata (cfr. Osservazione 3.1.17). Come semplice
conseguenza si ha anche:
Osservazione 3.3.27. Nella dimostrazione precedente la costruzione di numero n di variabili aleatorie in-
dipendenti avviene prendendo come spazio campionario lo spazio Euclideo di dimensione almeno pari a n.
Questo fatto fa intuire che il problema della costruzione di una successione (o, ancor peggio, di una famiglia
non numerabile) di v.a. indipendenti non è altrettanto semplice perché, per analogia, lo spazio campionario
dovrebbe avere dimensione infinita.
Teorema 3.3.28. [!!] Siano X, Y v.a. reali indipendenti sullo spazio (Ω, F , P ). Se X, Y ≥ 0 oppure X, Y ∈
L1 (Ω, P ) allora si ha
E [XY ] = E [X] E [Y ] .
3.3. INDIPENDENZA 139
Dimostrazione. Si ha
Z
E [XY ] = xyµ(X,Y ) (d(x, y))
R2
Osservazione 3.3.29. Si ricordi che, per l’Esercizio 3.2.36, in generale X, Y ∈ L1 (Ω, P ) non implica XY ∈
L1 (Ω, P ): tuttavia, per il Teorema 3.3.28, ciò è vero se X, Y sono indipendenti.
Esempio 3.3.31. Un esempio di v.a. scorrelate ma non indipendenti è il seguente: sia Ω = {0, 1, 2} con la
probabilità uniforme P . Poniamo
1 ω = 0,
0 ω = 0,
X(ω) = 0 ω = 1, Y (ω) = 1 ω = 1,
−1 ω = 2, 0 ω = 2.
Allora si ha E [X] = 0 e XY = 0 da cui cov(X, Y ) = E [XY ]−E [X] E [Y ] = 0, ossia X, Y sono scorrelate. Tuttavia
1
P ((X = 1) ∩ (Y = 1)) = 0 e P (X = 1) = P (Y = 1) =
3
e quindi X, Y non sono indipendenti in P .
Esempio 3.3.32. [!] L’esempio precedente mostra che due v.a. scorrelate non sono necessariamente in-
dipendenti. Tuttavia nel caso della distribuzione normale bidimensionale (cfr. Esempio 3.2.49) vale il
seguente risultato: se (X1 , X2 ) ∼ N0,C e cov(X1 , X2 ) = 0 allora X1 , X2 sono indipendenti. Questo segue dal
Teorema 3.3.23-iv e dal fatto che se X1 , X2 sono scorrelate allora la densità congiunta è uguale al prodotto
delle densità marginali. Si noti che l’ipotesi che X1 , X2 abbiano distribuzione congiunta normale è cruciale:
al riguardo si veda l’Esempio 3.5.19.
Esempio 3.3.33. Consideriamo due v.a. indipendenti X ∼ N0,1 e Y ∼ Poissonλ . Per il Teorema 3.3.25, la
distribuzione congiunta di X, Y è
N0,1 ⊗ Poissonλ
140 CAPITOLO 3. VARIABILI ALEATORIE
Esempio 3.3.34. Consideriamo la distribuzione uniforme bidimensionale nel caso dei seguenti tre domini:
i) un quadrato: Q = [0, 1] × [0, 1];
ii) un cerchio: C = {(x, y) ∈ R2 | x2 + y 2 ≤ 1};
iii) un triangolo: T = {(x, y) ∈ R2≥0 | x + y ≤ 1}.
[Caso i)] La funzione di densità di (X, Y ) ∼ UnifQ è
γ(X,Y ) = 1[0,1]×[0,1] .
Quindi
Z
1
E [X] = x1[0,1]×[0,1] (x, y)dxdy = ,
R2 2
1 2
Z
1
var(X) = x−1[0,1]×[0,1] (x, y)dxdy = ,
2 2 12
ZR
1 1
cov(X, Y ) = x− y − 1[0,1]×[0,1] (x, y)dxdy = 0,
R2 2 2
e quindi X, Y sono scorrelate. Di più, siccome per la (3.2.24), la densità di X è
Z
γX = 1[0,1]×[0,1] (·, y)dy = 1[0,1]
R
e quindi X, Y sono scorrelate. Tuttavia X, Y non sono indipendenti perché, per la (3.2.24), la densità di X è
√
2 1 − x2
Z
1
γX (x) = 1 (x, y)dy = 1[−1,1] (x), x ∈ R,
π R C π
√
2 1−y 2
e analogamente γY (y) = π 1[−1,1] (y): quindi la densità congiunta non è il prodotto delle marginali. In
alternativa, una verifica diretta mostra che
Z √
1 1 4π − 3 3 1
P X≥ = 1 1
(x)1C (x, y)dxdy = =P Y ≥ ,
2 π R2 2 ,+∞ 12π 2
√
1 1 3−3 3+π 1 1
P X≥ ∩ Y≥ = ,P X≥ P Y≥ .
2 2 12π 2 2
Questo esempio, come anche l’Esempio 3.3.31, mostra che la proprietà di indipendenza è più forte della
proprietà di scorrelazione.
[Caso iii)] La funzione di densità di (X, Y ) ∼ UnifT è
γ(X,Y ) = 21T .
Quindi
Z
1
E [X] = 2 x1T (x, y)dxdy = = E [Y ] ,
R2 3
1 2
Z
1
var(X) = 2 1T (x, y)dxdy =
x− ,
R2 3 18
Z
1 1 1
cov(X, Y ) = 2 x− y − 1T (x, y)dxdy = − ,
R2 3 3 36
e dunque X, Y sono negativamente correlate (e perciò non indipendenti). Per la (3.2.24), la densità di X è
Z
γX (x) = 2 1T (x, y)dy = 2(1 − x)1[0,1] (x), x ∈ R.
R
ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a B è il valore atteso di X rispetto alla probabilità condizio-
nata P (· | B): essa è definita da Z
E [X | B] := XdP (· | B).
Ω
142 CAPITOLO 3. VARIABILI ALEATORIE
Proposizione 3.4.2. [!] Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
1
E [f (X) | B] = f (X)dP (3.4.1)
P (B) B
Z
= f (x)µX|B (dx). (3.4.2)
Rd
Dimostrazione. È sufficiente provare la (3.4.1) per f = 1H con H ∈ Bd : il caso generale segue dalla proce-
dura standard dell’Osservazione 3.2.21. Essendo 1H (X) = 1(X∈H) , si ha
Z
h i P ((X ∈ H) ∩ B) 1
E 1(X∈H) | B = P (X ∈ H | B) = = 1 (X)dP .
P (B) P (B) B H
Per quanto riguarda la (3.4.2), notiamo che f (X) ∈ L1 (Ω, P (· | B)) poiché, per la (3.4.1), si ha
Z
1
E [|f (X)| | B] ≤ |f (X)| dP < ∞
P (B) Ω
per ipotesi. Allora la (3.4.2) segue dal Teorema 3.2.25 del calcolo della media.
Esercizio 3.4.3. Verificare che se X e B sono indipendenti in P allora
µX|B = µX e E [X | B] = E [X] .
Osservazione 3.4.4. Analogamente al concetto di distribuzione condizionata di X a B, si definisce la densità
condizionata di X a B che indicheremo con γX|B e la CDF condizionata di X a B che indicheremo con FX|B .
La distribuzione condizionata è lo strumento naturale per studiare problemi del tipo seguente.
Esempio 3.4.5. Da un’urna che contiene 90 palline numerate, si estraggono in sequenza e senza reinseri-
mento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il numero della prima e seconda
pallina estratta. Chiaramente si ha µX1 = UnifI90 e sappiamo che anche µX2 = UnifI90 (cfr. Esempio 3.3.24).
Ora aggiungiamo l’informazione che la prima pallina estratta abbia il numero k, ossia condizioniamo
all’evento B = (X1 = k): si ha
1
89 , se h, k ∈ I90 , h , k,
P (X2 = h | X1 = k) =
0
altrimenti,
e quindi
µX2 |X1 =k = UnifI90 \{k} .
In definitiva, l’informazione aggiuntiva data dall’evento B, modifica la distribuzione di X2 .
Utilizzando la (3.4.2), per esercizio si calcoli var(X2 | X1 = k) per verificare che var(X2 | X1 = k) < var(X2 ):
intuitivamente ciò significa che l’incertezza sul valore di X2 diminuisce aggiungendo l’informazione (X1 =
k).
Il resto della sezione contiene altri esempi particolari.
Esempio 3.4.6. Siano T ∼ Expλ e B = (T > t0 ) con λ, t0 ∈ R>0 . Per determinare la distribuzione condizionata
µT |B , calcoliamo la CDF condizionata di T a B o equivalentemente
1 se t ≤ t0 ,
P (T > t | T > t0 ) =
P (T > t − t0 ) se t > t0 ,
che segue dalla proprietà di assenza di memoria (3.1.10). Ne viene che µT |B è la distribuzione esponenziale
“traslata” che ha per densità
γT |B (t) = λe−λ(t−t0 ) 1[t0 ,+∞[ (t).
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 143
per questo motivo la funzione γX|B è anche detta densità di X condizionata a B. Infine per la (3.4.2) si ha
Z +∞
E [X | B] = xµX|B (dx)
0
Z +∞
= xγX|B (x)dx
0
r r
2 2 x=+∞ 2
− x2
= −e = .
π x=0 π
Esempio 3.4.8. Siano X, Y ∼ Bep , con 0 < p < 1, indipendenti e B = (X + Y = 1). Determiniamo:
i) la distribuzione condizionata µX|B ;
ii) media e varianza condizionate, E [X | B] e var(X | B).
Anzitutto sappiamo che X + Y ∼ Bin2,p e quindi P (B) = 2p(1 − p) > 0. Poiché X assume solo i valori 0 e 1,
calcoliamo
P ((X = 0) ∩ (X + Y = 1))
µX|B ({0}) =
2p(1 − p)
P ((X = 0) ∩ (Y = 1))
=
2p(1 − p)
P (X = 0)P (Y = 1) 1
= = .
2p(1 − p) 2
In definitiva µX = Bep ma, indipendentemente dal valore di p, µX|B = Be 1 ossia, condizionatamente all’evento
2
(X + Y = 1), X ha distribuzione di Bernoulli di parametro 12 . Allora, per la (3.4.2) e ricordando le formule
(3.2.12) per media e varianza di una variabile binomiale, si conclude che
1 1
E [X | B] = , var(X | B) = .
2 4
Un’interpretazione concreta è la seguente: come si può rendere equa una moneta truccata (senza pe-
raltro conoscere la probabilità p ∈ ]0, 1[ di ottenere testa)? Il risultato X di un lancio della moneta truccata
ha distribuzione Bep dove T := (X = 1) è l’evento “testa”. In base a quanto visto sopra, per rendere equa
la moneta è sufficiente lanciarla due volte, considerando valido il lancio solo se si ottiene esattamente una
testa: allora i due eventi T C oppure CT hanno probabilità 1/2, qualsiasi sia p ∈]0, 1[.
Esempio 3.4.9. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche,
2 nere e 2 rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte.
Determiniamo la distribuzione di X condizionata a (Y = 0) e l’attesa condizionata E [X | Y = 0]. Si ha
3
P (X = 0 | Y = 0) = 0, P (X = 1 | Y = 0) = ,
10
144 CAPITOLO 3. VARIABILI ALEATORIE
6 1
P (X = 2 | Y = 0) = , P (X = 0 | Y = 0) = ,
10 10
e
3
X 9
E [X | Y = 0] = kP (X = k | Y = 0) = .
5
k=0
Esempio 3.4.10. Sia (X, Y ) un vettore aleatorio assolutamente continuo con densità γ(X,Y ) e B = (Y ∈ K) con
K ∈ B tale che P (B) > 0. Allora, per ogni H ∈ B, si ha
P ((X ∈ H) ∩ (Y ∈ K))
µX|Y ∈K (H) = (3.4.3)
P (Y ∈ K)
µ(X,Y ) (H × K)
=
µY (K)
"
1
= γ (x, y)dxdy =
P (Y ∈ K) H×K (X,Y )
per la densità di X condizionata all’evento (Y ∈ K). Notiamo che nel caso in cui K = R (e quindi (Y ∈ K) = Ω)
la (3.4.4) coincide con la formula (3.2.24) che esprime la densità marginale a partire dalla congiunta.
Come esempio particolare, consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ N0,C con
matrice di covarianza !
1 1
C=
1 2
e poniamo B = (Y > 0). Ricordando l’espressione (3.5.18) della densità Gaussiana bidimensionale, (X, Y ) ha
densità uguale a
1 −x2 +xy− y 2
Γ (x, y) = e 2 .
2π
Allora come in (3.4.3) si ha
Z Z +∞ !
1
µX|Y >0 (H) = Γ (x, y)dy dx, H ∈ B,
H P (Y > 0) 0
x2
Z +∞ e− 2 1 + erf √x
1 2
ΓX|Y >0 (x) = Γ (x, y)dy = √ , x ∈ R.
P (Y > 0) 0 2π
X : Ω −→ Rd
ϕX : Rd −→ C
definita da h i
ϕX (η) = E ei⟨η,X⟩ = E [cos⟨η, X⟩] + iE [sin⟨η, X⟩] , η ∈ Rd ,
è detta funzione caratteristica della v.a. X. Utilizziamo anche l’abbreviazione CHF per la funzione caratteri-
stica.
Osservazione 3.5.2. Per semplicità, useremo anche la notazione x · η ≡ ⟨x, η⟩ per il prodotto scalare in Rd .
Se X ∼ µX , per definizione si ha Z
ϕX (η) = eiη·x µX (dx).
Rd
∞
P
Se X ha distribuzione discreta pn δxn allora ϕX è data dalla serie di Fourier
n=1
∞
X
ϕX (η) = pn eiη·xn .
n=1
Ricordiamo che, data una funzione sommabile f ∈ L1 (Rd ), solitamente si indica con16
Z
fˆ(η) = eiη·x f (x)dx, (3.5.1)
Rd
Quest’ultima è anche la definizione utilizzata nel software Mathematica. Noi useremo sempre la (3.5.1) che è la definizione usata
abitualmente in teoria della probabilità. Occorre in particolare fare attenzione alla formula per l’inversione della trasformata di
Fourier che è diversa in base alla notazione utilizzata.
146 CAPITOLO 3. VARIABILI ALEATORIE
h i
iii) ϕX (η + h) − ϕX (η) ≤ E eih·X − 1 e quindi, per il Teorema della convergenza dominata, ϕX è unifor-
memente continua su Rd ;
iv) indicando con α ∗ la matrice trasposta di α, si ha
h i h ∗ i
ϕαX+b (η) = E ei⟨η,αX+b⟩ = ei⟨b,η⟩ E ei⟨α η,X⟩ = ei⟨b,η⟩ ϕX (α ∗ η); (3.5.2)
v) nel caso d = 1, ϕX (−η) = ϕ−X (η) = ϕX (η) dove z̄ indica il coniugato di z ∈ C. Di conseguenza, se X ha
distribuzione pari17 , ossia µX = µ−X , allora ϕX assume valori reali e in tal caso vale
Z Z
iηx
ϕX (η) = e µX (dx) = cos(xη)µX (dx).
R R
1.0
0.8
0.6
0.4
0.2
-10 -5 5 10
-0.2
Figura 3.7: Grafico della densità uniforme su [−1, 1] (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)
1.0
0.8
0.6
0.4
0.2
-6 -4 -2 2 4 6
Figura 3.8: Grafico della densità di Cauchy (3.5.5) (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)
x2 2
d − x2
(poiché −xe− 2 = dx e )
x2
d e− 2
Z
= sin(ηx) √ dx =
R dx 2π
x2
2 x=+∞ e− 2
Z
1
− x2
=√ sin(ηx)e − η cos(ηx) √ dx
2π x=−∞ R 2π
= −ηϕX (η).
da cui si ha la tesi:
η2
ϕX (η) = e− 2 . (3.5.8)
Y −µ
Per il caso generale in cui Y ∼ Nµ,σ 2 , basta considerare X := σ ∼ N0,1 e combinare la (3.5.8) con la
(3.5.2).
Esempio 3.5.4. [!] Siano N e Z1 , Z2 , . . . v.a. indipendenti con N ∼ Poissonλ e Zn identicamente distribuite
per n ∈ N. Calcoliamo la CHF di
0 se N = 0,
N
X := P
Zk se N ≥ 1.
k=1
Si ha
P n
h i X∞ iη Zk
ϕX (η) = E eiηX = E e k=1 1(N =n) =
n=0
(per l’indipendenza di N e Zk , k ≥ 1)
P n
∞
X iη Zk
= E e k=1 P (N = n)
n=0
Consideriamo la funzione
f (x, y) = e−xy sin x, x > 0, y > 0.
Poiché per ogni x, y, a > 0 vale
Z +∞
sin x
f (x, y)dy = ,
0 x
Za
1 e−ay ye−ay
f (x, y)dx = − cos a − sin a,
0 1 + y2 1 + y2 1 + y2
Osservazione 3.5.7. [!] Come conseguenza del Teorema 3.5.6, si ha che la CHF di una v.a. identifica la sua
legge: in altri termini, se X e Y sono v.a. con funzioni caratteristiche uguali,
ϕX (η) = ϕY (η), η ∈ R,
150 CAPITOLO 3. VARIABILI ALEATORIE
µX (H) = µY (H), H ∈ B.
Infatti per la (3.5.11) si ha µX (]a, b[) = µY (]a, b[) per ogni a, b ∈ R \ A dove
D’altra parte, per l’Osservazione 2.4.11, A è finito o al più numerabile e quindi R \ A è denso in R: dal
Teorema di Caratheodory segue che µX ≡ µY .
Corollario 3.5.8. [!] Se µ, ν sono distribuzioni tali che
Z Z
f dµ = f dν
R R
per ogni f ∈ bC(R) allora µ ≡ ν. Analogamente, se X, Y sono v.a. tali che E [f (X)] = E [f (Y )] per ogni
f ∈ bC(R), allora X, Y sono uguali in legge.
Dimostrazione. Scegliendo f della forma f (x) = cos(xη) o f (x) = sin(xη), con η ∈ R, dall’ipotesi si deduce
che le CHF di µ e ν sono uguali. La tesi segue dal Teorema 3.5.6.
Osservazione 3.5.9. Sia µ una distribuzione con densità f tale che fˆ ∈ L1 (R): per il Teorema 3.5.6 anche γ
definita da (3.5.10)-(3.5.12) è densità di µ e quindi per l’Osservazione 2.4.19 si ha f = γ q.o. ossia
Z
1
f (x) = e−ixη fˆ(η)dη per quasi ogni x ∈ R, (3.5.13)
2π R
dove l’integrale nel membro a destra, come funzione di x, è limitato e uniformemente continuo su R (per
la Proposizione 3.5.3). La (3.5.13) è la classica formula di inversione della trasformata di Fourier.
Si noti che una densità f non è necessariamente limitata e continua (anzi, si può modificare su ogni
Boreliano Lebesgue-trascurabile, mantenendo invariata la sua trasformata di Fourier): tuttavia se fˆ ∈ L1 (R)
allora f è necessariamente uguale q.o. a una funzione limitata e continua.
Osservazione 3.5.10. In base al Teorema 3.5.6, se ϕX ∈ L1 (R) allora X ∈ AC e una densità di X è data dalla
formula di inversione Z
1
γX (x) = e−ixη ϕX (η)dη, x ∈ R.
2π R
La condizione ϕX ∈ L1 (R) è solo sufficiente ma non necessaria per l’assoluta continuità di µ. Infatti, per
l’Osservazione 3.5.9, se ϕX ∈ L1 (R) allora necessariamente la densità di X è uguale q.o. a una funzione
continua: tuttavia, per esempio, la distribuzione uniforme su [−1, 1] è assolutamente continua ma ha den-
sità γ(x) = 21 1[−1,1] (x) che non è uguale q.o. a una funzione continua; in effetti, la sua CHF in (3.5.4) non è
sommabile.
Dimostrazione del Teorema 3.5.6. Fissati a, b ∈ R con a < b, poniamo
b
e−iaη − e−ibη
Z
ga,b (η) := e−ixη dx = , η ∈ R. (3.5.14)
a iη
Osserviamo che, per la disuguaglianza triangolare, ga,b (η) ≤ b − a. Dunque per il Teorema di Fubini, per
ogni R > 0 si ha
ZR Z ZR !
ga,b (η)ϕ(η)dη = ga,b (η)eixη dη µ(dx). (3.5.15)
−R R −R
3.5. FUNZIONE CARATTERISTICA 151
Ora utilizziamo il Teorema 3.2.11 della convergenza dominata20 per passare al limite per R → +∞ in
(3.5.15) si ha
Z R Z Z Z Z
1 1 1 1
lim ga,b (η)ϕ(η)dη = Ga,b (x)µ(dx) = µ(dx) + µ(dx) + µ(dx)
R→+∞ 2π −R 2π R 2 {a} ]a,b[ 2 {b}
Ma la disuguaglianza in (3.5.17), ancora per il Teorema della convergenza dominata e passando al limite
per a → b− , implica che µ({b}) = 0 per ogni b ∈ R e quindi vale
Z
1
µ(]a, b[) = g (η)ϕ(η)dη =
2π R a,b
Sia X = (X1 , . . . , Xn ) una v.a. La CHF di X è detta anche funzione caratteristica congiunta delle v.a.
X1 , . . . , Xn ; viceversa, ϕX1 , . . . , ϕXn sono dette CHF marginali di X.
Proposizione 3.5.11. Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ), si ha:
18 Di conseguenza l’integrale fra −R e R della funzione pari cos η moltiplicata per la funzione dispari 1 si annulla.
η
19 Definiamo la funzione segno nel modo seguente
1 se λ > 0,
sgn(λ) = 0 se λ = 0,
−1 se λ < 0.
Rr
20 Per la (3.5.16), il modulo dell’integrando in (3.5.15) è limitato da 2 sup sin η dη < +∞
η
r>0 0
152 CAPITOLO 3. VARIABILI ALEATORIE
d d
Viceversa, consideriamo due v.a. X e2 indipendenti e tali che X
e1 , X e1 = X1 e X
e2 = X2 . Allora si ha
ϕ(Xe1 ,Xe2 ) (η1 , η2 ) = ϕXe1 (η1 )ϕXe2 (η2 ) = ϕX1 (η1 )ϕX2 (η2 ) = ϕ(X1 ,X2 ) (η1 , η2 ).
Poiché (X1 , X2 ) e (X e2 ) hanno uguale CHF, per il Teorema 3.5.6, hanno anche uguale legge: da questo
e1 , X
segue che X1 , X2 sono indipendenti.
1 1 −1
Γ (x) = p e− 2 ⟨C (x−µ),x−µ⟩ , x ∈ Rd . (3.5.18)
d
(2π) det C
per ogni i, j = 1, . . . , d. La (3.5.19) mostra semplicemente che Γ è una densità; le (3.5.20) e (3.5.21) motivano
la seguente
Definizione 3.5.12. Se X è una v.a. d-dimensionale con densità Γ in (3.5.18) allora diciamo che X ha
distribuzione multi-normale con media µ e matrice di covarianza C e scriviamo X ∼ Nµ,C .
1
ϕX (η) = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ , η ∈ Rd . (3.5.22)
Dimostrazione. Si tratta del calcolo della trasformata di Fourier di Γ in (3.5.18): esso è analogo al caso
unodimensionale (cfr. formula (3.5.7)).
3.5. FUNZIONE CARATTERISTICA 153
Osserviamo che la CHF in (3.5.22) è una funzione Gaussiana in cui all’esponente appaiono un termine
lineare in η che dipende solo dal parametro di media µ e un termine quadratico in η che dipende solo dalla matrice
di covarianza C.
È notevole il fatto che, a differenza della densità Γ in cui compare l’inversa di C, nella funzione carat-
teristica ϕX compare la forma quadratica della matrice C stessa. Dunque affinché ϕX sia ben definita non
è necessario che C sia strettamente definita positiva. In effetti in molte applicazioni capita di avere matrici
di covarianza degeneri e pertanto risulta utile estendere la Definizione 3.5.12 nel modo seguente:
In base al Teorema 3.5.6, la definizione precedente è ben posta poiché la funzione caratteristica identi-
fica univocamente la distribuzione. Inoltre la Definizione 3.5.14 non è vuota nel senso che una v.a. X, che
abbia ϕX in (3.5.22) come funzione caratteristica, esiste: infatti per l’Osservazione 3.2.44, data C, matrice
d × d simmetrica e semi-definita positiva, esiste α tale che C = αα ∗ ; allora basta porre X = αZ + µ dove Z è
una v.a. multi-normale standard, ossia Z ∼ N0,I con I matrice identità d × d. Infatti per la (3.5.2) si ha
|α ∗ η |2 1
ϕαZ+µ (η) = eiη·µ ϕZ (α ∗ η) = eiη·µ− 2 = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ .
Utilizzando la funzione caratteristica è facile provare alcune proprietà fondamentali della distribuzione
normale, come per esempio l’invarianza per trasformazioni lineari. Nel seguito, quando usiamo notazioni
matriciali, il vettore aleatorio d-dimensionale X viene identificato con la matrice colonna d × 1.
Proposizione 3.5.15. [!] Siano X ∼ Nµ,C , una matrice α costante N × d e β ∈ RN con N ∈ N. Allora αX + β
è una v.a. con distribuzione normale N -dimensionale:
αX + β ∼ Nαµ+β,αCα ∗ . (3.5.23)
1 ∗ η,η⟩
= ei⟨αµ+β,η⟩− 2 ⟨αCα ,
da cui la tesi.
Come conseguenze notevoli della (3.5.23) si ha che se (X, Y ) ha distribuzione normale bidimensionale
allora, per esempio, X e X + Y sono v.a. con distribuzione normale.
Esempio 3.5.16. Siano X, Y ∼ N0,1 indipendenti e (u, v) ∈ R2 tale che u 2 + v 2 = 1. Proviamo che
Z := uX + vY ∼ N0,1 .
Una semplice applicazione del Teorema 3.3.23 mostra che (X, Y ) ∼ N0,I dove I indica la matrice identità
2 × 2; allora poiché !
X
uX + vY = α , con α = u v ,
Y
la tesi segue dalla (3.5.23), essendo
var(Z) = αα ∗ = u 2 + v 2 = 1.
154 CAPITOLO 3. VARIABILI ALEATORIE
Si noti che C ≥ 0 e det C = 0 (le ultime due righe di C sono linearmente dipendenti): dunque (X, Y , Z) non
ha densità. Tuttavia Y ∼ NµY ,2 e (X, Z) ∼ N(µX ,µZ ),Ĉ con
!
1 1
Ĉ = ,
1 2
e quindi Y e (X, Z) hanno densità Gaussiana. Per completezza riportiamo la matrice α della fattorizzazione
C = αα ∗ di Cholesky (cfr. Osservazione 3.2.44):
1 −1 1
α = 0 1 −1 .
0 0 0
Proposizione 3.5.18. [!] Sia X = (X1 , . . . , Xd ) una v.a. con distribuzione normale d-dimensionale. Le v.a
X1 , . . . , Xd sono indipendenti se e solo se sono scorrelate, ossia cov (Xh , Xk ) = 0 per ogni h, k = 1, . . . , d.
Dimostrazione. Se X1 , . . . , Xd sono v.a. indipendenti allora cov (Xh , Xk ) = 0 per il Teorema 3.3.28. Viceversa,
poniamo µh = E [Xh ] e Chk = cov (Xh , Xk ): per la Proposizione 3.5.15, la v.a. Xh ha distribuzione normale con
CHF data da 1 2
ϕXh (ηh ) = eiµh ηh − 2 Chh ηh , ηh ∈ R.
D’altra parte, per ipotesi Chk = Ckh = 0 e quindi
d
iµ·η− 21
P
Chh ηh2 d
Y
ϕX (η) = e h=1 = ϕXh (ηh ), η = (η1 , . . . , ηd ) ∈ Rd ,
h=1
N0,1 ⊗ µZ
P (Y ∈ H) = N0,1 (H),
ossia Y ∼ N0,1 .
(per l’indipendenza di X e Z)
h i
= E [Z] E X 2 = 0.
P ((X ∈ [0, 1]) ∩ (Y ∈ [0, 1])) = P ((X ∈ [0, 1]) ∩ (ZX ∈ [0, 1])) =
(per l’indipendenza di X e Z)
1
= P (X ∈ [0, 1]).
2
Questo esempio non contraddice la Proposizione 3.5.18 poiché X, Y non hanno distribuzione congiunta
normale. Infatti la CHF congiunta è data da
h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y )
h i h i
= E eiX(η1 −η2 ) 1(Z=−1) + E eiX(η1 +η2 ) 1(Z=1) =
(per l’indipendenza di X e Z)
(poiché X ∼ N0,1 )
2 2
eη1 η2 + e−η1 η2 − η1 +η2
!
1 − (η1 −η2 )2 (η1 +η2 )2
= e 2 + e− 2 = e 2 ,
2 2
che non è la CHF di una normale bidimensionale. Incidentalmente questo prova anche che ϕ(X,Y ) (η1 , η2 ) ,
ϕX (η1 )ϕY (η2 ), ossia conferma che X, Y non sono indipendenti.
156 CAPITOLO 3. VARIABILI ALEATORIE
Teorema 3.5.20. [!] Sia X una v.a. reale appartenente a Lp (Ω, P ) con p ∈ N. Allora vale il seguente sviluppo
della CHF di X intorno all’origine:
h i
p
X E (iX)k
ϕX (η) = η k + o(η p ) per η → 0. (3.5.24)
k!
k=0
Dimostrazione. Ricordiamo la formula di Taylor con resto di Lagrange per f ∈ C p (R): per ogni η ∈ R esiste
λ ∈ [0, 1] tale che
p−1 (k)
X f (0) f (p) (λη) p
f (η) = ηk + η .
k! p!
k=0
dove in questo caso λ ∈ [0, 1] dipende da X e quindi è aleatorio. Applicando il valore atteso all’ultima
identità otteniamo h i
p
X E (iX)k
ϕX (η) = η k + R(η)η p
k!
k=0
dove
1 h p iληX i
R(η) = E (iX ) e − 1 −→ 0 per η → 0,
p!
per il Teorema della convergenza dominata, poiché per ipotesi
(iX p ) eiληX − 1 ≤ 2|X|p ∈ L1 (Ω, P ).
Osservazione 3.5.21. [!] Sia X ∈ Lp (Ω, P ). La (3.5.24) implica che ϕX è derivabile p volte nell’origine e
inoltre, per l’unicità dello sviluppo in serie di Taylor, vale
d k ϕX (η) h
k
i
|η=0 = E (iX) (3.5.25)
dη k
per ogni k = 0, . . . , p.
Osservazione 3.5.22. Supponiamo che X ∈ Lp (Ω, P ) per ogni p ∈ N e che ϕX sia una funzione analitica.
Allora a partire dai momenti di X è possibile ricavare ϕX e quindi la legge di X.
Esempio 3.5.23. Sia X una v.a. con distribuzione di Cauchy come in (3.5.5). Allora X < L1 (Ω, P ) e la CHF
ϕX in (3.5.6) non è differenziabile nell’origine.
3.5. FUNZIONE CARATTERISTICA 157
σ 2 η2
ϕX (η) = eiµη− 2
allora con molta pazienza (oppure con un software di calcolo simbolico) possiamo calcolare:
ϕ ′ (η) = i µ + iησ 2 ϕ(η),
2
ϕ (2) (η) = i 2 σ 2 + µ + iησ 2 ϕ(η),
2
ϕ (3) (η) = i 3 µ + iησ 2 3σ 2 + µ + iησ 2 ϕ(η),
ϕ (4) (η) = i 4 µ4 + 2µ2 σ 2 (3 + 2iµη) + 2η 2 σ 6 (−3 − 2iµη) + 3σ 4 (1 − 2µη(µη − 2i)) + η 4 σ 8 ϕ(η),
da cui
ϕ ′ (0) = iµ,
ϕ (2) (0) = − µ2 + σ 2 ,
ϕ (3) (0) = −i µ3 + 3µσ 2 ,
ϕ (4) (0) = µ4 + 6µ2 σ 2 + 3σ 4 .
E [X] = µ,
h i
E X 2 = µ2 + σ 2 ,
h i
E X 3 = µ3 + 3µσ 2 ,
h i
E X 4 = µ4 + 6µ2 σ 2 + 3σ 4 .
λ
ϕX (η) =
λ − iη
allora abbiamo:
i k k!λ
ϕ (k) (η) = , k ∈ N,
(λ − iη)k+1
da cui
i k k!
ϕ (k) (0) = .
λk
Allora per la (3.5.25) si ha
h i k!
E Xk = k .
λ
158 CAPITOLO 3. VARIABILI ALEATORIE
3.6 Complementi
3.6.1 Somma di variabili aleatorie
Teorema 3.6.1. Siano X, Y ∈ AC su (Ω, F , P ) a valori in Rd , con densità congiunta γ(X,Y ) . Allora X + Y ∈ AC
e ha densità Z
γX+Y (z) = γ(X,Y ) (x, z − x)dx, z ∈ Rd . (3.6.1)
Rd
Inoltre se X, Y sono indipendenti allora
Z
γX+Y (z) = (γX ∗ γY ) (z) := γX (x)γY (z − x)dx, z ∈ Rd . (3.6.2)
Rd
e questo prova che la funzione γX+Y in (3.6.1) è una densità di X + Y . Infine la (3.6.2) segue dalla (3.6.1) e
dalla (3.3.5).
Per quanto riguarda il caso discreto, si ha
[
µ̄X+Y (z) = P (X + Y = z) = P (X, Y ) = (x, z − x) =
x∈X(Ω)
(per la σ -additività di P )
X
= µ̄(X,Y ) (x, z − x) =
x∈X(Ω)
3.6. COMPLEMENTI 159
Esempio 3.6.2. Siano X, Y v.a. indipendenti su (Ω, F , P ) a valori in Rd . Procedendo come nella dimostra-
zione del Teorema 3.6.1, si prova che se X ∈ AC allora anche (X + Y ) ∈ AC e ha densità
Z
γX+Y (z) = γX (z − y)µY (dy), z ∈ Rd . (3.6.4)
Rd
Per esempio, siano X ∼ Nµ,σ 2 e Y ∼ Bep indipendenti. Allora X + Y è assolutamente continua e, posto
1 1 x−µ 2
Γµ,σ 2 (x) = √ e− 2 ( σ ) ,
2πσ 2
per la (3.6.4), X + Y ha densità
Z
γX+Y (z) = Γµ,σ 2 (z − y)Bep (dy)
Rd
= pΓµ,σ 2 (z − 1) + (1 − p)Γµ,σ 2 (z)
= pΓµ+1,σ 2 (z) + (1 − p)Γµ,σ 2 (z)
Più in generale, se Y è una v.a. discreta con distribuzione del tipo (3.1.4), ossia
X
pn δyn ,
n≥1
allora X + Y ha densità che è combinazione lineare di Gaussiane con la medesima varianza e con i poli
traslati di yn : X
γX+Y (z) = pn Γµ+yn ,σ 2 (z).
n≥1
Dimostrazione. Posto
Ci = (Xi = 1), i = 1, . . . , n,
si ha che (Ci )i=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p. La v.a. S in
(3.6.5) indica il numero di successi fra le n prove (come nell’Esempio 3.1.7-iii)) e quindi, come abbiamo
già provato, S ∼ Binn,p . In alternativa, si può calcolare la funzione di distribuzione di S come convoluzione
discreta mediante la (3.6.3), ma i calcoli sono un po’ noiosi. Le formule (3.6.6) sono immediata conseguenza
160 CAPITOLO 3. VARIABILI ALEATORIE
della linearità dell’integrale e del fatto che la varianza di v.a. indipendenti è uguale alla somma delle singole
varianze (cfr. formula (3.3.9)).
Per provare la seconda parte dell’enunciato, consideriamo prima il caso in cui
X = X1 + · · · + Xn , Y = Y1 + · · · + Ym
X + Y = X1 + · · · + Xn + Y1 + · · · + Ym ∼ Binn+m,p .
d d
Consideriamo ora il caso generale in cui X ′ ∼ Binn,p e Y ′ ∼ Binm,p sono indipendenti: allora X ′ = X, Y ′ = Y
e la tesi segue dalla (3.6.3) poiché
Esempio 3.6.4 (Modello binomiale). Uno dei più classici modelli utilizzati in finanza per descrivere l’e-
voluzione del prezzo di un titolo rischioso è il cosiddetto modello binomiale. Introduciamo una successione
(Xk ) di v.a. dove Xk rappresenta il prezzo del titolo al tempo k, con k = 0, 1, . . . , n: si assume che X0 ∈ R>0 e,
fissati due parametri 0 < d < u, si definisce ricorsivamente
Xk = u αk d 1−αk Xk−1 , k = 1, . . . , n,
e
Xn = u Yn d n−Yn S0
n
P
dove Yn = αk ∼ Binn,p per la Proposizione 3.6.3. Allora vale
k=1
!
n k
P (Xn = u k d n−k X0 ) = P (Yn = k) = p (1 − p)n−k , k = 0, . . . , n,
k
(gli estremi in cui varia k nella sommatoria sono determinati dal fatto che µ̄1 (k) , 0 solo se k ∈ N0 e
µ̄2 (n − k) , 0 solo se n − k ∈ N0 )
n k n
λ2n−k e−λ1 −λ2 X n k n−k e−(λ1 +λ2 )
!
−λ1 λ1 −λ2
X
= e e = λ λ = (λ1 + λ2 )n .
k! (n − k)! n! k 1 2 n!
k=0 k=0
3.6. COMPLEMENTI 161
12.5
12.0
11.5
11.0
10.5
10.0
9.5
Esempio 3.6.6 (Somma di normali indipendenti). Se X ∼ Nµ,σ 2 e Y ∼ Nν,δ2 sono v.a. reali indipendenti,
allora
X + Y ∼ Nµ+ν,σ 2 +δ2 .
Infatti, per la (3.6.2) e posto
1 1 x−µ 2
γµ,σ 2 (x) := √ e− 2 ( σ ) , x ∈ R,
σ 2π
un calcolo diretto mostra che
γµ,σ 2 ∗ γν,δ2 = γµ+ν,σ 2 +δ2 .
Esempio 3.6.7 (Chi-quadro a n gradi di libertà). Come diretta conseguenza del Teorema 3.6.1, si verifica
che se X ∼ Gammaα,λ e Y ∼ Gammaβ,λ v.a. reali indipendenti, allora
X + Y ∼ Gammaα+β,λ . (3.6.7)
Come caso particolare si ha che se X, Y ∼ Expλ = Gamma1,λ sono v.a. indipendenti, allora
X + Y ∼ Gamma2,λ
Le v.a. del tipo (3.6.8) intervengono in molte applicazioni e in particolare in statistica matematica (si veda,
per esempio, il Capitolo 8 in [25]). La distribuzione Γ n , 1 viene detta distribuzione chi-quadro a n gradi di
2 2
libertà ed è indicata con χ2 (n): dunque Z ∼ χ2 (n) se ha densità
x
1 e− 2
γn (x) = n n 1R>0 (x). (3.6.9)
2 2 Γ n2 x1− 2
162 CAPITOLO 3. VARIABILI ALEATORIE
Più in generale, γn in (3.6.9) è una densità se n è un qualsiasi numero reale positivo, non necessariamente
intero.
Esempio 3.6.8. Studiamo la v.a. Z uguale alla “somma del lancio di due dadi”. Le v.a. che indicano
il risultato del lancio di ognuno dei due dadi hanno distribuzione uniforme Unif6 e sono indipendenti.
Allora se µ̄ indica la funzione di distribuzione di Unif6 , ossia µ̄(n) = 16 per n ∈ I6 = {1, . . . , 6}, per la (3.6.3) la
funzione di distribuzione di Z è data dalla convoluzione µ̄ ∗ µ̄:
X
(µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k), 2 ≤ n ≤ 12,
k
dove, affinché µ̄(k) e µ̄(n − k) siano non nulli, deve valere k ∈ I6 e n − k ∈ I6 ossia
(n − 6) ∨ 1 ≤ k ≤ (n − 1) ∧ 6.
Dunque
(n−1)∧6
X (n − 1) ∧ 6 − (n − 6) ∨ 1 + 1
P (Z = n) = (µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k) = .
36
k=(n−6)∨1
Proposizione 3.6.9 (Massimo e minimo di variabili indipendenti). Siano X1 , . . . , Xn v.a. reali indipenden-
ti. Posto
X = max{X1 , . . . , Xn } e Y = min{X1 , . . . , Xn },
Infatti, ricordiamo che le funzioni di densità e di ripartizione della distribuzione Expλ sono rispettivamente
P (X ≥ 4) = 1 − P (X ≤ 3) = 1 − FX (3) =
(ricordando la (2.4.8))
3 3 3
= 1− · = .
6 6 4
Esercizio 3.6.12. Provare che se Xi ∼ Geompi , i = 1, 2, sono indipendenti allora min{X1 , X2 } ∼ Geomp con
p = p1 + p2 − p1 p2 . Generalizzare il risultato al caso di n v.a. geometriche indipendenti.
Esercizio 3.6.13. Determinare la distribuzione di max{X, Y } e min{X, Y } dove X, Y sono v.a. indipendenti
con distribuzione X ∼ Unif[0,2] e Y ∼ Unif[1,3] .
164 CAPITOLO 3. VARIABILI ALEATORIE
Capitolo 4
Hannah Arendt
L’oggetto di questo capitolo sono le successioni di variabili aleatorie. Il problema dell’esistenza e co-
struzione di tali successioni non è ovvio e richiede strumenti avanzati che vanno al di là dello scopo del
presente testo: pertanto, dando per assunta l’esistenza, ci occuperemo solo di studiare varie nozioni di
convergenza per successioni di variabili aleatorie. Inoltre proveremo alcuni risultati classici, la Legge dei
grandi numeri e il Teorema centrale del limite, e ne analizzeremo alcune applicazioni fra cui l’importante
metodo numerico stocastico noto come metodo Monte Carlo.
ossia se
lim Xn (ω) = X(ω)
n→∞
165
166 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
ii) Siano (Xn )n∈N e X rispettivamente una successione e una v.a. in Lp (Ω, P ) con p ≥ 1. Diciamo che
(Xn )n∈N converge a X in Lp se
lim E [|Xn − X|p ] = 0.
n→∞
lim P (|Xn − X| ≥ ε) = 0.
n→∞
per ogni f ∈ bC dove bC = bC(Rd ) indica la famiglia delle funzioni continue e limitate da Rd a R. In
tal caso scriviamo
d
Xn −−−−→ X.
Osservazione 4.1.1 (Convergenza debole di distribuzioni). La convergenza debole non richiede che le va-
riabili Xn siano definite sullo stesso spazio di probabilità, ma dipende solo dalle distribuzioni delle variabili
stesse. Diciamo che una successione (µn )n∈N di distribuzioni su Rd converge debolmente alla distribuzione
µ e scriviamo
d
µn −−−−→ µ,
se vale Z Z
lim f dµn = f dµ per ogni f ∈ bC. (4.1.1)
n→∞ Rd Rd
Poiché Z
E [f (Xn )] = f dµXn ,
Rd
la convergenza debole di (Xn )n∈N equivale alla convergenza debole della successione (µXn )n∈N delle corri-
d d
spondenti distribuzioni: in altri termini, Xn −−−−→ X se e solo se µXn −−−−→ µX .
d
Esempio 4.1.2. [!] Sia (xn )n∈N una successione di numeri reali convergente a x ∈ R. Allora δxn −−−−→ δx
poiché, per ogni f ∈ bC, si ha
Z Z
f dδxn = f (xn ) −−−−−−→ f (x) = f dδx .
R n→∞ R
per ogni H ∈ B: per esempio, se xn = n1 e H = R>0 . Questo spiega perché nella definizione (4.1.1) di
convergenza di distribuzioni è naturale assumere f ∈ bC e non f = 1H per ogni H ∈ B.
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 167
Esempio 4.1.3. Siano date due successioni di numeri reali (an )n∈N e (σn )n∈N tali che an −→ a ∈ R e 0 <
d
σn −→ 0 per n → ∞. Se Xn ∼ Nan ,σn2 allora Xn −−−−→ X con X ∼ δa . Infatti, per ogni f ∈ bC(R), si ha
Z Z x−a 2
1 − 12 n
E[f (Xn )] = f dNan ,σn2 = f (x) p e σn dx =
R R 2πσn2
x−an
(col cambio di variabili z = √ )
σn 2
Z √ e−z2
= f an + zσn 2 √ dz,
R π
che tende ad f (a) = E[f (X)] per il Teorema della convergenza dominata.
Notiamo che se le variabili X e Xn , per ogni n ∈ N, sono definite sullo stesso spazio di probabilità
(Ω, F , P ), si ha anche convergenza in L2 : infatti Xn , X ∈ L2 (Ω, P ) e si ha
h i h i h i
E |Xn − X|2 ≤ 2E |Xn − an |2 + 2E |an − X|2
h i
= 2E |Xn − an |2 + 2|an − a|2
= 2σn2 + 2|an − a|2 −−−−−−→ 0.
n→∞
E [|X|p ]
P (|X| ≥ λ) ≤ . (4.1.2)
λp
var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ . (4.1.3)
λ2
Dimostrazione. Per quanto riguarda la (4.1.2), se E [|X|p ] = +∞ non c’è nulla da provare, altrimenti per la
proprietà di monotonia si ha
h i h i
E [|X|p ] ≥ E |X|p 1(|X|≥λ) ≥ λp E 1(|X|≥λ) = λp P (|X| ≥ λ) .
Osservazione 4.1.5. In modo simile si prova la seguente generalizzazione della disuguaglianza di Markov:
per ogni X v.a. a valori in Rd , λ > 0 e f funzione reale su [0, +∞[ monotona (debolmente) crescente, vale
La disuguaglianza di Markov fornisce una stima per i valori estremi di X in termini della sua norma Lp .
Viceversa, si ha la seguente
Proposizione 4.1.6. [!] Siano X una v.a. e f ∈ C 1 (R≥0 ) tale che f ′ ≥ 0 o f ′ ∈ L1 (R≥0 , µ|X| ). Allora
Z +∞
E [f (|X|)] = f (0) + f ′ (λ)P (|X| ≥ λ)dλ. (4.1.4)
0
Dimostrazione. Si ha
Z +∞
E [f (|X|)] = f (y)µ|X| (dy) =
0
Z +∞ Zy !
′
= f (0) + f (λ)dλ µ|X| (dy) =
0 0
Di conseguenza, per provare che X ∈ Lp è sufficiente avere una buona stima di P (|X| ≥ λ), almeno per λ ≫ 1.
2
Analogamente, per f (λ) = eαλ , α > 0, si ha
Z +∞
α|X|2 2
h i
E e = 1+ 2αλeαλ P (|X| ≥ λ) dλ.
0
P q.c.
iii) se Xn −−→ X allora esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X;
P d
iv) se Xn −−→ X allora Xn −−−−→ X;
P
v) se Xn −−→ X ed esiste Y ∈ Lp (Ω, P ) tale che |Xn | ≤ Y q.c., per ogni n ∈ N, allora Xn , X ∈ Lp (Ω, P ) e
Lp
Xn −−−→ X;
d P
vi) se Xn −−−−→ X, con X ∼ δc , c ∈ Rd , allora Xn −−→ X.
Lp
Xn −−−→ X
q.c.
P d
Xn −−−−→ X Xn −−→ X Xn −−−−→ X
sotto-successione se X ∼ δc
q.c.
Dimostrazione. i) Fissato ε > 0, se Xn −−−−→ X allora
q.c.
1(|Xn −X|≥ε) −−−−→ 0
Poiché X
P (Ak ) < ∞,
k≥1
per il Lemma 2.3.28-i) di Borel-Cantelli si ha P (Ak i.o.) = 0. Dunque l’evento (Ak i.o.)c ha probabilità uno:
per definizione2 , per ogni ω ∈ (Ak i.o.)c esiste k̄ = k̄(ω) ∈ N tale che
1
|X(ω) − Xnk (ω)| < , k ≥ k̄
k
e di conseguenza vale
lim Xnk (ω) = X(ω)
k→∞
2 Gli elementi di (A i.o.)c sono quelli che appartengono solo ad un numero finito di A .
k k
170 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
Ora per il Lemma 4.1.8 (applicato alla successione an := E [f (Xn )] in R munito della topologia Euclidea) si
ha anche
lim E [f (Xn )] = E [f (X)]
n→∞
da cui la tesi.
v) Dato che |Xn | ≤ Y q.c. e Y ∈ Lp (Ω, P ), è chiaro che Xn ∈ Lp (Ω, P ). Per quanto riguarda X, dal punto iii)
q.c.
sappiamo che esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X. Dato che |Xnk | ≤ Y q.c., per k → ∞
Lp
si ottiene |X| ≤ Y q.c., quindi X ∈ Lp (Ω, P ). Infine, mostriamo che Xn −−−→ X. Sempre per il punto iii), ogni
q.c.
sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N tale che Xnk −−−−→ X. Per il Teorema
i i
Lp Lp
della convergenza dominata si ha che Xnk −−−→ X. Dal Lemma 4.1.8 segue che Xn −−−→ X.
i
vi) Dati c ∈ Rd ed ε > 0, sia fε ∈ bC, non-negativa e tale che fε (x) ≥ 1 se |x − c| > ε e fε (c) = 0. Si ha
h i
P (|Xn − X| ≥ ε) = P (|Xn − c| ≥ ε) = E 1(|Xn −c|≥ε) ≤ E [fε (Xn )] −−−−−−→ fε (c) = 0.
n→∞
Diamo alcuni controesempi relativi alle implicazioni studiate nel Teorema 4.1.9. Nei primi due esempi
consideriamo Ω = [0, 1] con la misura di Lebesgue.
Esempio 4.1.10. La successione Xn (ω) = n2 1[0, 1 ] (ω), per ogni ω ∈ [0, 1], converge a zero quasi certamente
n
(e di conseguenza anche in probabilità), ma E [|Xn |p ] = n2p−1 diverge per ogni p ≥ 1.
Esempio 4.1.11. Diamo un esempio di successione (Xn ) che converge in Lp (e quindi anche in probabilità)
con 1 ≤ p < ∞, ma non quasi certamente. Rappresentiamo ogni intero positivo n come n = 2k + ℓ, con
k = 0, 1, 2, . . . e ℓ = 0, . . . , 2k − 1. Notiamo che la rappresentazione è unica. Poniamo
" #
ℓ ℓ+1
Jn = k , k ⊆ [0, 1] e Xn (ω) = 1Jn (ω), ω ∈ [0, 1].
2 2
Per ogni p ≥ 1, vale
1
E [|Xn |p ] = E [Xn ] = Leb(Jn ) = ,
2k
Lp
e quindi Xn −−−→ 0 dato che k → ∞ quando n → ∞. D’altra parte, ciascun ω ∈ [0, 1] appartiene ad un numero
infinito di intervalli Jn e quindi la successione reale Xn (ω) non converge per ogni ω ∈ [0, 1].
Esempio 4.1.12. Data una variabile aleatoria X ∼ Be 1 , poniamo
2
X,
se n pari,
Xn =
1 − X,
se n dispari.
d
Poiché (1 − X) ∼ Be 1 allora chiaramente Xn −−−−→ X. Tuttavia |Xn+1 − Xn | = |2X − 1| = 1 per ogni n ∈ N: allora
2
P (|Xn+1 −Xn | ≥ 1/2) = 1 per ogni n e quindi Xn non converge a X in probabilità (e, di conseguenza, nemmeno
in Lp o quasi certamente).
4.2. LEGGE DEI GRANDI NUMERI 171
Osservazione 4.1.13. Non esiste una metrica (e neppure una topologia) che induce la convergenza quasi
certa di variabili aleatorie: in caso contrario si potrebbe combinare il Lemma 4.1.8 con il punto iii) del
P q.c.
Teorema 4.1.9 per concludere che se Xn −−→ X allora Xn −−−−→ X, in contraddizione con l’Esempio 4.1.11.
Al contrario, le convergenze in Lp e in probabilità sono “metrizzabili”. Infatti, la convergenza in Lp è
1
semplicemente la convergenza relativa alla norma ∥X∥p = E [|X|p ] p nello spazio Lp (Ω, P ): è dunque un tipo
di convergenza definita solo per variabili sommabili di ordine p. Invece la convergenza in probabilità è
P
definita per variabili qualsiasi e si ha che Xn −−→ X se e solo se
" #
|X − Xn |
lim E = 0. (4.1.6)
n→∞ 1 + |X − Xn |
Proviamo questo fatto nell’ipotesi (non restrittiva) che X ≡ 0. Notiamo che per ogni ε > 0 si ha
|x| |x|
≤ 1 + ε1|x|<ε ≤ 1|x|≥ε + ε1|x|<ε .
1 + |x| 1 + |x| |x|≥ε
Applicando il valore atteso si ha
" #
|Xn |
E ≤ P (|Xn | ≥ ε) + εP (|Xn | < ε) ≤ P (|Xn | ≥ ε) + ε.
1 + |Xn |
P
Allora, nel caso in cui Xn −−→ 0, si ha " #
|Xn |
lim E ≤ε
n→∞ 1 + |Xn |
e la (4.1.6) segue dall’arbitrarietà di ε.
Viceversa, notiamo che
ε x x
1 ≤ 1 ≤
1 + ε x>ε 1 + x x>ε 1 + x
e quindi
ε |Xn |
1 ≤ .
1 + ε |Xn |>ε 1 + |Xn |
Applicando il valore atteso si ottiene
" #
ε |Xn |
P (|Xn | > ε) ≤ E
1+ε 1 + |Xn |
P
da cui la (4.1.6) implica che Xn −−→ 0.
Anche la convergenza debole è metrizzabile nello spazio delle distribuzioni: per approfondimenti si
vedano, per esempio, la monografie [19] e [56].
Sn
Sn = X1 + · · · + Xn , Mn = , (4.2.1)
n
rispettivamente la somma e la media aritmetica di X1 , . . . , Xn .
172 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
Teorema 4.2.1 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L2 (Ω, P ),
con valore atteso µ := E [X1 ] e varianza σ 2 := var(X1 ). Allora si ha
h i σ2
E (Mn − µ)2 = (4.2.2)
n
e di conseguenza la media aritmetica Mn converge in norma L2 (Ω, P ) alla v.a. costante uguale µ:
L2
Mn −−−→µ.
σ2
P (|Mn − µ| ≥ ε) ≤ , ε > 0, n ∈ N,
nε2
e quindi Mn converge anche in probabilità a µ. Inoltre, dal Teorema 4.1.9-iv) segue che Mn converge anche
debolmente:
d
Mn −−−−→ µ.
Dimostrazione. Per linearità, si ha
n
1X
E [Mn ] = E [Xk ] = µ,
n
k=1
e quindi
h i var(X1 + · · · + Xn )
E (Mn − µ)2 = var(Mn ) = =
n2
(per l’indipendenza, ricordando la (3.2.19))
var(X1 ) + · · · + var(Xn ) σ 2
= = . (4.2.3)
n n
Dimostrazione. A meno di traslare le variabili Xn non è restrittivo assumere µ = 0. Cominciamo col provare
che la sotto-successione Mn2 converge q.c.: infatti, per la (4.2.3), si ha
N N N
X
2
X h i X σ2
E Mn2 = E Mn22 = , N ∈ N,
n2
n=1 n=1 n=1
da cui
pn2 q.c.
Mn − Mpn2 −−−−→ 0.
n
q.c. pn2 q.c.
Ora Mpn2 −−−−→ 0 per la (4.2.4) e d’altra parte n → 1 per n → ∞: di conseguenza anche Mn −−−−→ 0 e questo
conclude la prova.
Esempio 4.2.4 (Strategia del raddoppio). Nel gioco della roulette si lancia una pallina che si può fermare
in una fra le 37 posizioni possibili, composte da 18 numeri rossi, 18 numeri neri e lo zero che è verde.
Consideriamo la strategia di gioco che consiste nel puntare sul rosso (la vincita è il doppio della giocata)
e raddoppiare la giocata ogni volta che si perde. Dunque alla prima giocata si punta 1 (ossia 20 ) Euro e,
in caso di perdita, alla seconda giocata si puntano 2 (ossia 21 ) Euro e cosı̀ via fino alla n-esima giocata in
cui, se si è sempre perso, si puntano 2n−1 Euro. A questo punto (ossia alla n-esima giocata avendo sempre
perso), l’ammontare giocato è pari a3
1 + 2 + · · · + 2n−1 = 2n − 1,
ii) si vince e si incassano 2 · 2n−1 Euro. Il bilancio totale è dunque positivo ed è pari alla differenza fra la
vincita e l’ammontare giocato:
2n − (2n − 1) = 1.
n
3 Si ricordi che P ak = an+1 −1 per a , 1.
a−1
k=0
174 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
0.13 99.87
E [X] ≈ −1023 · +1· ≈ −0.3
100 100
e interpretare tale risultato alla luce della Legge dei grandi numeri. Il fatto che E [X] sia pari a −0.3 significa
che se X1 , . . . , XN indicano i singoli guadagni/perdite allora complessivamente
X1 + · · · + XN
molto probabilmente sarà vicino a −0.3N . Questo è dovuto al fatto che il gioco non è equo per la presenza
dello zero (verde) per cui la probabilità di vincere puntando sul rosso è leggermente minore di 21 . In realtà
si può provare che se anche fosse p = 12 allora la strategia del raddoppio, col vincolo di raddoppiare al
massimo n volte, produrrebbe un guadagno medio nullo. Lo studio di questo tipo di problemi legati ai
giochi d’azzardo è all’origine di un ampio settore della Probabilità, la cosiddetta teoria delle martingale, che
insieme alle numerose applicazioni ha fondamentali e profondi risultati teorici.
f (X1 ) + · · · + f (Xm )
E[f (X)] = lim q.c.
m→∞ m
Questo risultato può essere tradotto in termini “pratici” nel modo seguente. Supponiamo di poter estrarre
casualmente un valore xn dalla v.a. Xn , per ogni n = 1, . . . , m con m ∈ N fissato, sufficientemente grande:
diciamo che xn è una realizzazione o simulazione della v.a. Xn . Allora un’approssimazione di E [f (X)] è data
dalla media aritmetica
m
1X
f (xn ). (4.2.5)
m
n=1
4 Si dice (X )
n n∈N è una successione di copie indipendenti di X.
4.2. LEGGE DEI GRANDI NUMERI 175
Figura 4.2: Istogramma di un vettore di 10.000 numeri casuali estratti dalla distribuzione N1,3 e grafico
della densità Gaussiana di N1,3
Allora si ha
lim ∥f − fn ∥∞ = 0,
n→∞
dove ∥f ∥∞ = max |f (p)|.
p∈[0,1]
Dimostrazione. Sia (Xn )n∈N una successione di v.a. reali i.i.d. aventi distribuzione Bep . Poniamo Mn =
X1 +···+Xn
n . Ricordiamo che, per la Proposizione 3.6.3, X1 + · · · + Xn ∼ Binn,p . Allora l’interpretazione probabi-
listica della formula (4.2.6) è
fn (p) = E [f (Mn )] , p ∈ [0, 1].
Ora osserviamo che
p(1 − p) 1
var (Mn ) =
≤ ,
n 4n
ed essendo E [Mn ] = p, per la disuguaglianza di Markov (4.1.3) si ha
1
P (|Mn − p| ≥ λ) ≤ , λ > 0. (4.2.7)
4nλ2
Poiché f è uniformemente continua su [0, 1], per ogni ε > 0 esiste λε tale che |f (x) − f (y)| ≤ ε se |x − y| ≤ λε .
Allora si ha
|f (p) − fn (p)| = |f (p) − E [f (Mn )]| ≤
(per la disuguaglianza di Jensen)
≤ E [|f (p) − f (Mn )|]
h i
≤ ε + E |f (p) − f (Mn )| 1(|Mn −p|≥λε )
≤ ε + 2∥f ∥∞ P (|Mn − p| ≥ λε ) .
Utilizzando la (4.2.7) si ottiene
lim sup ∥f − fn ∥∞ ≤ ε
n→∞
e la tesi segue dall’arbitrarietà di ε.
1.0
0.8
0.6
0.4
0.2
-2 -1 1 2
Figura 4.3: CDF delle distribuzioni Unif[0,1] (linea continua), Unif[0, 1 ] (linea tratteggiata) e Unif[0, 1 ] (linea
2 5
punteggiata).
Teorema 4.3.3. Siano (µn )n∈N una successione di distribuzioni reali e µ una distribuzione reale. Sono
equivalenti le seguenti affermazioni:
d
i) µn −−−−→ µ;
Notiamo che h i
E [f (Xn )] ≥ E f (Xn )1(Xn ≤x) = P (Xn ≤ x) = FXn (x).
Allora abbiamo
d
(per ipotesi, poiché Xn −−−−→ X)
= E [f (X)] ≤ FX (x + δ) ≤ FX (x) + ε.
178 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
allora h i
E [f (Xn )] ≤ E 1{Xn ≤x} = FXn (x).
Quindi abbiamo
(per ipotesi)
= E [f (X)] ≥ FX (x − δ) ≥ FX (x) − ε.
Fissiamo R > 0 e f ∈ bC col supporto contenuto nel compatto [−R, R]. Poiché i punti di discontinuità di
FX sono al più un’infinità numerabile, f può essere approssimata uniformemente (in norma L∞ ) mediante
combinazioni lineari di funzioni del tipo 1]a,b] con a, b punti di continuità di FX . Ne viene che anche per
tale f vale
lim E [f (Xn )] = E [f (X)] .
n→∞
Infine, fissiamo ε > 0 e consideriamo R abbastanza grande in modo che FX (−R) ≤ ε e FX (R) ≥ 1 − ε:
assumiamo inoltre che R e −R siano punti di continuità di FX . Allora per ogni f ∈ bC vale
dove
h i h i
J1,n = E f (Xn )1]−R,R] (Xn ) − E f (X)1]−R,R] (X) ,
h i
J2,n = E f (Xn )1]−R,R]c (Xn ) ,
h i
J3 = −E f (X)1]−R,R]c (X) .
e
|J3 | ≤ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ .
Questo conclude la prova.
Non è sufficiente che le CDF Fµn convergano ad una funzione continua per concludere che µn converge
debolmente, come mostra il seguente
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 179
ossia Fδn converge puntualmente alla funzione identicamente nulla che, ovviamente, è continua su R ma
non è una CDF.
L’Esempio 4.3.4 non contraddice il Teorema 4.3.3 poiché la funzione limite delle Fδn non è una funzione
di ripartizione. Tale esempio mostra anche che è possibile che una successione di CDF converga ad una
funzione che non è una CDF.
Definizione 4.3.5 (Tightness). Una famiglia di distribuzioni reali (µi )i∈I è tight se per ogni ε > 0 esiste
M > 0 tale che
µi ] − ∞, −M] ∪ [M, +∞[ ≤ ε per ogni i ∈ I.
Esercizio 4.3.6. Provare che ogni famiglia costituita da una singola distribuzione reale è tight6 .
La proprietà di tightness si può anche attribuire a famiglie di v.a. (Xi )i∈I oppure di CDF (Fi )i∈I : esse
sono tight se lo sono le relative famiglie di distribuzioni, ossia vale
e
Fi (−M) ≤ ε, Fi (M) ≥ 1 − ε per ogni i ∈ I.
Teorema 4.3.7 (Teorema di Helly). [!!] Ogni successione tight di distribuzioni reali (µn )n∈N ammette una
sotto-successione convergente debolmente ad una distribuzione µ.
Dimostrazione. Sia (µn )n∈N una successione tight di distribuzioni e sia (Fn )n∈N la successione delle relative
CDF. In base al Teorema 4.3.3, è sufficiente provare che esiste una CDF F ed una sotto-successione Fnk che
converge a F nei punti di continuità di F.
La costruzione di F è basata sull’argomento diagonale di Cantor. Consideriamo una enumerazione
(qh )h∈N dei numeri razionali. Poiché (Fn (q1 ))n∈N è una successione in [0, 1], essa ammette una sotto-
successione F1,n (q1 ) n∈N convergente a un valore che indichiamo con F(q1 ) ∈ [0, 1]. Ora F1,n (q2 ) n∈N
è una successione in [0, 1] che ammette una sotto-successione F2,n (q2 ) n∈N convergente a un valore che
indichiamo con F(q2 ) ∈ [0, 1]: notiamo che si ha anche
poiché F2,n è sotto-successione di F1,n . Ripetiamo l’argomento fino a costruire, per ogni k ∈ N, una succes-
sione Fk,n n∈N tale che
Fk,n (qh ) −−−−−−→ F(qh ), ∀h ≤ k.
n→∞
5 Preferiamo non tradurre il termine tecnico “tight”. In alcuni testi, “famiglia tight” è tradotto con “famiglia tesa” o “famiglia
stretta”.
6 Più in generale, ogni distribuzione µ su uno spazio metrico separabile e completo (M, ϱ), è tight nel senso seguente: per ogni ε > 0
esiste un compatto K tale che µ(M \ K) < ε. Per la dimostrazione, si veda il Teorema 1.4 in [19].
180 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
In base all’argomento diagonale, consideriamo la sotto-successione Fnk := Fk,k : essa è tale che
Per costruzione F assume valori in [0, 1], è monotona (debolmente) crescente e continua a destra. Per
provare che F è una funzione di ripartizione, rimane da verificare che
Soltanto a questo punto7 e solo per provare la (4.3.1), utilizziamo l’ipotesi che (Fn )n∈N sia una successione
tight: fissato ε > 0, esiste M (non è restrittivo assumere M ∈ Q) tale che vale Fnk (−M) ≤ ε per ogni k ∈ N.
Dunque, per ogni x ≤ −M, si ha
F(x) ≤ F(−M) = lim Fnk (−M) ≤ ε.
k→∞
Allora si ha
lim inf Fnk (x) ≥ lim inf Fnk (a) = F(a) ≥ F(x) − ε,
k→∞ k→∞
lim sup Fnk (x) ≤ lim sup Fnk (b) = F(b) ≤ F(x) + ε,
k→∞ k→∞
Teorema 4.3.8 (Teorema di continuità di Lévy). [!!] Sia (µn )n∈N una successione di distribuzioni reali e
sia (ϕn )n∈N la successione delle corrispondenti funzioni caratteristiche. Vale:
d
i) se µn −−−−→ µ allora ϕn converge puntualmente alla CHF ϕ di µ, ossia ϕn (η) −−−−−−→ ϕ(η) per ogni η ∈ R;
n→∞
ii) viceversa, se ϕn converge puntualmente a una funzione ϕ continua in 0, allora ϕ è la CHF di una
d
distribuzione µ e vale µn −−−−→ µ.
7 Si ripensi alla successione dell’Esempio 4.3.4, definita da X ≡ n per n ∈ N: essa non ammette sotto-successioni convergenti
n
debolmente eppure si ha lim FXn (x) = F(x) ≡ 0 per ogni x ∈ R. Infatti (Xn )n∈N non è una successione tight di v.a.
n→∞
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 181
d
Dimostrazione. i) Per ogni η fissato, la funzione f (x) := eixη è continua e limitata: quindi, se µn −−−−→ µ allora
Z Z
ϕn (η) = f dµn −−−−−−→ f dµ = ϕ(η).
R n→∞ R
ii) Dimostriamo che se ϕn converge puntualmente a ϕ, con ϕ funzione continua in 0, allora (µn )n∈N è tight.
Osserviamo che ϕ(0) = 1 e, per l’ipotesi di continuità di ϕ in 0, vale
1 t
Z
(1 − ϕ(η)) dη −−−−−−+→ 0. (4.3.2)
t −t t→0
1 t 1 t
Z Z Z
J1 (x, t)µn (dx) = (1 − ϕn (η)) −−−−−−→ (1 − ϕ(η)) dη,
R t −t n→∞ t −t
per il Teorema della convergenza dominata. Dalla (4.3.2) segue che, per ogni ε > 0, esistono t > 0 e n̄ =
n̄(ε, t) ∈ N tali che Z
J (x, t)µ (dx) ≤ ε, n ≥ n̄.
1 n
R
Combinando questa stima con la (4.3.3), si conclude che
2 2
µn − ∞, − ∪ , +∞ ≤ ε, n ≥ n̄,
t t
e quindi (µn )n∈N è tight.
Ora concludiamo la dimostrazione. Data una sotto-successione µnk , per quanto appena provato, essa
è tight e quindi, per il Teorema di Helly, ammette un’ulteriore sotto-successione µnk che converge debol-
j
mente a una distribuzione µ. Per il punto i), ϕnk converge puntualmente alla CHF di µ: d’altra parte, per
j
ipotesi, ϕnk converge puntualmente ϕ e quindi ϕ è la CHF di µ. Riassumendo, ogni sotto-successione µnk
j
ammette una sotto-successione che converge debolmente alla distribuzione µ Rche ha CHF uguale a ϕ.
Sia ora f ∈ bC: per quanto appena provato, ogni sotto-successione di R f dµn ammette una sotto-
R R R
successione che converge a R f dµ. Per il Lemma 4.1.8, R f dµn converge a R f dµ. La tesi segue dal-
l’arbitrarietà di f .
182 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
Esempio 4.3.9. L’ipotesi di continuità in 0 del Teorema di Lévy è necessaria. Infatti consideriamo Xn ∼ N0,n
con n ∈ N. Allora
nη 2
ϕXn (η) = e− 2
converge a zero per n → ∞ per ogni η , 0 e vale ϕXn (0) = 1. D’altra parte, per ogni x ∈ R si ha
Zx
1 y2
FXn (x) = √ e− 2n dy =
−∞ 2πn
y
(col cambio z = √ )
2n
Z √x
2n 1 2 1
= √ e−z dz −−−−−−→ ,
−∞ π n→∞ 2
Xn d
Verifichiamo ora che se npn −−−−−→ λ per un certo λ ∈ R>0 allora n −−−−→ X ∼ Expλ . Infatti si ha
n→∞
η pn
X
n
ϕ Xn (η) = E eiη n = ϕXn = η =
n n −i
e n − 1 + pn
(sviluppando in serie di Taylor l’esponenziale per n → ∞)
pn npn λ
= η
= −−−−−−→ = ϕExpλ (η).
−i n 1
+ o n + pn −iη + o (1) + npn n→∞ λ − iη
Esempio 4.3.11 (Dalla normale alla Delta di Dirac). Riprendiamo l’Esempio 4.1.3 e consideriamo una
successione (Xn )n∈N di v.a. con distribuzione normale Xn ∼ Nan ,σn2 dove an −→ a ∈ R e σn −→ 0. Grazie al
d
Teorema di continuità di Lévy è facile verificare che Xn −−−−→ X ∼ δa . Infatti
η 2 σn2
ϕXn (η) = eian η− 2 −−−−−−→ eiaη , η ∈ R,
n→∞
d
perciò dal Teorema di continuità di Lévy segue che Xn −−−−→ X ∼ δa , ossia Xn converge debolmente a una
v.a. con distribuzione Delta di Dirac centrata in a.
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 183
Esempio 4.3.12 (Dalla binomiale alla Poisson). Consideriamo una successione di v.a. con distribuzione
binomiale
Xn ∼ Binn,pn , n ∈ N.
d
Se npn −−−−−→ λ per un certo λ ∈ R>0 allora Xn −−−−→ X ∼ Poissonλ : infatti per la (3.5.3) e il Lemma 4.4.1, si
n→∞
ha
n np n iη
ϕXn (η) = 1 + pn eiη − 1 = 1 + n eiη − 1
−−−−−−→ eλ(e −1) = ϕPoissonλ (η).
n n→∞
Esempio 4.3.13 (Dalla binomiale alla normale). Sia Xn ∼ Binn,p . Ricordiamo (cfr. Proposizione 3.6.3) che
la distribuzione di Xn coincide con la distribuzione della somma di n v.a. di Bernoulli indipendenti. Allora,
come conseguenza diretta del Teorema centrale del limite (Teorema 4.4.4, che proveremo fra poco e la cui
dimostrazione si basa sul Teorema di continuità di Lévy), vale:
d
Zn −−−−→ X ∼ N0,1 ,
dove
Xn − µ n
Zn = , µn = E [Xn ] = np, σn2 = var(Xn ) = np(1 − p).
σn
Il risultato appena ottenuto può essere espresso informalmente dicendo che per ogni p ∈ ]0, 1[, la distribu-
zione Nnp,np(1−p) è una buona approssimazione di Binn,p per n abbastanza grande: si veda per esempio la
Figura 4.4 per un confronto fra i grafici della densità normale Nnp,np(1−p) e della funzione di distribuzione
binomiale Binn,p , per p = 0.5 e n = 20. Questo risultato sarà ripreso e spiegato con maggior precisione
nell’Osservazione 4.4.8.
●
● ●
0.15
● ●
0.10
● ●
0.05
● ●
● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20 25 30
Figura 4.4: Densità della distribuzione normale Nnp,np(1−p) e funzione di distribuzione binomiale Binn,p per
p = 0.5 e n = 20.
rispettivamente per la somma e la media aritmetica delle v.a. X1 , . . . , Xn . Vale il seguente risultato, ben noto
nel caso di successioni reali.
Lemma 4.4.1. Sia (zn )n∈N una successione di numeri complessi convergente a z ∈ C. Allora si ha
z n
lim 1 + n = ez .
n→∞ n
Dimostrazione. Seguiamo la prova di [35], Teorema 3.4.2. Proviamo anzitutto che per ogni w1 , . . . , wn , ζ1 , . . . , ζn ∈
C, con modulo minore o uguale a c, vale
Y n Yn Xn
wk − ζk ≤ cn−1 |wk − ζk |. (4.4.2)
k=1 k=1
k=1
Poi osserviamo che per ogni w ∈ C con |w| ≤ 1 vale |ew − (1 + w)| ≤ |w|2 poichè
X wk X |w|k X1
w
|e − (1 + w)| = − (1 + w) ≤ = |w|2 ≤ |w|2 . (4.4.3)
k! k! k!
k≥0 k≥2 k≥2
Per provare la tesi, fissiamo R > |z|: per ogni n ∈ N abbastanza grande si ha anche R > |zn |. Applichiamo
la (4.4.2) con
z zn
wk = 1 + n , ζk = e n , k = 1, . . . , n;
n
R
osservando che |wk | ≤ 1 + |znn | ≤ e n , abbiamo
n
1 + zn n − ezn ≤ e Rn n−1
X
zn
zn
1 + − e n ≤
n n
k=1
(per la (4.4.3))
R(n−1)
z 2 R2
≤e n n n ≤ eR
n n
da cui la tesi.
Teorema 4.4.2 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L1 (Ω, P ),
con valore atteso µ := E [X1 ]. Allora la media aritmetica Mn converge debolmente alla v.a. costante uguale a
µ:
d
Mn −−−−→ µ.
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
funzioni caratteristiche ϕMn converge puntualmente alla CHF della distribuzione δµ :
Abbiamo
η
ϕMn (η) = E ei n Sn =
Supponiamo ora che (Xn )n∈N sia una successione di v.a. reali i.i.d. in L2 (Ω, P ). Poniamo
µ := E [X1 ] e σ 2 := var(X1 ).
Ricordiamo che valore atteso e varianza della media aritmetica Mn in (4.2.1) sono dati rispettivamente da
σ2
E [Mn ] = µ e var(Mn ) = .
n
Consideriamo allora la media aritmetica normalizzata, definita da
en := Mpn − E [Mn ] = Mn − µ .
M
var(Mn ) √σ
n
Notiamo che
n
e n = Sn −
M √
µn
=√
1 X Xk − µ
. (4.4.5)
σ n n k=1 σ
Il Teorema centrale del limite8 afferma che, a prescindere dalla distribuzione delle Xn , la successione delle
medie aritmetiche normalizzate M en converge debolmente a una normale standard.
Teorema 4.4.4 (Teorema centrale del limite). [!!!] Per ogni successione (Xn )n∈N di v.a. reali i.i.d. in
L2 (Ω, P ) vale
Men −−−d−→ Z ∼ N0,1 . (4.4.6)
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
en converge puntualmente alla CHF della distribuzione N0,1 :
funzioni caratteristiche ϕM
η2
−
lim ϕM
en (η) = e 2 , η ∈ R. (4.4.7)
n→∞
8 Il nome Teorema centrale del limite è stato dato dal matematico ungherese George Pólya per sottolineare come tale teorema abbia
un ruolo centrale in Probabilità.
186 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
Per la (4.4.5) si ha
n
i √ηn P Xkσ−µ
en (η) = E
ϕM e
k=1 =
X1 −µ
(per il Teorema 3.5.20, essendo per ipotesi σ ∈ L2 (Ω, P ) con media nulla e varianza unitaria)
!n
(iη)2 1 η2
= 1+ +o −−−−−−→ e− 2
2n n n→∞
Osservazione 4.4.6 (Teorema centrale del limite e Legge dei grandi numeri). Data l’espressione di M
en in
(4.4.5), il Teorema centrale del limite si riformula nel modo seguente:
σ
Mn ≃ µ + √ Z ∼ Nµ, σ 2 , per n ≫ 1, (4.4.8)
n n
dove il simbolo ≃ indica che Mn e µ + √σn Z hanno approssimativamente la stessa distribuzione. La (4.4.8)
fornisce un’approssimazione della distribuzione della v.a. Mn che precisa ed esplicita il risultato di conver-
genza della Legge dei grandi numeri.
Osservazione 4.4.7 (Teorema centrale del limite e metodo Monte Carlo). [!] Medie Mn di variabili i.i.d.,
definite come in (4.4.1), appaiono in modo naturale nel metodo Monte Carlo che abbiamo introdotto nella
Sezione 4.2.1. Sotto le ipotesi del Teorema centrale del limite, posto
!
σ
pλ := P Mn − µ ≤ λ √ = P M en ≤ λ , λ > 0,
n
si ha la stima
pλ ≃ P (|Z| ≤ λ) , Z ∼ N0,1 .
Ora ricordiamo (cfr. (3.1.12)) che
sono comunemente chiamati raggi degli intervalli di confidenza al 95% e al 99% per µ: se Mn rappresenta il
risultato (aleatorio) dell’approssimazione Monte Carlo del valore atteso µ, allora
sono gli intervalli (di estremi aleatori) a cui µ (che è il valore incognito che si intende approssimare) appar-
tiene con probabilità pari, rispettivamente, al 95% e 99%. In altri termini, è bene ricordare che il risultato di
un’approssimazione numerica col metodo Monte Carlo non è un singolo numero bensı̀ un intervallo di confidenza.
Osservazione 4.4.8 (Teorema centrale del limite e somme di v.a. i.i.d.). Come già anticipato nell’Esempio
4.3.13, il Teorema centrale del limite è un valido strumento per approssimare la legge di v.a. definite come
somme di variabili i.i.d. Per esempio, sappiamo (cfr. Proposizione 3.6.3) che X ∼ Binn,p è uguale in legge a
X1 + · · · + Xn con Xj ∼ Bep i.i.d. Allora abbiamo la seguente approssimazione asintotica della CDF di X per
n → +∞:
k − pn
Z ∼ N0,1 .
P (X ≤ k) ≈ P Z ≤ p
, (4.4.9)
np(1 − p)
La (4.4.9) segue semplicemente dal fatto che, posto µ = E [X1 ] = p e σ 2 = var(X1 ) = p(1 − p), per il Teorema
centrale del limite si ha ! !
X − µn k − µn k − µn
P (X ≤ k) = P √ ≤ √ ≈P Z ≤ √ .
σ n σ n σ n
La (4.4.9) equivale a
k − pn
FX (k) ≈ F p
np(1 − p)
Teorema 4.4.9 (Teorema di Berry-Esseen). Esiste una costante10 C < 1 tale che, se (Xn ) è una successione
di v.a. i.i.d. in L3 (Ω, P ) con
h i
E [X1 ] = 0, var(X1 ) := σ 2 , E |X1 |3 =: ϱ,
allora si ha
Cϱ
|Fn (x) − F(x)| ≤ √ , x ∈ R, n ∈ N,
σ3 n
dove Fn indica la CDF della media normalizzata M
en in (4.4.5) e F è la CDF normale standard in (4.4.10).
Probabilità condizionata
Earl C. Kelley
In uno spazio di probabilità (Ω, F , P ), siano X una variabile aleatoria e G una sotto-σ -algebra di F .
In questo capitolo introduciamo i concetti di distribuzione e attesa di X condizionate a G . Ricordando
che una σ -algebra può essere interpretata come un insieme di “informazioni”, l’attesa di X condizionata a
G rappresenta la miglior stima del valore aleatorio X in base alle informazioni contenute in G . Tanto più G
è grande, tanto migliore e più dettagliata è la stima di X data dall’attesa condizionata: quest’ultima, dal
punto di vista matematico, è definita come una variabile aleatoria che gode di determinate proprietà. I
concetti di attesa e distribuzione condizionata sono alla base della teoria dei processi stocastici e di tutte
le applicazioni della teoria della probabilità in cui si vuole modellizzare un fenomeno aleatorio che evolve
nel tempo: in tal caso è necessario descrivere non solo l’evoluzione del valore aleatorio X ma anche quella
delle informazioni che, col passare del tempo, diventano disponibili e permettono di stimare X. In questo
capitolo, salvo diversamente specificato, X indica una variabile aleatoria a valori in Rd .
1 L’ipotesi ii) non è realmente restrittiva: se Z verifica i) allora esiste una v.a. Y discreta tale che P (Y = y) > 0 per ogni y ∈ Y (Ω) e
Z = Y q.c.
189
190 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
i) i valori distinti assunti da Y formano un insieme di cardinalità al più numerabile: in altri termini,
l’immagine di Ω mediante Y è della forma Y (Ω) = (yn )n∈N con yn distinti;
In queste ipotesi, la famiglia (Bn )n∈N forma una partizione finita o numerabile di Ω, i cui elementi sono even-
ti non trascurabili. Notiamo che σ (Y ), la σ -algebra generata da Y , è costituita dall’insieme vuoto, dagli
elementi della partizione (Bn )n∈N e dalle unioni di essi.
Pω (A | Y ) := P (A | Y = Y (ω)), A ∈ F, (5.1.1)
dove P (· | Y = Y (ω)) indica la probabilità condizionata all’evento (Y = Y (ω)) (cfr. Definizione 2.3.2).
Osservazione 5.1.2. Per ogni A ∈ F , P (A | Y ) è una variabile aleatoria costante sugli elementi della parti-
zione (Bn )n∈N :
X
P (A | Y ) = P (A | Bn )1Bn .
n≥1
Poiché Pω (· | Y ) è una misura di probabilità per ogni ω ∈ Ω, sono definiti in modo naturale i concetti di
distribuzione e attesa condizionate a Y .
Definizione 5.1.3 (Distribuzione e attesa condizionata). Data X una v.a. su (Ω, F , P ) a valori in Rd ,
Osservazione 5.1.4. Si noti che la distribuzione e l’attesa condizionate dipendono da ω e quindi sono
quantità aleatorie, infatti:
µX|Y (H; ω) := Pω (X ∈ H | Y ), H ∈ Bd , ω ∈ Ω.
Di conseguenza:
i-a) per ogni ω ∈ Ω, µX|Y (·; ω) è una distribuzione su (Rd , Bd ): diciamo quindi che µX|Y è una distri-
buzione aleatoria;
i-b) per ogni H ∈ Bd , µX|Y (H) è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
µX|Y (H) = P (X ∈ H | Bn )1Bn ; (5.1.4)
n≥1
5.1. IL CASO DISCRETO 191
Di conseguenza, E [X | Y ] è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
E [X | Y ] = E [X | Bn ] 1Bn , (5.1.5)
n≥1
Esempio 5.1.5. Riprendiamo l’Esempio 3.4.5: da un’urna che contiene n ≥ 2 palline numerate, si estrag-
gono in sequenza e senza reinserimento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il
numero della prima e seconda pallina estratta. Allora per ogni k ∈ In si ha
1
n−1 , se h ∈ In \ {k},
µX2 |X1 =k ({h}) =
0
altrimenti,
o equivalentemente
µX2 |X1 = UnifIn \{X1 } .
Generalizziamo ora due ben noti strumenti fondamentali per il calcolo dell’attesa.
Teorema 5.1.6 (Teorema del calcolo della media). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Se
f ∈ mBd e f (X) ∈ L1 (Ω, P ) allora Z
E [f (X) | Y ] = f dµX|Y .
Rd
Teorema 5.1.7 (Formula della probabilità totale). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Si ha
h i
µX = E µX|Y . (5.1.6)
Esempio 5.1.8. Il numero di mail di spam ricevute ogni giorno da una casella di posta è una v.a. con di-
stribuzione Poisson10 . Installando un software antispam è possibile dimezzare il numero medio di mail di
spam ricevute. Sapendo che tale software protegge solo l’80% delle caselle di posta di un’azienda, determi-
niamo la distribuzione e la media del numero di mail di spam ricevute ogni giorno da ogni casella di posta
dell’azienda.
Sia Y ∼ Bep , con p = 80%, la v.a. che vale 1 se una casella di posta è protetta e 0 altrimenti. Se X indica
il numero di mail di spam ricevute, si ha per ipotesi
da cui
E [X] = pE [X | Y = 1] + (1 − p)E [X | Y = 0] = 80% · 5 + 20% · 10 = 6.
Infine, per il Teorema del calcolo della media si ha
Z
E [X | Y ] = xµX|Y (dx)
R
Z Z
=Y xPoisson5 (dx) + (1 − Y ) xPoisson10 (dx) = 5Y + 10(1 − Y ).
R R
E [P (X ≥ x | Y )] = P (X ≥ x)
che fornisce l’espressione della CDF (e quindi della distribuzione) di X. Infatti, osservando che chiaramente
P (X ≥ x | Y ) = 1 se x < 0, si ha
1 se x < 0,
P (X ≥ x) = p
p−1+ex se x ≥ 0,
da cui si deduce che X è una v.a. assolutamente continua con densità (si veda la Figura 5.1)
d 0 x se x < 0,
γX (x) = (1 − P (X ≥ x)) = pe (5.1.7)
dx
x 2
se x ≥ 0.
(p−1+e )
Si può pensare a X come a una v.a. di tipo esponenziale con intensità2 stocastica. Questo esempio mostra
che tramite il concetto di distribuzione condizionata è possibile considerare modelli probabilistici in cui il
valore dei parametri è incerto o stocastico. Da qui viene la fondamentale importanza della distribuzione
condizionata in molte applicazioni e, in particolare, in statistica.
2 Nella distribuzione esponenziale Exp , il parametro λ > 0 è usualmente chiamato intensità.
λ
5.1. IL CASO DISCRETO 193
2.0
1.5
1.0
0.5
Proposizione 5.1.10. [!] Date due variabili aleatorie X e Y su (Ω, F , P ), con X ∈ L1 (Ω, P ) e Y discreta,
poniamo Z = E [X | Y ]. Allora si ha:
i) Z ∈ mσ (Y );
Inoltre, se Z ′ è una v.a. che verifica le proprietà i) e ii) allora Z ′ (ω) = Z(ω) per ogni ω ∈ Ω.
Dimostrazione. La i) è immediata conseguenza della (5.1.5). Per quanto riguarda la ii), per il Teorema 3.3.3
di Doob esiste f misurabile e limitata tale che W = f (Y ) o, più esplicitamente
X
W= f (yn )1Bn . (5.1.8)
n≥1
(per la (3.4.1))
X h i
= f (yn )E X1Bn = E [XW ] .
n≥1
Infine, se Z ′ gode delle proprietà i) e ii) allora Z ′ è della forma (5.1.8) e, per la ii) con W = 1Bn , si ha
h i h i
f (yn )P (Bn ) = E Z ′ 1Bn = E X1Bn
Osservazione 5.1.11 (Funzione probabilità condizionata). [!] Sia Y una v.a. discreta a valori in uno
spazio misurabile (E, E ). Secondo la definizione (5.1.1), la probabilità condizionata è una famiglia di misure
di probabilità Pω (· | Y ) al variare di ω ∈ Ω e in tal senso può essere interpretata come una probabilità
aleatoria. È possibile dare una definizione alternativa di probabilità condizionata in cui P (· | Y ) dipende da
y ∈ Y (Ω) invece che da ω ∈ Ω: precisamente, si dice che la famiglia P (· | Y ) = (P (· | Y = y))y∈Y (Ω) di misure
di probabilità su (Ω, F ) è la funzione3 probabilità condizionata a Y . In modo analogo si definisce la funzione
legge della v.a. X condizionata a Y come
µX|Y (H; y) = P (X ∈ H | Y = y), H ∈ B, y ∈ Y (Ω),
e la funzione attesa condizionata come
Z
E [X | Y = y] = XdP (· | Y = y) =
Ω
Ricordiamo anche la definizione di funzione di distribuzione di una variabile aleatoria discreta X, data
nell’Osservazione 2.4.16:
µ̄X (x) = P (X = x), x ∈ X(Ω).
Per analogia indichiamo con µ̄X|Y (x, y) = P (X = x | Y = y) la funzione di distribuzione di X condizionata a Y e
osserviamo che vale
P ((X = x) ∩ (Y = y)) µ̄(X,Y ) (x, y)
µ̄X|Y (x, y) = = , x ∈ X(Ω), y ∈ Y (Ω). (5.1.9)
P (Y = y) µ̄Y (y)
Esempio 5.1.12. Il numero di email ricevute ogni giorno è una v.a. Y ∼ Poissonλ con λ = 20. Ogni email ha
probabilità p = 15% di essere spam, indipendentemente dalle altre. Determiniamo la distribuzione della
v.a. X che indica il numero di email di spam ricevute ogni giorno.
Intuitivamente ci aspettiamo che X ∼ Poissonλp . In effetti, per ipotesi si ha
Binn,p ({k}) se k ≤ n,
P (X = k | Y = n) =
0
se k > n,
è la probabilità che, su n email ricevute, ce ne siano esattamente k di spam. Per la Formula della probabilità
totale si ha
X
P (X = k) = P (X = k | Y = n)P (Y = n)
n≥0
X n! λn
= pk (1 − p)n−k e−λ
k n!
n≥k
e−λ (λp)k X (1 − p)n−k λn−k
= =
k! (n − k)!
n≥k
(posto h = n − k)
Osservazione 5.1.13. Consideriamo Y = 1B con B ∈ F tale che 0 < P (B) < 1: nelle applicazioni si interpreta
la σ -algebra generata da Y
σ (Y ) = {∅, Ω, B, Bc }
come “l’informazione riguardo al fatto che l’evento B sia avvenuto o meno”. Notiamo la differenza concet-
tuale fra:
ii) condizionare a Y , nel senso di condizionare al fatto di sapere se B sia avvenuto o meno.
5.1.1 Esempi
Esempio 5.1.14. Calcoliamo E [X1 | Y ] dove X1 , . . . , Xn ∼ Bep , con 0 < p < 1, sono indipendenti e Y = X1 +
· · · + Xn . Poiché Y ∼ Binn,p , abbiamo
(posto Z = X2 + · · · + Xn ∼ Binn−1,p )
P ((X1 = 1) ∩ (Z = k − 1))
= =
P (Y = k)
(per l’indipendenza di X1 e Z)
P (X1 = 1)P (Z = k − 1)
=
P (Y = k)
n−1 k−1
p p (1 − p)n−1−(k−1) k
= k−1 n k n−k
= , k = 0, . . . , n,
k p (1 − p)
n
Y
E [X1 | Y ] = .
n
Esempio 5.1.15. L’urna A contiene n ∈ N palline di cui solo k1 ≤ n sono bianche. L’urna B contiene n ∈ N
palline di cui solo k2 ≤ n sono bianche. Si sceglie a caso un’urna e si effettua una successione di estrazioni
con reinserimento. Determiniamo la distribuzione del numero X di estrazioni necessarie per trovare la
prima pallina bianca.
Sia Y ∼ Bep , con p = 21 , la v.a. che vale 1 se viene scelta l’urna A e vale 0 altrimenti. Allora, ricordando
l’Esempio 3.1.25 sulla distribuzione geometrica, si ha
1
µX = Geom k1 + Geom k2 .
2 n n
Infine
n(k1 + k2 )
E [X] = .
2k1 k2
Esempio 5.1.16. Siano Xi ∼ Poissonλi , i = 1, 2, indipendenti e Y := X1 + X2 . Sappiamo (cfr. Esempio 3.6.5)
che Y ∼ Poissonλ1 +λ2 . Proviamo che
µX1 |Y = BinY , λ1 .
λ1 +λ2
P ((X1 = k) ∩ (Y = n))
µX1 |Y =n ({k}) = =
P (Y = n)
(per l’indipendenza di X1 e X2 )
e d’altra parte µX1 |Y =n ({k}) = 0 per gli altri valori di k. Da ciò si conclude facilmente.
Teorema 5.2.1. Siano X ∈ L1 (Ω, F , P ) a valori in Rd e G una sotto-σ -algebra di F . Esiste una v.a. Z ∈
L1 (Ω, P ) a valori in Rd che soddisfa le seguenti proprietà:
i) Z ∈ mG ;
(per ii))
h i h i h i 1
= E Z1An − E Z ′ 1An = E (Z − Z ′ )1An ≥ P (An )
n
da cui P (An ) = 0 e, per la continuità dal basso di P , si ha anche P (Z > Z ′ ) = 0. Il caso d > 1 segue ragionando
componente per componente.
(Esistenza) Diamo una dimostrazione dell’esistenza basata su risultati di analisi funzionale, in particolare
relativi alla proiezione ortogonale in spazi di Hilbert. Consideriamo dapprima l’ipotesi più restrittiva che
X appartenga a L2 (Ω, F , P ) che è uno spazio di Hilbert col prodotto scalare
⟨X, Z⟩ = E [XZ] .
Anche L2 (Ω, G , P ) è uno spazio di Hilbert ed è un sotto-spazio chiuso di L2 (Ω, F , P ) poiché G ⊆ F . Allora
esiste la proiezione Z di X su L2 (Ω, G , P ) e per definizione si ha:
Dunque Z è proprio la v.a. cercata: dal punto di vista geometrico, Z è la v.a. G -misurabile che meglio
approssima X nel senso che, fra le v.a. G -misurabili, è la meno distante da X rispetto alla distanza di L2 .
Consideriamo ora X ∈ L1 (Ω, F , P ) tale che X ≥ 0 quasi certamente. Il caso di X a valori in Rd si prova
ragionando sulla parte positiva e negativa di ogni singola componente. La successione definita da
Xn = X ∧ n, n ∈ N,
Osservazione 5.2.2. [!] Per il secondo Teorema di Dynkin (Teorema A.1.8), la proprietà ii) del Teorema
5.2.1 equivale alla seguente proprietà, in generale più semplice da verificare:
ii-b) vale
E [Z1G ] = E [X1G ]
per ogni G ∈ A , dove A è una famiglia ∩-chiusa tale che σ (A ) = G .
Definizione 5.2.3 (Attesa condizionata). Siano X ∈ L1 (Ω, F , P ) e G una sotto-σ -algebra di F . Se Z
soddisfa le proprietà i) e ii) del Teorema 5.2.1 allora scriviamo
Z = E [X | G ] (5.2.3)
E [X | H ] = E [X | G ]
significa che se Z = E [X | H ] allora Z = E [X | G ] (tuttavia può esistere una versione Z ′ di E [X | G ] che non è
attesa di X condizionata a H , in particolare se Z ′ ∈ mG \ mH ). Si noti che le notazioni E [X | H ] = E [X | G ]
e E [X | G ] = E [X | H ] non sono equivalenti a meno che non sia H = G .
Osservazione 5.2.6. [!] Ci si può chiedere perché non si definisca l’attesa condizionata come classe di equi-
valenza, identificando le funzioni (variabili aleatorie) che sono uguali quasi certamente come si è soliti fare
nella teoria dell’analisi funzionale. Certamente la presentazione risulterebbe più elegante e si eviterebbe di
dover menzionare continuamente la versione (ossia il rappresentante della classe di equivalenza) dell’attesa
condizionata. Vorrei cercare di chiarire questa questione che è discussa anche nell’introduzione del libro di
Williams [126]. Anzitutto occorre considerare il fatto che l’identificazione per classi di equivalenza dipende
dalla misura di probabilità fissata: mentre in analisi funzionale la struttura di spazio misurabile è general-
mente fissata una volta per tutte, in teoria della probabilità è normale lavorare contemporaneamente con
diverse misure e σ -algebre. Di più, la situazione tipica è quella in cui tali misure, anche se definite sulla
stessa σ -algebra, non sono equivalenti (ossia non hanno gli stessi eventi trascurabili e certi): si pensi al caso
di una probabilità P e della probabilità condizionata P (· | B) con 0 < P (B) < 1 per la quale P (Bc | B) = 0. La
situazione si complica ulteriormente nella teoria dei processi stocastici in cui si considerano famiglie non
numerabili di σ -algebre e di misure di probabilità: in questo ambito, la definizione di variabile aleatoria
come classe di equivalenza semplicemente non è utilizzabile.
Osservazione 5.2.7. [!] Siano X, Y ∈ L2 (Ω, P ) e Z = E [X | Y ]. Allora
E [X − Z] = 0, cov (X − Z, Y ) = 0, (5.2.4)
5.2. ATTESA CONDIZIONATA 199
ossia X − Z ha media nulla ed è scorrelata da Y . La prima equazione segue dalla (5.2.2) con W = 1. Per la
seconda si ha
Esempio 5.2.8. [!] Consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ Nµ,C con
σX2
!
σXY
µ = (eX , eY ), C= ≥ 0.
σXY σY2
Quindi
aeY + b = eX , aσY2 = σXY
da cui, supposto σY , 0,
σXY σXY
a= , b = eX − eY ,
σY2 σY2
che fornisce un’ulteriore interpretazione della retta di regressione vista nella Sezione 3.2.9. D’altra parte,
se a, b sono determinate in questo modo allora Z := aY + b = E [X | Y ] poiché:
i) chiaramente Z ∈ mσ (Y );
Nella prova del Teorema 5.2.1 abbiamo dimostrato anche il risultato seguente:
Corollario 5.2.9. Siano X ∈ mF + e G una sotto-σ -algebra di F . Esiste una v.a. Z che soddisfa le seguenti
proprietà:
i) Z ∈ mG + ;
Il Corollario 5.2.9 permette di estendere la Definizione 5.2.3 di attesa condizionata alle v.a. integrabili
(non necessariamente sommabili).
4 Più precisamente, si veda la (5.2.2).
200 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
2) Se X ∈ mG allora
X = E [X | G ] .
aE [X | G ] + E [Y | G ] = E [aX + Y | G ] .
5) (Monotonia) Se P (X ≤ Y ) = 1 allora
E [X | G ] ≤ E [Y | G ] ,
nel senso che se Z = E [X | G ] e W = E [Y | G ] allora P (Z ≤ W ) = 1.
6) Se X è G -misurabile e limitata, si ha
XE [Y | G ] = E [XY | G ] . (5.2.6)
E [E [X | G ] | H ] = E [X | H ] .
lim E [Xn | G ] = E [X | G ] .
n→∞
10) (Teorema della convergenza dominata) Se (Xn )n∈N è una successione che converge q.c. a X e vale
|Xn | ≤ Y ∈ L1 (Ω, P ) q.c. per ogni n ∈ N, allora si ha
lim E [Xn | G ] = E [X | G ] .
n→∞
11) (Disuguaglianza di Jensen) Se ϕ è una funzione convessa tale che ϕ(X) ∈ L1 (Ω, P ), si ha
ϕ (E [X | G ]) ≤ E [ϕ(X) | G ] .
5 Vale anche
E [X | H ] = E [E [X | H ] | G ]
che segue direttamente dalla proprietà 2) e dal fatto che E [X | H ] ∈ mG poiché H ⊆ G .
5.2. ATTESA CONDIZIONATA 201
3) La v.a. costante Z := E [X] è chiaramente G -misurabile (perché σ (Z) = {∅, Ω}) e inoltre, per ogni v.a.
W ∈ mG limitata, per l’ipotesi di indipendenza vale
5) Questa proprietà è provata nella prima parte della dimostrazione del Teorema 5.2.1.
E [(XZ)W ] = E [Z(XW )] =
(poiché Z = E [Y | G ])
= E [Y (XW )] = E [(XY )W )]
da cui la tesi.
i) Z ∈ mH ;
ii) data W ∈ mH limitata, si ha
E [ZW ] = E [XW ] .
202 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
E [E [X | G ] W ] = E [XW ] .
(per ipotesi)
h i h i
= E eiη1 X E eiη2 Y = ϕX (η1 )ϕY (η2 )
Una conseguenza immediata del punto 13) del Teorema 5.2.10 è la seguente versione particolare del
Lemma di freezing di cui diamo una dimostrazione alternativa più semplice.
Lemma 5.2.11 (Lemma di freezing). Sia G una sotto-σ -algebra di F . Se X ∈ mG , Y è una v.a. indipendente
da G e f ∈ mB2 è tale che f (X, Y ) ∈ L1 (Ω, P ), allora si ha
Dimostrazione. Per il teorema di Fubini la funzione F in (5.2.8) è Borel misurabile e quindi F(X) ∈ mG .
Inoltre Y è indipendente da (W , X) per ogni W ∈ bG : allora si ha
Z
E [W f (X, Y )] = wf (x, y)µ(W ,X,Y ) (dw, dx, dy) =
R3
(per indipendenza)
Z
= wf (x, y)µ(W ,X) ⊗ µY (dw, dx, dy) =
R3
da cui la tesi.
Esempio 5.2.12. [!] Riprendiamo l’Esempio 3.5.4 e consideriamo N e Z1 , Z2 , . . . v.a. indipendenti con
N ∼ Poissonλ e Zn identicamente distribuite per n ∈ N. Calcoliamo la CHF di
0 se N = 0,
N
X := P
Zk
se N ≥ 1.
k=1
Si ha
N
h i Y
ϕX (η) = E eiηX = E eiηZk =
k=1
dove nell’ultimo passaggio abbiamo utilizzato il Lemma di freezing e il fatto che, per l’indipendenza delle
v.a. Zk , si ha
n
Y
E e k = ϕZ1 (η)n ,
iηZ
n ∈ N.
k=1
Allora si ha X λn
ϕX (η) = e−λ ϕZ1 (η)n = eλ(ϕZ1 (η)−1)
n!
n≥0
Esempio 5.2.13. Siano X, Y , U , V v.a. indipendenti con X, Y ∼ N0,1 e U 2 + V 2 , 0 q.c. Proviamo che
XU + Y V
Z := √ ∼ N0,1 .
U2 + V 2
204 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
Infatti si ha
iη √XU +Y V
" #
ϕZ (η) = E e U 2 +V 2 =
E P [XL | G ]
E Q [X | G ] = (5.2.9)
E P [L | G ]
dQ
dove L = dP |F è la derivata di Radon-Nikodym di Q rispetto a P su F .
(essendo (LG = 0) ∈ G )
= E Q 1(LG =0) LG = 0.
h i
Allora la (5.2.9) equivale a ZLG = E P [XL | G ]: per mostrare quest’ultima, osserviamo che ZLG è ovviamente
G -misurabile e per concludere usiamo l’Osservazione 5.2.2: per ogni G ∈ G si ha
Z Z Z Z Z Z
G P Q
ZL dP = E [ZL | G ] dP = ZLdP = E [X | G ] dQ = XdQ = XLdP .
G G G G G G
LG = E P LF | G ,
h i
essendo G ⊆ F .
5.2. ATTESA CONDIZIONATA 205
E [X | Y ]
(Ω, F ) Rd , Bd
Y Φ
(E, E )
Φ(y) = E [X | Y = y] . (5.2.10)
f (y) = E [f (Y ) | Y = y] , y ∈ Rd .
Dimostrazione. Si ha
h i h i
E |X − W |2 | G = E |X − Z + Z − W |2 | G
h i h i
= E |X − Z|2 | G + E |Z − W |2 | G + 2E [⟨X − Z, Z − W ⟩ | G ] =
(essendo E [X − Z | G ] = 0)
h i h i
= E |X − Z|2 | G + |Z − W |2 ≥ E |X − Z|2 | G .
A volte questo problema può essere risolto in modo esatto: è il caso dell’Esempio 5.2.8, in cui F(x, y) =
x e (X, Y ) ∼ Nµ,C . Spesso tuttavia è necessario ricorrere a metodi numerici. Nel caso in cui X, Y siano
indipendenti allora per il Lemma di freezing si ha semplicemente Φ(y) = E [F(X, y)], y ∈ R: quindi per
determinare Φ è sufficiente calcolare un valore atteso e ciò può essere fatto numericamente col metodo
Monte Carlo. Più in generale, esiste un’estensione di tale metodo, detta Least Square Monte Carlo (LSMC),
che è basata su una regressione multi-lineare del tipo visto nella Sezione 3.2.9.
Vediamo come si procede nel caso unodimensionale: consideriamo una base di L2 (R, B, µY ), per esempio
le funzioni polinomiali βk (y) := y k con k = 0, 1, 2, . . . , e fissato n ∈ N, poniamo
β = (β0 , β1 , . . . , βn ).
Una volta determinato λ̄, l’approssimazione della funzione attesa condizionata in (5.2.12) è data da
Risolviamo il problema (5.2.13) approssimando il valore atteso con il metodo Monte Carlo. Costruiamo
due vettori x, y ∈ RM le cui componenti sono ottenute simulando M valori delle variabili X e Y , con M
sufficientemente grande. Per fissare le idee, M può essere dell’ordine di 105 o maggiore, mentre al contrario
è sufficiente che il numero di elementi della base n sia piccolo, dell’ordine di qualche unità (per maggiori
dettagli si veda, per esempio, [50] o la monografia [49]). Posto
M
X 2
Q(λ) := ⟨β(yk ), λ⟩ − F(xk , yk ) , λ ∈ Rn+1 ,
k=1
Q(λ)
2
≈ E ⟨λ, β(Y )⟩ − F(X, Y ) , M ≫ 1.
M
Come nella Sezione 3.2.9, essendo Q una funzione quadratica di λ, il minimo si determina imponendo
∇Q(λ) = 0. In notazioni vettoriali si ha
Q(λ) = |Bλ − F|2
dove B = (bki ) con bki = βi (yk ) e F = (F(xk , yk )) per k = 1, . . . , M e i = 0, . . . , n. Quindi
λ̄ = (B∗ B)−1 B∗ F.
Il calcolo di λ̄ richiede l’inversione della matrice B∗ B che ha dimensione (n + 1) × (n + 1), da cui l’importanza
di mantenere n piccolo. Notiamo che invece B è una matrice di grandi dimensioni, M × (n + 1).
Come esempio, in Figura 5.2 mostriamo il grafico delle prime quattro approssimazioni LSMC, con base
polinomiale, della funzione attesa condizionata a Y
2
Φ(y) = E [F(X, Y ) | Y = y] , F(x, y) = max{1 − ex y , 0},
con (X, Y ) normale bidimensionale con media nulla, deviazioni standard σX = 0.8, σY = 0.5 e correlazione
ϱ = −0.7.
-1
-1 0 1 2
In realtà, poiché ZA è determinata a meno di un evento P -trascurabile che dipende da A, non è detto (e in
generale non è vero) che Pω (· | G ) cosı̀ definita sia una misura di probabilità per ogni ω ∈ Ω.
Definizione 5.3.1 (Versione regolare della probabilità condizionata). Nello spazio (Ω, F , P ), una versio-
ne regolare della probabilità condizionata a G è una famiglia P (· | G ) = Pω (· | G ) di misure di probabilità
ω∈Ω
su (Ω, F ) tale che7
P (A | G ) = E [1A | G ] , A ∈ F. (5.3.2)
L’esistenza di una versione regolare della probabilità condizionata è un problema tutt’altro che banale:
in [32], [33] p.624, [52] p.210, sono dati esempi di non esistenza. Condizioni su (Ω, F , P ) sufficienti8
a garantire l’esistenza di una versione regolare della probabilità condizionata sono state fornite da vari
autori: il risultato più classico al riguardo è il seguente Teorema 5.3.2. Ricordiamo che uno spazio polacco è
uno spazio metrico separabile9 e completo.
Teorema 5.3.2. Sia P una misura di probabilità definita su (Ω, B) dove Ω è uno spazio polacco e B è la
relativa σ -algebra di Borel. Per ogni sotto-σ -algebra G di B, esiste una versione regolare della probabilità
condizionata P (· | G ).
Dimostriamo il Teorema 5.3.2 nel caso particolare in cui Ω = Rd (cfr. Teorema 5.3.4): per la dimo-
strazione generale si veda, per esempio, [118] p.13 oppure [33] p.380. L’idea è di sfruttare l’esistenza di
un sottoinsieme A numerabile e denso in Ω, per definire dapprima una famiglia di misure di probabilità
(Pω (· | G ))ω∈A che verifichi la (5.3.1) e poi provare la tesi per densità di A in Ω.
P (G | G ) = E [1G | G ] = 1G .
Sia ora X una v.a. su (Ω, F , P ) a valori in Rd . Nel caso in cui esista una versione regolare P (· | G ) della
probabilità condizionata a G , si pone
µX|G (H) := P (X ∈ H | G ), H ∈ Bd .
Notiamo che, per definizione, µX|G = µX|G (·; ω) è una famiglia di distribuzioni in Rd e per questo
ω∈Ω
motivo è chiamata versione regolare della distribuzione di X condizionata a G .
Anche non assumendo l’esistenza di P (· | G ), possiamo comunque definire una versione regolare della
distribuzione di X condizionata a G basandoci sul concetto di attesa condizionata. È questo il contenuto
del seguente
7 Ricordiamo che la (5.3.2) significa che per ogni A ∈ F si ha :
8 Il problema di fornire condizioni necessarie e sufficienti è complesso e in parte ancora aperto: al riguardo si veda [40].
9 Uno spazio metrico S si dice separabile se esiste un sottoinsieme numerabile e denso in S .
5.3. PROBABILITÀ CONDIZIONATA 209
Teorema 5.3.4 (Versione regolare della legge condizionata). [!] In uno spazio di probabilità (Ω, F, P ),
siano X una v.a. a valori in R e G una sotto-σ -algebra di F . Allora esiste una famiglia µX|G = µX|G (·; ω)
d
ω∈Ω
di distribuzioni su Rd tali che, per ogni H ∈ Bd , valga10
Osservazione 5.3.5. [!] Anche se l’esistenza di una versione regolare P (· | G ) della probabilità condizionata a G
non è garantita in generale, tuttavia con un piccolo abuso di notazione scriveremo indifferentemente µX|G (H)
e P (X ∈ H | G ) per indicare una versione regolare della distribuzione di X condizionata a G .
La dimostrazione del Teorema 5.3.4 sfrutta in maniera cruciale il fatto che X sia a valori in Rd per
utilizzare la densità di Qd in Rd . Il risultato si estende al caso di X a valori in uno spazio metrico polacco, come
per esempio lo spazio delle funzioni continue C([a, b]; R) con la norma del massimo: per la trattazione
generale si veda, per esempio, il Teorema 1.1.6 in [118].
Notazione 5.3.6. Nel seguito spesso ometteremo di indicare la dipendenza da ω ∈ Ω e scriveremo µX|G
invece di µX|G (·; ω), interpretando µX|G come una “distribuzione aleatoria”. Se G = σ (Y ) dove Y è una
qualsiasi v.a. su (Ω, F , P ), scriveremo µX|Y invece di µX|σ (Y ) .
Esempio 5.3.7. [!] Se X ∈ mG allora µX|G = δX . Infatti la famiglia (δX(ω) )ω∈Ω gode delle seguenti proprietà:
δX (H) = 1H (X) =
= E [1H (X) | G ] .
Teorema 5.3.8 (Teorema del calcolo della media). [!] In uno spazio di probabilità (Ω, F , P ), siano X una
v.a. a valori in Rd e G una sotto-σ -algebra di F . Se f ∈ mBd e f (X) ∈ L1 (Ω, P ) si ha
Z
f dµX|G = E [f (X) | G ] . (5.3.4)
Rd
dobbiamo provare che Z = E [f (X) | G ]. Ciò è vero per definizione (cfr. (5.3.3)) se f = 1H con H ∈ B.
Per linearità, la (5.3.4) si estende alle funzioni semplici. Inoltre, se f è a valori reali non-negativi, allora
10 La (5.3.3) significa che, per ogni H ∈ B , si ha
d
i) µX|G (H) è una v.a. G -misurabile;
ii) per ogni W ∈ bG vale h i
E W µX|G (H) = E [W 1H (X)] .
210 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
Il caso di una f generica si tratta al solito separando la parte positiva e negativa e riutilizzando la linearità
dell’attesa condizionata.
Osservazione 5.3.9. [!] Il Teorema 5.3.8 chiarisce l’importanza del concetto di versione regolare della
distribuzione condizionata, poiché esso garantisce che l’integrale in (5.3.4) sia ben definito.
Esempio 5.3.10. Supponiamo che X ∼ NY ,1 dove Y ∼ Expλ con λ > 0 fissato. Allora per il Teorema 5.3.8
del calcolo della media si ha
(x−Y )2
Z
1
E [X | Y ] = x √ e− 2 dx = Y .
R 2π
Inoltre per la (5.2.5)
1
E [X] = E [E [X | Y ]] = E [Y ] =
λ
e
con Z +∞ (x−y)2
1
γ(x) := √ e− 2 λe−λy dy
2π 0
La (5.3.6) mostra come si ricava la legge congiunta di X, Y a partire dalla legge condizionata µX|Y e dalla legge
marginale µY : infatti la v.a. µX|Y (H)1(Y ∈K) è funzione di Y e pertanto il valore atteso in (5.3.6) è calcolabile a
partire da µY . Analogamente la (5.3.7) mostra come si ricava la CHF congiunta di X, Y a partire dalla CHF
condizionata ϕX|Y e dalla legge marginale µY .
(per la (5.2.6))
h h ii
= E eiη2 ·Y E eiη1 ·X | Y
h i
= E eiη2 ·Y ϕX|Y (η1 ) .
η2 η12
" #
h
iη2 Y
i
iη2 Y iη1 Y − 21 λ
ϕ(X,Y ) (η1 , η2 ) = E e ϕX|Y (η1 ) = E e e = e− 2 .
λ − i(η1 + η2 )
Esempio 5.3.15. Data una v.a. bidimensionale (X, Y ), supponiamo che Y ∼ Unif[0,1] e µX|Y = ExpY . Provia-
mo che (X, Y ) è assolutamente continua e determiniamo la densità congiunta di X, Y e la densità marginale
di X. Un’immediata conseguenza della (5.3.6) è la seguente formula per la CDF congiunta: dati x ∈ R≥0 e
y ∈ [0, 1], si ha
h i
P ((X ≤ x) ∩ (Y ≤ y)) = E ExpY (] − ∞, x])1(Y ≤y)
h i
= E 1 − e−xY 1(Y ≤y)
Z y e−xy − 1 + xy
= 1 − e−xt dt = .
0 x
212 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
Diciamo che (µ(·; y))y∈E è una versione regolare della funzione distribuzione di X condizionata a Y e scriviamo
µ(·; y) = µX|Y =y .
Dimostrazione. La prova è leggermente più sofisticata ma sostanzialmente analoga a quella del Teorema
5.3.4: per questo motivo non la riportiamo e rimandiamo a [57], Teorema 6.3, per i dettagli.
Osservazione 5.3.17. Se µ(·; y) = µX|Y =y allora (µX|Y (·; Y (ω)))ω∈Ω è una versione regolare della distribuzione
di X condizionata a Y nel senso del Teorema 5.3.4.
Esempio 5.3.18. Riprendiamo l’Esempio 5.3.7: se Y è una v.a. reale allora µY |Y = δY . In altri termini, la
distribuzione aleatoria δY è una versione regolare della distribuzione di Y condizionata ad Y .
Per esempio, se Y ∼ Unif[0,1] allora (δy )y∈R è una versione regolare della funzione distribuzione di Y
condizionata a Y . In realtà sarebbe sufficiente definire la versione regolare solo per y ∈ E = [0, 1]: il valore
assunto fuori da [0, 1] è irrilevante poiché Y assume valori in [0, 1] q.c.
Nell’Esempio 5.3.15, ExpY = µX|Y ossia ExpY è una versione regolare della distribuzione di X condizio-
nata a Y ∼ Unif[0,1] : equivalentemente (Expy )y∈[0,1] è una versione regolare della funzione distribuzione di
X condizionata a Y .
Ricordiamo la notazione (5.2.10), E [X | Y = y], per indicare la funzione attesa di X condizionata a Y .
Vale il seguente risultato analogo al Teorema 5.3.8.
Teorema 5.3.19 (Teorema del calcolo della media). In uno spazio di probabilità (Ω, F , P ), siano X una v.a.
a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P )
si ha Z
f dµX|Y =y = E [f (X) | Y = y] .
Rd
12 Si ricordi che
Zx Zy
F(x, y) = γ(X,Y ) (ξ, η)dξdη.
−∞ −∞
13 Si ricordi la notazione dell’Osservazione 5.3.5.
5.3. PROBABILITÀ CONDIZIONATA 213
5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente con-
tinuo
Abbiamo visto nel Corollario 5.3.13 come ricavare la distribuzione congiunta a partire dalle marginali
condizionate. In questa sezione consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo
con densità γ(X,Y ) e ricaviamo l’espressione della densità marginale condizionata γX|Y .
Ricordiamo che, per il Teorema di Fubini,
Z
γY (y) := γ(X,Y ) (x, y)dx, y ∈ R, (5.3.8)
Rd
γ(X,Y ) (x, y)
γX|Y (x, y) := , x ∈ Rd , y ∈ (γY > 0), (5.3.9)
γY (y)
è una versione regolare della densità di X condizionata a Y nel senso che la famiglia (µ(·; y))y∈(γY >0) definita
da Z
µ(H; y) := γX|Y (x, y)dx, H ∈ Bd , y ∈ (γY > 0), (5.3.10)
H
è una versione regolare della funzione distribuzione di X condizionata a Y . Di conseguenza, per ogni f ∈
mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
f (x)γX|Y (x, y)dx = E [f (X) | Y = y] (5.3.11)
Rd
o equivalentemente Z
f (x)γX|Y (x, Y )dx = E [f (X) | Y ] . (5.3.12)
Rd
che esprime la densità congiunta come prodotto della marginale γY per la marginale condizionata γX|Y . Si
generalizza cosı̀ la formula
γ(X,Y ) (x, y) = γX (x)γY (y)
valida sotto la restrittiva ipotesi che X, Y siano indipendenti.
Esempio 5.3.22. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su
Determiniamo:
i) la distribuzione condizionata µX|Y ;
14 Ricordiamo (cfr. Osservazione 2.4.19) che la densità di una v.a. è definita a meno di insiemi di Borel di misura nulla secondo
Lebesgue.
214 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
ii) E [X | Y ] e var(X | Y );
i) La densità congiunta è
4
γ(X,Y ) (x, y) = 1 (x, y)
π S
e la marginale di Y è p
4 1 − y2
Z
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y).
R π
Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = =p 1 √ 2 (x), y ∈ ]0, 1[,
γY (y) 1 − y 2 [0, 1−y ]
da cui riconosciamo che
µX|Y = Unif[0,√1−Y 2 ] . (5.3.13)
E [f (X)] = E [E [f (X) | Y ]] =
5.3. PROBABILITÀ CONDIZIONATA 215
(per la (5.3.12))
"Z #
=E f (x)γX|Y (x, Y )dx =
Rd
Esempio 5.3.24. Siano X, Y v.a. reali. Supponiamo Y ∼ Expλ , con λ > 0, e che la densità di X condizionata
a Y sia di tipo esponenziale:
γX|Y (x, y) = ye−xy 1[0,+∞[ (x),
ossia µX|Y = ExpY . Determiniamo la densità di X: utilizzando la (5.3.14) si ha
h i
γX (x) = E Y e−xY 1[0,+∞ (x)
Z +∞
= ye−xy λe−λy dy1[0,+∞ (x)
0
λ
= 1[0,+∞ (x).
(x + λ)2
Esempio 5.3.25. Riprendiamo l’Esempio 5.2.8 e consideriamo un vettore aleatorio normale bidimensionale
(X, Y ) ∼ Nµ,C con
σX2 σXY
!
µ = (µ1 , µ2 ), C= > 0.
σXY σY2
Determiniamo:
ii) E [X | Y ].
i) La densità di X condizionata a Y è
γ(X,Y ) (x, y)
γX|Y (x, y) = , (x, y) ∈ R2 ,
γY (y)
ossia
µX|Y = N σXY
2
σXY . (5.3.15)
µ1 +(Y −µ2 ) ,σX2 −
σY2 σY2
216 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
ii) Da (5.3.15) si ha
σXY
E [X | Y ] = µ1 + (Y − µ2 ) (5.3.16)
σY2
in accordo con quanto visto nell’Esempio 5.2.8. Lo stesso risultato si ottiene con la (5.3.11), calcolando
Z
σ
E [X | Y = y] = xγX|Y (x, y)dx = µ1 + (y − µ2 ) XY .
R σY2
Esempio 5.3.26. Sia (X1 , X2 , X3 ) un vettore aleatorio con distribuzione normale Nµ,C dove
1 1 0
µ = (0, 1, 0) , C = 1 2 1 .
0 1 3
Per determinare
E [(X1 , X2 , X3 ) | X3 ] ,
anzitutto osserviamo che (X1 , X3 ) ∼ N(0,0),C2 e (X2 , X3 ) ∼ N(1,0),C1 dove
! !
1 0 2 1
C2 = , C1 = .
0 3 1 3
γ(X,Y ) (x, y) 1
γY |X (y, x) = 1(γX >0) (x) = 1 (x, y) (5.3.17)
γX (x) y(log α − log x) ]0,αy[×]0,1[
da cui
Z Z 1
1 α−x
E [Y | X = x] = yγY |X (y, x)dy = 1 (x) dy = 1 (x).
R log α − log x ]0,α[ x α(log α − log x) ]0,α[
α
In definitiva si ha
α−X
E [Y | X] = .
α(log α − log X)
Notiamo che nella (5.3.17) abbiamo usato la relazione
Esempio 5.3.28. Sia (X, Y ) un vettore aleatorio con distribuzione marginale µY = χ2 e distribuzione condi-
zionata µX|Y = N0, 1 . Ricordiamo che le relative densità sono
Y
r
1 −2
y y − x2 y
γY (y) = p e , γX|Y (x, y) = e 2 , y > 0.
2πy 2π
1 − (1+x2 )y
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = e 2 , y > 0,
2π
e la marginale di X è
Z +∞
1
γX (x) = γ(X,Y ) (x, y)dy = , x ∈ R,
0 π(1 + x2 )
ossia X ha distribuzione di Cauchy (cfr. (3.5.5)).
5.4 Appendice
5.4.1 Dimostrazione del Teorema 5.3.4
Alla dimostrazione del Teorema 5.3.4 premettiamo il seguente risultato: diciamo che
F : Q −→ [0, 1]
i) F è monotona crescente;
iii) vale
lim F(q) = 0
q→−∞
e lim F(q) = 1.
q→+∞
(5.4.2)
q∈Q q∈Q
Lemma 5.4.1. Data una CDF F su Q, esiste una distribuzione µ su R tale che
è una CDF su R (provarlo per esercizio) e F = F̄ su Q. Allora per il Teorema 2.4.33 esiste una distribuzione
µ che verifica la (5.4.3).
Dimostrazione del Teorema 5.3.4. Basta considerare il caso d = 1. Per ogni q ∈ Q, fissiamo una versione
dell’attesa condizionata h i
F(q) := E 1(X≤q) | G
la cui esistenza è garantita dal Teorema 5.2.1. In realtà, F = F(q, ω) dipende anche da ω ∈ Ω ma per brevità
scriveremo F = F(q) considerando F(q) come variabile aleatoria (G -misurabile, per definizione). In base alle
proprietà dell’attesa condizionata e alla numerabilità di Q, si ha che P -quasi certamente F è una CDF su Q:
più precisamente, esiste un evento trascurabile C ∈ G tale che F = F(·, ω) è una CDF su Q per ogni ω ∈ Ω\C.
Infatti, se p, q ∈ Q con p ≤ q, allora 1(X≤p) ≤ 1(X≤q) e quindi
h i h i
F(p) = E 1(X≤p) | G ≤ E 1(X≤q) | G = F(q)
da cui h i h i
lim F(pn ) = lim E 1(X≤pn ) | G = E 1(X≤q) | G = F(q).
n→∞ n→∞
In base al Lemma 5.4.1, per ogni ω ∈ Ω \ C esiste una distribuzione µ = µ(·, ω) (ma scriveremo semplice-
mente µ = µ(H), per H ∈ B) tale che
La famiglia
A = {] − ∞, p] | p ∈ Q}
è ∩-chiusa, σ (A ) = B e, per costruzione, A ⊆ M . Se verifichiamo che M è una famiglia monotona, per il
Teorema di Dynkin ne verrà che M = B da cui la tesi. Ora si ha:
15 Il limite esiste per la monotonia di F.
5.4. APPENDICE 219
i) R ∈ M poiché 1R (X) ≡ 1 è G -misurabile e quindi coincide con la propria attesa condizionata. D’altra
parte, µ(R) = 1 su Ω e quindi µ(R) = E [1R (X) | G ];
ii) se H, K ∈ M e H ⊆ K, allora
iii) sia (Hn )n∈N una successione crescente di elementi di M . Per la continuità dal basso delle distribuzio-
ni, si ha [
µ(H) = lim µ(Hn ), H := Hn .
n→∞
n≥1
Allora, per ogni g ∈ bBd+1 e per ogni y tale che γY (y) = 0, vale
Z
g(x, y)γ(X,Y ) (x, y)dx = 0,
Rd
Dimostrazione della Proposizione 5.3.20. Dobbiamo provare che la famiglia (µ(·; y))y∈(γY >0) definita in (5.3.10)-
(5.3.9) è una versione regolare della funzione distribuzione di X condizionata a Y secondo la definizione del
Teorema 5.3.16.
Anzitutto µ(·; y) è una distribuzione: infatti γX|Y (·, y) in (5.3.9) è una densità poiché è una funzione
misurabile, non-negativa e tale che, per la (5.3.8), vale
Z Z
1
γX|Y (x, y)dx = γ (x, y)dx = 1.
Rd γY (y) Rd (X,Y )
220 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
Fissiamo H ∈ Bd . Per quanto riguarda la i) del Teorema 5.3.16, il fatto che y 7→ µ(H; y) ∈ mB segue
dal Teorema di Fubini e dal fatto che γX|Y è una funzione Borel-misurabile. Per quanto riguarda la ii) del
Teorema 5.3.16, consideriamo W ∈ bσ (Y ): per il Teorema di Doob, W = g(Y ) con g ∈ bB e quindi si ha
Z
E [W µ(H; Y )] = g(y)µ(H; y)γY (y)dy =
R
(per la (5.4.4))
" h i
= g(y)1H (x)γ(X,Y ) (x, y)dx dy = E W 1(X∈H) .
Rd ×R
Parte II
221
223
Processi stocastici
De te fabula narratur
Dante
Le variabili aleatorie descrivono lo stato di un fenomeno aleatorio, per esempio una posizione non os-
servabile con certezza di una particella in un modello della fisica o il prezzo in una data futura di un titolo
azionario in un modello finanziario. I processi stocastici descrivono la dinamica, nel tempo o in dipendenza
da altri parametri, di un fenomeno aleatorio. Si può definire un processo stocastico come una famiglia
parametrizzata di variabili aleatorie, ognuna delle quali rappresenta lo stato del fenomeno corrispondente
ad un fissato valore dei parametri. Abbiamo già incontrato un semplice processo stocastico nell’Esempio
3.6.4 in cui (Xn )n∈N rappresenta l’evoluzione nel tempo del prezzo di un titolo rischioso. Da un punto di
vista più astratto, un processo stocastico può essere definito come una variabile aleatoria a valori in uno
spazio funzionale, tipicamente uno spazio di curve di RN : ogni curva rappresenta una traiettoria o possibile
evoluzione del fenomeno in RN al variare dei parametri.
La teoria dei processi stocastici è oggigiorno uno dei campi della matematica più ricchi e affascinanti:
segnaliamo l’eccellente articolo di rassegna [82] che, con dovizia di spunti, racconta la storia della ricerca
sui processi stocastici dalla metà del secolo scorso in poi.
X : I −→ mF
225
226 CAPITOLO 6. PROCESSI STOCASTICI
Definizione 6.1.1 (Processo stocastico). Un processo stocastico è una funzione a valori aleatori d-dimen-
sionali
X : I −→ mF
t −→ Xt .
Se d = 1 diciamo che X è un processo stocastico reale. Se I è finito o numerabile allora diciamo che X è un
processo stocastico discreto.
Più in generale, si può definire in modo completamente analogo un processo stocastico X con Xt a valori
in un generico spazio misurabile (E, E ) al posto di Rd .
Può essere utile pensare al processo stocastico X come una famiglia indicizzata X = (Xt )t∈I di variabili
aleatorie. Per fissare le idee, spesso il dominio I sarà un sottoinsieme di R che rappresenta un insieme di
indici temporali; per esempio, se I = N allora un processo (Xn )n∈N è semplicemente una successione di
variabili aleatorie.
Per dare la seconda definizione di processo stocastico, occorre introdurre preliminarmente alcune nota-
zioni. Indichiamo con
RI = {x : I −→ R}
la famiglia delle funzioni da I in R. Per ogni x ∈ RI e t ∈ I, scriviamo xt invece di x(t) e diciamo che xt è la
componente t-esima di x: in questo modo interpretiamo RI come il prodotto cartesiano di R per un numero
|I| di volte (anche se I non è finito o numerabile). Per esempio, se I = {1, . . . , d} allora RI è identificabile con
Rd , mentre se I = N allora RN è l’insieme delle successioni x = (x1 , x2 , . . . ) di numeri reali. Un elemento
x ∈ RI può essere visto come una curva parametrizzata in R, dove I è l’insieme dei parametri.
Diciamo che RI è lo spazio delle traiettorie da I in R e x ∈ RI è una traiettoria reale. Non c’è nulla di
speciale nel considerare traiettorie reali: potremmo direttamente considerare Rd o addirittura un generico
spazio misurabile (E, E ) al posto di R. In tal caso, lo spazio delle traiettorie è E I , l’insieme delle funzioni
da I a valori in E. Tuttavia almeno per il momento ci limiteremo a considerare E = R che interviene nello
studio dei processi stocastici uno-dimensionali (o reali).
Muniamo lo spazio delle traiettorie di una struttura di spazio misurabile. Su RI introduciamo una
σ -algebra che generalizza la σ -algebra prodotto definita nella Sezione 3.3.2. Chiamiamo cilindro finito-
dimensionale, o semplicemente cilindro, un sottoinsieme di RI di cui è “fissato” un numero finito di compo-
nenti.
Ct (H) := {x ∈ RI | xt ∈ H}
F I := σ (C )
La σ -algebra F I è un oggetto molto astratto e, almeno per il momento, non è importante cercare di
visualizzarla concretamente o comprenderne a fondo la struttura: alcune informazioni aggiuntive su F I
verranno fornite nell’Osservazione 6.1.10. Abbiamo introdotto F I al fine di dare la seguente definizione
alternativa.
6.1. PROCESSI STOCASTICI: LEGGE E DISTRIBUZIONI FINITO-DIMENSIONALI 227
Definizione 6.1.3 (Processo stocastico). Un processo stocastico reale X = (Xt )t∈I sullo spazio di probabilità
(Ω, F , P ) è una variabile aleatoria a valori nello spazio delle traiettorie (RI , F I ):
X : Ω −→ RI .
Osservazione 6.1.4. Il fatto che X sia una variabile aleatoria significa che vale la condizione di misurabilità
(X ∈ C) ∈ F per ogni C ∈ F I . (6.1.2)
A sua volta, la condizione (6.1.2) equivale1 al fatto che
(Xt ∈ H) ∈ F per ogni H ∈ B, t ∈ I, (6.1.3)
e quindi le Definizioni 6.1.1 e 6.1.3 sono equivalenti. Riassumendo, si può anche dire che un processo
stocastico reale X è una funzione
X : I × Ω −→ R
(t, ω) −→ Xt (ω)
che
• ad ogni t ∈ I associa la variabile aleatoria ω 7→ Xt (ω): questo è il punto di vista della Definizione 6.1.1;
• ad ogni ω ∈ Ω associa la traiettoria t 7→ Xt (ω): questo è il punto di vista della Definizione 6.1.3. Si
noti che ogni esito ω ∈ Ω corrisponde a (e può essere identificato con) una traiettoria del processo.
Esempio 6.1.5. Ogni funzione f : I −→ R può essere vista come un processo stocastico interpretando, per
ogni fissato t ∈ I, f (t) come una variabile aleatoria costante. In altri termini, se Ω = {ω} è uno spazio
campionario costituito da un solo elemento, il processo definito da Xt (ω) = f (t) ha una sola traiettoria che è
la funzione f . La condizione di misurabilità (6.1.3) è ovvia essendo F = {∅, Ω}. In questo senso il concetto
di processo stocastico generalizza quello di funzione perché consente l’esistenza di molteplici traiettorie.
Dal punto di vista della Definizione 6.1.3 un processo stocastico è una variabile aleatoria e quindi
possiamo definirne la legge.
Definizione 6.1.6 (Legge). La distribuzione (o legge) del processo stocastico X è la misura di probabilità
su (RI , F I ) definita da
µX (C) = P (X ∈ C), C ∈ FI.
Osservazione 6.1.7 (Distribuzioni finito-dimensionali). Anche il concetto di legge di un processo sto-
castico è astratto e poco maneggevole: dal punto di vista operativo, uno strumento molto più efficace
sono le cosiddette distribuzioni finito-dimensionali che sono le distribuzioni µ(Xt ,...,Xtn ) dei vettori aleatori
1
(Xt1 , . . . , Xtn ) al variare della scelta di un numero finito di indici t1 , . . . , tn ∈ I. La legge di un processo è
univocamente determinata dalle distribuzioni finito-dimensionali: in altri termini, è equivalente conoscere la
legge oppure le distribuzioni finito-dimensionali di un processo stocastico2 .
1 Infatti, (X ∈ H) = (X ∈ C) dove C è il cilindro uno-dimensionale (ossia in cui è fissata solo una componente) definito da {x ∈ RI |
t
xt ∈ H}: quindi è chiaro che se X è un processo stocastico allora Xt ∈ mF per ogni t ∈ I. Viceversa, la famiglia
H := {C ∈ F I | X −1 (C) ∈ F }
è una σ -algebra che, per ipotesi, include i cilindri uno-dimensionali e quindi anche C (i cilindri sono intersezioni finite di cilindri
uno-dimensionali). Allora H ⊇ σ (C ) = F I .
2 La misura di un generico cilindro C
t1 ,...,tn (H) si esprime come
µX Ct1 ,...,tn (H) = µ(Xt ,...,Xt ) (H)
1 n
I
e quindi le distribuzioni finito-dimensionali identificano
µX su C . D’altra parte, C è una famiglia ∩-chiusa e genera F : per il
Corollario A.1.5 se due misure di probabilità su RI , F I coincidono su C allora sono uguali. In altri termini, se µ1 (C) = µ2 (C) per
ogni C ∈ C allora µ1 ≡ µ2 . Vedremo che, grazie al Teorema di Carathéodory, una misura di probabilità si estende in modo unico da C a
F I : questo è il contenuto di uno dei primi risultati fondamentali sui processi stocastici, il Teorema di estensione di Kolmogorov, che
esamineremo nella Sezione 6.3.
228 CAPITOLO 6. PROCESSI STOCASTICI
Esempio 6.1.8. Siano A, B ∼ N0,1 v.a. indipendenti. Consideriamo il processo stocastico X = (Xt )t∈R
definito da
Xt = At + B, t ∈ R.
Ogni traiettoria di X è una funzione lineare (una retta) su R. Non è immediato esplicitare la distribuzione
del processo ma è facile calcolare le distribuzioni finito-dimensionali, infatti fissati t1 , . . . , tn ∈ R si ha
Esempio 6.1.9 (Processo Gaussiano). Diciamo che un processo stocastico è Gaussiano se ha distribuzioni
finito-dimensionali normali. Se X = (Xt )t∈I è Gaussiano, consideriamo le funzioni di media e covarianza
Queste funzioni determinano le distribuzioni finito-dimensionali (e quindi anche la legge!) del processo poiché,
per ogni scelta t1 , . . . , tn ∈ I, si ha
(Xt1 , . . . , Xtn ) ∼ NM,C
dove
M = (m(t1 ), . . . , m(tn )) e C = c(ti , tj ) . (6.1.4)
i,j=1,...,n
Osserviamo che C = c(ti , tj ) è una matrice simmetrica e semi-definita positiva. Ovviamente, se I
i,j=1,...,n
è finito allora X non è altro che un vettore aleatorio con distribuzione multi-normale. Il processo dell’E-
sempio 6.1.8 è Gaussiano con media nulla e funzione di covarianza c(s, t) = st + 1. Anche il processo banale
dell’Esempio 6.1.5 è Gaussiano con funzione di media f (t) e funzione di covarianza identicamente nulla:
in questo caso, Xt ∼ δf (t) per ogni t ∈ I. Infine, un esempio fondamentale di processo Gaussiano è il moto
Browniano che definiremo nel Capitolo 10.
Osservazione 6.1.10. [!] Esistono famiglie di traiettorie, anche molto significative, che non appartengono
alla σ -algebra F I . Il fatto è che ogni elemento di F I è caratterizzato da un’infinità al più numerabile di
coordinate3 e questo è fortemente restrittivo nel caso in cui I non sia numerabile. Per esempio, se I = [0, 1]
si ha
C[0, 1] < B [0,1]
3 Più precisamente, risolviamo l’Esercizio 1.4 in [10]: consideriamo I = [0, 1] (quindi lo spazio delle traiettorie RI è la famiglia delle
funzioni da [0, 1] a R). Data una successione τ = (tn )n≥1 ∈ [0, 1]N , identifichiamo τ con la mappa
poiché la famiglia C[0, 1] delle funzioni continue non può essere caratterizzata, nello spazio di tutte le
funzioni da [0, 1] in R, imponendo condizioni su una quantità numerabile di coordinate4 . Per il medesimo
motivo, addirittura i singoletti {x} con x ∈ R[0,1] , i sottoinsiemi di R[0,1] con un numero finito di elementi e
altre famiglie significative come per esempio
n o
x ∈ R[0,1] | sup xt < 1
t∈[0,1]
X : I −→ mF
che ad ogni t ∈ I associa la variabile aleatoria Xt definita sullo spazio di probabilità (Ω, F , P );
ii) un processo stocastico è una variabile aleatoria a valori in uno spazio di traiettorie (Definizione
6.1.3): secondo questa definizione decisamente più astratta, un processo X = X(ω) è una variabile
aleatoria
X : Ω −→ RI
dallo spazio di probabilità (Ω, F , P ) a valori nello spazio delle traiettorie RI , munito della struttura
di spazio misurabile con la σ -algebra F I . Questa definizione si utilizza nella prova dei risultati più
generali e teorici anche se è una nozione meno operativa e più difficilmente applicabile allo studio di
esempi concreti.
Notiamo che le definizioni precedenti non richiedono alcuna ipotesi sul tipo di dipendenza di X rispetto
alla variabile t (per esempio, la misurabilità o qualche tipo di regolarità). Ovviamente il problema non si
pone nel caso in cui I sia un insieme generico, privo di qualsiasi struttura di spazio misurabile o metrico;
tuttavia se I è un intervallo reale allora è possibile dotare lo spazio prodotto I × Ω di una struttura di spazio
misurabile con la σ -algebra prodotto B ⊗ F .
Definizione 6.1.11 (Processo misurabile). Un processo stocastico misurabile è una funzione misurabile
X : (I × Ω, B ⊗ F ) −→ (R, B).
Se I ⊆ R è naturale interpretare t ∈ I come un indice temporale: allora, come vedremo nella Sezione 6.4, lo
spazio di probabilità si arricchirà di nuovi elementi (le filtrazioni) e un ruolo predominante sarà assunto
da una particolare classe di processi stocastici, le martingale. In questo contesto, rinforzeremo la nozione di
misurabilità introducendo il concetto di processo progressivamente misurabile (cfr. Definizione 11.2.28).
In letteratura ci si riferisce alla “Teoria Generale dei Processi Stocastici” per indicare il settore che si
occupa dello studio delle proprietà generali dei processi nel caso I = R≥0 : per un’introduzione sintetica si
veda, per esempio, il Capitolo 16 in [10] e il Capitolo 1 in [56].
6.2 Unicità
Esistono varie nozioni di equivalenza fra processi stocastici. Anzitutto, due processi X = (Xt )t∈I e
Y = (Yt )t∈I sono uguali in legge se hanno la stessa distribuzione (o, equivalentemente, se hanno le stes-
se distribuzioni finito-dimensionali): in questo caso X e Y potrebbero anche essere definiti su spazi di
probabilità differenti.
Nel caso in cui X e Y siano definiti sullo stesso spazio di probabilità (Ω, F , P ), possiamo dare altre
nozioni di equivalenza espresse in termini di uguaglianza delle traiettorie. Ricordiamo anzitutto che, in
uno spazio di probabilità (Ω, F , P ), un sottoinsieme A di Ω è quasi certo (rispetto a P ) se esiste un evento
C ⊆ A tale che P (C) = 1. Se lo spazio di probabilità è completo5 allora ogni insieme quasi certo A è un evento
e quindi è lecito scrivere P (A) = 1.
Definizione 6.2.1 (Modificazioni). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Diciamo che X
e Y sono modificazioni se P (Xt = Yt ) = 1 per ogni t ∈ I.
Osservazione 6.2.2. La definizione precedente può essere facilmente generalizzata al caso di X, Y generiche
funzioni da Ω a valori in RI : in questo caso (Xt = Yt ) non è necessariamente un evento e quindi diciamo che
X è una modificazione di Y se l’insieme (Xt = Yt ) è quasi certo. Ciò può essere utile se non si sa a priori che
X e/o Y sono processi stocastici.
Definizione 6.2.3 (Processi indistinguibili). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Dicia-
mo che X e Y sono indistinguibili se l’insieme
è quasi certo.
Osservazione 6.2.4. [!] Due processi X e Y sono indistinguibili se l’insieme delle traiettorie coincidenti è
quasi certo. Notiamo che, anche se X e Y sono processi stocastici, non è detto che (X = Y ) sia un evento.
Infatti, (X = Y ) = (X − Y )−1 ({0}) dove 0 indica la traiettoria identicamente nulla: tuttavia {0} < BI a meno
che I non sia finito o numerabile (cfr. Osservazione 6.1.10).
D’altra parte, se lo spazio (Ω, F , P ) è completo allora X e Y sono indistinguibili se e solo se P (X = Y ) = 1
poiché la completezza dello spazio garantisce che (X = Y ) ∈ F nel caso (X = Y ) sia quasi certo. Per questo
e altri motivi che spiegheremo in seguito, d’ora in poi assumeremo spesso che (Ω, F , P ) sia completo.
Osservazione 6.2.5. [!] Se X e Y sono modificazioni allora hanno le stesse distribuzioni finito-dimensionali
e quindi sono uguali in legge. Se X e Y sono indistinguibili allora sono anche modificazioni poiché per ogni
t ∈ I si ha (X = Y ) ⊆ (Xt = Yt ). Viceversa, X, Y modificazioni non sono necessariamente indistinguibili
poiché \
(X = Y ) = (Xt = Yt )
t∈I
ma se I non è numerabile tale intersezione potrebbe non appartenere a F oppure avere probabilità minore
di uno. Se I è finito o numerabile allora X, Y sono modificazioni se e solo se sono indistinguibili.
5 Ricordiamo la definizione data nell’Osservazione 3.1.11: uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F dove N indica
la famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16).
6.3. ESISTENZA 231
Diamo un esempio esplicito di processi che sono modificazioni ma non sono indistinguibili.
Esempio 6.2.6. [!] Consideriamo lo spazio campionario Ω = [0, 1] con la misura di Lebesgue come misura
di probabilità. Siano I = [0, 1], X = (Xt )t∈I il processo identicamente nullo e Y = (Yt )t∈I il processo definito
da
1 se ω = t,
Yt (ω) =
0 se ω ∈ [0, 1] \ {t}.
è quasi certo. Per ogni t ∈ I esiste una successione approssimante (tn )n∈N in I ∩Q: per l’ipotesi di continuità,
per ogni ω ∈ C si ha
Xt (ω) = lim Xtn (ω) = lim Ytn (ω) = Yt (ω)
n→∞ n→∞
e questo prova che X, Y sono indistinguibili.
Osservazione 6.2.8. Il risultato della Proposizione 6.2.7 rimane valido per processi che siano solo continui
a destra o a sinistra.
6.3 Esistenza
In questa sezione proviamo che è “sempre” possibile costruire un processo stocastico che abbia assegnate
distribuzioni finito-dimensionali.
Facciamo un’osservazione preliminare. Se µt1 ,...,tn sono le distribuzioni finito-dimensionali di un proces-
so stocastico (Xt )t∈I allora si ha
µt1 ,...,tn (H1 × · · · × Hn ) = P (Xt1 ∈ H1 ) ∩ · · · ∩ (Xtn ∈ Hn ) , t1 , . . . , tn ∈ I, H1 , . . . , Hn ∈ B. (6.3.1)
Di conseguenza valgono le seguenti proprietà di consistenza: per ogni famiglia finita di indici t1 , . . . , tn ∈ I,
per ogni H1 , . . . , Hn ∈ B e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha
µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ), (6.3.2)
µt1 ,...,tn (H1 × · · · × Hn−1 × R) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ). (6.3.3)
A posteriori, è chiaro che (6.3.2)-(6.3.3) sono condizioni necessarie affinché le distribuzioni µt1 ,...,tn possano
essere le distribuzioni finito-dimensionali di un processo stocastico. Il seguente risultato mostra che tali
condizioni sono anche sufficienti.
6 L’insieme degli ω ∈ Ω tali che X(ω), Y (ω) sono funzioni continue di t è quasi certo.
232 CAPITOLO 6. PROCESSI STOCASTICI
Teorema 6.3.1 (Teorema di estensione di Kolmogorov). [!!!] Sia I un insieme non vuoto. Supponiamo
che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn su Rn , e siano soddisfatte
le proprietà di consistenza (6.3.2)-(6.3.3). Allora esiste un’unica misura di probabilità µ su RI , F I che
abbia µt1 ,...,tn come distribuzioni finito-dimensionali, ossia tale che valga
Osservazione 6.3.2. [!] Nelle ipotesi del teorema precedente, la misura µ si estende ulteriormente ad una
σ -algebra FµI che contiene F I e tale che lo spazio di probabilità (RI , FµI , µ) sia completo: ciò è conseguenza
del Corollario 2.5.11 e del metodo costruttivo utilizzato nella dimostrazione del Teorema di Carathéodory.
A volte, FµI è chiamata µ-completamento di F I .
Rimandiamo la dimostrazione del Teorema 6.3.1 alla Sezione 6.5 ed esaminiamo ora alcune notevoli
applicazioni.
Corollario 6.3.3 (Esistenza di processi con distribuzioni finito-dimensionali assegnate.). [!] Sia I un
insieme. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn
su Rn , e siano soddisfatte le proprietà di consistenza (6.3.2)-(6.3.3). Allora esiste un processo stocasti-
co X = (Xt )t∈I che è definito su uno spazio di probabilità completo e ha µt1 ,...,tn come distribuzioni finito-
dimensionali.
Dimostrazione. Si procede in maniera analoga al caso delle variabili aleatorie reali (cfr. Osservazione
3.1.17). Sia (Ω, F , P ) = (RI , FµI , µ) lo spazio di probabilità completo definito nell’Osservazione 6.3.2. La
funzione identità
X : (RI , FµI ) −→ (RI , F I )
(per la (6.3.4))
Consideriamo ora un processo stocastico X sullo spazio (Ω, F , P ). Indichiamo con µX la legge di X e
con FµIX il µX -completamento di F I (cfr. Osservazione 6.3.2).
Definizione 6.3.4 (Versione canonica di un processo stocastico). [!] La versione (o realizzazione) cano-
nica di un processo X è il processo X, sullo spazio di probabilità (RI , FµIX , µX ), definito da X(w) = w per
ogni w ∈ RI .
Osservazione 6.3.5. Per il Corollario 6.3.3, X e la sua realizzazione canonica X sono uguali in legge. Inoltre
X è definito sullo spazio di probabilità completo (RI , FµIX , µX ) in cui lo spazio campionario è lo spazio
funzionale RI (e non un generico insieme Ω): in particolare, gli esiti sono le traiettorie del processo.
6.3. ESISTENZA 233
m : I −→ R, c : I × I −→ R
funzioni tali che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, la matrice C = c(ti , tj ) sia simmetrica
i,j=1,...,n
e semi-definita positiva. Allora esiste un processo Gaussiano, definito su uno spazio di probabilità completo
(Ω, F , P ), con funzione di media m e funzione di covarianza c.
In particolare, scelto I = R≥0 , esiste un processo Gaussiano con funzioni di media m ≡ 0 e covarianza
c(s, t) = t ∧ s ≡ min{s, t}.
Dimostrazione. La famiglia di distribuzioni NM,C , con M, C come in (6.1.4), è ben definita grazie all’ipotesi
sulla funzione di covarianza c. Inoltre essa soddisfa le proprietà di consistenza (6.3.2)-(6.3.3), come si
verifica applicando la (6.3.1) con NM,C al posto di µt1 ,...,tn e (Xt1 , . . . , Xtn ) ∼ NM,C . Allora la prima parte della
tesi segue dal Corollario 6.3.3.
Ora siano t1 , . . . , tn ∈ R≥0 : la matrice C = min{ti , tj } è ovviamente simmetrica ed è anche semi-
i,j=1,...,n
definita positiva poiché, per ogni η1 , . . . , ηn ∈ R, si ha
n
X n
X Z ∞
ηi ηj min{ti , tj } = ηi ηj 1[0,ti ] (s)1[0,tj ] (s)ds
i,j=1 i,j=1 0
n
2
Z ∞ X
= ηi 1[0,ti ] (s) ds ≥ 0.
0 i=1
Corollario 6.3.7 (Esistenza di successioni di v.a. indipendenti). [!] Sia (µn )n∈N una successione di di-
stribuzioni reali. Esiste una successione (Xn )n∈N di v.a. indipendenti definite su uno spazio di probabilità
completo (Ω, F , P ), tali che Xn ∼ µn per ogni n ∈ N.
verifica le proprietà di consistenza (6.3.2)-(6.3.3). Per il Corollario 6.3.3, esiste un processo (Xk )k∈N che ha
µk1 ,...,kn come distribuzioni finito-dimensionali. L’indipendenza segue dal Teorema 3.3.25 e dall’arbitrarietà
della scelta degli indici k1 , . . . , kn ∈ N.
Il Corollario 6.3.7 ammette la seguente versione leggermente più generale, la cui dimostrazione è lascia-
ta per esercizio. Il seguente risultato richiede una versione semplificata, rispetto al Corollario 6.3.3, della
proprietà di consistenza.
Corollario 6.3.8 (Esistenza di successioni di v.a. con distribuzione assegnata). [!] Sia data una succes-
sione (µn )n∈N dove µn è una distribuzione su Rn e vale
µn+1 (H × R) = µn (H), H ∈ Bn , n ∈ N.
Allora esiste una successione (Xn )n∈N di v.a. definite su uno spazio di probabilità completo (Ω, F , P ), tali
che (X1 , . . . , Xn ) ∼ µn per ogni n ∈ N.
234 CAPITOLO 6. PROCESSI STOCASTICI
In questo caso è utile pensare a t come un parametro che rappresenta un istante di tempo.
Definizione 6.4.1 (Filtrazione). Siano I ⊆ R e (Ω, F , P ) uno spazio di probabilità. Una filtrazione (Ft )t∈I è
una famiglia crescente di sotto-σ -algebre di F , nel senso che vale
Fs ⊆ Ft ⊆ F , s, t ∈ I, s ≤ t.
Il concetto di martingala è centrale nella teoria dei processi stocastici e in molte applicazioni. La (6.4.2),
detta proprietà di martingala, significa che il valore attuale (al tempo t) del processo è la miglior stima del
valore futuro (in un tempo T ≥ t) condizionata alle informazioni attualmente disponibili. In economia, per
esempio, la proprietà di martingala si traduce nel fatto che se X rappresenta il prezzo di un bene, allora
tale prezzo è equo nel senso che è la miglior stima del valore futuro del bene in base alle informazioni
disponibili al momento.
Sia X una martingala sullo spazio con filtrazione (Ω, F , P , Ft ). Come conseguenza immediata della
Definizione 6.4.6 e delle proprietà dell’attesa condizionata si ha:
ii) X è costante in media poiché, applicando il valore atteso in ambo i membri della (6.4.2) si ha7
E [Xt ] = E [XT ] , t, T ∈ I.
Osservazione 6.4.7. Il termine martingala si riferiva originariamente ad una serie di strategie utilizzate
dagli scommettitori francesi nel XVIII secolo, fra cui la strategia del raddoppio a cui avevamo accennato
nell’Esempio 4.2.4. L’interessante monografia [80] illustra la storia del concetto di martingala attraverso il
contributo di molti storici e matematici famosi.
Esempio 6.4.8. [!] La sequenza nel tempo delle vincite e perdite in un gioco d’azzardo equo può essere
rappresentato con una martingala discreta: a volte si vince e a volte si perde ma, se il gioco è equo, vincite
e perdite in media si bilanciano.
Più precisamente, sia (Zn )n∈N una successione di v.a. i.i.d. con Zn ∼ qδ1 + (1 − q)δ−1 e 0 < q < 1 fissato.
Consideriamo il processo stocastico
Xn := Z1 + · · · + Zn , n ∈ N.
Qui Zn rappresenta la vincita o perdita alla n-esima giocata, q è la probabilità di vincita e Xn è il bilancio
dopo n giocate. Consideriamo la filtrazione (GnZ )n∈N delle informazioni sugli esiti delle giocate, GnZ =
σ (Z1 , . . . , Zn ). Allora si ha
h i h i
E Xn+1 | GnZ = E Xn + Zn+1 | GnZ =
= Xn + E [Zn+1 ] = Xn + 2q − 1.
Dunque (Xn ) è una martingala se q = 12 ossia se il gioco è equo. Se q > 21 , ossia se la probabilità di vincere
h i
nelle singole giocate è maggiore rispetto alla probabilità di perdere, allora Xn < E Xn+1 | GnZ (e si dice che
(Xn ) è una sub-martingala): in questo caso si ha anche E [Xn ] < E [Xn+1 ], ossia il processo è crescente in media.
Questo esempio mostra che la proprietà di martingala non è una proprietà delle traiettorie del processo ma
dipende dalla misura di probabilità e dalla filtrazione considerate.
Esempio 6.4.9. Siano X ∈ L1 (Ω, P ) e (Ft )t∈I una filtrazione su (Ω, F , P ). Una semplice applicazione della
proprietà della torre mostra che il processo definito da Xt = E [X | Ft ], t ∈ I, è una martingala, infatti si ha
E [XT | Ft ] = E [E [X | FT ] | Ft ] = E [X | Ft ] = Xt , t, T ∈ I, t ≤ T .
7 Ricordiamo che E [E [X | F ]] = E [X ] per definizione di attesa condizionata.
T t T
236 CAPITOLO 6. PROCESSI STOCASTICI
Definizione 6.4.11. Sia X = (Xt )t∈I un processo stocastico sullo spazio con filtrazione (Ω, F , P , Ft ). Si dice
che X è una sub-martingala se:
ii) vale
Xt ≤ E [XT | Ft ] , t, T ∈ I, t ≤ T .
Proposizione 6.4.12. [!] Se X è una martingala e ϕ : R −→ R è una funzione convessa e tale che ϕ(Xt ) ∈
L1 (Ω, P ) per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Se X è una sub-martingala e ϕ : R −→ R è una funzione convessa, crescente e tale che ϕ(Xt ) ∈ L1 (Ω, P )
per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Osservazione 6.4.13. Se X è una martingala allora |X| è una sub-martingala non-negativa. Tuttavia si faccia
attenzione che ciò non è necessariamente vero se X è una sub-martingala poiché x 7→ |x| non è crescente.
Inoltre, se X è una sub-martingala allora anche X + := X ∨ 0 = |X|+X
2 lo è.
Dimostrazione della Proposizione 6.4.12. La prima parte è un’immediata conseguenza della disuguaglianza
di Jensen. Analogamente, se X è una sub-martingala allora Xt ≤ E [XT | Ft ] per t ≤ T ed essendo ϕ crescente
si ha anche
ϕ(Xt ) ≤ ϕ (E [XT | Ft ]) ≤ E [ϕ(XT ) | Ft ]
dove per la seconda disuguaglianza abbiamo riapplicato Jensen.
In quest’ultima parte della sezione, consideriamo il caso particolare in cui I = N ∪ {0}. Sotto queste
ipotesi particolari diamo un risultato profondo, e valido anche in ambito molto più generale, sulla struttura
dei processi stocastici adattati: il Teorema di decomposizione di Doob. Prima introduciamo la seguente
Definizione 6.4.14 (Processo predicibile). Sia A = (An )n≥0 un processo stocastico discreto, definito sullo
spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Si dice che A è predicibile se:
i) A0 = 0;
Teorema 6.4.15 (Teorema di decomposizione di Doob). Sia X = (Xn )n≥0 un processo stocastico adattato e
sommabile sullo spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Esistono e sono unici q.c. una martingala M e un
processo predicibile A tali che
Xn = Mn + An , n ≥ 0. (6.4.4)
In particolare, se X è una martingala allora M ≡ X e A ≡ 0; se X è una sub-martingala allora il processo A
ha le traiettorie monotone crescenti q.c.
Si noti che dalla (6.4.6) segue che se X è una sub-martingala allora il processo A ha le traiettorie monotone
crescenti q.c.
Inserendo la (6.4.6) nella (6.4.5) si trova anche
Mn+1 = Mn + Xn+1 − E [Xn+1 | Fn ] , se n ∈ N,
(6.4.7)
M0 = X0 .
[Esistenza] Basta provare che i processi M e A, definiti rispettivamente da (6.4.7) e (6.4.6), verificano le
proprietà dell’enunciato. Si tratta di una semplice verifica: per esempio, si prova facilmente per induzione
su n il fatto che A sia predicibile. Analogamente si prova che M è una martingala e vale la (6.4.4).
Esempio 6.4.16. [!] Sia X come nell’Esempio 6.4.8. Allora si calcolano facilmente i processi della decom-
posizione di Doob di X:
Mn = Xn − n(2q − 1), An = n(2q − 1).
1
Si noti che in questo caso il processo A è deterministico; inoltre X è una sub-martingala per q > 2 e in tal
caso (An )n≥0 è una successione monotona crescente.
e osservando che Ct (H) ∩ Ct (K) = Ct (H ∩ K) per ogni t ∈ I e H, K ∈ B, non è difficile provare che C è una
famiglia ∩-chiusa e ∅ ∈ C . Rimane da provare che la differenza di cilindri è unione finita e disgiunta di
cilindri: poiché C \ D = C ∩ D c , per C, D ∈ C , è sufficiente provare che il complementare di un cilindro è
unione disgiunta di cilindri.
238 CAPITOLO 6. PROCESSI STOCASTICI
(Ct (H))c = Ct (H c ),
n
c [ n
c [
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ) = Cti (Hic )
i=1 i=1
Ct1 (H1 ) ∪ Ct2 (H2 ) = Ct1 ,t2 (H1 × H2 ) ⊎ Ct1 ,t2 (H1c × H2 ) ⊎ Ct1 ,t2 (H1 × H2c ),
e in generale
n
[ ]
Cti (Hi ) = Ct1 ,...,tn (K1 × · · · × Kn )
i=1
dove l’unione disgiunta è presa fra tutte le possibili combinazioni differenti di K1 × · · · × Kn dove Ki è Hi
oppure Hic , tranne il caso in cui Ki = Hic per ogni i = 1, . . . , n.
Se proviamo che µ è una pre-misura (ossia µ è additiva, σ -sub-additiva e tale che µ(∅) = 0) su C allora per
il Teorema 2.5.5 di Carathéodory µ si estende in modo unico ad una misura di probabilità su F I .
Chiaramente µ(∅) = 0 e non è difficile provare che µ è finitamente additiva. Per provare che µ è σ -
sub-additiva, consideriamo una successione (Cn )n∈N di cilindri disgiunti la cui unione è un cilindro C e
dimostriamo che8 X
µ(C) = µ(Cn ). (6.5.2)
n∈N
Per il Lemma 6.5.1 Dn è unione finita e disgiunta di cilindri: pertanto µ(Dn ) è ben definito (per l’additività
di µ) e vale
n
X
µ(C) = µ(Ck ) + µ(Dn ).
k=1
8 La (6.5.2) implica la σ -sub-addivitità: se A ∈ C e (A )
n n∈N è una successione di elementi in C tale che
[
A⊆ An
n∈N
basta porre C1 = A ∩ A1 ∈ C e
n−1
[
Cn = (A ∩ An ) \ Ak
k=1
con Cn che, per il Lemma 6.5.1, è unione finita e disgiunta di cilindri per ogni n ≥ 2. Allora dalla (6.5.2) segue che
X
µ(A) ≤ µ (An ) .
n∈N
6.5. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 239
per una certa successione (tn )n∈N in I e Hk,n ∈ B. Ora utilizziamo il seguente fatto di cui posticipiamo la
prova al termine della dimostrazione: è possibile costruire una successione (Kn )n∈N tale che:
◦ Kn ⊆ Rn è un sottoinsieme compatto di
Nn
[
Bn := (Hk,1 × · · · × Hk,n ); (6.5.4)
k=1
◦ Kn+1 ⊆ Kn × R;
◦ µt1 ,...,tn (Kn ) ≥ 2ε .
Dunque, concludiamo la prova di (6.5.3). Poiché Kn , ∅, per ogni n ∈ N esiste un vettore
(n) (n)
(y1 , . . . , yn ) ∈ Kn .
(n) (k )
Per compattezza, la successione (y1 )n∈N ammette una sotto-successione (y1 n )n∈N convergente a un pun-
(k ) (k )
to y1 ∈ K1 . Analogamente, la successione (y1 n , y2 n )n∈N ammette una sotto-successione convergente a
(y1 , y2 ) ∈ K2 . Ripetendo l’argomento, costruiamo una successione (yn )n∈N tale che (y1 , . . . , yn ) ∈ Kn per ogni
n ∈ N. Pertanto
{x ∈ RI | xtk = yk , k ∈ N} ⊆ Dn
per ogni n ∈ N e questo prova l’assurdo.
Infine, proviamo l’esistenza della successione (Kn )n∈N . Per ogni n ∈ N esiste10 un sottoinsieme compatto
en di Bn in (6.5.4) tale che µt ,...,t (Bn \ K ε
en ) ≤ n+1
K 1 n 2
. Posto
n
\
Kn := eh × Rn−h ),
(K (6.5.5)
h=1
RI , . . . , RI , D1 , . . . , D1 , D2 , . . . , D2 , D3 . . .
in cui RI e gli elementi di (Dn )n∈N sono ripetuti un numero sufficiente di volte.
10 Basta combinare la proprietà di regolarità interna di µ
t1 ,...,tn (cfr. Proposizione 2.4.9) col fatto che, per la continuità dal basso, per
ogni ε > 0 esiste un compatto K tale che µt1 ,...,tn (Rn \ K) < ε: si osservi che quest’ultimo fatto altro non è che la proprietà di tightness
della distribuzione µt1 ,...,tn (cfr. Definizione 4.3.5).
240 CAPITOLO 6. PROCESSI STOCASTICI
n
[
⊆ eh ) × Rn−h
(Bh \ K
h=1
e di conseguenza
n
X
µt1 ,...,tn (Bn \ Kn ) ≤ eh ) × Rn−h
µt1 ,...,tn (Bh \ K
h=1
n
X
= µt1 ,...,th (Bh \ K
eh )
h=1
n
X ε ε
≤ h+1
≤ .
2 2
h=1
Allora si ha
ε
µt1 ,...,tn (Kn ) = µt1 ,...,tn (Bn ) − µt1 ,...,tn (Bn \ Kn ) ≥
,
2
poiché µt1 ,...,tn (Bn ) = µ(Dn ) ≥ ε per ipotesi. Questo conclude la dimostrazione. 2
Il Teorema di estensione di Kolmogorov si generalizza, con dimostrazione sostanzialmente identica, al
caso in cui le traiettorie siano a valori in uno spazio metrico (M, ϱ) separabile e completo11 . Ricordiamo la
notazione Bϱ per la σ -algebra di Borel su (M, ϱ); inoltre MI è la famiglia delle funzioni da I a valori in M
e FϱI è la σ -algebra generata dai cilindri finito-dimensionali
dove t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .
Teorema 6.5.2 (Teorema di estensione di Kolmogorov). [!!!] Siano I un insieme e (M, ϱ) uno spazio me-
trico separabile e completo. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una
distribuzione µt1 ,...,tn su Mn , e siano soddisfatte le seguenti proprietà di consistenza: per ogni famiglia finita
di indici t1 , . . . , tn ∈ I, per ogni H1 , . . . , Hn ∈ Bϱ e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha
11 La prima parte della dimostrazione, basata sul Teorema di Carathéodory, è identica. Nella seconda parte, e in particolare nella
costruzione della successione di compatti Kn in (6.5.5), si sfrutta la proprietà di tightness: è qui che gioca un ruolo cruciale il fatto
che, nell’ipotesi che (M, ϱ) sia separabile e completo, ogni distribuzione su Bϱ è tight (si veda, per esempio, il Teorema 1.4 in [19]). Il
Teorema di Kolmogorov non si estende al caso di un generico spazio misurabile: al riguardo si veda, per esempio, [52] p. 214.
6.6. RIASSUNTO DELLE NOTAZIONI 241
6.7 Sintesi
Riassumiamo i risultati più rilevanti del capitolo e i concetti essenziali da trattenere ad una prima
lettura, a scapito delle questioni più tecniche o di importanza secondaria.
• Sezione 6.1: introduciamo le nozioni di base, a partire dalla definizione di processo stocastico con le sue
diverse, anche se equivalenti, formulazioni. Le distribuzioni finito-dimensionali di un processo giocano
lo stesso ruolo della legge di una variabile aleatoria.
• Sezione 6.2: confrontiamo le differenti nozioni di uguaglianza fra processi stocastici, introducendo le
definizioni di processi indistinguibili, modificazioni e uguali in legge.
• Sezione 6.3: per quanto riguarda l’esistenza, il risultato principale è il Teorema 6.3.1 di estensione di
Kolmogorov che afferma che è possibile costruire un processo stocastico con assegnate distribuzioni
finito-dimensionali; tale risultato è un corollario del Teorema 2.4.29 di Carathéodory: la dimostra-
zione, essendo un po’ tecnica, è posticipata alla Sezione 6.5 e può essere tranquillamente sorvolata ad
una prima lettura.
• Sezione 6.4: le martingale costituiscono una classe fondamentale di processi stocastici che insieme
ai processi di Markov saranno il principale oggetto di studio nel seguito. Le filtrazioni descrivono il
flusso crescente delle informazioni osservabili al variare dell’indice temporale.
242 CAPITOLO 6. PROCESSI STOCASTICI
Capitolo 7
Processi di Markov
In questo capitolo introduciamo una classe fondamentale di processi stocastici, caratterizzati da una
proprietà di “assenza di memoria” che li rende particolarmente maneggevoli e utili nelle applicazioni. Qui
assumiamo I = R≥0 come insieme degli indici, interpretando t ∈ I come un istante temporale.
Osservazione 7.1.2. [!] Come diretta conseguenza delle proprietà i) e ii) della Definizione 7.1.1, se X ha
legge di transizione p allora p(t, Xt ; T , ·) è una versione regolare della legge di XT condizionata a Xt (cfr.
Definizione 5.3.1). Allora per il Teorema 5.3.8 si ha
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Xt ] , ϕ ∈ bBN . (7.1.1)
RN
1 Ricordiamo la convenzione secondo cui indichiamo con P (X ∈ H | X ) l’usuale attesa condizionata E [1 (X ) | X ], come
T t H T t
nell’Osservazione 5.3.5.
243
244 CAPITOLO 7. PROCESSI DI MARKOV
Analogamente p(t, x; T , ·) è una versione regolare della funzione distribuzione di XT condizionata a Xt (cfr.
Teorema 5.3.16) e quindi per il Teorema 5.3.19 si ha
Z
p(t, x; T , dy)ϕ(y) = E [ϕ (XT ) | Xt = x] . (7.1.2)
RN
In altri termini,
p(t, x; T , ·) = δx+γ(T )−γ(t)
è una legge di transizione di X: questo risultato è un caso molto particolare della Proposizione 7.3.2 che
proveremo in seguito. Si noti che la legge non è unica: per esempio, se per ogni 0 ≤ t ≤ T poniamo
δx+γ(T )−γ(t) se x = γ(t),
p(t, x; T , ·) =
e
δx
se x , γ(t),
allora anche e
p è una legge di transizione per X.
Osservazione 7.1.5 (Legge di transizione omogenea nel tempo). Si dice che una legge di transizione p è
omogenea nel tempo se
p(t, x; T , H) = p(0, x; T − t, H), 0 ≤ t ≤ T , x ∈ R, H ∈ B.
Se X ha legge di transizione p omogenea nel tempo allora
Z
E [ϕ(XT ) | Xt = x] = p(t, x; T , dy)ϕ(y)
R
Z
= p(0, x; T − t, dy)ϕ(y) = E [ϕ(XT −t ) | X0 = x] . (7.1.3)
R
La (7.1.3) significa che la funzione attesa di ϕ(XT ) condizionata a Xt è uguale alla funzione attesa condizio-
nata del processo traslato temporalmente al tempo iniziale2 .
2 Se, per semplicità, indichiamo
Ex [Y ] = E [Y | X0 = x] ,
la (7.1.3) si scrive nella forma più compatta
E [ϕ (XT ) | Xt ] = EXt [ϕ (XT −t )] . (7.1.4)
Per chiarezza: il membro a destra della (7.1.4) è la funzione attesa di ϕ (XT −t ) condizionata a X0 , calcolata in Xt .
7.1. LEGGE DI TRANSIZIONE E PROCESSI DI FELLER 245
Esempio 7.1.6 (Legge di transizione di Poisson). [!] Ricordiamo che Poissonx,λ indica la distribuzione
di Poisson di parametro λ > 0 e centrata in x ∈ R, definita in (2.4.4). La legge di transizione di Poisson di
parametro λ > 0, è definita da
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0
Le proprietà i) e ii) della Definizione 7.1.1 sono ovvie. La legge di transizione di Poisson è omogenea nel
tempo e invariante per traslazioni nel senso che vale
Definizione 7.1.7 (Densità di transizione). Una legge di transizione p è assolutamente continua se, per
ogni 0 ≤ t < T e x ∈ RN , esiste una densità Γ = Γ (t, x; T , ·) per cui vale
Z
p(t, x; T , H) = Γ (t, x; T , y)dy, H ∈ BN .
H
Diciamo che Γ è una densità di transizione di p (o di X, nel caso in cui p sia la legge di transizione di un
processo X).
Osservazione 7.1.8. Una densità di transizione Γ = Γ (t, x; T , y) di un processo X è una funzione di quattro
variabili: la prima coppia (t, x) rappresenta il tempo e punto di partenza di X; la seconda coppia (T , y)
rappresenta il tempo e la posizione aleatoria d’arrivo di X. Per ogni ϕ ∈ bBN si ha
Z
Γ (t, Xt ; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt ] ,
RN
Z
Γ (t, x; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt = x] , x ∈ RN .
RN
Esempio 7.1.9 (Legge di transizione Gaussiana). [!] La legge di transizione Gaussiana è definita da
p(t, x; T , ·) = Nx,T −t per ogni 0 ≤ t ≤ T e x ∈ R. È una legge di transizione assolutamente continua poiché
Z
p(t, x; T , H) := Nx,T −t (H) = Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H
dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
è la densità di transizione Gaussiana. È chiaro che p verifica le proprietà i) e ii) della Definizione 7.1.1.
Introduciamo ora una nozione di “dipendenza continua” della legge di transizione rispetto al dato
iniziale (t, x).
Definizione 7.1.10 (Proprietà di Feller). Une legge di transizione p gode della proprietà di Feller se per
ogni h > 0 e ϕ ∈ bC(RN ) la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
RN
è continua. Un processo di Feller è un processo con legge di transizione che verifica la proprietà di Feller.
246 CAPITOLO 7. PROCESSI DI MARKOV
La proprietà di Feller equivale alla continuità nella convergenza debole della legge di transizione p =
p(t, x; t+h, ·) rispetto alla coppia (t, x) del tempo e punto iniziale: più precisamente, ricordando la definizione
di convergenza debole di distribuzioni (cfr. Osservazione 4.1.1), il fatto che X sia un processo di Feller con
legge di transizione p significa che
d
p(tn , xn ; tn + h, ·) −−−−→ p(t, x; t + h, ·)
è continua. La proprietà di Feller gioca un ruolo importante nello studio dei processi di Markov (cfr.
Sezione 12) e delle proprietà di regolarità delle filtrazioni in tempo continuo (cfr. Sezioni 11.2.1).
Esempio 7.1.11. [!] Le leggi di transizione di Poisson e Gaussiana godono della proprietà di Feller (lo
vedremo negli Esempi 7.4.5 e 7.4.6): pertanto diremo che i relativi processi stocastici che introdurremo in
seguito, rispettivamente il processo di Poisson e il moto Browniano, sono processi di Feller.
Concludiamo la sezione con un risultato di carattere tecnico. Ricordiamo la Definizione 6.3.4 di versione
canonica di un processo stocastico.
Proposizione 7.1.12. Se p è una legge di transizione per il processo X, definito sullo spazio (Ω, F , P ), allora
lo è anche per la sua versione canonica X.
Dimostrazione. Ricordiamo che X è definito sullo spazio di probabilità (RI , FµIX , µX ), dove FµIX indica il
µX -completamento di F I , e X(w) = w per ogni w ∈ RI . Dati 0 ≤ t ≤ T e H ∈ B, poniamo Z := p(t, Xt , T , H):
dobbiamo verificare che
Z = E µX [1H (XT ) | Xt ] (7.1.5)
dove E µX [·] indica il valore atteso nella misura di probabilità µX . Chiaramente Z ∈ mσ (Xt ). Inoltre, se
W ∈ bσ (Xt ) allora per il teorema di Doob W = ϕ(Xt ) con ϕ ∈ bB e si ha
= E P [p(t, Xt , T , H)ϕ(Xt )] =
Dimostrazione. Se X è un processo di Markov allora p(t, Xt ; T , ·) è una versione regolare della legge di XT
condizionata a Ft e la (7.2.2) segue dal Teorema 5.3.8, Il viceversa è ovvio, con la scelta ϕ = 1H , H ∈ B.
Osservazione 7.2.3. Combinando la (7.1.1) con la (7.2.2), a volte si usa scrivere4
La proprietà di Markov si può generalizzare nel modo seguente. Osserviamo che se t ≤ t1 < t2 e ϕ1 , ϕ2 ∈
bB allora, per la proprietà della torre, si ha
h i h h i i
E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Xt = E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Xt
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Xt =
Dunque vale
E [Y | Xt ] = E [Y | Ft ] (7.2.4)
nel senso della Convenzione 5.2.5, per Y = ϕ1 (Xt1 )ϕ2 (Xt2 ) con t ≤ t1 < t2 e ϕ1 , ϕ2 ∈ bB. Per induzione, non
è difficile provare che la (7.2.4) vale anche se
n
Y
Y= ϕk (Xtk ) (7.2.5)
k=1
per ogni t ≤ t1 < · · · < tn e ϕ1 , . . . , ϕn ∈ bB. Infine, per il secondo teorema di Dynkin6 (Teorema A.1.8), la
(7.2.4) è valida per ogni v.a. limitata e misurabile rispetto alla σ -algebra generata dalle v.a. del tipo Xs con
s ≥ t, che in analogia con la Definizione 6.4.3 indichiamo nel modo seguente
X
Gt,∞ := σ (Xs , s ≥ t). (7.2.6)
Gt,∞
X
rappresenta le informazioni future su X a partire dal tempo t. In definitiva abbiamo provato la seguente
estensione della proprietà di Markov.
Teorema 7.2.4 (Proprietà di Markov estesa). [!] Se X è un processo di Markov su (Ω, F , P , (Ft )t≥0 ) si ha
X
E [Y | Xt ] = E [Y | Ft ] , Y ∈ bGt,∞ , (7.2.7)
nel senso della Convenzione 5.2.5.
Il seguente corollario esprime l’essenza della proprietà di Markov: il passato (ossia Ft ) e il futuro (ossia
Gt,∞
X
) sono indipendenti condizionatamente al presente (ossia σ (Xt ))7 .
Corollario 7.2.5. [!] Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Vale
X
E [Y | Xt ] E [Z | Xt ] = E [Y Z | Xt ] , Y ∈ bGt,∞ , Z ∈ bFt . (7.2.8)
Dimostrazione. Verifichiamo che E [Y | Xt ] E [Z | Xt ] è una versione dell’attesa di Y Z condizionata a Xt : la
proprietà di misurabilità E [Y | Xt ] E [Z | Xt ] ∈ mσ (Xt ) è ovvia. Data W ∈ bσ (Xt ), si ha
E [W E [Y | Xt ] E [Z | Xt ]] =
(poiché W E [Y | Xt ] ∈ bσ (Xt ) e per la proprietà ii) della definizione di attesa condizionata E [Z | Xt ])
= E [W E [Y | Xt ] Z] =
(per la proprietà di Markov estesa (7.2.7))
= E [W E [Y | Ft ] Z]
= E [E [W Y Z | Ft ]] = E [W Y Z]
che prova la seconda proprietà della definizione di attesa condizionata.
n
6 Usiamo il Teorema A.1.8 di Dynkin nel modo seguente: sia A la famiglia dei cilindri della forma C = T (X ∈ H ) al variare
tk k
k=1
di t ≤ t1 ≤ · · · ≤ tn e H1 , . . . , Hn ∈ B. Allora A è una famiglia ∩-chiusa di eventi. Sia H la famiglia delle v.a. limitate per cui vale la
(7.2.4): per il teorema di Beppo-Levi per l’attesa condizionata, H è una famiglia monotona; inoltre, scegliendo ϕk = 1Hk in (7.2.5), si
ha che H contiene le funzioni indicatrici di elementi di A . Allora il Teorema A.1.8 assicura che H contiene anche le v.a. limitate e
σ (A )-misurabili.
7 Più precisamente: se esiste una versione regolare della probabilità condizionata P (· | X ) (ciò è garantito se Ω è uno spazio polacco)
t
X , e Z = 1 , B ∈ F , diventa
allora la (7.2.8) con Y = 1A , A ∈ Gt,∞ B t
P (A | Xt )P (B | Xt ) = P (A ∩ B | Xt ).
7.3. PROCESSI A INCREMENTI INDIPENDENTI E MARTINGALE 249
dove E µX [·] indica il valore atteso nella misura di probabilità µX . Ovviamente Z ∈ GtX e quindi rimane da
verificare che
E µX [ZW ] = E µX [1H (XT )W ] , W ∈ bGtX .
In realtà, grazie al secondo teorema di Dynkin8 è sufficiente considerare W della forma
W = ϕ(Xt1 , . . . , Xtn )
con 0 ≤ t1 < · · · < tn ≤ t e ϕ ∈ bBn . A questo punto basta procedere come nella dimostrazione della
Proposizione 7.1.12:
h i
E µX [ZW ] = E µX p(t, Xt , T , H)ϕ(Xt1 , . . . , Xtn ) =
Proposizione 7.3.2. [!] Sia X = (Xt )t≥0 un processo a incrementi indipendenti allora X è un processo di
Markov con legge di transizione p = p(t, x; T , ·) uguale alla legge di
XTt,x := XT − Xt + x, 0 ≤ t ≤ T , x ∈ R.
Dimostrazione. Proviamo che p è una legge di transizione per X. Chiaramente p(t, x; T , ·) è una distribuzio-
ne. Inoltre, se µXT −Xt indica la legge di XT − Xt , allora per il Teorema di Fubini la funzione
x 7−→ p(t, x; T , H) = µXT −Xt (H − x)
è B-misurabile. Infine, fissato H ∈ B, p(t, Xt ; T , H) = P (XT ∈ H | Xt ) come conseguenza del fatto che per
ogni funzione ϕ ∈ bB si ha
E [ϕ(XT ) | Xt ] = E [ϕ(XT − Xt + Xt ) | Xt ] =
(per il Lemma 5.2.11 di freezing, poiché XT − Xt è indipendente da Xt e ovviamente Xt è σ (Xt )-misurabile)
Z
t,x
h i
= E ϕ(XT ) |x=Xt = p(t, Xt ; T , dy)ϕ(y).
R
Allo stesso modo si prova la proprietà di Markov (7.2.2) (e quindi la (7.2.1)), condizionando a Ft invece
che a Xt .
È interessante confrontare le definizioni di processo a incrementi indipendenti e di martingala. Co-
minciamo con l’osservare che se X è un processo a incrementi indipendenti allora, per ogni n ∈ N e
0 ≤ t0 < t1 < · · · < tn , gli incrementi Xtk − Xtk−1 sono indipendenti; in particolare, se X è di quadrato
sommabile, ossia Xt ∈ L2 (Ω, P ), allora gli incrementi sono scorrelati:
cov(Xtk − Xtk−1 , Xth − Xth−1 ) = 0, 1 ≤ k < h ≤ n.
Anche una martingala ha gli incrementi scorrelati (ma non necessariamente indipendenti).
Proposizione 7.3.3. Sia X una martingala di quadrato sommabile. Allora X ha incrementi scorrelati.
Dimostrazione. Siano t0 ≤ t1 ≤ t2 ≤ t3 . Si ha
h i
cov(Xt1 − Xt0 , Xt3 − Xt2 ) = E (Xt1 − Xt0 )(Xt3 − Xt2 )
h h ii
= E E (Xt1 − Xt0 )(Xt3 − Xt2 ) | Ft2
h h ii
= E (Xt1 − Xt0 )E Xt3 − Xt2 | Ft2 = 0.
Ogni martingala è sommabile e costante in media. Un processo a incrementi indipendenti non è neces-
sariamente sommabile, né costante in media, e quindi non è necessariamente una martingala. Tuttavia si
ha la seguente
Proposizione 7.3.4. Sia X un processo a incrementi indipendenti e sommabile. Allora il processo “com-
pensato” definito da X
et := Xt − E [Xt ] è una martingala.
Dimostrazione. Basta osservare che per ogni t ≤ T si ha
h i h i
E X eT | Ft = E X et | Ft + X
eT − X et =
(poiché anche X
e ha gli incrementi indipendenti)
h i
=E X et + X
eT − X et = X
et
poiché X
e ha media nulla.
Osservazione 7.3.5. La Proposizione 7.3.4 fornisce la decomposizione di Doob del processo X che si scrive
come somma X = X e + A: in questo caso il processo di drift At = E [Xt ] è deterministico.
7.4. LEGGI FINITO-DIMENSIONALI ED EQUAZIONE DI CHAPMAN-KOLMOGOROV 251
Proposizione 7.4.1 (Distribuzioni finito-dimensionali). [!] Sia X = (Xt )t≥0 un processo di Markov con
legge di transizione p e tale che X0 ∼ µ. Per ogni t0 , t1 , . . . , tn ∈ R con 0 = t0 < t1 < t2 < · · · < tn , e H ∈ Bn+1 si
ha
Z n
Y
P ((Xt0 , Xt1 , . . . , Xtn ) ∈ H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ). (7.4.1)
H i=1
Il seguente notevole risultato fornisce una condizione necessaria affinché una legge di transizione sia la
legge di transizione di un processo di Markov.
252 CAPITOLO 7. PROCESSI DI MARKOV
Proposizione 7.4.3 (Equazione di Chapman-Kolmogorov). [!!] Sia X un processo di Markov con legge di
transizione p. Per ogni 0 ≤ t1 < t2 < t3 e H ∈ B, si ha
Z
p(t1 , Xt1 ; t3 , H) = p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H). (7.4.3)
R
(per la (7.1.1))
Z
= p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H).
R
Mostriamo ora che la Chapman-Kolmogorov è in realtà una condizione necessaria e sufficiente, nel senso
che è sempre possibile costruire un processo di Markov a partire da una legge iniziale e da una legge di
transizione p che verifichi la (7.4.3).
Teorema 7.4.4. [!] Sia µ una distribuzione su R e sia p = p(t, x; T , H) una legge di transizione9 che verifica
l’equazione di Chapman-Kolmogorov
Z
p(t1 , x; t3 , H) = p(t1 , x; t2 , dy)p(t2 , y; t3 , H), (7.4.4)
R
per ogni 0 ≤ t1 < t2 < t3 , x ∈ R e H ∈ B. Allora esiste un processo di Markov X = (Xt )t≥0 con legge di
transizione p e tale che X0 ∼ µ.
Dimostrazione. Consideriamo la famiglia di distribuzioni finito-dimensionali definita mediante la (7.4.1):
precisamente, se 0 = t0 < t1 < t2 < · · · < tn poniamo
Z n
Y
µt0 ,...,tn (H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn+1 ,
H i=1
e nel caso in cui t0 , . . . , tn non siano ordinati in modo crescente, definiamo µt0 ,...,tn tramite la (6.3.2) riordi-
nando i tempi. In questo modo la proprietà di consistenza (6.3.2) è automaticamente soddisfatta per costru-
zione. D’altra parte, l’equazione di Chapman-Kolmogorov garantisce la validità della seconda proprietà di
consistenza (6.3.3) poiché, dopo aver ordinato in modo crescente i tempi, si ha
µt0 ,...,tk−1 ,tk ,tk+1 ,...,tn (H0 × · · · × Hk−1 × R × Hk+1 × · · · × Hn ) = µt0 ,...,tk−1 ,tk+1 ,...,tn (H0 × · · · × Hk−1 × Hk+1 × · · · × Hn ).
9 Ossia p verifica le proprietà i) e ii) della Definizione 7.1.1.
7.4. LEGGI FINITO-DIMENSIONALI ED EQUAZIONE DI CHAPMAN-KOLMOGOROV 253
Essendo soddisfatte le ipotesi del Teorema di estensione di Kolmogorov, consideriamo il processo stoca-
stico X = (Xt )t≥0 costruito in maniera canonica come nel Corollario 6.3.3: X ha le distribuzioni finito-
dimensionali in (7.4.1) ed è definito sullo spazio con filtrazione (Ω, F , P , (GtX )t≥0 ) con Ω = R[0,+∞) : ricor-
diamo che, per l’Osservazione 6.4.4, la filtrazione (GtX )t≥0 è quella generata dai cilindri finito-dimensionali.
Rimane da provare che X è un processo di Markov con distribuzione di transizione p. Fissati 0 ≤ t < T e
ϕ ∈ bB, proviamo che Z h i
p(t, Xt ; T , dy)ϕ(y) = E ϕ(XT ) | GtX ,
R
verificando direttamente le proprietà dell’attesa condizionata. Posto
Z
Z= p(t, Xt ; T , dy)ϕ(y)
R
chiaramente Z ∈ mGtX . Per concludere, in base all’Osservazione 5.2.2, è sufficiente dimostrare che
E [1C ϕ(XT )] = E [1C Z]
dove C è un cilindro finito-dimensionale in GtX della forma in (6.1.1): in particolare, non è restrittivo
assumere C = Ct0 ,t1 ,...,tn (H) con H ∈ Bn+1 e tn = t. Questo ci permette di utilizzare le distribuzioni finito-
dimensionali in (7.4.1): infatti si ha
h i h i
E 1Ct ,...,tn (H) ϕ(XT ) = E 1H (Xt0 , Xt1 , . . . , Xtn )ϕ(XT )
0
Z n
Y Z
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ) p(tn , xn ; T , dy)ϕ(y)
H i=1 R
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; T , dy)ϕ(y)
R
h i
= E 1Ct ,...,tn (H) Z .
0
L’equazione di Chapman-Kolmogorov si verifica con un conto simile10 a quello fatto nell’Esempio 3.6.5
10 Per 0 ≤ t < s < T , si ha
+∞
(λ(s − t))n
Z X
p(t, x; s, dy)p(s, y; T , H) = e−λ(s−t) p(s, x + n; T , H)
R n!
n=0
+∞
X (λ(s − t))n (λ(T − s))m
= e−λ(T −t) δ x+n+m (H) =
n! m!
n,m=0
(col cambio di indici i = n + m e j = n)
+∞ X
i
X (s − t)j (T − s)i−j
= e−λ(T −t) λi δ (H)
j! (i − j)! x+i
i=0 j=0
+∞ i i !
X λ X i
= e−λ(T −t) δx+i (H) (s − t)j (T − s)i−j
i! j
i=0 j=0
= p(t, x; T , H).
254 CAPITOLO 7. PROCESSI DI MARKOV
sulla somma di v.a. di Poisson indipendenti. Il processo di Markov associato a p è detto processo di Poisson
e sarà studiato nel Capitolo 8. Per ogni ϕ ∈ bC e t > 0 la funzione
+∞
(λt)n
Z X
x 7−→ Poissonx,λt (dy)ϕ(y) = e−λt ϕ(x + n)
R n!
n=0
Esempio 7.4.6 (Legge di transizione Gaussiana). Riprendiamo la legge di transizione Gaussiana dell’E-
sempio 7.1.9:
Z
p(t, x; T , H) := Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H
dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
è continua e quindi il moto Browniano è un processo di Feller. In realtà, si verifica che la funzione in (7.4.5) è
C ∞ per ogni T > 0 e ϕ ∈ bB (non solo per ϕ ∈ bC): per questo motivo si dice che il moto Browniano verifica
la proprietà di Feller forte.
pt,T : bB −→ bB
definiti da
Z
pt,T ϕ := p(t, ·; T , dy)ϕ(y), ϕ ∈ bB.
R
Notazione 7.5.1. Data una funzione f = f (t, T ) definita per t < T usiamo la notazione
Definizione 7.5.2 (Operatore caratteristico). Siano (t, x) ∈ R>0 × RN e p una legge di transizione su RN .
Supponiamo esista il limite
Z
p(t, x; T , dy) − p(t, x; t, dy)
At ϕ(x) := lim + ϕ(y)
T −t→0 R N T −t
per ogni ϕ ∈ D dove D è un opportuno sotto-spazio vettoriale dello spazio bBN delle funzioni misurabili e
limitate da RN in R. Allora diciamo che At è l’operatore caratteristico (o generatore infinitesimale) di p. Se p è
la legge di transizione di un processo di Markov X allora diciamo anche che At è l’operatore caratteristico
di X.
Esempio 7.5.3. [!] Consideriamo il processo di Markov deterministico Xt = γ(t) dell’Esempio 7.1.4. Una
legge di transizione di X è
p(t, x; T , ·) = δx+γ(T )−γ(t) (7.5.3)
e quindi
da cui segue che l’operatore caratteristico At dipende dal processo X e non dalla particolare versione della sua
legge di transizione. Per la (7.5.5), in analogia con quanto visto nell’Esempio 7.5.3, possiamo interpretare
At ϕ(x) come una “derivata direzionale media” (o incremento infinitesimo medio) di ϕ lungo le traiettorie
di X che partono al tempo t da x. Notiamo anche che vale
Z
p(T , x; T , dy) − p(t, x; T , dy)
At ϕ(x) = − lim + ϕ(y). (7.5.6)
T −t→0 RN T −t
Nella sezione seguente vediamo che per un’ampia classe di leggi di transizione è possibile dare una
rappresentazione esplicita dell’operatore caratteristico.
iv) se A soddisfa il principio del massimo ed è locale in x0 allora A ϕ = A T2,x0 (ϕ) dove T2,x0 (ϕ) è il
polinomio di Taylor del second’ordine di ϕ di punto iniziale x0 .
Infatti, essendo A un operatore lineare, basta provare che A ϕ = 0 per ogni ϕ ∈ C 2 (RN ) il cui poli-
nomio di Taylor di ordine due di punto iniziale x0 è nullo. Inoltre non è restrittivo assumere x0 = 0.
Consideriamo una funzione “cut-off”
χ ∈ C0∞ (RN ; R) tale che 0 ≤ χ ≤ 1, χ(x) ≡ 1 per |x| ≤ 1 e χ(x) ≡ 0
per |x| ≥ 2. Posto ϕδ (x) = ϕ(x)χ δx per δ > 0, esiste11 una funzione g tale che g(δ) → 0 per δ → 0+ e
1
|ϕδ (x)| ≤ g(δ)|x|2 χ(x), x ∈ RN , 0 < δ ≤ . (7.5.7)
2
Allora applicando il principio del massimo in 0 alle funzioni ψδ± (x) = −g(δ)|x|2 χ(x) ± ϕδ (x) si ottiene
A ψδ± ≤ 0 o equivalentemente, per il punto i),
A ϕ = A T2,x0 (ϕ) =
(per la linearità di A )
N N
1X X
= cij ∂xi xj ϕ(x0 ) + bi ∂xi ϕ(x0 )
2
i,j=1 i=1
N
X
2
ϕη (x) = −⟨x − x0 , η⟩ = − ηi ηj ϕij (x);
i,j=1
A ϕη = −2⟨C η, η⟩ ≤ 0.
11 Per ipotesi, |ϕ(x)| ≤ |x|2 g(|x|) per |x| ≤ 1 con g che tende a zero per |x| → 0+ e non è restrittivo assumere g monotona crescente.
Allora la (7.5.7) segue dal fatto che
x 1
g(|x|)χ ≤ χ(x)g(δ), x ∈ RN , 0 < δ ≤ .
δ 2
258 CAPITOLO 7. PROCESSI DI MARKOV
Viceversa, se A è della forma (7.5.8) allora è chiaramente locale in x0 . Inoltre esiste una matrice
simmetrica e semi-definita positiva M = (mij ) tale che
N N
X X
2
C = M = mih mhj = mih mjh .
h=1 i,j h=1 i,j
N N N N
1X X 1XX
Aϕ= ∂xi xj ϕ(x0 ) mih mjh = ∂xi xj ϕ(x0 )mih mjh ≤ 0,
2 2
i,j=1 h=1 h=1 i,j=1
Osservazione 7.5.8. [!] Per ogni x ∈ RN , l’operatore caratteristico At di una legge di transizione p soddisfa
il principio del massimo in x: ciò segue immediatamente dalla (7.5.4). Allora, sotto l’ulteriore ipotesi che
At sia locale12 in x, il Teorema 7.5.7 fornisce la rappresentazione
N N
1X X
At ϕ(x) = cij (t, x)∂xi xj ϕ(x) + bi (t, x)∂xi ϕ(x), (t, x) ∈ R>0 × RN , (7.5.10)
2
i,j=1 i=1
con C (t, x) = (cij (t, x)) matrice N × N simmetrica, semi-definita positiva e b(t, x) = (bj (t, x)) ∈ RN . In altri
termini, At è un operatore alle derivate parziali del second’ordine di tipo ellittico-parabolico.
Combinando la (7.5.4) con l’espressione dei coefficienti di At data dalle funzioni in (7.5.9), si ottengono
le formule13
Z " #
p(t, x; T , dy) (XT − Xt )i
bj (t, x) = lim + (y − x)i = lim + E | Xt = x , (7.5.11)
T −t→0 T −t T −t→0 T −t
RN
(XT − Xt )i (XT − Xt )j
Z " #
p(t, x; T , dy)
cij (t, x) = lim + (y − x)i (y − x)j = lim + E | Xt = x , (7.5.12)
T −t→0 T −t T −t→0 T −t
RN
per i, j = 1, . . . , N . Dunque, i coefficienti di At si interpretano come gli incrementi infinitesimi di media e matrice
di covarianza14 di X a partire da (t, x). Dalle formule (7.5.11)-(7.5.12) segue anche che cij = cij (t, x) e bj =
bj (t, x) sono funzioni misurabili su R>0 × RN .
12 Si può provare che la proprietà di essere locale corrisponde alla continuità delle traiettorie del processo di Markov associato. Per
la caratterizzazione dell’operatore caratteristico di un generico processo di Markov si veda, per esempio, [114].
13 Se A è locale in x allora il dominio di integrazione in (7.5.11) e (7.5.12) si può restringere a |x − y| < 1.
t
14 Notiamo che si ha anche
Z
p(t, x; T , dy)
cij (t, x) = lim (y − x − (T − t)b(t, x))i (y − x − (T − t)b(t, x))j
T −t→0+ T −t
RN
(XT − Xt − (T − t)b(t, Xt ))i (XT − Xt − (T − t)b(t, Xt ))j
" #
= lim E | Xt = x
T −t→0+ T −t
in base alla definizione di operatore caratteristico nella forma (7.5.6). I passaggi precedenti si giustificano in
maniera rigorosa sotto l’ipotesi che u(t, ·) ∈ D: nell’Esempio 7.5.12 tale ipotesi è soddisfatta se ϕ ∈ C 1 (RN )
poiché x 7→ u(t, x) = ϕ(x + γ(T ) − γ(t)) eredita le proprietà di regolarità di ϕ. Esamineremo in seguito altri
esempi significativi in cui u(t, ·) ∈ bC 2 (RN ) grazie alle proprietà regolarizzanti del nucleo p(t, x; T , dy).
Dunque, sotto ipotesi opportune, la funzione u in (7.5.13) è soluzione del problema di Cauchy per
l’equazione di Kolmogorov backward15 (con dato finale)
∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ [0, T [×RN ,
(7.5.15)
u(T , x) = ϕ(x), x ∈ RN ,
o in forma integrale
Z T
u(t, x) = ϕ(x) + As u(s, x)ds, (t, x) ∈ [0, T ] × RN .
t
Sottolineiamo che il problema (7.5.15) è scritto nelle variabili backward (t, x) assumendo le variabili forward
(T , y) fissate.
Esempio 7.5.9. [!] Consideriamo la legge di transizione Gaussiana p(t, x; T , dy) = Γ (t, x; T , y)dy dell’Esem-
pio 7.1.9 con densità di transizione definita da
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R. (7.5.16)
2π(T − t)
Il processo di Markov associato a p è il moto Browniano che sarà introdotto nel Capitolo 10. Un calcolo
diretto mostra che
T − t − (x − y)2
∂t Γ (t, x; T , y) = −∂T Γ (t, x; T , y) = Γ (t, x; T , y),
2(T − t)2
15 Essendo u(t, x) =
R
p(t, x; T , dy)ϕ(y), si usa anche scrivere che p risolve il problema backward
RN
y −x
∂x Γ (t, x; T , y) = −∂y Γ (t, x; T , y) = Γ (t, x; T , y),
T −t
T − t − (x − y)2
∂xx Γ (t, x; T , y) = ∂yy Γ (t, x; T , y) = − Γ (t, x; T , y),
(T − t)2
da cui si ottiene l’equazione di Kolmogorov backward
1
∂t + ∂xx Γ (t, x; T , y) = 0, t < T , x, y ∈ R (7.5.17)
2
e anche
1
∂T − ∂yy Γ (t, x; T , y) = 0, t < T , x, y ∈ R (7.5.18)
2
che è chiamata equazione di Kolmogorov forward e sarà studiata nella Sezione 7.5.3. L’operatore caratteristico
di p è l’operatore di Laplace
1
At = ∂xx
2
come si può verificare anche mediante le formule (7.5.11)-(7.5.12) che qui diventano
Z
Γ (t, x; T , y)
b(t, x) = lim + (y − x)dy = 0,
T −t→0 T −t
RN
Z
Γ (t, x; T , y)
c(t, x) = lim + (y − x)2 dy = 1.
T −t→0 T −t
RN
Si noti che, se v indica la soluzione del problema forward (7.5.19) con tempo iniziale t = 0, allora u(t, x) :=
v(T − t, x) risolve il problema backward (7.5.20); inoltre u è data dalla formula (7.5.13) che qui diventa
Z
u(t, x) = Γ (t, x; T , y)ϕ(y)dy, (t, x) ∈ [0, T ] × R. (7.5.21)
R
Per il teorema di scambio di segni di derivata e integrale, si ha u ∈ C ∞ ([0, T [×R) e ∥u∥∞ ≤ ∥ϕ∥∞ per ogni
ϕ ∈ bB e ciò giustifica la validità della (7.5.14).
7.5. OPERATORE CARATTERISTICO ED EQUAZIONI DI KOLMOGOROV 261
Osservazione 7.5.10. Nella teoria delle equazioni differenziali, Γ in (7.5.16) è detta soluzione fondamentale
dell’operatore del calore poiché, tramite la formula risolutiva (7.5.21), fornisce la soluzione del problema
backward (7.5.20) per ogni dato finale ϕ ∈ bC (e analogamente del problema problema forward (7.5.19)
per ogni dato iniziale ϕ ∈ bC). Rimandiamo alla Sezione 26.3 per la definizione generale di soluzione
fondamentale.
Un legame profondo fra la teoria dei processi stocastici e quella delle equazioni alle derivate parziali è
dato dal fatto che, se esiste, la densità di transizione di un processo di Markov (per esempio, la densità Gaussiana
nel caso del moto Browniano) è soluzione fondamentale dell’operatore ∂t + At (corrispondente all’operatore del
calore nel caso del moto Browniano). Una trattazione generale sull’esistenza e unicità della soluzione del
problema di Cauchy per equazioni alle derivate parziali di tipo parabolico è data nel Capitolo 26, mentre
nel Capitolo 20 approfondiamo il legame con le equazioni differenziali stocastiche.
Esempio 7.5.11. [!] Consideriamo la legge di transizione di Poisson di parametro λ > 0 dell’Esempio 7.4.5:
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0
(lo scambio serie-derivata è giustificato dal fatto che si tratta di una serie di potenze con raggio di conver-
genza infinito se ϕ ∈ bB)
X (λ(T − t))n−1
= λu(t, x) − λe−λ(T −t) ϕ(x + n)
(n − 1)!
n≥1
X (λ(T − t))n
= λu(t, x) − λe−λ(T −t) ϕ(x + n + 1)
n!
n≥0
= −λ (u(t, x + 1) − u(t, x)) .
Dunque At è definito da
At ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , ϕ ∈ D := bB.
In questo caso At non è un operatore locale in alcun x ∈ R.
In definitiva, si ha Z Z
∂T p(t, x; T , dy)ϕ(y) = p(t, x; T , dy)AT ϕ(y), ϕ ∈ D, (7.5.22)
RN RN
che è chiamata equazione di Kolmogorov forward o anche equazione di Fokker-Planck. Qui ϕ deve essere
interpretata come una funzione test e la (7.5.22) come la scrittura in forma debole (o distribuzionale)
dell’equazione
∂T p(t, x; T , ·) = AT∗ p(t, x; T , ·)
dove AT∗ è l’operatore aggiunto di AT . Per esempio, se AT è un operatore differenziale della forma (7.5.10)
allora AT∗ si ottiene formalmente per integrazione per parti:
Z Z
∗
AT u(y) v(y)dy =
u(y)AT v(y)dy,
RN RN
con u, v coppia di funzioni test. Se i coefficienti sono sufficientemente regolari, è possibile scrivere l’opera-
tore forward in modo più esplicito:
N N
1X X
AT∗ u = cij ∂yi yj u + bj∗ ∂yj + a∗ , (7.5.23)
2
i,j=1 j=1
dove
N N N
X X 1X
bj∗ := −bj + ∂yi cij , a∗ := − ∂yi bi + ∂yi yj cij . (7.5.24)
2
i=1 i=1 i,j=1
La (7.5.22) si esprime anche dicendo che p(t, x; ·, ·) è soluzione distribuzionale del problema di Cauchy
forward (con dato iniziale)
∂T p(t, x; T , ·) = AT p(t, x; T , ·), T > t,
∗
(7.5.25)
p(t, x; t, ·) = δx .
Si usa il termine “soluzione distribuzionale” per indicare il fatto che p(t, x; T , ·), essendo una distribuzione,
non ha in generale la regolarità necessaria per supportare l’operatore AT che infatti in (7.5.22) appare
applicato alla funzione test ϕ. Si noti che il problema (7.5.25) è scritto nelle variabili forward (T , y) su
]t, +∞[×RN , assumendo fissate le variabili backward (t, x).
Si dimostra l’esistenza della soluzione distribuzionale di (7.5.25) sotto ipotesi generali (si veda, per
esempio, il Teorema 1.1.9 in [115]): benché la nozione di soluzione distribuzionale sia molto debole, que-
sto è il risultato migliore che si può sperare di ottenere senza assumere ulteriori ipotesi, come mostra il
seguente
Esempio 7.5.12. [!] Riprendiamo l’Esempio 7.5.3. L’operatore At = γ ′ (t) · ∇x , con ∇x = (∂x1 , . . . , ∂xN ), è
ovviamente locale in ogni x ∈ RN e può essere determinato anche mediante le formule (7.5.11)-(7.5.12) che,
per p come in (7.5.3) con γ differenziabile, danno
Z
1
b(t, x) = lim + δx+γ(T )−γ(t) (dy)(y − x) = γ ′ (t),
T −t→0 T − t
RN
Z
1
cij (t, x) = lim + δx+γ(T )−γ(t) (dy)(y − x)i (y − x)j = 0.
T −t→0 T − t
RN
7.5. OPERATORE CARATTERISTICO ED EQUAZIONI DI KOLMOGOROV 263
Chiaramente, essendo p(t, x; T , ·) una misura, il gradiente ∇y p(t, x; T , ·) non è definito in senso classico ma
nel senso delle distribuzioni. Pertanto il problema (7.5.26) va inteso come in (7.5.22), ossia come equazione
integrale scaricando il gradiente sulla funzione ϕ
Z T
ϕ(x + γ(T ) − γ(t)) = ϕ(x) + γ ′ (s) · (∇ϕ)(x + γ(s) − γ(t))ds, ϕ ∈ C 1 (RN ),
t
è una martingala.
Dimostrazione. Il processo M è sommabile grazie alle ipotesi16 su ϕ. Rimane da provare che
ossia " Z T #
E ϕ(XT ) − ϕ(Xt ) − As ϕ(Xs )ds | Ft = 0, 0≤t ≤T.
t
(poiché, come proveremo fra breve, è possibile scambiare l’integrale nel tempo con l’attesa condizionata)
" Z T #
= E ϕ(XT ) − ϕ(Xt ) − As ϕ(Xs )ds | Ft
t
16 Ricordiamo anche che ϕ è limitata poiché D ⊆ bB : tale ipotesi non è restrittiva e può essere notevolmente indebolita.
N
264 CAPITOLO 7. PROCESSI DI MARKOV
da cui la tesi.
Per giustificare lo scambio fra integrale e attesa condizionata, verifichiamo che la v.a.
ZT
Z := E [As ϕ(Xs ) | Ft ] ds
t
RT
è una versione dell’attesa condizionata di As ϕ(Xs )ds a Ft . Anzitutto, dal fatto che E [As ϕ(Xs ) | Ft ] ∈ mFt
t
segue che anche Z ∈ mFt . Poi, per ogni G ∈ Ft , abbiamo
"Z T #
E [Z1G ] = E E [As ϕ(Xs ) | Ft ] ds 1G =
t
associata al dato iniziale p(t, x; t, ·) = δx come in (7.5.25). L’equazione (7.6.1) è il punto di partenza per lo
studio dell’esistenza e regolarità della densità di p tramite tecniche analitiche (il risultato classico più im-
portante in questo ambito è il famoso Teorema di Hörmander [53]) e probabilistiche (il calcolo di Malliavin
per il quale si veda, per esempio, [87]). Pur sembrando l’approccio più naturale, l’equazione (7.6.1) pre-
senta alcune difficoltà tecniche dovute al fatto di essere interpretata in senso distribuzionale nelle variabili
7.7. SINTESI 265
forward e alla presenza dell’operatore aggiunto di At la cui definizione precisa richiede opportune ipotesi
di regolarità dei coefficienti (cfr. (7.5.23)-(7.5.24)). Per questo motivo, in seguito l’attenzione si è spostata
sull’equazione di Kolmogorov backward. Lo studio delle diffusioni mediante l’equazione backward è stato
uno degli approcci più efficaci e di successo: la Sezione 9.4 è dedicata ad un riassunto dei principali risultati
al riguardo.
La principale obiezione all’uso delle equazioni di Kolmogorov per lo studio delle diffusioni è che gli
strumenti utilizzati sono di carattere prevalentemente analitico e poggiano su risultati tecnicamente com-
plessi della teoria delle equazioni alle derivate parziali: fra questi, in primo luogo, la costruzione della
soluzione fondamentale di equazioni paraboliche che presenteremo in maniera sintetica nel Capitolo 26.
Il secondo approccio alla costruzione di diffusioni è quello iniziato da K. Itô: esso prende spunto dal-
l’idea di P. Lévy di considerare l’incremento infinitesimo Xt+dt − Xt di una diffusione come un incremen-
to Gaussiano con drift b(t, Xt ) e matrice di covarianza C (t, Xt ), coerentemente con le equazioni (7.5.11)-
(7.5.12). Itô sviluppa una teoria del calcolo differenziale stocastico in base alla quale l’idea precedente può
essere formalizzata in termini dell’equazione differenziale stocastica
dove C = σ σ ∗ e W indica un processo stocastico con incrementi indipendenti e Gaussiani (un moto Bro-
wniano, cfr. Capitolo 10). La prima difficoltà di questo approccio è la definizione di differenziale (o in-
tegrale) stocastico di processi le cui traiettorie, pur essendo continue, sono talmente irregolari da rendere
inefficaci gli strumenti classici dell’analisi matematica: il Capitolo 15 è interamente dedicato alla teoria
dell’integrazione stocastica secondo Itô. In secondo luogo, per costruire una diffusione X come soluzione
dell’equazione (7.6.2) occorrono risultati di esistenza e unicità per tale equazione: anche questo problema
è stato risolto da Itô sotto ipotesi standard di locale Lipschitzianità e crescita lineare dei coefficienti in per-
fetta analogia con le equazioni differenziali ordinarie. In seguito, un significativo passo in avanti è stato
fatto da Stroock e Varadhan [116, 117] che hanno gettato un ponte fra la teoria delle diffusioni e quella
delle martingale: Stroock e Varadhan mostrano che il problema dell’esistenza di una diffusione, come so-
luzione di (7.6.2), equivale al cosiddetto “problema della martingala”, ossia al problema dell’esistenza di
una misura di probabilità, sullo spazio canonico delle traiettorie, rispetto alla quale il processo compensato
del Teorema 7.5.13 sia una martingala. I risultati di Stroock e Varadhan sono presentati sinteticamente nel
Capitolo 23.
7.7 Sintesi
Riassumiamo i risultati più rilevanti del capitolo e i concetti essenziali da trattenere ad una prima
lettura, a scapito delle questioni più tecniche o di importanza secondaria.
• Sezione 7.1: introduciamo il concetto di legge di transizione di un processo stocastico X = (Xt )t≥0 : la
legge di transizione di X è la famiglia, al variare di t ≤ T , delle distribuzioni di XT condizionate a Xt .
Due esempi notevoli di leggi di transizione sono quella Gaussiana e quella di Poisson.
• Sezione 7.2: per un processo di Markov condizionare a Ft (la σ -algebra delle informazioni fino al tempo
t) equivale a condizionare a Xt : in questo senso si dice che la proprietà di Markov è una proprietà di
“perdita di memoria”.
• Sezione 7.3: i processi a incrementi indipendenti sono un esempio significativo di processi di Markov.
• Sezione 7.4: dalla legge di transizione di un processo di Markov è possibile ricavare le distribuzioni
finito-dimensionali, e quindi la legge del processo: inoltre la legge di transizione di un processo di
Markov verifica un’importante identità, l’equazione (7.4.3) di Chapman-Kolmogorov, che esprime una
proprietà di consistenza fra le distribuzioni che compongono la legge di transizione.
266 CAPITOLO 7. PROCESSI DI MARKOV
definisce l’operatore caratteristico At del processo di Markov X, almeno per ϕ in un’opportuna classe
di funzioni.
• Sezione 7.5.1: per i processi di Markov continui, At è un operatore differenziale alle derivate parziali
del second’ordine di tipo ellittico-parabolico il cui prototipo è l’operatore di Laplace. I coefficienti
di At sono gli incrementi infinitesimi di media e matrice di covarianza di X (cfr. formule (7.5.11)-
(7.5.12)).
• Sezioni 7.5.2 e 7.5.3: la legge di transizione è soluzione delle equazioni di Kolmogorov backward e
forward. Il prototipo di tali equazioni sono le versioni backward e forward dell’equazione del calore.
• Sezione 7.6: chiamiamo diffusione un processo di Markov continuo. Un approccio classico alla costru-
zione di diffusioni consiste nel determinarne la legge di transizione come soluzione dell’equazione
di Kolmogorov (backward o forward). In alternativa, le diffusioni sono costruite come soluzioni di
equazioni differenziali stocastiche, la cui teoria sarà sviluppata a partire dal Capitolo 19.
Capitolo 8
Processo di Poisson
Il processo di Poisson, che indicheremo (Nt )t≥0 , è il prototipo dei cosiddetti “processi di puro salto”.
Intuitivamente Nt indica il numero di volte nell’intervallo temporale [0, t] in cui si verifica un determinato
avvenimento (lo chiameremo episodio): per esempio, se il singolo episodio consiste nell’arrivo di un’email di
spam in un casella di posta, allora Nt rappresenta il numero di email di spam che arrivano nel periodo [0, t];
analogamente, Nt può indicare il numero di bambini nati in un certo paese o il numero di terremoti che si
verificano in una certa area geografica nel periodo [0, t].
8.1 Definizione
Riferendoci alla notazione generale della Definizione 6.1.3, nel seguito assumiamo I = R≥0 . Per co-
struire il processo di Poisson consideriamo una successione (τn )n∈N di v.a. indipendenti e identicamente
distribuite1 con distribuzione esponenziale, τn ∼ Expλ , di parametro λ > 0, definite su uno spazio di proba-
bilità completo (Ω, F , P ): qui τn rappresenta il tempo che intercorre fra l’episodio (n−1)-esimo e il successivo.
Poi definiamo la successione
T0 := 0, Tn := τ1 + · · · + τn , n ∈ N,
in cui Tn rappresenta l’istante in cui si verifica l’episodio n-esimo.
Dimostrazione. La (8.1.1) segue dalla (3.6.7). La monotonia segue dal fatto che quasi certamente τn ≥ 0 per
ogni n ∈ N. Infine, la (8.1.2) segue dal Lemma 2.3.28 di Borel-Cantelli: infatti, per ogni ε > 0, vale
\[
lim Tn = +∞ ⊇ ((τn > ε) i.o.) = (τk > ε)
n→∞
n≥1 k≥n
(λt)n−1
γn,λ (t) := λe−λt 1 (t), n ∈ N.
(n − 1)! R≥0
267
268 CAPITOLO 8. PROCESSO DI POISSON
Definizione 8.1.2 (Processo di Poisson, I). Il processo di Poisson (Nt )t≥0 di parametro λ > 0 è definito da
∞
X
Nt = n1[Tn ,Tn+1 [ (t), t ≥ 0. (8.1.3)
n=1
8 ●●
6 ●
4 ●
2 ●
●
2 4 6 8 10
Daremo in seguito una caratterizzazione più generale del processo di Poisson (cfr. Definizione 8.2.3).
Per definizione Nt assume valori interi non-negativi e precisamente Nt = n se e solo se t appartiene all’inter-
vallo di estremi aleatori [Tn , Tn+1 [; pertanto si ha l’uguaglianza di eventi
In corrispondenza all’istante aleatorio Tn , in cui si verifica l’n-esimo episodio, il processo compie un salto
di ampiezza 1: la Figura 8.1 mostra il grafico di una traiettoria del processo di Poisson nell’intervallo
temporale [0, 10]. Ricordiamo che una traiettoria di N è una funzione del tipo t 7→ Nt (ω), definita da R≥0
a valori in N ∪ {0}, che si ottiene fissando un ω ∈ Ω; ad ogni ω ∈ Ω corrisponde una diversa traiettoria. In
definitiva, il valore aleatorio Nt è pari al numero di salti (ovvero al numero di episodi) fra 0 e t:
Nt = ♯{n ∈ N | Tn ≤ t}.
Proposizione 8.1.3. Il processo di Poisson (Nt )t≥0 gode delle seguenti proprietà:
i) quasi certamente le traiettorie sono funzioni continue a destra e monotone crescenti. Inoltre, per ogni
t > 0, vale4
P lim Ns = Nt = 1; (8.1.5)
s→t
4 In altri termini, ogni t fissato è quasi certamente (ossia per quasi tutte le traiettorie) un punto di continuità per il processo di
Poisson. Questo apparente paradosso si spiega col fatto che quasi ogni traiettoria ha un’infinità al più numerabile di discontinuità,
essendo monotona crescente, e tali discontinuità sono disposte sull’intero intervallo [0, +∞[ che ha la cardinalità del continuo. Quindi
tutte le traiettorie sono discontinue ma ogni singolo punto t è di discontinuità per una famiglia trascurabile di traiettorie.
8.1. DEFINIZIONE 269
Dimostrazione. i) Continuità a destra e monotonia seguono dalla definizione. Per ogni t > 0, poniamo
Nt− = lim Ns e ∆Nt = Nt − Nt− . Notiamo che ∆Nt ∈ {0, 1} q.c. e, fissato t > 0, l’insieme delle traiettorie che
s↗t
sono discontinue in t è dato da
∞
[
(∆Nt = 1) = (Tn = t)
n=1
che è un evento trascurabile poiché le v.a. Tn sono assolutamente continue. Questo prova la (8.1.5).
ii) Per la (8.1.4) si ha
(poiché (t ≥ Tn+1 ) ⊆ (t ≥ Tn ))
= P (Tn ≤ t) − P (Tn+1 ≤ t) =
(poiché Tn ∼ Gamman,λ )
t t
(λs)n−1 (λs)n
Z Z
= λe−λs ds − λe−λs ds
0 (n − 1)! 0 n!
da cui la tesi.
Osservazione 8.1.4 (Esponente caratteristico). La funzione caratteristica del processo di Poisson ha un’in-
teressante proprietà di omogeneità rispetto al tempo: infatti, per la (8.1.7) la CHF di Nt è della forma
ϕNt (η) = etψ(η) dove
ψ(η) = λ(eiη − 1) (8.1.8)
è una funzione che dipende da η ma non da t. Di conseguenza la funzione ψ determina la CHF di Nt per
ogni t e per questo motivo è chiamata esponente caratteristico del processo di Poisson.
Esempio 8.1.5 (Processo di Poisson composto). [!] Il processo di Poisson N è il punto di partenza per la
costruzione di processi stocastici ancor più interessanti e utili nelle applicazioni. La prima generalizzazione
consiste nel rendere aleatoria l’ampiezza dei salti che in N è fissata uguale a 1.
270 CAPITOLO 8. PROCESSO DI POISSON
●
0.4
●
● 1
0.3
●
● ●
0.2 ●
● 0.2 0.4 0.6 0.8 1.0
●
0.1 ●
-1
●
●
0.2 0.4 0.6 0.8 1.0
●●
-0.1 ● -2
● ●
Figura 8.2: A sinistra: grafico di una traiettoria del processo di Poisson composto con λ = 10 e Zn ∼ N0,10−2 .
A destra: grafico di una traiettoria del processo di Poisson composto con λ = 1000 e Zn ∼ N0,10−2 .
Consideriamo uno spazio di probabilità su cui è definito un processo di Poisson N e una successio-
ne (Zn )n∈N di v.a. reali identicamente distribuite. Supponiamo che la famiglia costituita dalle (Zn )n∈N e
(τn )n∈N (le v.a. esponenziali che definiscono N ) sia una famiglia di v.a. indipendenti: questa costruzione
è possibile grazie al Corollario 6.3.7. Poniamo per convenzione Z0 = 0 e definiamo il processo di Poisson
composto nel modo seguente:
Nt
X
Xt = Zn , t ≥ 0.
n=0
Notiamo che il processo di Poisson è un caso particolare di X in cui Zn ≡ 1 per n ∈ N. In Figura 8.2
sono rappresentate due traiettorie del processo di Poisson composto con salti normali e diverse scelte del
parametro di intensità.
Sfruttando l’ipotesi di indipendenza è facile calcolare la CHF di Xt : in realtà è un calcolo già svolto
nell’Esercizio 3.5.4 dove avevamo provato che vale
dove ϕZ (η) è la CHF di Z1 . Anche in questo caso la CHF di Xt è omogenea nel tempo e ψ è detto esponente
caratteristico del processo di Poisson composto. Come caso particolare, si ritrova la (8.1.8) se Zn ∼ δ1 ossia se i
salti sono unitari come nel processo di Poisson.
i) Nt − Ns ∼ Poissonλ(t−s) ;
La i) implica che le v.a. Nt − Ns e Nt−s sono uguali in legge e per questo si dice che N ha gli incrementi
stazionari. La ii) afferma che N è un processo a incrementi indipendenti secondo la Definizione 7.3.1.
Definizione 8.2.2 (Funzione càdlàg). Si dice che una funzione f da un intervallo I a valori reali è càdlàg
(dal francese “continue à droite, limite à gauche”) se in ogni punto è continua da destra e ha limite finito
da sinistra5 .
Definizione 8.2.3 (Processo di Poisson, II). Sia (Ω, F , P ) spazio di probabilità su cui è definita una filtra-
zione (Ft )t≥0 . Un processo di Poisson con intensità λ > 0 su tale spazio è un processo stocastico (Nt )t≥0 tale
che:
i) N0 = 0 q.c.;
Per il Teorema 8.2.1, il processo N definito in (8.1.3) è un processo di Poisson secondo la Definizione
8.2.3 con la filtrazione G N generata da N . Viceversa, si può provare che se N è un processo di Poisson
secondo la Definizione 8.2.3 allora le v.a. Tn , definite ricorsivamente da
sono indipendenti e hanno distribuzione Expλ : per maggiori dettagli si veda, per esempio, il Cap.5 in [10].
Si noti che nella Definizione 8.2.3 la filtrazione non è necessariamente quella generata dal processo.
Teorema 8.2.4 (Proprietà di Markov). [!] Il processo di Poisson N è un processo di Markov e di Feller con
legge di transizione
p(t, x; T , ·) = Poissonx,λ(T −t)
e operatore caratteristico definito da
Per ogni ϕ ∈ bB si ha
E [ϕ(NT ) | Ft ] = u(t, Nt )
dove u è soluzione del problema di Cauchy backward
∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ [0, T [×R,
u(T , x) = ϕ(x),
x ∈ R.
Dimostrazione. La tesi è una immediata conseguenza della Proposizione 7.3.2 e di quanto visto nella Se-
zione 7.5.2 relativa all’equazione di Kolmogorov backward: si veda in particolare l’Esempio 7.5.11. La
proprietà di Feller è stata provata nell’Esempio 7.4.5.
Proposizione 8.2.5. [!] Sia N = (Nt )t≥0 un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ), che verifichi
le proprietà i), ii) e iii) della Definizione 8.2.3. Allora N è un processo di Poisson di parametro λ > 0 se e
solo se h i iη
E eiη(Nt −Ns ) | Fs = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R. (8.2.1)
5 Se I = [a, b], agli estremi assumiamo per definizione che lim f (x) = f (a) ed esista finito lim f (x).
x↘a x↗b
272 CAPITOLO 8. PROCESSO DI POISSON
Viceversa, se N verifica la (8.2.1) e le proprietà i), ii) e iii) della Definizione 8.2.3, rimangono da provare
le proprietà iv) e v). Applicando il valore atteso alla (8.2.1) si ha
h i iη
E eiη(Nt −Ns ) = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R.
Allora la iv) è ovvia conseguenza del fatto che la funzione caratteristica determina la distribuzione; la
proprietà v) di indipendenza degli incrementi segue dal punto 14) del Teorema 5.2.10.
Osservazione 8.2.6 (Processo di Poisson a intensità stocastica). La caratterizzazione data nella Proposi-
zione 8.2.5 permette di definire un’ampia classe di processi di cui il Poisson è un caso molto particolare.
In uno spazio (Ω, F , P , (Ft )t≥0 ) consideriamo un processo N = (Nt )t≥0 che verifichi le proprietà i), ii) e iii)
della Definizione 8.2.3 e un processo λ = (λt )t≥0 a valori non-negativi tale che per ogni t ≥ 0 valga
Z t
λt ∈ mF0 e λs ds < ∞ q.c.
0
Se
Rt
h i iη
E eiη(Nt −Ns ) | Fs = e(e −1) s λr dr
per ogni 0 ≤ s ≤ t e η ∈ R, allora N è chiamato processo di Poisson a intensità stocastica λ. Per maggiori
informazioni sui processi a intensità stocastica e le relative importanti applicazioni, si veda per esempio
[24].
et := Nt − λt,
N t ≥ 0,
è una martingala.
Osserviamo esplicitamente che N e assume valori reali, al contrario di N che assume solo valori interi:
nella Figura 8.3 è rappresentata una traiettoria di un processo di Poisson compensato.
Osservazione 8.3.2. Il fatto che N e sia una martingala segue anche dal Teorema 7.5.13 applicato con ϕ(x) =
x. Più in generale, il Teorema 7.5.13 mostra come è possibile “compensare” un processo che sia funzione di
Nt in modo da ottenere una martingala.
8.4. APPENDICE 273
-1
-2
-3
8.4 Appendice
Dimostriamo il Teorema 8.2.1. Se N è un processo di Poisson allora per ogni 0 ≤ s < t si ha:
i) Nt − Ns ∼ Poissonλ(t−s) ;
è un processo di Poisson rispetto alla probabilità condizionata all’evento (Ns = k), ossia N (s) è un processo
di Poisson sullo spazio (Ω, F , P (· | Ns = k)).
A tal fine, definiamo i salti “traslati”
(s) (s)
T0 = 0, Tn = Tk+n − s, n ∈ N,
che, sull’evento A := (Ns = k) ≡ (Tk ≤ s < Tk+1 ), formano una successione crescente q.c. (si veda la Figura
8.4). Osserviamo che
(s) (s)
0 T1 T2
(s)
Figura 8.4: Tempi di salto Tn e tempi di salto “traslati” Tn
(s) (s) (s)
(Nh = n) ∩ A = (Ns+h = n + k) ∩ A = (Tn+k ≤ s + h < Tn+k+1 ) ∩ A = Tn ≤ h < Tn+1 ∩ A
274 CAPITOLO 8. PROCESSO DI POISSON
ossia, in accordo con la definizione di processo di Poisson nella forma (8.1.4), sull’evento A si ha
(s) (s) (s)
(Nh = n) = (Tn ≤ h < Tn+1 ), n ∈ N ∪ {0}.
formino una successione di v.a. che, relativamente a P (· | Ns = k), hanno distribuzione Expλ e sono
indipendenti: pertanto, si tratta di provare che
\ J YJ
(s)
P (τj ∈ Hj ) | Ns = k = Expλ (Hj ) (8.4.2)
j=1 j=1
Sfruttando il fatto che (Ns = k) ∩ (Tk+1 − s ∈ H1 ) = (Tk ≤ s) ∩ (Tk+1 − s ∈ H1 ), Tk+1 = Tk + τk+1 e le v.a.
Tk , τk+1 , . . . , τk+J sono indipendenti in P , la (8.4.3) si riduce a
Ora è sufficiente considerare il caso in cui H1 è un intervallo, H1 = [0, c]: poiché Tk e τk+1 sono indipendenti
in P , la densità congiunta è data dal prodotto delle marginali e, ricordando il Lemma 8.1.1, si ha
Z s Z c+s−x !
−λy
P ((Tk ≤ s) ∩ (τk+1 ∈ [s − Tk , c + s − Tk ])) = λe dy Gammak,λ (dx)
0 s−x
Zs
= e−λ(c+s−x) (eλc − 1)Gammak,λ (dx)
0
(sλ)k −λ(c+s) λc
= e (e − 1) = Poissonλs ({k})Expλ ([0, c])
k!
che prova la (8.4.4) con H1 = [0, c].
[Secondo passo] Per il primo passo, Nt − Ns è un processo di Poisson condizionatamente a (Ns = k) e quindi
vale
P (Nt − Ns = n | Ns = k) = Poissonλ(t−s) ({n}) (8.4.5)
per ogni s < t e n, k ∈ N ∪ {0}. Per la formula della probabilità totale si ha
X
P (Nt − Ns = n) = P (Nt − Ns = n | Ns = k)P (Ns = k) =
k≥0
(per la (8.4.5))
X
= Poissonλ(t−s) ({n})P (Ns = k) = Poissonλ(t−s) ({n}), (8.4.6)
k≥0
e questo prova la proprietà i). Inoltre, come conseguenza della (8.4.6), la formula (8.4.5) equivale a
(qui usiamo il fatto che N (s) è un processo di Poisson condizionatamente a (Ns = j) e quindi, per quanto
(s) (s) (s) (s)
appena provato, gli incrementi Nt−s − Nr−s e Nr−s sono indipendenti in P (· | Ns = j). Inoltre, Nr−s = Nr − Ns e
(s) (s)
Ns sono indipendenti in P e perciò P (Nr−s = k | Ns = j) = P (Nr−s = k))
(s) (s) (s)
X
= P (Nt−s − Nr−s = n | Ns = j)P (Nr−s = k)P (Ns = j)
j≥0
(s) (s) (s)
= P (Nt−s − Nr−s = n)P (Nr−s = k)
= P (Nt − Nr = n)P (Nr − Ns = k).
Processi continui
La nozione di continuità per processi stocastici, benché intuitiva, nasconde qualche piccola insidia e va
pertanto analizzata con attenzione. In questo capitolo assumiamo che I sia un intervallo reale della forma
I = [0, T ] oppure I = [0, +∞[. Inoltre indichiamo con C(I) l’insieme delle funzioni continue da I a valori
reali.
277
278 CAPITOLO 9. PROCESSI CONTINUI
Osservazione 9.1.3 (Continuità e continuità q.c.). Sia X un processo continuo q.c. definito sullo spazio
(Ω, F , P ) e sia A come nella Definizione 9.1.1. Allora X è indistinguibile da X̄ := X1A che ha tutte le
traiettorie continue1 . Più esplicitamente, X̄ è definito da
X(ω) se ω ∈ A,
X̄(ω) =
0
altrimenti.
Diciamo che X̄ è una versione continua di X. Dunque, a meno di passare ad una versione continua, nel
seguito possiamo eliminare il “q.c.” e considerare processi continui invece di continui q.c.
A questo punto ci si può chiedere perché mai si sia introdotta la definizione di processo continuo q.c.
e non direttamente quella di processo continuo. Il fatto è che di solito si costruisce un processo stocastico,
per esempio il moto Browniano, a partire da una legge assegnata, mediante il Teorema di estensione di
Kolmogorov: in questo modo si riesce a dimostrare2 solo la continuità quasi certa delle traiettorie e quindi
solo in un secondo momento si passa alla versione continua.
Osservazione 9.1.4. Se X = (Xt )t∈I , con I = [0, 1], è un processo continuo allora M, J e T in (9.1.1) sono ben
definite e sono variabili aleatorie. Infatti basta osservare che
M= sup Xt .
t∈[0,1]∩Q
Inoltre J(ω) è ben definito per ogni ω ∈ Ω essendo tutte le traiettorie di X continue e vale
n
1X
J(ω) = lim X k (ω)
n→∞ n n
k=1
essendo l’integrale di una funzione continua uguale al limite delle somme di Riemann. Infine, (I + = ∅) =
(M ≤ 0) ∈ F e dunque anche [
(T < t) = (I + = ∅) ∪ (Xs > 0)
s∈Q∩[0,t[
Consideriamo I = [0, 1] solo per semplicità: i risultati di questa sezione si estendono evidentemente al caso
in cui I = [0, T ] o anche I = R≥0 considerando la distanza
X 1 ( )
ϱmax (v, w) = min 1, max |v(t) − w(t)| , v, w ∈ C(R≥0 ).
2n t∈[0,n]
n≥1
Secondo la definizione generale, un processo stocastico X = (Xt )t∈I è una funzione misurabile da (Ω, F )
a (RI , F I ). Mostriamo ora che se X è continuo allora è possibile sostituire il codominio (RI , F I ) con
(C(I), Bϱmax ), mantenendo la proprietà di misurabilità rispetto alla σ -algebra Bϱmax . Questo fatto non è
banale e merita di essere provato rigorosamente. Infatti, in base all’Osservazione 6.1.10, lo stesso C[0, 1]
non appartiene B [0,1] e quindi non è necessariamente vero che X −1 (C[0, 1]) sia un evento. Allo stesso modo,
i singoletti {w} non sono elementi a B [0,1] e quindi se
(poiché X è continuo)
= X −1 (σ (C )) ⊆ F
dove l’ultima inclusione è dovuta al fatto che X è un processo stocastico.
La Proposizione 9.2.1 permette di dare la seguente
Definizione 9.2.2 (Legge di un processo continuo q.c.). Sia X = (Xt )t∈I un processo continuo4 sullo spazio
(Ω, F , P ). La legge di X è la distribuzione µX definita su (C(I), Bϱmax ) da
µX (H) = P (X ∈ H), H ∈ Bϱmax .
d
Due processi continui X e Y sono uguali in legge se µX = µY : in tal caso scriviamo X = Y .
3 Usiamo la “tilde” per distinguere i cilindri di funzioni continue dai cilindri di R[0,1] definiti in (6.1.1).
4 Per l’Osservazione 9.1.3, la definizione si estende al caso di X continuo q.c. in modo ovvio.
280 CAPITOLO 9. PROCESSI CONTINUI
Nella Sezione 9.5 diamo una dimostrazione del Teorema 9.3.1, ispirata alle idee originali di Kolmogorov,
alla fine della sezione. Consideriamo prima alcuni esempi.
Esempio 9.3.2. [!] Riprendiamo il Corollario 6.3.6 e consideriamo un processo Gaussiano (Xt )t∈[0,1] con
funzione di media m ≡ 0 e covarianza c(s, t) = s ∧ t. Per definizione, (Xt , Xs ) ∼ N0,Ct,s dove
!
t s∧t
Ct,s =
s∧t s
e quindi Xt −Xs ∼ N0,t+s−2s∧t . È facile provare una stima del tipo (9.3.1): anzitutto non è restrittivo assumere
√
s < t cosicché Xt − Xs = t − sZ con Z ∼ N0,1 ; allora, per ogni p > 0 si ha
p
E [|Xt − Xs |p ] = |t − s| 2 E [|Z|p ]
dove E [|Z|p ] < ∞ è una costante. Per il Teorema di continuità di Kolmogorov, X ammette una modificazione
e che è α-Hölderiana per ogni α < p/2−1 = 1 − 1 . Data l’arbitrarietà di p, si ha che X
X e è α-Hölderiana per
p 2 p
ogni α < 12 .
Esempio 9.3.3. [!] Proviamo ad applicare il criterio (9.3.1) di Kolmogorov ad un processo di Poisson N che
sappiamo avere le traiettorie discontinue: ricordando che Nt − Ns ∼ Poissonλ(t−s) , per p > 0 si ha
∞
X (λ(t − s))n
E [|Nt − Ns |p ] = e−λ(t−s) np =
n!
n=0
per t − s → 0. Ne segue che la stima (9.3.1) non è vera per nessun valore di ε > 0.
Il Teorema 9.3.1 può essere esteso in diverse direzioni: quelle più interessanti riguardano la regolarità
di ordine superiore, l’estensione al caso di I multidimensionale e al caso di processi a valori in spazi di
Banach. In tempi relativamente recenti, è stato osservato che il Teorema di continuità di Kolmogorov è
essenzialmente un risultato di natura analitica che può essere dimostrato come corollario del Teorema di
immersione di Sobolev, in una versione molto generale per i cosiddetti spazi di Besov. Riportiamo qui
l’enunciato dato in [109].
Teorema 9.3.4 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈Rd un processo stocastico reale.
Se esistono k ∈ N0 , 0 < ε < p e δ > 0 tali che
Il Teorema 9.3.4 si estende anche al caso in cui X sia un processo a valori in uno spazio di Banach: il
seguente esempio è particolarmente rilevante nello studio delle equazioni differenziali stocastiche.
282 CAPITOLO 9. PROCESSI CONTINUI
Esempio 9.3.5. Sia (Xtx )t∈[0,1] una famiglia di processi stocastici continui, indicizzata da x ∈ Rd : per quanto
visto nella Sezione 9.2, possiamo considerare X x come un processo a valori in C[0, 1], Bϱmax che è uno
spazio di Banach con la norma del massimo
Se vale h p i
E ∥X x − X y ∥∞ ≤ c|x − y|d+ε , x, y ∈ Rd ,
N N
1X X
At = cij (t, x)∂xi xj + bi (t, x)∂xi , (t, x) ∈ ]0, T [×RN , (9.4.1)
2
i,j=1 i=1
dove b = (bi )i=1,...,N e C = (ci,j )i,j=1,...,N sono funzioni misurabili e la matrice C è simmetrica e semi-definita
positiva. Pur non essendo una definizione universalmente accettata in letteratura, possiamo definire una
diffusione con coefficienti b e C come un processo di Markov con operatore caratteristico della forma (9.4.1):
si ricordi che, per i risultati della Sezione 7.5.1, ciò equivale al fatto che l’operatore caratteristico del
processo sia locale (e, in pratica, che il processo sia continuo).
In questa sezione mostriamo che, sotto opportune ipotesi sui coefficienti, l’equazione alle derivate
parziali (in breve, PDE8 ) parabolica
(∂t + At )u(t, x) = 0
possiede una “soluzione fondamentale” che è la densità di transizione di un processo di Markov continuo.
In altri termini, è possibile costruire una diffusione con assegnati coefficienti b e C a partire da risultati
di risolubilità per l’operatore At in (9.4.1) che ha come coefficienti b e C : tali risultati sono di carattere
analitico e sono ben noti nell’ambito della teoria delle equazioni alle derivate parziali di evoluzione.
Per specificare le condizioni di regolarità sui coefficienti di At , introduciamo lo spazio bC α (]0, T [×RN )
delle funzioni continue, limitate e uniformemente Hölderiane nella variabile x di esponente α ∈ ]0, 1] con
la norma
|g(t, x) − g(t, y)|
[g]α := sup |g| + sup < ∞. (9.4.2)
]0,T [×RN 0<t<T |x − y|α
x,y
Sottolineiamo il fatto che gli elementi di bC α (]0, T [×RN ) sono funzioni continue in (t, x) e Hölderiane nella
variabile spaziale x, uniformemente rispetto alla variabile temporale t.
Ipotesi 9.4.1.
ii) la matrice C := (cij )1≤i,j≤N è simmetrica e soddisfa la seguente condizione di uniforme parabolicità:
esiste una costante λ0 > 1 tale che
1 2
|η| ≤ ⟨C (t, x)η, η⟩ ≤ λ0 |η|2 , (t, x) ∈ ]0, T [×RN , η ∈ RN .
λ0
Indichiamo con C 1,2 (]0, T [×RN ) lo spazio delle funzioni differenziabili con continuità in ]0, T [×RN al
prim’ordine nella variabile t e fino al second’ordine in x.
Definizione 9.4.2 (Problema backward di Cauchy). Una soluzione classica del problema backward di
Cauchy per l’operatore ∂t + At su ]0, T [×RN , è una funzione u ∈ C 1,2 (]0, T [×RN ) ∩ C(]0, T ] × RN ) tale che
∂t u(t, x) + At u(t, x) = 0, (t, x) ∈ ]0, T [×RN ,
(9.4.3)
u(T , x) = ϕ(x), x ∈ RN ,
è soluzione classica del problema backward di Cauchy su ]0, s[×RN con dato finale ϕ. Per questo
motivo si dice che Γ è soluzione fondamentale dell’operatore ∂t + At su ]0, T [×RN ;
ii) la funzione Z
p(t, x; s, H) := Γ (t, x; s, y)dy, 0 < t < s ≤ T , x ∈ RN , H ∈ BN ,
H
è una legge di transizione10 che gode della proprietà di Feller (cfr. Definizioni 7.1.1 e 7.1.10) e
soddisfa l’equazione di Chapman-Kolmogorov (7.4.4);
iii) per ogni (s, y) ∈ ]0, T ] × RN , si ha Γ (·, ·; s, y) ∈ C 1,2 (]0, s[×RN ) e valgono le seguenti stime Gaussiane:
esistono due costanti positive λ, c che dipendono solo11 da T , N , α, λ0 e per le quali si ha
1 −1
Γ0 λ (s − t), x − y ≤ Γ (t, x; s, y) ≤ c Γ0 (λ(s − t), x − y) , (9.4.4)
c
c
∂xi Γ (t, x; s, y) ≤ √ Γ0 (λ(s − t), x − y) ,
s−t
∂x x Γ (t, x; s, y) + ∂t Γ (t, x; s, y) ≤ c Γ0 (λ(s − t), x − y)
i j
s−t
per ogni (t, x) ∈ ]0, s[×RN , dove Γ0 indica la Gaussiana standard N -dimensionale
1 |x|2
Γ0 (t, x) = N
e− 2t , t > 0, x ∈ RN .
(2πt) 2
9 Nella Sezione 26.4 proveremo un risultato equivalente, il Teorema 26.3.5, che è la versione forward del Teorema 9.4.3.
10 Per definizione, poniamo anche
p(s, x; s, ·) := lim− p(t, x; s, ·) = δx
t→s
con il limite inteso nel senso della convergenza debole.
11 Per comodità, assumiamo λ abbastanza grande in modo che [c ] , [b ] ≤ λ per ogni i, j = 1, . . . , N .
0 ij α i α 0
284 CAPITOLO 9. PROCESSI CONTINUI
Osservazione 9.4.4. Raccogliamo alcune conseguenze del Teorema 9.4.3. Sotto l’Ipotesi 9.4.1 sulle funzioni
b, C , indichiamo con Γ la soluzione fondamentale del corrispondente operatore ∂t + At con At in (9.4.1).
Inoltre sia µ distribuzione su RN . Allora:
i) per il Teorema 7.4.4, esiste un processo di Markov X = (Xt )t∈[0,T ] che ha densità di transizione Γ ed è
tale che X0 ∼ µ. Per l’Osservazione 7.5.8, At è l’operatore caratteristico di X;
ii) per il Teorema 9.3.4 di continuità di Kolmogorov, il processo X ammette una modificazione con tra-
iettorie α-Hölderiane per ogni α < 21 . Infatti, per ogni 0 ≤ t < s ≤ T e p > 0, vale la seguente stima
integrale
E [|Xt − Xs |p ] = E [E [|Xt − Xs |p | Xt ]]
"Z #
p
=E |Xt − y| Γ (t, Xt ; s, y)dy ≤
RN
Xt −y
dove l’ultimo passaggio si giustifica col cambio di variabile z = √ ;
s−t
iii) vedremo in seguito che il processo X gode di una versione “forte” della proprietà di Markov (cfr.
Capitolo 12): ciò segue dal Teorema 12.1.2 e dal fatto che la legge di transizione p gode della proprietà
di Feller, ancora per Teorema 9.4.3-ii).
lim Xs = Xt
s→t
e di conseguenza si ha anche convergenza quasi certa. Questo tuttavia non è sufficiente a dimostrare la tesi:
infatti lo stesso risultato vale, per esempio, per il processo di Poisson che ha tutte le traiettorie discontinue
(si ricordi la (8.1.5)). In effetti, Kolmogorov si rese conto che dalla (9.5.2) non è possibile ricavare diretta-
mente una stima dell’incremento Xt − Xs per ogni t, s a causa della non-numerabilità di [0, 1]. La sua idea fu
allora di restringere dapprima t, s alla famiglia numerabile dei razionali diadici di [0, 1] definiti da
[ n o
D= Dn , Dn = 2kn | k = 0, 1, . . . , 2n .
n≥1
9.5. DIMOSTRAZIONE DEL TEOREMA DI CONTINUITÀ DI KOLMOGOROV 285
Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N. Due elementi t, s ∈ Dn si dicono consecutivi se |t − s| = 2−n .
[Secondo passo] Stimiamo l’incremento Xt − Xs assumendo che t, s siano consecutivi di Dn : per la (9.5.2) si
ha
P |X kn − X k−1
n
| ≥ 2 −nα
≤ c 2n(αp−1−ε) .
2 2
Allora, posto [
−nα −nα
An = max |X k − X k−1 | ≥ 2 = |X k − X k−1 | ≥ 2 ,
1≤k≤2n 2n n 2 2n n2
1≤k≤2n
per la sub-additività di P , si ha
2n
X 2n
X
P (An ) ≤ P |X k − X k−1 |≥2 −nα
≤ c 2n(αp−1−ε) = c 2n(αp−ε) .
2n n 2
k=1 k=1
Dunque, se α < pε , si ha
X
P (An ) < ∞
n≥1
e per il Lemma 2.3.28 di Borel-Cantelli P (An i.o.) = 0: questo significa che esiste N ∈ F , con P (N ) = 0, tale
che per ogni ω ∈ Ω \ N esiste nα,ω ∈ N per cui
Di conseguenza si ha anche che per ogni ω ∈ Ω \ N esiste cα,ω > 0 tale che
[Terzo passo] Stimiamo l’incremento Xt − Xs con t, s ∈ D, costruendo un’opportuna catena di punti con-
secutivi che congiunge s a t, per poi utilizzare, tramite la disuguaglianza triangolare, la stima ottenuta al
passo precedente. Dunque siano t, s ∈ D con s < t: poniamo
dove sgn(x) = x
|x|
se x , 0 e sgn(0) = 0. Si definisce (tk )n≤k≤n̄ in modo analogo. Allora sk , tk ∈ Dk e vale
∞
X
≤ 2cα,ω 2−kα
k=n
2cα,ω −nα
= 2 ,
1 − 2−α
′ |t − s|α per una certa costante positiva c′ .
da cui segue che |Xt − Xs | ≤ cα,ω α,ω
[Quarto passo] Abbiamo provato che per ogni ω ∈ Ω\N la traiettoria X(ω) è α-Hölderiana su D e quindi si
prolunga in modo unico ad una funzione α-Hölderiana su [0, 1], che indichiamo con X(ω). e Ora definiamo
il processo X e le cui traiettorie sono X(ω)
e se ω ∈ Ω \ N e sono identicamente nulle su N . Proviamo che X e è
una modificazione di X, ossia P (Xt = X et ) = 1 per ogni fissato t ∈ [0, 1]: ciò è ovvio se t ∈ D. D’altra parte, se
t ∈ [0, 1] \ D, consideriamo una successione (tn )n∈N in D che approssima t. Abbiamo già osservato che per
la (9.5.2) si ha che Xtn converge a Xt in probabilità e quindi anche puntualmente q.c., a meno di passare ad
una sotto-successione: poiché Xtn = X et q.c., si ha anche Xt = X
n
et q.c. e questo conclude la prova.
Capitolo 10
Moto Browniano
Richard Durrett
Il moto Browniano è in assoluto il processo stocastico più importante. Deve il nome al botanico Robert
Brown per le sue osservazioni, attorno al 1820, sul movimento casuale di granelli di polline in sospensione
in una soluzione. Il moto Browniano fu utilizzato da Louis Bachelier nel 1900 nella sua tesi di dottorato
come modello per il prezzo dei titoli azionari e fu studiato da Albert Einstein in uno dei suoi famosi articoli
del 1905. La prima definizione matematica rigorosa di moto Browniano è dovuta a Norbert Wiener nel
1923.
10.1 Definizione
Definizione 10.1.1 (Moto Browniano). [!!!] Sia W = (Wt )t≥0 un processo stocastico reale definito su uno
spazio di probabilità con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che W è un moto Browniano se verifica le
seguenti proprietà:
i) W0 = 0 q.c.;
ii) W è continuo q.c.;
iii) W è adattato a (Ft )t≥0 , ossia Wt ∈ mFt per ogni t ≥ 0;
iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;
v) Wt − Ws ∼ N0,t−s per ogni t ≥ s ≥ 0.
Osservazione 10.1.2. Commentiamo brevemente le proprietà della Definizione 10.1.1: per la i) un moto
Browniano parte dall’origine. La ii) assicura che quasi tutte le traiettorie di W sono continue. Inoltre
W è adattato alla filtrazione (Ft ): questo significa che, in ogni fissato istante t, le informazioni in Ft sono
sufficienti ad osservare tutta la traiettoria di W fino al tempo t. Le iv) e v) sono meno intuitive ma possono
essere giustificate da alcune note proprietà, osservabili a livello statistico, dei moti casuali. Come per il
287
288 CAPITOLO 10. MOTO BROWNIANO
processo di Poisson, la iv) e v) sono chiamate rispettivamente proprietà di indipendenza e stazionarietà degli
incrementi (cfr. Definizione 7.3.1). In particolare, Wt − Ws è uguale in legge a Wt−s . In Figura 10.1 è
rappresentato il grafico di una traiettoria di un moto Browniano.
0.3
0.2
0.1
-0.1
-0.2
0
1.2
-1
-3
Figura 10.2: Grafico di 1.000 traiettorie di un moto Browniano e istogramma della sua distribuzione
campionaria al tempo t = 1
Osservazione 10.1.3. Nella Definizione 10.1.1 la filtrazione (Ft ) non è necessariamente quella generata da
W e indicata (GtW )t≥0 (cfr. Definizione 6.4.3). Chiaramente la proprietà iii) del moto Browniano implica che
GtW ⊆ Ft per ogni t ≥ 0. Vedremo nella Sezione 11.2 che è generalmente preferibile lavorare con filtrazioni
strettamente più grandi di G W affinché siano soddisfatte opportune ipotesi di carattere tecnico fra cui, per
esempio, la completezza.
Diamo un’utile caratterizzazione del moto Browniano.
10.1. DEFINIZIONE 289
Proposizione 10.1.4. [!] Un processo stocastico continuo q.c. W = (Wt )t≥0 è un moto Browniano relativa-
mente alla filtrazione (GtW )t≥0 generata da W se e solo se è un processo Gaussiano con funzione di media
nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Dimostrazione. Sia W un moto Browniano su (Ω, F , P , (GtW )t≥0 ). Per ogni 0 = t0 < t1 < · · · < tn , le variabili
aleatorie Zk := Wtk −Wtk−1 , hanno distribuzione normale; inoltre, per le proprietà iii) e v) del moto Brownia-
no, Zk è indipendente da GtW k−1
e quindi da Z1 , . . . , Zk−1 ∈ mGtW
k−1
. Questo prova che (Z1 , . . . , Zn ) è un vettore
multi-normale con componenti indipendenti. Anche (Wt1 , . . . , Wtn ) è multi-normale perché si ottiene da
(Z1 , . . . , Zn ) mediante la trasformazione lineare
h
X
Wth = Zk , h = 1, . . . , n,
k=1
e questo prova che W è un processo Gaussiano. Osserviamo anche che, assumendo s < t, si ha
cov(Ws , Wt ) = cov(Ws , Wt − Ws + Ws ) = cov(Ws , Wt − Ws ) + var(Ws ) = s
per l’indipendenza di Ws e Wt − Ws : questo prova che cov(Ws , Wt ) = s ∧ t.
Viceversa, sia W un processo Gaussiano con funzioni di media nulla e di covarianza cov(Ws , Wt ) = s ∧ t.
Poiché E [W0 ] = var(W0 ) = 0 si ha W0 = 0 q.c. Le proprietà ii) e iii) della definizione di moto Browniano
sono ovvie. Per provare la v) basta osservare che, se s < t, si ha
var(Wt − Ws ) = var(Wt ) + var(Ws ) − 2cov(Wt , Ws ) = t + s − 2(s ∧ t) = t − s.
Infine, dati τ ≤ s < t, il vettore (Wt − Ws , Wτ ) ha distribuzione normale perché combinazione lineare di
(Wτ , Ws , Wt ) e
cov(Wt − Ws , Wτ ) = cov(Wt , Wτ ) − cov(Ws , Wτ ) = τ − τ = 0.
Di conseguenza, Wt − Ws e Wτ sono indipendenti: poiché W è Gaussiano, ne segue anche che Wt − Ws è
indipendente da (Wτ1 , . . . , Wτn ) per ogni τ1 , . . . , τn ≤ s. Allora, per il Lemma 3.3.20, Wt − Ws è indipendente
da GsW e questo dimostra la validità della proprietà iv).
Osservazione 10.1.5. La Proposizione 10.1.4 afferma che le distribuzioni finito-dimensionali del moto
Browniano sono univocamente determinate: dunque √il moto Browniano è unico in legge.
ft := tW1 ha le stesse distribuzioni uno-dimensionali di W
Dato un moto Browniano W , il processo W
ma non è ovviamente un moto Browniano.
Esistono numerose dimostrazioni dell’esistenza del moto Browniano: alcune di esse si trovano, per
esempio, nelle monografie di Schilling [110] e Bass [10]. Qui vediamo il risultato come un corollario dei
Teoremi di estensione e continuità di Kolmogorov.
Teorema 10.1.6. Un moto Browniano esiste.
Dimostrazione. Il passo principale è la costruzione di un moto Browniano sull’intervallo temporale limitato
[0, 1]. Per il Teorema di estensione di Kolmogorov (in particolare, per il Corollario 6.3.6) esiste un processo
(0) (0) (0)
Gaussiano W (0) = (Wt )t∈[0,1] con funzione di media nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Per il Teorema di continuità di Kolmogorov e l’Esempio 9.3.2, W (0) ammette una modificazione continua
che, per la Proposizione 10.1.4, verifica le proprietà del moto Browniano su [0, 1].
Ora prendiamo una successione (W (n) )n∈N di copie indipendenti di W (0) . “Incolliamo” tali processi
(0)
definendo Wt = Wt per t ∈ [0, 1] e
[t]−1
(k)
X [t]
Wt = W1 + Wt−[t] , t > 1,
k=0
dove [t] indica la parte intera di t. Allora si prova facilmente che W è un moto Browniano.
290 CAPITOLO 10. MOTO BROWNIANO
Osservazione 10.1.7. Per quanto visto nell’Esempio 9.3.2, un moto Browniano ammette una modificazione
con traiettorie non solo continue ma anche localmente α-Hölderiane per ogni α < 21 . L’esponente α è stret-
tamente minore di 12 e tale risultato non è migliorabile: per maggiori dettagli rimandiamo, per esempio, al
Cap.7 in [10]. Un classico risultato, la Legge del logaritmo iterato, descrive precisamente il comportamento
asintotico degli incrementi Browniani: vale
|Wt |
lim sup q =1 q.c.
+
t→0 2t log log 1t
Di conseguenza, quasi certamente le traiettorie di un moto Browniano non sono differenziabili in nessun
punto: precisamente, esiste N ∈ F , con P (N ) = 0, tale che per ogni ω ∈ Ω \ N la funzione t 7→ Wt (ω) non è
differenziabile in nessun punto di [0, +∞[.
WTt,x := WT − Wt + x, T ≥ t.
Definizione 10.2.1. Il processo W t,x = (WTt,x )T ≥t è chiamato moto Browniano di punto iniziale x al tempo t e
gode delle seguenti proprietà:
i) Wtt,x = x;
E [ϕ(WT ) | Ft ] = u(t, Wt )
con Z
u(t, x) := Γ (t, x; T , y)ϕ(y)dy. (10.2.2)
R
10.3. SPAZIO DI WIENER 291
e quindi u ∈ C ([0, T ] × R) e u(0, ·) ≡ ϕ. Allora u è soluzione classica (cfr. Definizione 9.4.2) del problema di
Cauchy backward
1
∂t u(t, x) + 2 ∂xx u(t, x) = 0, t ∈ [0, T [, x ∈ R,
u(T , x) = ϕ(x)
x ∈ R.
Ciò è in accordo con l’Esempio 7.5.9, essendo At = 21 ∂xx l’operatore caratteristico della distribuzione di
transizione Gaussiana. Si noti che l’ipotesi ϕ ∈ bC(R) serve solo1 a dimostrare la continuità di u(t, x) fino a
t =T.
2
T x− Tt y
( )
γ(Wt ,WT ) (t, x; T , y) 1 −
γWt |WT (t, x; T , y) = =q e 2t(T −t) .
γWT (T , y) t(T −t)
2π T
Inoltre si ha anche
µWt |WT = N t W t(T −t) .
T T, T
per ogni σ ∈ C.
Dimostrazione. Per la disuguaglianza di Hölder si ha
h i1 √
E [|Wt |] ≤ E Wt2 2 = t
e quindi W è un processo sommabile. La i) segue dalla Proposizione 7.3.4, essendo W un processo a media
costante nulla e incrementi indipendenti.
In modo simile, si provano ii) e iii): per esempio, si ha
h i h i
E [XT | Ft ] = E (WT − Wt + Wt )2 | Ft − T = E (WT − Wt )2 | Ft +2Wt E [WT − Wt | Ft ] +Wt2 − T = Wt2 − t.
| {z } | {z }
=T −t =0
η
La proprietà di martingala di Mt equivale a
h i η2
E eiη(Wt −Ws ) | Fs = e− 2 (t−s) , η ∈ R.
da cui la tesi: in particolare, la proprietà di indipendenza segue dal 14) del Teorema 5.2.10.
La seguente versione del Teorema 7.5.13 fornisce un metodo generale per costruire una martingala
componendo un moto Browniano W con una funzione f = f (t, x) sufficientemente regolare. Assumiamo su
f anche una condizione di crescita del tipo
α
|f (t, x)| ≤ cT ecT |x| , (t, x) ∈ [0, T ] × R, (10.4.1)
con cT costante positiva dipendente da T e α ∈ [0, 2[: ciò garantisce la sommabilità del processo f (t, Wt ) per
t ∈ [0, T ].
Teorema 10.4.3. [!] Sia f = f (t, x) ∈ C 1,2 (R≥0 ×R) una funzione che verifica, insieme alle sue derivate prime
e seconde, la condizione di crescita (10.4.1). Allora il processo
Z t
1
Mt := f (t, Wt ) − f (0, W0 ) − ∂s f + ∂xx f (s, Ws )ds, t ∈ [0, T ],
0 2
è una martingala. In particolare, se f risolve l’equazione del calore backward allora f (t, Wt ) è una martin-
gala.
Dimostrazione. La dimostrazione è del tutto analoga a quella del Teorema 7.5.13. Per ogni s > t e x ∈ R, si
ha
Z Z
∂s Γ (t, x; s, y)f (s, y)dy = ∂s Γ (t, x; s, y)f (s, y) dy =
R R
1
∂s E [f (s, Ws ) | Ft ] = E ∂s f + ∂xx f (s, Ws ) | Ft .
2
Ora integriamo in s fra t e T per ottenere
Z T
1
E [f (T , WT ) | Ft ] − f (t, Wt ) = E ∂s f + ∂xx f (s, Ws ) | Ft ds =
t 2
294 CAPITOLO 10. MOTO BROWNIANO
(scambiando i segni di integrale e attesa condizionata come nella prova del Teorema 7.5.13)
"Z T #
1
=E ∂s f + ∂xx f (s, Ws )ds | Ft .
t 2
In definitiva si ha
" Z T #
1
E [MT − Mt | Ft ] = E f (T , WT ) − f (t, Wt ) − ∂s f + ∂xx f (s, Ws )ds | Ft = 0
t 2
Tempi d’arresto
n
B > n1
P
xi
i=1
(Be greater than average)
I tempi d’arresto sono uno strumento fondamentale nello studio dei processi stocastici: si tratta di
particolari tempi aleatori che soddisfano una proprietà di coerenza rispetto all’assegnata filtrazione delle
informazioni. Il concetto di tempo d’arresto è alla base di alcuni risultati profondi sulla struttura delle
martingale: il teorema di optional sampling, le disuguaglianze massimali e il lemma di upcrossing. Le
difficoltà principali della prova di questi risultati sono già evidenti in ambito discreto. Per passare al tempo
continuo sarà necessario introdurre ulteriori ipotesi sulle filtrazioni, le cosiddette ipotesi usuali. La seconda
parte del capitolo raccoglie alcuni risultati di carattere tecnico: si mostra come ampliare le filtrazioni di
processi di Markov e di altre classi importanti di processi stocastici, in modo da garantire le ipotesi usuali
mantenendo valide le proprietà dei processi.
τ : Ω −→ {0, 1, . . . , N , ∞}
tale che
(τ = n) ∈ Fn , n = 0, . . . , N . (11.1.1)
Usiamo il simbolo “∞” per indicare un numero fissato non appartenente all’insieme {0, 1, . . . , N } degli
istanti temporali considerati: il motivo dell’utilizzo di tale simbolo sarà più chiaro in seguito, per esempio
nell’Esempio 11.1.3. Assumiamo ∞ > N cosicché
(τ ≥ n) := (τ = n) ∪ · · · ∪ (τ = N ) ∪ (τ = ∞)
per ogni n = 0, . . . , N .
295
296 CAPITOLO 11. TEMPI D’ARRESTO
(τ ≤ n) ∈ Fn , n = 0, 1, . . . , N ;
ii) si ha
(τ ≥ n + 1) = (τ ≤ n)c ∈ Fn , n = 0, . . . , N , (11.1.2)
e in particolare (τ = ∞) ∈ FN ;
iii) se τ, σ sono tempi d’arresto allora τ ∧ σ e τ ∨ σ sono tempi d’arresto poiché
(τ ∧ σ ≤ n) = (τ ≤ n) ∪ (σ ≤ n), (τ ∨ σ ≤ n) = (τ ≤ n) ∩ (σ ≤ n), n = 0, . . . , N ;
iv) i tempi costanti sono tempi d’arresto: precisamente, se τ ≡ k per un certo k ∈ {0, . . . , ∞}, allora τ è un
tempo d’arresto.
Esempio 11.1.3 (Tempo d’uscita). Dati X = (Xn )n=0,1,...,N , processo adattato a valori reali e H ∈ B, poniamo
D’ora in poi adotteremo la convenzione min ∅ = ∞ e quindi scriveremo in modo più compatto
ii) se τ ≤ σ allora Fτ ⊆ Fσ ;
iii) (τ ≤ σ ) ∈ Fτ ∩ Fσ ≡ Fτ∧σ ;
Per quanto riguarda la ii) basta osservare che, dato n ∈ {0, . . . , N }, se τ ≤ σ allora (σ = n) ⊆ (τ ≤ n) e di
conseguenza per ogni A ∈ Fτ si ha
A ∩ (σ = n) = A ∩ (τ ≤ n) ∩ (σ = n) .
| {z } | {z }
∈Fn ∈Fn
(τ ≤ σ ) ∩ (τ = n) = (σ ≥ n) ∩ (τ = n) ∈ Fn ,
(τ ≤ σ ) ∩ (σ = n) = (τ ≤ n) ∩ (σ = n) ∈ Fn ,
da cui (τ ≤ σ ) ∈ Fτ ∩ Fσ . Ora, se A ∈ Fτ ∩ Fσ si ha
A ∩ (τ = n) = (A ∩ (τ ∧ σ = n)) ∩ (τ = n) ∈ Fn
(Xτ ∈ H) ∩ (τ = n) = (Xn ∈ H) ∩ (τ = n) ∈ Fn , n = 0, . . . , N .
Definizione 11.1.6 (Processo stoppato). Dati un processo X = (Xn )n=0,...,N e un tempo d’arresto τ, il pro-
cesso stoppato X τ = (Xnτ )n=0,...,N è definito da
Xnτ = Xn∧τ , n = 0, . . . , N .
e, per la (11.1.2), (k ≤ τ) ∈ Fk−1 . La ii) segue applicando l’attesa condizionata a Fn−1 all’identità
Xnτ − Xn−1
τ
= (Xn − Xn−1 )1(τ≥n) , n = 1, . . . , N ,
Xτ∧σ ≤ E [Xτ | Fσ ] ;
Ora, per i punti ii) e iv) della Proposizione 11.1.5, Xτ∧σ ∈ mFτ∧σ ⊆ mFσ e quindi condizionando (11.1.4) a
Fσ si ha
N
X h i
E [Xτ | Fσ ] = Xτ∧σ + E (Xk − Xk−1 )1(σ <k≤τ) | Fσ .
k=1
h i
Per concludere è sufficiente provare che E (Xk − Xk−1 )1(σ <k≤τ) | Fσ ≥ 0 per k = 1, . . . , N o equivalentemente,
grazie al Lemma 11.1.8,
h i h i
E Xk−1 1(σ <k≤τ) 1G ≤ E Xk 1(σ <k≤τ) 1G , G ∈ Fσ , k = 1, . . . , N . (11.1.5)
0
1 Con la convenzione P · · · = 0
k=1
2 Z ≤ E [X | G ] significa Z ≤ Y q.c. se Y = E [X | G ].
11.1. IL CASO DISCRETO 299
La (11.1.5) segue dalla proprietà di sub-martingala di X una volta osservato che, per definizione di Fσ e
per l’Osservazione 11.1.2-ii), vale
(σ < k ≤ τ) ∩ G = (σ < k) ∩ G ∩ (τ ≥ k) .
| {z } | {z }
∈Fk−1 ∈Fk−1
Xσ ≤ E [Xτ | Fσ ] . (11.1.6)
Dimostrazione. La (11.1.7) è una versione della disuguaglianza di Markov (4.1.2), con p = 1, per le mar-
tingale discrete. Se M è una martingala allora, per la Proposizione 6.4.12, |M| è una sub-martingala non-
negativa: dunque basta provare la tesi nell’ipotesi che M sia una sub-martingala non-negativa. In tal caso
indichiamo con τ il primo istante in cui M supera il livello λ,
τ = min{n | Mn ≥ λ},
300 CAPITOLO 11. TEMPI D’ARRESTO
e poniamo
M̄ = max Mn .
0≤n≤N
(M̄ ≥ λ) = (τ ≤ N ) ∈ Fτ∧N .
Allora si ha
h i h i
λP (M̄ ≥ λ) = E λ1(M̄≥λ) ≤ E Mτ∧N 1(M̄≥λ) ≤
h i Z +∞
E M̄ p = p λp−1 P M̄ ≥ λ dλ ≤
0
(per la (11.1.9))
Z +∞ h i
≤p λp−2 E MN 1(M̄≥λ) dλ ≤
0
p h p i 1 h i1− 1
≤ E MN p E M̄ p p
p−1
h i1− 1
da cui segue la (11.1.8) dividendo per E M̄ p p ed elevando alla p.
Corollario 11.1.12 (Disuguaglianze massimali di Doob). Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Per ogni tempo d’arresto discreto τ si ha:
Dimostrazione. É sufficiente applicare il Teorema 11.1.11 alla martingala stoppata M τ (cfr. Definizione
11.1.6 e Proposizione 11.1.7).
Proviamo ora un risultato, decisamente bizzarro e sorprendente, che giocherà un cruciale nello studio
delle proprietà di regolarità e di convergenza delle martingale: il Lemma di “risalita” (Upcrossing lemma).
Esso mostra che il numero di “oscillazioni” di una martingala è controllato dal suo valore atteso finale.
Questo risultato è inaspettato e va contro l’idea che potremmo esserci fatti di una martingala come un
processo le cui traiettorie sono fortemente “oscillanti” (si pensi, per esempio, al moto Browniano).
Per formalizzare il risultato, fissiamo a, b ∈ R con a < b. Il Lemma di risalita fornisce una stima del
numero di volte in cui una martingala “risale” da un valore minore di a a un valore maggiore di b. Più
precisamente, data una martingala M = (Mn )n=0,...,N sullo spazio (Ω, F , P , (Fn )n=0,...,N ), poniamo τ0 := 0 e,
ricorsivamente al variare di k ∈ N,
assumendo al solito la convenzione min ∅ = ∞. Per definizione, τk ≥ σk ≥ τk−1 e σk , τk sono tempi d’arresto a
valori in {0, . . . , N , ∞}. Se τk (ω) ≤ N allora τk (ω) è l’istante della k-esima risalita della traiettoria M(ω); invece,
se τk (ω) = ∞ allora il numero totale di risalite della traiettoria M(ω) è minore di k. In definitiva il numero di
risalite di M su [a, b] è dato da
νa,b := max{k ∈ N ∪ {0} | τk ≤ N }. (11.1.10)
Un ingrediente fondamentale della prova del Lemma di risalita è il Teorema di optional sampling in base
al quale, per ogni sub-martingala M, si ha
h i h i
E Mτk ≤ E Mσk+1 , k ∈ N. (11.1.11)
Ora è bene ricordare che, per definizione (cfr. Notazione 11.1.4), Mτk ≡ Mτk ∧N cosicché Mτk = MN su
(τk = ∞): in particolare, non è detto che Mτk (ω) ≥ b se τk (ω) = ∞. Questa osservazione è importante perché,
tra un istante di risalita τk (ω) ≤ N e il successivo, la traiettoria M(ω) deve “ridiscendere” da Mτk (ω) ≥ b
a Mσk+1 (ω) ≤ a. Il Teorema di optional sampling dice che questo non può accadere “troppo spesso”: se
h i h i
fosse σk+1 ≤ N , per la (11.1.11) si avrebbe b ≤ E Mτk ≤ E Mσk+1 ≤ a e questo è assurdo per l’ipotesi a < b.
Dunque, per ogni k ∈ N, l’evento (τk = ∞) non può essere trascurabile e, come già detto, tale evento è
identificabile con l’insieme delle traiettorie che hanno meno di k risalite. In questo senso la proprietà di
martingala e il Teorema di optional sampling limitano il numero di possibili risalite, e quindi di oscillazioni,
di M su [a, b]. Ora è chiaro che νa,b ≤ N , anzi più precisamente νa,b ≤ N2 se N ≥ 2: il fatto sorprendente del
Lemma di risalita è che fornisce una stima di νa,b indipendente da N .
Lemma 11.1.13 (Lemma di risalita). [!!] Per ogni sub-martingala M = (Mn )n=0,...,N e a < b, si ha
E [(MN − a)+ ]
E νa,b ≤
b−a
dove νa,b in (11.1.10) indica il numero di risalite di M su [a, b].
Dimostrazione. Poiché a, b sono fissati, nel corso della dimostrazione indichiamo νa,b semplicemente con ν.
Per definizione, τk ≤ N su (k ≤ ν) e τk = ∞ su (k > ν): pertanto, ricordando ancora che Mτ ≡ Mτ∧N per ogni
tempo d’arresto τ, si ha
N
X ν
X
(Mτk − Mσk ) = (Mτk − Mσk ) + Mτν+1 − Mσν+1 . (11.1.12)
k=1 k=1
Ora c’è un piccolo problema: l’ultimo termine Mτν+1 −Mσν+1 = MN −Mσν+1 può avere segno negativo (poiché
MN potrebbe anche essere minore di a). Per risolvere questo problema (vedremo tra poco quale sarà il
302 CAPITOLO 11. TEMPI D’ARRESTO
vantaggio) introduciamo il processo Y definito da Yn = (Mn − a)+ . Ricordiamo che Y è una sub-martingala
non-negativa (Proposizione 6.4.12) e il numero di risalite di M su [a, b] è uguale al numero di risalite di Y
su [0, b − a] poiché
N
X
YN ≥ YσN +1 − Yσ1 = (Yσk+1 − Yσk )
k=1
XN N
X
= (Yσk+1 − Yτk ) + (Yτk − Yσk ) ≥
k=1 k=1
(per la (11.1.13))
N
X
≥ (Yσk+1 − Yτk ) + (b − a)ν.
k=1
Applicando il valore atteso e il Teorema di optional sampling (la (11.1.11) con M = Y ) abbiamo infine la
tesi
E [YN ] ≥ E [(b − a)ν] .
Esercizio 11.1.14. Provare che, per ogni a < b, una funzione continua f : [0, 1] −→ R può avere solo un
numero finito di risalite su [a, b].
Se X è adattato ad una filtrazione (Ft ) che verifica le ipotesi usuali, allora anche ogni modificazione
di X è adattata a (Ft ). Senza l’ipotesi di completezza della filtrazione, l’affermazione è falsa. L’ipotesi di
continuità a destra della filtrazione è molto più sottile: essa significa che la conoscenza delle informazioni
fino al tempo t, rappresentate da Ft , permette di conoscere cosa succede “subito dopo” t, ossia Ft+ . Per
capire meglio questo fatto, che ora può apparire oscuro, introduciamo i concetti di tempo d’arresto in R≥0
e tempo d’uscita di un processo adattato.
Definizione 11.2.2 (Tempo d’arresto). In uno spazio con filtrazione (Ω, F , P , Ft ), un tempo d’arresto è una
variabile aleatoria5
τ : Ω −→ R≥0 ∪ {∞}
tale che
(τ ≤ t) ∈ Ft , t ≥ 0. (11.2.2)
Esempio 11.2.3 (Primo tempo di uscita). [!] Dati un processo X = (Xt )t≥0 e H ⊆ R poniamo
inf J(ω) se J(ω) , ∅,
τ(ω) = dove J(ω) = {t ≥ 0 | Xt (ω) < H}.
∞
se J(ω) = ∅,
assumendo per convenzione che l’estremo inferiore dell’insieme vuoto sia ∞ cosicché τ(ω) = ∞ se Xt (ω) ∈ H
per ogni t ≥ 0. Diciamo che τ è il primo tempo di uscita di X da H.
Proposizione 11.2.4 (Tempo di uscita da un aperto). [!] Sia X un processo adattato e continuo sullo spazio
(Ω, F , P , Ft ). Il primo tempo di uscita di X da un aperto H è un tempo d’arresto.
poiché dist(Xs , H c ) ≥ n1 ∈ Fs per s ≤ t e quindi (τ ≤ t) = (τ > t)c ∈ Ft . Proviamo la (11.2.3): se ω appartiene
al membro destro allora esiste n ∈ N tale che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ Q∩[0, t); poiché X ha traiettorie
continue, ne viene che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ [0, t] e quindi, sempre per la continuità di X, deve
essere τ(ω) > t.
Viceversa, se τ(ω) > t allora l’insieme compatto K := {Xs (ω) | s ∈ [0, t]} è incluso in H: essendo H aperto
si ha che dist(K, H c ) > 0 e questo basta a concludere.
Nel prossimo lemma proviamo che per ogni tempo d’arresto τ vale
In generale, la (11.2.4) è più debole della (11.2.2) ma, sotto le ipotesi usuali sulla filtrazione, tali condizioni
sono equivalenti.
Lemma 11.2.5. Ogni tempo d’arresto τ soddisfa la (11.2.4). Viceversa, se vale la (11.2.4) e la filtrazione
(Ft )t≥0 è continua a destra allora τ è un tempo d’arresto.
5 Ossia vale (τ ∈ H) ∈ F per ogni H ∈ B. Di conseguenza anche (τ = ∞) = (τ ∈ [0, ∞))c ∈ F .
304 CAPITOLO 11. TEMPI D’ARRESTO
Dimostrazione. Si ha [
(τ < t) = τ ≤ t − n1 .
n∈N
Se τ è un tempo d’arresto allora τ ≤ t − n1 ∈ F 1 ⊆ Ft per ogni n ∈ N, da cui segue la prima parte della
t− n
tesi.
Viceversa, se vale la (11.2.4) allora per ogni ε > 0 si ha
\
(τ ≤ t) = τ < t + n1 ∈ Ft+ε .
n∈N
1
n <ε
Quindi \
(τ ≤ t) ∈ Ft+ε = Ft
ε>0
grazie all’ipotesi di continuità a destra della filtrazione.
Osservazione 11.2.6. Se τ è un tempo d’arresto si ha
(τ = t) = (τ ≤ t) \ (τ < t) ∈ Ft .
Inoltre \ [
(τ = ∞) = (τ ≥ t) ∈ Ft .
t≥0 t≥0
Notiamo che l’unione di σ -algebre non è in generale una σ -algebra. Pertanto indichiamo con
[ !
F∞ := σ Ft (11.2.5)
t≥0
e la tesi segue dal fatto che (Xs ∈ H c ) ∈ Ft per s ≤ t poiché X è adattato a (Ft ). La seconda parte della tesi
segue direttamente dal Lemma 11.2.5.
Osservazione 11.2.8. Sotto le ipotesi usuali anche il tempo d’uscita da un Boreliano è un tempo d’arresto,
ma il risultato è molto più difficile da provare: si veda, per esempio, la Sezione I.10 in [23].
Osservazione 11.2.9. [!] Commentiamo la Proposizione 11.2.7 osservando la Figura 11.1 dove è rappre-
sentato il primo tempo di uscita τ di X dal chiuso H. Fino al tempo τ, compreso τ, la traiettoria di X è
inclusa in H. Ora si noti la differenza fra gli eventi
Figura 11.1: Grafico di una traiettoria di un processo continuo X e del suo primo tempo di uscita da un
chiudo H
Intuitivamente è plausibile che, senza la necessità di imporre condizioni sulla filtrazione, si possa dimo-
strare (è ciò che abbiamo fatto nella Proposizione 11.2.7) che (τ < t) ∈ Ft ossia che il fatto che X esca da H
prima del tempo t sia osservabile in base alla conoscenza di cosa è successo fino al tempo t (cioè Ft , in parti-
colare conoscendo la traiettoria del processo fino al tempo t). Al contrario, è solo grazie alla continuità a
destra della filtrazione che si può provare che (τ ≤ t) ∈ Ft . Infatti, se t = τ(ω) allora Xt (ω) ∈ ∂H e in base
all’osservazione della traiettoria di X fino al tempo t (ossia, avendo le informazioni in Ft ) non è possibile
sapere se X(ω) continuerà a rimanere dentro H oppure uscirà da H immediatamente dopo t. In effetti, per
una filtrazione generica (τ ≤ t) < Ft ossia, come già osservato, la condizione (τ < t) ∈ Ft è più debole di
(τ ≤ t) ∈ Ft . D’altra parte, se (Ft )t≥0 verifica le ipotesi usuali (in particolare, la continuità da destra) allora
le due condizioni (τ < t) ∈ Ft e (τ ≤ t) ∈ Ft sono equivalenti (Lemma 11.2.5). Come avevamo anticipato,
questo significa che la continuità da destra della filtrazione fa sı̀ che conoscendo Ft possiamo anche sapere
cosa succede “subito dopo” il tempo t.
Ora consideriamo un processo stocastico X = (Xt )t≥0 su (Ω, F , P ) e usiamo al solito7 la notazione
Supponiamo che X = (Xt )t≥0 sia un processo di Markov con legge di transizione p sullo spazio completo
con filtrazione (Ω, F , P , (Ft )t≥0 ). In generale non è un problema “rimpicciolire” la filtrazione: più preci-
samente, se (Gt )t≥0 è una filtrazione tale che GtX ⊆ Gt ⊆ Ft per ogni t ≥ 0, ossia (Gt )t≥0 è più piccola di
(Ft )t≥0 ma più grande di (GtX )t≥0 , allora è immediato verificare che X è un processo di Markov anche sullo
spazio (Ω, F , P , (Gt )t≥0 ). Il problema non è ovvio quando si vuole ampliare la filtrazione. I risultati seguenti
forniscono condizioni sotto le quali è possibile ampliare la filtrazione di un processo di Markov in modo
che verifichi le ipotesi usuali e rimanga valida la proprietà di Markov.
Proposizione 11.2.13. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , Ft ). Allora X è un processo di Markov con legge di transizione p su (Ω, F , P )
con la filtrazione (F¯t )t≥0 in (11.2.6).
Posto Z = p(t, Xt ; T , H) si ha Z ∈ mσ (Xt ) ⊆ mF¯t ; in base alla definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ F¯t si ha h i
E [Z1G ] = E 1(XT ∈H) 1G . (11.2.7)
La (11.2.7) è vera se G ∈ Ft : d’altra parte (cfr. Osservazione 2.4.3) G ∈ F¯t = σ (Ft ∪ N ) se e solo se
G △ A ∈ N per un certo A ∈ Ft . Dunque si ha
h i h i
E [Z1G ] = E [Z1A ] = E 1(XT ∈H) 1A = E 1(XT ∈H) 1G .
Proposizione 11.2.14. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , (Ft )t≥0 ). Supponiamo che X sia un processo di Feller con traiettorie continue
a destra q.c. Allora X è un processo di Markov con legge di transizione p su (Ω, F , P , (Ft+ )t≥0 ).
Dimostrazione. Chiaramente X è adattato rispetto a (Ft+ )t≥0 quindi c’è solo da provare la proprietà di
Markov ossia che per ogni 0 ≤ t < T e ϕ ∈ bB valga
Z
Z = E [ϕ(XT ) | Ft+ ] dove Z := p(t, Xt ; T , dy)ϕ(y).
R
7 Come in (6.4.1).
11.2. IL CASO CONTINUO 307
Per il teorema di Fubini, Z ∈ mFt ⊆ mFt+ . Quindi, per definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ Ft+ si abbia
Ora, sia h > 0 tale che t + h < T : si ha G ∈ Ft+h e quindi, per la proprietà di Markov di X rispetto a (Ft )t≥0 ,
si ha "Z #
E [ϕ(XT )1G ] = E p(t + h, Xt+h ; T , dy)ϕ(y)1G . (11.2.9)
R
Per la continuità da destra delle traiettorie di X e la proprietà di Feller di p, passando al limite per h → 0+
in (11.2.9) grazie al teorema della convergenza dominata si trova la (11.2.8).
Nel caso particolare in cui X sia un processo di Markov rispetto alla propria filtrazione standard F X si
prova che
FtX = σ (GtX ∪ N ), t ≥ 0. (11.2.10)
In altri termini, F X si ottiene completando la filtrazione generata da X e la proprietà di continuità a destra
è automaticamente soddisfatta.
Proposizione 11.2.16. [!] Se X un processo di Markov rispetto alla propria filtrazione standard F X allora
vale la (11.2.10).
Dimostrazione. La dimostrazione è basata sulla proprietà di Markov estesa del Teorema 7.2.4 in base al
quale si ha8
h i
ZE [Y | Xt ] = E ZY | FtX , Z ∈ bσ (GtX ∪ N ), Y ∈ bGt,∞
X
.
Osservazione 11.2.17. [!] Combinando le Proposizioni 11.2.13, 11.2.14 e 11.2.16 si ha il seguente risultato:
sia X un processo di Markov rispetto alla propria filtrazione generata G X e supponiamo che X sia continuo a destra
e di Feller; allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Markov anche rispetto alla filtrazione
standard F X (che verifica le ipotesi usuali).
Consideriamo ora un processo di Markov X sullo spazio (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali
e ricordiamo la definizione (7.2.6) della σ -algebra Gt,∞
X
delle informazioni future su X a partire dal tempo
t.
Teorema 11.2.18 (Legge 0-1 di Blumenthal). Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Se A ∈
Ft ∩ Gt,∞
X
allora P (A | Xt ) = 1 oppure P (A | Xt ) = 0.
8 Nel senso della Convenzione 5.2.5. Si noti che Z ∈ bσ (G X ∪ N ) ⊆ bF X .
t t
308 CAPITOLO 11. TEMPI D’ARRESTO
Dimostrazione. Notiamo esplicitamente che A non è necessariamente σ (Xt )-misurabile9 : se cosı̀ fosse, la
tesi sarebbe ovvia conseguenza dell’Esempio 5.3.3. D’altra parte, per il Corollario 7.2.5, Ft e Gt,∞
X
sono,
condizionatamente a Xt , indipendenti: ne viene che A è indipendente da sè stesso (condizionatamente a
Xt ) e quindi vale
P (A | Xt ) = P (A ∩ A | Xt ) = P (A | Xt )2 .
Da ciò si deduce che P (A | Xt ) può assumere solo i valori 0 oppure 1.
Esempio 11.2.19. [!] Riprendiamo l’Esempio 11.2.3 e supponiamo che τ sia il tempo di uscita da un chiuso
H, di un processo continuo di Markov X sullo spazio (Ω, F , P , F X ). Applichiamo la Legge 0-1 di Blumen-
thal con t = 0: chiaramente (τ = 0) ∈ F0X = F0X ∩ F0,∞ X
poiché τ è un tempo d’arresto; qui (τ = 0) indica
l’evento secondo il quale il processo X esce immediatamente da H. Allora si ha P (τ = 0 | X0 ) = 0 oppure
P (τ = 0 | X0 ) = 1, ossia quasi tutte le traiettorie di X escono subito da H oppure quasi nessuna. Questo fatto
è particolarmente interessante quando X0 appartiene al bordo di H.
(poiché p(t, x; t +h, ·) è la distribuzione di Xt+h −Xt +x che è uguale in legge a Xh +x per la stazionarietà degli
incrementi)
Z
= p(0, x; h, dy)ϕ(y) = E [ϕ(Xh + x)]
R
Proposizione 11.2.22. Sia X = (Xt )t≥0 un processo di Lévy sullo spazio completo (Ω, F , P , (Ft )t≥0 ). Allora
X è un processo di Lévy anche su (Ω, F , P , (F¯t )t≥0 ) e su (Ω, F , P , (Ft+ )t≥0 ).
Dimostrazione. Si tratta solo di verificare che, per ogni 0 ≤ s < t, l’incremento Xt − Xs è indipendente da F¯s
e da Fs+ , ossia vale
P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H), H ∈ B, (11.2.12)
Consideriamo ora il caso G ∈ Fs+ con P (G) > 0. Qui usiamo il fatto che, per il Corollario 3.5.8, la
(11.2.12) è vera se e solo se vale
E [ϕ(Xt − Xs ) | G] = E [ϕ(Xt − Xs )] ,
per ogni ϕ ∈ bC. Osserviamo che, per ogni h > 0, G ∈ Fs+h e quindi G è indipendente da Xt+h − Xs+h : ne
viene
E [ϕ(Xt+h − Xs+h ) | G] = E [ϕ(Xt+h − Xs+h )]
e si conclude passando al limite per h → 0+ , per il teorema della convergenza dominata grazie alla conti-
nuità da destra delle traiettorie di X e la continuità e limitatezza di ϕ.
Teorema 11.2.23. [!] Sia X è un processo di Lévy sullo spazio completo (Ω, F , P ) munito della filtrazione
G X generata da X. Allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Lévy anche rispetto alla
filtrazione standard F X .
Corollario 11.2.24 (Legge 0-1 di Blumenthal). Sia X = (Xt )t≥0 un processo di Lévy. Per ogni A ∈ F0X si ha
P (A) = 0 oppure P (A) = 1.
Ricordiamo la Definizione 10.3.2 di spazio di Wiener (C(R≥0 ), BµW , µW ) dove µW è la misura di Wiener
(ossia la legge di un moto Browniano) definita sul µW -completamento BµW della σ -algebra di Borel.
Definizione 11.2.25 (Moto Browniano canonico). Il moto Browniano canonico W è il processo identità10
sullo spazio di Wiener munito della filtrazione standard F W .
Osservazione 11.2.26. [!] Per il Corollario 10.3.3 e il Teorema 11.2.23, il moto Browniano canonico è un
moto Browniano, secondo la Definizione 10.1.1, sullo spazio (C(R≥0 ), BµW , µW , F W ). Ricordiamo che lo
spazio di Wiener è uno spazio metrico polacco ed uno spazio di probabilità completo in cui la filtrazione
standard F W verifica le ipotesi usuali: per queste importanti proprietà, lo spazio di Wiener e il moto Bro-
wniano canonico costituiscono rispettivamente lo spazio e il processo canonici di riferimento nello studio
delle equazioni differenziali stocastiche.
10 Ossia W (w) = w(t) per ogni w ∈ C(R ) e t ≥ 0.
t ≥0
11.2. IL CASO CONTINUO 311
è (B ⊗ Ft )-misurabile.
Se X è progressivamente misurabile allora, per il Lemma 3.3.11, è adattato a (Ft ). Viceversa, è stato
provato da Chung e Doob [27] che se X è adattato e misurabile11 allora possiede una modificazione progressi-
vamente misurabile (per una dimostrazione di questo fatto si veda, per esempio [81], Teorema T46 a p.68).
A noi basterà il seguente risultato molto più semplice:
Proposizione 11.2.29. Se X è adattato a (Ft ) e ha traiettorie continue a destra q.c. (oppure ha traiettorie
continue a sinistra q.c.) allora è progressivamente misurabile.
Dimostrazione. Consideriamo le successioni
∞ ∞
(n)
⃗ t(n) :=
X X
X X k−1
n
1[ k−1
n ,
k ) (t), X⃗t := X k 1[ k−1
n ,
k ) (t), t ∈ [0, T ], n ∈ N.
2 2 2n 2n 2 2n
k=1 k=1
(n)
⃗ (n) ∈ m(B ⊗ FT ) e X⃗ ∈ m(B ⊗ F
Poiché X è adattato, segue dal Corollario 3.3.9 che X 1 ). Se X ha
T+ 2n
traiettorie continue a sinistra q.c. allora ⃗ (n)
converge puntualmente (Leb ⊗ P )-q.o. a X su [0, T ] × Ω per
X
n → ∞: data l’arbitrarietà di T , ne viene che X è progressivamente misurabile.
(n)
Analogamente, se X ha traiettorie continue a destra q.c. allora X⃗ converge puntualmente (Leb⊗P )-q.o.
a X su [0, T ]×Ω per n → ∞: ne viene che, per ogni ε > 0, la mappa (t, ω) 7→ Xt (ω) è (B ⊗FT +ε )-misurabile su
[0, T ] × Ω. Per la continuità a destra della filtrazione si conclude che X è progressivamente misurabile.
11 Ossia (t, ω) 7→ X (ω) è B ⊗ F -misurabile.
t
312 CAPITOLO 11. TEMPI D’ARRESTO
i) τ ∈ mFτ ;
ii) se τ ≤ σ allora Fτ ⊆ Fσ ;
iii) Fτ ∩ Fσ = Fτ∧σ ;
A ∩ (σ ≤ t) = A ∩ (τ ≤ t) ∩ (σ ≤ t) .
| {z } | {z }
∈Ft ∈Ft
iv) Dobbiamo provare che (Xτ ∈ H)∩(τ ≤ t) = (Xτ∧t ∈ H)∩(τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B. Poiché (τ ≤
t) ∈ Ft è sufficiente provare che Xτ∧t ∈ mFt : questo è conseguenza del fatto che Xτ∧t (ω) = (f ◦ g)(t, ω)
con f e g funzioni misurabili definite da
e g come in (11.2.13). La misurabilità di f segue dal Corollario 3.3.9 e dal fatto che, per i), (τ ∧ t) ∈
mFτ∧t ⊆ mFt ; g è misurabile poiché X è progressivamente misurabile.
v) L’inclusione Fτ ⊆ Fτ+ è ovvia per ii). Viceversa, se A ∈ Fτ+ allora per definizione A ∩ (τ + ε ≤ t) ∈ Ft
per ogni t ≥ 0 e ε > 0: quindi A ∩ (τ ≤ t − ε) ∈ Ft per ogni t ≥ 0 e ε > 0, o equivalentemente A ∩ (τ ≤
t) ∈ Ft+ε per ogni t ≥ 0 e ε > 0. Per l’ipotesi di continuità a destra della filtrazione, si ha quindi
A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 ossia A ∈ Fτ .
Capitolo 12
C. S. Lewis
In questo capitolo X = (Xt )t≥0 indica un processo di Markov con legge di transizione p sullo spazio
(Ω, F , P , Ft ) in cui valgono le ipotesi usuali sulla filtrazione. La proprietà di Markov forte è una estensione
della proprietà di Markov in cui l’istante iniziale è un tempo d’arresto.
Ricordiamo dalla Definizione 7.1.10 che la legge di transizione p di un processo di Feller è tale che, per
ogni h > 0 e ϕ ∈ bC(R), la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
R
è continua.
Teorema 12.1.2. Sia X un processo di Markov. Se X è un processo di Feller continuo a destra allora soddisfa
la proprietà di Markov forte.
Dimostrazione. Dati h > 0 e ϕ ∈ bC, proviamo che, posto
Z
Z := p(τ, Xτ ; τ + h, dy)ϕ(y),
R
313
314 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
R
• Z = f (τ, Xτ ) con f (t, x) := p(t, x; t + h, dy)ϕ(y) funzione continua per la proprietà di Feller;
R
• Xτ ∈ mFτ per la Proposizione 11.2.30-iv), essendo X adattato e continuo a destra (quindi progressi-
vamente misurabile per la Proposizione 11.2.29).
Consideriamo prima il caso in cui τ assuma solo un’infinità numerabile di valori tk , k ∈ N: in questo caso
la (12.1.2) segue dal fatto che
∞
X h i
E [Z1A ] = E Z1A∩(τ=tk )
k=1
∞
X Z
= E p(tk , Xtk ; tk + h, dy)ϕ(y)1A∩(τ=tk ) =
k=1 R
∞
X h i
= E ϕ(Xtk +h )1A∩(τ=tk ) = E [ϕ(Xτ+h )1A ] .
k=1
Nel caso generale, consideriamo la successione di tempi d’arresto che approssimano τ, definiti da
k
2n
se k−1
2n ≤ τ(ω) <
k
2n per k ∈ N,
τn (ω) =
∞
se τ(ω) = ∞.
Per ogni n ∈ N, τn assume solo un’infinità numerabile di valori. Inoltre, τn ≥ τ e quindi se A ∈ Fτ allora
anche A ∈ Fτn e si ha
Z h i
E p(τn , Xτn ; τn + h, dy)ϕ(y)1A = E ϕ Xτn +h 1A .
R
Passando al limite in n → ∞ si ottiene la (12.1.2). Il passaggio al limite è giustificato dal teorema della con-
vergenza dominata e dal fatto che gli integrandi sono limitati e convergono puntualmente q.c.: nel membro
a destra, per la continuità da destra di X e la continuità di ϕ; nel membro a sinistra, per la continuità da
destra di X e la proprietà di Feller.
Osservazione 12.1.3. [!] In base al Teorema 12.1.2, il moto Browniano, il processo di Poisson e più in
generale i processi di Lévy (cfr. Definizione 11.2.20) godono della proprietà di Markov forte.
Proposizione 12.1.4. Siano W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ) e τ un tempo d’arresto
finito q.c. Allora il processo
Wtτ := Wt+τ − Wτ , t ≥ 0, (12.1.3)
grazie alla proprietà di Markov forte nella forma (12.1.1). Dal Teorema 5.2.10-14) segue che Wtτ ∼ N0,t ed
è indipendente da Fτ . In modo simile si prova che Wtτ − Wsτ ∼ N0,t−s ed è indipendente da Fτ+s per ogni
0 ≤ s ≤ t.
è il processo riflesso di W a partire da t0 . La Figura 12.1 rappresenta una traiettoria di W e del suo riflesso W
f
a partire da t0 = 0.2.
-1
Figura 12.1: Grafico di una traiettoria Browniana e della sua riflessa a partire da t0 = 0.2
Non è difficile verificare1 che anche W f è un moto Browniano su (Ω, F , P , Ft ). È notevole il fatto che
questo risultato si generalizzi al caso in cui t0 è un tempo d’arresto.
Teorema 12.2.1 (Principio di riflessione). [!] Siano W = (Wt )t≥0 un moto Browniano sullo spazio con
filtrazione (Ω, F , P , Ft ) e τ un tempo d’arresto. Allora il processo riflesso a partire da τ, definito da
ft := Wt∧τ − (Wt − Wt∧τ ) ,
W t ≥ 0,
1 Per s ≤ t si ha
Wt
ft = se t ≤ t0 ,
W
2Wt0 − Wt se t > t0 ,
da cui W
ft ∈ mFt e
Wt − Ws se s, t ≤ t0 ,
Wt − Ws = Wt0 − Ws − (Wt − Wt0 ) se s < t0 < t,
f f
−(Wt − Ws )
se t0 ≤ s, t,
da cui segue che W fs è indipendente da Fs ed ha distribuzione N0,t−s .
ft − W
316 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
Dimostrazione. Basta provare la tesi su un intervallo temporale [0, T ] con T > 0 fissato e quindi non è
restrittivo assumere τ < ∞ cosicché è ben definito il moto Browniano W τ in (12.1.3). Osserviamo che
τ τ
Wt = Wt∧τ + Wt−τ 1(t≥τ) , ft = Wt∧τ − Wt−τ
W 1(t≥τ) .
La tesi segue dal fatto che, essendo un moto Browniano, W τ è uguale in legge a −W τ ed è indipendente da
Fτ e quindi da Wt∧τ e da τ: ne viene che W e Wf sono uguali in legge.
W̄t := max Ws , t ≥ 0.
s∈[0,t]
(Wt ≤ a, W̄t ≥ a) = (W
ft ≥ a)
Osservazione 12.2.3. [!] Alcune conseguenze notevoli del Corollario 12.2.2 sono:
i) poiché P (|Wt | ≥ a) = 2P (Wt ≥ a), dalla (12.2.1) segue che W̄t e |Wt | sono uguali in legge;
a2
ae− 2t
γτa (t) = √ 1]0,+∞[ (t).
2πt 3/2
Xs ◦ θt = Xt+s .
Ex [Y ] := E [Y | X0 = x]
una versione della funzione attesa di Y condizionata a X0 (cfr. Definizione 5.2.16) e F0,∞
X
= σ (Xs , s ≥ 0) (cfr.
definizione (7.2.6)).
Teorema 12.3.1 (Proprietà di Markov forte nel caso omogeneo). [!] Sia X la versione canonica di un
processo di Markov forte con legge di transizione omogenea nel tempo. Per ogni tempo d’arresto τ, finito
X
q.c., e per ogni Y ∈ bF0,∞ si ha
EXτ [Y ] = E [Y ◦ θτ | Fτ ] . (12.3.1)
Dimostrazione. Per chiarezza, osserviamo esplicitamente che il membro sinistro della (12.3.1) indica la
funzione Ex [Y ] calcolata in x = Xτ . Se X soddisfa la proprietà di Markov forte (12.1.1) si ha
E [ϕ (Xh ) ◦ θτ | Fτ ] = E [ϕ (Xτ+h ) | Fτ ]
Z
= p(τ, Xτ ; τ + h, dy)ϕ(y) =
R
che prova la (12.3.1) per Y = ϕ(Xh ) con h ≥ 0 e ϕ ∈ bB. Il caso generale si prova come il Teorema 7.2.4,
estendendo prima la (12.3.1) al caso
Yn
Y= ϕi (Xhi )
i=1
con 0 ≤ h1 < · · · < hn e ϕ1 , . . . , ϕn ∈ bB, e infine utilizzando il secondo teorema di Dynkin.
Tutti i risultati sui processi di Markov visti finora si estendono al caso multidimensionale (ossia, al caso
di processi a valori in Rd ) senza alcuna difficoltà. Il seguente Teorema 12.3.2 è preliminare allo studio della
relazione fra i processi di Markov e le funzioni armoniche: ricordiamo che una funzione armonica è una
soluzione dell’operatore di Laplace o più in generale di un’equazione differenziale alle derivate parziali di
tipo ellittico. Assumiamo le seguenti ipotesi generali:
318 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
• D è un aperto di Rd ;
• X è la versione canonica di un processo di Markov forte a valori in Rd ;
• X è continuo e ha legge di transizione p omogenea nel tempo;
• X0 ∈ D q.c.;
• τD < ∞ q.c. dove τD è il tempo di uscita di X da D (cfr. Esempio 11.2.3).
Indichiamo con ∂D il bordo di D e osserviamo che, in base alle ipotesi assunte, XτD ∈ ∂D q.c. Nel seguente
enunciato Ex [·] ≡ E [· | X0 = x] indica la funzione attesa condizionata a X0 .
Teorema 12.3.2. Sia ϕ ∈ bB(∂D). Se3 h i
u(x) = Ex ϕ(XτD ) (12.3.2)
allora si ha:
X
i) il processo (u(Xt∧τD ))t≥0 è una martingala rispetto alla filtrazione (Ft∧τ ) ;
D t≥0
poiché la traiettoria ω e la traiettoria θτ (ω), ottenuta tagliando e rimuovendo la parte di ω fino all’istante
τ(ω), escono per la prima volta da D nello stesso punto XτD (ω).
Proviamo la i): per 0 ≤ s ≤ t si ha
h i h h i i
E u(Xt∧τD ) | Fs∧τD = E EXt∧τ ϕ(XτD ) | Fs∧τD =
D
X
(per la proprietà di Markov forte (12.3.1), poiché ϕ(XτD ) ∈ bF0,∞ )
h h i i
= E E ϕ(XτD ) ◦ θt∧τD | Ft∧τD | Fs∧τD =
3 La (12.3.2) significa che u è una versione della funzione attesa di ϕ(X ) condizionata a X .
τD 0
12.3. IL CASO OMOGENEO 319
Ora proviamo la ii). Se x < D(y, ε), τD(y,ε) = 0 e la tesi è ovvia conseguenza dell’Esempio 5.2.18. Se
x ∈ D(y, ε), osserviamo che τD(y,ε) ≤ τD < ∞ q.c. poiché X è continuo e applicando il Teorema di optional
sampling, nella forma del Teorema 13.5.4, alla martingala Mt := u(Xt∧τD ) abbiamo
h i
M0 = E MτD(y,ε) | F0X
ossia h i
u(X0 ) = E u(XτD(y,ε) ) | X0
che prova la (12.3.3).
320 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
Capitolo 13
Martingale continue
In questo capitolo estendiamo dal discreto al continuo alcuni importanti risultati come il teorema di
optional sampling e le disuguaglianze massimali di Doob per le martingale. La strategia generale consiste
di tre passaggi:
• i risultati vengono prima estesi dal caso discreto, in cui il numero di istanti temporali è finito, al caso
in cui gli istanti temporali siano i cosiddetti razionali diadici definiti da
[ n o n o
D := Dn , Dn := k
2n | k ∈ N0 = 0, 21n , 22n , 23n , . . . .
n≥1
• sotto l’ipotesi di continuità da destra delle traiettorie è pressoché immediato estendere la validità dei
risultati dai diadici al continuo;
• infine si mostra che l’ipotesi di continuità delle traiettorie non è restrittiva poiché ogni martingala
ammette una modificazione con traiettorie càdlàg: la dimostrazione è basata sulle disuguaglianze mas-
simali di Doob (che permettono di provare che le traiettorie non divergono quasi certamente) e sul
lemma di risalita (che permette di provare che le traiettorie non oscillano quasi certamente). Il terzo
ingrediente fondamentale è il teorema di convergenza di Vitali (Teorema A.3.0.2) che garantisce la
sussistenza della proprietà di martingala nei passaggi al limite.
Nella seconda parte del capitolo introduciamo alcuni notevoli spazi di martingale che giocheranno un
ruolo centrale nella teoria dell’integrazione stocastica. Diamo anche la definizione di martingala locale, una
nozione che generalizza quella di martingala indebolendo le ipotesi di sommabilità.
321
322 CAPITOLO 13. MARTINGALE CONTINUE
Lemma 13.1.1 (Disuguaglianze massimali di Doob sui diadici). Sia X = (Xt )t≥0 una martingala o una
sub-martingala non-negativa. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.2)
t∈D (T ) λ
!p
p p
E [|XT |p ] .
E sup |Xt | ≤ (13.1.3)
t∈D (T ) p − 1
Dimostrazione. Se X è una martingala allora |X| è una sub-martingala non-negativa per Proposizione 6.4.12.
Dunque è sufficiente provare la tesi per X sub-martingala non-negativa. Fissato T > 0, per ogni n ∈ N consi-
deriamo il processo (Xt )t∈DT ,n che è una sub-martingala non-negativa discreta relativamente alla filtrazione
(Ft )t∈DT ,n e poniamo
Mn := sup Xt , M := sup Xt .
t∈DT ,n t∈D (T )
E [XT ]
≤ .
λ−ε
La (13.1.2) segue dall’arbitrarietà di ε.
p p p p
Sia ora p > 1. Poiché DT ,n ⊆ DT ,n+1 e Mn = sup Xt , si ha 0 ≤ Mn ↗ M = sup Xt per n → ∞. Allora
t∈DT ,n t∈D (T )
per il teorema di Beppo-Levi si ha
h pi
E [M p ] = lim E Mn ≤
n→∞
Negli enunciati seguenti assumeremo sempre l’ipotesi di continuità a destra dei processi: come vedremo
nella Sezione 13.2, nel caso in cui la filtrazione soddisfi le ipotesi usuali, ogni martingala ammette una
modificazione càdlàg.
1 Si noti che
h i h i
P (M > λ − ε) = E 1(M>λ−ε) = lim E 1(Mn >λ−ε) = lim P (Mn > λ − ε),
n→∞ n→∞
poiché la successione 1(Mn >λ−ε) è monotona crescente.
13.1. OPTIONAL SAMPLING E CONTINUITÀ 323
Teorema 13.1.2 (Disuguaglianze massimali di Doob). [!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.4)
t∈[0,T ] λ
!p
p p
E [|XT |p ] .
E sup |Xt | ≤ (13.1.5)
t∈[0,T ] p − 1
Dimostrazione. La tesi è immediata conseguenza del Lemma 13.1.1 poiché se X ha traiettorie continue a
destra si ha sup |Xt | = sup |Xt |.
t∈[0,T ] t∈D (T )
Dimostrazione. Vedremo in seguito (cfr. Corollario 13.4.1) che stoppando una martingala continua a destra
si ottiene ancora una martingala. Allora la tesi segue dal Teorema 13.1.2 applicato a (Xt∧τ )t≥0 .
Per estendere alcuni risultati su tempi d’arresto e martingale dal caso discreto a quello continuo, è utile
il seguente risultato tecnico di approssimazione.
Lemma 13.1.4. Dato un tempo d’arresto τ : Ω −→ [0, +∞] esiste una successione (τn )n∈N di tempi d’arresto
discreti (cfr. Definizione 11.1.1)
τn : Ω −→ { 2kn | k = 1, 2, . . . , n2n }
tali che:
i) τn −→ τ per n → ∞;
ii) τn+1 (ω) ≤ τn (ω) se n > τ(ω).
Dimostrazione. Per ogni n ∈ N poniamo
k k−1 k
2n se 2n ≤ τ(ω) <
2n per k ∈ {1, 2, . . . , n2n },
τn (ω) =
n
se τ(ω) ≥ n.
Osservazione 13.1.5. In base alla ii) del Lemma 13.1.4, se τ(ω) < ∞, la successione approssimante (τn (ω))n∈N
ha la proprietà di essere monotona decrescente almeno per n abbastanza grande. D’altra parte, se τ(ω) = ∞
allora τn (ω) = n.
Diamo una prima versione del teorema di optional sampling: ne vedremo una seconda, con ipotesi più
deboli sui tempi d’arresto, nel Teorema 13.5.4.
Teorema 13.1.6 (Teorema di optional sampling). [!!!] Sia X = (Xt )t≥0 una sub-martingala continua a
destra. Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 ≤ T per un certo T > 0, allora si ha
h i
Xτ1 ≤ E Xτ2 | Fτ1 .
Dimostrazione. Supponiamo che X sia una martingala continua a destra. Consideriamo le successioni
(τi,n )n∈N , i = 1, 2, costruite come nel Lemma 13.1.4, di tempi d’arresto discreti tali che τi,n −−−−−→ τi : per
n→∞
costruzione si ha anche τ1,n ≤ τ2,n per ogni n ∈ N. Poniamo inoltre τ̄i,n = τi,n ∧ T . Per la proprietà di mono-
tonia di τ̄i,n (cfr. Lemma 13.1.4-ii)) e la continuità a destra di X, si ha Xτ̄i,n −−−−−→ Xτi . D’altra parte, per la
n→∞
versione discreta del Teorema di optional sampling (cfr. Teorema 11.1.10) si ha
h i
Xτ̄i,n = E XT | Fτ̄i,n (13.1.6)
e quindi per la Proposizione A.3.0.7 (e l’Osservazione A.3.0.8) le successioni (Xτ̄i,n )n∈N sono uniformemente
integrabili. Ne viene che, per il Teorema A.3.0.2 di convergenza di Vitali, si ha anche convergenza in
L1 (Ω, P ):
L1
Xτ̄i,n −−−−−→ Xτi , i = 1, 2. (13.1.7)
n→∞
Ancora per il Teorema 11.1.10 di optional sampling si ha
h i
Xτ̄1,n = E Xτ̄2,n | Fτ̄1,n
esistono e sono finiti per ogni ω ∈ Ω \ N . Inoltre, se sup E [|Xt |] < ∞ allora esiste ed è finito anche il limite
t∈D
Dimostrazione. L’idea della prova è la seguente. Il fatto che i limiti in (13.2.1) divergano o non esistano
è possibile solo in due casi: se sup |Xt (ω)| = ∞ oppure se esiste un intervallo non banale [a, b] che è “at-
t∈D
traversato” da X un numero infinito di volte. La disuguaglianza massimale di Doob e il lemma di risalita
escludono rispettivamente queste due eventualità o, più precisamente, implicano che si verificano solo per
ω appartenente ad un evento trascurabile.
Consideriamo prima il caso in cui κ := sup E [|Xt |] < ∞. Fissato n ∈ N, applichiamo la disuguaglianza
t∈D
massimale (11.1.7) e il Lemma 11.1.13 di risalita alla sub-martingala discreta non-negativa (|Xt |)t∈Dn ∩[0,n] :
per ogni λ > 0 e 0 ≤ a < b, abbiamo
E [(|Xn | − a)+ ]
!
E [|Xn |] κ κ
P max |Xt | ≥ λ ≤ ≤ , E νn,a,b ≤ ≤ ,
t∈Dn ∩[0,n] λ λ b−a b−a
dove νn,a,b è il numero di risalite di (|Xt |)t∈Dn ∩[0,n] su [a, b]. Passando al limite per n → ∞ e usando il teorema
di Beppo-Levi, abbiamo
!
κ κ
P sup |Xt | ≥ λ ≤ , E νa,b ≤ ,
t∈D λ b −a
dove νa,b è il numero di risalite di (|Xt |)t∈D su [a, b]. Questo implica l’esistenza di due eventi trascurabili N0
e Na,b per cui vale
sup |Xt | < ∞ su Ω \ N0 , νa,b < ∞ su Ω \ Na,b .
t∈D
Anche l’evento [
N := Na,b ∪ N0
a,b∈Q
0≤a<b
326 CAPITOLO 13. MARTINGALE CONTINUE
è trascurabile: per ogni ω ∈ Ω \ N si ha che sup |Xt (ω)| < ∞ e, su ogni intervallo con estremi razionali
t∈D
non-negativi, ci sono solo un numero finito di risalite di |X(ω)|; di conseguenza i limiti in (13.2.1)-(13.2.2)
esistono e sono finiti su Ω \ N .
Consideriamo ora il caso in cui X è una martingala generica. Per ogni n ∈ N, possiamo applicare
quanto appena provato al processo stoppato (Xt∧n )t∈D . Infatti è immediato verificare che (Xt∧n )t∈D è una
martingala e vale
sup E [|Xt∧n |] ≤ E [|Xn |]
t∈D
come conseguenza del fatto che, per la Proposizione 6.4.12, (|Xt∧n |)t∈D è una sub-martingala.
Dunque i limiti in (13.2.1) esistono e sono finiti quasi certamente per t ≤ n. La tesi segue dall’arbitrarietà
di n ∈ N.
L’argomento usato nella seconda parte della dimostrazione del Lemma 13.2.1 si adatta facilmente per
provare il seguente
Teorema 13.2.2. [!] Sia X = (Xn )n∈N una martingala discreta tale che sup E [|Xn |] < ∞. Allora, per quasi
n∈N
ogni ω ∈ Ω, esiste ed è finito il limite
X∞ (ω) := lim Xn (ω).
n→∞
Nella dimostrazione del prossimo risultato è cruciale l’assunzione delle ipotesi usuali sulla filtrazione,
in particolare della continuità a destra della filtrazione.
Teorema 13.2.3. [!] Assumiamo che nello spazio su (Ω, F , P , Ft ) valgano le ipotesi usuali sulla filtrazio-
ne. Allora ogni martingala (o sub-martingala non-negativa) X = (Xt )t≥0 ammette una modificazione che è
ancora una martingala (rispettivamente, sub-martingala non-negativa) con traiettorie càdlàg.
Dimostrazione. Proviamo solo in caso in cui X è una martingala. Per il Lemma 13.2.1 le traiettorie di (Xt )t∈D
hanno limiti finiti da destra e sinistra quasi certamente. Allora è ben definito il processo
et := lim Xs ,
X t ≥ 0,
+
s→t
s∈D
et = E [XT | Ft ] ,
X 0≤t ≤T, (13.2.3)
Esempio 13.2.4. Per ogni variabile aleatoria sommabile X esiste una versione càdlàg della martingala Mt :=
E [X | Ft ].
Osservazione 13.2.5. [!] Alla luce del Teorema 13.2.3 d’ora in poi, data una martingala rispetto a una
filtrazione che verifica ipotesi usuali, assumiamo implicitamente di considerarne sempre una versione càdlàg.
13.3. MARTINGALE CONTINUE DI QUADRATO SOMMABILI: LO SPAZIO M c,2 327
Indichiamo con M c,2 lo spazio delle martingale continue X = (Xt )t≥0 tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0.
Osservazione 13.3.2. Notiamo che ∥ · ∥T è una semi-norma in MTc,2 , nel senso che ∥X∥T = 0 se e solo se X è
indistinguibile dal processo identicamente nullo. Questo fatto è conseguenza dell’ipotesi di continuità di X
e della disuguaglianza massimale di Doob in base alla quale si ha
h i
2
E sup Xt ≤ 4E XT2 = 4∥X∥2T .
t∈[0,T ]
Identificando i processi indistinguibili di MTc,2 e quindi considerando MTc,2 come lo spazio delle classi di
equivalenza di processi (nel senso dell’indistinguibilità), si ottiene uno spazio normato completo.
Proposizione 13.3.3. (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.
Dimostrazione. Sia (Xn )n∈N una successione di Cauchy in MTc,2 rispetto a ∥ · ∥T . Basta mostrare che (Xn )n∈N
ammette una sotto-successione convergente in MTc,2 .
Per la disuguaglianza massimale di Doob (13.1.4), per ogni ε > 0 e n, m ∈ N si ha
E |Xn,T − Xm,T |
P sup |Xn,t − Xm,t | ≥ ε ≤ ≤
t∈[0,T ] ε
(per la disuguaglianza di Hölder)
h i1
E |Xn,T − Xm,T |2 2 ∥Xn − Xm ∥T
≤ = .
ε ε
Di conseguenza, per ogni k ∈ N esiste nk ∈ N tale che
1 1
P sup |Xn,t − Xm,t | ≥ ≤ k , n, m ≥ nk ,
t∈[0,T ] k 2
e per il Lemma 2.3.28 di Borel-Cantelli Xnk ,· converge uniformemente su [0, T ] quasi certamente: il valore
limite, che indichiamo con X, è un processo continuo (possiamo porre a zero le traiettorie non continue).
Fissiamo
t ∈ [0, T ]: per la disuguaglianza di Doob (13.1.5), anche la successione di variabili aleatorie
Xnk ,t è di Cauchy in L2 (Ω, P ) che è uno spazio completo e, per l’unicità del limite, converge a Xt nel
k∈N
senso che 2
lim E Xt − Xnk ,t = 0. (13.3.1)
k→∞
In particolare, se t = T , si ha
lim
X − Xnk
T = 0.
k→∞
Infine proviamo che X è una martingala. Per 0 ≤ s ≤ t ≤ T e G ∈ Fs si ha
h i h i
E Xnk ,t 1G = E Xnk ,s 1G
poiché Xnk ∈ MTc,2 . Passando al limite per n → ∞ grazie alla (13.3.1) si ha E [Xt 1G ] = E [Xs 1G ] che prova la
tesi.
328 CAPITOLO 13. MARTINGALE CONTINUE
Definizione 13.4.2 (Martingala locale). Diciamo che X = (Xt )t≥0 è una martingala locale se X0 ∈ mF0 ed
esiste una successione crescente (τn )n∈N di tempi d’arresto, detta successione localizzante per X, tale che:
i) τn ↗ ∞ per n → ∞;
ii) per ogni n ∈ N, il processo stoppato e traslato (Xt∧τn − X0 )t≥0 è una martingala.
Xt := Y Wt
che definisce una successione crescente di tempi d’arresto (si noti che (τn ≤ t) = (|Y | > n) ∈ F0 ⊆ Ft ). Allora,
per ogni n ∈ N, il processo
t 7→ Xt∧τn = Xt 1(τn =∞) = Wt Y 1(|Y |≤n)
è una martingala poiché è del tipo Wt Ȳ con Ȳ = Y 1(|Y |≤n) variabile aleatoria limitata.
13.5. MARTINGALE UNIFORMEMENTE IN L2 329
Osservazione 13.4.5. Se X è una martingala locale con successione localizzante (τn )n∈N allora:
i) X ha una modificazione con traiettorie càdlàg che si costruisce a partire dall’esistenza di una modi-
ficazione càdlàg di ogni martingala Xt∧τn . Nel seguito, il fatto che X sia càdlàg sarà implicitamente
assunto per ipotesi;
ii) X è adattato poiché X0 ∈ mF0 per definizione e Xt − X0 è limite puntuale di Xt∧τn − X0 che è mFt -
misurabile per definizione di martingala;
iv) se X ha traiettorie càdlàg allora esiste una successione localizzante (τ̄n )n∈N tale che
|τ̄n | ≤ n, Xt∧τ̄n ≤ n, t ≥ 0, n ∈ N.
Infatti, per la Proposizione 11.2.7, il tempo di uscita σn di |X| dall’intervallo [−n, n] è un tempo d’ar-
resto; inoltre, poiché X è càdlàg (e quindi ogni traiettoria di X è limitata su ogni intervallo temporale
compatto) si ha σn ↗ ∞. Allora
τ̄n := τn ∧ σn ∧ n
è una successione localizzante per X: in particolare, poiché Xt∧τn − X0 è una martingala, per il
Corollario 13.4.1 anche Xt∧τ̄n − X0 = X(t∧τ̄n )∧(σn ∧n) − X0 lo è;
v) se esiste Y ∈ L1h(Ω, P ) tale che i|Xt | ≤ Y per ogni t ≥ 0, allora X è una martingala: infatti per s ≤ t si ha
Xs∧τn − X0 = E Xt∧τn − X0 | Fs che, grazie all’ipotesi di sommabilità, equivale a
h i
Xs∧τn = E Xt∧τn | Fs . (13.4.1)
La tesi segue passando al limite per n → ∞ e utilizzando il Teorema della convergenza dominata
per l’attesa condizionata. In particolare, ogni martingala locale limitata è una martingala. Il pas-
saggio al limite in (13.4.1) è una questione molto delicata: per esempio, esistono martingale locali
uniformemente integrabili che non sono martingale3 ;
vi) se X ≥ 0 allora X è una super-martingala poiché, ragionando come nel punto precedente e utilizzando
il lemma di Fatou invece del Teorema della convergenza dominata, si ottiene
Inoltre, se E [XT ] = E [X0 ] allora (Xt )t∈[0,T ] è una vera martingala. Infatti, da (13.4.2) è facile dedurre
e quindi dall’ipotesi si ha E [Xt ] = E [X0 ] per ogni t ∈ [0, T ]. Se fosse Xs > E [Xt | Fs ] su un evento non
trascurabile, avremmo una contraddizione dalla (13.4.2).
Proposizione 13.5.2. Sia X = (Xt )t≥0 una martingala. Sono equivalenti le seguenti affermazioni:
i) X è uniformemente in L2 ;
ii) esiste una v.a. X∞ ∈ L2 (Ω, P ) e F∞ -misurabile4 , tale che
Xt = E [X∞ | Ft ] , t ≥ 0.
[i) ⇒ ii)] Consideriamo la martingala discreta (Xn )n∈N . Per il Teorema 13.2.2, per quasi ogni ω ∈ Ω esiste ed
è finito il limite
X∞ (ω) := lim Xn (ω)
n→∞
e poniamo X∞ (ω) = 0 per gli ω per cui tale limite non esiste o non è finito. Chiaramente X∞ ∈ mF∞ e
inoltre X∞ ∈ L2 (Ω, P ) poiché per il lemma di Fatou vale
h i h i h i
2
E X∞ ≤ lim E Xn2 ≤ sup E Xt2 < ∞
n→∞ t≥0
per ipotesi. Grazie all’Osservazione A.3.0.10, (Xn )n∈N è uniformemente integrabile e quindi per il Teorema
A.3.0.2 di Vitali si ha anche che Xn converge a X∞ in L1 (Ω, P ): da questo segue anche che
Xn = E [X∞ | Fn ] , n ∈ N; (13.5.3)
infatti, usando la definizione di attesa condizionata, è sufficiente osservare che per ogni A ∈ Fn si ha
Teorema 13.5.4 (Teorema di optional sampling). [!] Sia X = (Xt )t≥0 una martingala (càdlàg) uniforme-
mente in L2 . Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 < ∞ allora si ha
h i
Xτ1 = E Xτ2 | Fτ1 .
Dimostrazione. Cominciamo col provare che se X = (Xt )t≥0 è una sub-martingala càdlàg uniformemente in
L2 , allora per ogni tempo d’arresto τ finito q.c. (ossia P (τ < ∞) = 1) vale
X0 ≤ E [Xτ | F0 ] . (13.5.4)
Osserviamo anzitutto che se τ è un tempo d’arresto finito q.c. allora Xτ ∈ L2 (Ω, P ) per la (13.5.1). Ap-
plicando il Teorema 13.1.6 di optional sampling con la successione di tempi d’arresto limitati τ ∧ n, si
ha
X0 ≤ E [Xτ∧n | F0 ] . (13.5.5)
Passando al limite per n → ∞ si ha (13.5.4): il passaggio al limite nel membro a destra della (13.5.5) è
giustificato dal teorema della convergenza dominata poiché
Consideriamo
τ := τ1 1A + τ2 1Ac
che è un tempo d’arresto poiché
da cui la (13.5.6).
332 CAPITOLO 13. MARTINGALE CONTINUE
Capitolo 14
In questo capitolo facciamo alcuni richiami di teoria dell’integrazione deterministica secondo Riemann-
Stieltjes e Lebesgue-Stieltjes. Le traiettorie del moto Browniano (e, in generale, delle martingale) non han-
no la regolarità sufficiente per poter utilizzare tali teorie al fine di definire l’integrale Browniano in senso
deterministico, traiettoria per traiettoria. Questo fatto viene precisato tramite i concetti di variazione pri-
ma e seconda (o quadratica) di una funzione che sono cruciali nella costruzione dell’integrale stocastico.
Successivamente introduciamo un’importante classe di processi stocastici chiamati semimartingale. Una
semimartingala è la somma di una martingala locale con un processo le cui traiettorie hanno variazione
prima limitata: sotto opportune ipotesi, tale decomposizione è unica. Proviamo una versione particolare
del fondamentale Teorema di decomposizione di Doob-Meyer: se X è una martingala allora X 2 è una se-
mimartingala, ossia può essere decomposto nella somma di una martingala e di un processo a variazione
limitata: quest’ultimo è il cosiddetto processo variazione quadratica di X. I risultati di questo capitolo sono
alla base della definizione di integrale stocastico che daremo in seguito.
g : [0, T ] −→ Rd
Definizione 14.1.1 (Funzione BV). Si dice che g ha variazione limitata su [0, T ], e si scrive g ∈ BVT , se
Si dice che
g : R≥0 −→ Rd
è localmente a variazione limitata, e si scrive g ∈ BV, se g|[0,T ] ∈ BVT per ogni T > 0.
333
334 CAPITOLO 14. TEORIA DELLA VARIAZIONE
Esempio 14.1.2. i) Sia d = 1. Se g è una funzione monotona su [0, T ] allora g ∈ BVT . Infatti se, per
esempio, g è crescente allora
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| = (g(tk ) − g(tk−1 )) = g(T ) − g(0)
k=1 k=1
per ogni π ∈ PT . Nel caso d = 1 la monotonia è pressoché una caratterizzazione: è noto che g ∈ BVT
se e solo se g è differenza di funzioni monotone crescenti, g = g+ − g− . Inoltre, se g è continua allora
anche g+ e g− lo sono.
ii) Non è difficile mostrare che, se g è continua allora
dove
|π| := max |tk − tk−1 |
1≤k≤N
è detto parametro di finezza di π. Interpretando t 7→ g(t) come una traiettoria (o curva parametrizzata)
in Rd , il fatto che g ∈ BVT significa che g è una traiettoria rettificabile (ossia, con lunghezza appros-
simabile mediante spezzate) e, per definizione, VT (g) è la lunghezza di g. La (14.1.1) non vale se g è
discontinua: per esempio, fissato s ∈ ]0, T [, la funzione
1 se t = s,
g(t) =
0 se t ∈ [0, s[∪ ]s, T ],
è tale che V (g; π) = 2 per ogni π ∈ PT tale che s ∈ π e V (g; π) = 0 per ogni π ∈ PT tale che s < π.
iii) Se g ∈ Lip([0, T ]; Rd ), ossia esiste una costante c tale che |g(t) − g(s)| ≤ c|t − s| per ogni t, s ∈ [0, T ], allora
g ∈ BVT poiché
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| ≤ c (tk − tk−1 ) = cT
k=1 k=1
per ogni π ∈ PT .
iv) Se g è una funzione integrale del tipo
Z t
g(t) = u(s)ds, t ∈ [0, T ],
0
per ogni π ∈ PT .
v) Non è difficile provare che la funzione
0 se t = 0,
g(t) =
t sin 1t
se 0 < t ≤ T ,
τ = {τ1 , . . . , τN }, τk ∈ [tk−1 , tk ], k = 1, . . . , N .
per ogni π′ , π′′ ∈ PT tali che |π′ |, |π′′ | < δε e per ogni τ ′ ∈ Tπ′ e τ ′′ ∈ Tπ′′ .
Poniamo π = π′ ∪ π′′ = {t0 , . . . , tN }. Poiché f è uniformemente continua sul compatto [0, T ], fissato ε > 0
esiste δε > 0 tale che, per |π′ |, |π′′ | < δε , si ha
N
X
S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) ≤ ε |g(tk ) − g(tk−1 )| ≤ εV (g; π)
k=1
Per ogni f ∈ C[0, T ], π = {t0 , . . . , tN } ∈ PT e τ ∈ Tπ , sia k̄ l’indice per cui vale t̄ ∈ ]tk̄−1 , tk̄ ]. Allora si ha
Dunque
Z T
f dg = f (t̄).
0
336 CAPITOLO 14. TEORIA DELLA VARIAZIONE
Si noti che Z T Z
f (t)dg(t) = f (t)δt̄ (dt)
0 [0,T ]
dove il membro a destra è l’integrale rispetto alla misura delta di Dirac centrata in t̄.
Esempio 14.1.5. Sia Z t
g(t) = u(s)ds, t ∈ [0, T ],
0
la funzione integrale (di Lebesgue) dell’Esempio 14.1.2-iv), con u ∈ L1 ([0, T ]; R). A meno di considerare
separatamente la parte positiva e negativa di u, non è restrittivo assumere u ≥ 0. Date π ∈ PT e f ∈ C[0, T ],
consideriamo la particolare scelta di punti
τk ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ]
Allora si ha
N
X
S(f , g; π, τ) = f (τk )(g(tk ) − g(tk−1 ))
k=1
N
X Z tk
= f (τk ) u(s)ds
k=1 tk−1
XN Z tk Z T
≤ f (s)u(s)ds = f (s)u(s)ds.
k=1 tk−1 0
Il risultato generale che fornisce le regole di calcolo per l’integrale di Riemann-Stieltjes è la seguente
importante formula di Itô.
Teorema 14.1.6 (Formula di Itô deterministica). Per ogni F = F(t, x) ∈ C 1 ([0, T ] × R) e g ∈ BVT ∩ C[0, T ]
vale ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∂x F)(t, g(t))dg(t)
0 0
Dimostrazione. Per ogni π = {t0 , . . . , tN } ∈ PT si ha
N
X
F(T , g(T )) − F(0, g(0)) = (F(tk , g(tk )) − F(tk−1 , g(tk−1 ))) =
k=1
Osservazione 14.1.7. Nel caso in cui F dipenda solo da x, la formula di Itô diventa
ZT
F(g(T )) − F(g(0)) = F ′ (g(t))dg(t)
0
che viene a volte scritta, soprattutto nell’ambito del calcolo stocastico (cfr. Notazione 15.3.4), con la
cosiddetta “notazione differenziale”
dF(g(t)) = F ′ (g(t))dg(t). (14.1.3)
Quest’ultima formalmente ricorda l’usuale regola di derivazione di funzione composta.
Nel caso multidimensionale in cui g = (g1 , . . . , gd ) sia a valori in Rd , posto ∇x = (∂x1 , . . . , ∂xd ), la formula
di Itô diventa
ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t)
0 0
Z T d Z
X T
= (∂t F)(t, g(t))dt + (∂xi F)(t, g(t))dgi (t)
0 i=1 0
o in notazione differenziale
In realtà per applicare il Teorema 2.4.33 sarebbe sufficiente assumere g continua da destra (come nell’E-
sempio 14.1.4 in cui µg = δt̄ ). Tuttavia, per semplificare la trattazione, assumeremo g continua anche perché
in seguito studieremo l’integrale stocastico solo con integratori continui. Indichiamo
la misura somma di µ+g e µ−g . Inoltre, per ogni H ∈ B tale che almeno uno fra µ+g (H) e µ−g (H) sia finito,
poniamo
µg (H) = µ+g (H) − µ−g (H). (14.2.1)
Diciamo che µg è una misura con segno poiché può assumere anche valori negativi, compreso −∞.
con
τk+ ∈ arg max f , τk− ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ] [tk−1 ,tk ]
Allora si ha
N
X Z Z Z N
X
f (τk− ) (g+ (tk ) − g+ (tk−1 )) = fπ− dµ+g ≤ f dµ+g ≤ fπ+ dµ+g = f (τk+ ) (g+ (tk ) − g+ (tk−1 )) .
k=1 [0.T ] [0,T ] [0.T ] k=1
Diamo un risultato tecnico che sarà utilizzato in seguito (si veda, per esempio, il Teorema 16.2.1).
Proposizione 14.2.3. In uno spazio (Ω, F , P , (Ft )t≥0 ) in cui sono valide le ipotesi usuali, siano:
dove
n
(n)
X
Mt = M0 + Mτk 1]τk−1 ,τk ] (t).
k=1
per quasi ogni ω tale che t ≤ τ(ω). Data la limitatezza di X e quindi di M, la tesi segue dal teorema della
convergenza dominata. In generale, è sufficiente applicare quanto appena provato a X ∧ N , A ∧ N e usare il
teorema di Beppo-Levi al tendere di N → ∞.
14.3 Semimartingale
Definizione 14.3.1. Diciamo che un processo X = (Xt )t≥0 è
• localmente a variazione limitata se X(ω) ∈ BV per quasi ogni ω ∈ Ω (cfr. Definizione 14.1.1). Per bre-
vità spesso ometteremo l’aggettivo “localmente” e parleremo semplicemente di processi a variazione
limitata, usando ancora la notazione BV per indicare la famiglia di tali processi;
L’interesse per le semimartingale è dovuto al fatto che utilizzeremo tali processi come integratori nel-
l’integrale stocastico di Itô. Ci limiteremo a considerare semimartingale continue, ossia processi della forma
X = M + A con M ∈ M c,loc (cfr. Definizione 13.4.2) e A continuo, adattato e a variazione limitata.
Esempio 14.3.2. Siano x, µ, σ ∈ R e W un moto Browniano standard. Il moto Browniano con drift
Xt := x + µt + σ Wt , t ≥ 0,
Dimostrazione. Essendo g uniformemente continua sull’intervallo compatto [0, T ], per ogni ε > 0 esiste
δε > 0 tale che
max |g(tk ) − g(tk−1 )| < ε
1≤k≤N
per ogni π ∈ PT tale che |π| < δε . Di conseguenza
N
(2)
X
VT (g; π) ≤ ε |g(tk ) − g(tk−1 )| ≤ εVT (g).
k=1
se h < k. Allora si ha
N
2
" 2 #
(2)
X
2
E VT (W ; π) − T = E ∆k − δk
k=1
N
X 2 X h i
= E ∆2k − δk +2 E ∆2h − δh ∆2k − δk =
k=1 h<k
(sviluppando il primo quadrato e osservando che i termini della seconda somma sono nulli per la (14.3.3))
N
X h i
= E ∆4k − 2∆2k δk + δk2 =
k=1
da cui la tesi.
Allora si ha
N N
h i X X 2
E XT2 = E Xt2k − Xt2k−1 = E Xtk − Xtk−1 ≤ E [∆π VT (X; π)] ≤ KE [∆π ]
k=1 k=1
342 CAPITOLO 14. TEORIA DELLA VARIAZIONE
h i
che, per |π| → 0, tende a zero per la (14.3.4) grazie al teorema della convergenza dominata. Dunque E XT2 =
0 e per la disuguaglianza massimale di Doob
" #
h i
E sup Xt2 ≤ 4E XT2 = 0.
0≤t≤T
Di conseguenza, per continuità, quasi tutte le traiettorie di X sono identicamente nulle su [0, T ]. Data
l’arbitrarietà di T si conclude che X è indistinguibile dal processo nullo.
Nel caso generale, consideriamo una successione localizzante τ̄n per cui Yn,t := Xt∧τ̄n ∈ BV. Ritocchiamo
tale successione definendo i tempi d’arresto
Anche τn := τ̄n ∧σn ∧n è una successione localizzante per X: inoltre, Xt∧τn è una martingala continua, limita-
ta, costante per t ≥ n e con variazione prima limitata da n. Per quanto provato sopra, Xt∧τn è indistinguibile
dal processo nullo e la tesi segue passando al limite per n → ∞.
Corollario 14.3.7. [!] Sia X una semimartingala continua. È unica la rappresentazione X = M + A, con
M ∈ M c,loc e A continuo, adattato, a variazione limitata e tale che A0 = 0.
Teorema 14.4.1 (Processo variazione quadratica). [!!] Per ogni X ∈ M c,2 esistono e sono unici (a meno di
indistinguibilità) due processi M e ⟨X⟩ tali che:
iii) si ha la decomposizione
Xt2 = Mt + ⟨X⟩t , t ≥ 0;
3 Chiaramente ⟨X⟩ è anche sommabile poiché ⟨X⟩ = X 2 − M con X ∈ L2 (Ω, P ) per ipotesi e M ∈ L1 (Ω, P ) per definizione di
t t t t t
martingala.
14.5. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 343
iv) vale h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] , t ≥ s ≥ 0. (14.4.1)
La (14.4.1) è la prima versione di un’importante identità chiamata isometria di Itô (cfr. Sezione 15.2.1).
Più in generale, se X ∈ M c,loc allora valgono ancora la ii) e la iii), mentre la i) viene sostituita da
i’) M ∈ M c,loc .
Il processo ⟨X⟩ è chiamato processo variazione quadratica di X: per ogni t > 0 si ha
2n
X 2
⟨X⟩t = lim X tkn − X t(k−1) (14.4.2)
n→∞ 2 2n
k=1
in probabilità. Più in generale, data una semimartingala continua della forma S = X + A, con X ∈ M c,loc e
A ∈ BV adattato, per ogni t > 0 si ha
2n
X 2
⟨S⟩t := lim S tkn − S t(k−1) = ⟨X⟩t (14.4.3)
n→∞ 2 2n
k=1
Osservazione 14.4.3. Il Teorema 14.4.1 è un caso particolare di un risultato profondo e più generale, noto
come Teorema di decomposizione di Doob-Meyer, che afferma che ogni sub-martingala X càdlàg di classe D
(ossia tale che la famiglia delle v.a. Xτ , al variare di τ tempo d’arresto, sia uniformemente integrabile) si scrive in
modo unico nella forma X = M + A con M martingala continua e A processo crescente e tale che A0 = 0.
Tale risultato è stato provato per la prima volta da Meyer negli anni ’60 del secolo scorso e da allora sono
state fornite molte altre dimostrazioni. Una prova particolarmente sintetica è stata recentemente proposta
in [15]: l’idea molto intuitiva è di discretizzare il processo X sui diadici, utilizzare la versione discreta del
Teorema di decomposizione di Doob (cfr. Teorema 6.4.15) e infine provare con il Lemma 14.5.1 di Komlos
che la successione delle decomposizioni discrete converge alla decomposizione cercata.
Osservazione 14.4.4. Grazie al Teorema 13.1.6 di optional sampling, l’importante identità (14.4.1) si ge-
neralizza al caso in cui al posto di t, s ci sono rispettivamente due tempi d’arresto limitati τ, σ tali che
σ ≤ τ ≤ T q.c. per un certo T > 0.
Cn = {λn fn + · · · + λN fN | N ≥ n, λn , . . . , λN ≥ 0, λn + · · · + λN = 1}
Lemma 14.5.1 (Lemma di Komlos [63]). Sia (fn )n∈N una successione limitata in uno spazio di Hilbert.
Allora esiste una successione convergente (gn )n∈N , con gn ∈ Cn .
Dimostrazione. Se ∥fn ∥ ≤ K per ogni n ∈ N allora, per la disuguaglianza triangolare, ∥g∥ ≤ K per ogni g ∈ Cn .
Dunque, posto
an := inf ∥g∥, n ∈ N,
g∈Cn
si ha an ≤ an+1 e a := sup an ≤ K. Allora per ogni n ∈ N esiste gn ∈ Cn tale che ∥gn ∥ ≤ a + n1 . D’altra parte,
n∈N
g +g
per ogni ε > 0 esiste nε ∈ N tale che
n 2 m
≥ a − ε per ogni n ≥ m ≥ nε : questo semplicemente perché
gn +gm
2 ∈ Cn e per definizione di a. Allora, per ogni n, m ≥ nε , si ha
1 2
∥gn − gm ∥2 = 2∥gn ∥2 + 2∥gm ∥2 − ∥gn + gm ∥2 ≤ 4 a + − 4(a − ε)2
n
che prova che (gn )n∈N è una successione di Cauchy e quindi convergente.
Dimostrazione del Teorema 14.4.1. L’unicità segue direttamente dal Teorema 14.3.6 poiché se M ′ e A′ verifi-
cano le i), ii) e iii) allora M −M ′ è una martingala continua a variazione limitata che parte da 0. Dimostriamo
l’esistenza assumendo dapprima che X = (Xt )t∈[0,1] sia una martingala continua e limitata:
per una certa costante positiva K. Questa è la parte difficile della dimostrazione, in cui emergono le idee
principali. Procediamo per passi.
[Passo 1] Fissato n ∈ N, introduciamo le seguenti notazione per semplificare i calcoli sui diadici di [0, 1]:
k
X 2
Xn,k = X k , An,k = Xn,i − Xn,i−1 , Fn,k := F k , k = 0, 1, . . . , 2n .
2n 2n
i=1
Chiaramente k 7→ Xn,k e k 7→ An,k sono processi adattati alla filtrazione discreta (Fn,k )k=0,1,...,2n e k 7→ An,k è
crescente. Inoltre il processo
2
Mn,k := Xn,k − An,k , k = 0, 1, . . . , 2n
è una martingala discreta. Infatti si ha
h i
E An,k − An,k−1 | Fn,k−1 = E Xn,k − Xn,k−1 2 | Fn,k−1 =
(per la (6.4.3))
h i
2 2
= E Xn,k − Xn,k−1 | Fn,k−1 (14.5.2)
Notiamo che, per ogni fissato n ∈ N, il valore finale An,2n del processo An,· è chiaramente in L2 (Ω, P ),
essendo una somma finita di termini che sono limitati per ipotesi: tuttavia il numero di tali termini aumenta
esponenzialmente in n e questo spiega la difficoltà nella dimostrazione di (14.5.3) che è una stima uniforme
in n ∈ N. Qui utilizziamo in modo essenziale la proprietà di martingala e la limitatezza di X (si noti che
14.5. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 345
nelle ipotesi generali X è di quadrato sommabile ma in (14.5.3) compaiono potenze di X di ordine quattro).
Si ha
2n
X 2n X
X 2n
4 2 2
A2n,2n = Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 Xn,h − Xn,h−1
k=1 k=1 h=k+1
2n
X 2n
X
4 2
= Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 An,2n − An,k . (14.5.4)
k=1 k=1
Applichiamo il valore atteso, stimiamo puntualmente la prima somma di (14.5.4) con la (14.5.1) e appli-
chiamo la proprietà della torre nella seconda somma:
2 n 2 n
h i X h i X h i
E A2n,2n ≤ 2K 2 E Xn,k − Xn,k−1 2 + 2 E Xn,k − Xn,k−1 2 E An,2n − An,k | Fn,k =
k=1 k=1
2
(per la proprietà di martingala (14.5.2) di Mn,k = Xn,k − An,k )
X h 2n
h 2 ii
2
E Xn,k − Xn,k−1 2 E Xn,2 2
n − Xn,k | Fn,k
= 2K E An,2n + 2 ≤
k=1
2 2 2
(poiché Xn,2n − Xn,k ≤ 2K )
h i1
≤ 6K 2 E An,2n ≤ 6K 2 E A2n,2n 2
avendo nell’ultimo passaggio applicato la disuguaglianza di Hölder. Questo conclude la prova della (14.5.3).
[Passo 3] Estendiamo la martingala discreta Mn,· a tutto [0, 1] ponendo
(n)
:= E Mn,2n | Ft ,
Mt t ∈ [0, 1].
h i
k−1 k
Per ogni t ∈ 2n , 2n si ha, per la proprietà della torre,
(n)
= E E Mn,2n | Fn,k | Ft
Mt
= E Mn,k | Ft
h i
2
= E Xn,k − An,k | Ft
h i
2
− Xn,k − Xn,k−1 2 | Ft − An,k−1
= E Xn,k
2
= E 2Xn,k Xn,k−1 | Ft − Xn,k−1
− An,k−1
2
= 2Xt Xn,k−1 − Xn,k−1 − An,k−1 .
Allora dalla continuità di X segue che anche M (n) è un processo continuo. Inoltre, per il Punto 2 la
successione
(n)
M1 = X12 − An,2n
(n)
è limitata in L2 (Ω, P ). Si potrebbe dimostrare che (M1 )n∈N è di Cauchy e converge in norma L2 (e quindi
in probabilità) ma la prova diretta di questo fatto è un po’ tecnica e laboriosa. Pertanto qui preferiamo
prendere una scorciatoia appoggiandoci sul Lemma 14.5.1 di Komlos: per ogni n ∈ N esistono dei pesi
(n) (n)
λn , . . . , λNn non-negativi e la cui somma è pari a uno, tali che posto
en,t = λ(n)
M
(n) (n) (Nn )
n Mt + · · · + λ N n Mt , t ∈ [0, 1],
346 CAPITOLO 14. TEORIA DELLA VARIAZIONE
si ha che Men,1 converge in L2 (Ω, P ) ad una variabile aleatoria Z. Sia M una versione càdlàg della martingala
definita da
Mt := E [Z | Ft ] , t ∈ [0, 1].
Poiché t 7→ M
en,t è una martingala continua per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha
2
en,1 − M1 2 = 4E M en,1 − Z 2 .
E sup Mn,t − Mt ≤ 4E M
e
t∈[0,1]
con F trascurabile, da cui si deduce l’esistenza di una versione continua di M. Di conseguenza anche il
processo
At := Xt2 − Mt
è continuo.
Per mostrare che A è crescente fissiamo anzitutto due diadici s, t ∈ [0, 1] con s ≤ t: allora esiste n̄ tale che
s, t ∈ Dn per ogni n ≥ n̄, ossia s = 2knn e t = 2hnn per certi kn , hn ∈ {0, 1, . . . , 2n }. Ora per costruzione
2 2
Xn,k n
− Mn,kn = An,kn ≤ An,hn = Xn,h n
− Mn,hn
e un’analoga disuguaglianza vale anche per ogni combinazione convessa, quindi al limite si ha As (ω) ≤
At (ω) per ogni ω ∈ Ω \ F. Dalla densità dei diadici in [0, 1] e dalla continuità di A, segue che A è crescente
q.c. Infine proviamo la (14.4.1): per la (6.4.3) si ha
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs
= E [Mt − Ms | Fs ] + E [At − As | Fs ]
= E [At − As | Fs ] .
[Passo 4] Supponiamo ora che X = (Xt )t≥0 sia una martingala continua, non necessariamente limitata, ma
tale che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0. Utilizziamo una procedura di localizzazione e definiamo la successione
di tempi d’arresto
τn = inf{t | |Xt | ≥ n} ∧ n, n ∈ N.
Per la continuità di X si ha τn ↗ ∞ per n → ∞. Per il Corollario 13.4.1, Xt∧τn è una martingala continua,
limitata e costante per t ≥ n: allora si applicano gli argomenti dei punti precedenti per dimostrare che
esistono una martingala continua e di quadrato sommabile M (n) e un processo continuo e crescente A(n) tali
che
2 (n) (n)
Xt∧τ n
= Mt + A t , t ≥ 0.
(n) (m) (n) (m) (n)
Per unicità, per ogni m > n si ha Mt = Mt e At = At per t ∈ [0, τn ]: dunque la definizione Mt := Mt e
(n)
At := At per ogni n tale che τn ≥ t, è ben posta. Chiaramente M, A sono processi continui, A è crescente e
M è una martingala: infatti, se 0 ≤ s ≤ t, per ogni n tale che τn ≥ t si ha
h i
Ms∧τn = E Mt∧τn | Fs .
Quindi si può concludere ragionando come nella dimostrazione del Teorema 13.1.6, essendo la famiglia
{Mt∧τn | n ∈ N} uniformemente integrabile per la disuguaglianza di Doob
h i
E sup |Ms | ≤ 4E Mt2
2
s∈[0,t]
14.5. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 347
e l’Osservazione A.3.0.10.
La medesima successione localizzante può essere utilizzata per trattare il caso in cui X ∈ M c,loc e in
questo caso è ovvio che M ∈ M c,loc .
[Passo 5] Con gli strumenti che abbiamo ora a disposizione, la dimostrazione delle formule (14.4.2) e
(14.4.3) richiederebbe dei conti abbastanza lunghi e noiosi. Poiché non utilizzeremo tali formule nel segui-
to, preferiamo posticipare questa dimostrazione al momento in cui avremo a disposizione la formula di Itô
e tutto sarà più facile: si veda la Proposizione 16.2.4.
348 CAPITOLO 14. TEORIA DELLA VARIAZIONE
Capitolo 15
Paul-André Meyer
inteso come processo stocastico al variare dell’estremo di integrazione. Assumeremo opportune ipotesi sul
processo integrando u e sul processo integratore B. Il prototipo di integratore è il moto Browniano: poiché
le traiettorie di un moto Browniano non hanno variazione limitata, non possiamo adottare la teoria de-
terministica dell’integrazione secondo Lebesgue-Stieltjes per definire l’integrale traiettoria per traiettoria.
Seguiremo invece la costruzione dovuta a Kiyosi Itô (1915-2008) che è basata sulla teoria della variazione
presentata nel Capitolo 14 e sfrutta l’ipotesi cruciale che il processo integrando u sia progressivamente
misurabile. La costruzione dell’integrale stocastico è per certi versi analoga a quella dell’integrale di Lebe-
sgue ma è decisamente più lunga e laboriosa: si parte dai processi u “semplici”, ossia costanti a tratti nel
tempo, fino ad arrivare a u progressivamente misurabile con traiettorie che verificano una debole ipotesi
di sommabilità rispetto alla variabile temporale. Un’importante tappa intermedia è quella in cui u è un
“processo di quadrato sommabile” (cfr. Definizione 15.1.1); in tal caso, l’integrale stocastico gode di alcune
proprietà notevoli: è una martingala continua di quadrato sommabile, ossia appartiene allo spazio M c,2 ,
vale la cosiddetta isometria di Itô e infine il processo variazione quadratica è dato esplicitamente da
Z t
⟨X⟩t = us2 d⟨B⟩s , t ≥ 0.
0
L’ultima parte del capitolo è dedicata alla definizione di integrale stocastico nel caso in cui B sia una se-
mimartingala continua. Introdurremo anche l’importante classe dei processi di Itô che sono semimartin-
gale continue che si esprimono in modo unico come somma di un integrale di Lebesgue (di un processo
progressivamente misurabile e sommabile) con un integrale stocastico Browniano.
349
350 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
Definizione 15.1.1. Indichiamo con L2 la classe dei processi u = (ut )t≥0 tali che:
La i) è più di una semplice condizione di misurabilità congiunta in (t, ω) (che sarebbe naturale poiché
stiamo definendo un integrale): essa contiene anche l’ipotesi cruciale che sia rispettata la struttura di “in-
formazioni” della filtrazione considerata. Per esempio, nel caso u sia continuo, la i) equivale al fatto che u
sia un processo adattato. Per inciso, noi tratteremo solo il caso di integratori continui: è possibile definire
l’integrale stocastico anche rispetto a processi càdlàg, come il processo di Poisson, ma in tal caso è op-
portuno richiedere una condizione ancora più stringente sull’integrando che, sostanzialmente, deve essere
approssimabile con processi continui da sinistra1 .
Come per l’integrale di Lebesgue, anche la costruzione dell’integrale stocastico avviene per passi, con-
siderando inizialmente dei processi “semplici”.
N
X
ut = αk 1[tk−1 ,tk [ (t), t ≥ 0, (15.1.2)
k=1
con 0 ≤ t0 < t1 < · · · < tN e dove α1 , . . . , αN sono variabili aleatorie tali che P (αk , αk+1 ) > 0 per k = 1, . . . , N −1.
Per ogni T ≥ tN poniamo
Z T N
X
ut dBt := αk Btk − Btk−1
0 k=1
e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z tN
ut dBt := ut 1[a,b[ (t)dBt . (15.1.3)
a 0
In questa parte introduttiva non ci preoccupiamo di chiarire tutti i dettagli della definizione di inte-
grale, come per esempio il fatto che la (15.1.3) sia ben posta perchè è indipendente, a meno di processi
indistinguibili, dalla rappresentazione (15.1.2) del processo u.
Osservazione 15.1.3. Un processo semplice è costante a tratti come funzione del tempo e ha traiettorie che
dipendono dai coefficienti α1 , . . . , αN che sono aleatori. Dal fatto che u ∈ L2 seguono alcune proprietà delle
variabili α1 , . . . , αN :
1 Il processo di Poisson ha variazione limitata e quindi non sarebbe un problema definire il relativo integrale stocastico nel senso
di Lebesgue-Stieltjes: tuttavia, se l’integrando non è continuo da sinistra l’integrale perde la fondamentale proprietà di essere una
martingala (locale): per una spiegazione intuitiva di questo fatto si veda la Sezione 2.1 in [34].
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 351
e quindi α1 , . . . , αN ∈ L2 (Ω, P ).
Proviamo ora alcune fondamentali proprietà dell’integrale stocastico appena definito.
Teorema 15.1.4. [!] Dati u, v ∈ L2 semplici, consideriamo i processi
Zt Zt
Xt := us dBs , Yt := vs dBs , t ≥ 0.
0 0
e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr dr | Fs , (15.1.7)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.1.8)
s t
Infine, valgono anche le versioni non condizionate delle formule (15.1.5), (15.1.6), (15.1.7) e (15.1.8).
Dimostrazione. Osserviamo anzitutto che le formule (15.1.5), (15.1.6), (15.1.7) e(15.1.8) equivalgono rispet-
tivamente a
E [Xt − Xs | Fs ] = 0, (15.1.10)
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.
352 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
Proviamo la (15.1.5) che equivale alla proprietà di martingala E [Xt | Fs ] = Xs : riferendoci alla (15.1.2) e
ricordando la notazione (15.1.3), non è restrittivo supporre s = tk e t = th per certi k, h con k < h ≤ N . Si ha
"Z t #
h i h
E Xth | Ftk = Xtk + E ur dBr | Ftk
tk
h
X h i
= Xtk + E αi Bti − Bi−1 | Ftk =
i=k+1
dove l’ultima uguaglianza segue dall’indipendenza e stazionarietà degli incrementi Browniani per cui si ha
h i h i
E Bti − Bti−1 | Fti−1 = E Bti − Bti−1 = 0
per ogni i = 1, . . . , N .
Per quanto riguarda l’isometria di Itô, sempre nell’ipotesi che s = tk e t = th , si ha
Zt !2 2
ur dBr | Fs = E Xth − Xtk | Ftk
E
s
h
2
X
= E αi Bti − Bti−1 | Ftk
i=k+1
h
1
X 2 X h i
= E αi2 Bti − Bti−1 | Ftk + E αi Bti − Bti−1 αj Btj − Btj−1 | Ftk =
2
i=k+1 k+1≤i<j≤h
h
X h i
= E αi2 (ti − ti−1 ) | Ftk
i=k+1
h
X "Z t #
= E αi2 1[ti−1 ,ti [ (r)dr | Fs
i=k+1 s
"Z t #
=E ur2 dr | Fs .
s
La (15.1.7) si prova in modo analogo. Riguardo alla (15.1.8), basta osservare che
"Z t ZT # "Z T ZT #
E ur dBr vr dBr | Fs = E ur 1[s,t[ (r)dBr vr 1[t,T [ (r)dBr | Fs =
s t s s
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 353
(per la (15.1.7))
"Z T #
=E ur vr 1[s,t[ (r)1[t,T [ (r)dr = 0.
s
Infine, il processo ⟨X, Y ⟩ in (15.1.9) è adattato, continuo, BV e tale che ⟨X, Y ⟩0 = 0. Ricordando la
Proposizione 17.1.1, per provare che ⟨X, Y ⟩ è il processo covariazione di X e Y basta verificare che XY −
⟨X, Y ⟩ è una martingala. Per 0 ≤ s ≤ t si ha
da cui la tesi.
Grazie all’isometria di Itô (15.1.6), l’integrale stocastico si estende al caso di integrandi in L2 con
una procedura di approssimazione tramite processi semplici. Vale il seguente risultato di densità, la cui
dimostrazione è rimandata alla Sezione 15.1.1.
Lemma 15.1.5. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici di L2 che
converge a u in norma L2 (Ω × [0, T ]):
"Z T #
2
lim E us − un,s ds = 0. (15.1.11)
n→∞ 0
Dato u ∈ L2 consideriamo una successione approssimante (un )n∈N di processi semplici come nel Lemma
15.1.5 per un T > 0 fissato. Allora (un )n∈N è una successione di Cauchy in L2 ([0, T ] × Ω) e per l’isometria di
Itô si ha Z !2
T ZT "Z T #
un,s − um,s 2 ds = 0.
lim E un,s dBs − um,s dBs = lim E
n,m→∞ 0 0 n,m→∞ 0
Ne segue che la successione degli integrali stocastici è di Cauchy in L2 (Ω, P ) e quindi esiste
Z T Z T
us dBs := lim un,s dBs .
0 n→∞ 0
Con questa procedura si definisce l’integrale stocastico come classe in equivalenza in L2 (Ω, P ) per un T fissa-
to. Vedremo nella Sezione 15.2.3 che, grazie alla disuguaglianza massimale di Doob, è possibile costruire
l’integrale come processo stocastico (al variare dell’estremo di integrazione) definendolo come limite nello
spazio delle martingale M c,2 . Per approssimazione si prova che le proprietà del Teorema 15.1.4 rimangono
valide sotto l’ipotesi che u ∈ L2 .
Nella Sezione 15.2.4 estenderemo ulteriormente l’integrale al caso di integrandi in u ∈ L2loc , ossia u
progressivamente misurabile che soddisfa la condizione di integrabilità
Z T
ut2 dt < ∞ T > 0, q.c. (15.1.12)
0
che è notevolmente più debole della (15.1.1): per esempio, ogni processo u adattato e continuo appartiene
a L2loc poiché l’integrale in (15.1.12), sul compatto [0, T ], è finito grazie alla continuità di ogni singola
354 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
traiettoria di u. D’altra parte, ut = exp(B4t ) appartiene a L2loc ma non2 a L2 . Il Teorema 15.1.4 non si estende
al caso di u ∈ L2loc , tuttavia proveremo che in tal caso il processo integrale è una martingala locale.
1 x+h
Z
lim |f (x) − f (y)|dy = 0.
h→0 h x
Dimostriamo il Lemma 15.1.5 inizialmente assumendo che u sia continuo. Fissato T > 0, al variare di
n ∈ N, indichiamo con
Tk
tn,k = n , k = 0, . . . , 2n , (15.1.13)
2
i diadici di [0, T ] e definiamo il processo semplice
2n
X
un,t = αn,k 1[tn,k−1 ,tn,k [ , αn,k = utn,k−1 1{|ut |≤n} , t ∈ [0, T ].
n,k−1
k=1
Generalmente il processo B sarà fissato una volte per tutte e quindi, se non c’è pericolo di confusione,
scriveremo semplicemente L2 invece di L2B .
In un secondo momento, indeboliremo la condizione di sommabilità ii) richiedendo che u appartenga
alla classe seguente.
Definizione 15.2.2. Indichiamo con L2B,loc (o, più semplicemente, L2loc ) la classe dei processi u tali che
i) u è progressivamente misurabile;
ii’) per ogni T ≥ 0 vale
Z T
ut2 d⟨B⟩t < ∞ q.c. (15.2.2)
0
La ii’) è una condizione molto debole di sommabilità che è verificata automaticamente se, per esempio,
u ha traiettorie continue o, più in generale, localmente limitate (si noti che il dominio di integrazione in
(15.2.2) è compatto).
dove α è una variabile aleatoria Ft0 -misurabile e limitata (ossia tale che |α| ≤ c q.c. con c costante positiva)
e t1 > t0 ≥ 0.
Osservazione 15.2.3. Ogni processo indicatore u appartiene a L2 : infatti u è càdlàg e adattato, quindi
progressivamente misurabile; inoltre u soddisfa la (15.2.1) poiché
"Z T #
h i h i
E ut2 d⟨B⟩t = E α 2 ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 ≤ c2 E ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 < ∞
0
per ogni T ≥ 0.
356 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
Definizione 15.2.4 (Integrale stocastico di processi indicatori). Siano u il processo indicatore in (15.2.3)
e B ∈ M c,2 . Per ogni T ≥ t1 poniamo
ZT
ut dBt := α Bt1 − Bt0 (15.2.4)
0
e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z t1
ut dBt := ut 1[a,b[ (t)dBt . (15.2.5)
a 0
Osservazione 15.2.5. [!] Se [t0 , t1 [∩[a, b[, ∅, l’integrale nel membro destro della (15.2.5) è definito dal-
la (15.2.4) interpretando ut 1[a,b[ (t) come il processo semplice α1[t0 ∨a,t1 ∧b[ (t) e scegliendo T = t1 . In caso
contrario si intende che l’integrale è nullo per definizione.
Osservazione 15.2.6. Essendo definito in termini di incrementi di B, l’integrale stocastico non dipende dal
valore iniziale B0 . Inoltre X è un processo adattato e continuo.
Nel prossimo risultato stabiliamo alcune proprietà fondamentali dell’integrale stocastico. La secon-
da parte della dimostrazione è basata sulla notevole identità (14.4.1), valida per ogni B ∈ M c,2 , che qui
richiamiamo: h i
E (Bt − Bs )2 | Fs = E [⟨B⟩t − ⟨B⟩s | Fs ] , 0 ≤ s ≤ t. (15.2.6)
In tutto il capitolo insistiamo molto nel fornire l’espressione esplicita della variazione quadratica dell’in-
tegrale stocastico o della covariazione di due integrali: il motivo è che esse compaiono nel più importante
strumento per il calcolo degli integrali stocastici, la formula di Itô, che presenteremo nel Capitolo 16.
Il Teorema 15.1.4 ha la seguente naturale estensione.
e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr d⟨B⟩r | Fs , (15.2.9)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.2.10)
s t
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 357
Dimostrazione. Per l’Osservazione 15.2.5 non è restrittivo assumere u = α1[s,t[ e v = β1[s,t[ con α, β ∈ mFs
limitate.
i) Allora si ha "Z t#
E ur dBr | Fs = E [α (Bt − Bs ) | Fs ] = αE [Bt − Bs | Fs ] = 0
s
dove abbiamo sfruttato il fatto che α ∈ mFs e la proprietà di martingala di B. Questo prova la (15.2.7)
che equivale alla proprietà di martingala di X. Chiaramente XT ∈ L2 (Ω, P ) per ogni T ≥ 0 poiché XT è il
prodotto di α, variabile aleatoria limitata, per un incremento di B che è di quadrato sommabile.
ii) Proviamo direttamente la (15.2.9): si ha
"Z t Zt #
h i
E ur dBr vr dBr | Fs = E αβ(Bt − Bs )2 | Fs
s s
h i
= αβE (Bt − Bs )2 | Fs =
e quindi
"Z t Z t # "Z t # "Z t #
E [Xt Yt | Fs ] = Xs Ys + E ur dBr vr dBr | Fs + Xs E vr dBr | Fs + Ys E ur dBr | Fs =
s s s s
da cui segue
E [Xt Yt − ⟨X, Y ⟩t | Fs ] = Xs Ys − ⟨X, Y ⟩s .
358 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
Osservazione 15.2.8. Le formule (15.2.7), (15.2.8), (15.2.9), (15.2.10) e (15.2.11) si riscrivono rispettiva-
mente nella forma
E [Xt − Xs | Fs ] = 0,
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.
Applicando il valore atteso, si ottengono anche le versioni non condizionate dell’isometria di Itô:
Zt !2 "Z t #
ur2 d⟨B⟩r ,
E ur dBr = E (15.2.12)
s s
"Z t Zt # "Z t #
E ur dBr vr dBr = E ur vr d⟨B⟩r ,
s s s
"Z t Z T #
E ur dBr vr dBr = 0, (15.2.13)
s t
N
X
ut = uk,t , uk,t := αk 1[tk−1 ,tk [ (t), (15.2.14)
k=1
dove:
Si può richiedere anche che P (αk , αk+1 ) > 0, per k = 1, . . . , N − 1, in modo che la rappresentazione
(15.2.14) di u sia unica.
Definizione 15.2.10 (Integrale stocastico di processi semplici). Sia u un processo semplice della forma
(15.2.14) e sia B ∈ M c,2 . L’integrale stocastico di u rispetto a B è il processo stocastico
Z t N Z
X t N
X
us dBs := uk,s dBs = αk Bt∧tk − Bt∧tk−1 .
0 k=1 0 k=1
Teorema 15.2.11. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v siano processi semplici.
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 359
Dimostrazione. La continuità e la proprietà di martingala (15.2.7) sono immediate per linearità. Per quanto
riguarda l’isometria di Itô (15.2.9), anzitutto possiamo scrivere v nella forma (15.2.14) rispetto alla stessa
scelta di t0 , . . . , tN , per certi vk,t = βk 1[tk−1 ,tk [ (t): notiamo che
N
X N
X N
X
ut vt = uk,t vh,t = αk βk 1[tk−1 ,tk [ (t). (15.2.15)
k=1 h=1 k=1
Allora si ha
N Z N Z t
"Z t Z t #
X t X
E ur dBr vr dBr | Fs = E uk,r dBr vh,r dBr | Fs
s s s
k=1 s h=1
N
X "Z t Zt #
= E uk,r dBr vk,r dBr | Fs
k=1 s s
X "Z th Z tk #
+2 E uh,r 1[s,t[ (r)dBr vk,r 1[s,t[ (r)dBr | Fs =
h<k th−1 tk−1
N
X "Z t #
= E uk,r vk,r d⟨B⟩r | Fs =
k=1 s
(per la (15.2.15))
"Z t #
=E ur vr d⟨B⟩r | Fs .
s
Infine il fatto che ⟨X, Y ⟩ in (15.2.11) sia il processo covariazione di X e Y si prova come nella dimostrazione
del Teorema 15.2.7-iii).
Lemma 15.2.12. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici tali che
"Z T #
2
lim E us − un,s d⟨B⟩s = 0.
n→∞ 0
Ricordiamo la convenzione in base alla quale MTc,2 è lo spazio delle classi di equivalenza (secondo
l’indistinguibilità) delle martingale continue X = (Xt )t∈[0,T ] di quadrato sommabile, munito della norma
q h i
∥X∥T := E XT2 .
360 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
la successione dei relativi integrali stocastici. Per il Teorema 15.2.11 Xn ∈ MTc,2 e per l’isometria di Itô
(15.2.8) si ha
Z !2
T
"Z T #
2
∥Xn − Xm ∥T = E (un,t − um,t )dBt = E (un,t − um,t )2 d⟨B⟩t .
0 0
Ne segue che (Xn )n∈N è una successione di Cauchy in (MTc,2 , ∥ · ∥T ) e quindi esiste
Proposizione 15.2.13 (Integrale stocastico di processi in L2 ). Il processo limite X = (Xt )t∈[0,T ] in (15.2.17)
è indipendente dalla successione approssimante ed è chiamato processo integrale stocastico di u rispetto a B
su [0, T ] e indicato con
Zt
Xt = us dBs , t ∈ [0, T ].
0
Dimostrazione. Sia X il limite in (15.2.17) definito a partire dalla successione approssimante (un )n∈N . Sia
(vn )n∈N un’altra successione approssimante per u e
Z t
Yn,t = vn,s dBs , t ∈ [0, T ]. (15.2.18)
0
Allora ∥Yn − X∥T ≤ ∥Yn − Xn ∥T + ∥Xn − X∥T e basta osservare che, ancora per l’isometria di Itô, si ha
Z !2
T
"Z T #
∥Yn − Xn ∥2T = E (vn,t − un,t )dBt = E
2
(vn,t − un,t ) d⟨B⟩t −−−−−→ 0.
0 0 n→∞
con u ∈ L2 e B ∈ M c,2 , è una classe di equivalenza in M c,2 : ogni rappresentante di tale classe è una martin-
gala continua, univocamente determinata a meno di processi indistinguibili. Da questo punto di vista, a
meno che non sia stata operata una particolare scelta del rappresentante, le singole traiettorie del processo
integrale stocastico non sono definite e non ha senso considerare o voler calcolare Xt (ω) per un particolare
ω ∈ Ω.
Dimostrazione. Siano (un )n∈N e (vn )n∈N successioni di processi semplici, approssimanti rispettivamente u
e v in (MTc,2 , ∥ · ∥T ). Indichiamo con (Xn )n∈N e (Yn )n∈N i corrispondenti integrali stocastici in (15.2.16) e
(15.2.18). Le (15.2.7) e (15.2.8) sono diretta conseguenza del fatto che Xn,t → Xt in L2 (Ω, P ) (e quindi
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 361
anche in L1 (Ω, P )) e Xn,t Yn,t → Xt Yt in L1 (Ω, P ) unitamente al fatto generale che4 se Zn → Z in L1 (Ω, P )
allora E [Zn | G ] → E [Z | G ] in L1 (Ω, P ). La dimostrazione della (15.2.11) è identica a quella del Teorema
15.2.7-iii).
Osservazione 15.2.16. [!] Siano B ∈ M c,2 e u ∈ L2B . Per il Teorema 15.2.15, l’integrale X in (15.2.19)
appartiene a M c,2 e quindi può essere usato come integratore. Poiché
Zt
⟨X⟩t = us2 d⟨B⟩s ,
0
sono indistinguibili su F, ossia sup |Xt (ω) − Yt (ω)| = 0 per quasi ogni ω ∈ F.
t∈[0,T ]
Dimostrazione. Consideriamo le approssimazioni un e vn definite come nel Lemma 15.2.12. Per costruzio-
ne, per ogni n ∈ N e t ∈ [0, T ], un,t = vn,t quasi certamente su F. Ne segue che anche i relativi integrali
(Xn,t )t∈[0,T ] in (15.2.16) e (Yn,t )t∈[0,T ] in (15.2.18) sono modificazioni su F. Passando al limite in n, si deduce
che (Xt )t∈[0,T ] e (Yt )t∈[0,T ] sono modificazioni su F: la tesi segue dalla proprietà di continuità di X e Y .
Osservazione 15.2.18. Supponiamo che, per un certo T > 0, valga
ZT ZT
ut dBt = vt dBt
0 0
dove u, v ∈ L2 e B è un moto Browniano. Allora P (u = v q.o. su [0, T ]) = 1 ossia quasi tutte le traiettorie di
u e v sono uguali quasi ovunque su [0, T ]. Infatti, per l’isometria di Itô si ha
"Z T Z !2
T
#
2
E (ut − vt ) dt = E (ut − vt )dBt = 0
0 0
da cui la tesi.
4 Per la disuguaglianza di Jensen, si ha
Proposizione 15.2.19 (Integrale con estremo d’integrazione aleatorio). [!] Sia X in (15.2.19) il processo
integrale stocastico di u ∈ L2 rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo
T > 0. Allora (ut 1(t≤τ) )t≥0 ∈ L2 e vale
Z τ Z T
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0
La condizione di misurabilità su F è fondamentale perché assicura che l’integrale nel membro a destra di
(15.2.20) sia ben definito, essendo l’integrando progressivamente misurabile su [t, T ].
Ora ricordiamo la notazione (15.1.13), tn,k := T2nk , per i diadici di [0, T ] e utilizziamo l’usuale discretiz-
zazione di τ:
X2n
τn = tn,k 1Fn,k
k=1
con
T
k = 2, . . . , 2n .
Fn,1 = 0 ≤ τ ≤ 2n , Fn,k = tn,k−1 < τ ≤ tn,k ,
Notiamo che (Fn,k )k=1,...,2n forma una partizione di Ω con Fn,k ∈ Ftn,k e (τn )n∈N è una successione decrescente
di tempi d’arresto che converge a τ. Per continuità si ha Xτn → Xτ . Inoltre, posto
Z T Z T
Y= us 1(s≤τ) dBs , Yn = us 1(s≤τn ) dBs ,
0 0
usando l’isometria di Itô è facile provare che Yn → Y in L2 (Ω, P ) e quindi anche quasi certamente.
Per provare la tesi, ossia il fatto che Xτ = Y q.c., è quindi sufficiente verificare che Xτn = Yn q.c. per ogni
n ∈ N. Ora, su Fn,k si ha
ZT ZT
Xτn = Xtn,k = us dBs − us dBs ,
0 tn,k
e quindi
Z T 2n
X Z T
Xτn = us dBs − 1Fn,k us dBs . (15.2.21)
0 k=1 tn,k
D’altra parte
Z T
Yn = us 1 − 1(s>τn ) dBs
0
Z T 2n Z
X T
= us dBs − us 1Fn,k dBs =
0 k=1 tn,k
0.04
0.4
0.03
0.2
0.02
200 400 600 800 1000
-0.2 0.01
-0.4
200 400 600 800 1000
Figura 15.1: A sinistra: grafico di una traiettoria di un moto Browniano W . A destra: grafico della relativa
Rt
traiettoria di At = 0 Ws2 ds, corrispondente al processo in (15.2.22) con u = W e B moto Browniano.
Il processo A cosı̀ definito è continuo, adattato e crescente; inoltre A è non-negativo poiché A0 = 0 (si veda
la Figura 15.1).
Fissiamo T > 0 e consideriamo la successione di tempi d’arresto definita da
τn = T ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N, (15.2.23)
e rappresentati in Figura 15.2. Per continuità di A, si ha τn ↗ T q.c. e quindi la successione di eventi
Fn := (τn = T ) è tale che Fn ↗ Ω \ N con P (N ) = 0. Troncando u al tempo τn , definiamo il processo
un,t := ut 1(t≤τn ) , t ∈ [0, T ],
che è progressivamente misurabile e tale che
"Z t # "Z t∧τn #
2
E un,s d⟨B⟩s = E us2 d⟨B⟩s ≤ n, t ∈ [0, T ].
0 0
appartiene a M c,2 in base al Teorema 15.2.15. Inoltre per ogni n, h ∈ N, quasi certamente per ogni t ∈ [0, T ]
si ha
un,t = un+h,t = ut su Fn ,
e pertanto i processi Xn,t t∈[0,n] e Xn+h,t t∈[0,n] sono indistinguibili su Fn grazie alla Proposizione 15.2.17.
Allora la seguente definizione è ben posta:
364 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
Figura 15.2: Grafico di due traiettorie del processo A in (15.2.22) e dei corrispondenti tempi d’arresto τn e
τn+1 in (15.2.23)
Definizione 15.2.20 (Integrale stocastico di processi in L2loc ). L’integrale stocastico di u ∈ L2loc rispetto
a B ∈ M c,2 su [0, T ] è il processo continuo e adattato X = (Xt )t∈[0,T ] che su Fn è indistinguibile da Xn in
(15.2.24) per ogni n ∈ N. Al solito, scriviamo
Zt
Xt = us dBs , t ∈ [0, T ]. (15.2.25)
0
Osservazione 15.2.21. Come già osservato in precedenza, l’integrale stocastico è definito come classe di
equivalenza di processi indistinguibili. La definizione precedente e in particolare la notazione (15.2.25)
sono ben poste nel senso che se X e X̄ indicano rispettivamente i processi integrali stocastici di u rispetto a
B sugli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ allora, con una procedura d’approssimazione a partire dai processi
semplici, si dimostra che X e X̄|[0,T ] sono processi indistinguibili. Di conseguenza è ben definito il processo
integrale stocastico secondo Itô di u rispetto a B indicato con
Zt
Xt = us dBs , t ≥ 0.
0
Vedremo in seguito, nella Proposizione 15.2.25, che vale anche
Zt Zt
us dBs = lim un,s dBs
0 n→∞ 0
con convergenza in probabilità.
La Proposizione 15.2.19 ha la seguente semplice generalizzazione.
Proposizione 15.2.22 (Integrale con estremo d’integrazione aleatorio). Sia X il processo integrale stoca-
stico di u ∈ L2loc rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo T > 0. Allora
ut 1(t≤τ) ∈ L2loc e vale
t≥0 Zτ ZT
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 365
Dimostrazione. È chiaro che ut 1(t≤τ) ∈ L2loc . Sia (τn )n∈N la successione di tempi d’arresto in (15.2.23).
t≥0
Per definizione sull’evento Fn = (τn = T ) si ha
Zτ
Xτ = us 1(s≤τn ) dBs =
0
(poiché su Fn si ha τn = T ≥ τ)
Z T
= us 1(s≤τ) dBs .
0
e quindi, per continuità, Xt∧τn è una versione dell’integrale stocastico del processo us 1(s≤τn ) che appartiene
a L2 . Ne segue che Xt∧τn è una martingala continua e quindi X è una martingala locale con successione
localizzante (τn )n∈N .
Rt
Ora poniamo At = us vs d⟨B⟩s e
0
è una martingala: ne viene che XY −A ∈ M c,loc con successione localizzante (τn )n∈N e quindi A = ⟨X, Y ⟩.
366 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
Per l’integrale stocastico di u ∈ L2loc non si ha più a disposizione uno strumento fondamentale come
l’isometria di Itô: in molte situazioni essa può essere convenientemente sostituita dal seguente lemma.
δ
P (|Xt | ≥ ε) ≤ P (⟨X⟩t ≥ δ) + .
ε2
Dimostrazione. Poniamo
τδ = inf{s > 0 | ⟨X⟩s ≥ δ}, δ > 0.
Fissati t, ε > 0, si ha
Allora Z t Z t
P
un,s dBs −−−−−→ us dBs .
0 n→∞ 0
Dimostrazione. La tesi è immediata conseguenza dell’isometria di Itô nella forma del Lemma 15.2.24:
fissato ε > 0 e posto δ = ε3 si ha
Z
t
! Zt !
2
lim P (un,s − us )dBs ≥ ε ≤ lim P |un,s − us | d⟨B⟩s ≥ δ + ε = ε
n→∞ 0 n→∞ 0
Dimostrazione. Posto
mn
X
un,s = utn,k−1 1[tn,k−1 ,tn,k [ (s)
k=1
si ha che un ∈ L2loc e
mn
X Z t
utn,k−1 Btn,k − Btn,k−1 = un,s dBs .
k=1 0
per indicare l’integrale stocastico del processo u rispetto a S: esso è definito come somma
Zt Zt Zt
ur dSr := ur dAr + ur dBr
0 0 0
dove i due integrali nel membro a destra hanno il significato che ora spieghiamo.
Sia µA la misura di Lebesgue-Stieltjes5 associata ad A e definita traiettoria per traiettoria: indichiamo
con Zt Z
ur dAr := ur µA (dr)
0 [0,t]
il relativo integrale di Lebesgue-Stieltjes. Affinché tale integrale sia ben definito, imponiamo che u ∈ L2S,loc
secondo la seguente
Definizione 15.3.1. L2S,loc è la classe dei processi u progressivamente misurabili e tali che
Z Z t
|ur ||µA |(dr) + ur2 d⟨B⟩r < ∞ q.c.
[0,t] 0
per ogni t ≥ 0.
Per quanto riguarda l’integrale rispetto a B ∈ M c,loc , si può utilizzare un procedimento di localizzazione
del tutto analogo6 a quello della Sezione 15.2.4. In definitiva, ricordando la Definizione 17.1.3 di variazione
quadratica di una semimartingala, si ha la seguente
5 Secondo la Definizione 14.2.1, µ è una misura con segno.
A
6 Sia (τ )
n n∈N una successione localizzante per B: come nell’Osservazione 13.4.5-iv) possiamo supporre |Bt∧τn | ≤ n cosicché Bn :=
(Bt∧τn )t≥0 ∈ M c,2 . Se u ∈ L2S,loc allora
Zt Zt
ur2 d⟨Bn ⟩r ≤ ur2 d⟨B⟩r < ∞ q.c.
0 0
e quindi u ∈ L2B ,loc e l’integrale
n Zt
Yn,t := ur dBn,r
0
è ben definito. Sull’evento Fn,T := (T ≤ τn ) si ha q.c.
sup Yn,t − Ym,t = 0, m ≥ n.
0≤t≤T
Ciò è vero se u è semplice e, come la Proposizione 15.2.17, si dimostra in generale per approssimazione. Poiché Fn,T ↗ FT con
P (FT ) = 1, definiamo l’integrale
Zt
Yt = ur dBr , 0≤t ≤T,
0
come la classe di equivalenza dei processi continui e adattati che, per ogni n ∈ N, sono indistinguibili da (Yn,t )t∈[0,T ] su Fn,T . Se
Y e Ȳ indicano rispettivamente i processi integrali stocastici di u relativi agli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ , allora Y e Ȳ |[0,T ]
15.3. INTEGRALE RISPETTO A SEMIMARTINGALE CONTINUE 369
Nella prossima sezione trattiamo il caso particolare in cui At = t e B sia un moto Browniano.
dove:
i) X0 ∈ mF0 ;
ii) u ∈ L1loc , ossia u è progressivamente misurabile e tale che
Z t
|us |ds < ∞, q.c.
0
per ogni t ≥ 0;
iii) v ∈ L2loc , ossia v è progressivamente misurabile e tale che7
Z t
|vs |2 ds < ∞ q.c.
0
per ogni t ≥ 0.
Notazione 15.3.4 (Notazione differenziale). [!] Per indicare il processo di Itô in (15.3.2) si usa spesso la
cosiddetta “notazione differenziale”:
dXt = ut dt + vt dWt . (15.3.3)
Questa notazione, oltre ad essere più compatta, ha il pregio di evocare le espressioni del calcolo differenzia-
le classico. Ovviamente, in termini rigorosi, dXt non è una “derivata” o un “differenziale del processo X”,
sono indistinguibili su [0, T ]. Quindi è ben definito il processo integrale stocastico secondo Itô di u ∈ L2S,loc rispetto a B ∈ M c,loc , che
indichiamo Zt
Yt = ur dBr , t ≥ 0.
0
Si ha che Y ∈ M c,loc con processo variazione quadratica
Zt
⟨Y ⟩t = ur2 d⟨B⟩r , t ≥ 0,
0
e una successione localizzante per Y è data da τ̄n = τn ∧ τn′ dove τn′ = inf{t ≥ 0 | ⟨I⟩t ≥ n}.
7 Si ricordi che ⟨W ⟩ = s.
s
370 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
oggetti che non sono stati definiti, ma è un simbolo che ha senso solo all’interno dell’espressione (15.3.3):
tale espressione, a sua volta, è una scrittura il cui significato preciso è dato dall’equazione integrale (15.3.2).
Quando si parla di calcolo differenziale stocastico ci si riferisce a questo tipo di calcolo simbolico il cui ve-
ro significato è dato dalle relative espressioni integrali: dunque si tratta in realtà di un calcolo integrale
stocastico.
Il processo in (15.3.2) è una semimartingala continua e quindi può fungere a sua volta da integratore, infatti
si ha X = A + M dove:
- il processo
Z t
At := us ds
0
è continuo, adattato e a variazione limitata per l’Esempio 14.1.2-iv), ed è chiamato drift di X;
- il processo integrale stocastico
Z t
Mt := X0 + vs dWs
0
è una martingala locale continua ed è chiamato parte diffusiva o diffusione di X.
Per la (15.3.1), il processo variazione quadratica di X è
Zt
⟨X⟩t = vs2 ds,
0
da cui P (v = v′ q.o.) = 1. D’altra parte, per la Proposizione A.2.3.2 si ha che anche P (u = u ′ q.o.) = 1.
Capitolo 16
Formula di Itô
La formula di Itô è lo strumento più importante nell’ambito del calcolo differenziale stocastico. In que-
sto capitolo ne presentiamo diverse versioni che generalizzano la formula del Teorema 14.1.6 per l’integrale
di Riemann-Stieltjes e forniscono le regole generali del calcolo stocastico.
Teorema 16.1.1 (Formula di Itô). [!!!] Sia X una semimartingala continua e sia F ∈ C 2 (R). Allora quasi
certamente, per ogni t ≥ 0 si ha
Z t Z t
1
F(Xt ) = F(X0 ) + F ′ (Xs )dXs + F ′′ (Xs )d⟨X⟩s (16.1.1)
0 2 0
371
372 CAPITOLO 16. FORMULA DI ITÔ
Idea della dimostrazione. Data una partizione π = {t0 , . . . , tN } di [0, t], si scrive la differenza F(Xt )−F(X0 ) come
somma telescopica e poi si sviluppa in serie di Taylor al second’ordine: si ottiene
N
X
F(Xt ) − F(X0 ) = F(Xtk ) − F(Xtk )
k=1
N
X 1X N 2
= F ′ (Xtk−1 ) Xtk − Xtk−1 + F ′′ (Xtk−1 ) Xtk − Xtk−1 + “resto”.
2
k=1 k=1
N
X Z t
′
F (Xtk−1 ) Xtk − Xtk−1 −→ F ′ (Xs )dXs ,
k=1 0
N
X 2 Zt
′′
F (Xtn,k−1 ) Xtk − Xtk−1 −→ F ′′ (Xs )d⟨X⟩s
k=1 0
per |π| che tende a zero e il termine di resto è trascurabile. La dimostrazione completa, tecnicamente più
complessa, è data nella Sezione 16.3.
Osservazione 16.1.2. Rispetto alla versione deterministica (14.1.3), nella formula di Itô (16.1.2) appare il
termine aggiuntivo di second’ordine che deriva dalla variazione quadratica di X: esso è moltiplicato per il
fattore 21 dell’espansione in serie di Taylor di F.
In maniera simile si prova la seguente versione più generale della formula di Itô.
Teorema 16.1.3 (Formula di Itô). Sia X una semimartingala continua e sia F = F(t, x) ∈ C 1,2 (R≥0 ×R). Allora
quasi certamente, per ogni t ≥ 0 si ha
Z t Z t Z t
1
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂xx F)(s, Xs )d⟨X⟩s
0 0 2 0
Corollario 16.1.4 (Formula di Itô per il moto Browniano). [!] Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Z t Z t Z t
1
F(t, Wt ) = F(0, W0 ) + (∂t F)(s, Ws )ds + (∂x F)(s, Ws )dWs + (∂xx F)(s, Ws )ds
0 0 2 0
è la parte diffusiva di X.
Si noti che se F risolve l’equazione del calore
1
∂t F(t, x) + ∂xx F(t, x) = 0, t > 0, x ∈ R, (16.1.3)
2
allora il drift di X si annulla e pertanto X è una martingala locale. Viceversa, se X è una martingala locale
allora per l’Osservazione 15.3.5 si ha che
1
(∂t F + ∂xx F)(t, Wt ) = 0 (16.1.4)
2
nel senso dell’indistinguibilità e da questo segue2 che F risolve l’equazione del calore (16.1.3).
con µ ∈ L1loc e σ ∈ L2loc . Nella Sezione 15.3.1 abbiamo visto che X è una semimartingala continua con
variazione quadratica
Zt
⟨X⟩t = σs2 ds
0
ossia d⟨X⟩t = σt2 dt. Dunque si ha la seguente ulteriore versione della formula di Itô.
Corollario 16.1.7 (Formula di Itô per processi di Itô). [!] Sia X il processo di Itô in (16.1.5). Per ogni
F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Zt Zt
1 t
Z
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂ F)(s, Xs )σs2 ds (16.1.6)
0 0 2 0 xx
o equivalentemente
σt2
!
dF(t, Xt ) = ∂t F + µt ∂x F + ∂xx F (t, Xt )dt + σt ∂x F(t, Xt )dWt .
2
Anzitutto notiamo che non possiamo utilizzare la formula di Itô per il moto Browniano del Corollario 16.1.4
perché Yt non è funzione di Wt ma dipende da (Ws )s∈[0,t] , ossia da tutta la traiettoria di W nell’intervallo [0, t].
Il criterio generale con cui procedere per applicare correttamente la formula di Itô è quello di analizzare
anzitutto come Yt dipenda dalla variabile t, distinguendo la dipendenza di tipo “deterministico” da quella
di tipo “stocastico”: in questo esempio, evidenziamo in grassetto la dipendenza deterministica
Zt !
t 7→ exp t Ws dWs
0
2 L’uguaglianza (16.1.4) di processi stocastici equivale all’equazione (16.1.3): basta osservare che se f è una funzione continua tale
che f (Wt ) = 0 q.c. per un t > 0 allora f ≡ 0: infatti se fosse f (x̄) > 0 per un x̄ ∈ R allora si avrebbe anche f (x) > 0 per |x − x̄| < r per un
certo r > 0 sufficientemente piccolo; ciò porta ad un assurdo poiché, essendo la densità Gaussiana strettamente positiva, si avrebbe
h i
0 < E f (Wt )1(|Wt −x̄|<r) = 0.
16.1. FORMULA DI ITÔ PER SEMIMARTINGALE CONTINUE 375
e la dipendenza stocastica
Z t !
t 7→ exp t Ws dWs
0
e quindi dXt = Wt dWt e d⟨X⟩t = Wt2 dt. Allora possiamo applicare la formula di Itô (16.1.6): abbiamo
∂t F(t, x) = xF(t, x), ∂x F(t, x) = tF(t, x), ∂xx F(t, x) = t 2 F(t, x),
e quindi
(tWt )2
!
dYt = Xt + Yt dt + tWt Yt dWt .
2
con x ∈ R, µ ∈ L1loc (R≥0 ) e σ ∈ L2loc (R≥0 ). Come applicazione della formula di Itô (16.1.6) proviamo che
Z t Z t
Xt ∼ Nm(t),C (t) , m(t) := x + µ(s)ds, C (t) := σ 2 (s)ds,
0 0
per ogni t ≥ 0. Infatti possiamo facilmente calcolare la funzione caratteristica di X: anzitutto per ogni η ∈ R
si ha
η2
!
deiηXt = eiηXt iηdXt − d⟨X⟩t
2
η 2 σ 2 (t)
= eiηXt (a(t, η)dt + iησ (t)dWt ) , a(t, η) := iηµ(t) − .
2
Applicando il valore atteso ed essendo nulla l’attesa dell’integrale stocastico, si ha
"Z t #
iηx iηXs
ϕXt (η) = e +E a(s, η)e ds
0
Z t
= eiηx + a(s, η)ϕXs (η)ds;
0
d(tWt ) = tdWt + Wt dt
da cui Z t Z t
Xt = tWt − sdWs = (t − s)dWs .
0 0
Notiamo che l’espressione di X in (16.1.7) è quella di un processo di Itô, mentre
Zt
(t − s)dWs
0
non è scritto nella forma di processo di Itô: per aggirare questo problema, definiamo il processo di Itô
Zt
(a)
Yt := (a − s)dWs
0
(t)
e la tesi segue dal fatto che Xt = Yt .
per ogni martingala locale continua X tale che X0 = 0 q.c. e per ogni tempo d’arresto τ finito (ossia tale che
τ < ∞ q.c.). In (16.2.1), ⟨X⟩ indica il processo variazione quadratica di X.
Dimostrazione. Dimostriamo solo il caso p ≥ 2 in cui è possibile dare una prova elementare basata sulla
formula di Itô. Per il caso generale si veda, per esempio, la Proposizione 3.26 in [58]. Il caso p = 2 segue
dall’isometria di Itô (14.4.1) e quindi è sufficiente considerare p > 2.
p/2
Cominciamo col dimostrare la seconda disuguaglianza. Non è restrittivo assumere E ⟨X⟩τ > 0 altri-
menti non c’è nulla da provare. Poniamo
X̄τ = sup |Xt |
t∈[0,τ]
e assumiamo per il momento che X̄τ ≤ n q.c. per un certo n ∈ N. Allora per la disuguaglianza massimale di
Doob, Corollario 13.1.3, si ha
h pi
E X̄τ ≤ cp E [|Xτ |p ] =
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 377
(essendo il primo termine nullo perché l’integrale stocastico è una martingala, data l’ipotesi di limitatezza
di X̄τ )
"Z τ #
′ p−2
= cp E |Xt | d⟨X⟩t
0
"Z τ #
′ p−2
≤ cp E X̄τ d⟨X⟩t
0
h p−2 i
= cp′ E X̄τ ⟨X⟩τ ≤
p p
(per la disuguaglianza di Hölder con esponenti p−2 e 2)
h p i p−2 2
p/2 p
≤ cp′ E X̄τ p E ⟨X⟩τ
e da questa disuguaglianza segue facilmente la tesi. Per rimuovere l’ipotesi di limitatezza, è sufficiente
applicare il risultato appena provato al tempo d’arresto τn = inf{t ≥ 0 | |Xt | ≥ n} ∧ τ e poi passare al limite
per n → ∞ utilizzando il teorema di Beppo-Levi.
Proviamo ora la prima disuguaglianza: con l’usuale argomento di localizzazione basato sul teorema di
Beppo-Levi,
h p inon è restrittivo assumere che τ, X̄τ e ⟨X⟩τ siano limitatipda una costante positiva. Assumiamo
anche E X̄τ > 0 altrimenti non c’è nulla da provare. Poniamo r = 2 > 1 e A = ⟨X⟩. Per la formula di Itô
deterministica, Teorema 14.1.6 e formula (14.1.4), si ha
dArt = rAr−1
t dAt ,
r
dAt = d At Ar−1
t = At dAr−1
t + Ar−1
t dAt ,
1
dArt = At dAtr−1 + dArt
r
ossia Z τ
(r − 1)Arτ =r At dAr−1
t .
0
Essendo anche Z τ Z τ
Arτ = Aτ dAr−1
t = Aτ dAr−1
t ,
0 0
otteniamo infine Z τ
Arτ =r (Aτ − At ) dAr−1
t .
0
Allora si ha
"Z τ #
E [Arτ ] = rE (Aτ − At ) dAr−1
t =
0
378 CAPITOLO 16. FORMULA DI ITÔ
(per le (14.4.1) e (6.4.3) (si veda anche l’Osservazione 14.4.4), ricordando la notazione A = ⟨X⟩)
"Z
h τ i
#
= rE E Xτ2 − Xt2 | Ft d⟨X⟩r−1
t
0
"Z τ #
h i
≤ rE E X̄τ2 | Ft d⟨X⟩tr−1 =
0
r
Per concludere basta applicare la disuguaglianza di Hölder con esponenti r, r−1 e infine dividere per
r−1
E [⟨X⟩rτ ] r .
Si ha il seguente immediato
Corollario 16.2.2. [!] Siano σ ∈ L2 e W un moto Browniano reale. Per ogni p ≥ 2 e T > 0 si ha
Z p #
t
" "Z T #
p−2
|σs |p ds
E sup σs dWs ≤ cp T 2 E (16.2.2)
0≤t≤T 0 0
otteniamo
Z
T !p/2
h pi p/2
E X̄T ≤ cp E ⟨X⟩T = cp E σt2 dt
0
p p
e la tesi segue applicando la disuguaglianza di Hölder con esponenti 2 e p−2 .
Combinando la stima (16.2.2) col Teorema di continuità di Kolmogorov si ha che il processo integrale X
ammette una versione con traiettorie α-Hölderiane per ogni α ∈ [0, 12 − p2 [.
3 Il caso p = 2 corrisponde all’isometria di Itô.
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 379
Proposizione 16.2.4. Sia X una martingala locale continua con processo variazione quadratica ⟨X⟩. Si ha
2n
X 2
⟨X⟩t = lim X tkn − X t(k−1) , t ≥ 0,
n→∞ 2 2n
k=1
2n
X 2
⟨X⟩t = lim S tkn − S t(k−1) , t ≥ 0, (16.2.3)
n→∞ 2 2n
k=1
in probabilità.
Dimostrazione. Indichiamo al solito con tn,k = 2tkn , k = 0, . . . , 2n , i razionali diadici dell’intervallo [0, t]. Sup-
poniamo dapprima che X sia una martingala locale continua limitata, |X| ≤ K con K costante positiva.
Fissati n ∈ N e k ∈ {1, . . . , 2n }, consideriamo il processo
Ys := Xs − Xtn,k−1 , s ≥ tn,k−1 ,
e si verifica facilmente che (Ms )s≥tn,k−1 è una martingala. Applicando la formula di Itô si ha
2 Z tn,k
Xtn,k − Xtn,k−1 = 2 Xs − Xtn,k−1 dYs + ⟨X⟩tn,k − ⟨X⟩tn,k−1
tn,k−1
ossia
2 Z tn,k
Xtn,k − Xtn,k−1 − ⟨X⟩tn,k − ⟨X⟩tn,k−1 = 2 Xs − Xtn,k−1 dYs .
tn,k−1
Sommando in k otteniamo
2n
X 2 2n Z
X tn,k
Rn := Xtn,k − Xtn,k−1 − ⟨X⟩t = 2 Xs − Xtn,k−1 dYs .
k=1 k=1 tn,k−1
Grazie all’isometria di Itô nella forma (15.2.12) e (15.2.13) (si ricordi anche il Teorema 15.2.15), si ha
h i 2n
X
Z tn,k 2
R2n
E =4 E Xs − Xtn,k−1 d⟨Y ⟩s
k=1 tn,k−1
Z 2 n
t X 2
= 4E Xs − Xtn,k−1 1[tn,k−1 ,tn,k ] (s)d⟨Y ⟩s
0k=1
380 CAPITOLO 16. FORMULA DI ITÔ
h i
e passando al limite, per il teorema della convergenza dominata, si ha lim E R2n = 0. Dunque, in questo
n→∞
caso particolare si prova la convergenza in norma L2 che ovviamente implica la convergenza in probabilità.
Per rimuovere l’ipotesi di limitatezza di X, è sufficiente usare un argomento di localizzazione provando
la tesi per la martingala limitata Xt∧τn , con
τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n}, n ∈ N,
per poi far tendere n ad infinito: con questa procedura si riesce a dimostrare la convergenza in probabilità.
La dimostrazione della (16.2.3) è simile ed è omessa.
Invece la (16.3.2) equivale alla proprietà di martingala di M 2 − ⟨M⟩. La dimostrazione della formula di Itô
si basa essenzialmente su queste due identità. Un ulteriore ingrediente è la stima uniforme (14.5.3) della
norma L2 della variazione quadratica di M sui diadici.
Dividiamo la prova del Teorema 16.1.1 in quattro passi.
[Primo passo] Consideriamo la semimartingala continua X = A + M. Poiché la (16.1.1) è un’uguaglianza di
processi continui, è sufficiente dimostrare che si tratta di modificazioni: in altri termini, possiamo ragionare
per t > 0 fissato. Poniamo
τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n, ⟨X⟩s ≥ n, Vs (A) ≥ n}, n ∈ N,
dove Vs (A) indica il processo variazione prima di A su [0, s] (cfr. Definizione 14.1.1). Per continuità, τn ↗ ∞
q.c. e quindi basta provare la formula di Itô per Xt∧τn per ogni n ∈ N: equivalentemente, basta provare per
ogni fissato N̄ ∈ N vale la (16.1.1) nel caso in cui i processi |X|, |M|, A, ⟨X⟩ e V (A) siano limitati da N̄ . In tal
caso, non è restrittivo assumere che la funzione F abbia supporto compatto, eventualmente modificandola
fuori da [−N̄ , N̄ ]. In un primo momento, assumiamo anche che F ∈ C 3 (R).
Usiamo la notazione (13.1.1) per i diadici
D(t) = {tn,k = tk
2n | k = 0, . . . , 2n , n ∈ N}
di [0, t] e indichiamo con ∆n,k Y = Ytn,k − Ytn,k−1 l’incremento di un generico processo Y . Inoltre, poniamo
Fn,k := Ftn,k e
δn (Y ) = sup |Ys − Yr |, n ∈ N.
s,r∈D(t)
|s−r|< 1n
2
16.3. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 381
2n
X
F(Xt ) − F(X0 ) = F(Xtn,k ) − F(Xtn,k−1 )
k=1
2n 2n
X 1 X ′′
′
F (Xtn,k−1 ) ∆n,k X 2 + Rn
= F (Xtn,k−1 )∆n,k X + (16.3.3)
2
k=1 k=1
con
2n
X 3
|Rn | ≤ ∥F ′′′ ∥∞ ∆n,k X . (16.3.4)
k=1
Nei prossimi due passi stimiamo i singoli termini in (16.3.3) per mostrare che convergono ai corrispondenti
termini in (16.1.1) e Rn −→ 0 per n → ∞.
[Secondo passo] Per quanto riguarda la prima somma in (16.3.3), abbiamo
2n
X
F ′ (Xtn,k−1 )∆n,k X = In1,A + In1,M
k=1
2n
X Z t
In1,A := ′
F (Xtn,k−1 )∆n,k A −→ F ′ (Xs )dAs (16.3.5)
k=1 0
quasi certamente per n → ∞, con l’integrale inteso nel senso di Riemann-Stieltjes (o nel senso di Lebesgue-
Stieltjes, per la Proposizione 14.2.2) e
2n
X Z t
In1,M := ′
F (Xtn,k−1 )∆n,k M −→ F ′ (Xs )dMs
k=1 0
2n
X
F ′′ (Xtn,k−1 )(∆n,k X)2 = In2,A + 2In2,AM + In2,M
k=1
dove
2n
X 2n
X 2n
X
In2,A := F ′′ (Xtn,k−1 )(∆n,k A)2 , In2,AM := F ′′ (Xtn,k−1 )(∆n,k A)(∆n,k M), In2,M := F ′′ (Xtn,k−1 )(∆n,k M)2 .
k=1 k=1 k=1
Ora si ha
|In2,A | ≤ ∥F ′′ ∥∞ δn (A)Vt (A) ≤ N̄ ∥F ′′ ∥∞ δn (A) −→ 0
quasi certamente per n → ∞, per l’uniforme continuità delle traiettorie di A su [0, t]. Un risultato analogo
si ha per In2,AM . Ricordando che per definizione ⟨X⟩ = ⟨M⟩, rimane da provare che
Z t
In2,M −→ F ′′ (Xs )d⟨M⟩s .
0
382 CAPITOLO 16. FORMULA DI ITÔ
dimostriamo che
2n
X
F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ −→ 0
k=1
in norma L2 (Ω, P ). Posto Gn,k = F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ , sviluppando il quadrato della somma,
abbiamo
n
2
2 2n
X X
2
E Gn,k = E Gn,k
k=1 k=1
per n → ∞, poiché:
h i
• δn (M) ≤ 2N̄ e δn (M) → 0 q.c. per l’uniforme continuità di M su [0, t]: di conseguenza E δn4 (M) → 0
per il teorema della convergenza dominata. In modo analogo, E [δn (⟨M⟩)] → 0;
n !2
2
(∆n,k M)2 ≤ 16N̄ 4 per la stima (14.5.3).
P
• sup E
n∈N k=1
Il caso multidimensionale
Proposizione 17.1.1 (Processo covariazione). Siano X, Y ∈ M c,loc a valori reali. Il processo covariazione di
X e Y , definito da
⟨X + Y ⟩ − ⟨X − Y ⟩
⟨X, Y ⟩ := , (17.1.1)
4
è l’unico (a meno di indistinguibilità) processo tale che
ii) XY − ⟨X, Y ⟩ ∈ M c,loc ed è una vera martingala nel caso in cui X, Y ∈ M c,2 .
Se X, Y ∈ M c,2 si ha
e vale
2n
X
⟨X, Y ⟩t = lim X tkn − X t(k−1) Y tkn − Y t(k−1) , t ≥ 0, (17.1.3)
n→∞ 2 2n 2 2n
k=1
in probabilità.
(X + Y )2 − (X − Y )2
XY =
4
è facile verificare che il processo ⟨X, Y ⟩ definito come in (17.1.1) verifica le proprietà i) e ii). L’unicità segue
direttamente dal Teorema 14.3.6. La (17.1.2) segue dall’identità
e dalla proprietà di martingala di XY − ⟨X, Y ⟩. La (17.1.3) è una semplice conseguenza della (17.1.1),
applicata a X + Y e X − Y , e della Proposizione 16.2.4.
Osservazione 17.1.2. Per unicità si ha ⟨X, X⟩ = ⟨X⟩. Le seguenti proprietà sono dirette conseguenze della
definizione (17.1.1) di covariazione e della (17.1.3):
385
386 CAPITOLO 17. IL CASO MULTIDIMENSIONALE
Poiché la variazione quadratica di una funzione BV continua è nulla (cfr. Proposizione 14.3.4), la de-
finizione di variazione quadratica si estende alle semimartingale continue in modo naturale: ricordiamo
che nel Teorema 14.4.1 abbiamo definito il processo variazione quadratica di una semimartingala continua
S = X + A, con X ∈ M c,loc e A ∈ BV adattato, come ⟨S⟩ := ⟨X⟩.
i) W0 = 0 q.c.;
iii) W è adattato;
Un moto Browniano multidimensionale è un vettore di moti Browniani reali indipendenti: vale infatti
la seguente
iv) se A è una matrice ortogonale d×d allora il processo definito da Bt := AWt è ancora un moto Browniano
d-dimensionale. Se invece A è una generica matrice N × d allora B soddisfa le proprietà i), ii), iii) e
iv) della Definizione 17.2.1 e Bt − Bs ∼ N0,(t−s)C per ogni 0 ≤ s ≤ t, dove C = AA∗ . La matrice di
covariazione di B coincide con la matrice di covarianza, ⟨B⟩t = cov(Bt ) = tC . Diciamo che B è un moto
Browniano correlato N -dimensionale.
17.2. MOTO BROWNIANO MULTIDIMENSIONALE 387
Dimostrazione. Le proprietà i) e ii) seguono dal fatto che, per t > s ≥ 0, l’incremento Wt − Ws ha densità
Gaussiana
|x|2
d x2
1 − 2(t−s)
Y 1 i
− 2(t−s)
d
e = p e , x ∈ Rd ,
(2π(t − s)) 2
i=1 2π(t − s)
che è il prodotto di Gaussiane standard unodimensionali: in particolare, l’indipendenza segue dal Teorema
3.3.23-iv).
Per quanto riguarda iii), per il punto i) si ha ⟨W i ⟩t = ⟨W i , W i ⟩t = t per ogni i = 1, . . . , d. Per i , j è un
semplice esercizio1 provare che W i W j è una martingala e quindi ⟨W i , W j ⟩t = 0.
Il punto iv) è una semplice verifica in cui si utilizza la Proposizione 3.5.15.
In questa sezione vediamo brevemente come definire l’integrale stocastico di processi multidimensio-
nali, esaminando in particolare il moto Browniano e i processi di Itô. Per semplicità, trattiamo solo il
caso in cui l’integratore è in M c,2 anche se tutti i risultati seguenti si estendono ad integratori che siano
semimartingale continue. Nel seguito d e N indicano due numeri naturali.
al variare di t ≥ 0.
1 Per t ≥ s ≥ 0, si ha
j j j j
E Wti Wt | Fs = E Wti − Wsi Wt | Fs + Wsi E Wt | Fs = Wsi Ws
poiché
j j
j j h
E Wti − Wsi Wt | Fs = E Wti − Wsi Wt − Ws | Fs + Ws E Wti − Wsi | Fs
i
j
j
= E Wti − Wsi Wt − Ws = 0
i) si ha
Z t
⟨X, Y ⟩t = us vs d⟨B1 , B2 ⟩s ; (17.2.2)
0
Dimostrazione. Nel caso in cui u e v siano processi indicatori, la (17.2.3) si prova ripetendo la dimostrazione
del Teorema 15.2.7-ii) con l’unica differenza che, al posto della (15.2.6), occorre utilizzare la (17.1.2) nella
forma
h i h i
E (B1T − B1t )(B2T − B2t ) | Ft = E ⟨B1 , B2 ⟩T − ⟨B1 , B2 ⟩t | Ft , 0≤t ≤T.
Dimostrazione. La (17.2.4) segue direttamente dalla (17.2.3) e dal punto iii) della Proposizione 17.2.2.
Osservazione 17.2.7. Le componenti della matrice di covariazione (cfr. Definizione 17.1.3) del processo
integrale
Zt
Xt = us dBs
0
sono
d Z t d Z t
ij jk
X X
⟨X⟩t = ⟨ usih dBhs , us dBks ⟩ =
h=1 0 k=1 0
(per la (17.2.2))
d Z t
jk
X
= usih us d⟨Bh , Bk ⟩s (17.2.5)
h,k=1 0
per i, j = 1, . . . , N .
17.3. PROCESSI DI ITÔ MULTIDIMENSIONALI 389
dove:
i) X0 ∈ mF0 è una v.a. N -dimensionale;
ii) u è un processo N -dimensionale in L1loc , ossia u è progressivamente misurabile e tale che, per ogni
t ≥ 0, Zt
|us |ds < ∞, q.c.
0
iii) v è un processo in L2loc a valori nello spazio delle matrici N × d, ossia v è progressivamente misurabile
e tale che, per ogni t ≥ 0,
Zt
|vs |2 ds < ∞ q.c.
0
dove |v| indica la norma di Hilbert-Schmidt della matrice v, ossia la norma Euclidea in RN ×d , definita
da
N X
X d
|v|2 = (v ij )2 .
i=1 j=1
dXt = ut dt + vt dWt .
o, in notazione differenziale,
d
ij
X
d⟨X i , X j ⟩t = Ct dt, C ij = (vv ∗ )ij = v ik v jk . (17.3.2)
k=1
Proposizione 17.3.3 (Isometria di Itô). Per ogni v ∈ L2 , matrice di dimensione N ×d, e W moto Browniano
d-dimensionale vale Z t 2 "Z t #
|v|2 ds .
E vs dWs = E
0 0
Dimostrazione. Si ha
Z t 2 N d Z 2
X X t ij j
E vs dWs = E vs dWs
0 0
i=1 j=1
390 CAPITOLO 17. IL CASO MULTIDIMENSIONALE
(per la (17.2.4))
N X
d Zt !2
ij j
X
= E vs dWs
i=1 j=1 0
Xt = X0 + ut + vWt ,
t d Z t d Z
1X t
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + (∂xi xj F)(s, Xs )d⟨X i , X j ⟩s
0 0 2 0
j=1 i,j=1
Di seguito esaminiamo due casi particolarmente importanti in cui usiamo le espressioni (17.2.1) e
(17.3.2) delle covariazioni ⟨X i , X j ⟩:
i) se W è un moto Browniano d-dimensionale (cfr. Definizione 17.2.1) si ha
ossia, ricordando la notazione ⟨X⟩ per la matrice di covariazione di X (cfr. Definizione 17.1.3),
d⟨X⟩t = Ct dt.
17.4. FORMULA DI ITÔ MULTIDIMENSIONALE 391
Corollario 17.4.2 (Formula di Itô per il moto Browniano). Sia W un moto Browniano d-dimensionale.
Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × Rd ) si ha
Z t d Z t Z t
X j 1
F(t, Wt ) = F(0, 0) + (∂t F)(s, Ws )ds + (∂xj F)(s, Ws )dWs + (∆F)(s, Ws )ds
0 0 2 0
j=1
Esempio 17.4.3 (Martingala quadratica). Calcoliamo il differenziale stocastico di |Wt |2 dove W è un moto
Browniano N -dimensionale. In questo caso
N
X
d|Wt |2 = N dt + 2Wt dWt = N dt + 2 Wti dWti .
i=1
Corollario 17.4.4 (Formula di Itô per processi di Itô). [!] Sia X un processo di Itô in RN della forma
(17.4.2). Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × RN ) si ha
t N Z t N Z
1 X t ij
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + Cs (∂xi xj F)(s, Xs )ds
0 0 2 0
j=1 i,j=1
dYt = σt dWt
1 t ∗ 2
Z !
1
η
Mt = exp ⟨η, Yt ⟩ − ⟨⟨Y ⟩t η, η⟩ = exp ⟨η, Yt ⟩ − |σs η| ds .
2 2 0
392 CAPITOLO 17. IL CASO MULTIDIMENSIONALE
Ne viene in particolare che M η è una martingala locale positiva (e quindi una super-martingala per l’Os-
servazione 13.4.5-vi)).
La Proposizione 10.4.2 ha la seguente generalizzazione multidimensionale: consideriamo la martingala
esponenziale
η |η|2
Mt := ei⟨η,Wt ⟩+ 2 t , t ≥ 0, η ∈ Rd , (17.4.4)
dove i è l’unità immaginaria e W è un moto Browniano d-dimensionale.
Proposizione 17.4.6. Sia W un processo d-dimensionale, continuo e adattato sullo spazio (Ω, F , P , Ft ) e
tale che W0 = 0 q.c. Se per ogni η ∈ Rd il processo M η in (17.4.4) è una martingala, allora W è un moto
Browniano.
Osservazione 17.4.7 (Regole formali per il calcolo delle covariazioni). [!] Sia X il processo di Itô in
(17.4.2) con componenti
d
X
dXti = µit dt + σtik dWtk , i = 1, . . . , N . (17.4.5)
k=1
Per determinare i coefficienti
delle derivate seconde nella formula di Itô occorre calcolare la matrice di
covariazione ⟨X⟩ = ⟨X i , X j ⟩ che sappiamo essere data da d⟨X⟩t = σt σt∗ dt per la (17.4.3). Dal punto di vista
pratico il calcolo di σ σ ∗ può essere oneroso ed è quindi preferibile utilizzare le seguenti regole formali di
calcolo: si scrive
d⟨X i , X j ⟩ = dX i ∗ dX j
e si calcola il prodotto “∗′′ nel membro a destra come un prodotto dei “polinomi” dX i in (17.4.5) secondo
le seguenti regole di calcolo
j
dt ∗ dt = dt ∗ dWti = dWti ∗ dt = 0, dWti ∗ dWt = δij dt, (17.4.6)
dove δij è la delta di Kronecker.
Esempio 17.4.8. Supponiamo N = d = 2 in (17.4.5) e calcoliamo il differenziale stocastico del prodotto di
Zt = Xt1 Xt2 . Si ha Zt = F(Xt ) dove F(x1 , x2 ) = x1 x2 e
∂x1 F(x) = x2 , ∂x2 F(x) = x1 , ∂x1 x1 F(x) = ∂x2 x2 F(x) = 0, ∂x1 x2 F(x) = ∂x2 x1 F(x) = 1.
Di conseguenza
d(Xt1 Xt2 ) = Xt1 dXt2 + Xt2 dXt1 + d⟨X 1 , X 2 ⟩t
= Xt1 dXt2 + Xt2 dXt1 + σt11 σt21 + σt12 σt22 dt.
Di conseguenza
1 2
1 1
dYt = Wt1 Yt dt + tYt dWt1 + etWt dWt2 + t Yt + 2tetWt Wt2 dt.
2
Diamo la versione multidimensionale del Corollario 16.2.2 sulle stime Lp per l’integrale stocastico.
Omettiamo la dimostrazione che è simile al caso scalare.
Corollario 17.4.10. [!] Siano σ ∈ L2 , matrice N ×d-dimensionale, e W un moto Browniano d-dimensionale.
Per ogni p ≥ 2 e T > 0 si ha Z p #
t
" "Z T #
p−2
|σs |p ds
E sup σs dWs ≤ cT 2 E
0≤t≤T 0 0
dove |σ | indica la norma di Hilbert-Schmidt2 di σ e c è una costante positiva che dipende solo da p, N e d.
Dimostrazione. Usiamo la Proposizione 17.4.6 e verifichiamo che, per ogni η ∈ Rd , il processo esponenziale
η |η|2
Mt := eiη·Xt + 2 t
e quindi, per il Teorema 15.2.23, M η è una martingala locale continua. D’altra parte M η è anche una vera
martingala essendo un processo limitato, da cui la tesi.
Definizione 17.5.3 (Moto Browniano correlato). Sia α un processo progressivamente misurabile a valori
nello spazio delle matrici di dimensione N ×d, le cui righe α i sono tali che |αti | = 1 per t ≥ 0 quasi certamente.
Dato un moto Browniano standard d-dimensionale W , il processo
Z t
Bt := αs dWs
0
Per il Corollario 17.5.2, ogni componente di B è un moto Browniano reale e per la (17.4.3) si ha
Z t
ij
⟨Bi , Bj ⟩t = ϱs ds
0
poiché
d Z d Z t
j
X t
i j jh
X
cov(Bit , Bt ) = E Bt Bt = E ik
αs dWsk h
αs dWs =
k=1 0 h=1 0
Nel caso in cui σ sia ortogonale si ha N = d, α ∗ = α −1 e quindi α i ·α j = δij per ogni coppia di righe: in questo
caso particolare anche B è un moto Browniano standard d-dimensionale secondo la Definizione 17.2.1.
17.5. CARATTERIZZAZIONE DI LÉVY E MOTO BROWNIANO CORRELATO 395
Esempio 17.5.4 (Formula di Itô per il moto Browniano correlato). In alcune applicazioni è naturale uti-
lizzare processi di Itô definiti con un moto Browniano correlato dBt = αt dWt come nella Definizione 17.5.3.
Per esempio, in un modello finanziario di tipo Black&Scholes [22], la dinamica stocastica dei prezzi di N
titoli rischiosi può essere assegnata con le equazioni
piuttosto che
d
ij j
X
dSti = µit Sti dt + vt Sti dWt , i = 1, . . . , N , (17.5.3)
j=1
con W moto Browniano standard d-dimensionale. Nella (17.5.3), la dinamica del titolo i-esimo coinvolge
esplicitamente tutti i Browniani W 1 , . . . , W d e i coefficienti di diffusione v ij incorporano le correlazioni fra i
diversi titoli. Al contrario, in (17.5.2) il titolo i-esimo dipende solo dal Browniano reale Bi : il coefficiente σ i ,
usualmente chiamato volatilità, è indicatore della “rischiosità” del titolo i-esimo; la dipendenza fra i diversi
titoli è implicita in B tramite la matrice di correlazione ϱ = αα ∗ , per cui d⟨B⟩t = ϱt dt. In questo contesto,
si preferisce spesso assegnare la dinamica (17.5.2) invece della (17.5.3), per tenere separate le strutture di
volatilità dei singoli titoli da quella di correlazione.
Nel caso del moto Browniano correlato, le regole formali di calcolo dell’Osservazione 17.4.7 si modifi-
cano in
j ij
dt ∗ dt = dt ∗ dBit = dBit ∗ dt = 0, dBit ∗ dBt = ϱt dt.
Per esempio, assumiamo la dinamica (17.5.2) con N = 2 e B moto Browniano bidimensionale definito come
nell’Esempio 17.2.3, con matrice di correlazione
!
1 ϱ
, ϱ ∈ [−1, 1].
ϱ 1
Allora si ha
• il Teorema 18.3.3 di Girsanov che afferma che il processo ottenuto aggiungendo un drift ad un moto
Browniano, è ancora un moto Browniano sotto una nuova misura di probabilità;
• il Teorema 18.5.1 di rappresentazione delle martingale in base al quale ogni martingala locale rela-
tiva alla filtrazione Browniana ammette una rappresentazione in termini di integrale stocastico e di
conseguenza ammette una modificazione continua.
Questi risultati possono essere combinati per esaminare la relazione fra un cambio di misura di probabilità
e l’espressione del drift di un processo di Itô. Nella trattazione di questi problemi un ruolo centrale è
giocato dalle martingale esponenziali.
otteniamo
dMtλ = −Mtλ λt dWt . (18.1.2)
Quindi M λ è una martingala locale, a volte chiamata martingala esponenziale. Essendo positiva, M λ è una
super-martingala (cfr. Osservazione (13.4.5)-vi)) e in particolare
h i
E Mtλ ≤ M0λ = 1, t ∈ [0, T ];
h i
inoltre, M λ è una vera martingala su [0, T ] se e solo se E MTλ = 1.
Le martingale esponenziali hanno un interessante legame con i cambi di misura di probabilità. Ricor-
diamo che due misure di probabilità P , Q su uno spazio (Ω, F ) si dicono equivalenti se hanno gli stessi
eventi certi e trascurabili: in tal caso si scrive Q ∼ P . Per il Teorema A.2.1.3 di Radon-Nikodym ad ogni
397
398 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
probabilità Q, equivalente a P , è associata una variabile aleatoria Z che è strettamente positiva q.c. e tale
che
Z
Q(A) = ZdP , A ∈ F;
A
Teorema 18.1.1 (Cambi di misura e di drift). [!] Sia W = (Wt )t∈[0,T ] un moto Browniano d-dimensionale
sullo spazio (Ω, F , P ) munito della filtrazione Browniana standard1 F W . Si ha:
dQ
= MTλ (18.1.3)
dP
ii) viceversa, se λ ∈ L2loc è tale che M λ è una vera martingala allora (18.1.3) definisce una misura di
probabilità Q ∼ P .
Inoltre:
a) quasi certamente si ha
" #
dQ
Mtλ = E P | FtW , t ∈ [0, T ]; (18.1.4)
dP
b) il processo
Z t
Wtλ := Wt + λs ds, (18.1.5)
0
Proveremo il Teorema 18.1.1 nella Sezione 18.5.1, come corollario dei due risultati principali di questo
capitolo, il teorema di Girsanov e il teorema di rappresentazione delle martingale Browniane.
1 La filtrazione ottenuta completando la filtrazione generata da W in modo che verifichi le ipotesi usuali.
18.1. CAMBI DI MISURA E PROCESSI DI ITÔ 399
quindi formalmente analoga4 a (18.1.8) ma con il tasso di rendimento atteso uguale al tasso privo di rischio.
La misura Q non intende descrivere il reale rendimento atteso: Q è chiamata “misura neutrale al rischio”
o anche “misura martingala” poiché il processo Set := e−rt St del prezzo scontato5 è una Q-martingala e, in
particolare, vale
S0 = e−rT E Q [St ] . (18.1.10)
La (18.1.10) è una formula di valutazione neutrale al rischio, in base alla quale il prezzo attuale S0 è equo
nel senso che è uguale al valore atteso del prezzo futuro. La misura Q viene usata per valutare particolari
strumenti finanziari chiamati derivati, di cui è noto il valore in un tempo futuro T , in funzione di ST : se
indichiamo con ϕ tale funzione, la variabile aleatoria ϕ(ST ) è chiamata “payoff” e corrisponde al valore del
derivato al tempo T . Per coerenza con la formula (18.1.10), il valore atteso nella misura neutrale al rischio
è chiamato “prezzo neutrale al rischio” del derivato con payoff ϕ: il valore atteso in (18.1.11) può essere
calcolato esplicitamente usando il fatto che ST ha distribuzione log-normale, restituendo la famosa formula
di Black&Scholes.
2 Se σ = 0, la (18.1.8) si riduce ad un’equazione differenziale ordinaria
dSt = µSt dt
con soluzione deterministica St = S0 eµt : quest’ultima è una cosiddetta formula di capitalizzazione composta con tasso d’interesse µ.
3 Il tasso d’interesse pagato dal conto in banca che è assunto come investimento non rischioso di riferimento.
4 W λ = W + λt è un moto Browniano reale nella misura Q.
t t
5 Il fattore di sconto e−rt elimina il “valore del tempo” ossia attualizza i prezzi.
400 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
Il parametro λ in (18.1.9) è chiamato “prezzo di mercato del rischio” perché è definito come rapporto
fra il differenziale di rendimento µ − r richiesto per assumersi il rischio di investire in S e la volatilità σ che
misura la rischiosità di S.
A differenza di P , la misura Q non ha una finalità “statistica” e non descrive le probabilità reali degli
eventi, ma è una misura artificiale rispetto alla quale tutti i prezzi di mercato (del conto in banca, del titolo
S e del derivato ϕ(ST )) sono equi: le finalità di Q sono principalmente la valutazione dei derivati e lo studio
di alcune proprietà fondamentali dei modelli finanziari, come la assenza d’arbitraggi e la completezza. Per
una trattazione completa di questi temi rimandiamo, per esempio, a [94].
per una certa costante κ. Allora la martingala esponenziale M λ in (18.1.1) è una vera martingala e vale
" #
λ p
E sup Mt < ∞, p ≥ 1.
0≤t≤T
dove il moto Browniano W e λ ∈ L2loc sono entrambi processi d-dimensionali6 . Sotto la condizione (18.2.1),
la disuguaglianza (16.2.1) di Burkholder-Davis-Gundy fornisce la seguente stima di sommabilità per Y :
per ogni p > 0 vale
h pi
p/2
E ȲT ≤ cE ⟨Y ⟩T ≤ cκp/2 .
In effetti, vale una stima di sommabilità più forte, di tipo esponenziale, per provare la quale abbiamo
bisogno del seguente
Lemma 18.2.3. Per ogni super-martingala continua non-negativa Z = (Zt )t∈[0,T ] vale
!
E [Z0 ]
P sup Zt ≥ ε ≤ , ε > 0.
0≤t≤T ε
6 Quindi, più esplicitamente,
d Z t
j j
X
Yt = λs dWs .
j=1 0
Osserviamo che Mtλ = exp −Yt − 12 ⟨Y ⟩t .
18.2. STIME DI SOMMABILITÀ PER MARTINGALE ESPONENZIALI 401
Proposizione 18.2.4 (Sommabilità esponenziale). Sia Y l’integrale stocastico in (18.2.2) con λ ∈ L2 che
verifica la condizione (18.2.1). Allora si ha
ε2
P ȲT ≥ ε ≤ 2e− 2κ , ε > 0, (18.2.3)
Allora si ha
! !
α2 κ α2 κ
P sup Yt ≥ ε ≤ P sup Ztα ≥ eαε− 2 ≤ e−αε+ 2
0≤t≤T 0≤t≤T
per il Lemma 18.2.3, essendo E[Z0α ] = 1. Scegliendo α = κε in modo da minimizzare l’ultimo termine,
otteniamo !
ε2
P sup Yt ≥ ε ≤ e− 2κ
0≤t≤T
Una stima analoga vale per −Y e questo prova la (18.2.3). Infine, la (18.2.4) è immediata conseguenza della
(18.2.3) e della Proposizione 4.1.6 e del successivo Esempio 4.1.7.
Osservazione 18.2.5. La Proposizione 18.2.4 si estende a σ processo N × d-dimensionale: in questo caso
vale ε2
P ȲT ≥ ε ≤ 2N e− 2κN , ε > 0, (18.2.5)
ed esiste α = α(κ, N ) > 0 tale che
2
E eα ȲT < ∞.
da cui la tesi.
402 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
In particolare per p = 2 si ha
"Z T # " Z T #
E λ2t (Mtλ )2 dt ≤ E sup (Mtλ )2 λ2t dt ≤
0 0≤t≤T 0
1 T
" Z !#
2
E exp |λs | ds < ∞
2 0
Lemma 18.3.1. Supponiamo che M λ in (18.3.1) sia una P -martingala e sia Q la misura di probabilità in
(18.3.2). Un processo X = (Xt )t∈[0,T ] è una Q-martingala se e solo se (Xt Mtλ )t∈[0,T ] è una P -martingala.
da cui la tesi.
e quindi
dP λ −1
= MT .
dQ
In particolare P , Q sono misure equivalenti, nel senso che hanno gli stessi eventi certi e trascurabili, poiché
reciprocamente hanno densità strettamente positive.
Un moto Browniano è una martingala e quindi è un processo “privo di drift”: il teorema di Girsanov
afferma che se si aggiunge un drift ad un moto Browniano, questo nuovo processo è ancora un moto Bro-
wniano rispetto ad una certa misura di probabilità. Per comprendere questo risultato che a prima vista
appare un po’ strano, è utile aver presente l’elementare Esempio 6.4.8 alla fine del quale avevamo osservato
che la proprietà di martingala non è una proprietà delle traiettorie del processo ma dipende dalla misura di
probabilità considerata.
Teorema 18.3.3 (Girsanov). [!!] Se W è un moto Browniano e M λ in (18.3.1) è una martingala sullo spazio
(Ω, F , P , Ft ), allora il processo
Zt
Wtλ := Wt + λs ds, t ∈ [0, T ],
0
dQ
è un moto Browniano su (Ω, F , Q, Ft ) con dP = MTλ .
404 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
Dimostrazione. Per la Proposizione 17.4.6 di caratterizzazione del moto Browniano, è sufficiente mostrare
che, per ogni η ∈ Rd , il processo
η λ |η|2
+
Xt := eiηWt 2 t , t ∈ [0, T ],
è una Q-martingala (ossia una martingala nella misura Q): equivalentemente, per il Lemma 18.3.1, provia-
mo che il processo
Zt Zt
|η|2 t 1 t
Z !
η
Xt Mtλ = exp iηWt + i ηλs ds + − λs dWs − |λs |2 ds
0 2 0 2 0
Z
t d
1X t j
Z 2
= exp − (λ − iη) dWs − λs − iη j ds
0 s 2 0
j=1
è una P -martingala. Sotto la condizione di limitatezza (18.2.1) la tesi segue dal Lemma 18.2.1 che vale
anche per processi a valori complessi e in particolare per λ − iη.
Il caso generale si tratta con un argomento tecnico di localizzazione: consideriamo la successione di
tempi d’arresto
( Zt )
τn = inf t ≥ 0 | |λs |2 ds ≥ n ∧ T , n ∈ N.
0
η λ
Per il Lemma 18.2.1, il processo (Xt∧τn Mt∧τ n
) è una P -martingala e vale
h η i η
E P Xt∧τn Mt∧τ
λ
n
λ
| Fs = Xs∧τn Ms∧τn
, s ≤ t, n ∈ N.
λ η η
Dunque, per provare che X η Z è una martingala, è sufficiente mostrare che (Xt∧τn Mt∧τ n
) converge a (Xt Mtλ )
in norma L1 per n che tende all’infinito. Poiché
η η
lim Xt∧τn = Xt q.c.
n→∞
η |ξ|2 T
e 0 ≤ Xt∧τn ≤ e 2 , basta provare che
λ
lim Mt∧τ n
= Mtλ in L1 (Ω, P ).
n→∞
Posto
λ
Mn,t = min{Mt∧τ n
, Mtλ },
D’altra parte
h i h i h i
λ
E Mtλ − Mt∧τ n
= E M λ
t − M n,t + E M λ
t∧τ n
− M n,t =
h i h i
(poiché E Mtλ = E Mt∧τ
λ
n
= 1)
h i
= 2E Mtλ − Mn,t
da cui la tesi.
18.4. APPROSSIMAZIONE MEDIANTE MARTINGALE ESPONENZIALI 405
Teorema 18.4.1. Lo spazio delle combinazioni lineari di variabili aleatorie della forma
Z T Z T !
1 2
MTλ = exp − λ(t)dWt − λ(t) dt ,
0 2 0
Lemma 18.4.2. Sia (tn )n∈N una successione densa in [0, T ]. La famiglia delle variabili aleatorie della forma
Gn := σ (Wt1 , . . . , Wtn ), n ∈ N,
è tale che σ (Gn , n ∈ N) = GTW dove G W indica la filtrazione generata dal moto Browniano. Data X ∈
L2 (Ω, FTW ), proviamo fra poco che
h i
lim E |X − Xn |2 = 0, Xn := E [X | Gn ] , n ∈ N. (18.4.1)
n→∞
Xn = ϕn (Wt1 , . . . , Wtn )
per una certa funzione ϕn misurabile e di quadrato sommabile rispetto alla legge µWt ,...,Wtn : per densità,
1
ϕn può essere approssimata in L2 da una successione (ϕn,k )k∈N in C0∞ (Rn ) e vale anche
Allora, per il Teorema 13.2.2 sulla convergenza delle martingale discrete, esiste il limite puntuale q.c.
M := lim Xn .
n→∞
7 La filtrazione standard F W è ottenuta completando la filtrazione G W generata da W , secondo il Teorema 11.2.23.
406 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
Inoltre, poiché
(Xn − M)2 ≤ 2(Xn2 + M 2 ) ≤ 2 sup Xn2 ,
n∈N
lim Xn = M in L2 (Ω, P ).
n→∞
Posto Mn = E [M | Gn ], si ha
h i h i h i
E (Xn − Mn )2 = E (Xn − E [M | Gn ])2 = E (E [Xn − M | Gn ])2 ≤
h Poichéi gli elementi di FT e GT differiscono solo per eventi trascurabili, si deduce che vale
W W
per la (18.4.3).
anche M = E X | FTW .
Dimostrazione del Teorema 18.4.1. È sufficiente provare che se X ∈ L2 (Ω, FTW ) e, per ogni λ ∈ L∞ ([0, T ]),
h i
⟨X, MTλ ⟩L2 (Ω) = E XMTλ = 0 (18.4.4)
allora X = 0 q.c.
Da (18.4.4), scegliendo λ costante a tratti, si ha
h i
F(η) := E Xeη1 Wt1 +···+ηn Wtn = 0, η ∈ Rn , t1 , . . . , tn ∈ [0, T ],
e l’estensione analitica di F a Cn , per il teorema del prolungamento analitico, è identicamente nulla. Allora,
per ogni ϕ ∈ C0∞ (Rn ), per il Teorema 3.5.6 d’inversione della trasformata di Fourier si ha
"Z #
h i X −i(η1 Wt1 +···+ηn Wtn )
E Xϕ(Wt1 , . . . , Wtn ) = E e ϕ̂(η)dη
(2π)n Rn
Z
1 h
−i(η1 Wt1 +···+ηn Wtn )
i
= ϕ̂(η)E e X dη = 0,
(2π)n Rn
Teorema 18.5.1 (Rappresentazione delle martingale Browniane). [!!!] Sia W un moto Browniano sullo
spazio (Ω, F , P ) munito della filtrazione standard Browniana F W . Se X = (Xt )t∈[0,T ] è una versione càdlàg
di una martingala locale su (Ω, F , P , F W ) allora esiste ed è unico u ∈ L2loc tale che
Z t
Xt = X0 + us dWs , t ∈ [0, T ]. (18.5.1)
0
Osservazione 18.5.2. Il Teorema 18.5.1 rinforza il risultato provato nella Sezione 13.2 in quanto afferma
che ogni martingala locale Browniana ammette una modificazione continua, non solo càdlàg.
Alla dimostrazione del Teorema 18.5.1 premettiamo la seguente proposizione che si basa sui risultati di
approssimazione della Sezione 18.4.
Proposizione 18.5.3. Per ogni variabile aleatoria X ∈ L2 (Ω, FTW ) esiste ed è unico u ∈ L2 such that
Z T
X = E [X] + ut dWt . (18.5.2)
0
Dimostrazione. Per semplicità, consideriamo solo il caso uno-dimensionale. Per quanto riguarda l’unicità,
se u, v ∈ L2 soddisfano la (18.5.2), allora
Z T
(ut − vt )dWt = 0
0
e quindi (un )n∈N è una successione di Cauchy in L2 . La tesi segue passando al limite in (18.5.4).
408 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
Dimostrazione del Teorema 18.5.1. L’unicità di u segue dall’unicità della rappresentazione di un processo di
Itô (cfr. Osservazione 15.3.5).
Per quanto riguarda l’esistenza, consideriamo prima il caso in cui X è una martingala tale che XT ∈
L2 (Ω, P ). Per il Teorema 18.5.3 esiste u ∈ L2 tale che
ZT
XT = E [XT ] + ut dWt ,
0
da cui segue la (18.5.1), semplicemente applicando l’attesa condizionata a FtW per ogni t ∈ [0, T ]. In
particolare, abbiamo provato che X ammette una modificazione continua.
Ora rimuoviamo l’ipotesi XT ∈ L2 (Ω, P ) e proviamo che ogni F W -martingala X ammette una modifi-
cazione continua. Poiché XT ∈ L1 (Ω, P ) e L2 (Ω, P ) è denso in L1 (Ω, P ), esiste una successione (Yn )n∈N di
variabili aleatorie in L2 (Ω, P ) tali che
1
E [|Yn − XT |] ≤ , n ∈ N.
2n
Per il punto precedente, la successione di martingale
h i
Xn,t := E Yn | FtW , t ∈ [0, T ],
ammette una modificazione continua e per la disuguaglianza massimale di Doob, Teorema 13.1.2, vale
1 h i k
P sup Xn,t − Xt ≥ ≤ kE Xn,T − XT ≤ n , k, n ∈ N.
t∈[0,T ] k 2
Dal Lemma 2.3.28 di Borel-Cantelli segue che, quasi certamente, (Xn )n∈N converge uniformemente su [0, T ]
alla martingala X che è quindi continua q.c.
Se X è una martingale locale, consideriamo una successione localizzante (τn )n∈N : il processo Xt∧τn − X0
è una martingala e per quanto abbiamo appena provato, ammette una modificazione continua. Poiché
Xt 1(τn ≥T ) = Xt∧τn 1(τn ≥T ) , t ∈ [0, T ], n ∈ N, (18.5.5)
deduciamo che anche X ammette una modificazione continua.
Infine, proviamo la (18.5.1) nell’ipotesi che X sia una martingala locale continua. Per l’Osservazione
13.4.5, esiste una successione localizzante (τn )n∈N tale che Xt∧τn − X0 è una martingala continua e limitata
per ogni n ∈ N. Allora esiste una successione (un )n∈N in L2 per cui vale
Zt
Xt∧τn = X0 + un,s dWs , t ∈ [0, T ]. (18.5.6)
0
Per la (18.5.5) e la Proposizione 15.2.25 si può passare al limite in (18.5.6) per concludere la dimostrazione.
ossia M risolve un’equazione differenziale stocastica lineare di cui la martingala esponenziale M λ in (18.1.1)
è l’unica8 soluzione. Dunque M = M λ nel senso dell’indistinguibilità.
Per costruzione M è una martingala e quindi, per il Teorema 18.3.3 di Girsanov, W λ in (18.1.5) è un
moto Browniano su (Ω, F , Q, F W ). Infine si ha
dXt = bt dt + σt dWt =
(per la (18.1.5))
= bt dt + σt (dWtλ − λt dt)
Osservazione 18.5.4. Ribadiamo che un cambio di misura alla Girsanov modifica solo il termine di drift di un
processo di Itô, mentre il coefficiente di diffusione rimane invariato.
8 Il fatto che M λ sia soluzione è una semplice verifica con la formula di Itô. Per l’unicità, non è difficile adattare la prova del
Teorema 22.1.1 che dimostreremo in seguito.
410 CAPITOLO 18. CAMBI DI MISURA E RAPPRESENTAZIONE DI MARTINGALE
Capitolo 19
David Mumford
A partire da questo capitolo iniziamo lo studio delle equazioni differenziali stocastiche, nel seguito ab-
breviate in SDE dalla locuzione anglosassone “stochastic differential equations”. Come anticipato nella
Sezione 7.6, tali equazioni sono state originalmente introdotte per la costruzione di processi di Markov
continui o diffusioni. Nel tempo le SDE hanno assunto un ruolo centrale per la modellizzazione stocastica
in molteplici campi applicativi, al fine di generalizzare le equazioni differenziali deterministiche introdu-
cendo un fattore di perturbazione aleatoria. Le SDE permettono anche la costruzione di esempi espliciti di
semimartingale continue.
In questo capitolo introduciamo la nozione di soluzione di una SDE e i relativi problemi di esisten-
za e unicità che hanno una duplice formulazione, in senso debole e forte. Proviamo anche alcune stime
preliminari di dipendenza continua e sommabilità delle soluzioni.
411
412 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE
Ipotesi 19.1.1. Le funzioni b, σ sono localmente limitate in x uniformemente in t (in breve, scriviamo b, σ ∈
L∞ N
loc (]t0 , T [×R )): precisamente, per ogni n ∈ N esiste una costante κn tale che
Prima di dare la definizione di soluzione di una SDE occorre ambientare opportunamente il problema
tramite la seguente
Definizione 19.1.2 (Set-up). Un set-up (W , Ft ) su [t0 , T ] è costituito da:
• uno spazio di probabilità (Ω, F , P ) con filtrazione (Ft )t∈[t0 ,T ] ;
• un moto Browniano d-dimensionale W = (Wt )t∈[t0 ,T ] di punto iniziale t0 su (Ω, F , P , Ft ).
Osservazione 19.1.3. Ricordiamo che Wt0 = 0 per definizione2 . Inoltre, osserviamo esplicitamente che Ft0
è indipendente dalla filtrazione standard Browniana (FtW )t∈[t0 ,T ] che verifica le ipotesi usuali.
Osservazione 19.1.4. A costo di appesantire un po’ le notazioni, consideriamo un intervallo temporale
generico [t0 , T ] invece che semplicemente [0, T ], perché riteniamo possa favorire la comprensione della
teoria delle “soluzioni forti” nel Capitolo 22 e di alcuni importanti risultati come la proprietà di flusso delle
soluzioni e le stime di dipendenza dai parametri. A partire dal Capitolo 23 porremo t0 = 0 per semplicità.
Definizione 19.1.5 (Soluzione di una SDE). Una soluzione della SDE di coefficienti b, σ relativa al set-up
(W , Ft ) è un processo N -dimensionale X = (Xt )t∈[t0 ,T ] definito sullo stesso spazio di W e tale che:
X ∈ SDE(b, σ , W , Ft ).
Si è soliti associare ad una SDE anche una “condizione iniziale” che può essere assegnata puntualmente
tramite una variabile aleatoria Z ∈ mFt0 qualora il set-up (W , Ft ) sia stato prefissato oppure, come vedremo
in seguito, in legge tramite una distribuzione µ0 su RN .
2 Si veda la Definizione 10.2.1. La condizione W = 0 non è restrittiva poiché l’integrale stocastico che appare nella SDE dipende
t0
solo dagli incrementi Browniani (cfr. Corollario 15.2.26): quindi se B è un moto Browniano generico e Wt := Bt − Bt0 si ha q.c.
Zt Zt
us dBs = us dWs , t ≥ t0 .
t0 t0
Assumere Wt0 = 0 rende anche più “efficiente” la seguente Definizione 19.1.6 di soluzione forte poiché si ha l’inclusione stretta
FtW ⊂ FtB per t > t0 .
3 Ossia esiste una versione dell’integrale stocastico
Zt
t 7→ σ (s, Xs )dWs
t0
tale che la (19.1.4) valga per ogni t ∈ [t0 , T ] quasi certamente. Notiamo esplicitamente che, sotto l’Ipotesi 19.1.1 di locale limitatezza,
si ha
TZ Z T
|b(t, Xt )|dt + |σ (t, Xt )|2 dt < ∞ q.c. (19.1.3)
t0 t0
e quindi gli integrali in (19.1.4) sono ben definiti.
19.1. SOLUZIONI DI SDE: NOZIONI DI ESISTENZA E UNICITÀ 413
Definizione 19.1.6 (Soluzione forte di una SDE). Fissati un set-up (W , Ft ) e un dato iniziale Z ∈ mFt0 ,
indichiamo con
F Z,W = (FtZ,W )t∈[t0 ,T ]
la filtrazione generata da W e Z, completata in modo che verifichi le ipotesi usuali4 . Una soluzione X ∈
SDE(b, σ , W , Ft ), tale che Xt0 = Z, è soluzione in senso forte se è adattata alla filtrazione F Z,W .
Osservazione 19.1.7. [!] Le soluzioni forti si caratterizzano per la proprietà di essere adattate alla filtra-
zione F Z,W : poiché F Z,W è la più piccola filtrazione rispetto alla quale si può definire una soluzione della
SDE, tale condizione di misurabilità è la più restrittiva possibile.
Se il dato iniziale è deterministico, ossia Z ∈ RN , allora una soluzione forte è adattata alla filtrazione
standard Browniana F W . Ciò significa che a W , tramite la SDE di coefficienti b, σ , è associato un processo
(la soluzione) X che è un “funzionale” di W , nel senso che Xt si può esprimere in funzione di (Ws )s∈[t0 ,t] .
Questa osservazione è rilevante poiché in diverse applicazioni, come per esempio nella teoria dei segnali, W
rappresenta un insieme di dati osservati che sono utilizzati come “input” di un modello o sistema dinamico
(formalizzato dalla SDE) che produce come “output” la soluzione X: in questo caso è importante che X si
possa esprimere in funzione dei dati di partenza.
Esempio 19.1.8. Nel caso banale in cui i coefficienti b = b(t) e σ = σ (t) della SDE (19.1.1) sono funzioni L∞
della sola variabile temporale, la soluzione della corrispondente SDE è il processo di Itô
Zt Zt
Xt = Z + b(s)ds + σ (s)dWs .
t0 t0
Ricordiamo dall’Esempio 16.1.9 che se il dato iniziale è deterministico allora X è un processo Gaussiano.
Esistono diverse formulazioni del problema dell’esistenza di soluzioni di una SDE.
Definizione 19.1.9 (Risolubilità di una SDE). Diciamo che la SDE di coefficienti b, σ è risolubile
• in senso debole, se per ogni distribuzione µ0 su RN esistono un set-up (W , Ft ) e una soluzione X ∈
SDE(b, σ , W , Ft ) tale che Xt0 ∼ µ;
• in senso forte, se per ogni set-up (W , Ft ) e Z ∈ mFt0 esiste una soluzione forte X ∈ SDE(b, σ , W , FtZ,W )
tale che Xt0 = Z q.c.
Anche se sembra contro-intuitivo, è possibile che un processo soddisfi un’equazione del tipo
Zt Zt
Xt = x + b(s, Xs )ds + σ (s, Xs )dWs
0 0
con dato iniziale deterministico x e non sia adattato a F W : in altri termini, in alcuni casi un processo
∈ RN ,
X, per essere soluzione di una SDE, necessita di maggiore aleatorietà di quella che gli deriva dal moto
Browniano rispetto al quale è scritta l’equazione. Un famoso esempio è dovuto a Tanaka [121] (si veda
anche [131]): qui descriviamo l’idea generale e rimandiamo alla Sezione 9.2.1 in [94] o all’Esempio 3.5,
Capitolo 5 in [58] per i dettagli.
Esempio 19.1.10 (Tanaka). [!] Consideriamo la SDE scalare (ossia con N = d = 1)
4 Per il Teorema 11.2.23 e l’indipendenza di Z da F W (cfr. Osservazione 19.1.3) W è un moto Browniano anche rispetto a F Z,W .
414 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE
Per provare che la SDE (19.1.5) è risolubile in senso debole, consideriamo un moto Browniano X definito
sullo spazio (Ω, F , P , F X ). Il processo
Zt
Wt := σ (Xs )dXs (19.1.6)
0
è una martingala continua con variazione quadratica ⟨W ⟩t = t e di conseguenza, per il Teorema 17.5.1, è
anch’esso un moto Browniano su (Ω, F , P , F X ). Poiché σ 2 ≡ 1, dalla definizione dWt = σ (Xt )dXt otteniamo
che significa che X è soluzione della SDE (19.1.5) relativa a W , ossia X ∈ SDE(0, σ , 0, W , F X ). Il punto
cruciale è che si può dimostrare5 che W definito da (19.1.6) è adattato alla filtrazione standard F |X| del
processo in valore assoluto |X|: se X fosse adattato a F W allora dovrebbe essere adattato anche a F |X|
e ciò è assurdo. Questo esempio può sembrare un po’ patologico perché il coefficiente σ è una funzione
discontinua: più recentemente Barlow [7] ha dimostrato che per ogni α < 12 esiste una funzione σ che è
α-Hölderiana, limitata dall’alto e dal basso da costanti positive, e tale che la SDE (19.1.5) è risolubile in
senso debole ma non in senso forte.
In definitiva, una SDE può essere risolubile debolmente senza esserlo in senso forte: la risolubilità
debole è meno restrittiva perché dà la libertà di scelta dello spazio, del moto Browniano e della filtrazione
rispetto a cui scrivere la SDE. Al contrario, le soluzioni forti sono vincolate ad essere adattate alla filtrazione
F Z,W standard del dato iniziale Z e del Browniano W .
Come per l’esistenza, esistono anche differenti nozioni di unicità della soluzione di una SDE.
Definizione 19.1.11 (Unicità per una SDE). Diciamo che per la SDE di coefficienti b, σ si ha unicità
• in senso forte, se X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , W , Gt ) con Xt0 = Yt0 q.c. implica che X e Y sono
processi indistinguibili;
d
• in senso debole (o in legge), se X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , B, Gt ), con Xt0 = Yt0 , implica che
d
(X, W ) = (Y , B) ossia (X, W ) e (Y , B) hanno le stesse distribuzioni finito-dimensionali.
Nella definizione di unicità forte i due processi X e Y sono definiti sullo stesso spazio di probabilità
(Ω, F , P ) e sono soluzioni della SDE relative ai setup (W , Ft ) e (W , Gt ) dove W è un moto Browniano ri-
spetto ad entrambe le filtrazioni (Ft ) e (Gt ) che possono essere differenti. L’unicità forte è anche nota nella
letteratura anglosassone come “pathwise uniqueness”. Nella definizione di unicità in legge, i processi X e
Y possono essere soluzioni relative a set-up (W , Ft ) e (B, Gt ) distinti, anche definiti su spazi di probabilità
differenti.
Esempio 19.1.12. [!] Per la SDE dell’Esempio 19.1.10 c’è unicità in legge ma non forte. Infatti, ogni
soluzione X della SDE (19.1.5) è una martingala locale con ⟨X⟩t = t e quindi, per il Teorema 17.5.1 di
caratterizzazione di Lévy, X è un moto Browniano: dunque c’è unicità in legge.
D’altra parte, se X è la soluzione debole costruita nell’Esempio 19.1.10, possiamo verificare che anche
−X è soluzione della SDE e quindi non c’è unicità in senso forte: infatti, poiché σ (−x) = −σ (x) se x , 0, si ha
Z t Z t Z t
σ (−Xs )dWs = − σ (Xs )dWs + 2 1(Xs =0) dWs
0 0 0
Zt
=− σ (Xs )dWs q.c.
0
5 Qui si utilizza la formula di Meyer-Tanaka: si veda, per esempio, la Sezione 5.3.2 in [94] o la Sezione 2.11 in [34].
19.2. IPOTESI STANDARD E STIME PRELIMINARI 415
Qui abbiamo usato il fatto che P (Xs = 0) = 0 per ogni s ≥ 0 poiché X è un moto Browniano.
Osservazione 19.1.13. [!] Vedremo col Teorema 23.2.1 di Yamada e Watanabe che se una SDE è risolubile
in senso forte allora lo è anche in senso debole. Inoltre, se per una SDE si ha unicità in senso forte allora si
anche unicità in legge: questo risultato sembra naturale ma la dimostrazione non è ovvia poiché l’unicità
forte riguarda soluzioni definite sullo stesso spazio mentre per provare l’unicità debole si ha a che fare con
soluzioni possibilmente definite su spazi differenti. Infine, si dimostra anche che se per una SDE si ha unicità
in senso forte allora ogni soluzione è soluzione forte.
Osservazione 19.1.14. Recentemente è stata anche studiata un’ulteriore nozione di unicità per SDE, chia-
mata “unicità traiettoria per traiettoria”: si veda al riguardo [30], [44] e [111].
dove µ, σ sono parametri reali. In questo caso b(t, x) = µx e σ (t, x) = σ x, quindi le ipotesi standard sono
ovviamente soddisfatte. Come nell’Esempio 16.1.5-iii), un’applicazione diretta della formula di Itô mostra
che
2
µ− σ2 t+σ Wt
Xt = X0 e
è soluzione di (19.2.3). Il processo X, noto come moto Browniano geometrico, è usato per rappresentare la
dinamica del prezzo di un titolo finanziario rischioso nel classico modello di Black-Scholes [22]. Il modello
si generalizza al caso di coefficienti dipendenti dal tempo, µ = µ(t), σ = σ (t) ∈ L∞ (R≥0 ): anche in questo caso
è facile determinare l’espressione esplicita della soluzione.
Nelle stime che proviamo in questa sezione appaiono diverse costanti di cui è importante tenere traccia.
Convenzione 19.2.3. Per indicare che una costante c dipende solo ed esclusivamente dai valori dei parametri
α1 , . . . , αn scriveremo c = c(α1 , . . . , αn ).
Lemma 19.2.4. [!] Siano X, Y processi adattati e continui q.c. e p ≥ 2. Allora:
416 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE
• se b, σ verificano la condizione (19.2.1) di crescita lineare, esiste una costante positiva c̄1 = c̄1 (T , d, N , p, c1 ),
tale che
Z p #
t
" Zt Z t1 " #!
p−2
p
E sup b(s, Xs )ds + σ (s, Xs )dWs ≤ c̄1 (t1 − t0 ) 2 1 + E sup |Xr | ds (19.2.4)
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s
(per la (19.2.1))
Z t1
p
≤ (t1 − t0 )p−1 c1 E [(1 + |Xs |)p ] ds ≤
t0
(per la (19.2.6))
Z t1
p
≤ 2p−1 (t1 − t0 )p−1 c1 (1 + E [|Xs |p ]) ds
t0
Z t1 " #!
p−1 p
≤2 (t1 − t0 )p−1 c1 1 + E sup |Xr | p
ds.
t0 t0 ≤r≤s
p−2
Z t1 " #!
p
≤ c(t1 − t0 ) 2 2p−1 c1 1 + E sup |Xr | p
ds.
t0 t0 ≤r≤s
(per la (19.2.2))
Z t1
p
≤ (t1 − t0 )p−1 c2 E [|Xs − Ys |p ] ds
t0
Z t1 " #
p
≤ (t1 − t0 )p−1 c2 E sup |Xr − Yr | ds. p
t0 t0 ≤r≤s
Dimostrazione. Non è restrittivo assumere E [|X0 |p ] < ∞ altrimenti la tesi è ovvia. L’idea generale della
dimostrazione è semplice: dalla stima (19.2.4) si ha
h pi Z t h pi
v(t) := E X̄t ≤ 2p−1 E [|X0 |p ] + c̄1 1 + E X̄s ds , t ∈ [0, T ],
0
o equivalentemente
Z t !
p
v(t) ≤ c 1 + E [|X0 | ] + v(s)ds , t ∈ [0, T ],
0
con la convenzione min ∅ = T . Essendo X continuo q.c., si ha che τn è una successione crescente di tempi
d’arresto tali che τn ↗ T q.c. Con bn , σn come in (22.1.3), abbiamo
Z t∧τn Z t∧τn
Xt∧τn = X0 + b(s, Xs )ds + σ (s, Xs )dWs
0 0
Zt Z t
= X0 + bn (s, Xs∧τn )ds + σn (s, Xs∧τn )dWs .
0 0
I coefficienti bn = bn (t, x) e σn = σn (t, x), pur essendo stocastici, verificano la condizione di crescita li-
neare (19.2.1) con la stessa costante c1 : la dimostrazione della stima (19.2.4) si può ripetere in modo
sostanzialmente identico al caso di b, σ deterministici, per ottenere
t1
Z " #! !
p p−1 p p
vn (t1 ) := E sup |Xt∧τn | ≤ 2 E [|X0 | ] + c̄1 1 + E sup |Xr∧τn | ds , t1 ∈ [0, T ],
0≤t≤t1 0 0≤r≤s
| {z }
=vn (s)
o equivalentemente
Z t1 !
p
vn (t1 ) ≤ c 1 + E [|X0 | ] + vn (s)ds , t1 ∈ [0, T ],
0
con c costante positiva che dipende solo da T , p, d, N , c1 e non da n. Osserviamo che vn è una funzione
misurabile e limitata poichè |Xt∧τn | ≤ |X0 |1(|X0 |≥n) + n1(|X0 |<n) e quindi vn (t) ≤ E [(|X0 | + n)p ] < +∞: allora per
il lemma di Gronwall abbiamo
" #
p
E sup Xt∧τn = vn (T ) ≤ cecT (1 + E [|X0 |p ]) ,
0≤t≤T
da cui, passando al limite per n che tende all’infinito, segue la (19.3.1) grazie al teorema di Beppo-Levi.
Se il coefficiente diffusivo σ è limitato, vale una stima di sommabilità più forte di quella del Teorema
19.3.2.
6 In base a quanto provato finora non sappiamo neppure se v è una funzione continua.
19.3. STIME A PRIORI DI SOMMABILITÀ 419
Teorema 19.3.3 (Stima a priori esponenziale). Sia X = (Xt )t∈[0,T ] soluzione della SDE
con b che verifica l’ipotesi di crescita lineare (19.2.1) e σ limitato da una costante κ, ossia |σ (t, x)| ≤ κ per
(t, x) ∈ [0, T ] × RN . Allora esistono due costanti positive α e c, dipendenti solo da T , κ, c1 e N , tali che
2 h 2i
E eα X̄T ≤ cE ec|X0 | , X̄T := sup |Xt |.
0≤t≤T
Dimostrazione. Poniamo Z
t
M̄T = sup σ (s, Xs )dWs .
0≤t≤T 0
Dato δ > 0, quasi certamente su (M̄T < δ) si ha
Z t
|Xt | < |X0 | + c1 (1 + X̄s )ds + δ, t ∈ [0, T ],
0
λ −c1 T
δ = λe−c1 T − |X0 | − c1 T ≥ e se λ ≥ ā|X0 | + b̄ (19.3.3)
2
con ā := 2ec1 T e b̄ := 2c1 T ec1 T . Allora, combinando (19.3.2) e (19.3.3), abbiamo
2
P X̄T ≥ λ | X0 ≤ ce−c̄λ , λ ≥ ā|X0 | + b̄, (19.3.4)
con c, c̄ costanti positive dipendenti solo da T , κ, c1 e N . Ora applichiamo la Proposizione 4.1.6 con f (λ) =
2
eαλ , dove la costante α > 0 sarà determinata in seguito: vale
Z∞
2 2
E eα X̄T | X0 = 1 + 2α λeαλ P X̄T ≥ λ | X0 dλ ≤
0
(per la (19.3.4))
Z ā|X0 |+b̄ Z +∞
2 2 (α−c̄)
≤ 1 + 2α λeαλ dλ + 2αc λeλ dλ
0 ā|X0 |+b̄
c̄
da cui si ottiene la tesi ponendo α = 2 e applicando il valore atteso.
420 CAPITOLO 19. EQUAZIONI DIFFERENZIALI STOCASTICHE
Capitolo 20
Formule di Feynman-Kac
Roger Penrose
Le formule di Feynman-Kac forniscono una rappresentazione probabilistica delle soluzioni di PDE del
tipo
N N
1X X
At u(t, x) := cij (t, x)∂xi xj u(t, x) + bj (t, x)∂xj u(t, x) = 0, c := σ σ ∗ , (20.0.1)
2
i,j=1 j=1
dove At è l’operatore associato, tramite la formula di Itô, ad una SDE della forma
Per fissare le idee, supponiamo esista una soluzione classica del problema di Cauchy
(∂t + At )u(t, x) = 0, (t, x) ∈ [0, T [×RN ,
(20.0.3)
u(T , x) = ϕ(x), x ∈ RN .
Se inoltre esiste una soluzione X t,x = (Xst,x )s∈[t,T ] della SDE (20.0.2) con dato iniziale (t, x), allora per la
formula di Itô il processo
Zs
u(s, Xst,x ) = u(t, x) + ∇u(r, Xrt,x )σ (r, Xrt,x )dWr , s ∈ [t, T ],
t
è una martingala locale: inoltre, nel caso in cui (u(s, Xst,x ))s∈[t,T ] sia una vera martingala, in valore atteso
otteniamo
u(t, x) = E u(T , XTt,x ) = E ϕ(XTt,x ) .
h i h i
(20.0.4)
La formula (20.0.4) fornisce una rappresentazione della soluzione di (20.0.3) in termini del dato finale ϕ:
dal punto di vista applicativo, tale formula è facilmente implementabile con metodi di tipo Monte Carlo per
l’approssimazione numerica della soluzione; dal punto di vista teorico, la validità della (20.0.4) permette
di stabilire un risultato di unicità della soluzione del problema (20.0.3).
In questo capitolo esaminiamo diverse varianti e generalizzazioni della formula (20.0.4), valide per
operatori alla derivate parziali del second’ordine di tipo ellittico e parabolico.
421
422 CAPITOLO 20. FORMULE DI FEYNMAN-KAC
(poiché |∇ϕ(Xrt,x )σ (r, Xrt,x )| ≤ c(1 + |Xrt,x |) ∈ L2 per il Teorema 19.3.2 sulle stime a priori di sommabilità)
" Zs #
1 t,x
=E A ϕ(Xr )dr −−−−−−−−+→ At ϕ(x)
s−t t r s−t→0
dove l’ultimo passaggio al limite è giustificato dal teorema della convergenza dominata e dalle stime del
Teorema 19.3.2. In altri termini vale1
d h i
E ϕ(Xst,x ) = At ϕ(x). (20.1.1)
ds s=t
In analogia con la definizione (7.5.5) per i processi di Markov, diamo la seguente
Definizione 20.1.1 (Operatore caratteristico di una SDE). L’operatore At in (20.0.1) è detto operatore
caratteristico della SDE (20.0.2).
Osservazione 20.1.2. [!] Fissato m ∈ RN , consideriamo le funzioni
ϕi (x) = xi , ϕij (x) = (xi − mi )(xj − mj ), x ∈ RN , i, j = 1, . . . , N ,
e osserviamo che
At ϕi (x) = bi (t, x), At ϕij (x) = cij (t, x) + bi (t, x)(xj − mj ) + bj (t, x)(xi − mi ).
L’ipotesi di crescita lineare dei coefficienti b, σ e le stime Lp del Teorema 19.3.2 giustificano i passaggi
al limite e la proprietà di martingala degli integrali stocastici per poter ripetere i passaggi precedenti e
provare la validità della formula (20.1.1) con ϕ = ϕi e ϕ = ϕij : otteniamo
d h t,x i
E Xs = b(t, x), (20.1.2)
ds s=t
d h t,x i
E (Xs − m)i (Xst,x − m)j = cij (t, x) + bi (t, x)(xj − mj ) + bj (t, x)(xi − mi )
ds s=t
e in particolare, per m = x,
d h t,x i
E (Xs − x)i (Xst,x − x)j = cij (t, x). (20.1.3)
ds s=t
In base alle formule (20.1.2) e (20.1.3), i coefficienti bi (t, x) e cij (t, x) sono usualmente chiamati incrementi
infinitesimi del drift e della covarianza di X t,x , in accordo con quanto già visto nell’Osservazione 7.5.8.
Osservazione 20.1.3. [!] Grazie alla formula di Itô, abbiamo anche il seguente risultato analogo al Teorema
7.5.13: il processo Z s
f (s, Xst,x ) − (∂r + Ar )f (r, Xrt,x )dr, s ≥ t,
t
è una martingala locale per ogni f ∈ C 1,2 (RN +1 ).
Tutte queste analogie fra processi di Markov e soluzioni di SDE non sono casuali: proveremo in seguito
(cfr. Teorema 22.3.1) che, sotto opportune ipotesi sui coefficienti, la soluzione di una SDE è una diffusione.
1 Precisamente, la derivata in (20.1.1) è una derivata destra.
20.2. TEMPO DI USCITA DA UN DOMINIO LIMITATO 423
ii) per ogni t ≥ 0 e x ∈ D esiste una soluzione X t,x di (20.0.2) con dato iniziale Xtt,x = x, relativa ad un
moto Browniano d-dimensionale W definito su uno spazio (Ω, F , P , (Ft )t≥0 ).
Indichiamo con τt,x il primo tempo di uscita di X t,x da D,
allora E [τx ] è finito per ogni x ∈ D. In particolare, tale funzione esiste se per certi λ > 0 e i ∈ {1, . . . , N } vale3
Poiché ∇f e σ (s, ·) sono limitati su D per s ≤ t, l’integrale stocastico ha attesa nulla e per la (20.2.1) vale
h i
x
E f (Xt∧τ x
) ≤ f (x) − E [t ∧ τx ] ,
da cui, essendo f ≥ 0,
E [t ∧ τx ] ≤ f (x).
Infine, passando al limite per t → ∞, per il Teorema di Beppo-Levi otteniamo
E [τx ] ≤ f (x).
Supponiamo ora che valga la (20.2.2) e consideriamo solo il caso i = 1: allora basta porre
dove α, β sono costanti positive opportune e R è abbastanza grande in modo che D sia incluso nella palla
Euclidea di raggio R, centrata nell’origine. Infatti f è non-negativa su D e vale
1
At f (x) = −αeβx1 c11 (t, x)β 2 + b1 (t, x)β
2
!
−βR λβ
≤ −αβe − ∥b∥L∞ (D)
2
da cui la tesi scegliendo α, β opportunamente grandi.
2 Insieme aperto e connesso.
3 La (20.2.2) è un’ipotesi di non-degenerazione della matrice (c ) dei coefficienti del second’ordine dell’operatore caratteristico A
ij t
in (20.0.1): essa è ovviamente verificata nel caso in cui (cij ) sia uniformemente definita positiva.
424 CAPITOLO 20. FORMULE DI FEYNMAN-KAC
Osservazione 20.2.3. È facile determinare una condizione sui termini del prim’ordine, simile a quella della
Proposizione 20.2.2: se esistono λ > 0 e i ∈ {1, . . . , N } tali che bi (t, ·) ≥ λ oppure b1 (t, x) ≤ −λ su D per ogni
t ≥ 0 allora E [τx ] è finito. Infatti supponiamo per esempio che b1 (t, x) ≥ λ: allora applicando la formula di
Itô alla funzione f (x) = x1 abbiamo
Z t∧τx d Z
X t∧τx
x
Xt∧τ x
= x 1 + b1 (s, Xsx )ds + σ1i (s, Xsx )dWsi ,
1
0 i=1 0
e in valore atteso h i
x
E Xt∧τx
≥ x1 + λE [t ∧ τx ] ,
1
da cui la tesi, passando al limite per t → ∞.
dove f , a, ϕ sono funzioni assegnate. Come già detto, la seguente formula (20.3.2) è alla base dei metodi di
tipo Monte Carlo per l’approssimazione numerica della soluzione del problema di Dirichlet (20.3.1).
Teorema 20.3.1 (Formula di Feynman-Kac). [!] Siano f ∈ L∞ (D), ϕ ∈ C(∂D) e a ∈ C(D) tale che a ≥ 0. Se
u ∈ C 2 (D) ∩ C(D̄) è soluzione del problema di Dirichlet (20.3.1) allora per ogni x ∈ D vale
" R
τx
Z τx R t #
x x
u(x) = E e− 0 a(Xt )dt ϕ(Xτxx ) − e− 0 a(Xs )ds f (Xtx )dt . (20.3.2)
0
lim τε = τx .
ε→0
Poniamo Rt
a(Xsx )ds
Zt = e − 0 ,
e notiamo che, per ipotesi, Zt ∈ ]0, 1]. Inoltre, se uε ∈ C02 (RN ) è tale che uε = u su Dε , per la formula di Itô si
ha
d(Zt uε (Xtx )) = Zt ((A uε − auε ) (Xtx )dt + ∇uε (Xtx )σ (Xtx )dWt )
da cui Z τε Z τε
Zτε u(Xτxε ) = u(x) + Zt f (Xtx )dt + Zt ∇u(Xtx )σ (Xtx )dWt .
0 0
20.3. IL CASO AUTONOMO: IL PROBLEMA DI DIRICHLET 425
La tesi segue per passaggio al limite in ε → 0, per il teorema della convergenza dominata: infatti, ricordan-
do che Zt ∈ ]0, 1], si ha
Z τε
x
Zτε u(Xτε ) ≤ ∥u∥L∞ (D) , x
Zt f (Xt )dt ≤ τx ∥f ∥L∞ (D) ,
0
x
X (w1)
D
x
X ( w 2)
Figura 20.1: Problema di Dirichlet e traiettorie della soluzione della SDE associata
Osservazione 20.3.3 (Principio del massimo). Nelle ipotesi del Teorema 20.3.1 e assumendo f ≥ 0, dalla
formula (20.3.2) si deduce
R τx x
u(x) ≤ E e− 0 a(Xt )dt ϕ(Xτxx ) ≤ max ϕ + .
∂D
Inoltre, nel caso in cui f = a = 0 allora vale il seguente “principio del massimo”:
Risultati di esistenza per il problema (20.3.1) sono ben noti nel caso uniformemente ellittico: ricordiamo
il seguente classico teorema (si veda, per esempio, il Teorema 6.13 in [48]).
i) A in (20.0.1) è un operatore uniformemente ellittico, ossia esiste una costante λ > 0 tale che
N
X
cij (x)ξi ξj ≥ λ|ξ|2 , x ∈ D, ξ ∈ RN ;
i,j=1
ii) i coefficienti sono funzioni Hölderiane, cij , bj , a, f ∈ C α (D). Inoltre le funzioni cij , bj , f sono limitate e
a ≥ 0;
iii) per ogni y ∈ ∂D esiste4 una palla Euclidea B contenuta nel complementare di D e tale che y ∈ B̄;
iv) ϕ ∈ C(∂D);
esiste una soluzione classica u ∈ C 2+α (D) ∩ C(D̄) del problema (20.3.1).
Consideriamo ora alcuni esempi significativi.
Esempio 20.3.5 (Attesa del tempo di uscita). Se il problema
A u = −1, in D,
u|∂D = 0,
D = ]a1 , b1 [ × ]a2 , b2 [ .
Esaminando l’espressione esplicita delle traiettorie di X (si veda anche la Figura 20.2), è chiaro che il
4 Questa è una condizione di regolarità della frontiera di D, verificata se per esempio ∂D è una varietà di classe C 2 .
20.3. IL CASO AUTONOMO: IL PROBLEMA DI DIRICHLET 427
D
x
X(w1)
X(w2)
Figura 20.2: Problema di Cauchy-Dirichlet e traiettorie della SDE associata
valore u(x̄1 , x̄2 ) di una soluzione dell’equazione del calore dipende solo dai valori di u sulla parte di bordo
D contenuta in {x2 < x̄2 }. In generale il valore di u in D dipende solo dai valori di u sul bordo parabolico di
D, definito da
∂p D = ∂D \ ( ]a1 , b1 [ ×{b2 }).
Questo fatto è coerente con i risultati sul problema di Cauchy-Dirichlet della Sezione 26.2.1.
d
X = b(Xt ).
dt t
La (20.3.3) è un caso particolare del classico metodo delle caratteristiche per la risoluzione di PDE del
prim’ordine: per una descrizione di tale metodo rimandiamo, per esempio, al Capitolo 3.2 in [38].
5 Al riguardo si veda l’Osservazione 20.2.3.
428 CAPITOLO 20. FORMULE DI FEYNMAN-KAC
DT = ]0, T [×D
e indichiamo con
∂p DT := ∂D \ ({0} × D)
il cosiddetto bordo parabolico di DT . Il seguente teorema fornisce una formula di rappresentazione per le
soluzioni classiche del problema di Cauchy-Dirichlet
At u − au + ∂t u = f , in DT ,
(20.4.1)
u|∂p DT = ϕ,
Teorema 20.4.1 (Formula di Feynman-Kac). [!] Siano f ∈ L∞ (DT ), ϕ ∈ C(∂p DT ) e a ∈ C(DT ) tale che
a0 := inf a sia finito. Sotto l’Ipotesi 20.2.1, se u ∈ C 2 (DT ) ∩ C(DT ∪ ∂p DT ) è una soluzione del problema
(20.4.1) allora, fissato (t, x) ∈ DT , vale
" R
T ∧τt,x
Z T ∧τt,x Rs #
a(s,Xst,x )ds a(r,Xrt,x )dr
u(t, x) =E e− t ϕ(T ∧ τt,x , XTt,x∧τt,x ) − e− t f (s, Xst,x )ds . (20.4.2)
t
Osservazione 20.4.2 (Principio del massimo). Nelle ipotesi del Teorema 20.4.1 e assumendo f = a = 0,
dalla formula (20.4.2) si deduce il seguente “principio del massimo”
Proviamo ora una formula di rappresentazione per la soluzione classica del problema di Cauchy back-
ward
At u − au + ∂t u = f , in [0, T [ ×RN ,
(20.4.3)
u(T , ·) = ϕ, in RN ,
dove At è l’operatore in (20.0.1) e f , a, ϕ sono funzioni assegnate. Il Capitolo 26 è dedicato ad una presen-
tazione sintetica dei principali risultati di esistenza e unicità per il problema (20.4.3) nel caso di operatori
uniformemente parabolici a coefficienti Hölderiani e limitati.
Poiché il problema (20.4.3) è posto su un dominio non limitato, è necessario introdurre opportune
ipotesi sul comportamento all’infinito dei coefficienti.
Ipotesi 20.4.3.
i) i coefficienti b = b(t, x) e σ = σ (t, x) sono funzioni misurabili, con crescita al più lineare in x uniforme-
mente in t ∈ [0, T [;
Teorema 20.4.4 (Formula di Feynman-Kac). [!] Supponiamo che esista una soluzione u ∈ C 2 ([0, T [ ×RN )∩
C([0, T ] × RN ) del problema di Cauchy (20.4.3). Assumiamo l’Ipotesi 20.4.3 e almeno una delle seguenti
condizioni:
20.4. IL CASO EVOLUTIVO: IL PROBLEMA DI CAUCHY 429
|u(t, x)| + |f (t, x)| ≤ M(1 + |x|p ), (t, x) ∈ [0, T [ ×RN ; (20.4.4)
2) la matrice σ è limitata ed esistono due costanti positive M e α, con α sufficientemente piccolo, tali
che
2
|u(t, x)| + |f (t, x)| ≤ Meα|x| , (t, x) ∈ [0, T [ ×RN . (20.4.5)
Se la SDE (20.0.2) ha soluzione X t,x con dato iniziale (t, x) ∈ [0, T [ ×RN allora vale la formula di rappresen-
tazione " RT Z T # Rs
a(s,Xst,x )ds a(r,Xrt,x )dr
u(t, x) = E e− t ϕ(XTt,x ) − e− t f (s, Xst,x )ds . (20.4.6)
t
Dimostrazione. Fissiamo (t, x) ∈ [0, T [ ×RN e poniamo per semplicità X = X t,x . Se τR indica il tempo di uscita
di X dalla palla Euclidea di raggio R, per il Teorema 20.4.1 vale
" R T ∧τ
R
Z T ∧τR Rs #
− a(s,Xs )ds − a(r,Xr )dr
u(t, x) = E e t u(T ∧ τR , XT ∧τR ) − e t f (s, Xs )ds . (20.4.7)
t
Poiché
lim T ∧ τR = T ,
R→∞
la tesi segue passando al limite in R in (20.4.7) grazie al teorema della convergenza dominata. Infatti si ha
convergenza puntuale degli integrandi e inoltre, nell’ipotesi 1), vale
R T ∧τ
R a(s,X )ds p
e− t
s u(T ∧ τR , XT ∧τR ) ≤ Me|a0 |T 1 + X̄T ,
Z
T ∧τR − R s a(r,Xr )dr p
f (s, Xs )ds ≤ T e|a0 |T M 1 + X̄T ,
e t
t
dove
X̄T = sup |Xt |
0≤t≤T
è sommabile grazie alle stime a priori del Teorema 19.3.2. Nell’ipotesi 2) si procede in maniera analoga
utilizzando la stima di sommabilità esponenziale del Teorema 19.3.3.
Osservazione 20.4.5. Dalla formula di rappresentazione (20.4.6) segue in particolare l’unicità della solu-
zione del problema di Cauchy. Come vedremo nella Sezione 26.2, le condizioni (20.4.4)-(20.4.5) di crescita
all’infinito sono necessarie al fine di selezionare una fra le soluzioni che sono, in generale, infinite.
430 CAPITOLO 20. FORMULE DI FEYNMAN-KAC
Capitolo 21
Julien Green
Teorema 21.1.1. La soluzione X x = (Xtx )t≥0 di (21.0.1) con dato iniziale X0x = x ∈ RN è data da
Z t Z t !
Xtx =e tB
x+ e −sB
bds + e −sB
σ dWs . (21.1.1)
0 0
Dimostrazione. Per provare che X x in (21.1.1) risolve la SDE (21.0.1) è sufficiente applicare la formula di
Itô usando l’espressione Xtx = etB Ytx dove
431
432 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI
Ricordiamo ora che, poiché Y x è un processo di Itô a coefficienti deterministici, per la versione multidi-
mensionale dell’Esempio 16.1.9 si ha
Z t Z t
∗
Ytx ∼ Nµt (x),Ct , µt (x) = x + e −sB
bds, Ct = e−sB σ σ ∗ e−sB ds. (21.1.2)
0 0
Osservazione 21.1.2. [!] Il processo X t,x := (XTx −t )T ≥t risolve la SDE (21.0.1) con dato iniziale (t, x). Se la
matrice di covarianza CT −t è definita positiva allora la variabile aleatoria XTt,x è assolutamente continua con
densità Gaussiana Γ (t, x; T , ·) data da
1 1
Γ (t, x; T , y) = p exp − ⟨CT−1−t (y − mT −t (x)), (y − mT −t (x))⟩ .
(2π)N det CT −t 2
N
1X
At = cij ∂xi xj + ⟨Bx + b, ∇⟩, c := σ σ ∗ , (21.1.3)
2
i,j=1
è l’operatore caratteristico di X.
che è la versione semplificata dell’equazione di Langevin [72] utilizzata in fisica per descrivere il moto
aleatorio di una particella nello spazio delle fasi: Vt e Xt rappresentano rispettivamente la velocità e la
posizione della particella al tempo t. Paul Langevin fu il primo, nel 1908, ad applicare le leggi di Newton
al moto casuale Browniano studiato da Einstein pochi anni prima. Lemons [74] fornisce un interessante
resoconto degli approcci di Einstein e Langevin.
Riferendoci alla notazione generale (21.0.1) abbiamo d = 1, N = 2 e
! !
0 0 1
B= , σ= . (21.1.4)
1 0 0
Si noti che Ct è definita positiva per ogni t > 0 e quindi (V , X) ha densità di transizione
√
3 1 −1
(T −t)B (T −t)B
Γ (t, z; T , ζ) = exp − ⟨C (ζ − e z), (ζ − e z)⟩ (21.1.6)
π(T − t)2 2 T −t
1
∂ + v∂x + ∂t (21.1.7)
2 vv
e (T , η, ξ) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov forward
1
∂ − η∂ξ − ∂T . (21.1.8)
2 ηη
Gli operatori in (21.1.7) e (21.1.8) non sono uniformemente parabolici poiché la matrice della parte del
second’ordine !
∗ 1 0
σσ =
0 0
è degenere; tuttavia essi, come il classico operatore del calore, hanno una soluzione fondamentale Gaus-
siana. Kolmogorov [61] fu il primo ad esibire l’espressione esplicita (21.1.6) della soluzione fondamentale
di (21.1.7) (si veda anche l’introduzione del lavoro di Hörmander [53]). In finanza matematica l’operatore
backward (21.1.7) interviene nella valutazione di alcuni strumenti derivati complessi, come le cosiddette
opzioni Asiatiche (si veda, per esempio, [8]).
Esempio 21.1.4. [!] Nell’Esempio 21.1.3 abbiamo provato che, posto
Zt
Xt := Ws ds,
0
e quindi
"Z T #
E Ws ds | Ft = (T − t)Wt .
t
Per la (21.1.9), E [XT | Ft ] è funzione non solo da Xt ma anche da Wt : incidentalmente, questa è un’ulteriore
conferma della proprietà di Markov della coppia (W , X). Se X fosse un processo di Markov allora dovrebbe
valere2
E [XT | Xt ] = E [XT | Ft ] , t ≤T, (21.1.10)
che combinata con la (21.1.9) implicherebbe Wt = f (Xt ) q.c. per una certa f ∈ mB. Tuttavia ciò è assurdo:
infatti se Wt = f (Xt ) q.c. allora µWt |Xt = δf (Xt ) e ciò contrasta con il fatto che (Wt , Xt ) ha densità Gaussiana
bidimensionale.
Osservazione 21.1.5. I risultati di questa sezione si estendono al caso di SDE lineari del tipo
in cui le matrici B, b e σ sono funzioni misurabili e limitate del tempo. In tal caso, nell’espressione della
soluzione fornita dal Teorema 21.1.1, al posto della matrice esponenziale etB appare la soluzione Φ(t) del
problema di Cauchy
Φ ′ (t) = B(t)Φ(t),
Φ(0) = IN ,
può essere caratterizzata in termini di controllabilità di un sistema nell’ambito della teoria del controllo
ottimo (si veda, per esempio, [73] e [129]). Cominciamo con l’introdurre la seguente
Definizione 21.2.1. La coppia (B, σ ) è controllabile su [0, T ] se per ogni x, y ∈ RN esiste una funzione
v ∈ C([0, T ]; Rd ) tale che la soluzione γ ∈ C 1 ([0, T ]; RN ) del problema
γ ′ (t) = Bγ(t) + σ v(t), 0 < t < T ,
(21.2.2)
γ(0) = x,
verifichi la condizione finale γ(T ) = y. Diciamo che v è un controllo per (B, σ ) su [0, T ].
Teorema 21.2.2. [!] La matrice CT in (21.2.1) è definita positiva se e solo se (B, σ ) è controllabile su [0, T ].
∗
Dimostrazione. Osserviamo preliminarmente che Ct = etB Ct etB , dove
Zt
∗
Ct = G−s G−s ds
0
2 La (21.1.10) va interpretata secondo la Convenzione 5.2.5.
21.2. ASSOLUTA CONTINUITÀ E CONTROLLABILITÀ DI UN SISTEMA LINEARE 435
Questo è conseguenza del Teorema di Lagrange-Ljusternik (cfr., per esempio, [119]) che è l’estensione in
ambito funzionale del classico teorema dei moltiplicatori di Lagrange. Più precisamente, per minimizzare
il funzionale U sotto il vincolo (21.2.3), consideriamo il funzionale di Lagrange
ZT !
2 ∗
L (v, λ) = ∥v∥L2 ([0,T ]) − λ G−t v(t)dt − z ,
0
dove λ ∈ RN è il moltiplicatore di Lagrange. Differenziando L nel senso di Fréchet, imponiamo che v sia
un punto critico per L e otteniamo
ZT ZT
∂v L (u) = 2 v(t)∗ u(t)dt − λ∗ G−t u(t)dt = 0, u ∈ L2 ([0, T ]).
0 0
1 ∗
Allora troviamo v(s) = 2 G−s λ con λ determinato dal vincolo (21.2.3), λ = 2CT−1 z, in accordo con la (21.2.4).
Esempio 21.2.4. Riprendiamo l’Esempio 21.1.3 con le matrici B, σ come in (21.1.4). In questo caso il
controllo v = v(t) è a valori reali e il problema (21.2.2) diventa
γ1′ (t) = v(t),
′
γ2 (t) = γ1 (t), (21.2.5)
γ(0) = (x1 , x2 ).
436 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI
1.0
0.8
0.6
0.4
0.2
Figura 21.1: Grafico della triettoria ottimale γ(t) = (6(t − t 2 ), 3t 3 − 2t 3 ), soluzione del problema (21.2.5) con
condizione iniziale γ(0) = (0, 0) e finale γ(1) = (0, 1)
Il controllo agisce direttamente solo sulla prima componente di γ ma influisce anche sulla seconda com-
ponente γ2 mediante la seconda equazione: per il Teorema 21.2.2, (B, σ ) è controllabile su [0, T ] per ogni
T > 0 con un controllo dato esplicitamente dalla formula (21.2.4) (si veda la Figura 21.1).
Teorema 21.3.1 (Condizione di Kalman). La matrice CT in (21.2.1) è definita positiva per T > 0 se e solo
se la coppia (B, σ ) verifica la seguente condizione di Kalman: la matrice di dimensione N × (N d), definita a
blocchi da
σ Bσ B2 σ · · · BN −1 σ , (21.3.1)
ha rango massimo, pari a N .
il polinomio caratteristico di una matrice B: per il Teorema di Cayley-Hamilton, vale p(B) = 0. Ne viene che
ogni potenza Bk , con k ≥ N , è combinazione lineare di IN , B, . . . , BN −1 .
Ora la matrice (21.3.1) non ha rango massimo se e solo se esiste w ∈ RN \ {0} tale che
w∗ σ = w∗ Bσ = · · · = w∗ BN −1 σ = 0. (21.3.2)
Quindi se la matrice (21.3.1) non ha rango massimo, per la (21.3.2) e il Teorema di Cayley-Hamilton, si ha
w∗ Bk σ = 0, k ∈ N0 ,
da cui anche
w∗ etB σ = 0, t ≥ 0.
Di conseguenza
Z T
⟨CT w, w⟩ = |w∗ etB σ |2 dt = 0, (21.3.3)
0
21.4. CONDIZIONE DI HÖRMANDER 437
Derivando otteniamo
dk
0= f (t) |t=0 = w∗ Bk σ , k ∈ N0 ,
dt k
e quindi, per la (21.3.2), la matrice (21.3.1) non ha rango massimo.
Osservazione 21.3.2. Poiché la condizione di Kalman non dipende da T , allora CT è definita positiva per
un T > 0 se e solo se lo è per ogni T > 0.
1
K = ∆ + ⟨b + Bx, ∇⟩ + ∂t , (t, x) ∈ RN +1 , (21.4.1)
2 d
dove ∆d indica l’operatore di Laplace nelle prime d variabili x1 , . . . , xd .
Per convenzione, identifichiamo un operatore differenziale del prim’ordine su RN del tipo
N
X
Z := αi (x)∂xi ,
i=1
è definito da
N
X
[Z, U ] = ZU − U Z = (Zβi − U αi ) ∂xi .
i=1
438 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI
Il Teorema di Hörmander [53] (si veda anche Stroock [115] per una più recente trattazione) è un risultato
molto generale di cui richiamiamo qui una versione molto particolare relativa ad un operatore K del tipo
(21.4.1): tale teorema stabilisce che K ha soluzione fondamentale se e solo se, in ogni punto x ∈ RN , lo
spazio vettoriale generato dagli operatori del prim’ordine (campi vettoriali)
e dai loro commutatori di ogni ordine, coincide con RN . Questa è la cosiddetta condizione di Hörmander. Si
noti che ∂x1 , . . . , ∂xd sono le derivate che appaiono nella parte del second’ordine di K , corrispondenti alle
direzioni di diffusione Browniana, mentre Y è il drift dell’operatore: quindi, sostanzialmente, l’esistenza
della soluzione fondamentale equivale al fatto che RN è in ogni punto generato dalle derivate direzionali
che appaiono in K come derivate seconde e come drift, insieme ai loro commutatori di ogni ordine.
Esempio 21.4.1. .
i) Se d = N allora K è un operatore uniformemente parabolico e la condizione di Hörmander è ov-
viamente soddisfatta, senza ricorrere al drift e ai commutatori, poiché ∂x1 , . . . , ∂xN formano la base
canonica di RN .
ii) Nel caso dell’operatore di Langevin dell’Esempio 21.1.3 si ha Y = x1 ∂x2 . Quindi ∂x1 = (1, 0) insieme
al commutatore
[∂x1 , Y ] = ∂x2 = (0, 1)
1
K = ∂ + x1 ∂x2 + x2 ∂x3 + ∂t , (x1 , x2 , x3 ) ∈ R3 .
2 x1 x1
Qui N = 3, d = 1 e Y = x1 ∂x2 + x2 ∂x3 : anche in questo caso la condizione di Hörmander è verificata
poiché
∂x 1 , [∂x1 , Y ] = ∂x2 , [[∂x1 , Y ], Y ] = ∂x3 ,
formano una base di R3 . Questo esempio può essere considerato una generalizzazione del modello di
Langevin in cui, oltre a considerare posizione e velocità, si introduce un terzo processo stocastico che
rappresenta l’accelerazione di una particella ed è definito come un moto Browniano reale.
N
X
[∂xi , Y ] = bki ∂xk
k=1
è la the i-esima colonna della matrice B. Inoltre, [[∂xi , Y ], Y ] è la i-esima colonna della matrice B2 e una
rappresentazione analoga vale per i commutatori di ordine superiore.
D’altra parte, per k = 1, . . . , N , il blocco Bk σ nella matrice di Kalman (21.3.1) è la matrice di dimensione
N × d le cui colonne sono le prime d colonne di Bk .
A partire dai lavori [71], [99] e [31] una teoria, analoga a quella classica per le equazioni uniformemente
paraboliche, è stata sviluppata anche per le equazioni di Kolmogorov a coefficienti variabili del tipo ∂t + At
con At come in (21.1.3) e σ = σ (t, x) non costante.
21.5. ESEMPI 439
21.5 Esempi
Le SDE lineari sono alla base di molti importanti modelli stocastici; qui presentiamo brevemente alcuni
esempi.
Esempio 21.5.1 (Modello di Vasicek). Uno dei più semplici e famosi modelli stocastici per l’evoluzione
del tasso d’interesse, il cosiddetto tasso short o a breve, è quello proposto da Vasicek [124]:
Qui W è un moto Browniano reale, σ rappresenta la volatilità del tasso e i parametri a, b sono chiamati
rispettivamente “velocità di ritorno alla media” (speed of reversion) e “media di lungo periodo” (long term
mean level). La particolare forma del drift a(b − rt ), con a > 0, è ideata per catturare la cosiddetta proprietà
di “ritorno alla media” (mean reversion), una caratteristica essenziale del tasso di interesse che lo distingue
dagli altri prezzi finanziari: al contrario dei prezzi delle azioni, per esempio, i tassi d’interesse non possono
salire indefinitamente. Questo perché a livelli molto alti ostacolerebbero l’attività economica, inducendo
una diminuzione dei tassi di interesse. Di conseguenza, i tassi d’interesse si muovono in un range limita-
to, mostrando una tendenza a ritornare ad un valore di lungo periodo, rappresentato dal parametro b nel
modello. Non appena rt supera il livello b, il drift diventa negativo e “spinge” rt a diminuire mentre al
contrario, se rt < b, il drift è positivo e tende a far crescere rt verso b. Il fatto che rt abbia distribuzione nor-
male rende il modello molto semplice da utilizzare e permette di ottenere formule esplicite per strumenti
finanziari più complessi, come i derivati su tasso: segnaliamo [21] come testo introduttivo di riferimento
alla modellizzazione dei tassi.
0.8
0.6
0.4
0.2
2 4 6 8 10
Figura 21.2: Grafico di una traiettoria del processo di Vasicek con parametri a = 5, b = 0.5 e σ = 0.3
b − Bt
dBt = dt + dWt
1−t
con soluzione Z t
dWs
Bt = B0 (1 − t) + bt + (1 − t) , 0 ≤ t < 1.
0 1−s
Si ha
E [Bt ] = B0 (1 − t) + bt,
e, per l’isometria di Itô, vale
Z t
2 ds
var(Bt ) = (1 − t) = t(1 − t),
0 (1 − s)2
440 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI
Il Brownian bridge è utile per modellare un sistema che inizia ad un certo livello B0 e ci si aspetta che rag-
giunga il livello b in un determinato momento futuro, per esempio t = 1. In Figura 21.3 sono rappresentate
quattro traiettorie di un Brownian bridge B con valore iniziale B0 = 0 e B1 = 1.
1.0
0.5
-0.5
-1.0
Esempio 21.5.3 (Ornstein-Uhlenbeck [90]). Il seguente sistema di equazioni per il moto di una particella
estende il modello di Langevin inserendo un termine di frizione:
1 1
dXt = −µXt dt + ηdWt
dXt2 = Xt1 dt.
Qui W è un moto Browniano reale, µ e η sono i parametri positivi di frizione e diffusione. In forma
matriciale
dXt = BXt dt + σ dWt
con ! !
−µ 0 η
B= , σ= .
1 0 0
21.5. ESEMPI 441
(−µ)n 0
!
n
B = , n ∈ N,
(−µ)n−1 0
da cui
N
(tB)n e−µt 0
X !
tB
e =I+ = 1−e−µt .
n! µ 1
n=1
x1 e−µt
!
tB
E [Xt ] = e x = x + x1 (1 − e−µt )
2 µ
e
Z t
∗
Ct = esB σ σ ∗ esB ds
0
t e−µs 0 e−µs 1−e−µs
Z ! !
2 µ
=η 1−e−µs ds
0 µ 0 0 1
Z t −2µs e−µs −e−2µs
e µ
= η2
−µs −2µs −µs 2 ds
e −e 1−e
0 µ µ
1 −2µt 1 −µt + e−2µt
2µ 1 − e 2µ2 1 − 2e
= η 2 1
−2µt −3
.
2 1 − 2e + e −µt −2µt 1 −µt e
2µ µ3
µt + 2e − 2
442 CAPITOLO 21. EQUAZIONI STOCASTICHE LINEARI
Capitolo 22
Soluzioni forti
In questo capitolo presentiamo i risultati classici di risolubilità ed unicità in senso forte sotto le ipotesi
standard della Definizione 19.2.1 di regolarità (Lipschitzianità locale) e crescita lineare dei coefficienti.
Precisamente proviamo i seguenti teoremi:
• il Teorema 22.1.1 di unicità in senso forte;
• il Teorema 22.2.1 sulla risolubilità in senso forte e la proprietà di flusso;
• il Teorema 22.3.1 sulla proprietà di Markov;
• il Teorema 22.4.1 e il Corollario 22.4.2 sulle stime di dipendenza dal dato iniziale, regolarità delle
traiettorie, proprietà di Feller e di Markov forte.
22.1 Unicità
Teorema 22.1.1 (Unicità in senso forte). Supponiamo che valga la seguente ipotesi di Lischitzianità locale
in x, uniforme in t: per ogni n ∈ N esiste una costante κn tale che
b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ κ |x − y|,
n (22.1.1)
per ogni t ∈ [t0 , T ] e x, y ∈ RN tali che |x|, |y| ≤ n. Allora per la SDE
dXt = b(t, Xt )dt + σ (t, Xt )dWt (22.1.2)
si ha unicità in senso forte secondo la Definizione 19.1.11.
Dimostrazione. Siano X, Y due soluzioni della SDE (22.1.2), X ∈ SDE(b, σ , W , Ft ) e Y ∈ SDE(b, σ , W , Gt ).
Utilizziamo un argomento1 di localizzazione: poniamo
τn = inf{t ∈ [t0 , T ] | |Xt | ∨ |Yt | ≥ n}, n ∈ N,
con la convenzione min ∅ = T . Si noti che τn = t0 su (|Z| > n). Essendo per ipotesi X, Y adattati e continui
q.c., τn è una successione crescente di tempi d’arresto2 a valori in [t0 , T ], tale che τn ↗ T q.c. Poniamo
bn (t, x) = b(t, x)1[t0 ,τn] (t), σn (t, x) = σ (t, x)1[t0 ,τn] (t), n ∈ N. (22.1.3)
1 L’argomento di localizzazione è necessario anche sotto l’ipotesi di Lischitzianità globale perché l’idea è di applicare il lemma di
Gronwall alla funzione
v(t) = E sup |Xs − Ys |2
t0 ≤s≤t
sotto l’ipotesi che v sia limitata.
2 Relativamente alla filtrazione definita da F ∨ G := σ (F ∪ G ).
t t t t
443
444 CAPITOLO 22. SOLUZIONI FORTI
Inoltre si ha
bn (s, Xs∧τn ) − bn (s, Ys∧τn ) = bn (s, Xs∧τn ) − bn (s, Ys∧τn ) 1(|Z|≤n) ≤
Da (22.1.4) e (22.1.5), procedendo esattamente come nella prova della stima (19.2.5) con p = 2, otteniamo
Zt
vn (t) ≤ c̄ v(s)ds, t ∈ [t0 , T ],
t0
per una costante positiva c̄ = c̄(T , d, N , κn ). Poiché X e Y sono processi continui q.c. e adattati (e quindi
progressivamente misurabili), il teorema di Fubini assicura che v è una funzione misurabile su [t0 , T ], ossia
vn ∈ mB. Inoltre vn è limitata, precisamente |vn | ≤ 4n2 , per costruzione. Dal lemma di Gronwall otteniamo
che vn ≡ 0 e quindi
2
E sup Xt∧τn − Yt∧τn = vn (T ) = 0.
t0 ≤t≤T
Passando al limite per n → ∞, per il teorema di Beppo-Levi, si ha che X e Y sono indistinguibili su [t0 , T ].
Nel caso uno-dimensionale vale il seguente risultato più forte che riportiamo senza dimostrazione (si
veda, per esempio, il Teorema 5.3.3 in [34] o la Proposizione 5.2.13 in [58]).
Teorema 22.1.2 (Yamada e Watanabe [127]). Nel caso N = d = 1, si ha unicità forte per la SDE (22.1.2)
sotto le seguenti condizioni:
|b(t, x) − b(t, y)| ≤ k(|x − y|), |σ (t, x) − σ (t, y)| ≤ h(|x − y|), t ≥ 0, x, y ∈ R,
dove
i) h è una funzione strettamente crescente tale che h(0) = 0 e per ogni ε > 0
Zε
1
2
ds = ∞; (22.1.6)
0 h (s)
ii) k è una funzione strettamente crescente, concava tale che k(0) = 0 e per ogni ε > 0
Zε
1
ds = ∞.
0 k(s)
22.2. ESISTENZA 445
1
Esempio 22.1.3. La funzione h(s) = sα soddisfa la condizione (22.1.6) per α ≥ 2. D’altra parte, Itô e
Watanabe [54] hanno fornito il seguente contro-esempio: la SDE
1 2
dXt = 3Xt3 dt + 3Xt3 dWt
22.2 Esistenza
Siamo interessati a studiare la risolubilità in senso forte che, per quanto visto nella Sezione 19.1, richiede
che la soluzione sia adattata alla filtrazione standard del Browniano e del dato iniziale. Come affermato3
in [105], il punto in cui la teoria originale di Itô delle soluzioni forti di SDE si rivela davvero efficace è la
teoria dei flussi che riveste un ruolo importante in molte applicazioni: a tal riguardo indichiamo [66] come
monografia di riferimento (si veda anche [43], [12] e [47]).
Teorema 22.2.1 (Risolubilità in senso forte e proprietà di flusso). [!] Supponiamo che i coefficienti b, σ
soddisfino le ipotesi standard4 (19.2.1)-(19.2.2) su ]t0 , T [×RN . Dato un set-up (W , Ft ), si ha:
t ,x
i) per ogni x ∈ RN , esiste la soluzione forte X t0 ,x ∈ SDE(b, σ , W , F W ) con dato iniziale Xt00 = x. Inoltre,
per ogni t ∈ [t0 , T ] si ha
t ,x
(x, ω) 7−→ ψt0 ,t (x, ω) := Xt 0 (ω) ∈ m(BN ⊗ FtW ); (22.2.1)
t ,Z
Xt 0 (ω) := ψt0 ,t (Z(ω), ω), ω ∈ Ω, t ∈ [t0 , T ], (22.2.2)
t ,Z
è soluzione forte della SDE (22.1.2), X t0 ,Z ∈ SDE(b, σ , W , F Z,W ) con dato iniziale Xt00 = Z;
t0 ,Z
iii) vale la proprietà di flusso: per ogni t ∈ [t0 , T [, i processi X t0 ,Z e X t,Xt sono indistinguibili su [t, T ],
ossia quasi certamente vale
t ,Z
t ,Z t,Xt 0
Xs 0 = Xs per ogni s ∈ [t, T ]. (22.2.3)
per t ∈ [t0 , T ]. La successione è ben definita e X (n) è adattato a F W e continuo q.c. per ogni n. Inoltre, con
(n) (n)
un argomento induttivo5 in n si prova che Xt = Xt (x, ω) ∈ m(BN ⊗ FtW ) per ogni n ≥ 0 e t ∈ [t0 , T ].
Proviamo per induzione la stima
cn (t1 − t0 )n
" #
(n) (n−1) 2
E sup |Xt − Xt | ≤ , t1 ∈]t0 , T [, n ∈ N, (22.2.5)
t0 ≤t≤t1 n!
con c = c(T , d, N , x, c1 , c2 ) > 0 dove c1 , c2 sono le costanti delle ipotesi standard sui coefficienti. Sia n = 1: per
la (19.2.4) si ha
Z 2
t
" # Zt
(1) (0) 2
σ (s, x)dWs ≤ c̄1 (1 + |x|2 )(t1 − t0 ).
E sup |Xt − Xt | = E sup b(s, x)ds +
t0 ≤t≤t1 t0 ≤t≤t1 t0 t0
(per la (19.2.5))
Z t1 " #
(n) (n−1) 2
≤ c̄2 E sup |Xr − Xr | ds ≤
t0 t0 ≤r≤s
(n) (n−1) 1
sup |Xt (ω) − Xt (ω)| ≤ , n ≥ nω .
t0 ≤t≤T 2n
Essendo
n
(n) (k) (k−1)
X
Xt =x+ (Xt − Xt )
k=1
5 La misurabilità in (x, ω) è ovvia per n = 0. Assumendo la tesi vera per n − 1, è sufficiente approssimare l’integrando in (22.2.4) con
processi semplici e utilizzare il Corollario 15.2.26, ricordando che la convergenza in probabilità mantiene la proprietà di misurabilità.
22.2. ESISTENZA 447
(n)
si ha che, quasi certamente, Xt converge uniformemente in t ∈ [t0 , T ] per n → +∞ ad un limite che indi-
(n)
chiamo con Xt : per esprimere questo fatto, in simboli scriviamo Xt ⇒ Xt q.c. Notiamo che X = (Xt )t∈[t0 ,T ]
è un processo continuo q.c. (grazie alla convergenza uniforme) e adattato a F W : inoltre, Xt = Xt (x, ω) ∈
(n)
m(BN ⊗ FtW ) per ogni t ∈ [t0 , T ] perché tale proprietà di misurabilità vale per Xt per ogni n ∈ N.
Per la (19.2.1) ed essendo X continuo q.c. è chiaro che la condizione (19.1.3) è soddisfatta. Per verificare
che, quasi certamente, vale
Zt Zt
Xt = x + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ],
t0 t0
Questo conclude la prova dell’esistenza nel caso del dato iniziale deterministico.
(2) Consideriamo ora il caso di un dato iniziale aleatorio Z ∈ mFt0 . Sia f = f (x, ω) la funzione su RN ×Ω
definita da Zt Zt
t0 ,x t0 ,x t0 ,x
f (x, ·) := sup Xt − x − b(s, Xs )ds − σ (s, Xs )dWs .
t0 ≤t≤T t0 t0
t ,·
Notiamo che f ∈ m(BN ⊗ FTW ) poiché Xt 0 ∈ m(BN ⊗ FtW ) per ogni t ∈ [t0 , T ]. Inoltre, per ogni x ∈ RN si ha
f (x, ·) = 0 q.c. e quindi anche F(x) := E [f (x, ·)] = 0. Allora vale
(per il Lemma di freezing, Teorema 5.2.10-13), poiché Z ∈ mFt0 , f ∈ m(BN ⊗ FTW ) con Ft0 e FtW σ -algebre
indipendenti per l’Osservazione 19.1.3 e f ≥ 0)
h i
= E f (Z, ·) | Ft0 .
E [f (Z, ·)] = 0
e quindi X t0 ,Z in (22.2.2) è soluzione della SDE (22.1.2) e lo è anche in senso forte perché è chiaramente
adattato a F Z,W .
(3) Per t0 ≤ t ≤ s ≤ T , con uguaglianze che valgono quasi certamente, si ha
Zs Zs
t0 ,Z t0 ,Z t ,Z
Xs = Z + b(r, Xr )dr + σ (r, Xr 0 )dWr
t0 t0
448 CAPITOLO 22. SOLUZIONI FORTI
Z s Z s
t ,Z t ,Z
=Z+ b(r, Xr 0 )dr + σ (r, Xr 0 )dWr
t0 t0
Z s Z s
t ,Z t ,Z
+ b(r, Xr 0 )dr + σ (r, Xr 0 )dWr
t t
Zs Zs
t0 ,Z t0 ,Z t ,Z
= Xt + b(r, Xr )dr + σ (r, Xr 0 )dWr ,
t t
t ,Z
ossia X t0 ,Z è soluzione su [t, T ] della SDE (22.1.2) con dato iniziale Xt 0 . D’altra parte, per quanto pro-
t ,Z t0 ,Z
vato al punto (2), anche X t,Xt 0 è soluzione della stessa SDE. Per unicità, i processi X t0 ,Z e X t,Xt sono
indistinguibili su [t, T ]. Ciò prova la (22.2.3) e conclude la prova del teorema.
Dimostrazione. Osserviamo che p è una legge di transizione secondo la Definizione 7.1.1. Infatti, si ha:
i) per ogni x ∈ RN , per definizione, p(t, x; s, ·) è una distribuzione tale che p(t, x; t, ·) = δx ;
ii) per ogni H ∈ BN h i
x 7→ p(t, x; s, H) = E 1H Xst,x ∈ mBN
grazie alla proprietà di misurabilità (22.2.1) e al teorema di Fubini.
Proviamo che p è una legge di transizione per X: in base alla Definizione 7.1.1, si tratta di verificare che
p(t, Xt ; s, H) = P (Xs ∈ H | Xt ), t0 ≤ t ≤ s ≤ T , H ∈ BN .
Xt0 ,W
Poiché, per unicità, X è indistinguibile dalla soluzione X t0 ,Xt0 ∈ SDE(b, σ , W , Ft ) costruita nel Teorema
22.2.1, dalla proprietà di flusso (22.2.3) si ha che quasi certamente vale
t,Xt
Xs = Xs per ogni s ∈ [t, T ].
Pertanto, si ha
P (Xs ∈ H | Xt ) ≡ E [1H (Xs ) | Xt ]
h t,X i
= E 1H Xs t | Xt =
(per la (5.2.7) del Lemma di freezing, essendo Xt ∈ mFt e quindi, per l’Osservazione 19.1.3, indipendente
da FsW e (x, ω) 7→ 1H (Xst,x (ω)) ∈ m(BN ⊗ FsW ) grazie alla (22.2.1))
h i
= E 1H (Xst,x ) |x=Xt = p(t, Xt ; s, H).
22.3. PROPRIETÀ DI MARKOV 449
D’altra parte, basta ripetere i passaggi precedenti, condizionando a Ft invece che a Xt , per provare la
proprietà di Markov
p(t, Xt ; s, H) = P (Xs ∈ H | Ft ), 0 ≤ t0 ≤ t ≤ s ≤ T , H ∈ BN .
Infine, il fatto che At sia l’operatore caratteristico di X è stato dimostrato nella Sezione 20.1 (in particolare
si confronti la (20.1.1) con la definizione (7.5.5)).
Osservazione 22.3.2. Nelle ipotesi del Teorema 22.3.1, per la proprietà di Markov si ha
E [ϕ(XT ) | Ft ] = u(t, Xt ), ϕ ∈ bB,
dove Z
u(t, x) := p(t, x; T , dy)ϕ(y).
R
Ricordiamo che, per i risultati delle Sezioni 7.5.3 e 7.5.2, la legge di transizione p è soluzione delle equazioni
di Kolmogorov backward e forward, date rispettivamente da
(∂t + At )p(t, x; s, dy) = 0, (∂s − As∗ )p(t, x; s, dy) = 0, t0 ≤ t < s ≤ T ,
dove As∗ indica l’operatore (che agisce nelle variabili forward (s, y)) aggiunto di At in (22.3.1).
Osservazione 22.3.3 (Equazione di Kolmogorov forward). L’equazione di Kolmogorov forward di una dif-
fusione X può essere ricavata con un’applicazione diretta della formula di Itô. Sotto le ipotesi del Teorema
22.3.1, indichiamo con X t,x la soluzione della SDE (22.1.2) con dato iniziale Xtt,x = x. Data una funzione
test ϕ ∈ C0∞ (R × RN ), col supporto compatto contenuto in ]t, T [×RN , per la formula di Itô si ha
ZT ZT
t,x t,x
0 = ϕ(T , XT ) − ϕ(t, x) = (∂s + As ) ϕ(s, Xs )ds + ∇ϕ(s, Xst,x )σ (s, Xst,x )dWs
t t
dove p(t, x; s, dy) indica la legge della v.a. Xst,x che, per il Teorema 22.3.1, è la legge di transizione del
processo di Markov X.
Per la (22.3.2), per ogni t ≥ 0 vale
"
(∂s + As ) ϕ(s, y)p(t, x; s, dy)ds = 0, ϕ ∈ C0∞ (]t, +∞[×RN ),
RN +1
e quindi ritroviamo il risultato della Sezione 7.5.3 secondo cui p è soluzione distribuzionale dell’equazione
di Kolmogorov forward
(∂s − As∗ ) p(t, x; s, ·) = 0, s > t. (22.3.3)
In particolare, se p è assolutamente continua con densità Γ , ossia
Z
p(t, x; t, H) = Γ (t, x; t, x)dx, H ∈ BN ,
H
e si dice che (s, y) 7→ Γ (t, x; s, y) è soluzione fondamentale dell’operatore forward ∂s − As∗ con polo in (t, x).
450 CAPITOLO 22. SOLUZIONI FORTI
(per la (22.4.3))
p
t ,Z
≤ cE Xt10 1 − Z1 ≤
(per la (19.2.4))
p−2
Z t1 " #!
t ,Z
≤ cc̄1 |t1 − t0 | 2 1 + E sup |Xr 0 1 |p ds ≤
t0 t0 ≤r≤s
L’ultimo termine della (22.4.2) si stima in modo completamente analogo e questo conclude la prova.
Corollario 22.4.2 (Proprietà di Feller e di Markov forte). Sotto le ipotesi standard (19.2.1)-(19.2.2) e le
ipotesi usuali sulla filtrazione, ogni X ∈ SDE(b, σ , W , Ft ) è un processo di Feller e soddisfa la proprietà di
Markov forte.
22.4. DIPENDENZA CONTINUA DAI PARAMETRI 451
Dimostrazione. Per il Teorema 22.3.1, X è un processo di Markov con legge di transizione p = p(t, x; T , ·)
dove, per ogni t, T ≥ 0 con t ≤ T e x ∈ RN , p(t, x; T , ·) è la legge della v.a. XTt,x . Per la (22.4.1) e il Teorema 9.3.1
di continuità di Kolmogorov (nella versione multidimensionale del Teorema 9.3.4), il processo (t, x, T ) 7→
XTt,x ammette una modificazione Xt,x T con traiettorie localmente α-Hölderiane per ogni α ∈ [0, 1[ rispetto
alla cosiddetta distanza “parabolica”: precisamente, per ogni α ∈ [0, 1[, n ∈ N e ω ∈ Ω esiste cα,n,ω > 0 tale
che
1 α
1
s,y
Xt,x
r (ω) − Xu (ω) ≤ cα,n,ω |x − y| + |t − s| 2 + |r − u| 2 ,
per ogni t, s, r, u ∈ [0, T ] tali che t ≤ r, s ≤ u, e per ogni x, y ∈ RN tali che |x|, |y| ≤ n. Di conseguenza, per ogni
ϕ ∈ bC(RN ) e h > 0, la funzione
Z
p(t, x; t + h, dy)ϕ(y) = E ϕ(Xt,x
h i
(t, x) 7−→ t+h )
RN
è continua grazie al teorema della convergenza dominata e questo prova che X è un processo di Feller. La
proprietà di Markov forte segue dal Teorema 12.1.2.
452 CAPITOLO 22. SOLUZIONI FORTI
Capitolo 23
Soluzioni deboli
Sia inoltre µ0 una distribuzione su RN che utilizzeremo come condizione iniziale della SDE. Richiamiamo
la Definizione 19.1.9 di risolubilità in senso debole.
Definizione 23.1.1 (Soluzione debole). La SDE di coefficienti b, σ e legge iniziale µ0 è risolubile in senso
debole se esistono un set-up (W , Ft ) e una soluzione X ∈ SDE(b, σ , W , Ft ) tale che X0 ∼ µ: allora vale quasi
certamente Z t Z t
Xt = X0 + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [0, T ],
0 0
e diciamo che la coppia (X, W ) è soluzione debole della SDE di coefficienti b, σ e legge iniziale µ0 .
Osservazione 23.1.2. [!] Per provare che una SDE è risolubile in senso debole occorre costruire non solo il
processo X ma anche il set-up (W , Ft ) rispetto al quale è scritta la SDE: per questo motivo generalmente si
indica come soluzione la coppia (X, W ) e non solo il processo X.
Vediamo ora che è sempre possibile trasferire il problema della risolubilità debole di una SDE in un “ambiente
canonico”.
Ωn = C([0, T ]; Rn )
453
454 CAPITOLO 23. SOLUZIONI DEBOLI
lo spazio delle traiettorie continue n-dimensionali munito della filtrazione (Gtn )t∈[0,T ] generata dal processo
identità
It (w) := w(t), w ∈ Ωn , t ∈ [0, T ],
e della σ -algebra di Borel1 GTn . Indicata con µX,W la legge di una soluzione (X, W ) di una SDE, ricordiamo
che se (X, W ) è definita sullo spazio (Ω, F , P ) allora µX,W è la misura di probabilità su ΩN +d = ΩN × Ωd
definita da
µX,W (H) = P ((X, W ) ∈ H), H ∈ GTN +d .
Nel seguito utilizzeremo ripetutamente il fatto che ΩN +d è uno spazio polacco sul quale è possibile
definire una versione regolare della probabilità condizionata grazie al Teorema 5.3.2.
Il seguente lemma è un ingrediente cruciale in tutta l’analisi successiva.
Lemma 23.1.4 (Trasferimento di soluzioni). [!] Se (X, W ) è una soluzione debole della SDE di coefficienti
b, σ e legge iniziale µ0 , allora il processo canonico (X, W) definito da
è soluzione debole della SDE di coefficienti b, σ e legge iniziale µ0 sullo spazio (ΩN +d , GTN +d , µX,W ).
d
e per costruzione vale (X, W ) = (X, W). Il fatto che W sia un moto Browniano è conseguenza dell’uguaglian-
za in legge di (X, W ) e (X, W), e quindi in particolare di W e W. Supponiamo per il momento che la legge
iniziale sia µ0 = δx0 per un certo x0 ∈ RN e quindi X0 = x0 q.c. Posto
Z t Z t Z t Z t
Jt := b(s, Xs )ds + σ (s, Xs )dWs , Jt := b(s, Xs )ds + σ (s, Xs )dWs ,
0 0 0 0
si ha che (X, W , J) e (X, W, J) sono uguali in legge per il Corollario 15.2.27. Pertanto X−x0 −J è indistinguibile
dal processo nullo e questo prova la tesi.
Il caso in cui il dato iniziale X0 è aleatorio con legge µ0 , si tratta in modo simile condizionando a X0 .
Precisamente, per alleggerire le notazioni, poniamo P := µX,W : per il Teorema 5.3.2 esiste una versione
regolare P(· | X0 ) = Px,w (· | X0 ) (x,w)∈Ωd+N della probabilità P condizionata a X0 . Per P-quasi ogni (x, w) ∈
ΩN +d , nella misura Px,w (· | X0 ) il processo (X, W) ha la stessa legge di (X̂, W ) dove X̂ è soluzione della SDE
di coefficienti b, σ e dato iniziale X̂0 = x(0), rispetto a W . Allora, per quanto provato in precedenza, per
P-quasi ogni (x, w) ∈ ΩN +d , nella misura Px,w (· | X0 ) il processo (X, W) è soluzione della SDE di coefficienti
b, σ e dato iniziale x(0), relativa a W. Per concludere, è sufficiente osservare che, posto
Zt Zt
Z = sup Xt − X0 − b(s, Xs )ds − σ (s, Xs )dWs
0≤t≤T 0 0
e indichiamo con (X1 , X2 , W) il processo canonico su tale spazio. Posto rispettivamente H = ΩN oppure
K = ΩN in (23.2.2), per la (23.2.1) si ha
d
(Xi , W) = (X i , W i ), i = 1, 2, (23.2.3)
da cui si ricava in particolare che W è un moto Browniano nella misura P e, come nella dimostrazione del
Lemma 23.1.4, X1 e X2 sono entrambe soluzioni della SDE di coefficienti b, σ e con dato iniziale x, relative
a W. Per l’unicità in senso forte si ha che X1 e X2 sono indistinguibili nella misura P e quindi
d d
(X 1 , W 1 ) = (X1 , W) = (X2 , W) = (X 2 , W 2 ).
2 Qui µ ≡ µ
W W i , i = 1, 2, è la misura di Wiener su Ωd .
3 P si estende alla σ -algebra prodotto G N ⊗ G N ⊗ G d = G 2N +d .
T T T T
456 CAPITOLO 23. SOLUZIONI DEBOLI
[iii)] Anche per questo punto consideriamo solo il caso di un dato iniziale deterministico. Sia dunque
X ∈ SDE(b, σ , W , Ft ) una soluzione con dato iniziale X0 = x ∈ RN q.c. Applichiamo la costruzione del punto
ii) con X 1 = X 2 = X, ossia costruiamo sullo spazio ΩN × ΩN × Ωd la misura P come in (23.2.2) e il processo
canonico (X1 , X2 , W) in cui X1 , X2 sono entrambe versioni di X e sono soluzioni della SDE rispetto al moto
Browniano W.
Consideriamo la probabilità condizionata P(· | W) = (Pw (· | W))w∈Ωd e le relative leggi condizionate
osservando che µXi |W = µX|W per la (23.2.3). Si verifica4 che le variabili aleatorie X1 e X2 sono contempora-
neamente uguali q.c. e indipendenti in Pw (· | W) per quasi ogni w ∈ Ωd e quindi5 X1 e X2 hanno come legge in
Pw (· | W) una delta di Dirac. In altri termini, per quasi ogni w ∈ Ωd si ha µX|W (H; w) = µXi |W (H; w) = δF(w)
per una certa mappa misurabile F da Ωd a ΩN e quindi X = F(W ) q.c. Per concludere occorre mostrare che
X è adattato alla filtrazione standard Browniana F W : per la prova di questo fatto, basata sulle proprietà
della versione regolare della probabilità condizionata, rimandiamo6 al Problema 3.21 a pag.310 in [58].
Osservazione 23.2.2. [!] Nell’Osservazione 19.1.7 avevamo sottolineato il fatto che le soluzioni forti si di-
stinguono dalle deboli per la proprietà di essere adattate alla filtrazione standard Browniana (assumendo
per semplicità che il dato iniziale sia deterministico): questa proprietà di misurabilità è ben espressa dal-
la dipendenza funzionale X = F(W ) provata nella dimostrazione precedente, per cui una soluzione forte
(X, W ) può essere costruita sullo spazio canonico Ωd . Al contrario, il Lemma 23.1.4 mostra che ogni solu-
zione debole può essere “trasportata” sullo spazio canonico ΩN × Ωd . Ciò significa che le soluzioni deboli
richiedono in generale uno spazio campionario più ricco, in cui le traiettorie della soluzione (elementi di
ΩN ) non sono necessariamente funzionali delle traiettorie del Browniano (elementi di Ωd ): è questo il caso
dell’Esempio 19.1.10 di Tanaka.
E P(X1 = X2 | W) = E P(X1 = X2 ) = 1
h i h i
ed essendo P(X1 = X2 | W) ≤ 1, si deduce anche Pw (X1 = X2 | W) = 1 per quasi ogni w ∈ Ωd . Inoltre, dalla definizione (23.2.2) di P non
è difficile verificare che la legge congiunta condizionata di X1 , X2 è il prodotto delle marginali
è una martingala locale7 rispetto alla filtrazione GtN +d , con processo covariazione
Z t
i j
⟨M , M ⟩t := cij (s, Xs )ds, (cij ) := σ σ ∗ .
0
Inoltre, per definizione di processo covariazione o con una verifica diretta con la formula di Itô, anche i
processi
Zt
ij i j
Mt := Mt Mt − cij (s, Xs )ds, i, j = 1, . . . , N , (23.3.2)
0
sono martingale locali.
Ora, non è difficile verificare che, indicato ancora con X il processo identità sullo spazio (ΩN , GTN , µX ),
i processi definiti su tale spazio formalmente come in (23.3.1)-(23.3.2) sono martingale locali rispetto alla
filtrazione GtN generata da X: in altri termini, possiamo ignorare la componente Browniana W che in effetti
non appare nella definizione di Mi e Mij . Ciò motiva la seguente
Definizione 23.3.1 (Problema della martingala). Una soluzione del problema della martingala per b, σ è
una misura di probabilità sullo spazio canonico ΩN tale che i processi Mi , Mij in (23.3.1)-(23.3.2) sono
martingale locali rispetto alla filtrazione GtN generata dal processo identità X.
Abbiamo visto che se (X, W ) è soluzione della SDE di coefficienti b, σ allora µX è soluzione del problema
della martingala per b, σ . Mostriamo ora un risultato nella direzione opposta che ci permette di concludere
che i problemi della martingala e della risolubilità debole di una SDE sono equivalenti.
Teorema 23.3.2 (Stroock e Varadhan). [!] Se µ è una soluzione del problema della martingala per b, σ
allora esiste una soluzione della SDE di coefficienti b, σ con legge iniziale µ0 (H) = µ(X0 ∈ H), H ∈ BN .
Dimostrazione. Diamo la dimostrazione solo nel caso scalare N = d = 1 e rimandiamo, per esempio, alla
Sezione 5.4.B in [58] per il caso generale. Il fatto che µ sia una soluzione del problema della martingala per
b, σ , significa che il processo definito su (ΩN , GTN , µ) come in (23.3.1)
Z t
Mt = Xt − b(s, Xs )ds
0
è una martingala locale con processo variazione quadratica d⟨M⟩t = σ 2 (t, Xt )dt.
Se σ (t, x) , 0 per ogni (t, x), la prova è molto semplice: infatti il processo
Z t
1
Bt := dMs
0 σ (s, Xs )
Allora, per il Teorema 17.5.1 di caratterizzazione di Lévy, B è un moto Browniano ed essendo dBt =
σ −1 (t, Xt )dMt = σ −1 (t, Xt ) (dXt − b(t, Xt )dt), si ha
Z t Z t
σ (s, Xs )dBs = Xt − X0 − b(s, Xs )ds,
0 0
7 Essendo
Zt
Mt = X0 + σ (s, Xs )dWs .
0
458 CAPITOLO 23. SOLUZIONI DEBOLI
ossia (X, B) è una soluzione della SDE di coefficienti b, σ . Si noti che la soluzione (X, B) è definita sullo
spazio (ΩN , GTN , µ).
Nel caso generale, consideriamo lo spazio (ΩN +d , GTN +d , µ ⊗ µW ) dove µW è la misura di Wiener d-
dimensionale e il processo canonico (X, W) è tale che W è un moto Browniano d-dimensionale. Poniamo
Jt = 1(σ (t,Xt ),0) e
Zt Zt
Js
Bt = dMs + (1 − Js )dWs .
0 σ (s, Xs ) 0
Ancora B è un moto Browniano reale poiché è una martingala locale con variazione quadratica
Jt Jt (1 − Jt )
d⟨B⟩t = 2
d⟨M⟩t + (1 − Jt )d⟨W⟩t + d⟨M, W⟩t = dt.
σ (t, Xt ) σ (t, Xt )
dove nell’ultimo passaggio abbiamo usato il fatto che, per l’isometria di Itô,
Zt !2 "Z t #
2
E (Js − 1)dMs = E
(Js − 1)σ (s, Xs )ds = 0.
0 0
Osservazione 23.3.3. Nella dimostrazione precedente notiamo che nel caso non degenere σ , 0, il moto
Browniano B è costruito come funzionale di X e quindi lo spazio ΩN è sufficiente a “supportare” la solu-
zione (X, B) della SDE. È nel caso degenere, in cui σ si può annullare, che entra in gioco il moto Browniano
W e quindi è necessario definire la soluzione sullo spazio “allargato” ΩN +d .
Complementi
Julien Green
In questo capitolo indichiamo in maniera informale e succinta alcune direzioni in cui si può estendere
la teoria delle equazioni differenziali stocastiche. Forniamo alcuni riferimenti bibliografici per chi volesse
approfondire uno di questi filoni di studio.
Se il dato η ∈ RN non è aleatorio, la (24.1.1) è una semplice ODE con soluzione costante Y ≡ η. La situazio-
ne è profondamente diversa se ambientiamo il problema in uno spazio (Ω, F , P ) su cui è definito un moto
Browniano W con filtrazione standard F W e assumiamo η ∈ mFTW : infatti, per rimanere nell’ambito del
calcolo stocastico classico di Itô, vorremmo che la soluzione Y fosse un processo adattato e quindi la solu-
zione costante uguale a η non è accettabile. Il primo problema è quindi quello di formulare correttamente
il concetto di soluzione di una BSDE.
Per ogni η ∈ L2 (Ω, FTW , P ), il processo adattato che meglio (in norma L2 ) approssima il processo costante
uguale a η è h i
Yt := E η | FtW , t ∈ [0, T ]. (24.1.2)
461
462 CAPITOLO 24. COMPLEMENTI
Da questo punto di vista, il processo Y in (24.1.2) è il candidato naturale ad essere soluzione della BSDE
(24.1.1). Chiaramente non è detto che Y in (24.1.2) verifichi l’equazione dYt = 0. Anzi, poiché Y è una F W -
martingala di quadrato sommabile, per il Teorema 18.5.1 di rappresentazione delle martingale Browniane
esiste ed è unico Z ∈ L2 tale che
Zt ZT ZT
Yt = Y0 + Zs dWs = Y0 + Zs dWs − Zs dWs .
0 0 t
| {z }
=η
Anche se non sembra ovvio, non è difficile dimostrare che (Y , Z) è l’unica coppia di processi di L2 che
verifica la (24.1.3): infatti se la (24.1.3) fosse soddisfatta anche da (Y ′ , Z ′ ) ∈ L2 allora, posto A = Y − Y ′ e
B = Z − Z ′ , si avrebbe
dAt = Bt dWt ,
AT = 0.
Definizione 24.1.1. Sia W un moto Browniano sullo spazio (Ω, F , P ) con filtrazione standard F W . Si dice
che la coppia (Y , Z) ∈ L2 , unica soluzione della SDE (24.1.3), è la soluzione adattata della BSDE (24.1.1) con
dato finale η ∈ L2 (Ω, FTW , P ).
Sotto ipotesi standard di Lipschitzianità del coefficiente f = f (t, y, z) nelle variabili (y, z), si prova l’esistenza
e unicità della soluzione adattata (Y , Z): si veda, per esempio, il Teorema 4.2, Capitolo 1 in [79].
Spesso una BSDE è accoppiata a una SDE forward del tipo
Data u = u(t, x) ∈ C 1,2 ([0, T [×RN ), applicando la formula di Itô a Yt := u(t, Xt ) otteniamo
Sotto opportune ipotesi che garantiscono l’esistenza di una soluzione1 del problema (24.1.4), per costruzio-
ne si ha
u(t, x) = Ytt,x (24.1.6)
dove Y t,x è la soluzione della FBSDE (24.1.5) con dato iniziale Xt = x. La (24.1.6) è chiamata formula di
Feynman-Kac non-lineare perché generalizza la classica formula di rappresentazione della Sezione 20.4.
La motivazione principale per lo studio delle BSDE viene dalla teoria del controllo ottimo stocastico,
a partire dai lavori [20] e [16]; alcune applicazioni alla finanza matematica sono discusse in [37]. I primi
risultati di esistenza e di rappresentazione di tipo Feynman-Kac non-lineare sono dovuti a [92], [96] e [2].
Come testi monografici di riferimento sulla teoria delle equazioni backward indichiamo i libri di Ma e Yong
[79], Yong e Zhou [128], Pardoux e Rascanu [93] e Zhang [130].
Supponiamo che X σ rappresenti un segnale che viene trasmesso ma non è osservabile con precisione a
causa di qualche disturbo nella trasmissione: precisamente, assumiamo di poter osservare precisamente Wt ,
chiamato processo di osservazione, mentre il moto Browniano Bt rappresenta il rumore nella trasmissione.
è facile verificare che X σ è un moto Browniano reale per ogni σ ∈ [0, 1]. Il problema del filtraggio
stocastico consiste nell’ottenere la migliore stima del segnale X σ basandosi sull’osservazione W : in effetti
non è difficile provare che
µX σ |F W = Nσ Wt ,(1−σ 2 )t (24.2.1)
t t
1 Trattandosi di un problema non-lineare, la soluzione u è intesa in un senso generalizzato, per esempio come soluzione viscosa (si
veda, per esempio, il Teorema 2.1, Cap.8 in [79]).
2 Acronimo per Stochastic Partial Differential Equations.
464 CAPITOLO 24. COMPLEMENTI
dove µX σ |F W indica la legge di Xtσ condizionata alla σ -algebra FtW delle osservazioni su W fino al tempo t
t t
(qui F W è la filtrazione standard per W ). Per provare la (24.2.1) basta calcolare la funzione caratteristica
condizionata
σ
√
2
h i
ϕX σ |F W (η) = E eiηXt | FtW = eiησ Wt E eiη 1−σ Bt | FtW =
t t
(per l’indipendenza di W e B)
√
2
= eiησ Wt E eiη 1−σ Bt
1 y2
Γ (s, y) = √ e− 2s , s > 0, y ∈ R. (24.2.2)
2πs
Figura 24.1: Grafico di una simulazione della soluzione fondamentale pt (x) dell’equazione del calore
stocastica
467
468 CAPITOLO 25. METODI NUMERICI STOCASTICI
Capitolo 26
Giacomo Leopardi
In questo capitolo presentiamo in maniera per quanto possibile sintetica alcuni risultati di base sul
problema di Cauchy per equazioni differenziali alle derivate parziali (abbreviato nel seguito in PDE, dalla
locuzione anglosassone “partial differential equations”) di tipo parabolico. Le monografie di Friedman
[45], Ladyzhenskaia, Solonnikov e Ural’tseva [67], Oleinik and Radkevic [89] anche se un po’ datate, sono
classici testi di riferimento per una trattazione più completa e approfondita.
Fissato T > 0, indichiamo con (t, x) il punto della striscia
ST := ]0, T [×RN .
definito per (t, x) ∈ ST . Nel seguito assumeremo che la matrice dei coefficienti (cij ) sia simmetrica e definita
positiva: in tal caso si dice che L in (26.0.1) è un operatore di tipo parabolico forward. Si noti che in un
operatore forward la derivata temporale appare con segno negativo: come già accennato nella Sezione 7.5.2,
469
470 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
questo tipo di operatori intervengono tipicamente in fisica nella descrizione di fenomeni che evolvono nel
tempo, come la diffusione del calore in un corpo.
Ogni operatore forward del tipo (26.0.1) può essere trasformato in un’operatore parabolico backward1 e
viceversa, col cambio di variabili s = T − t: in particolare, sottolineiamo che tutti i risultati che proviamo in
questo capitolo per operatori forward ammettono un’analoga formulazione backward. Più precisamente,
se u è soluzione classica del problema di Cauchy (9.4.3) allora û(s, y) := u(T − s, y) è soluzione classica, in
C 1,2 (ST ) ∩ C(]0, T ] × RN ), del problema di Cauchy con dato finale
Lˆ û(s, y) = fˆ(s, y), (s, y) ∈ ST ,
û(T , y) = ϕ(y), y ∈ RN ,
dove
N N
ˆ 1X X
L := ĉij (s, y)∂yi yj + b̂j (s, y)∂yj + â(s, y) + ∂s .
2
i,j=1 j=1
Per comodità e in vista delle applicazioni all’analisi stocastica, nella Sezione 26.1 raccogliamo i risultati
principali di questo capitolo, relativi all’esistenza e unicità nel caso di operatori di Kolmogorov backward
e forward associati ad una SDE.
Tuttavia le soluzioni in (26.2.1) sono in un certo senso “patologiche”, oscillano cambiando segno infinite
volte e hanno una crescita molto rapida per |x| → ∞. Alla luce dell’esempio di Tychonoff, lo studio del-
l’unicità della soluzione del problema (9.4.3) consiste nel determinare opportune classi di funzioni, dette
classi di unicità per L , all’interno delle quali la soluzione, se esiste, è unica. In questa sezione assumiamo
soddisfatte le seguenti ipotesi minimali sui coefficienti di L in (26.0.1):
Ipotesi 26.2.1.
ii) la matrice C (t, x) := (cij (t, x)) è simmetrica e semi-definita positiva per ogni (t, x) ∈ ST . Per questo si
dice che L è un operatore parabolico;
1 In cui la derivata temporale appare col segno positivo.
26.2. UNICITÀ: IL PRINCIPIO DEL MASSIMO 471
a(t, x) ≤ a0 , (t, x) ∈ ST .
Proveremo che una classe di unicità è data dalle funzioni che crescono non troppo rapidamente all’in-
finito nel senso che soddisfano la stima
2
|u(t, x)| ≤ CeC|x| , (t, x) ∈ ST , (26.2.2)
con C costante positiva. Questo risultato, contenuto nel Teorema 26.2.8, si prova sotto condizioni molto
generali, assumendo l’Ipotesi 26.2.1 e la seguente
|cij (t, x)| ≤ M, |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M(1 + |x|2 ), (t, x) ∈ ST , i, j = 1, . . . , N .
È possibile determinare un’altra classe di unicità imponendo altre condizioni di crescita sui coefficienti.
|cij (t, x)| ≤ M(1 + |x|2 ), |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M, (t, x) ∈ ST , i, j = 1, . . . , N .
Il Teorema 26.2.10 mostra che, sotto le Ipotesi 26.2.1 e 26.2.3, una classe di unicità è data dalle funzioni
con crescita al più polinomiale, che soddisfano una stima del tipo
DT = ]0, T [×D
è il bordo parabolico di DT . Come in precedenza, C 1,2 (DT ) è lo spazio delle funzioni differenziabili con
continuità in DT al prim’ordine nella variabile t e fino al second’ordine nelle variabili x.
Definizione 26.2.4 (Problema di Cauchy-Dirichlet). Una soluzione classica del problema di Cauchy-Dirichlet
per L su DT è una funzione u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) tale che
L u = f , in DT ,
(26.2.4)
u = ϕ, in ∂p DT ,
dove f ∈ C(DT ) e ϕ ∈ C(∂p DT ) sono funzioni assegnate, chiamate rispettivamente termine noto e dato al
bordo del problema.
472 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
Il risultato principale della sezione, da cui segue l’unicità della soluzione classica del problema (26.2.4)
(cfr. Corollario 26.2.6), è il seguente
Teorema 26.2.5 (Principio del massimo debole). Sotto l’Ipotesi 26.2.1, se u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) è
tale che L u ≥ 0 in DT e u ≤ 0 su ∂p DT , allora si ha u ≤ 0 su DT .
Dimostrazione. Osserviamo anzitutto che non è restrittivo assumere a0 < 0 nell’Ipotesi 26.2.1. Se non lo
fosse, basterebbe provare la tesi per la funzione
che soddisfa
L uλ − λuλ = e−λt L u, (26.2.6)
scegliendo λ > a0 .
Ora procediamo per assurdo. Negando la tesi si avrebbe l’esistenza di un punto (t, x) ∈ DT tale che
u(t, x) > 0: in effetti, possiamo anche assumere che
u(t, x) = max u.
[0,t]×D
Ne viene che
H u(t, x) := (∂xi xj u(t, x)) ≤ 0, ∂xj u(t, x) = 0, ∂t u(t, x) ≥ 0,
per ogni j = 1, . . . , N . Allora esiste una matrice simmetrica e semi-definita positiva M = (mij ) tale che
N
X
H u(t, x) = −M 2 = − mih mjh
h=1 i,j
e quindi
N N N
1X X X
L u(t, x) = − cij (t, x) mih mjh + bj (t, x)∂xj u(t, x) + a(t, x)u(t, x) − ∂t u(t, x)
2
i,j=1 h=1 j=1
N
N X
1 X
=− cij (t, x)mih mjh +a(t, x)u(t, x) − ∂t u(t, x)
2
h=1 i,j=1
| {z }
≥0 poiché C =(cij )≥0
Dimostrazione. Consideriamo prima il caso a0 ≤ 0 e quindi a+0 = 0. Supponiamo che u e L u siano limitate
rispettivamente su ∂p DT e DT , altrimenti non c’è nulla da provare. Posto
abbiamo
L w = aw − sup |L u| ≤ L u, L (−w) = −aw + sup |L u| ≥ L u,
DT DT
e −w ≤ u ≤ w su ∂p DT . Allora la stima (26.2.7) segue dal principio del confronto, Corollario 26.2.6.
Sia ora a0 > 0. Consideriamo uλ in (26.2.5) con λ = a0 : per quanto appena provato, vale
e−a0 T sup |u| ≤ sup |e−a0 t u(t, x)| ≤ sup |uλ | + T sup |(L − a0 )uλ | ≤
DT (t,x)∈DT ∂p DT DT
(per la (26.2.6))
(poiché a0 > 0)
e verifica la stima
2
u(t, x) ≥ −CeC|x| , (t, x) ∈ [0, T [×RN , (26.2.9)
per una costante positiva C, allora u ≥ 0 in [0, T [×RN .
Di conseguenza, esiste al più una sola soluzione
classica del problema di Cauchy (9.4.3) che verifica la stima (26.2.2) di crescita esponenziale all’infinito.
Notiamo esplicitamente che le Ipotesi 26.2.1 e 26.2.2 sono molto deboli, tanto che per esempio L può
essere un operatore del prim’ordine. Proviamo prima il seguente
Lemma 26.2.9. Sotto l’Ipotesi 26.2.1, se u ∈ C 1,2 (ST ) ∩ C([0, T [×RN ) verifica (26.2.8) ed è tale che
Dimostrazione. Come nella prova del Teorema 26.2.5, non è restrittivo assumere a0 < 0 cosicché, per ogni
ε > 0, si ha
L (u + ε) ≤ 0, in ST ,
u(0, ·) + ε > 0, in RN .
Fissiamo (t0 , x0 ) ∈ ST . Grazie alla condizione (26.2.10), esiste R > |x0 | tale che
u(t, x) + ε > 0, t ∈ ]0, T [, |x| = R,
e dal principio del massimo debole del Teorema 26.2.5, applicato sul cilindro
DT = ]0, T [×{|x| < R},
si deduce che u(t0 , x0 ) + ε ≥ 0. Ne segue che u(t0 , x0 ) ≥ 0, data l’arbitrarietà di ε.
Dimostrazione del Teorema 26.2.8. Proviamo che u ≥ 0 su una striscia ST0 con T0 > 0 che dipende solo dalla
costante M dell’Ipotesi 26.2.2 e dalla costante C in (26.2.9): se necessario, basta poi applicare ripetutamente
tale risultato per provare la tesi sulla striscia ST .
Anzitutto, per capire l’idea generale, diamo la prova nel caso particolare dell’operatore del calore
1
L = ∆ − ∂t ,
2
1
Fissato γ > C, poniamo T0 = 4γ e consideriamo la funzione
γ|x|2
!
1
v(t, x) := N
exp , (t, x) ∈ [0, T0 [×RN ,
(1 − 2γt) 2 1 − 2γt
tale che
2
L v(t, x) = 0 e v(t, x) ≥ eγ|x| .
Dal Lemma 26.2.9 deduciamo che u + εv ≥ 0 per ogni ε > 0, da cui la tesi.
Il caso generale è solo tecnicamente più complicato e sfrutta l’Ipotesi 26.2.2 sui coefficienti dell’opera-
tore. Fissato γ > C e due costanti α, β ∈ R che determineremo in seguito, consideriamo la funzione
γ|x|2
!
1
v(t, x) = exp + βt , 0≤t≤ , x ∈ RN .
1 − αt 2α
Poiché
N
Lv 2γ 2 γ 2γ X αγ|x|2
= ⟨C x, x⟩ + tr C + bi x i + a − − β,
v (1 − αt)2 1 − αt 1 − αt (1 − αt)2
i=1
per l’Ipotesi 26.2.2 è possibile scegliere α, β abbastanza grandi in modo che
Lv
≤ 0. (26.2.11)
v
Posto w := uv , per la condizione (26.2.9), si ha
lim inf inf w(t, x) ≥ 0,
|x|→∞ 1
0≤t≤ 2α
e w soddisfa l’equazione
N N
1X X Lu
cij ∂xi xj w + b̂i ∂xi w + âw − ∂t w = ≤ 0,
2 v
i,j=1 i=1
26.3. ESISTENZA: LA SOLUZIONE FONDAMENTALE 475
dove
N ∂x j v
X Lv
b̂i = bi + cij , â = .
v v
j=1
Poiché â ≤ 0 per la (26.2.11), possiamo applicare il Lemma 26.2.9 per concludere che w (quindi anche u) è
non-negativa.
Teorema 26.2.10 (Principio del massimo debole). Assumiamo le Ipotesi 26.2.1 e 26.2.3. Se u ∈ C 1,2 (ST ) ∩
C([0, T [×RN ) verifica (26.2.8) e la stima
per certe costanti positive C e p, allora u ≥ 0 in [0, T [×RN . Di conseguenza, esiste al più una sola soluzione
classica del problema di Cauchy (9.4.3) che verifica la stima (26.2.3) di crescita polinomiale all’infinito.
e si verifica che per ogni q > 0 è possibile scegliere α, κ tali che L v < 0 su ST . Allora per p < 2q e per ogni
ε > 0 si ha L (u + εv) < 0 su ST e, grazie alla condizione (26.2.12), si può applicare il Lemma 26.2.9 per
dedurre che u + εv ≥ 0 su ST . La tesi segue dall’arbitrarietà di ε.
Proviamo ora l’analogo del Teorema 26.2.7: il seguente risultato fornisce delle stime, in norma L∞ , di
dipendenza della soluzione in termini del dato iniziale e del termine noto. Queste stime giocano un ruolo
cruciale, per esempio, nella prova della stabilità di alcuni metodi numerici.
Teorema 26.2.11. Se l’operatore L soddisfa le Ipotesi 26.2.1 e 26.2.2, allora per ogni u ∈ C 1,2 (ST ) ∩
C([0, T [×RN ) che verifica la stima di crescita esponenziale (26.2.2) vale
−a+0 T
a+0 := max{0, a0 }.
sup |u| ≤ e sup |u(0, ·)| + T sup |L u| ,
ST
[0,T [×RN RN
si ha
L w± = a sup |u(0, ·)| − sup |L u| ± L u ≤ 0, in ST ,
ST
in RN ,
w± (0, ·) ≥ 0,
e chiaramente w± verifica la stima (26.2.9). Segue dal Teorema 26.2.8 che w± ≥ 0 in ST e questo prova la
tesi. D’altra parte, se a0 ≥ 0 allora basta procedere come nella dimostrazione del Teorema 26.2.7.
Una tecnica classica per dimostrare l’esistenza della soluzione fondamentale è il metodo della parametrice
introdotto da E.E. Levi in [76] e poi sviluppato da molti altri autori2 . Si tratta di una procedura costruttiva
abbastanza lunga e complessa che si basa sulla seguente3 Ipotesi 26.3.2 sull’operatore L . Ricordiamo la
definizione dello spazio bC α (ST ) con la norma definita in (9.4.2): sottolineiamo in particolare il fatto che
le funzioni in bC α (ST ) sono Hölderiane solo rispetto alle variabili spaziali.
Ipotesi 26.3.2.
ii) la matrice C := (cij )1≤i,j≤N è simmetrica e soddisfa la seguente condizione di uniforme parabolicità:
esiste una costante λ0 > 1 tale che
1 2
|η| ≤ ⟨C (t, x)η, η⟩ ≤ λ0 |η|2 , (t, x) ∈ ST , η ∈ RN . (26.3.3)
λ0
Per comodità, assumiamo λ0 abbastanza grande in modo che [cij ]α , [bi ]α , [a]α ≤ λ0 per ogni i, j =
1, . . . , N .
ii) u ∈ C(]t0 , T [×RN ), è differenziabile con continuità fino al second’ordine nelle variabili x e soddisfa
l’equazione integro-differenziale
Z t
u(t, x) = u(t1 , x) + A u(s, x)ds, t0 < t1 < t < T , x ∈ RN . (26.3.4)
t1
Nel seguente teorema, consideriamo il problema di Cauchy con termine noto f che soddisfa le seguenti
condizioni di crescita e di Hölderianità locale.
2 Si vedano, per esempio, i lavori di Pogorzelski [98] e Aronson [4] sulla costruzione della soluzione fondamentale. Il libro di
Friedman [46] costituisce tuttora un testo classico di riferimento per il metodo della parametrice e la fonte principale a cui ci siamo
ispirati per la nostra presentazione.
3 È possibile assumere ipotesi leggermente più deboli: al riguardo si veda la Sezione 6.4 in [46]. In particolare, la condizione
di continuità nel tempo è solo di comodo: i risultati di questa sezione si estendono senza difficoltà al caso di coefficienti che siano
misurabili in t; in tal caso, la PDE va intesa in senso integro-differenziale, come in (26.3.4).
26.3. ESISTENZA: LA SOLUZIONE FONDAMENTALE 477
i)
2
c1 ec2 |x|
|f (t, x)| ≤ , (t, x) ∈]t0 , T [×RN , (26.3.5)
(t − t0 )1−β
1
dove c1 , c2 sono costanti positive con c2 < 4λ0 T ;
|x − y|β
|f (t, x) − f (t, y)| ≤ κn β
, t0 < t < T , |x|, |y| ≤ n. (26.3.6)
(t − t0 )1− 2
Teorema 26.3.5. [!!] Sotto l’Ipotesi 26.3.2, esiste una soluzione fondamentale Γ per L in ST . Inoltre:
i) Γ = Γ (t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Per ogni
(t0 , x0 ) ∈ [0, T [×RN , Γ (t0 , x0 ; ·, ·) ∈ C 1,2 (]t0 , T [×RN ) e valgono le seguenti stime Gaussiane: per ogni
λ > λ0 , dove λ0 è la costante dell’Ipotesi 26.3.2, esiste una costante positiva c = c(T , N , λ, λ0 , α) tale
che
per ogni (t, x) ∈]t0 , T [×RN , dove G è la funzione Gaussiana in (26.4.1). Inoltre, esistono due costanti
positive λ̄, c̄ che dipendono solo da T , N , λ0 , α e per cui vale
Γ (t0 , x0 ; t, x) ≥ c̄ G λ̄(t − t0 ), x − x0 (26.3.10)
ii) per ogni f che soddisfa l’Ipotesi 26.3.4 e ϕ ∈ bC(RN ), la funzione definita da
Z Z tZ
u(t, x) = ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 − f (s, y)Γ (s, y; t, x)dyds, t 0 < t < T , x ∈ RN , (26.3.11)
RN t0 RN
per indicare l’usuale Gaussiana standard, soluzione dell’equazione del calore 21 ∆G(t, x) = ∂t G(t, x).
Fissato y ∈ RN , introduciamo l’operatore Ly ottenuto calcolando i coefficienti di L in y e annullando i
termini di ordine inferiore al secondo:
N
1X
Ly := cij (t, y)∂xi xj − ∂t .
2
i,j=1
L’operatore Ly agisce nelle variabili (t, x) e ha i coefficienti che dipendono solo dalla variabile temporale t,
essendo y fissato. Grazie all’Ipotesi 26.3.2 e in particolare al fatto che la matrice C = (cij ) è uniformemente
definita positiva, si verifica che la soluzione fondamentale di Ly ha la seguente espressione esplicita
Zt
Γy (t0 , x0 ; t, x) = G(Ct0 ,t (y), x − x0 ), Ct0 ,t (y) := C (s, y)ds, (26.4.2)
t0
dove Φ è una funzione incognita da determinare imponendo che valga5 L Γ (t0 , x0 ; t, x) = 0. Formalmente,
da (26.4.4) si ha6
Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x) (26.4.5)
t0 RN
dove
(L P)1 (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x),
Z tZ
(26.4.8)
(L P)k+1 (t0 , x0 ; t, x) = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds, k ∈ N.
t0 RN
|x|
Dimostrazione. Posto per semplicità z = √ , abbiamo
t
!N
zp z2
!
λ
zp G(λ0 t, x) = N
exp − = g(z)G(λt, x)
(2πλ0 t) 2 2λ0 λ0
dove
1 1 κz2
g(z) := zp e− − > 0, 2 , κ= z ∈ R+ ,
λ0 λ
q
p
p p
assume il massimo globale in z0 = κ in cui vale g(z0 ) = eκ 2 .
Lemma 26.4.5. Consideriamo L in (26.0.1) e assumiamo che verifichi l’Ipotesi 26.3.2. Per G e Γy , definiti
rispettivamente in (26.4.1) e (26.4.2), vale
1 t−t
G λ0
0
, x − x0 ≤ Γy (t0 , x0 ; t, x) ≤ λN
0 G (λ0 (t − t0 ), x − x0 ) (26.4.11)
λN
0
per ogni 0 ≤ t0 < t < T e x, x0 , y ∈ RN , dove λ0 è la costante dell’Ipotesi 26.3.2. Inoltre, per ogni λ > λ0 esiste
una costante positiva c = c(T , N , λ, λ0 ) tale che
c
∂xi Γy (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (26.4.12)
t − t0
∂x x Γy (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) ,
i j
(26.4.13)
t − t0
c
∂x x x Γy (t0 , x0 ; t, x) ≤ G (λ(t − t0 ), x − x0 ) , (26.4.14)
i j k
(t − t0 )3/2
Γy (t0 , x0 ; t, x) − Γη (t0 , x0 ; t, x) ≤ c|y − η|α G (λ(t − t0 ), x − x0 ) , (26.4.15)
c|y − η|α
∂xi Γy (t0 , x0 ; t, x) − ∂xi Γη (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (26.4.16)
t − t0
α
∂x x Γy (t0 , x0 ; t, x) − ∂x x Γη (t0 , x0 ; t, x) ≤ c|y − η| G (λ(t − t0 ), x − x0 ) ,
i j i j
(26.4.17)
t − t0
t − t0 2
|η| ≤ ⟨Ct0 ,t (y)η, η⟩ ≤ λ0 (t − t0 )|η|2 (26.4.18)
λ0
e di conseguenza vale
|η|2 λ0 |η|2
≤ ⟨Ct−1
0 ,t
(y)η, η⟩ ≤ (26.4.19)
λ0 (t − t0 ) t − t0
e anche
!N
t − t0
≤ det Ct0 ,t (y) ≤ λN N
0 (t − t0 ) . (26.4.20)
λ0
La (26.4.19) segue dal fatto che se A, B sono matrici simmetriche e definite positive allora la disuguaglianza
fra forme quadratiche A ≤ B (ossia ⟨Aη, η⟩ ≤ ⟨Bη, η⟩ per ogni η ∈ RN ) implica B−1 ≤ A−1 . La (26.4.20)
segue dal fatto che il minimo e massimo autovalore di una matrice simmetrica C sono rispettivamente
26.4. IL METODO DELLA PARAMETRICE 481
min⟨Cη, η⟩ e max⟨Cη, η⟩ =: ∥C∥ dove ∥C∥ è la norma spettrale di C. Notiamo che le (26.4.18)-(26.4.19) si
|η|=1 |η|=1
riscrivono rispettivamente nella forma
t − t0 1 λ
≤ ∥Ct0 ,t (y)∥ ≤ λ0 (t − t0 ), ≤ ∥Ct−1
0 ,t
(y)∥ ≤ 0 . (26.4.21)
λ0 λ0 (t − t0 ) t − t0
Le stime (26.4.11) seguono allora direttamente dalla definizione di Γy (t0 , x0 ; t, x).
Per quanto riguarda la (26.4.12), posto ∇x = (∂x1 , . . . , ∂xN ), si ha
∇x Γy (t0 , x0 ; t, x) = |Ct−1
0 ,t
(y)(x − x0 )|Γy (t0 , x0 ; t, x)
≤ ∥Ct−1
0 ,t
(y)∥ |x − x0 |Γy (t0 , x0 ; t, x) ≤
(per la (26.4.20))
λN
0
det Ct0 ,t (y) − det Ct0 ,t (η)
≤p
det Ct0 ,t (y) (t − t0 )N
λN
! !
0
1 1
=p det Ct0 ,t (y) − det Ct0 ,t (y) ≤
det Ct0 ,t (y) t − t0 t − t0
(poiché | det A − det B| ≤ c∥A − B∥ dove ∥ · ∥ indica la norma spettrale e c è una costante che dipende solo da
∥A∥, ∥B∥ e dalla dimensione delle matrici)
c 1
≤p
Ct0 ,t (y) − Ct0 ,t (η)
det Ct0 ,t (y)
t − t0
e la (26.4.22) segue dall’Ipotesi 26.3.2, in particolare dalla condizione di Hölderianità dei coefficienti cij .
Per quanto riguarda la (26.4.23), per il teorema del valor medio e la (26.4.19) si ha
1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ ⟨C −1 (y)x, x⟩ − ⟨C −1 (η)x, x⟩ e− 2λ0 (t−t0 )
t0 ,t t0 ,t
482 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
2
− 2λ |x|(t−t
≤ ∥Ct−1
0 ,t
(y) − Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤
(per la (26.4.21))
1
|x|2 − |x|2
≤ c
Ct0 ,t (y) − Ct0 ,t (η)
e 2λ0 (t−t0 ) ≤
t − t0 t − t0
(per l’ipotesi di di Hölderianità dei coefficienti cij e per il Lemma 26.4.4)
2
|x|
− 2λ(t−t
≤ c|y − η|α e 0)
e la (26.4.16) si prova con argomenti simili a quelli usati in precedenza. In modo analogo si prova la
(26.4.17).
Per k = 1 abbiamo
|L P(t0 , x0 ; t, x)| = (L − Lx0 )P(t0 , x0 ; t, x)
N N
1 X X
b (t, x)∂ Γ (t , x ; t, x)
≤ c
ij (t, x) − cij (t, x 0 ) ∂ Γ (t ,
xi xj x0 0 0 x ; t, x) + i xi x0 0 0
2
i,j=1 i=1
26.4. IL METODO DELLA PARAMETRICE 483
λ0 +λ
Il primo termine è il più delicato: per le stime (26.4.25) e (26.4.13), per λ′ = 2 si ha
α
cij (t, x) − cij (t, x0 ) ∂x x Γx (t0 , x0 ; t, x) ≤ c |x − x0 | G(λ′ (t − t0 ), x − x0 ) ≤
i j 0
t − t0
Gli altri termini si stimano facilmente usando l’ipotesi di limitatezza dei coefficienti e la stima (26.4.12)
delle derivate prime:
!
1
bi (t, x)∂xi Γx0 (t0 , x0 ; t, x) + |a(t, x)|Γx0 (t0 , x0 ; t, x) ≤ c √ + 1 G(λ(t − t0 ), x − x0 ).
t − t0
Osservazione 26.4.7. L’equazione di Chapman-Kolmogorov è uno strumento cruciale nel metodo della
parametrice: essa si prova con un calcolo diretto o, in alternativa, come conseguenza del risultato di unicità
del Teorema 26.2.8. Infatti, per t0 < s < t < T e x, x0 , y ∈ RN , si ha che le funzioni u1 (t, x) := G(t − t0 , x − x0 ) e
Z
u2 (t, x) = G(s − t0 , y − x0 )G(t − s, x − y)dy
RN
Lemma 26.4.8. Sia κ > 0. Dato κ1 ∈]0, κ[ esiste una costante positiva c tale che valga
|η−x0 |2 |y−x0 |2
e−κ t ≤ ce−κ1 t (26.4.26)
b2
2|ab| ≤ εa2 + ,
ε
e
1
(a + b)2 ≤ (1 + ε)a2 + 1 + b2 .
ε
La (26.4.26) segue dal fatto che
1
≤ κ1 1 + .
ε
per ogni λ > λ0 , 0 ≤ t0 < t < T e x, y, x0 ∈ RN , con c = c(T , N , λ, λ0 ) > 0. Ora, se |x − y|2 > t − t0 allora la
(26.4.27) segue direttamente dalla (26.4.24) con k = 1.
Per studiare il caso |x − y|2 ≤ t − t0 , osserviamo che
dove
N
1 X
F1 = (cij (t, x) − cij (t, x0 ))∂xi xj P(t0 , x0 ; t, x) − (cij (t, y) − cij (t, x0 ))∂yi yj P(t0 , x0 ; t, y)
2
i,j=1
N
1X
= (cij (t, x) − cij (t, y))∂xi xj P(t0 , x0 ; t, x)
2
i,j=1
| {z }
=:G1
N
1 X
+ (cij (t, y) − cij (t, x0 )) ∂xi xj P(t0 , x0 ; t, x) − ∂yi yj P(t0 , x0 ; t, y) ,
2
i,j=1
| {z }
=:G2
N
X
F2 = bj (t, x)∂xj P(t0 , x0 ; t, x) − bj (t, y)∂yj P(t0 , x0 ; t, y) + a(t, x)P(t0 , x0 ; t, x) − a(t, y)P(t0 , x0 ; t, y).
j=1
Per l’ipotesi di Hölderianità dei coefficienti e la stima Gaussiana (26.4.13), sotto la condizione |x −y|2 ≤ t −t0
si ha α
c |x − y|α c |x − y| 2
|G1 | ≤ G (λ(t − t0 ), x − x0 ) ≤ α G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− 4
Per quanto riguarda G2 , usiamo ancora l’Hölderianità dei coefficienti e combiniamo il teorema del valor
medio (con η che appartiene al segmento di estremi x, y) con la stima Gaussiana (26.4.14) delle derivate
terze: otteniamo
c |x − y| λ + λ0
|G2 | ≤ |y − x0 |α 3
G (t − t0 ), η − x 0 ≤
(t − t0 ) 2 2
Una stima simile si ottiene per F2 , utilizzando l’Hölderianità dei coefficienti bj e a. Questo conclude la
prova della (26.4.27).
Proviamo ora la (26.4.10) usando il fatto che Φ risolve l’equazione (26.4.6), per cui si ha
Grazie alla (26.4.27) è sufficiente stimare il termine I(t0 , x0 ; t, x, y): ancora per le stime (26.4.9) e (26.4.27)
otteniamo
t α
Z c |x − y| 2
I(t0 , x0 ; t, x, y) ≤ α α ·
t0 (s − t0 )1− 2 (t − s)1− 4
Z
· G(λ(s − t0 ), η − x0 ) (G(λ(t − s), x − η) + G(λ(t − s), y − η)) dηds =
RN
t
c |x − y|α/2
Z
= α α ds (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
t0 (s − t0 )1− 2 (t − s)1− 4
c |x − y|α/2
= 3α
(G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1− 4
dove f ∈ C(]t0 , T [×RN ) soddisfa l’Ipotesi 26.3.4 di crescita e Hölderianità locale. Nel seguito sarà utile la
seguente
Per il classico teorema di scambio di segni di derivata e integrale, per ogni k ∈ N esistono e sono continue
le derivate
|x−y|2 |x−y|2
Z Z
∂kx I(t, x) = ∂kx e− t dy, ∂t I(t, x) = ∂t e− t dy.
RN RN
Proposizione 26.4.10. La definizione (26.4.29) è ben posta e Vf ∈ C(]t0 , T [×RN ). Inoltre, per ogni i, j =
1, . . . , N esistono e sono continue su ]t0 , T [×RN le derivate
Z tZ
∂xi Vf (t, x) = f (s, y)∂xi P(s, y; t, x)dyds, (26.4.30)
t0 RN
Z tZ
∂xi xj Vf (t, x) = f (s, y)∂xi xj P(s, y; t, x)dyds, (26.4.31)
t0 RN
Z tZ
∂t Vf (t, x) = f (t, x) + f (s, y)∂t P(s, y; t, x)dyds. (26.4.32)
t0 RN
Dimostrazione. Poniamo
Z
I(s; t, x) := f (s, y)Γy (s, y; t, x)dy, t 0 ≤ s < t < T , x ∈ RN ,
RN
cosicché Z t
Vf (t, x) = I(s; t, x)ds.
t0
Per la stima (26.4.11) e l’ipotesi (26.3.5), si ha
c1 λN |x−y|2
Z
0 c2 |y|2 − 2λ
|I(s; t, x)| ≤ e 0 (t−s) dy =
N
(s − t0 )1−β (2πλ0 (t − s)) 2 RN
x−y
(col cambio di variabili z = √ e posto c0 = c1 λN π−N /2 )
2λ0 (t−s)
Z √ 2
c0 c2 x−z 2λ0 (t−s) −|z|2
= e dz ≤
(s − t0 )1−β RN
con c = c(λ0 , T , N , c1 , c2 ) costante positiva opportuna. Ne segue che la funzione Vf ∈ C(]t0 , T [×RN ) è ben
definita e 2
Vf (t, x) ≤ c(t − t0 )β e2c2 |x| , t0 < t < T , x ∈ RN , (26.4.34)
con β > 0.
[Prova della (26.4.30)] Per l’Osservazione 26.4.9, per t0 ≤ s < t < T si ha
Z
∂xi I(s; t, x) = f (s, y)∂xi P(s, y; t, x)dy ≤
RN
[Prova della (26.4.31)] La prova dell’esistenza della derivata seconda è più complessa poiché ripetendo
1
l’argomento precedente con la stima (26.4.13) si otterrebbe un termine singolare del tipo t−s che non è som-
mabile nell’intervallo [t0 , t]. In maniera più attenta è possibile provare delle stime più precise e uniformi
su ]t0 , T [×Dn per ogni n ∈ N fissato, dove Dn := {|x| ≤ n}.
Supponiamo x ∈ Dn . Anzitutto, come nell’Osservazione 26.4.9, per ogni s < t si ha
Z
∂xi xj I(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy = J(s; t, x) + H(s; t, x)
RN
dove
Z Z
J(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy, H(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy.
Dn+1 RN \Dn+1
|x − y|β
Z
c
|J1 (s; t, x)| ≤ β
G (λ(t − s), x − y) dy ≤
(s − t0 )1− 2 Dn+1 t − s
(per il Lemma 26.4.4)
Z
c c
≤ β β
G (2λ(t − s), x − y) dy ≤ β β
,
1− 2 1− 2 1− 2
(s − t0 ) (t − s) Dn+1 (s − t0 ) (t − s)1− 2
con c costante positiva che dipende da κn in (26.3.6), oltre che da T , N , λ e λ0 . Procedendo in modo simile,
utilizzando la (26.4.17) e la (26.3.5), si ha
2 2
cec2 |x| |y − x|α cec2 |x|
Z
|J2 (s; t, x)| ≤ G (λ(t − s), x − y) dy ≤ α .
(s − t0 )1−β Dn+1 t − s (s − t0 )1−β (t − s)1− 2
Ora, notiamo che
∂xi Γη (s, y; t, x) = −∂yj Γη (s, y; t, x)
e quindi
Z Z
∂xi xj Γη (s, y; t, x) |η=x dy = − ∂yi xj Γη (s, y; t, x) |η=x dy =
Dn+1 Dn+1
(per il teorema della divergenza, indicando con ν la normale esterna a Dn+1 e con dσ (y) la misura di
superficie sul bordo ∂Dn+1 )
Z
=− ∂xj Γη (s, y; t, x) |η=x ν(y)dσ (y)
∂Dn+1
7 Per chiarezza, il termine ∂
xi xj Γη (s, y; t, x) |η=x si ottiene applicando prima le derivate ∂xi xj Γη (s, y; t, x), tenendo η fissato, e poi
calcolando il risultato ottenuto in η = x. Si noti che, sotto l’Ipotesi 26.3.2, Γη (s, y; t, x) come funzione di η non è differenziabile.
26.4. IL METODO DELLA PARAMETRICE 489
|x − y|2
Z
≤c |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s
con c > 0 opportuna, ricordando che c2 < 4λ1 T per ipotesi e scegliendo λ′ − λ0 sufficientemente piccolo. In
0
definitiva, abbiamo provato che, per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato, esiste una costante c tale
che Z
c
|∂xi xj I(s; t, x)| = f (s, y)∂xi xj P(s, y; t, x)dy ≤ β γ
(26.4.35)
R N
(s − t0 ) 2 (t − s)1− 2
1−
(procedendo come nella prova di (26.4.35) e usando l’ipotesi di limitatezza dei coefficienti)
c
≤ γ . (26.4.36)
(s − t0 )1−β (t − s)1− 2
Vf (t + h, x) − Vf (t, x)
Z t Z t+h
I(s; t + h, x) − I(s; t, x) 1
= ds + I(s; t + h, x)ds =: I1 (t, x) + I2 (t, x).
h t0 h h t
490 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
Per il teorema del valor medio, esiste t̂s ∈ [t, t + h] tale che
Zt Zt
I1 (t, x) = ∂t I(s; t̂s , x)ds −−−−−→ ∂t I(s; t, x)ds
t0 h→0 t0
dove il passaggio al limite è giustificato dal teorema della convergenza dominata grazie alla stima (26.4.36).
Per quanto riguarda I2 , si ha
Z t+h Z t+h
1 1
I2 (t, x) − f (t, x) = (I(s; t + h, x) − f (s, x)) ds + (f (s, x) − f (t, x))ds
h t h t
dove il secondo integrale nel membro destro tende a zero per h → 0 essendo f continua, mentre per sti-
mare il primo integrale assumiamo x ∈ Dn e procediamo come nella prova della (26.4.31): precisamente,
scriviamo
1 t+h 1 t+h
Z Z Z
(I(s; t + h, x) − f (s, x)) ds = (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds
h t h t Dn+1
| {z }
=:J1 (t,x)
Z t+h Z
1
+ (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds .
h t RN \Dn+1
| {z }
=:J2 (t,x)
t+h Z
λN κn+1
Z
|J1 (t, x)| ≤ |x − y|β G (λ0 (t + h − s), x − y) dyds ≤
h t Dn+1
D’altra parte, grazie all’ipotesi (26.3.5) di crescita su f e alla (26.4.11), si verifica facilmente che
Z t+h Z
c 2
|J2 (t, x)| ≤ ec2 |y| G (λ0 (t + h − s), x − y) dyds −−−−−−+→ 0.
h t |x−y|>1 h→0
≤ λN G (λ(t − t0 ), x − x0 )
Zt Z
c
+ 1− α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 ) 2 RN
e questo prova in particolare la stima dall’alto (26.3.7). La (26.3.8) si dimostra in modo completamente
analogo.
Proviamo ora la (26.3.9). Ripetendo la dimostrazione della (26.4.35) con Φ(t0 , x0 ; s, y) al posto di f (s, y) e
utilizzando le stime della Proposizione 26.4.2, si prova l’esistenza di una costante positiva c = c(T , N , λ, λ0 )
tale che
Z
c
N Φ(t ,
0 0x ; s, y)∂ xi xj P(s, y; t, x)dy (s − t )1− α4 (t − s)1− α4 G(λ(t − t0 ), x − x0 ),
≤ t0 ≤ s < t < T , x, x0 ∈ RN .
R 0
(26.4.39)
Dunque per la (26.4.4) e (26.4.31), si ha
Z t Z
∂x x Γ (t0 , x0 ; t, x) ≤ ∂x x P(t0 , x0 ; t, x) +
Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds ≤
i j i j t0 RN
Ora, fissato x0 ∈ RN ,
Z Z
J(t, x) = ϕ(ξ) Γξ (t0 , ξ; t, x) − Γx0 (t0 , ξ; t, x) dξ + ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ
RN RN
| {z }
J1 (t,x)
e, per la (26.4.15), si ha
Z
|J1 (t, x)| ≤ c |ϕ(ξ)||ξ − x0 |α G (λ(t − t0 ), x − ξ) dξ −−−−−−−−−−−−→ 0,
RN (t,x)→(t0 ,x0 )
Z
ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ −−−−−−−−−−−−→ ϕ(x0 ).
RN (t,x)→(t0 ,x0 )
I passaggi al limite si giustificano come nell’Esempio 4.1.3 e, in termini probabilistici, corrispondono alla
convergenza debole della distribuzione normale alla delta di Dirac, al tendere della varianza a zero. D’altra
parte, per la (26.4.38)
Z
α
|H(t, x)| ≤ c(t − t0 ) 2 ϕ(x0 )G(λ(t − t0 ), x − x0 )dx0 −−−−−−−−−−−→ 0.
RN (t,x)→(t0 ,x̄)
Questo prova che u ∈ C([t0 , T [×RN ) e quindi è soluzione classica del problema di Cauchy (26.3.2).
Passo 4. Proviamo che u in (26.3.11) è soluzione classica del problema di Cauchy non omogeneo (26.3.12).
Usiamo la definizione di Γ in (26.4.4) e ci concentriamo sul termine
Z tZ Z tZ
f (s, y)Γ (s, y; t, x)dyds = f (s, y)P(s, y; t, x)dyds
t0 RN t0 RN
Z tZ Z tZ
+ f (s, y) Φ(s, y; τ, η)P(τ, η; t, x)dηdτdyds =
t0 RN s RN
(con la notazione (26.4.29), posto Φ(s, y; τ, η) = 0 per τ ≤ s e scambiando l’ordine di integrazione dell’ultimo
integrale)
= Vf (t, x) + VF (t, x)
dove Z τZ
F(τ, η) := f (s, y)Φ(s, y; τ, η)dyds.
t0 RN
Proviamo fra poco che F soddisfa l’Ipotesi 26.3.4 ed è quindi possibile applicare a Vf e VF la Proposizione
26.4.10 da cui otteniamo
Z tZ
L Vf (t, x) + VF (t, x) = −f (t, x) − F(t, x) + (f (s, y) + F(s, y)) L P(s, y; t, x)dyds
t0 RN
Z tZ
= −f (t, x) + f (s, y)I(s, y; t, x)dyds
t0 RN
26.4. IL METODO DELLA PARAMETRICE 493
dove Z tZ
I(s, y; t, x) := −Φ(s, y; t, x) + L P(s, y; t, x) + Φ(s, y; τ, η)L P(τ, η; t, x)dηdτ ≡ 0
s RN
per la (26.4.6). Questo prova che
L u(t, x) = f (t, x), 0 ≤ t0 < t < T , x, x0 ∈ RN .
Verifichiamo che F soddisfa l’Ipotesi 26.3.4: per la (26.4.9), le ipotesi su f e la (26.4.28), si ha
2
Z τZ cec2 |y| c 2
F(τ, η) ≤ β α
G(λ(τ − s), η − y)dyds ≤ α+β
ec|η| .
t0 RN (s − t )1− 2 (τ − s)1− 2 (τ − t0 )1− 2
0
Infine, usando la stima dall’alto (26.3.7) di Γ e procedendo come nella prova della stima (26.4.34), si
prova che
Z tZ
f (s, y)Γ (s, y; t, x)dyds −−−−−−−−−−−→ 0,
t0 RN (t,x)→(t0 ,x̄)
per ogni x̄ ∈ RN . Questo conclude la prova del fatto che u in (26.3.11) è soluzione classica del problema di
Cauchy non omogeneo (26.3.12).
Passo 5. L’equazione di Chapman-Kolmogorov e la formula (26.3.13) si provano come nell’Osservazione
26.4.7, come conseguenza del risultato di unicità del Teorema 26.2.8. In particolare, per quanto provato
nei punti precedenti, se a è costante, le funzioni
Z
u1 (t, x) := ea(t−t0 ) , u2 (t, x) := Γ (t0 , x0 ; t, x)dx0
RN
sono entrambe soluzioni limitate (grazie alla stima (26.4.38)) del problema di Cauchy
L u = 0 in ]t0 , T [×RN ,
u(t0 , ·) = 1 in RN ,
e quindi coincidono.
Passo 6. Come ultimo passo proviamo la stima dal basso di Γ in (26.3.10). Si tratta di un risultato non
banale, per il quale adattiamo una tecnica introdotta da D.G. Aronson che sfrutta alcune classiche stime di
J. Nash: per maggiori dettagli rimandiamo anche alla Sezione 2 in [39]. Qui, al posto delle stime di Nash
utilizziamo altre stime ricavate direttamente dal metodo della parametrice.
Anzitutto, proviamo che Γ ≥ 0: per assurdo, se fosse Γ (t0 , x0 ; t1 , x1 ) < 0 per certi x0 , x1 ∈ RN e 0 ≤ t0 <
t1 < T , allora per continuità si avrebbe
Γ (t0 , y; t1 , x1 ) < 0, |y − x0 | < r,
con r > 0 opportuno. Consideriamo ϕ ∈ bC(RN ) tale che ϕ(y) > 0 per |y − x0 | < r e ϕ(y) ≡ 0 per |y − x0 | ≥ r: la
funzione Z
u(t, x) := ϕ(y)Γ (t0 , y; t, x)dy, t ∈]t0 , T [, x ∈ RN ,
RN
494 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
è limitata grazie alla stima (26.4.38) di Γ , è tale che u(t1 , x1 ) < 0 ed è soluzione classica del problema di
Cauchy (26.3.2). Questo è assurdo perché contraddice il principio del massimo, Teorema 26.2.8.
Ora osserviamo che per ogni λ > 1 si ha
t
G(λt, x) ≤ G , x
λ
√ q
se |x| < cλ t dove cλ = λλN 2 −1 log λ. Allora, per la definizione (26.4.4) si ha
Z Z
t
Γ (t0 , x0 ; t, x) ≥ P(t0 , x0 ; t, x) − Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds ≥
t0 RN
4|x − x0 |2 T
max , .
c2 (t − t ) T
λ 0 λ
Poniamo
t − t0 x − x0
tk = t0 + k
, x k = x0 + k , k = 1, . . . , m,
m+1 m+1
e osserviamo che, grazie alla scelta di m, si ha
t − t0 T
tk+1 − tk = ≤ ≤ Tλ . (26.4.41)
m+1 m+1
q
cλ t−t0
Inoltre, se yk ∈ D(xk , r) := {y ∈ RN | |xk − y| < r} per ogni k = 1, . . . , m allora, scelto r = 4 m+1 , si ha
r r
|x − x0 | c t − t0 t − t0
|yk+1 − yk | ≤ 2r + |xk+1 − xk | = 2r + ≤ 2r + λ = cλ (26.4.42)
m+1 2 m+1 m+1
√
= cλ tk+1 − tk . (26.4.43)
1
Γ (t0 , x0 ; t, x) ≥ N
e−cm
c(t − t0 ) 2
e per la scelta di m questo basta a provare la tesi e concludere la dimostrazione del Teorema 26.3.5.
496 CAPITOLO 26. ESISTENZA E UNICITÀ PER PDE PARABOLICHE
Appendice A
Definizione A.1.1 (Famiglia monotona di insiemi). Una famiglia M di sottoinsiemi di Ω è una famiglia
monotona se gode delle seguenti proprietà:
i) Ω ∈ M ;
ii) se A, B ∈ M e A ⊆ B, allora B \ A ∈ M ;
Ogni σ -algebra è una famiglia monotona mentre il viceversa non è necessariamente vero poiché la pro-
prietà iii) di “chiusura rispetto all’unione numerabile” vale solo per successioni crescenti, ossia tali che
An ⊆ An+1 per ogni n ∈ N. Tuttavia si ha il seguente risultato.
Dimostrazione. Se M è monotona verifica le prime due proprietà della definizione di σ -algebra: rimane
solo da provare la ii-b) della Definizione 2.1.1, ossia che l’unione numerabile di elementi di M appartiene
ad M . Anzitutto, dati A, B ∈ M , poiché
A ∪ B = (Ac ∩ Bc )c ,
l’ipotesi di chiusura rispetto all’intersezione implica che A ∪ B ∈ M . Ora, data una successione (An )n∈N di
elementi di M , definiamo la successione
n
[
Ān := Ak , n ∈ N,
k=1
che è crescente e tale che Ān ∈ M per quanto appena dimostrato. Allora si conclude che
[ [
An = Ān ∈ M
n∈N n∈N
497
498 APPENDICE A.
Osserviamo che l’intersezione di famiglie monotone è una famiglia monotona. Data una famiglia A
di sottoinsiemi di Ω, indichiamo con M (A ) l’intersezione di tutte le famiglie monotone che contengono
A : diciamo cheM (A ) è la famiglia monotona generata da A , ossia la più piccola famiglia monotona che
contiene A .
Teorema A.1.3 (Primo Teorema di Dynkin). [!] Sia A una famiglia di sottoinsiemi di Ω. Se A è ∩-chiusa
allora M (A ) = σ (A ).
Dimostrazione. σ (A ) è monotona e quindi σ (A ) ⊇ M (A ). Viceversa, se proviamo che M (A ) è ∩-chiusa
allora dal Lemma A.1.2 seguirà che M (A ) è una σ -algebra e quindi σ (A ) ⊆ M (A ).
Proviamo dunque che M (A ) è ∩-chiusa. Poniamo
M1 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ A },
(B \ A) ∩ I = (B ∩ I) \ (A ∩ I) ∈ M (A ), I ∈A,
e quindi B \ A ∈ M1 ;
iii) sia (An ) una successione crescente in M1 e indichiamo con A l’unione degli An . Allora abbiamo
[
A∩I = (An ∩ I) ∈ M (A ), I ∈A,
n≥1
e quindi A ∈ M1 .
Questo prova che M (A ) = M1 . Ora poniamo
M2 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ M (A )}.
Abbiamo provato sopra che A ⊆ M2 . Inoltre, in modo analogo possiamo provare che M2 è una famiglia
monotona: ne viene che M (A ) ⊆ M2 e quindi M (A ) = M2 ossia M (A ) è ∩-chiusa.
Segue immediatamente dal Teorema A.1.3 il seguente
Corollario A.1.4. Sia M una famiglia monotona. Se M contiene una famiglia ∩-chiusa A , allora contiene
anche σ (A ).
Come secondo corollario dimostriamo la parte sull’unicità del Teorema 2.4.29 di Carathéodory (si veda
l’Osservazione A.1.6).
Corollario A.1.5. [!] Siano µ, ν misure finite su (Ω, σ (A )) dove A è una famiglia ∩-chiusa e tale che Ω ∈ A .
Se µ(A) = ν(A) per ogni A ∈ A allora µ = ν.
Dimostrazione. Sia
M = {A ∈ σ (A ) | µ(A) = ν(A)}.
Verifichiamo che M è una famiglia monotona: dal primo Teorema di Dynkin seguirà che M ⊇ M (A ) =
σ (A ) da cui la tesi.
Delle tre condizioni della Definizione A.1.1, la i) è vera per ipotesi. Per quanto riguarda la ii), se A, B ∈
M con A ⊆ B allora si ha
µ(B \ A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B \ A)
A.2. ASSOLUTA CONTINUITÀ 499
Osservazione A.1.6. La parte sull’unicità del Teorema 2.4.29 di Carathéodory segue facilmente dal Corol-
lario A.1.5: la tesi è che se µ, ν sono misure σ -finite su un’algebra A e coincidono su A allora coincidono
anche su σ (A ).
Per ipotesi, esiste una successione (An )n∈N in A tale che µ(An ) = ν(An ) < ∞ e Ω =
S
An . Fissato n ∈ N,
n∈N
poiché A è ∩-chiusa, utilizzando il Corollario A.1.5 si prova facilmente che
µ(A ∩ An ) = ν(A ∩ An ), ∀A ∈ σ (A ).
Passando al limite in n, la tesi segue dalla continuità dal basso delle misure.
Definizione A.1.7 (Famiglia monotona di funzioni). Una famiglia H di funzioni limitate, definite da un
insieme Ω a valori reali, è monotona se gode delle seguenti proprietà:
iii) se (Xn )n∈N è una successione di funzioni non-negative di H tale che Xn ↗ X con X limitata, allora
X∈H .
Teorema A.1.8 (Secondo Teorema di Dynkin). [!] Sia A una famiglia ∩-chiusa di sottoinsiemi di Ω. Se
H è una famiglia monotona che contiene le funzioni indicatrici di elementi di A , allora H contiene anche
tutte le funzioni limitate e σ (A )-misurabili.
Dimostrazione. Poniamo
M = {H ⊆ Ω | 1H ∈ H }.
Per ipotesi, A ⊆ M e, usando il fatto che H è una famiglia monotona, è facile provare che M è una famiglia
monotona di insiemi. Allora M ⊇ M (A ) = σ (A ), dove l’uguaglianza è conseguenza del primo Teorema di
Dynkin. Dunque H contiene le funzioni indicatrici di elementi di σ (A ).
Data X ∈ mσ (A ), non-negativa e limitata, per Lemma 3.2.3 esiste una successione (Xn )n∈N di funzioni
semplici σ (A )-misurabili e non-negative tali che Xn ↗ X. Ogni Xn è combinazione lineare di funzioni
indicatrici di elementi di σ (A ) e quindi appartiene ad H , essendo H uno spazio vettoriale: per la proprietà
iii) di H , si ha che X ∈ H . Infine, per provare che ogni funzione σ (A )-misurabile e limitata appartiene ad
H , è sufficiente decomporla nella somma della sua parte positiva e negativa.
Definizione A.2.1.1. Siano µ, ν misure σ -finite su (Ω, F ). Diciamo che ν è µ-assolutamente continua su
F , e scriviamo ν ≪ µ, se ogni insieme µ-trascurabile di F è anche ν-trascurabile. Quando è importante
specificare la σ -algebra considerata, si scrive anche
ν ≪F µ.
Ovviamente se F1 ⊆ F2 sono σ -algebre, allora ν ≪F2 µ implica ν ≪F1 µ ma non è vero il viceversa.
Esempio A.2.1.2. La Definizione 2.4.18 di assoluta continuità è un caso particolare della definizione pre-
cedente: infatti se µ è una distribuzione assolutamente continua allora µ(H) = 0 per ogni H ∈ B tale che
Leb(H) = 0 o, in altri termini,
µ ≪B Leb
ossia µ è assolutamente continua rispetto alla misura di Lebesgue.
Teorema A.2.1.3 (Teorema di Radon-Nikodym). [!] Se µ, ν sono misure σ -finite su (Ω, F ) e ν ≪ µ, allora
esiste g ∈ mF + tale che Z
ν(A) = gdµ, A ∈ F. (A.2.1)
A
dν dν
dν = gdµ oppure g= oppure g= | .
dµ dµ F
dν
(per la (A.2.1) ed indicando con dµ la derivata di Radon-Nikodym di ν rispetto a µ)
Z
dν
= lim fn dµ =
n→∞ Ω dµ
per ogni f ∈ mF + .
L’operatore L è limitato e quindi continuo: infatti, applicando la disuguaglianza triangolare e poi la disu-
guaglianza di Hölder, si ha
Z Z q
|L(f )| ≤ |f |dµ ≤ |f |d(µ + ν) ≤ ∥f ∥L2 (µ + ν)(Ω).
Ω Ω
Proviamo che 0 < ϕ < 1 µ-quasi ovunque: a tal fine, poniamo A0 = {ϕ < 0}, A1 = {ϕ > 1} e fi = 1Ai ∈
L2 (Ω, F , µ + ν), per i = 0, 1. Se fosse µ(Ai ) > 0, dalla (A.2.3) si avrebbe
Z Z Z
µ(A0 ) = f0 dµ = ϕd(µ + ν) ≤ ϕdµ < 0,
Ω A0 A0
Z Z Z
µ(A1 ) = f1 dµ = ϕd(µ + ν) ≥ ϕdµ > µ(A1 ),
Ω A1 A1
che è assurdo.
Ora, la (A.2.3) equivale a
Z Z
f ϕdν = f (1 − ϕ)dµ, f ∈ L2 (Ω, F , µ + ν),
Ω Ω
e per il Lemma 3.2.3 e il Teorema di Beppo-Levi (che si applica poiché 0 < ϕ < 1 µ-quasi ovunque e quindi
anche ν-quasi ovunque), tale uguaglianza si estende ad ogni f ∈ mF + . In particolare, per f = 1ϕA si ottiene
Z
1−ϕ
ν(A) = dµ, A ∈ F.
A ϕ
2
Teorema A.2.1.5 (Teorema di rappresentazione di Riesz). Se L è un operatore lineare e continuo su uno spazio di Hilbert (H, ⟨·, ·⟩),
allora esiste ed è unico y ∈ H tale che
L(x) = ⟨x, y⟩, x ∈ H.
Per la dimostrazione del Teorema A.2.1.5, e più in generale per un’introduzione semplice ma completa agli spazi di Hilbert, si veda il
Capitolo 4 in [107].
502 APPENDICE A.
1−ϕ
Questo prova la tesi con g = ϕ ∈ mF + .
Consideriamo ora il caso generale in cui µ, ν siano σ -finite. Allora esiste una successione crescente
(An )n∈N in F , che ricopre Ω e tale che (µ + ν)(An ) < ∞ per ogni n ∈ N. Consideriamo le misure finite
È facile vedere che νn ≪ µn e quindi esiste gn ∈ mF + tale che νn = gn dµn . Inoltre come nella dimostrazione
dell’unicità, si prova che gn = gm su An per n ≤ m. Allora consideriamo g ∈ mF + definita da g = gn su An .
Per ogni A ∈ F si ha Z Z
ν(A ∩ An ) = νn (A) = gn dµn = f dµ
A A∩An
Unendo questo risultato al Corollario 2.4.10, si conclude che due distribuzioni µ1 e µ2 su R sono uguali se
e solo se µ1 (I) = µ2 (I) per ogni intervallo aperto I.
Il Lemma A.2.2.1 non si estende al caso multidimensionale (o, peggio ancora, al caso di uno spazio
metrico generico). Sembrerebbe naturale poter sostituire gli intervalli di R con i dischi. Tuttavia, cosı̀
facendo il risultato diventa falso anche in dimensione uno (almeno se si suppone che il raggio dei dischi
debba essere finito): basta considerare, per esempio, A = ]0, +∞[. Analogamente, un’unione disgiunta di
dischi aperti di R2 è un insieme connesso se e solo se consiste di un solo disco: quindi non c’è speranza di
rappresentare un generico aperto connesso di R2 come unione numerabile di dischi aperti disgiunti.
Nella dimostrazione del Lemma A.2.2.1 abbiamo usato la densità dei razionali in R: data la sottigliezza
degli argomenti, occorre fare attenzione a ciò che sembra intuitivo, come mostra il seguente
Esempio A.2.2.3. Sia (xn )n∈N una enumerazione dei punti di H := ]0, 1[∩Q ∈ B. Fissato ε ∈ ]0, 1[, sia (rn )n∈N
una successione di numeri reali positivi tali che la serie
X ε
rn < .
2
n≥1
A.2. ASSOLUTA CONTINUITÀ 503
Poniamo [
A := ]xn − rn , xn + rn [∩]0, 1[.
n≥1
Ne segue anche che A è strettamente incluso ]0, 1[ (perché ha misura di Lebesgue minore di 1) pur essendo
aperto e denso in ]0, 1[.
Teorema A.2.3.1 (di Lebesgue). [!!] Ogni funzione monotona (debolmente) crescente
F : [a, b] −→ R
La disuguaglianza in (A.2.5) può essere stretta (si pensi alle funzioni costanti a tratti): la funzione di
Vitali dell’Esempio 2.4.36 è monotona, continua e verifica la (A.2.5) con la disuguaglianza stretta.
La dimostrazione standard del Teorema A.2.3.1 è basata sul Teorema di ricoprimento di Vitali e si
può trovare in [11], Teorema 14.18. Un’altra dimostrazione più diretta ma sotto l’ipotesi aggiuntiva di
continuità, è dovuta a Riesz (cfr. Capitolo 1.3 in [104]).
allora γ = 0 q.o.
Inoltre, per il Lemma A.2.2.1 ogni aperto A ⊆ [a, b] si scrive nella forma (A.2.4) e quindi
Z ∞ Z
X bn
γ(t)dt = γ(t)dt = 0. (A.2.6)
A n=1 an
Ora sia H ∈ B, con H ⊆ [a, b]: per la Proposizione 2.4.9 sulla regolarità delle misure di Borel, per ogni n ∈ N
esiste un aperto An tale che H ⊆ An e Leb(An \ H) ≤ n1 . Allora si ha
Z Z Z
γ(t)dt = γ(t)dt − γ(t)dt =
H An An \H
504 APPENDICE A.
(per la (A.2.6))
Z
=− γ(t)dt −−−−−−−→ 0
An \H n→+∞
R
per il teorema della convergenza dominata. Dunque H γ(t)dt = 0 per ogni H ∈ B.
Allora, per ogni n ∈ N, poniamo Hn = {x ∈ [a, b] | γ(x) ≥ n1 } ∈ B: si ha
Z
Leb(Hn )
0= γ(t)dt ≥
Hn n
e d’altra parte, per il Teorema A.2.3.1 di Lebesgue, essendo F monotona crescente, si ha che esiste
F(x + h) − F(x)
lim = F ′ (x) q.o.
h→0 h
Dunque, ancora per il Teorema della convergenza dominata, per a < x0 < x < b abbiamo
Zx Zx
F(t + h) − F(t)
F ′ (t)dt = lim dt
x0 h→0 x0 h
Z x+h Z x0 +h !
1
= lim F(t)dt − F(t)dt
h→0 h x x0
(poiché F è continua)
= F(x) − F(x0 ).
3 Se h < 0 poniamo per definizione
Z x+h Zx
γ(t)dt = − γ(t)dt.
x x+h
A.2. ASSOLUTA CONTINUITÀ 505
Ne segue che
Z x
(F ′ (t) − γ(t)) dt = 0, x ∈ [a, b]
a
Allora si ha F = Fn + Gn dove
Z x Z x
Fn (x) = γn (t)dt, Gn (x) = (γ(t) − γn (t)) dt.
a a
Da una parte, Gn è una funzione crescente (e quindi derivabile q.o. con Gn′ ≥ 0) poiché γ − γn ≥ 0 e d’altra
parte, per quanto appena provato, esiste Fn′ = γn q.o. Quindi si ha
F ′ = γn + G ′ ≥ γn q.o.
Ma la disuguaglianza opposta viene dal Teorema A.2.3.1 di Lebesgue (si veda la (A.2.5)) e quindi
Z b
F ′ (t)dt = F(b) − F(a).
a
Allora si ha ancora Z b
(F ′ (t) − γ(t)) dt = 0
a
F : [a, b] −→ R
è assolutamente continua, e si scrive F ∈ AC([a, b]), se, per ogni ε > 0 esiste δ > 0 tale che
N
X
|F(bn ) − F(an )| < ε (A.2.7)
n=1
per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che
N
X
(bn − an ) < δ.
n=1
506 APPENDICE A.
Esercizio A.2.4.2. Provare che se F ∈ AC([a, b]) allora, per ogni ε > 0 esiste δ > 0 tale che
∞
X
|F(bn ) − F(an )| < ε
n=1
L’importanza delle funzioni assolutamente continue sta nel fatto che sono le funzioni per cui vale il
teorema fondamentale del calcolo integrale. Il principale risultato di questa sezione è il seguente
Teorema A.2.4.3. [!] Una funzione F è assolutamente continua su [a, b] se e solo se F è derivabile q.o. con
F ′ ∈ L1 ([a, b]) e vale Z x
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b].
a
Alla dimostrazione del Teorema A.2.4.3 premettiamo alcuni risultati preliminari. Anzitutto ricordiamo
la
Definizione A.2.4.4 (Funzione a variazione limitata). Si dice che
F : [a, b] −→ R
dove P[a,b] indica l’insieme delle partizioni σ dell’intervallo [a, b], ossia delle scelte di un numero finito di
punti σ = {t0 , t1 , . . . , tq } tali che
a = t0 < t1 < · · · < tq = b.
Una presentazione dei principali risultati sulle funzioni a variazione limitata si trova in [69]. Qui
ricordiamo solo che per ogni F ∈ BV([a, b]) si ha
b
_ c
_ b
_
(F) = (F) + (F), c ∈ ]a, b[, (A.2.8)
a a c
e inoltre F si scrive come differenza di funzioni monotone crescenti nel modo seguente: per x ∈ [a, b]
x
_
F(x) = u(x) − v(x), u(x) := (F), v(x) := u(x) − F(x). (A.2.9)
a
Lemma A.2.4.5. Se F ∈ AC([a, b]) allora F ∈ BV([a, b]) e nella decomposizione (A.2.9), le funzioni u, v sono
monotone crescenti e assolutamente continue.
Dimostrazione. Poiché F ∈ AC([a, b]), esiste δ > 0 tale che
N
X
|F(bn ) − F(an )| < 1
n=1
A.2. ASSOLUTA CONTINUITÀ 507
per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che
N
X
(bn − an ) < δ.
n=1
Questo implica che F ∈ BV su ogni sotto-intervallo di [a, b] di lunghezza minore o uguale a δ. Allora il fatto
che F ∈ BV([a, b]) segue dalla (A.2.8), suddividendo [a, b] in un numero finito di intervalli di lunghezza
minore o uguale a δ.
Proviamo ora che u ∈ AC([a, b]) (e quindi anche v ∈ AC([a, b])). Per ipotesi F ∈ AC([a, b]) e quindi dato
ε > 0 esiste δ > 0 come nella Definizione A.2.4.1. Siano [an , bn ] ⊆ [a, b], n = 1, . . . , N , intervalli disgiunti tali
che
XN
(bn − an ) < δ.
n=1
Si ha
N
X X bn
N _ N
X qn
X
(u(bn ) − u(an )) = (F) = sup F(tn,k ) − F(tn,k−1 ) < ε
n=1 n=1 an n=1 σ ∈P[an ,bn ] k=1
con γ ∈ L1 ([a, b]) allora chiaramente F è assolutamente continua per il Teorema della convergenza dominata
di Lebesgue. Inoltre F ′ = γ q.o. per la Proposizione A.2.3.3.
Viceversa, se F ∈ AC([a, b]), per il Lemma A.2.4.5 non è restrittivo assumere anche che F sia monotona
crescente. Allora possiamo considerare la misura µF definita come nel Teorema 2.4.33-i):
Vogliamo provare che µF è assolutamente continua rispetto alla misura di Lebesgue ossia µF ≪ Leb. Con-
sideriamo B ∈ B tale che Leb(B) = 0: per definizione di misura di Lebesgue4 , per ogni δ > 0 esiste una
successione (]an , bn ])n∈N di intervalli disgiunti tale che
∞
[
A ⊇ B, Leb(A) < δ, A := ]an , bn ]. (A.2.10)
n=1
Di conseguenza, per ogni ε > 0 esistono δ > 0 e A come in (A.2.10) per cui si ha
dove la prima disuguaglianza è per la monotonia di µF e la seconda viene dal fatto che F ∈ AC([a, b])
e Leb(A) < δ (si ricordi l’Esercizio A.2.4.2). Data l’arbitrarietà di ε, si conclude che µF (B) = 0 e quindi
µF ≪ Leb.
4 Ricordiamo che (cfr. (2.5.5))
Leb(B) = inf{Leb(A) | B ⊆ A ∈ U }
dove U indica la famiglia delle unioni numerabili di intervalli disgiunti della forma ]a, b].
508 APPENDICE A.
Allora si ha h i
E [|Xt |] ≤ 1 + E |Xt |1(|Xt |≤R) ≤ 1 + R.
A.3. UNIFORME INTEGRABILITÀ 509
h i
Analogamente, dato ε > 0 esiste R tale che E |Xt |1(|Xt |≥R) < 2ε per ogni t ∈ I: allora per ogni A ∈ F tale che
ε
P (A) < 2R , si ha
h i h i ε
E [|Xt |1A ] = E |Xt |1A∩(|Xt |≥R) + E |Xt |1A∩(|Xt |<R) < + RP (A) < ε.
2
Viceversa, per ipotesi, dato ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F tale che P (A) < δ.
Per la disuguaglianza di Markov, esiste R tale che
1
P (|Xt | ≥ R) ≤ sup E [|Xt |] < δ
R t∈I
e di conseguenza h i
E |Xt |1(|Xt |≥R) < ε
per ogni t ∈ I.
Corollario A.3.0.5. Se (Xt )t∈I e (Yt )t∈I sono uniformemente integrabili allora (Xt + Yt )t∈I è uniformemente
integrabile.
Dimostrazione. Utilizzando la caratterizzazione della Proposizione A.3.0.4, si tratta di una semplice verifi-
ca.
Diamo ora qualche esempio.
Proposizione A.3.0.6. Se esiste Y ∈ L1 (Ω, P ) tale che |Xt | ≤ Y per ogni t ∈ I allora (Xt )t∈I è uniformemente
integrabile.
Dimostrazione. Sia ε > 0: per l’assoluta continuità del valore atteso (Corollario 3.2.12), esiste δ > 0 tale che
E [|Y |1A ] < ε per ogni A ∈ F tale che P (A) < δ. Ora, per la disuguaglianza di Markov si ha
E [|Xt |] E [|Y |] E [|Y |]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Allora h i h i
E |Xt |1(|Xt ≥R|) ≤ E |Y |1(|Xt ≥R|) < ε.
Osservazione A.3.0.8. [!] La Proposizione A.3.0.7 si applica spesso nello studio della convergenza di par-
ticolari processi stocastici detti martingale. La situazione tipica è quella in cui si ha una successione (Xn )n∈N
che converge puntualmente; se Xn è della forma Xn = E [X | Fn ] per una certa X ∈ L1 (Ω, P ) e una famiglia
(Fn )n∈N di sotto-σ -algebre di F , allora per la Proposizione A.3.0.7, (Xn )n∈N è uniformemente integrabile.
Il Teorema di convergenza di Vitali garantisce che (Xn )n∈N converge anche in norma L1 (Ω, P ).
ϕ : R≥0 −→ R≥0
ϕ(r)
crescente, tale che lim r = +∞ e sup E [ϕ(|Xt |)] < ∞ allora (Xt )t∈I è uniformemente integrabile.
r→+∞ t∈I
ϕ(r) 1
Dimostrazione. Per ogni ε > 0 esiste rε > 0 tale che r > ε per ogni r ≥ rε . Allora, per R > rε si ha
" #
h i |Xt |
E |Xt |1(|Xt |≥R) = E ϕ(|Xt |)1(|Xt |≥R) ≤ ε sup E [ϕ(|Xt |)]
ϕ(|Xt |) t∈I
Osservazione A.3.0.10. Applichiamo la Proposizione A.3.0.9 con ϕ(r) = r p per un p > 1: si ha che se (Xt )t∈I
è limitata in norma Lp (Ω, P ), ossia sup E [|Xt |p ] < ∞, allora è uniformemente integrabile.
t∈I
Appendice B
511
512 APPENDICE B. TEMI D’ESAME RISOLTI
1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:
x2 − 2x + C = 0
abbia, con probabilità uno, due soluzioni reali. Per tale valore di λ si determini la densità di una delle
soluzioni dell’equazione.
4. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:
1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:
i) la probabilità di estrarre una pallina bianca;
ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.
Soluzione.
i) la probabilità di estrarre una pallina bianca è 12 perché ci sono 3 palline bianche in totale su 6 con
uguale probabilità di essere estratte; oppure indicando con b l’evento di estrarre una pallina bianca e
con A, B gli eventi relativi alle scelte delle urne, si ha
1 1 2 1 1
P (b) = P (b | A)P (A) + P (b | B)P (B) = · + · = .
3 2 3 2 2
i) per la formula di Bayes si ha
P (b | A)P (A) 1
P (A | b) = = .
P (b) 3
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:
i) la durata media (in giorni) della lampadina;
ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.
Soluzione.
i)-ii) Sia T la v.a. aleatoria che indica il giorno in cui la lampadina si fulmina. Allora T ∼ Geomp (cfr.
Esempio 3.1.25). Quindi la durata media (in giorni) della lampadina è
1
E [T ] = = 1000.
p
Inoltre la probabilità che la lampadina duri almeno un anno è (cfr. Teorema 3.1.26)
iii) Indichiamo con X il numero di lampadine, fra le 10000 montate, che si fulminano in un giorno. Allora
X ∼ Bin10000,p (cfr. Esempio 3.1.21). Dobbiamo determinare il minimo N tale che
P (X ≤ N ) ≥ 99%.
Ora si ha (si potrebbe anche usare l’approssimazione con la Poisson, cfr. Esempio 3.1.24):
N !
X 10000 k
P (X ≤ N ) = p (1 − p)n−k .
k
k=0
514 APPENDICE B. TEMI D’ESAME RISOLTI
quindi N = 18.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione
x2 − 2x + C = 0
abbia, con probabilità uno, soluzioni reali. Per tale valore di λ si determini la densità di una delle
soluzioni dell’equazione.
∆ = 4 − 4C ≥ 0
ossia C ≤ 1. Dunque se λ ≤ 1 l’equazione ha soluzioni reali con probabilità uno, mentre se λ > 1 allora
la probabilità che l’equazione non abbia soluzioni reali è pari a Unifλ (]1, λ]) = λ−1
λ > 0. Dunque il valore
massimo cercato è λ = 1.
√
Consideriamo la soluzione X = 1 + 1 − C e calcoliamone la funzione di ripartizione. Anzitutto se C ∼
Unif[0,1] allora X assume valori in [1, 2]: dunque per x ∈ [1, 2] si ha
√
P (X ≤ x) = P 1−C ≤ x−1
= P C ≥ 1 − (x − 1)2
Z1
= dy = (x − 1)2 .
1−(x−1)2
Soluzione.
i) Essendo v.a. indipendenti, la funzione caratteristica congiunta è il prodotto delle marginali:
h i h i h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y ) = E eiη1 X E eiη2 Y = cos(η1 ) cos(η2 ),
poiché
h i 1
ϕY (η) = ϕX (η) = E eiηX = eiη + e−iη = cos η.
2
ii) ancora per l’indipendenza, la funzione caratteristica della somma è
h i h i h i
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = (cos η)2 .
515
iii) si ha
h i "
ϕXY (η) = E eiηXY = eiηxy (µ ⊗ µ) (dx, dy) =
R2
1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:
i) P (A ∪ B);
ii) P (A ∪ B ∪ C).
2. Verificare che la funzione
1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:
i) P (A ∪ B);
ii) P (A ∪ B ∪ C).
Soluzione.
i) Si ha
1 3
P (A ∪ B) = 1 − P (Ac ∩ Bc ) = 1 − P (Ac )P (Bc ) = 1 − = .
4 4
Oppure in alternativa, ricordando che il simbolo ⊎ indica l’unione disgiunta, si ha
P (A ∪ B) = P (A ⊎ (B ∩ Ac )) = P (A) + P (B ∩ Ac ) =
(per l’indipendenza di B e Ac )
1 1 1 3
= + · = .
2 2 2 4
ii) Analogamente si ha
1 7
P (A ∪ B ∪ C) = 1 − P (Ac ∩ Bc ∩ C c ) = 1 − P (Ac )P (Bc )P (C c ) = 1 − = ,
8 8
oppure
P (A ∪ B ∪ C) = P (A ∪ B) + P (C ∩ (A ∪ B)c ) =
3
= + P (C ∩ Ac ∩ Bc ) =
4
(per l’ipotesi di indipendenza)
3 3 1 7
= + P (C)P (Ac )P (Bc ) = + = .
4 4 8 8
i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
518 APPENDICE B. TEMI D’ESAME RISOLTI
i) La densità di X è Z
1
γX (x) := γ(x, y)dy = x + 1[0,1] (x), x ∈ R.
R 2
In modo analogo si calcola γY e si verifica che X, Y non sono indipendenti poiché γ , γX γY ;
ii) si ha
Z 1Z 1
1
E [XY ] = xy(x + y)dxdy = ;
0 0 3
3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:
i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.
Soluzione.
i) Una permutazione con i come punto fisso equivale ad una permutazione dei restanti (n − 1) elementi
(n−1)!
quindi ci sono (n − 1)! tali permutazioni (indipendentemente da i), dunque P (Ai ) = n! = n1 .
ii) Procedendo come nel punto precedente, per i , j si ha
(n − 2)! 1 1
P (Ai ∩ Aj ) = = , = P (Ai )P (Aj )
n! n(n − 1) n2
Soluzione.
i) Si ha
Y (t) = y0 etA
e quindi Y (t) ha distribuzione log-normale. Più precisamente, per ogni y > 0 vale
! !
1 y 1 y
P (Y (t) ≤ y) = P A ≤ log = FA log
t y0 t y0
dove FA è la CDF di A. Derivando si ricava la densità di Y (t) che è nulla per y ≤ 0 e vale
!
d 1 1 y
γ(y) = P (Y (t) ≤ y) = FA′ log
dy ty t y0
2
1 ( 1t log yy0 −µ)
−
= √ e 2σ 2 ,
ty 2πσ 2
per y > 0.
ii) Ricordando la (3.5.7) si ha
h i σ2
E eA = ϕA (−i) = eµ+ 2 .
Poiché tA ∼ Ntµ,t 2 σ 2 si ha
h i t2 σ 2
E [Y (t)] = E y0 etA = y0 etµ+ 2 .
i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.
2. Dato γ ∈ R, consideriamo la funzione
i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che
∞
X 1
xn = , |x| < 1;
1−x
n=0
ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].
3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:
i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?
521
Soluzione.
i) È il contenuto della Proposizione 2.3.25, in base alla quale A, B ∈ F sono indipendenti se e solo se lo
sono Ac , B oppure A, Bc oppure Ac , Bc ;
ii) in base al punto i), per dimostrare che A e B ∪ C sono indipendenti, è sufficiente verificare che A
e (B ∪ C)c = Bc ∩ C c siano indipendenti oppure che A e B ∩ C siano indipendenti: per l’ipotesi di
indipendenza di A, B, C si ha
da cui la tesi.
iii) in generale A ∪ C e B ∪ C non sono indipendenti; per far vedere ciò, usiamo ancora la Proposizione
2.3.25 e verifichiamo che A ∩ C e B ∩ C non sono, in generale, indipendenti: infatti si ha
ma
i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che
∞
X 1
xn = , |x| < 1;
1−x
n=0
ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].
Soluzione.
i) I valori µγ (n) devono essere non-negativi da cui 0 < γ < 1. Per tali valori di γ si ha che µγ è una
funzione di distribuzione poiché
∞
X ∞
X
µγ (n) = (1 − γ) γ n = 1.
n=0 n=0
522 APPENDICE B. TEMI D’ESAME RISOLTI
ii) X è divisibile per m se esiste k ∈ N0 tale che X = km. Poiché P (X = km) = (1 − γ)γ km , allora la
probabilità cercata è
∞ ∞
X X 1−γ
P (X = km) = (1 − γ) γ km = .
1 − γm
k=0 k=0
P (Y = n) = P (X = n − 1) = (1 − γ)γ n−1 , n ∈ N.
Quindi Y ∼ Geom1−γ .
iv) Per il punto iii) si ha
1 γ
E[X] = E[Y ] − 1 = −1 = .
1−γ 1−γ
i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?
Soluzione.
i) Sappiamo (cfr. Esempio 3.6.7) che se X, Y ∼ Expλ ≡ Gamma1,λ sono v.a. indipendenti, allora
X + Y ∼ Gamma2,λ
con densità
γX+Y (z) = λ2 ze−λz 1R>0 (z).
Calcoliamo ora la densità di X − Y come convoluzione delle densità di X e −Y . Per far ciò, anzitutto
calcoliamo la densità di −Y : si ha P (−Y ≤ y) = 1 se y ≥ 0 e, per y < 0,
Z∞ Zy
P (−Y ≤ y) = P (Y ≥ −y) = λe−λx dx = λeλz dt
−y −∞
da cui
γ−Y (y) = λeλy 1R<0 (y).
Ora
Z
λ −λ|w|
γX−Y (w) = (γX ∗ γ−Y ) (w) = γX (x)γ−Y (w − x)dx = e , w ∈ R.
R 2
λ
ii) Ricordando che ϕX (η) = λ−iη , per l’indipendenza di X e Y si ha
h i h i h i λ2
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = ,
(λ − iη)2
e analogamente
h i λ2 λ2
ϕX−Y (η) = E eiη(X−Y ) = = 2 .
(λ − iη)(λ + iη) λ + η 2
523
(per l’indipendenza di X e Y )
h i h i λ λ
= E eiX(η1 +η2 ) E eiY (η1 −η2 ) = .
λ − i(η1 + η2 ) λ − i(η1 − η2 )
NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.
i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
525
NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.
Soluzione.
3
i) La probabilità di estrarre una pallina bianca dalla prima urna (evento A) è pari a 5 e ugualmente per
la seconda urna (evento B). Inoltre A e B sono indipendenti. Allora
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
21
= P (A) + P (B) − P (A)P (B) = = 0.84.
25
ii) Numeriamo le due palline bianche (pallina 1 e pallina 2) e indichiamo con Ai , i = 1, 2, l’evento secondo
6
cui fra le 6 palline estratte c’è la pallina i. Allora si ha P (A1 ) = P (A2 ) = 10 , P (A1 | A2 ) = 59 e
2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.
i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .
Soluzione.
526 APPENDICE B. TEMI D’ESAME RISOLTI
i) Si ha
P (X + Y ≤ z) = P ((X + Y ≤ z) ∩ (Y = 0)) + P ((X + Y ≤ z) ∩ (Y = 1))
(per l’indipendenza di X e Y )
= P (X ≤ z)P (Y = 0) + P (X ≤ z − 1)P (Y = 1)
= (1 − p)P (X ≤ z) + pP (X ≤ z − 1),
e inoltre ricordiamo che P (X ≤ z) = 1 − e−λz . Allora si ha
0 se z < 0,
−λz
FX+Y (z) := P (X + Y ≤ z) = (1 − p) 1 − e se 0 ≤ z ≤ 1,
(1 − p) 1 − e−λz + p 1 − e−λ(z−1)
se z > 1.
Analogamente, si ha
FXY (z) := P (XY ≤ z) = P ((XY ≤ z) ∩ (Y = 0)) + P ((XY ≤ z) ∩ (Y = 1))
(per l’indipendenza di X e Y )
= P (0 ≤ z)P (Y = 0) + P (X ≤ z)P (Y = 1)
0 se z < 0,
=
−λz
(1 − p) + p 1 − e
se z ≥ 0.
La funzione FXY è discontinua in 0 e quindi la v.a. XY non è assolutamente continua: anzi si ha (cfr.
(2.4.10))
P (XY = 0) = FXY (0) − FXY (0−) = 1 − p.
iii) Per l’indipendenza (cfr. Proposizione 3.5.11) si ha
λ
ϕX+Y (η) = ϕX (η)ϕY (η) = (1 + p(eiη − 1)).
λ − iη
Inoltre
h i "
iηXY
ϕXY (η) = E e = eiηxy Expλ ⊗ Bep (dx, dy) =
R2
(per il Teorema di Fubini)
Z Z !
= eiηxy Bep (dy) Expλ (dx)
ZR R
= 1 − p + peiηx Expλ (dx)
R
λ
= 1−p+p .
λ − iη
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
Soluzione. Si veda l’Esempio 3.2.36.
527
1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:
i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:
i) la distribuzione di Z;
ii) se X e Z sono indipendenti.
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.
F(x) = a arctan x + b
sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .
528 APPENDICE B. TEMI D’ESAME RISOLTI
1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:
i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).
Soluzione.
i) Si ha
3 3
P ((X = 1) ∩ (Y = 0)) = 7
= .
35
3
ii) Poiché
5
3 2
P (Y = 0) = 7
=
7
3
si ha
P ((X = 1) ∩ (Y = 0)) 3
P (X = 1 | Y = 0) = = .
P (Y = 0) 10
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:
i) la distribuzione di Z;
ii) se X e Z sono indipendenti.
Soluzione.
i) Z può assumere solo i valori 0, 1 e vale
da cui
Z ∼ (1 − p)2 δ1 + (1 − (1 − p)2 )δ0 .
ii) X e Z non sono indipendenti poiché, per esempio, si ha
P ((X = 0) ∩ (Z = 1)) = P (Y = 0) = 1 − p
e
P (X = 0)P (Z = 1) = (1 − p)3 .
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.
i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.
529
ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?
Soluzione.
i) Indichiamo con E l’evento “l’analisi economica dell’Italia ha esito positivo”. Per la Formula della
probabilità totale si ha
P (E c | C) = 1 − P (E | C) = 70%,
P (E c | C)P (C)
P (C | E c ) = ≈ 77%.
P (E c )
F(x) = a arctan x + b
sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .
1 1
Soluzione. Affinché siano verificate le proprietà di una CDF, deve essere a = π eb= 2. La densità si
determina semplicemente derivando F:
1
γ(x) = F ′ (x) = .
π(1 + x2 )
|x|
La v.a. X non è sommabile poiché la funzione π(1+x2 )
< L1 (R).
530 APPENDICE B. TEMI D’ESAME RISOLTI
1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie a caso un’urna e si estrae una pallina: osservato che
tale pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?
2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le
une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.
D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.
1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie un’urna e si estrae una pallina: osservato che tale
pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?
P (A | B)P (B) 1 · 13 2
P (B | A) = = 1 = .
P (A) 2
3
Soluzione.
2
i) Poiché la distribuzione della posizione è uniforme, ogni stella ha probabilità p = 3 di essere in A
indipendentemente dalle altre. Allora
N 2k
!
P (NA = k) = BinN ,p (k) = .
k 3N
D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.
Soluzione.
532 APPENDICE B. TEMI D’ESAME RISOLTI
i) La densità congiunta è
1
γ(X,Y ) (x, y) = 1 (x, y).
π D
Allora
2√
Z
γX (x) = γ(X,Y ) (x, y)dy = 1 − x2 1[−1,1] (x)
R π
e in modo analogo si calcola γY e si verifica facilmente che X, Y non sono indipendenti.
ii) si ha
Z1
1
P X>2 = γX (x)dx,
1
2
P ((X > 1 ) ∩ (Y > 0)) 2
1 2
P X> 2 |Y >0 = = Leb({(x, y) ∈ D | x > 12 , y > 0}).
P (Y > 0) π
533
1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.
2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.
3. Sia (X, Y ) ∼ N0,C con !
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:
i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;
ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .
4. Sia X una v.a. reale con densità γX .
i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .
5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che
E [X | B] = E [X] .
534 APPENDICE B. TEMI D’ESAME RISOLTI
1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.
Soluzione.
i) Indichiamo con D l’evento di cui dobbiamo calcolare la probabilità. La probabilità che una scatola
prodotta da A abbia esattamente un prodotto difettoso è pA = Bin10,0.5% ({1}) ≈ 4.78%. Analogamen-
te pB = Bin10,0.1% ({1}) ≈ 0.99%. Allora, con notazioni il cui significato dovrebbe essere evidente, la
probabilità cercata è
Soluzione. Indichiamo con X l’evento “un’email è spam” e con S l’evento “un’email è sospetta”. Per ipotesi
si ha
P (X) = 60%, P (S | X) = 90%, P (S | X c ) = 1%.
Allora per la formula di Bayes otteniamo
P (S | X)P (X)
P (X | S) = =
P (S)
P (S | X)P (X)
= ≈ 99.26%.
P (S | X)P (X) + P (S | X c )P (X c )
535
Soluzione.
i) Si ha ! ! !
X +Y X 1 1
=α , α= ,
X −Y Y 1 −1
e quindi (X + Y , X − Y ) ∼ N0,αCα ∗ . Inoltre
!
2(1 + ϱ) 0
αCα ∗ =
0 2(1 − ϱ)
i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .
Soluzione.
i) Chiaramente γ ≥ 0 e vale
Z Z Z ! Z
1
γ(x)dx = γX (x)dx + γX (−x)dx = γX (x)dx = 1.
R 2 R R R
ii) Si ha
h i
ϕY (η) = E eiηY
Z
γ (x) + γX (−x)
= eiηx X dx
R 2
1
= (ϕX (η) + ϕX (−η)) = Re (ϕX (η)) .
2
536 APPENDICE B. TEMI D’ESAME RISOLTI
5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che
E [X | B] = E [X] .
Soluzione. Si ha
Z
1 1
E [X | B] = XdP = E [X1B ] =
P (B) B P (B)
(per l’indipendenza di X e B)
1
= E [X] E [1B ] = E [X] .
P (B)
537
1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:
3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.
4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
1 0 0
C = 0 1 −1 .
0 −1 1
1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:
i) la funzione di distribuzione congiunta di X e Y ;
ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?
Soluzione.
1
i) Per h, k ∈ I10 si ha P (X = h) = 10 ossia X ∼ Unif10 e
3
39 se h = k,
P (Y = k | X = h) = 4
39 se h , k.
ii) Si ha
10
X 2 X 2
P (X < Y ) = µ̄(X,Y ) (h, k) = (k − 1) = · 45.
195 195
1≤h<k≤10 k=2
ossia anche Y ∼ Unif10 . Ne viene anche che X, Y non sono indipendenti poiché la funzione di distribu-
zione congiunta non è il prodotto delle marginali (cfr. Teorema 3.3.23).
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.
k!
Soluzione. Basta considerare una qualsiasi funzione misurabile tale che f (k) = λk
per k ∈ N: per esempio si
può prendere f costante a tratti.
3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.
Soluzione.
i) Poiché ! !
1 0 0 0 1 0
Y= X, Z= X
0 1 0 0 0 1
si ha Y ∼ N0,CY e Z ∼ N0,CZ con
! !
1 0 1 −1
CY = , CZ = .
0 1 −1 1
e
P (Y ∈ R × H) = P (X2 ∈ H) = P (Z ∈ H × R).
iii) Si ha
1 2 2 1 2 2
ϕY (η1 , η2 ) = e− 2 (η1 +η1 ) , ϕZ (η1 , η2 ) = e− 2 (η1 +η1 −2η1 η2 ) .
Soluzione.
i) Posto ηc = −ic si ha
h i c2
E ecX = ϕX (−ic) = ecµ+ 2 .
x2
dove Γ (x) = √1 e− 2 è la densità normale standard. Z ∈ AC poiché FZ ∈ C ∞ (R) e vale
2π
n
1X
FZ′ (z) = kΓ (kz − µ).
n
k=1
541
i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità
2xy se 0 < x < 1, 0 < y <
√1 ,
f (x, y) = x
0
altrimenti.
Z = X cos α + Y sin α.
Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.
542 APPENDICE B. TEMI D’ESAME RISOLTI
Soluzione.
9
i) 39 ;
4
ii) P (N = 1) = 40 e per 1 < n ≤ 36
4 D36,n−1
P (N = n) =
D
40,n
dove D36,n−1 rappresenta le disposizioni delle prime n − 1 estrazioni di carte diverse dagli assi e D40,n
tutte le possibili disposizioni delle prime n estrazioni.
Soluzione.
i) Per ogni α > 0 la funzione f (x) = xα è continua, monotona crescente su [0, 1], f (0) = 0 e f (1) = 1. Ne
segue che le proprietà di monotonia, continuità a destra e i limiti a ±∞ si conservano componendo f
con una CDF F.
α
ii) La funzione F α (t) = 1 − e−λt 1R≥0 (t) è assolutamente continua e derivando si ottiene la densità
ossia G è la CDF della Delta di Dirac centrata in n. Se F è la CDF della normale standard si ha
0 < F(x) < 1 per ogni x ∈ R e quindi, per α → +∞, F α tende puntualmente alla funzione identicamente
nulla che non è una CDF.
3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?
i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
543
sin η
Soluzione. i) non implica ii): per esempio, X ∼ Unif[−1,1] è assolutamente continua ma ϕX (η) = η non è
sommabile come si può verificare direttamente oppure col Teorema di inversione. Invece ii) implica i) per il
Teorema di inversione.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità
2xy se 0 < x < 1, 0 < y <
√1 ,
f (x, y) = x
0
altrimenti.
i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.
ii) Le variabili aleatorie X e Y hanno media e varianza finite?
Soluzione.
i) Si ha
R √1
0 x 2xydy = 1 se 0 < x < 1,
fX (x) =
0 altrimenti,
1
R 2
0y 2xydx = 13 se y > 1,
y
fY (y) =
R 1
2xydx = y se 0 < y < 1,
0
0 se y < 0.
X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
ii) X ∼ Unif[0,1] e quindi ha media e varianza finite. La densità di Y è limitata sui compatti ed è uguale a
y −3 per y > 1. Ne viene che Y ha media finita e varianza infinita.
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga
Z = X cos α + Y sin α.
Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.
Soluzione.
i) Determiniamo la distribuzione di Z calcolandone la CHF:
h i
ϕZ (η) = E eiη(X cos α+Y sin α) =
ii)
h i
cov(X, Z) = E [XZ] = E X 2 cos α + XY sin α =
iii) Si ha
h i h i
ϕ(X,Z) (1, 1) = E ei(X+Z) = E eiX(1+cos α)+iY sin α
1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .
P (N1 ≥ 15).
3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.
4. Siano X e Y v.a. con densità congiunta
1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [
i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .
546 APPENDICE B. TEMI D’ESAME RISOLTI
1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .
Soluzione.
i) Per la formula della probabilità totale si ha
90 90
X X 90 − k 1 1
P (A) = P (A | p1 = k)P (p1 = k) = · = .
89 90 2
k=1 k=1
Soluzione.
i) Ogni cliente ha la probabilità di 15 di andare alla prima cassa, indipendentemente dagli altri, e quindi
N1 ∼ Bin100, 1 . Allora occorre determinare il massimo valore di n tale che
5
100
100 1 k 4 100−k
X !
90% ≤ P (N1 ≥ n) = .
k 5 5
k=n
Si trova che P (N1 ≥ 16) ≈ 87.1% e P (N1 ≥ 15) ≈ 91.9%, quindi n̄ = 15.
ii) Si ha
∞
X
P (N1 ≥ 15) = P (N1 ≥ 15 | N = h)P (N = h)
h=0
h
∞ X
h 1 k 4 h−k e−100 100h
X !
= ≈ 89.5%.
k 5 5 h!
h=15 k=15
547
3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.
Si ha Z 1
1
E [f (X)] = f (x)dx = 0
2 −1
e
i Z 1
h 1
var(f (X)) = E f (X)2 = dx = +∞.
−1 |x|
Soluzione.
i) Si ha
Z Z 1
λ 1
γX (x) = γ(X,Y ) (x, y)dy = dy = − log x, x ∈ ]0, 1[,
R x y
λ
Z Z λy
1 i h
γY (y) = γ(X,Y ) (x, y)dx = dx = λ, y ∈ 0, λ1 .
R 0 y
ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:
i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .
Soluzione.
i) La CDF di X 2 è data da
√
√
Z z √
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = λ1 e−λ1 t dt = 1 − e−λ1 z
0
λ1 λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = .
(λ1 − iη1 )(λ2 − iη2 )
iii) Analogamente
λ1 λ2
ϕX+Y (η) = ϕX (η)ϕY (η) = .
(λ1 − iη)(λ2 − iη)
549
Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.
1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?
i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.
3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2
Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.
1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?
Soluzione.
i) X2 ha distribuzione uniforme su I10 = {n ∈ N | n ≤ 10}, ossia X2 ∼ UnifI10 : per verificarlo in modo
rigoroso si può procedere come nell’Esempio 3.3.24 oppure con la Formula della probabilità totale:
Poi B = B0 ⊎B1 dove B0 è l’evento “nessuna carta estratta ha valore minore o uguale a 4” e B1 è l’evento
“esattamente una carta estratta ha valore minore o uguale a 4”. Si ha P (B) = P (B0 ) + P (B1 ) e
|C24,3 | |D24,3 |
P (B0 ) = =
|C40,3 | |D40,3 |
16 · |C24,2 | 3 · 16 · |D24,2 |
P (B1 ) = = .
|C40,3 | |D40,3 |
Il fattore “3” che appare nell’ultima espressione è dovuto al fatto che, se usiamo le disposizioni, allora
dobbiamo tenere conto dell’ordine e pertanto dobbiamo anche fare la scelta della posizione (fra le tre
possibili) della carta che ha valore minore o uguale a 4.
551
iii) A ⊆ B e quindi A∩B = A. Ma P (A∩B) = P (A) , P (A)P (B) e quindi non si tratta di eventi indipendenti.
P (A)
Inoltre si ha P (A | B) = P (B) .
iv) X2 e N non sono indipendenti perché, per esempio, (X2 = 4) ∩ (N = 0) = ∅ ma
P (X2 = 4)P (N = 0) , 0.
i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.
Soluzione.
i) Se α = 0 e β = 1 + 1e allora F è la CDF della distribuzione Delta di Dirac centrata in 0. Gli altri valori
per cui F è una CDF sono α > 0 e β = 1;
ii) se α > 0 e β = 1 allora
1
P (X ≤ 0) = F(0) = 0, P (X ≥ 1) = 1 − F(1) = .
e
Se α = 0 e β = 1 + 1e allora P (X ≤ 0) = 1 e P (X ≥ 1) = 0.
iii) X ∈ AC se α > 0 e β = 1 e in tal caso una densità si determina derivando F:
α
αxα−1 e−x se x > 0,
′
γ(x) = F (x) =
0
se x < 0.
iv) Se α = 2 si ha Z +∞ √
h
−1
i 2
E X =2 e−x dx = π.
0
Determiniamo la CDF di Z: anzitutto P (Z ≤ 1) = 0 e per z > 1 si ha
√ √ √
P (X 2 + 1 ≤ z) = P (− z − 1 ≤ X ≤ z − 1) = P (X ≤ z − 1) = 1 − e1−z .
Allora la densità di Z è
γZ (z) = e1−z 1[1,+∞[ (z).
3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2
Soluzione.
i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X
Z =α , α = 1 −1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto
N0,1 ⊗ N0,1 ⊗ Be 1
2
Quindi W ∼ N0,1 .
ii) Si ha
(per l’indipendenza di X, Y , T )
h i h i
= E [T ] E X 2 − E [1 − T ] E Y 2 = 0.
(per l’indipendenza di X, Y , T )
(poiché X, Y ∼ N0,1 )
η12
e− 2
!
(η1 +η2 )2 (y1 −η2 )2
− −
= e 2 +e 2 ,
2
che non è la CHF di una normale bidimensionale. Questo prova anche che
1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:
i) la probabilità che, lanciando i dadi una volta, vinca A;
ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).
2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.
i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.
3. Sia X una v.a. con CDF
0 x < 0,
F(x) = λx 0 ≤ x < 1,
1
x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .
4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .
555
1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:
Soluzione.
7
1 4 3 2 1 10
X
P (NA > NB ) = P (NA > k | NB = k)P (NB = k) = + + + = =: p.
6 6 6 6 6 36
k=2
ii) La v.a. T che indica il primo istante in cui A vince ha distribuzione geometrica di parametro p: quindi
2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.
i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.
Soluzione.
P (M) = P (M | V )P (V ) + P (M | V c )(1 − P (V ))
da cui
P (M) − P (M | V c )
P (V ) = ≈ 89%
P (M | V ) − P (M | V c )
556 APPENDICE B. TEMI D’ESAME RISOLTI
Soluzione.
i) No, P (X = 1) = F(1) − F(1−) = 1 − λ > 0. Riconosciamo che X ∼ λUnif[0,1] + (1 − λ)δ1 .
ii) Calcoliamo la CDF di Z. Per z ∈ [0, 1] si ha
P (Z ≤ z) = P ((Z ≤ z) ∩ (X < 1)) + P ((Z ≤ z) ∩ (X ≥ 1))
= P ((X ≤ z) ∩ (X < 1)) + P ((Y ≤ z) ∩ (X ≥ 1))
(per l’indipendenza)
= λz + P (Y ≤ z)P (X ≥ 1) = λz + z(1 − λ) = z.
Di conseguenza Z ∼ Unif[0,1] .
4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .
Soluzione.
i) La densità di (X, Y ) è
1
γ(X,Y ) (x, y) = 1 (x, y), T = {x, y ∈ R | x, y ≥ 0, x + y ≤ 2}.
2 T
Si ha Z Z 2−x
1 2−x
γX (x) = γ(X,Y ) (x, y)dy = 1 (x)dy = 1 (x).
R 0 2 [0,2] 2 [0,2]
Il calcolo di γY è analogo.
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha Z Z
1 z
γZ (z) = γ(X,Y ) (x, z − x)dx = 1T (x, z − x)dx = 1[0,2] (z).
R 2 R 2
Quindi Z2 2
z 4
E [Z] = dz = .
0 2 3
557
1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:
i) A1 = le due palline della prima estrazione sono bianche;
ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.
2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.
i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.
3. Sia (X, Y , Z) ∼ N0,C con
1 1 0
C = 1 2 −1 .
0 −1 2
Determinare:
i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?
4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .
1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:
Soluzione.
|C3,2 | (3) 1
i) P (A1 ) = = 2 = 35 .
|C15,2 | (152)
|C3,2 |+|C6,2 |+|C6,2 | (32)+2(62) 11
ii) P (A2 ) = = 15 = 35 .
|C15,2 | (2)
iii) se B = “le due palline della seconda estrazione sono bianche” allora
P (A3 ) = P (B | A1 )P (A1 ) = 0.
iv) se Ci = “le due palline della i-esima estrazione sono rosse” allora
C4,2 C6,2 4 6
2 2 1
P (A4 ) = P (C1 ∩ C2 ) = P (C2 | C1 )P (C1 ) = =
13 15
= .
C C
13,2 15,2 91
2 2
2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.
i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.
Soluzione.
Dunque Xn ∼ Bep .
560 APPENDICE B. TEMI D’ESAME RISOLTI
Determinare:
i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?
e quindi:
!
X
i) essendo X + Y = 1 1 , si ha X + Y ∼ N0,5 poiché
Y
!
1
A= 1 1 D = 5.
1
ii)
1
ϕ(X,Y ) (η) = e− 2 ⟨Dη,η⟩ , η ∈ R2 .
Soluzione.
i) Si ha
1 1
h i
E [Xn ] = 0 · 1 − + n · = 1, var(Xn ) = E (Xn − 1)2 = n − 1.
n n
Inoltre
h i 1 1
ϕXn (η) = E eiηXn = 1 − + eiηn .
n n
561
ii) Si ha
η √η
−i √ i X
ϕZn (η) = e n−1 E e n−1 n
η
!
−i √ η
=e n−1 ϕXn √
n−1
η η
1 1 in √n−1
−i √
=e n−1 1− + e −−−−−−→ 1.
n n n→∞
Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi.
iii) Si ha
h i 1
∥Zn ∥22 = E Zn2 = var(Xn ) = 1
n−1
e quindi non si ha convergenza in L2 (Ω, P ).
iv) Si ha convergenza in probabilità per il punto vi) del Teorema 4.1.9.
5. Verificare che la funzione
4y
se x > 0 e 0 < y < e−x ,
γ(x, y) =
0
altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
i) Determinare le densità marginali γX e γY .
ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).
1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora α
Zα = X 2 + Y 2 , α > 0.
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:
i) la CDF della v.a. nX1 per n ∈ N;
ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.
5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:
i) la densità congiunta γ(S,T ) e marginale γS ;
ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).
563
1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.
Soluzione.
i) Sia A =“è estratta la moneta d’argento”. Allora per k = 0, 1, . . . , n si ha
!
n k
P (X = k | A) = Binn,p (k) = p (1 − p)n−k .
k
iii) Anzitutto
1 1
n
P (X = n) = + p .
2 2n
Per il Teorema di Bayes, si ha
P (X = n | A)P (A) pn
P (A | X = n) = = 1
.
P (X = n) 2n + pn
iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.1) si ha
1 n
E [X] = + np .
2 2
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.
Soluzione.
i) Imponendo Z
1= γ(x)dx = 2b
R
si ha b = 21 . Inoltre γ ≥ 0 se e solo se ax ≥ − 21 per ogni x ∈ [−1, 1] da cui si ricava la condizione
− 12 ≤ a ≤ 12 .
564 APPENDICE B. TEMI D’ESAME RISOLTI
1.0
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
-1.0 -0.5 0.5 1.0 1.5 2.0 -1.0 -0.5 0.5 1.0 1.5 2.0
Figura B.1: A sinistra: grafico di F per α > 1. A destra: grafico di F per 0 < α < 1.
Soluzione.
i) γ(X,Y ) = π1 1C e E [X] = 0.
ii) Se X e X − Y fossero indipendenti allora si avrebbe
h i 1
0 = E [X] E [X − Y ] = E [X(X − Y )] = E X 2 − E [XY ] = ,
4
dove i valori attesi si determinano con un semplice calcolo come nell’Esempio 3.3.34.
iii) Si ha
0 se t ≤ 0,
F(t) := P (Zα ≤ t) =
1 se t ≥ 1
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:
Soluzione.
i) Si ha
0 se x ≤ 0,
x
x
FnX1 (x) = P X1 ≤ = λn se 0 < x < λn,
n
1 se x ≥ λn.
iii) Si ha
0
se x ≤ 0,
lim FYn (x) = x
n→∞ 1 − e − λ
se x > 0,
d
e quindi per il Teorema 4.3.3 Yn −−−−→ Y ∼ Exp 1 per n → ∞.
λ
5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:
Soluzione.
566 APPENDICE B. TEMI D’ESAME RISOLTI
i) Per ipotesi γT (t) = te−t 1R≥0 (t) e γS|T (s, t) = 1t 1[t,2t] (s). Dalla formula (5.3.9) per la densità condizio-
nata ricaviamo
γ(S,T ) (s, t) = γS|T (s, t)γT (t) = e−t 1[t,2t]×R≥0 (s, t) = e−t 1R≥0 ×[s/2,s] (s, t)
e Z Z s s
γS (s) = γ(S,T ) (s, t)dt = e−t dt 1R≥0 (s) = e− 2 − e−s 1R≥0 (s).
R s/2
ii) Si ha
2
1 2
Z
P (S < 2) = γS (s)ds = 1 − ≈ 40%,
0 e
Z 2 Z +∞
1 2(e − 2)
E [T | S < 2] = tγ(S,T ) (s, t)dtds = ≈ 0.84.
P (S < 2) 0 0 e−1
iii) Anzitutto
γ(S,T ) (s, t) e−t
γT |S (t, s) = 1(γS >0) (s) = − 2s
1R≥0 ×[s/2,s] (s, t).
γS (s) e − e−s
Allora si ha Z +∞
1 S
E [T | S] = t γT |S (t, S)dt = − S/2 +S +2 .
0 2 e −1
567
1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).
2. Sia (X, Y , Z) ∼ Nµ,C con
0 1 0 −1
µ = 1 , C = 0 2 2 .
2 −1 2 3
x2 + 2Bx + 1 = 0
abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n
1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).
Soluzione. Lo spazio campione di tutte le scelte possibili degli studenti è Ω = DR3,9 , da cui |Ω| = 39 . Si
ricordi che Ω è lo spazio delle funzioni da I9 a I3 e ogni funzione corrisponde ad una scelta possibile dei nove
studenti.
i) Si determinano in C modi possibili i tre studenti che scelgono il primo professore e di conseguenza
9,3
9 6
C9,3 DR2,6 2
P (A) = = 3 9 ≈ 27%.
DR3,9 3
iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 31%.
P (A)
iv) Si procede in maniera analoga al punto ii) ma con la differenza che occorre aggiungere un fattore 3!
per il fatto che non viene specificato l’ordine di scelta dei professori. In definitiva
C9,2 C7,3 9 6
P (C) = 3! = 6 3 3 ≈ 38%.
DR
3,9 39
Soluzione.
! !
0 1 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
1 0 2
1 2 2
ϕ(X,Y ) (η1 , η2 ) = eiη2 − 2 (η1 +2η2 ) .
x2 + 2Bx + 1 = 0
abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?
Soluzione. Si ha ∆ = 4B2 − 4. Le soluzioni sono reali se e solo se ∆ ≥ 0 ossia |B| ≥ 1: ora si ha semplicemente
P (|B| ≥ 1) = 21 . Inoltre le soluzioni sono coincidenti se e solo se |B| = 1, quindi con probabilità nulla.
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n
Soluzione.
i) Integrando la densità congiunta si vede che Xn ∼ Unif[−1− 1 ,1+ 1 ] . La densità congiunta è il prodotto
n n
delle densità marginali e quindi le X e Xn sono indipendenti.
2
ii) È noto che E [X] = E [Xn ] = 0, var(X) = 13 e var(Xn ) = 31 1 + n1 .
iii) Si ha
h i h i h i
E (X − Xn )2 = E X 2 + E Xn2 − 2E [XXn ] =
(per l’indipendenza)
1 1 1 2
= var(X) + var(Xn ) = + 1+
3 3 n
converge puntualmente a ϕX per n → ∞. In alternativa, senza usare l’espressione esplicita delle CHF,
basta semplicemente notare che
Z 1 Z 1
iηy 1
lim ϕXn (η) = lim e γXn (y)dy = eiηy dy = ϕX (η).
n→∞ n→∞ −1 2 −1
per il Teorema della convergenza dominata. In ogni caso, per il Teorema di continuità di Lévy si ha che
d
Xn −−−−→ X.
v) Xn non converge in probabilità a X, poiché per ogni 0 < ε < 1
"
P (|X − Xn | ≥ ε) = γ(X,Xn ) (x, y)dxdy
|x−y|>ε
non tende a zero per n → ∞: è sufficiente osservare la Figura B.2 dove in blu è rappresentato il supporto
della densità di (X, Xn ) e in arancione la striscia {(x, y) ∈ R2 | |x − y| < ε}.
-1
-2
-2 -1 0 1 2
Figura B.2:
i) Si ha P (X ≤ 0) = 0 e
E [X | T ] = X = min{T , 3}.
1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.
2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.
4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.
nα
Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
573
ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.
5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:
1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.
3 1 2 1 5
P (RB ) = P (RB | RA )P (RA ) + P (RB | VA )P (VA ) = · + · = .
7 2 7 2 14
iii) Ancora per la Formula della probabilità totale, se E indica l’evento di cui è richiesta la probabilità
3 1 5 1 4
P (E) = P (E | RA )P (RA ) + P (E | VA )P (VA ) = · + · = .
7 2 7 2 7
2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.
Soluzione.
i) Sia Ti , i = 1, 2, 3, l’evento “l’i-esimo test è superato”, e T = T1 ∩ T2 ∩ T3 . Per la Formula di moltiplica-
zione si ha
90 · 95 · 99
P (T ) = P (T1 )P (T2 | T1 )P (T3 | T1 ∩ T2 ) = ≈ 85%.
1003
ii) Per la formula di Bayes, si ha
P (T c | T1c )P (T1c ) 1 · 10%
P (T1c | T c ) = = ≈ 65%
P (T c ) 1 − P (T )
iii) Si ha
γ(X,Y ) (x, y)
γX|Y (x, y) = 1(γY >0) (y) = e−(x+y) 1A (x, y).
γY (y)
4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.
nα
Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.
Soluzione.
i) Si ha
h i 1 Z +∞ t dt
E Yn2 = 2 (t − 1)2 e− nα α =
n 0 n
t
(col cambio di variabili τ = nα )
+∞
n2α 2n2a − 2nα + 1
Z
= (τ − n−α )2 e−τ dτ =
n2 0 n2
che tende a zero per n → ∞. Più semplicemente, senza calcolare esplicitamente l’integrale, si ha
+∞ +∞
n2α
Z Z
−α 2 −τ c
0≤ 2 (τ − n ) e dτ ≤ −→ 0, c= (τ + 1)2 e−τ dτ.
n 0 n2−2α 0
ii) Si ha
1
ϕXn (η) =
1 − iηnα
da cui, per α = 1,
iη
η e− n 1
iη
ϕYn (η) = e− n ϕXn = −→ .
n 1 − iη 1 − iη
d
Dunque per α = 1 si ha Yn −−−−→ Y ∼ Exp1 .
5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:
Soluzione.
577
i) Per la Proposizione 3.6.9 sul massimo e minimo di variabili indipendenti si ha la seguente relazione
fra le funzioni di ripartizione
FTmax (t) = FT1 (t)FT2 (t) = 1 − e−λ1 t 1 − e−λ2 t , t ≥ 0,
FTmin (t) = 1 − 1 − FT1 (t) 1 − FT2 (t) = 1 − e−(λ1 +λ2 )t , t ≥ 0.
e−λ2 T1
E [Tmax | T1 ] = T1 + .
λ2
578 APPENDICE B. TEMI D’ESAME RISOLTI
1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:
Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞
5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini
i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].
580 APPENDICE B. TEMI D’ESAME RISOLTI
1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:
Soluzione. Indichiamo con Bn l’evento “la pallina estratta all’n-esima estrazione è bianca”, con n ∈ N.
Analogamente siano definiti Nn e Rn .
1 5 6 5
P (B1 ∩ B2 ∩ B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) = · · = .
3 13 14 91
15
iv) Per il punto iii), la probabilità che tutte le palline abbiano lo stesso colore è 91 . La probabilità cercata
15
è quindi 1 − 91 .
Soluzione.
581
i) Poiché
!
1 0 0
Y = αX, α= ,
0 0 1
!
0 1 0
Z = βX, β= ,
0 0 2
ma E [f (Y )] = E [f (Z)] = 0.
iii) Poiché Z ∼ N0,βCβ ∗ si ha
1 2 2
ϕZ (η1 , η2 ) = e− 2 (η1 +4η2 −4η1 η2 ) .
ϕZ non è sommabile altrimenti, per il teorema di inversione, Z sarebbe assolutamente continua.
Soluzione.
i) Si ha Xn ∼ N 1 ,1+ 1 . Poiché
n n
η η 2 η 2
1
ϕXn (η) = ei n − 2 (1+ n ) −−−−−→ e− 2 = ϕX (η),
n→∞
d
per il Teorema di continuità di Lévy si ha che Xn −−−−→ X.
ii) Si ha r 2 r 2
h i 1 1 1 1 h i
2
E (Xn − X) = E − 1 + + 1 X = 2 + 1 + + 1 E X 2 −−−−−→ 4
n n n n n→∞
e quindi non c’è convergenza q.c.: Xn converge a X solo sull’evento trascurabile (X = 0).
Soluzione.
i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X
Z =α , α= 1 1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto
N0,1 ⊗ N0,1 ⊗ µ
(per l’indipendenza di X, Y , T )
1 −(η1 +η2 )2 −η 2 −η 2
= e +e 1 2 .
2
5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini
i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].
Soluzione.
i) N è una v.a. discreta che assume solo valori in N: vale
Zn
P (N = n) = P (n − 1 ≤ T < n) = λe−λt dt = e−λn (eλ − 1) =: pn , n ∈ N.
n−1
Allora
∞
X
N∼ pn δ n
n=1
e la CDF di N è
0 se x < 0,
FN (x) =
P n
pk
se n − 1 ≤ x < n.
k=1
ii) Si ha
∞
X eλ
E [N ] = npn = ,
n=1
eλ − 1
h i
E N 1(T >1) ∞
X 2eλ − 1
E [N | T > 1] = = eλ npn = .
P (T > 1)
n=2
eλ − 1
E [N | T ] = N .
584 APPENDICE B. TEMI D’ESAME RISOLTI
1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:
1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.
Soluzione.
i) Sia A =“è scelto il primo dado”. Allora per k = 0, 1, . . . , n si ha
!
n k 1
P (X = k | A) = Binn,p (k) = p (1 − p)n−k , p= .
k 2
iii) Anzitutto
1 2n 1
!
P (X = n) = + .
2 3n 2n
Per il Teorema di Bayes, si ha
1
P (X = n | A)P (A) 2n
P (A | X = n) = = 2n
.
P (X = n) 3n + 21n
iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.2) si ha
1 2n n
E [X] = + .
2 3 2
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.
Soluzione.
i) Se B è l’evento “avere buoni rendimenti scolastici” e S è l’evento “svolgere attività sportiva”, si ha
P (B) = P (B | S)P (S) + P (B | S c )(1 − P (S))
da cui
P (B) − P (B | S c )
P (S) = = 75%
P (B | S) − P (B | S c )
586 APPENDICE B. TEMI D’ESAME RISOLTI
Soluzione.
i) γ è una funzione misurabile con "
γ(x, y)dxdy = 1
R2
per ogni a, b ≥ 0. Inoltre, poiché a, b ≥ 0, si ha
γ(x, y) ≥ γ(−1, −1) = −a − b + 1, (x, y) ∈ [−1, 1] × [−1, 1]
e quindi γ ≥ 0 se a + b ≤ 1.
ii) Z 1 Z 1
ax + 1 by + 1
γX (x) = γ(x, y)dy = 1[−1,1] (x), γY (y) = γ(x, y)dx = 1[−1,1] (y).
−1 2 −1 2
iii) (X, Y ) sono indipendenti se e solo se γ(x, y) = γX (x)γY (y) ossia
(ax + 1)(by + 1) = ax + by + 1
ossia abxy = 0 ossia a = 0 oppure b = 0.
4. Sia (X, Y , Z) ∼ Nµ,C con
1 2 0 0
µ = 2 , C = 0 2 −1 .
3 0 −1 2
Soluzione.
! !
1 2 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
2 0 2
2 2
ϕ(X,Y ) (η1 , η2 ) = ei(η1 +2η2 )−(η1 +η2 ) .
ii) (X, Y − Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di
conseguenza, X e Y − Z sono indipendenti se e solo se sono scorrelate: poiché
cov(X, Y − Z) = cov(X, Y ) − cov(X, Z) = 0,
allora X e Y − Z sono indipendenti.
587
Soluzione.
i) Si ha
h
iηXn 1
i
se η = 0,
ϕXn (η) = E e = iηn
e iηn−1
altrimenti.
eiηn − 1
lim = 1.
η→0 iηn
Allora
1 se η = 0,
lim ϕXn (η) =
n→∞ 0 altrimenti.
che non è continua in η = 0. Dunque per il Teorema 4.3.8 di continuità di Lévy, la successione (Xn )n∈N
non converge debolmente.
ii) Poiché (Xn )n∈N non converge debolmente, per il Teorema 4.1.9, non si ha neppure la convergenza q.c.
588 APPENDICE B. TEMI D’ESAME RISOLTI
1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:
i) che la prima pallina estratta sia nera;
ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
2 1 −1
C = 1 1 0 .
−1 0 1
i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .
è una densità?
ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.
iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.
589
1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:
Soluzione.
i) Consideriamo i seguenti eventi: N 1=“la prima pallina estratta è nera”, T T =“il risultato dei due lanci
di moneta sono due teste”, CT =“il risultato del primo lancio di moneta è croce e del secondo è testa” e
analogamente definiamo CC e T C. Per la Formula della probabilità totale si ha
P (N 1 | T T )P (T T ) 16
P (CT ∪ T C ∪ CC | N 1) = 1 − P (T T | N 1) = 1 − = .
P (N 1) 21
4 3 2
P¯ (N 1 ∩ N 2) = P¯ (N 1)P¯ (N 2 | N 1) = · = .
10 9 15
Soluzione.
i) Poiché
!
a 1 0
Y = αX, α= ,
0 0 1
590 APPENDICE B. TEMI D’ESAME RISOLTI
si ha Y ∼ N0,αCα ∗ con
!
1 + 2a + 2a2 −a
αCα ∗ = , det(αCα ∗ ) = (1 + a)2 .
−a 1
Solo per a = −1 la matrice αCα ∗ è singolare e per tale valore di a la v.a. Y non è assolutamente
continua.
ii) data l’espressione della matrice di covarianza αCα ∗ , si ha che aX1 + X2 e X3 sono scorrelate (e quindi
indipendenti) se a = 0.
iii) Poiché Y ∼ N0,αCα ∗ si ha
1 ∗ η,α ∗ η⟩
ϕY (η) = e− 2 ⟨Cα .
ϕY non è sommabile se a = −1 altrimenti, per il teorema di inversione, Y sarebbe assolutamente
continua.
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:
i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .
Soluzione.
i) Per l’indipendenza, si ha
"
E [Z] = xy Nµ,σ 2 ⊗ Bep (dx, dy) =
R2
ii) Si ha
(per l’indipendenza di X e Y )
è una densità?
591
ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.
iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.
Soluzione.
i) Deve essere Z Z 1
1= γ(x)dx = (2ax + b)dx = a + b
R 0
da cui b = 1 − a. Inoltre γ deve essere non-negativa: se a ≥ 0 allora il minimo di γ è assunto per x = 0
e si ha la condizione 1 − a ≥ 0; se a < 0 allora il minimo di γ è assunto per x = 1 e si ha la condizione
a + 1 ≥ 0. In definitiva, per |a| ≤ 1 e b = 1 − a, γ è una densità.
ii) Si ha
0 se x < 0,
√
R √x
P ( nX1 ≤ x) =
n x2 √
0 2ydy = n se 0 ≤ x < n,
√
1 se x ≥ n.
iii) Si ha
0
se x < 0,
lim FYn (x) = FY (x) := 2
n→∞ 1 − e−x
se x ≥ 0,
d 2
e quindi per il Teorema 4.3.3 Yn −−−−→ Y per n → ∞ con Y che ha densità γY (x) = FY′ (x) = 2xe−x 1[0,+∞[ (x).
592 APPENDICE B. TEMI D’ESAME RISOLTI
1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.
2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:
i) la probabilità che un bullone sia idoneo;
ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.
3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0
i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
4. Siano X e Y v.a. con densità congiunta
e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]
i) Si calcolino le densità marginali.
ii) Le v.a. Z := eX e W := eY sono indipendenti?
iii) Si calcoli E [Y | X > 0].
5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;
iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.
593
1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.
Soluzione. Consideriamo gli eventi A=“il vaccino è efficace contro il virus α” e B=“il vaccino è efficace
contro il virus β”. Sappiamo che P (A) = 55%, P (B) = 65% e P (A ∪ B) = 80%. Allora
2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:
Soluzione.
P (T c | T1 )P (T1 ) 5% · 90%
P (T1 | T c ) = = ≈ 31%;
P (T c ) 14.5%
iii) N ∼ Bin100,p ;
1
iv) M ∼ Geom1−p e E [M] = 1−p .
3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0
i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
594 APPENDICE B. TEMI D’ESAME RISOLTI
con 0 unico punto di discontinuità di F0 : quindi µpn converge debolmente alla delta di Dirac centrata in
zero. Se pn −→ 1, allora
Fp (x) −→ F1 (x) = 1 − e−x , x∈R
e quindi µpn converge debolmente a Exp1 .
4. Siano X e Y v.a. con densità congiunta
e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]
Soluzione.
i) Si ha
e−|x| − e−2|x|
Z
γX (x) = γ(X,Y ) (x, y)dy = ,
R |x| log 4
Z
1
γY (y) = γ(X,Y ) (x, y)dx = 1 .
R y log 2 ]1,2](y)
ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
1
iii) Per simmetria P (X > 0) = 2 e si ha
Z Z 2 Z +∞
1 y 1
E [Y | X > 0] = Y dP = 2 e−y|x| dxdy = .
P (X > 0) (X>0) 1 log 4 0 log 2
5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
595
Soluzione. Sia Nn−m il numero di chiamate ricevute dall’ora n all’ora m. Allora N8−9 ∼ Poisson2 .
i) N8−10 = N8−9 + N9−10 ∼ Poisson4 per l’ipotesi di indipendenza (Esempio 3.6.5);
ii)
3
X 4k
P (N8−10 ≥ 4) = 1 − P (N8−10 ≤ 3) = 1 − e−4 ;
k!
k=0
iv)
P (N8−10 ≥ 4)
P (N8−10 ≥ 4 | N8−10 ≥ 2) =
P (N8−10 ≥ 2)
e le probabilità si calcolano come nel punto ii);
v)
P ((N8−10 ≥ 4) ∩ (N8−9 ≥ 2))
P (N8−10 ≥ 4 | N8−9 ≥ 2) =
P (N8−9 ≥ 2)
1 X
= P (N9−10 ≥ 4 − k)P (N8−9 = k).
P (N8−9 ≥ 2)
k≥2
596 APPENDICE B. TEMI D’ESAME RISOLTI
1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).
Soluzione. Lo spazio campione di tutte le disposizioni possibili delle monete è Ω = DR3,6 , da cui |Ω| = 36 . Si
ricordi che Ω è lo spazio delle funzioni da I6 a I3 e ogni funzione corrisponde ad una disposizione possibile
delle sei monete.
i) Si determinano in C modi possibili le due monete nella prima scatola e di conseguenza
6,2
6 4
C6,2 DR2,4 2
P (A) = = 2 6 ≈ 33%.
DR3,6 3
iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 37.5%.
P (A)
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2
i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che
Soluzione.
! ! ! !
Y X 0 1 2 0
i) Poiché =α con α = , si ha (X, Y ) ∈ N(0,0),C1 con C1 = αCα ∗ = .
X Y 1 0 0 1
598 APPENDICE B. TEMI D’ESAME RISOLTI
!
1 1
ii) In modo analogo si mostra che (X, X) ∈ N(0,0),C2 con C2 = . In questo caso la matrice di
1 1
covarianza è degenere e (X, X) non è assolutamente continua. Si ha
1 2 2
ϕ(X,X) (η1 , η2 ) = e− 2 (η1 +2η1 η2 +η2 )
e ϕ(X,X) (η1 , −η1 ) = 1 per ogni η1 ∈ R (da cui segue che ϕ(X,X) non tende a 0 all’infinito).
iii) Se (Y , X) e (X, X) fossero indipendenti allora lo sarebbero anche le loro seconde componenti che sono
entrambe uguali a X.
3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.
(X = 2) = {(1, 1)},
(X = 3) = {(1, 2), (2, 1)},
(X = 4) = {(1, 3), (3, 1), (2, 2)},
(X = 5) = {(2, 3), (3, 2)},
(X = 6) = {(3, 3)}.
L’evento (X1 = 1) < σ (X): intuitivamente non posso conoscere l’esito del primo lancio sapendo la somma dei
due lanci.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1 √ 1
Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n
Soluzione.
i) Si ha
Z Z 1
1 n n 2 1 1
2
E [Xn ] = 0, var(Xn ) = x µn (dx) = 1 + 1 − x dx = 1 + 2 1 − .
R n 2 −1 3n n
n
Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi per il Teorema
di continuità di Lévy.
iii) Non si ha convergenza in L2 (Ω, P ) poiché, per quanto visto al punto i),
5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,
2π
la Gaussiana standard.
i) Verificare che la funzione
è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.9) per la densità condizionata
γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)
Soluzione.
ii) Si ha
Z q √
γX (x) = γ(x, y)dy = 2 −2 log x 2π 1]0, √1 ] (x),
2π
ZR
γY (y) = γ(x, y)dx = Γ (y).
R
X e Y non sono indipendenti poiché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
1
γX|Y (x, y) = 1 (x, y)
Γ (y) H
e Z Z Γ (y)
n n 1 1 n
E [X | Y ] = x γX|Y (x, y) = xn dx = Γ (y).
R Γ (y) 0 n+1
600 APPENDICE B. TEMI D’ESAME RISOLTI
1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:
i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).
Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:
iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.
Si determini:
i) le densità congiunte e marginali di (X, Y );
ii) se X e Y sono indipendenti;
R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).
3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n
i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?
601
1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:
i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).
Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:
iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.
Soluzione.
i) Si ha σ (X) = {∅, N, 2N, 2N + 1}, dove 2N indica l’insieme dei numeri naturali pari, e σ (Y ) = P(N).
ii) No, per il Teorema 3.3.3 di Doob poiché σ (Y ) non è inclusa in σ (X). Si può anche provare direttamente
la tesi per assurdo in modo analogo all’Esercizio 3.3.6.
iii) Si ha µX = qδ1 + (1 − q)δ−1 e µY = Geomp .
iv) Vale
0 se x < −1,
FX (x) = 1−q se − 1 ≤ x < 1,
1 se x ≥ 1.
Si determini:
Soluzione.
602 APPENDICE B. TEMI D’ESAME RISOLTI
i) Poiché Z
e−|x| dx = 2
R
si ha
1
γ(X,Y ) = 1 .
2 H
Inoltre
1
e−|x|
Z Z
1
γX (x) = γ(X,Y ) (x, y)dy = dy = ,
R 2 1−e−|x| 2
Z Z − log(1−y)
1
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y) dy = −1]0,1[ (y) log(1 − y).
R 2 log(1−y)
ii) X e Y non sono indipendenti perché la densità congiunta non è il prodotto delle densità marginali.
iii) E [(X, Y )] = (E [X] , E [Y ]) con
Z
E [X] = xγX (x)dx = 0,
R
Z Z 1
3
E [Y ] = yγY (y)dy = y (− log(1 − y)) dy = .
R 0 4
γ(X,Y ) (x, y) 1
γX|Y (x, y) = =− 1 (x, y), x ∈ R.
γY (y) 2 log(1 − y) H
Allora
Z Z − log(1−Y )
1 1
var(X | Y ) = x2 γX|Y (x, Y )dx = − x2 dx = log2 (1 − Y ).
R 2 log(1 − Y ) log(1−Y ) 3
3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n
i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?
Soluzione.
i) Per l’indipendenza si ha µ(Xn ,Y ) = N1, 1 ⊗ Bep ;
n
Inoltre
h Y i
ϕZn (η) = E eiη(−1) Xn
603
"
y
= eiη(−1) x N1, 1 ⊗ Bep (dx, dy) =
n
R2
Zn è assolutamente continua poiché ϕZn è una funzione sommabile (cfr. Teorema 3.5.6);
iii) la convergenza in legge di Zn segue dal Teorema 4.3.8 di continuità di Lévy: si ha
che è la CHF della distribuzione pδ−1 + (1 − p)δ1 che non è assolutamente continua.
604 APPENDICE B. TEMI D’ESAME RISOLTI
1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.
2. Sia (X, Y , Z) ∼ Nµ,C con
1 2 0 0
µ = 2 , C = 0 1 −1 .
3 0 −1 1
Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.
605
1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.
Soluzione. Sia Rn l’evento “la n-esima carta estratta è rossa” e analogamente si definisca Nn .
i) Per la formula della probabilità totale si ha
10 1 9 1
P (N2 ) = P (N2 | R1 )P (R1 ) + P (N2 | N1 )P (N1 ) = · + · .
21 2 19 2
Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.
Soluzione.
i) Si ha (Y , Z) ∼ Nµ̄,C̄ con
! !
2 1 −1
µ̄ = , C̄ =
3 −1 1
e quindi
1 2
ϕ(Y ,Z) (η1 , η2 ) = ei(2η1 +3η2 )− 2 (η1 −η2 ) .
606 APPENDICE B. TEMI D’ESAME RISOLTI
ii) (X, Y +Z) ha distribuzione normale bidimensionale perché è trasformazione lineare di (X, Y , Z). Allora
X e Y + Z sono indipendenti se e solo se sono scorrelate. Poiché
X e Y + Z sono indipendenti.
iii) Vale
X
Y + Z = A Y , A= 0 1 1
Z
e quindi Y + Z ∼ NAµ,ACA∗ = δ5 .
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.
Soluzione.
i) Calcoliamo la CDF di Xn : FXn (y) = 0 se y ≤ 0, mentre per y > 0 si ha
1 1
FXn (y) = P (Xn ≤ y) = P (X ≤ (ny) n ) = 1 − e−λ(ny) .
n
ii) Si ha
F(y) := lim FXn (y) = 1 − e−λ 1R>0 (y).
n→∞
Per ogni λ > 0, la funzione F non è una CDF (perché non converge a 1 per y → +∞): segue dal Teorema
4.3.3 che Xn non può convergere debolmente.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.
Soluzione.
i) Per ipotesi γS|T (s, t) = 1[t,t+1] (s). Per l’Osservazione 5.3.21, si ha
γ(S,T ) (s, t) = γS|T (s, t)γT (t) = 1[t,t+1] (s)1[0,1] (t) = 1[0,1] (s)1[0,s] (t) + 1[1,2] (s)1[s−1,1] (t).
Allora Z
γS (s) = γ(S,T ) (s, t)dt = s1[0,1] (s) + (2 − s)1[1,2] (s).
R
Infine
Z Z 1 Z 2
2
E [S] = sγS (s)ds = s ds + s(2 − s)ds = 1.
R 0 1
607
e quindi
Z Z +∞
P (τ ≥ S) = γS (s)λe−λt dtds
R s
Z 1 Z +∞ Z 2 Z +∞
−λt
= s λe dtds + (2 − s) λe−λt dtds
0 s 1 s
Z1 Z 2
= se−λs ds + (2 − s)e−λs ds
0 1
!2
eλ − 1
= .
λeλ
In particolare, per λ = 1 si ha
1 2
P (τ ≥ S) = 1 − ≈ 40%.
e
608 APPENDICE B. TEMI D’ESAME RISOLTI
i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.
1
Xn = 1 , n ∈ N,
pn [n−1,n]
dove
pn := N0,1 ([n − 1, n]).
Determinare:
i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .
Soluzione.
4
1
i) la probabilità cercata vale 6 ;
4
ii) la probabilità cercata vale 6 · 5 · 16 ;
4
iii) la probabilità cercata vale 4 · 16 .
Soluzione.
i) La funzione γ è misurabile, non negativa e tale che
Z Z +∞ Z +∞
1 1
γ(x)dx = 2
dx = dz = 1,
R 0 (x + 1) 1 z2
e quindi è una densità.
ii) Dato y > 0 e assumendo ϕ invertibile, calcoliamo
Z ϕ −1 (y) Z ϕ −1 (y)+1
1 1 1
P (ϕ(X) ≤ y) = P (X ≤ ϕ −1 (y)) = dx = dz = 1 − −1 .
0 (x + 1)2 1 z2 ϕ (y) + 1
1
Xn = 1 , n ∈ N,
pn [n−1,n]
dove
pn := N0,1 ([n − 1, n]).
Determinare:
610 APPENDICE B. TEMI D’ESAME RISOLTI
i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .
Soluzione.
1
i) Xn assume solo i valori 0 e pn e quindi ha una distribuzione di tipo Bernoulli: precisamente, Xn ∼
pn δ 1 + (1 − pn )δ0 .
pn
Soluzione.
i) Per l’indipendenza, la CHF congiunta è il prodotto delle marginali
λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = ;
(λ − iη1 )(λ − iη2 )
ii) analogamente si ha
h i λ2
ϕX+Y (η) = E eiη(X+Y ) = ϕX (η)ϕY (η) = ;
(λ − iη)2
iii) si ha
h i
ϕXY (η) = E eiηXY =
(poiché, per l’indipendenza, (X, Y ) ∼ Expλ ⊗ Expλ )
"
= eiηxy Expλ ⊗ Expλ (d(x, y))
R2
(per il Teorema di Fubini)
Z Z !
iηxy
= e Expλ (dx) Expλ (dy)
ZR R
λ
= Expλ (dy)
R λ − iηy
+∞
λ2
Z
= e−λy dy.
0 λ − iηy
611
1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:
i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.
2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:
i) qual è la probabilità che almeno 9 di essi siano immuni?
ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?
3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},
i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.
4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.
612 APPENDICE B. TEMI D’ESAME RISOLTI
1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:
i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.
Soluzione.
i)
P (S ∩ C) = P (S) + P (C) − P (S ∪ C) = 25%.
ii)
P (S \ C) = P (S) − P (S ∩ C) = 25%.
iii)
P ((S ∪ C)c ) = 1 − P (S ∪ C) = 40%.
2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:
Soluzione.
con evidente significato degli eventi X, Y , Z, I. Per la formula della probabilità totale, la probabilità che
un individuo sia immune è
P (V | I) = P (X | I) + P (Y | I) =
P (I | X)P (X) P (I | Y )P (Y )
= + ≈ 0.93.
P (I) P (I)
3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},
i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.
Soluzione.
i) Si ha
Z Z 1Z 2x
2λ
γλ (x, y)dxdy = λydydx = .
R2 0 0 3
4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.
Soluzione.
(per indipendenza)
pBinn−1,p (k − 1) k
= = .
Binn,p (k) n
1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.
2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:
1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )
i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.
616 APPENDICE B. TEMI D’ESAME RISOLTI
1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.
Soluzione.
i) Per la formula della probabilità totale si ha
1
P (N ) = P (N | T )P (T ) + P (N | C)P (C) = (P (N | T ) + P (N | C))
2
dove N è l’evento “la pallina p è nera”, T è l’evento “il risultato del lancio della moneta è testa” e C è
l’evento “il risultato del lancio della moneta è croce”. Ancora per la formula della probabilità totale, se
NU indica l’evento “dall’urna U si estrae una pallina nera”, si ha
10 3 9 2 4
P (N | T ) = P (N | T | NU )P (NU ) + P (N | T | NUc ) (1 − P (NU )) = · + · = ,
12 5 12 5 5
4 9 3 2 7
P (N | C) = P (N | C | NV )P (NV ) + P (N | C | NVc ) (1 − P (NV )) = · + · = .
6 11 6 11 11
In definitiva
1 4 7 79
P (N ) = + = .
2 5 11 110
ii) Per la formula di Bayes
4 1
P (N | T )P (T ) 5·2 44
P (T | N ) = = 79
= .
P (N ) 110
79
iii) Si ha
2
P (N ∩ T ) = P (N | T )P (T ) = .
5
2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.
i) Provare che Z è ben definita quasi certamente;
ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?
617
Soluzione.
1
ii) si ha P (Z = 1) = P (X ≤ Y ) = 2 per simmetria oppure calcolando
Z +∞ Z y
1
P (X ≤ Y ) = λe−λx dxλe−λy dy = ;
0 0 2
1
iii) essendo Z ≥ 1 q.c. si ha P (Z ≤ t) = 0 per t < 1; abbiamo già provato che P (Z = 1) = 2 e per t > 1 si ha
P (Z ≤ t) = P (Z ≤ 1) + P (1 < Z ≤ t)
!
1 X
= +P 1 < ≤t
2 min{X, Y }
1
= + P (Y < X ≤ tY )
2
Z +∞ Z ty
1 t
= + λe−λx dxλe−λy dy = ;
2 0 y t + 1
iv) Z non è assolutamente continua per ii) e non è discreta poiché la sua CDF non è costante a tratti.
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:
1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )
i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.
Soluzione.
i) Si ha
h i
ϕYn (η) = E eiηnX1 = ϕX1 (nη) = e−n|η| ,
h i
ϕZn (η) = E eiη(X1 +···+Xn ) =
618 APPENDICE B. TEMI D’ESAME RISOLTI
(per indipendenza)
n
Y h i
= E eiηXk =
k=1
Avendo la stessa CHF, per il teorema di inversione Yn e Zn hanno la stessa legge. Yn e Zn non sono
uguali q.c. Per esempio, nel caso n = 2, Y2 = Z2 q.c. equivale a X1 = X2 q.c. ma ciò non è vero: per
esempio, per l’indipendenza, P ((X1 < 0) ∩ (X2 > 0)) = P (X1 < 0)P (X2 > 0) > 0.
ii) Procediamo come nell’Esempio 3.5.4:
P n
∞
h
iηWλ
i X iη Xk
ϕWλ (η) = E e = E e k=1 1(N =n) =
n=0
(per indipendenza di N , X1 , X2 , . . . )
P n
∞
X iη Xk
= E e P (N = n)
k=1
n=0
∞
X e−λ λn
= (ϕX1 (η))n
n!
n=0
= exp λ(e−|η| − 1) .
e quindi, per il Teorema di continuità di Lévy, Wλ converge debolmente ad una v.a. con distribuzione
delta di Dirac centrata in 0. D’altra parte, si ha
1 se η = 0,
lim ϕWλ (η) =
λ→+∞ 0 se η , 0,
e dunque non si può avere convergenza debole perchè il limite delle CHF è una funzione discontinua
in 0 (si veda punto i) del Teorema di continuità di Lévy).
619
1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.
Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .
3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:
i) la densità di X;
ii) se X e Y sono indipendenti;
iii) la densità di Y condizionata a X;
h i h i
iv) E Y 2 e E Y 2 | X .
4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
ii) Si calcoli E [Yn ] e E [Zn ].
iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?
620 APPENDICE B. TEMI D’ESAME RISOLTI
1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.
Soluzione.
i) Sia Gi , i = 1, 2, 3, l’evento “si ha sentenza di condanna all’i-esimo grado”, e G = G1 ∩ G2 ∩ G3 . Per la
Formula di moltiplicazione si ha
70 · 80 · 90
P (G) = P (G1 )P (G2 | G1 )P (G3 | G1 ∩ G2 ) = = 50.4%.
1003
ii) Si ha
P (G)
P (G2c ∪ G3c | G1 ) = 1 − P (G2 ∩ G3 | G1 ) = 1 − = 28%.
P (G1 )
iii) Xn ∼ Bep con p = P (G). Per l’indipendenza, (Xn , Xn+1 ) ∼ Bep ⊗ Bep e Xn + Xn+1 ∼ Bin2,p .
1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Per il Teorema 3.1.26 si ha
P (N ≤ 5) = 1 − p5 ≈ 96.7%.
Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .
Soluzione.
621
ii) Si ha
1
ϕX (η) = ei(η1 +2η2 +3η3 )− 2 ⟨Cη,η⟩ .
iii) Vale
X2 − X3 = AX, A= 0 1 −1
3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:
i) la densità di X;
Soluzione.
Q = {(x, y) ∈ R2 | |x + y| ≤ 1, |x − y| ≤ 1}.
Z Z 1−x
1
γX (x) = γ(X,Y ) (x, y)dy = dy = 1 − x,
R 2 x−1
mentre se x ∈ [−1, 0] si ha
Z x+1
1
γX (x) = dy = x + 1
2 −1−x
y=x+1
1.0
y=x-1
0.5
-0.5
y=1-x
-1.0
y=-x-1
Figura B.3:
ii) Per simmetria si calcola anche γY e si vede facilmente che X, Y non sono indipendenti poiché la densità
congiunta non è il prodotto delle marginali.
iii) Se x ∈]0, 1] si ha
γ(X,Y ) (x, y) 1 1
γY |X (x, y) = = 1 (x, y) = 1 (y)
γX (x) 2(1 − x) Q 2(1 − x) [x−1,1−x]
e se x ∈ [−1, 0[
1 1
γY |X (x, y) = 1Q (x, y) = 1 (y).
2(x + 1) 2(x + 1) [−1−x,x+1]
iv) Si ha
h i Z1 Z 0
1
2 2
E Y = y (1 − y)dy + y 2 (1 + y)dy = .
0 −1 6
D’altra parte
h i Z
E Y2 | X = y 2 γY |X (X, y)dy
R
1−X X+1
y2 y2
Z Z
= 1[0,1] (X) dy + 1[−1,0] (X) dy
X−1 2(1 − X) −X−1 2(X + 1)
(X − 1)2 (X + 1)2
= 1[0,1] (X) + 1[−1,0] (X).
3 3
4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
623
Soluzione.
i) Calcoliamo le CDF:
0 se y ≤ 0,
0 se z ≤ 0,
n n
1
FYn (y) = P (Xn ≤ (n + 1)y) = 1 se y ≥ n+1 , FZn (z) = P (Xn ≤ z ) = 1 se z ≥ n n ,
n+1
zn
y altrimenti, altrimenti.
n n
n+1
γYn (y) = 1 n (y), γZn (z) = zn−1 1[0,n1/n ] (z).
n [0, n+1 ]
ii) Yn ∼ Unif[0, n
] da cui
n+1
n
E [Yn ] = .
2(n + 1)
Invece
1 n
Z nn
n n n+1
E [Zn ] = z dz = .
0 n+1
iii) Si ha
0 se y ≤ 0,
0
se z ≤ 0,
FYn (y) −−−−−−→ 1 se y ≥ 1, FZn (z) −−−−−−→
n→∞ n→∞ 1 se z > 1,
y altrimenti,
e quindi, per il Teorema 4.3.3, Yn converge debolmente ad una v.a. con legge Unif[0,1] e Zn converge
debolmente ad una v.a. con legge delta di Dirac centrata in 1. Si noti che il limite puntuale delle FZn
non è continua a destra nel punto z = 1.
iv) Sı̀ per il Teorema 4.1.9-vi).
624 APPENDICE B. TEMI D’ESAME RISOLTI
1. Pietro è un giocatore di tiro al bersaglio e dispone di cinque freccette. Quattro freccette sono perfet-
tamente bilanciate e quando Pietro le utilizza fa centro con probabilità pari al 75%. Al contrario, con
la quinta freccetta fa centro solo nel 25% dei casi. Pietro però non sa riconoscere la freccetta difettosa,
quindi quando gioca sceglie a caso la freccetta da lanciare.
i) Qual è la probabilità che Pietro faccia centro lanciando una freccetta scelta a caso tra le cinque?
ii) Sapendo che Pietro ha fatto centro, qual è la probabilità che abbia usato la freccetta difettosa?
i) Trovare il valore del parametro α affinché γ(X,Y ) sia effettivamente una densità;
ii) determinare le densità marginali di (X, Y ) e stabilire se X, Y sono indipendenti.
Xn = αXn−1 + β, n ∈ N,
1. Pietro è un giocatore di tiro al bersaglio e dispone di cinque freccette. Quattro freccette sono perfet-
tamente bilanciate e quando Pietro le utilizza fa centro con probabilità pari al 75%. Al contrario, con
la quinta freccetta fa centro solo nel 25% dei casi. Pietro però non sa riconoscere la freccetta difettosa,
quindi quando gioca sceglie a caso la freccetta da lanciare.
i) Qual è la probabilità che Pietro faccia centro lanciando una freccetta scelta a caso tra le cinque?
ii) Sapendo che Pietro ha fatto centro, qual è la probabilità che abbia usato la freccetta difettosa?
Soluzione.
i) Siano
Sappiamo che P (A) = 1/5 e P (B) = 4/5. Inoltre, P (C|A) = 1/4 e P (C|B) = 3/4. Quindi, per la formula
della probabilità totale,
13
P (C) = P (C|A)P (A) + P (C|B)P (B) = .
20
ii ) Per la formula di Bayes
P (C|A)P (A) 1
P (A|C) = = .
P (C) 13
e−y
γ(X,Y ) (x, y) = α √ 1A (x, y), (x, y) ∈ R2 ,
x
dove α ∈ R e n √ o
A = (x, y) ∈ R2 | x > 0, y > x .
i) Trovare il valore del parametro α affinché γ(X,Y ) sia effettivamente una densità;
ii) determinare le densità marginali di (X, Y ) e stabilire se X, Y sono indipendenti.
Soluzione.
i) α = 1/2, infatti
√
Z Z ∞ Z ∞ ! Z ∞ − x
1 −y e
γ(X,Y ) (x, y)dxdy = α √ √ e dy dx = α √ dx = 2α.
R2 0 x x 0 x
626 APPENDICE B. TEMI D’ESAME RISOLTI
ii) Si ha
√
∞
e− x
Z Z
1 −y
γX (x) = γ(X,Y ) (x, y)dy = √ 1]0,∞[ (x) √ e dy = √ 1]0,∞[ (x),
R 2 x x 2 x
Z Z y2
1
γY (y) = γ(X,Y ) (x, y)dx = e−y 1]0,∞[ (y) √ dx = ye−y 1]0,∞[ (y).
R 0 2 x
Soluzione.
i) (X1 , X3 ) ha legge normale bidimensionale, con media e matrice di covarianza date rispettivamente da
! !
1 1 2
e=
µ , C=
e .
2 2 4
Quindi X3 − 2X1 e X2 sono scorrelate. Poiché (X3 − 2X1 , X2 ) ha legge normale bidimensionale, segue
che X3 − 2X1 e X2 sono anche indipendenti.
Xn = αXn−1 + β, n ∈ N,
Soluzione.
627
i) Vale
Quindi
1 − αn
!
n
n iηβ 1−α n
ϕXn (η) = ϕX0 (ηα )e 1−α = exp −|η||α| + iβη .
1−α
ii) Per il punto precedente, ricordando che |α| < 1, otteniamo
β
lim ϕXn (η) = eiη 1−α , η ∈ R,
n→∞
che è la funzione caratteristica della distribuzione δ β . Quindi, per il Teorema di continuità di Lévy,
1−α
β
Xn converge in legge alla variabile aleatoria costante 1−α .
iii) Dalla formula
1 − αn
Xn = α n X0 + β
1−α
β
deduciamo che Xn converge quasi certamente a 1−α .
628 APPENDICE B. TEMI D’ESAME RISOLTI
1. Un segnale può assumere due stati: positivo (+) o negativo (−). Il segnale viene inizialmente trasmesso
nello stato +, quindi attraversa due canali successivi, infine viene ricevuto. Ciascun canale trasmette
correttamente con probabilità del 90%, altrimenti lo inverte (se era + diventa −, e viceversa). I canali
agiscono indipendentemente.
i) Qual è la probabilità che il segnale venga ricevuto correttamente (ossia nello stato +)?
ii) Se il segnale viene ricevuto correttamente, qual è la probabilità che il primo canale non lo abbia
trasmesso correttamente?
4
γ(X,Y ) (x, y) = (x + xy)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 .
3
i) Calcolare P Y > X + 21 ;
ii) determinare le densità marginali di X e Y e dire se X, Y sono indipendenti;
iii) calcolare E [XY ].
Si determini:
i) la legge di (X1 , X3 );
ii) la CHF di X e di X3 − X2 ;
iii) la covarianza di X1 e 5X2 − 3X1 . Sono indipendenti?
4. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ (1 − n1 )δ−1 + n1 δ1 . Sia inoltre Z una variabile
aleatoria a valori reali con funzione caratteristica ϕZ . Supponiamo che Z sia indipendente da Xn , per
ogni n ∈ N. Poniamo infine Yn = Xn Z, per ogni n ∈ N.
i) Si esprima la funzione caratteristica di Yn in termini di ϕZ , per ogni n ∈ N;
ii) studiare la convergenza in legge di (Yn )n∈N ;
iii) supponendo che Z sia sommabile, studiare la convergenza in L1 di (Yn )n∈N .
629
1. Un segnale può assumere due stati: positivo (+) o negativo (−). Il segnale viene inizialmente trasmesso
nello stato +, quindi attraversa due canali successivi, infine viene ricevuto. Ciascun canale trasmette
correttamente con probabilità del 90%, altrimenti lo inverte (se era + diventa −, e viceversa). I canali
agiscono indipendentemente.
i) Qual è la probabilità che il segnale venga ricevuto correttamente (ossia nello stato +)?
ii) Se il segnale viene ricevuto correttamente, qual è la probabilità che il primo canale non lo abbia
trasmesso correttamente?
Soluzione.
Notiamo che
B = (A1 ∩ A2 ) ∪ (Ac1 ∩ Ac2 ),
infatti il segnale viene ricevuto correttamente quando entrambi i canali lo trasmettono correttamente
oppure quando entrambi lo invertono.
Dal testo dell’esercizio sappiamo che P (A1 ) = P (A2 ) = 0.9 e inoltre A1 e A2 sono indipendenti, quindi
anche Ac1 e Ac2 sono indipendenti, pertanto
4
γ(X,Y ) (x, y) = (x + xy)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 .
3
i) Calcolare P Y > X + 21 ;
ii) determinare le densità marginali di X e Y e dire se X, Y sono indipendenti;
iii) calcolare E [XY ].
Soluzione.
630 APPENDICE B. TEMI D’ESAME RISOLTI
i) Sia
1
A = (x, y) ∈ R2 | y > x + .
2
Allora
Z Z 1 Z
1
1 2 4x
P Y >X+ = γ(X,Y ) (x, y)dxdy = (1 + y)dy dx
2 3
A 0 1
x+ 2
Z 1
4 2 7 3 1 5
= x − x2 − x3 dx = ≈ 0.0521.
3 0 8 2 2 96
Si determini:
i) la legge di (X1 , X3 );
ii) la CHF di X e di X3 − X2 ;
iii) la covarianza di X1 e 5X2 − 3X1 . Sono indipendenti?
Soluzione.
i) (X1 , X3 ) ha legge normale multidimensionale, con media e matrice di covarianza date rispettivamente
da ! !
−1 25 −5
e=
µ , C=
e .
3 −5 11
ii) Si ha
1
ϕX (η) = ei(−η1 +7η2 +3η3 )− 2 ⟨Cη,η⟩ , η = (η1 , η2 , η3 ) ∈ R3 .
Inoltre X3 − X2 ∼ N4,29 e quindi
1 2
ϕX3 −X2 (η) = e−4iη− 2 29η , η ∈ R.
631
iii) Si ha
cov(X1 , 5X2 − 3X1 ) = 5cov(X1 , X2 ) − 3var(X1 ) = 0.
Quindi X1 e 5X2 − 3X1 sono indipendenti.
4. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ (1 − n1 )δ−1 + n1 δ1 . Sia inoltre Z una variabile
aleatoria a valori reali con funzione caratteristica ϕZ . Supponiamo che Z sia indipendente da Xn , per
ogni n ∈ N. Poniamo infine Yn = Xn Z, per ogni n ∈ N.
Soluzione.
i) Abbiamo che
h i h i h i
ϕYn (η) = E eiηXn Z = E eiηXn Z 1(Xn =−1) + E eiηXn Z 1(Xn =1)
h i h i
= E e−iηZ 1(Xn =−1) + E eiηZ 1(Xn =1) =
(per indipendenza)
h i h i
= E e−iηZ P (Xn = −1) + E eiηZ P (Xn = 1)
1 1
= 1 − ϕZ (−η) + ϕZ (η).
n n
Poiché la funzione η 7→ ϕZ (−η) è continua in zero, per il Teorema di continuità di Lévy, Yn converge
in legge ad una (qualunque) variabile aleatoria avente funzione caratteristica ϕZ (−η) (per esempio,
questo è il caso della variabile aleatoria −Z).
iii) Yn converge in L1 a −Z, infatti
2
E [|Yn + Z|] = E [|Xn + 1||Z|] = E [|Xn + 1|] E [|Z|] = E [|Z|] −−−−−−→ 0.
n n→∞
632 APPENDICE B. TEMI D’ESAME RISOLTI
1. Elena si reca ogni giorno al lavoro in bicicletta. Qualche volta (più precisamente, nel 40% dei casi),
per fare più presto, attraversa una zona pedonale vietata alle biciclette, dove rischia (nel 20% dei
casi) di essere fermata da un vigile e, dunque, di ricevere una multa. L’attraversamento di questa
zona pedonale è l’unico motivo per cui Elena può ricevere una multa nel suo percorso in bici tra casa
e ufficio (supponiamo quindi che non commetta mai altre infrazioni).
i) Qual è la probabilità che oggi Elena, nel venire al lavoro, sia stata multata?
ii) Sapendo che Elena non è stata multata, qual è la probabilità che sia passata per la zona pedonale?
2. Sia
γ(x, y) = c(2x2 y + 1)1D (x, y), (x, y) ∈ R2 ,
dove c ∈ R e D = {(x, y) ∈ R2 | |x| < 1, |y − 1| < 1}.
i) Trovare il valore del parametro c tale che γ sia una densità;
ii) determinare le densità marginali della variabile aleatoria (X, Y ) con densità γ;
iii) X e Y sono scorrelate?
iv) X e Y sono indipendenti?
4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3
1. Elena si reca ogni giorno al lavoro in bicicletta. Qualche volta (più precisamente, nel 40% dei casi),
per fare più presto, attraversa una zona pedonale vietata alle biciclette, dove rischia (nel 20% dei
casi) di essere fermata da un vigile e, dunque, di ricevere una multa. L’attraversamento di questa
zona pedonale è l’unico motivo per cui Elena può ricevere una multa nel suo percorso in bici tra casa
e ufficio (supponiamo quindi che non commetta mai altre infrazioni).
i) Qual è la probabilità che oggi Elena, nel venire al lavoro, sia stata multata?
ii) Sapendo che Elena non è stata multata, qual è la probabilità che sia passata per la zona pedonale?
Soluzione.
Dal testo dell’esercizio sappiamo che P (A) = 0.4, P (B|A) = 0.2 e P (B|Ac ) = 0. Quindi
2. Sia
γ(x, y) = c(2x2 y + 1)1D (x, y), (x, y) ∈ R2 ,
dove c ∈ R e D = {(x, y) ∈ R2 | |x| < 1, |y − 1| < 1}.
Soluzione.
ii) Si ha che
Z Z2
3 3
γX (x) = γ(x, y)dy = 1]−1,1[ (x) (2x2 y + 1)dy = (4x2 + 2)1]−1,1[ (x),
R 20 0 20
Z Z1
3 3 4
γY (y) = γ(x, y)dx = 1]0,2[ (y) (2x2 y + 1)dx = y + 2 1]0,2[ (y).
R 20 −1 20 3
Soluzione.
i) Per l’indipendenza, si ha che E[Z1 Z2 ] = E[Z1 ]E[Z2 ] = 0 e E[Z12 Z22 ] = E[Z12 ]E[Z22 ] = 1, da cui segue che
var(Z1 Z2 ) = E[Z12 Z22 ]−E[Z1 Z2 ]2 = 1. Inoltre, cov(Z1 , Z1 Z2 ) = E[Z12 Z2 ]−E[Z1 ]E[Z1 Z2 ] = E[Z12 Z2 ] =
E[Z12 ]E[Z2 ] = 0. Quindi ! !
0 1 0
µ= , C= .
0 0 1
ii) le variabili aleatorie X1 e X2 non sono indipendenti. Se lo fossero allora E[X12 X22 ] = E[X12 ]E[X22 ], invece
si ha che E[X12 X22 ] = E[Z14 Z22 ] = E[Z14 ]E[Z22 ] = 3, mentre E[X12 ] = E[Z12 ] = 1 e E[X22 ] = E[Z12 Z22 ] =
E[Z12 ]E[Z22 ] = 1.
iii) X1 e X2 sono scorrelate ma non indipendenti: se (X1 , X2 ) avesse distribuzione normale bidimensionale,
ciò sarebbe in contraddizione con la Proposizione 3.5.18.
iv)
P (X1 > X2 ) = P (Z1 > Z1 Z2 ) = P ((Z1 > Z1 Z2 ) ∩ (Z1 > 0)) + P ((Z1 > Z1 Z2 ) ∩ (Z1 < 0))
= P ((Z1 > 0) ∩ (Z2 < 1)) + P ((Z1 < 0) ∩ (Z2 > 1))
= P (Z1 > 0)P (Z2 < 1) + P (Z1 < 0)P (Z2 > 1)
1 1 1
= P (Z2 < 1) + P (Z2 > 1) = .
2 2 2
635
4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3
Soluzione.
i) Abbiamo che
R0, x < 0,
FXn (x) = x 2n nx(nx+2)
3 dy = , x ≥ 0.
(nx+1)2
0 (ny+1)
Quindi la successione di funzioni (FXn )n∈N converge puntualmente ovunque, tranne in x = 0, alla
funzione di ripartizione della variabile aleatoria nulla, ossia
0, x < 0,
F(x) =
1,
x ≥ 0.
Per il Teorema 4.3.3, (Xn )n∈N converge in legge alla variabile aleatoria nulla.
iii) Il limite in L1 , se esiste, deve essere zero, per quanto visto al punto precedente. In effetti si ha
Z +∞
1 +∞ 2y
Z
2nx
E[|Xn |] = E[Xn ] = dx = dy −−−−−−→ 0
0 (nx + 1)3 n 0 (y + 1)3 n→∞
essendo l’integrale chiaramente convergente e quindi uguale a una costante finita (che, per la precisio-
ne, si mostra con un semplice calcolo essere esattamente uguale a 1). Perció (Xn )n∈N tende a zero anche
in L1 .
636 APPENDICE B. TEMI D’ESAME RISOLTI
1. In un’urna ci sono due palline che possono essere rosse (R) o bianche (B). La composizione esatta
non è nota, quindi le composizioni possibili sono:
Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale probabi-
lità pari a 31 alle tre composizioni possibili, che denotiamo H0 , H1 e H2 .
i) Se si estrae una pallina dall’urna, qual è la probabilità che sia bianca?
ii) Si effettuano due estrazioni con reimmissione: sapendo che la prima pallina estratta è bianca,
qual è la probabilità che anche la seconda pallina estratta sia bianca?
3. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(1 + nx)3
i) Si calcoli la CDF di Xn ;
ii) si mostri che (Xn )n∈N converge in legge e se ne determini la legge limite;
iii) si mostri che la convergenza ha luogo anche in probabilità.
4. Un ingegnere elettronico deve costruire un sistema costituito da tre componenti in serie. Pesca i
tre componenti da una scatola in cui vi sono tre componenti nuovi, due usati ma funzionanti e due
difettosi. Siano X e Y rispettivamente il numero di componenti nuovi e di componenti usati ma
funzionanti tra quelli pescati dalla scatola.
i) Determinare la funzione di distribuzione congiunta di X e Y . Quanto vale P (Y = 0)?
ii) Calcolare la legge condizionata µX|B di X dato l’evento B := (Y = 0), in particolare riportandone
la funzione di distribuzione µ̄X|B ;
iii) determinare il valore atteso condizionato E[X|Y = 0].
637
1. In un’urna ci sono due palline che possono essere rosse (R) o bianche (B). La composizione esatta
non è nota, quindi le composizioni possibili sono:
Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale probabi-
lità pari a 31 alle tre composizioni possibili, che denotiamo H0 , H1 e H2 .
i) Se si estrae una pallina dall’urna, qual è la probabilità che sia bianca?
ii) Si effettuano due estrazioni con reimmissione: sapendo che la prima pallina estratta è bianca,
qual è la probabilità che anche la seconda pallina estratta sia bianca?
Soluzione.
i) Introduciamo gli eventi
1
P (B1 ) = P (B1 |H0 ) P (H0 ) + P (B1 |H1 ) P (H1 ) + P (B1 |H2 ) P (H2 ) = .
2
ii) La probabilità richiesta è P (B2 |B1 ). Dalla definizione di probabilità condizionata, si ha che
P (B1 ∩ B2 )
P (B2 |B1 ) = .
P (B1 )
Inoltre
1 1 1 1 5
= 0+ · · + = .
3 2 2 3 12
Quindi
5
P (B1 ∩ B2 ) 12 5
P (B2 |B1 ) = = 1
= .
P (B1 ) 2
6
Soluzione.
R
i) Deve essere c > 0 e deve valere R2
γ(X,Y ) (x, y)dxdy = 1, da cui
+∞ +∞ Z +∞
1√
Z Z !
− 12 y 2 1 − 1+y
x 1 2
1=c e e dx dy = c e− 2 y dy = c 2π,
0 0 1+y 0 2
q
2
perció c = π.
ii) r r
Z +∞
2 − 1 y2 1 − 1+y
x 2 − 1 y2
γY (y) = e 2 1]0,+∞[ (y) e dx = e 2 1]0,+∞[ (y).
π 0 1+y π
iii) r
Z +∞ Z +∞
2 − 1 y2 1 − 1+y
x iη x
X
ϕZ (η) = E eiη 1+Y = e 2 e e 1+y dxdy.
0 π 0 1+y
x
Nell’integrale rispetto alla variabile x effettuiamo il cambio di variabile z = 1+y ottenendo
Z +∞ Z +∞
1 − 1+y
x iη x
e e 1+y dx = e−z eiηz dz.
0 1+y 0
R +∞ q
2 − 21 y 2
Quindi (usando che 0 πe dy = 1)
r
Z +∞ Z +∞ Z +∞
2 − 1 y2
ϕZ (η) = e 2 dy e−z eiηz dz = e−z eiηz dz
0 π 0 0
3. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità
2n
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(1 + nx)3
i) Si calcoli la CDF di Xn ;
ii) si mostri che (Xn )n∈N converge in legge e se ne determini la legge limite;
iii) si mostri che la convergenza ha luogo anche in probabilità.
Soluzione.
La funzione G coincide ovunque tranne in x = 0 con la CDF della distribuzione δ0 . Quindi FXn
converge puntualmente alla CDF di δ0 in tutti i punti di continuità di tale CDF. Di conseguenza, per
il Teorema 4.3.3 Xn → 0 in legge.
iii) Dato che (Xn )n∈N converge in legge ad una costante (la costante zero), la convergenza ha luogo anche
in probabilità.
4. Un ingegnere elettronico deve costruire un sistema costituito da tre componenti in serie. Pesca i
tre componenti da una scatola in cui vi sono tre componenti nuovi, due usati ma funzionanti e due
difettosi. Siano X e Y rispettivamente il numero di componenti nuovi e di componenti usati ma
funzionanti tra quelli pescati dalla scatola.
i) Determinare la funzione di distribuzione congiunta di X e Y . Quanto vale P (Y = 0)?
ii) Calcolare la legge condizionata µX|B di X dato l’evento B := (Y = 0), in particolare riportandone
la funzione di distribuzione µ̄X|B ;
iii) determinare il valore atteso condizionato E[X|Y = 0].
Soluzione.
i) Si noti che, ad esempio,
3 2 2
1 1 1
µ̄(X,Y ) (1, 1) = P ((X = 1) ∩ (Y = 1)) = 7
.
3
In generale, si ha che
3 2 2
i j 3−(i+j)
µ̄(X,Y ) (i, j) = P ((X = i) ∩ (Y = j)) = 7
, i = 1, 2, 3, j = 0, 1, 2, i + j ≤ 3.
3
Quindi
3 3 2 2 3 2 2 3 2 2
X
1 0 2 2 0 1 3 0 0 2
P (Y = 0) = µ̄Y (0) = µ̄(X,Y ) (i, 0) = 7
+ 7
+ 7
= .
7
i=1 3 3 3
1. Un’urna contiene una pallina bianca ed una rossa. Una pallina viene estratta a caso. Se è bianca
il gioco termina. Se è rossa la pallina viene rimessa nell’urna insieme ad un’altra dello stesso co-
lore. Supponiamo che questa procedura venga ripetuta fino ad aver fatto 4 estrazioni o alla prima
estrazione di una pallina bianca, se si presenta prima della quarta estrazione.
i) Qual è la probabilità che il gioco termini alla terza estrazione?
ii) Qual è la probabilità che il gioco termini prima della quarta estrazione?
iii) Sapendo che il gioco è terminato prima della quarta estrazione, qual è la probabilità che sia
terminato alla terza estrazione?
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con X1 ∼ Exp1 . Sia
Yn = max{X1 , . . . , Xn } − log n, n ∈ N.
i) Si esprima la CDF di Yn in termini della CDF della distribuzione Exp1 che indichiamo con F.
ii) Studiare la convergenza in legge di (Yn )n∈N e si determini la densità della distribuzione limite.
641
1. Un’urna contiene una pallina bianca ed una rossa. Una pallina viene estratta a caso. Se è bianca
il gioco termina. Se è rossa la pallina viene rimessa nell’urna insieme ad un’altra dello stesso co-
lore. Supponiamo che questa procedura venga ripetuta fino ad aver fatto 4 estrazioni o alla prima
estrazione di una pallina bianca, se si presenta prima della quarta estrazione.
Soluzione.
1 2 1 1
P (A) = P (R1 ∩ R2 ∩ B3 ) = · · = .
2 3 4 12
ii) L’evento
C = “il gioco termina prima della quarta estrazione”
è dato da
C = R1 ∪ R1 ∩ B2 ∪ R1 ∩ R2 ∩ B3 ).
Quindi
1 1 1 1 3
P (C) = P (R1 ) + P (R1 ∩ B2 ) + P (R1 ∩ R2 ∩ B3 ) = + · + = .
2 2 3 12 4
iii) Per la formula di Bayes
P (A ∩ C) P (A) 1
P (A|C) = = = .
P (C) P (C) 9
Soluzione.
i) Si ha γX (x) = 0 per x < 0, mentre per x ≥ 0 otteniamo
Z +∞
γX (x) = (y − x)e−y dy = e−x .
x
Soluzione.
i) Si ha
h i h i h i
ϕY (η) = E eiηY = E eiηX 1(|X|≤1) + E e−iηX 1(|X|>1)
h i h i
= E eiηX 1(|X|≤1) + E e−iηX 1(|−X|>1) .
ii) Si ha
X + Y = X + X1(|X|≤1) − X1(|X|>1)
= X + X1(|X|≤1) − X 1 − 1(|X|≤1) = 2X1(|X|≤1) .
Quindi
P (X + Y = 0) = P 2X1(|X|≤1) = 0 )
Z −1
1 1 2
= P (|X| > 1) = 2P (X < −1) = 2 √ e− 2 x dx ∈]0, 1[.
−∞ 2π
iii) X e Y non sono congiuntamente Gaussiane, altrimenti X + Y dovrebbe avere distribuzione normale,
ma dal punto precedente sappiamo che P (X + Y = 0) > 0 e quindi la distribuzione di X + Y non è
assolutamente continua. Inoltre, P (X + Y = 0) < 1 quindi X + Y non ha distribuzione N0,0 = δ0 .
Infine, X e Y non sono indipendenti, altrimenti sarebbero congiuntamente Gaussiane.
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con X1 ∼ Exp1 . Sia
Yn = max{X1 , . . . , Xn } − log n, n ∈ N.
i) Si esprima la CDF di Yn in termini della CDF della distribuzione Exp1 che indichiamo con F.
ii) Studiare la convergenza in legge di (Yn )n∈N e si determini la densità della distribuzione limite.
Soluzione.
i) Abbiamo che
FYn (t) = P (Yn ≤ t) = P (max{X1 , . . . , Xn } ≤ t + log n)
= P ((X1 ≤ t + log n) ∩ · · · ∩ (Xn ≤ t + log n))
= (P (X1 ≤ t + log n))n = (F(t + log n))n .
ii) Per ogni t ∈ R, la quantità t + log n è positiva per n sufficientemente grande, quindi
!n
n
−t−log n n
e−t −t
FYn (t) = (F(t + log n)) = 1 − e = 1− −−−−−−→ e−e =: G(t).
n n→∞
Notiamo che G verifica le proprietà di una CDF. Quindi (Yn )n∈N converge in legge ad una variabile
aleatoria Z avente CDF data da G. La densità della distribuzione limite si ottiene derivando la CDF
−t −t
γZ (t) = G′ (t) = e−e , t ∈ R.
0.3
0.2
0.1
-4 -2 2 4
1. Supponiamo che un’urna contenga una pallina rossa e una pallina bianca. Una pallina è estratta e se
ne guarda il colore. Essa viene poi rimessa nell’urna insieme ad una pallina dello stesso colore.
i) Qual è la probabilità di estrarre una pallina rossa alla seconda estrazione?
ii) Sapendo che la seconda estratta è rossa, è più probabile che la prima pallina estratta sia stata
rossa o bianca?
2. Sia (X, Y ) una variabile aleatoria assolutamente continua con densità
i) Trovare la densità di X e servirsene per calcolare il valore della costante c. Che legge ha X?
i) Determinare la CDF di Z := log X.
i) Calcolare E[eX−Y ].
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con Xn ∼ Unif[0,2] . Poniamo
Yn = min{X1 , . . . , Xn }, n ∈ N.
Poniamo inoltre Y0 = 2. Sia ora (Mn )n∈N una successione di variabili aleatorie, indipendenti tra loro e
indipendenti da (Xn )n∈N , tali che Mn ∼ Poissonn . Poniamo infine
Zn = YMn , n ∈ N,
ossia
Y0 , se Mn = 0,
Y1 , se Mn = 1,
..
Zn =
.
Yk , se Mn = k,
...
1. Supponiamo che un’urna contenga una pallina rossa e una pallina bianca. Una pallina è estratta e se
ne guarda il colore. Essa viene poi rimessa nell’urna insieme ad una pallina dello stesso colore.
i) Qual è la probabilità di estrarre una pallina rossa alla seconda estrazione?
ii) Sapendo che la seconda estratta è rossa, è più probabile che la prima pallina estratta sia stata
rossa o bianca?
Soluzione.
i) Introduciamo gli eventi
Quindi è più probabile che la prima pallina estratta sia stata rossa.
i) Trovare la densità di X e servirsene per calcolare il valore della costante c. Che legge ha X?
i) Determinare la CDF di Z := log X.
i) Calcolare E[eX−Y ].
Soluzione.
i) Si ha Z
γX (x) = γ(X,Y ) (x, y)dy = ce−x 1]0,+∞[ (x),
R
da cui c = 1 e X ∼ Exp1 .
646 APPENDICE B. TEMI D’ESAME RISOLTI
ii) Si ha
z
FZ (z) = P (log X ≤ z) = P (X ≤ ez ) = FX (ez ) = 1 − e−e , z ∈ R.
iii)
i Z Z Z +∞ Z x+1 !
h
X−Y x−y −y 1
E e = e γ(X,Y ) (x, y)dxdy = e dy dx = 1 − .
R R 0 x e
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con Xn ∼ Unif[0,2] . Poniamo
Yn = min{X1 , . . . , Xn }, n ∈ N.
Poniamo inoltre Y0 = 2. Sia ora (Mn )n∈N una successione di variabili aleatorie, indipendenti tra loro e
indipendenti da (Xn )n∈N , tali che Mn ∼ Poissonn . Poniamo infine
Zn = YMn , n ∈ N,
ossia
Y0 , se Mn = 0,
Y1 , se Mn = 1,
..
Zn =
.
Y k, se Mn = k,
.
..
Soluzione.
i) Si ha che
0, y < 2,
FY0 (y) =
1, y ≥ 2.
Quindi
0, y ≤ 0,
!n
1
FYn (y) = 1− 1− y , 0 < y < 2,
2
1, y ≥ 2.
647
ii) FZn (z) = 0 per z ≤ 0 e FZn (z) = 1 per z ≥ 2, mentre per 0 < z < 2 si ha che (usando l’indentità
+∞
P −λ λk
e k! = 1, valida per ogni λ > 0)
k=0
+∞
X +∞
X
FZn (z) = P (Z ≤ z) = P ((Z ≤ z) ∩ (Mn = k)) = P ((Yk ≤ z) ∩ (Mn = k))
k=0 k=0
+∞ +∞
X X nk
= P (Yk ≤ z)P (Mn = k) = 1 − (1 − F(z))k e−n
k!
k=0 k=0
+∞ +∞
X nk X nk
= e−n − e−n (1 − F(z))k
k! k!
k=0 k=0
+∞
X (n(1 − F(z)))k
= 1 − e−n en(1−F(z)) e−n(1−F(z))
k!
k=0
−n n(1−F(z))
= 1−e e = 1 − e−nF(z) .
Quindi
0, z ≤ 0,
− 21 nz
FZn (z) = 1 − e , 0 < z < 2,
1,
z ≥ 2.
iii) Si ha che
0, z ≤ 0,
lim FZn (z) = G(z) :=
n→+∞ 1
z > 0.
Sia Fδ0 la CDF della distribuzione δ0 . Allora G coincide con Fδ0 ovunque tranne in 0, che è un punto
di discontinuità per Fδ0 . Di conseguenza Zn → 0 in legge.
iv) Dato che (Zn )n∈N converge in legge ad una costante (la costante zero), la convergenza ha luogo anche
in probabilità.
4. Sia D il risultato del lancio di un dado a tre facce, numerate da 1 a 3. Sulla base del risultato si lancino
D monete. Sia T il numero di teste cosı̀ ottenuto.
i) Determinare la legge condizionata µT |Bi di T all’evento Bi := (D = i), per i = 1, 2, 3.
ii) Calcolare E[T |D = i].
Soluzione.
i) Si ha che µT |Bi = Bini, 1 , per i = 1, 2, 3. In altri termini, vale µT |D = BinD, 1 .
2 2
ii) Dato che µT |Bi = Bini, 1 , si ottiene E[T |D = i] = 2i . In altri termini, vale E[T |D] = D
2.
2
648 APPENDICE B. TEMI D’ESAME RISOLTI
2. Sia V := (Xϱ , Yϱ , Z) un vettore aleatorio con distribuzione multinormale con media nulla e matrice di
covarianza
1 ϱ 0
C = ϱ 1 0
0 0 1
Si determini:
i) la densità condizionata γX|Y ;
h i
ii) la CHF condizionata ϕX|Y (η) = E eiηX | Y , η ∈ R;
iii) la CHF ϕX della variabile aleatoria X.
4. Dare un esempio di due funzioni Borel misurabili f , g e di due variabili aleatorie X, Y tali che f = g
quasi ovunque, P (X = Y ) = 1 ma E [f (X)] , E [g(Y )].
649
Soluzione.
i) La probabilità è
46
1 − Bin6, 1 ({0}) = 1 − ≈ 74%.
5 56
ii) Per la formula della probabilità totale, la probabilità cercata è
6 6
4k
!
1 X 1X
1 − Bink, 1 ({0}) = 1 − k ≈ 51%.
6 5 6 5
k=1 k=1
iii) Se Bn indica l’evento “estraggo una pallina bianca all’n-esima estrazione”, per la formula di moltipli-
cazione, la probabilità cercata è
4 3 2 3
1 − P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) = 1 − · · = .
5 4 3 5
2. Sia V := (Xϱ , Yϱ , Z) un vettore aleatorio con distribuzione multinormale con media nulla e matrice di
covarianza
1 ϱ 0
C = ϱ 1 0
0 0 1
Di conseguenza:
i) Wϱ è assolutamente continua se e solo se ACA∗ è non-degenere ossia per −1 < ϱ < 1;
ii) Xϱ −Yϱ e Xϱ +Yϱ sono indipendenti per ogni ϱ ∈ [−1, 1] perché sono variabili scorrelate con distribuzione
congiunta normale;
iii) Xϱ − Yϱ ∼ N0,2(1−ϱ) e
lim N0,2(1−ϱ) = δ0 .
ϱ→1−
Inoltre
∥Xϱ − Yϱ ∥2L2 = var(Xϱ − Yϱ ) = 2(1 − ϱ)
e quindi c’è anche convergenza in L2 alla variabile nulla;
√
iv) Xϱ + Yϱ ∼ N0,2(1+ϱ) , 2Z ∼ N0,2 e
lim N0,2(1+ϱ) = N0,2
ϱ→0
Si determini:
i) la densità condizionata γX|Y ;
h i
ii) la CHF condizionata ϕX|Y (η) = E eiηX | Y , η ∈ R;
iii) la CHF ϕX della variabile aleatoria X.
Soluzione.
i) La densità congiunta è γ(X,Y ) = 1T e la marginale di Y è
Z
γY (y) = γ(X,Y ) (x, y)dx = 2y1]0,1[ (y). (B.0.3)
R
Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = = 1 (x), y ∈ ]0, 1[,
γY (y) 2y [−y,y]
da cui riconosciamo che µX|Y = Unif[−Y ,Y ] .
651
iii) Si ha
" #
h h ii sin(ηY )
ϕX (η) = E E eiηX | Y = E =
ηY
(per la (B.0.3))
Z 1
sin(ηy) 2 − 2 cos η
= 2ydy = .
0 ηy η2
4. Dare un esempio di due funzioni Borel misurabili f , g e di due variabili aleatorie X, Y tali che f = g
quasi ovunque, P (X = Y ) = 1 ma E [f (X)] , E [g(Y )].
1
γ(x) = (2yx − y + 2) 1[0,1] (x)
2
è una densità.
ii) Si consideri poi un vettore aleatorio (X, Y ) con densità
1
γ(X,Y ) (x, y) = (2yx − y + 2) 1[0,1] (x)1[−1,0] (y).
2
Le variabili X e Y sono indipendenti?
√
iii) Si determini una densità di Z := 1 + Y .
4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità
2n2 x
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3
P (B) = P (B ∩ A) + P (B ∩ Ac ) = P (B ∩ A)
Soluzione.
i) Si ha
5 5
X 1 X 5 − (k − 1) 3
P (A) = P (A | X1 = k)P (X1 = k) = = .
5 5 5
k=1 k=1
ii) Si ha
5 5
X 1 X 5−k 1
P (B) = P (B | X1 = k)P (X1 = k) = = .
5 4 2
k=1 k=1
iii) Sia U l’evento “entrambe le palline sono estratte dalla stessa urna”. In base ai punti precedenti, si ha
1 3 1 11
P (C) = P (C | U )P (U ) + P (C | U c )P (U c ) = + = .
2 5 2 20
iv) X1 ∼ Unif{1,2,3,4,5} , −X2 ∼ Unif{−1,−2,−3,−4,−5} e sono indipendenti. La legge di S si può allora calcolare
con la formula (3.6.3). In alternativa, si possono calcolare direttamente le singole probabilità P (S = k),
con −4 ≤ k ≤ 4: 1
25 per k = ±4,
2
per k = ±3,
25
5 − |k| 3
P (S = k) = = 25 per k = ±2,
25
4
25 per k = ±1,
5
per k = 0.
25
654 APPENDICE B. TEMI D’ESAME RISOLTI
1
γ(x) = (2yx − y + 2) 1[0,1] (x)
2
è una densità.
ii) Si consideri poi un vettore aleatorio (X, Y ) con densità
1
γ(X,Y ) (x, y) = (2yx − y + 2) 1[0,1] (x)1[−1,0] (y).
2
Le variabili X e Y sono indipendenti?
√
iii) Si determini una densità di Z := 1 + Y .
Soluzione.
i) La funzione γ ha integrale 1 per ogni y ∈ R: per essere una densità è necessario anche che γ ≥ 0 e ciò è
vero quando γ(0) ≥ 0 e γ(1) ≥ 0 ossia per y ∈ [−2, 2].
ii) Calcoliamo le densità marginali
Z 0
5 − 2x
γX (x) = γ(X,Y ) (x, y)dy = 1[0,1] (x),
−1 4
Z 1
γY (y) = γ(X,Y ) (x, y)dx = 1[−1,0] (y).
0
Poiché la densità congiunta non è il prodotto delle marginali, le variabili non sono indipendenti.
iii) Per z ∈ [0, 1], si ha
√
FZ (z) = P ( 1 + Y ≤ z) = P (Y ≤ z2 − 1) = z2 .
Inoltre, FZ (z) = 0 per z ≤ 0 e FZ (z) = 1 per z ≥ 1. Ne segue che γZ (z) = 2z1[0,1] (z) è una densità di Z.
4. Sia (Xn )n∈N una successione di variabili aleatorie assolutamente continue con densità
2n2 x
γXn (x) = 1[0,+∞[ (x), x ∈ R.
(nx + 1)3
Soluzione.
i) Si ha
0, x < 0,
FXn (x) =
x
R 2n2 y n2 x 2
0 (ny+1)3
dy = (nx+1)2
, x ≥ 0.
655
Quindi la successione di funzioni (FXn )n∈N converge puntualmente ovunque, tranne in x = 0, alla
funzione di ripartizione della variabile aleatoria nulla, ossia
0, x < 0,
F(x) =
1,
x ≥ 0.
Per il Teorema 4.3.3, (Xn )n∈N converge in legge alla variabile aleatoria nulla.
iii) Il limite in probabilità, se esiste, deve essere zero, per quanto visto al punto precedente. Per ogni ε > 0
si ha Z +∞
2nx 1 + 2nε
P (|Xn | ≥ ε) = 3
dx = −−−−−−→ 0
ε (nx + 1) (nx + 1)2 n→∞
e quindi si ha convergenza in probabilità.
iv) Si ha
+∞
2nx1+p
Z
p
E[|Xn |p ] = E[Xn ] = dx = +∞
0 (nx + 1)3
per ogni p ≥ 1. Quindi Xn < Lp (Ω, P ) e non si ha convergenza in Lp .
656 APPENDICE B. TEMI D’ESAME RISOLTI
1. Si effettuano una serie di estrazioni, senza reinserimento, da un’urna che contiene 1 pallina rossa, 5
palline nere e 10 palline bianche. Si determini:
i) la probabilità che le prime due palline estratte abbiano lo stesso colore;
ii) la funzione di distribuzione della variabile aleatoria X che indica il numero della prima estra-
zione di una pallina bianca.
Si determini:
i) la legge di (X1 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) per quale valore di a ∈ R le variabili aX1 − X2 e X3 sono indipendenti.
Xn ∼ Unif[−n,n] , n ∈ N.
Xn
i) Si calcoli la legge della variabile aleatoria Yn := n e si studi la convergenza debole della succes-
sione (Yn ) per n → +∞.
ii) Si provi che Yn non converge in L2 (Ω, P ), usando il fatto che
Z nZ m
x y 2 4(n4 + m4 )
− dydx = , n, m ∈ N.
−n −m n m 3nm
1. Si effettuano una serie di estrazioni, senza reinserimento, da un’urna che contiene 1 pallina rossa, 5
palline nere e 10 palline bianche. Si determini:
Soluzione.
i) Sia Bi =“l’i-esima pallina estratta è bianca” e Ni definito in modo analogo per le palline nere. Si ha
5 4 1
P (N1 ∩ N2 ) = P (N1 )P (N2 | N1 ) = · = ,
16 15 12
10 9 3
P (B1 ∩ B2 ) = P (B1 )P (B2 | B1 ) = · = .
16 15 8
1
Da cui la probabilità cercata è 12 + 38 = 11
24 .
10
ii) X assume valori naturali minori o uguali a 7. In particolare P (X = 1) = P (B1 ) = 16 e, per 2 ≤ k ≤ 6,
6 5 6 − (k − 2) 10
P (X = k) = P (Bc1 ∩ Bc2 ∩ · · · ∩ Bck−1 ∩ Bk ) = · ··· · .
16 15 16 − (k − 2) 16 − (k − 1)
Si determini:
i) la legge di (X1 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) per quale valore di a ∈ R le variabili aX1 − X2 e X3 sono indipendenti.
Soluzione.
ii) Si ha
1
ϕX (η) = e−iη3 − 2 ⟨Cη,η⟩ .
La matrice C è degenere (det C = 0) e quindi X non ha densità.
658 APPENDICE B. TEMI D’ESAME RISOLTI
iii) Vale !
a −1 0
(aX1 − X2 , X3 ) = AX, A=
0 0 1
!
1 + a2 1+a
e quindi (aX1 − X2 , X3 ) ∼ N0,ACA∗ = N0,Ĉ con Ĉ = . Allora le variabili aX1 − X2 e X3
1+a 2
sono indipendenti se e solo se a = −1.
Xn ∼ Unif[−n,n] , n ∈ N.
Xn
i) Si calcoli la legge della variabile aleatoria Yn := n e si studi la convergenza debole della succes-
sione (Yn ) per n → +∞.
ii) Si provi che Yn non converge in L2 (Ω, P ), usando il fatto che
n m
4(n4 + m4 )
Z Z 2
x y
− dydx = , n, m ∈ N.
−n −m n m 3nm
Soluzione.
i) Si ha
Z n
0 se z ≤ −1,
1
z+1
P (Yn ≤ z) = 1]−∞,nz] (x)dx = 2 se − 1 < z < 1
2n −n
1 se z ≥ 1.
Soluzione.
659
Si ha Z +∞
1
E [X] = dx = +∞.
1 x
ii) Y è una variabile aleatoria ben definita q.c. poiché X ≥ 1 q.c. e Y è funzione Borel-misurabile di X.
iii) Y assume valori in [0, 1] q.c. quindi la CDF vale ϕY (y) = 0 per y < 0 e ϕY (y) = 1 per y > 1. Inoltre
per y ∈ [0, 1] si ha Z +∞
1
P (Y ≤ y) = P (X ≥ y −2 ) = 2
dx = y 2 .
1
2
x
y
Nome Simbolo Funzione di distribuzione µ̄(k) Attesa Varianza Funzione caratteristica Proprietà: vedi pag.
n
n k n−k ,
Binomiale Binn,p k p (1 − p) 0≤k≤n np np(1 − p) 1 + p eiη − 1 40, 63, 96
iη −1
e−λ λk
Poisson Poissonλ k! , k ∈ N0 λ λ eλ(e ) 63, 97, 113, 118
1 1−p p
Geometrica Geomp p(1 − p)k−1 , k ∈ N p p2
98, 100
e−iη −1+p
(kb)(Nn−k
−b
) bn bn(N −b)(N −n)
Ipergeometrica Ipern,b,N N , 0 ≤ k ≤ n∧b N N 2 (N −1)
vedi file Mathematica 40, 100
(n)
661
662 APPENDICE C. TAVOLE RIASSUNTIVE DELLE PRINCIPALI DISTRIBUZIONI
1 1 λ
Esponenziale Expλ λe−λx 1R≥0 λ λ2 λ−iη 65,
1 x−µ 2 σ 2 η2
Normale reale Nµ,σ 2 √ 1 e− 2 ( σ ) µ σ2 eiµη− 2 65,
2πσ 2
λα e−λx λ α
α α
Gamma Gammaα,λ 1
Γ (α)x1−α R>0
(x) λ λ2 λ−iη 103
−x n
Chi-quadro a n gradi χ2 (n) = Gamma n , 1 n
1 e 2
1− n
1R>0 (x) n 2n (1 − 2iη)− 2 161
2 2 2 2 Γ n2
( ) x 2
Indice analitico
663
664 INDICE ANALITICO
tightness, 179
d’uscita, 303 traiettoria, 227
tempo d’arresto trasformata di Fourier, 145
discreto, 295
Teorema uguaglianza
centrale del limite, 185 in legge, 95
del calcolo della media, 116, 191, 209 q.c., 93
della convergenza dominata, 112 uniforme integrabilità, 508
condizionato, 200
di Beppo-Levi, 109 v.a., 18, 90
condizionato, 200 assolutamente continua, 94
di Berry-Esseen, 187 valore atteso, 113, 115
di Carathéodory, 70, 80 variabile aleatoria, 90
di continuità di Kolmogorov, 280, 281 assolutamente continua, 94
di continuità di Lévy, 180 varianza, 117, 123
di convergenza di Vitali, 508 campionaria, 126
di Courrège, 257 variazione
di decomposizione di Doob, 237 prima, 333
di Doob, 130 Vasicek, 439
di estensione di Kolmogorov, 231, 232, 240 versione canonica
di Fubini, 133 di un processo continuo, 280
di Girsanov, 403 di un processo di Markov, 249
di Helly, 179 di un processo stocastico, 232
di inversione, 149 versione regolare della distribuzione
di Lévy, 393 condizionata, 209
di optional sampling, 299, 324, 331 Vitali, 30, 508
di Radon-Nikodym, 500
di rappresentazione di Riesz, 501 Wiener, 291
668 INDICE ANALITICO
Bibliografia
[2] F. Antonelli, Backward-forward stochastic differential equations, Ann. Appl. Probab., 3 (1993),
pp. 777–793.
[3] D. Applebaum, Lévy processes and stochastic calculus, vol. 93 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2004.
[4] D. G. Aronson, The fundamental solution of a linear parabolic equation containing a small parameter,
Illinois J. Math., 3 (1959), pp. 580–619.
[5] P. Baldi, Introduzione alla probabilità con elementi di statistica - Seconda edizione, McGraw-Hill, 2012.
[6] , Stochastic calculus, Universitext, Springer, Cham, 2017. An introduction through theory and
exercises.
[7] M. T. Barlow, One-dimensional stochastic differential equations with no strong solution, J. London Math.
Soc. (2), 26 (1982), pp. 335–347.
[8] E. Barucci, S. Polidoro, and V. Vespri, Some results on partial differential equations and Asian options,
Math. Models Methods Appl. Sci., 11 (2001), pp. 475–497.
[9] R. F. Bass, Probabilistic techniques in analysis, Probability and its Applications (New York), Springer-
Verlag, New York, 1995.
[10] , Stochastic processes, vol. 33 of Cambridge Series in Statistical and Probabilistic Mathematics,
Cambridge University Press, Cambridge, 2011.
[12] F. Baudoin, An introduction to the geometry of stochastic flows, Imperial College Press, London, 2004.
[13] , Diffusion processes and stochastic calculus, EMS Textbooks in Mathematics, European
Mathematical Society (EMS), Zürich, 2014.
[14] H. Bauer, Probability theory, vol. 23 of De Gruyter Studies in Mathematics, Walter de Gruyter & Co.,
Berlin, 1996. Translated from the fourth (1991) German edition by Robert B. Burckel and revised by
the author.
[15] M. Beiglböck, W. Schachermayer, and B. Veliyev, A short proof of the Doob-Meyer theorem, Stochastic
Process. Appl., 122 (2012), pp. 1204–1209.
[16] A. Bensoussan, Stochastic maximum principle for distributed parameter systems, J. Franklin Inst., 315
(1983), pp. 387–406.
669
670 BIBLIOGRAFIA
[17] F. Biagini and M. Campanino, Elements of probability and statistics, vol. 98 of Unitext, Springer,
[Cham], 2016. An introduction to probability with de Finetti’s approach and to Bayesian statistics,
Translated from the 2006 Italian original, La Matematica per il 3+2.
[18] P. Billingsley, Probability and measure, Wiley Series in Probability and Mathematical Statistics, John
Wiley & Sons, Inc., New York, third ed., 1995. A Wiley-Interscience Publication.
[19] , Convergence of probability measures, Wiley Series in Probability and Statistics: Probability and
Statistics, John Wiley & Sons, Inc., New York, second ed., 1999. A Wiley-Interscience Publication.
[20] J.-M. Bismut, Théorie probabiliste du contrôle des diffusions, Mem. Amer. Math. Soc., 4 (1976),
pp. xiii+130.
[21] T. Bjork, Arbitrage theory in continuous time, Second edition, Oxford University Press, Oxford, 2004.
[22] F. Black and M. Scholes, The pricing of options and corporate liabilities, J. Polit. Econ., 81 (1973),
pp. 637–654.
[23] R. M. Blumenthal and R. K. Getoor, Markov processes and potential theory, Pure and Applied
Mathematics, Vol. 29, Academic Press, New York-London, 1968.
[24] P. Brémaud, Point processes and queues, Springer-Verlag, New York-Berlin, 1981. Martingale dynamics,
Springer Series in Statistics.
[25] F. Caravenna and P. Dai Pra, Probabilità - Un’introduzione attraverso modelli e applicazioni, Springer,
2013.
[26] P.-L. Chow, Stochastic partial differential equations, Advances in Applied Mathematics, CRC Press,
Boca Raton, FL, second ed., 2015.
[27] K. L. Chung and J. L. Doob, Fields, optionality and measurability, Amer. J. Math., 87 (1965), pp. 397–
424.
[28] D. Costantini, Introduzione alla probabilità, Testi e manuali della scienza contemporanea. Serie di
logica matematica, Bollati Boringhieri, 1977.
[30] A. M. Davie, Uniqueness of solutions of stochastic differential equations, Int. Math. Res. Not. IMRN,
(2007), pp. Art. ID rnm124, 26.
[31] M. Di Francesco and A. Pascucci, On a class of degenerate parabolic equations of Kolmogorov type,
AMRX Appl. Math. Res. Express, 3 (2005), pp. 77–116.
[32] J. Dieudonné, Sur le théorème de Lebesgue-Nikodym. III, Ann. Univ. Grenoble. Sect. Sci. Math. Phys.
(N.S.), 23 (1948), pp. 25–53.
[33] J. L. Doob, Stochastic processes, John Wiley & Sons, Inc., New York; Chapman & Hall, Limited,
London, 1953.
[34] R. Durrett, Stochastic calculus, Probability and Stochastics Series, CRC Press, Boca Raton, FL, 1996.
A practical introduction.
[35] R. Durrett, Probability: theory and examples, vol. 49 of Cambridge Series in Statistical and Pro-
babilistic Mathematics, Cambridge University Press, Cambridge, 2019. Disponibile su https:
//services.math.duke.edu/~rtd/PTE/pte.html.
BIBLIOGRAFIA 671
[36] V. D’Urso and F. Giusberti, Esperimenti di psicologia - seconda edizione, Zanichelli, 2000.
[37] N. El Karoui, S. Peng, and M. C. Quenez, Backward stochastic differential equations in finance, Math.
Finance, 7 (1997), pp. 1–71.
[38] L. C. Evans, Partial differential equations, vol. 19 of Graduate Studies in Mathematics, American
Mathematical Society, Providence, RI, second ed., 2010.
[39] E. B. Fabes and D. W. Stroock, A new proof of Moser’s parabolic Harnack inequality using the old ideas
of Nash, Arch. Rational Mech. Anal., 96 (1986), pp. 327–338.
[40] A. M. Faden, The existence of regular conditional probabilities: necessary and sufficient conditions, Ann.
Probab., 13 (1985), pp. 288–298.
[41] W. Feller, Zur Theorie der stochastischen Prozesse, Math. Ann., 113 (1937), pp. 113–160.
[42] W. Feller, An introduction to probability theory and its applications. Vol. II, Second edition, John Wiley
& Sons, Inc., New York-London-Sydney, 1971.
[43] F. Flandoli, Regularity theory and stochastic flows for parabolic SPDEs, vol. 9 of Stochastics
Monographs, Gordon and Breach Science Publishers, Yverdon, 1995.
[44] , Random perturbation of PDEs and fluid dynamic models, vol. 2015 of Lecture Notes in Ma-
thematics, Springer, Heidelberg, 2011. Lectures from the 40th Probability Summer School held
in Saint-Flour, 2010, École d’Été de Probabilités de Saint-Flour. [Saint-Flour Probability Summer
School].
[45] A. Friedman, Partial differential equations of parabolic type, Prentice-Hall, Inc., Englewood Cliffs, N.J.,
1964.
[46] , Stochastic differential equations and applications, Dover Publications, Inc., Mineola, NY, 2006.
Two volumes bound as one, Reprint of the 1975 and 1976 original published in two volumes.
[47] B. Fristedt, N. Jain, and N. Krylov, Filtering and prediction: a primer, vol. 38 of Student Mathematical
Library, American Mathematical Society, Providence, RI, 2007.
[48] D. Gilbarg and N. S. Trudinger, Elliptic partial differential equations of second order, vol. 224
of Grundlehren der mathematischen Wissenschaften [Fundamental Principles of Mathematical
Sciences], Springer-Verlag, Berlin, second ed., 1983.
[49] P. Glasserman, Monte Carlo methods in financial engineering, vol. 53 of Applications of Mathematics
(New York), Springer-Verlag, New York, 2004. Stochastic Modelling and Applied Probability.
[50] P. Glasserman and B. Yu, Number of paths versus number of basis functions in American option pricing,
Ann. Appl. Probab., 14 (2004), pp. 2090–2119.
[51] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, 2016. Disponibile su http:
//www.deeplearningbook.org.
[52] P. R. Halmos, Measure Theory, D. Van Nostrand Company, Inc., New York, N. Y., 1950.
[53] L. Hörmander, Hypoelliptic second order differential equations, Acta Math., 119 (1967), pp. 147–171.
[54] K. Itô and S. Watanabe, Introduction to stochastic differential equations, in Proceedings of the Inter-
national Symposium on Stochastic Differential Equations (Res. Inst. Math. Sci., Kyoto Univ., Kyoto,
1976), Wiley, New York-Chichester-Brisbane, 1978, pp. i–xxx.
[55] J. Jacod and P. Protter, Probability essentials, Universitext, Springer-Verlag, Berlin, 2000.
672 BIBLIOGRAFIA
[56] J. Jacod and A. N. Shiryaev, Limit theorems for stochastic processes, vol. 288 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, second ed., 2003.
[57] O. Kallenberg, Foundations of modern probability, Probability and its Applications (New York),
Springer-Verlag, New York, second ed., 2002.
[58] I. Karatzas and S. E. Shreve, Brownian motion and stochastic calculus, vol. 113 of Graduate Texts in
Mathematics, Springer-Verlag, New York, second ed., 1991.
[59] A. Klenke, Probability theory, Universitext, Springer, London, second ed., 2014. A comprehensive
course.
[60] A. Kolmogoroff, Über die analytischen Methoden in der Wahrscheinlichkeitsrechnung, Math. Ann., 104
(1931), pp. 415–458.
[61] A. N. Kolmogorov, Selected works of A. N. Kolmogorov. Vol. III, Kluwer Academic Publishers Group,
Dordrecht, 1993. Edited by A. N. Shiryayev.
[62] V. N. Kolokoltsov, Markov processes, semigroups and generators, vol. 38 of De Gruyter Studies in
Mathematics, Walter de Gruyter & Co., Berlin, 2011.
[63] J. Komlós, A generalization of a problem of Steinhaus, Acta Math. Acad. Sci. Hungar., 18 (1967),
pp. 217–229.
[64] P. Kotelenez, Stochastic ordinary and stochastic partial differential equations, vol. 58 of Stochastic
Modelling and Applied Probability, Springer, New York, 2008. Transition from microscopic to
macroscopic equations.
[65] N. V. Krylov, Controlled diffusion processes, vol. 14 of Stochastic Modelling and Applied Probability,
Springer-Verlag, Berlin, 2009. Translated from the 1977 Russian original by A. B. Aries, Reprint of
the 1980 edition.
[66] H. Kunita, Stochastic flows and stochastic differential equations, vol. 24 of Cambridge Studies in
Advanced Mathematics, Cambridge University Press, Cambridge, 1997. Reprint of the 1990 original.
[70] , Lezioni di Analisi Matematica 2 - Seconda parte, Pitagora Editrice Bologna, 1997.
[71] E. Lanconelli and S. Polidoro, On a class of hypoelliptic evolution operators, Rend. Sem. Mat. Univ.
Politec. Torino, 52 (1994), pp. 29–63.
[72] P. Langevin, Sur la théorie du mouvement Brownien, C.R. Acad. Sci. Paris, 146 (1908), pp. 530–532.
[73] E. B. Lee and L. Markus, Foundations of optimal control theory, Robert E. Krieger Publishing Co., Inc.,
Melbourne, FL, second ed., 1986.
[74] D. S. Lemons, An introduction to stochastic processes in physics, Johns Hopkins University Press, Balti-
more, MD, 2002. Containing “On the theory of Brownian motion” by Paul Langevin, translated by
Anthony Gythiel.
BIBLIOGRAFIA 673
[75] G. Letta, Probabilità elementare. Compendio di teorie. Problemi risolti, Zanichelli, 1993.
[76] E. E. Levi, Sulle equazioni lineari totalmente ellittiche alle derivate parziali, Rend. Circ. Mat. Palermo,
24 (1907), pp. 275–317.
[77] W. Liu and M. Röckner, Stochastic partial differential equations: an introduction, Universitext,
Springer, Cham, 2015.
[78] S. V. Lototsky and B. L. Rozovskii, Stochastic partial differential equations, Universitext, Springer,
Cham, 2017.
[79] J. Ma and J. Yong, Forward-backward stochastic differential equations and their applications, vol. 1702
of Lecture Notes in Mathematics, Springer-Verlag, Berlin, 1999.
[80] L. Mazliak and G. Shafer, The splendors and miseries of martingales - Their history from the Casino to
Mathematics, Trends in the History of Science, Birkhäuser Cham, 2022.
[81] P.-A. Meyer, Probability and potentials, Blaisdell Publishing Co. Ginn and Co., Waltham,
Mass.-Toronto, Ont.-London, 1966.
[82] P.-A. Meyer, Stochastic processes from 1950 to the present, J. Électron. Hist. Probab. Stat., 5 (2009),
p. 42. Translated from the French [MR1796860] by Jeanine Sedjro.
[83] P. Mörters and Y. Peres, Brownian motion, vol. 30 of Cambridge Series in Statistical and Probabilistic
Mathematics, Cambridge University Press, Cambridge, 2010. With an appendix by Oded Schramm
and Wendelin Werner.
[84] D. Mumford, The dawning of the age of stochasticity, Atti Accad. Naz. Lincei Cl. Sci. Fis. Mat. Natur.
Rend. Lincei (9) Mat. Appl., (2000), pp. 107–125. Mathematics towards the third millennium (Rome,
1999).
[85] J. Neveu, Mathematical foundations of the calculus of probability, Translated by Amiel Feinstein,
Holden-Day, Inc., San Francisco, Calif.-London-Amsterdam, 1965.
[86] A. A. Novikov, A certain identity for stochastic integrals, Teor. Verojatnost. i Primenen., 17 (1972),
pp. 761–765.
[87] D. Nualart, The Malliavin calculus and related topics, Probability and its Applications (New York),
Springer-Verlag, Berlin, second ed., 2006.
[88] B. Oksendal, Stochastic differential equations, Universitext, Springer-Verlag, Berlin, fifth ed., 1998. An
introduction with applications.
[89] O. A. Oleinik and E. V. Radkevic, Second order equations with nonnegative characteristic form, Plenum
Press, New York-London, 1973. Translated from the Russian by Paul C. Fife.
[90] L. S. Ornstein and G. E. Uhlenbeck, On the theory of the Brownian motion., Physical Review, 36
(1930), pp. 823–841.
[91] E. Pardoux, Stochastic partial differential equations, SpringerBriefs in Mathematics, Springer, Cham,
[2021] ©2021. An introduction.
[92] E. Pardoux and S. G. Peng, Adapted solution of a backward stochastic differential equation, Systems
Control Lett., 14 (1990), pp. 55–61.
[93] E. Pardoux and A. Rascanu, Stochastic differential equations, backward SDEs, partial differential
equations, vol. 69 of Stochastic Modelling and Applied Probability, Springer, Cham, 2014.
674 BIBLIOGRAFIA
[94] A. Pascucci, PDE and martingale methods in option pricing, vol. 2 of Bocconi & Springer Series,
Springer, Milan; Bocconi University Press, Milan, 2011.
[95] J. A. Paulos, A mathematician reads the newspaper, Basic Books, New York, 2013. Paperback edition
of the 1995 original with a new preface.
[96] S. G. Peng, A nonlinear Feynman-Kac formula and applications, in Control theory, stochastic analysis
and applications (Hangzhou, 1991), World Sci. Publ., River Edge, NJ, 1991, pp. 173–184.
[97] N. Pintacuda, Probabilità, Zanichelli, 1995.
[98] W. Pogorzelski, Étude de la solution fondamentale de l’équation parabolique, Ricerche Mat., 5 (1956),
pp. 25–57.
[99] S. Polidoro, Uniqueness and representation theorems for solutions of Kolmogorov-Fokker-Planck
equations, Rend. Mat. Appl. (7), 15 (1995), pp. 535–560.
[100] C. Prévôt and M. Röckner, A concise course on stochastic partial differential equations, vol. 1905 of
Lecture Notes in Mathematics, Springer, Berlin, 2007.
[101] P. E. Protter, Stochastic integration and differential equations, vol. 21 of Stochastic Modelling and
Applied Probability, Springer-Verlag, Berlin, 2005. Second edition. Version 2.1, Corrected third
printing.
[102] C. E. Rasmussen and C. K. I. Williams, Gaussian Processes for Machine Learning, MIT Press, 2006.
Disponibile su http://www.gaussianprocess.org/gpml/.
[103] D. Revuz and M. Yor, Continuous martingales and Brownian motion, vol. 293 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, third ed., 1999.
[104] F. Riesz and B. Sz.-Nagy, Functional analysis, Frederick Ungar Publishing Co., New York, 1955.
Translated by Leo F. Boron.
[105] L. C. G. Rogers and D. Williams, Diffusions, Markov processes, and martingales. Vol. 2, Cambridge
Mathematical Library, Cambridge University Press, Cambridge, 2000. Itô calculus, Reprint of the
second (1994) edition.
[106] B. L. Rozovskii, Stochastic evolution systems, vol. 35 of Mathematics and its Applications (Soviet
Series), Kluwer Academic Publishers Group, Dordrecht, 1990. Linear theory and applications to
nonlinear filtering, Translated from the Russian by A. Yarkho.
[107] W. Rudin, Real and complex analysis, McGraw-Hill Book Co., New York, third ed., 1987.
[108] D. Salsburg, The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century,
Henry Holt and Company, 2002.
[109] R. L. Schilling, Sobolev embedding for stochastic processes, Expo. Math., 18 (2000), pp. 239–242.
[110] , Brownian motion—a guide to random processes and stochastic calculus, De Gruyter Textbook, De
Gruyter, Berlin, [2021] ©2021. With a chapter on simulation by Björn Böttcher, Third edition [of
2962168].
[111] A. Shaposhnikov and L. Wresch, Pathwise vs. path-by-path uniqueness, preprint, arXiv:2001.02869,
(2020).
[112] A. N. Shiryaev, Probability. 1, vol. 95 of Graduate Texts in Mathematics, Springer, New York,
third ed., 2016. Translated from the fourth (2007) Russian edition by R. P. Boas and D. M. Chibisov.
BIBLIOGRAFIA 675
[113] Y. G. Sinai, Probability theory, Springer Textbook, Springer-Verlag, Berlin, 1992. An introductory
course, Translated from the Russian and with a preface by D. Haughton.
[114] D. W. Stroock, Markov processes from K. Itô’s perspective, vol. 155 of Annals of Mathematics Studies,
Princeton University Press, Princeton, NJ, 2003.
[115] , Partial differential equations for probabilists, vol. 112 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2012. Paperback edition of the 2008 original.
[116] D. W. Stroock and S. R. S. Varadhan, Diffusion processes with continuous coefficients. I, Comm. Pure
Appl. Math., 22 (1969), pp. 345–400.
[117] , Diffusion processes with continuous coefficients. II, Comm. Pure Appl. Math., 22 (1969), pp. 479–
530.
[118] D. W. Stroock and S. R. S. Varadhan, Multidimensional diffusion processes, Classics in Mathematics,
Springer-Verlag, Berlin, 2006. Reprint of the 1997 edition.
[119] M. Struwe, Variational methods, vol. 34 of Ergebnisse der Mathematik und ihrer Grenzgebiete. 3.
Folge. A Series of Modern Surveys in Mathematics [Results in Mathematics and Related Areas.
3rd Series. A Series of Modern Surveys in Mathematics], Springer-Verlag, Berlin, fourth ed., 2008.
Applications to nonlinear partial differential equations and Hamiltonian systems.
[120] K. Taira, Semigroups, boundary value problems and Markov processes, Springer Monographs in
Mathematics, Springer, Heidelberg, second ed., 2014.
[121] H. Tanaka, Note on continuous additive functionals of the 1-dimensional Brownian path, Z.
Wahrscheinlichkeitstheorie und Verw. Gebiete, 1 (1962/63), pp. 251–257.
[122] A. Tychonoff, Théorèmes d’unicité pour l’equation de la chaleur, Math. Sbornik, 42 (1935), pp. 199–
216.
[123] J. A. van Casteren, Markov processes, Feller semigroups and evolution equations, vol. 12 of Series on
Concrete and Applicable Mathematics, World Scientific Publishing Co. Pte. Ltd., Hackensack, NJ,
2011.
[124] O. Vasicek, An equilibrium characterization of the term structure, J. Financial Economics, 5 (1977),
pp. 177–188.
[125] G. Vitali, Sul problema della misura dei gruppi di punti di una retta, Bologna, Tip. Gamberini e
Parmeggiani., (1905).
[126] D. Williams, Probability with martingales, Cambridge Mathematical Textbooks, Cambridge
University Press, Cambridge, 1991.
[127] T. Yamada and S. Watanabe, On the uniqueness of solutions of stochastic differential equations, J. Math.
Kyoto Univ., 11 (1971), pp. 155–167.
[128] J. Yong and X. Y. Zhou, Stochastic controls, vol. 43 of Applications of Mathematics (New York),
Springer-Verlag, New York, 1999. Hamiltonian systems and HJB equations.
[129] J. Zabczyk, Mathematical control theory—an introduction, Systems & Control: Foundations &
Applications, Birkhäuser/Springer, Cham, [2020] ©2020. Second edition [of 2348543].
[130] J. Zhang, Backward stochastic differential equations, vol. 86 of Probability Theory and Stochastic
Modelling, Springer, New York, 2017. From linear to fully nonlinear theory.
[131] A. K. Zvonkin, A transformation of the phase space of a diffusion process that will remove the drift, Mat.
Sb. (N.S.), 93(135) (1974), pp. 129–149, 152.