Sei sulla pagina 1di 392

Teoria della Probabilità

Corso di Laurea in Matematica, A.A.2019-20

Andrea Pascucci1

2 ottobre 2019

1 Email: andrea.pascucci@unibo.it Dipartimento di Matematica, Università di Bologna, Piazza di Porta S. Donato 5,


40126 Bologna, Italy
2

Istruzioni per l’uso


Queste note raccolgono, in forma minimale e schematica, i contenuti e gli esempi trattati nei corsi
di Probabilità e Statistica Matematica della Laurea Triennale in Matematica e Analisi Stocastica della
Laurea Magistrale in Matematica dell’Università di Bologna.
Di tutti i risultati si è cercato di dare una dimostrazione completa ma nello stesso tempo più semplice e
diretta possibile. Alla fine di ogni sezione viene fatta una sintesi breve e informale in cui si riassumono a
parole i concetti principali che devono essere trattenuti.
Queste note sono corredate da alcuni file Mathematica che contengono numerosi esempi e permettono di
fare esperimenti numerici per comprendere meglio i concetti teorici. I file sono disponibili all’indirizzo1
https://www.dropbox.com/sh/ejjjj09g8c3wipb/AAAsuxl9pMyr_vKjCkbJTJEaa?dl=0
La teoria della probabilità è un campo di studio e di ricerca molto vasto di cui in questo corso diamo solo un
primo “assaggio”. Sebbene le note siano sufficienti per la preparazione dell’esame, forniamo anche alcune
indicazioni bibliografiche per chi fosse interessato ad ampliare le proprie conoscenze nel campo della teoria
della probabilità e delle sue numerose applicazioni:
[4] è un testo completo e dettagliato che fornisce le conoscenze di base di analisi e probabilità (in par-
ticolare, analisi funzionale e teoria della misura). Dal capitolo 22 in poi sono trattati argomenti più
avanzati di analisi funzionale ed equazioni alle derivate parziali;
[12] è un testo completo e ricco di esercizi ed esempi: insieme a [35] (che è un po’ più accessibile e li-
mitato come quantità di materiale), sono eccellenti riferimenti per un’introduzione alla teoria della
probabilità generale e i teoremi di limite;
[26] è un’introduzione al calcolo differenziale stocastico, ai legami fra probabilità ed equazioni alle deri-
vate parziali e alle applicazioni in ambito finanziario.
Esistono molti testi avanzati di introduzione alla ricerca nel campo della teoria della probabilità, calcolo
differenziale stocastico ed equazioni alle derivate parziali. Fra i miei preferiti ci sono i libri di Bass [3] e
Baudoin [5]: altri testi di riferimento sono le classiche monografie di Friedman [14] e Stroock [32], oltre al
recente [2].
La teoria della probabilità è una materia non facile e spesso appare ostica al primo impatto. Molti concetti
di probabilità si comprendono a fondo solo dopo aver esaminato un adeguato numero di esempi e svolto
molti esercizi. Spesso occorre aver fiducia e “gettare il cuore oltre l’ostacolo”, non bloccarsi su concetti
che inizialmente appaiono oscuri e procedere confidando nel fatto che saranno chiariti in breve tempo.
Negli inevitabili momenti di scoraggiamento può essere utile ricordare le parole di un grande matematico
italiano:
“Credo ut intelligam. Per cominciare a capire bisogna aver fede: senza fede nell’ordine dell’universo, non si
può fare della fisica; senza fede nella libertà e nelle potenzialità dell’uomo, non si può fare etica; senza fede nella
possibilità di miglioramento della società non progredisce l’organizzazione politica, economica, sociale e culturale;
senza fede nella capacità e nella sensibilità degli allievi, non è possibile un buon insegnamento.”
Ennio De Giorgi, Valore sapienziale della matematica, 2002, (cfr. [10])
Concludo ringraziando tutti quelli (studenti, colleghi ed amici) che hanno contribuito a queste note con
commenti e suggerimenti o segnalando errori. In particolare vorrei ringraziare Andrea Cosso, Franco
Flandoli, Claudio Fontana, Cristina Di Girolami, Marco Fuhrman, Alberto Lanconelli, Marco Lenci, Ste-
fano Pagliarani e Michele Pignotti. Queste note sono in forma provvisoria, non sono esenti da lacune e
imprecisioni: errori e suggerimenti possono essere segnalati al mio indirizzo email.
1 I file Mathematica possono essere aperti con il lettore CFD-Player, scaricabile gratuitamente dal link: http://www.wolfram.com/
cdf-player/
3

Buon lavoro,
AP
4
Indice

Istruzioni per l’uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2


Notazioni generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Introduzione 11
Una rivoluzione della matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
La probabilità nel passato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
La probabilità nel presente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1 Misure e spazi di probabilità 17


1.1 Spazi misurabili e spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.1.1 Spazi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.1.2 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.1.3 Algebre e σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.1.4 Additività finita e σ -additività . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2 Spazi finiti e problemi di conteggio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.1 Cardinalità di insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna . . . . . . . . . . . . . . 28
1.2.3 Metodo delle scelte successive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.2.4 Disposizioni e combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.2.5 Probabilità binomiale e ipergeometrica. . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.2.6 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.2.7 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.3 Probabilità condizionata e indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . 42
1.3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.3.2 Indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.3.3 Prove ripetute e indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.3.4 Esempi ed esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.3.5 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.4 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.4.1 σ -algebra generata e completamento di uno spazio di probabilità . . . . . . . . . . . . 55
1.4.2 σ -algebra di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1.4.3 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.4.4 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.4.5 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.4.6 Funzioni di ripartizione (CDF) su R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
1.4.7 Teorema di Carathéodory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1.4.8 Dalle CDF alle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1.4.9 CDF su Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1.4.10 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.5 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5
6 INDICE

1.5.1 Dimostrazione della Proposizione 1.3.32 . . . . . . . . . . . . . . . . . . . . . . . . . . 74


1.5.2 Dimostrazione della Proposizione 1.4.9 . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.3 Dimostrazione del Teorema 1.4.29 di Carathéodory . . . . . . . . . . . . . . . . . . . 76
1.5.4 Dimostrazione del Teorema 1.4.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

2 Variabili aleatorie 85
2.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.1.1 Variabili aleatorie e distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.1.2 Esempi di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
2.1.3 Esempi di variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . 96
2.1.4 Altri esempi di variabili aleatorie notevoli . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.1.5 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.2 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.2.1 Integrale di funzioni semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.2.2 Integrale di funzioni non-negative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
2.2.3 Integrale di funzioni a valori in Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
2.2.4 Integrazione con distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2.2.5 Valore atteso e teorema fondamentale del calcolo . . . . . . . . . . . . . . . . . . . . . 111
2.2.6 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.2.7 Spazi Lp e disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
2.2.8 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.2.9 Vettori aleatori: distribuzioni marginali e distribuzione congiunta . . . . . . . . . . . 121
2.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
2.3.1 Dipendenza deterministica e indipendenza stocastica . . . . . . . . . . . . . . . . . . 124
2.3.2 Misura prodotto e Teorema di Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
2.3.3 Indipendenza fra σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.3.4 Indipendenza fra vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
2.3.5 Indipendenza e valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
2.4 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
2.4.1 Il teorema di inversione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
2.4.2 Distribuzione normale multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 142
2.4.3 Sviluppo in serie della funzione caratteristica e momenti . . . . . . . . . . . . . . . . 146
2.5 Complementi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
2.5.1 Somma di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
2.5.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

3 Successioni di variabili aleatorie 153


3.1 Convergenza per successioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 153
3.1.1 Disuguaglianza di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.1.2 Relazioni fra le diverse definizioni di convergenza . . . . . . . . . . . . . . . . . . . . 156
3.2 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
3.2.1 Cenni al metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3.2.2 Polinomi di Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
3.3 Condizioni necessarie e sufficienti per la convergenza debole . . . . . . . . . . . . . . . . . . 162
3.3.1 Convergenza di funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . 162
3.3.2 Compattezza nello spazio delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . 165
3.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy . . . . . . . . 166
3.3.4 Esempi notevoli di convergenza debole . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
3.4 Legge dei grandi numeri e Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . 169
INDICE 7

4 Attesa e distribuzione condizionata 175


4.1 Attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
4.1.1 Condizionare ad un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
4.1.2 Condizionare ad una σ -algebra: il caso discreto . . . . . . . . . . . . . . . . . . . . . . 178
4.1.3 Condizionare ad una σ -algebra: il caso generale . . . . . . . . . . . . . . . . . . . . . . 180
4.1.4 Proprietà dell’attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
4.1.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
4.1.6 Least Square Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
4.2 Distribuzione condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
4.2.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
4.2.2 Il caso assolutamente continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
4.2.3 Esempi ed esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
4.3 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
4.3.1 Dimostrazione del Teorema 4.1.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
4.3.2 Dimostrazione del Teorema 4.2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
4.3.3 Dimostrazione della Proposizione 4.2.17 . . . . . . . . . . . . . . . . . . . . . . . . . . 206

5 Processi stocastici 209


5.1 Definizione e costruzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
5.1.1 Cos’è un processo stocastico? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
5.1.2 Equivalenza di processi stocastici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
5.1.3 Esistenza: il Teorema di estensione di Kolmogorov . . . . . . . . . . . . . . . . . . . . 215
5.1.4 Filtrazioni e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.1.5 Legge di transizione e processi di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . 220
5.2 Processi di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
5.2.1 Distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
5.2.2 Generatore infinitesimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
5.3 Processo di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
5.3.1 Proprietà di martingala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
5.4 Processi continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
5.4.1 Spazio di Wiener e versione canonica di un processo continuo . . . . . . . . . . . . . 239
5.4.2 Teorema di continuità di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
5.5 Moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
5.5.1 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
5.5.2 Martingale Browniane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
5.6 Tempi d’arresto e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
5.6.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
5.6.2 Ipotesi usuali e tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
5.6.3 Ampliamento di filtrazioni e processi di Markov . . . . . . . . . . . . . . . . . . . . . 257
5.6.4 Ampliamento di filtrazioni e processi di Lévy . . . . . . . . . . . . . . . . . . . . . . . 259
5.6.5 Risultati generali sui tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
5.6.6 Tempi d’arresto e martingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
5.6.7 Proprietà di Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
5.6.8 Proprietà di Markov forte nel caso omogeneo . . . . . . . . . . . . . . . . . . . . . . . 269
5.7 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
5.7.1 Dimostrazione del Teorema 5.1.20 di estensione di Kolmogorov . . . . . . . . . . . . 271
5.7.2 Dimostrazione del Teorema 5.3.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
5.7.3 Dimostrazione del Teorema 5.4.10 di continuità di Kolmogorov . . . . . . . . . . . . 276
8 INDICE

6 Elementi di Statistica 279


6.1 Cenni di statistica descrittiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
6.1.1 Media e varianza campionarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
6.2 Cenni di inferenza statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
6.2.1 Campioni e stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
6.2.2 Quantili e intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
6.2.3 Stime di media e varianza per campioni Gaussiani . . . . . . . . . . . . . . . . . . . . 287

A 291
A.1 Teoremi di Dynkin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
A.2 Assoluta continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
A.2.1 Il Teorema di Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
A.2.2 Rappresentazione di aperti di R mediante intervalli . . . . . . . . . . . . . . . . . . . 296
A.2.3 Derivabilità di funzioni integrali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
A.2.4 Assoluta continuità di funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
A.3 Uniforme integrabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

B Temi d’esame risolti 305


Dicembre 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Gennaio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
Febbraio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
Giugno 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Luglio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
Settembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
Dicembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
Gennaio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
Febbraio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
Maggio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
Luglio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
Settembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
Dicembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
Gennaio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
Febbraio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Maggio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
Giugno 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
Settembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378

C Tavole riassuntive delle principali distribuzioni 383

Indice analitico 387

Riferimenti bibliografici 391


INDICE 9

Simboli e notazioni principali


• A := B significa che A è, per definizione, uguale a B
U
• indica l’unione disgiunta
S
• An % A indica che (An )n∈N è una successione crescente di insiemi tale che A = An
n∈N
T
• An & A indica che (An )n∈N è una successione decrescente di insiemi tale che A = An
n∈N

• ]A oppure |A| indica la cardinalità dell’insieme A. A ↔ B se |A| = |B|

• Bd = B(Rd ) è la σ -algebra di Borel in Rd ; B := B1

• mF (risp. mF + , bF ) la classe delle funzioni F -misurabili (risp. F -misurabili e non-negative, F -


misurabili e limitate)

• N famiglia degli insiemi trascurabili (cfr. Definizione 1.1.14)

• insiemi numerici:

– numeri naturali: N = {1, 2, 3, ...}, N0 = N ∪ {0}, In := {1, . . . , n} per n ∈ N


¯ = R ∪ {±∞}, reali positivi R>0 = ]0, +∞[, non-negativi R≥0 = [0, +∞[
– numeri reali R, reali estesi R

• Lebd indica la misura di Lebesgue d-dimensionale; Leb := Leb1

• funzione indicatrice di un insieme A



1 se x ∈ A


1A (x) := 
0
 altrimenti

• prodotto scalare Euclideo:

d
X
hx, yi = x · y = xi y i , x = (x1 , . . . , xd ), y = (y1 , . . . , yd ) ∈ Rd
i=1

Quando usiamo notazioni matriciali, il vettore d-dimensionale x viene identificato con la matrice
colonna d × 1.

• massimo e minimo di numeri reali:

x ∧ y = min{x, y}, x ∨ y = max{x, y}

• parte positiva e negativa:


x+ = x ∨ 0, x− = (−x) ∨ 0

• l’argomento del massimo e del minimo di f : A −→ R sono

arg max f (x) = {x0 ∈ A | f (x0 ) ≥ f (x) per ogni x ∈ A}


x∈A
arg min f (x) = {x0 ∈ A | f (x0 ) ≤ f (x) per ogni x ∈ A}
x∈A
10 INDICE

Abbreviazioni
v.a. = variabile aleatoria
q.c. = quasi certamente. Una certa proprietà vale q.c. se esiste N ∈ N (insieme trascurabile) tale che la
proprietà è vera per ogni ω ∈ Ω \ N
q.o. = quasi ovunque (rispetto alla misura di Lebesgue)

Segnaliamo l’importanza dei risultati con i seguenti simboli:


[!] significa che bisogna porre molta attenzione e cercare di capire bene, perchè si sta introducendo un
concetto importante, un’idea o una tecnica nuova
[!!] significa che il risultato è molto importante
[!!!] significa che il risultato è fondamentale: si tratta del Teorema di Carathéodory o del Teorema di
Beppo-Levi
Introduzione

“For over two millennia, Aristotle’s logic has ruled over the thinking of western intellectuals. All precise theo-
ries, all scientific models, even models of the process of thinking itself, have in principle conformed to the straight-
jacket of logic. But from its shady beginnings devising gambling strategies and counting corpses in medieval
London, probability theory and statistical inference now emerge as better foundations for scientific models, espe-
cially those of the process of thinking and as essential ingredients of theoretical mathematics, even the foundations
of mathematics itself. We propose that this sea change in our perspective will affect virtually all of mathematics in
the next century.”

David Mumford, The Dawning of the Age of Stochasticity [24]

Una rivoluzione della matematica


Nella matematica “classica” (quella che tuttora costituisce la maggior parte dei contenuti insegnati nel-
le scuole superiori e università) i concetti matematici rappresentano e descrivono quantità deterministiche:
quando si parla, per esempio, di una variabile reale o di un oggetto geometrico si pensa rispettivamente
a un numero che può essere ben determinato e a una figura che può essere definita analiticamente e rap-
presentata in modo esatto. Da sempre, la matematica è ritenuto il linguaggio e lo strumento più potente
con cui descrivere i fenomeni fisici e naturali in modo da interpretare e acquisire conoscenze su molte-
plici aspetti della realtà. Ma i modelli che la matematica può fornire sono sempre semplificazioni e non
forniscono quasi mai una descrizione completa del fenomeno che si vuole studiare.
Consideriamo il seguente esempio banale: se vado al supermercato e compro un 1Kg di farina, posso
essere soddisfatto dal fatto di sapere che il pacco pesa 1Kg perchè c’è scritto sulla confezione; se non mi
fido, posso pesarlo con la mia bilancia e scoprire che magari non è esattamente 1Kg ma qualche grammo
in più o in meno; poi potrei anche chiedermi se la mia bilancia sia veramente affidabile e precisa fino al
grammo e quindi rassegnarmi al fatto che forse non saprò mai il vero peso del pacco di farina. In questo
caso ovviamente poco importa... Tuttavia l’esempio aiuta a capire che molti fenomeni (o forse tutta la
realtà) possono essere interpretati come la somma o combinazione di più fattori classificabili in fattori
deterministici (nel senso di osservabili a livello macroscopico) e fattori stocastici (nel senso di casuali, aleatori,
non osservabili o non prevedibili).
Il termine “stocastico” viene dal greco στόχος che significa bersaglio (del tiro a segno) o, in senso figura-
to, congettura. A volte, come nell’esempio della farina, il fattore deterministico è prevalente nel senso che,
per vari motivi, non val la pena considerare altri fattori e si preferisce trascurarli oppure non si hanno gli
strumenti per includerli nella propria analisi: in questo modo forse semplicistico, per analogia, si potrebbe
descrivere l’approccio della fisica classica e di tutte le teorie formulate prima del XX secolo che puntano a
dare una descrizione a livello macroscopico e osservabile. D’altra parte, esistono molti fenomeni in cui il
fattore stocastico non solo non è trascurabile ma è addirittura dominante: un esempio eclatante è fornito
dalle principali teorie della fisica moderna, in particolare la meccanica quantistica. Rimanendo vicini alla
realtà quotidiana, ormai non esiste ambito applicativo della matematica in cui si possa trascurare il fatto-
re stocastico: dall’economia alla medicina, dall’ingegneria alla meteorologia, i modelli matematici devono
necessariamente includere l’incertezza; infatti il fenomeno in oggetto può essere intrinsecamente aleatorio

11
12 INDICE

come il prezzo di un titolo azionario o il segnale in un sistema di riconoscimento vocale o guida automa-
tica, oppure può non essere osservabile con precisione o di difficile interpretazione come un segnale radio
disturbato, un’immagine tomografica o la posizione di una particella subatomica.
C’è anche un livello più generale in cui non si può ignorare il ruolo della probabilità nello sviluppo
della società odierna: si tratta di quella che è ormai ritenuta un’emergenza educativa, l’esigenza sempre
più pressante che si diffondano e rafforzino le conoscenze di tipo probabilistico. Una vera e propria opera
di alfabetizzazione in questo campo può evitare che banali misconcezioni, come per esempio quella dei
numeri “ritardatari” nel gioco del lotto, abbiano gli effetti devastanti a livello sociale ed economico che
oggi osserviamo: basti pensare che, in base ai dati ufficiali dei Monopoli di Stato, i soldi spesi dagli italiani
per giochi d’azzardo (e parliamo solo dei giochi legali) nel 2017 hanno superato il tetto dei 100 miliardi di
euro, il quadruplo rispetto al 2004.
Un segnale positivo è dato dall’evoluzione dell’insegnamento della probabilità nelle scuole superiori:
fino a pochi anni fa la probabilità era assente dai programmi scolastici ed ora sta velocemente incremen-
tando la propria presenza nei libri di testo e nelle prove d’esame, provocando anche un certo sconcerto nel
corpo docente a causa di un cosı̀ rapido aggiornamento dei contenuti. È bene sottolineare che la matema-
tica stocastica (la probabilità) non vuole destituire la matematica classica ma ha in quest’ultima le proprie
fondamenta e la potenzia approfondendo i legami con le altre discipline scientifiche. Paradossalmente, il
mondo della formazione superiore e universitaria talvolta può avere un’inerzia maggiore per cui tende a
rallentare il processo di passaggio dalla matematica classica alla matematica stocastica. In parte questo è
comprensibile: la difesa dello status quo è ciò che normalmente avviene di fronte ad ogni profonda rivolu-
zione scientifica e, a tutti gli effetti, stiamo parlando di una vera e propria rivoluzione, silenziosa e irreversibile,
che coinvolge tutti gli ambiti della matematica. A questo riguardo è illuminante la frase, posta all’inizio di
questa introduzione, del matematico anglo-statunitense David Mumford, medaglia Fields nel 1974 per i
suoi studi nel campo della geometria algebrica.

La probabilità nel passato


Il termine probabilità deriva dal latino probabilitas che descrive la caratteristica di una persona (per
esempio, il testimone in un processo) di essere affidabile, onesto (probus), credibile. Questo differisce in
parte dal significato moderno di probabilità intesa come studio di metodi per quantificare e stimare gli
eventi casuali. Benchè lo studio dei fenomeni in situazione d’incertezza abbia suscitato interesse in tutte
le epoche (i giochi d’azzardo, ad esempio, sono sempre esistiti), la teoria della probabilità come disciplina
matematica ha origini relativamente recenti. I primi studi di probabilità risalgono al XVI secolo: se ne
occuparono, fra i primi, Gerolamo Cardano (1501-1576) e Galileo Galilei (1564-1642).
Tradizionalmente la nascita del concetto moderno di probabilità viene attribuita a Blaise Pascal (1623-
1662) e Pierre de Fermat (1601-1665). In realtà il dibattito sulla natura stessa della probabilità è stato
molto lungo e articolato; esso ha interessato trasversalmente i campi della conoscenza dalla matematica
alla filosofia, e si è protratto fino ai giorni nostri producendo diverse interpretazioni e impostazioni. Per
maggiore chiarezza e precisione, è opportuno anzitutto distinguere la Teoria della Probabilità (che si occupa
della formalizzazione matematica dei concetti e dello sviluppo della teoria a partire da alcuni assunti) dalla
Statistica (che si occupa della determinazione o della stima della probabilità degli eventi aleatori, anche
utilizzando i risultati della Teoria della Probabilità). In questa breve premessa ci limitiamo a riassumere
in estrema sintesi alcune delle principali interpretazioni del concetto di probabilità: alcune di esse sono
maggiormente motivate dal calcolo e altre dalla teoria della probabilità. Partiamo dal considerare alcuni
eventi aleatori, posti in ordine crescente di complessità:

i) lanciando una moneta, si ottiene testa;

ii) un italiano di 40 anni raggiungerà i 60 anni;


INDICE 13

iii) la prossima medaglia Fields2 verrà assegnata ad un italiano3 ?


Esaminiamo tali eventi alla luce di alcune interpretazioni del concetto di probabilità:
• definizione classica: la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il
numero dei casi possibili. Per esempio, nel caso i) la probabilità è pari a 21 = 50%. È la definizione
più antica di probabilità, attribuita a Pierre Simon Laplace (1749-1827). Questa definizione si limita
a considerare i fenomeni che ammettono un numero finito di casi possibili e nei quali i casi siano
equiprobabili: con questa interpretazione non è chiaro come studiare gli eventi ii) e iii);
• definizione frequentista (o statistica): si suppone che l’evento consista nel successo di un esperimento
riproducibile un numero indefinito di volte (per esempio, se l’esperimento è il lancio di una moneta,
l’evento potrebbe essere “ottenere testa”). Se Sn indica il numero di successi su n esperimenti, si
definisce (sarebbe meglio dire, si calcola) la probabilità come
Sn
lim .
n→∞ n

Alla base di questa definizione c’è la Legge empirica del caso (che, in termini teorici, corrisponde alla
Legge dei grandi numeri) per cui, per esempio, nel caso del lancio di una moneta si osserva empi-
ricamente che Snn approssima il valore 50% per n che tende all’infinito. La definizione frequentista
amplia notevolmente il campo di applicazione a tutti gli ambiti (fisica, economia, medicina etc) in cui
si posseggano dati statistici riguardanti eventi passati che si sono verificati in condizioni analoghe:
per esempio, si può calcolare la probabilità dell’evento ii) come stima statistica basata su dati storici.
L’approccio frequentista non permette di studiare il terzo evento che non è l’esito di un “esperimento
aleatorio riproducibile”;
• definizione soggettiva (o Bayesiana4 ): la probabilità è definita come una misura del grado di convin-
zione che un soggetto ha riguardo al verificarsi di un evento. In questo approccio, la probabilità non
è una proprietà intrinseca e oggettiva dei fenomeni casuali ma dipende dalla valutazione di un sog-
getto, dalla sua propensione al rischio e dalle informazioni di cui è in possesso. Operativamente5 , la
probabilità di un evento è definita come il prezzo che un individuo ritiene equo pagare per ricevere 1
se l’evento si verifica e 0 se l’evento non si verifica: per esempio, la probabilità di un evento è pari al
70% per un individuo che ritiene equo scommettere 70 per ricevere 100 nel caso l’evento si verifichi
e perdere tutto in caso contrario. La definizione è resa significativa assumendo un criterio di coeren-
za o razionalità dell’individuo che deve attribuire le probabilità in modo tale che non sia possibile
ottenere una vincita o una perdita certa (nel gergo finanziario odierno, si parlerebbe di assenza di
possibilità di arbitraggio); occorre poi porre particolare attenzione per evitare paradossi del tipo se-
guente: nell’esempio del lancio di una moneta, un individuo può essere disposto a scommettere 1
euro per riceverne 2 in caso di “testa” e 0 in caso di “croce” (e quindi attribuendo probabilità pari
al 50% all’evento “testa”) ma lo stesso individuo potrebbe non essere disposto a giocare 1 milione di
euro sulla stessa scommessa. L’approccio soggettivo è stato proposto e sviluppato da Frank P. Ramsey
(1903-1930), Bruno de Finetti (1906-1985) e successivamente da Leonard J. Savage (1917-1971): esso
generalizza i precedenti e permette di definire anche la probabilità di eventi del tipo iii).
2 L’International Medal for Outstanding Discoveries in Mathematics, o più semplicemente medaglia Fields, è un premio riconosciu-
to a matematici che non abbiano superato l’età di 40 anni in occasione del Congresso internazionale dei matematici della International
Mathematical Union (IMU), che si tiene ogni quattro anni. È spesso considerata come il più alto riconoscimento che un matematico
possa ricevere: assieme al premio Abel è da molti definita il “Premio Nobel per la Matematica”, sebbene l’accostamento sia improprio
per varie ragioni, tra cui il limite di età insito nel conferimento della medaglia Fields (fonte Wikipedia).
3 L’ultimo italiano a vincere la medaglia Fields è stato Enrico Bombieri (Università di Pisa) nel 1974, insieme a David Mumford
(Harvard University). Aggiornamento al 1 agosto 2018: il prestigioso riconoscimento è stato assegnato ad Alessio Figalli (ETH di
Zurigo) per i suoi risultati che riguardano anche la teoria delle equazioni differenziali stocastiche.
4 Thomas Bayes (1701-1761).
5 Per quantificare, ossia tradurre in numero, il grado di convinzione di un soggetto su un evento, l’idea è di esaminare come il
soggetto agisce in una scommessa riguardante l’evento considerato.
14 INDICE

Il dibattito sulle possibili interpretazioni della probabilità si è protratto per lungo tempo ed è tuttora
aperto. Ma nella prima metà del secolo scorso c’è stato un punto di svolta decisivo, dovuto al lavoro del
matematico russo Andrej N. Kolmogorov (1903-1987). Egli per primo ha gettato le basi per la formaliz-
zazione matematica della probabilità, inserendola a pieno titolo nel novero delle discipline matematiche.
Kolmogorov ha messo in secondo piano i difficili problemi del fondamento logico e del dualismo fra la
visione oggettiva e soggettiva, concentrandosi sullo sviluppo della probabilità come teoria matematica. Il
contributo di Kolmogorov è fondamentale perchè, aggirando i problemi epistemologici, ha sprigionato tut-
ta la potenza del ragionamento astratto e logico-deduttivo applicato allo studio della probabilità e ha cosı̀
agevolato il passaggio dal calcolo della probabilità alla teoria della probabilità. A partire dal lavoro di Kol-
mogorov e grazie al contributo di molti grandi matematici del secolo scorso, sono stati conseguiti risultati
profondi e aperti campi di ricerca completamente inesplorati.
Ora è bene sottolineare che la formalizzazione matematica della probabilità richiede un considerevole
grado di astrazione. Pertanto, è assolutamente naturale che la teoria della probabilità risulti ostica, se
non incomprensibile, al primo impatto. Kolmogorov utilizza il linguaggio della teoria della misura: un
evento è identificato con un insieme E i cui elementi rappresentano singoli esiti possibili del fenomeno
aleatorio considerato; la probabilità P = P (E) è una misura, ossia una funzione d’insieme che gode di alcune
proprietà: per fissare le idee, si pensi alla misura di Lebesgue. L’utilizzo del linguaggio astratto della teoria
della misura è guardato da alcuni (anche da alcuni matematici) con sospetto perchè sembra indebolire
l’intuizione. Tuttavia questo è il prezzo inevitabile che si deve pagare per poter sfruttare tutta la potenza
del ragionamento astratto e sintetico che è poi la vera forza dell’approccio matematico.
In queste note presentiamo i primi rudimenti di teoria della probabilità secondo l’impostazione as-
siomatica di Kolmogorov. Ci limiteremo a introdurre ed esaminare i concetti di spazio di probabilità e di
variabile aleatoria. Facendo un parallelo fra probabilità e analisi matematica, il contenuto di queste note
corrisponde grossomodo all’introduzione dei numeri reali in un corso di analisi matematica del prim’anno:
in altri termini, faremo solo i primi passi nel vasto campo della teoria della probabilità.

La probabilità nel presente


Come affermato nella frase di David Mumford posta all’inizio di queste note6 , al giorno d’oggi la teoria
della probabilità è considerata un ingrediente essenziale per lo sviluppo teorico della matematica e per i
fondamenti della matematica stessa.
Dal punto di vista applicativo, la teoria della probabilità è lo strumento utilizzato per modellizzare
e gestire il rischio in tutti gli ambiti in cui si studiano fenomeni in condizioni d’incertezza, fra cui per
esempio:

• fisica e ingegneria dove si fa ampio uso dei metodi numerici stocastici di tipo Monte Carlo, formaliz-
zati fra i primi da Enrico Fermi e John von Neumann;

• economia e finanza, a partire dalla famosa formula di Black-Scholes-Merton per la quale gli autori
hanno ricevuto il premio Nobel. Per farsi un’idea del background matematico per la modellistica
finanziaria, si dia un’occhiata all’indice di [26], disponibile qui
http://www.dm.unibo.it/˜pascucci/web/Ricerca/PDF/contents1.pdf
Il contenuto di questa dispensa corrisponde grossomodo all’Appendice A.1 di [26];

• telecomunicazioni: la NASA utilizza il metodo di Kalman-Bucy per filtrare i segnali provenienti da


satelliti e sonde inviati nello spazio. Da [25], pag.2: “In 1960 Kalman and in 1961 Kalman and Bucy
proved what is now known as the Kalman-Bucy filter. Basically the filter gives a procedure for estimating
the state of a system which satisfies a “noisy” linear differential equation, based on a series of “noisy” obser-
vations. Almost immediately the discovery found applications in aerospace engineering (Ranger, Mariner,
Apollo etc.) and it now has a broad range of applications. Thus the Kalman-Bucy filter is an example of
6 Cfr. pag.11.
INDICE 15

a recent mathematical discovery which has already proved to be useful - it is not just “potentially” use-
ful. It is also a counterexample to the assertion that “applied mathematics is bad mathematics” and to the
assertion that “the only really useful mathematics is the elementary mathematics”. For the Kalman-Bucy
filter - as the whole subject of stochastic differential equations - involves advanced, interesting and first class
mathematics”.

• medicina e botanica: il più importante processo stocastico, il moto Browniano, prende il nome da
Robert Brown, un botanico che verso il 1830 osservò il movimento irregolare di particelle colloidali
in sospensione. Il moto Browniano è stato utilizzato da Louis Jean Baptist Bachelier nel 1900 nella
sua tesi di dottorato di ricerca per modellare i prezzi delle azioni ed è stato oggetto di uno dei più
famosi lavori di Albert Einstein pubblicato nel 1905. La prima definizione matematicamente rigorosa
di moto Browniano è stata data da Norbert Wiener nel 1923.

• genetica: è la scienza che studia la trasmissione dei caratteri e i meccanismi con i quali questi vengono
ereditati. Gregor Johann Mendel (1822-1884), monaco agostiniano ceco considerato il precursore
della moderna genetica, diede un fondamentale contributo di tipo metodologico applicando per la
prima volta il calcolo delle probabilità allo studio dell’ereditarietà biologica.

• informatica: i computer quantistici sfruttano le leggi della meccanica quantistica per l’elaborazione
dei dati. In un computer attuale l’unità di informazione è il bit: mentre possiamo sempre determinare
lo stato di un bit e stabilire con precisione se è 0 o 1, non possiamo determinare con altrettanta
precisione lo stato di un qubit, l’unità di informazione quantistica, ma solo le probabilità che assuma
i valori 0 e 1.

• giurisprudenza: il verdetto emesso da un giudice di un tribunale si basa sulla probabilità di colpe-


volezza dell’imputato stimata a partire dalle informazioni fornite dalle indagini. In questo ambito
il concetto di probabilità condizionata gioca un ruolo fondamentale e un suo uso non corretto è alla
base di clamorosi errori giudiziari: per maggiori informazioni si veda, per esempio, [27].

• applicazioni militari: da [31] p.139: “In 1938, Kolmogorov had published a paper that established the
basic theorems for smoothing and predicting stationary stochastic processes. An interesting comment on
the secrecy of war efforts comes from Norbert Wiener (1894-1964) who, at the Massachusetts Institute of
Technology, worked on applications of these methods to military problems during and after the war. These
results were considered so important to America’s Cold War efforts that Wiener’s work was declared top
secret. But all of it, Wiener insisted, could have been deduced from Kolmogorov’s early paper.”

• meteorologia: per la previsione oltre il quinto giorno è fondamentale poter disporre di modelli me-
teorologici di tipo probabilistico; i modelli probabilistici girano generalmente nei principali centri
meteo internazionali perchè necessitano di procedure statistico-matematiche molto complesse e one-
rose a livello computazionale. A partire dal 2019 il Data Center del Centro europeo per le previsio-
ni meteorologiche a medio termine (European Center Medium Weather Forecast, in sigla ECMWF) si
trasferirà a Bologna.

Infine la probabilità è alla base dello sviluppo delle più recenti tecnologie come, per esempio, il Machine
e Deep Learning e tutte le relative applicazioni all’intelligenza artificiale, auto a guida autonoma, rico-
noscimento vocale e di immagini etc (si veda, per esempio, [17] e [28]). Al giorno d’oggi, una conoscenza
avanzata di teoria della probabilità è il requisito minimo per chiunque voglia occuparsi di matematica
applicata in uno degli ambiti sopra menzionati.
Per concludere, penso si possa convenire sul fatto che se studiamo matematica è anzitutto perchè ci piace
e non tanto perchè ci garantirà un lavoro futuro. Certamente la matematica non ha bisogno di giustificarsi
con le applicazioni. Ma è anche vero che non viviamo sulla luna e un lavoro prima o poi dovremo trovarlo.
Allora è importante conoscere le applicazioni reali della matematica: esse sono numerose, richiedono cono-
scenze avanzate, assolutamente non banali tanto da poter soddisfare anche il gusto estetico di un cosiddetto
16 INDICE

“matematico puro”. Infine, per chi volesse cimentarsi con la ricerca pura, la teoria della probabilità è cer-
tamente uno dei campi più affascinanti e meno esplorati, in cui il contributo delle migliori giovani menti è
fondamentale e fortemente auspicabile.
Capitolo 1

Misure e spazi di probabilità

The philosophy of the foundations of


probability must be divorced from
mathematics and statistics, exactly
as the discussion of our intuitive
space concept is now divorced from
geometry.

William Feller

Il termine Probabilità indica genericamente la scienza che studia i fenomeni incerti, il cui esito non è no-
to con sicurezza. Alcuni quesiti fondamentali su cui si è incentrata l’indagine negli ultimi secoli sono i
seguenti:
1) cos’è la Probabilità?
2) come si calcola1 la Probabilità?
3) come “funziona”2 la Probabilità?
È sorprendente che solo da meno di un secolo si sia iniziato a comprendere la differente natura di tali
quesiti e il fatto che debbano essere indagati con metodi e strumenti specifici di tre discipline diverse e ben
distinte, rispettivamente la Filosofia, la Statistica e la Matematica:
1) in Filosofia si indaga il concetto di Probabilità e il suo possibile significato, cercando di darne una
definizione e studiarne la natura da un punto di vista generale. L’approccio filosofico ha portato a
interpretazioni e definizioni anche molto differenti;
2) la Statistica è la disciplina che studia i metodi per la stima e la valutazione della Probabilità a partire
da osservazioni e dati disponibili sul fenomeno aleatorio considerato;
3) la Teoria della Probabilità è la disciplina puramente matematica che applica il ragionamento astratto
e logico-deduttivo per formalizzare la Probabilità e le sue regole, partendo da assiomi e definizioni
primitive (come lo sono, per analogia, i concetti di punto e di retta in Geometria).
1 Sono molti i casi in cui è importante calcolare o almeno stimare la probabilità di un evento incerto. Per esempio, un giocatore
d’azzardo è interessato a conoscere la probabilità di ottenere una certa mano al gioco del Poker; una compagnia di assicurazioni deve
stimare la probabilità che un proprio assicurato abbia uno o più incidenti nel corso di un anno; un’industria che produce auto vuole
stimare la probabilità che il prezzo dell’acciaio non superi un certo valore; una compagnia aerea può fare overbooking in base alla
probabilità che non si presentino un certo numero di viaggiatori.
2 In altri termini, è possibile formalizzare i principi e le regole generali della Probabilità in termini matematici rigorosi, in analogia
con quanto si fa per esempio nella geometria Euclidea?

17
18 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Quando ci si introduce allo studio della Probabilità, gran parte della confusione e dei fraintendimenti
derivano dal fatto di non distinguere adeguatamente i diversi approcci: filosofico, statistico e matematico.
In queste note assumiamo esclusivamente il punto di vista matematico: il nostro scopo è fornire un’introduzione
alla Teoria della Probabilità.

1.1 Spazi misurabili e spazi di probabilità


La Teoria della Probabilità studia i fenomeni il cui esito è incerto: questi vengono detti fenomeni aleatori
(o esperimenti aleatori). Esempi banali di fenomeni aleatori sono il lancio di una moneta o l’estrazione di
una carta da un mazzo. Gli esiti di un fenomeno aleatorio non sono necessariamente tutti “equivalenti”
nel senso che, per qualche motivo, un esito può essere più “probabile” (plausibile, verosimile, atteso etc)
di un altro. Si noti che, poichè per definizione nessuno degli esiti possibili può essere scartato a priori,
la Teoria della Probabilità non si propone di prevedere l’esito di un fenomeno aleatorio (cosa impossibile!)
ma stimare, nel senso di misurare, il grado di attendibilità (la probabilità) dei singoli esiti possibili o della
combinazione di alcuni di essi. Questo è il motivo per cui gli strumenti matematici e il linguaggio su cui
si basa la moderna Teoria della Probabilità sono quelli della teoria della misura che è anche il punto di
partenza della nostra trattazione. La Sezione 1.1.1 è dedicata al richiamo delle prime definizioni e concetti
di teoria della misura; nella successiva Sezione 1.1.2 ne diamo l’interpretazione probabilistica.

1.1.1 Spazi misurabili


Definizione 1.1.1 (Spazio misurabile). Uno spazio misurabile è una coppia (Ω, F ) dove:

i) Ω è un insieme non vuoto;

ii) F è una σ -algebra su Ω, ossia F è una famiglia non vuota di sottoinsiemi di Ω che soddisfa le seguenti
proprietà:

ii-a) se A ∈ F allora Ac := Ω \ A ∈ F ;
ii-b) l’unione numerabile di elementi di F appartiene ad F .

La proprietà ii-a) si esprime dicendo che F è una famiglia chiusa rispetto al passaggio al complementare;
la proprietà ii-b) si esprime dicendo che F è una famiglia σ -∪-chiusa (chiusa rispetto all’unione numerabile).

Osservazione 1.1.2. Dalla proprietà ii-b) segue anche che se A, B ∈ F allora A ∪ B ∈ F , ossia F è ∪-chiusa
(chiusa rispetto all’unione finita). Infatti dati A, B ∈ F , si può costruire la successione C1 = A, Cn = B per
ogni n ≥ 2; allora

[
A∪B = Cn ∈ F .
n=1

Una σ -algebra F è non vuota per definizione e quindi esiste A ∈ F e, per la ii-a), si ha Ac ∈ F : allora anche
Ω = A ∪ Ac ∈ F e, ancora per ii-a), ∅ ∈ F . Osserviamo che {∅, Ω} è la più piccola σ -algebra su Ω; viceversa,
l’insieme delle parti P(Ω) è la più grande σ -algebra su Ω.
Notiamo anche che l’intersezione finita o numerabile di elementi di una σ -algebra F appartiene a F :
infatti se (An ) è una famiglia finita o numerabile in F , combinando le proprietà ii-a) e ii-b), si ha che
\ [ c
An = Acn ∈ F.
n n

Di conseguenza, si dice che F è ∩-chiusa e σ -∩-chiusa.


1.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 19

Definizione 1.1.3 (Misura). Una misura sullo spazio misurabile (Ω, F ) è una funzione
µ : F −→ [0, +∞]
tale che:
iii-a) µ(∅) = 0;
iii-b) µ è σ -additiva su F , ossia per ogni successione (An )n∈N di elementi disgiunti di F vale3
∞  ∞
]  X
µ  An  =
 µ (An ) .
n=1 n=1

Osservazione 1.1.4. Ogni misura µ è additiva nel senso che, per ogni famiglia finita A1 , . . . , An di insiemi
disgiunti in F , vale  n 
]  X n
µ  Ak  = µ (Ak ) .
k=1 k=1
Infatti, posto Ak = ∅ per k > n, si ha
 n  ∞ 
]  ] 
µ  Ak  = µ  Ak  =
k=1 k=1

(per la σ -additività)

X
= µ (Ak ) =
k=1

(per il fatto che µ(∅) = 0)


n
X
= µ (Ak ) .
k=1

Definizione 1.1.5. Una misura µ su (Ω, F ) si dice finita se µ(Ω) < ∞ e si dice σ -finita se esiste una succes-
sione (An ) in F tale che [
Ω= An e µ(An ) < +∞, n ∈ N.
n∈N
Esempio 1.1.6. Il primo esempio di misura σ -finita che si incontra nei corsi di analisi matematica è la
misura di Lebesgue; essa è definita sullo spazio Euclideo d-dimensionale, Ω = Rd , munito della σ -algebra
degli insiemi misurabili secondo Lebesgue.

1.1.2 Spazi di probabilità


Definizione 1.1.7 (Spazio di probabilità). Uno spazio con misura (Ω, F , µ) in cui µ(Ω) = 1 è detto spazio
di probabilità: in questo caso, di solito utilizziamo la lettera P al posto di µ e diciamo che P è una misura di
probabilità (o semplicemente una probabilità).
In uno spazio di probabilità (Ω, F , P ), ogni elemento ω ∈ Ω è detto esito; ogni A ∈ F è chiamato evento
e il numero P (A) è detto probabilità di A. Inoltre diciamo che Ω è lo spazio campione e F è la σ -algebra degli
eventi.
Nel caso in cui Ω sia finito o numerabile, assumiamo sempre F = P(Ω) e diciamo che (Ω, P(Ω), P ) (o,
più semplicemente, (Ω, P )) è uno spazio di probabilità discreto. Se invece Ω non è numerabile, parliamo di
spazio di probabilità continuo (o generale).
3 Ricordiamo che il simbolo U indica l’unione disgiunta. Osserviamo che U A ∈ F poichè F è una σ -algebra.
n
n∈N
20 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Esempio 1.1.8. [!] Consideriamo il fenomeno aleatorio del lancio di un dado regolare a sei facce. Lo spazio
campione
Ω = {1, 2, 3, 4, 5, 6}
rappresenta gli stati possibili (esiti) dell’esperimento aleatorio considerato. Intuitivamente, un evento è
un’affermazione relativa all’esito dell’esperimento, per esempio:

i) A = “il risultato del lancio è un numero dispari”;

ii) B = “il risultato del lancio è il numero 4”;

iii) C = “il risultato del lancio è maggiore di 7”.

Ad ogni affermazione corrisponde un sottoinsieme di Ω:

i) A = {1, 3, 5};

ii) B = {4};

iii) C = ∅.

Questo spiega perchè matematicamente abbiamo definito un evento come un sottoinsieme di Ω. In parti-
colare, B è detto un evento elementare poichè è costituito da un singolo esito. È bene porre attenzione nel
distinguere l’esito 4 dall’evento elementare {4}.
Le operazioni logiche fra eventi hanno una traduzione in termini di operazioni insiemistiche, per esempio:

• “A oppure B” corrisponde a A ∪ B;

• “A e B” corrisponde a A ∩ B;

• “non A” corrisponde a Ac ;

• “A ma non B” corrisponde a A \ B.

Osservazione 1.1.9. Lo spazio campione Ω è, per definizione, un generico insieme non vuoto: è lecito do-
mandarsi che senso abbia assumere un tale grado di generalità. In effetti vedremo che nei problemi più
classici Ω sarà semplicemente un insieme finito oppure lo spazio Euclideo Rd . Tuttavia, nelle applicazioni
più interessanti può anche capitare che Ω sia uno spazio funzionale (come, per esempio, lo spazio delle fun-
zioni continue). Spesso Ω avrà anche una certa struttura, per esempio quella di spazio metrico, per avere a
disposizione alcuni strumenti utili allo sviluppo della teoria.

Esempio 1.1.10 (Probabilità uniforme discreta). Sia Ω finito. Per ogni A ⊆ Ω indichiamo con |A| la
cardinalità di A e poniamo
|A|
P (A) = . (1.1.1)
|Ω|
Allora P è una misura di probabilità, detta probabilità uniforme, e per definizione vale

1
P ({ω}) = , ω ∈ Ω,
|Ω|

ossia ogni esito è “equiprobabile”. La probabilità uniforme corrisponde al concetto classico di probabilità
secondo Laplace, come ricordato nella premessa. Per esempio, nel caso del lancio di un dado regolare a sei
facce, è naturale considerare la probabilità uniforme

1
P ({ω}) = , ω ∈ Ω := {1, 2, 3, 4, 5, 6}.
6
1.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 21

Osservazione 1.1.11. [!] Uno spazio di probabilità in cui ogni evento elementare è equiprobabile e ha pro-
babilità positiva, è necessariamente finito. Di conseguenza, per esempio, non è possibile definire la probabilità
uniforme su N: infatti dovrebbe essere P ({n}) = 0 per ogni n ∈ N e di conseguenza, per la σ -additività, anche
P (N) = 0 che è assurdo.
Osservazione 1.1.12. [!] In uno spazio di probabilità discreto (Ω, P ), consideriamo la funzione
p : Ω −→ [0, 1], p(ω) = P ({ω}), ω ∈ Ω.

È chiaro che p è una funzione non-negativa che gode della proprietà


X X
p(ω) = P ({ω}) = P (Ω) = 1. (1.1.2)
ω∈Ω ω∈Ω

Si noti che le somme in (1.1.2) sono serie a termini non-negativi e pertanto il loro valore non dipende
dall’ordine degli addendi. La seconda uguaglianza in (1.1.2) è conseguenza della σ -additività di P .
Possiamo dire che esiste
P una relazione biunivoca fra p e P nel senso che, data una qualsiasi funzione
non-negativa p tale che p(ω) = 1, e posto
ω∈Ω
X
P (A) := p(ω), A ⊆ Ω,
ω∈A

si ha che P è una probabilità discreta su Ω.


In altri termini, una probabilità discreta è definita univocamente dalle probabilità dei singoli eventi elemen-
tari. Dal punto di vista operativo, è molto più semplice definire la probabilità dei singoli eventi elementari
(ossia p) che non definire esplicitamente P assegnando la probabilità di tutti gli eventi. Si pensi che, per
esempio, se Ω ha cardinalità 100 allora p è definita dai cento valori p(ω), con ω ∈ Ω, mentre P è definita su
P(Ω) che ha cardinalità 2100 ≈ 1030 .
Osservazione 1.1.13 (Probabilità nella scuola secondaria). L’osservazione precedente ci suggerisce un
modo ragionevole e sintetico per introdurre il concetto di probabilità a scuola: anzitutto, in base ai pro-
grammi ministeriali, almeno fino al quart’anno di scuola secondaria superiore è sufficiente considerare il
caso di spazi campione finiti (o, al massimo, numerabili)
Ω = {ω1 , . . . , ωN },
con N ∈ N, descrivendo i concetti di esito ed evento come nell’Esempio 1.1.8. Poi si può spiegare che intro-
durre una misura di probabilità P su Ω significa assegnare le probabilità dei singoli esiti: precisamente, si
fissano alcuni numeri p1 , . . . , pN tali che
p1 , . . . , pN ≥ 0 e p1 + · · · + pN = 1, (1.1.3)
dove pi indica la probabilità dell’i-esimo evento elementare, ossia
pi = P ({ωi }), i = 1, . . . , N .
Infine, per definizione, per ogni evento A si pone
X
P (A) = P ({ω}). (1.1.4)
ω∈A

Questa definizione di spazio di probabilità (Ω, P ) è equivalente alla definizione generale (Definizione 1.1.7,
ovviamente nel caso di Ω finito). La cosiddetta probabilità classica o uniforme è quella in cui gli esiti sono
equiprobabili, p1 = p2 = · · · = pN , per cui dalla (1.1.3) si deduce che il loro valore comune è N1 . Dunque
la probabilità classica è solo un caso molto particolare, anche se significativo, fra le infinite misure di
probabilità che si possono scegliere: in quel caso, chiaramente la (1.1.4) si riduce alla formula dei “casi
favorevoli su casi possibili”.
22 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Concludiamo la sezione con un paio di definizioni che useremo spesso in seguito.


Definizione 1.1.14 (Insiemi trascurabili e quasi certi). In uno spazio di probabilità (Ω, F , P ) diciamo che:
• un sottoinsieme N di Ω è trascurabile per P se esiste A ∈ F tale che N ⊆ A e P (A) = 0;
• un sottoinsieme C di Ω è quasi certo per P se il suo complementare è trascurabile o, equivalentemente,
se esiste B ∈ F tale che B ⊆ C e P (B) = 1.
Indichiamo con N la famiglia degli insiemi trascurabili in (Ω, F , P ).
È importante notare che gli insiemi trascurabili e quasi certi non sono necessariamente eventi e quindi in
generale la probabilità P (A) non è definita se A è trascurabile o quasi certo.
Definizione 1.1.15 (Spazio completo). Uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F .
Osservazione 1.1.16. [!] In uno spazio completo gli insiemi trascurabili (e di conseguenza anche i quasi
certi) per P sono eventi. Pertanto in uno spazio completo si ha che
• N è trascurabile se e solo se P (N ) = 0;
• C è quasi certo se e solo se P (C) = 1.
Chiaramente la proprietà di completezza dipende dalla misura di probabilità considerata. Vedremo in se-
guito che è sempre possibile “completare” uno spazio di probabilità (cfr. Osservazione 1.4.3) e spiegheremo
l’importanza della proprietà di completezza (si vedano, per esempio, le Osservazioni 2.1.11, 5.1.15 e 5.4.2).

1.1.3 Algebre e σ -algebre


Il suffisso “σ -” (per esempio, in σ -algebra o σ -additività) è usato per specificare che una definizione o
una proprietà è valida per quantità numerabili e non solo finite. In analogia con il concetto di σ -algebra,
diamo la seguente utile definizione.
Definizione 1.1.17 (Algebra). Un’algebra è una famiglia non vuota A di sottoinsiemi di Ω tale che:
i) A è chiusa rispetto al passaggio al complementare;
ii) A è ∪-chiusa (ossia chiusa rispetto all’unione finita).
Ogni σ -algebra è un’algebra. Se A, B ∈ A allora A ∩ B = (Ac ∪ Bc )c ∈ A e di conseguenza A è ∩-chiusa.
Nel seguito, useremo spesso la seguente algebra:
Esempio 1.1.18. [!] In R si consideri la famiglia A formata dalle unioni finite di intervalli (non necessaria-
mente limitati) del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
dove per convenzione
]a, a] = ∅, ]a, b] = {x ∈ R | x > a}
nel caso b = +∞.
Si i
Notiamo che A è un’algebra ma non una σ -algebra poichè, per esempio, 0, 1 − n1 = ]0, 1[ < A .
n≥1

Poichè ci sarà utile considerare misure definite su algebre, diamo la seguente estensione del concetto di
misura (cfr. Definizione 1.1.3).
Definizione 1.1.19 (Misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una misura su A è
una funzione
µ : A −→ [0, +∞]
tale che:
1.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 23

i) µ(∅) = 0;
ii) µ è σ -additiva su A nel senso che per ogni successione (An )n∈N di elementi disgiunti di A , tale che
An ∈ A , vale
U
A :=
n∈N

X
µ (A) = µ (An ) .
n=1

Proviamo alcune proprietà basilari delle misure (e quindi, in particolare, delle misure di probabilità).
Proposizione 1.1.20. Sia µ una misura su un’algebra A . Valgono le seguenti proprietà:
i) Monotonia: per ogni A, B ∈ A tali che A ⊆ B vale

µ(A) ≤ µ(B), (1.1.5)

e, se inoltre µ(A) < ∞, vale


µ(B \ A) = µ(B) − µ(A). (1.1.6)
In particolare, se P è una misura di probabilità si ha

P (Ac ) = 1 − P (A); (1.1.7)

ii) σ -subadditività: per ogni A ∈ A e (An )n∈N successione in A , vale


[ ∞
X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n=1

Dimostrazione. Proviamo la i): se A ⊆ B allora, per l’additività di µ ed essendo B \ A ∈ A , si ha

µ(B) = µ(A ] (B \ A)) = µ(A) + µ(B \ A).

Dal fatto che µ(B \ A) ≥ 0 segue la (1.1.5) e, nel caso particolare in cui µ(A) < ∞, segue anche la (1.1.6).
Per provare la ii), poniamo
n
[
e1 := A1 ∩ A,
A en+1 := A ∩ An+1 \
A Ak .
k=1

Osserviamo che A en ⊆ An . Inoltre gli insiemi Aen appartengono all’algebra A poichè sono ottenuti con
operazioni finite da elementi di A e, per ipotesi, vale
]
en = A ∈ A .
A
n∈N

Allora, per monotonia si ha


 
 ] 
µ(A) = µ  An  =
e
n∈N

(per σ -additività e poi ancora per monotonia)



X ∞
X
= en ) ≤
µ(A µ (An ) .
n=1 n=1
24 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Esempio 1.1.21. [!] La (1.1.7) è più utile di quanto sembri. Per esempio, calcoliamo la probabilità di
ottenere almeno un 6 lanciando 8 volte un dado. Potremmo identificare Ω con l’insieme delle possibili
sequenze di lanci: allora |Ω| = 68 . Possiamo determinare la probabilità dell’evento che ci interessa (chia-
miamolo A) più facilmente considerando Ac , ossia l’insieme delle sequenze che non contengono 6: infatti
si avrà |Ac | = 58 e quindi per la (1.1.7)
58
P (A) = 1 − P (Ac ) = 1 − .
68
Lemma 1.1.22. Sia A un’algebra. Una funzione
µ : A −→ [0, +∞]
tale che µ(∅) = 0, è additiva se e solo se vale
µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B), A, B ∈ F . (1.1.8)
Dimostrazione. Se µ è additiva allora
µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B \ A) + µ(A ∩ B) = µ(A) + µ(B).
Viceversa, dalla (1.1.8) con A, B disgiunti si ha l’additività di µ.
Osservazione 1.1.23. Nel caso di misure di probabilità, la (1.1.8) si riscrive utilmente nella forma

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (1.1.9)

Esempio 1.1.24. Lanciando due dadi, qual è la probabilità che almeno uno dei due lanci abbia un risultato
minore o uguale a 3?
Soluzione. Poniamo In = {k ∈ N | k ≤ n} e consideriamo lo spazio campione Ω = I6 × I6 delle possibili coppie di risultati dei
lanci. Sia A = I3 × I6 (e rispettivamente B = I6 × I3 ) l’evento in cui il risultato del primo dado (rispettivamente del secondo
dado) sia minore o uguale a 3. Ci è chiesto di calcolare la probabilità di A ∪ B. Notiamo che A, B non sono disgiunti e nella
probabilità uniforme P , contando gli elementi, abbiamo
3·6 1 3·3 1
P (A) = P (B) = = , P (A ∩ B) = = .
6·6 2 6·6 4
Allora per la (1.1.9) otteniamo
3
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = .
4
Osservazione 1.1.25. La (1.1.8) si generalizza facilmente al caso di tre insiemi A1 , A2 , A3 ∈ F :
P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ∪ A3 ) − P ((A1 ∩ A2 ) ∪ (A1 ∩ A3 ))
= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+ P (A1 ∩ A2 ∩ A3 ).
In generale, si prova per induzione la seguente formula
 n  n
[  X X
P  Ak  =
 (−1)k−1 P (Ai1 ∩ · · · ∩ Aik )
k=1 k=1 {i1 ,...,ik }⊆{1,...,n}

dove le somme sono intese su tutti i sottoinsiemi di {1, . . . , n} con k elementi.


Esercizio 1.1.26. Siano A, B eventi in (Ω, F , P ). Se P (A) = 1 allora P (A ∩ B) = P (B).
Soluzione. Per l’additività finita di P si ha
P (B) = P (A ∩ B) + P (Ac ∩ B) = P (A ∩ B)
poiché, per la (1.1.5), P (Ac ∩ B) ≤ P (Ac ) = 0.
1.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 25

1.1.4 Additività finita e σ -additività


In uno spazio di probabilità generale, la σ -additività è una proprietà più forte dell’additività. Capiremo
fra poco, con la Proposizione 1.1.29, l’importanza di richiedere la σ -additività nelle definizioni di misura e
di probabilità: questo è un punto abbastanza delicato come vediamo nel prossimo esempio.
Esempio 1.1.27 (Probabilità uniforme continua). Supponiamo di voler definire il concetto di probabilità
uniforme sull’intervallo reale Ω = [0, 1]. Dal punto di vista intuitivo, risulta naturale porre
P ([a, b]) = b − a, 0 ≤ a ≤ b ≤ 1. (1.1.10)
Allora ovviamente P (Ω) = 1 e la probabilità dell’evento [a, b] (che può essere interpretato come l’evento
“un punto scelto a caso in [0, 1] appartiene ad [a, b]”) dipende solo dalla lunghezza di [a, b] ed è invariante
per traslazione. Notiamo che P ({x}) = P ([x, x]) = 0 per ogni x ∈ [0, 1], ossia ogni esito ha probabilità nulla,
e P altro non è che la misura di Lebesgue. Giuseppe Vitali provò nel 1905 (cf. [34]) che non è possibile
estendere la misura di Lebesgue a tutto l’insieme delle parti P(Ω) o, in altri termini, non esiste P definita
sull’insieme delle parti di [0, 1], che sia σ -additiva e soddisfi la (1.1.10). Se questo è vero ne viene che, nel
caso di spazi di probabilità generali, diventa necessario introdurre una σ -algebra di eventi su cui definire P :
in generale, tale σ -algebra sarà più piccola dell’insieme delle parti di Ω.
Nel nostro contesto, il risultato di Vitali può essere enunciato nel modo seguente: non esiste una misura
di probabilità P su ([0, 1], P([0, 1])) che sia invariante per traslazioni, ossia tale che P (A) = P (Ax ) per ogni
A ⊆ [0, 1] e x ∈ [0, 1], dove
Ax = {y ∈ [0, 1] | y = a + x oppure y = a + x − 1 per un certo a ∈ A}.
La dimostrazione procede per assurdo ed è basata sull’assioma della scelta.
Consideriamo su [0, 1] la relazione di equivalenza x ∼ y se e solo se (x − y) ∈ Q: per l’assioma della
scelta, da ogni classe di equivalenza è possibile selezionare un rappresentante e fatto ciò, indichiamo con
A l’insieme formato da tali rappresentanti. Ora, per ipotesi, P (Aq ) = P (A) per ogni q ∈ Q ∩ [0, 1] e inoltre
Aq ∩ Ap = ∅ per q , p in Q ∩ [0, 1]. Dunque otteniamo
]
[0, 1] = Aq
q∈Q∩[0,1]

e se P fosse σ -additiva, si avrebbe


X X
1 = P ([0, 1]) = P (Aq ) = P (A).
q∈Q∩[0,1] q∈Q∩[0,1]

Tuttavia l’ultima somma può solo assumere il valore 0 (nel caso in cui P (A) = 0) oppure divergere (nel caso
in cui P (A) > 0) e ciò porta ad un assurdo. Si noti che l’assurdo è conseguenza della richiesta di additività
numerabile (ossia σ -additività) di P .
Notazione 1.1.28. Nel seguito scriveremo
An % A e Bn & B
S
per indicare che (An )n∈N è una successione crescente di insiemi tale che A = An , e (Bn )n∈N è una
T n∈N
successione decrescente di insiemi tale che B = Bn .
n∈N
La σ -additività ha le seguenti importanti caratterizzazioni.
Proposizione 1.1.29. [!] Sia A un’algebra su Ω e
µ : A −→ [0, +∞]
una funzione additiva. Le seguenti proprietà sono equivalenti:
26 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

i) µ è σ -additiva;
ii) µ è σ -subadditiva4 ;
iii) µ è continua dal basso, ossia per ogni successione (An )n∈N in A tale che An % A, con A ∈ A , vale

lim µ(An ) = µ (A) .


n→∞

Inoltre, se vale i) allora si ha anche


iv) µ è continua dall’alto, ossia per ogni successione (Bn )n∈N in A , tale che µ(B1 ) < ∞ e Bn & B ∈ A , vale

lim µ(Bn ) = µ (B) .


n→∞

Infine, se µ(Ω) < ∞ allora i), ii), iii) e iv) sono equivalenti.
Dimostrazione. Osserviamo che µ è monotona: questo si prova come la Proposizione 1.1.20-i).
[i) ⇒ ii)] È il contenuto della Proposizione 1.1.20-ii).
[ii) ⇒ iii)] Sia A 3 An % A ∈ A . Per monotonia si ha

lim µ(An ) ≤ µ(A).


n→∞

D’altra parte, poniamo


C1 = A1 , Cn+1 = An+1 \ An , n ∈ N.
Allora (Cn ) è una successione disgiunta in A e vale
] 
µ(A) = µ Ck ≤
k≥1

(per la σ -subadditività di µ)

X n
X
≤ µ(Ck ) = lim µ(Ck ) =
n→∞
k=1 k=1

(per l’additività finita di µ)

= lim µ(An ).
n→∞

[iii) ⇒ i)] Sia (An )n∈N una successione di elementi disgiunti di A , tale che A := An ∈ A . Posto
U
n∈N

n
[
Ān = Ak ,
k=1
si ha Ān % A e Ān ∈ A per ogni n. Allora, per l’ipotesi di continuità dal basso di µ, si ha

µ(A) = lim µ(Ān ) =


n→∞
4 Per ogni A ∈ A e per ogni successione (A )
n n∈N di elementi di A tale che A ⊆
S
An , vale
n∈N

X
µ(A) ≤ µ (An ) .
n=1
1.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 27

(per l’additività finita di µ)


n
X ∞
X
= lim µ(Ak ) = µ(Ak ),
n→∞
k=1 k=1

osservando che il limite delle somme parziali esiste, finito o no, poichè µ ha valori non-negativi.
[iii) ⇒ iv)] Supponiamo valga la iii). Se Bn & B allora An := B1 \Bn è tale che An % A := B1 \B. Se µ(B1 ) < ∞,
per la proprietà (1.1.6) che vale sotto la sola ipotesi di additività, si ha5

µ (B) = µ (B1 \ A)
= µ(B1 ) − µ(A) =

(per l’ipotesi di continuità dal basso di µ)

= µ(B1 ) − lim µ(An ) = lim (µ(B1 ) − µ(An )) = lim µ(Bn ).


n→∞ n→∞ n→∞

[iv) ⇒ iii)] Sotto l’ipotesi che µ(Ω) < ∞, il fatto che iv) implichi iii) si dimostra come nel punto prece-
dente ponendo Bn = Ω \ An e utilizzando il fatto che se (An )n∈N è crescente allora (Bn )n∈N è decrescente e
ovviamente µ(B1 ) < ∞.

1.2 Spazi finiti e problemi di conteggio


In questa sezione assumiamo che Ω sia finito e consideriamo alcuni problemi in cui si usa la probabilità
discreta uniforme dell’Esempio 1.1.10. Questi vengono detti problemi di conteggio perchè, ricordando la
(1.1.1), il calcolo delle probabilità si riconduce alla determinazione della cardinalità degli eventi.
Il calcolo combinatorio è lo strumento matematico che permette di svolgere questi calcoli. Sebbene
si tratti di problemi che hanno una formulazione elementare (data in termini di monete, dadi, carte etc)
spesso il calcolo può risultare molto complicato e può intimorire al primo impatto. Su questo aspetto è
importante sdrammatizzare perchè si tratta di una complicazione di tipo tecnico più che sostanziale, che
non deve creare un’ingiustificata preoccupazione. Inoltre la probabilità uniforme discreta è soltanto un
caso molto particolare il cui interesse è decisamente limitato e marginale rispetto alla teoria della probabilità
nel suo complesso.

1.2.1 Cardinalità di insiemi


Cominciamo col ricordare alcune nozioni di base sulla cardinalità di insiemi finiti. Nel seguito usiamo
la seguente

Notazione 1.2.1.
In = {k ∈ N | k ≤ n} = {1, 2, . . . , n}, n ∈ N.

Si dice che un insieme A ha cardinalità n ∈ N, e si scrive |A| = n oppure ]A = n, se esiste una funzione
biettiva da In ad A. Inoltre per definizione |A| = 0 se A = ∅. Scriviamo A ↔ B se |A| = |B|. In questa sezione
consideriamo solo insiemi con cardinalità finita.
Provare per esercizio le seguenti proprietà:

i) |A| = |B| se e solo se esiste una funzione biettiva da A a B;


∞ ∞ ∞ ∞
5 Nel dettaglio: si ha B \ S A = B ∩ T Ac = T (B ∩ Ac ) = T B .
1 n 1 n 1 n n
n=1 n=1 n=1 n=1
28 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

ii) se A, B sono disgiunti allora


|A ] B| = |A| + |B|

e più in generale tale proprietà si estende al caso di un’unione disgiunta finita;


iii) per ogni A, B vale
|A × B| = |A||B| (1.2.1)
La (1.2.1) si può provare usando la ii) ed il fatto che
]
A×B = {x} × B
x∈A

dove l’unione è disgiunta e |{x} × B| = |B| per ogni x ∈ A;


iii) indichiamo con AB l’insieme delle funzioni da B ad A. Allora si ha

AB = |A||B| (1.2.2)

poichè AB ↔ A × · · · × A.
| {z }
|B| volte

1.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna


Quando si utilizza il calcolo combinatorio per lo studio di un esperimento aleatorio, la scelta dello spa-
zio campione Ω è importante perchè può semplificare il conteggio dei casi possibili e dei casi favorevoli.
La scelta più conveniente sotto questo punto di vista dipende in generale dal fenomeno aleatorio in consi-
derazione; tuttavia nella maggior parte dei casi è possibile scegliere come spazio campione uno degli spazi
che introdurremo nella Sezione 1.2.4 (nei casi in cui ciò non è possibile, vedremo che l’esperimento aleato-
rio può essere scomposto in opportuni sotto-esperimenti aleatori). Tali spazi forniscono dunque una linea
guida che permette di uniformare lo studio dei fenomeni aleatori con probabilità uniforme discreta. Prima
di dare la definizione precisa, consideriamo tre esperimenti aleatori che rappresentano il prototipo di tutti
i fenomeni aleatori che possono essere studiati con la probabilità uniforme discreta.
Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en . Si estraggono k palline dall’urna
in uno dei tre modi seguenti:
1) estrazione con reimmissione6 , con k ∈ N, in cui, per l’estrazione successiva, la pallina estratta viene
reinserita nell’urna;
2) estrazione senza reimmissione, con k ∈ {1, . . . , n}, in cui la pallina estratta non viene reinserita nell’urna;
3) estrazione simultanea, con k ∈ {1, . . . , n}, in cui le k palline vengono estratte simultaneamente.
Si noti che:
• nell’estrazione con reimmissione il numero totale di palline nell’urna e la sua composizione si man-
tengono costanti nelle successive estrazioni; dato che si estrae una pallina per volta, si tiene conto
dell’ordine di estrazione; inoltre è possibile che ci siano delle ripetizioni, ovvero è possibile estrarre più
volte la stessa pallina;
• nell’estrazione senza reimmissione ad ogni estrazione il numero totale di palline nell’urna si riduce di
un’unità e quindi ogni volta si modifica la composizione dell’urna stessa; anche in questo caso si tiene
conto dell’ordine di estrazione; invece le ripetizioni non sono più possibili (infatti una volta estratta,
la pallina non viene più reinserita nell’urna);
6 Invece di “reimmissione” si utilizzano anche i termini “reimbussolamento”, “reinserimento”, “reintroduzione”, “restituzione”,
“rimpiazzo”.
1.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 29

• l’estrazione simultanea corrisponde all’estrazione senza reimmissione in cui non si tiene conto dell’or-
dine di estrazione.

Possiamo dunque riassumere quanto detto finora nel seguente schema:

Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione Estrazione
Si tiene conto dell’ordine senza con
reimmissione reimmissione
Estrazione
Non si tiene conto dell’ordine
simultanea

Tabella 1.1: Classificazione del tipo di estrazioni da un’urna

Torneremo in seguito sul quarto caso corrispondente alla casella vuota e, in particolare, sul perchè non
sia stato considerato. Per ognuno dei tre tipi di estrazione descritti sopra vogliamo determinare uno spazio
campione Ω, con cardinalità più piccola possibile, che permetta di descrivere tale esperimento aleatorio.
Affronteremo tale questione nella Sezione 1.2.4 in cui vedremo che Ω sarà dato rispettivamente da:

1) l’insieme DRn,k delle disposizioni con ripetizione di k elementi di {e1 , . . . , en }, nel caso dell’estrazione con
reimmissione;

2) l’insieme Dn,k delle disposizioni semplici di k elementi di {e1 , . . . , en }, nel caso dell’estrazione senza
reimmissione;

3) l’insieme Cn,k delle combinazioni di k elementi di {e1 , . . . , en }, nel caso dell’estrazione simultanea.

Prima di introdurre questi tre insiemi fondamentali, illustriamo un metodo generale che utilizzeremo per
determinare la cardinalità di un qualunque insieme finito, quindi anche di DRn,k , Dn,k e Cn,k .

1.2.3 Metodo delle scelte successive


In questa sezione illustriamo un metodo, noto come metodo delle scelte successive (o schema delle scelte
successive o anche principio fondamentale del calcolo combinatorio), che permette di determinare la cardinalità
di un insieme una volta caratterizzati univocamente i suoi elementi tramite un numero finito di scelte
successive.
Metodo delle scelte successive. Dato un insieme finito A di cui si vuole determinare la cardinalità |A|, si
procede come segue:

1) al primo passo, si considera una partizione di A in n1 ∈ N sottoinsiemi A1 , . . . , An1 , tutti aventi la stes-
sa cardinalità indicata con c1 ; tale partizione è ottenuta facendo una “scelta”, ovvero distinguendo gli
elementi di A in base ad una proprietà che essi possiedono;

2) al secondo passo, per ogni i = 1, . . . , n1 , si procede come al punto 1) con l’insieme Ai al posto di A, conside-
rando una partizione Ai,1 , . . . , Ai,n2 di Ai in n2 sottoinsiemi tutti aventi la stessa cardinalità, indicata con
c2 , e con n2 ∈ N che non dipende da i;

3) si procede in questo modo fino a quando, dopo un numero finito k ∈ N di passi, la cardinalità ck è pari a 1.
30 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

La cardinalità di A è allora data da


|A| = n1 n2 · · · nk .

Per esempio, applichiamo il metodo delle scelte successive per dimostrare la validità della formula

AB = |A||B| .

Sia n = |A| la cardinalità di A e indichiamo con a1 , . . . , an i suoi elementi. Analogamente, sia k = |B| la
cardinalità di B e indichiamo con b1 , . . . , bk i suoi elementi. Dato che AB è l’insieme delle funzioni da B ad
A, possiamo caratterizzare univocamente ogni funzione in AB tramite le seguenti k = |B| scelte successive:
1) come prima scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b1 ; abbiamo
n = |A| possibilità (quindi n1 = n);
2) come seconda scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b2 ;
abbiamo n = |A| possibilità (quindi n2 = n);
3) · · ·
4) come k-esima e ultima scelta (con k = |B|) fissiamo il valore che le funzioni di AB assumono in
corrispondenza di bk ; abbiamo n = |A| possibilità (quindi nk = n).
Dal metodo delle scelte successive si deduce che

AB = |A| · · · |A| = |A||B| .
| {z }
k = |B| volte

Nel seguito, quando applicheremo il metodo delle scelte successive, procederemo come nei punti 1)-4),
limitandoci a dire quale scelta viene effettuata ad ogni passo e quante possibilità (o modi) ci sono per
fare questa scelta; mentre non faremo riferimento alla partizione che ogni scelta determina, dato che è
in generale chiaro quale essa sia. Ad esempio, la prima scelta (riportata in 1)) consiste nel distinguere le
funzioni in AB in base al valore che assumono in corrispondenza di b1 ; ci sono n = |A| modi per farlo, tanti
quanti sono gli elementi di A; ciò significa considerare la partizione di A in n = |A| sottoinsiemi A1 , . . . , An ,
in cui le funzioni in Ai assumono il valore ai in corrispondenza di b1 .

1.2.4 Disposizioni e combinazioni


Definizione 1.2.2 (Disposizioni con ripetizione). Siano E un insieme con |E| = n e k ∈ N. Indichiamo
con DRn,k l’insieme delle disposizioni con ripetizione di k elementi di E, ossia l’insieme di tutte le funzioni
f : Ik −→ E. Per la (1.2.2) vale
DRn,k = nk .

Notiamo che
DRn,k ↔ E × · · · × E .
| {z }
k volte
Dunque DRn,k esprime i modi in cui possiamo disporre, in maniera ordinata ed eventualmente ripetuta,
un numero k di oggetti scelti da un insieme di n oggetti.
Si noti che scriviamo DRn,k senza specificare l’insieme E, dato che ogni volta sarà chiaro dal contesto a
quale insieme E ci stiamo riferendo.
Esempio 1.2.3. Sia E = {a, b, c}. Allora |DR3,2 | = 32 e precisamente

DR3,2 ↔ {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.
1.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 31

Come preannunciato, l’insieme DRn,k è lo spazio campione naturale per descrivere l’estrazione con
reimmissione di k palline da un’urna che ne contiene n, come affermato nel seguente
Esempio 1.2.4. [!] Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en , da cui si estrag-
gono con reimmissione k ∈ N palline. Sia E = {e1 , e2 , . . . , en }. Uno spazio campione Ω, con cardinalità più
piccola possibile, che descrive tale esperimento è

Ω = DRn,k .

La quantità |DRn,k | = nk è dunque pari al numero totale dei cosiddetti “casi possibili” di questo esperimento
aleatorio.
Esempio 1.2.5. Determiniamo i “casi possibili” dei seguenti esperimenti aleatori (le soluzioni sono a fondo
pagina7 ).
i) Si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto italiano (che ha 21
lettere).
ii) Si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere tra 1, 2 o X.
iii) Si lancia 10 volte un dado (non truccato) a sei facce.
Definizione 1.2.6 (Disposizioni semplici). Siano E un insieme con |E| = n e k ≤ n. Indichiamo con Dn,k
l’insieme delle disposizioni semplici di k elementi di E, ossia l’insieme delle funzioni iniettive f : Ik −→ E. Si
ha
n!
Dn,k = n(n − 1) · · · (n − k + 1) = . (1.2.3)
(n − k)!
Notiamo che
Dn,k ↔ {(e1 , . . . , ek ) | ei ∈ E, distinti}.
Dunque Dn,k esprime i modi in cui possiamo disporre, in maniera ordinata e non ripetuta, un numero k di
oggetti scelti da un insieme di n oggetti.
La formula (1.2.3) si può dimostrare tramite il metodo delle scelte successive, caratterizzando la gene-
rica funzione iniettiva f : {1, 2, . . . , k} −→ E di Dn,k come segue:
1) come prima scelta fissiamo il valore che f assume in corrispondenza di 1; abbiamo n = |E| possibilità
(quindi n1 = n);
2) come seconda scelta fissiamo il valore che f assume in corrispondenza di 2; abbiamo n − 1 possibilità,
dato che non possiamo scegliere il valore assunto in corrispondenza di 1 (quindi n2 = n − 1);
3) · · ·
4) come k-esima e ultima scelta fissiamo il valore che f assume in corrispondenza di k; abbiamo n − k + 1
possibilità, dato che k − 1 valori di E li abbiamo già scelti (quindi nk = n − k + 1).
Dal metodo delle scelte successive si deduce dunque la validità di (1.2.3).
3!
Esempio 1.2.7. Sia E = {a, b, c}. Allora |D3,2 | = 1! = 6 e precisamente

D3,2 ↔ {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.

Come preannunciato, l’insieme Dn,k è lo spazio campione naturale per descrivere l’estrazione senza
reimmissione di k palline da un’urna che ne contiene n, come affermato nel seguente
7
Soluzioni
relative all’Esempio
1.2.5:
i) DR21,8 = 218 ; ii) DR3,13 = 313 ; iii) DR6,10 = 610 .
32 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Esempio 1.2.8. [!] Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en , da cui si estrag-
gono senza reimmissione k ≤ n palline. Sia E = {e1 , e2 , . . . , en }. Uno spazio campione Ω, con cardinalità più
piccola possibile, che descrive tale esperimento è

Ω = Dn,k .

La quantità |Dn,k | = n(n − 1) · · · (n − k + 1) è dunque pari al numero totale dei cosiddetti esiti o “casi possibili”
di questo esperimento aleatorio.
Esempio 1.2.9. Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione) al gioco
del lotto (in cui si estraggono senza reimmissione cinque numeri dai primi novanta naturali), supponendo
di giocare un’unica cinquina (ad esempio la sequenza ordinata 13, 5, 45, 21, 34)? Quanto vale invece la
probabilità di fare una cinquina semplice (per cui non conta l’ordine di estrazione)?
Soluzione. La probabilità di fare una cinquina secca è semplicemente D 1 ≈ 1.89 · 10−10 .
| 90,5 |
Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti modi differenti si possono ordinare 5
|D |
numeri, pari a D5,5 = 5! Allora la probabilità di una cinquina semplice dopo 5 estrazioni è D 5,5 ≈ 2.27 · 10−8 .
| 90,5 |

Definizione 1.2.10 (Permutazioni). Indichiamo con Pn ≡ Dn,n l’insieme delle permutazioni di n oggetti,
ossia Pn è l’insieme delle funzioni biettive f : In −→ E dove E è un insieme con n elementi. Si ha

|Pn | = n!

Dunque Pn esprime i modi in cui possiamo riordinare, ossia disporre in maniera ordinata e non ripetuta,
un numero n di oggetti.
Definizione 1.2.11 (Combinazioni). Siano E un insieme con |E| = n e k ≤ n. Indichiamo con Cn,k l’insieme
delle combinazioni di k elementi di E, ossia la famiglia dei sottoinsiemi di E di cardinalità k:

Cn,k = {A ⊆ F | |A| = k} .

In altri termini, Cn,k esprime tutti i gruppi di k oggetti scelti da un insieme di n oggetti, in maniera non
ordinata e non ripetuta.
Esempio 1.2.12. Sia E = {a, b, c}. Allora |C3,2 | = 3 e precisamente

C3,2 = {{a, b}, {a, c}, {b, c}}.

Proposizione 1.2.13. Si ha !
|Dn,k | n! n
Cn,k = = = . (1.2.4)
|Pk | k!(n − k)! k
Dimostrazione. A differenza del calcolo di |DRn,k | e |Dn,k |, non è possibile scomporre il calcolo di |Cn,k | in una
sequenza di scelte successive. Tuttavia, dimostrare la (1.2.4) equivale a dimostrare la seguente uguaglianza:

|Dn,k | = |Cn,k | |Pk |. (1.2.5)

Dimostriamo la (1.2.5) applicando il metodo delle scelte successive all’insieme Dn,k , caratterizzando una
generica funzione iniettiva f : Ik −→ E di Dn,k in base al seguente schema:
1) come prima scelta fissiamo l’immagine f (Ik ) della funzione f , ovvero un sottoinsieme di E di cardi-
nalità k (la cardinalità è necessariamente k per l’iniettività di f ); abbiamo |Cn,k | possibilità (quindi
n1 = |Cn,k |);
2) come seconda e ultima scelta fissiamo una permutazione dei k valori nell’immagine f (Ik ), che descrive
come agisce la funzione f ; abbiamo |Pk | possibilità (quindi n2 = |Pk |).
1.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 33

Dal metodo delle scelte successive si deduce la validità di (1.2.5) e dunque di (1.2.4).

Gli insiemi DRn,k , Dn,k (e dunque anche Pn = Dn,n ) e Cn,k sono importanti non solo perchè sono gli spazi
campione dei tre esperimenti aleatori introdotti nella Sezione 1.2.2 (per quanto riguarda Cn,k si veda l’E-
sempio 1.2.14), ma anche perchè le cardinalità di tali insiemi spesso corrispondono ai numeri n1 , n2 , . . . , nk
del metodo delle scelte successive; per esempio, per il calcolo di |Dn,k | in (1.2.5) abbiamo scelto n1 = |Cn,k |
ed n2 = |Pk |.
Come preannunciato, l’insieme Cn,k è lo spazio campione naturale per descrivere l’estrazione simulta-
nea di k palline da un’urna che ne contiene n, come affermato nel seguente

Esempio 1.2.14. [!] Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en , da cui si estrag-
gono simultaneamente k ≤ n palline. Sia E = {e1 , e2 , . . . , en }. Uno spazio campione Ω, con cardinalità più
piccola possibile, che descrive tale esperimento è

Ω = Cn,k .
n
La quantità |Cn,k | = k è dunque pari al numero totale dei cosiddetti “casi possibili” di questo esperimento
aleatorio.

Possiamo dunque completare la tabella della Sezione 1.2.2, riportando anche gli spazi campione e le
loro cardinalità (ovvero i “casi possibili”).

Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk

Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k |
= nk

|Ω| = k!

Tabella 1.2: Classificazione del tipo di estrazioni da un’urna e relazione con disposizioni e combinazioni

Riportiamo qui di seguito alcune osservazioni conclusive riguardanti la Tabella 1.2.

Osservazione 1.2.15. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sarebbe sufficiente
considerare solamente i primi due: l’estrazione senza reimmissione e l’estrazione con reimmissione. Infatti
l’estrazione simultanea può essere vista come un’estrazione senza reimmissione in cui non si tiene conto
dell’ordine, ossia come un caso particolare dell’estrazione senza reimmissione. Questo spiega perchè, in
alternativa a Cn,k , è possibile utilizzare Dn,k come spazio campione; quest’ultimo non è necessariamente
più conveniente di Cn,k nel senso che ha cardinalità maggiore dato che tiene conto dell’ordine: infatti si ha
|Dn,k | = k!|Cn,k |. In altri termini, ad ogni elemento di Cn,k , ovvero ad ogni sottoinsieme di k palline scelta fra
n, corrispondono k! elementi (o k-uple) di Dn,k . Di conseguenza, nel caso si utilizzi la probabilità uniforme,
vale la relazione
casi favorevoli in Cn,k k! (casi favorevoli in Cn,k ) casi favorevoli in Dn,k
= = .
casi possibili in Cn,k k! (casi possibili in Cn,k ) casi possibili in Dn,k
34 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Osservazione 1.2.16. La casella vuota nella tabella sopra riportata corrisponde all’insieme delle cosiddet-
te combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non ordinati ed eventualmente ripetuti,
di k oggetti da un insieme di n oggetti. L’esperimento aleatorio corrispondente è l’estrazione con reim-
missione in cui non si tiene conto dell’ordine: questo esperimento aleatorio può essere descritto anche dallo
spazio campione Ω = DRn,k anche se tale spazio ha cardinalità maggiore dato che tiene conto dell’ordine.
Notiamo che su Ω = DRn,k la probabilità dei singoli esiti (estrazioni con reimmissione) è la probabilità
uniforme discreta. Al contrario, sullo spazio delle combinazioni con ripetizione la probabilità corrispon-
dente non è quella uniforme discreta. Ciò è dovuto al fatto che ad ogni combinazione con ripetizione non
corrisponde sempre lo stesso numero di elementi di DRn,k (come invece accade nel caso di Cn,k e Dn,k ,
dove ad ogni combinazione semplice corrispondono sempre k! elementi di Dn,k ). Infatti la costante di
proporzionalità dipende da quante ripetizioni ci sono all’interno della combinazione: le combinazioni che
presentano più ripetizioni sono infatti meno probabili. Per questa ragione su tale spazio non vale la formula
“casi favorevoli/casi possibili”, ovvero non si possono usare le tecniche del calcolo combinatorio.

Esempio 1.2.17. Riconsideriamo il calcolo della probabilità di una cinquina semplice al gioco del lotto:
poiché non conta l’ordine di estrazione dei numeri, siamo nel caso dell’estrazione simultanea, quindi è
naturale considerare Ω = C90,5 . In effetti la probabilità della cinquina è |C 1 | che coincide con il risultato
90,5
5!
che avevamo già trovato usando le disposizioni semplici, ossia .
|D90,5 |
Esercizio 1.2.18. Calcoliamo la probabilità di ottenere una cinquina semplice dopo k ≥ 5 estrazioni.
Soluzione. Poniamo Ω = C90,k . Indichiamo con A l’evento che ci interessa, ossia la famiglia degli insiemi di k numeri in cui 5
sono fissati e i rimanenti k − 5 sono qualsiasi fra i restanti 85 numeri. Allora si ha

|C85,k−5 |
P (A) = .
|C90,k |

Per esempio, P (A) ≈ 6 · 10−6 per k = 10 e P (A) ≈ 75% per k = 85.

Esercizio 1.2.19. [!]


Consideriamo un mazzo di 40 carte. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi
seguenti:

(1) in 5 estrazioni senza reimmissione si ottengono 5 denari;

(2) in 5 estrazioni con reimmissione si ottengono 5 denari;

(3) in 5 estrazioni senza reimmissione si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme, anche
diversi fra loro.
Soluzione.
(1) L’estrazione è senza reimmissione, ma l’evento A = “si ottengono 5 denari” non tiene conto dell’ordine. Quindi tale
estrazione può essere vista anche come un’estrazione simultanea. Perciò possiamo scegliere come spazio campione Ω = C40,5
(scegliere Ω = D40,5 andrebbe comunque bene). L’esito ω = {ω1 , ω2 , ω3 , ω4 , ω5 } corrisponde dunque all’insieme delle carte
estratte. Allora A ↔ C10,5 (le possibile scelte, non ordinate e non ripetute, di 5 denari) e quindi
10
P (A) = 5  ≈ 0.04 %.
40
5

(2) Questa volta l’estrazione è con reimmissione, quindi occorre considerare Ω = DR40,5 (in realtà, anche in questo caso
l’evento A non tiene conto dell’ordine; tuttavia quando c’è ripetizione l’unico spazio che possiamo scegliere per poter utilizzare
le tecniche del calcolo combinatorio è lo spazio delle disposizioni con ripetizione). L’esito ω può essere identificato con la
sequenza (ω1 , ω2 , ω3 , ω4 , ω5 ), ordinata e con possibili ripetizioni, delle carte estratte. In questo caso A ↔ DR10,5 (le possibile
scelte, ordinate e ripetute, di 5 denari) e quindi
105
P (A) = 5 ≈ 0.1 %.
40
1.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 35

(3) In questo caso l’estrazione è senza reimmissione e l’evento A = “si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme,
anche diversi fra loro” tiene conto dell’ordine, quindi lo spazio campione naturale è Ω = D40,5 . Abbiamo che A ↔ DR4,5 (si
sceglie in modo ordinato la sequenza dei semi delle 5 carte estratte) e quindi
|DR4,5 |
P (A) = ≈ 10−3 %.
|D40,5 |

1.2.5 Probabilità binomiale e ipergeometrica.


Presentiamo ora due esempi fondamentali che, come vedremo più avanti, sono legati a due misure di
probabilità molto importanti, la binomiale e l’ipergeometrica. Cominciamo col ricordare alcune proprietà
del coefficiente binomiale. Assumiamo per convenzione

0! = 1 e 00 = 1. (1.2.6)

Ricordiamo che per k, n ∈ N0 , con k ≤ n, !


n n!
= .
k k!(n − k)!
Dalla definizione segue direttamente che
! ! ! ! !
n n n n n
= , = = 1, = n.
k n−k 0 n 1

Inoltre, per k, n ∈ N con k < n, vale ! ! !


n n−1 n−1
= + . (1.2.7)
k k−1 k
Come esercizio, utilizzando la (1.2.7) provare per induzione la formula binomiale (o formula di Newton)8
n !
X n k n−k
(a + b)n = a b , a, b ∈ R. (1.2.8)
k
k=0

Come casi particolari della (1.2.8):


• se a = b = 1 si ha
n !
X n
= 2n . (1.2.9)
k
k=0
n
Ricordando che se |A| = n allora k = |Cn,k | è pari al numero di sottoinsiemi di A di cardinalità k, la
(1.2.9) mostra che |P(A)| = 2n .
• ricordando la convenzione (1.2.6) per i casi p = 0 e p = 1, vale
n !
X n k
p (1 − p)n−k = 1, p ∈ [0, 1]. (1.2.10)
k
k=0

In altri termini, posto per semplicità


!
n k
pk := p (1 − p)n−k , k = 0, . . . , n,
k
8 Una dimostrazione alternativa, di carattere combinatorio, della formula di Newton è la seguente: il prodotto (a + b)(a + b) · · · (a + b)

di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk con 0 ≤ k ≤ n. Quanti sono i monomi di un certo tipo (cioè
con k fisso)? Il monomio an−k bk si ottiene scegliendoil valore b da k degli n fattori disponibili nel prodotto (a + b)(a + b) · · · (a + b) (e,
quindi, scegliendo a dai rimanenti n − k), ovvero in nk modi.
36 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

si ha che p0 , . . . , pn sono numeri non-negativi con somma pari a 1. Quindi, per l’Osservazione 1.1.12,
ponendo P ({k}) = pk si definisce una misura di probabilità sullo spazio campione Ω = {0, . . . , n}, detta
probabilità binomiale.
Diamo un’interpretazione della probabilità binomiale nel seguente
Esempio 1.2.20 (Binomiale). [!]
Consideriamo un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N. Effettuiamo n estra-
zioni con reimmissione. Calcoliamo la probabilità dell’evento Ak che consiste nell’estrazione di esattamente
k palline bianche, con 0 ≤ k ≤ n.
Determiniamo lo spazio campione: a priori non importa l’ordine di estrazione, ma osservando che c’è
il reinserimento (ossia la ripetizione di una possibile pallina già estratta), siamo portati a considerare
Ω = DRb+r,n . L’esito ω può essere identificato con la k-upla che identifica la sequenza, ordinata e con
eventuali ripetizioni, delle palline estratte (supponendo di aver numerato le palline per identificarle).
Caratterizziamo il generico esito ω ∈ Ak tramite le seguenti scelte successive:
i) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche estratte dalle b
presenti nell’urna: ci sono |DRb,k | modi possibili;
ii) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle n − k palline rosse estratte dalle r
presenti nell’urna: ci sono |DRr,n−k | modi possibili;
iii) scegliamo in quali delle n estrazioni sono state estratte le k palline bianche; ci sono |Cn,k | modi
possibili9 .
In definitiva
n bk r n−k
!
|DRb,k ||DRr,n−k |
P (Ak ) = |Cn,k | = ,
|DRb+r,n | k (b + r)n
o, equivalentemente, !
n k
P (Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r è la probabilità di estrarre una pallina bianca, secondo la probabilità uniforme.
Osservazione 1.2.21. Come spiegheremo meglio in seguito, la probabilità binomiale si può interpretare
come la probabilità di avere k successi ripetendo n volte un esperimento che ha solo due esiti: successo con
probabilità p e insuccesso con probabilità 1 − p. Per esempio, la probabilità di ottenere esattamente k teste
lanciando n volte una moneta è pari a nk pk (1 − p)n−k con p = 21 , ossia nk 21n .
 

Esempio 1.2.22 (Ipergeometrica). Consideriamo un’urna che contiene b palline bianche ed r palline rosse,
con b, r ∈ N. Effettuiamo n ≤ b + r estrazioni senza reimmissione. Calcoliamo la probabilità dell’evento Ak
che consiste nell’estrazione di esattamente k palline bianche, con max{0, n−r} ≤ k ≤ min{n, b}. La condizione
max{0, n − r} ≤ k ≤ min{n, b} equivale a richiedere che valgano simultaneamente le tre condizioni seguenti:
• 0 ≤ k ≤ n;
• k ≤ b, ovvero il numero di palline bianche estratte non superi b;
• n − k ≤ r, ovvero il numero di palline rosse estratte non superi r.
Determiniamo lo spazio campione: dato che non importa l’ordine di estrazione possiamo considerare Ω =
Cb+r,n (alternativamente, possiamo scegliere Ω = Db+r,n ). L’esito ω corrisponde all’insieme delle palline
estratte (supponendo di aver numerato le palline per identificarle). Caratterizziamo il generico esito ω ∈ Ak
tramite le seguenti scelte successive:
9 Infatti ogni sottoinsieme di cardinalità k di I identifica k estrazioni delle n, e viceversa. Ad esempio, se n = 4 e k = 2, il
n
sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a estrazione, e viceversa.
1.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 37

i) scegliamo le k palline bianche estratte dalle b presenti nell’urna: ci sono |Cb,k | modi possibili;

ii) scegliamo le n − k palline rosse estratte dalle r presenti nell’urna: ci sono |Cr,n−k | modi possibili.

In definitiva
b r 
|Cb,k ||Cr,n−k | k n−k
P (Ak ) = = b+r 
, max{0, n − r} ≤ k ≤ min{n, b}.
|Cb+r,n |
n

1.2.6 Esempi
Proponiamo una serie di esempi utili a prendere familiarità con i concetti introdotti.

Esempio 1.2.23. Consideriamo un gruppo di k ≥ 2 persone nate nello stesso anno (di 365 giorni). Calcolare
la probabilità che almeno due persone del gruppo siano nate nello stesso giorno.
Soluzione. Possiamo riformulare il problema come segue: un’urna contiene 365 palline numerate da 1 a 365; la pallina numero
N corrisponde all’N -esimo giorno dell’anno; si estraggono con reimmissione k palline; qual è la probabilità che di estrarre due
volte lo stesso numero? Abbiamo dunque ricondotto il problema all’estrazione con reimmissione di k palline da un’urna che ne
contiene 365. Sappiamo che lo spazio campione naturale è Ω = DR365,k . Sia A l’evento che ci interessa, ovvero A = “almeno
due persone sono nate nello stesso giorno”. Allora Ac ↔ D365,k e quindi

|D365,k | 365!
P (A) = 1 − P (Ac ) = 1 − = 1− .
|DR365,k | (365 − k)! · 365k

Si vede che P (A) ≈ 0.507 > 12 per k = 23 e P (A) ≈ 97% per k = 50.

Esempio 1.2.24. [!]


Si estraggono (senza reimmissione) 2 carte da un mazzo di 40 carte identificate dal seme (spade, coppe,
bastoni, denari) e dal tipo (asso, 2, 3, 4, 5, 6, 7, fante, cavallo, re). Calcoliamo la probabilità dell’evento A
definito in ognuno dei modi seguenti:

(1) le due carte sono, nell’ordine, una carta di denari e una di coppe;

(2) le due carte sono, nell’ordine, una carta di denari e un 7;

(3) le due carte sono una carta di denari e un 7, indipendentemente dall’ordine.


Soluzione.
(1) Poniamo Ω = D40,2 . L’esito ω = (ω1 , ω2 ) corrisponde alla coppia delle carte estratte. Caratterizziamo il generico esito
ω = (ω1 , ω2 ) ∈ A tramite le seguenti scelte successive:
i) scegliamo la prima carta estratta (ovvero ω1 ) fra le carte di denari: ci sono 10 scelte possibili;
ii) scegliamo la seconda carta estratta (ovvero ω2 ) fra le carte di coppe: ci sono 10 scelte possibili.
In definitiva
100 5
P (A) = = ≈ 6.4%.
|D40,2 | 78
Se invece non si fosse tenuto conto dell’ordine di estrazione, avremmo potuto considerare, in alternativa, lo spazio campione
Ω = C40,2 . In tal caso l’esito ω = {ω1 , ω2 } corrisponde all’insieme delle carte estratte. Quindi, procedendo come prima,

100 5
= = 2P (A).
|C40,2 | 39

(2) Poniamo Ω = D40,2 . Non possiamo determinare |A| tramite le due scelte successive i)-ii) del punto (1), in quanto pro-
cedendo in questo modo conteremmo anche la coppia (7D, 7D) che invece deve essere esclusa visto che le carte non vengono
reinserite nel mazzo. Invece di applicare direttamente ad A il metodo delle scelte successive, notiamo che A è unione disgiunta
38 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

di A1 = D9,1 × D4,1 (la prima carta è una carta di denari diversa da 7 e la seconda carta è uno dei quattro 7) e A2 = D3,1 (la
prima carta è il 7 di denari e la seconda carta è uno dei rimanenti tre 7). Dunque
9·4 3 1
P (A) = P (A1 ) + P (A2 ) = + = .
|D40,2 | |D40,2 | 40
1 .
(3) Poiché non conta l’ordine P (A) è il doppio rispetto al caso (2), quindi P (A) = 20
Esempio 1.2.25. [!]
Si divida un mazzo di 40 carte in due mazzi da 20. Calcoliamo la probabilità dell’evento A definito in
ognuno dei modi seguenti:
(1) il primo mazzo contiene esattamente un 7;
(2) il primo mazzo contiene almeno un 7.
Soluzione. Poniamo Ω = C40,20 . L’esito ω può essere pensato come l’insieme delle carte del primo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo l’unico 7 che appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo, che non devono essere dei 7: ci sono |C36,19 | modi possibili.
In definitiva
4|C36,19 | 120
P (A) = = ≈ 25%.
|C40,20 | 481
(2) Abbiamo
|C36,20 |
P (A) = 1 − P (Ac ) = 1 − ≈ 95.7%. (1.2.11)
|C40,20 |
Per capire meglio, vediamo dei modi alternativi per risolvere il problema: potremmo tentare di caratterizzare il generico esito
ω ∈ A tramite le seguenti scelte successive:
i) scegliamo un 7 che sicuramente appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo fra le rimanenti 39: ci sono |C39,19 | modi possibili.
In questo caso troveremmo
4|C39,19 |
P (A) = =2
|C40,20 |
che è ovviamente un risultato sbagliato. L’errore sta nel fatto che le scelte successive non identificano univocamente ω, nel
senso che lo stesso ω viene “contato” più di una volta: per esempio, un ω che contiene il 7D (7 di denari) e il 7S (7 di spade)
viene individuato scegliendo 7D nella scelta i) e 7S nella scelta ii) ma anche invertendo i ruoli di 7D e 7S.
Se non vogliamo usare l’evento complementare, possiamo in alternativa calcolare |A| tramite il principio di somma, espri-
mendo A come unione degli eventi disgiunti Ak =“il primo mazzo contiene esattamente un numero k di 7”, per k = 1, 2, 3, 4. Il
generico esito ω ∈ Ak è determinato univocamente dalle seguenti scelte successive:
i) fra i 7 ne scegliamo k che sono quelli che appartengono al primo mazzo: ci sono |C4,k | modi possibili;
ii) scegliamo le rimanenti 20 − k del primo mazzo, che non devono essere dei 7: ci sono |C36,20−k | modi possibili.
Quindi
|C4,k ||C36,20−k |
P (Ak ) = , k = 1, 2, 3, 4,
|C40,20 |
e come risultato finale riotteniamo la (1.2.11).
Esempio 1.2.26. [!]
Da un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N, vengono estratte senza reimmis-
sione k palline, con k ≤ b + r. Calcoliamo la probabilità dell’evento Bk che consiste nell’estrarre una pallina
bianca alla k-esima estrazione.
Soluzione. Poniamo Ω = Db+r,k . L’esito ω può essere identificato con il vettore che indica la sequenza ordinata e senza
ripetizioni delle k estrazioni (supponendo di aver numerato le palline per identificarle). Allora
Bk ↔ {(ω1 , . . . , ωk ) | ωk “bianca”}.
Per determinare |Bk | utilizziamo il metodo delle scelte successive, caratterizzando una generica k-upla (ω1 , . . . , ωk ) tramite il
seguente schema:
1.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 39

i) scegliamo la pallina bianca della k-esima estrazione, ossia ωk : ci sono b modi possibili;
ii) scegliamo la sequenza (ordinata e senza ripetizioni) delle k −1 estrazioni precedenti: ci sono |Db+r−1,k−1 | modi possibili.
In definitiva, posto b + r = n, si ha
(n−1)!
b|Dn−1,k−1 | b (n−k)! b
P (Bk ) = = = .
|Dn,k | n! n
(n−k)!

Dunque P (Bk ) = b+rb coincide con la probabilità di estrarre una pallina bianca alla prima estrazione, ovvero P (B ) = P (B ).
k 1
Questo fatto si può spiegare osservando che Bk è in corrispondenza biunivoca con l’insieme {(ω1 , . . . , ωk ) | ω1 “bianca”}.

Esempio 1.2.27. Si consideri un mazzo di 40 carte, da cui si estraggono senza reimmissione k carte, con
k ≥ 40. Calcoliamo la probabilità che alla k-esima estrazione venga estratta una carta di denari.
Soluzione. L’esempio è simile al precedente: posto Ω = D40,k e Ak = “si estrae una carta di denari alla k-esima estrazione”, la
probabilità di Ak è data da
10|D39,k−1 | 1
P (Ak ) = = .
|D40,k | 4

Esempio 1.2.28. Da un’urna che contiene b palline bianche ed r palline rosse, vengono estratte con reim-
missione 2 palline. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:

(1) le due palline hanno lo stesso colore;

(2) almeno una delle due palline è rossa.

Soluzione. Poniamo Ω = DRb+r,2 . L’esito ω può essere identificato con la coppia (ω1 , ω2 ) che indica la sequenza ordinata (e
con eventuale ripetizione) delle due estrazioni (supponendo di aver numerato le palline per identificarle).
(1) Abbiamo che A è unione disgiunta di A1 = DRb,2 (le due palline sono bianche) e A2 = DRr,2 (le due palline sono rosse).
Dunque
|DRb,2 | |DRr,2 | b2 + r 2
P (A) = P (A1 ) + P (A2 ) = + = .
|DRb+r,2 | |DRb+r,2 | (b + r)2

(2) Si ha P (A) = 1 − P (Ac ) con Ac = DRb,2 (le due palline sono bianche) e quindi

b2
P (A) = 1 − .
(b + r)2

Esempio 1.2.29. Consideriamo un mazzo di carte da poker da 52 carte, identificate dal seme (cuori ♥,
quadri ♦, fiori ♣, picche ♠) e dal tipo (un numero da 2 a 10 oppure J, Q, K, A). Calcoliamo la probabilità di
avere un tris servito, ovvero di ricevere dal mazziere 5 carte di cui 3 sono dello stesso tipo, mentre le altre
due di tipo diverso tra loro e dalle prime tre.
Soluzione. Poniamo Ω = C52,5 . Sia A l’evento di cui dobbiamo calcolare la probabilità, ovvero

A = “avere un tris servito”.

Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:


i) scegliamo il tipo delle carte che formano il tris: ci sono 13 tipi possibili;
ii) scegliamo i tre semi del tris: ci sono |C4,3 | scelte possibili;
iii) scegliamo i tipi delle altre 2 carte fra i rimanenti 12 tipi possibili: ci sono |C12,2 | scelte possibili;
iv) scegliamo il seme delle altre 2 carte fra i 4 possibili: ci sono 4 · 4 = 16 modi possibili.
In definitiva
13 · 4 · |C12,2 | · 16
P (A) = ≈ 2.11%.
|C52,5 |
40 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Come abbiamo detto in precedenza, nonostante la maggior parte degli esperimenti aleatori descritti
dalla probabilità uniforme discreta possa essere formulata su uno dei tre spazi campione DRn,k , Dn,k , Cn,k ,
ci sono casi in cui questo non è possibile. Tuttavia, è sempre possibile scomporre l’esperimento aleatorio in
opportuni sotto-esperimenti aleatori che possono essere formulati su DRn,k , Dn,k o Cn,k , di modo che l’espe-
rimento aleatorio di partenza possa essere descritto sul loro prodotto cartesiano. Vediamo più precisamente
come si procede nei tre esempi che seguono.
Esempio 1.2.30. [!]
Consideriamo un mazzo di 30 carte (per esempio, denari, coppe e spade). Dopo averlo diviso in tre mazzi
da 10 carte, calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) i tre assi sono in mazzi differenti;
(2) i tre assi sono nello stesso mazzo.
Soluzione. Poniamo Ω = C30,10 × C20,10 : l’esito ω = (ω1 , ω2 ) può essere pensato come la coppia in cui ω1 è l’insieme delle
carte del primo mazzo e ω2 è l’insieme delle carte del secondo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo i mazzi in cui sono gli assi: ci sono |P3 | = 6 modi possibili;
ii) scegliamo le rimanenti 9 carte del primo mazzo, che non devono essere degli assi: ci sono |C27,9 | modi possibili;
iii) scegliamo le rimanenti 9 carte del secondo mazzo, che non devono essere degli assi: ci sono |C18,9 | modi possibili.
In definitiva
6|C27,9 ||C18,9 | 50
P (A) = = ≈ 24.6%.
|C30,10 ||C20,10 | 203
(2) In modo analogo caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il mazzo in cui sono gli assi: ci sono 3 modi possibili;
ii) scegliamo le rimanenti 7 carte del mazzo in cui sono gli assi, che non devono essere degli assi: ci sono |C27,7 | modi
possibili;
iii) scegliamo le 10 carte di un secondo mazzo, che non devono essere degli assi: ci sono |C20,10 | modi possibili.
In definitiva
3|C27,7 ||C20,10 | 18
P (A) = = ≈ 8.8%.
|C30,10 ||C20,10 | 203

Esempio 1.2.31. Una moneta (non truccata) viene lanciata dieci volte. Dopodiché si lancia un dado a dieci
facce (su cui sono riportati i numeri interi da 1 a 10). Calcoliamo la probabilità dell’evento

A = “il lancio della moneta, il cui numero è fornito dall’esito del dado, ha dato testa”.

In altre parole, l’evento A si verifica se, dopo aver scelto a caso uno dei 10 lanci (tramite il lancio del dado),
il risultato di quel lancio è testa.
Soluzione. Intuitivamente la probabilità è 12 . Consideriamo Ω = DR2,10 × I10 (si noti che al posto dell’insieme I10 è possibile
utilizzare indifferentemente DR10,1 , D10,1 o C10,1 , dato che |I10 | = |DR10,1 | = |D10,1 | = |C10,1 |). L’esito ω = (ω1 , . . . , ω10 , k)
corrisponde alla sequenza ω1 , . . . , ω10 dei risultati dei lanci e alla scelta k del lancio fra i 10 effettuati. Caratterizziamo il
generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il numero k del lancio: ci sono 10 valori possibili;
ii) scegliamo il risultato degli altri 9 lanci: ci sono |DR2,9 | modi possibili.
In definitiva
10|DR2,9 | 10 · 29 1
P (A) = = = .
|DR2,10 × I10 | 10 · 210 2

Esempio 1.2.32.
1.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 41

i) In quanti modi è possibile sistemare 3 monete (distinte: chiamiamole per esempio m1 , m2 e m3 ) in 10


scatole, sapendo che ogni scatola può contenere solo una moneta?
ii) Una volta disposte le monete, qual è la probabilità che la prima scatola contenga una moneta?
iii) Rispondere ai quesiti precedenti nel caso in cui ogni scatola possa contenere al più 2 monete.
Soluzione. 1) Possiamo immaginare che l’esperimento si svolga come segue: un’urna contiene 10 palline numerate da 1 a
10; ogni pallina corrisponde ad una scatola (supponiamo che le scatole siano state anch’esse numerate da 1 a 10); quindi
si estraggono senza reimmissione tre palline: il numero della i-esima pallina estratta indica la scatola in cui verrà messa la
moneta mi , con i = 1, 2, 3. Abbiamo dunque ricondotto l’esperimento all’estrazione senza reimmissione di 3 palline da un’urna
che ne contiene 10. Sappiamo che lo spazio campione naturale è Ω = D10,3 . Il punto 1) chiede di calcolare i “casi possibili”,
ovvero |D10,3 | = 10!
7! = 720.
3 . Per dimostrarlo, indichiamo con A l’evento di cui vogliamo calcolare la probabilità,
2) Intuitivamente (?) la probabilità è 10
ovvero
A = “la prima scatola contiene una moneta” = “la pallina numero 1 è stata estratta”.
Si ha che
|A| |A|
P (A) = =
|D10,3 | 720
o, alternativamente,
|Ac | |Ac |
P (A) = 1 − P (Ac ) = 1 − = 1− .
|D10,3 | 720
Resta dunque da determinare |A| oppure |Ac |. Si noti che Ac è l’evento in cui le tre monete non sono messe nella prima scatola
e quindi equivale a disporre le 3 monete nelle rimanenti 9 scatole (equivalentemente, nelle tre estrazioni dall’urna, non esce la
pallina numero 1), ossia Ac ↔ D9,3 . Quindi |Ac | = |D9,3 |, da cui

|D9,3 | 7 3
P (A) = 1 − = 1− = .
|D10,3 | 10 10

Alternativamente, |A| può essere determinato con il metodo delle scelte successive procedendo come segue:
• scelgo la moneta da mettere nella prima scatola: 3 scelte possibili;
• scelgo dove mettere le restanti due monete nelle rimanenti nove scatole: |D9,2 | modi possibili.
Quindi |A| = 3|D9,2 |, perciò
3|DR9,2 | 3
P (A) = = .
720 10
3) Poniamo Ω = Ω1 ] Ω2 , dove:
• Ω1 contiene i “casi possibili” in cui le prime due monete sono nella stessa scatola, e, di conseguenza, la terza moneta è
in una delle rimanenti nove scatole: ci sono 10 · 9 casi possibili di questo tipo, quindi |Ω1 | = 10 · 9;
• Ω2 contiene i “casi possibili” in cui le prime due monete sono in scatole diverse, mentre la terza moneta è in una
qualsiasi delle dieci scatole: ci sono |D10,2 | · 10 casi possibili di questo tipo, quindi |Ω2 | = |D10,2 | · 10.
Dato che Ω = Ω1 ] Ω2 , abbiamo che

|Ω| = |Ω1 | + |Ω2 | = 10 · 9 + |D10,2 | · 10 = 990.

1.2.7 Sintesi
Abbiamo introdotto la nozione teorica di spazio di probabilità come caso particolare di quella di spazio
con misura. Una proprietà importante delle misure di probabilità è l’additività numerabile (σ -additività):
essa equivale alle proprietà di continuità dall’alto e dal basso della misura che useremo in modo cruciale
nel seguito.
Nel caso di spazi finiti, un esempio naturale di probabilità è dato dalla probabilità uniforme discreta
che è essenzialmente definita come rapporto fra “casi favorevoli” e “casi possibili”: il calcolo della proba-
bilità uniforme si riduce a un problema di conteggio che può essere risolto con gli strumenti del calcolo
42 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

combinatorio. In tale contesto, un utile algoritmo per il conteggio di “casi favorevoli” e “casi possibili” è il
cosiddetto “metodo delle scelte successive”. Gli errori più comuni che si commettono nell’utilizzo di tale
metodo sono:
• contare esiti che non esistono (vedi Esempio 1.2.24);
• contare più di una volta lo stesso esito (vedi Esempio 1.2.25);
• non contare tutti gli esiti.
Abbiamo anche visto che, nel caso della probabilità uniforme discreta, è spesso utile ripensare il fenomeno
aleatorio come un esperimento in cui si estraggono (con reimmissione, senza reimmissione, simultanea-
mente) k palline da un’urna che contiene n palline distinte. Nell’ambito di questo tipo di problemi abbiamo
infine introdotto due esempi notevoli di probabilità: la binomiale e l’ipergeometrica.

1.3 Probabilità condizionata e indipendenza di eventi


I concetti di indipendenza e probabilità condizionata sono centrali nella Teoria della Probabilità. Po-
tremmo dire che finora abbiamo semplicemente rivisto alcuni concetti di Calcolo combinatorio e Teoria
della misura dandone l’interpretazione probabilistica. Ora, con l’indipendenza e la probabilità condiziona-
ta, introduciamo concetti completamente nuovi e peculiari della Teoria della Probabilità: essi permettono
di analizzare come l’informazione riguardo al verificarsi di un evento B influenza la probabilità di un altro evento
A.

1.3.1 Probabilità condizionata


Come già spiegato, la Teoria della Probabilità si occupa dei fenomeni il cui esito è incerto: ora l’in-
certezza su un fatto significa “mancanza di conoscenza parziale o totale” del fatto stesso. In altri termini,
l’incertezza è dovuta ad una mancanza di informazioni sul fenomeno poichè esso avverrà nel futuro (per
esempio, il prezzo di domani di un titolo azionario) oppure poichè è già avvenuto ma non è stato possibi-
le osservarlo (per esempio, l’estrazione di una carta che non ci viene mostrata oppure la traiettoria di un
elettrone). Chiaramente può accadere che alcune informazioni diventino disponibili e in tal caso lo spazio
di probabilità che descrive il fenomeno deve essere “aggiornato” per tener conto di esse. A questo scopo si
introduce il concetto di probabilità condizionata. Consideriamo dapprima il seguente esempio:
Esempio 1.3.1. [!] Da un’urna che contiene 2 palline bianche e 2 palline nere, si estraggono in sequenza e
senza reinserimento due palline:
i) calcolare la probabilità che la seconda pallina sia bianca;
ii) sapendo che la prima pallina estratta è nera, calcolare la probabilità che la seconda pallina sia bianca;
iii) sapendo che la seconda pallina estratta è nera, calcolare la probabilità che la prima pallina sia bianca.
Risolviamo il quesito i) utilizzando il calcolo combinatorio e considerando lo spazio campione D4,2 delle
possibili estrazioni, tenendo conto del’ordine. Allora |Ω| = |D4,2 | = 12 e l’evento A =“la seconda pallina è
bianca” ha 6 elementi, quindi P (A) = 12 .
Il quesito ii) è elementare dal punto di vista intuitivo: poichè abbiamo l’informazione che la prima
pallina estratta è nera, alla seconda estrazione l’urna è composta da due palline bianche e una nera e
quindi la probabilità cercata è 32 . Condizionatamente all’informazione data, l’evento A ha ora probabilità
maggiore di 21 .
Al contrario del secondo, l’ultimo quesito non sembra avere una soluzione intuitiva. Si potrebbe pensare
che la seconda estrazione non influisca sulla prima poichè avviene dopo ma in realtà non è questo il punto:
la vera questione è che l’informazione sull’esito della seconda estrazione influisce sulla probabilità dell’esito della
1.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 43

prima. Infatti utilizzando il calcolo combinatorio è facile provare che anche in questo caso la probabilità
cercata è 32 . Riflettendo più attentamente, una spiegazione intuitiva è possibile: sapendo che verrà estratta
una pallina nera, è come se nella prima estrazione una delle due palline nere fosse già stata “prenotata” e
non potesse essere estratta; quindi ci sono due possibilità su tre di estrarre una pallina bianca.

Ora formalizziamo le idee precedenti.

Definizione 1.3.2 (Probabilità condizionata). In uno spazio di probabilità (Ω, F , P ) sia B un evento non
trascurabile, ossia tale che P (B) > 0. La probabilità di A condizionata a B è definita da

P (A ∩ B)
P (A | B) := , A ∈ F. (1.3.1)
P (B)

Esempio 1.3.3. [!] Riprendiamo il punto ii) dell’Esempio 1.3.1 e consideriamo gli eventi B =“la prima
pallina estratta è nera” e A =“la seconda pallina estratta è bianca”. Per via intuitiva avevamo detto che
la probabilità di A condizionata a B è pari a 32 : ora calcoliamo P (A | B) utilizzando la Definizione 1.3.2.
Chiaramente P (B) = 12 , mentre sullo spazio campione D4,2 ci sono 4 possibili estrazioni in cui la prima
4
pallina è nera e la seconda è bianca e quindi P (A ∩ B) = 12 = 13 . Ne viene che

P (A ∩ B) 2
P (A | B) = =
P (B) 3

che conferma il risultato intuitivo.


Ora risolviamo il punto i) dell’Esempio 1.3.1 utilizzando il concetto di probabilità condizionata per
evitare l’uso del calcolo combinatorio. La difficoltà del quesito è nel fatto che il risultato della seconda
estrazione dipende dal risultato della prima estrazione e quest’ultimo è incognito: per questo motivo, a
prima vista, sembra impossibile10 calcolare la probabilità dell’evento A. L’idea è di partizionare lo spazio
campione e considerare separatamente i casi in cui B accade o meno per sfruttare la definizione di probabi-
lità condizionata: abbiamo già provato che P (A | B) = 23 e in modo analogo si vede che P (A | Bc ) = 31 . Allora
si ha

P (A) = P (A ∩ B) + P (A ∩ Bc )
= P (A | B)P (B) + P (A | Bc )P (Bc )
2 1 1 1 1
= · + · =
3 2 3 2 2
che conferma quanto già visto.

Proposizione 1.3.4 (Formula della probabilità totale). [!]


Per ogni evento B tale che 0 < P (B) < 1, vale

P (A) = P (A | B)P (B) + P (A | Bc )(1 − P (B)), A ∈ F. (1.3.2)

Più in generale, se (Bi )i∈I è una partizione11 finita o numerabile di Ω, con P (Bi ) > 0 per ogni i ∈ I, allora
vale X
P (A) = P (A | Bi )P (Bi ), A∈F (1.3.3)
i∈I
10 Un’indagine svolta al quarto anno di alcuni licei di Bologna ha evidenziato un numero significativo di studenti che, di fronte a
questo quesito hanno risposto che non è possibile calcolare la probabilità dell’evento A. D’altra parte si può convincere gli studenti che
non c’è ragione per cui le palline nere abbiano maggiore probabilità di essere estratte per seconde e quindi intuitivamente deve valere
P (A) = 21 .
11 Ossia (B )
i i∈I è una famiglia di eventi a due a due disgiunti, la cui unione è uguale a Ω. A volte (Bi )i∈I è chiamato un sistema di
alternative.
44 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Dimostrazione. Dimostriamo la (1.3.3), di cui la (1.3.2) è un caso particolare. Poichè


]
A= (A ∩ Bi ),
i∈I

per la σ -additività di P si ha
X X
P (A) = P (A ∩ Bi ) = P (A | Bi )P (Bi ).
i∈I i∈I

Vediamo un altro esempio tipico di applicazione della Formula della probabilità totale.

Esempio 1.3.5. Consideriamo due urne: l’urna α contiene 3 palline bianche e 1 rossa; l’urna β contiene 1
pallina bianca e 1 rossa. Calcoliamo la probabilità che, scelta a caso un’urna ed estratta una pallina, essa
sia bianca.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità e con B l’evento in cui viene scelta l’urna
α. Sembra naturale porre
1 3 1
P (B) = , P (A | B) = , P (A | Bc ) = .
2 4 2
Allora per la (1.3.2) otteniamo
3 1 1 1 5
P (A) = · + · = .
4 2 2 2 8
Notiamo che abbiamo formalmente calcolato P (A) senza neppure specificare lo spazio di probabilità!

Seconda soluzione. Diamo ora una seconda soluzione più dettagliata: poniamo

Ω = {αb1 , αb2 , αb3 , αr, βb, βr}

dove αb1 è l’esito in cui viene scelta la prima urna ed estratta la prima pallina bianca e gli altri esiti sono definiti in modo
analogo. Chiaramente
A = {αb1 , αb2 , αb3 , βb}
ma in questo caso la probabilità corretta da utilizzare non è quella uniforme su Ω. Infatti B, l’evento in cui viene scelta l’urna
α, deve avere probabilità 21 e gli elementi di B sono equiprobabili: ne segue che P ({ω}) = 81 per ogni ω ∈ B. Analogamente
P (Bc ) = 12 e gli elementi di Bc sono equiprobabili da cui

1
P ({βb}) = P ({βr}) = .
4
Possiamo dunque calcolare
5
P (A) = P ({αb1 }) + P ({αb2 }) + P ({αb3 }) + P ({βb}) =
8
in accordo con quanto precedentemente trovato.

Esercizio 1.3.6. Si lancia un dado e di seguito si lancia una moneta un numero di volte pari al risultato del
lancio del dado. Qual è la probabilità di ottenere esattamente due teste?

Esempio 1.3.7. [!] Un’urna contiene 6 palline bianche e 4 nere. Estraendo 2 palline senza reinserimento,
qual è la probabilità che siano entrambe bianche (evento A)?
Possiamo interpretare il quesito come un problema di conteggio, utilizzando la probabilità uniforme P
sullo spazio Ω = C10,2 delle combinazioni di due palline estratte fra le 10 disponibili. Allora si ha

6!
|C6,2 | 2!4! 6·5
P (A) = = 10!
= . (1.3.4)
|C10,2 | 2!8!
10 · 9
1.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 45

6
Ora notiamo che 10 = P (A1 ) dove A1 è l’evento “la prima pallina estratta è bianca”. D’altra parte, se A2
è l’evento “la seconda pallina estratta è bianca”, allora 95 è la probabilità di A2 condizionata ad A1 , ossia
5
9 = P (A2 | A1 ). In definitiva, osservando anche che A = A1 ∩ A2 , la (1.3.4) equivale a

P (A1 ∩ A2 ) = P (A1 )P (A2 | A1 )

e quindi ritroviamo proprio la formula (1.3.1) che definisce la probabilità condizionata.

Più in generale, dalla definizione di probabilità condizionata si ottiene direttamente il seguente utile
risultato.

Proposizione 1.3.8 (Formula di moltiplicazione). [!]


Siano A1 , . . . , An eventi tali che P (A1 ∩ · · · ∩ An−1 ) > 0. Vale la formula

P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 | A1 ) · · · P (An | A1 ∩ · · · ∩ An−1 ) (1.3.5)

Esercizio 1.3.9. Utilizzare la formula (1.3.5) per calcolare la probabilità che, estratte 3 carte da un mazzo
di 40, il valore di ognuna non sia superiore a 5.
Soluzione. Indicato con Ai , i = 1, 2, 3, l’evento “la i-esima carta estratta è minore o uguale a 5”, la probabilità cercata è uguale
a
20 19 18
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) = · · .
40 39 38
|C |
Risolvendo l’esercizio come un problema di conteggio, troveremmo la soluzione equivalente |C20,3 | .
40,3

Esempio 1.3.10. Calcoliamo la probabilità di fare un ambo al lotto con i numeri 1 e 3 (evento A), sapendo
che l’estrazione è già avvenuta e tre dei cinque numeri estratti sono dispari (evento B).
Soluzione. Poniamo Ω = C90,5 : l’esito ω = {ω1 , . . . , ω5 } può essere pensato come l’insieme dei numeri estratti. Si ha che ω ∈ A
se 1, 3 ∈ ω e dunque A ↔ C88,3 . Inoltre B ↔ C45,3 × C45,2 (corrispondente alla scelta di tre numeri dispari e due pari fra i 90)
e A ∩ B ↔ C43,1 × C45,2 (corrispondente alla scelta del terzo numero dispari, oltre a 1 e 3, e di due pari fra i 90). Allora si ha

|C88,3 | 43|C45,2 |
P (A) = ≈ 0.25% e P (A | B) = ≈ 0.3%.
|C90,5 | |C45,3 ||C45,2 |

Proposizione 1.3.11. Nello spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile. Si ha:

i) P (· | B) è una misura di probabilità su (Ω, F );

ii) se A ∩ B = ∅ allora P (A | B) = 0;
P (A)
iii) se A ⊆ B allora P (A | B) = P (B)
e di conseguenza P (A | B) ≥ P (A);

iv) se B ⊆ A allora P (A | B) = 1;

v) se P (A) = 0 allora P (A | B) = 0.

Dimostrazione. Le proprietà seguono direttamente dalla Definizione 1.3.2: provare i dettagli è un esercizio
molto utile e istruttivo.

Osservazione 1.3.12. In base alla formula (1.3.2) della probabilità totale, se 0 < P (B) < 1 possiamo determi-
nare univocamente P (A) a partire da P (B), P (A | B) e P (A | Bc ).
Notiamo anche che la (1.3.2) implica che P (A) appartiene all’intervallo di estremi P (A | B) e P (A | Bc ):
quindi, indipendentemente dalla conoscenza di P (B), si ha che P (A | B) e P (A | Bc ) forniscono delle stime
del valore di P (A). In particolare se P (A | B) = P (A | Bc ) allora vale anche P (A) = P (A | B) o equivalentemente
P (A ∩ B) = P (A)P (B).
46 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Consideriamo ora un problema che ci riguarda da vicino, relativo alla rilevazione della qualità della
didattica. Definiamo i seguenti eventi aleatori:
• A: un professore riceve un giudizio positivo nella rilevazione della didattica;
• B: un professore è “bravo” (ammesso di sapere cosa ciò significhi).
Generalmente gli eventi A e B non coincidono: allora possiamo interpretare le probabilità condizionate
P (A | B) e P (B | A) nel modo seguente:
• P (A | B) è la probabilità che un professore “bravo” riceva un giudizio positivo;
• P (B | A) è la probabilità che un professore che riceve un giudizio positivo sia “bravo”.
Riflettendo attentamente sul significato di queste due probabilità condizionate, risulta chiaro che a volte si
può essere interessati a ricavarne una a partire dalla conoscenza dall’altra: tipicamente nella realtà, si può
avere una stima generale (in base a dati storici) di P (A | B) ed essere interessati a conoscere P (B | A) in base
al risultato della rilevazione appena effettuata. Una risposta a questo problema è data dal classico Teorema
di Bayes.
Teorema 1.3.13 (Formula di Bayes). [!]
Siano A, B eventi non trascurabili. Vale
P (A | B)P (B)
P (B | A) = (1.3.6)
P (A)

Dimostrazione. La (1.3.6) equivale a


P (B | A)P (A) = P (A | B)P (B)
e segue direttamente dalla definizione di probabilità condizionata.
Esempio 1.3.14. Riprendiamo l’Esempio 1.3.5: sapendo che è stata estratta una pallina bianca, qual è la
probabilità che sia stata scelta l’urna α?
Soluzione. Come prima indichiamo con A l’evento “viene estratta una pallina bianca” e con B l’evento “viene scelta l’urna α”.
Avevamo già calcolato P (A) = 58 , mentre assumiamo P (A | B) = 43 e P (B) = 12 . Allora per la formula di Bayes abbiamo
P (A | B)P (B) 3
P (B | A) = = .
P (A) 5
Esercizio 1.3.15. Supposto P (A | B) , P (A | Bc ), provare che
P (A) − P (A | Bc )
P (B) = , (1.3.7)
P (A | B) − P (A | Bc )
e quindi è possibile determinare univocamente P (B) a partire da P (A), P (A | B) e P (A | Bc ). Suggerimento:
usare la (1.3.2).
Esempio 1.3.16 (Rilevazione della didattica). Supponiamo di sapere che storicamente i professori “bravi”
ricevono un giudizio positivo nel 95% dei casi e i professori “meno bravi” ricevono un giudizio positivo nel
10% dei casi (alcuni professori sono furbi...). Se i giudizi sul corso di laurea sono positivi all’80%, qual è la
probabilità che
i) i professori che hanno ricevuto un giudizio positivo siano veramente “bravi”?
ii) i professori che hanno ricevuto un giudizio negativo in realtà siano “bravi”?
Soluzione. Combinando la formula di Bayes con la formula (1.3.7), otteniamo
P (A | B)P (B) P (A | B) (P (A) − P (A | Bc ))
P (B | A) = = .
P (A) P (A) (P (A | B) − P (A | Bc ))
Per una discussione dei risultati si veda il file Mathematica 02.
1.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 47

1.3.2 Indipendenza di eventi


Definizione 1.3.17. In uno spazio di probabilità (Ω, F , P ), diciamo che due eventi A, B sono indipendenti in
P (o semplicemente12 sono indipendenti) se

P (A ∩ B) = P (A)P (B). (1.3.8)

Osservazione 1.3.18. Sottolineiamo il fatto che il concetto di indipendenza è relativo alla misura di probabi-
lità considerata. Esso esprime il fatto che l’informazione sull’accadere dell’evento B non influenza la probabilità
di A nella misura considerata: infatti, nel caso P (B) > 0, la (1.3.8) è equivalente a

P (A | B) = P (A),

ossia
P (A ∩ B) P (A)
=
P (B) P (Ω)
che può essere interpretata come una relazione di proporzionalità

P (A ∩ B) : P (B) = P (A) : P (Ω).

Analogamente, se
P (A ∩ B) > P (A)P (B) (1.3.9)
allora A, B si dicono positivamente correlati in P poichè la (1.3.9) implica13

P (A | B) > P (A), P (B | A) > P (B),

ossia la probabilità di A aumenta condizionatamente all’informazione sull’avvenire di B e viceversa.


Osservazione 1.3.19. Il fatto che A, B sono indipendenti non significa che siano disgiunti, anzi: se P (A) > 0,
P (B) > 0 e vale la (1.3.8) allora anche P (A ∩ B) > 0 e quindi A ∩ B , ∅.
Osservazione 1.3.20. [!] Abbiamo definito il concetto di indipendenza ma non quello di dipendenza. Per
questo motivo, se due eventi A, B non sono indipendenti non diciamo che sono dipendenti: definiremo in
seguito un concetto di dipendenza che è ben distinto e in qualche modo slegato da quello di indipendenza.
Esempio 1.3.21. [!] Due atleti hanno rispettivamente la probabilità del 70% e 80% di battere un record in
una gara. Qual è la probabilità che almeno uno dei due batta il record.
Se A è l’evento “il primo atleta batte il record” e B è l’evento “il secondo atleta batte il record”, è naturale
assumere che A e B siano indipendenti. Allora si ha

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =

(per l’indipendenza)

= P (A) + P (B) − P (A)P (B)


= 150% − 70% · 80% = 94%.

Esempio 1.3.22. Il fatto che due eventi siano indipendenti non significa che “non hanno nulla a che fare”.
Si consideri il lancio di due dadi e gli eventi “la somma dei lanci è 7” (evento A) e “il risultato del primo
lancio è 3”. Allora A e B sono indipendenti nella probabilità uniforme.
12 A volte è necessario dichiarare esplicitamente la misura di probabilità P considerata. Infatti nelle applicazioni possono intervenire
diverse misure di probabilità contemporaneamente: non è detto che due eventi indipendenti in una misura di probabilità lo siano in
un’altra misura di probabilità.
13 Nel caso in cui A, B non siano trascurabili in P .
48 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Esempio 1.3.23. Vedremo tra breve che il concetto di indipendenza risulta naturale per descrivere un espe-
rimento che viene ripetuto in modo che ogni ripetizione non influenzi la probabilità delle altre ripetizioni
(per esempio, un sequenza di lanci di un dado o di una moneta). In questo caso risulta naturale utilizzare
uno spazio campione che sia un prodotto cartesiano.
Per esempio, sia Ω = Ω1 × Ω2 finito, munito della probabilità uniforme P : consideriamo A = E1 × Ω2 e
B = Ω1 × E2 con Ei ⊆ Ωi , i = 1, 2. Allora
|E1 ||E2 | |E1 × Ω2 ||Ω1 × E2 |
P (A ∩ B) = P (E1 × E2 ) = = = P (A)P (B)
|Ω| |Ω|2
e quindi A e B sono indipendenti in P . Approfondiremo il legame fra i concetti di indipendenza e prodotto
di misure a partire dalla Sezione 2.3.
Esercizio 1.3.24. [!] Al cinema due persone α, β decidono quale film vedere, tra due disponibili, in maniera
indipendente e con le seguenti probabilità:
1 1
P (α1 ) =
, P (β1 ) =
3 4
dove α1 indica l’evento “α sceglie il primo film”. Calcolare la probabilità che α e β vedano lo stesso film.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità. Abbiamo
P (A) = P (α1 ∩ β1 ) + P (α2 ∩ β2 ) =
(per l’ipotesi di indipendenza e poichè P (α2 ) = 1 − P (α1 ))
7
= P (α1 )P (β1 ) + P (α2 )P (β2 ) =
.
12
Questo esempio elementare mostra che è possibile calcolare la probabilità di un evento che dipende da eventi indipendenti,
a partire dalla conoscenza delle probabilità dei singoli eventi e, soprattutto, senza la necessità di costruire esplicitamente lo
spazio di probabilità.
Seconda soluzione. È anche utile procedere nel modo “classico”, risolvendo l’esercizio come un problema di conteggio: in questo
caso dobbiamo prima costruire lo spazio campione
Ω = {(1, 1), (1, 2), (2, 1), (2, 2)}
dove (i, j) indica l’esito “α sceglie il film i e β sceglie il film j” con i, j = 1, 2. Per ipotesi conosciamo le probabilità degli eventi
α1 = {(1, 1), (1, 2)}, β1 = {(1, 1), (2, 1)},
tuttavia questo non è sufficiente a determinare univocamente la probabilità P , ossia a determinare le probabilità dei singoli
esiti. In effetti per fare ciò, è necessario utilizzare anche l’ipotesi di indipendenza (in P ) di α1 e β1 , da cui ricaviamo per
esempio
1
P ({(1, 1)}) = P (α1 ∩ β1 ) = P (α1 )P (β1 ) = .
12
Analogamente possiamo calcolare tutte le probabilità degli esiti e di conseguenza risolvere il problema. Notiamo che questa
procedura basata sul conteggio risulta più laboriosa e meno intuitiva.
Proposizione 1.3.25. Se A, B sono indipendenti allora anche A, Bc sono indipendenti.
Dimostrazione. Si ha
P (A ∩ Bc ) = P (A \ B) = P (A \ (A ∩ B)) =
(per la (1.1.6))
= P (A) − P (A ∩ B) =
(per l’ipotesi di indipendenza di A, B)
= P (A) − P (A)P (B) = P (A)P (Bc ).
1.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 49

Esempio 1.3.26. [!]


Al cinema due persone α, β decidono quale film vedere fra tre disponibili, nel modo seguente:

i) α sceglie un film a caso con le seguenti probabilità

1 1 1
P (α1 ) = , P (α2 ) = , P (α3 ) =
2 3 6
dove αi indica l’evento “α sceglie il film i-esimo” per i = 1, 2, 3;

ii) β lancia una moneta e se il risultato è “testa” allora sceglie lo stesso film di α, altrimenti sceglie un
film a caso, indipendentemente da α.

Calcoliamo la probabilità P (A) dove A è l’evento “α e β vedono lo stesso film”.


Soluzione. Indichiamo con T l’evento “il risultato del lancio della moneta è testa”. Si ha P (T ) = 12 e per ipotesi P (A | T ) = 1 e
P (βi | T c ) = 31 per i = 1, 2, 3. Inoltre, poichè P (· | T c ) è una misura di probabilità, si ha

3
X
P (A | T c ) = P (αi ∩ βi | T c ) =
i=1

(per l’ipotesi di indipendenza della scelta di α e β condizionatamente all’evento T c )

3
X
= P (αi | T c )P (βi | T c )
i=1
3
1X 1
= P (αi | T c ) = ,
3 3
i=1

3
P (αi | T c ) = 1 essendo P (· | T c ) una misura di probabilità. Allora per la (1.3.2) si ha
P
poichè
i=1

1 1 1 2
P (A) = P (A | T )P (T ) + P (A | T c )(1 − P (T )) = 1 · + · = .
2 3 2 3
Per esercizio, provare a calcolare la probabilità che α e β scelgano il primo film, ossia P (α1 ∩ β1 ).

Osservazione 1.3.27. Se P (A) = 0 allora anche P (A ∩ B) = 0 (per la (1.1.5) e il fatto che A ∩ B ⊆ A) e quindi
la (1.3.8) vale per ogni B, ossia A è indipendente da ogni evento B.

Esempio 1.3.28. Consideriamo un mazzo di 40 carte: verificare che, rispetto alla probabilità uniforme,

i) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre un 7” (evento B) non sono indipendenti;

ii) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre una carta di denari” (evento B) sono
indipendenti.

Consideriamo ora il caso di più di due eventi.

Definizione 1.3.29. Sia (Ai )i∈I una famiglia di eventi. Diciamo che tali eventi sono indipendenti se vale
 
 \  Y
P  Aj  = P (Aj )
j∈J j∈J

per ogni J ⊆ I, con J finito.


50 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Consideriamo tre eventi A, B, C: gli Esercizi 1.3.43 e 1.3.44 mostrano che in generale non c’è implicazione
fra la proprietà
P (A ∩ B ∩ C) = P (A)P (B)P (C) (1.3.10)
e le proprietà
P (A ∩ B) = P (A)P (B), P (A ∩ C) = P (A)P (C), P (B ∩ C) = P (B)P (C). (1.3.11)
In particolare, una famiglia di eventi a due a due indipendenti non è in generale una famiglia di eventi
indipendenti.
Concludiamo la sezione con un risultato che verrà utilizzato spesso in seguito. Data una successione di
eventi (An )n≥1 , indichiamo con14 \[
(An i.o.) = Ak
n≥1 k≥n
l’evento costituito dagli ω ∈ Ω che appartengono ad un numero infinito di An .
Lemma 1.3.30 (Borel-Cantelli). [!] Sia (An )n≥1 una successione di eventi nello spazio (Ω, F , P ):
i) se X
P (An ) < +∞
n≥1
allora P (An i.o.) = 0;
ii) se gli An sono indipendenti e X
P (An ) = +∞
n≥1
allora P (An i.o.) = 1.
Dimostrazione. Per la continuità dall’alto di P si ha
[ !
P (An i.o.) = lim P Ak ≤
n→∞
k≥n

(per sub-additività, Proposizione 1.1.20-ii))


X
≤ lim P (Ak ) = 0
n→∞
k≥n

per ipotesi. Questo prova la prima parte della tesi.


Per quanto riguarda ii), proviamo che
[ !
P Ak = 1 (1.3.12)
k≥n
per ogni n ∈ N, da cui seguirà la tesi. Fissati n, N con n ≤ N , si ha
N
[ ! N
\ !
P Ak = 1 − P Ack =
k=n k=n

(per indipendenza)
N
Y
= 1− (1 − P (Ak )) ≥
k=n
14 i.o. sta per infinitely often.
1.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 51

(per la disuguaglianza elementare 1 − x ≤ e−x valida per x ∈ R)


N
X !
≥ 1 − exp − P (Ak ) .
k=n

La (1.3.12) segue passando al limite per N → ∞.

1.3.3 Prove ripetute e indipendenti


Definizione 1.3.31. [!] In uno spazio di probabilità (Ω, F , P ), sia (Ch )h=1,...,n una famiglia finita di eventi
indipendenti ed equiprobabili, ossia tali che P (Ch ) = p ∈ [0, 1] per ogni h = 1, . . . , n. Allora diciamo che
(Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Intuitivamente possiamo immaginare di ripetere n volte un esperimento che può avere due esiti, succes-
so o insuccesso: Ch rappresenta l’evento “l’esperimento h-esimo ha successo”. Per esempio, in una sequenza
di n lanci di una moneta, Ch può rappresentare l’evento “al lancio numero h ottengo testa”.
Per ogni n ∈ N e p ∈ [0, 1], è sempre possibile costruire uno spazio discreto (Ω, P ) su cui è definita una
famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Il seguente risultato mostra anche
che su uno spazio di probabilità discreto non è possibile definire una successione (Ch )h∈N di prove ripetute e
indipendenti a meno che non sia banale, ossia con p = 0 oppure p = 1. Essendo un problema molto rilevante
nelle applicazioni, studieremo l’esistenza di successioni di eventi indipendenti nella Sezione 5.1.3.
Proposizione 1.3.32. Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Si veda la Sezione 1.5.1.
Vediamo ora due esempi significativi.
Esempio 1.3.33 (Probabilità di primo successo alla prova k). [!]
Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti con probabilità p. L’evento “il primo successo
è alla k-esima prova” è definito da

Ak := C1c ∩ C2c ∩ · · · ∩ Ck−1


c
∩ Ck , 1 ≤ k ≤ n,

e per l’indipendenza vale


P (Ak ) = (1 − p)k−1 p, 1 ≤ k ≤ n. (1.3.13)
Per esempio, Ak rappresenta l’evento secondo cui, in una sequenza di n lanci di una moneta, si ottiene testa
per la prima volta al k-esimo lancio. Notiamo che P (Ak ) in (1.3.13) non dipende da n: intuitivamente, Ak
dipende solo da ciò che è successo fino alla k-esima prova ed è indipendente dal numero totale n di prove.
Esempio 1.3.34 (Probabilità di k successi su n prove). [!]
Consideriamo una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Calcoliamo la
probabilità dell’evento Ak “esattamente k prove hanno successo”.
1◦ modo: Con riferimento allo spazio canonico della Proposizione 1.3.32 e in particolare alla formula (1.5.1),
abbiamo Ak = Ωk . Dunque
!
X
k n−k n k
P (Ak ) = P ({ω}) = |Ωk |p (1 − p) = p (1 − p)n−k , 0 ≤ k ≤ n.
k
ω∈Ωk

Vedremo che P (Ak ) è legato al concetto di distribuzione binomiale nell’Esempio 1.4.17.


52 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

2◦ modo: L’evento Ak è del tipo


Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn
al variare di {i1 , . . . , ik }, famiglia di indici di In . Per definizione di Cn,k , le possibili scelte di tali indici sono
esattamente |Cn,k |. Inoltre, per l’indipendenza, si ha
 
P Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn = pk (1 − p)n−k

e dunque ritroviamo il risultato


!
n k
P (Ak ) = p (1 − p)n−k , 0 ≤ k ≤ n. (1.3.14)
k

Osservazione 1.3.35. Ripensiamo all’Esempio 1.2.20 relativo al calcolo della probabilità di estrarre (con
reinserimento) esattamente k palline bianche da un’urna che ne contiene b bianche e r rosse. Se Ch è l’evento
b
“la pallina della h-esima estrazione è bianca” allora p = P (Ch ) = b+r e la (1.3.14) fornisce la probabilità
cercata, in accordo con quanto avevamo ottenuto nell’Esempio 1.2.20 tramite il calcolo combinatorio.
Si noti che nell’approccio basato sul calcolo combinatorio si usa la probabilità uniforme, come sempre nei
problemi di conteggio. Invece, nell’approccio basato sulla famiglia di prove ripetute e indipendenti, impli-
citamente utilizziamo lo spazio canonico della Proposizione 1.3.32 senza tuttavia la necessità di dichiarare
esplicitamente lo spazio campione e la misura di probabilità (che comunque non è quella uniforme).

1.3.4 Esempi ed esercizi


Per evidenziare le sottigliezze e i pericoli che ci possono essere nel trattare il concetto di probabilità
condizionata, consideriamo il seguente
Esempio 1.3.36. [!]

• Il signor Rossi ha due figli: qual è la probabilità che entrambi i figli siano maschi (evento A)?
Considerando come spazio campione

Ω = {(M, M), (M, F), (F, M), (F, F)} (1.3.15)

con ovvio significato dei simboli, è chiaro che P (A) = 41 .


La situazione è riassunta nella seguente tabella in cui le celle rappresentano i quattro casi possibili e le
relative probabilità sono indicate all’interno dei cerchi: in giallo è evidenziato l’evento A = {(M, M)}.

Maschio Femmina
1 1
Maschio (M, M) 4 (M, F) 4
1 1
Femmina (F, M) 4 (F, F) 4

• Il signor Rossi ha due figli. Sapendo che uno di questi è maschio (evento B), qual è la probabilità che
entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) purtroppo è sbagliata. Per rendersene conto è suffi-
ciente considerare ancora lo spazio campione Ω: ora, avendo l’informazione che (F, F) non è possibile
(ossia ha probabilità nulla “condizionatamente” all’informazione data che è il verificarsi dell’evento
B) e supposto che gli esiti (M, M), (M, F), (F, M) siano equiprobabili, se ne conclude che la probabilità
cercata è pari a 13 .
1.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 53

Nella tabella seguente la parte colorata in giallo e verde rappresenta l’evento B e dentro i cerchi
è indicata la probabilità condizionata all’informazione che si verifica B. Si noti che tale probabilità è
diversa dalla probabilità uniforme su Ω del punto precedente.

Maschio Femmina
1 1
Maschio (M, M) 3 (M, F) 3
1
Femmina (F, M) 3 (F, F) 0

• Il signor Rossi ha due figli. Sapendo che il primogenito è maschio (evento C, differente da B del punto
precedente), qual è la probabilità che entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) è corretta perchè in questo caso FM e FF hanno
entrambe probabilità nulla (“condizionatamente” all’informazione data che è il verificarsi dell’evento
C). In altri termini, sapendo che il primogenito è maschio, tutto dipende dal fatto che il secondogenito
sia maschio o femmina, ossia da due eventi equiprobabili con probabilità pari a 12 .
Nella tabella seguente la parte colorata in giallo e blu rappresenta l’evento C e dentro i cerchi è
indicata la probabilità condizionata al verificarsi di C. Tale probabilità condizionata assegna valore 12
all’evento A = {(M, M)}

Maschio Femmina
1 1
Maschio (M, M) 2 (M, F) 2

Femmina (F, M) 0 (F, F) 0

Indicando con P la probabilità uniforme su Ω in (1.3.15), abbiamo


1 3 1
P (A) = P ({MM}) = , P (B) = P ({MM, MF, FM}) = , P (C) = P ({MM, MF}) = ,
4 4 2
e quindi, in base alla Definizione 1.3.2, vale

P (A) 1 P (A) 1
P (A | B) = = , P (A | C) = = ,
P (B) 3 P (C) 2
in accordo con quanto avevamo congetturato sopra per via intuitiva.
Esercizio 1.3.37. Dimostrare la Proposizione 1.3.11.
Esercizio 1.3.38. Provare che
P (A | B)P (B)
P (B | A) = (1.3.16)
P (A | B)P (B) + P (A | Bc )(1 − P (B))

e quindi è possibile determinare univocamente P (B | A) a partire da P (B), P (A | B) e P (A | Bc ). Suggerimento:


usare la formula di Bayes.
Esercizio 1.3.39. Sappiamo che il 4% di una certa popolazione α è malato. Effettuando un test sperimentale
per rilevare se un individuo di α è malato, si osserva che il test ha la seguente affidabilità:
i) se l’individuo è malato, il test dà esito positivo nel 99% dei casi;
54 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

ii) se l’individuo è sano, il test dà esito positivo nel 2% dei casi.

In base a questi dati, qual è la probabilità che un individuo di α, positivo al test, sia veramente malato?
Supponiamo ora di utilizzare il test su un’altra popolazione β: considerando valide le stime di affidabi-
lità i) e ii), e osservando che il test dà esito positivo sul 6% della popolazione β, qual è la probabilità che un
individuo di β sia malato?
Soluzione. Indichiamo con T l’evento “il test su un individuo dà esito positivo” e con M l’evento “l’individuo è malato”. Per
ipotesi, P (M) = 4%, P (T | M) = 99% e P (T | M c ) = 2%. Allora per la (1.3.16) con B = M e A = T vale

P (M | T ) ≈ 67.35%

e dunque c’è un alto numero di “falsi positivi”. Questo è dovuto al fatto che la percentuale dei malati è relativamente bassa:
notiamo che in generale

P (T | M)P (M)
P (M | T ) = −→ 0+ per P (M) → 0+
P (T | M)P (M) + P (T | M c )(1 − P (M))

mentre P (M | T ) → 1− per P (M) → 1− . Osserviamo che in base ai dati possiamo anche calcolare, tramite la (1.3.2), la
percentuale dei test positivi
P (T ) = P (T | M)P (M) + P (T | M c )(1 − P (M)) ≈ 5.88%.
Per quanto riguarda il secondo quesito, abbiamo che per ipotesi P (T | M) = 99% e P (T | M c ) = 2%. Se il dato osservato è
che P (T ) = 6% allora dalla (1.3.7) ricaviamo

P (T ) − P (T | M c )
P (M) = ≈ 4.12%
P (T | M) − P (T | M c )

Il risultato si può interpretare dicendo che, prese per valide le stime di affidabilità i) e ii) del test, si ha che su un 6% di test
positivi circa il 33% sono falsi positivi.

Esercizio 1.3.40. Provare nel dettaglio quanto affermato nell’Esempio 1.3.28.

Esercizio 1.3.41. Provare nel dettaglio quanto affermato nell’Esempio 1.3.22.

Esercizio 1.3.42. In riferimento all’Esercizio 1.3.24, costruire una misura di probabilità Q su Ω, diversa da
P , rispetto alla quale valga ancora
1 1
Q(A1 ) = , Q(B1 ) =
3 2
ma A1 e B1 non siano indipendenti in Q.

Esercizio 1.3.43 ((1.3.11) non implica (1.3.10)). Consideriamo il lancio di tre dadi e gli eventi Aij definiti
da “il risultato del dado i-esimo è uguale a quello del dado j-esimo”. Allora A12 , A13 , A23 sono a due a due
indipendenti ma non sono indipendenti.

Esercizio 1.3.44 ((1.3.10) non implica (1.3.11)). Consideriamo il lancio di due dadi e, posto Ω = I6 × I6 , gli
eventi

A = {(ω1 , ω2 ) | ω2 ∈ {1, 2, 5}}, B = {(ω1 , ω2 ) | ω2 ∈ {4, 5, 6}}, C = {(ω1 , ω2 ) | ω1 + ω2 = 9}.

Allora vale la (1.3.10) ma non la (1.3.11).

Esercizio 1.3.45. Supponiamo che n oggetti siano messi a caso in r scatole, con r ≥ 1. Calcoliamo la
probabilità che “esattamente k oggetti siano messi nella prima scatola” (evento Ak ).
Soluzione. Se Ch è l’evento “l’h-esimo oggetto viene messo nella prima scatola” allora p = P (Ch ) = 1r . Inoltre P (Ak ) è data
dalla (1.3.14).
1.4. DISTRIBUZIONI 55

1.3.5 Sintesi
La probabilità condizionata e l’indipendenza sono i primi concetti veramente nuovi, esclusivi della teoria
della probabilità e che non si incontrano in altre teorie matematicamente “affini” come la teoria della misura
o il calcolo combinatorio.
Lo scopo di entrambi i concetti è quello di esprimere la probabilità P (A ∩ B) in termini di probabilità
dei singoli eventi A e B. Ciò è ovviamente possibile se A, B sono indipendenti in P poichè in questo caso si
ha
P (A ∩ B) = P (A)P (B).

Più in generale, se non c’è indipendenza fra A e B possiamo scrivere

P (A ∩ B) = P (A | B)P (B)

Molti problemi si risolvono molto più facilmente usando le precedenti identità (e altre utili formule come
quella della probabilità totale, di moltiplicazione e di Bayes) invece del calcolo combinatorio.

1.4 Distribuzioni
In questa sezione ci occupiamo della costruzione e caratterizzazione delle misure sullo spazio Euclideo,
con particolare attenzione alle misure di probabilità su Rd , chiamate distribuzioni. Il risultato fondamentale
in questa direzione è il Teorema di Carathéodory che enunciamo nella Sezione 1.4.7 e utilizzeremo spesso
nel seguito. L’idea è di definire una distribuzione dapprima su una famiglia particolare A di sottoinsiemi
dello spazio campione Ω (per esempio, la famiglia degli intervalli nel caso Ω = R) e poi estenderla su
un’opportuna σ -algebra che contiene A . Il problema della scelta di tale σ -algebra è legato alla cardinalità
di Ω: se Ω è finito o numerabile, dare una probabilità su Ω è equivalente ad assegnare le probabilità dei
singoli esiti (cf. Osservazione 1.1.12); di conseguenza è naturale assumere P(Ω) come σ -algebra degli
eventi. Il caso non discreto, come abbiamo già visto nell’Esempio 1.1.27, è decisamente più complesso;
infatti la cardinalità di P(Ω) può essere “troppo grande” perchè sia possibile definire su di essa una misura
di probabilità15 . In questo caso è necessario considerare una σ -algebra più piccola che contenga A .

1.4.1 σ -algebra generata e completamento di uno spazio di probabilità


Consideriamo un generico insieme non vuoto Ω. Osserviamo che se (Fi )i∈I è una famiglia (non neces-
sariamente numerabile) di σ -algebre su Ω allora l’intersezione
\
Fi
i∈I

è ancora una σ -algebra. Questo giustifica la seguente

Definizione 1.4.1. Data una famiglia A di sottoinsiemi di Ω, indichiamo con σ (A ) l’intersezione di tutte
le σ -algebre che contengono A . Poichè σ (A ) è la più piccola σ -algebra che contiene A , diciamo che A è la
σ -algebra generata da A .

Esempio 1.4.2. Nel caso in cui A = {A} sia formata da un solo insieme A ⊆ Ω, scriviamo σ (A) invece di
σ ({A}) e notiamo che vale
σ (A) = {∅, Ω, A, Ac }.
15 Se la cardinalità di Ω è finita, diciamo |Ω| = n, allora P(Ω) = 2n e se Ω ha cardinalità numerabile allora P(Ω) ha la cardinalità
del continuo (di R). Tuttavia se Ω = R, per il Teorema di Cantor la cardinalità di P(R) è strettamente maggiore della cardinalità di R.
56 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

L’intersezione di σ -algebre è ancora una σ -algebra, ma un risultato analogo non vale per l’unione: date
due σ -algebre F1 e F2 , si ha F1 ∪ F2 ⊆ σ (F1 ∪ F2 ) e inclusione può essere stretta.
In generale è difficile dare una rappresentazione esplicita della σ -algebra generata da una famiglia
A : chiaramente σ (A ) deve contenere i complementari e le unioni numerabili di elementi di A ma, come
vedremo nella prossima sezione, ci sono casi in cui con queste operazioni non si ottengono tutti gli elementi
di σ (A ). Per questo motivo è utile introdurre delle tecniche che permettano di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di α(A ): questo
tipo di risultati sono l’oggetto dell’Appendice A.1.
Osservazione 1.4.3 (Completamento di uno spazio di probabilità). Ricordiamo che uno spazio di pro-
babilità (Ω, F , P ) è completo se N ⊆ F ossia gli insiemi trascurabili (e quelli quasi certi) sono eventi. Si
può sempre “completare” uno spazio (Ω, F , P ) estendendo P alla σ -algebra σ (F ∪ N ) nel modo seguente.
Anzitutto si prova16 che σ (F ∪ N ) = Fˆ dove

Fˆ := {A ⊆ Ω | A M B ∈ N per un certo B ∈ F }.

Qui A M B = (A \ B) ∪ (B \ A) indica la differenza simmetrica di insiemi. Dato A ∈ Fˆ , poniamo Pˆ (A) := P (B)


dove B ∈ F è tale che A M B ∈ N . Non è difficile verificare che:
• tale definizione è ben posta (non dipende dalla scelta di B);
• Pˆ è una misura di probabilità su (Ω, Fˆ );
• Pˆ (B) = P (B) per ogni B ∈ F ;
• (Ω, Fˆ , Pˆ ) è uno spazio completo.
Il completamento di uno spazio dipende dalla σ -algebra e dalla misura di probabilità fissate: al riguardo,
si veda l’Esercizio 1.4.14. Ritorneremo in seguito (cfr. Osservazioni 2.1.11, 5.1.15 e 5.4.2) sull’importanza
dell’ipotesi di completezza soprattutto nello studio dei processi stocastici che affronteremo nel Capitolo 5.

1.4.2 σ -algebra di Borel


Introduciamo la σ -algebra che utilizzeremo sistematicamente quando lo spazio campione è Rd . In
realtà, poichè non comporta alcuna difficoltà aggiuntiva e risulterà comodo in seguito, consideriamo il
caso in cui lo spazio campione sia un generico spazio metrico (M, %): al di là degli spazi Euclidei, un esempio
non banale è M = C[0, 1], lo spazio delle funzioni continue sull’intervallo [0, 1], munito della distanza del
massimo
%max (f , g) = max |f (t) − g(t)|, f , g ∈ C[0, 1].
t∈[0,1]

In uno spazio metrico (M, %), la σ -algebra di Borel B% è la σ -algebra generata dalla topologia (la famiglia
degli aperti) indotta da %.
Definizione 1.4.4 (σ -algebra di Borel). La σ -algebra di Borel B% è la più piccola σ -algebra che contiene gli
aperti di (M, %). Gli elementi di B% sono chiamati Boreliani.

Notazione 1.4.5. Nel seguito indicheremo con Bd la σ -algebra di Borel nello spazio Euclideo Rd . È noto
che Bd è strettamente contenuta nella σ -algebra L dei misurabili secondo Lebesgue17 . Nel caso d = 1,
scriviamo semplicemente B invece di B1 .
16 È chiaro che F ∪ N ⊆ Fˆ ⊆ σ (F ∪ N ) e quindi è sufficiente verificare che Fˆ è una σ -algebra per provare che Fˆ = σ (F ∪ N ). Ciò
segue dal fatto che:
i) Ac M Bc = A M B;
! !
S S S
ii) An M An = (An M Bn ) .
n∈N n∈N n∈N
 
17 (Rd , L , Leb ) è il completamento (cfr. Osservazione 1.4.3) rispetto alla la misura di Lebesgue Leb di Rd , B , Leb .
d d d d
1.4. DISTRIBUZIONI 57

Osservazione 1.4.6. [!] Per definizione, B% contiene tutti i sottoinsiemi di M che si ottengono a partire
dagli aperti mediante le operazioni di passaggio al complementare e unione numerabile: per esempio, i
singoletti sono Boreliani18 , ossia {x} ∈ B% per ogni x ∈ M.
Tuttavia, con le sole operazioni di passaggio al complementare e unione numerabile non si ottengono tutti gli
elementi di B% . Addirittura in [6] si mostra che anche con una successione numerabile di operazioni di
passaggio al complementare e unione numerabile non si ottiene B% . Più precisamente, data una famiglia
H di sottoinsiemi di uno spazio Ω, indichiamo con H ∗ la famiglia che contiene gli elementi di H , i
complementari degli elementi di H e le unioni numerabili di elementi di H . Inoltre definiamo H0 = H
e, per ricorrenza, la successione crescente di famiglie

Hn = Hn−1 , n ∈ N.
Per induzione si vede che Hn ⊆ σ (H ) per ogni n ∈ N; tuttavia (cfr. [6] p. 30) nel caso in cui Ω = R e H è
come nell’Esercizio 1.4.7-ii), si ha che
[∞
Hn
n=0
è strettamente incluso in B = σ (H ).
Esercizio 1.4.7. Sia d = 1. Provare che B = σ (H ) dove H è una qualsiasi delle seguenti famiglie di
sotto-insiemi di R:
i) H = { ]a, b] | a, b ∈ R, a < b};
ii) H = { ]a, b] | a, b ∈ Q, a < b} (si noti che H è numerabile e pertanto si dice che la σ -algebra B è
numerabilmente generata);
iii) H = { ] − ∞, a] | a ∈ R}.
Un risultato analogo vale in dimensione maggiore di uno, considerando i pluri-intervalli.

1.4.3 Distribuzioni
Sia B% la σ -algebra di Borel su uno spazio metrico (M, %). Chiaramente, il caso Euclideo M = Rd è di
particolare interesse e dovrà sempre essere tenuto come punto di riferimento.
Definizione 1.4.8 (Distribuzione). Una distribuzione è una misura di probabilità su (M, B% ).
Per fissare le idee, è bene dare la seguente interpretazione “fisica” del concetto di distribuzione µ. Pen-
siamo allo spazio campione Rd come all’insieme delle possibili posizioni nello spazio di una particella che
non è osservabile con precisione: allora H ∈ Bd si interpreta come l’evento secondo cui “la particella è nel
Boreliano H” e µ(H) è la probabilità che la particella sia in H.
Attenzione! Il concetto di distribuzione sarà compreso pienamente solo quando avremo introdotto le va-
riabili aleatorie: ora non abbiamo ancora le nozioni sufficienti per apprezzare fino in fondo le distribuzioni.
Pertanto ci limitiamo ad accennare alcuni esempi che riprenderemo con più calma in seguito.
Cominciamo col provare alcune proprietà generali delle distribuzioni.
Proposizione 1.4.9 (Regolarità interna ed esterna). Sia µ una distribuzione su (M, B% ). Per ogni H ∈ B%
si ha
µ(H) = sup{µ(C) | C ⊆ H, C chiuso}
= inf{µ(A) | A ⊇ H, A aperto}.
18 Infatti
\
{x} = D(x, 1/n)
n≥1
dove i dischi D(x, 1/n) := {y ∈ M | %(x, y) < 1/n} ∈ B% essendo aperti per definizione.
58 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

La dimostrazione della Proposizione 1.4.9 è rimandata alla Sezione 1.5.2. Una conseguenza immediata
è il seguente
Corollario 1.4.10. Due distribuzioni µ1 e µ2 su (M, B% ) sono uguali se e solo se µ1 (H) = µ2 (H) per ogni
aperto H (oppure per ogni chiuso H).
Osservazione 1.4.11. Se µ è una distribuzione su (M, B% ) allora

A := {x ∈ M | µ({x}) > 0}

è finito o al più numerabile. Infatti, poniamo

An = {x ∈ M | µ({x}) > 1/n}, n ∈ N.

Allora, per ogni x1 , . . . , xk ∈ An si ha

k
1 = µ(M) ≥ µ({x1 , . . . , xk }) ≥
n
S
e di conseguenza An ha al più n elementi. Allora la tesi segue dal fatto che A = An dove l’unione è finita
n≥1
o numerabile.
Il caso “estremo” in cui µ concentra tutta la misura in un solo punto è illustrato nell’esempio seguente.
Esempio 1.4.12. Fissato x0 ∈ Rd , la distribuzione delta di Dirac δx0 centrata in x0 , è definita da

1 se x0 ∈ H,

H ∈ Bd .

δx0 (H) = 
0 se x < H,

0

Si noti in particolare che δx0 ({x0 }) = 1 e si pensi all’interpretazione “fisica” di questo fatto.
Prima di considerare altri esempi notevoli di distribuzioni, osserviamo che combinando opportunamen-
te delle distribuzioni si ottiene ancora una distribuzione.
Proposizione 1.4.13. Sia (µn )n∈N una successione di distribuzioni su (M, B% ) e (pn )n∈N una successione di
numeri reali tali che
X∞
pn = 1 e pn ≥ 0, n ∈ N. (1.4.1)
n=1
Allora µ definita da

X
µ(H) := pn µn (H), H ∈ B% ,
n=1
è una distribuzione.
Dimostrazione. È facile verificare che µ(∅) = 0 e µ(M) = 1. Rimane da provare la σ -additività: si ha
  ∞  
 ]  X  ] 
µ  Hk  =
 pn µn  Hk  =
k∈N n=1 k∈N

(per la σ -additività delle µn )



X ∞
X
= pn µn (Hk ) =
n=1 k=1
1.4. DISTRIBUZIONI 59

(riordinando i termini poichè si tratta di una serie a termini non-negativi)


∞ X
X ∞ ∞
X
= pn µn (Hk ) = µ (Hk ) .
k=1 n=1 k=1

Esercizio 1.4.14. Ricordiamo il concetto di completamento di uno spazio, definito nell’Osservazione 1.4.3.
Su R consideriamo la distribuzione delta di Dirac δ0 centrata nell’origine, la σ -algebra banale {∅, R} e la
σ -algebra di Borel B. Provare che lo spazio (R, {∅, R}, δx ) è completo mentre lo spazio (R, B, δx ) non è
completo. Il completamento di (R, B, δx ) è lo spazio (R, P(R), δx ).

1.4.4 Distribuzioni discrete


D’ora in poi ci concentriamo sul caso M = Rd .
Definizione 1.4.15. Una distribuzione discreta è una distribuzione della forma

X
µ(H) := pn δxn (H), H ∈ Bd , (1.4.2)
n=1

dove (xn ) è una successione di punti di Rd e (pn ) soddisfa le proprietà in (1.4.1).


Osservazione 1.4.16. Ad una distribuzione discreta della forma (1.4.2) è naturale associare la funzione

µ̄ : Rd −→ [0, 1],
definita da
µ̄(x) = µ({x}), x ∈ Rd ,
o più esplicitamente 
 pn

 se x = xn ,
µ̄(x) = 
0
 altrimenti.
Poichè X
µ(H) = µ̄(x), H ∈ Bd , (1.4.3)
x∈H∩{xn |n∈N}
la distribuzione µ è univocamente associata alla funzione µ̄ che viene a volte chiamata funzione di distribu-
zione di µ. Come vedremo nei prossimi esempi, in generale è molto più semplice assegnare la funzione di
distribuzione µ̄ che non la distribuzione stessa µ: infatti µ è una misura (ossia una funzione d’insieme) a
differenza di µ̄ che è una funzione nel senso usuale del termine.
Consideriamo alcuni esempi notevoli di distribuzioni discrete.
Esempio 1.4.17.
i) (Bernoulli) Sia p ∈ [0, 1]. La distribuzione di Bernoulli di parametro p si indica con Bep ed è definita
come combinazione lineare di due delta di Dirac:
Bep = pδ1 + (1 − p)δ0 .
Esplicitamente si ha



 0 se 0, 1 < H,

1 se 0, 1 ∈ H,

H ∈ B,

Bep (H) = 



 p se 1 ∈ H, 0 < H,

1 − p se 0 ∈ H, 1 < H.
60 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

e la funzione di distribuzione è semplicemente



p

 se x = 1,
µ̄(x) = 
1 − p
 se x = 0.

ii) (Uniforme discreta) Sia H = {x1 , . . . , xn } un sottoinsieme finito di Rd . La distribuzione uniforme discreta
su H si indica con UnifH ed è definita da
n
1X
UnifH = δxk ,
n
k=1

ossia 
1


n se x ∈ H,
UnifH ({x}) = 
0
 altrimenti.

iii) (Binomiale) Siano n ∈ N e p ∈ [0, 1]. La distribuzione binomiale di parametri n e p è definita su R da


n !
X n k
Binn,p = p (1 − p)n−k δk ,
k
k=0

ossia la funzione di distribuzione è


 
n
 k pk (1 − p)n−k per k = 0, 1, . . . , n,


µ̄(k) = Binn,p ({k}) = 
0
 altrimenti.
Per un’interpretazione della distribuzione binomiale si ricordi l’Esempio 1.2.20.
iv) (Geometrica) Fissato p ∈ ]0, 1], la distribuzione geometrica di parametro p è definita da

X
Geomp = p(1 − p)k−1 δk ,
k=1

ossia la funzione di distribuzione è



p(1 − p)k−1 per k ∈ N,


µ̄(k) = Geomp ({k}) = 
0
 altrimenti.

Notiamo che

X ∞
X
k−1
p(1 − p) =p (1 − p)h =
k=1 h=0

(poichè per ipotesi 0 < p ≤ 1)


p
= = 1.
1 − (1 − p)
Per un’interpretazione della distribuzione geometrica si ricordi l’Esempio 1.3.33.
iv) (Poisson) La distribuzione di Poisson di parametro λ > 0, centrata in x ∈ R, è definita da

X λk
Poissonx,λ := e−λ δx+k . (1.4.4)
k!
k=0
1.4. DISTRIBUZIONI 61

Nel caso x = 0, si parla semplicemente di distribuzione di Poisson di parametro λ > 0 e la si indica


con Poissonλ : in questo caso la funzione di distribuzione è
 −λ k
 e k!λ per k ∈ N0 ,


µ̄(k) = Poissonλ ({k}) = 
0
 altrimenti.

1.4.5 Distribuzioni assolutamente continue


Consideriamo una funzione Bd -misurabile19
Z
γ : Rd −→ [0, +∞[ tale che γ(x)dx = 1. (1.4.5)
Rd

Allora µ definita da Z
µ(H) = γ(x)dx, H ∈ Bd , (1.4.6)
H

è una distribuzione. Infatti è ovvio che µ(∅) = 0 e µ(Rd ) = 1. Inoltre se (Hn )n∈N è una successione di
Boreliani disgiunti allora, per le proprietà dell’integrale di Lebesgue20 , si ha
]  Z XZ X
µ Hn = U γ(x)dx = γ(x)dx = µ(Hn ),
n≥1 Hn n≥1 Hn n≥1
n≥1

che prova che µ è σ -additiva.

Definizione 1.4.18 (Distribuzione assolutamente continua). Una funzione Bd -misurabile γ che soddi-
sfi le proprietà in (1.4.5) è detta funzione di densità (o, semplicemente, densità). Diciamo che µ è una
distribuzione assolutamente continua su Rd , e scriviamo µ ∈ AC, se esiste una densità γ per cui valga la
(1.4.6).

Nel seguito utilizzeremo anche l’abbreviazione21 PDF per le funzioni di densità. Si noti l’analogia fra le
proprietà (1.4.5) di una densità γ e le proprietà (1.4.1).

Osservazione 1.4.19. [!] La PDF di una µ ∈ AC non è univocamente determinata: lo è a meno di insiemi di
Borel che hanno misura di Lebesgue nulla; infatti il valore dell’integrale in (1.4.6) non cambia modificando
γ su un insieme di misura nulla secondo Lebesgue.
Inoltre se γ1 , γ2 sono PDF di µ ∈ AC allora γ1 = γ2 q.o. (rispetto alla misura di Lebesgue). Infatti
poniamo
An = {x | γ1 (x) − γ2 (x) ≥ 1/n} ∈ Bd , n ∈ N.
Allora Z Z Z
Leb(An )
≤ (γ1 (x) − γ2 (x)) dx = γ1 (x)dx − γ2 (x)dx = µ(An ) − µ(An ) = 0,
n An An An

da cui Leb(An ) = 0 per ogni n ∈ N. Ne segue che anche



[
{x | γ1 (x) > γ2 (x)} = An
n=1

ha misura di Lebesgue nulla, ossia γ1 ≤ γ2 q.o. Analogamente si prova che γ1 ≥ γ2 q.o.


19 Ossia tale che γ −1 (H) ∈ B per ogni H ∈ B.
d
20 In particolare, qui usiamo il Teorema di Beppo-Levi.
21 PDF sta per “Probability Density Function” ed è anche il comando usato in Mathematica per le funzioni di densità.
62 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Osservazione 1.4.20. [!] Salvo diversamente specificato, quando considereremo un integrale di Lebesgue,
assumeremo sempre che la funzione integranda sia B-misurabile (e quindi, in particolare, misurabile se-
condo Lebesgue). Dunque nel seguito, a meno che non sia esplicitamente indicato, “misurabile” significa
“B-misurabile” e anche nella definizione di spazio Lp (spazio delle funzioni sommabili di ordine p) è as-
sunta implicitamente la B-misurabilità. Ciò risulta conveniente per molti motivi: per esempio, la com-
posizione di funzioni B-misurabili è ancora B-misurabile (fatto non necessariamente vero per funzioni
misurabili secondo Lebesgue).
Osservazione 1.4.21. [!] Se µ su Rd è assolutamente continua allora µ assegna probabilità nulla ai Boreliani
trascurabili secondo Lebesgue: precisamente si ha
Z
Lebd (H) = 0 =⇒ µ(H) = γ(x)dx = 0. (1.4.7)
H

In particolare, se H è finito o numerabile allora µ(H) = 0. In un certo senso le distribuzioni in AC sono


“complementari” alle distribuzioni discrete (ma attenzione all’Osservazione 1.4.23 seguente!): infatti que-
ste ultime assegnano probabilità positiva proprio ai singoli punti o a infinità numerabili di punti di Rd . La
(1.4.7) è una condizione necessaria22 affinchè µ ∈ AC e fornisce un test pratico molto utile per verificare che
µ non ammette densità: se determiniamo H ∈ Bd tale che Lebd (H) = 0 e µ(H) > 0 allora sicuramente µ < AC.
Ogni funzione di densità identifica una distribuzione: in pratica, assegnare una funzione di densità è
il modo più semplice e usato comunemente per definire una distribuzione assolutamente continua, come
mostrano i seguenti esempi notevoli.
Esempio 1.4.22.
i) (Uniforme) La distribuzione uniforme UnifK su K, dove K ∈ Bd ha misura di Lebesgue 0 < Lebd (K) <
∞, è la distribuzione con densità
1
γ= 1 .
Lebd (K) K
Allora Z
1 Lebd (H ∩ K)
UnifK (H) = dx = , H ∈ Bd .
H∩K Lebd (K) Lebd (K)

ii) (Esponenziale) La distribuzione esponenziale Expλ di parametro λ > 0 è la distribuzione con densità

λe−λx se x ≥ 0,


γ(x) = 
0
 se x < 0.

Allora Z
Expλ (H) = λ e−λx dx, H ∈ B.
H∩[0,+∞[

Si noti che Expλ (R) = Expλ (R≥0 ) = 1 per ogni λ > 0.


iii) (Normale reale) La distribuzione normale reale Nµ,σ 2 di parametri µ ∈ R e σ > 0 è la distribuzione su B
con densità
1 1 x−µ 2
γ(x) = √ e− 2 ( σ ) , x ∈ R.
2πσ 2
Allora Z
1 1 x−µ 2
Nµ,σ 2 (H) = √ e− 2 ( σ ) dx, H ∈ B.
2πσ 2 H
La N0,1 , corrispondente a µ = 0 e σ = 1, è detta distribuzione normale standard.
22 In realtà, per il Teorema A.2.1.3 di Radon-Nikodym, la (1.4.7) è condizione necessaria e sufficiente per l’assoluta continuità.
1.4. DISTRIBUZIONI 63

Osservazione 1.4.23. [!] Non tutte le distribuzioni sono del tipo analizzato finora (ossia discrete o assolu-
tamente continue). Per esempio in R2 si consideri il “segmento”

I = {(x, 0) | 0 ≤ x ≤ 1}

e la distribuzione
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,
dove Leb1 indica la misura di Lebesgue 1-dimensionale (o più precisamente la misura di Hausdorff23 1-
dimensionale in R2 ). Chiaramente µ < AC poichè µ(I) = 1 e I ha misura di Lebesgue nulla in R2 ; d’altra
parte µ non è una distribuzione discreta perchè µ({(x, y)}) = 0 per ogni (x, y) ∈ R2 .
L’idea è che una distribuzione può concentrare la probabilità su sottoinsiemi di Rd di dimensione (nel
senso di Hausdorff24 ) minore di d: per esempio, una superficie sferica (che ha dimensione di Hausdorff
uguale a 2) in R3 . Le cose possono complicarsi ulteriormente poichè la dimensione di Hausdorff può essere
frazionaria (al riguardo si veda l’Esempio 1.4.36).

1.4.6 Funzioni di ripartizione (CDF) su R


Il concetto di densità visto nella sezione precedente permette di identificare una distribuzione (che,
ricordiamolo, è una misura di probabilità) mediante una funzione (che, matematicamente, è più manegge-
vole rispetto ad una misura): ovviamente ciò è possibile se la distribuzione è assolutamente continua. Un
risultato analogo vale per le distribuzioni discrete (cfr. Osservazione 1.1.12).
In questa sezione presentiamo un approccio molto più generale e introduciamo il concetto di funzione di
ripartizione che ci permetterà di identificare una generica distribuzione tramite una funzione. Per ora ci li-
mitiamo a considerare il caso uno-dimensionale: nella Sezione 1.4.9 tratteremo il caso multi-dimensionale.

Definizione 1.4.24. La funzione di ripartizione di una distribuzione µ su (R, B) è definita da

Fµ (x) := µ(] − ∞, x]), x ∈ R.

Utilizziamo anche l’abbreviazione25 CDF per le funzioni di ripartizione.

Esempio 1.4.25.

i) La CDF della delta di Dirac δx0 è



0 se x < x0 ,


F(x) = 
1
 se x ≥ x0 .

n
1 P
ii) La CDF della distribuzione discreta Unifn := n δk è
k=1



0 se x < 1,
k

F(x) =  se k ≤ x < k + 1, per 1 ≤ k ≤ n − 1, (1.4.8)
n

1

se x ≥ n.

Si veda la Figura 1.1 per il caso n = 5.


23 Si veda, per esempio, il Capitolo 2 in [23].
24 Cf. Capitolo 2.5 in [23].
25 CDF sta per “Cumulative Distribution Function” ed è anche il comando usato in Mathematica per le funzioni di ripartizione.
64 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Figura 1.1: Grafico della CDF di una v.a. con distibuzione Unif5

iii) Come mostrato in Figura 1.2, le funzioni di densità e di ripartizione della distribuzione Unif[1,3] sono
rispettivamente

0
 x ≤ 1,
1 
 x−1

γ = 1[1,3] e F(x) =  2 1 < x ≤ 3,
2 

1

x > 3.

Figura 1.2: Funzione di densità (in blu) e di ripartizione (in arancio) della distribuzione Unif[1,3]

iv) Come mostrato in Figura 1.3 (nel caso λ = 2), le funzioni di densità e di ripartizione della distribu-
zione Expλ sono rispettivamente

γ(x) = λe−λx e F(x) = 1 − e−λx , x ≥ 0, (1.4.9)

e sono nulle per x < 0.


1.4. DISTRIBUZIONI 65

Figura 1.3: Funzione di densità (in blu) e di ripartizione (in arancio) della distribuzione Exp2

Figura 1.4: A sinistra: grafico della densità normale standard. A destra: grafico della CDF normale
standard. Notare la scala differente nell’asse delle ordinate.

v) La CFD di Nµ,σ 2 è
Z x  t−µ 2
1 − 21
F(x) = √ e σ dt, x ∈ R.
2πσ 2 −∞
Per la normale standard si ha
! !
1 x
F(x) = erf √ + 1 , x ∈ R,
2 2
dove Z x
2 2
erf(x) = √ e−t dt, x ∈ R,
π 0
è la funzione errore. La Figura 1.4 mostra la densità e la CDF della distribuzione normale standard.
Teorema 1.4.26. [!] La CDF Fµ di una distribuzione µ gode delle seguenti proprietà:
66 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

i) Fµ è monotona (debolmente) crescente;


ii) Fµ è continua a destra, ossia vale
Fµ (x) = Fµ (x+) := lim Fµ (y);
y↓x

iii) vale
lim Fµ (x) = 0 e lim Fµ (x) = 1;
x→−∞ x→+∞

Dimostrazione. Per la i): se x ≤ y si ha ] − ∞, x] ⊆ ] − ∞, y] e quindi, per la monotonia di µ, Fµ (x) ≤ Fµ (y).


Per la ii): consideriamo una successione decrescente (xn )n∈N che tende a x per n → ∞: si ha
\
] − ∞, x] = ] − ∞, xn ]
n∈N

e quindi per la continuità dall’alto di P (cf. Proposizione 1.1.29-iii))


Fµ (x) = µ(] − ∞, x]) = lim µ(] − ∞, xn ]) = lim Fµ (xn ).
n→∞ n→∞

La tesi segue dall’arbitrarietà della successione (xn )n∈N . I due limiti in iii) seguono rispettivamente dalla
continuità dall’alto e dal basso di µ.
Osservazione 1.4.27. [!] Nelle ipotesi della proposizione precedente, data la monotonia di Fµ , esiste anche
il limite da sinistra
Fµ (x−) := lim Fµ (y),
y↑x

ma in generale vale solo


Fµ (x−) ≤ Fµ (x), x ∈ R.
Infatti per ogni successione crescente (xn )n∈N che tende a x per n → ∞, si ha
[
] − ∞, xn ] = ] − ∞, x[
n∈N

e dunque in questo caso, per la continuità dal basso di P (cf. Proposizione 1.1.29-ii)), si ha
Fµ (x−) = µ(] − ∞, x[) e µ({x}) = ∆Fµ (x) := Fµ (x) − Fµ (x−). (1.4.10)
Dunque µ assegna probabilità positiva nei punti in cui Fµ è discontinua e in tali punti la probabilità è uguale al
salto di Fµ . D’altra parte, è facile vedere che una funzione monotona crescente
F : R −→ R
ammette solo un’infinità al più numerabile di punti di discontinuità. Infatti, posto
1
An = {x ∈ R | |x| ≤ n, ∆F(x) ≥ }, n ∈ N,
n
si ha che la cardinalità |An | è finita poichè
|An | X
≤ ∆F(x) ≤ F(n) − F(−n) < ∞.
n
x∈An

Poichè l’insieme dei punti di discontinuità di F è uguale all’unione degli An al variare di n ∈ N, si conferma
quanto già detto nell’Osservazione 1.4.11 ossia che per ogni distribuzione µ, l’insieme dei punti tali che µ({x}) >
0 è finito o al più numerabile.
Esercizio 1.4.28. Provare che la CDF della distribuzione normale Nµ,σ 2 è strettamente monotona crescente.
1.4. DISTRIBUZIONI 67

1.4.7 Teorema di Carathéodory


Ricordiamo il concetto di misura (Definizione 1.1.19) su un’algebra (Definizione 1.1.17). Uno dei risul-
tati su cui si fonda tutta la teoria della probabilità è il seguente Teorema di estensione di Carathéodory.

Teorema 1.4.29 (Teorema di Carathéodory). [!!!] Sia µ una misura σ -finita su un’algebra A . Esiste ed è
unica la misura σ -finita che estende µ alla σ -algebra generata da A .

Dimostrazione. Si veda la Sezione 1.5.3 dove dimostreremo una versione più generale del Teorema 1.4.29,
che sarà più facile da applicare in seguito.

Il Teorema di Carathéodory è un risultato di esistenza dell’estensione di µ da A alla σ -algebra σ (A ) e di


unicità dell’estensione. È notevole il fatto che non sia richiesta alcuna ipotesi su Ω (su cui è definita A ) che
è un qualunque insieme non vuoto: infatti la dimostrazione è basata su argomenti puramente insiemistici.

1.4.8 Dalle CDF alle distribuzioni


La costruzione di un modello probabilistico su R (che rappresenti un fenomeno aleatorio, sia esso la
posizione di una particella in un modello della fisica oppure il prezzo di un titolo rischioso in un modello
della finanza oppure la temperatura in un modello meteorologico) consiste nell’assegnare una particolare
distribuzione. Dal punto di vista pratico e intuitivo, il primo passo è stabilire come la distribuzione assegna
la probabilità agli intervalli che sono gli eventi più semplici a cui pensare: avevamo fatto cosı̀ nell’Esempio
1.1.27, quando avevamo definito la distribuzione uniforme. In realtà sappiamo (dal Corollario 1.4.10) che
una distribuzione reale è identificata da come agisce sugli intervalli o equivalentemente, poichè

µ(]a, b]) = Fµ (b) − Fµ (a),

dalla funzione di ripartizione. Allora sembra naturale domandarsi se, data una funzione F che soddisfi le
proprietà che una CDF deve avere, esista una distribuzione µ che abbia F come CDF.
La risposta è affermativa ed è contenuta nel seguente Teorema 1.4.33 che dimostriamo come corollario
del Teorema 1.4.29 di Carathéodory. Facciamo prima qualche richiamo preliminare.

Definizione 1.4.30 (Funzione assolutamente continua (AC)). Una funzione F è assolutamente continua26
su [a, b] (in simboli, F ∈ AC[a, b]) se si scrive nella forma
Z x
F(x) = F(a) + γ(t)dt, x ∈ [a, b], (1.4.11)
a

con γ ∈ L1 ([a, b]).

Il seguente risultato, la cui dimostrazione è data in appendice (cfr. Proposizione A.2.3.3), afferma che le
funzioni assolutamente continue sono derivabili quasi ovunque.

Proposizione 1.4.31. Sia F ∈ AC[a, b] come in (1.4.11). Allora F è derivabile q.o. e vale F 0 = γ q.o.: di
conseguenza si ha
Zx
F(x) = F(a) + F 0 (t)dt, x ∈ [a, b]. (1.4.12)
a

In altri termini, le funzioni assolutamente continue costituiscono la classe di funzioni per cui vale il teorema
fondamentale del calcolo integrale ossia, in parole povere, le fuzioni che sono uguali all’integrale della propria
26 La vera definizione di funzione assolutamente continua è data nell’Appendice A.2.4: in realtà, la Definizione 1.4.30 è una
caratterizzazione equivalente dell’assoluta continuità.
68 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

derivata. È bene osservare che anche se F è derivabile q.o. con F 0 ∈ L1 ([a, b]), non è detto che valga la formula
(1.4.12). Un semplice contro-esempio è dato dalla funzione F = 1[1/2,1] : si ha F 0 = 0 q.o. su [0, 1] ma
Z 1
1 = F(1) − F(0) , F 0 (x)dx = 0.
0

Vedremo nell’Esempio 1.4.36, che F può anche essere continua, derivabile q.o. con F 0 ∈ L1 ([a, b]) e questo
ancora non assicura la validità della formula (1.4.12).

Esercizio 1.4.32. Si verifichi che la funzione




 0 x ≤ 0,
√

F(x) =  x 0 < x < 1,



1

x ≥ 1,

è assolutamente continua su [0, 1].

Il principale risultato di questa sezione è il seguente

Teorema 1.4.33. [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 1.4.26). Allora:

i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi

µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b; (1.4.13)

ii) se F verifica anche


lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞

(ossia F gode della proprietà iii) della Teorema 1.4.26) allora µF è una distribuzione;

iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F 0 è una densità di µF .

Dimostrazione. Si veda la Sezione 1.5.4.

Osservazione 1.4.34. È bene sottolineare che il Teorema 1.4.33 contiene anche un risultato di unicità, per
cui ad una CDF è associata un’unica misura per cui valga la (1.4.13). Per esempio, la misura associata alla
funzione F(x) = x è la misura di Lebesgue e lo stesso vale prendendo F(x) = x + c per ogni c ∈ R.

Osservazione 1.4.35. Ci sono due casi particolarmente importanti nelle applicazioni:

1) se F è costante a tratti e indichiamo con xn i punti di discontinuità di F (che, per l’Osservazione 1.4.27,
sono una quantità finita o al più numerabile) allora, per la (1.4.10), µF è la distribuzione discreta
X
µF = ∆F(xn )δxn ;
n

2) se F è assolutamente continua allora µF ∈ AC con densità uguale alla derivata F 0 .

Esempio 1.4.36. Consideriamo la funzione di Vitali

V : R −→ [0, 1]

definita come a pag.192 in [23]. Si tratta di una funzione continua, monotona crescente, tale che V (x) = 0
1.4. DISTRIBUZIONI 69

Figura 1.5: Grafico della funzione di Vitali

per x ≤ 0, V (x) = 1 per x ≥ 1 e con derivata prima V 0 che esiste quasi ovunque ed è uguale a zero. Poichè V
soddisfa le ipotesi del Teorema 1.4.33, esiste ed è unica la distribuzione µV tale che µV (]a, b]) = V (b) − V (a).
Poichè V è continua, si ha µV ({x}) = 0 per ogni x ∈ [0, 1] (cf. (1.4.10)) e quindi µV non è una distribuzione
discreta. Se fosse µV ∈ AC esisterebbe una densità γ tale che
Zx
V (x) = µV ([0, x]) = γ(y)dy, x ≥ 0.
0

Per la Proposizione 1.4.31 dovrebbe essere γ = V 0 = 0 quasi ovunque e ciò è assurdo. Dunque µV non
è neppure una distribuzione assolutamente continua, benchè la sua CDF V sia continua e derivabile quasi
ovunque.
Per chi vuole approfondire la questione, il fatto è che µV assegna probabilità 1 all’insieme di Cantor (per
maggiori dettagli si veda p.37 in [23]) che è un sottoinsieme dell’intervallo [0, 1], che ha misura di Lebesgue
log 2
nulla e dimensione di Hausdorff pari a log 3 .

Esercizio 1.4.37. Sia data la funzione





 0 per x < 0,
x

F(x) =  per 0 ≤ x < 1,
3

1

per x ≥ 1.

Si verifichi che F è una CDF. Se µF è la distribuzione associata, si calcoli µF ([0, 1]), µF ([0, 1[) e µF (Q).

Esercizio 1.4.38. Per ogni n ∈ N sia





 0 per x < 0,

 n
Fn (x) = 
 x per 0 ≤ x < 1,

1

per x ≥ 1.

Si provi che Fn è una CDF assolutamente continua e si determini la densità γn della distribuzione µn
associata. Posto
F(x) := lim Fn (x)
n→∞
70 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

si verifichi che F è una CDF e si determini la distribuzione associata. Posto

γ(x) := lim γn (x),


n→∞

la funzione γ è una densità?

Esercizio 1.4.39. Data una numerazione (qn )n∈N dei razionali di [0, 1], definiamo la distribuzione

2−n se x = qn ,


µ({x}) = 
0
 altrimenti.

La CDF Fµ è continua nel punto 1? Determinare Fµ (1) e Fµ (1−).

1.4.9 CDF su Rd
Il caso multi-dimensionale è analogo al caso scalare con qualche piccola differenza.

Definizione 1.4.40. La funzione di ripartizione di una distribuzione µ su (Rd , Bd ) è definita da

Fµ (x) := µ(] − ∞, x1 ] × · · · ×] − ∞, xd ]), x = (x1 , . . . , xd ) ∈ Rd . (1.4.14)

Esempio 1.4.41. Riportiamo i grafici di alcune CDF bidimensionali:

i) Dirac centrata in (1, 1) in Figura 1.6;

Figura 1.6: Grafico della CDF di Dirac bidimensionale centrata in (1, 1).

ii) Uniforme sul quadrato [0, 1] × [0, 1] in Figura 1.7. La densità è la funzione indicatrice γ = 1[0,1]×[0,1] ;

iii) Normale standard bidimensionale in Figura 1.8, con densità


2
x2 − y
e− 2 2
γ(x, y) = , (x, y) ∈ R2 .

1.4. DISTRIBUZIONI 71

Figura 1.7: Distribuzione Unif[0,1]×[0,1] : grafico della densità (a sinistra) e della CDF (a destra).

Figura 1.8: Distribuzione normale standard bidimensionale: grafico della densità (a sinistra) e della CDF
(a destra).
72 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Esempio 1.4.42. [!] Consideriamo la CDF bidimensionale

e−y(x+1) − 1
!
−y
F(x, y) = 1 − e + 1R≥0 ×R≥0 (x, y),
x+1

e supponiamo di sapere che F è assolutamente continua, ossia


Zx Zy
F(x, y) = γ(ξ, η)dξdη
−∞ −∞

per una certa γ ∈ mB + . Allora, come nel caso uno-dimensionale (cfr. Teorema 1.4.33-iii)), una densità per
F si ottiene semplicemente differenziando:

∂x ∂y F(x, y) = ye−xy 1R≥0 ×R≥0 (x, y).

Ora enunciamo un teorema che è la naturale estensione dei risultati visti in dimensione uno. Osservia-
mo prima che, fissati k ∈ {1, . . . , d}, a ≤ b reali e x ∈ Rd , vale

µ(] − ∞, x1 ] × · · · ×] − ∞, xk−1 ]×]a, b]×] − ∞, xk+1 ] × · · · ×] − ∞, xd ])


(k)
= Fµ (x1 , . . . , xk−1 , b, xk+1 , . . . , xd ) − Fµ (x1 , . . . , xk−1 , a, xk+1 , . . . , xd ) =: ∆]a,b] Fµ (x),

e più in generale
(1) (d)
µ(]a1 , b1 ] × · · · ×]ad , bd ]) = ∆]a · · · ∆]a Fµ (x). (1.4.15)
1 ,b1 ] d ,bd ]

Teorema 1.4.43. La CDF Fµ di una distribuzione d-dimensionale µ gode delle seguenti proprietà:

i) Monotonia: per ogni scelta di bk > ak ≥ −∞, 1 ≤ k ≤ d, si ha


(1) (d)
∆]a · · · ∆]a Fµ (x) ≥ 0; (1.4.16)
1 ,b1 ] d ,bd ]

ii) Continuità a destra: per ogni x ∈ Rd vale

lim Fµ (y) = Fµ (x),


y→x+

dove y → x+ significa che yk → xk+ per ogni k = 1, . . . , d;

iii) se xk → −∞ per un k = 1, . . . , d allora Fµ (x) → 0 e se xk → +∞ per ogni k = 1, . . . , d allora Fµ (x) → 1.

Viceversa, se
F : Rd −→ [0, 1]
è una funzione che gode delle proprietà i), ii) e iii) allora esiste una distribuzione su Rd tale che F = Fµ ,
ossia valga la (1.4.14).

Dimostrazione. La dimostrazione è del tutto analoga al caso uno-dimensionale. Notiamo solo che la (1.4.16)
segue direttamente dalla (1.4.15), essendo µ a valori non-negativi.

Osservazione 1.4.44. La proprietà (1.4.16) di monotonia non è del tutto banale. Nel caso d = 2, si scrive
esplicitamente nel modo seguente
(1) (2)
0 ≤ ∆]a ∆]a F(x) = F(b1 , b2 ) − F(b1 , a2 ) − (F(a1 , b2 ) − F(a1 , a2 ))
1 ,b1 ] 2 ,b2 ]
1.4. DISTRIBUZIONI 73

(2) (1)
= F(b1 , b2 ) − F(a1 , b2 ) − (F(b1 , a2 ) − F(a1 , a2 )) = ∆]a ∆]a F(x).
2 ,b2 ] 1 ,b1 ]

Per esempio, la funzione





1 se x1 , x2 ≥ 1,


2/3 se x1 ≥ 1 e 0 ≤ x2 < 1,
F(x1 , x2 ) = 




2/3 se x2 ≥ 1 e 0 ≤ x1 < 1,

0 altrimenti,
pur essendo “monotona in ogni direzione”, non verifica la i) del teorema precedente. In effetti si ha
(1) (2)
∆]1/2,1] ∆]1/2,1] F(x) = −1/3,

e quindi se esistesse la distribuzione relativa a F, essa assegnerebbe probabilità negativa al quadrato ]1/2, 1]×]1/2, 1]
e ciò è ovviamente assurdo.
Esercizio 1.4.45. Siano I := [0, 1] × {0} ⊆ R2 e µ la distribuzione uniforme su I, definita da

µ(H) = Leb1 (H ∩ I), H ∈ B2 ,

dove Leb1 indica la misura di Lebesgue uno-dimensionale27 . Si determini la CDF di µ.

1.4.10 Sintesi
Come si costruisce/definisce una misura di probabilità?
Il primo strumento generale di teoria della misura è il Teorema di Carathéodory in base al quale ogni
misura definita su un’algebra A si estende in modo unico alla σ -algebra generata da A . Per esempio, in
base a tale teorema, la misura definita per ogni intervallo [a, b] come la lunghezza b − a, si estende in modo
unico alla misura di Lebesgue sulla σ -algebra di Borel.  
Un ruolo particolarmente importante giocano le misure di probabilità definite su Rd , Bd , chiamate
anche distribuzioni. Fra di esse le distribuzioni discrete sono combinazioni lineari (anche numerabili) di
delta di Dirac: esempi notevoli sono le distribuzioni di Bernoulli, uniforme discreta, binomiale e di Pois-
son. Altre importanti distribuzioni sono quelle assolutamente continue, ossia quelle che si rappresentano in
termini di integrale di Lebesgue di una certa funzione, detta densità: esempi notevoli sono le distribuzioni
uniforme, esponenziale e normale (ma ne vedremo tante altre...).
Le distribuzioni discrete e quelle assolutamente continue sono definite in termini di funzioni reali: la
funzione di distribuzione nel primo caso e la densità nel secondo caso. Questo è un fatto rilevante perchè è
molto più facile maneggiare una funzione di variabile reale (o, in generale, in Rd ) che non una distribuzione
(che è una misura e ha come argomento i Boreliani). D’altra parte esistono distribuzioni che non sono nè
discrete nè assolutamente continue.
Per caratterizzare una generica distribuzione in termini di una funzione reale abbiamo introdotto il
concetto di funzione di ripartizione (o CDF). Una CDF gode di alcune proprietà generali: nel caso uno-
dimensionale, una CDF è monotona crescente (e di conseguenza derivabile q.o.), continua a destra e ha limi-
te a +∞ e −∞ rispettivamente pari a 1 e 0. Abbiamo dimostrato che è equivalente assegnare una distribuzione
o la sua CDF.
Infine il fatto che una distribuzione µ abbia densità è equivalente al fatto che la sua CDF F sia assoluta-
mente continua, ossia al fatto che valga
Zx
µ(]a, x]) = F(x) − F(a) = F 0 (t)dt, a < x,
a

e in tal caso F0 è densità di µ.


27 Un po’ impropriamente, dato A ∈ B, stiamo identificando Leb (A) con Leb (A × {0}).
1 1
74 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

1.5 Appendice
1.5.1 Dimostrazione della Proposizione 1.3.32
Proposizione 1.3.32 Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.

Dimostrazione. Poniamo
Ω = {ω = (ω1 , . . . , ωn ) | ωi ∈ {0, 1}}
e consideriamo la partizione
n
[
Ω= Ωk , Ωk := {ω ∈ Ω | ω1 + · · · + ωn = k}. (1.5.1)
k=0

Chiaramente ogni ω appartiene ad uno e un solo Ωk e quindi Ωk ∩ Ωh = ∅ per k , h, e inoltre Ωk ↔ Cn,k


(l’elemento (ω1 , . . . , ωn ) di Ωk è univocamente individuato dalla scelta delle k fra n componenti che sono
uguali a 1) ossia !
n
|Ωk | = , k = 0, . . . , n. (1.5.2)
k
Definiamo P ponendo
P ({ω}) = pk (1 − p)n−k ω ∈ Ωk , k = 0, . . . , n.

Allora P è una probabilità poichè


n n X n !
X X X n k
P (Ω) = P (Ωk ) = P ({ω}) = p (1 − p)n−k = 1,
k
k=0 k=0 ω∈Ωk k=0

per la (1.2.10).
Proviamo che gli eventi
Ch = {ω ∈ Ω | ωh = 1}, h = 1, . . . , n,
formano una famiglia di n prove ripetute e indipendenti con probabilità p. Infatti siano r ∈ N, r ≤ n, e
h1 , . . . , hr ∈ In distinti. Si ha28
 r  n
  r 
\  X  \ 
P  Chi  =
  P Ωk ∩  Chi 
 
i=1 k=r i=1
 r 
Xn  \ 
= Ωk ∩  Chi  pk (1 − p)n−k =

k=r i=1

!
r
T n−r 
(osservando che, analogamente alla (1.5.2), la cardinalità di Ωk ∩ Chi è esattamente uguale a k−r )
i=1

n !
X n−r k
= p (1 − p)n−k =
k−r
k=r

r
!
28 Si noti che l’indice nella sommatoria parte da r poichè Ω ∩ T C
k hi = ∅ se k < r (perchè?).
i=1
1.5. APPENDICE 75

(col cambio di indice j = k − r)


n−r !
X n−r j
r
=p p (1 − p)n−j−r = pr .
j
j=0

Dunque abbiamo provato che, per r = 1,

P (Ch ) = p, h = 1, . . . , n,

e per 1 < r ≤ n si ha  r 
\  r
Y  
P  Chi  = pr = P Chi .
i=1 i=1

Quindi (Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Per quanto riguarda la seconda parte dell’enunciato: sia (Ck )k∈N una successione di eventi indipendenti
su uno spazio discreto (Ω, P ), tali che P (Ck ) = p ∈ [0, 1] per ogni k ∈ N. Non è restrittivo supporre p ≥ 21
perchè altrimenti basta considerare la successione degli eventi complementari. In questo caso dimostriamo
che necessariamente p = 1. Infatti supponiamo per assurdo che sia p < 1. Fissiamo un generico esito ω ∈ Ω:
per c c
 ogni
 n ∈ N poniamo C̄n = Cn oppure C̄n = Cn a seconda che sia ω ∈ Cn oppure ω ∈ Cn . Notiamo che
P C̄n ≤ P (Cn ) poichè abbiamo assunto P (Cn ) = p ≥ 21 . Per ogni n ∈ N gli eventi C̄1 , . . . , C̄n sono indipendenti
e
\n
{ω} ⊆ C̄k
k=1

da cui
n
Y  
P ({ω}) ≤ P C̄k ≤ pn .
k=1

Passando al limite in n otteniamo P ({ω}) = 0 e questo è assurdo per l’arbitrarietà di ω ∈ Ω.

1.5.2 Dimostrazione della Proposizione 1.4.9


Proposizione 1.4.9 Sia µ una distribuzione su uno spazio metrico (M, B% ). Per ogni H ∈ B% si ha

µ(H) = sup{µ(C) | C ⊆ H, C chiuso} (1.5.3)


= inf{µ(A) | A ⊇ H, A aperto}. (1.5.4)

A parole, si dice che ogni Boreliano è regolare internamente (per la (1.5.3)) ed esternamente (per la (1.5.4))
per µ.

Dimostrazione. Indichiamo con R l’insieme dei Boreliani regolari (internamente ed esternamente) per µ. È
chiaro che H ∈ R se e solo se per ogni ε > 0 esistono un chiuso C e un aperto A tali che

C ⊆ H ⊆ A, µ(A \ C) < ε.

Proviamo anzitutto che R è una σ -algebra:

• poichè l’insieme vuoto è aperto e chiuso, si ha ∅ ∈ R;

• se H ∈ R allora per ogni ε > 0 esistono un chiuso Cε e un aperto Aε tali che Cε ⊆ H ⊆ Aε e µ(Aε \Cε ) < ε.
Passando al complementare, si ha Acε ⊆ H c ⊆ Cεc , con Acε chiuso, Cεc aperto e Cεc \ Acε = Aε \ Cε . Questo
prova che H c ∈ R;
76 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

• sia (Hn )n∈N una successione in R e H =


S
Hn . Allora, per ogni ε > 0 esistono due successioni,
n≥1
ε
(C
Sn,ε )n∈N di chiusi e (An,ε )n∈N di aperti, tali che Cn,ε ⊆ Hn ⊆ An,ε e µ(An,ε \ Cn,ε ) < 3n . Posto Aε =
An,ε , si ha che Aε è aperto e H ⊆ Aε . D’altra parte, per la continuità dal basso di µ (cfr. Proposizione
n≥1
ε
1.1.29), esiste k ∈ N tale che µ(C \ Cε ) ≤ 2 dove

[ n
[
C := Cn,ε , Cε := An,ε .
n=1 n=1

Chiaramente, Cε è chiuso e Cε ⊆ H. Infine si ha


∞ ∞
X ε X ε ε
µ(Aε \ Cε ) ≤ µ(Aε \ C) + µ(C \ Cε ) ≤ µ(An,ε \ Cn,ε ) + ≤ n
+ = ε.
2 3 2
n=1 n=1

Questo prova che R è una σ -algebra. Proviamo ora R contiene tutti i chiusi: dato C chiuso poniamo
%(x, C) = inf %(x, y) e
y∈C
An = {x ∈ M | %(x, C) < 1/n}, n ∈ N.
T
Allora An è aperto e An & C: infatti, se x ∈ n≥1 An allora %(x, C) = 0 e quindi x ∈ C, essendo C chiuso.
Allora, per la continuità dall’alto di µ si ha limn→∞ µ(An ) = µ(C).
La tesi segue dal fatto che B% è la più piccola σ -algebra che contiene gli aperti (e i chiusi) e quindi
B% ⊆ R.

1.5.3 Dimostrazione del Teorema 1.4.29 di Carathéodory


Diamo una versione leggermente più generale (e decisamente più comoda da applicare) del Teorema
1.4.29: in questa sezione seguiamo la trattazione di [20]. Introduciamo la definizione di pre-misura su una
generica famiglia di sottoinsiemi di Ω.
Definizione 1.5.1 (Pre-misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una pre-misura
su A è una funzione
µ : A −→ [0, +∞]
tale che
i) µ(∅) = 0;
ii) µ è additiva su A nel senso che per ogni A, B ∈ A , disgiunti e tali che A ∪ B ∈ A , vale

µ (A ] B) = µ(A) + µ(B);

iii) µ è σ -sub-additiva su A nel senso che per ogni A ∈ A e (An )n∈N successione di elementi in A , vale
[ X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n∈N

Si dice che µ è σ -finita se esiste una successione (An )n∈N in A tale che Ω =
S
An e µ(An ) < ∞ per ogni
n∈N
n ∈ N.
Definizione 1.5.2 (Semianello). Una famiglia A di sottoinsiemi di Ω è un semianello se:
i) ∅ ∈ A
1.5. APPENDICE 77

ii) A è ∩-chiusa;

iii) per ogni A, B ∈ A la differenza B \ A è unione finita e disgiunta di insiemi di A .

Esempio 1.5.3. [!] La famiglia A degli intervalli limitati del tipo

]a, b], a, b ∈ R, a ≤ b,

è un semianello (ma non è un’algebra). La famiglia formata dalle unioni finite di intervalli (anche illimitati)
del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,

è un’algebra (ma non è una σ -algebra). Tali famiglie generano la σ -algebra di Borel di R.

Ricordiamo che una misura µ è una funzione σ -additiva e tale che µ(∅) = 0 (cfr. Definizione 1.1.19).
Osserviamo che, per la Proposizione 1.1.29, µ è una pre-misura su un’algebra A se e solo se µ è una misura
su A . Inoltre il seguente lemma fornisce un risultato naturale la cui dimostrazione, che rinviamo alla fine
della sezione, non è del tutto ovvia.

Lemma 1.5.4. Se µ è una misura su un semianello A allora µ è una pre-misura su A .

Teorema 1.5.5 (Teorema di Carathéodory - versione generale). Sia µ una pre-misura σ -finita su un semia-
nello A . Esiste ed è unica la misura σ -finita che estende µ a σ (A ).

Osservazione 1.5.6. Il Teorema 1.4.29 è un corollario del Teorema 1.5.5: infatti ogni algebra è un semia-
nello e, per il Lemma 1.5.4, ogni misura su un semianello è una pre-misura.

Dimostrazione del Teorema 1.5.5. L’unicità è un corollario del Teorema A.1.3 di Dynkin: per i dettagli, si
vedano il Corollario A.1.5 e l’Osservazione A.1.6. Qui proviamo l’esistenza dell’estensione: in questa di-
mostrazione non utilizziamo l’ipotesi che µ sia σ -finita; d’altra parte se µ è σ -finita allora anche la sua
estensione lo è. Dividiamo la prova in alcuni passi.
Passo 1. Introduciamo la famiglia dei ricoprimenti di B ⊆ Ω che siano finiti o numerabili e costituiti da
elementi di A : [
U (B) := {R ⊆ A | R al più numerabile e B ⊆ A}.
A∈R
Definiamo
µ∗ : P(Ω) −→ [0, +∞]

ponendo
X
µ∗ (B) = inf µ(A), (1.5.5)
R ∈U (B)
A∈R

con la convenzione inf ∅ = +∞.

Lemma 1.5.7. µ∗ è una misura esterna ossia verifica le seguenti proprietà:

i) µ∗ (∅) = 0;

ii) µ∗ è monotona;

iii) µ∗ è σ -sub-additiva.

Inoltre µ∗ (A) = µ(A) per ogni A ∈ A .


78 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Dimostrazione. Poichè ∅ ∈ A la i) è ovvia. Se B ⊆ C allora U (C) ⊆ U (B) da cui segue cheSµ∗ (B) ≤ µ∗ (C) e
questo prova la ii). Infine, data una successione (Bn )n∈N di sottoinsiemi di Ω e posto B = Bn , proviamo
n∈N
che X
µ∗ (B) ≤ µ∗ (Bn ).
n∈N

n ) < ∞ per ogni n ∈ N, da cui segue in particolare che U (Bn ) , ∅. Allora,


È sufficiente considerare il caso µ∗ (B
fissato ε > 0, per ogni n ∈ N esiste Rn ∈ U (Bn ) tale che
X ε
µ(A) ≤ µ∗ (Bn ) + n .
2
A∈Rn

Ora R := Rn ∈ U (B) e quindi


S
n∈N
X X X X
µ∗ (B) ≤ µ(A) ≤ µ(A) ≤ µ∗ (Bn ) + ε
A∈R n∈N A∈Rn n∈N

da cui la tesi per l’arbitrarietà di ε.


Infine proviamo che µ∗ coincide con µ su A . Per ogni A ∈ A si ha µ∗ (A) ≤ µ(A) per definizione. Viceversa,
poichè µ è σ -sub-additiva su A , per ogni R ∈ U (A) si ha
X
µ(A) ≤ µ(B)
B∈R

da cui segue che µ(A) ≤ µ∗ (A).

Passo 2. Indichiamo con M (µ∗ ) la famiglia degli A ⊆ Ω tali che

µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), ∀E ⊆ Ω.

Gli elementi di M (µ∗ ) sono detti µ∗ -misurabili. Proveremo che M (µ∗ ) è una σ -algebra e µ∗ è una misura su
M (µ∗ ). Cominciamo col seguente risultato parziale.

Lemma 1.5.8. M (µ∗ ) è un’algebra.

Dimostrazione. Chiaramente ∅ ∈ M (µ∗ ) e M (µ∗ ) è chiusa rispetto al passaggio al complementare. Proviamo


che l’unione di A, B ∈ M (µ∗ ) appartiene a M (µ∗ ): per ogni E ⊆ Ω si ha

µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac )
= µ∗ (E ∩ A ∩ B) + µ∗ (E ∩ A ∩ Bc ) + µ∗ (E ∩ Ac ∩ B) + µ∗ (E ∩ Ac ∩ Bc )
| {z } | {z }
≥µ∗ (E∩A∪B) =µ∗ (E∩(A∪B)c )

poichè
(E ∩ A ∪ B) ⊆ (E ∩ A ∩ B) ∪ (E ∩ A ∩ Bc ) ∪ (E ∩ Ac ∩ B).
Questo prova che
µ∗ (E) ≥ µ∗ (E ∩ (A ∪ B)) + µ∗ (E ∩ (A ∪ B)c ).
D’altra parte µ∗ è sub-additiva e quindi A ∪ B ∈ M (µ∗ ).

Lemma 1.5.9. µ∗ è una misura su M (µ∗ ).


1.5. APPENDICE 79

Dimostrazione. È sufficiente provare che µ∗ è σ -additiva su M (µ∗ ). Per ogni A, B ∈ M (µ∗ ) con A ∩ B = ∅, si
ha
µ∗ (A ] B) = µ∗ ((A ] B) ∩ A) + µ∗ ((A ] B) ∩ Ac ) = µ∗ (A) + µ∗ (B).
Dunque µ∗ è additiva su M (µ∗ ). Inoltre, sappiamo già dal Punto 1 che µ∗ è σ -sub-additiva e dunque la tesi
segue dalla Proposizione 1.1.29.
Lemma 1.5.10. M (µ∗ ) è una σ -algebra.
Dimostrazione. Sappiamo già che M (µ∗ ) è ∩-chiusa. Se verifichiamo che M (µ∗ ) è una famiglia monotona
(cfr. Definizione A.1.1) la tesi seguirà dal Lemma A.1.2. A tal fine è sufficiente provare che se (An )n∈N è
una successione in M (µ∗ ) e An % A allora A ∈ M (µ∗ ). Grazie alla sub-additività di µ∗ , basta provare che

µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), E ⊆ Ω. (1.5.6)

Poniamo A0 = ∅ e osserviamo che

µ∗ (E ∩ An ) = µ∗ ((E ∩ An ) ∩ An−1 ) + µ∗ ((E ∩ An ) ∩ Acn−1 )


= µ∗ (E ∩ An−1 ) + µ∗ (E ∩ (An \ An−1 )).

Di conseguenza si ha
n
X
µ∗ (E ∩ An ) = µ∗ (E ∩ (Ak \ Ak−1 )) (1.5.7)
k=1
e, per la monotonia di µ∗ ,

µ∗ (E) = µ∗ (E ∩ An ) + µ∗ (E ∩ Acn )
≥ µ∗ (E ∩ An ) + µ∗ (E ∩ Ac ) =

(per la (1.5.7))
n
X
= µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ).
k=1

Mandando n all’infinito e usando la σ -sub-additività di µ∗ , si ha



X
µ∗ (E) ≥ µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ),
k=1

che prova la (1.5.6) e conclude la prova.

Passo 3. Come ultimo passo proviamo che

σ (A ) ⊆ M (µ∗ ).

Poichè M (µ∗ ) è una σ -algebra, è sufficiente provare che A ⊆ M (µ∗ ): inoltre, essendo µ∗ sub-additiva, basta
provare che per ogni A ∈ A e E ⊆ Ω, con µ∗ (E) < ∞, vale

µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ). (1.5.8)

Fissato ε > 0, esiste un ricoprimento (An )n∈N di E formato da elementi di A e tale che
X
µ(An ) ≤ µ∗ (E) + ε. (1.5.9)
n∈N
80 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

Poichè A è un semianello, si ha An ∩ A ∈ A e quindi, per il Lemma 1.5.7,

µ∗ (An ∩ A) = µ(An ∩ A). (1.5.10)


(n) (n)
D’altra parte, ancora per il fatto che A è un semianello, per ogni n ∈ N esistono B1 , . . . , Bk ∈ A tali che
n

kn
(n)
]
c
An ∩ A = An \ A = Bj .
j=1

Allora
 
]kn 
∗ c (n) 
∗
µ (An ∩ A ) = µ  Bj  ≤

 
j=1

(essendo µ∗ sub-additiva)
kn
(n)
X
≤ µ∗ (Bj ) =
j=1

(poichè µ∗ = µ su A per il Lemma 1.5.7)


kn
(n)
X
= µ(Bj ) =
j=1

(essendo µ additiva)

= µ(An ∩ Ac ). (1.5.11)

Ora proviamo la (1.5.8): per la σ -sub-additività di µ∗ si ha


X
µ∗ (E ∩ A) + µ∗ (E ∩ Ac ) ≤ (µ∗ (An ∩ A) + µ∗ (An ∩ Ac )) ≤
n∈N

(per la (1.5.10) e la (1.5.11))


X X
≤ (µ(An ∩ A) + µ(An ∩ Ac )) = µ(An ) ≤
n∈N n∈N

(per la (1.5.9))

≤ µ∗ (E) + ε.

La tesi segue dall’arbitrarietà di ε. Questo conclude la prova del Teorema 1.5.5.

Proviamo ora che la σ -algebra M (µ∗ ), costruita nel Passo 2 della dimostrazione del Teorema di Ca-
rathéodory, contiene tutti gli insiemi trascurabili. Questa notevole proprietà verrà utilizzata in seguito,
nel Capitolo 5, poichè gioca un ruolo cruciale nello studio dei processi stocastici. Notiamo che in generale
M (µ∗ ) è strettamente più grande di σ (A ): è questo il caso della misura di Lebesgue se A è la famiglia degli
intervalli limitati del tipo
]a, b], a, b ∈ R, a ≤ b.
In questo caso, σ (A ) è la σ -algebra di Borel e M (µ∗ ) è la σ -algebra dei misurabili secondo Lebesgue.
1.5. APPENDICE 81

Corollario 1.5.11. [!] Sotto le ipotesi del Teorema di Carathéodory, nello spazio con misura (Ω, M (µ∗ ), µ∗ )
si ha:
i) se µ∗ (M) = 0 allora M ∈ M (µ∗ ): questa proprietà si esprime dicendo che (Ω, M (µ∗ ), µ∗ ) è uno spazio
con misura completo, detto anche completamento di (Ω, A , µ);
ii) per ogni M ∈ M (µ∗ ), tale che µ∗ (M) < ∞, esiste A ∈ σ (A ) tale che M ⊆ A e µ∗ (A \ M) = 0.
Dimostrazione. Per la sub-additività e la monotonia di µ∗ , se µ∗ (M) = 0 e E ⊆ Ω si ha

µ∗ (E) ≤ µ∗ (E ∩ M) + µ∗ (E ∩ M c ) = µ∗ (E ∩ M c ) ≤ µ∗ (E),

e questo prova la i).


È chiaro che, per definizione di µ∗ , per ogni n ∈ N esiste An ∈ σ (A ) tale che M ⊆ An e

1
µ∗ (An ) ≤ µ∗ (M) + . (1.5.12)
n
An ∈ σ (A ), si ha M ⊆ A e, passando al limite in (1.5.12) e grazie alla continuità dall’alto di µ∗
T
Posto A =
n∈N
su M (µ∗ ), abbiamo µ∗ (A) = µ∗ (M). Allora, poichè M ∈ M (µ∗ ), si ha

µ∗ (A) = µ∗ (A ∩ M) + µ∗ (A ∩ M c ) = µ∗ (M) + µ∗ (A \ M)

da cui µ∗ (A \ M) = 0.
Concludiamo la sezione con la
Dimostrazione del Lemma 1.5.4. Se µ è una misura sul semianello A allora le proprietà i) e ii) di pre-misura
sono ovvie. Proviamo che µ è monotona: se A, B ∈ A con A ⊆ B allora, per la proprietà iii) di semianello,
esistono C1 , . . . , Cn ∈ A tali che
]n
B\A = Ck .
k=1
Quindi si ha

µ(B) = µ(A ] (B \ A)) = µ(A ] C1 ] · · · ] Cn )

(per l’additività finita di µ)


n
X
= µ(A) + µ(Ck ) ≥ µ(A),
k=1

da cui la monotonia di µ.
La dimostrazione della proprietà iii), ossia la σ -sub-additività di µ, è una versione un po’ più complicata
della dimostrazione della Proposizione 1.1.20-ii): tutta la complicazione è dovuta al fatto che µ è definita
su un semianello (invece che su un’algebra come nella Proposizione 1.1.20) e questo limita le operazioni
insiemistiche che possiamo utilizzare. Siano A ∈ A e (An )n∈N successione in A tali che
[
A⊆ An .
n∈N

Poniamo A
e1 = A1 e
n−1
[ n−1
\
en = An \
A Ak = (An \ (An ∩ Ak )) , n ≥ 2. (1.5.13)
k=1 k=1
82 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

(n) (n)
Allora, per le proprietà ii) e iii) di semianello, esistono Jn ∈ N e C1 , . . . , CJn ∈ A tali che

Jn
(n)
]
en =
A Cj .
j=1

Ora, A
en ⊆ An e quindi, per monotonia e additività, si ha

Jn
(n)
X
µ(An ) ≥ µ(A
en ) = µ(Cj ). (1.5.14)
j=1

Inoltre, per la (1.5.13),


Jn
(n)
[ ] ]]
A⊆ An = en =
A Cj
n∈N n∈N n∈N j=1

e quindi
 
Jn 
 ] ] 
(n) 
µ(A) = µ  A ∩ Cj  =
 
 
n∈N j=1

(n)
(poichè A ∩ Cj ∈ A e, per ipotesi, µ è una misura e quindi, in particolare, σ -additiva)

Jn  
(n)
XX
= µ A ∩ Cj ≤
n∈N j=1

(per monotonia)
Jn  
(n)
XX
≤ µ Cj =
n∈N j=1

(per la (1.5.14))
X
≤ µ(An )
n∈N

e questo conclude la prova.

1.5.4 Dimostrazione del Teorema 1.4.33


Teorema 1.4.33 [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 1.4.26). Allora:
i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi

µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b;

ii) se F verifica anche


lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞
(ossia F gode della proprietà iii) della Teorema 1.4.26) allora µF è una distribuzione;
1.5. APPENDICE 83

iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F 0 è densità di µF .


Dimostrazione. [Parte i)] Consideriamo il semianello A dell’Esempio 1.5.3, formato dagli intervalli limitati
del tipo
]a, b], a, b ∈ R, a ≤ b,
e su A definiamo µF ponendo
µF (]a, b]) = F(b) − F(a).

La tesi segue dal Teorema 1.5.5 di Carathéodory una volta provato che µF è una pre-misura σ -finita (cfr.
Definizione 1.5.1). Per definizione, µF (∅) = 0 e chiaramente µF è σ -finita. Inoltre µF è additiva poichè, se
]a, b], ]c, d] sono intervalli disgiunti tali che la loro unione sia un intervallo allora necessariamente29 b = c,
cosicchè

µF (]a, b]]]b, d]) = µF (]a, d]) = F(d) − F(a) = (F(b) − F(a)) + (F(d) − F(b)) = µF (]a, b]) + µF (]b, d]) .

Infine proviamo che µF è σS -sub-additiva. Basta considerare ]a, b] ∈ A e una successione (An )n∈N in A ,
del tipo An = ]an , bn ], tale che An = ]a, b] e provare che
n∈N


X
µF (A) ≤ µF (An ).
n=1
Fissiamo ε > 0: per la continuità a destra di F, esistono δ > 0 e una successione di numeri positivi (δn )n∈N
tali che
ε
F(a + δ) ≤ F(a) + ε, F(bn + δn ) ≤ F(bn ) + n . (1.5.15)
2
La famiglia (]an , bn + δn [)n∈N è un ricoprimento30 aperto del compatto [a + δ, b] e quindi ammette un sotto-
ricoprimento finito: per fissare le idee, indichiamo con (nk )k=1,...,N gli indici di tale sotto-ricoprimento.
Allora, per la prima disuguaglianza in (1.5.15), si ha

F(b) − F(a) ≤ ε + F(b) − F(a + δ)


≤ ε + µF (]a + δ, b]) ≤

(poichè µF è finitamente additiva e quindi anche finitamente sub-additiva)


N
X  
≤ε+ µF ]ank , bnk + δnk ]
k=1

X
≤ε+ (F(bn + δn ) − F(an )) ≤
n=1

(per la seconda disuguaglianza in (1.5.15))


∞ ∞
X ε X
≤ε+ + (F(bn ) − F(an ))
2n
n=1 n=1
X∞
= 2ε + (F(bn ) − F(an )) ,
n=1

e la tesi segue dall’arbitrarietà di ε > 0.


29 Non è restrittivo assumere a ≤ d.
30 Poichè, per ogni n ∈ N, ]a , b + δ [ contiene ]a , b ].
n n n n n
84 CAPITOLO 1. MISURE E SPAZI DI PROBABILITÀ

[Parte ii)] Poichè


µF (R) = lim F(x) − lim F(x) = 1,
x→+∞ x→−∞

dove la prima uguaglianza è per costruzione e la seconda per ipotesi, allora µF è una misura di probabilità
su R, ossia una distribuzione.
[Parte iii)] Se F è assolutamente continua, per la Proposizione 1.4.31, per ogni a < b si ha
Z b
µF (]a, b]) = F(b) − F(a) = F 0 (x)dx.
a
Notiamo che F 0 ≥ 0 q.o. perchè limite del rapporto incrementale di una funzione monotona crescente:
passando al limite per a → −∞ e b → +∞, per il Teorema di Beppo-Levi, si ha
Z
1 = µF (R) = F 0 (x)dx
R

e quindi F 0 è una densità. Consideriamo la distribuzione definita da


Z
µ(H) := F 0 (x)dx, H ∈ B.
H

Allora µF coincide con µ sul semianello A degli intervalli limitati del tipo ]a, b]. Poichè A genera B, per il
risultato di unicità del Teorema di Carathéodory, si ha µF = µ su B e quindi µF ∈ AC con densità F 0 .
Viceversa, se µF ∈ AC con densità γ allora
Zx
F(x) − F(a) = γ(t)dt, a < x,
a

e quindi F è assolutamente continua e, per la Proposizione 1.4.31, F 0 = γ q.o.


Capitolo 2

Variabili aleatorie

The theory of probability as a


mathematical discipline can and
should be developed from axioms in
exactly the same way as geometry
and algebra.

Andrej N. Kolmogorov

2.1 Variabili aleatorie


Le variabili aleatorie descrivono quantità che dipendono da un fenomeno aleatorio: per esempio, se il feno-
meno aleatorio è il lancio di due dadi, la quantità (variabile aleatoria) che interessa studiare potrebbe essere
il risultato della somma dei due lanci. Il fenomeno aleatorio è modellizzato con uno spazio di probabilità
(Ω, F , P ) (nell’esempio, lo spazio discreto Ω = I6 × I6 con la probabilità uniforme) e la quantità che interes-
sa è descritta dalla variabile aleatoria X che ad ogni esito ω ∈ Ω (ossia ad ogni possibile esito del fenomeno
aleatorio) associa il valore X(ω): nell’esempio, ω = (ω1 , ω2 ) ∈ I6 × I6 e X(ω) = ω1 + ω2 .
Fissiamo uno spazio di probabilità (Ω, F , P ) e d ∈ N. Dati H ⊆ Rd e una funzione X : Ω −→ Rd ,
indichiamo con1
(X ∈ H) := {ω ∈ Ω | X(ω) ∈ H} = X −1 (H)
la contro-immagine di H mediante X. Intuitivamente (X ∈ H) rappresenta l’insieme degli esiti ω (ossia, gli
stati del fenomeno aleatorio) tali che X(ω) ∈ H. Riprendendo l’esempio del lancio dei dadi, se H = {7} allora
(X ∈ H) rappresenta l’evento “il risultato della somma del lancio di due dadi è 7” ed è costituito da tutte le
coppie (ω1 , ω2 ) tali che ω1 + ω2 = 7.
Si noti che non è detto che (X ∈ H) sia un evento, ossia non è detto che (X ∈ H) ∈ F (a parte il caso
banale degli spazi di probabilità discreti, in cui assumiamo che F = P(Ω) e quindi tutti i sotto-insiemi di
Ω sono eventi). In particolare, senza ipotesi ulteriori non ha senso scrivere P (X ∈ H). D’altra parte nelle
applicazioni si è interessati a calcolare la probabilità di (X ∈ H): ciò giustifica la seguente definizione di
variabile aleatoria.
1 Nel caso d = 1, useremo anche le seguenti notazioni:

(X > c) := {ω ∈ Ω | X(ω) > c}, (X = c) := {ω ∈ Ω | X(ω) = c}, c ∈ R.

Inoltre, se X, Y sono due funzioni da (Ω, F , P ) a valori in Rd , scriviamo


(X = Y ) := {ω ∈ Ω | X(ω) = Y (ω)}.

85
86 CAPITOLO 2. VARIABILI ALEATORIE

Definizione 2.1.1. Una variabile aleatoria (abbreviato in v.a.) su (Ω, F , P ) a valori in Rd è una funzione

X : Ω −→ Rd

tale che (X ∈ H) ∈ F per ogni H ∈ Bd : scriviamo X ∈ mF e diciamo anche che X è F -misurabile. Indichiamo
con mF + la classe delle funzioni F -misurabili e non-negative; inoltre bF è la classe delle funzioni F -
misurabili e limitate. Nel caso particolare in cui (Ω, F ) = (Rn , Bn ), X è semplicemente una funzione Borel-
misurabile.
Osservazione 2.1.2. In questo capitolo ci limiteremo a considerare v.a. a valori in Rd . Tuttavia è bene
conoscere anche la seguente definizione generale: dato uno spazio misurabile (E, E ), una variabile aleatoria
su (Ω, F , P ) a valori in E è una funzione
X : Ω −→ E
F -misurabile (scriviamo X ∈ mF ) nel senso che X −1 (E ) ⊆ F ossia (X ∈ H) ∈ F per ogni H ∈ E .
Come abbiamo spiegato sopra, nel caso di spazi discreti la condizione di misurabilità è automaticamente
soddisfatta e ogni funzione X : Ω −→ Rd è una v.a. In generale, la condizione (X ∈ H) ∈ F fa sı̀ che P (X ∈ H)
sia ben definito e quindi si possa parlare della probabilità che X assuma valori nel Boreliano H.
Osservazione 2.1.3. [!] Se
X : Ω −→ Rd
è una funzione qualsiasi, H ⊆ Rd e (Hi )i∈I è una famiglia qualsiasi di sottoinsiemi di Rd , allora si ha
 
 c [  [
−1 c −1 −1 
X (H ) = X (H) , X  Hi  =
 X −1 (Hi ) .
i∈I i∈I
Come conseguenza, si ha che n o
σ (X) := X −1 (Bd ) = X −1 (H) | H ∈ Bd
è una σ -algebra, chiamata σ -algebra generata da X. Osserviamo che X ∈ mF se e solo se σ (X) ⊆ F .
Esempio 2.1.4. [!] Consideriamo X : I6 −→ R definita da

1 se n è pari,


X(n) = 
0 se n è dispari.

Dunque X è la v.a. su Ω = I6 che indica se il risultato del lancio di un dado è un numero pari o dispari.
Allora si ha
σ (X) = {∅, Ω, {2, 4, 6}, {1, 3, 5}}
ossia σ (X) contiene proprio gli eventi “significativi” per la v.a. X. Nei modelli probabilistici per le appli-
cazioni, σ (X) è chiamata la σ -algebra delle informazioni su X e viene utilizzata per rappresentare l’insieme
delle informazioni riguardanti il valore aleatorio X. Ciò si spiega, almeno parzialmente, col fatto che σ (X)
contiene gli eventi del tipo (X ∈ H) con H ∈ B: questi sono gli eventi “rilevanti” ai fini di studiare la
quantità aleatoria X, nel senso che conoscere la probabilità di questi eventi equivale a conoscere con quale
probabilità X assuma i propri valori.
Lemma 2.1.5. Sia H è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd . Se X −1 (H ) ⊆ F allora
X ∈ mF .
Dimostrazione. Sia
E = {H ∈ Bd | X −1 (H) ∈ F }.
Allora E è una σ -algebra (perchè?) e poichè E ⊇ H per ipotesi, allora E ⊇ σ (H ) = Bd da cui la tesi.
2.1. VARIABILI ALEATORIE 87

Corollario 2.1.6. [!] Siano Xk : Ω −→ R con k = 1, . . . , d. Le seguenti proprietà sono equivalenti:

i) X := (X1 , . . . , Xd ) ∈ mF ;

ii) Xk ∈ mF per ogni k = 1, . . . , d;

iii) (Xk ≤ x) ∈ F per ogni x ∈ R e k = 1, . . . , d.

Dimostrazione. È semplice provare che i) implica ii); il viceversa segue dal Lemma 2.1.5, dal fatto che

d
\
((X1 , . . . , Xd ) ∈ H1 × · · · × Hd ) = (Xk ∈ Hk )
k=1

e H := {H1 × · · · × Hd | Hk ∈ B} è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd .


Infine, ii) e iii) sono equivalenti ancora per il Lemma 2.1.5, poichè la famiglia degli intervalli del tipo
] − ∞, x] genera B (cfr. Esercizio 1.4.7-iii)).

Presentiamo ora i primi semplici esempi di v.a., scrivendo anche esplicitamente la σ -algebra σ (X)
generata da X e l’immagine X(Ω) = {X(ω) | ω ∈ Ω} che è l’insieme dei valori possibili di X.

Esempio 2.1.7.

i) Dato c ∈ Rd , consideriamo la funzione costante X ≡ c. Si ha

σ (X) = {∅, Ω}

e quindi X è una v.a. In questo caso X(Ω) = {c} e ovviamente c rappresenta l’unico valore che X può
assumere. Dunque si tratta di una variabile “non proprio aleatoria”.

ii) Dato un evento A ∈ F , la funzione indicatrice di A è definita da



1 ω ∈ A,


X(ω) = 1A (ω) = 
0 ω ∈ Ac .

X è una v.a. poichè


σ (X) = {∅, A, Ac , Ω},
e in questo caso X(Ω) = {0, 1}.

iii) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. S che conta il
numero di successi fra le n prove: in altri termini
n
X
S(ω) = 1Ch (ω), ω ∈ Ω.
h=1
Con riferimento allo spazio canonico della Proposizione 1.3.32 si ha anche
n
X
S(ω) = ωh , ω ∈ Ω.
h=1

e, ricordando la formula (1.5.1), abbiamo (S = k) = Ωk con k = 0, 1, . . . , n. Quindi σ (X) contiene ∅ e


tutte le unioni degli eventi Ω0 , . . . , Ωn . In questo caso S(Ω) = {0, 1, . . . , n}.
88 CAPITOLO 2. VARIABILI ALEATORIE

iv) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. T che indica il
“primo tempo” di successo fra le n prove: in altri termini

T (ω) = min{h | ω ∈ Ch }, ω ∈ Ω,

e poniamo per convenzione min ∅ = n + 1. In questo caso T (Ω) = {1, . . . , n, n + 1}. Con riferimento allo
spazio canonico della Proposizione 1.3.32, si ha anche

T (ω) = min{h | ωh = 1}, ω ∈ Ω.

σ (X) contiene ∅ e tutte le unioni degli eventi (T = 1), . . . , (T = n + 1). Notiamo che

(T = 1) = C1 , (T = n + 1) = C1c ∩ · · · ∩ Cnc

e, per 1 < k ≤ n,
(T = k) = C1c ∩ · · · ∩ Ck−1
c
∩ Ck .

Proposizione 2.1.8. Valgono le seguenti proprietà delle funzioni misurabili:

i) siano
X : Ω −→ Rd , f : Rd −→ Rn ,
con X v.a. e f ∈ mBd . Allora si ha
σ (f ◦ X) ⊆ σ (X), (2.1.1)
e di conseguenza f (X) ∈ mF ;

ii) se (Xn )n∈N è una successione in mF allora anche

inf Xn , sup Xn , lim inf Xn , lim sup Xn ,


n n n→∞ n→∞

appartengono a µF .

Dimostrazione. La (2.1.1) segue da f −1 (Bn ) ⊆ Bd e il fatto che f (X) ∈ mF ne è immediata conseguenza.


La ii) segue dal fatto che, per ogni a ∈ R, si ha
  [ ! \
inf Xn < a = (Xn < a), sup Xn < a = (Xn < a),
n n
n n

e
lim inf Xn = sup inf Xk , lim sup Xn = inf sup Xk .
n→∞ n k≥n n→∞ n k≥n

Osservazione 2.1.9. Dalla i) della Proposizione 2.1.8 segue in particolare che se X, Y ∈ mF e λ ∈ R allora
X + Y , XY , λX ∈ mF . Infatti basta osservare che X + Y , XY e λX sono funzioni continue (e quindi B-
misurabili) della coppia (X, Y ) che è una v.a. per il Corollario 2.1.6.
Inoltre, per ogni successione (Xn )n∈N di v.a. si ha

A := {ω ∈ Ω | esiste lim Xn (ω)} = {ω ∈ Ω | lim sup Xn (ω) = lim inf Xn (ω)} ∈ F . (2.1.2)
n→∞ n→∞ n→∞

Definizione 2.1.10 (Convergenza quasi certa). Se A in (2.1.2) è quasi certo, ossia P (A) = 1, allora si dice
che (Xn )n∈N converge quasi certamente.
2.1. VARIABILI ALEATORIE 89

Ricordiamo dall’Osservazione 1.4.3 che uno spazio (Ω, F , P ) è completo se N ⊆ F , ossia gli insiemi
trascurabili (e quasi certi) sono eventi. L’ipotesi di completezza è spesso utile come mostrano i seguenti
esempi.

Osservazione 2.1.11 (Proprietà quasi certe e completezza). [!] Consideriamo una “proprietà” P = P(ω)
la cui validità dipende da ω ∈ Ω: per fissare le idee, nell’Osservazione 2.1.9 P(ω)=“esiste lim Xn (ω)”.
n→∞
Diciamo che P è quasi certa (o vale q.c.) se l’insieme

A := {ω ∈ Ω | P(ω) è vera}

è quasi certo: ciò significa che esiste C ∈ F tale che P (C) = 1 e C ⊆ A o, equivalentemente, esiste N
trascurabile tale che P(ω) è vera per ogni ω ∈ Ω \ N .
Nel caso di uno spazio completo, P vale q.c. se e solo se P (A) = 1. Se lo spazio non è completo, non
è detto che A ∈ F e quindi P (A) non è definita. Nel caso particolare dell’Osservazione 2.1.9, il fatto che
A ∈ F si prova per altre vie, come conseguenza della (2.1.2) e del fatto che le Xn sono v.a.

Definizione 2.1.12 (Uguaglianza quasi certa). Date due funzioni

X, Y : Ω −→ R,
q.c.
diciamo che X = Y quasi certamente, e scriviamo X = Y q.c. (o X = Y ), se l’insieme (X = Y ) è quasi certo.

Osservazione 2.1.13. Per l’Osservazione 1.1.16, in uno spazio completo


q.c.
X=Y ⇐⇒ P (X = Y ) = 1.

Senza l’ipotesi di completezza, non è detto che (X = Y ) sia un evento (a meno che, per esempio, X e Y non
siano entrambe v.a.). Di conseguenza P (X = Y ) non è ben definita e, senza l’ipotesi di completezza, non è
corretto affermare che X = Y q.c. equivale a P (X = Y ) = 1.
Notiamo anche che, in uno spazio completo, se X = Y q.c. e Y è una v.a. allora anche X è una v.a.: ciò
non è necessariamente vero se lo spazio non è completo.

2.1.1 Variabili aleatorie e distribuzioni


Sia
X : Ω −→ Rd
una variabile aleatoria sullo spazio di probabilità (Ω, F , P ). Ad X è associata in modo naturale la distribu-
zione definita da
µX (H) := P (X ∈ H), H ∈ Bd . (2.1.3)
È facile verificare che µX in (2.1.3) è una distribuzione, ossia una misura di probabilità su Rd : infatti si ha
µX (Rd ) = P (X ∈ Rd ) = 1 e inoltre, per ogni successione disgiunta (Hn )n∈N in Bd , si ha
∞   ∞  ∞ 
]   ]  ] 
−1 −1
µX  Hn  = P X  Hn  = P  X (Hn ) =
      
n=1 n=1 n=1

(per la σ -additività di P )

X   X∞
= P X −1 (Hn ) = µX (Hn ).
n=1 n=1
90 CAPITOLO 2. VARIABILI ALEATORIE

Definizione 2.1.14 (Legge, CDF e densità di una v.a.). Data una v.a.

X : Ω −→ Rd

su (Ω, F , P ), la distribuzione µX definita da (2.1.3), ossia da

µX (H) := P (X ∈ H), H ∈ Bd ,

è detta distribuzione (o legge) di X. Per indicare che X ha distribuzione µX scriveremo

X ∼ µX .

La funzione definita da2


FX (x) := P (X ≤ x), x ∈ Rd ,
è detta funzione di ripartizione o CDF di X. Notiamo che FX è la CDF di µX . Infine, se µX ∈ AC con
densità γX , diremo che X è assolutamente continua e ha densità γX : in tal caso vale
Z
P (X ∈ H) = γX (x)dx, H ∈ Bd .
H

Per comprendere la definizione precedente, è importante capire tutti i dettagli del seguente

Esempio 2.1.15. [!] Sullo spazio di probabilità (Ω, F , P ) ≡ (R, B, Expλ ), dove λ > 0 è fissato, consideriamo
le v.a. 
−1 se ω ≤ 2,

X(ω) = ω2 ,

Y (ω) =  Z(ω) = ω, ω ∈ R.
1
 se ω > 2,

Per determinare la legge di X, calcoliamo la relativa CDF: per x < 0 si ha P (X ≤ x) = 0, mentre per x ≥ 0 si
ha

Z x √
2 x
FX (x) = P (X ≤ x) = Expλ ({ω ∈ R | ω ≤ x}) = λe−λt dt = 1 − e−λ .
0

Ne segue che X è assolutamente continua con densità



dF (x) λe−λ x
γX (x) = X = √ 1R≥0 (x).
dx 2 x

La v.a. Y assume solo due valori: −1 e 1. Inoltre


Z2
P (Y = −1) = Expλ (] − ∞, 2]) = λe−λt dt = 1 − e−2λ ,
0
Z +∞
P (Y = 1) = Expλ (]2, +∞]) = λe−λt dt = e−2λ .
2

Ne segue che Y è una v.a. discreta con legge


 
Y ∼ 1 − e−2λ δ−1 + e−2λ δ1 .

Per esercizio, provare che Z ∼ Expλ .


d
2 Al solito, (X ≤ x) = T (X ≤ x ).
k k
k=1
2.1. VARIABILI ALEATORIE 91

Osservazione 2.1.16 (Esistenza). [!] Assegnata una distribuzione µ su Rd , esiste una v.a. X su uno spazio
di probabilità (Ω, F , P ) tale che µ = µX . Basta infatti considerare (Rd , Bd , µ) e la variabile aleatoria identità
X(ω) ≡ ω, per ogni ω ∈ Rd . D’altra parte, la scelta di (Ω, F , P ) e X non è unica: in altri termini, variabili
aleatorie differenti, anche definite su spazi di probabilità diversi, possono avere la medesima distribuzione.
Per esempio, consideriamo:

i) Lancio di un dado: Ω1 = I6 := {1, 2, 3, 4, 5, 6} con probabilità uniforme e X(ω) = ω;

ii) Lancio di due dadi: Ω2 = I6 × I6 con probabilità uniforme e Y (ω1 , ω2 ) = ω1 .

Allora X e Y hanno la stessa legge (che è la distribuzione uniforme discreta UnifI6 ) ma sono variabili aleatorie
differenti e definite su spazi di probabilità diversi.

Dunque la legge di una v.a non fornisce la conoscenza completa della v.a. stessa. Conoscere la distri-
buzione di una v.a. X significa conoscere “come è distribuita la probabilità fra i vari valori che X può
assumere” e questo, per molte applicazioni, è più che sufficiente; anzi, spesso i modelli probabilistici sono
definiti a partire dalla distribuzione (o, equivalentemente, assegnando la CFD oppure la densità, nel caso
assolutamente continuo) piuttosto che attraverso la definizione esplicita dello spazio di probabilità e della
v.a. considerata.

Definizione 2.1.17 (Uguaglianza in legge). Siano X, Y variabili aleatorie (non necessariamente sullo stesso
spazio di probabilità). Diciamo che X e Y sono uguali in legge (o distribuzione) se µX = µY . In tal caso,
scriviamo
d
X = Y.

Esercizio 2.1.18. Provare le seguenti affermazioni:


q.c. d
i) se X = Y allora X = Y ;
d
ii) esistono X, Y v.a. definite sullo stesso spazio (Ω, F , P ) tali che X = Y ma P (X = Y ) < 1;
d d
iii) se X = Y e f ∈ mB allora f ◦ X = f ◦ Y .
Soluzione.
i) Utilizziamo il fatto che P (X = Y ) = 1 e, ricordando l’Esercizio 1.1.26, per ogni z abbiamo

P (X ∈ H) = P ((X ∈ H) ∩ (X = Y )) = P ((Y ∈ H) ∩ (X = Y )) = P (Y ∈ H).

ii) In uno spazio (Ω, F , P ) siano A, B ∈ F tali che P (A) = P (B). Allora le v.a. indicatrici X = 1A e Y = 1B hanno entrambe
distribuzione di Bernoulli uguale a
P (A)δ1 + (1 − P (A)) δ0 ,
poichè assumono solo i valori 1 e 0 rispettivamente con probabilità P (A) e 1 − P (A). Per quanto riguarda la CDF, si ha



 0 se x < 0,
c ) se 0 ≤ x < 1,

FY (x) = FX (x) = P (X ≤ x) =  P (A



1 se x ≥ 1.

iii) Per ogni H ∈ B si ha


    
P (f ◦ X)−1 (H) = P X −1 f −1 (H) =

d
(poichè per ipotesi X = Y )
  
= P Y −1 f −1 (H) = P ((f ◦ Y )−1 (H)).
92 CAPITOLO 2. VARIABILI ALEATORIE

Esaminiamo ora alcuni esempi di distribuzioni di v.a. con particolare riferimento al caso di v.a. assolu-
tamente continue e discrete. Abbiamo già detto che X è assolutamente continua se
Z
P (X ∈ H) = γX (x)dx, H ∈ B,
H
R
dove la densità γX è una funzione B-misurabile, non-negativa (ossia γX ∈ mB + ) e tale che γX (x)dx = 1.
Rd
Diciamo che una v.a. X è discreta se la sua legge è una distribuzione discreta (cfr. Definizione 1.4.15),
ossia è una combinazione finita o numerabile di Delta di Dirac:
X
µX = pk δxk , (2.1.4)
k≥1

dove (xk ) è una successione in Rd e (pk ) è una successione di numeri non-negativi con somma pari a uno.
Se µ̄X indica la funzione di distribuzione di µX , allora si ha
P (X = xk ) = µ̄X (xk ) = pk ,
per ogni k.
Osservazione 2.1.19. I grafici della densità γX (nel caso di distribuzioni assolutamente continue) e della
funzione di distribuzione µ̄X (nel caso di distribuzioni discrete) danno una rappresentazione semplice e
immediata di come è distribuita la probabilità fra i valori possibili di X: illustriamo questo fatto nella
sezione seguente con alcuni esempi.

2.1.2 Esempi di variabili aleatorie discrete


Esempio 2.1.20 (Binomiale). Per una v.a S con distribuzione binomiale, S ∼ Binn,p (si veda l’Esempio
1.4.17-iii)), si ha !
n k
P (S = k) = p (1 − p)n−k , k = 0, 1, . . . , n. (2.1.5)
k
S rappresenta il “numero di successi in n prove ripetute e indipendenti con probabilità p” (cfr. Esempio
2.1.7-iii)). Esempi di variabili aleatori binomiali sono:
i) con riferimento all’Esempio 1.3.45, in cui si considera l’estrazione con reinserimento da un’urna che
contiene b palline bianche e r palline rosse, la v.a. S che rappresenta il “numero di palline bianche
estratte in n estrazioni” ha distribuzione Binn, b ;
b+r

ii) con riferimento all’Esempio 1.3.45, in cui si suppone di disporre a caso r oggetti in n scatole, la v.a. S
che rappresenta il “numero di oggetti nella prima scatola” ha distribuzione Binn, 1 .
r

In Figura 2.1, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Binn,p con
n = 40 e p = 10%: tale grafico permette di visualizzare molto chiaramente i valori possibili di X, ossia X(Ω),
in ascissa e le corrispondenti probabilità in ordinata.
Esempio 2.1.21 (Overbooking). [!] Supponiamo che la probabilità che un viaggiatore non si presenti
all’imbarco all’aeroporto sia pari al 10%, indipendentemente dagli altri viaggiatori. Quante prenotazioni
per un volo da 100 passeggeri si possono accettare volendo che la probabilità che tutti i viaggiatori presenti
all’imbarco trovino posto sia maggiore del 99%?
Soluzione. Supponiamo di accettare n prenotazioni e consideriamo la v.a. X “numero di passeggeri presenti all’imbarco”: allora
9 è la probabilità che un viaggiatore si presenti. Dobbiamo determinare il valore massimo di n tale che
X ∼ Binn,p dove p = 10
n
X
P (X > 100) = P (X = k) < 1%.
k=101
2.1. VARIABILI ALEATORIE 93

Figura 2.1: Grafico della funzione di distribuzione di una variabile aleatoria binomiale

Si verifica direttamente3 che P (X > 100) = 0.57% se n = 104 e P (X > 100) = 1.67% se n = 105. Dunque possiamo accettare
104 prenotazioni.
Esempio 2.1.22 (Poisson). Sia λ > 0 una costante fissata. Per ogni n ∈ N, n ≥ λ, poniamo qn = λn e
consideriamo Xn ∼ Binn,qn . Per ogni k = 0, 1, . . . , n, poniamo
 k 
λ n−k
!
n k n! λ

pn,k := P (Xn = k) = qn (1 − qn )n−k = 1− (2.1.6)
k k!(n − k)! n n
λ n
 
λk n(n − 1) · · · (n − k + 1) 1 − n
= · ·
nk
k! k
1− λ n

e osserviamo che
e−λ λk
lim pn,k = =: pk , k ∈ N0 .
n→∞ k!
Ritroviamo quindi la distribuzione di Poisson

X
Poissonλ = pk δk
k=0

dell’Esempio 1.4.17-iv).
Intuitivamente X ∼ Poissonλ può essere pensata come il limite di una successione di v.a. Xn ∼ Binn,qn .
 
In altri termini, se p = O n1 per n → ∞, la distribuzione di Poisson di parametro np approssima per n  1
la distribuzione binomiale Binn,p . Notiamo che nella pratica, per n grande, il valore di pn,k in (2.1.6) è
“difficile” da calcolare a causa della presenza dei fattoriali4 nel coefficiente binomiale nk . Pertanto risulta

utile utilizzare la distribuzione di Poisson come approssimazione della binomiale.
In Figura 2.2, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Poissonλ
con λ = 3.
3 Mostreremo più avanti (cfr. Osservazione 3.4.6) come è possibile semplificare il calcolo di P (X > 100) nel caso di X ∼ Bin
n,p con n
grande.
4 Per esempio 70! > 10100 . Per calcolare n! per n  1 si può utilizzare l’approssimazione di Stirling
√  n
n
n! ≈ 2πn .
e
94 CAPITOLO 2. VARIABILI ALEATORIE

Figura 2.2: Grafico della funzione di distribuzione di una variabile aleatoria di Poisson

Esempio 2.1.23. [!] Un macchinario produce bulloni e per ogni bullone prodotto c’è la probabilità dello
0.01% che sia difettoso (indipendentemente dagli altri). Calcolare la probabilità che in una scatola da 1000
bulloni ce ne siano meno di 3 difettosi.
Soluzione. La v.a. X che indica il numero di bulloni difettosi in una scatola da 1000 bulloni, ha distribuzione binomiale
Bin1000,p dove p = 0.01% è la probabilità che il singolo bullone sia difettoso. Allora

2 2 !
X X 1000 k
P (X < 3) = P (X = k) = p (1 − p)1000−k ≈ 99.9846%.
k
k=0 k=0

Utilizzando l’approssimazione con una v.a. di Poisson, diciamo Y ∼ Poissonλ dove λ = np = 0.1, otteniamo

2 2
X X λk
P (Y < 3) = P (Y = k) = e−λ ≈ 99.9845%.
k!
k=0 k=0

Esempio 2.1.24 (Geometrica). Per una v.a T con distribuzione geometrica di parametro p, T ∼ Geomp con
p ∈ ]0, 1], si ha5
P (T = k) = p(1 − p)k−1 , k ∈ N.

La v.a. T rappresenta il “primo tempo di successo” in una famiglia di prove ripetute e indipendenti con
probabilità p: al riguardo si ricordi l’Esempio 2.1.7-iv) e l’Esempio 1.3.33.

Proviamo ora una proprietà fondamentale della distribuzione geometrica, nota come proprietà di assenza
di memoria.

Teorema 2.1.25. Se T ∼ Geomp si ha

P (T > n) = (1 − p)n , n ∈ N, (2.1.7)

e vale la seguente proprietà di assenza di memoria:

P (T > n + k | T > n) = P (T > k), k, n ∈ N. (2.1.8)

Viceversa, se T è una v.a. a valori in N e vale la (2.1.8) allora T ∼ Geomp dove p = P (T = 1).
5 Per convenzione poniamo 00 = 1.
2.1. VARIABILI ALEATORIE 95

Dimostrazione. Se T ∼ Geomp allora per ogni n ∈ N vale



X ∞
X ∞
X
P (T > n) = P (T = k) = p(1 − p)k−1 = p(1 − p)h
k=n+1 k=n+1 h=n

X p(1 − p)n
= p(1 − p)n (1 − p)h = = (1 − p)n ,
1 − (1 − p)
h=0

e questo prova la (2.1.7). Allora, poichè (T > k + n) ⊆ (T > n), si ha

P (T > k + n) (1 − p)k+n
P (T > n + k | T > n) = = = (1 − p)k = P (T > k).
P (T > n) (1 − p)n

Viceversa, supponiamo che T sia una v.a. a valori in N per cui vale la (2.1.8): notiamo che la (2.1.8) ha
senso sotto l’ipotesi implicita che P (T > n) > 0 per ogni n ∈ N. Allora, per k = 1 si ha

P (T > n + 1)
P (T > n + 1 | T > n) = = P (T > 1)
P (T > n)
da cui
P (T > n + 1) = P (T > n)P (T > 1)
e quindi
P (T > n) = P (T > 1)n .
Inoltre, posto p = P (T = 1) = 1 − P (T > 1), si ha

P (T = k) = P (T > k − 1) − P (T > k) = P (T > 1)k−1 − P (T > 1)k


= P (T > 1)k−1 (1 − P (T > 1)) = p(1 − p)k−1 ,

che prova la tesi.


Corollario 2.1.26. Siano T ∼ Geomp e n ∈ N. Vale

P (T = n + k | T > n) = P (T = k), k ∈ N,

ossia la legge della v.a. T rispetto alla probabilità P è uguale alla legge della v.a. (T − n) rispetto alla probabilità
condizionata P (· | T > n).
Dimostrazione. Si ha

P (T = n + k | T > n) = P (T > n + k − 1 | T > n) − P (T > n + k | T > n) =

(per il Teorema 2.1.25)

= P (T > k − 1) − P (T > k) = P (T = k).

Esercizio 2.1.27. In un gioco del lotto, una volta alla settimana si estraggono 5 numeri da un’urna che
contiene 90 palline numerate. Qual è la probabilità che il numero 13 non venga estratto per 52 settimane
consecutive? Sapendo che il 13 non è stato estratto per 52 settimane, qual è la probabilità che non sia
estratto per la 53esima settimana consecutiva?
|C | 5 la probabilità che in un’estrazione venga estratto il 13. Se T indica la prima
Soluzione. Indichiamo con p = |C89,4 | = 90
90,5
settimana in cui viene estratto il 13 allora per la (2.1.7) abbiamo

P (T > 52) = (1 − p)52 ≈ 5.11%


96 CAPITOLO 2. VARIABILI ALEATORIE

Equivalentemente avremmo potuto considerare la v.a. binomiale X ∼ Bin52,p che indica il numero di volte in cui, fra 52
estrazioni, viene estratto il 13 e calcolare !
52 0
P (X = 0) = p (1 − p)52
0
che dà lo stesso risultato. Per la seconda domanda, dobbiamo calcolare
85
P (T > 53 | T > 52) = P (T > 1) = ,
90
dove la prima uguaglianza segue dalla (2.1.8).

Esempio 2.1.28 (Ipergeometrica). Una variabile aleatoria X con distribuzione ipergeometrica rappresenta
il numero di palline bianche estratte in n estrazioni senza reimmissione da un’urna che contiene N palline
di cui b bianche: al riguardo si ricordi l’Esempio 1.2.22. In particolare, siano n, b, N ∈ N con n, b ≤ N . Allora
X ∼ Ipern,b,N se6
b N −b
P (X = k) = k Nn−k
 k = 0, 1, . . . , n ∧ b. (2.1.9)
n

Esercizio 2.1.29. Sia (bN )N ∈N una successione in N0 tale che


bN
lim = p ∈ ]0, 1[.
N →∞ N

Se γN , N ∈ N, indica la funzione di distribuzione ipergeometrica di parametri n, bN , N , e γ indica la


funzione di distribuzione binomiale di parametri n e p, allora si ha

lim Ipern,bN ,N ({k}) = Binn,p ({k})


N →∞

per ogni n ∈ N e k = 0, 1, . . . , n. Intuitivamente, se il numero di palline bianche b e il numero totale di


palline N sono grandi, allora la reimmissione o meno di una pallina dopo l’estrazione modifica in modo
trascurabile la composizione dell’urna.
Soluzione. È un calcolo diretto: si veda per esempio l’Osservazione 1.40 in [9].

2.1.3 Esempi di variabili aleatorie assolutamente continue


Cominciamo con un semplice ma utile risultato.
Proposizione 2.1.30 (Trasformazioni lineari e densità). Sia X una v.a. in Rd e assolutamente continua
con densità γX . Allora per ogni matrice A invertibile, di dimensione d × d, e b ∈ Rd , la v.a. Z := AX + b è
assolutamente continua con densità
1  
γZ (z) = γX A−1 (z − b) .
|det A|
Dimostrazione. Per ogni H ∈ Bd si ha
  Z
−1
P (Z ∈ H) = P X ∈ A (H − b) = γX (x)dx =
A−1 (H−b)

(col cambio di variabili z = Ax + b)


Z
1  
= γX A−1 (z − b) dz
|det A| H

e questo prova la tesi.


6 Per convenzione poniamo n = 0 per k > n.
k
2.1. VARIABILI ALEATORIE 97

Esempio 2.1.31 (Uniforme). Consideriamo un esempio di v.a. con distribuzione uniforme su K ∈ Bd , con
K Boreliano con misura di Lebesgue positiva come nell’Esempio 1.4.22-i). In particolare, sia K il triangolo
in R2 di vertici (0, 0), (1, 0) e (0, 1). Sia (X, Y ) ∼ UnifK , con densità γ(X,Y ) (x, y) = 21K (x, y): con la Proposizione
2.1.30 possiamo facilmente calcolare la densità di (X + Y , X − Y ). Infatti, essendo
! ! !
X +Y X 1 1
=A , A= ,
X −Y Y 1 −1
si ha det A = −2 e !!
2 z
γ(X+Y ,X−Y ) (z, w) = 1 A−1 = 1AK (z, w)
| det A| K w
dove AK è il triangolo di vertici7 (0, 0), (1, 1) = A · (1, 0) e (1, −1) = A · (0, 1).
Esempio 2.1.32 (Normale). Ricordiamo che X ha distribuzione normale di parametri µ ∈ R e σ > 0, ossia
X ∼ Nµ,σ 2 , se
Z
1 1 x−µ 2
P (X ∈ H) = √ e− 2 ( σ ) dx, H ∈ B.
H 2πσ 2
Notiamo che P (X ∈ H) > 0 se e solo se Leb(H) > 0, essendo la densità un esponenziale e quindi strettamente
positiva. Ovviamente P (X = x) = 0 per ogni x ∈ R perchè X è assolutamente continua.
Anche se X può assumere un qualsiasi valore reale, è bene sapere che la probabilità è sostanzialmente
concentrata intorno al valore µ. Infatti, si ha
P (|X − µ| ≤ σ ) ≈ 68.27%
P (|X − µ| ≤ 2σ ) ≈ 95.45% (2.1.10)
P (|X − µ| ≤ 3σ ) ≈ 99.73%
e questo significa che i valori estremi (neanche tanto lontani da µ) sono molto improbabili (si veda la8
Figura 2.3). Si usa dire che la densità Gaussiana ha le “code sottili”.
0.4
0.3
0.2

34.1% 34.1%
0.1

2.1% 2.1%
0.1% 13.6% 13.6% 0.1%
0.0

3 2 1 0 1 2 3

Figura 2.3: Probabilità nella distribuzione normale

A prima vista, il fatto che i valori in (2.1.10) siano indipendenti da µ e σ può sembrare un po’ strano.
X−µ
D’altra parte P (|X − µ| ≤ λσ ) = P (|Z| ≤ λ) dove Z = σ e per la Proposizione 2.1.30 si ha
X ∼ Nµ,σ 2 =⇒ Z ∼ N0,1 .
!
7 Qui A · (1, 0) ≡ A 1 .
0
8 La Figura 2.3 è tratta da
commons.wikimedia.org/wiki/File:Standard deviation diagram.svg]/media/File:Standard deviation diagram.svg
98 CAPITOLO 2. VARIABILI ALEATORIE

In altre termini, si può sempre standardizzare una v.a. normale con una semplice trasformazione lineare.
Notiamo che la densità Gaussiana di Z ∼ N0,1 è una funzione pari e quindi, per ogni λ > 0 si ha
P (Z ≥ −λ) = P (−Z ≤ λ) = P (Z ≤ λ)
e di conseguenza
P (|Z| ≤ λ) = P (Z ≤ λ) − P (Z ≤ −λ)
= P (Z ≤ λ) − (1 − P (Z ≥ −λ))
= 2FZ (λ) − 1, (2.1.11)
dove FZ indica la CDF di Z.
Esempio 2.1.33 (Esponenziale). Una v.a. con distribuzione esponenziale X ∼ Expλ gode di una proprietà
di assenza di memoria analoga a quella vista nel Teorema 2.1.25 per la distribuzione geometrica:
P (X > t + s | X > s) = P (X > t) , t, s ≥ 0. (2.1.12)
Infatti, poichè (X > t + s) ⊆ (X > s), si ha
P (X > t + s)
P (X > t + s | X > s) = =
P (X > s)
(per la (1.4.9))
e−λ(t+s)
= = e−λt = P (X > t) .
e−λs
La distribuzione esponenziale appartiene ad un’ampia famiglia di distribuzioni che introduciamo nel pros-
simo esempio.
Esempio 2.1.34 (Gamma). Ricordiamo la definizione della funzione Gamma di Eulero:
Z +∞
Γ (α) := xα−1 e−x dx, α > 0. (2.1.13)
0

Osserviamo che Γ assume valori positivi, Γ (1) = 1 e Γ (α + 1) = αΓ (α) poichè, integrando per parti, si ha
Z +∞ Z +∞
α −x
Γ (α + 1) = x e dx = αxα−1 e−x dx = αΓ (α).
0 0

Ne segue in particolare che Γ (n + 1) = n! per ogni n ∈ N. Un altro valore notevole si ha per α = 21 :


  Z +∞ e−x
Γ 12 = √ dx =
0 x
(col cambio di variabile x = y 2 )
Z +∞ √
2
=2 e−y dy = π.
0

Notiamo anche che, fissato λ > 0, col cambio di variabile x = λt in (2.1.13) otteniamo
Z +∞
Γ (α) := λα t α−1 e−λt dt, α > 0.
0
Ne segue che la funzione
λα α−1 −λt
γα,λ (t) := t e 1R>0 (t), t ∈ R, (2.1.14)
Γ (α)
è una densità per ogni α > 0 e λ > 0.
2.1. VARIABILI ALEATORIE 99

Figura 2.4: A sinistra: grafico della densità γα,2 per α = 1 (blu), α = 4 (arancio) α = 6 (verde). A destra:
grafico della densità γ2,λ per λ = 12 (blu), λ = 14 (arancio) λ = 61 (verde).

Definizione 2.1.35. La distribuzione con densità γα,λ in (2.1.14) è detta distribuzione Gamma di parametri
α, λ > 0:
λα
Z
Gammaα,λ (H) = t α−1 e−λt dt, H ∈ B.
Γ (α) H∩R>0
Notiamo che la distribuzione Esponenziale è un caso particolare della Gamma con α = 1:
Gamma1,λ = Expλ .

La distribuzione Gamma gode della seguente proprietà di invarianza di scala:


Lemma 2.1.36. Se X ∼ Gammaα,λ e c > 0 allora cX ∼ Gammaα, λ . In particolare λX ∼ Gammaα,1 .
c

Dimostrazione. Utilizziamo la funzione di ripartizione per determinare la distribuzione di cX:


Z y α −λt
c λ e
P (cX ≤ y) = P (X ≤ y/c) = 1−α
dt =
0 Γ (α)t

(col cambio di variabile x = ct)


y λ
λα e − c x
Z
= dx = Gammaα, λ (] − ∞, y]).
0 c Γ (α)x1−α
α c

2.1.4 Altri esempi di variabili aleatorie notevoli


Esempio 2.1.37 (Distribuzione χ2 ). [!] Sia X ∼ N0,1 . Vogliamo determinare la distribuzione della v.a.
Z = X 2 tramite lo studio della sua CDF FZ . Poichè Z ≥ 0 si ha FZ (x) = 0 per x ≤ 0, mentre per x > 0 si ha
 √ √ 
FZ (x) = P (X 2 ≤ x) = P − x ≤ X ≤ x =
100 CAPITOLO 2. VARIABILI ALEATORIE

(per simmetria)

Z x y2 √
1  
=2 √ e− 2 dy = 2 FX ( x) − FX (0)
0 2π
dove FX è la CDF di X. Ne risulta che FZ è assolutamente continua e quindi per il Teorema 1.4.33 la densità
di Z è data da
d d √ √ 1 1 x
FZ (x) = 2 FX ( x) = FX0 ( x) √ = √ e− 2 , x > 0.
dx dx x 2πx
Riconosciamo allora che
Z ∼ Γ1,1 .
2 2

La distribuzione Γ 1 , 1 viene detta distribuzione chi-quadro ed a volte è indicata con χ2 : nella Sezione 6.2
2 2
esamineremo il suo utilizzo nell’inferenza statistica.
Proposizione 2.1.38. [!] Siano
X : Ω −→ I e f : I −→ J
una v.a. sullo spazio (Ω, F , P ) a valori nell’intervallo reale I e una funzione continua e monotona stret-
tamente crescente (quindi invertibile) a valori nell’intervallo reale J. Allora la CDF della v.a. Y := f (X)

FY = FX ◦ f −1 (2.1.15)
dove FX indica la CDF di X.
Dimostrazione. La (2.1.15) segue semplicemente da
 
P (Y ≤ y) = P (f (X) ≤ y) = P X ≤ f −1 (y) = FX (f −1 (y)), y ∈ J,

dove nella seconda uguaglianza abbiamo usato il fatto che f è monotona crescente.
Esercizio 2.1.39. Determinare la densità di Y := eX dove X ∼ Unif[0,1] .
Corollario 2.1.40. [!] Se X è una v.a. a valori in un intervallo I con CDF FX continua e monotona
strettamente crescente su I, allora
FX (X) ∼ Unif[0,1] . (2.1.16)
Dimostrazione. Sia Y := FX (X). Chiaramente si ha FY (y) = 0 se y ≤ 0 e FY (y) = 1 se y ≥ 1 poichè FX assume
valori in [0, 1] per definizione ed è continua. Inoltre per la Proposizione 2.1.38 si ha FY (y) = y se 0 < y < 1,
da cui la tesi.
Il corollario precedente si applica per esempio a X ∼ Nµ,σ 2 con I = R e a X ∼ Gammaα,λ con I = R>0 .
   
Esercizio 2.1.41. Sia X ∼ 21 δ0 + Unif[0,1] . Si provi che FX (X) ∼ 12 δ 1 + Unif[ 1 ,1] e quindi l’ipotesi di
2 2
continuità di FX nel Corollario 2.1.40 non può essere rimossa.
Esempio 2.1.42. La Proposizione 2.1.38 viene solitamente utilizzata per costruire o simulare una v.a. con
assegnata CDF a partire da una v.a. uniforme. Infatti, se Y ∼ Unif[0,1] e F è una CDF monotona strettamente
crescente, allora la v.a.
X := F −1 (Y )
ha CDF uguale a F.
Per esempio, supponiamo di voler costruire una v.a. esponenziale a partire da una v.a. uniforme:
ricordando che
F(x) = 1 − e−λx , x ∈ R,
2.1. VARIABILI ALEATORIE 101

è la CDF della distribuzione Expλ , si ha

1
F −1 (y) = − log(1 − y), y ∈ ]0, 1[.
λ
Allora, per la Proposizione 2.1.38, se Y ∼ Unif]0,1[ si ha

1
− log(1 − Y ) ∼ Expλ .
λ
Il Corollario 2.1.40, e in particolare la (2.1.16), fornisce un metodo per generare al computer numeri aleatori
con un’assegnata CDF o densità a partire da numeri aleatori con distribuzione Unif[0,1] .

Il seguente risultato estende la Proposizione 2.1.30.

Proposizione 2.1.43. Se X ∈ AC è una v.a. reale con densità γX e f ∈ C 1 con f 0 , 0 allora Y := f (X) ∈ AC e
ha densità
γ (f −1 )
γY = X . (2.1.17)
f 0 (f −1 )

Dimostrazione. Ricordiamo anzitutto che le ipotesi su f implicano che f è invertibile ed esiste9


 0 1
f −1 = 0 (f −1 )
. (2.1.18)
f

Inoltre per ogni H ∈ B si ha


  Z
−1
P (Y ∈ H) = P X ∈ f (H) = γX (x)dx =
f −1 (H)

(col cambio di variabili y = f (x))


Z    0
= γX f −1 (y) f −1 (y) dy =
H

(per la (2.1.18) e con γY definita come in (2.1.17))


Z
= γY (y)dy,
H

e questo prova che Y ∈ AC con densità γY in (2.1.17). Si noti che se f è monotona strettamente crescente
allora f 0 > 0 e il valore assoluto nella (2.1.17) è inutile. Tuttavia il risultato è valido anche per f monotona
strettamente decrescente e in tal caso il valore assoluto è necessario.

Esempio 2.1.44 (Distribuzione log-normale). Siano X ∼ N0,1 e f (x) = ex . Allora per la (2.1.17) la densità
della v.a. Y = eX è
1 (log y)2
γY (y) = √ e− 2 , y ∈ R>0 . (2.1.19)
y 2π
La funzione γY in (2.1.19) è detta densità della distribuzione log-normale: si noti che se Y ha distribuzione
log-normale allora log Y ha distribuzione normale.
9 Si veda per esempio il Teorema 1.8 a pag.119 in [21].
102 CAPITOLO 2. VARIABILI ALEATORIE

Esempio 2.1.45 (Distribuzione normale bidimensionale). Siano X e Y v.a. che rappresentano la varia-
zione della temperatura a Bologna dall’inizio alla fine, rispettivamente, dei mesi di settembre e ottobre.
Assumiamo che (X, Y ) abbia densità normale bidimensionale
1 1 −1
γ(x, y) = √ e− 2 hC (x,y),(x,y)i , (x, y) ∈ R2
2π det C
dove !
2 1
C= .
1 3
Determiniamo:
i) P (Y < −1);
ii) P (Y < −1 | X < 0).
3x2 −2xy+2y 2
Si ha γ(x, y) = √1 e− 10 e
2 5π
Z Z −1
P (Y < −1) = γ(x, y)dydx ≈ 28%,
R −∞
P ((Y < −1) ∩ (X < 0))
P (Y < −1 | X < 0) = ≈ 39%,
P (X < 0)
essendo
Z 0 Z −1
P ((Y < −1) ∩ (X < 0)) = γ(x, y)dydx ≈ 19, 7%,
−∞ −∞
Z0 Z
1
P (X < 0) = γ(x, y)dydx = .
−∞ R 2

2.1.5 Sintesi

2.2 Valore atteso


In questo paragrafo introduciamo il concetto di valore atteso o media di una variabile aleatoria. Se X è
una v.a. con distribuzione discreta finita
XN
X∼ pn δ x n ,
n=1
ossia P (X = xn ) = pn per n = 1, . . . , N , allora il valore atteso di X è semplicemente definito da
N
X
E [X] := xn p n . (2.2.1)
n=1

In altri termini, E [X] è una media dei valori di X pesata secondo la probabilità che tali valori siano assunti.
Se N = ∞ allora la somma in (2.2.1) diventa una serie ed occorre porre delle condizioni di convergenza.
Infine, nel caso in cui X assuma un’infinità più che numerabile di valori allora non è più possibile definire
E [X] come serie bensı̀ come integrale: nel caso generale, il valore atteso E [X] sarà definito come integrale
di X rispetto alla misura di probabilità P e indicato equivalentemente con
Z Z Z
XdP oppure X(ω)P (dω) oppure P (dω)X(ω).
Ω Ω Ω
2.2. VALORE ATTESO 103

Figura 2.5: Interpretazione dell’integrale astratto come somma di Riemann

Per dare la definizione precisa di valore atteso richiamiamo alcuni elementi della cosiddetta teoria del-
l’integrazione astratta su un generico spazio misurabile (Ω, F , P ), ricordando che una v.a. altro non è che
una funzione misurabile: assumiamo per semplicità che P (Ω) < ∞, includendo cosı̀ ovviamente il caso de-
gli spazi di probabilità. Le dimostrazioni seguenti si adattano facilmente al caso di spazi σ -finiti (fra cui
Rd con la misura di Lebesgue).
Ci occuperemo di dare:

• la definizione teorica di integrale astratto nelle Sezioni 2.2.1, 2.2.2 e 2.2.3;

• una caratterizzazione operativa dell’integrale astratto e un metodo di calcolo esplicito nelle Sezioni
2.2.4 e 2.2.5.

2.2.1 Integrale di funzioni semplici


Per introdurre l’integrale astratto procediamo per gradi, partendo dal caso di funzioni (o variabili alea-
torie, nel caso di uno spazio di probabilità) “semplici” a valori reali fino al caso generale. Diciamo che una
funzione X su uno spazio misurabile (Ω, F , P ) è semplice se assume solo un numero finito di valori distinti
x1 , . . . , xm ∈ R: in tal caso possiamo scrivere
m
X
X= xk 1(X=xk ) ,
k=1
dove (X = x1 ), . . . , (X = xm ) ∈ F sono disgiunti. In questo caso definiamo l’integrale astratto di X nel modo
seguente
Z Xm
XdP := xk P (X = xk ). (2.2.2)
Ω k=1

Tale definizione corrisponde ad una somma di Riemann in cui ogni addendo xk P (X = xk ) rappresenta l’area
di un rettangolo calcolata come “base”דaltezza” dove la misura della base è P (X = xk ) e l’altezza xk è il
valore di X su (X = xk ): si veda la Figura 2.5. Allora per definizione si ha
Z
1A dP = P (A) (2.2.3)

104 CAPITOLO 2. VARIABILI ALEATORIE

per ogni A ∈ F . Per ogni X semplice e A ∈ F , useremo anche la notazione


Z Z
XdP := X1A dP .
A Ω

È chiaro che valgono le proprietà di


i) linearità: per ogni X, Y semplici e α, β ∈ R si ha
Z Z Z
(αX + βY ) dP = α XdP + β Y dP ; (2.2.4)
Ω Ω Ω

ii) monotonia: per ogni X, Y semplici tali che X ≤ Y P -quasi ovunque10 si ha


Z Z
XdP ≤ ydP . (2.2.5)
Ω Ω

Osserviamo che dalla proprietà ii) segue che se X = Y P -quasi ovunque allora
Z Z
XdP = Y dP .
Ω Ω

Prima di dare la definizione generale di integrale, proviamo alcuni risultati preliminari.


Lemma 2.2.1 (Beppo-Levi). Sia (Xn )n∈N una successione di funzioni semplici tali che 0 ≤ Xn % X P -quasi
ovunque. Se X è semplice allora Z Z
lim Xn dP = XdP . (2.2.6)
n→∞ Ω Ω
Dimostrazione. Per ipotesi esiste A ∈ F con µ(Ω \ A) = 0, tale che 0 ≤ Xn (ω) % X(ω) per ogni ω ∈ A. Fissato
ε > 0 e posto
An,ε := (X − Xn ≥ ε) ∩ A, n ∈ N,
per ipotesi si ha che An,ε è una successione decrescente con intersezione vuota. Allora per la continuità
dall’alto di P si ha lim P (An,ε ) = 0 e di conseguenza
n→∞
Z Z Z Z
0≤ (X − Xn )dP = (X − Xn )dP = (X − Xn )dP + (X − Xn )dP ≤ εP (Ω) + P (An,ε ) max X
A Ω Ω\An,ε An,ε Ω

da cui segue la (2.2.6). Notiamo esplicitamente che max X < ∞ poichè X è semplice per ipotesi.

Lemma 2.2.2. Siano (Xn )n∈N e (Yn )n∈N successioni di funzioni semplici tale che 0 ≤ Xn % X e 0 ≤ Yn % Y
P -quasi ovunque. Se X ≤ Y P -quasi ovunque allora
Z Z
lim Xn dP ≤ lim Yn dP .
n→∞ Ω n→∞ Ω

Dimostrazione. Fissato k ∈ N, la successione di funzioni semplici (Xk ∧ Yn )n∈N è tale che 0 ≤ Xk ∧ Yn % Xk


P -quasi ovunque per n che tende all’infinito. Pertanto abbiamo
Z Z Z
Xk dP = lim Xk ∧ Yn dP ≤ lim Yn dP
Ω n→∞ Ω n→∞ Ω

dove la prima uguaglianza segue dalla (2.2.6), mentre la disuguaglianza è dovuta al fatto che Xk ∧ Yn ≤ Yn .
Questo conclude la prova.
10 Nel senso che P (X > Y ) = 0.
2.2. VALORE ATTESO 105

2.2.2 Integrale di funzioni non-negative


Per estendere la definizione di integrale alle funzioni in mF + utilizziamo il seguente

Lemma 2.2.3. Per ogni X ∈ mF + esiste una successione monotona crescente (Xn )n∈N in mF + di funzioni
semplici, tale che Xn % X ossia vale

lim Xn (ω) = X(ω), ω ∈ Ω.


n→∞

Dimostrazione. Consideriamo la seguente successione di funzioni “a scala” su [0, +∞[ : per ogni n ∈ N
consideriamo la partizione di [0, +∞[ costituita dai punti

0 1 2 n2n
, , , . . . ,
2n 2n 2n 2n
e poniamo



 0 se x = 0,
 k−1
ϕn (x) =  se k−1
2n < x ≤
k
per 1 ≤ k ≤ n2n , (2.2.7)


 2n 2n
n se x > n.

Notiamo che ϕn ≤ ϕn+1 per ogni n ∈ N (per esercizio!) e inoltre, per ogni x > 0 fissato, si ha

1
x− ≤ ϕn (x) ≤ x
2n
per cui
lim ϕn (x) = x, ∀x ≥ 0.
n→∞

Allora la successione definita da Xn = ϕn (X) verifica la tesi. Notiamo anche che, essendo ϕn continua a
sinistra per costruzione, allora si ha che Yn % X implica ϕn (Yn ) % X per n → ∞.

Grazie al Lemma 2.2.2, la seguente definizione è ben posta, ossia indipendente dalla successione ap-
prossimante (Xn )n∈N .

Definizione 2.2.4 (Integrale astratto di funzioni non-negative). Per ogni X ∈ mF + definiamo


Z Z
XdP := lim Xn dP ≤ +∞ (2.2.8)
Ω n→∞ Ω

dove (Xn )n∈N è una successione in mF + di funzioni semplici, tale che Xn % X P -quasi ovunque. Se il limite
in (2.2.8) è finito diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ).

Osservazione 2.2.5. In base alla Definizione 2.2.4, le proprietà di linearità (2.2.4) e monotonia (2.2.5) si
estendono facilmente all’integrale di X ∈ mF + .

La definizione di integrale astratto è del tutto analoga a quella dell’integrale di Lebesgue. Anche in que-
sto caso il risultato centrale su cui si basa tutto lo sviluppo della teoria dell’integrazione è il fondamentale
risultato sulla convergenza monotona.

Teorema 2.2.6. [Teorema di Beppo-Levi] [!!!]


Se (Xn )n∈N è una successione in mF tale che 0 ≤ Xn % X P -quasi ovunque, allora si ha
Z Z
lim Xn dP = XdP .
n→∞ Ω Ω
106 CAPITOLO 2. VARIABILI ALEATORIE


Dimostrazione. Fissato n ∈ N, costruiamo come nel Lemma 2.2.3 una successione Xn,k k∈N di funzioni
semplici in mF + , tale che Xn,k % Xn e Xn − Xn,n ≤ n1 P -quasi ovunque. Inoltre poniamo

Yn = max{X1,n , . . . , Xn,n }, n ∈ N.

Notiamo che (Yn )n∈N è una successione di funzioni semplici in mF tale che 0 ≤ Yn % X P -quasi ovunque e
quindi per definizione Z Z
lim Yn dµ = Xdµ.
n→∞ Ω Ω
D’altra parte Yn ≤ Xn ≤ X P -quasi ovunque per cui, per monotonia,
Z Z Z
Yn dP ≤ Xn dP ≤ XdP ,
Ω Ω Ω

e da questo segue la tesi.


Lemma 2.2.7. [Lemma di Fatou][!]
Sia (Xn )n∈N una successione di funzioni in mF + . Si ha
Z Z
lim inf Xn dP ≤ lim inf Xn dP .
Ω n→∞ n→∞ Ω

Dimostrazione. Ricordiamo che, per definizione,

lim inf Xn := sup Yn , Yn := inf Xk ,


n→∞ n∈N k≥n

e quindi Yn % X := lim inf Xn . Allora si ha


n→∞
Z Z
lim inf Xn dP = lim Yn dP =
Ω n→∞ Ω n→∞

(per il Teorema di Beppo-Levi)


Z
= lim Yn dP ≤
n→∞ Ω

(per monotonia)
Z Z
≤ lim inf Xk dP = lim inf Xn dP ,
n→∞ k≥n Ω n→∞ Ω

da cui la tesi.

2.2.3 Integrale di funzioni a valori in Rd


Definizione 2.2.8 (Integrale astratto). Se RX ∈ mF è Ra valori reali consideriamo la parte positiva X + e la
parte negativa X − di X: se almeno uno fra Ω X + dP e Ω X − dP è finito, allora diciamo che X è integrabile e
poniamo Z Z Z
XdP := X + dP − X − dP ∈ [−∞, +∞].
Ω Ω Ω
R R
Se entrambi Ω X + dP
e Ω
X − dP sono finiti, allora diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ). In
questo caso si noti che Z Z Z
+
|X|dP = X dP + X − dP ∈ R.
Ω Ω Ω
2.2. VALORE ATTESO 107

Infine, se X = (X1 , . . . , Xd ) è a valori in Rd , allora diciamo che X è integrabile se ogni componente Xi è


integrabile e in tal caso poniamo
Z Z Z !
XdP = X1 dP , . . . , Xd dP ∈ [−∞, +∞]d .
Ω Ω Ω

Notiamo che vale la disuguaglianza triangolare: per ogni X ∈ L1 (Ω, P ) a valori reali si ha
Z Z Z Z Z Z
XdP = X + dP − −
X dP ≤
+
X dP + −
X dP = |X|dP .

Ω Ω Ω Ω Ω Ω

Notazione 2.2.9. Nel caso in cui vogliamo mettere in evidenza la variabile d’integrazione, useremo anche
la seguente notazione per l’integrale astratto
Z Z
X(ω)P (dω) ≡ XdP .
Ω Ω

Inoltre per l’integrale rispetto alla misura di Lebesgue scriveremo semplicemente


Z Z
f (x)dx invece di f dLeb.
Rd Rd

Proposizione 2.2.10. Valgono le seguenti proprietà:


i) Linearità: per ogni X, Y ∈ L1 (Ω, P ) e α, β ∈ R si ha
Z Z Z
(αX + βY ) dP = α XdP + β Y dP .
Ω Ω Ω

ii) Monotonia: per ogni X, Y ∈ L1 (Ω, P ) tali che X ≤ Y P -quasi ovunque si ha


Z Z
XdP ≤ Y dP .
Ω Ω
R R
In particolare, se X = Y P -quasi ovunque allora Ω XdP = Ω Y dP .
An dove (An )n∈N è una successione disgiunta in F . Se X ∈ mF + oppure
U
iii) σ -additività: sia A =
n∈N
X ∈ L1 (Ω, P ) allora si ha Z XZ
XdP = XdP .
A n∈N An

Dimostrazione. La dimostrazione delle tre proprietà è simile e quindi proviamo in maniera dettagliata solo
la i). Considerando separatamente la parte positiva e negativa delle funzioni, è sufficiente considerare il
caso di funzioni X, Y ∈ mF + e α, β ∈ R≥0 . Consideriamo le successioni approssimanti (Xn ) e (Yn ) costruite
come nel Lemma 2.2.3: sfruttando la linearità del valore atteso nel caso di funzioni semplici, otteniamo per
il Teorema di Beppo-Levi
Z Z Z Z ! Z Z
(αX + βY )dP = lim (αXn + βYn )dP = lim α Xn dP + β Yn dP = α XdP + β Y dP .
Ω n→∞ Ω n→∞ Ω Ω Ω Ω

Concludiamo la sezione col classico


108 CAPITOLO 2. VARIABILI ALEATORIE

Teorema 2.2.11. [Teorema della convergenza dominata][!]


Sia (Xn )n∈N una successione di funzioni misurabili su (Ω, F , P ), tale che Xn → X puntualmente P -quasi
ovunque e |Xn | ≤ Y ∈ L1 (Ω, P ) per ogni n. Allora si ha
Z Z
lim Xn dP = XdP .
n→∞ Ω Ω

Dimostrazione. Passando al limite in |Xn | ≤ Y si ha anche |X| ≤ Y . Allora si ha


Z Z
0 ≤ lim sup Xn dP − XdP ≤
n→∞ Ω Ω

(per la disuguaglianza triangolare)


Z
≤ lim sup |Xn − X| dP =
n→∞ Ω
Z Z
= 2Y dP − lim inf (2Y − |Xn − X|) dP ≤
Ω n→∞ Ω

(per il Lemma di Fatou)


Z Z
≤ 2Y dP − lim inf (2Y − |Xn − X|) dP =
n→∞
ZΩ ZΩ
= 2Y dP − 2Y dP = 0.
Ω Ω

Vedremo in seguito una generalizzazione del teorema della convergenza dominata, il Teorema A.3.0.2
di Vitali. Il seguente corollario del Teorema 2.2.11 si prova facilmente per assurdo.

Corollario
R 2.2.12 (Assoluta continuità dell’integrale). Sia X ∈ L1 (Ω, P ). Per ogni ε > 0 esiste δ > 0 tale che
A
|X|dP < ε per ogni A ∈ F tale che P (A) < δ.

Diamo ora un utile risultato che useremo spesso nel seguito.


R
Proposizione 2.2.13. [!] Data X ∈ mF , poniamo A = (X > 0). Se A
XdP = 0 allora X ≤ 0 P -quasi ovunque.
 
Dimostrazione. Consideriamo la successione crescente definita da An = X ≥ n1 per n ∈ N. Per la proprietà
di monotonia dell’integrale, si ha
Z Z Z
1 P (An )
0= XdP ≥ X1An dP ≥ 1An dP = ,
A A n A n

e quindi P (An ) = 0 per ogni n ∈ N. Per la continuità dal basso di P (cfr. Proposizione 1.1.29-ii)) ed essendo
[
(X > 0) = An ,
n∈N

segue che P (X > 0) = 0.


R
Corollario 2.2.14. Se X ∈ mF + è tale che Ω
XdP = 0 allora X = 0 P -quasi ovunque.
2.2. VALORE ATTESO 109

2.2.4 Integrazione con distribuzioni


In questa sezione esaminiamo l’integrale astratto rispetto ad una distribuzione, con particolare atten-
zione al caso delle distribuzioni discrete e assolutamente continue (o combinazioni di esse). Cominciamo
con un semplice

Esempio 2.2.15. [!] Consideriamo la distribuzione Delta di Dirac δx0 su (Rd , Bd ). Per ogni funzione f ∈
mBd vale Z
f (x)δx0 (dx) = f (x0 ).
Rd
Infatti f è uguale δx0 -quasi ovunque alla funzione semplice

f (x0 ) se x = x0 ,

fˆ(x) = 

0
 altrimenti.
R R
Ora, per la Proposizione 2.2.10-ii), se f = g µ-q.o. allora Ω
f dµ = Ω
gdµ: quindi si ha
Z Z
f (x)δx0 (dx) = fˆ(x)δx0 (dx) =
Rd Rd

(per definizione di integrale di funzione semplice)

= fˆ(x0 )δx0 ({x0 }) = f (x0 ).

Proposizione 2.2.16. Sia



X
µ= pn δxn
n=1

una distribuzione discreta su (Rd , Bd ) (cfr. Definizione 1.4.15). Se f ∈ mF + oppure f ∈ L1 (Rd , µ) allora si
ha Z ∞
X
f dµ = f (xn )pn .
Rd n=1

Dimostrazione. Segue direttamente applicando la Proposizione 2.2.10-iii) con An = {xn }.

Esempio 2.2.17. Per la distribuzione di Bernoulli, Bep = pδ1 + (1 − p)δ0 con 0 ≤ p ≤ 1, (cf. Esempio 1.4.17-i))
si ha semplicemente Z
f (x)Bep (dx) = pf (1) + (1 − p)f (0).
R
Per la distribuzione Poissonλ , con λ > 0, si ha

λk
Z X
f (x)Poissonλ (dx) = e−λ f (k),
R k!
k=0

ammesso che f sia non-negativa oppure sommabile (ossia che la somma converga assolutamente).

Esercizio 2.2.18. Provare che se α, β > 0, µ1 , µ2 sono distribuzioni su Rd e f ∈ L1 (Rd , µ1 ) ∩ L1 (Rd , µ2 ) allora
f ∈ L1 (Rd , αµ1 + βµ2 ) e vale
Z Z Z
f d(αµ1 + βµ2 ) = α f dµ1 + β f dµ2 .
Rd Rd Rd
110 CAPITOLO 2. VARIABILI ALEATORIE

Vediamo ora che nel caso di una distribuzione assolutamente continua, il calcolo dell’integrale astratto si
riconduce al calcolo di un integrale di Lebesgue pesato con la densità della distribuzione.
Proposizione 2.2.19. [!]
Sia µ una distribuzione assolutamente continua su Rd con densità γ. Allora f ∈ L1 (Rd , µ) se e solo se11
f γ ∈ L1 (Rd ) e in tal caso si ha Z Z
f (x)µ(dx) = f (x)γ(x)dx.
Rd Rd

Dimostrazione. Consideriamo prima il caso in cui f è semplice su R, ossia f (R) = {α1 , . . . , αm } cosicchè
m
X
f = αk 1Hk , Hk := {x ∈ R | f (x) = αk }, k = 1, . . . , m,
k=1

allora per linearità


Z m
X Z
f dµ = αk 1Hk dµ =
R k=1 R

(per la (2.2.3))
m
X
= αk µ(Hk ) =
k=1

(essendo µ ∈ AC con densità γ)


m
X Z m
X Z
= αk γ(x)dx = αk 1Hk (x)γ(x)dx =
k=1 Hk k=1 R

(per la linearità dell’integrale di Lebesgue)


Z
= f (x)γ(x)dx,
R
da cui la tesi.
Ora assumiamo f ≥ 0 e consideriamo fn := ϕn (f ) con ϕn come in (2.2.7). Per il Teorema di Beppo-Levi
abbiamo
Z Z
f dµ = lim fn dµ =
R n→∞ R

(per quanto appena provato, essendo fn semplice per ogni n ∈ N)


Z
= lim fn (x)γ(x)dx =
n→∞ R

(riapplicando il Teorema di Beppo-Levi all’integrale di Lebesgue e utilizzando il fatto che γ ≥ 0 per ipotesi
e di conseguenza (fn γ) è una successione monotona crescente di funzioni non-negative)
Z
= f (x)γ(x)dx.
R

Infine se f è una generica funzione in L1 (R, µ),


allora è sufficiente considerarne la parte positiva e negativa
alle quali si applica il risultato precedente. Allora la tesi segue dalla linearità dell’integrale e ragionando
componente per componente si conclude la prova della tesi anche nel caso d-dimensionale.
11 L1 (Rd ) indica l’usuale spazio delle funzioni sommabili su Rd rispetto alla misura di Lebesgue, ossia L1 (Rd ) = L1 (Rd , Leb).
2.2. VALORE ATTESO 111

Esempio 2.2.20. [!] Consideriamo la distribuzione normale standard N0,1 e le funzioni f (x) = x e g(x) = x2 .
Allora f , g ∈ L1 (R, N0,1 ) e vale (provarlo per esercizio)
Z Z
1 x2
f (x)N0,1 (dx) = √ xe− 2 dx = 0,
2π R
ZR Z
1 x2
g(x)N0,1 (dx) = √ x2 e− 2 dx = 1.
R 2π R
Osservazione 2.2.21. [!]
La prova della Proposizione 2.2.19 è esemplare di una procedura di dimostrazione spesso utilizzata nel-
l’ambito della teoria dell’integrazione e della probabilità. Tale procedura, a volte chiamata procedura
standard, consiste nel verificare la validità della tesi in 4 passi:
1) il caso di funzioni o v.a. indicatrici: di solito è una verifica diretta basata sulla definizione di integrale
o valore atteso;
2) il caso di funzioni o v.a. semplici: si sfrutta la linearità dell’integrale o del valore atteso;
3) il caso di funzioni o v.a. non-negative: si usa un argomento di approssimazione basato sul Lemma
2.2.3 e sul Teorema di Beppo-Levi;
4) il caso di funzioni o v.a. sommabili: ci si riconduce al caso precedente per linearità, considerando
parte positiva e negativa.
Una formulazione più generale di questa procedura è data dal secondo Teorema di Dynkin (cfr. Teorema
A.1.8).
Concludiamo la sezione con un utile risultato che proveremo più avanti (cfr. Corollario 2.4.7).
Corollario 2.2.22. [!] Se µ, ν sono distribuzioni tali che
Z Z
f dµ = f dν
R R

per ogni f ∈ bC(R) allora µ ≡ ν.

2.2.5 Valore atteso e teorema fondamentale del calcolo


In teoria della probabilità, il valore atteso di una variabile aleatoria altro non è che il suo integrale
rispetto alla misura di probabilità. Diamo la definizione precisa.
Definizione 2.2.23. In uno spazio di probabilità (Ω, F , P ), il valore atteso di una v.a. integrabile è definito
da Z Z
E [X] := XdP = X(ω)P (dω).
Ω Ω

Esempio 2.2.24. A partire dalla definizione (2.2.2) di integrale astratto, è facile calcolare il valore atteso in
due casi particolari: le variabili aleatorie costanti e indicatrici. Si ha infatti

E [c] = c, c ∈ Rd ,
E [1A ] = P (A), A ∈ F. (2.2.9)

Inoltre se X è una v.a. semplice della forma


m
X
X= xk 1(X=xk )
k=1
112 CAPITOLO 2. VARIABILI ALEATORIE

vale
m
X
E [X] = xk P (X = xk ).
k=1

Dunque in questo caso E [X] rappresenta una media dei valori di X pesata con le probabilità che questi valori
vengano assunti.

In generale, il calcolo di un valore atteso definito come integrale astratto (sullo spazio Ω) non è partico-
larmente agevole: il seguente risultato mostra che è possibile esprimere il valore atteso di una v.a. X come
integrale (sullo spazio Euclideo Rd ) rispetto alla distribuzione µX della v.a. stessa.

Teorema 2.2.25 (Teorema del calcolo della media). [!]


Siano
X : Ω −→ Rd e f : Rd −→ RN
rispettivamente una v.a. su (Ω, F , P ) con legge µX e una funzione Bd -misurabile, f ∈ mBd . Allora f ◦ X ∈
L1 (Ω, P ) se e solo se f ∈ L1 (Rd , µX ) e in tal caso vale
Z
E [f (X)] = f dµX . (2.2.10)
Rd


P
In particolare, se µX = pk δxk è una distribuzione discreta allora
k=1


X
E [f (X)] = f (xk )pk , (2.2.11)
k=1

mentre se µX è assolutamente continua con densità γX allora si ha


Z
E [f (X)] = f (x)γX (x)dx. (2.2.12)
Rd

Dimostrazione. Proviamo la (2.2.10) nel caso f = 1H con H ∈ Bd : si ha


Z
E [f (X)] = E [1H (X)] = P (X ∈ H) = µX (H) = 1H dµX .
Rd

Il caso generale segue applicando la procedura standard dell’Osservazione 2.2.21. Infine, in base alla
(2.2.10), la (2.2.11) segue dalla Proposizione 2.2.16 e la (2.2.12) segue dalla Proposizione 2.2.19.

Osservazione 2.2.26. Applicando il Teorema 2.2.25 nel caso particolare della funzione identità f (x) = x, si
ha che Z
E [X] = xµX (dx).
Rd

Definizione 2.2.27 (Varianza). Sia X ∈ L2 (Ω, P ) una v.a. reale. Si definisce varianza di X il numero reale
non-negativo h i h i
var(X) := E (X − E [X])2 = E X 2 − E [X]2 .
p
La radice della varianza var(X) è chiamata deviazione standard.

La deviazione standard è una media della distanza di X dal proprio valore atteso. Per esempio, vedremo
nell’Esempio 2.2.30 che nel caso di una v.a. normale X ∈ Nµ,σ 2 , la deviazione standard è uguale a σ : in
effetti avevamo usato σ per definire gli intervalli di confidenza di X come in Figura 2.3.
2.2. VALORE ATTESO 113

Per linearità, per ogni a, b ∈ R si ha

var(aX + b) = a2 var(X).

Inoltre, per la Proposizione 2.2.13, si ha


q.c.
var(X) = 0 se e solo se X = E [X] .

Calcoliamo ora media e varianza di alcune v.a. discrete.

Esempio 2.2.28. [!]

i) se X ∼ δx0 con x0 ∈ Rd allora per le (2.2.10)-(2.2.11) si ha


Z
E [X] = yδx0 (dy) = x0 ,
Rd
Z
var(X) = (y − x0 )2 δx0 (dy) = 0.
Rd

1
ii) Se X ∼ Unifn allora ha funzione di distribuzione γ(k) = n per k ∈ In e vale

n n
X 1X 1 n(n + 1) n + 1
E [X] = kγ(k) = k= · = ,
n n 2 2
k=1 k=1
n 2 n
n+1 1X 2 n+1 2
h i X   
var(X) = E X 2 − E [X]2 = k 2 γ(k) − = k −
2 n 2
k=1 k=1
2
1 n(n + 1)(2n + 1) n+1 n2 − 1

= · − = .
n 6 2 12

iii) Se X ∼ Bep allora ha funzione di distribuzione γ definita da γ(1) = p, γ(0) = 1 − p e vale

n
X
E [X] = kγ(k) = 0 · (1 − p) + p = p,
k∈{0,1}
h i X
var(X) = E X 2 − E [X]2 = k 2 γ(k) − p2 = p(1 − p).
k∈{0,1}

iv) Se X ∼ Binn,p , con un conto diretto (si veda anche la Proposizione 2.5.3) si prova che

E [X] = np, var(X) = np(1 − p). (2.2.13)

k
v) Se X ∼ Poissonλ allora ha funzione di distribuzione γ definita da γ(k) = e−λ λk! per k ∈ N0 e vale

∞ ∞ ∞
X X λk X λk−1
E [X] = kγ(k) = ke−λ = λe−λ = λ.
k! (k − 1)!
k=0 k=1 k=1

Provare per esercizio che var(X) = λ.


114 CAPITOLO 2. VARIABILI ALEATORIE

vi) Se X ∼ Geomp allora ha funzione di distribuzione γ definita da γ(k) = p(1 − p)k−1 per k ∈ N e quindi
vale
∞ ∞ ∞ !
X X
k−1
X d k
E [X] = kγ(k) = p k(1 − p) =p − (1 − p)
dp
k=1 k=1 k=1
∞ !
d X d 1 1
= −p (1 − p)k = −p = ,
dp dp 1 − (1 − p) p
k=1

dove abbiamo usato un teorema di scambio di derivata con serie12 . In maniera analoga si prova
1−p
(esercizio!) che var(X) = p2 .

Esempio 2.2.29. Consideriamo un gioco d’azzardo in cui si lancia una moneta (non truccata): se viene testa
si vince un euro e se viene croce si perde un euro. Se X è la variabile aleatoria che rappresenta il risultato
della giocata, si ha
1 1
E [X] = 1 · + (−1) · = 0
2 2
e quindi si dice che il gioco è equo. Il gioco è equo anche se la vincita e la perdita fossero pari a 1000
euro, ma intuitivamente saremmo meno propensi a giocare perchè percepiamo una rischiosità maggiore
(di perdere molti soldi). Matematicamente, questo si spiega col fatto che
h i 1 1
var(X) = E X 2 = 12 · + (−1)2 · = 1
2 2
mentre se Y rappresenta la v.a. nel caso in cui la posta in gioco è 1000 euro, si ha
h i 1 1
var(Y ) = E Y 2 = 10002 · + (−1000)2 · = 10002 .
2 2
In pratica, se due scommesse hanno lo stesso valore atteso, è preferibile scegliere quella con varianza minore
per limitare l’entità delle potenziali perdite.
Consideriamo ora alcuni esempi di v.a. assolutamente continue.
Esempio 2.2.30. [!]
i) se X ∼ Unif[a,b] si ha
Z Z b
1 a+b
E [X] = yUnif[a,b] (dy) = ydy =
,
R b−a a 2
!2 Zb !2
(b − a)2
Z
a+b 1 a+b
var(X) = y− Unif[a,b] (dy) = y− dy = .
R 2 b−a a 2 12
Confrontare questo risultato con l’analogo discreto visto nell’Esempio 2.2.28-i).
ii) se X ∼ Nµ,σ 2 con σ > 0 allora
(y−µ)2
Z Z
1 −
E [X] = yNµ,σ 2 (dy) = √ ye 2σ 2 dy =
R 2πσ 2 R
y−µ
(col cambio di variabili z = √ )
σ 2

1
Z  √  −z2 µ
Z
2
=√ µ + zσ 2 e dz = √ e−z dz = µ.
π R π R
12 Si veda per esempio il Teorema 3.8 in [21].
2.2. VALORE ATTESO 115

In modo analogo si vede che Z


var(X) = (y − µ)2 Nµ,σ 2 (dy) = σ 2 .
R

iii) se X ∼ Gammaα,1 si ha
Z ∞ Z∞
1 Γ (α + 1)
E [X] = tγα,1 (t)dt = t α e−λt dt = = α,
0 Γ (α) 0 Γ (α)
Z ∞ Z ∞
h i 1 Γ (α + 2)
E X2 = t 2 γα,1 (t)dt = t 1+α e−λt dt = = α(α + 1)
0 Γ (α) 0 Γ (α)

da cui h i
var(X) = E X 2 − E [X]2 = α.

In generale, per il Lemma 2.1.36, se X ∼ Gammaα,λ si ha


α α
E [X] = , var(X) = .
λ λ2
In particolare, se X ∼ Expλ = Gamma1,λ allora
Z Z +∞
1
E [X] = yExpλ (dy) = λ ye−λy dy = ,
R 0 λ
Z +∞ 
1 2 1 2 −λy
Z 
1
 
var(X) = y− Expλ (dy) = λ y− e dy = 2 .
R λ 0 λ λ

2.2.6 Disuguaglianza di Jensen


Proviamo un’importante estensione alle funzioni convesse della disuguaglianza triangolare per il valore
atteso. Esempi tipici di funzioni convesse che utilizzeremo in seguito sono

i) f (x) = |x|p con p ∈ [1, +∞[,

ii) f (x) = eλx con λ ∈ R,

iii) f (x) = − log x per x ∈ R>0 .

Teorema 2.2.31 (Disuguaglianza di Jensen). [!!]


Siano −∞ ≤ a < b ≤ +∞ e
X : Ω −→ ]a, b[ e f : ]a, b[−→ R
rispettivamente una v.a. sullo spazio (Ω, F , P ) e una funzione convessa. Se X, f (X) ∈ L1 (Ω, P ) allora si ha

f (E [X]) ≤ E [f (X)] .

Dimostrazione. Ricordiamo che se f è convessa allora per ogni z ∈ ]a, b[ esiste m ∈ R tale che

f (w) ≥ f (z) + m(w − z), ∀w ∈ ]a, b[. (2.2.14)

Proviamo dopo la (2.2.14) e concludiamo prima la prova della disuguaglianza di Jensen. Posto z = E [X] (si
noti che E [X] ∈ ]a, b[ poichè X(Ω) ⊆ ]a, b[ per ipotesi) si ha

f (X(ω)) ≥ f (E [X]) + m(X(ω) − E [X]), ω ∈ Ω,


116 CAPITOLO 2. VARIABILI ALEATORIE

da cui, prendendo il valore atteso e usando la proprietà di monotonia,

E [f (X)] ≥ E [f (E [X]) + m(X − E [X])] =

(per linearità e per il fatto che E [c] = c per ogni costante c)

= f (E [X]) + mE [X − E [X]] = f (E [X]).

Proviamo ora la (2.2.14). Ricordiamo che f è convessa se vale

f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y), ∀x, y ∈ ]a, b[, λ ∈ [0, 1],

o equivalentemente, posto z = (1 − λ)x + λy,

(y − x)f (z) ≤ (y − z)f (x) + (z − x)f (y), x < z < y. (2.2.15)

Introduciamo la notazione
f (y) − f (x)
∆y,x = , a < x < y < b.
y −x
Non è difficile verificare13 che la (2.2.15) è equivalente a

∆z,x ≤ ∆y,x ≤ ∆y,z , x < z < y. (2.2.16)

La (2.2.16) implica14 che f è una funzione continua su ]a, b[ ed anche che le funzioni

z 7→ ∆z,x , per z > x, e z 7→ ∆y,z , per z < y,

sono monotone crescenti. Di conseguenza esistono i limiti15

D − f (z) := lim− ∆z,x ≤ lim+ ∆y,z =: D + f (z), z ∈ ]a, b[. (2.2.17)


x→z y→z

Ora se m ∈ [D − f (z), D + f (z)] si ha


∆z,x ≤ m ≤ ∆y,z , x < z < y,
che implica la (2.2.14).
Osservazione 2.2.32. La dimostrazione della disuguaglianza di Jensen è basata, oltre alle proprietà delle
funzioni convesse, soltanto sulle proprietà di monotonia, linearità e E [1] = 1 della media. In particolare
il fatto che E [1] = 1 è fondamentale: a differenza della disuguaglianza triangolare, la disuguaglianza di
Jensen non vale per un integrale o una somma generica.
13 Proviamo per esempio la prima disuguaglianza:

f (z) − f (x) f (y) − f (x)


∆z,x ≤ ∆y,x ⇐⇒ ≤ ⇐⇒ (f (z) − f (x))(y − x) ≤ (f (y) − f (x))(z − x)
z−x y −x
che equivale alla (2.2.15).
14 Infatti da (2.2.16), in particolare da ∆
z,x ≤ ∆y,x , segue

f (y) − f (x)
f (z) ≤ f (x) + (z − x) −→ f (y) per z → y − .
y −x
Inoltre, fissato y0 ∈ ]y, b[, ancora dalla (2.2.16), in particolare da ∆y,z ≤ ∆y0 ,y , segue
f (z) ≥ f (y) − (y − z)∆y0 ,y −→ f (y) per z → y − .
Combinando le due disuguaglianze, si prova la continuità a sinistra di f . Per la continuità a destra si procede in modo analogo.
15 Per fissare le idee, si pensi a f (x) = |x| per cui si ha −1 = D − f (0) < D + f (0) = 1. Utilizzando la (2.2.17) si prova che l’insieme dei
punti z in cui D − f (z) < D + f (z), ossia in cui f non è derivabile, è al più numerabile.
2.2. VALORE ATTESO 117

2.2.7 Spazi Lp e disuguaglianze notevoli


Definizione 2.2.33. Sia (Ω, F , P ) uno spazio di probabilità e p ∈ [1, +∞[. La p-norma di una v.a. X è definita
da
1
kXkp := (E [|X|p ]) p .
Indichiamo con
Lp (Ω, P ) = {X ∈ mF | kXkp < ∞}
lo spazio delle v.a. sommabili di ordine p.
q.c.
In realtà k · kp non è una norma perchè kXkp = 0 implica X = 0 ma non X ≡ 0. In effetti vedremo nel
Teorema 2.2.39 che k · kp è una semi-norma sullo spazio Lp (Ω, P ).

Esempio 2.2.34. Se X ∼ Nµ,σ 2 allora X ∈ Lp (Ω, P ) per ogni p ≥ 1 poichè


Z
1 1 x−µ 2
E [|X|p ] = |x|p √ e− 2 ( σ ) dx < ∞.
R 2πσ 2

È facile dare un esempio di X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ): è sufficiente considerare X(ω) =
Y (ω) = √1ω nello spazio ([0, 1], B, Leb). Diamo anche un esempio in uno spazio discreto.

Esempio 2.2.35. Consideriamo lo spazio di probabilità Ω = N con la misura di probabilità definita da


c
P ({n}) = , n ∈ N,
n3
dove c è la costante positiva16 che normalizza a 1 la somma dei P ({n}) in modo che P sia una misura di
probabilità. La v.a. X(n) = n è sommabile in P poichè
∞ ∞
X X c
E [X] = X(n)P ({n}) = n· < +∞.
n3
n=1 n=1

D’altra parte X < L2 (Ω, P ) poichè



h i X c
E X2 = n2 · 3 = +∞,
n
n=1

o, in altri termini, posto Y = X si ha che XY < L1 (Ω, P ).

Proposizione 2.2.36. Se 1 ≤ p1 ≤ p2 allora vale

kXkp1 ≤ kXkp2

e quindi
Lp2 (Ω, P ) ⊆ Lp1 (Ω, P ).
L’Esempio 2.2.35 mostra che in generale l’inclusione è stretta.

Dimostrazione. La tesi è diretta conseguenza della disuguaglianza di Jensen con f (x) = xq , x ∈ [0, +∞[,
p
q = p2 ≥ 1: infatti abbiamo
1
p2
E [|X|p1 ] p1 ≤ E [|X|p2 ] .

16 Per precisione, c = Zeta(3) ≈ 1.20206 dove Zeta indica la funzione zeta di Riemann.
118 CAPITOLO 2. VARIABILI ALEATORIE

Teorema 2.2.37 (Disuguaglianza di Hölder). [!]


Siano p, q > 1 esponenti coniugati, ossia tali che p1 + 1q = 1. Se X ∈ Lp (Ω, P ) e Y ∈ Lq (Ω, P ) allora XY ∈ L1 (Ω, P )
e vale
kXY k1 ≤ kXkp kY kq . (2.2.18)

Dimostrazione. Proviamo la tesi nel caso kXkp > 0 altrimenti è banale. In questo caso, la (2.2.18) equivale a

e = |X| .
h i
E X|Y
e | ≤ kY kq , dove X
kXkp
h i
ep ≥ 0 e E X
Notiamo che X ep = 1: quindi consideriamo la probabilità Q con densità X
ep rispetto a P , definita
da h i
Q(A) = E X ep 1A , A ∈ F.
Allora si ha
" #q " #q
e | q = EP Xep |Y | 1 e |Y |
h i
E P X|Y = E Q
1 e ) ≤
ep−1 (X>0)
X ep−1 (X>0
X

(per la disuguaglianza di Jensen)

|Y |q
" #
Q
≤E 1 e ) =
eq(p−1) (X>0
X

(poichè, essendo p, q coniugati, vale q(p − 1) = p)


" q #
Q |Y |
 
P q q
=E e ) = E |Y | 1(X>0
1(X>0 e ) ≤ kY kq ,
Xep

che prova la tesi.

Corollario 2.2.38 (Disuguaglianza di Cauchy-Schwarz). [!]


Si ha
|E [XY ]| ≤ kXk2 kY k2 (2.2.19)
q.c.
e nella (2.2.19) vale l’uguaglianza se e solo se esiste a ∈ R per cui X = aY .
q.c.
Dimostrazione. La (2.2.19) segue da |E [XY ]| ≤ E [|XY |] e dalla disuguaglianza di Hölder. Se X = aY per
un certo a ∈ R è facile verificare che vale l’uguaglianza in (2.2.19). Viceversa, non è restrittivo assumere
E [XY ] ≥ 0 (altrimenti basta considerare −X al posto di X) e kXk2 , kY k2 > 0 (altrimenti la tesi è ovvia): in
questo caso poniamo
e= X ,
X e= Y .
Y
kXk2 kY k2
h i
Si ha kXk
e 2 = kYek2 = 1 e inoltre, per ipotesi, E X e = 1. Allora
eY
h i h i h i h i
E (X e)2 = E X
e−Y e2 + E Y
e2 − 2E X e =0
eY

e q.c.
da cui X =Y e.

Teorema 2.2.39. Per ogni p ≥ 1, Lp (Ω, P ) è uno spazio vettoriale su cui k · kp è una semi-norma, ossia vale
q.c.
i) kXkp = 0 se e solo se X = 0;
2.2. VALORE ATTESO 119

ii) kλXkp = |λ|kXkp per ogni λ ∈ R e X ∈ Lp (Ω, P );


iii) vale la disuguaglianza di Minkowski

kX + Y kp ≤ kXkp + kY kp ,

per ogni X, Y ∈ Lp (Ω, P ).


Dimostrazione. Basta provare solo la iii). È chiaro che, se X ∈ Lp (Ω, P ) e λ ∈ R, allora λX ∈ Lp (Ω, P ). Inoltre,
poichè
(a + b)p ≤ 2p (a ∨ b)p ≤ 2p (ap + bp ) , ∀a, b ≥ 0, p ≥ 1,
allora il fatto che X, Y ∈ Lp (Ω, P ) implica che (X +Y ) ∈ Lp (Ω, P ). Dunque Lp (Ω, P ) è uno spazio vettoriale. Le
proprietà i) e ii) seguono facilmente dalle proprietà generali della media. Per la iii) è sufficiente considerare
il caso p > 1: per la disuguaglianza triangolare si ha
h i h i
E [|X + Y |p ] ≤ E |X||X + Y |p−1 + E |Y ||X + Y |p−1 ≤

(per la disuguaglianza di Hölder, indicando con q l’esponente coniugato di p > 1)


  h i1
≤ kXkp + kY kp E |X + Y |(p−1)q q =

(poichè (p − 1)q = p)

1− 1
 
≤ kXkp + kY kp E [|X + Y |p ] p ,

da cui segue la disuguaglianza di Minkowski.

2.2.8 Covarianza e correlazione


Definizione 2.2.40 (Covarianza). La covarianza di due v.a. reali X, Y ∈ L2 (Ω, P ) è il numero reale

cov(X, Y ) := E [(X − E [X])(Y − E [Y ])] .

Esempio 2.2.41. Sia (X, Y ) con densità

γ(X,Y ) (x, y) = ye−xy 1R≥0 ×[1,2] (x, y).

Allora si ha
" "
3
E [X] = xγ(X,Y ) (x, y)dxdy = log 2, E [Y ] = yγ(X,Y ) (x, y)dxdy =
R2 R2 2
e "
3 3
 
cov(X, Y ) = (x − log 2) y − γ(X,Y ) (x, y)dxdy = 1 − log 2.
R 2 2 2
In questa sezione usiamo le seguenti notazioni:
- eX := E [X] per l’attesa di X;
- σXY := cov(X, Y ) := e(X−eX )(Y −eY ) = eXY − eX eY per la covarianza di X, Y ;
p
- σX = var(X) per la deviazione standard di X, dove

var(X) = cov(X, X) = e(X−eX )2 = eX 2 − (eX )2 .


120 CAPITOLO 2. VARIABILI ALEATORIE

Alcune osservazioni:

i) per ogni c ∈ R si ha h i h i
var(X) = E (X − E [X])2 ≤ E (X − c)2 (2.2.20)
è vale l’uguaglianza se e solo se c = E [X]. Infatti
h i h i
E (X − c)2 = E (X − eX + eX − c)2
= σX2 + 2 E [X − eX ](eX − c) + (eX − c)2 = σX2 + (eX − c)2 ≥ σX2 .
| {z }
=0

ii) Se σX > 0 si può sempre “normalizzare” la v.a. X ponendo

X − eX
Z= ,
σX

in modo che E [Z] = 0 e var(Z) = 1.

iii) Vale
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ). (2.2.21)
Se cov(X, Y ) = 0 si dice che le v.a. X, Y sono scorrelate.

iv) La covarianza cov(·, ·) è un operatore bilineare e simmetrico su L2 (Ω, P )×L2 (Ω, P ), ossia per ogni X, Y , Z ∈
L2 (Ω, P ) e α, β ∈ R vale

cov(X, Y ) = cov(Y , X) e cov(αX + βY , Z) = αcov(X, Z) + βcov(Y , Z).


p
v) Per la disuguaglianza di Cauchy-Schwarz (2.2.19) si ha |cov(X, Y )| ≤ var(X)var(Y ) ossia

|σXY | ≤ σX σY (2.2.22)
q.c.
e si ha l’uguaglianza nella (2.2.22) se e solo se Y è funzione lineare di X nel senso che Y = āX + b̄: nel
caso in cui σX > 0, le costanti ā e b̄ sono date da
σXY σXY
ā = , b̄ = eY − eX . (2.2.23)
σX2 σX2

Come vedremo più avanti, in Statistica la retta di equazione y = āx + b̄ è detta retta di regressione, e
intuitivamente fornisce una rappresentazione della dipendenza lineare fra due campioni di dati X e Y .

Definizione 2.2.42 (Correlazione). Siano X, Y ∈ L2 (Ω, P ) tali che σX , σY > 0. Il coefficiente di correlazione di
X, Y è definito da
σ
%XY := XY .
σX σY
q.c.
Dalla (2.2.22) segue che %XY ∈ [−1, 1] e |%XY | = 1 se e solo se Y = āX + b̄: si noti che ā > 0 se %XY = 1 e ā < 0
se %XY = −1. Dunque il coefficiente di correlazione misura il grado di dipendenza lineare fra X e Y .
Sia ora X = (X1 , . . . , Xd ) ∈ L2 (Ω, P ) una v.a. a valori in Rd . La matrice di covarianza di X è la matrice d × d
simmetrica    
cov(X) = σXi Xj = E (X − E [X]) (X − E [X])∗ ,
i,j=1,...,d | {z } | {z }
d×1 1×d
2.2. VALORE ATTESO 121

dove M ∗ indica la trasposta della matrice M. Poichè


 2 
hcov(X)y, yi = E (X − E [X])∗ y ≥ 0, y ∈ Rd ,

la matrice di covarianza è semi-definita positiva. Si noti che gli elementi della diagonale sono le varianze σX2i
per i = 1, . . . , d. Se σXi > 0 per ogni i = 1, . . . , d, definiamo la matrice di correlazione in modo analogo:
 
%(X) = %Xi Xj .
i,j=1,...,d

La matrice %(X) è simmetrica, semi-definita positiva e gli elementi della diagonale sono uguali a uno: per
esempio nel caso d = 2, posto % = %X1 X2 si ha

σX21
! !
1 % % σX1 σX2
%(X) = cov(X) = .
% 1 % σX1 σX2 σX22

Infine se A è una matrice costante N × d e b ∈ RN , allora la v.a. aleatoria Z := AX + b a valori in RN ha media

E [Z] = AE [X] + b,

e matrice di covarianza

cov(Z) = E [(AX + b − E [AX + b]) (AX + b − E [AX + b])∗ ] = Acov(X)A∗ .

Osservazione 2.2.43 (Decomposizione di Cholesky). [!] Una matrice simmetrica e semi-definita positiva
C si può fattorizzare nella forma C = AA∗ : ciò segue dal fatto che, per il Teorema spettrale,
√ C=U ∗
√DU con
−1 ∗ ∗
U ortogonale (ossia tale U = U ) e D matrice diagonale; dunque basta porre A = U DU dove D indica
la matrice diagonale i cui elementi sono le radici quadrate degli elementi di D (che sono reali non-negativi,
essendo C simmetrica e semi-definita positiva).
La fattorizzazione C = AA∗ non è unica: se C è definita positiva, una conveniente fattorizzazione è
fornita dall’algoritmo di Cholesky che permette di determinare una matrice triangolare inferiore A per cui
valga C = AA∗ . Per esempio, data la matrice di correlazione in dimensione due
!
1 %
C=
% 1

si ha la fattorizzazione di Cholesky C = AA∗ dove


!
1 p 0
A= .
% 1 − %2

2.2.9 Vettori aleatori: distribuzioni marginali e distribuzione congiunta


In questa sezione consideriamo un vettore di v.a. X = (X1 , . . . , Xn ) sullo spazio (Ω, F , P ) ed esaminiamo
la relazione fra X e le sue componenti. Assumiamo che

Xi : Ω −→ Rdi , i = 1, . . . , n,

con di ∈ N e poniamo d = d1 + · · · + dn .
Notazione 2.2.44. Al solito indichiamo con µX e FX rispettivamente la distribuzione e la funzione di
ripartizione (CDF) di X. Esamineremo con particolare attenzione i casi in cui:
i) X è assolutamente continua: in tal caso indichiamo con γX la sua densità (che è definita univocamente
a meno di insiemi Lebesgue-trascurabili);
122 CAPITOLO 2. VARIABILI ALEATORIE

ii) X è discreta: in tal caso indichiamo con µ̄X la sua funzione di distribuzione definita da µ̄X (x) = P (X =
x).
Nel seguito useremo sempre notazioni vettoriali: in particolare, se x, y ∈ Rd allora x ≤ y significa xi ≤ yi per
ogni i = 1, . . . , d, e
] − ∞, x] := ] − ∞, x1 ] × · · · × ] − ∞, xd ].
Definizione 2.2.45. Si dice che µX e FX sono rispettivamente la distribuzione congiunta e la CDF congiunta
delle v.a. X1 , . . . , Xn . Analogamente, nel caso esistano, γX e µ̄X sono la densità congiunta e la funzione di
distribuzione congiunta di X1 , . . . , Xn .
Viceversa, le distribuzioni µXi , i = 1, . . . , n, delle v.a. X1 , . . . , Xn sono dette distribuzioni marginali di X.
Analogamente si parla di CDF marginali, densità marginali e funzioni di distribuzione marginali di X.
La seguente proposizione mostra che dalla congiunta si possono ricavare facilmente le marginali. Nel-
l’enunciato, per semplificare le notazioni, consideriamo solo le marginali per la prima componente X1 ma
un risultato analogo è valido per ogni componente.
Proposizione 2.2.46. [!] Sia X = (X1 , . . . , Xn ). Si ha:

µX1 (H) = µX (H × Rd−d1 ), H ∈ Bd1 , (2.2.24)


d1
FX1 (x1 ) = FX (x1 , +∞, . . . , +∞), x1 ∈ R .

Inoltre, se X ∈ AC allora X1 ∈ AC e
Z
γX1 (x1 ) := γX (x1 , x2 , . . . , xn )dx2 · · · dxn , x1 ∈ Rd1 (2.2.25)
Rd−d1

è una densità di X1 . Se X è discreta allora X1 è discreta e si ha


X
µ̄X1 (x1 ) = µ̄X (x1 , x2 , . . . , xn ), x1 ∈ Rd1 . (2.2.26)
(x2 ,...,xn )∈Rd−d1

Dimostrazione. Basta osservare che

µX1 (H) = P (X1 ∈ H) = P (X ∈ H × Rd−d1 ) = µX (H × Rd−d1 ), H ∈ Bd1 .

Prendendo H = ] − ∞, x1 ] si dimostra la seconda uguaglianza. Inoltre, se X ∈ AC, per la (2.2.24) si ha

P (X1 ∈ H) = P (X ∈ H × Rd−d1 )
Z
= γX (x)dx =
H×Rd−d1

(per il classico Teorema di Fubini per l’integrale di Lebesgue, essendo γX non-negativa)


Z Z !
= γX (x1 , . . . , xn )dx2 · · · dxn dx1
H Rd−d1

che prova la (2.2.25). Infine si ha

µ̄X1 (x1 ) = P (X1 = x1 ) = P (X ∈ {x1 } × Rd−d1 ) =

(per la (1.4.3))
X X
= µ̄X (x) = µ̄X (x1 , x2 , . . . , xn ).
x∈{x1 }×Rd−d1 (x2 ,...,xn )∈Rd−d1
2.3. INDIPENDENZA 123

Osservazione 2.2.47 (Criterio di Sylvester). Ricordiamo che una matrice C di dimensione d × d è detta
definita positiva se vale
hCx, xi > 0, x ∈ Rd \ {0}.
In base all’utile criterio di Sylvester, una matrice simmetrica C è definita positiva se e solo se dk > 0 per ogni
k = 1, . . . , d, dove dk indica il determinante della matrice ottenuta cancellando da C le ultime d − k righe e le
ultime d − k colonne.
Esempio 2.2.48. [!] Consideriamo una matrice simmetrica e definita positiva
!
v1 c
C= .
c v2

Per il criterio di Sylvester si ha


v1 > 0 e det C = v1 v2 − c2 > 0.
Allora C è invertibile con !
−1 1 v2 −c
C =
v1 v2 − c2 −c v1
e la funzione Gaussiana bidimensionale
1 1 −1
Γ (x) = √ e− 2 hC x,xi , x ∈ R2 ,
2π det C
è una densità poichè è una funzione positiva e vale
Z
Γ (x)dx = 1.
R2

La funzione Γ è detta densità della distribuzione normale bidimensionale: se X = (X1 , X2 ) ha densità Γ allora si
dice che X ha distribuzione normale bidimensionale e si scrive X ∼ N0,C .
In base alla Proposizione 2.2.46 le densità marginali di X1 e X2 sono rispettivamente
x2
Z
1 − 1
γX1 (x1 ) = Γ (x1 , x2 )dx2 = √ e 2v1 , x1 ∈ R,
R 2πv1
x2
Z
1 − 2
γX2 (x2 ) = Γ (x1 , x2 )dx1 = √ e 2v2 , x2 ∈ R,
R 2πv2
ossia X1 ∼ N0,v1 e X2 ∼ N0,v2 , indipendentemente dal valore di c ∈ R. D’altra parte vale
Z
cov(X1 , X2 ) = E [(X1 − E [X1 ])(X2 − E [X2 ])] = x1 x2 Γ (x1 , x2 )dx1 dx2 = c.
R2

Dunque la distribuzione congiunta fornisce informazioni non solo sulle singole distribuzioni marginali, ma
anche sulle relazioni fra le diverse componenti di X. Al contrario, a partire dalla conoscenza delle distribuzioni
marginali, X1 ∼ N0,v1 e X2 ∼ N0,v2 , non si può dire nulla sulla covarianza di X1 , X2 : in generale, non è
possibile ricavare la distribuzione congiunta dalle marginali. Al riguardo si veda anche l’Esempio 2.3.31.

2.3 Indipendenza
Nella teoria della probabilità, una delle questioni di maggior interesse teorico e applicativo riguarda l’e-
sistenza e il grado di dipendenza fra quantità aleatorie. Per esempio, abbiamo già visto che la correlazione
è un indice di un particolare tipo di dipendenza, quella lineare, fra variabili aleatorie. In questo paragra-
fo diamo una trattazione generale dell’argomento introducendo i concetti di dipendenza deterministica e
indipendenza stocastica.
124 CAPITOLO 2. VARIABILI ALEATORIE

2.3.1 Dipendenza deterministica e indipendenza stocastica


In questa prima sezione, per semplicità, ci limitiamo a considerare il caso di due v.a. reali X, Y sullo
spazio (Ω, F , P ). Poichè useremo sistematicamente il concetto di σ -algebra generata da X, ne ricordiamo la
definizione:
σ (X) = X −1 (B) = {(X ∈ H) | H ∈ B}.

Definizione 2.3.1. Diciamo che:

i) X e Y sono stocasticamente indipendenti in P se gli eventi (X ∈ H) e (Y ∈ K) sono indipendenti in P


per ogni H, K ∈ B. In altri termini, X e Y sono indipendenti in P se lo sono le rispettive σ -algebre
generate, nel senso che gli elementi di σ (X) e σ (Y ) sono a due a due indipendenti in P ;

ii) X dipende in modo deterministico da Y se sussiste la seguente inclusione

σ (X) ⊆ σ (Y ), (2.3.1)

ossia se X è σ (Y )-misurabile e in tal caso si scrive X ∈ mσ (Y ).

Osservazione 2.3.2. [!] Se Y è una v.a. e f ∈ mB allora si ha

σ (f (Y )) ⊆ σ (Y ), (2.3.2)

ossia la v.a. X := f (Y ) dipende in modo deterministico da Y . Infatti si ha


 
σ (f (Y )) = (f ◦ Y )−1 (B) = Y −1 f −1 (B) ⊆ Y −1 (B) = σ (Y ).

Dall’inclusione (2.3.1) si deduce anche il seguente utile risultato: se f , g ∈ mB e X, Y sono v.a. indipendenti,
allora anche le v.a. f (X), g(Y ) sono indipendenti.

Il seguente teorema “spiega” il significato dell’inclusione (2.3.1), caratterizzandola in termini di dipen-


denza funzionale di X da Y .

Teorema 2.3.3 (Teorema di Doob). [!!] Siano X, Y v.a. reali su (Ω, F , P ). Allora X ∈ mσ (Y ) se e solo se
esiste f ∈ mB tale che X = f (Y ).

Osservazione 2.3.4. Il Teorema di Doob rimane valido (con dimostrazione pressochè identica) nel caso in
cui X sia a valori in Rd e Y sia a valori in un generico spazio misurabile (E, E ). L’enunciato generale è il
seguente: X ∈ mσ (Y ) se e solo se esiste una funzione misurabile17 f : E −→ Rd tale che X = f (Y ).

X
 
(Ω, F ) Rd , Bd

Y f
(E, E )

Dimostrazione del Teorema 2.3.3. Se X = f (Y ) con f ∈ mB allora X ∈ mσ (Y ): ciò segue direttamente dalla
(2.3.2). Viceversa, sia X ∈ mσ (Y ). Utilizzando una trasformazione del tipo

1 1
Z= + arctan X
2 π
non è restrittivo assumere che X sia a valori in ]0, 1[.
17 f ∈ mE , ossia f −1 (H) ∈ E per ogni H ∈ B .
d
2.3. INDIPENDENZA 125

Consideriamo prima il caso in cui X è semplice, ossia X assume solo i valori distinti x1 , . . . , xm ∈ ]0, 1[ e
quindi si scrive nella forma
Xm
X= xk 1(X=xk ) .
k=1
Per ipotesi, si ha (X = xk ) = (Y ∈ Hk ) con Hk ∈ B, k = 1, . . . , m. Allora posto
m
X
f (y) = xk 1Hk (y), y ∈ R,
k=1

si ha
m
X m
X m
X
f (Y ) = xk 1Hk (Y ) = xk 1(Y ∈Hk ) = xk 1(X=xk ) = X.
k=1 k=1 k=1
Consideriamo ora il caso generale in cui X assume valori in ]0, 1[: per il Lemma 2.2.3 esiste una
successione (Xn )n≥1 di v.a. semplici e σ (Y )-misurabili tali che
0 ≤ Xn (ω) % X(ω), ω ∈ Ω. (2.3.3)
Per quanto provato nel punto precedente, si ha Xn = fn (Y ) con fn ∈ mB a valori in [0, 1[. Definiamo
f (y) := lim sup fn (y), y ∈ R.
n→∞

Allora f ∈ mB (cfr. Proposizione 2.1.8) è limitata e per la (2.3.3) si ha


X(ω) = lim Xn (ω) = lim fn (Y (ω)) = f (Y (ω)), ω ∈ Ω.
n→∞ n→∞

Per capire il concetto di dipendenza deterministica si esamini attentamente il seguente


Esercizio 2.3.5. [!] Consideriamo Ω = {1, 2, 3} e le v.a. X, Y di Bernoulli definite su Ω nel modo seguente
 
1 se ω ∈ {1, 2}, 1 se ω = 1,

 

X(ω) =  Y (ω) = 
0 se ω = 3,
 0 se ω ∈ {2, 3}.

Notiamo che
σ (X) = {∅, Ω, {1, 2}, {3}}, σ (Y ) = {∅, Ω, {1}, {2, 3}}.
i) Verificare direttamente che non esiste una funzione f tale che X = f (Y ).
ii) Le v.a. X e Y sono indipendenti rispetto alla probabilità uniforme?
iii) Esiste una misura di probabilità su Ω rispetto alla quale X e Y sono indipendenti?
Soluzione.
i) Se esistesse una tale funzione f allora si avrebbe
1 = X(2) = f (Y (2)) = f (0) = f (Y (3)) = X(3) = 0
che è assurdo. Dunque fra X e Y non c’è dipendenza deterministica. Notiamo che, in accordo col Teorema 2.3.3, non sussistono
relazioni di inclusione fra σ (X) e σ (Y ).
ii) X e Y non sono indipendenti nella probabilità uniforme perchè gli eventi (X = 1) = {1, 2} e (Y = 0) = {2, 3} non sono
indipendenti in quanto
1
P ((X = 1) ∩ (Y = 0)) = P ({2}) =
3
ma
4
P (X = 1)P (Y = 0) = .
9
iii) Sı̀, per esempio la probabilità definita da P (1) = P (3) = 0 e P (2) = 1: più in generale, X e Y sono indipendenti rispetto
ad una probabilità tipo Delta di Dirac centrata in 1 o 2 o 3 (si veda al riguardo il punto i) dell’esercizio seguente).
126 CAPITOLO 2. VARIABILI ALEATORIE

Osservazione 2.3.6. [!] L’Esercizio 2.3.5 ci permette di osservare esplicitamente che il concetto di indipen-
denza stocastica è sempre relativo ad una particolare misura di probabilità fissata. Al contrario, la dipendenza
deterministica è una proprietà generale che non dipende dalla misura di probabilità considerata. In particolare,
i concetti di indipendenza stocastica e di dipendenza deterministica non sono “uno il contrario dell’altro”.
Fra l’altro, la dipendenza deterministica “va in una direzione”: se X dipende in modo deterministico da Y
non è detto che Y dipenda in modo deterministico da X.
Esercizio 2.3.7. Siano X, Y v.a. discrete su (Ω, P ). Provare le seguenti affermazioni:
q.c.
i) se X è costante quasi certamente, X = c, allora X, Y sono indipendenti;
ii) sia
f : X(Ω) −→ R
una funzione iniettiva. Allora X e f (X) sono indipendenti in P se e solo se X è costante q.c.
Soluzione.
i) Osservando che P (X ∈ H) ∈ {0, 1} per ogni H ∈ B, non è difficile provare la tesi.
ii) È sufficiente provare che se X e f (X) sono indipendenti allora X è costante q.c. Sia y ∈ X(Ω): essendo f iniettiva si ha
(X = y) = (f (X) = f (y)) o più esplicitamente

{ω ∈ Ω | X(ω) = y} = {ω ∈ Ω | f (X(ω)) = f (y)}.

Allora si ha  
P (X = y) = P (X = y) ∩ (f (X) = f (y)) = P (X = y)P (f (X) = f (y)) = P (X = y)2

da cui segue P (X = y) ∈ {0, 1} e dunque la tesi.

2.3.2 Misura prodotto e Teorema di Fubini


Per studiare in maniera più approfondita il concetto di indipendenza stocastica fra due o più variabili
aleatorie, presentiamo alcuni risultati preliminari sul prodotto di misure che svolgeranno un ruolo centrale
nel seguito. Dati due spazi misurabili finiti (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 ), consideriamo il prodotto cartesiano

Ω := Ω1 × Ω2 = {(x, y) | x ∈ Ω1 , y ∈ Ω2 },

munito della σ -algebra F := σ (R) generata dalla famiglia

R := {A × B | A ∈ F1 , B ∈ F2 }.

Gli elementi di R sono detti rettangoli. Si scrive

F = F1 ⊗ F2

e si dice che F è la σ -algebra prodotto di F1 e F2 . Vale la seguente generalizzazione del Corollario 2.1.6 e
dell’Osservazione 2.1.9.
Corollario 2.3.8. [!] Per k = 1, 2, siano Xk : Ωk −→ R funzioni sugli spazi misurabili (Ωk , Fk ). Le seguenti
proprietà sono equivalenti:
i) (X1 , X2 ) ∈ m(F1 ⊗ F2 );
ii) Xk ∈ mFk per k = 1, 2.
Inoltre, se vale i) o ii) allora per ogni f ∈ mB2 si ha che f (X1 , X2 ) ∈ m(F1 ⊗ F2 ).
Osservazione 2.3.9. Si ha B2 = B ⊗B. Tuttavia, se Ld indica la σ -algebra dei misurabili secondo Lebesgue
in Rd , si ha che L1 ⊗L1 è strettamente incluso in L2 : infatti, per esempio, se H ⊆ R non è misurabile secondo
Lebesgue, allora H × {0} ∈ L2 \ (L1 ⊗ L1 ).
2.3. INDIPENDENZA 127

Lemma 2.3.10. Sia


f : Ω1 × Ω2 −→ R
una funzione F1 ⊗ F2 -misurabile e limitata. Allora si ha:
i) f (·, y) ∈ mF1 per ogni y ∈ Ω2 ;
ii) f (x, ·) ∈ mF2 per ogni x ∈ Ω1 .
Dimostrazione. Sia H la famiglia delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i)
e ii). Allora H è una famiglia monotona di funzioni (cfr. Definizione A.1.7). La famiglia R è ∩-chiusa,
genera F1 ⊗ F2 ed è chiaro che 1A×B ∈ H per ogni (A × B) ∈ R. Allora la tesi segue dal secondo Teorema di
Dynkin (Teorema A.1.8).
Lemma 2.3.11. Se f è una funzione F1 ⊗ F2 -misurabile e limitata allora si ha:
R
i) x 7→ f (x, y)µ2 (dy) ∈ mF1 ;
Ω2
R
ii) y 7→ f (x, y)µ1 (dx) ∈ mF2 ;
Ω1

iii) vale Z Z ! Z Z !
f (x, y)µ2 (dy) µ1 (dx) = f (x, y)µ1 (dx) µ2 (dy).
Ω1 Ω2 Ω2 Ω1

Dimostrazione. Come nel lemma precedente, la tesi segue dal secondo Teorema di Dynkin applicato alla
famiglia H delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i), ii) e iii). Infatti H è
una famiglia monotona di funzioni e 1A×B ∈ H per ogni (A × B) ∈ R.
Proposizione 2.3.12 (Misura prodotto). La funzione definita da
Z Z ! Z Z !
µ(A × B) := 1A×B dµ2 dµ1 = 1A×B dµ1 dµ2
Ω1 Ω2 Ω2 Ω1

è l’unica misura finita su F = F1 ⊗ F2 tale che

µ(A × B) = µ1 (A)µ2 (B), A ∈ F1 , B ∈ F2 .

Scriviamo µ = µ1 ⊗ µ2 e diciamo che µ è la misura prodotto di µ1 e µ2 .


Dimostrazione. Il fatto che µ sia una misura segue dalla linearità dell’integrale e dal Teorema di Beppo-Levi.
L’unicità segue dal Corollario A.1.5, poichè R è ∩-chiusa e genera F .
Teorema 2.3.13 (Teorema di Fubini). [!!] Sullo spazio prodotto (Ω1 × Ω2 , F1 ⊗ F2 , µ1 ⊗ µ2 ), sia f una
funzione (F1 ⊗ F2 )-misurabile a valori reali. Se f è non-negativa oppure sommabile (ossia, f ∈ L1 (Ω1 ×
Ω2 , µ1 ⊗ µ2 )) allora si ha:
Z Z Z !
f d(µ1 ⊗ µ2 ) = f (x, y)µ2 (dy) µ1 (dx)
Ω1 ×Ω2 Ω1 Ω2
Z Z ! (2.3.4)
= f (x, y)µ1 (dx) µ2 (dy).
Ω2 Ω1

Dimostrazione. La (2.3.4) è vera se f = 1A×B e quindi, per il secondo Teorema di Dynkin, anche per f
misurabile e limitata. Il Teorema di Beppo-Levi e la linearità dell’integrale assicurano la validità di (2.3.4)
rispettivamente per f non-negativa e f ∈ L1 .
128 CAPITOLO 2. VARIABILI ALEATORIE

Osservazione 2.3.14. Il Teorema 2.3.13 resta valido sotto l’ipotesi che gli spazi (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 )
siano σ -finiti. A partire dal Teorema 2.3.13, si definisce per induzione la misura prodotto di più di due
misure
µ1 ⊗ · · · ⊗ µn .
Osservazione 2.3.15. Il classico Teorema di Fubini per l’integrale di Lebesgue afferma che se f = f (x, y) ∈
mL2+ (ossia f è non-negativa e misurabile rispetto alla σ -algebra L2 dei Lebesgue-misurabili di R2 ) allora
f (x, ·) ∈ mL1 per quasi ogni x ∈ R. Si noti la differenza rispetto al Lemma 2.3.10 in cui si afferma che “f (x, ·) ∈
mF2 per ogni x ∈ Ω1 ”. Ciò è dovuto al fatto che, come abbiamo già osservato, L1 ⊗L1 è strettamente incluso
in L2 . Per maggiori dettagli rimandiamo alla sezione “Completion of product measure”, Cap.7 in [30].
Esempio 2.3.16. Sia µ = Expλ ⊗ Bep la misura prodotto su R2 delle distribuzioni esponenziale Expλ e di
Bernoulli Bep . Per il Teorema di Fubini, il calcolo dell’integrale di f ∈ L1 (R2 , µ) si svolge nel modo seguente:
" Z Z !
f (x, y)µ(dx, dy) = f (x, y)Bep (dy) Expλ (dx)
R2 R R
Z
= (pf (x, 1) + (1 − p)f (x, 0)) Expλ (dx)
R
Z +∞ Z +∞
= pλ f (x, 1)e−λx dx + (1 − p)λ f (x, 0)e−λx dx.
0 0

2.3.3 Indipendenza fra σ -algebre


Poichè la definizione generale di indipendenza di v.a. verrà data in termini di indipendenza delle rela-
tive σ -algebre generate, esaminiamo prima il concetto di indipendenza fra σ -algebre. Nel seguito (Ω, F , P )
è uno spazio di probabilità fissato.
Definizione 2.3.17. Diciamo che le famiglie di eventi Fi , con i ∈ I, sono indipendenti in P se vale
 n  n
\  Y
P  Ak  =
 P (Ak ),
k=1 k=1

per ogni scelta di un numero finito di indici i1 , . . . , in e Ak ∈ Fik per k = 1, . . . , n.


Esercizio 2.3.18. Sia σ (A) = {∅, Ω, A, Ac } la σ -algebra generata da A ∈ F . Dimostrare che A1 , . . . , An ∈ F
sono indipendenti in P (cfr. Definizione 1.3.29) se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .
A volte può essere utile il seguente corollario del Teorema di Dynkin.
Lemma 2.3.19. Siano A1 , . . . , An famiglie di eventi in (Ω, F , P ), chiuse rispetto all’intersezione. Allora
A1 , . . . , An sono indipendenti in P se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .
Dimostrazione. Proviamo il caso n = 2: la dimostrazione generale è analoga. Fissiamo A ∈ A1 e definiamo
le misure finite
µ(B) = P (A ∩ B), ν(B) = P (A)P (B), B ∈ σ (A2 ).
Per ipotesi µ = ν su A2 e inoltre µ(Ω) = P (A) = ν(Ω), quindi per il Corollario A.1.5 µ = ν su σ (A2 ) o, in altri
termini
P (A ∩ B) = P (A)P (B), B ∈ σ (A2 ).
Ora fissiamo B ∈ σ (A2 ) e definiamo le misure finite

µ(B) = P (A ∩ B), ν(B) = P (A)P (B), A ∈ σ (A1 ).

Abbiamo provato che µ = ν su A1 e ovviamente µ(Ω) = P (B) = ν(Ω), quindi ancora per il Corollario A.1.5
si ha µ = ν su σ (A1 ) che equivale alla tesi.
2.3. INDIPENDENZA 129

2.3.4 Indipendenza fra vettori aleatori


Assumiamo le ipotesi e notazioni della Sezione 2.2.9 e introduciamo l’importante concetto di indipen-
denza fra v.a.

Definizione 2.3.20 (Indipendenza di v.a.). Diciamo che le v.a. X1 , . . . , Xn , definite sullo spazio (Ω, F , P ),
sono indipendenti in P se le relative σ -algebre generate σ (X1 ), . . . , σ (Xn ) sono indipendenti in P o, equiva-
lentemente, se vale  n 
\  Yn
P  (Xi ∈ Hi ) =
 P (Xi ∈ Hi ), Hi ∈ Bdi , i = 1, . . . , n.
i=1 i=1

Osservazione 2.3.21. [!] Come conseguenza della (2.3.2), se X1 , . . . , Xn sono v.a. indipendenti su (Ω, F , P ) e
f1 , . . . , fn ∈ mB allora anche le v.a. f1 (X1 ), . . . , fn (Xn ) sono indipendenti in P : in altri termini, la proprietà di in-
dipendenza è invariante per trasformazioni di tipo deterministico (nello specifico, l’operazione di composizione
con funzioni misurabili).
Per esempio, supponiamo che X1 , . . . , Xn , Y1 , . . . , Ym siano v.a. reali e X := (X1 , . . . , Xn ) e Y := (Y1 , . . . , Ym )
siano indipendenti. Allora sono indipendenti anche le seguenti coppie di variabili aleatorie18

i) Xi e Yj per ogni i e j;

ii) Xi1 + Xi2 e Yj1 + Yj2 per ogni i1 , i2 , j1 , j2 ;

iii) Xi2 e Y per ogni i.

Il seguente risultato fornisce un’importante caratterizzazione della proprietà di indipendenza. Esso


mostra anche che, nel caso di v.a. indipendenti, la distribuzione congiunta può essere ricavata dalle distribuzioni
marginali. Per chiarezza d’esposizione, enunciamo prima il risultato nel caso particolare di due v.a. e in
seguito diamo il risultato generale.

Teorema 2.3.22. [!!] Siano X1 , X2 v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 e Rd2 . Le seguenti tre
proprietà sono equivalenti:

i) X1 , X2 sono indipendenti in P ;

ii) F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 )FX2 (x2 ) per ogni x1 ∈ Rd1 e x2 ∈ Rd2 ;

iii) µ(X1 ,X2 ) = µX1 ⊗ µX2 .

Inoltre, se (X1 , X2 ) ∈ AC allora le proprietà precedenti sono anche equivalenti a:

iv) per quasi ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale

γ(X1 ,X2 ) (x1 , x2 ) = γX1 (x1 )γX2 (x2 ). (2.3.5)

Infine, se (X1 , X2 ) è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:

v) per ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale

µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ). (2.3.6)

Dimostrazione. [i) =⇒ ii)] Si ha

F(X1 ,X2 ) (x1 , x2 ) = P ((X1 ≤ x1 ) ∩ (X2 ≤ x2 )) =


18 Per esercizio determinare le funzioni misurabili con cui si compongono X e Y .
130 CAPITOLO 2. VARIABILI ALEATORIE

(per l’ipotesi di indipendenza)

= P (X1 ≤ x1 )P (X2 ≤ x2 ) = FX1 (x1 )FX2 (x2 ).

[ii) =⇒ iii)] l’ipotesi F(X1 ,X2 ) = FX1 FX2 implica che le distribuzioni µ(X1 ,X2 ) e µX1 ⊗ µX2 coincidono sulla
famiglia dei pluri-intervalli ] − ∞, x1 ]× ] − ∞, x2 ]: la tesi segue dall’unicità dell’estensione della misura del
Teorema 1.4.29 di Carathéodory (oppure si veda il Corollario A.1.5, poichè la famiglia dei pluri-intervalli
è ∩-chiusa e genera Bd1 +d2 ).
[iii) =⇒ i)] Per ogni H ∈ Bd1 e K ∈ Bd2 si ha

P ((X1 ∈ H) ∩ (X2 ∈ K)) = µ(X1 ,X2 ) (H × K) =

(poichè per ipotesi µ(X1 ,X2 ) = µX1 ⊗ µX2 )

= µX1 (H)µX2 (K) = P (X1 ∈ H)P (X2 ∈ K)

da cui l’indipendenza di X1 e X2 .
Assumiamo ora che (X1 , X2 ) ∈ AC e quindi, per la Proposizione 2.2.46, anche X1 , X2 ∈ AC.
[i) =⇒ iv)] Per l’ipotesi di indipendenza, si ha
Z Z
P ((X1 , X2 ) ∈ H × K) = P (X1 ∈ H)P (X2 ∈ K) = γX1 dx1 γX2 dx2 =
H K

(per il Teorema di Fubini e con la notazione x = (x1 , x2 ) per il punto di Rd1 +d2 )
Z
= γX1 γX2 dx
H×K

e quindi γX1 γX2 è densità di (X1 , X2 ).


[iv) =⇒ i)] Si ha
Z
P ((X1 , X2 ) ∈ H × K) = γ(X1 ,X2 ) dx =
H×K

(per ipotesi)
Z
= γX1 γX2 dx
H×K

(per il Teorema di Fubini)


Z Z
= γX1 dx1 γX2 dx2 = P (X1 ∈ H)P (X2 ∈ K),
H K

da cui l’indipendenza di X1 e X2 .
Infine assumiamo che la v.a. (X1 , X2 ) sia discreta e quindi, per la Proposizione 2.2.46, anche X1 , X2 lo
siano. La dimostrazione è del tutto analoga al caso precedente.
[i) =⇒ v)] Per l’ipotesi di indipendenza, si ha

µ̄(X1 ,X2 ) (x1 , x2 ) = P ((X1 = x1 ) ∩ (X2 = x2 )) = P (X1 = x1 )P (X2 = x2 ) = µ̄X1 (x1 )µ̄X2 (x2 )

da cui la (2.3.6).
2.3. INDIPENDENZA 131

[v) =⇒ i)] Si ha
X
P ((X1 , X2 ) ∈ H × K) = µ̄(X1 ,X2 ) (x1 , x2 ) =
(x1 ,x2 )∈H×K

(per ipotesi)
X
= µ̄X1 (x1 )µ̄X2 (x2 ) =
(x1 ,x2 )∈H×K

(per il Teorema di Fubini, essendo i termini della somma non-negativi)


X X
= µ̄X1 (x1 ) µ̄X2 (x2 ) = P (X1 ∈ H)P (X2 ∈ K),
x1 ∈H x2 ∈K

da cui l’indipendenza di X1 e X2 .

Il Teorema 2.3.22 si estende al caso di un numero finito di v.a. nel modo seguente:

Teorema 2.3.23. [!!] Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ) e d = d1 + · · · + dn , le seguenti tre proprietà sono equivalenti:

i) X1 , . . . , Xn sono indipendenti in P ;

ii) per ogni x = (x1 , . . . , xn ) ∈ Rd si ha


n
Y
FX (x1 , . . . , xn ) = FXi (xi ); (2.3.7)
i=1

iii) si ha
µX = µX1 ⊗ · · · ⊗ µXn .

Inoltre, se X ∈ AC allora le proprietà precedenti sono anche equivalenti a:

iv) per quasi ogni x = (x1 , . . . , xn ) ∈ Rd vale


n
Y
γX (x) = γXi (xi ).
i=1

Infine, se X è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:

v) per ogni x ∈ Rd vale


n
Y
µ̄X (x) = µ̄Xi (xi ).
i=1

Nella Sezione 2.1.1 abbiamo provato che è possibile costruire uno spazio di probabilità su cui è definito
un vettore aleatorio (X1 , . . . , Xn ) con distribuzione assegnata (cfr. Osservazione 2.1.16). Come semplice
conseguenza si ha anche:

Corollario 2.3.24 (Esistenza di v.a. indipendenti). [!]


Siano µk distribuzioni su Rdk , k = 1, . . . , n. Esiste uno spazio di probabilità (Ω, F , P ) su cui sono definite
X1 , . . . , Xn v.a. tali che Xk ∼ µk per k = 1, . . . , n e siano indipendenti in P .
132 CAPITOLO 2. VARIABILI ALEATORIE

Dimostrazione. Consideriamo la distribuzione prodotto µ = µ1 ⊗ · · · ⊗ µn su Rd con d = d1 + · · · + dn . Per


l’Osservazione 2.1.16, la funzione identità X(ω) = ω è una v.a. su (Rd , Bd , µ) con X ∼ µ. Per il Teorema
2.3.23, le componenti di X verificano la tesi.

Osservazione 2.3.25. Nella dimostrazione precedente la costruzione di numero n di variabili aleatorie in-
dipendenti avviene prendendo come spazio campione lo spazio Euclideo di dimensione almeno pari a n.
Questo fatto fa intuire che il problema della costruzione di una successione (o, ancor peggio, di una famiglia
non numerabile) di v.a. indipendenti non è altrettanto semplice perchè, per analogia, lo spazio campione
dovrebbe avere dimensione infinita. Questo problema verrà affrontato nel Capitolo 5 sui processi stocastici.

2.3.5 Indipendenza e valore atteso


Vediamo un’importante conseguenza del Teorema 2.3.22.

Teorema 2.3.26. [!!] Siano X, Y v.a. reali indipendenti sullo spazio (Ω, F , P ). Se X, Y ≥ 0 oppure X, Y ∈
L1 (Ω, P ) allora si ha
E [XY ] = E [X] E [Y ] .

Dimostrazione. Si ha
Z
E [XY ] = xyµ(X,Y ) (d(x, y))
R2

(per la iii) del Teorema 2.3.22)


Z
= xy(µX ⊗ µY )(d(x, y))
R2

(per il Teorema di Fubini)


Z Z
= xµX (dx) yµY (dy) = E [X] E [Y ] .
R R

Osservazione 2.3.27. Si ricordi che, per l’Esercizio 2.2.35, in generale X, Y ∈ L1 (Ω, P ) non implica XY ∈
L1 (Ω, P ): tuttavia, per il Teorema 2.3.26, ciò è vero se X, Y sono indipendenti.

Corollario 2.3.28. Se X, Y ∈ L2 (Ω, P ) sono indipendenti allora sono scorrelate, ossia si ha

cov(X, Y ) = 0 e var(X + Y ) = var(X) + var(Y ). (2.3.8)

Dimostrazione. Se X, Y sono indipendenti anche Xe := X − E [X] e Y


e := Y − E [Y ] lo sono, per l’Osservazione
2.3.21: quindi si ha h i h i h i
cov(X, Y ) = E X e =E X
eY e E Y e = 0.

Ricordando la (2.2.21) a pag. 120, si conclude che vale anche var(X + Y ) = var(X) + var(Y ).

Esempio 2.3.29. Un esempio di v.a. scorrelate ma non indipendenti è il seguente: sia Ω = {0, 1, 2} con la
probabilità uniforme P . Poniamo
 


1 ω = 0, 

0 ω = 0,
 
X(ω) = 0 ω = 1, Y (ω) = 1 ω = 1,
 
 

 
−1 ω = 2,
 0

ω = 2.
2.3. INDIPENDENZA 133

Allora si ha E [X] = 0 e XY = 0 da cui cov(X, Y ) = E [XY ]−E [X] E [Y ] = 0, ossia X, Y sono scorrelate. Tuttavia

1
P ((X = 1) ∩ (Y = 1)) = 0 e P (X = 1) = P (Y = 1) =
3
e quindi X, Y non sono indipendenti in P .

Esempio 2.3.30. [!] L’esempio precedente mostra che due v.a. scorrelate non sono necessariamente in-
dipendenti. Tuttavia nel caso della distribuzione normale bidimensionale (cfr. Esempio 2.2.48) vale il
seguente risultato: se (X1 , X2 ) ∼ N0,C e cov(X1 , X2 ) = 0 allora X1 , X2 sono indipendenti. Questo segue dal
Teorema 2.3.22-iv e dal fatto che se X1 , X2 sono scorrelate allora la densità congiunta è uguale al prodotto
delle densità marginali. Si noti che l’ipotesi che X1 , X2 abbiano distribuzione congiunta normale è cruciale:
al riguardo si veda l’Esempio 2.4.19.

Il seguente esempio mostra due coppie di v.a. con uguali distribuzioni marginali ma diverse distribu-
zioni congiunte.

Esempio 2.3.31. [!] Consideriamo un’urna contenente n palline numerate. Siano:

i) X1 , X2 i risultati di due estrazioni successive con reinserimento;

ii) Y1 , Y2 i risultati di due estrazioni successive senza reinserimento.

Le v.a. X1 , X2 hanno distribuzione uniforme Unifn e sono indipendenti: per il Teorema 2.3.22-v) la funzione
di distribuzione congiunta è
1
µ̄(X1 ,X2 ) (x1 , x2 ) = 2 , (x1 , x2 ) ∈ In × In ,
n
dove, al solito, In = {1, . . . , n}.
La v.a. Y1 ha distribuzione uniforme Unifn ma non è indipendente da Y2 . Per ricavare la funzione
di distribuzione congiunta utilizziamo la conoscenza della probabilità che la seconda estrazione sia y2 ,
condizionata al fatto che la prima pallina estratta sia y1 :

1
 n−1 se y2 ∈ In \ {y1 },


P (Y2 = y2 | Y1 = y1 ) = 
0
 se y2 = y1 .

Allora abbiamo
   
P (Y1 , Y2 ) = (y1 , y2 ) = P (Y1 = y1 ) ∩ (Y2 = y2 )

= P (Y2 = y2 | Y1 = y1 ) P (Y1 = y1 ) (2.3.9)

da cui 
1

 n(n−1)
 se y1 , y2 ∈ In , y1 , x2 ,
µ̄(Y1 ,Y2 ) (y1 , y2 ) = 
0
 altrimenti.
Sottolineiamo l’importanza del passaggio (2.3.9) in cui, non potendo sfruttare l’indipendenza, abbiamo
usato la formula (1.3.5) a pag. 45. Avendo µ̄(Y1 ,Y2 ) , possiamo ora calcolare µ̄Y2 mediante la (2.2.26) della
Proposizione 2.2.46: per ogni y2 ∈ In abbiamo
X X 1 1
µ̄Y2 (y2 ) = µ̄(Y1 ,Y2 ) (y1 , y2 ) = = ,
n(n − 1) n
y1 ∈In y1 ∈In \{y2 }

ossia anche Y2 ∼ Unifn . In definitiva Y1 , Y2 hanno distribuzioni marginali uniformi come X1 , X2 , ma


differente distribuzione congiunta.
134 CAPITOLO 2. VARIABILI ALEATORIE

Esempio 2.3.32. [!] Consideriamo due v.a. indipendenti X ∼ N0,1 e Y ∼ Poissonλ . Per il Teorema 2.3.23, la
distribuzione congiunta di X, Y è
N0,1 ⊗ Poissonλ
e quindi, per ogni funzione misurabile e limitata, si ha
Z
f (x, y) N0,1 ⊗ Poissonλ (dx, dy) =

E [f (X, Y )] =
R2

(per il Teorema di Fubini)


Z Z
= f (x, y)N0,1 (dx)Poissonλ (dy)
R R
∞ x2
λn e− 2
X Z
−λ
=e f (x, n) √ dx.
n! R 2π
n=0
h i
Per esercizio, calcolare E eXY .

Esempio 2.3.33. [!] Consideriamo la distribuzione uniforme bidimensionale nel caso dei seguenti tre
domini:
i) un quadrato: Q = [0, 1] × [0, 1];
ii) un cerchio: C = {(x, y) ∈ R2 | x2 + y 2 ≤ 1};
iii) un triangolo: T = {(x, y) ∈ R2≥0 | x + y ≤ 1}.
[Caso i)] La funzione di densità di (X, Y ) ∼ UnifQ è

γ(X,Y ) = 1[0,1]×[0,1] .

Quindi
Z
1
E [X] = x1[0,1]×[0,1] (x, y)dxdy = ,
R2 2
1 2
Z
1
 
var(X) = x−1[0,1]×[0,1] (x, y)dxdy = ,
R 2 2 12
Z 
1 1
 
cov(X, Y ) = x− y − 1[0,1]×[0,1] (x, y)dxdy = 0,
R2 2 2

e quindi X, Y sono scorrelate. Di più, siccome per la (2.2.25), la densità di X è


Z
γX = 1[0,1]×[0,1] (·, y)dy = 1[0,1]
R

e analogamente γY = 1[0,1] , si ha che X, Y sono indipendenti perchè vale la (2.3.5).


[Caso ii)] La funzione di densità di (X, Y ) ∼ UnifC è
1
γ(X,Y ) = 1 .
π C
Quindi
Z
1
E [X] = x1C (x, y)dxdy = 0 = E [Y ] ,
π R2
2.4. FUNZIONE CARATTERISTICA 135
Z
1 1
var(X) = x2 1C (x, y)dxdy = ,
π R2 4
Z
1
cov(X, Y ) = xy1C (x, y)dxdy = 0,
π R2
e quindi X, Y sono scorrelate. Tuttavia X, Y non sono indipendenti perchè, per la (2.2.25), la densità di X è

2 1 − x2
Z
1
γX (x) = 1 (x, y)dy = 1[−1,1] (x), x ∈ R,
π R C π

2 1−y 2
e analogamente γY (y) = π 1[−1,1] (y): quindi la densità congiunta non è il prodotto delle marginali. In
alternativa, una verifica diretta mostra che
Z √
1 1 4π − 3 3 1
   
P X≥ = 1 1
  (x)1C (x, y)dxdy = =P Y ≥ ,
2 π R2 2 ,+∞ 12π 2

1 1 3−3 3+π 1 1
       
P X≥ ∩ Y≥ = ,P X≥ P Y≥ .
2 2 12π 2 2
Questo esempio, come anche l’Esempio 2.3.29, mostra che la proprietà di indipendenza è più forte della
proprietà di scorrelazione.
[Caso iii)] La funzione di densità di (X, Y ) ∼ UnifT è
γ(X,Y ) = 21T .
Quindi
Z
1
E [X] = 2 x1T (x, y)dxdy = = E [Y ] ,
R2 3
1 2
Z
1
 
var(X) = 2 1T (x, y)dxdy =
x− ,
R2 3 18
Z 
1 1 1
 
cov(X, Y ) = 2 x− y − 1T (x, y)dxdy = − ,
R2 3 3 36
e dunque X, Y sono negativamente correlate (e perciò non indipendenti). Per la (2.2.25), la densità di X è
Z
γX (x) = 2 1T (x, y)dy = 2(1 − x)1[0,1] (x), x ∈ R.
R

2.4 Funzione caratteristica


Definizione 2.4.1 (Funzione caratteristica). Sia

X : Ω −→ Rd
una v.a. sullo spazio di probabilità (Ω, F , P ). La funzione

ϕX : Rd −→ C
definita da h i
ϕX (η) = E eihη,Xi = E [coshη, Xi] + iE [sinhη, Xi] , η ∈ Rd ,
è detta funzione caratteristica della v.a. X. Utilizziamo anche l’abbreviazione CHF per la funzione caratteri-
stica.
136 CAPITOLO 2. VARIABILI ALEATORIE

Osservazione 2.4.2. Per semplicità, useremo anche la notazione x · η ≡ hx, ηi per il prodotto scalare in Rd .
Se X ∼ µX , per definizione si ha Z
ϕX (η) = eiη·x µX (dx).
Rd

P
Se X ha distribuzione discreta pn δxn allora ϕX è data dalla serie di Fourier
n=1


X
ϕX (η) = pn eiη·xn .
n=1

Ricordiamo che, data una funzione sommabile f ∈ L1 (Rd ), solitamente si indica con19
Z
fˆ(η) = eiη·x f (x)dx, (2.4.1)
Rd

la trasformata di Fourier della funzione f . Se X ∈ AC con densità γX allora


Z
ϕX (η) = eiη·x γX (x)dx,
Rd

ossia la funzione caratteristica ϕX = γ̂X è la trasformata di Fourier della densità di X.

Proposizione 2.4.3. Valgono le seguenti proprietà:

i) ϕX (0) = 1;
h i
ii) ϕX (η) ≤ E eiη·X = 1 per ogni η ∈ Rd ;
h i
iii) ϕX (η + h) − ϕX (η) ≤ E eih·X − 1 e quindi, per il Teorema della convergenza dominata, ϕX è unifor-
memente continua su Rd ;

iv) indicando con α ∗ la matrice trasposta di α, si ha


h i h ∗ i
ϕαX+b (η) = E eihη,αX+bi = eihb,ηi E eihα η,Xi = eihb,ηi ϕX (α ∗ η); (2.4.2)

v) nel caso d = 1, ϕX (−η) = ϕ−X (η) = ϕX (η) dove z̄ indica il coniugato di z ∈ C. Di conseguenza, se X ha
distribuzione pari20 , ossia µX = µ−X , allora ϕX assume valori reali e in tal caso vale
Z Z
iηx
ϕX (η) = e µX (dx) = cos(xη)µX (dx).
R R
19 In realtà, a seconda dei campi di applicazione, si utilizzano diverse convenzioni per la definizione della trasformata di Fourier:
per esempio, di solito nei corsi di analisi matematica si definisce
Z
fˆ(η) = e−iη·x f (x)dx
Rd
mentre nelle applicazioni all’ingegneria, a volte si usa la definizione
Z
1
fˆ(η) = d
eiη·x f (x)dx.
d
(2π) 2 R
Quest’ultima è anche la definizione utilizzata nel software Mathematica. Noi useremo sempre la (2.4.1) che è la definizione usata
abitualmente in teoria della probabilità. Occorre in particolare fare attenzione alla formula per l’inversione della trasformata di
Fourier che è diversa in base alla notazione utilizzata.
20 Ciò è vero in particolare se X ha densità γ che è una funzione pari, ossia γ (x) = γ (−x), x ∈ R.
X X X
2.4. FUNZIONE CARATTERISTICA 137

Consideriamo ora alcuni esempi notevoli:

i) se X ∼ δx0 , con x0 ∈ Rd , allora


ϕX (η) = eiη·x0 .

Osserviamo che in questo caso ϕX < L1 (Rd ) perchè ϕX (η) ≡ 1 per ogni η ∈ Rd . Come caso particolare,
se X ∼ δ0 allora ϕX ≡ 1. Inoltre se X ∼ 12 (δ−1 + δ1 ) allora ϕX (η) = cos η.

ii) se X ∼ Bep , con p ∈ [0, 1], allora


 
ϕX (η) = 1 + p eiη − 1 .
Inoltre, poichè X ∼ Binn,p uguale in legge alla somma X1 + · · · + Xn di n v.a. di Bernoulli indipendenti
(cfr. Proposizione 2.5.3) allora
h i  h in   n
ϕX (η) = E eiη(X1 +···+Xn ) = E eiηX1 = 1 + p eiη − 1 . (2.4.3)

iii) se X ∼ Poissonλ , con λ > 0, allora



X λk ikη   
ϕX (η) = e−λ e = exp λ eiη − 1 .
k!
k=0

iv) se X ∼ Unif[−1,1] allora


sin η
ϕX (η) = , η ∈ R. (2.4.4)
η
Si veda la Figura 2.6 per il grafico della densità uniforme e della sua trasformata di Fourier. Anche in
questo caso ϕX < L1 (R) (si veda, per esempio, [21] Cap.5 Sez.12).

Figura 2.6: Grafico della densità uniforme su [−1, 1] (in blu) e della relativa funzione caratteristica (in
arancio)

v) se X è una v.a. con distribuzione di Cauchy, ossia X ha densità

1
γX (x) = , x ∈ R, (2.4.5)
π (1 + x2 )
138 CAPITOLO 2. VARIABILI ALEATORIE

allora
ϕX (η) = e−|η| , η ∈ R.

Si veda la Figura 2.7 per il grafico della densità di Cauchy e della sua trasformata di Fourier. Si noti
che in questo caso ϕX è una funzione continua ma non differenziabile nell’origine.

Figura 2.7: Grafico della densità di Cauchy (2.4.5) (in blu) e della relativa funzione caratteristica (in arancio)

vi) un esempio fondamentale: se X ∼ Nµ,σ 2 , con µ ∈ R e σ ≥ 0, allora


1 2η2
ϕX (η) = eiηµ− 2 σ , η ∈ R. (2.4.6)

Osserviamo che per σ = 0 ritroviamo la CHF della delta di Dirac centrata in µ.


Anzitutto proviamo la (2.4.6) nel caso standard µ = 0 e σ = 1. Preliminarmente osserviamo che
trattandosi della trasformata di Fourier di una funzione pari si ha (cfr. Proposizione 2.4.3-v))
x2
e− 2
Z
ϕX (η) = cos(ηx) √ dx.
R 2π
Ora calcoliamo la derivata di ϕX : utilizzando un teorema di scambio di segno di derivata-integrale
nella prima uguaglianza, si ha
x2
e− 2
Z
d
ϕ (η) = sin(ηx)(−x) √ dx
dη X R 2π
x2 2
d − x2
(poichè −xe− 2 = dx e )

x2
d e− 2
Z
= sin(ηx) √ dx =
R dx 2π

(integrando per parti )


x2
2 x=+∞ e− 2
Z
1

− x2
=√ sin(ηx)e − η cos(ηx) √ dx
2π x=−∞ R 2π
2.4. FUNZIONE CARATTERISTICA 139

= −ηϕX (η).

In definitiva, ϕX è la soluzione (unica) del problema di Cauchy



d
 dη ϕX (η) = −ηϕX (η),



ϕX (0) = 1,

da cui si ha la tesi:
η2
ϕX (η) = e− 2 . (2.4.7)
Y −µ
Per il caso generale in cui Y ∼ Nµ,σ 2 , basta considerare X := σ ∼ N0,1 e combinare la (2.4.7) con la
(2.4.2).

vii) se X ∼ Expλ , con λ ∈ R>0 , allora


Z +∞
λ
ϕX (η) = λ eiηx−λx dx = .
0 λ − iη

2.4.1 Il teorema di inversione


In questa sezione dimostriamo l’importante formula di inversione della funzione caratteristica (Teore-
ma 2.4.5). Cominciamo con un esercizio preliminare.
sin x
Esercizio 2.4.4. Proviamo che vale la seguente formula per l’integrale generalizzato di x :
Z +∞ Z a
sin x sin x π
dx := lim dx = . (2.4.8)
0 x a→+∞ 0 x 2

Consideriamo la funzione
f (x, y) = e−xy sin x, x > 0, y > 0.

Poichè per ogni x, y, a > 0 vale


Z +∞
sin x
f (x, y)dy = ,
0 x
Za
1 e−ay ye−ay
f (x, y)dx = 2
− 2
cos a − sin a,
0 1+y 1+y 1 + y2

per il Teorema di Fubini si ha


a +∞ +∞
e−ay ye−ay
Z Z Z
sin x
dx = arctan a − cos a dy − sin a dy, a > 0,
0 x 0 1 + y2 0 1 + y2

1
e di conseguenza, poichè 1+y 2
≤ 1,
Z a Z +∞
sin x 1+a
− arctan a ≤ (1 + y)e−ay dy = 2 , a > 0.

0 x 0 a
sin x
Questo prova la (2.4.8). Osserviamo che x è integrabile in senso generalizzato ma non è una funzione
sommabile.
140 CAPITOLO 2. VARIABILI ALEATORIE

Teorema 2.4.5 (Teorema di inversione). [!!]


Sia µ una distribuzione su (R, B) e
Z
ϕ(η) := eixη µ(dx), η ∈ R. (2.4.9)
R

Allora per ogni a < b si ha


R
e−iaη − e−ibη
Z
1 1
µ(]a, b[) + µ({a, b}) = lim ϕ(η)dη. (2.4.10)
2 R→+∞ 2π −R iη

Inoltre se ϕ ∈ L1 (R) allora µ è assolutamente continua e ha per densità la funzione


Z
1
γ(x) := e−ixη ϕ(η)dη, x ∈ R. (2.4.11)
2π R
Osservazione 2.4.6. Come conseguenza del Teorema 2.4.5, si ha che la CHF di una v.a. identifica la sua legge:
in altri termini, se X e Y sono v.a. con funzioni caratteristiche uguali,

ϕX (η) = ϕY (η), η ∈ R,

allora anche le relative leggi µX e µY coincidono

µX (H) = µY (H), H ∈ B.

Corollario 2.4.7. [!] Se µ, ν sono distribuzioni tali che


Z Z
f dµ = f dν
R R

per ogni f ∈ bC(R) allora µ ≡ ν.


Dimostrazione. Scegliendo f della forma f (x) = cos(xη) o f (x) = sin(xη), con η ∈ R, dall’ipotesi si deduce
che le CHF di µ e ν sono uguali. La tesi segue dal Teorema 2.4.5.

Osservazione 2.4.8. Sia µ una distribuzione con densità f tale che fˆ ∈ L1 (R): per il Teorema 2.4.5 anche γ
definita da (2.4.9)-(2.4.11) è densità di µ e quindi per l’Osservazione 1.4.19 si ha f = γ q.o. ossia
Z
1
f (x) = e−ixη fˆ(η)dη per quasi ogni x ∈ R, (2.4.12)
2π R
dove l’integrale nel membro a destra è una funzione limitata e uniformemente continua su R (per la
Proposizione 2.4.3). La (2.4.12) è la classica formula di inversione della trasformata di Fourier.
Si noti che una densità f non è necessariamente limitata e continua (anzi, si può modificare su ogni
Boreliano Lebesgue-trascurabile, mantenendo invariata la sua trasformata di Fourier): tuttavia se fˆ ∈ L1 (R)
allora f è necessariamente uguale q.o. a una funzione limitata e continua.
Osservazione 2.4.9. In base al Teorema 2.4.5, se ϕX ∈ L1 (R) allora X ∈ AC e una densità di X è data dalla
formula di inversione Z
1
γX (x) = e−ixη ϕX (η)dη, x ∈ R.
2π R
La condizione ϕX ∈ L1 (R) è solo sufficiente ma non necessaria per l’assoluta continuità di µ. Infatti, per
l’Osservazione 2.4.8, se ϕX ∈ L1 (R) allora necessariamente la densità di X è uguale q.o. a una funzione
continua: tuttavia, per esempio, la distribuzione uniforme su [−1, 1] è assolutamente continua ma ha den-
sità γ(x) = 21 1[−1,1] (x) che non è uguale q.o. a una funzione continua; in effetti, la sua CHF in (2.4.4) non è
sommabile.
2.4. FUNZIONE CARATTERISTICA 141

Dimostrazione del Teorema 2.4.5. Fissati a, b ∈ R con a < b, poniamo


b
e−iaη − e−ibη
Z
Fa,b (η) := , e−ixη dx =
η ∈ R. (2.4.13)
a iη

Osserviamo che, per la disuguaglianza triangolare, Fa,b (η) ≤ b − a. Dunque per il Teorema di Fubini, per
ogni R > 0 si ha
Z R Z Z R !
1 1 ixη
Fa,b (η)ϕ(η)dη = Fa,b (η)e dη µ(dx). (2.4.14)
2π −R 2π R −R

Essendo coseno e seno rispettivamente funzioni pari21 e dispari, si ha



Z R Z R

π ! se x ∈ {a, b},
ixη sin((x − a)η) sin((x − b)η) 

Fa,b (η)e dη = 2 − dη −→ 2π se x ∈ ]a, b[, (2.4.15)

−R 0 η η 

0

se x < [a, b],

al limite per R → +∞: questo segue dal fatto che per la (2.4.8), vale22

π
Z R Z λR Z |λ|R

 2 se λ > 0,
sin λη sin η sin η 

dη = dη = sgn(λ) dη −→ 0 se λ = 0,

0 η 0 η 0 η 
 π

−2 se λ < 0.

Ora utilizziamo il Teorema 2.2.11 della convergenza dominata23 per passare al limite per R → +∞ in
(2.4.14) e questo prova la (2.4.10).

Proviamo la seconda parte della tesi: se ϕ ∈ L1 (R) allora, ricordando che F (η)ϕ(η) ≤ (b − a)|ϕ(η)| e a,b
applicando il Teorema della convergenza dominata per passare al limite in R nella (2.4.10), otteniamo
Z
1 1
F (η)ϕ(η)dη = µ(]a, b[) + µ({a, b}) ≥ µ({b}). (2.4.16)
2π R a,b 2

Ma la disuguaglianza in (2.4.16), ancora per il Teorema della convergenza dominata e passando al limite
per a → b− , implica che µ({b}) = 0 per ogni b ∈ R e quindi vale
Z
1
µ(]a, b[) = F (η)ϕ(η)dη =
2π R a,b

(utilizzando la seconda uguaglianza nella (2.4.13) e il Teorema di Fubini)


Z b Z ! Z b
1 −ixη
= e ϕ(η)dη dx = γ(x)dx,
a 2π R a

e quindi γ in (2.4.11) è densità di µ.


21 Di conseguenza l’integrale fra −R e R della funzione pari cos η moltiplicata per la funzione dispari 1 si annulla.
η
22 Definiamo la funzione segno nel modo seguente



1 se λ > 0,

sgn(λ) =  0 se λ = 0,



−1 se λ < 0.

Rr
23 Per la (2.4.15), il modulo dell’integrando in (2.4.14) è limitato da 2 sup sin η dη < +∞
η
r>0 0
142 CAPITOLO 2. VARIABILI ALEATORIE

Sia X = (X1 , . . . , Xn ) una v.a. La CHF di X è detta anche funzione caratteristica congiunta delle v.a.
X1 , . . . , Xn ; viceversa, ϕX1 , . . . , ϕXn sono dette CHF marginali di X.
Proposizione 2.4.10. Sia X = (X1 , . . . , Xn ) una v.a. Allora:
i) ϕXi (ηi ) = ϕX (0, . . . , 0, ηi , 0, . . . , 0);
ii) X1 , . . . , Xn sono indipendenti se e solo se
n
Y
ϕX (η) = ϕXi (ηi ), η = (η1 , . . . , ηn ).
i=1

Dimostrazione. La proprietà i) è immediata conseguenza della definizione di funzione caratteristica. Pro-


viamo la ii) solo nel caso n = 2. Se X1 , X2 sono indipendenti allora lo sono anche le v.a. eiη1 ·X1 , eiη2 ·X2 e
quindi si ha h i h i h i
ϕX (η1 , η2 ) = E eiη1 ·X1 +iη2 ·X2 = E eiη1 ·X1 E eiη2 ·X2 = ϕX1 (η1 )ϕX2 (η2 ).
d d
Viceversa, consideriamo due v.a. X
e1 , X e1 =
e2 indipendenti e tali che X e2 =
X1 e X X2 . Allora si ha

ϕ(Xe1 ,Xe2 ) (η1 , η2 ) = ϕXe1 (η1 )ϕXe2 (η2 ) = ϕX1 (η1 )ϕX2 (η2 ) = ϕ(X1 ,X2 ) (η1 , η2 ).

Poichè (X1 , X2 ) e (X e2 ) hanno uguale CHF, per il Teorema 2.4.5, hanno anche uguale legge: da questo
e1 , X
segue24 che X1 , X2 sono indipendenti.

2.4.2 Distribuzione normale multidimensionale


Fissati µ ∈ Rd e C matrice d ×d, simmetrica e definita positiva, definiamo la funzione di densità Gaussiana
d-dimensionale di parametri µ e C nel modo seguente:

1 1 −1
Γ (x) = p e− 2 hC (x−µ),x−µi , x ∈ Rd . (2.4.17)
d
(2π) det C

Un calcolo diretto mostra che


Z
Γ (x)dx = 1, (2.4.18)
Rd
Z
xi Γ (x)dx = µi , (2.4.19)
d
ZR  
(xi − µi ) xj − µj Γ (x)dx = Cij , (2.4.20)
Rd

per ogni i, j = 1, . . . , d. La (2.4.18) mostra semplicemente che Γ è una densità; le (2.4.19) e (2.4.20) motivano
la seguente
Definizione 2.4.11. Se X è una v.a. d-dimensionale con densità Γ in (2.4.17) allora diciamo che X ha
distribuzione multi-normale con media µ e matrice di covarianza C e scriviamo X ∼ Nµ,C .
Chiaramente, se X ∼ Nµ,C allora E [X] = µ per la (2.4.19) e cov(X) = C per la (2.4.20).
Proposizione 2.4.12. [!] La CHF di X ∼ Nµ,C è data da
1
ϕX (η) = eihµ,ηi− 2 hCη,ηi , η ∈ Rd . (2.4.21)
24 Per esercizio, giustificare nei dettagli questa affermazione.
2.4. FUNZIONE CARATTERISTICA 143

Dimostrazione. Si tratta del calcolo della trasformata di Fourier di Γ in (2.4.17): esso è analogo al caso
uno-dimensionale (cfr. formula (2.4.6)).
Osserviamo che la CHF in (2.4.21) è una funzione Gaussiana in cui all’esponente appaiono un termine
lineare in η che dipende solo dal parametro di media µ e un termine quadratico in η che dipende solo dalla matrice
di covarianza C.
È notevole il fatto che, a differenza della densità Γ in cui compare l’inversa di C, nella funzione carat-
teristica ϕX compare la forma quadratica della matrice C stessa. Dunque affinchè ϕX sia ben definita non
è necessario che C sia strettamente definita positiva. In effetti in molte applicazioni capita di avere matrici
di covarianza degeneri e pertanto risulta utile estendere la Definizione 2.4.11 nel modo seguente:
Definizione 2.4.13. Dati µ ∈ Rd e C matrice d × d, simmetrica e semi-definita positiva, diciamo che X ha
distribuzione multi-normale e scriviamo X ∼ Nµ,C , se la CHF di X è la ϕX in (2.4.21).
In base al Teorema 2.4.5, la definizione precedente è ben posta poichè la funzione caratteristica identi-
fica univocamente la distribuzione. Inoltre la Definizione 2.4.13 non è vuota nel senso che una v.a. X, che
abbia ϕX in (2.4.21) come funzione caratteristica, esiste: infatti per l’Osservazione 2.2.43, data C, matrice
d × d simmetrica e semi-definita positiva, esiste α tale che C = αα ∗ ; allora basta porre X = αZ + µ dove Z è
una v.a. multi-normale standard, ossia Z ∼ N0,I con I matrice identità d × d. Infatti per la (2.4.2) si ha
|α ∗ η |2 1
ϕαZ+µ (η) = eiη·µ ϕZ (α ∗ η) = eiη·µ− 2 = eihµ,ηi− 2 hCη,ηi .
Osservazione 2.4.14. Quando usiamo notazioni matriciali, il vettore aleatorio d-dimensionale X viene
identificato con la matrice colonna d × 1.
Utilizzando la funzione caratteristica è facile provare alcune proprietà fondamentali della distribuzione
normale, come per esempio l’invarianza per trasformazioni lineari.
Proposizione 2.4.15. [!] Siano X ∼ Nµ,C , una matrice α costante N × d e β ∈ RN con N ∈ N. Allora αX + β
è una v.a. con distribuzione normale N -dimensionale:
αX + β ∼ Nαµ+β,αCα ∗ . (2.4.22)
Dimostrazione. Calcoliamo la CHF di αX + β: per la Proposizione 2.4.3-iv) si ha

ϕαX+β (η) = eihη,βi ϕX (α ∗ η) =


(per l’espressione (2.4.21) della CHF di X calcolata in α ∗ η)
∗ ηi− 1 hCα ∗ η,α ∗ ηi
= eihη,βi eihµ,α 2

1 ∗ η,ηi
= eihαµ+β,ηi− 2 hαCα ,
da cui la tesi.
Come conseguenze notevoli della (2.4.22) si ha che se (X, Y ) ha distribuzione normale bidimensionale
allora, per esempio, X e X + Y sono v.a. con distribuzione normale.
Esempio 2.4.16. [!] Siano X, Y ∼ N0,1 indipendenti e (u, v) ∈ R2 tale che u 2 + v 2 = 1. Proviamo che
Z := uX + vY ∼ N0,1 .
Una semplice applicazione del Teorema 2.3.22 mostra che (X, Y ) ∼ N0,I dove I indica la matrice identità
2 × 2; allora poichè !
X  
uX + vY = α , con α = u v ,
Y
la tesi segue dalla (2.4.22), essendo
var(Z) = αα ∗ = u 2 + v 2 = 1.
144 CAPITOLO 2. VARIABILI ALEATORIE

Esempio 2.4.17. [!] Sia (X, Y , Z) ∼ Nµ,C con


 
 1 −1 1 
µ = (µX , µY , µZ ) , C = −1 2 −2 .
 
1 −2 2
 

Si noti che C ≥ 0 e det C = 0 (le ultime due righe di C sono linearmente dipendenti): dunque (X, Y , Z) non
ha densità. Tuttavia Y ∼ NµY ,2 e (X, Z) ∼ N(µX ,µZ ),Ĉ con
!
1 1
Ĉ = ,
1 2

e quindi Y e (X, Z) hanno densità Gaussiana. Per completezza riportiamo la matrice α della fattorizzazione
C = αα ∗ di Cholesky (cfr. Osservazione 2.2.43):
 
1 −1 1 
α = 0 1 −1 .
 
0 0 0
 

Proposizione 2.4.18. [!] Sia X = (X1 , . . . , Xd ) una v.a. con distribuzione normale d-dimensionale. Le v.a
X1 , . . . , Xd sono indipendenti se e solo se sono scorrelate, ossia cov (Xh , Xk ) = 0 per ogni h, k = 1, . . . , d.
Dimostrazione. Se X1 , . . . , Xd sono v.a. indipendenti allora cov (Xh , Xk ) = 0 per il Teorema 2.3.26. Viceversa,
poniamo µh = E [Xh ] e Chk = cov (Xh , Xk ): per la Proposizione 2.4.15, la v.a. Xh ha distribuzione normale con
CHF data da 1 2
ϕXh (ηh ) = eiµh ηh − 2 Chh ηh , ηh ∈ R.
D’altra parte, per ipotesi Chk = Ckh = 0 e quindi
d
iµ·η− 21
P
Chh ηh2 d
Y
ϕX (η) = e h=1 = ϕXh (ηh ), η = (η1 , . . . , ηd ) ∈ Rd ,
h=1

e quindi la tesi segue dalla Proposizione 2.4.10.


Esempio 2.4.19. [!] In questo esempio mostriamo che, nella Proposizione 2.4.18, l’ipotesi che X1 , . . . , Xd
abbiano distribuzione congiunta normale non si può rimuovere, dando un esempio di v.a. con distribuzioni
marginali normali che sono scorrelate ma non indipendenti.
Consideriamo due v.a. indipendenti, rispettivamente con distribuzione normale standard, X ∼ N0,1 ,
e di Bernoulli, Z ∼ µZ := 12 (δ−1 + δ1 ). Posto Y = ZX, proviamo che Y ∼ N0,1 : infatti, per l’ipotesi di
indipendenza, la distribuzione congiunta di X e Z è la distribuzione prodotto

N0,1 ⊗ µZ

e quindi per ogni f ∈ mB e limitata si ha


Z
f (zx) N0,1 ⊗ µZ (dx, dz) =

E [f (ZX)] =
R2

(per il Teorema di Fubini)


Z Z !
= f (zx)N0,1 (dx) µZ (dz)
R R
Z Z
1 1
= f (−x)N0,1 (dx) + f (x)N0,1 (dx)
2 R 2 R
2.4. FUNZIONE CARATTERISTICA 145
Z
= f (x)N0,1 (dx).
R

In particolare, se f = 1H con H ∈ B, si ottiene

P (Y ∈ H) = N0,1 (H),

ossia Y ∼ N0,1 .

Proviamo ora che cov(X, Y ) = 0 ma X, Y non sono indipendenti. Si ha:


h i
cov(X, Y ) = E [XY ] = E ZX 2 =

(per l’indipendenza di X e Z)
h i
= E [Z] E X 2 = 0.

Verifichiamo che X, Y non sono indipendenti:

P ((X ∈ [0, 1]) ∩ (Y ∈ [0, 1])) = P ((X ∈ [0, 1]) ∩ (ZX ∈ [0, 1])) =

(poichè sull’evento (X ∈ [0, 1]) si ha (ZX ∈ [0, 1]) = (Z = 1) ∩ (X ∈ [0, 1]))

= P ((X ∈ [0, 1]) ∩ (Z = 1)) =

(per l’indipendenza di X e Z)

1
= P (X ∈ [0, 1]).
2

D’altra parte, essendo Y ∼ N0,1 , si ha P (Y ∈ [0, 1]) < 1


2 e quindi P ((X ∈ [0, 1])∩(Y ∈ [0, 1])) < P (X ∈ [0, 1])P (Y ∈
[0, 1]).

Questo esempio non contraddice la Proposizione 2.4.18 poichè X, Y non hanno distribuzione congiunta
normale. Infatti la CHF congiunta è data da
h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y )
h i h i
= E eiX(η1 −η2 ) 1(Z=−1) + E eiX(η1 +η2 ) 1(Z=1) =

(per l’indipendenza di X e Z)

1 h iX(η1 −η2 ) i 1 h iX(η1 +η2 ) i


= E e + E e =
2 2

(poichè X ∼ N0,1 )
2 2
eη1 η2 + e−η1 η2 − η1 +η2
!
1 − (η1 −η2 )2 (η1 +η2 )2
= e 2 + e− 2 = e 2 ,
2 2

che non è la CHF di una normale bidimensionale. Incidentalmente questo prova anche che ϕ(X,Y ) (η1 , η2 ) ,
ϕX (η1 )ϕY (η2 ), ossia conferma che X, Y non sono indipendenti.
146 CAPITOLO 2. VARIABILI ALEATORIE

2.4.3 Sviluppo in serie della funzione caratteristica e momenti


h Proviamo
i un interessante risultato che mostra che i momenti di una v.a. X ∈ Lp (Ω, P ), ossia i valori attesi
E X k delle potenze di X con k ≤ p, possono essere ottenuti derivando la CHF di X (si veda in particolare
l’Osservazione 2.4.21).
Teorema 2.4.20. [!] Sia X una v.a. reale appartenente a Lp (Ω, P ) con p ∈ N. Allora vale il seguente sviluppo
della CHF di X intorno all’origine:
h i
p
X E (iX)k
ϕX (η) = η k + o(η p ) per η → 0. (2.4.23)
k!
k=0

Dimostrazione. Ricordiamo la formula di Taylor con resto di Lagrange per f ∈ C p (R): per ogni η ∈ R esiste
λ ∈ [0, 1] tale che
p−1 (k)
X f (0) f (p) (λη) p
f (η) = ηk + η .
k! p!
k=0

Applichiamo tale formula alla funzione f (η) = eiηX e otteniamo


 
p
X (iX) k (iX)p eiληX − 1
eiηX = ηk + ηp,
k! p!
k=0

dove in questo caso λ ∈ [0, 1] dipende da X e quindi è aleatorio. Applicando il valore atteso all’ultima
identità otteniamo h i
p
X E (iX)k
ϕX (η) = η k + R(η)η p
k!
k=0
dove
1 h p  iληX i
R(η) = E (iX ) e − 1 −→ 0 per η → 0,
p!
per il Teorema della convergenza dominata, poichè per ipotesi
 
(iX p ) eiληX − 1 ≤ 2|X|p ∈ L1 (Ω, P ).

Osservazione 2.4.21. [!]


Sia X ∈ Lp (Ω, P ). La (2.4.23) implica che ϕX è derivabile p volte nell’origine e inoltre, per l’unicità dello
sviluppo in serie di Taylor, vale
d k ϕX (η) h i
k
|η=0 = E (iX)k (2.4.24)

per ogni k = 0, . . . , p.
Esempio 2.4.22. Data X ∼ Nµ,σ 2 si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N (perchè?). Poichè

σ 2 η2
ϕX (η) = eiµη− 2

allora con molta pazienza (oppure con Mathematica) possiamo calcolare:


 
ϕ 0 (η) = i µ + iησ 2 ϕ(η),
2.5. COMPLEMENTI 147
  2 
ϕ (2) (η) = i 2 σ 2 + µ + iησ 2 ϕ(η),
   2 
ϕ (3) (η) = i 3 µ + iησ 2 3σ 2 + µ + iησ 2 ϕ(η),
 
ϕ (4) (η) = i 4 µ4 + 2µ2 σ 2 (3 + 2iµη) + 2η 2 σ 6 (−3 − 2iµη) + 3σ 4 (1 − 2µη(µη − 2i)) + η 4 σ 8 ϕ(η),

da cui

ϕ 0 (0) = iµ,
 
ϕ (2) (0) = − µ2 + σ 2 ,
 
ϕ (3) (0) = −i µ3 + 3µσ 2 ,
ϕ (4) (0) = µ4 + 6µ2 σ 2 + 3σ 4 .

Allora per la (2.4.24) si ha

E [X] = µ,
h i
E X 2 = µ2 + σ 2 ,
h i
E X 3 = µ3 + 3µσ 2 ,
h i
E X 4 = µ4 + 6µ2 σ 2 + 3σ 4 .

Esempio 2.4.23. Data X ∼ Expλ si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poichè

λ
ϕX (η) =
λ − iη

allora abbiamo:
i k k!λ
ϕ (k) (η) = , k ∈ N,
(λ − iη)k+1

da cui
i k k!
ϕ (k) (0) = .
λk
Allora per la (2.4.24) si ha
h i k!
E Xk = k .
λ

2.5 Complementi
2.5.1 Somma di variabili aleatorie
Teorema 2.5.1. Siano X, Y ∈ AC su (Ω, F , P ) a valori in Rd , con densità congiunta γ(X,Y ) . Allora X + Y ∈ AC
e ha densità Z
γX+Y (z) = γ(X,Y ) (x, z − x)dx, z ∈ Rd . (2.5.1)
Rd
148 CAPITOLO 2. VARIABILI ALEATORIE

Inoltre se X, Y sono indipendenti allora


Z
γX+Y (z) = (γX ∗ γY ) (z) := γX (x)γY (z − x)dx, z ∈ Rd . (2.5.2)
Rd

ossia la densità di X + Y è la convoluzione delle densità di X e Y .


Analogamente, se X, Y sono v.a. discrete su (Ω, P ) a valori in Rd , con funzione di distribuzione congiunta
µ̄(X,Y ) , allora X + Y è una v.a. discreta con funzione di distribuzione
X
µ̄X+Y (z) = µ̄(X,Y ) (x, z − x), z ∈ Rd .
x∈X(Ω)

In particolare, se X, Y sono indipendenti allora


X
µ̄X+Y (z) = (µ̄X ∗ µ̄Y )(z) := µ̄X (x)µ̄Y (z − x), (2.5.3)
x∈X(Ω)

ossia µ̄X+Y è la convoluzione discreta delle funzioni di distribuzione µ̄X di X e µ̄Y di Y .

Dimostrazione. Per ogni H ∈ Bd si ha


Z
P (X + Y ∈ H) = E [1H (X + Y )] = 1H (x + y)γ(X,Y ) (x, y)dxdy =
Rd ×Rd

(col cambio di variabili z = x + y)


Z
= 1H (z)γ(X,Y ) (x, z − x)dxdz =
Rd ×Rd

(per il Teorema di Fubini)


Z Z !
= γ(X,Y ) (x, z − x)dx dz,
H Rd

e questo prova che la funzione γX+Y in (2.5.1) è una densità di X + Y . Infine la (2.5.2) segue dalla (2.5.1) e
dalla (2.3.5).
Per quanto riguarda il caso discreto, si ha
 
 [  
µ̄X+Y (z) = P (X + Y = z) = P  (X, Y ) = (x, z − x)  =

 
x∈X(Ω)

(per la σ -additività di P )
X
= µ̄(X,Y ) (x, z − x) =
x∈X(Ω)

(nel caso in cui X, Y siano indipendenti, per la (2.3.6))


X
= µ̄X (x)µ̄Y (z − x).
x∈X(Ω)
2.5. COMPLEMENTI 149

Esempio 2.5.2. [!] Siano X, Y v.a. indipendenti su (Ω, F , P ) a valori in Rd . Procedendo come nella
dimostrazione del Teorema 2.5.1, si prova25 che se X ∈ AC allora anche (X + Y ) ∈ AC e ha densità
Z
γX+Y (z) = γX (z − y)µY (dy), z ∈ Rd . (2.5.4)
Rd

Per esempio, siano X ∼ Nµ,σ 2 e Y ∼ Bep indipendenti. Allora X + Y è assolutamente continua e, posto

1 1 x−µ 2
Γµ,σ 2 (x) = √ e− 2 ( σ ) ,
2πσ 2
per la (2.5.4), X + Y ha densità
Z
γX+Y (z) = Γµ,σ 2 (z − y)Bep (dy)
Rd
= pΓµ,σ 2 (z − 1) + (1 − p)Γµ,σ 2 (z)
= pΓµ+1,σ 2 (z) + (1 − p)Γµ,σ 2 (z)

Più in generale, se Y è una v.a. discreta con distribuzione del tipo (2.1.4), ossia
X
pn δyn ,
n≥1

allora X + Y ha densità che è combinazione lineare di Gaussiane con la medesima varianza e con i poli
traslati di yn : X
γX+Y (z) = pn Γµ+yn ,σ 2 (z).
n≥1

2.5.2 Esempi notevoli


Proposizione 2.5.3 (Somma di Bernoulli indipendenti). Sia (Xi )i=1,...,n una famiglia di v.a. indipendenti
di Bernoulli, Xi ∼ Bep . Allora
S := X1 + · · · + Xn ∼ Binn,p . (2.5.5)
Di conseguenza se X ∼ Binn,p allora E [X] = E [S] e quindi

E [X] = nE [X1 ] = np, var(S) = nvar(X1 ) = np(1 − p). (2.5.6)

Inoltre se X ∼ Binn,p e Y ∼ Binm,p sono v.a. indipendenti allora X + Y ∼ Binn+m,p .

Dimostrazione. Posto
Ci = (Xi = 1), i = 1, . . . , n,
si ha che (Ci )i=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p. La v.a. S in
(2.5.5) indica il numero di successi fra le n prove (come nell’Esempio 2.1.7-iii)) e quindi, come abbiamo
già provato, S ∼ Binn,p . In alternativa, si può calcolare la funzione di distribuzione di S come convoluzione
discreta mediante la (2.5.3), ma i calcoli sono un po’ noiosi. Le formule (2.5.6) sono immediata conseguenza
della linearità dell’integrale e del fatto che la varianza di v.a. indipendenti è uguale alla somma delle singole
varianze (cfr. formula (2.3.8)).
Per provare la seconda parte dell’enunciato, consideriamo prima il caso in cui

X = X1 + · · · + Xn , Y = Y1 + · · · + Ym
25 Provarlo per esercizio!
150 CAPITOLO 2. VARIABILI ALEATORIE

con X1 , . . . , Xn , Y1 , . . . , Ym ∼ Bep indipendenti. Allora per quanto precedentemente provato si ha


X + Y = X1 + · · · + Xn + Y1 + · · · + Ym ∼ Binn+m,p .
d d
Consideriamo ora il caso generale in cui X 0 ∼ Binn,p e Y 0 ∼ Binm,p sono indipendenti: allora X 0 = X, Y 0 = Y
e la tesi segue dalla (2.5.3) poichè
µ̄X 0 +Y 0 = µ̄X 0 ∗ µ̄Y 0 = µ̄X ∗ µ̄Y = µ̄X+Y .

Esempio 2.5.4 (Modello binomiale). Uno dei più classici modelli utilizzati in finanza per descrivere l’e-
voluzione del prezzo di un titolo rischioso è il cosiddetto modello binomiale. Indichiamo con Xk il prez-
zo al tempo k, con k = 0, 1, . . . , n: si assume che X0 ∈ R>0 e, fissati due parametri 0 < d < u, si definisce
ricorsivamente
Xk = u αk d 1−αk Xk−1 , k = 1, . . . , n,
dove le αk sono v.a. indipendenti di Bernoulli, αk ∼ Bep . In definitiva si ha

uXk−1 con probabilità p,


Xk = 
dXk−1 con probabilità 1 − p,

e
Xn = u Yn d n−Yn S0
n
P
dove Yn = αk ∼ Binn,p per la Proposizione 2.5.3. Allora vale
k=1
!
k n−k n k
P (Xn = u d X0 ) = P (Yn = k) = p (1 − p)n−k , k = 0, . . . , n,
k
sono le probabilità dei possibili prezzi al tempo n.
Esempio 2.5.5 (Somma di Poisson indipendenti). Siano λ1 , λ2 > 0 e X1 ∼ Poissonλ1 , X2 ∼ Poissonλ2
indipendenti. Allora X1 + X2 ∼ Poissonλ1 +λ2 .
Infatti, se µ̄1 , µ̄2 sono le funzioni di distribuzione di X1 , X2 , per il Teorema 2.5.1 si ha
n
X
µ̄X1 +X2 (n) = (µ̄1 ∗ µ̄2 )(n) = µ̄1 (k)µ̄2 (n − k) =
k=0

(gli estremi in cui varia k nella sommatoria sono determinati dal fatto che µ̄1 (k) , 0 solo se k ∈ N0 e
µ̄2 (n − k) , 0 solo se n − k ∈ N0 )
n n
λk λn−k e−λ1 −λ2 X n k n−k e−(λ1 +λ2 )
X !
= e−λ1 1 e−λ2 2 = λ λ = (λ1 + λ2 )n .
k! (n − k)! n! k 1 2 n!
k=0 k=0

Esempio 2.5.6 (Somma di normali indipendenti). Se X ∼ Nµ,σ 2 e Y ∼ Nν,δ2 sono v.a. reali indipendenti,
allora
X + Y ∼ Nµ+ν,σ 2 +δ2 .

Infatti, per la (2.5.2) e posto


1 1 x−µ 2
γµ,σ 2 (x) := √ e− 2 ( σ ) , x ∈ R,
σ 2π
un calcolo diretto mostra che
γµ,σ 2 ∗ γν,δ2 = γµ+ν,σ 2 +δ2 .
2.5. COMPLEMENTI 151

Esempio 2.5.7 (Chi-quadro a n gradi di libertà). Come diretta conseguenza del Teorema 2.5.1, si verifica
che se X ∼ Gammaα,λ e Y ∼ Gammaβ,λ v.a. reali indipendenti, allora
X + Y ∼ Gammaα+β,λ . (2.5.7)
Come caso particolare si ha che se X, Y ∼ Expλ = Gamma1,λ sono v.a. indipendenti, allora
X + Y ∼ Gamma2,λ
con densità γX+Y (t) = λ2 te−λt 1R>0 (t).
Ricordiamo l’Esempio 2.1.37: la distribuzione chi-quadro χ2 := Gamma 1 , 1 è la distribuzione della
2 2
v.a. X 2 dove X ∼ N0,1 è una normale standard. Più in generale, date X1 , . . . , Xn v.a. indipendenti con
distribuzione N0,1 allora per la (2.5.7) si ha

Z := X12 + · · · + Xn2 ∼ Γ n , 1 . (2.5.8)


2 2

Le v.a. del tipo (2.5.8) intervengono in molte applicazioni e in particolare in statistica matematica (si veda
per esempio la Sezione 6.2.3 oppure, in [9], il Paragrafo 6.6 e il Capitolo 8). La distribuzione Γ n , 1 viene
2 2
detta distribuzione chi-quadro a n gradi di libertà ed è indicata con χ2 (n): dunque Z ∼ χ2 (n) se ha densità
x
1 e− 2
γn (x) = n   n 1R>0 (x). (2.5.9)
2 2 Γ n2 x1− 2

Più in generale, γn in (2.5.9) è una densità se n è un qualsiasi numero reale positivo, non necessariamente
intero.
Esempio 2.5.8. Studiamo la v.a. Z uguale alla “somma del lancio di due dadi”. Le v.a. che indicano
il risultato del lancio di ognuno dei due dadi hanno distribuzione uniforme Unif6 e sono indipendenti.
Allora se µ̄ indica la funzione di distribuzione di Unif6 , ossia µ̄(n) = 16 per n ∈ I6 = {1, . . . , 6}, per la (2.5.3) la
funzione di distribuzione di Z è data dalla convoluzione µ̄ ∗ µ̄:
X
(µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k), 2 ≤ n ≤ 12,
k

dove, affinchè µ̄(k) e µ̄(n − k) siano non nulli, deve valere k ∈ I6 e n − k ∈ I6 ossia
(n − 6) ∨ 1 ≤ k ≤ (n − 1) ∧ 6.
Dunque
(n−1)∧6
X (n − 1) ∧ 6 − (n − 6) ∨ 1 + 1
P (Z = n) = (µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k) = .
36
k=(n−6)∨1

Proposizione 2.5.9 (Massimo e minimo di variabili indipendenti). Siano X1 , . . . , Xn v.a. reali indipenden-
ti. Posto
X = max{X1 , . . . , Xn } e Y = min{X1 , . . . , Xn },
si ha la seguente relazione fra le funzioni di ripartizione26
n
Y
FX (x) = FXk (x), x ∈ R, (2.5.10)
k=1
n 
Y 
FY (y) = 1 − 1 − FXk (y) , y ∈ R.
k=1
26 Attenzione a non confondere la (2.5.10) e la (2.3.7)!
152 CAPITOLO 2. VARIABILI ALEATORIE

Dimostrazione. È sufficiente osservare che


n
\
(X ≤ x) = (Xk ≤ x), x ∈ R,
k=1

e quindi, sfruttando l’ipotesi di indipendenza,


 n  n n
\  Y Y
FX (x) = P (X ≤ x) = P  (Xk ≤ x) =
 P (Xk ≤ x) = FXk (x).
k=1 k=1 k=1

Per la seconda identità, si procede in maniera analoga utilizzando la relazione


n
\
(Y > x) = (Xk > x), x ∈ R.
k=1

Esercizio 2.5.10. Sia X il massimo fra il risultato del lancio di due dadi. Determinare P (X ≥ 4).
Soluzione. Consideriamo le v.a. indipendenti Xi ∼ Unif6 , i = 1, 2, dei risultati dei due lanci di dado. Allora
X = max{X1 , X2 } e si ha

P (X ≥ 4) = 1 − P (X ≤ 3) = 1 − FX (3) =

(per la Proposizione 2.5.9)

= 1 − FX1 (3)FX1 (3) =

(ricordando la (1.4.8))

3 3 3
= 1− · = .
6 6 4
Esempio 2.5.11. Se Xk ∼ Expλk , k = 1, . . . , n, sono v.a. indipendenti allora

Y := min{X1 , . . . , Xn } ∼ Expλ1 +···+λn .

Infatti, ricordiamo che le funzioni di densità e di ripartizione della distribuzione Expλ sono rispettivamente

γ(t) = λe−λt e F(t) = 1 − e−λt , t ≥ 0,

e sono nulle per t < 0. Allora per la Proposizione 2.5.9 si ha che


n 
Y  n
Y
FY (t) = 1 − 1 − FXk (t) = 1 − e−λk t , t ≥ 0,
k=1 k=1

che è proprio la CDF di Expλ1 +···+λn .


Esercizio 2.5.12. Provare che se Xi ∼ Geompi , i = 1, 2, sono indipendenti allora min{X1 , X2 } ∼ Geomp con
p = p1 + p2 − p1 p2 . Generalizzare il risultato al caso di n v.a. geometriche indipendenti.
Esercizio 2.5.13. Determinare la distribuzione di max{X, Y } e min{X, Y } dove X, Y sono v.a. indipendenti
con distribuzione X ∼ Unif[0,2] e Y ∼ Unif[1,3] .
Capitolo 3

Successioni di variabili aleatorie

It is remarkable that a science which


began with the consideration of
games of chance should have become
the most important object of human
knowledge.

Pierre Simon Laplace

L’oggetto di questo capitolo sono le successioni di variabili aleatorie. L’esistenza di tali successioni è
di per sè una questione non ovvia che affronteremo però in seguito, nel Capitolo 5, in modo generale e
sistematico (si veda in particolare il Corollario 5.1.27). Per il momento, dando per assunta l’esistenza, ci
occupiamo dello studio di varie nozioni di convergenza per successioni di variabili aleatorie; inoltre pro-
viamo alcuni risultati classici, la Legge dei grandi numeri e il Teorema centrale del limite, e ne analizziamo
alcune applicazioni fra cui l’importante metodo numerico stocastico noto come metodo Monte Carlo.

3.1 Convergenza per successioni di variabili aleatorie


In questa sezione riepiloghiamo e confrontiamo varie definizioni di convergenza di successioni di varia-
bili aleatorie. Consideriamo uno spazio di probabilità (Ω, F , P ) su cui sono definite una successione di v.a.
(Xn )n∈N e una v.a. X valori in Rd :

i) (Xn )n∈N converge quasi certamente a X se1


 
P lim Xn = X = 1.
n→∞

In tal caso scriviamo


q.c.
Xn −−−−→ X.

ii) Siano (Xn )n∈N e X rispettivamente una successione e una v.a. in Lp (Ω, P ) con p ≥ 1. Diciamo che
(Xn )n∈N converge a X in Lp se
lim E [|Xn − X|p ] = 0.
n→∞
1 Si ricordi che, per l’Osservazione 2.1.9, l’insieme
 
lim Xn = X ≡ {ω ∈ Ω | lim Xn (ω) = X(ω)}
n→∞ n→∞

è un evento.

153
154 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

In tal caso scriviamo


Lp
Xn −−−→ X.

iii) (Xn ) converge in probabilità a X se, per ogni ε > 0, vale

lim P (|Xn − X| ≥ ε) = 0.
n→∞

In tal caso scriviamo


P
Xn −−→ X.

iv) (Xn ) converge debolmente (o in legge o in distribuzione) a X se vale

lim E [f (Xn )] = E [f (X)]


n→∞

per ogni f ∈ bC dove bC = bC(Rd ) indica la famiglia delle funzioni continue e limitate da Rd a R. In
tal caso scriviamo
d
Xn −−−−→ X.

Osservazione 3.1.1 (Convergenza debole di distribuzioni). La convergenza debole non richiede che le va-
riabili Xn siano definite sullo stesso spazio di probabilità, ma dipende solo dalle distribuzioni delle variabili
stesse. Diciamo che una successione (µn )n∈N di distribuzioni su Rd converge debolmente alla distribuzione
µ e scriviamo
d
µn −−−−→ µ,
se vale Z Z
lim f dµn = f dµ per ogni f ∈ bC.
n→∞ Rd Rd
Poichè Z
E [f (Xn )] = f dµXn ,
Rd
la convergenza debole di (Xn )n∈N equivale alla convergenza debole della successione (µXn )n∈N delle corri-
d d
spondenti distribuzioni: in altri termini, Xn −−−−→ X se e solo se µXn −−−−→ µX .
d
Esempio 3.1.2. Sia (an )n∈N una successione di numeri reali convergente ad a ∈ R. Se Xn ∼ δan allora Xn −−−−→
X con X ∼ δa . Infatti, per ogni f ∈ bC, si ha
Z Z
f dδan = f (an ) −−−−−−→ f (a) = f dδa .
R n→∞ R

Esempio 3.1.3. Siano date due successioni di numeri reali (an )n∈N e (σn )n∈N tali che an −→ a ∈ R e 0 <
d
σn −→ 0 per n → ∞. Se Xn ∼ Nan ,σn2 allora Xn −−−−→ X con X ∼ δa . Infatti, per ogni f ∈ bC(R), si ha
Z Z  x−a 2
1 − 12 n
E[f (Xn )] = f dNan ,σn2 = f (x) p e σn dx =
R R 2πσn2
x−an
(col cambio di variabili z = √ )
σn 2

Z  √  e−z2
= f an + zσn 2 √ dz,
R π
3.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 155

che tende ad f (a) = E[f (X)] per il Teorema della convergenza dominata.
Notiamo che se le variabili Xn , n ∈ N, e X sono definite sullo stesso spazio di probabilità (Ω, F , P ), si ha
anche convergenza in L2 : infatti Xn , X ∈ L2 (Ω, P ), inoltre
h i h i h i
E |Xn − X|2 ≤ 2E |Xn − an |2 + 2E |an − X|2
h i
= 2E |Xn − an |2 + 2|an − a|2
= 2σn2 + 2|an − a|2 −−−−−−→ 0.
n→∞

3.1.1 Disuguaglianza di Markov


Teorema 3.1.4 (Disuguaglianza di Markov). [!]
Per ogni X v.a. a valori in Rd , λ > 0 e p ∈ [0, +∞[, vale la disuguaglianza di Markov:
E [|X|p ]
P (|X| ≥ λ) ≤ . (3.1.1)
λp
In particolare, se Y ∈ L2 (Ω, P ) è una v.a. reale, vale la disuguaglianza di Chebyschev:
var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ . (3.1.2)
λ2
Dimostrazione. Per quanto riguarda la (3.1.1), se E [|X|p ] = +∞ non c’è nulla da provare, altrimenti per la
proprietà di monotonia si ha
h i h i
E [|X|p ] ≥ E |X|p 1(|X|≥λ) ≥ λp E 1(|X|≥λ) = εp P (|X| ≥ λ) .

La (3.1.2) segue dalla (3.1.1) ponendo p = 2 e X = Y − E [Y ], infatti


h i
E |Y − E [Y ]|2 var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ = .
λ2 λ2

La disuguaglianza di Markov fornisce una stima per i valori estremi di X in termini della sua norma Lp .
Viceversa, si ha la seguente
Proposizione 3.1.5. Siano X una v.a. e f ∈ C 1 (R≥0 ) tale che f 0 ≥ 0 o f 0 ∈ L1 (R≥0 , µ|X| ). Allora
Z +∞
E [f (|X|)] = f (0) + f 0 (λ)P (|X| ≥ λ)dλ. (3.1.3)
0

Dimostrazione. Si ha
Z +∞
E [f (|X|)] = f (y)µ|X| (dy) =
0
Z +∞ Zy !
0
= f (0) + f (λ)dλ µ|X| (dy) =
0 0

(per il Teorema di Fubini)


Z +∞ Z +∞
0
= f (0) + f (λ) µ|X| (dy)dλ =
0 λ
Z +∞
= f (0) + f 0 (λ)P (|X| ≥ λ)dλ.
0
156 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

Esempio 3.1.6. Per f (x) = xp , p ≥ 1, dalla (3.1.3) abbiamo


Z +∞
p
E [|X| ] = p λp−1 P (|X| ≥ λ) dλ. (3.1.4)
0

Di conseguenza, per provare che X ∈ Lp è sufficiente stimare P (|X| ≥ λ), almeno per λ  1.
Esercizio 3.1.7. Provare la seguente generalizzazione della disuguaglianza di Markov: per ogni X v.a. a
valori in Rd , ε > 0 e f funzione reale su [0, +∞[ monotona (debolmente) crescente, vale

P (|X| ≥ ε)f (ε) ≤ E [f (|X|)] .

3.1.2 Relazioni fra le diverse definizioni di convergenza


Lemma 3.1.8. Sia (an )n∈N una successione in uno spazio topologico (E, T ). Se ogni sotto-successione
(ank )k∈N ammette una sotto-successione (ank )i∈N convergente al medesimo a ∈ E, allora anche (an )n∈N
i
converge ad a.
Dimostrazione. Per assurdo, se (an )n∈N non convergesse ad a allora esisterebbe U ∈ T tale che a ∈ U e una
sotto-successione (ank )k∈N tale che ank < U per ogni k ∈ N. In questo caso nessuna sotto-successione di
(ank )k∈N convergerebbe ad a, contraddicendo l’ipotesi.
Il seguente risultato riassume le relazioni fra i vari tipi di convergenza di successioni di v.a.: queste sono
rappresentate schematicamente nella Figura 3.1.
Teorema 3.1.9. Siano (Xn )n∈N una successione di v.a. e X una v.a. definite sullo stesso spazio di probabilità
(Ω, F , P ), a valori in Rd . Valgono le seguenti implicazioni:
q.c. P
i) se Xn −−−−→ X allora Xn −−→ X;
Lp P
ii) se Xn −−−→ X per qualche p ≥ 1 allora Xn −−→ X;
P q.c.
iii) se Xn −−→ X allora esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X;
P d
iv) se Xn −−→ X allora Xn −−−−→ X;
P
v) se Xn −−→ X ed esiste Y ∈ Lp (Ω, P ) tale che |Xn | ≤ Y q.c., per ogni n ∈ N, allora Xn , X ∈ Lp (Ω, P ) e
Lp
Xn −−−→ X;
d P
vi) se Xn −−−−→ X, con X ∼ δc , c ∈ Rd , allora Xn −−→ X.

Lp
 
Xn −−−→ X

se |Xn |≤Y ∈Lp

q.c.
     
P d
Xn −−−−→ X Xn −−→ X Xn −−−−→ X

sotto-successione se X ∼ δc

Figura 3.1: Relazioni fra i vari tipi di convergenza di v.a.


3.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 157

q.c.
Dimostrazione. i) Fissato ε > 0, se Xn −−−−→ X allora
q.c.
1(|Xn −X|≥ε) −−−−→ 0

e quindi per il Teorema della convergenza dominata si ha


h i
P (|Xn − X| ≥ ε) = E 1(|Xn −X|≥ε) −→ 0.

ii) Fissato ε > 0, per la disuguaglianza di Markov (3.1.1) si ha


E [|Xn − X|p ]
P (|Xn − X| ≥ ε) ≤
εp
da cui la tesi.
1
iii) Per ipotesi esiste una successione di indici (nk )k∈N , con nk → +∞, tale che P (Ak ) ≤ k2
dove

Ak := { X − Xnk ≥ 1/k}.

Poichè X
P (Ak ) < ∞,
k≥1

per il Lemma di Borel-Cantelli (Lemma 1.3.30-i)) si ha P (Ak i.o.) = 0: allora, per ogni ω ∈ (Ak i.o.)c si ha2

lim Xnk (ω) = X(ω)


k→∞

e questo prova la tesi.


iv) Sia f ∈ bC. Per il punto iii), ogni sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N
i
q.c. q.c.
tale che Xnk −−−−→ X. Poichè f è continua, si ha anche f (Xnk ) −−−−→ f (X) e poichè f è limitata si applica il
i i
Teorema della convergenza dominata per avere
h  i
lim E f Xnk = E [f (X)] .
i→∞ i

Ora per il Lemma 3.1.8 si ha anche


lim E [f (Xn )] = E [f (X)]
n→∞
da cui la tesi.
v) Dato che |Xn | ≤ Y q.c. e Y ∈ Lp (Ω, P ), è chiaro che Xn ∈ Lp (Ω, P ). Per quanto riguarda X, dal punto iii)
q.c.
sappiamo che esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X. Dato che |Xnk | ≤ Y q.c., per k → ∞
Lp
si ottiene |X| ≤ Y q.c., quindi X ∈ Lp (Ω, P ). Infine, mostriamo che Xn −−−→ X. Sempre per il punto iii), ogni
q.c.
sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N tale che Xnk −−−−→ X. Per il Teorema
i i
Lp Lp
della convergenza dominata si ha che Xnk −−−→ X. Dal Lemma 3.1.8 segue che Xn −−−→ X.
i
vi) Dati c ∈ Rd ed ε > 0, sia fε ∈ bC, non-negativa e tale che fε (x) ≥ 1 se |x − c| > ε e fε (c) = 0. Si ha
h i
P (|Xn − X| ≥ ε) = P (|Xn − c| ≥ ε) = E 1(|Xn −c|≥ε) ≤ E [fε (Xn )] −−−−−−→ fε (c) = 0.
n→∞

I seguenti esempi mostrano che le tre implicazioni iii), iv) e vi) del Teorema 3.1.9 non sono in generale
migliorabili. Nei primi due esempi consideriamo Ω = [0, 1] con la misura di Lebesgue.
2 Gli elementi di (A i.o.)c sono quelli che appartengono solo ad un numero finito di A .
k k
158 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

Esempio 3.1.10. La successione Xn (ω) = n2 1[0, 1 ] (ω), per ogni ω ∈ [0, 1], converge a zero quasi certamente
n
(e di conseguenza anche in probabilità), ma E [|Xn |p ] = n2p−1 diverge per ogni p ≥ 1.

Esempio 3.1.11. Diamo un esempio di successione (Xn ) che converge in Lp (e quindi anche in probabilità)
con 1 ≤ p < ∞, ma non quasi certamente. Rappresentiamo ogni intero positivo n come n = 2k + `, con
k = 0, 1, 2, . . . e ` = 0, . . . , 2k − 1. Notiamo che la rappresentazione è unica. Poniamo
" #
` `+1
Jn = k , k ⊆ [0, 1] e Xn (ω) = 1Jn (ω), ω ∈ [0, 1].
2 2

Per ogni p ≥ 1, vale


1
E [|Xn |p ] = E [Xn ] = Leb(Jn ) = ,
2k
Lp
e quindi Xn −−−→ 0 dato che k → ∞ quando n → ∞. D’altra parte, ciascun ω ∈ [0, 1] appartiene ad un numero
infinito di intervalli Jn e quindi la successione reale Xn (ω) non converge per ogni ω ∈ [0, 1].

Osservazione 3.1.12. [!] Non esiste una topologia che induce la convergenza quasi certa di variabili alea-
torie: in caso contrario si potrebbe combinare il Lemma 3.1.8 con il punto iii) del Teorema 3.1.9 per
P q.c.
concludere che se Xn −−→ X allora Xn −−−−→ X, in contraddizione con l’Esempio 3.1.11.

Esempio 3.1.13. Data una variabile aleatoria X ∼ Be 1 , poniamo


2


X,

 se n pari,
Xn = 
1 − X,
 se n dispari.

d
Poichè (1 − X) ∼ Be 1 allora chiaramente Xn −−−−→ X. Tuttavia P (Xn = X) = 0 per ogni n dispari: quindi Xn
2
non converge a X in probabilità (e, di conseguenza, nemmeno in Lp o quasi certamente).

3.2 Legge dei grandi numeri


In questa sezione dimostriamo una versione debole della Legge dei grandi numeri. Tale legge riguarda
successioni di v.a. reali (Xn )n∈N , definite sullo stesso spazio di probabilità (Ω, F , P ), con l’ulteriore ipotesi
che siano indipendenti e identicamente distribuite, o più sinteticamente i.i.d. Denotiamo

Sn
Sn = X1 + · · · + Xn , Mn = , (3.2.1)
n
rispettivamente la somma e la media aritmetica di X1 , . . . , Xn .

Teorema 3.2.1 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L2 (Ω, P ),
con valore atteso µ := E [X1 ] e varianza σ 2 := var(X1 ). La media aritmetica Mn converge debolmente alla v.a.
costante uguale µ:
d
Mn −−−−→ µ. (3.2.2)
Inoltre si ha
σ2
P (|Mn − µ| ≥ ε) ≤ , ε > 0, n ∈ N, (3.2.3)
nε2
ed anche
L2
Mn −−−→µ. (3.2.4)
3.2. LEGGE DEI GRANDI NUMERI 159

Dimostrazione. Per linearità, si ha


n
1X
E [Mn ] = E [Xk ] = µ,
n
k=1
e quindi
h i var(X1 + · · · + Xn )
E (Mn − µ)2 = var(Mn ) = =
n2
(per l’indipendenza, ricordando la (2.2.21))

var(X1 ) + · · · + var(Xn ) σ 2
= = . (3.2.5)
n n
Questo prova la (3.2.4). La (3.2.3) segue direttamente dalla disuguaglianza di Chebyschev (3.1.2). Infine,
la (3.2.2) segue dal Teorema 3.1.9-iv).
Osservazione 3.2.2. Con una dimostrazione molto più sofisticata, è possibile indebolire le ipotesi del Teo-
rema 3.2.1 e allo stesso tempo ottenere un risultato più forte, noto come Legge forte dei grandi numeri: se
(Xn )n∈N è una successione di v.a. reali i.i.d. in L1 (Ω, P ) con valore atteso µ := E [X1 ], allora Mn converge
quasi certamente a µ.
Esempio 3.2.3 (Strategia del raddoppio). Nel gioco della roulette si lancia una pallina che si può fermare
in una fra le 37 posizioni possibili, composte da 18 numeri rossi, 18 numeri neri e lo zero che è verde.
Consideriamo la strategia di gioco che consiste nel puntare sul rosso (la vincita è il doppio della giocata)
e raddoppiare la giocata ogni volta che si perde. Dunque alla prima giocata si punta 1 (ossia 20 ) Euro e,
in caso di perdita, alla seconda giocata si puntano 2 (ossia 21 ) Euro e cosı̀ via fino alla n-esima giocata in
cui, se si è sempre perso, si puntano 2n−1 Euro. A questo punto (ossia alla n-esima giocata avendo sempre
perso), l’ammontare giocato è pari a3

1 + 2 + · · · + 2n−1 = 2n − 1,

e ci sono due casi:


i) si perde e in tal caso la perdita complessiva è pari a 2n − 1;
ii) si vince e si incassano 2 · 2n−1 Euro. Il bilancio totale è dunque positivo ed è pari alla differenza fra la
vincita e l’ammontare giocato:
2n − (2n − 1) = 1.
19
La probabilità di perdere per n volte consecutive è pari a pn , dove p = 37 è la probabilità che la pallina si
fermi sul nero o sul verde. Di conseguenza, la probabilità di vincere almeno una volta su n giocate è pari a
1 − pn .
Consideriamo ora il caso in cui decidiamo di attuare la strategia del raddoppio fino ad un massimo di
10 giocate. Precisamente indichiamo con X il guadagno/perdita che otteniamo giocando al raddoppio e
incassando 1 Euro se vinciamo entro la decima giocata oppure perdendo 210 − 1 = 1023 Euro nel caso di 10
perdite consecutive. Allora X è una v.a. di Bernoulli che assume i valori −1023 con probabilità p10 ≈ 0.13%
e 1 con probabilità 1 − p10 ≈ 99.87%. Dunque attuando la strategia del raddoppio abbiamo che vinciamo 1
Euro con grande probabilità a fronte di una perdita rilevante (1023 Euro) in casi molto rari.
Potremmo pensare allora di attuare la strategia del raddoppio ripetutamente per N volte: per capire se
è conveniente possiamo calcolare la media
0.13 99.87
E [X] ≈ −1023 · +1· ≈ −0.3
100 100
n
3 Si ricordi che P ak = an+1 −1 per a , 1.
a−1
k=0
160 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

e interpretare tale risultato alla luce della Legge dei grandi numeri. Il fatto che E [X] sia pari a −0.3 significa
che se X1 , . . . , XN indicano i singoli guadagni/perdite allora complessivamente

X1 + · · · + XN

molto probabilmente sarà vicino a −0.3N . Questo è dovuto al fatto che il gioco non è equo per la presenza
dello zero (verde) per cui la probabilità di vincere puntando sul rosso è leggermente minore di 21 . In realtà
si può provare che se anche fosse p = 12 allora la strategia del raddoppio, col vincolo di raddoppiare al
massimo n volte, produrrebbe un guadagno medio nullo. Lo studio di questo tipo di problemi legati ai
giochi d’azzardo è all’origine di un ampio settore della Probabilità, la cosiddetta teoria delle martingale, che
insieme alle numerose applicazioni ha fondamentali e profondi risultati teorici: introdurremo il concetto
di martingala nella Sezione 5.1.4.

3.2.1 Cenni al metodo Monte Carlo


La Legge dei grandi numeri è alla base di un metodo numerico probabilistico molto importante, noto
come metodo Monte Carlo. In molte applicazioni si è interessati a calcolare (o almeno approssimare nume-
ricamente) il valore atteso E [f (X)] dove X è una v.a. in Rd e f ∈ L2 (Rd , µX ) (e quindi f (X) ∈ L2 (Ω, P )). Per
esempio, nel caso d = 1, se X ∼ Unif[0,1] e f ∈ L2 ([0, 1]), allora
Z 1
f (x)dx = E [f (X)]
0

ed è un fatto generale che un integrale (anche multi-dimensionale) ammetta una rappresentazione proba-
bilistica e il calcolo di esso possa essere ricondotto al calcolo di un valore atteso.
Ora supponiamo che (Xn )n∈N sia una successione di v.a. reali i.i.d. con la medesima distribuzione4 di
X. Per la Legge dei grandi numeri vale

f (X1 ) + · · · + f (Xm )
E[f (X)] = lim in L2 (Ω, P ).
m→∞ m
Questo risultato può essere tradotto in termini “pratici” nel modo seguente. Supponiamo di poter estrarre
casualmente un valore xn dalla v.a. Xn , per ogni n = 1, . . . , m con m ∈ N fissato, sufficientemente grande:
diciamo che xn è una realizzazione o simulazione della v.a. Xn . Allora un’approssimazione di E [f (X)] è data
dalla media aritmetica
m
1X
f (xn ). (3.2.6)
m
n=1

In (3.2.6) x1 , . . . , xm rappresentano m realizzazioni (simulazioni) indipendenti di X: in altri termini, xn è un


numero (non una v.a.) che è un particolare valore della v.a. Xn generato in modo indipendente da Xh per h , n.
La maggior parte dei software di calcolo scientifico possiede generatori di numeri aleatori per le principali
distribuzioni (uniforme, esponenziale, normale etc...). In definitiva, il metodo Monte Carlo permette di ap-
prossimare numericamente il valore atteso di una funzione di una v.a. di cui si sia in grado di generare (simulare)
dei valori casuali in modo indipendente.
I principali vantaggi rispetto ai metodi deterministici di integrazione numerica sono i seguenti:

i) per la convergenza del metodo non si richiedono ipotesi di regolarità sulla funzione f se non la somma-
bilità;

ii) l’ordine di convergenza del metodo è indipendente dalla dimensione d e l’implementazione in dimen-
sione maggiore di uno non comporta alcuna difficoltà aggiuntiva.
4 Si dice (X )
n n∈N è una successione di copie indipendenti di X.
3.2. LEGGE DEI GRANDI NUMERI 161

Le questioni della convergenza e della stima dell’errore numerico del metodo Monte Carlo saranno bre-
vemente discusse nell’Osservazione 3.4.7. Nella Sezione 5.5.1 accenneremo al fatto che il metodo Monte
Carlo può anche essere applicato alla risoluzione numerica di vari tipi di equazioni alle derivate parziali.
Al momento il Monte Carlo è l’unico metodo numerico conosciuto per risolvere problemi di grandi dimensioni
che tipicamente sorgono nelle applicazioni reali. Esistono molte monografie dedicate al Monte Carlo, fra cui
segnaliamo [15]; una presentazione sintetica del metodo si trova anche in [26].
La Figura 3.2 rappresenta l’istogramma di un vettore di 10.000 numeri casuali generati da una di-
stribuzione N1,3 : si vede in figura come l’istogramma “approssima” il grafico (la linea blu) della densità
Gaussiana di N1,3 .

Figura 3.2: Istogramma di un vettore di 10.000 numeri casuali estratti dalla distribuzione N1,3 e grafico
della densità Gaussiana di N1,3

3.2.2 Polinomi di Bernstein


Forniamo una dimostrazione probabilistica del noto risultato di densità dei polinomi nello spazio C([0, 1])
delle funzioni continue sull’intervallo [0, 1], rispetto alla norma uniforme.

Proposizione 3.2.4. Data f ∈ C([0, 1]), definiamo il polinomio di Bernstein di grado n associato a f nel modo
seguente
n !
X n k
fn (p) = p (1 − p)n−k f (k/n) , p ∈ [0, 1]. (3.2.7)
k
k=0

Allora si ha
lim kf − fn k∞ = 0,
n→∞

dove kf k∞ = max |f (p)|.


p∈[0,1]

Dimostrazione. Sia (Xn )n∈N una successione di v.a. reali i.i.d. aventi distribuzione Bep . Poniamo Mn =
X1 +···+Xn
n . Ricordiamo che, per la Proposizione 2.5.3, X1 + · · · + Xn ∼ Binn,p . Allora l’interpretazione probabi-
listica della formula (3.2.7) è
fn (p) = E [f (Mn )] , p ∈ [0, 1].
Ora osserviamo che
p(1 − p) 1
var (Mn ) = ≤ ,
n 4n
162 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

ed essendo E [Mn ] = p, per la disuguaglianza di Markov (3.1.2) si ha

1
P (|Mn − p| ≥ λ) ≤ , λ > 0. (3.2.8)
4nλ2
Poichè f è uniformemente continua su [0, 1], per ogni ε > 0 esiste λε tale che |f (x) − f (y)| ≤ ε se |x − y| ≤ λε .
Allora si ha

|f (p) − fn (p)| = |f (p) − E [f (Mn )]| ≤

(per la disuguaglianza di Jensen)

≤ E [|f (p) − f (Mn )|]


h i
≤ ε + E |f (p) − f (Mn )| 1(|Mn −p|≥λε )
≤ ε + 2kf k∞ P (|Mn − p| ≥ λε ) .

Utilizzando la (3.2.8) si ottiene


lim sup kf − fn k∞ ≤ ε
n→∞
e la tesi segue dall’arbitrarietà di ε.

3.3 Condizioni necessarie e sufficienti per la convergenza debole


In questa sezione studiamo due condizioni necessarie e sufficienti per la convergenza debole di una
successione (Xn )n∈N di v.a. reali: la prima è espressa in termini delle CDF (FXn )n∈N e la seconda in termini
delle CHF (ϕXn )n∈N .

3.3.1 Convergenza di funzioni di ripartizione


Poichè ogni distribuzione è identificata dalla propria CDF, è naturale chiedersi se ci sia una relazione
fra la convergenza debole e la convergenza puntuale delle relative CDF. Cominciamo col seguente semplice
Esempio 3.3.1. La successione delle distribuzioni uniformi Unif[0, 1 ] , con n ∈ N, converge debolmente alla
n
delta di Dirac δ0 poichè, per ogni f ∈ bC, si ha
Z Z 1 Z
n
f dUnif[0, 1 ] = n f (x)dx −−−−−−→ f (0) = f dδ0 .
R n
0 n→∞ R

La successione delle CDF FUnif 1]


, rappresentata in Figura 3.3, converge puntualmente a Fδ0 solo su R\{0}:
[0, n
notiamo che 0 è l’unico punto di discontinuità di Fδ0 .
Teorema 3.3.2. Siano (µn )n∈N una successione di distribuzioni reali e µ una distribuzione reale. Sono
equivalenti le seguenti affermazioni:
d
i) µn −−−−→ µ;
ii) Fµn (x) −−−−−−→ Fµ (x) per ogni x punto di continuità di Fµ .
n→∞

Dimostrazione. Ovviamente l’enunciato ha la seguente formulazione equivalente in termini di variabili


aleatorie: siano (Xn )n∈N una successione di v.a. reali e X una v.a. reale. Sono equivalenti le seguenti
affermazioni:
3.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 163

1.0

0.8

0.6

0.4

0.2

-2 -1 1 2

Figura 3.3: CDF delle distribuzioni Unif[0,1] (linea continua), Unif[0, 1 ] (linea tratteggiata) e Unif[0, 1 ] (linea
2 5
punteggiata).

d
i) Xn −−−−→ X;

ii) FXn (x) −−−−−−→ FX (x) per ogni x punto di continuità di FX .


n→∞

[i) =⇒ ii)] Fissiamo x, punto di continuità di FX : allora per ogni ε > 0 esiste δ > 0 tale che FX (x) − FX (y) ≤ ε
se |x − y| ≤ δ. Sia f ∈ bC tale che |f | ≤ 1 e

1 per y ≤ x,


f (y) = 
0 per y ≥ x + δ.

Notiamo che h i
E [f (Xn )] ≥ E f (Xn )1(Xn ≤x) = P (Xn ≤ x) = FXn (x).
Allora abbiamo

lim sup FXn (x) ≤ lim sup E [f (Xn )] =


n→∞ n→∞

d
(per ipotesi, poichè Xn −−−−→ X)

= E [f (X)] ≤ FX (x + δ) ≤ FX (x) + ε.

Analogamente, se f ∈ bC è tale che |f | ≤ 1 e



1 per y ≤ x − δ,


f (y) = 
0
 per y ≥ x,

allora h i
E [f (Xn )] ≤ E 1{Xn ≤x} = FXn (x).
Quindi abbiamo

lim inf FXn (x) ≥ lim inf E [f (Xn )] =


n→∞ n→∞

(per ipotesi)

= E [f (X)] ≥ FX (x − δ) ≥ FX (x) − ε.
164 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

La tesi segue dall’arbitrarietà di ε.

[ii) =⇒ i)] Dati a, b punti di continuità di FX , per ipotesi si ha


h i h i
E 1]a,b] (Xn ) = FXn (b) − FXn (b) −−−−−−→ FX (b) − FX = E 1]a,b] (X) .
n→∞

Fissiamo R > 0 e f ∈ bC col supporto contenuto nel compatto [−R, R]. Poichè i punti di discontinuità di
FX sono al più un’infinità numerabile, f può essere approssimata uniformemente (in norma L∞ ) mediante
combinazioni lineari di funzioni del tipo 1]a,b] con a, b punti di continuità di FX . Ne viene che anche per
tale f vale
lim E [f (Xn )] = E [f (X)] .
n→∞

Infine, fissiamo ε > 0 e consideriamo R abbastanza grande in modo che FX (−R) ≤ ε e FX (R) ≥ 1 − ε:
assumiamo inoltre che R e −R siano punti di continuità di FX . Allora per ogni f ∈ bC vale

E [f (Xn ) − f (X)] = J1,n + J2,n + J3

dove
h i h i
J1,n = E f (Xn )1]−R,R] (Xn ) − E f (X)1]−R,R] (X) ,
h i
J2,n = E f (Xn )1]−R,R]c (Xn ) ,
h i
J3 = −E f (X)1]−R,R]c (X) .

Ora, per quanto provato sopra, si ha


lim J1,n = 0
n→∞

mentre, per ipotesi,


 
J2,n ≤ kf k∞ FXn (−R) + (1 − FXn (R)) −−−−−−→ kf k∞ (FX (−R) + (1 − FX (R))) ≤ 2εkf k∞ ,
n→∞

e
|J3 | ≤ kf k∞ (FX (−R) + (1 − FX (R))) ≤ 2εkf k∞ .

Questo conclude la prova.

Non è sufficiente che le CDF Fµn convergano ad una funzione continua per concludere che µn converge
debolmente, come mostra il seguente

Esempio 3.3.3. [!] La successione di delta di Dirac δn non converge debolmente (perchè?), tuttavia

Fδn (x) = 1[n,+∞[ (x) −−−−−−→ 0, x ∈ R,


n→∞

ossia Fδn converge puntualmente alla funzione identicamente nulla che, ovviamente, è continua su R ma
non è una CDF.

L’Esempio 3.3.3 non contraddice il Teorema 3.3.2 poichè la funzione limite delle Fδn non è una funzione
di ripartizione. Tale esempio mostra anche che è possibile che una successione di CDF converga ad una
funzione che non è una CDF.
3.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 165

3.3.2 Compattezza nello spazio delle distribuzioni


In questa sezione introduciamo la proprietà di tightness5 che fornisce una caratterizzazione della relati-
va compattezza nello spazio delle distribuzioni reali: essa garantisce che da una successione di distribuzioni
si possa estrarre una sotto-successione convergente debolmente. In particolare, la tightness evita situazioni
come quella dell’Esempio 3.3.3.
Definizione 3.3.4 (Tightness). Una famiglia di distribuzioni reali (µi )i∈I è tight se per ogni ε > 0 esiste
M > 0 tale che  
µi ] − ∞, −M] ∪ [M, +∞[ ≤ ε per ogni i ∈ I.

Esercizio 3.3.5. Provare che ogni famiglia costituita da una singola distribuzione reale è tight6 .
La proprietà di tightness si può anche attribuire a famiglie di v.a. (Xi )i∈I oppure di CDF (Fi )i∈I : esse
sono tight se lo sono le relative famiglie di distribuzioni, ossia vale

P (|Xi | ≥ M) ≤ ε per ogni i ∈ I,

e
Fi (−M) ≤ ε, Fi (M) ≥ 1 − ε per ogni i ∈ I.
Teorema 3.3.6 (Teorema di Helly). [!] Ogni successione tight di distribuzioni reali (µn )n∈N ammette una
sotto-successione convergente debolmente ad una distribuzione µ.
Dimostrazione. Sia (µn )n∈N una successione tight di distribuzioni e sia (Fn )n∈N la successione delle relative
CDF. In base al Teorema 3.3.2, è sufficiente provare che esiste una CDF F ed una sotto-successione Fnk che
converge a F nei punti di continuità di F.
La costruzione di F è basata sull’argomento diagonale di Cantor. Consideriamo una enumerazione
(qh )h∈N dei numeri razionali. Poichè (Fn (q1 ))n∈N è una successione in [0, 1], essa ammette una sotto-
 
successione F1,n (q1 ) n∈N convergente a un valore che indichiamo con F(q1 ) ∈ [0, 1]. Ora F1,n (q2 ) n∈N

è una successione in [0, 1] che ammette una sotto-successione F2,n (q2 ) n∈N convergente a un valore che
indichiamo con F(q2 ) ∈ [0, 1]: notiamo che si ha anche

F2,n (q1 ) −−−−−−→ F(q1 )


n→∞

poichè F2,n è sotto-successione di F1,n . Ripetiamo l’argomento fino a costruire, per ogni k ∈ N, una succes-

sione Fk,n n∈N tale che
Fk,n (qh ) −−−−−−→ F(qh ), ∀h ≤ k.
n→∞
In base all’argomento diagonale, consideriamo la sotto-successione Fnk := Fk,k : essa è tale che

Fnk (q) −−−−−−→ F(q), q ∈ Q.


n→∞

Completiamo la definizione di F ponendo

F(x) := inf F(q), x ∈ R \ Q.


x<q∈Q

Per costruzione F assume valori in [0, 1], è monotona (debolmente) crescente e continua a destra. Per
provare che F è una funzione di ripartizione, rimane da verificare che

lim F(x) = 0, lim F(x) = 1. (3.3.1)


x→−∞ x→+∞
5 Preferiamo non tradurre il termine tecnico “tight”. In alcuni testi, “famiglia tight” è tradotto con “famiglia tesa” o “famiglia
stretta”.
6 Più in generale, ogni distribuzione µ su uno spazio metrico separabile e completo (M, %), è tight nel senso seguente: per ogni ε > 0
esiste un compatto K tale che µ(M \ K) < ε. Per la dimostrazione, si veda il Teorema 1.4 in [7].
166 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

Soltanto a questo punto7 e solo per provare la (3.3.1), utilizziamo l’ipotesi che (Fn )n∈N sia una successione
tight: fissato ε > 0, esiste M (non è restrittivo assumere M ∈ Q) tale che vale Fnk (−M) ≤ ε per ogni k ∈ N.
Dunque, per ogni x ≤ −M, si ha
F(x) ≤ F(−M) = lim Fnk (−M) ≤ ε.
k→∞
Analogamente si ha, per ogni x ≥ M, si ha

1 ≥ F(x) ≥ F(M) = lim Fnk (M) ≥ 1 − ε.


k→∞

La (3.3.1) segue dall’arbitrarietà di ε.


Infine concludiamo provando che Fnk converge a F nei suoi punti di continuità. Infatti, se F è continua
in x allora per ogni ε > 0 esistono a, b ∈ Q tali che a < x < b e

F(x) − ε ≤ F(y) ≤ F(x) + ε, y ∈ [a, b].

Allora si ha

lim inf Fnk (x) ≥ lim inf Fnk (a) = F(a) ≥ F(x) − ε,
k→∞ k→∞
lim sup Fnk (x) ≤ lim sup Fnk (b) = F(b) ≤ F(x) + ε,
k→∞ k→∞

da cui la tesi per l’arbitrarietà di ε.

3.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy


In questa sezione esaminiamo il rapporto fra la convergenza debole di distribuzioni e la convergenza
puntuale delle relative CHF. Consideriamo il caso d = 1, anche se quanto segue può essere facilmente esteso
al caso generale d ∈ N.
Teorema 3.3.7 (Teorema di continuità di Lévy). [!!] Sia (µn )n∈N una successione di distribuzioni reali e
sia (ϕn )n∈N la successione delle corrispondenti funzioni caratteristiche. Vale:
d
i) se µn −−−−→ µ allora ϕn converge puntualmente alla CHF ϕ di µ, ossia ϕn (η) −−−−−−→ ϕ(η) per ogni η ∈ R;
n→∞

ii) viceversa, se ϕn converge puntualmente a una funzione ϕ continua in 0, allora ϕ è la CHF di una
d
distribuzione µ e vale µn −−−−→ µ.
d
Dimostrazione. i) Per ogni η fissato, la funzione f (x) := eixη è continua e limitata: quindi, se µn −−−−→ µ allora
Z Z
ϕn (η) = f dµn −−−−−−→ f dµ = ϕ(η).
R n→∞ R

ii) Dimostriamo che se ϕn converge puntualmente a ϕ, con ϕ funzione continua in 0, allora (µn )n∈N è tight.
Osserviamo che ϕ(0) = 1 (perchè?) e, per l’ipotesi di continuità di ϕ in 0, vale

1 t
Z
(1 − ϕ(η)) dη −−−−−−+→ 0. (3.3.2)
t −t t→0

Sia ora t > 0: vale


Zt Zt
 2 sin(xt)
J1 (x, t) := 1 − eiηx dη = 2t − (cos(xη) + i sin(xη)) dη = 2t − =: J2 (x, t).
−t −t xt
7 Si ripensi alla successione dell’Esempio 3.3.3, definita da X ≡ n per n ∈ N: essa non ammette sotto-successioni convergenti
n
debolmente eppure si ha lim FXn (x) = F(x) ≡ 0 per ogni x ∈ R. Infatti (Xn )n∈N non è una successione tight di v.a.
n→∞
3.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 167

Osserviamo che J2 (x, t) ≥ 0 poichè Z x


|sin x| = cos tdt ≤ |x|.

0
Allora, integrando rispetto a µn , da una parte si ha
Z Z
J2 (x, t)µn (dx) ≥ J2 (x, t)µn (dx) ≥
R t|x|≥2

sin(tx) 1 1
(poichè tx ≤ t|x|
≤ 2 se t|x| ≥ 2)
Z
2 2
   
≥ µn (dx) = µn − ∞, − ∪ , +∞ . (3.3.3)
t|x|≥2 t t

D’altra parte, per il Teorema di Fubini si ha

1 t 1 t
Z Z Z
J1 (x, t)µn (dx) = (1 − ϕn (η)) −−−−−−→ (1 − ϕ(η)) dη,
R t −t n→∞ t −t

per il Teorema della convergenza dominata. Dalla (3.3.2) segue che, per ogni ε > 0, esistono t > 0 e n̄ =
n̄(ε, t) ∈ N tali che Z
J (x, t)µ (dx) ≤ ε, n ≥ n̄.
1 n
R
Combinando questa stima con la (3.3.3), si conclude che
2 2
   
µn − ∞, − ∪ , +∞ ≤ ε, n ≥ n̄,
t t
e quindi (µn )n∈N è tight.
Ora concludiamo la dimostrazione. Data una sotto-successione µnk , per quanto appena provato, essa
è tight e quindi, per il Teorema di Helly, ammette un’ulteriore sotto-successione µnk che converge debol-
j
mente a una distribuzione µ. Per il punto i), ϕnk converge puntualmente alla CHF di µ: d’altra parte, per
j
ipotesi, ϕnk converge puntualmente ϕ e quindi ϕ è la CHF di µ. Riassumendo, ogni sotto-successione µnk
j
ammette una sotto-successione che converge debolmente alla distribuzione µ Rche ha CHF uguale a ϕ.
Sia ora f ∈ bC: per quanto appena provato, ogni sotto-successione di R f dµn ammette una sotto-
R R R
successione che converge a R f dµ. Per il Lemma 3.1.8, R f dµn converge a R f dµ. La tesi segue dal-
l’arbitrarietà di f .
Esempio 3.3.8. L’ipotesi di continuità in 0 del Teorema di Lévy è necessaria. Infatti consideriamo Xn ∼ N0,n
con n ∈ N. Allora
nη 2
ϕXn (η) = e− 2

converge a zero per n → ∞ per ogni η , 0 e vale ϕXn (0) = 1. D’altra parte, per ogni x ∈ R si ha
Zx
1 y2
FXn (x) = √ e− 2n dy =
−∞ 2πn
y
(col cambio z = √ )
2n
Z √x
2n 1 2 1
= √ e−z dz −−−−−−→ ,
−∞ π n→∞ 2

e quindi, per il Teorema 3.3.2, Xn non converge debolmente.


168 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

3.3.4 Esempi notevoli di convergenza debole


In questa sezione esibiamo alcuni esempi notevoli di convergenza debole. Vedremo successioni di v.a.
discrete che convergono a v.a. assolutamente continue e, viceversa, successioni di v.a. assolutamente conti-
d
nue che convergono a v.a. discrete. Negli esempi seguenti la convergenza Xn −−−−→ X è dimostrata tramite
il
 Teorema
 di continuità di Lévy, ovvero studiando la convergenza puntuale della successione delle CHF
ϕXn .
n∈N

Esempio 3.3.9 (Dalla geometrica all’esponenziale). Consideriamo una successione di v.a. con distribu-
zione geometrica
Xn ∼ Geompn , n ∈ N,
dove 0 < pn < 1, per cui si ha
P (Xn = k) = pn (1 − pn )k−1 , k ∈ N.
Si calcola facilmente la CHF di Xn :
∞ ∞ 
X X k−1 eiη pn p
ϕXn (η) = e iηk
pn (1 − pn )k−1 iη
= e pn eiη (1 − pn ) = iη
= −iη n .
k=1 k=1
1 − e (1 − pn ) e − 1 + pn

Xn d
Verifichiamo ora che se npn −−−−−→ λ per un certo λ ∈ R>0 allora n −−−−→ X ∼ Expλ . Infatti si ha
n→∞

η pn
 X   
n
ϕ Xn (η) = E eiη n = ϕXn = η =
n n e −i n
− 1 + pn

(sviluppando in serie di Taylor l’esponenziale per n → ∞)

pn npn λ
= η
  = −−−−−−→ = ϕExpλ (η).
−i n 1
+ o n + pn −iη + o (1) + npn n→∞ λ − iη

Esempio 3.3.10 (Dalla normale alla Delta di Dirac). Riprendiamo l’Esempio 3.1.3 e consideriamo una
successione (Xn )n∈N di v.a. con distribuzione normale Xn ∼ Nan ,σn2 dove an −→ a ∈ R e σn −→ 0. Grazie al
d
Teorema di continuità di Lévy è facile verificare che Xn −−−−→ X ∼ δa . Infatti

η 2 σn2
ϕXn (η) = eian η− 2 −−−−−−→ eiaη , η ∈ R,
n→∞

d
perciò dal Teorema di continuità di Lévy segue che Xn −−−−→ X ∼ δa , ossia Xn converge debolmente a una
v.a. con distribuzione Delta di Dirac centrata in a.

Esempio 3.3.11 (Dalla binomiale alla Poisson). Consideriamo una successione di v.a. con distribuzione
binomiale
Xn ∼ Binn,pn , n ∈ N.
d
Se npn −−−−−→ λ per un certo λ ∈ R>0 allora Xn −−−−→ X ∼ Poissonλ : infatti per la (2.4.3) si ha
n→∞

n  np  n iη
ϕXn (η) = 1 + pn eiη − 1 = 1 + n eiη − 1
 
−−−−−−→ eλ(e −1) = ϕPoissonλ (η).
n n→∞

Esempio 3.3.12 (Dalla binomiale alla normale). Sia Xn ∼ Binn,p . Ricordiamo (cfr. Proposizione 2.5.3) che
la distribuzione di Xn coincide con la distribuzione della somma di n v.a. di Bernoulli indipendenti. Allora,
3.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 169

come conseguenza diretta del Teorema centrale del limite (Teorema 3.4.4, che proveremo fra poco e la cui
dimostrazione si basa sul Teorema di continuità di Lévy), vale:
d
Zn −−−−→ X ∼ N0,1 ,
dove
Xn − µ n
Zn = , µn = E [Xn ] = np, σn2 = var(Xn ) = np(1 − p).
σn
Il risultato appena ottenuto può essere espresso informalmente dicendo che per ogni p ∈ ]0, 1[, la distribu-
zione Nnp,np(1−p) è una buona approssimazione di Binn,p per n abbastanza grande: si veda per esempio la
Figura 3.4 per un confronto fra i grafici della densità normale Nnp,np(1−p) e della funzione di distribuzione
binomiale Binn,p , per p = 0.5 e n = 20. Questo risultato sarà ripreso e spiegato con maggior precisione
nell’Osservazione 3.4.6.


● ●
0.15

● ●

0.10

● ●

0.05
● ●

● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20 25 30

Figura 3.4: Densità della distribuzione normale Nnp,np(1−p) e funzione di distribuzione binomiale Binn,p per
p = 0.5 e n = 20.

3.4 Legge dei grandi numeri e Teorema centrale del limite


In questa sezione presentiamo un approccio unificato alla dimostrazione della Legge debole dei grandi
numeri e del Teorema centrale del limite. Tale approccio è basato sul Teorema di continuità di Lévy e sul
Teorema 2.4.20 di sviluppabilità in serie di Taylor della funzione caratteristica. Ricordiamo la notazione
Sn
Sn = X1 + · · · + Xn , Mn = (3.4.1)
n
rispettivamente per la somma e la media aritmetica delle v.a. X1 , . . . , Xn .
Teorema 3.4.1 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L1 (Ω, P ),
con valore atteso µ := E [X1 ]. Allora la media aritmetica Mn converge debolmente alla v.a. costante uguale a
µ:
d
Mn −−−−→ µ. (3.4.2)
Dimostrazione. Per il Teorema 3.3.7 di continuità di Lévy, è sufficiente provare che la successione delle
funzioni caratteristiche ϕMn converge puntualmente alla CHF della distribuzione δµ :

lim ϕMn (η) = eiµη , η ∈ R. (3.4.3)


n→∞
170 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

Abbiamo
 η 
ϕMn (η) = E ei n Sn =

(poichè le Xn sono i.i.d.)


 h η in
= E ei n X1 =

(per il Teorema 2.4.20 e l’ipotesi di sommabilità)


 !n
iµη 1
= 1+ +o −−−−−−→ eiµη .
n n n→∞

Questo prova la (3.4.3) e conclude la dimostrazione.


Osservazione 3.4.2. Le ipotesi del Teorema 3.4.1 sono più deboli rispetto alla Legge dei grandi numeri
nella versione del Teorema 3.2.1 in cui si assume che Xn ∈ L2 (Ω, P ).
Osservazione 3.4.3. Per il punto vi) del Teorema 3.1.9, la convergenza debole (3.4.2) implica la convergen-
za in probabilità:
P
Mn −−→ µ.

Supponiamo ora che (Xn )n∈N sia una successione di v.a. reali i.i.d. in L2 (Ω, P ). Poniamo
µ := E [X1 ] e σ 2 := var(X1 ).
Ricordiamo che valore atteso e varianza della media aritmetica Mn in (3.2.1) sono dati rispettivamente da
σ2
E [Mn ] = µ e var(Mn ) = .
n
Consideriamo allora la media aritmetica normalizzata, definita da

en := Mpn − E [Mn ]
M
var(Mn )
che può anche essere utilmente scritta nella forma

e n = Sn −
M
µn
√ . (3.4.4)
σ n
Il Teorema centrale del limite8 afferma che, a prescindere dalla distribuzione delle Xn , la successione delle
medie aritmetiche normalizzate converge debolmente a una normale standard.
Teorema 3.4.4 (Teorema centrale del limite). [!!]
Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L2 (Ω, P ). Allora la successione delle medie aritmetiche
normalizzate Men in (3.4.4) converge debolmente a una v.a. con distribuzione normale standard:

en −−−d−→ Z ∼ N0,1 .
M
In particolare, nel caso in cui µ = 0 e σ = 1, si ha
S d
√n −−−−→ Z ∼ N0,1 .
n
8 Il nome Teorema centrale del limite è stato dato dal matematico ungherese George Pólya per sottolineare come tale teorema abbia
un ruolo centrale in Probabilità.
3.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 171

Dimostrazione. Per il Teorema 3.3.7 di continuità di Lévy, è sufficiente provare che la successione delle
en converge puntualmente alla CHF della distribuzione N0,1 :
funzioni caratteristiche ϕM

η2

lim ϕM
en (η) = e 2 , η ∈ R. (3.4.5)
n→∞

Notiamo che per la (3.4.4) vale


X X −µ n
en = √1
M
k
.
n k=1 σ

e quindi abbiamo
 n 
 i √ηn P Xkσ−µ 
en (η) = E 
ϕM e
k=1  =
 

(poichè le Xn sono i.i.d.)


" η X1 −µ
#!n
i √n σ
= E e =

X1 −µ
(per il Teorema 2.4.20, essendo per ipotesi σ ∈ L2 (Ω, P ) con media nulla e varianza unitaria)
 !n
(iη)2 1 η2
= 1+ +o −−−−−−→ e− 2 .
2n n n→∞

Questo prova la (3.4.5) e conclude la dimostrazione.


Osservazione 3.4.5 (Teorema centrale del limite e Legge dei grandi numeri). [!] Data l’espressione di M
en
in (3.4.4), il Teorema centrale del limite si riformula nel modo seguente:
σ
Mn ' µ + √ Z ∼ Nµ, σ 2 , per n  1, (3.4.6)
n n

dove il simbolo ' indica che Mn e µ + √σn Z hanno approssimativamente la stessa distribuzione. La (3.4.6)
fornisce un’approssimazione della distribuzione della v.a. Mn che precisa ed esplicita il risultato di conver-
genza della Legge dei grandi numeri.
Osservazione 3.4.6 (Teorema centrale del limite e somme di v.a. i.i.d.). Come già anticipato nell’Esempio
3.3.12, il Teorema centrale del limite è un valido strumento per approssimare la legge di v.a. definite come
somme di variabili i.i.d. Per esempio, sappiamo (cfr. Proposizione 2.5.3) che X ∼ Binn,p è uguale in legge a
X1 + · · · + Xn con Xj ∼ Bep i.i.d. Allora abbiamo la seguente approssimazione asintotica della CDF di X per
n → +∞:  
k − pn
Z ∼ N0,1 .
 
P (X ≤ k) ≈ P Z ≤ p  , (3.4.7)
np(1 − p)
La (3.4.7) segue semplicemente dal fatto che, posto µ = E [X1 ] = p e σ 2 = var(X1 ) = p(1 − p), per il Teorema
centrale del limite si ha ! !
X − µn k − µn k − µn
P (X ≤ k) = P √ ≤ √ ≈P Z ≤ √ .
σ n σ n σ n
La (3.4.7) equivale a  
 k − pn 
FX (k) ≈ F  p 
np(1 − p)

172 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE

dove FX indica la CDF di X ∼ Binn,p e


x z2
e− 2
Z
F(x) = √ dz (3.4.8)
−∞ 2π
è la CDF normale standard. In Figura 3.5 è riportato un confronto fra le CDF binomiale e approssimata col
Teorema centrale del limite.
1.0

0.8

0.6

0.4

0.2

45 50 55 60

Figura 3.5: CDF Binn,p con n = 100 e p = 0.5 (in blu) e CDF approssimata col Teorema centrale del limite
(in arancione).

Osservazione 3.4.7 (Teorema centrale del limite e metodo Monte Carlo). [!!]
Medie Mn come in (3.4.1), di variabili i.i.d. appaiono in modo naturale nel metodo Monte Carlo che
abbiamo introdotto nella Sezione 3.2.1. Sotto le ipotesi del Teorema centrale del limite, posto
!
σ  
pλ := P Mn − µ ≤ λ √ = P M en ≤ λ , λ > 0,
n
si ha la stima
pλ ' P (|Z| ≤ λ) , Z ∼ N0,1 .
Ora ricordiamo (cfr. (2.1.11)) che
P (|Z| ≤ λ) = 2F(λ) − 1, λ > 0,
con F in (3.4.8). Per la stima dell’errore numerico del metodo
 p+1  Monte Carlo, si parte dai valori di p usati più
comunemente, ossia p = 95% e p = 99%: posto λ = F −1 2 , si ottiene
! !
σ σ
P Mn − µ ≤ 1.96 √ ' 95% e P Mn − µ ≤ 2.57 √ ' 99%.
n n
Per questo motivo
σ σ
r95 := 1.96 √ e r99 := 2.57 √
n n
sono chiamati rispettivamente raggi degli intervalli di confidenza al 95% e al 99% per µ: se Mn rappresenta il
risultato (aleatorio) dell’approssimazione Monte Carlo del valore atteso µ, allora
[Mn − r95 , Mn + r95 ] e [Mn − r99 , Mn + r99 ]
sono gli intervalli (di estremi aleatori) a cui µ (che è il valore incognito che si intende approssimare) ap-
partiene con probabilità pari, rispettivamente, al 95% e 99%. Ritroveremo risultati analoghi nello studio
dell’inferenza statistica: al riguardo si veda l’Esempio 6.2.11.
3.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 173

Sotto ipotesi più forti, una stima esplicita della velocità di convergenza nel Teorema centrale del limite è
data dal Teorema di Berry-Esseen che qui ci limitiamo ad enunciare9 .
Teorema 3.4.8 (Teorema di Berry-Esseen). Esiste una costante10 C < 1 tale che, se (Xn ) è una successione
di v.a. i.i.d. in L3 (Ω, P ) con
h i
E [X1 ] = 0, var(X1 ) := σ 2 , E |X1 |3 =: %

e Fn indica la CDF della media aritmetica Mn in (3.2.1), allora si ha

C%
|Fn (x) − F(x)| ≤ √ , x ∈ R, n ∈ N,
σ3 n

dove F è la CDF normale standard in (3.4.8).

9 Per la dimostrazione si veda, per esempio, [12].


10 Non è noto il valore ottimale di C: al momento si sa che 0.409 < C < 0.56.
174 CAPITOLO 3. SUCCESSIONI DI VARIABILI ALEATORIE
Capitolo 4

Attesa e distribuzione condizionata

Do not worry about your problems


with mathematics, I assure you mine
are far greater.

Albert Einstein

In uno spazio di probabilità (Ω, F , P ), siano X una variabile aleatoria e G una sotto-σ -algebra di F .
In questo capitolo introduciamo i concetti di attesa e distribuzione di X condizionate a G . Ricordando
che una σ -algebra può essere interpretata come un insieme di “informazioni”, l’attesa di X condizionata a
G rappresenta la miglior stima del valore aleatorio X in base alle informazioni contenute in G . Tanto più G
è grande, tanto migliore e più dettagliata è la stima di X data dall’attesa condizionata: quest’ultima, dal
punto di vista matematico, è definita come una variabile aleatoria che gode di determinate proprietà. I
concetti di attesa e distribuzione condizionata sono alla base della teoria dei processi stocastici e di tutte
le applicazioni della teoria della probabilità in cui si vuole modellizzare un fenomeno aleatorio che evolve
nel tempo: in tal caso è necessario descrivere non solo l’evoluzione del valore aleatorio X ma anche quella
delle informazioni che, col passare del tempo, diventano disponibili e permettono di stimare X. In questo
capitolo, salvo diversamente specificato, X indica una v.a. a valori in Rd .

4.1 Attesa condizionata


4.1.1 Condizionare ad un evento
In uno spazio di probabilità (Ω, F , P ), sia B un evento non trascurabile: B ∈ F con P (B) > 0.

Definizione 4.1.1. Sia X una v.a. su (Ω, F , P ) a valori in Rd :

i) la distribuzione di X condizionata a B è la distribuzione di X relativa alla probabilità condizionata


P (· | B): essa è definita da
µX|B (H) := P (X ∈ H | B), H ∈ Bd ;

ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a B è il valore atteso di X rispetto alla probabilità condizio-
nata P (· | B): essa è definita da Z
E [X | B] := X(ω)P (dω | B).

Osservazione 4.1.2. Analogamente al concetto di distribuzione condizionata di X a B, si definisce la densità


condizionata di X a B che indicheremo con γX|B e la CDF condizionata di X a B che indicheremo con FX|B .

175
176 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

La distribuzione condizionata è lo strumento naturale per studiare problemi come quelli del seguente

Esempio 4.1.3. [!] Da un’urna che contiene 90 palline numerate, si estraggono in sequenza e senza rein-
serimento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il numero della prima e seconda
pallina estratta. Chiaramente si ha µX1 = UnifI90 ; ma sappiamo che anche µX2 = UnifI90 (cfr. Esempio
2.3.31).
Ora aggiungiamo l’informazione che la prima pallina estratta abbia il numero k, ossia condizioniamo
all’evento B = (X1 = k): si ha

1
 89 , se h, k ∈ I90 , h , k,


P (X2 = h | X1 = k) = 
0
 altrimenti,

e quindi
µX2 |X1 =k = UnifI90 \{k} .
In definitiva, l’informazione aggiuntiva data dall’evento B, modifica la distribuzione di X2 .

Proposizione 4.1.4. Per ogni X ∈ L1 (Ω, P ) si ha


Z
1
E [X | B] = XdP . (4.1.1)
P (B) B

Inoltre, per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) vale


Z
E [f (X) | B] = f (x)µX|B (dx). (4.1.2)
Rd

Dimostrazione. È sufficiente provare la (4.1.1) nel caso in cui X = 1A con A ∈ F : il caso generale segue dalla
procedura standard dell’Osservazione 2.2.21. Per la (2.2.9) si ha
Z
1
E [1A | B] = P (A | B) = 1 dP .
P (B) B A

Per quanto riguarda la (4.1.2), notiamo che f (X) ∈ L1 (Ω, P (· | B)) poichè, per la (4.1.1), si ha
Z
1
E [|f (X)| | B] ≤ |f (X)| dP < ∞
P (B) Ω

per ipotesi. Allora la (4.1.2) segue dal Teorema 2.2.25 del calcolo della media.

Esempio 4.1.5. [!] Riprendiamo l’Esempio 4.1.3. Utilizzando la (4.1.2), per esercizio si calcoli var(X2 |
X1 = k) per verificare che var(X2 | X1 = k) < var(X2 ): intuitivamente ciò significa che l’aleatorietà di X2
diminuisce aggiungendo l’informazione (X1 = k).

Esempio 4.1.6. Siano T ∼ Expλ e B = (T > t0 ) con λ, t0 ∈ R>0 . Per determinare la distribuzione condizionata
µT |B , calcoliamo la CDF condizionata di T a B o equivalentemente

1 se t ≤ t0 ,


P (T > t | T > t0 ) = 
P (T > t − t0 ) se t > t0 ,

che segue dalla proprietà di assenza di memoria (2.1.12). Ne viene che µT |B è la distribuzione esponenziale
“traslata” che ha per densità
γT |B (t) = λe−λ(t−t0 ) 1[t0 ,+∞[ (t).
4.1. ATTESA CONDIZIONATA 177

Esempio 4.1.7. Siano X ∈ N0,1 e B = (X ≥ 0). Allora P (B) = 1


2 e, per H ∈ B, si ha
Z
P ((X ∈ H) ∩ B) 1 x2
µX|B (H) = P (X ∈ H | B) = = 2P (X ∈ H ∩ R≥0 ) = 2 √ e− 2 dx.
P (B) H∩R≥0 2π

In altri termini, µX|B è una distribuzione assolutamente continua e per ogni H ∈ B si ha


Z r
2 − x2
µX|B (H) = γX|B (x)dx, γX|B (x) := e 2 1R≥0 (x);
H π

per questo motivo la funzione γX|B è anche detta densità di X condizionata a B. Infine per la (4.1.2) si ha
Z +∞
E [X | B] = xµX|B (dx)
Z0+∞
= xγX|B (x)dx
0
r r
2
 2 x=+∞ 2
− x2
= −e = .
π x=0 π

Esempio 4.1.8. Siano X, Y ∼ Bep , con 0 < p < 1, indipendenti e B = (X + Y = 1). Determiniamo:

i) la distribuzione condizionata µX|B ;

ii) media e varianza condizionate, E [X | B] e var(X | B).

Anzitutto sappiamo che X + Y ∼ Bin2,p e quindi P (B) = 2p(1 − p) > 0. Poichè X assume solo i valori 0 e 1,
calcoliamo
P ((X = 0) ∩ (X + Y = 1))
µX|B ({0}) =
2p(1 − p)
P ((X = 0) ∩ (Y = 1))
=
2p(1 − p)
P (X = 0)P (Y = 1) 1
= = .
2p(1 − p) 2

In definitiva µX = Bep ma, indipendentemente dal valore di p, µX|B = Be 1 ossia, condizionatamente all’evento
2
(X + Y = 1), X ha distribuzione di Bernoulli di parametro 12 . Allora, per la (4.1.2) e ricordando le formule
(2.2.13) per media e varianza di una variabile binomiale, si conclude che

1 1
E [X | B] = , var(X | B) = .
2 4

Un’interpretazione concreta è la seguente: come si può rendere equa una moneta truccata (senza pe-
raltro conoscere la probabilità p ∈ ]0, 1[ di ottenere testa)? Il risultato X di un lancio della moneta truccata
ha distribuzione Bep dove T := (X = 1) è l’evento “testa”. In base a quanto visto sopra, per rendere equa
la moneta è sufficiente lanciarla due volte, considerando valido il lancio solo se si ottiene esattamente una
testa: allora i due eventi T C oppure CT hanno probabilità 1/2, qualsiasi sia p ∈]0, 1[.

Esercizio 4.1.9. Verificare che se X e B sono indipendenti in P allora

µX|B = µX e E [X | B] = E [X] .
178 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

4.1.2 Condizionare ad una σ -algebra: il caso discreto


In questa sezione definiamo l’attesa condizionata nel caso discreto: trattiamo questo caso molto parti-
colare con uno scopo meramente introduttivo alla definizione generale che daremo nella Sezione 4.1.3. Per
questo motivo questa sezione può anche essere saltata ad una prima lettura.
Consideriamo un evento B tale che 0 < P (B) < 1: nelle applicazioni si interpreta la σ -algebra generata
da B (o da Bc )
σ (B) = {∅, Ω, B, Bc }
come “l’informazione riguardo al fatto che B sia avvenuto o meno”. Notiamo la differenza concettuale fra:

i) condizionare a B, nel senso di condizionare al fatto che B è avvenuto;

ii) condizionare a σ (B), nel senso di condizionare al fatto di sapere se B sia avvenuto o meno.

Per questo motivo l’attesa condizionata E [X | σ (B)] è definita, diversamente da E [X | B], nel modo seguente:

E [X | B] se ω ∈ B,


E [X | σ (B)] (ω) :=  (4.1.3)
E [X | Bc ] se ω ∈ Bc .

Intuitivamente, E [X | B] rappresenta l’attesa di X stimata in base all’osservazione che B è accaduto: pertanto


E [X | B] è un valore deterministico. Al contrario, si può pensare a E [X | σ (B)] come a una stima futura di X
che dipenderà dall’osservare se B avviene o no: per questo motivo E [X | σ (B)] è definita come una variabile
aleatoria.
È bene osservare che l’attesa condizionata gode di due proprietà che la caratterizzano univocamente.

Proposizione 4.1.10. Siano X ∈ L1 (Ω, F , P ) e B ∈ F tale che 0 < P (B) < 1. Allora si ha1 :

i) E [X | σ (B)] ∈ mσ (B);

ii) per ogni W ∈ mσ (B) vale


E [W E [X | σ (B)]] = E [W X] .

Inoltre le proprietà i) e ii) identificano E [X | σ (B)] nel senso che se una variabile aleatoria Z gode delle
proprietà i) e ii) allora Z(ω) = E [X | σ (B)] (ω) per ogni ω ∈ Ω.

Dimostrazione. È un semplice esercizio2 .


1 Ricordiamo che mG indica lo spazio delle v.a. G -misurabili.
2 Osserviamo che una v.a. Z è σ (B)-misurabile se e solo se

Z = a1B + b1Bc (4.1.4)

con a, b ∈ Rd . Allora la i) segue dal fatto che per definizione E [X | σ (B)] è del tipo (4.1.4) con a = E [X | B] e b = E [X | Bc ]. Per quanto
riguarda la ii), data W della forma (4.1.4), si ha

E [W E [X | σ (B)]] = aE [1B E [X | σ (B)]] + bE [1Bc E [X | σ (B)]]


= aE [1B E [X | B]] + bE 1Bc E X | Bc =
  

(per la (4.1.1))

= aE [1B X] + bE [1Bc X] = E [W X] .

Infine, se Z gode delle proprietà i) e ii) allora Z è della forma (4.1.4) e, per la ii) con W = 1B , si ha

aP (B) = E [Z1B ] = E [X1B ]

da cui segue a = E [X | B]. Analogamente si prova che b = E [X | Bc ].


4.1. ATTESA CONDIZIONATA 179

Abbiamo visto che la definizione di attesa condizionata alla σ -algebra generata da un evento è completa-
mente esplicita e intuitiva: E [X | σ (B)] è stata definita come una v.a. costante a tratti sugli elementi della
partizione {B, Bc } di Ω, associata in modo naturale a σ (B). Vediamo come estendere tale definizione al caso
di v.a. discrete.

Esempio 4.1.11. Sullo spazio (Ω, F , P ) consideriamo una v.a. Y discreta (ossia tale che l’immagine Y (Ω)
abbia cardinalità finita o numerabile) e tale che3 P (Y = y) > 0 per ogni y ∈ Y (Ω)). Assumiamo per semplicità
che Y sia a valori reali anche se nulla cambia per Y a valori in un generico spazio misurabile (E, E ). In
queste ipotesi, la famiglia (Y = y)y∈Y (Ω) forma una partizione finita o numerabile di Ω, i cui elementi sono
eventi non trascurabili; inoltre σ (Y ) è formata dall’insieme vuoto e dalle unioni finite o numerabili di eventi di
tale partizione.
Data X ∈ L1 (Ω, P ), in analogia con (4.1.3) definiamo l’attesa di X condizionata a σ (Y ) nel modo seguente:
E [X | σ (Y )] (ma scriveremo, più semplicemente, E [X | Y ]) è la v.a.

E [X | Y ] (ω) := E [X | Y = Y (ω)] , ω ∈ Ω. (4.1.5)

La definizione è ben posta nel senso della (4.1.1) poichè P (Y = y) > 0 per ogni y ∈ Y (Ω) per ipotesi. Come
per la Proposizione 4.1.10 si prova che:

i) E [X | Y ] ∈ mσ (Y );

ii) per ogni W ∈ mσ (Y ) vale


E [W E [X | Y ]] = E [W X] .

Infatti, osserviamo che E [X | Y ] = Φ(Y ) dove Φ : R −→ R è definita da



E [X | Y = y] , se y ∈ Y (Ω),


Φ(y) = 
0
 se y ∈ R \ Y (Ω).
La funzione Φ è nulla q.o. poichè Y (Ω) è finito o numerabile e quindi ovviamente Φ ∈ mB: ne segue in
particolare la proprietà i), ossia il fatto che E [X | Y ] = Φ(Y ) ∈ mσ (Y ). Non è difficile4 verificare anche la
validità della proprietà ii).
3 Se Z è una v.a. discreta, esiste un’unica Y discreta tale che P (Y = y) > 0 per ogni y ∈ Y (Ω) e Z = Y q.c.
4 Anzitutto ricordiamo che, essendo Y una v.a. discreta, vale
X
E [f (Y )] = f (y)P (Y = y), (4.1.6)
y∈Y (Ω)

per ogni funzione limitata f . Ora sia W ∈ mσ (Y ) limitata: per il Teorema di Doob, W = ψ(Y ) con ψ ∈ mB limitata. Per la (4.1.6) si ha
X
E [Φ(Y )W ] = E [X | Y = y] ψ(y)P (Y = y)
y∈Y (Ω)
X
= E [Xψ(y) | Y = y] P (Y = y)
y∈Y (Ω)
X Z
= Xψ(y)dP
y∈Y (Ω) (Y =y)
X Z
= Xψ(Y )dP =
y∈Y (Ω) (Y =y)

(per la σ -additività dell’integrale, Proposizione 2.2.10-iii))

= E [XW ] .
180 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

Consideriamo il seguente esempio specifico: calcoliamo E [X1 | Y ] dove X1 , . . . , Xn ∼ Bep , con 0 < p < 1,
sono indipendenti e Y = X1 + · · · + Xn . Poichè Y ∼ Binn,p , per k = 0, . . . , n abbiamo

E [X1 | Y = k] = 0 · P (X1 = 0 | Y = k) + 1 · P (X1 = 1 | Y = k) =

(posto Z = X2 + · · · + Xn ∼ Binn−1,p )

P ((X1 = 1) ∩ (Z = k − 1))
= =
P (Y = k)

(per l’indipendenza di X1 e Z)

P (X1 = 1)P (Z = k − 1)
=
P (Y = k)
n−1 k−1
p p (1 − p)n−1−(k−1) k
= k−1 n k n−k
= .
k p (1 − p)
n

In definitiva si ha
Y
E [X1 | Y ] = .
n

4.1.3 Condizionare ad una σ -algebra: il caso generale


In questa sezione diamo due definizioni di attesa condizionata ad una σ -algebra G : la prima come va-
riabile aleatoria e la seconda, nel caso particolare in cui G = σ (Y ) con Y v.a. a valori reali, come funzione
B-misurabile.
Osserviamo che se G è una generica σ -algebra di eventi, non è possibile definire E [X | G ] come nel caso
discreto perchè non è chiaro come partizionare in modo unico Ω a partire da G . Il problema è che una
σ -algebra può avere una struttura molto complicata: si pensi, per esempio, alla σ -algebra di Borel sullo
spazio Euclideo. Inoltre, la definizione (4.1.5) perde significato se Y è assolutamente continua perchè in
tal caso ogni evento del tipo (Y = y) è trascurabile. Per superare questi problemi, la definizione generale
di attesa condizionata è data in termini delle due proprietà caratterizzanti della Proposizione 4.1.10. Il
seguente risultato mostra che una v.a. che soddisfa tali proprietà esiste sempre e, in un certo senso, è unica.

Teorema 4.1.12. Siano X ∈ L1 (Ω, F , P ) a valori in Rd e G una sotto-σ -algebra di F . Esiste una v.a. Z ∈
L1 (Ω, P ) a valori in Rd che soddisfa le seguenti proprietà:

i) Z ∈ mG ;

ii) per ogni v.a. W ∈ mG limitata, vale


E [ZW ] = E [XW ] . (4.1.7)

Inoltre se Z 0 verifica i) e ii) allora Z = Z 0 quasi certamente.

Dimostrazione. Si veda la Sezione 4.3.1.

Osservazione 4.1.13. [!] Per il secondo Teorema di Dynkin (Teorema A.1.8), la proprietà ii) del Teorema
4.1.12 equivale alla seguente proprietà, in generale più semplice da verificare:

ii-b) vale
E [Z1G ] = E [X1G ]

per ogni G ∈ A , dove A è una famiglia ∩-chiusa tale che σ (A ) = G .


4.1. ATTESA CONDIZIONATA 181

Definizione 4.1.14 (Attesa condizionata). Siano X ∈ L1 (Ω, F , P ) e G una sotto-σ -algebra di F . Se Z


soddisfa le proprietà i) e ii) del Teorema 4.1.12 allora scriviamo

Z = E [X | G ] (4.1.8)

e diciamo che Z è una versione dell’attesa condizionata di X a G . In particolare:


• se G = σ (Y ) con Y v.a. su (Ω, F , P ), scriviamo

Z = E [X | Y ]

invece di Z = E [X | σ (Y )];
• se X = 1F con F ∈ F , scriviamo
Z = P (F | G ) (4.1.9)
invece di Z = E [1F | G ] e diciamo che Z è una versione della probabilità di F condizionata a G .
La definizione si estende al caso di X integrabile (cfr. Definizione 2.2.8) grazie al Corollario 4.1.22 che
proveremo più avanti.
Osservazione 4.1.15. [!] La (4.1.8) non è da intendersi come un’equazione, ossia come un’identità fra i mem-
bri a destra e a sinistra dell’uguaglianza: al contrario, essa è una notazione, un simbolo che indica che Z gode
delle proprietà i) e ii) del Teorema 4.1.12 (e quindi è una versione dell’attesa condizionata di X a G ). L’attesa
condizionata è definita implicitamente, mediante le proprietà i) e ii), a meno di eventi trascurabili di G : in
altri termini se Z = E [X | G ] e Z 0 differisce da Z su un evento trascurabile di G , allora anche Z 0 = E [X | G ].
Per questo motivo si parla di versione dell’attesa condizionata, anche se nel seguito per semplicità diremo
impropriamente che Z è attesa condizionata di X a G .
Però attenzione: se Z = E [X | G ] e Z 0 = Z q.c., non è detto che Z 0 = E [X | G ]. Si tratta di una sottigliezza
a cui si deve porre attenzione: modificando Z su un evento C trascurabile ma tale che C < G si può perdere
la proprietà di G -misurabilità.
Un esempio su cui riflettere:
Esempio 4.1.16. Se G ∈ G allora P (G | G ) assume solo i valori 0 e 1. Infatti si ha

P (G | G ) = E [1G | G ] = 1G .

Consideriamo ora il caso G = σ (Y ) con Y v.a. su (Ω, F , P ) a valori in uno spazio misurabile (E, E ). Se
Z = E [X | Y ] allora Z ∈ mσ (Y ) e quindi, per il Teorema 2.3.3 di Doob, esiste (e in generale non è unica) una
funzione Φ ∈ mE tale che Z = Φ(Y ): per fissare le idee, si osservi il grafico seguente

E [X | Y ]  
(Ω, F ) Rd , Bd

Y Φ
(E, E )

Definizione 4.1.17 (Funzione attesa condizionata). [!!] Una versione della funzione attesa condizionata di
X a Y è una qualsiasi funzione  
Φ : (E, E ) −→ Rd , Bd
tale che:
i) Φ ∈ mE ;
182 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

ii) Φ(Y ) = E [X | Y ].

Indichiamo5 con
EY =y [X] , y ∈ E,

la funzione attesa condizionata di X a Y e nel caso sia chiaro la v.a. rispetto alla quale si sta condizionando
e non ci sia possibilità di confusione, scriviamo più semplicemente

Ey [X] , y ∈ E. (4.1.10)

Infine se X = 1F scriviamo Py (F) invece di Ey [1F ] per la funzione probabilità di F condizionata a Y .

In altri termini, la funzione Φ è una versione della funzione attesa condizionata di X a Y se e solo se la
variabile aleatoria Φ(Y ) è una versione dell’attesa condizionata di X a Y : in tal caso scriviamo Φ(y) = Ey [X]
che non è da intendersi come un’equazione perchè non identifica univocamente Φ; si tratta di una notazione
per indicare che Φ è una qualsiasi funzione che verifica le due proprietà i) e ii) della Definizione 4.1.17.
Per inciso, non vale EY =y [X] = E [X | Y = y] (cfr. Definizione 4.1.1) poichè l’evento (Y = y) può essere
trascurabile: per esempio, se Y ha distribuzione normale allora l’evento (Y = y) ha probabilità nulla per
ogni y ∈ R!
In definitiva, l’attesa condizionata a σ (Y ) può essere vista come variabile aleatoria oppure come funzione:
i due punti di vista sono sostanzialmente equivalenti e la scelta di quale adottare dipende generalmente
dal contesto.

Esempio 4.1.18. [!] Siano u ∈ bB e X una v.a. reale. È immediato verificare che vale

u(x) = EX=x [u(X)] , x ∈ R.

Osservazione 4.1.19 (Caratterizzazione dell’attesa condizionata in L2 ). [!!] Per quanto visto nella dimo-
strazione del Teorema 4.1.12, nello spazio L2 (Ω, F , P ) la Definizione 4.1.14 di attesa condizionata si espri-
me in termini di un problema ai minimi quadrati. Precisamente, per X ∈ L2 (Ω, F , P ) e G sotto-σ -algebra di
F , si ha che Z = E [X | G ] se e solo se Z realizza la minima distanza di X da L2 (Ω, G , P ) nel senso che vale
h i h i
E (X − Z)2 ≤ E (X − W )2 , W ∈ L2 (Ω, G , P ). (4.1.11)

Il caso che si presenta più frequentemente nelle applicazioni è quello in cui G = σ (Y ) con Y ∈ L2 (Ω, F , P ):
se Φ(y) = Ey [X], ossia Φ è una versione della funzione attesa condizionata di X a Y , allora Φ ∈ L2 (R, B, µY )
e per la (4.1.11) verifica
h i h i
E (X − Φ(Y ))2 = min E (X − f (Y ))2 .
f ∈L2 (R,B ,µY )

In altri termini, per determinare Φ (e di conseguenza E [X | Y ]) occorre risolvere il problema ai minimi


quadrati
h i
Φ = arg min E (X − f (Y ))2 . (4.1.12)
f ∈L2 (R,B ,µY )

Come vedremo nell’Esempio 4.1.21, questo problema si risolve esplicitamente nel caso molto particolare
di variabili con distribuzione congiunta normale, (X, Y ) ∼ Nµ,C . In generale il problema (4.1.12) può essere
risolto numericamente con il metodo “Least Square Monte Carlo” presentato nella Sezione 4.1.6. Infine
notiamo che la (4.1.11) generalizza la disuguaglianza (2.2.20) valida per il valore atteso non condizionato.
5 Nel senso che la scrittura
Φ(y) = EY =y [X] , y ∈ E,
significa che Φ è una versione della funzione attesa condizionata di X a Y .
4.1. ATTESA CONDIZIONATA 183

Osservazione 4.1.20. [!] Siano X, Y ∈ L2 (Ω, P ) e Z = E [X | Y ]. Allora

E [X − Z] = 0, cov (X − Z, Y ) = 0, (4.1.13)

ossia X − Z ha media nulla ed è scorrelata da Y . La prima equazione segue dalla (4.3.1) con W = 1. Per la
seconda si ha

cov (X − Z, Y ) = E [(X − Z)Y ] − E [X − Z] E [Y ] = 0

poichè E [(X − Z)Y ] = 0 per la6 (4.1.7) con W = Y .

Esempio 4.1.21. Consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ Nµ,C con

σ2
!
σXY
µ = (µ1 , µ2 ), C= X ≥ 0.
σXY σY2

Proviamo che esistono a, b ∈ R tali che aY + b = E [X | Y ]: in altri termini, la funzione attesa condizionata
è del tipo Ey [X] = ay + b, ossia è una funzione lineare. Se aY + b = E [X | Y ] allora a, b sono determinati
univocamente dalle equazioni in (4.1.13) che qui diventano

E [aY + b] = E [X] , cov (X − (aY + b), Y ) = 0

ossia
aµ2 + b = µ1 , aσY2 = σXY .

Se a, b sono determinate in questo modo allora Z := aY + b = E [X | Y ] poichè:

i) chiaramente Z ∈ mσ (Y );

ii) osserviamo che X − Z e Y hanno distribuzione congiunta normale (poichè è (X − Z, Y ) è funzione


lineare di (X, Y )) e quindi non sono solo scorrelate ma anche indipendenti (cfr. Proposizione 2.4.18).
Di conseguenza, per ogni W ∈ mσ (Y ) (che quindi è indipendente da X − Z), si ha

E [(X − Z)W ] = (E [X] − E [Z]) E [W ] = 0.

Nella dimostrazione del Teorema 4.1.12 proviamo anche il risultato seguente:

Corollario 4.1.22. Siano X ∈ mF + e G una sotto-σ -algebra di F . Esiste una v.a. Z che soddisfa le seguenti
proprietà:

i) Z ∈ mG + ;

ii) per ogni v.a. W ∈ mG + , vale


E [ZW ] = E [XW ] .

Inoltre se Z 0 verifica i) e ii) allora Z = Z 0 quasi certamente.

In base al Corollario 4.1.22 possiamo estendere la definizione di attesa condizionata alle v.a. integrabili
(non necessariamente sommabili).
6 Più precisamente, si veda la (4.3.1).
184 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

4.1.4 Proprietà dell’attesa condizionata


In questa sezione proviamo ulteriori proprietà dell’attesa condizionata. Consideriamo v.a. reali X, Y ∈
L1 (Ω, F , P ) e una generica sotto-σ -algebra G di F .

Teorema 4.1.23. Valgono le seguenti proprietà:

1) (Formula della probabilità totale)


E [X] = E [E [X | G ]] . (4.1.14)

2) Se X ∈ mG allora
X = E [X | G ] .

3) Se X e G sono indipendenti allora


E [X] = E [X | G ] .

4) (Linearità) per ogni a ∈ R si ha

E [aX + Y | G ] = aE [X | G ] + E [Y | G ] .

5) (Monotonia) Se P (X ≤ Y ) = 1 allora
E [X | G ] ≤ E [Y | G ] ,
nel senso che se Z = E [X | G ] e W = E [Y | G ] allora P (Z ≤ W ) = 1.

6) Se X è G -misurabile e limitata, si ha

E [XY | G ] = XE [Y | G ] .

7) (Proprietà della torre) Se H è una sotto-σ -algebra di G , si ha7

E [E [X | G ] | H ] = E [X | H ] .

8) (Teorema di Beppo-Levi) Se 0 ≤ Xn % X allora

lim E [Xn | G ] = E [X | G ] .
n→∞

9) (Lemma di Fatou) Se (Xn )n∈N è una successione di v.a. in mF + , allora


 
E lim inf Xn | G ≤ lim inf E [Xn | G ] .
n→∞ n→∞

10) (Teorema della convergenza dominata) Se (Xn )n∈N è una successione che converge q.c. a X e vale
|Xn | ≤ Y ∈ L1 (Ω, P ) q.c. per ogni n ∈ N, allora si ha

lim E [Xn | G ] = E [X | G ] .
n→∞

11) (Disuguaglianza di Jensen) Se ϕ è una funzione convessa tale che ϕ(X) ∈ L1 (Ω, P ), si ha

ϕ (E [X | G ]) ≤ E [ϕ(X) | G ] .
7 Vale anche
E [E [X | H ] | G ] = E [X | H ]
che segue direttamente dalla proprietà 2) e dal fatto che E [X | H ] ∈ mG poichè H ⊆ G .
4.1. ATTESA CONDIZIONATA 185

12) Per ogni p ≥ 1 si ha


kE [X | G ]kp ≤ kXkp .

13) (Lemma di freezing) Se X è indipendente da G , Y ∈ mG e f ∈ mB è tale che f (X, Y ) ∈ L1 (Ω, P ), allora


si ha
E [f (X, Y ) | G ] = F(Y ) dove F(y) = E [f (X, y)] ,
o, con una scrittura più compatta,

E [f (X, Y ) | G ] = E [f (X, y)] |y=Y .

14) (CHF condizionata e indipendenza) X e G sono indipendenti se e solo se


h i h i
E eiηX | G = E eiηX , η ∈ R,

ossia se la CHF ϕX e la CHF condizionata ϕX|G coincidono.


15) Se Z = E [X | G ] e Z ∈ mH con H ⊆ G allora Z = E [X | H ].
Dimostrazione. 1) Basta porre W = 1 nella (4.1.7).
2) Segue direttamente dalla definizione.
3) La v.a. costante Z := E [X] è chiaramente G -misurabile (perchè σ (Z) = {∅, Ω}) e inoltre, per ogni v.a.
W ∈ mG limitata, per l’ipotesi di indipendenza vale

E [XW ] = E [X] E [W ] = E [E [X] W ] = E [ZW ] .

Questo prova che Z = E [X | G ].


4) Si tratta di dimostrare che se Z = E [X | G ] e W = E [Y | G ], nel senso che verificano le proprietà i) e ii)
del Teorema 4.1.12, allora aZ + W = E [aX + Y | G ]. È una semplice verifica lasciata per esercizio.
5) Questa proprietà è provata nella prima parte della dimostrazione del Teorema 4.1.12.
6) Sia Z = E [Y | G ]. Dobbiamo provare che XZ = E [XY | G ]:
i) X ∈ mG per ipotesi e quindi XZ ∈ mG ;
ii) data W ∈ mG limitata, si ha che anche XW ∈ mG limitata e quindi

E [(XZ)W ] = E [Z(XW )] =

(poichè Z = E [Y | G ])

= E [Y (XW )] = E [(XY )W )]

da cui la tesi.
7) Sia Z = E [X | H ]. Dobbiamo provare che Z = E [E [X | G ] | H ]. Per definizione
i) Z ∈ mH ;
ii) data W ∈ mH limitata, si ha
E [ZW ] = E [XW ] .
D’altra parte, se W ∈ mH allora W ∈ mG poichè H ⊆ G , e quindi

E [E [X | G ] W ] = E [XW ] .

Allora E [ZW ] = E [E [X | G ] W ] da cui la tesi.


186 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

8) Poniamo Yn := E [Xn | G ], n ≥ 1. Per la monotonia dell’attesa condizionata, 0 ≤ Yn ≤ Yn+1 q.c. e quindi


esiste q.c.
Y := lim E [Xn | G ] ,
n→∞

con Y ∈ mG + perchè limite puntuale di v.a. G -misurabili. Inoltre, per ogni W ∈ mG + , si ha 0 ≤ Yn W %


Y W e 0 ≤ Xn W % XW q.c.; quindi per il Teorema di Beppo-Levi si ha

E [Y W ] = lim E [Yn W ] = lim E [Xn X] = E [XW ] ,


n→∞ n→∞

che prova la tesi.


9)-10)-11) La dimostrazione è sostanzialmente analoga al caso deterministico.
12) Segue facilmente dalla Disuguaglianza di Jensen con ϕ(x) = |x|p .
13) Per il Teorema di Fubini, la funzione
Z
F(y) = E [f (X, y)] = f (x, y)µX (dx)
R

è B-misurabile. Di conseguenza F(Y ) ∈ mσ (Y ) ⊆ mG poichè Y ∈ mG per ipotesi.


Ora, per ogni W ∈ mG limitata, si ha
"
E [W F(Y )] = wF(y)µ(Y ,W ) (dy, dw)
2
"R Z
= w f (x, y)µX (dx)µ(Y ,W ) (dy, dw) =
R2 R

(per il Teorema di Fubini)


$
= wf (x, y)µX ⊗ µ(Y ,W ) (dx, dy, dw) =
R3

(per ipotesi X è indipendente da G e quindi è anche indipendente da (Y , W ) e di conseguenza µX ⊗


µ(Y ,W ) = µ(X,Y ,W ) )
$
= wf (x, y)µ(X,Y ,W ) (dx, dy, dw) = E [W f (X, Y )] ,
R3

che prova la tesi.


14) Per ogni Y ∈ mG e η1 , η2 ∈ R, si ha
h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 X eiη2 Y =

(per definizione di attesa condizionata)


h h i i
= E E eiη1 X | G eiη2 Y =

(per ipotesi)
h i h i
= E eiη1 X E eiη2 Y = ϕX (η1 )ϕY (η2 )

e la tesi segue dalla Proposizione 2.4.10-ii).


4.1. ATTESA CONDIZIONATA 187

15) È un semplice esercizio.

Esempio 4.1.24. [!] Siano N e Z1 , Z2 , . . . v.a. indipendenti con N ∼ Poissonλ e Zn identicamente distribuite
per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk se N ≥ 1.


k=1

Si ha
N 
h i Y 
iηX iηZ
ϕX (η) = E e = E  e k  =
k=1

(per la formula della probabilità totale (4.1.14))


 N 
 Y   N 
iηZ
= E E  e k | N  = E ϕZ1 (η)
k=1

dove nell’ultimo passaggio abbiamo utilizzato il Lemma di freezing e il fatto che, per l’indipendenza delle
v.a. Zk , si ha
 n 
Y 
E  iηZ
e k  = ϕZ1 (η)n , n ∈ N.
k=1

Allora si ha
X λn
ϕX (η) = e−λ ϕZ1 (η)n = eλ(ϕZ1 (η)−1)
n!
n≥0

dove ϕZ1 indica la CHF di Z1 .

Esempio 4.1.25. [!] Siano X, Y , U , V v.a. indipendenti con X, Y ∼ N0,1 e U 2 + V 2 , 0 q.c. Proviamo che

XU + Y V
Z := √ ∼ N0,1 .
U2 + V 2
Infatti si ha
iη √XU +Y V
" #
ϕZ (η) = E e U 2 +V 2 =

(per la formula della probabilità totale (4.1.14))


" " XU +Y V ##
iη √
= E E e U 2 +V 2 | (U , V ) =

(per il lemma di freezing e l’Esempio 2.4.16)


" #
η2 η2

=E e 2 = e− 2

da cui segue la tesi.


188 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

4.1.5 Regressione lineare


Riprendiamo i contenuti della Sezione 2.2.8 e introduciamo le nozioni statistiche di grafico di dispersione
e retta di regressione che utilizzeremo in seguito. Siano x = (x1 , . . . , xM ), y = (y1 , . . . , yM ) vettori in RM che
rappresentano due realizzazioni (o campioni) di variabili aleatorie X e Y . Nel grafico di dispersione si rap-
presentano sul piano cartesiano i punti di coordinate (xi , yi )i∈M . Tale grafico è utile a visualizzare il grado
di dipendenza fra i due campioni: un esempio è dato in Figura 4.1.

30
30

25

20

20

10 15

10

Jan Apr Jul Oct Jan -5 5 10 15 20 25 30


Bologna

Figura 4.1: A sinistra: temperature nell’anno 2012 di Bologna (in blu) e Città del Capo (in giallo). A de-
stra: grafico di dispersione delle temperature nell’anno 2012 di Bologna (in ascissa) e Città del Capo (in
ordinata).

Indichiamo rispettivamente con


M M
1 X 1 X
E [x] = xk , var(x) = (xk − E [x])2 ,
M M
k=1 k=1

la media campionaria e la varianza campionaria di x.


La retta di regressione, tracciata nel grafico di dispersione in Figura 4.1, è la retta di equazione y = ax + b
dove a, b minimizzano le differenze fra axi + b e yi nel senso che rendono minima la quantità
M
X
Q(a, b) = (axi + b − yi )2 .
i=1

Annullando il gradiente
 XM M
X 
(∂a Q(a, b), ∂b Q(a, b)) = 2 (axi + b − yi ) xi , 2 (axi + b − yi )
i=1 i=1

si determinano a, b: precisamente un semplice conto mostra che


σxy σxy
a= , b = E [y] − E [x] ,
σx2 σx2
dove σx2 = var(x) e
M
1 X
σxy = cov(x, y) = (xi − E [x]) (yi − E [y])
M
i=1
4.1. ATTESA CONDIZIONATA 189

è la covarianza campionaria (o empirica) di x e y. Si noti l’analogia con le formule (2.2.23).


La covarianza σxy è proporzionale e ha lo stesso segno del coefficiente angolare della retta di regressione.
σxy è un indicatore della dipendenza lineare fra x e y: se σxy = 0, ossia x e y sono campioni scorrelati, non
c’è dipendenza lineare (ma potrebbe esserci dipendenza di altro tipo); se σxy > 0 i campioni dipendono
linearmente in modo positivo, la retta di regressione è crescente e questo indica che y tende a crescere al
crescere di x.
La quantità
σxy
%xy =
σx σy
è detta correlazione campionaria (o empirica) fra x e y. La correlazione ha il vantaggio di essere invariante
per cambi di scala: per ogni α, β > 0 la correlazione fra αx e βy è uguale alla correlazione fra x e y. Inoltre,
per la disuguaglianza di Cauchy-Schwarz, si ha %xy ∈ [−1, 1].

4.1.6 Least Square Monte Carlo


Ci occupiamo dell’approssimazione numerica della funzione attesa condizionata
Φ(y) = EY =y [F(X, Y )] (4.1.15)

con F(X, Y ) ∈ L2 (Ω, F , P ), a partire dalla conoscenza della distribuzione congiunta µ(X,Y ) .
Se X, Y sono indipendenti allora per il Lemma di freezing si ha semplicemente Φ = E [F(X, ·)]: quindi
per determinare Φ è sufficiente calcolare un valore atteso e ciò può essere fatto numericamente col metodo
Monte Carlo. In generale, si può utilizzare un estensione di tale metodo, detto Least Square Monte Carlo
(LSMC), che è basato su una regressione multi-lineare del tipo visto nella Sezione 4.1.5.
Si procede nel modo seguente: per l’Osservazione 4.1.19, Φ è soluzione del problema ai minimi quadrati
(4.1.12), ossia h i
Φ = arg min E (f (Y ) − F(X, Y ))2 . (4.1.16)
f ∈L2 (R,B ,µY )

Consideriamo una base di L2 (R, B, µY ), per esempio le funzioni polinomiali βk (y) := y k con k = 0, 1, 2, . . . , e
fissato n ∈ N, poniamo
β = (β0 , β1 , . . . , βn ).
Approssimiamo in dimensione finita il problema (4.1.16) cercando una soluzione λ̄ ∈ Rn+1 di
 2 
min E hβ(Y ), λi − F(X, Y ) . (4.1.17)
λ∈Rn+1

Una volta determinato λ̄, l’approssimazione della funzione attesa condizionata in (4.1.15) è data da
Φ(y) ' hβ(y), λ̄i.
Risolviamo il problema (4.1.17) approssimando il valore atteso con il metodo Monte Carlo. Costruiamo
due vettori x, y ∈ RM le cui componenti sono ottenute simulando M valori delle variabili X e Y , con M
sufficientemente grande. Per fissare le idee, M può essere dell’ordine di 105 o maggiore, mentre al contrario
è sufficiente che il numero di elementi della base n sia piccolo, dell’ordine di qualche unità (si veda, per
esempio, [16] o la monografia [15]). Posto
M 
X 2
Q(λ) := hβ(yk ), λi − F(xk , yk ) , λ ∈ Rn+1 ,
k=1

il valore atteso in (4.1.17) è approssimato da


Q(λ)
 2 
≈ E hλ, β(Y )i − F(X, Y ) , M  1.
M
190 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

Come nella Sezione 4.1.5, il minimo di Q si determina imponendo ∇Q(λ) = 0. In notazioni vettoriali si ha
Q(λ) = |Bλ − F|2
dove B = (bki ) con bki = βi (yk ) e F = (F(xk , yk )) per k = 1, . . . , M e i = 0, . . . , n. Quindi
∇Q(λ) = 2 (B∗ Bλ − B∗ F)
e imponendo la condizione ∇Q(λ) = 0, nel caso la matrice B∗ B sia invertibile, si ottiene
λ̄ = (B∗ B)−1 B∗ F.
Il calcolo di λ̄ richiede l’inversione della matrice B∗ B che ha dimensione (n + 1) × (n + 1), da cui l’importanza
di mantenere n piccolo. Notiamo che invece B è una matrice di grandi dimensioni, M × (n + 1).
Come esempio, in Figura 4.2 mostriamo il grafico delle prime quattro approssimazioni LSMC, con base
polinomiale, della funzione attesa condizionata a Y
2
Φ(y) = Ey [F(X, Y )] , F(x, y) = max{1 − ex y , 0},
con (X, Y ) normale bidimensionale con media nulla, deviazioni standard σX = 0.8, σY = 0.5 e correlazione
% = −0.7.
2.5

2.0

1.5

1.0

0.5

0.0

-0.5

-1.0
-1 0 1 2

Figura 4.2: Approssimazioni LSMC.

4.2 Distribuzione condizionata


Proviamo l’esistenza della cosiddetta versione regolare della distribuzione condizionata ad una σ -algebra
G . Come per l’attesa condizionata, diamo due definizioni di distribuzione condizionata: la prima come
distribuzione aleatoria, ossia come distribuzione che dipende da ω ∈ Ω; la seconda, nel caso particolare
G = σ (Y ), come distribuzione che è funzione dei valori Y che può assumere. Ricordiamo la notazione (4.1.9)
per la probabilità condizionata P (F | G ) di un evento F a una σ -algebra G .
Teorema 4.2.1 (Versione regolare della distribuzione condizionata). [!] Sia X una v.a. su (Ω, F , P ) a
valori in Rd e G una sotto-σ -algebra di F . Esiste una mappa
µ : Ω × Bd −→ [0, 1]
che gode delle seguenti proprietà:
i) µ(·, H) = P (X ∈ H | G ) per ogni H ∈ Bd ;
ii) µ(ω, ·) è una distribuzione su Rd per ogni ω ∈ Ω \ G con G ∈ G trascurabile8 .
8 Ossia P (G) = 0.
4.2. DISTRIBUZIONE CONDIZIONATA 191

Se µ gode delle proprietà i) e ii) allora diciamo che µ è una versione regolare della distribuzione di X condizio-
nata a G e scriviamo µ = µX|G .

Dimostrazione. Si veda la Sezione 4.3.2.

Notazione 4.2.2. Nel seguito ometteremo di indicare la dipendenza da ω ∈ Ω e, fissato H ∈ Bd , scriveremo


µX|G (H) invece di µX|G (ω, H). Tuttavia è bene sottolineare il fatto che, per definizione, µX|G (H) è una v.a.
G -misurabile che, negli esempi, sarà interpretata come una “distribuzione aleatoria”.
Se G = σ (Y ) dove Y è una v.a. a valori in uno spazio misurabile qualsiasi, scriveremo µX|Y invece di
µX|σ (Y ) .

Esempio 4.2.3. [!] Se X ∈ mG allora µX|G = δX . Infatti la mappa

δX : Ω × Bd −→ {0, 1}

gode delle seguenti proprietà:

i) per ogni H ∈ Bd vale

δX (H) = 1H (X) =

(poichè X ∈ mG per ipotesi)

= E [1H (X) | G ] = P (X ∈ H | G ); (4.2.1)

ii) ovviamente δX(ω) è una distribuzione su Rd per ogni ω ∈ Ω.

Una procedura standard di approssimazione prova il seguente

Corollario 4.2.4. Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) si ha9
Z
f (x)µX|G (dx) = E [f (X) | G ] . (4.2.2)
Rd

Dimostrazione. Si veda la Sezione 4.3.2.

Osservazione 4.2.5. Perchè si parla di versione regolare della distribuzione condizionata? Il Teorema 4.1.12
assicura che, per ogni fissato H ∈ Bd , esiste una v.a. ZH che verifica i), ossia tale che

ZH = P (X ∈ H | G ).

Ora, ZH è definita a meno di eventi trascurabili e pertanto non è ovvio (e in generale non è vero) che ZH (ω),
come funzione di H ∈ Bd , sia una distribuzione per quasi ogni ω ∈ Ω, ossia soddisfi la proprietà ii). D’altra
parte, la proprietà ii) oltre a sembrare una richiesta naturale, è importante perchè garantisce che l’integrale
in (4.2.2) sia ben definito q.c.
La dimostrazione del Teorema 4.2.1 sfrutta in maniera cruciale il fatto che X sia a valori in Rd per
utilizzare la densità di Qd in Rd . Il risultato si estende al caso di X a valori in uno spazio metrico separabile10
e completo, come per esempio lo spazio delle funzioni continue C([a, b]; R) con la norma del massimo: per
la trattazione generale si veda, per esempio, il Teorema 1.1.6 in [33]. Tuttavia l’esistenza di una versione
regolare della distribuzione condizionata non è garantita per X a valori in un generico spazio misurabile
(si veda, per esempio, [11], p.624, o [13]).
9 Per la proprietà ii) del Teorema 4.2.1, l’integrale in (4.2.2) è una v.a., indichiamola con I, ben definita su Ω \ G. Essendo G ∈ G
trascurabile, non è rilevante il valore di I su G e possiamo, per esempio, porlo uguale a 0.
10 Uno spazio metrico S si dice separabile se esiste un sottoinsieme numerabile e denso in S .
192 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

Corollario 4.2.6. [!] Siano X, Y v.a. su (Ω, F , P ), rispettivamente a valori in Rd e Rn . Allora si ha


h i
µ(X,Y ) (H × K) = E µX|Y (H)1(Y ∈K) , H ∈ Bd , K ∈ Bn . (4.2.3)

La (4.2.3) mostra come si ricava la distribuzione congiunta di X, Y a partire dalla distribuzione condizionata
µX|Y e marginale µY : infatti la v.a. µX|Y (H)1(Y ∈K) è funzione di Y e pertanto il valore atteso in (4.2.3) è
h i
calcolabile a partire da µY . La (4.2.3) con K = Rn diventa µX (H) = E µX|Y (H) o più sinteticamente
h i
µX = E µX|Y (4.2.4)

che è detta formula della probabilità totale in analogia con la formula (4.1.14) per l’attesa condizionata.

Dimostrazione del Corollario 4.2.6. Per definizione si ha


h i h i h h i i
E µX|Y (H)1(Y ∈K) = E P (X ∈ H | Y ) 1(Y ∈K) = E E 1(X∈H) | Y 1(Y ∈K) =

(per la proprietà ii) del Teorema 4.1.12 con W = 1(Y ∈K) )


h i
= E 1(X∈H) 1(Y ∈K) = µ(X,Y ) (H × K).

Esempio 4.2.7. [!] Data una v.a. bidimensionale (X, Y ), supponiamo che Y ∼ Unif[0,1] e ExpY = µX|Y .
Proviamo che (X, Y ) è assolutamente continua e determiniamo la densità congiunta di X, Y e la densità
marginale di X. Un’immediata conseguenza della (4.2.3) è la seguente formula per la CDF congiunta: dati
x ∈ R≥0 e y ∈ [0, 1], si ha
h i
P ((X ≤ x) ∩ (Y ≤ y)) = E P (X ≤ x | Y ) 1(Y ≤y)
h i
= E ExpY (] − ∞, x])1(Y ≤y)
h  i
= E 1 − e−xY 1(Y ≤y)
Z y  e−xy − 1 + xy
= 1 − e−xt dt = .
0 x

Ne segue che la CDF di (X, Y ) è





0 se (x, y) ∈ R<0 × R<0 ,
 e−xy −1+xy

F(X,Y ) (x, y) = 
 x se (x, y) ∈ R≥0 × [0, 1],
 e−x −1+x
se (x, y) ∈ R≥0 × [1, +∞[.


x

Da ciò si ricava facilmente11 la densità congiunta

γ(X,Y ) (x, y) = ∂x ∂y F(x, y) = ye−xy 1R≥0 ×[0,1] (x, y).

Per la densità marginale, si ha

e−x (ex − 1 − x)
γX (x) = ∂x P (X ≤ x) = ∂x F(x, 1) = 1R≥0 (x).
x2
11 Si noti che
Zx Zy
F(x, y) = γ(X,Y ) (ξ, η)dξdη.
−∞ −∞
4.2. DISTRIBUZIONE CONDIZIONATA 193

In analogia con la Definizione 4.1.17, definiamo ora la distribuzione condizionata come funzione.

Definizione 4.2.8 (Versione regolare della funzione distribuzione condizionata). [!!] Siano X, Y v.a. su
(Ω, F , P ) con X a valori in Rd e Y a valori in uno spazio misurabile (E, E ). Una versione regolare della funzione
distribuzione di X condizionata a Y è una qualsiasi mappa

µ : E × Bd −→ [0, 1]

che gode delle seguenti proprietà:

i) per ogni H ∈ Bd , µ(y, H) = Py (X ∈ H), ossia µ(·, H) è una versione della funzione probabilità di (X ∈ H)
condizionata a Y . Più esplicitamente, in base alla Definizione 4.1.17, questo significa che:

i-a) µ(·, H) ∈ mE ;
i-b) µ(Y , H) = P (X ∈ H | Y );

ii) per ogni y ∈ E, µ(y, ·) è una misura finita12 su Bd .

In simboli scriviamo
µ(y, H) = µX|Y =y (H)
o più semplicemente
µ(y, H) = µX|y (H)

qualora sia chiaro rispetto a quale v.a. si sta condizionando e non ci sia possibilità di confusione.

Osservazione 4.2.9. In definitiva possiamo interpretare la distribuzione di X condizionata a Y come:

• una distribuzione aleatoria e in tal caso usiamo la notazione13 µX|Y ;

• una distribuzione dipendente da y ∈ E e in tal caso usiamo la notazione14 µX|y .

A seconda delle situazioni particolari, si può scegliere il punto di vista più conveniente.

Osservazione 4.2.10. Vale la seguente proprietà di coerenza che sembra quasi una tautologia: se µ(y, ·) =
µX|Y =y (ossia se µ è una versione regolare della funzione distribuzione di X condizionata a Y ) allora µ(Y , ·)
è una versione regolare della distribuzione di X condizionata a Y (secondo la definizione data nel Teorema
4.2.1). Infatti:

i) µ(Y , H) = P (X ∈ H | Y ) per ogni H ∈ Bd , per la i-b) della Definizione 4.2.8;

ii) per la ii) della Definizione 4.2.8, µ(Y , ·) è una misura finita su Bd e inoltre

µ(Y , R) = P (X ∈ R | Y ) = 1

con l’ultima uguaglianza che vale su Ω \ G con G ∈ σ (Y ) trascurabile (per l’unicità dell’attesa con-
dizionata). Ne segue che anche la proprietà ii) del Teorema 4.2.1 è verificata, ossia µ(Y , ·) è q.c. una
distribuzione.
12 Sarà chiaro dagli esempi perchè assumiamo che µ(y, ·) sia in generale una misura finita e non una distribuzione.
13 In questo caso
µX|Y = µX|Y (ω, H), ω ∈ Ω, H ∈ Bd .

14 In questo caso
µX|· = µX|y (H), y ∈ E, H ∈ Bd .
194 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

Esempio 4.2.11. [!] Consideriamo un esempio banale che tuttavia è utile a capire meglio il concetto di
distribuzione condizionata. Se X una v.a. qualsiasi, per quanto visto nell’Esempio 4.2.3, si ha µX|X = δX :
dunque δX , come distribuzione aleatoria, è una versione regolare della distribuzione di X condizionata ad
X.
D’altra parte, è immediato verificare che δx = µX|X=x , ossia δx è una versione regolare della funzione di-
stribuzione di X condizionata a X. Nel caso specifico di X ∼ Unif[0,1] si ha che δx e δx 1[0,1] (x) sono entrambe
versioni regolari della funzione distribuzione di X condizionata a X. Infatti µ(x, H) := δx (H)1[0,1] (x) verifica
le proprietà della Definizione 4.2.8:

i-a) µ(·, H) ∈ mE ;

i-b) µ(X, H) = δX (H)1[0,1] (X) = δX (H) = P (X ∈ H | Y ) per la (4.2.1);

ii) per ogni x ∈ R, µ(x, ·) è una misura finita su B: in particolare, µ(x, ·) = δx se x ∈ [0, 1] ed µ(x, ·) è la
misura nulla se x ∈ R \ [0, 1].

Intuitivamente, il valore assunto da µ(x, ·) per x < [0, 1] è irrilevante poichè la v.a. X assume valori in [0, 1]
q.c.
Analogamente, nell’Esempio 4.2.7, ExpY = µX|Y (ossia ExpY è una versione regolare della distribuzione
di X condizionata a Y ) e, per y ∈ R, Expy 1R>0 (y) = µX|y (ossia Expy 1R>0 (y) è una versione regolare della
funzione distribuzione di X condizionata a Y ).

Ricordiamo la notazione (4.1.10), Ey [X] = EY =y [X], per indicare la funzione attesa di X condizionata a
Y . In analogia col Corollario 4.2.4 abbiamo il seguente risultato la cui prova è lasciata come utile esercizio.

Corollario 4.2.12. Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) si ha


Z
f (x)µX|y (dx) = Ey [f (X)] .
Rd

Nelle sezioni seguenti vediamo come operativamente si determina una distribuzione condizionata.

4.2.1 Il caso discreto


Sia Y una v.a. discreta nel senso che l’immagine Y (Ω) ha cardinalità al più numerabile e P (Y = y) > 0 per
ogni y ∈ Y (Ω). Come conseguenza diretta di quanto provato nell’Esempio 4.1.11 per l’attesa condizionata,
per ogni H ∈ Bd si ha la seguente formula esplicita per una versione della distribuzione condizionata

µX|Y (ω, H) = P (X ∈ H | Y = Y (ω)) , ω ∈ Ω,

e per una versione della funzione distribuzione condizionata



P (X ∈ H | Y = y) , se y ∈ Y (Ω),


µX|y (H) = 
0,
 se y ∈ E \ Y (Ω).

Si noti che:

• µX|Y (H) è una v.a. costante a tratti sugli elementi della partizione (Y = y)y∈Y (Ω) di Ω;

• µX|y è una distribuzione solo se y appartiene all’insieme numerabile Y (Ω). Se y < Y (Ω) allora µX|y è
la misura identicamente nulla, µX|y ≡ 0.
4.2. DISTRIBUZIONE CONDIZIONATA 195

Esempio 4.2.13. Da un’urna che contiene n ≥ 2 palline numerate, si estraggono in sequenza e senza rein-
serimento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il numero della prima e seconda
pallina estratta. Allora
µX2 |X1 = UnifIn \{X1 }
o equivalentemente, per ogni k ∈ In ,

1
 n−1 , se h ∈ In \ {k},


µX2 |X1 =k ({h}) = 
0
 altrimenti.

Esempio 4.2.14. Il numero di mail di spam ricevute ogni giorno da una casella di posta è una v.a. con
distribuzione Poisson10 . Installando un software antispam è possibile dimezzare il numero medio di mail
di spam ricevute. Sapendo che tale software protegge solo l’80% delle caselle di posta di un’azienda, de-
terminiamo la distribuzione e la media del numero di mail di spam ricevute ogni giorno da ogni casella di
posta dell’azienda.
Sia Y ∼ Bep , con p = 80%, la v.a. che vale 1 se una casella di posta è protetta e 0 altrimenti. Se X indica
il numero di mail di spam ricevute, si ha per ipotesi
µX|Y = Y Poisson5 + (1 − Y )Poisson10 .
Allora, per la formula della probabilità totale (4.2.4), si ha
h i
µX = E µX|Y = pµX|Y =1 + (1 − p)µX|Y =0 = pPoisson5 + (1 − p)Poisson10
da cui
E [X] = pE [X | Y = 1] + (1 − p)E [X | Y = 0] = 80% · 5 + 20% · 10 = 6.
Esempio 4.2.15. Supponiamo che µX|Y = ExpY con Y ∼ Geomp : allora si ha
Z +∞ h it=+∞
P (X ≥ x | Y ) = ExpY ([x, +∞[) = Y e−tY dt = −e−tY = e−xY ,
t=x
x
per ogni x ≥ 0. Quindi si ha
h i X p
E [P (X ≥ x | Y )] = E e−xY = e−nx p(1 − p)n−1 =
p − 1 + ex
n∈N

e d’altra parte, per la formula della probabilità totale, vale


E [P (X ≥ x | Y )] = P (X ≥ x)
che fornisce l’espressione della CDF (e quindi della distribuzione) di X. Infatti, osservando che chiaramente
P (X ≥ x | Y ) = 1 se x < 0, si ha 
1 se x < 0,


P (X ≥ x) =  p
 p−1+ex se x ≥ 0,

da cui si deduce che X è una v.a. assolutamente continua con densità (si veda la Figura 4.3)

d 0 x se x < 0,


γX (x) = (1 − P (X > x)) = 
 pe 2 se x ≥ 0. (4.2.5)
dx 
(p−1+ex )

Si può pensare a X come a una v.a. di tipo esponenziale con intensità15 stocastica. Questo esempio mostra
che tramite il concetto di distribuzione condizionata è possibile considerare modelli probabilistici in cui il
valore dei parametri è incerto o stocastico. Da qui viene la fondamentale importanza della distribuzione
condizionata in molte applicazioni e, in particolare, in statistica.
15 Nella distribuzione esponenziale Exp , il parametro λ > 0 è usualmente chiamato intensità.
λ
196 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

2.0

1.5

1.0

0.5

0.5 1.0 1.5 2.0

Figura 4.3: Grafico della densità in (4.2.5) per p=0.5

Esempio 4.2.16. Consideriamo Ti ∼ Geompi , i = 1, 2, indipendenti e T := T1 ∧ T2 . Determiniamo la distri-


buzione di T condizionata a T2 : sfruttando l’ipotesi di indipendenza, per ogni k, n ∈ N si ha

P ((T1 =k)∩(T2 =n))



 P (T2 =n)
= p1 (1 − p1 )k−1 , se k < n,
 P ((T1 ≥n)∩(T2 =n))

P (T = k | T2 = n) = 
 P (T2 =n)
= (1 − p1 )n−1 , se k = n,


0,

se k > n.

4.2.2 Il caso assolutamente continuo


Consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo e fissiamo una16 densità
γ(X,Y ) . Ricordiamo che, per il Teorema di Fubini,
Z
γY (y) = γ(X,Y ) (x, y)dx, y ∈ R, (4.2.6)
Rd

è una densità di Y e
(γY > 0) := {y ∈ R | γY (y) > 0}
appartiene a B.
Proposizione 4.2.17. [!] Sia (X, Y ) ∈ AC un vettore aleatorio con densità γ(X,Y ) . Allora la funzione

γ(X,Y ) (x, y)
γX|Y (x, y) := 1(γY >0) (y), (x, y) ∈ Rd × R, (4.2.7)
γY (y)
è una versione regolare della densità di X condizionata a Y nel senso che
Z
γX|Y (x, y)dx = µX|Y =y (H), H ∈ Bd , y ∈ R, (4.2.8)
H

ossia l’integrale in (4.2.8) è una versione regolare della funzione distribuzione di X condizionata a Y . In
particolare, per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
f (x)γX|Y (x, y)dx = Ey [f (X)] (4.2.9)
Rd
16 Ricordiamo (cfr. Osservazione 1.4.19) che la densità di una v.a. è definita a meno di insiemi di Borel di misura nulla secondo
Lebesgue.
4.2. DISTRIBUZIONE CONDIZIONATA 197

o equivalentemente Z
f (x)γX|Y (x, Y )dx = E [f (X) | Y ] . (4.2.10)
Rd

Dimostrazione. Si veda la Sezione 4.3.3.

Osservazione 4.2.18. [!] Si noti che γX|Y (·, y) è una vera densità solo se γY (y) > 0, mentre è uguale alla
funzione identicamente nulla se γY (y) = 0.

Esempio 4.2.19. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su

S = {(x, y) ∈ R2 | x > 0, y > 0, x2 + y 2 < 1}.

Determiniamo:

i) la distribuzione condizionata µX|Y ;

ii) E [X | Y ] e var(X | Y );

iii) la densità della v.a. E [X | Y ].

i) La densità congiunta è
4
γ(X,Y ) (x, y) = 1 (x, y)
π S
e la marginale di Y è
p
4 1 − y2
Z
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y).
R π
Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = 1]0,1[ (y) = p 1 √ 2 (x)1]0,1[ (y)
γY (y) 1 − y 2 [0, 1−y ]
da cui riconosciamo che
µX|Y = Unif[0,√1−Y 2 ] . (4.2.11)

ii) Per la (4.2.11) si ha



1−Y2 1−Y2
E [X | Y ] = , var(X | Y ) = .
2 12
In alternativa, in base alla (4.2.9) della Proposizione 4.2.17 si ha, per y ∈ ]0, 1[,
p
1 − y2
Z
Ey [X] = xγX|Y (x, y)dx = ,
R 2
Z  p 2
 1 − y 2 1 − y2
vary (X) = x −  γX|Y (x, y)dx = .

R
 2  12

1−Y 2
iii) Infine per determinare la densità della v.a. Z = 2 utilizziamo la CDF: si ha P (Z ≤ 0) = 0, P (Z ≤
1/2) = 1 e per 0 < z < 1/2 vale
√ 
P (Z ≤ z) = P 1 − Y 2 ≤ 2z
 
= P Y 2 ≥ 1 − 4z2
 √ 
= P Y ≥ 1 − 4z2
198 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

1−4z2
p
4 1 − y2
Z
= 1− dy.
0 π
Derivando otteniamo la densità di Z:
32z2
γZ (z) = √ 1[0,1/2] (z).
π 1 − 4z2
Dalla densità condizionata è possibile ricavare la densità.
Corollario 4.2.20 (Formula della probabilità totale per la densità). Vale
h i
γX = E γX|Y (·, Y ) . (4.2.12)

Dimostrazione. Per ogni f ∈ mB limitata, si ha

E [f (X)] = E [E [F(X) | Y ]] =

(per la (4.2.10))
"Z #
=E f (x)γX|Y (x, Y )dx =
Rd

(per il Teorema di Fubini)


Z h i
= f (x)E γX|Y (x, Y ) dx
Rd

e questo prova la tesi, data l’arbitrarietà della funzione f .


Esempio 4.2.21. Siano X, Y v.a. Supponiamo Y ∼ Expλ , con λ > 0, e che la densità di X condizionata a Y
sia di tipo esponenziale:
γX|Y (x, y) = ye−xy 1[0,+∞ (x),
ossia µX|Y = ExpY . Determiniamo la densità di X: utilizzando la (4.2.12) si ha
h i
γX (x) = E Y e−xY 1[0,+∞ (x)
Z +∞
= ye−xy λe−λy dy1[0,+∞ (x)
0
λ
= 1[0,+∞ (x).
(x + λ)2

Si noti che X < L1 (Ω, P ).


Esempio 4.2.22. Riprendiamo l’Esempio 4.1.21 e consideriamo un vettore aleatorio normale bidimensio-
nale (X, Y ) ∼ Nµ,C con
σX2 σXY
!
µ = (µ1 , µ2 ), C= ≥ 0.
σXY σY2
Determiniamo:
i) la funzione caratteristica ϕX di X;
ii) la funzione caratteristica ϕX|Y e la distribuzione µX|Y di X condizionata a Y ;
iii) E [X | Y ].
4.2. DISTRIBUZIONE CONDIZIONATA 199

i) Essendo (X, Y ) ∼ Nµ,C si ha


1
ϕ(X,Y ) (η1 , η2 ) = eiµ·η− 2 hCη,ηi , η = (η1 , η2 ) ,
e 1 2 2
ϕX (η1 ) = ϕ(X,Y ) (η1 , 0) = eiη1 µ1 − 2 η1 σX ,
ossia X ∼ Nµ1 ,σ 2 .
X
ii) La densità di X condizionata a Y è
γ(X,Y ) (x, y)
γX|Y (x, y) =
γY (y)
da cui, con qualche calcolo, si trova
h i
ϕX|Y (η1 , Y ) = E eiη1 X | Y
Z
= eiη1 x γX|Y (x, Y )dx
R
σ2
! !
σXY
iη1 µ1 +(Y −µ2 ) − 21 η12 σX2 − XY
σY2 2σY
=e ,
ossia
µX|Y = N σXY
2
σXY . (4.2.13)
µ1 +(Y −µ2 ) ,σX2 −
σY2 σY2

iii) Da (4.2.13) si ha
σXY
E [X | Y ] = µ1 + (Y − µ2 ) (4.2.14)
σY2
in accordo con quanto visto nell’Esempio 4.1.21. Lo stesso risultato si ottiene con la (4.2.9), calcolando
Z
σ
Ey [X] = xγX|Y (x, y)dx = µ1 + (y − µ2 ) XY , y ∈ R.
R σY2
Esempio 4.2.23. Sia (X1 , X2 , X3 ) un vettore aleatorio con distribuzione normale Nµ,C dove
 
1 1 0
µ = (0, 1, 0) , C = 1 2 1 .
 
0 1 3
 

Per determinare
E [(X1 , X2 , X3 ) | X3 ] ,
anzitutto osserviamo che (X1 , X3 ) ∼ N(0,0),C2 e (X2 , X3 ) ∼ N(1,0),C1 dove
! !
1 0 2 1
C2 = , C1 = .
0 3 1 3

Ricordando il Teorema 4.1.23-3) e osservando che X1 e X3 sono indipendenti poichè cov(X1 , X3 ) = 0,


abbiamo che E [X1 | X3 ] = E [X1 ] = 0. Inoltre, per la (4.2.14),
X3
E [X2 | X3 ] = 1 + .
3
Infine, ancora per Teorema 4.1.23-2), si ha E [X3 | X3 ] = X3 . In definitiva
X
   
E [(X1 , X2 , X3 ) | X3 ] = E [X1 | X3 ] , E [X2 | X3 ] , E [X3 | X3 ] = 0, 1 + 3 , X3 .
3
200 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

Esempio 4.2.24. Il petrolio ricevuto da una raffineria contiene una concentrazione di detriti pari a Y
Kg/barile dove Y ∼ Unif[0,1] . Si stima che il processo di raffinazione porti la concentrazione di detriti
da Y a X con X ∼ Unif[0,αY ] dove α < 1 è un parametro positivo noto. Determiniamo:
i) le densità γ(X,Y ) e γX ;
ii) il valore atteso della concentrazione di detriti Y prima della raffinazione, dando per nota la concen-
trazione X dopo la raffinazione.
i) I dati del problema sono:
µY = Unif[0,1] , µX|Y = Unif[0,αY ] ,
ossia
1
γY (y) = 1[0,1] (y), γX|Y (x, y) = 1 (x, y).
αy ]0,αy[×]0,1[
Dalla formula (4.2.7) per la densità condizionata ricaviamo
1
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = 1 (x, y)
αy ]0,αy[×]0,1[
e Z Z 1
1 log α − log x
γX (x) = γ(X,Y ) (x, y)dy = dy 1]0,α[ (x) = 1]0,α[ (x).
R x αy α
α

ii) Dobbiamo calcolare E [Y | X]. Si ha


γ(X,Y ) (x, y) 1
γY |X (y, x) = 1(γX >0) (x) = 1 (x, y) (4.2.15)
γX (x) y(log α − log x) ]0,αy[×]0,1[
da cui Z Z 1
1 α−x
EX=x [Y ] = yγY |X (y, x)dy = 1 (x) dy = 1 (x).
R log α − log x ]0,α[ x α(log α − log x) ]0,α[
α

In definitiva si ha
α−X
E [Y | X] = .
α(log α − log X)
Notiamo che nella (4.2.15) abbiamo usato la relazione
γ(X,Y ) (x, y) γX|Y (x, y)
γY |X (y, x) = 1(γX >0) (x) = γY (y),
γX (x) γX (x)
che è una versione della formula di Bayes.
Esempio 4.2.25. Sia (X, Y ) un vettore aleatorio con distribuzione marginale µY = χ2 e distribuzione condi-
zionata µX|Y = N0, 1 . Ricordiamo che le relative densità sono
Y
r
1 −2
y y − x2 y
γY (y) = p e 1R+ (y), γX|Y (x, y) = e 2 1R+ (y).
2πy 2π

Allora la densità congiunta è data da


1 − (1+x2 )y
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = e 2 1R+ (y)

e la marginale di X è Z +∞
1
γX (x) = γ(X,Y ) (x, y)dy = , x ∈ R,
0 π(1 + x2 )
ossia X ha distribuzione di Cauchy (cfr. (2.4.5)).
4.2. DISTRIBUZIONE CONDIZIONATA 201

4.2.3 Esempi ed esercizi


Esempio 4.2.26. Sia (X, Y ) un vettore aleatorio assolutamente continuo con densità γ(X,Y ) e B = (Y ∈ K) con
K ∈ B tale che P (B) > 0. Allora, per ogni H ∈ B, si ha
P ((X ∈ H) ∩ (Y ∈ K))
µX|Y ∈K (H) = (4.2.16)
P (Y ∈ K)
µ(X,Y ) (H × K)
=
µY (K)
"
1
= γ (x, y)dxdy =
P (Y ∈ K) H×K (X,Y )
(per il Teorema di Fubini)
Z Z !
1
= γ(X,Y ) (x, y)dy dx
H P (Y ∈ K) K

da cui segue la formula Z


1
γX|Y ∈K (x) = γ(X,Y ) (x, y)dy (4.2.17)
P (Y ∈ K) K
per la densità di X condizionata all’evento (Y ∈ K). Notiamo che nel caso in cui K = R (e quindi (Y ∈ K) = Ω)
la (4.2.17) coincide con la formula (2.2.25) che esprime la densità marginale a partire dalla congiunta.
Come esempio particolare, consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ N0,C con
matrice di covarianza !
1 1
C=
1 2
e poniamo B = (Y > 0). Ricordando l’espressione (2.4.17) della densità Gaussiana bidimensionale, (X, Y ) ha
densità uguale a
1 −x2 +xy− y 2
Γ (x, y) = e 2 .

Allora come in (4.2.16) si ha
Z Z +∞ !
1
µX|Y >0 (H) = Γ (x, y)dy dx, H ∈ B,
H P (Y > 0) 0

da cui si calcola l’espressione della densità di X condizionata a (Y > 0):


Z +∞
1
ΓX|Y >0 (x) = Γ (x, y)dy
P (Y > 0) 0
x2
 
e− 2 1 + erf √x
2
= √ , x ∈ R.

Notiamo che E [X] = 0 ma Z
1
E [X | Y > 0] = xΓX|Y >0 (x)dx = √ .
R π
Esempio 4.2.27. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche,
2 nere e 2 rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte.
Determiniamo la distribuzione di X condizionata a (Y = 0) e l’attesa condizionata E [X | Y = 0]. Si ha
3
P (X = 0 | Y = 0) = 0, P (X = 1 | Y = 0) = ,
10
202 CAPITOLO 4. ATTESA E DISTRIBUZIONE CONDIZIONATA

6 1
P (X = 2 | Y = 0) = , P (X = 0 | Y = 0) = ,
10 10
e
3
X 9
E [X | Y = 0] = kP (X = k | Y = 0) = .
5
k=0

Esempio 4.2.28. L’urna A contiene n ∈ N palline di cui solo k1 ≤ n sono bianche. L’urna B contiene n ∈ N
palline di cui solo k2 ≤ n sono bianche. Si sceglie a caso un’urna e si effettua una successione di estrazioni
con reinserimento. Determiniamo la distribuzione del numero X di estrazioni necessarie per trovare la
prima pallina bianca.
Sia Y ∼ Bep , con p = 21 , la v.a. che vale 1 se viene scelta l’urna A e vale 0 altrimenti. Allora, ricordando
l’Esempio 2.1.24 sulla distribuzione geometrica, si ha

µX|Y = Y Geom k1 + (1 − Y )Geom k2 ,


n n

e per la formula della probabilità totale (4.2.4) si ha

1
 
µX = Geom k1 + Geom k2 .
2 n n

Infine
n(k1 + k2 )
E [X] = .
2k1 k2
Esempio 4.2.29. Il numero di email ricevute ogni giorno è una v.a. Y ∼ Poissonλ con λ = 20. Ogni email ha
probabilità p = 15% di essere spam, indipendentemente dalle altre. Determiniamo la distribuzione della
v.a. X che indica il numero di email di spam ricevute ogni giorno.
Intuitivamente ci aspettiamo che X ∼ Poissonλp . In effetti, per ipotesi si ha

0 se n < k,


P (X = k | Y = n) = 
Binn,p ({k})
 se k ≥ n,

è la probabilità che, su n email ricevute, ce ne siano esattamente k di spam. Per la Formula della probabilità
totale si ha
X
P (X = k) = P (X = k | Y = n)P (Y = n)
n≥0
X n! λn
= pk (1 − p)n−k e−λ
k n!
n≥k
e−λ (λp)k X (1 − p)n−k λn−k
= =
k! (n − k)!
n≥k

(posto h = n − k)

e−λ (λp)k X (1 − p)h λh (λp)k


= = e−λp = Poissonλp ({k}).
k! h! k!
h≥0

Esempio 4.2.30. Siano Xi ∼ Poissonλi , i = 1, 2, indipendenti e Y := X1 + X2 . Sappiamo (cfr. Esempio 2.5.5)


che Y ∼ Poissonλ1 +λ2 . Proviamo che
µX1 |Y = BinY , λ1 .
λ1 +λ2
4.3. APPENDICE 203

Indichiamo con µX1 |Y =· la funzione distribuzione di X1 condizionata a Y . Per k ≤ n, si ha

P ((X1 = k) ∩ (Y = n))
µ̄X1 |Y =n ({k}) = =
P (Y = n)

(per l’indipendenza di X1 e X2 )

e−λ1 λk1 e−λ2 λn−k


2
P (X1 = k)P (X2 = n − k) k! (n−k)!
= =
P (Y = n) e−λ1 −λ2 (λ1 +λ2 )n
n!

e d’altra parte µX1 |Y =n ({k}) = 0 se k > n. Da ciò si conclude facilmente.

Esercizio 4.2.31. Siano Xi ∼ Geomp , i = 1, 2, indipendenti e Y := X1 + X2 . Provare che

i) µY ({n}) = (n − 1)p2 (1 − p)n−2 , per n ≥ 2;

ii) µX1 |Y = Unif{1,2,...,Y −1} .

4.3 Appendice
4.3.1 Dimostrazione del Teorema 4.1.12
(Unicità) Consideriamo il caso d = 1. Dimostriamo un risultato leggermente più generale da cui segue
facilmente l’unicità: siano X, X 0 v.a. sommabili, tali che X ≤ X 0 quasi certamente e siano Z, Z 0 v.a. che
verificano le proprietà i) e ii) rispettivamente per X e X 0 . Allora Z ≤ Z 0 quasi certamente.
Infatti, poniamo
An = (Z − Z 0 ≥ 1/n) , n ∈ N.
Allora An ∈ G per la i), e vale
h i h i h i
0 ≥ E (X − X 0 )1An = E X1An − E X 0 1An =

(per ii))
h i h i