Sei sulla pagina 1di 290

Giacinto Gelli

Probabilit e informazione

ab efg

N APOLI 2015
c Giacinto Gelli gelli@unina.it

Lautore consente la riproduzione anche parziale del testo agli studenti del corso. Non con-
sentito modificare il testo, diffonderlo, pubblicarlo anche con mezzi telematici senza il consenso
scritto dellautore.
Prima versione (1.0): settembre 2001.
Seconda versione (2.0): febbraio 2002.
Terza versione (3.0): ottobre 2002.
Quarta versione (3.1): marzo 2003.
Quinta versione (3.2): settembre 2003.
Sesta versione (3.3): marzo 2004.
Settima versione (3.4): marzo 2015.
In memoria di Anna e Gilberto.
Prefazione

Poich non dal lavoro che nasce la civilt:


essa nasce dal tempo libero e dal giuoco.
Alexandre Koyr, I filosofi e la macchina

Questo libro costituisce un tentativo di fornire unintroduzione snella, ma rigorosa, ai concet-


ti fondamentali di probabilit ed informazione per gli allievi dei corsi di laurea dellIngegneria
dellInformazione.
Il libro organizzato in 10 capitoli ed alcune appendici; nei capitoli 1 e 2 si espongono le basi della
teoria della probabilit; i capitoli 3, 4 e 5 sono dedicati allo studio della teoria di una variabile
aleatoria; i capitoli 6 e 7 si occupano della teoria di due variabili aleatorie; il capitolo 8 generalizza
molti dei concetti esposti nei capitoli precedenti al caso di n > 2 variabili aleatorie e discute
brevemente i teoremi limite (legge dei grandi numeri e teorema limite fondamentale); nel capitolo
9 sono introdotte le distribuzioni condizionali; infine, il capitolo 10 dedicato allintroduzione
dei concetti fondamentali della teoria dellinformazione (entropia, codifica di sorgente, primo
teorema di Shannon, codici di Huffmann). Gli argomenti marcati con il simbolo possono essere
saltati ad una prima lettura, senza pregiudicare la comprensione del resto. Il libro corredato
da numerosi esempi svolti e da oltre 200 esercizi proposti, suddivisi per capitolo; gli esercizi
contrassegnati con il simbolo sono di maggiore difficolt.
Per unadeguata comprensione del testo sono richieste conoscenze di base di calcolo combina-
torio, di analisi reale (teoria delle funzioni di una e pi variabili, derivazione ed integrazione
delle funzioni di una e pi variabili, successioni e serie) e di algebra lineare e geometria (vettori,
matrici, determinanti). necessaria anche una conoscenza operativa dellimpulso di Dirac, le cui
propriet fondamentali sono comunque richiamate nellappendice D.
Il libro disponibile su Internet in formato pdf nella sezione Materiale Didattico (corso di
Teoria dei Segnali) alla seguente URL:

http://www.docenti.unina.it/giacinto.gelli

ed stato composto dallautore utilizzando LATEX2e. Commenti, segnalazioni di errori e suggeri-


menti possono essere indirizzati a gelli@unina.it.
ii

Si ringraziano gli studenti della Facolt di Ingegneria (ora Scuola Politecnica e delle Scienze di
Base) dellUniversit Federico II di Napoli per il loro incoraggiamento, la loro inesauribile
curiosit, e in particolare per le osservazioni che hanno consentito di correggere molti degli errori
presenti nelle precedenti versioni.

Giacinto Gelli, marzo 2015


iii

Principali notazioni
A, B, C insiemi
A, B, C classi (collezioni di insiemi)
insieme vuoto
A appartiene ad A
6 A non appartiene ad A
AB A un sottoinsieme di B
AB A un sottoinsieme proprio di B
A B, A + B unione di A e B
A B, AB intersezione di A e B
AB differenza tra A e B
A complemento di A
AB prodotto cartesiano di A e B
, uguale per definizione
N insieme dei numeri naturali {1, 2, . . . , }
N0 = N {0} insieme dei numeri naturali, zero incluso {0, 1, 2, . . .}
Z insieme dei numeri interi relativi {. . . , 2, 1, 0, 1, 2, . . .}
R insieme dei numeri reali
R = R {, } insieme ampliato dei numeri reali
[ a, b] intervallo a x b
[ a, b[ intervallo a x < b
] a, b] intervallo a < x b
] a, b[ intervallo a < x < b
] , b[ intervallo x < b
] , b] intervallo x b
] a, [ intervallo x > a
[ a, [ intervallo x a
( a, b) indica indifferentemente un qualunque intervallo di estremi a e b
spazio campione
S -campo costruito su uno spazio campione
P( ) collezione delle parti di
P( A) probabilit dellevento A
P( A| B) probabilit condizionata dellevento A dato levento B
X, Y, Z variabili aleatorie
x, y, z vettori
A, B, C matrici
det( A) determinante della matrice A
A 1 inversa della matrice A
AT trasposta della matrice A
iv
Indice

1 Probabilit elementare 1
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Richiami di teoria degli insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Probabilit: definizioni preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Probabilit assiomatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Campi e -campi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Assiomi di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.3 Propriet elementari della probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.4 Spazi di probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.5 Propriet di continuit della probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Altri approcci alla teoria della probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Approccio frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.2 Approccio classico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.3 Vantaggi (e svantaggi) dellapproccio assiomatico . . . . . . . . . . . . . . . . . . . . . 15
1.6 Esempi di costruzione di spazi di probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.1 Spazi di probabilit discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.2 Spazi di probabilit continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2 Probabilit condizionale e indipendenza 27


2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Probabilit condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Interpretazioni della probabilit condizionale . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 Legge della probabilit composta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.3 Regola della catena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.4 Teorema della probabilit totale e teorema di Bayes . . . . . . . . . . . . . . . . . . . . 32
2.3 Indipendenza tra eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.1 Indipendenza di tre o pi eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.2 Indipendenza condizionale tra eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4 Esperimenti combinati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.1 Esperimenti indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5 Elementi di un sistema di comunicazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.1 Sorgente di informazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5.2 Canale di comunicazione e canale binario simmetrico (BSC) . . . . . . . . . . . . . . . 42
2.5.3 Sorgenti e canali senza memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.6 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
vi INDICE

3 Variabili aleatorie 51
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Definizione formale di variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Funzione di distribuzione cumulativa (CDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.1 Propriet della CDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2 Variabili aleatorie discrete, continue, miste . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.3 Percentile e mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3 Funzione densit di probabilit (pdf) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1 Propriet della pdf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4 Funzione distribuzione di probabilit (DF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.1 Propriet della DF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.5 Variabili aleatorie notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.5.1 Variabile aleatoria di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.5.2 Variabile aleatoria binomiale e problema delle prove ripetute . . . . . . . . . . . . . . 67
3.5.3 Variabile aleatoria binomiale negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.5.4 Variabile aleatoria geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.5 Variabile aleatoria di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.6 Variabile aleatoria uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5.7 Variabile aleatoria gaussiana o normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5.8 Variabile aleatoria esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.9 Variabile aleatoria di Laplace (esponenziale bilatera) . . . . . . . . . . . . . . . . . . . 76
3.5.10 Variabile aleatoria di Rayleigh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.5.11 Variabile aleatoria di tipo mixture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.5.12 Relazioni tra variabile aleatoria binomiale e gaussiana: i teoremi di de Moivre-Laplace 77
3.6 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4 Trasformazioni di una variabile aleatoria 85


4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.1 Condizioni da imporre alla funzione g( x ) . . . . . . . . . . . . . . . . . . . . . . . . 86
4.2 Caratterizzazione statistica di Y = g( X ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2.1 Calcolo della CDF di Y = g( X ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2.2 Calcolo della DF di Y = g( X ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.2.3 Calcolo della pdf di Y = g( X ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.3 Problema inverso: determinazione di g( x ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3.1 Generazione di una variabile aleatoria con CDF assegnata . . . . . . . . . . . . . . . . 98
4.3.2 Generazione automatica di numeri casuali . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3.3 Algoritmo middle-square (Von Neumann) . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3.4 Algoritmo lineare congruente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.3.5 Test statistici sui generatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.4 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5 Caratterizzazione sintetica di una variabile aleatoria 109


5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2 Media di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.2.1 Teorema fondamentale della media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2.2 Propriet della media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.3 Varianza e valor quadratico medio di una variabile aleatoria . . . . . . . . . . . . . . . . . . . 114
5.3.1 Propriet della varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.4 Momenti di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.4.1 Relazione tra momenti e momenti centrali . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.5 Disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.6 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
INDICE vii

6 Coppie di variabili aleatorie 127


6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.2 Funzione di distribuzione cumulativa (CDF) congiunta . . . . . . . . . . . . . . . . . . . . . . 128
6.2.1 Propriet della CDF congiunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.3 Funzione densit di probabilit (pdf) congiunta . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.3.1 Propriet della pdf congiunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.4 Funzione di distribuzione di probabilit (DF) congiunta . . . . . . . . . . . . . . . . . . . . . . 133
6.5 Statistiche congiunte e marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.6 Coppie di variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
6.6.1 Propriet delle variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . 138
6.7 Trasformazioni di coppie di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.7.1 Trasformazione 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.7.2 Trasformazione 22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
6.7.3 Metodo della variabile ausiliaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.8 Variabili aleatorie complesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.9 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

7 Caratterizzazione sintetica di una coppia di variabili aleatorie 151


7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
7.2 Teorema fondamentale della media per una coppia di variabili aleatorie . . . . . . . . . . . . 152
7.3 Momenti congiunti di una coppia di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . 153
7.4 Misure di correlazione di una coppia di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . 154
7.4.1 Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.4.2 Spazio vettoriale di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.4.3 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
7.4.4 Coefficiente di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.4.5 Incorrelazione tra due variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
7.5 Stima lineare a minimo errore quadratico medio . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.5.1 Principio di ortogonalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.6 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

8 Vettori di variabili aleatorie 165


8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
8.2 Caratterizzazione statistica di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 166
8.2.1 Funzione di distribuzione cumulativa (CDF) . . . . . . . . . . . . . . . . . . . . . . . . 166
8.2.2 Funzione densit di probabilit (pdf) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
8.2.3 Funzione di distribuzione di probabilit (DF) . . . . . . . . . . . . . . . . . . . . . . . . 167
8.2.4 Propriet delle distribuzioni congiunte di n variabili aleatorie . . . . . . . . . . . . . . 167
8.3 Trasformazioni di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
8.4 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.5 Momenti di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.5.1 Vettore delle medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
8.5.2 Matrice di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
8.5.3 Matrice di covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.5.4 Incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie . . . . . . . . . . . . . . 179
8.6.1 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
8.6.2 Teorema limite fondamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.7 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

9 Distribuzioni e medie condizionali 189


9.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
9.2 Distribuzioni condizionali per una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . 189
9.2.1 Funzione di distribuzione cumulativa (CDF) condizionale . . . . . . . . . . . . . . . . 190
9.2.2 Funzione densit di probabilit (pdf) condizionale . . . . . . . . . . . . . . . . . . . . . 191
9.2.3 Funzione distribuzione di probabilit (DF) condizionale . . . . . . . . . . . . . . . . . 191
9.2.4 Teorema della probabilit totale per CDF, pdf, DF . . . . . . . . . . . . . . . . . . . . . 193
9.2.5 Probabilit a posteriori di un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
9.2.6 Probabilit a posteriori dato X = x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
viii INDICE

9.2.7 Teorema della probabilit totale (versione continua) . . . . . . . . . . . . . . . . . . . 198


9.2.8 Teorema di Bayes per le pdf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
9.3 Distribuzioni condizionali per coppie di variabili aleatorie . . . . . . . . . . . . . . . . . . . . 199
9.3.1 Distribuzioni condizionali dato X = x ed Y = y . . . . . . . . . . . . . . . . . . . . . . 201
9.4 Distribuzioni condizionali per vettori di variabili aleatorie . . . . . . . . . . . . . . . . . . . . 203
9.4.1 Indipendenza condizionale e regola della catena per le pdf . . . . . . . . . . . . . . . . 204
9.5 Media condizionale e momenti condizionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
9.5.1 Teorema della media condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
9.5.2 Generalizzazione al caso di coppie di variabili aleatorie . . . . . . . . . . . . . . . . . 207
9.6 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

10 Elementi di teoria dellinformazione 213


10.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
10.2 Misura dellinformazione ed entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
10.2.1 Autoinformazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
10.2.2 Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
10.2.3 Propriet dellentropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
10.2.4 Entropia congiunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
10.3 Sorgenti di informazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
10.3.1 Entropia di sorgente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
10.3.2 Tasso dinformazione di una sorgente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
10.3.3 Sorgenti discrete senza memoria (DMS) . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
10.3.4 Codifica di sorgente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
10.4 Codici per la compattazione dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
10.4.1 Codici a lunghezza fissa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
10.4.2 Codici a lunghezza variabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
10.4.3 Codici univocamente decifrabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
10.4.4 Codici a prefisso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
10.4.5 Condizioni per lunivoca decifrabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
10.5 Efficienza dei codici per la compattazione dati . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
10.5.1 Codici di Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
10.5.2 Codifica a blocchi e primo teorema di Shannon . . . . . . . . . . . . . . . . . . . . . . . 232
10.5.3 Efficienza dei codici a lunghezza fissa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
10.5.4 Codici di Huffmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
10.6 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

A Fattoriale e coefficiente binomiale 241


A.1 Fattoriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
A.2 Coefficiente binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
A.3 Espansioni binomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

B Elementi di calcolo combinatorio 243


B.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
B.2 Schema fondamentale del conteggio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
B.3 Applicazione al calcolo delle probabilit nel gioco del poker . . . . . . . . . . . . . . . . . . . 247

C La funzione G( x ) 253
C.1 Definizione e propriet di G( x ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253

D Limpulso di Dirac 257


D.1 Impulso di Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

E Richiami di algebra lineare 261


E.1 Definizioni ed operazioni fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
E.1.1 Matrici e vettori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
E.1.2 Somma di due matrici e prodotto per uno scalare . . . . . . . . . . . . . . . . . . . . . 262
E.1.3 Prodotto di due matrici (righe per colonne) . . . . . . . . . . . . . . . . . . . . . . . . . 262
E.1.4 Trasposizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
E.2 Operazioni e propriet delle matrici quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
INDICE ix

E.2.1 Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263


E.2.2 Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
E.2.3 Matrici diagonali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
E.2.4 Matrici simmetriche e forme quadratiche . . . . . . . . . . . . . . . . . . . . . . . . . . 264

F Identit matematiche notevoli 267


F.1 Sommatorie e serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
F.1.1 Sommatorie di potenze di interi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
F.1.2 Somma dei primi n termini di una serie geometrica . . . . . . . . . . . . . . . . . . . . 267
F.1.3 Serie geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
F.2 Formula di Leibnitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

G Variabili aleatorie notevoli 269


G.1 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
G.2 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270

Bibliografia 271
x INDICE
Capitolo 1

Probabilit elementare

In questo capitolo si introducono i concetti basilari della teoria della probabilit. Dopo aver
fornito le definizioni preliminari di esperimento, spazio campione, ed evento, si mostra come
costruire in modo rigoroso una legge di probabilit utilizzando lapproccio assiomatico di Kol-
mogorov e si presentano le propriet elementari della probabilit. Si accenna poi ad alcuni ap-
procci alternativi allo studio della probabilit (classico e frequentista), discutendo i vantaggi e gli
svantaggi dellapproccio assiomatico e motivando la scelta di questultimo. I concetti introdot-
ti vengono infine applicati per costruire leggi di probabilit su spazi campione di tipo discreto
oppure continuo.

1.1 Introduzione
La teoria della probabilit uno strumento matematico utile per lo studio dei cosiddetti fenomeni
aleatori, che sono fenomeni complessi o di difficile modellizzazione, il cui esito non prevedibile
a priori con certezza, ma che tuttavia presentano una qualche forma di regolarit; per questo mo-
tivo, il comportamento di tali fenomeni pu essere descritto solo attraverso opportune grandezze
globali o medie.
Per esempio, il lancio di una moneta su un tavolo un fenomeno fisico che pu essere certa-
mente descritto in termini delle equazioni matematiche tipiche della cinematica e della dinamica;
tuttavia estremamente difficile, se non praticamente impossibile, pur supponendo di conoscere
esattamente la forma, la massa, la velocit iniziale della moneta, le caratteristiche del tavolo, e
ogni altro parametro del problema, prevedere quale faccia della moneta si manifester in un sin-
golo lancio. Nonostante ci, la nostra intuizione ci dice che se lanciamo la moneta (supposta non
truccata) un numero sufficientemente elevato di volte, la percentuale di volte che si presenter la
faccia testa o la faccia croce sar prossima al 50%. Quindi, pur non essendo possibile prevedere il
risultato di un singolo lancio, riconosciamo che il fenomeno aleatorio presenta una qualche forma
2 Probabilit elementare

di regolarit se si considera un numero elevato di lanci o di ripetizioni dellesperimento. La teoria


della probabilit si occupa proprio di individuare, studiare e modellare tali regolarit.1
Un altro esempio di fenomeno aleatorio un fluido gassoso, composto da un numero ele-
vato di particelle in moto casuale. praticamente impossibile descrivere il comportamento del
gas descrivendo il comportamento di ogni particella che lo compone; tuttavia laggregato delle
particelle tende ad esibire propriet regolari: ad esempio, la pressione del gas stesso una quanti-
t perfettamente definita e misurabile. In questo caso, la regolarit del fenomeno si manifesta in
quanto esso, a livello macroscopico, composto da un numero elevato di particelle microscopiche,
ciascuna delle quali presenta un comportamento aleatorio. La disciplina che studia il comporta-
mento dei gas con un approccio basato sulla teoria della probabilit prende il nome di meccanica
statistica.
Altri fenomeni aleatori che possono essere convenientemente modellati attraverso la teoria
della probabilit sono, ad esempio, larrivo di utenti ad uno sportello di una banca, nel quale
impossibile prevedere con esattezza listante di arrivo di ciascun utente, ma il comportamento
globale dellinsieme degli utenti (ad esempio, la lunghezza media della coda allo sportello) pu
essere modellato con esattezza. In un ambito completamente differente, gli arrivi possono
essere le telefonate che giungono ad una centrale telefonica, e la teoria della probabilit pu
servire a dimensionare opportunamente il numero di linee di tale centrale. Lapplicazione della
teoria della probabilit a tali problemi ha determinato la nascita della disciplina denominata teoria
delle code, ampiamente utilizzata nellanalisi e nel progetto delle reti di telecomunicazioni.
In ambito economico e finanziario, la teoria della probabilit stata utilizzata con successo
per modellare aggregati composti da un gran numero di soggetti economici, quali ad esempio
i mercati nei quali avvengono le transazioni di borsa. Se infatti impossibile prevedere con
esattezza il comportamento del singolo investitore, tuttavia il comportamento globale di un gran
numero di investitori tende ad esibire regolarit che rendono possibile una descrizione basata sui
modelli della teoria della probabilit.
Un altro campo nel quale la teoria della probabilit trova unimportante applicazione le-
laborazione e la trasmissione dellinformazione; bisogna infatti osservare che, per sua natura, il
concetto di informazione intrinsecamente legato a quello di impredicibilit. Ad esempio, laf-
fermazione stanotte far buio non convoglia nessuna informazione, semplicemente perch
una affermazione certa, perfettamente predicibile. Viceversa, una affermazione poco probabile,
quale domani il pianeta Terra sar invaso dai marziani convoglia una grande quantit di in-
formazione, perch poco probabile, e quindi non predicibile. La disciplina che studia i problemi
associati allinformazione con approccio probabilistico prende il nome di teoria dellinformazione;
alcuni aspetti basilari di tale disciplina saranno introdotti e discussi nel capitolo 10.
Abbiamo fornito alcuni esempi, certamente non esaustivi, di applicazione della teoria della
probabilit, che dovrebbero evidenziare lampia portata e la rilevanza di tale disciplina. Siamo
adesso pronti a porre le basi di tale teoria, che ha un forte contenuto matematico, ma che cer-
cheremo di trattare in modo semplice, e con continuo ricorso ad esempi. In particolare, prima
di addentrarci nel vivo dello studio della teoria della probabilit, richiamiamo brevemente nel
paragrafo successivo gli elementi fondamentali della teoria degli insiemi. Il lettore in possesso di

1 Lesempio del lancio di una moneta non scelto a caso: la nascita stessa della teoria della probabilit attribuita da
molti storici alla necessit di calcolare le percentuali di vittoria o di sconfitta per i pi comuni giochi dazzardo (lancio di
dadi, roulette, poker, etc.). Un episodio storicamente documentato, cui spesso si fa risalire la nascita della moderna teoria
della probabilit, la corrispondenza (1654) tra il matematico B. Pascal ed il giocatore cavalier de Mer su una particolare
scommessa relativa al gioco dei dadi (nota come il paradosso di de Mer, vedi esercizio 2.13).
1.2 Richiami di teoria degli insiemi 3

A
A

A
Fig. 1.1. Linsieme B sottoinsieme dellinsieme Fig. 1.2. Il complemento A = A di un
A (B A). insieme A (in grigio).

sufficiente familiarit con tali concetti pu scorrere rapidamente il paragrafo 1.2 per familiarizza-
re con la notazione utilizzata, oppure saltare direttamente al paragrafo 1.3, dove si introducono i
primi elementi di teoria della probabilit.

1.2 Richiami di teoria degli insiemi


Un insieme A una collezione di oggetti, chiamati elementi dellinsieme. Un insieme pu essere
definito per enumerazione, vale a dire specificando in dettaglio i suoi elementi, per esempio
A = {1 , 2 , . . . , n } o A = {bianco, rosso, verde}, oppure descrivendo quali propriet devono
possedere tali elementi, ad esempio2 A = { R tali che 0}. Per indicare che un
elemento di A, si usa la notazione A. Linsieme vuoto linsieme che non contiene
elementi. Due insiemi A e B si dicono coincidenti, e si scrive A = B, se essi contengono gli stessi
elementi.
Per agevolare la comprensione delle relazioni che coinvolgono gli insiemi, utile ricorrere
ad un particolare tipo di rappresentazione grafica, denominata diagramma di Venn, nel quale gli
insiemi sono rappresentati come porzioni del piano, come ad esempio in Fig. 1.1 oppure in Fig.
1.2.
Un sottoinsieme B di A un insieme i cui elementi sono anche elementi di A (Fig. 1.1). Per
indicare che B un sottoinsieme di A (ovvero incluso in A) si usa la notazione B A; se esiste
almeno un elemento di A che non appartiene a B, B si dice sottoinsieme proprio di A, e si indica
B A (relazione di inclusione stretta). Si assume che linsieme vuoto sia sottoinsieme di un
qualunque insieme. Nella logica formale, la relazione di inclusione corrisponde allimplicazione
logica. Notiamo che risulta A = B se e solo se A B e B A.
Dato un insieme , si dice classe una collezione C di sottoinsiemi di . In particolare, la classe
di tutti i sottoinsiemi di (ivi incluso e linsieme vuoto ) prende il nome di collezione delle
parti di , e si denota con P().
2 Qui e nel seguito denotiamo con R linsieme dei numeri reali, con N linsieme dei numeri naturali (interi positivi

escluso lo zero), con Z linsieme dei numeri relativi (interi positivi e negativi, zero incluso). In generale, il significato delle
principali notazioni utilizzate richiamato allinizio del libro.
4 Probabilit elementare

AB AB

A B A B

Fig. 1.3. Lunione A B di due insiemi (in Fig. 1.4. Lintersezione A B di due insiemi (in
grigio). grigio)

La differenza A B tra due insiemi linsieme che contiene gli elementi di A che non appar-
tengono a B.
Sia A un sottoinsieme di . Il complemento A di A (rispetto ad ) linsieme contenente tutti
gli elementi di che non appartengono ad A (Fig. 1.2), ovvero A = A. Nella logica formale,
il complemento corrisponde alloperazione di NOT.
Lunione o somma di due insiemi A, B linsieme che contiene tutti gli elementi di A, di B, o
di entrambi (Fig. 1.3). Lunione di due insiemi si denota con A B oppure A + B, e gode della
propriet commutativa:
AB = BA.
Loperazione di unione, inoltre, si pu estendere a pi di due insiemi in maniera naturale, in
quanto essa gode della propriet associativa:

( A B) C = A ( B C) ,

il che giustifica la scrittura A B C oppure A + B + C senza parentesi. Nella logica formale,


lunione corrisponde alloperazione di OR (non esclusivo).
Lintersezione o prodotto di due insiemi A, B linsieme che contiene tutti gli elementi comuni
ad A e B (Fig. 1.4). Lintersezione di due insiemi si denota con A B oppure AB, e gode della
propriet commutativa:
AB = BA.
Loperazione di intersezione, inoltre, si pu estendere a pi di due insiemi in maniera naturale,
in quanto essa gode della propriet associativa:

( A B) C = A ( B C) ,

il che giustifica la scrittura A B C oppure A B C senza parentesi. Inoltre lintersezione gode


della propriet distributiva rispetto allunione:

A ( B C) = ( A B) ( A C) ,

che ha uninterpretazione pi immediata se scritta con il simbolismo algebrico:

A( B + C) = A B + A C .
1.2 Richiami di teoria degli insiemi 5

Nella logica formale, lintersezione corrisponde alloperazione di AND.


Il prodotto cartesiano di due insiemi A, B linsieme i cui elementi sono le coppie ordinate
(1 , 2 ), con 1 A e 2 B. Il prodotto cartesiano tra due insiemi si denota con A B;
notiamo che, poich le coppie sono ordinate, il prodotto cartesiano non in generale commuta-
tivo, nel senso che A B 6= B A; un caso particolare quello in cui A = B, per il quale vale
la propriet commutativa e il prodotto cartesiano A A si indica semplicemente come A2 . Ad
esempio, il prodotto cartesiano dellinsieme R dei numeri reali con s stesso il piano carte-
siano R2 . Loperazione di prodotto cartesiano, infine, si pu estendere a pi di due insiemi in
maniera naturale, in quanto essa gode della propriet associativa:

( A B) C = A ( B C) ,

il che giustifica la scrittura A B C senza parentesi.


Notiamo che ragionando ricorsivamente le operazioni di unione, intersezione e prodotto
cartesiano possono essere estese anche al caso di infiniti insiemi.
Due insiemi A e B si dicono mutuamente esclusivi o disgiunti o incompatibili se A B = .
Dati n insiemi A1 , A2 , . . . An , essi si dicono mutuamente esclusivi o disgiunti o incompatibili se
Ai A j = per ogni i 6= j. Dati n insiemi A1 , A2 , . . . , An mutuamente esclusivi, si dice che essi
costituiscono una partizione di se nk=1 Ak = . I concetti di insiemi mutuamente esclusivi e
di partizione si possono estendere al caso di infiniti insiemi: ad esempio, gli intervalli [k, k + 1[,
k Z, sono mutuamente esclusivi e costituiscono una partizione infinita dellinsieme R.
La cardinalit card( A) di un insieme A il numero degli elementi di A. Se A contiene infiniti
elementi, card( A) = . La cardinalit di un insieme infinito A si dice infinita numerabile se gli
infiniti elementi di A si possono porre in corrispondenza biunivoca con linsieme N dei numeri
naturali; se ci non possibile, la cardinalit di A si dir infinita continua. Ad esempio, linsieme
A dei numeri non negativi e pari un insieme con cardinalit infinita numerabile; linsieme
dei numeri razionali un insieme con cardinalit infinita numerabile; viceversa linsieme A =
[0, 1] = { x R tali che 0 x 1} ha cardinalit infinita continua.3
E facile verificare che la cardinalit gode delle seguenti propriet:
1. se A, B sono mutuamente esclusivi, allora card( A B) = card( A) + card( B);

2. in generale, se A, B non sono mutuamente esclusivi, si ha card( A B) = card( A) + card( B)


card( A B);

3. se A B, allora card( A) card( B);

4. card() = 0;

5. card( A B) = card( A) card( B).

Le leggi di de Morgan, utilizzate anche nella logica formale, mettono in relazione tra loro le opera-
zioni di unione, intersezione e complementazione:

AB = AB, (1.1)
AB = AB. (1.2)

Tali leggi possono essere estese anche allunione e allintersezione di pi di due insiemi, e finan-
che al caso di infiniti insiemi.
3 Questo risultato fu dimostrato da G. Cantor (18451918) con un procedimento ora noto come procedimento diagonale

di Cantor e suscit notevole scalpore e perplessit tra i matematici suoi contemporanei.


6 Probabilit elementare

1.3 Probabilit: definizioni preliminari


Alla base della teoria della probabilit sono i concetti primitivi di esperimento, spazio campione,
ed evento.

Definizione (esperimento). Un esperimento (aleatorio) una procedura sperimentale con


un ben definito insieme di possibili risultati, il cui esito non prevedibile a priori.

Esempio 1.1. Un possibile esperimento il lancio di una moneta, con risultati convenzionalmente deno-
minati testa (T) e croce (C); oppure il lancio di un dado, con possibili risultati una faccia marcata con
un numero intero tra uno e sei; oppure ancora lestrazione di un numero al gioco del lotto, con possibili
risultati un numero intero tra 1 e 90.

Definizione (spazio campione). Lo spazio campione (finito o infinito) associato ad un


esperimento linsieme di tutti i possibili risultati dellesperimento.

Esempio 1.2. Nel lancio di una moneta lo spazio campione = { T, C }; nel lancio di un dado, lo
spazio campione = {1, 2, 3, 4, 5, 6}; nellestrazione di un numero al gioco del lotto, lo spazio campione
= {1, 2, . . . , 89, 90}.

Definizione (evento). Dato uno spazio campione , si dice evento un sottoinsieme A di .

Esempio 1.3. Nel lancio di una moneta un possibile evento A = { T } (evento elementare, costituito da
un solo elemento); nel lancio di un dado, un possibile evento A = {pari} = {2, 4, 6}; nellestrazione di un
numero al gioco del lotto, un possibile evento A = {minore di 10} = {1, 2, 3, . . . , 9}.

Si definisce prova una singola ripetizione di un esperimento. Supponiamo allora di effettuare una
prova e di ottenere il risultato : diremo allora che, nella prova considerata, si verificato
levento A, se A. Allo stesso modo, diremo che:

non si verificato levento A, se 6 A o, equivalentemente, se A;

si sono verificati gli eventi A e B, se A B;

si verificato levento A oppure B, se A B (gli eventi A e B potrebbero verificarsi


anche entrambi, ovvero lOR non esclusivo).

Ad esempio, poich sempre, levento (evento certo) si verifica ad ogni prova, mentre le-
vento (evento impossibile) non si verifica in nessuna prova. Tra i possibili eventi, i pi semplici
sono quelli del tipo A = { }, costituiti cio da un singolo elemento di ; tali eventi atomici (in
quanto non ulteriormente decomponibili in eventi pi semplici) si dicono eventi elementari. No-
tiamo la distinzione tra risultato ed evento elementare { } (evidenziato dalluso delle parentesi
graffe): il risultato il generico elemento dello spazio campione (non un evento), mentre
levento elementare { } linsieme costituito da un solo elemento ( un evento).

Esempio 1.4. Nel lancio di un dado, consideriamo gli eventi A = {pari}, B = {maggiore o uguale a 3},
C = {minore di 2}. Se il risultato dellesperimento il numero 4, diremo allora che:
1.3 Probabilit: definizioni preliminari 7

si verificato levento A, ovvero uscito un numero pari;


si verificato levento B, ovvero uscito un numero maggiore o uguale a 3;
non si verificato levento C, ovvero non uscito un numero minore di 2.
Analogamente, diremo che si sono verificati gli eventi A e B, e si sono verificati gli eventi A oppure C.

Possiamo adesso introdurre i concetti di spazio degli eventi ed una prima definizione di probabilit.
Per spazio degli eventi intendiamo la classe S di tutti gli eventi di interesse (poich gli eventi sono
sottoinsiemi di , si tratta di una classe, cio di una collezione di insiemi). La probabilit una
funzione P definita4 sullo spazio degli eventi S e a valori in [0, 1]:

P : A S P( A) [0, 1] .

In altri termini, una legge di probabilit consiste nellassegnare ad ogni evento A un numero
compreso tra 0 ed 1 che in qualche modo misura il grado di incertezza associato al verificarsi
dellevento stesso.
A questo punto sorge un problema fondamentale: dato un qualsiasi esperimento, abbastan-
za semplice identificare in maniera non ambigua lo spazio campione , gli eventi A, lo spazio
dei possibili eventi S. Ad esempio, sembra naturale scegliere come spazio degli eventi S la classe
P() di tutti i sottoinsiemi di (vedremo poi che questa scelta non sempre possibile). Ma
come possibile specificare la legge di probabilit? Vediamo un semplice esempio.

Esempio 1.5. Consideriamo il lancio di una moneta, il cui spazio campione denotiamo con = { T, C }.
Come spazio degli eventi, consideriamo la collezione P() delle parti di , ovvero la classe di tutti i sot-
toinsiemi di , incluso e . In generale, la collezione delle parti, per un insieme con N elementi, contiene
2 N sottoinsiemi;5 nel caso in esame, poniamo S = P() = {{ T }, {C }, { T, C }, {}}. Possiamo assegnare la
probabilit a tutti gli eventi di S nel seguente modo:

P ({ T }) = P ({C }) = 1/2, per simmetria;


P ({ T, C }) = 1, evento certo;
P ({}) = 0, evento impossibile.

In questo caso, allora, abbiamo assegnato un valore numerico di probabilit ad un qualunque evento dello
spazio degli eventi, e quindi abbiamo costruito una legge di probabilit.

Nel semplice esempio precedente una plausibile legge di probabilit si ottenuta sulla base di
considerazioni intuitive e per motivi di simmetria. Tuttavia, per trattare casi pi complicati
necessario ricorrere ad un approccio sistematico. In particolare, necessario introdurre degli
assiomi o dei postulati6 a cui deve soddisfare una legge di probabilit; questa strada quella
seguita dallapproccio assiomatico, introdotto nel 1933 dal matematico russo A. N. Kolmogorov
(19031987),7 ed quella ritenuta pi soddisfacente dal punto di vista matematico. Tuttavia,
4 Notiamo che la probabilit una funzione che opera, anzich su numeri, su insiemi (eventi): una tale funzione

denominata funzione di insieme.


5 Tale risultato si pu facilmente motivare, se pensiamo che individuare un particolare sottoinsieme di un insieme

con N elementi equivale a costruire una stringa di N bit, nella quale ai simboli 0 si associa la mancanza nel sottoinsieme
dellelemento di corrispondente, mentre ai simboli 1 si associa la sua presenza. Poich possibile costruire 2 N distinte
stringhe di N bit, tale sar il numero dei distinti sottoinsiemi di .
6 Ricordiamo che, in una teoria formale, un assioma o un postulato unasserzione che non devessere dimostrata. Ad

esempio, lassioma fondamentale della geometria euclidea il cosiddetto assioma delle rette parallele: in un piano, per un
punto non appartenente ad una retta, passa una ed una sola retta parallela alla retta data.
7 Il contributo di Kolmogorov apparve per la prima volta con il titolo Grundebegriffe der Wahrscheinlichkeitrech-

nung (Fondamenti del calcolo delle probabilit) nella rivista tedesca Ergebnisse Der Mathematik nel 1933; una traduzio-
ne in inglese (curata da N. Morrison) di non difficile reperibilit Kolmogorov, A. N. Foundations of the theory of
probability, Chelsea Publishing Co., New York, 1956 (ristampata da American Mathematical Society, 2000).
8 Probabilit elementare

lapproccio assiomatico soffre di una limitazione fondamentale: esso un approccio incompleto


(nel senso che non consente di determinare univocamente i valori delle probabilit da attribuire
agli eventi), come discuteremo pi approfonditamente nel seguito.

Esempio 1.6. Lapproccio assiomatico ci consentir di costruire leggi di probabilit su esperimenti pi


complessi, quali quelli ad esempio che hanno un numero infinito di possibili risultati. Si pensi, ad esempio,
allesperimento che consiste nel contare il numero di automobili che passano ad un casello autostradale in
un determinato intervallo di tempo; sebbene in pratica tale numero sar limitato superiormente, in man-
canza di informazioni su tale limite superiore possiamo assumere come spazio campione = {0, 1, 2, . . . },
ovvero linsieme N0 dei numeri interi non negativi, avente cardinalit infinita numerabile. Un altro esem-
pio lesperimento consistente nel misurare la durata (il tempo di vita) di un dispositivo (si pensi, ad
esempio, ad una lampadina appena montata). In questo caso potremmo assumere come spazio campione
un opportuno intervallo [0, a] di numeri reali positivi, anche se, non conoscendo il valore di a (il massimo
tempo di vita) risulta pi semplice assumere = [0, [; in questo caso abbiamo a che fare con uno spazio
campione di cardinalit infinita continua. La costruzione di leggi di probabilit su spazi campione aventi
cardinalit infinita (in particolare, continua) non pu essere affrontata soltanto con considerazioni intuitive,
ma richiede una formulazione pi rigorosa dei principi della probabilit.

1.4 Probabilit assiomatica


Per costruire una legge di probabilit secondo lapproccio assiomatico dobbiamo richiedere qual-
che propriet particolare allo spazio S degli eventi di interesse. In particolare, dobbiamo richie-
dere che S possieda la struttura di campo o, pi precisamente di -campo.

1.4.1 Campi e -campi


Iniziamo col definire il concetto di campo:

Definizione (campo). Una classe S non vuota di eventi si dice campo se soddisfa le seguenti
propriet:
1. A S A S (chiusura rispetto al complemento);
2. A, B S A B S (chiusura rispetto allunione).

Sulla base delle propriet 12, facile dimostrare che, se S un campo, si ha anche:

1 . , S.

Prova. Infatti, poich S non vuoto, contiene almeno un elemento A A S (per la propriet 1)
A A = S (per la propriet 2) = S (per la propriet 1). 

2 . A, B S A B S (chiusura rispetto allintersezione).

Prova. Se A, B S A, B S (per la propriet 1) A B S (per la propriet 2) A B S (per


la propriet 1). Ma A B = A B per le leggi di de Morgan. 
Lapplicazione ripetuta delle propriet 2 e 2 mostra che ogni insieme che possa essere espresso
come unione e/o intersezione di un numero finito di elementi di S appartiene anchesso ad S.
Tale propriet non rimane valida, tuttavia, se si considera un numero infinito di insiemi, che un
caso di interesse nella teoria della probabilit. allora necessario estendere il concetto di campo
al caso di infiniti insiemi, definendo il cosiddetto -campo:
1.4 Probabilit assiomatica 9

Definizione (-campo). Un -campo S di eventi un campo che soddisfa, oltre alle


propriet 1 e 2, anche la seguente:
S
3. { An }
n =1 S n =1 An S (chiusura rispetto allunione numerabile).

Applicando le leggi di de Morgan e la chiusura rispetto al complemento, facile verificare che


T
anche n =1 A n appartiene a S (propriet di chiusura rispetto allintersezione numerabile).
Poich e devono necessariamente appartenere ad S, ne segue che S = {, } il pi
piccolo -campo che possibile costruire: esso prende il nome di -campo banale. Daltra parte,
la classe P() delle parti, poich contiene tutti i sottoinsiemi di , conterr senzaltro il comple-
mento, lunione e lintersezione numerabile di qualunque insieme; dunque P() il pi grande
-campo che possibile costruire.
Osserviamo in conclusione che la distinzione tra campo e -campo significativa se il numero
di eventi possibili infinito, il che pu accadere solo se lo spazio campione ha infiniti elementi.
Se lo spazio campione ha un numero N finito di elementi, la classe delle parti P() contiene
un numero finito (2 N ) di sottoinsiemi, e quindi un campo ed anche un -campo. Vedremo che
in questo caso effettivamente possibile scegliere come -campo S = P() e costruire senza
problemi valide leggi di probabilit su (cfr. 1.6.1). La scelta S = P() lecita ( 1.6.1) anche
nel caso in cui risulti di cardinalit infinita numerabile. Viceversa, vedremo nel 1.6.2 che
la scelta S = P() non lecita nel caso in cui ha cardinalit infinita continua, in quanto tale
-campo (che, ricordiamo, il pi grande -campo) in genere troppo grande per definire una
valida legge di probabilit su di esso.

1.4.2 Assiomi di Kolmogorov


Dopo lintroduzione delle definizioni preliminari, siamo in grado di fornire una definizione
rigorosa della probabilit:

Definizione (probabilit). Assegnato uno spazio campione ed un -campo S di eventi di


, si definisce probabilit una funzione P definita in S, a valori reali non negativi, tale da
soddisfare i seguenti tre assiomi (assiomi di Kolmogorov):
I. P( A) 0 per ogni A S (assioma di non negativit);
II. P() = 1 (assioma di normalizzazione);
III. Se { An }
n =1S una successione di eventi mutuamente esclusivi (A i A j = , i 6 = j) di
S, allora P(
n =1 A n ) = n =1 P ( A n ) (assioma di numerabile additivit).

Lintera teoria della probabilit discende dai precedenti assiomi in maniera deduttiva.8 Abbiamo
gi osservato che assegnare i valori di probabilit agli eventi equivale a misurare il livello di incer-
tezza associato agli stessi. In effetti, bisogna osservare che una funzione definita su un insieme ,
che soddisfa assiomi analoghi a quelli di Kolmogorov, viene proprio definita dai matematici una
misura (casi elementari di misura sono la lunghezza, larea, ed il volume); pertanto, il contributo
pi significativo di Kolmogorov stato in sostanza quello di riconoscere che, per definire una
8 Una teoria si dice deduttiva se ricava i casi particolari a partire da principi generali; viceversa, si dice induttiva se ricava

i principi generali a partire da casi particolari. Il principio di induzione stato spesso severamente messo in discussione
da scienziati e filosofi; per una interessante discussione critica sui due approcci si veda K. Popper, Logica della ricerca
scientifica, Einaudi, 1970.
10 Probabilit elementare

corretta teoria della probabilit, questultima va inquadrata come un caso particolare della teoria
della misura. Notiamo, in particolare, che lassioma di normalizzazione impone che la misura di
sia unitaria, e per questo motivo si parla anche della probabilit come di una misura norma-
lizzata. Va osservato che nel seguito, per mantenere la trattazione ad un livello elementare, non
faremo uso di tale analogia in maniera estesa; tuttavia, sfrutteremo lanalogia tra probabilit e
misura per giustificare intuitivamente alcune propriet della probabilit, quali quelle presentate
nel paragrafo seguente.

1.4.3 Propriet elementari della probabilit

A partire dagli assiomi di Kolmogorov, applicando semplici concetti di teoria degli insiemi,
possibile ricavare le propriet elementari della probabilit riportate in questo paragrafo. Per
ciascuna di queste propriet, fornita una dimostrazione formale rigorosa; tuttavia, una giustifi-
cazione pi intuitiva si pu dare sfruttando lanalogia tra probabilit e misura e ragionando sui
diagrammi di Venn; in tal caso, possiamo identificare la probabilit di un insieme A con larea del-
la superficie che occupa sul diagramma di Venn. In particolare, per lassioma di normalizzazione,
lanalogia richiede che lo spazio campione abbia area unitaria. Per brevit, tutti gli insiemi
di cui si calcolano le probabilit nelle propriet che seguono sono sempre assunti appartenenti al
-campo S.

1. P() = 0.

Prova. Scegliendo A1 = e An = , n > 1 (tali An risultano chiaramente mutuamente esclusivi),


risulta
n=1 A n = + = . Per lassioma III allora si ha:

P () = P (
n =1 A n ) = P ( A n ) = P ( ) + P ( )
n =1 n =2

da cui risulta necessariamente P () = 0. 

2. A B = P( A B) = P( A) + P( B) (finita additivit).

Prova. Segue dallassioma III e dalla propriet 1, scegliendo A1 = A, A2 = B, An = , n > 2. 

3. P ( A) = 1 P ( A ) .

Prova. Poich A A = e A A = , per la propriet 2 e per lassioma II si ha:

P ( A A) = P ( A) + P ( A) = P () = 1 P ( A) = 1 P ( A) .

4. P ( A B ) = P ( A ) + P ( B ) P ( A B ).
1.4 Probabilit assiomatica 11

AB AB AB B

A B A

Fig. 1.5. Diagramma di Venn delle relazioni A Fig. 1.6. Diagramma di Venn della relazione A =
B = A AB e B = A B A B. B A B (valida se B A).

Prova. Utilizzando i diagrammi di Venn (Fig. 1.5) facile verificare che:

A B = A AB

con A e AB mutuamente esclusivi. Allo stesso modo (Fig. 1.5), si ha:

B = B = ( A + A) B = A B A B

con A B e A B mutuamente esclusivi. Applicando la propriet 2 si ha:

P ( A B ) = P ( A) + P ( AB ) ,
P ( B ) = P ( AB ) + P ( AB ) .

Eliminando P ( AB ) tra le due equazioni si ottiene il risultato. 

Poich P( A B) 0, risulta P( A B) P( A) + P( B) (disuguaglianza di Boole). Si ha


uguaglianza se e solo se P( A B) = 0, ovvero se gli eventi A e B sono mutuamente
esclusivi.

5. B A P ( B ) P ( A ).

Prova. Utilizzando i diagrammi di Venn (Fig. 1.6) facile verificare che, se B A, si ha:

A = B AB

con B e A B mutuamente esclusivi. Per la propriet 2 si ha:

P ( A) = P ( B A B ) = P ( B ) + P ( AB ) P ( B ) P ( A)

perch P ( A B ) 0. 

6. P( B) 1.

Prova. Segue direttamente dalla propriet precedente e dallassioma II, scegliendo A = . 


12 Probabilit elementare

1.4.4 Spazi di probabilit


In sostanza, per definire una legge di probabilit, occorre specificare: 1) uno spazio campione ;
2) un -campo S di eventi di ; 3) una funzione P definita su S e a valori in [0, 1] che soddisfi
gli assiomi I-III di Kolmogorov (vedi 1.4.2). La terna (, S, P) prende il nome di spazio di pro-
babilit. Si noti che, nellapproccio assiomatico, lintera teoria della probabilit viene costruita in
maniera deduttiva a partire dagli assiomi di Kolmogorov. Questo significa che a partire dai prin-
cipi generali (gli assiomi) e dalle probabilit di eventi semplici, si ricavano le probabilit di eventi
complessi applicando le propriet formali del calcolo delle probabilit, tra cui quelle ricavate nel
1.4.3.

Esempio 1.7. Riprendiamo lesempio del lancio di una moneta. Abbiamo definito lo spazio campione
= { T, C } ed il -campo S = {{ T }, {C }, { T, C }, {}}. Per definire una legge di probabilit bisogna allora
assegnare le probabilit agli eventi. A tale scopo sufficiente assegnare le probabilit ai cosiddetti eventi
elementari { T } e {C }. Una scelta ragionevole :

P ({ T }) = P ({C }) = 1/2 ,

tuttavia se assegniamo le probabilit come:

P ({ T }) = 1/3 , P ({C }) = 2/3 ;

facile vedere che anche tale assegnazione soddisfa gli assiomi di Kolmogorov. Allora qual la legge di
probabilit corretta?

Lesempio precedente mette in luce la principale limitazione dellapproccio assiomatico di Kol-


mogorov, ovvero il fatto che esso un sistema di assiomi incompleto, non consente cio di deter-
minare univocamente quali debbano essere le probabilit degli eventi. Come si fa allora a capire
quale sia la legge di probabilit corretta? In pratica una volta definita una legge di probabilit
che soddisfa allapproccio assiomatico, si utilizza tale legge per effettuare previsioni sullesperi-
mento (ad esempio, per calcolare probabilit di eventi pi complessi a partire da probabilit di
eventi semplici). Se le previsioni sono accurate (validazione sperimentale) le probabilit ipotizza-
te sono corrette, altrimenti necessario modificare la legge (i valori) di probabilit. Il processo si
pu iterare fino ad avere un accordo soddisfacente tra valori teorici e valori sperimentali. La di-
sciplina che si occupa di validare sperimentalmente le previsioni probabilistiche e/o di ricavare
i valori di probabilit a partire dai dati sperimentali va sotto il nome di statistica.

1.4.5 Propriet di continuit della probabilit


Introduciamo in questa sezione9 una propriet che, sebbene non frequentemente utilizzata nel
calcolo delle probabilit, estremamente importante per alcune derivazioni teoriche. Ricordiamo
che la probabilit una funzione P avente per insieme di definizione il -campo S degli eventi.
Mostriamo ora che tale funzione P continua, nel senso che se { An } n =1 una successione di
eventi di S, tali che limn An = A, allora:

lim P( An ) = P(lim An ) = P( A) . (1.3)


n n

Tale continuit sembra simile a quella comunemente introdotta per le funzioni reali di una va-
riabile reale, ma va interpretata con cautela: poich infatti S non un insieme numerico, non
9 Le sezioni contrassegnate dal simbolo possono essere saltate ad una prima lettura.
1.5 Altri approcci alla teoria della probabilit 13

chiaro che in che senso vada intesa la convergenza della successione di insiemi An allinsieme
A. Una trattazione rigorosa richiederebbe lintroduzione e luso di concetti matematici avanza-
ti, quali la teoria degli spazi metrici e/o degli spazi topologici. Qui considereremo un caso pi
semplice, nel quale definiremo il concetto di limite solo per particolari successioni di insiemi: in
particolare, diremo che An una successione decrescente (rispetto alla relazione di inclusione) se
An An+1 , n N; viceversa, diremo che An una successione crescente (rispetto alla relazione
di inclusione) se An An+1 , n N. Porremo allora le seguenti definizioni di limite:

\
lim An , An , se { An }
n =1 decrescente; (1.4)
n
n =1

[
lim An , An , se { An }
n =1 crescente. (1.5)
n
n =1

Sulla base di queste definizioni, possibile enunciare il seguente teorema:

Teorema 1.1 (continuit della probabilit). Sia (, S, P) uno spazio di probabilit.


T
i) Se { An }
n =1 una successione descrescente di eventi, posto A = lim A n , n =1 An , si
ha:
lim P( An ) = P(lim An ) = P( A) . (1.6)
n n
S
ii) Se { An }
n =1 una successione crescente di eventi, posto A = lim A n , n =1 An , si ha:

lim P( An ) = P(lim An ) = P( A) . (1.7)


n n

Prova. La dimostrazione non complicata, ma viene omessa per brevit, rimandando il lettore interessato a
[8]. Limitiamoci ad osservare che poich S un -campo, allora A S, essendo ottenuto come intersezione
o unione numerabile di eventi di S; pertanto ha senso calcolare P ( A) in entrambi i casi. 
T
Notiamo che possibile costruire sequenze { An }n=1 decrescenti tali che n=1 An = . In tal ca-
so, lapplicazione del risultato i) del teorema precedente consente di affermare che, per sequenze
siffatte, risulta
lim P( An ) = P() = 0 . (1.8)
n

Si pu mostrare (si veda [2] oppure [4]) che la (1.8) logicamente equivalente allassioma III di
Kolmogorov (numerabile additivit), e quindi potrebbe sostituirlo in una diversa assiomatizza-
zione della teoria della probabilit. Per tale motivo, la relazione (1.8) viene talvolta chiamata
assioma di continuit.10

1.5 Altri approcci alla teoria della probabilit


Lapproccio assiomatico quello pi recentemente (1933) proposto per la teoria della probabilit.
Storicamente, nel corso degli anni, oltre allapproccio assiomatico si sono sviluppati almeno altri
due importanti approcci: lapproccio frequentista e lapproccio classico.11
10 Daltra parte, si pu anche mostrare che ciascuno dei risultati (i) e (ii) del teorema 1.1 logicamente equivalente

allassioma di numerabile additivit.


11 Nellambito delle scienze fisiche ed economiche abbastanza diffuso anche lapproccio soggettivista, dovuto prin-

cipalmente a Bruno de Finetti (si veda B. de Finetti, Theory of Probability, Wiley, New York, 1974), secondo il quale
non possibile assegnare alla probabilit un significato ed un valore oggettivo (come avviene nellapproccio classico
14 Probabilit elementare

1.5.1 Approccio frequentista


Lapproccio frequentista, dovuto a R. E. von Mises (18831953), definisce la probabilit di un even-
to nel seguente modo: se un esperimento ripetuto n volte e se levento A si verifica n A volte, si
definisce probabilit dellevento A il limite della frequenza di successo:

nA
P( A) , lim . (1.9)
n n

Lapproccio frequentista un approccio induttivo, cio un approccio che si basa (o vorrebbe basar-
si) sullesperienza, e presenta il vantaggio innegabile di essere vicino al nostro concetto intuitivo
di probabilit; tuttavia non del tutto soddisfacente per fornire una definizione operativa di pro-
babilit, perch non possibile ripetere un esperimento un numero infinito di volte. Inoltre, dal
punto di vista matematico, lesistenza stessa del limite nella (1.9) pu essere messa in discussione.
interessante tuttavia interpretare gli assiomi di Kolmogorov in senso frequentista, visto che
in molti casi la nostra interpretazione intuitiva della probabilit vicina a quella frequentista.
Infatti, se interpretiamo la probabilit come frequenza di successo dellevento A su n prove, cio
trascuriamo loperazione di limite nella (1.9), ponendo
n
P( A) , A ,
n
si ha:
I. P( A) 0, banalmente perch n A 0 ed n > 0;

II. P() = 1, perch n = n (levento certo si verifica ad ogni prova);

III. se A B = , allora n A B = n A + n B perch non possono verificarsi entrambi simultanea-


mente. Allora:
n n n
P( A B) = A B = A + B = P( A) + P( B) .
n n n
Si noti che abbiamo scritto il terzo assioma per semplicit nella forma finita, per evitare lastra-
zione insita nel considerare infiniti eventi.

1.5.2 Approccio classico


Nellapproccio classico o laplaciano, dovuto per lappunto a P. S. Laplace (17491827), la probabi-
lit di un evento si definisce a priori come il rapporto
NA
,
P( A) , (1.10)
N
dove N il numero (supposto finito) dei possibili risultati dellesperimento, ed NA il numero dei
risultati favorevoli allevento A. In pratica, utilizzando la simbologia dellapproccio assiomatico,
risulta N = card() e NA = card( A), per cui

card( A)
P( A) = .
card()

e frequentista, e parzialmente in quello assiomatico), ma la probabilit stessa esprime piuttosto il grado di aspettativa
soggettiva di un individuo relativamente al verificarsi di un evento. Tale approccio, sebbene ulteriormente sviluppato da
de Finetti e dai suoi discepoli in modo da garantire unassegnazione coerente delle probabilit, stato guardato spesso
con sospetto dalla comunit scientifica per la sua natura, appunto, soggettiva.
1.5 Altri approcci alla teoria della probabilit 15

Esempio 1.8. Consideriamo il lancio di un dado, per il quale = {1, 2, 3, 4, 5, 6}. Sia poi A = {pari} =
{2, 4, 6}. Sulla base dellapproccio classico, risulta NA = card( A) = 3, N = card() = 6, per cui P ( A) =
card( A )
card( )
= 12 .

Lapproccio classico anchesso, come quello assiomatico, di tipo deduttivo, cio si fonda su una
definizione a priori di probabilit, data dalla (1.10). Inoltre facile verificare che le leggi di proba-
bilit costruite a partire dalla definizione classica soddisfano gli assiomi di Kolmogorov. A prima
vista, allora, lapproccio classico pare pi soddisfacente dellapproccio assiomatico, in quanto me-
diante esso possibile assegnare dei precisi valori alle probabilit, sulla base della (1.10). Tuttavia,
i limiti insiti nelluso di tale approccio appaiono chiari se ragioniamo pi approfonditamente sul-
lesempio precedente. Infatti, il valore di probabilit dellesempio precedente corretto a patto
che si assuma che il dado non sia truccato. E se viceversa assumessi il dado truccato? Secondo
lapproccio classico, otterrei esattamente lo stesso valore di probabilit, il che ovviamente non
il risultato corretto, ed evidenzia la pi seria limitazione di tale approccio. Potrei modificare la
definizione classica richiedendo che i risultati da considerare nella (1.10) siano equiprobabili, ma
in questo modo userei il concetto di equiprobabilit per definire il concetto di probabilit,
cio ricadrei in un circolo vizioso o tautologico. Infine, non chiaro come estendere la (1.10) al
caso di un esperimento con infiniti risultati.

1.5.3 Vantaggi (e svantaggi) dellapproccio assiomatico


Tra i tre approcci considerati (assiomatico, frequentista, classico), lapproccio assiomatico sen-
zaltro il pi astratto, basandosi su concetti della teoria degli insiemi e sullintroduzione di una
serie di assiomi cui deve soddisfare la definizione di probabilit. Nonostante il suo carattere poco
intuitivo, esso riconosciuto come lunico approccio che consente di definire matematicamente la
teoria della probabilit in maniera soddisfacente ed elegante, evitando una serie di incongruenze
ed inconsistenze tipiche dellapproccio frequentista e di quello classico. In particolare, lintera
teoria viene ad assumere un carattere puramente deduttivo, discende cio in maniera logica e ri-
gorosa dagli assiomi della probabilit cos come, ad esempio, la geometria euclidea discende dal
postulato sul numero di rette parallele ad una retta data passanti per un punto. Per questo moti-
vo, quello assiomatico stato riconosciuto dai matematici come lapproccio pi soddisfacente alla
teoria della probabilit, e sar quello considerato nella trattazione che segue.12 Tuttavia anche gli
approcci frequentista e classico presentano alcuni vantaggi. In sintesi, possibile affermare che:

lapproccio frequentista il pi vicino al nostro concetto intuitivo di probabilit, e spesso


daiuto per interpretare intuitivamente i risultati ottenuti;

lapproccio classico pu servire ad assegnare i valori di probabilit in molti casi pratici (es.
giochi, scommesse, etc.), in cui i risultati possibili si possono ritenere equiprobabili;

lapproccio assiomatico il pi soddisfacente dal punto di vista formale (matematico), ma


non consente di fissare univocamente i valori numerici delle probabilit da assegnare agli
eventi (incompletezza).

12 Va osservato, peraltro, che i tre approcci considerati (ed anche quello soggettivista) differiscono soltanto nel modo

in cui si definisce la probabilit e nella sua interpretazione, mentre le regole formali del calcolo delle probabilit restano
esattamente le stesse.
16 Probabilit elementare

1.6 Esempi di costruzione di spazi di probabilit


Per concludere questo primo capitolo, consideriamo alcuni esempi di spazi di probabilit; per
semplicit di trattazione, considereremo prima il caso pi semplice di spazi di probabilit discreti
(ovvero con un numero finito o infinito numerabile di possibili risultati), e successivamente quel-
lo pi astratto di spazi di probabilit continui (ovvero con un numero infinito non numerabile di
risultati).

1.6.1 Spazi di probabilit discreti


Sia = {1 , 2 , . . . , n , . . .} un insieme discreto, vale a dire di cardinalit finita o infinita
numerabile. In tal caso, possibile scegliere come -campo la collezione delle parti di :

S = P() = {tutti i sottoinsiemi di , e inclusi} .

Osserviamo che, poich finito o numerabile, qualunque evento A appartenente ad S si pu


esprimere come unione al pi numerabile di eventi elementari {i }, cio
[
A= {i } .
i IA

dove I A N linsieme degli indici che identificano gli elementi appartenenti ad A. Poich
gli eventi elementari {i } sono mutuamente esclusivi, allora si ha, per lassioma III (numerabile
additivit):
P( A) = P({i }) .
i IA

Pertanto, per assegnare la probabilit di un qualunque evento A, sufficiente assegnare le pro-


babilit degli eventi elementari pi , P({i }), i , garantendo che, per lassioma II (norma-
lizzazione), si abbia

P() = P({i }) = pi = 1 . (1.11)
i =1 i =1
Consideriamo il caso di un insieme di cardinalit finita (card() = N): se possibile assumere
gli eventi elementari equiprobabili (per motivi di simmetria o applicando il cosiddetto principio di
ragione insufficiente13 ) risulta necessariamente, per la (1.11),
1 1
pi = =
N card()
ed inoltre si ha, evidentemente,
1 card( A)
P( A) = = . (1.12)
i IA
N card()

Tale risultato esattamente equivalente alla definizione (1.10) di probabilit secondo lapproccio
classico, che quindi pu riguardarsi come lapplicazione dellapproccio assiomatico a spazi cam-
pione finiti con eventi elementari equiprobabili, un caso tipico della teoria dei giochi e delle
scommesse. Osserviamo inoltre esplicitamente che determinare la probabilit di un evento A se-
condo la (1.12) equivale a contare gli elementi di A e quelli di . Evidentemente, se card() =
13 Tale principio, noto anche come rasoio di Occam, dal nome del filosofo inglese William of Ockham (1280-1349)

che lo formul, stabilisce che, se si deve scegliere tra diverse ipotesi riguardanti un fenomeno, bisogna scegliere la pi
semplice.
1.6 Esempi di costruzione di spazi di probabilit 17

non possibile assumere gli eventi equiprobabili, in quanto avrei P() = dalla (1.11) in tal
caso!
In definitiva, la (1.12) mostra che in molti casi il calcolo delle probabilit di eventi si riduce
ad un problema puramente combinatorio, consistente cio nel contare gli elementi di un insieme,
problema semplice in linea di principio, ma la cui applicazione a casi reali pu giungere a notevoli
livelli di complessit. I principali risultati del calcolo combinatorio sono riportati in Appendice
B; in particolare, le formule di conteggio pi frequentemente utilizzate sono raccolte in Tab. B.1.

Esempio 1.9. Consideriamo il lancio di una moneta. In tal caso lo spazio campione = { T, C }, e come
-campo S possibile scegliere la classe P() di tutti i possibili sottoinsiemi di (in numero pari a 22 = 4).
Per assegnare la legge di probabilit, basta assegnare la probabilit degli eventi elementari { T } e {C }. Per
simmetria, poniamo:
P ({ T }) = P ({C }) = 1/2
e le probabilit di tutti gli altri eventi in S si ricavano da queste.

Esempio 1.10. Consideriamo il lancio di un dado. Lo spazio campione = {1, 2, 3, 4, 5, 6}, e co-
me -campo S possibile scegliere la classe P() di tutti i possibili sottoinsiemi di (in numero pari
a 26 = 64). Per assegnare la legge di probabilit, basta assegnare la probabilit degli eventi elementari
{1}, {2}, {3}, {4}, {5}, {6}. Per simmetria, poniamo:
P ({1}) = P ({2}) = = P ({6}) = 1/6
e le probabilit di tutti gli altri eventi in S si ricavano da queste.

Esempio 1.11. Consideriamo il lancio di due monete uguali, o di una moneta due volte. In tal caso, lo
spazio campione = { TT, TC, CT, CC }, e come -campo S possibile scegliere la classe P() di tutti i
possibili sottoinsiemi di (in numero pari a 24 = 16). Osserviamo che levento
A = {esce testa al primo lancio}
non un evento elementare. Infatti:
A = { TT, TC } = { TT } { TC } .
Per assegnare la legge di probabilit, basta associare un valore di probabilit a ciascuno degli eventi elemen-
tari { TT }, { TC }, {CT }, {CC }. Per simmetria, poniamo:
P ({ TT }) = P ({ TC }) = P ({CT }) = P ({CC }) = 1/4
e le probabilit di tutti gli altri eventi in S si ricavano da queste. Ad esempio, per levento A definito
precedentemente, si ha:
P ( A) = P ({ TT }) + P ({ TC }) = 1/4 + 1/4 = 1/2
perch { TT } { TC } = (gli eventi elementari sono sempre mutuamente esclusivi) e per lassioma III di
Kolmogorov.

In sintesi, se uno spazio discreto (finito o infinito numerabile) possibile scegliere come -
campo la classe P() delle parti di , ed assegnare la legge di probabilit definendo le probabilit
pi degli eventi elementari {i }; in particolare, se finito con N elementi, possibile assumere
i risultati equiprobabili e quindi p i = 1/N; tale scelta non legittima se infinito.

Esempio 1.12. Sebbene nella maggior parte dei problemi riguardanti spazi discreti si consideri S =
P(), non bisogna pensare che questa sia lunica scelta possibile. Ad esempio, con riferimento a =
{1, 2, 3, 4, 5, 6}, se un giocatore intende scommettere solo su A = {pari} o A = {dispari}, allora una
scelta pi opportuna sar S = {, A, A, }; si pu verificare che questo un -campo, anzi il pi pic-
colo -campo contenente A, e prende il nome di -campo generato da A. In questo caso si ottiene una
semplificazione notevole nella descrizione probabilistica dellesperimento.
18 Probabilit elementare

Fig. 1.7. Lancetta ruotante degli esempi 1.13 e


1.14.

1.6.2 Spazi di probabilit continui


Lo spazio campione si dice continuo se ha una cardinalit infinita non numerabile, ovvero se
ha infiniti elementi, che per non si possono mettere in relazione biunivoca con linsieme N dei
numeri naturali. Esempi di spazi campione continui sono = R, = ( a, b) R, = R2 ,
= R3 .

Esempio 1.13 (lancetta ruotante). Un semplice esempio di esperimento aleatorio i cui risultati si possano
considerare, con un piccolo sforzo di astrazione, appartenenti ad uno spazio campione continuo raffigu-
rato in Fig. 1.7. Una lancetta sottile (idealmente filiforme) messa in rotazione su un piano orizzontale
e si ferma in una posizione arbitraria. Tale posizione pu essere individuata univocamente introducendo
un sistema di riferimento cartesiano con origine nellestremit fissa della lancetta e misurando la posizione
della lancetta con langolo formato da questultima con lasse delle ascisse. Pertanto, lo spazio campione
associato ad un tale esperimento sar = [0, 2 [. Eventi di interesse potranno essere allora sottoinsiemi di
, del tipo:

A1 = [0, /2] = {la lancetta si ferma nel primo quadrante}


A2 = [ , 2 [= {la lancetta si ferma nel terzo o nel quarto quadrante}
A3 = {/4} = {la lancetta si ferma con un angolo di 45o rispetto allasse delle ascisse}

Dovremo poi assegnare una legge di probabilit che consenta di definire la probabilit di tali eventi e di
tutti gli eventi di interesse. Per fare ci, tuttavia, dovremo prima individuare la classe di tutti gli eventi di
interesse, ovvero il -campo S.

Se continuo,14 non possibile scegliere come -campo S la classe P() delle parti di , cio
la classe di tutti i possibili sottoinsiemi di . Abbiamo gi osservato che P() senzaltro un
-campo, anzi il -campo pi grande che possibile concepire, ma si pu dimostrare che
impossibile costruire una valida legge di probabilit (che soddisfi gli assiomi di Kolmogorov) su
di esso. Lapproccio corretto invece scegliere S come il pi piccolo -campo che contiene tutti gli
14 Osserviamo che per definire rigorosamente leggi di probabilit su spazi continui sono necessari concetti di teoria degli

spazi con misura e nel caso di Rk i concetti della misura secondo Lebesgue in Rk . Per una trattazione rigorosa di tali
concetti si veda [8].
1.6 Esempi di costruzione di spazi di probabilit 19

insiemi aperti di .15 Gli insiemi che appartengono a tale -campo si dicono gli insiemi di Borel (o
borelliani) di .
In pratica considereremo solo spazi continui che sono sottoinsiemi dello spazio euclideo Rk ;
in particolare, se R, denoteremo con x il generico elemento di ; se R2 , denoteremo
con ( x, y) il generico elemento di , e cos via.
Se R, allora, possibile definire S come il pi piccolo -campo che contiene tutti gli
intervalli aperti ] a, b[ di . Si pu facilmente verificare che complementando, unendo ed inter-
secando uninfinit numerabile di intervalli di questo tipo, si ottengono tutti i tipi di intervalli
[ a, b], [ a, b[, ] a, b], ] a, b[, cos come i punti isolati { a}, e tutti i loro complementi, unioni e interse-
zioni (tutti questi insiemi costituiscono la classe degli insiemi di Borel in R). Tuttavia possibile
(anche se non immediato) costruire sottoinsiemi di che non stanno in S, e quindi S non con-
tiene tutti i sottoinsiemi di , ovvero S P(). Senza essere eccessivamente formali, tuttavia,
potremo assumere che tutti i sottoinsiemi di R che si utilizzano nella pratica appartengano a S,
siano cio insiemi di Borel.
Una volta determinato il -campo, ci rendiamo conto che non possibile procedere come
abbiamo fatto nel caso discreto, ovvero assegnando le probabilit degli eventi elementari { x }.
In questo caso, infatti, utilizzando lassioma di numerabile additivit, riusciremmo a definire la
probabilit solo di sottoinsiemi numerabili di ; invece, non potremmo mai definire in questo
modo la probabilit di eventi del tipo ( a, b).
Dobbiamo allora procedere in maniera alternativa. Una possibile strada quella di conside-
rare una funzione reale f ( x ) 0 tale che
Z
f ( x ) dx = 1 (1.13)

e porre, per ogni A S, Z


P( A) = P({ x A}) , f ( x ) dx , (1.14)
A
dove si assume che lintegrale esista finito per ogni A S. Si pu facilmente osservare che la
(1.14) definisce una funzione da S a R che rispetta gli assiomi di Kolmogorov, ed quindi una
R
valida legge di probabilit. Infatti, P( A) 0 perch f ( x ) 0 (assioma I); P() = f ( x ) dx = 1
per la (1.13) (assioma II); infine, se A e B sono insiemi disgiunti, si ha P( A B) = P( A) + P( B)
per ladditivit dellintegrale (assioma III nella forma finita).16

Esempio 1.14. Ad esempio, per la lancetta rotante dellesempio 1.13, potremo scegliere una funzione f ( x )
cos definita: (
1 , se x [0, 2 ];
f ( x ) = 2
0, altrimenti.
Come si vede, tale funzione non negativa e soddisfa alla condizione di normalizzazione (1.13): tale legge
di probabilit si dice uniforme nellintervallo [0, 2 [. A questo punto, la probabilit che la lancetta si fermi in
qualunque intervallo angolare A = [ 1 , 2 ] [0, 2 [= :
Z 2
1 2 1
P( A) = dx = .
2 1 2
15 Nello spazio R, un insieme A si dice aperto se per un qualunque x A esiste un intervallo aperto A x =] a, b [
tale che x A x A. In uno spazio astratto qualsiasi, per definire un insieme aperto occorre definire una topologia su
.
16 A voler essere precisi, bisogna dire che non tutte le leggi di probabilit su R possono essere espresse nella forma

(1.14), a meno di non ricorrere a funzioni f ( x ) particolari (distribuzioni).


20 Probabilit elementare

Utilizzando tale formulazione, semplice calcolare la probabilit degli eventi A1 , A2 e A3 definiti nelle-
sempio 1.13. Si ha:

/2 1
P ( A1 ) = =
2 4
1
P ( A2 ) = =
2 2
0
P ( A3 ) = =0
2

I primi due risultati sono in accordo con la nostra intuizione, mentre lultimo risultato appare sorprendente:
la probabilit che la lancetta si fermi in una precisa posizione angolare zero!

Come osservato nellesempio precedente, definire la legge di probabilit mediante la (1.14) ha


delle conseguenze apparentemente sorprendenti per la probabilit degli eventi elementari. Infat-
ti, nellipotesi in cui f ( x ) limitata, si trova P({ x }) = 0, e quindi tutti gli eventi elementari hanno
probabilit nulla.
Prova. La dimostrazione rigorosa sfrutta la propriet di continuit della probabilit (cfr. 1.4.5). Per
calcolare la probabilit dellevento A = { x }, possiamo costruire una successione decrescente di eventi An =
{ x u x + 1/n } tale che, evidentemente, n=1 A n = A. Per la continuit della probabilit, si ha allora:
Z  Z x +1/n 
P ({ x }) = P ( A) = lim P ( An ) = lim f (u ) du = lim f (u ) du .
n n An n x

Ma se f ( x ) una funzione limitata (| f ( x )| M, x R), si ha:


Z x +1/n Z x +1/n
M
f ( u ) du | f (u )| du ,
x x n

per cui Z x +1/n 


lim f (u ) du =0
n x
da cui lasserto. 
Il risultato che gli eventi elementari { x } abbiano probabilit nulla, sebbene possa apparire a pri-
ma vista sorprendente, non in contrasto con lassioma di normalizzazione (P() = 1), n con
S
quello di numerabile additivit. Infatti, nel caso continuo risulta = x { x }, ovvero
esprimibile come lunione degli eventi elementari disgiunti, ma tale unione non numerabile, e
quindi non applicabile il terzo assioma (che restituirebbe un paradossale P() = 0). In questo
caso, allora, pu evidentemente risultare P() = 1 anche se gli eventi elementari hanno probabi-
lit zero. Daltra parte, lapparente paradosso nasce dal fatto che specificare levento elementare
{ x } significa idealmente assegnare un numero reale x con tutte le cifre significative; nella prati-
ca questo impossibile, e ci limitiamo a fornire la rappresentazione di x solo fino alla K-esima
cifra significativa, per cui quello che consideriamo un numero reale approssimato in realt
linsieme (continuo) dei numeri reali la cui rappresentazione fino alla K-esima cifra significativa
coincide con quella assegnata. Ad esempio, lapprossimazione x = 3.14 di rappresenta in real-
t qualunque numero reale compreso tra 3.140000 . . . e 3.149999 . . ., ovvero lintervallo di valori
[3.14, 3.15[. Pertanto, nella pratica non possibile considerare veri e propri eventi elementari, ma
solo intervalli di R, la cui probabilit, calcolata sulla base della (1.14), generalmente diversa da
zero.
Per completare il nostro ragionamento, resta da approfondire linterpretazione da dare alla
funzione f ( x ). Se f ( x ) continua, consideriamo levento A = { x u x + x } ed applichiamo
1.6 Esempi di costruzione di spazi di probabilit 21

il teorema della media del calcolo integrale:


Z x +x
P( A) = f (u) du = f ( x + x ) x f ( x ) x
x

con [0, 1], da cui, dividendo per x e passando al limite per x 0, si ha:

P( A) P({ x u x + x })
f ( x ) = lim = lim ,
x 0 x x 0 x

e quindi la funzione f ( x ) si pu interpretare come una densit di probabilit. Notiamo che tale
densit di probabilit in genere diversa da zero, anche se la probabilit dellevento elementare
{ x } nulla.
Nelle precedenti considerazioni, un punto non completamente chiaro come scegliere la fun-
zione f ( x ). Anche qui emerge lincompletezza dellapproccio assiomatico, ovvero ogni funzione
f ( x ) 0 che soddisfi la (1.13) definisce una valida legge di probabilit. Ma, se vogliamo invocare
il principio di ragione insufficiente, qual la scelta pi semplice da fare? A prima vista, sem-
brerebbe che, in mancanza di altre informazioni, la scelta di una funzione f ( x ) costante ovvero di
una legge di probabilit uniforme (vedi esempio 1.14) sia la pi naturale. Tuttavia, tale scelta non
lecita se non limitato, perch una funzione costante e positiva avrebbe integrale infinito
su un insieme non limitato, e quindi non potrebbe soddisfare la condizione di normalizzazione
(1.13). La scelta di una funzione costante viceversa perfettamente legittima se limitato,
ad esempio se = [ x1 , x2 ], come gi osservato nellesempio 1.14 ed ulteriormente discusso nel
seguente esempio.

Esempio 1.15. Si consideri lesperimento consistente nellarrivo a caso di una telefonata ad una centrale
telefonica nellintervallo [ t1 , t2 ]. In tal caso, il risultato dellesperimento un numero reale x [ t1 , t2 ], che
rappresenta listante di arrivo della telefonata, per cui lo spazio campione = [ t1 , t2 ]. Come -campo,
tenendo conto dellosservazione fatta nel precedente esempio, scegliamo il pi piccolo -campo che con-
tiene tutti gli intervalli aperti ] a, b [ [ t1 , t2 ]. Come legge di probabilit, in mancanza di altre informazioni,
scegliamo una funzione f ( x ) cos definita:
(
, se x [ t1 , t2 ];
f (x) =
0, altrimenti.

Tale f ( x ) si dice uniforme in [ t1 , t2 ]. Imponiamo ora che la condizione di normalizzazione (1.13) sia soddi-
sfatta: Z t2
1
f ( x ) dx = 1 = .
t1 t2 t1
In base a questa scelta della funzione f ( x ), la probabilit che giunga una telefonata in un intervallo A =
[ a, b ] :
Z b
1 ba
P( A) = dx = .
t2 t1 a t2 t1
Osserviamo che, poich b a la misura dellintervallo [ a, b ], e t2 t1 la misura dellintervallo = [ t1 , t2 ],
la probabilit P ( A) si pu interpretare come una misura normalizzata:

misura( A)
P( A) = .
misura()

Tale interpretazione della probabilit mostra chiaramente i legami della teoria della probabilit con la teo-
ria della misura, e prende anche il nome di interpretazione geometrica della probabilit o semplicemente
probabilit geometrica.
22 Probabilit elementare

y y = x + t1
y
T
T
T1

C
D
t1
y = x t2
D1
T2
D2

T x t2 T x

Fig. 1.8. Problema dellincontro: C = { x Fig. 1.9. Problema dellincontro: D = { x


y} rappresenta levento Tizio arriva prima di t2 y x + t1 } rappresenta levento Tizio
Caio. e Caio si incontrano.

I concetti introdotti per il caso R possono essere estesi, senza grosse difficolt concettuali, al
caso pi generale in cui Rk . Il caso k = 2 discusso nel seguente esempio, con riferimento
ad un problema concreto.

Esempio 1.16 (problema dellincontro). Un esempio di spazio di probabilit continuo su un sottoinsieme di


R2 il cosiddetto problema dellincontro, una cui possibile formulazione la seguente: due amici, Tizio e Caio,
si recano, per caso e indipendentemente luno dallaltro, nello stesso bar nellintervallo [0, T ], e ciascuno si
trattiene per t1 e t2 secondi, rispettivamente.
Tale esperimento pu essere descritto in termini probabilistici come segue. Il risultato dellesperimento
una coppia ordinata di numeri ( x, y), con x [0, T ] e y [0, T ], dove x ed y rappresentano rispettivamente
gli istanti di arrivo del primo e del secondo amico. Lo spazio campione allora il quadrato = [0, T ]
[0, T ] R2 . Come -campo, potremo scegliere il pi piccolo -campo che contiene tutti i rettangoli aperti
A =] a, b [] c, d[. Come legge di probabilit, infine, in analogia allesempio 1.15, utilizzeremo la misura
normalizzata, corrispondente a scegliere una densit di probabilit uniforme nel quadrato; se cio A un
evento, ovvero un sottoinsieme del quadrato appartenente ad S, e se misura( A) rappresenta la sua misura
(unarea, in questo caso), allora porremo:

misura( A)
P( A) = ,
misura()

dove misura() = misura(quadrato) = T 2 . Ad esempio, la probabilit che ( x, y) A = [ a, b ] [ c, d] data


da:
(b a)(d c)
P( A) = .
T2
Una volta individuato un corretto modello probabilistico, possiamo affrontare il calcolo della probabilit
di un qualsiasi evento, e data la definizione della probabilit come misura normalizzata, il calcolo si pu
effettuare utilizzando semplici considerazioni geometriche.
Ad esempio, sia C il seguente evento: Tizio arriva prima di Caio. In termini numerici, risulta eviden-
temente C = { x y}, per cui levento C il triangolo rappresentato in Fig. 1.8. Si ha allora:

misura(C ) T 2 /2 1
P (C ) = = = .
misura() T2 2

Calcoliamo adesso la probabilit dellevento D definito come segue: Tizio e Caio si incontrano. Evi-
dentemente, ci si verifica se:
arriva prima Tizio, e risulta y x + t1 ; corrisponde al dominio D1 = { x y, y x + t1 } di Fig.
1.9; oppure:
1.6 Esempi di costruzione di spazi di probabilit 23

arriva prima Caio, e risulta x y + t2 ; corrisponde al dominio D2 = {y x, x y + t2 } di Fig.


1.9.
I domini D1 e D2 sono mutuamente esclusivi (se si escludono i punti sulla frontiera, che possiamo attribuire
indifferentemente alluno o allaltro, in quanto la frontiera ha misura nulla), e sono tali che D = D1 D2 .
Pertanto si ha P ( D ) = P ( D1 ) + P ( D2 ), e utilizzando semplici considerazioni possiamo ottenere larea del
dominio D per sottrazione, in quanto si ha:

misura( D ) = misura() misura( T1 ) misura( T2 )

e le aree dei triangoli T1 e T2 sono:

( T t1 )2
misura( T1 ) = ,
2
( T t2 )2
misura( T2 ) = ,
2
da cui sostituendo si ha il risultato finale:
!
misura( D ) t + t2 t21 + t22
P(D) = = 1 .
misura() T 2 T2

Ad esempio, se T = 60 (minuti) e t1 = t2 = 5 (minuti), si trova P ( D ) 0.139.


24 Probabilit elementare

1.7 Esercizi proposti


Esercizio 1.1. Per ciascuno dei seguenti esperimenti, si descriva lo spazio campione:
a) lanciare quattro volte una moneta bilanciata;
b) individuare il numero di foglie danneggiate da un parassita su una pianta;
c) misurare il tempo di vita (in ore) di una lampadina;
d) misurare il peso di una cavia di laboratorio;
e) controllare il numero di componenti difettosi in un lotto di componenti elettronici.

Esercizio 1.2. Sia = {1, 2, 3, 4, 5, 6} uno spazio campione, verificare se le seguenti collezioni di insiemi
sono -campi:

S1 = {, pari, dispari, } ;
S2 = {, {1}, {3}, {1, 3}, } ;
S3 = {, {1}, {2}, {2, 4}, } .

Esercizio 1.3. Siano A e B due eventi tali che P ( A B ) = 1/4, P ( A) = 1/3 e P ( B ) = 1/2. Calcolare la
probabilit di A B. [Risposta: 11/12]

Esercizio 1.4. Siano A, B e C tre eventi di uno spazio di probabilit. Esprimere i seguenti eventi in termini di
operazioni elementari sugli insiemi:
a) si verificano almeno due dei tre eventi A, B, C;
b) si verificano esattamente due dei tre eventi A, B, C;
c) si verificano al pi due dei tre eventi A, B, C;
d) si verifica esattamente uno dei tre eventi A, B, C.

Esercizio 1.5. Siano A e B due eventi di uno spazio di probabilit. Calcolare la probabilit dellevento A B
in termini di P ( A) e P ( A B ). [Risposta: P ( A B ) = P ( A) P ( A B )]

Esercizio 1.6. Siano A e B due eventi di uno spazio di probabilit. Se definisce differenza simmetrica degli
insiemi A e B linsieme AB contenente gli elementi di A oppure di B ma non di entrambi (corrisponde
logicamente alloperazione di OR esclusivo). Calcolare la probabilit dellevento AB in termini di P ( A),
P ( B ) e P ( A B ). [Risposta: P ( AB ) = P ( A) + P ( B ) 2 P ( A B )]

Esercizio 1.7. Siano A e B due eventi di uno spazio di probabilit. Esprimere i seguenti eventi in termini di
operazioni elementari sugli insiemi e calcolarne le probabilit in termini di P ( A), P ( B ) e P ( A B ):
a) A oppure B oppure entrambi;
b) almeno uno tra A e B;
c) A ma non B;
d) A oppure B ma non entrambi;
e) al pi uno tra A e B.

Esercizio 1.8. Siano A, B e C tre eventi di uno spazio di probabilit. Mostrare che

P ( A B C ) = P ( A) + P ( B ) + P (C ) P ( A B ) P ( A C ) P ( B C ) + P ( A B C )

Esercizio 1.9. 17 Giovanni e Maria seguono un corso di matematica, il cui esame finale prevede solo tre
punteggi: A, B e C. La probabilit che Giovanni prenda B pari a 0.3, la probabilit che Maria prenda B
pari a 0.4, la probabilit che nessuno dei due prenda A ma almeno uno dei due prenda B pari a 0.1. Qual
la probabilit che almeno uno dei due prenda B ma nessuno prenda C? [Risposta: 0.6]
17 Gli esercizi contrassegnati con il simbolo sono di maggiore difficolt e non vanno affrontati per primi.
1.7 Esercizi proposti 25

Esercizio 1.10. I risultati di un esperimento sono numeri interi equiprobabili tra 1 (incluso) e 12 (incluso). Si
considerino i seguenti eventi:

A = {il numero dispari} ;


B = {il numero divisibile per 3} ;
C = {il numero divisibile per 4} .

Individuare gli eventi A, B, C, A B, A C e A B e calcolarne le probabilit. [Risposta: 1, 1, 1, 1, 0, 1 ]


2 3 4 6 6

Esercizio 1.11. Si lanciano due dadi18 . Calcolare la probabilit dei seguenti eventi:

A = {la somma dei due dadi maggiore o uguale a 8} ;


B = {la somma dei due dadi esattamente uguale a 8} ;
C = {si ottiene almeno un 6 nei due lanci } .

[Risposta: 15 , 5 , 11 ]
36 36 36

Esercizio 1.12. Nel 1600, alcuni giocatori chiesero a Galileo Galilei di spiegare perch, nel lancio di tre
dadi, la somma 10 si presenti con maggior frequenza di 9, nonostante sia 10 che 9 si possano ottenere come
somme di 6 terne distinte di interi tra 1 e 6.
a) Formulare un appropriato modello probabilistico del problema.
b) Calcolare la probabilit di ottenere 10 e 9 e verificare che effettivamente losservazione dei giocatori era
fondata.19

Esercizio 1.13. Un dado truccato in modo che la probabilit di ogni faccia sia proporzionale al numero di
punti sulla faccia stessa (ad esempio, un sei tre volte pi probabile di un due). Calcolare la probabilit
di ottenere un numero pari in un singolo lancio del dado.

Esercizio 1.14. Si lanciano due dadi. Siano A e B i seguenti eventi:

A = {la somma dei due dadi dispari} ;


B = {si ottiene almeno un 6 nei due lanci } .

Individuare gli eventi A B, A B, A B e calcolarne le probabilit. [Risposta: 16 , 23 1


36 , 3 ]

Esercizio 1.15. Si lanciano due dadi, e si denotano i risultati come d1 ed d2 . Qual la probabilit che
lequazione di secondo grado x2 + x d1 + d2 = 0 abbia radici reali? [Risposta: 19
36 ]

Esercizio 1.16. Si considerino le cifre 1, 2, 3, 4, 5. Lesperimento il seguente: si sceglie prima una cifra, e
poi una seconda tra le restanti. Assumendo i 20 (perch?) possibili risultati dellesperimento equiprobabili,
determinare la probabilit che
a) la prima volta venga scelta una cifra dispari;
b) la seconda volta venga scelta una cifra dispari;
c) entrambe le volte venga scelta una cifra dispari.
[Risposta: 53 , 35 , 3
10 ]

Esercizio 1.17. Si estraggono simultaneamente due carte da un mazzo di carte francesi (senza jolly). Calco-
1 0.0045]
lare la probabilit di ottenere due assi. [Risposta: 221

Esercizio 1.18. Si estraggono simultaneamente due carte da un mazzo di carte francesi (senza jolly). Calco-
lare la probabilit che almeno una sia di cuori. [Risposta: 15
34 0.441]
18
In questo e negli esercizi che seguono, salvo avviso contrario, le monete ed i dadi sono bilanciati, i mazzi di carte
sono ben mischiati, le estrazioni di numeri sono casuali.
19 Galileo Galilei riport le sue considerazioni in un trattato intitolato Sopra le scoperte dei dadi (Opere, vol.8).
26 Probabilit elementare

Esercizio 1.19. Si estraggono in successione due carte da un mazzo di carte francesi (senza jolly). Calcolare
16
la probabilit che la seconda carta estratta sia maggiore della prima. [Risposta: 34 0.471] [Suggerimento:
osservare che P (uguale) + P (maggiore) + P (minore) = 1, che P (maggiore) = P (minore) per simmetria, e calcolare
P (uguale)]

Esercizio 1.20. La metropolitana arriva nella stazione di Campi Flegrei in un istante qualsiasi fra le 14.00 e
le 14.30 e vi sosta T minuti. Uno studente, a sua volta, arriva nella stazione di Campi Flegrei in un istante
qualsiasi dello stesso intervallo di tempo, indipendentemente dalla metropolitana. Quanto deve valere T
affinch lo studente prenda la metropolitana con probabilit 0.8? [Risposta: T 11 minuti]

Esercizio 1.21. Il gioco delle freccette consiste nel lanciare una freccetta su un bersaglio (vedi figura), otte-
nendo un punteggio corrispondente alla regione colpita. Il quadrato ha lato 2 r, e la distanza tra due cerchi
concentrici adiacenti pari a r/5. Determinare la probabilit di effettuare 100, 50, 20, 10, oppure 0 punti,

lanciando una freccetta a caso (si supponga che la freccetta colpisca comunque il quadrato). [Risposta: 100 ,
3 , 5 , 7 , 1 16 ]
100 100 100 100

r/5

100 50 20 10

0punti

2r
Capitolo 2

Probabilit condizionale e
indipendenza

Si affrontano in questo capitolo due argomenti fondamentali della teoria della probabilit: la
probabilit condizionale e lindipendenza statistica tra eventi. Dopo aver definito il concetto di
probabilit condizionale, si mostra che tutte le propriet della probabilit possono essere appli-
cate anche alla probabilit condizionale, e si introducono la legge della probabilit composta, il
teorema della probabilit totale ed il teorema di Bayes, estremamente utili nella risoluzione di
problemi pratici. Successivamente si introduce il concetto di indipendenza statistica, che viene
applicato per semplificare la costruzione di spazi di probabilit su esperimenti combinati. I con-
cetti studiati vengono infine applicati ad un modello semplificato di sistema di comunicazione,
comprendente una sorgente di informazione, un canale di comunicazione ed una destinazione;
in particolare, viene studiato in dettaglio il modello di canale binario simmetrico (BSC).

2.1 Introduzione
Nel precedente capitolo abbiamo introdotto i concetti basilari della teoria della probabilit, ed
in particolare abbiamo visto come si definisce la probabilit di un evento A appartenente ad
uno spazio di probabilit (, S, P); inoltre, a partire dalle probabilit di eventi semplici, abbia-
mo derivato delle semplici regole per il calcolo delle probabilit di eventi ottenuti come unione,
complementazione e intersezione di pi eventi semplici.
Tuttavia, anche nello studio delle relazioni che coinvolgono pi eventi di uno spazio di proba-
bilit, non abbiamo approfondito le relazioni di dipendenza (o di assenza di dipendenza, ovvero
indipendenza) tra tali eventi. Lo studio di tali relazioni, affrontato nel corso di questo capitolo,
consentir di dare risposta a quesiti del tipo: se sappiamo che si verificato levento B, come si modi-
fica la probabilit dellevento A? Il punto di partenza delle nostre considerazioni sar il concetto di
probabilit condizionale.
28 Probabilit condizionale e indipendenza

2.2 Probabilit condizionale


Siano A e B due eventi di uno spazio di probabilit (, S, P). Vogliamo mettere in relazione,
in senso probabilistico, gli eventi A e B, introducendo una misura dellincertezza residua su A
sapendo che B si verificato. Tale misura fornita dalla cosiddetta probabilit condizionale di A
dato B:

Definizione (probabilit condizionale). Sia (, S, P) uno spazio di probabilit, e siano


A, B S due eventi, con P( B) 6= 0. La probabilit condizionale (o condizionata) di A dato B
:
P( AB)
P( A| B) = . (2.1)
P( B)

Ricordiamo che, nella (2.1), AB rappresenta lintersezione A B. Poich AB B, si ha che


P( AB) P( B) e quindi P( A| B) 1 (ovviamente P( A| B) sicuramente positiva perch rapporto
di due quantit positive). Quindi P( A| B) [0, 1] ed lecito allora parlare di probabilit condi-
zionale: vedremo che, di fatto, la (2.1) definisce una vera e propria legge di probabilit, nel senso
che soddisfa agli assiomi di Kolmogorov.

Esempio 2.1. In un lancio di un dado ben equilibrato, calcolare la probabilit che esca 6 sapendo che (dato
che) uscito un numero pari.
Definiamo come al solito lo spazio campione = {1, 2, 3, 4, 5, 6}, e gli eventi A = {6}, B = {pari} =
{2, 4, 6}. Assumendo gli eventi elementari equiprobabili, si ha:

P ( A) = 1/6 ,
P ( B ) = 3/6 = 1/2 ,
P ( AB ) = P ( A) = 1/6 ,
1/6
P( A| B) = = 1/3 .
1/2

Si noti che P ( A| B ) > P ( A), cio aumentata la probabilit che esca 6 se sappiamo che uscito un numero
pari, come naturale.

Il concetto espresso nel precedente esempio si pu formalizzare come segue:

se P( A| B) > P( A), allora A attratto da B; sapere che B si verificato fa aumentare la


probabilit che si verifichi A;

se P( A| B) < P( A), allora A respinto da B; sapere che B si verificato fa diminuire la


probabilit che si verifichi A;

se P( A| B) = P( A), A indifferente a B; in questo caso vedremo nel seguito (cfr. 2.3)


che A e B sono statisticamente indipendenti.

Esempio 2.2. Dati gli eventi A = {oggi piove} e B = {oggi estate}, si ha che P ( A| B ) < P ( A) cio
diminuisce la probabilit che oggi piova se so che estate. Se viceversa B = {oggi inverno} ho che
P ( A| B ) > P ( A) cio aumenta la probabilit che oggi piova se so che inverno.

Dalla definizione (2.1), il lettore pu facilmente dimostrare che:


2.2 Probabilit condizionale 29

A2 B
A1 B
E

B
A2
A1
B A A

Fig. 2.1. Diagramma di Venn che mostra che se Fig. 2.2. Diagramma di Venn della relazione E =
A1 ed A2 sono mutuamente esclusivi, anche A1 B B E = A B, con E = A B.
ed A2 B sono mutuamente esclusivi.

1. se B A, allora P( A| B) = 1; infatti, poich B implica A, se sappiamo che si verificato B


allora siamo certi che si sia verificato anche A;
P( A)
2. se A B, allora P( A| B) = P( A); in tal caso, A ad implicare B (e non viceversa),
P( B)
e quindi se sappiamo che si verificato B non possiamo affermare con certezza che si sia
verificato anche A; tuttavia, la probabilit P( A| B) che A si sia verificato dato B non inferiore
alla probabilit P( A) che A si sia verificato se non abbiamo nessuna informazione su B.

2.2.1 Interpretazioni della probabilit condizionale


E interessante notare che, per un fissato B, la probabilit condizionale definisce una vera e pro-
pria legge di probabilit su S, in quanto gli assiomi di Kolmogorov risultano soddisfatti. Pertan-
to, tutti i risultati e le propriet validi per le probabilit (ad esempio, le propriet elementari del 1.4.3)
valgono ugualmente anche per le probabilit condizionali.
Prova. Verifichiamo che, dato B con P ( B ) 6= 0, la legge P (| B ) soddisfa gli assiomi di Kolmogorov. Si ha:
I. P ( A| B ) 0, A S banalmente;
P ( B ) P(B)
II. P (| B ) = = = 1;
P(B) P(B)
III. Se A1 ed A2 sono mutuamente esclusivi:

P [( A1 A2 ) B ] P ( A1 B A2 B )
P ( A1 A2 | B ) = = .
P(B) P(B)

Ma A1 B ed A2 B sono anchessi mutuamente esclusivi (Fig. 2.1) per cui:

P ( A1 B ) + P ( A2 B )
P ( A1 A2 | B ) = = P ( A1 | B ) + P ( A2 | B ) .
P(B)

Similmente vale per la numerabile additivit.


Gli assiomi di Kolmogorov sono verificati e quindi la P (| B ) una valida legge di probabilit. 
Quindi, fissata una legge di probabilit P() su , il fatto che si sia verificato B ci induce a mo-
dificare tale legge nella P(| B), per tenere conto di tale ulteriore informazione. In questo senso,
30 Probabilit condizionale e indipendenza

possiamo vedere la legge di probabilit condizionata come una sorta di raffinamento della
legge di probabilit originaria.
Una interpretazione leggermente differente quella secondo la quale la probabilit condizio-
nale definisce una legge di probabilit PB su un nuovo spazio campione B = B, con eventi del
tipo E = A B (A S). Secondo questa interpretazione, se sappiamo che si verificato B allora
possiamo restringere il nostro spazio campione a B stesso, eliminando cio tutti quei risulta-
ti che non appartengono a B, e che quindi certamente non si sono verificati. In questo senso,
la legge di probabilit condizionata una restrizione della legge di probabilit originaria al
sottoinsieme B.
Prova. Consideriamo il nuovo spazio campione B = B, come -campo linsieme S B composto da tutti gli
insiemi del tipo E = A B, con A S, e come legge di probabilit su B la PB definita dalla seguente:

P ( AB )
PB ( E ) , .
P(B)

Osserviamo preliminarmente che, nel nuovo spazio campione B = B, il complemento di E va inteso


rispetto a B, cio si ha E = B E.
Il punto centrale dimostrare che S B effettivamente un -campo. Anzitutto, notiamo che S B non vuoto,
perch S B . Se poi E S B , allora E = A B, E = B E = B A B = A B (Fig. 2.2). Ma
A B S B perch A S. Similmente, se E1 , E2 S B , allora E1 = A1 B e E2 = A2 B, per cui E1 E2 =
( A1 A2 ) B S B perch A1 A2 S. Allo stesso modo si prova anche la chiusura rispetto allunione
numerabile, per cui effettivamente S B un -campo.
A questo punto banale verificare che la PB soddisfa gli assiomi di Kolmogorov:
I. PB ( E ) 0, E S B banalmente;
P(B B) P(B)
II. PB ( B ) = = = 1;
P(B) P(B)
III. Se E1 ed E2 sono mutuamente esclusivi:

P [( A1 A2 ) B ] P ( A1 B A2 B )
PB ( E1 E2 ) = = .
P(B) P(B)

Ma A1 B ed A2 B sono mutuamente esclusivi per cui:

P ( A1 B ) + P ( A2 B )
P ( E1 E2 ) = = PB ( E1 ) + PB ( E2 ) .
P(B)

Gli assiomi di Kolmogorov sono verificati e quindi la PB () una valida legge di probabilit su B = B. 

2.2.2 Legge della probabilit composta


Una conseguenza banale della definizione di probabilit condizionale la cosiddetta legge della
probabilit composta:
P( A B) = P( A| B) P( B) = P( B| A) P( A) . (2.2)

A rigore, per ricavare tale legge dalla definizione (2.1), necessario supporre che P( A) e P( B)
siano non nulle. Tuttavia, si osservi che essa vale formalmente anche se P( A) e/o P( B) zero, e
quindi la probabilit condizionale non ben definita. Infatti, in tal caso, dalla relazione A B A
e A B B si ricava necessariamente P( A B) = 0. Si osservi, infine, che la probabilit P( A B)
viene comunemente denominata probabilit congiunta degli eventi A e B.
Lutilit della legge della probabilit composta che essa consente di calcolare la probabilit
dellevento A B in tre passi: (i) si calcola prima la probabilit di A; (ii) si calcola la probabilit
di B dato A; (iii) si moltiplicano i due valori di probabilit. Ovviamente, data la simmetria della
legge, si possono scambiare i ruoli di A e B secondo convenienza.
2.2 Probabilit condizionale 31

Esempio 2.3. Una scatola contiene 3 palle bianche (w1 , w2 , w3 ) e 2 rosse (r1 , r2 ). Si rimuovono due palle in
successione. Qual la probabilit che la prima sia bianca e la seconda rossa?
Lo spazio campione costituito da tutte le coppie ordinate di palle, che sono esattamente venti:

= { w1 w2 , w1 w3 , w1 r1 , w1 r2 , w2 w1 , w2 w3 , . . . , r1 r2 } .

Infatti, la prima palla pu essere scelta in 5 modi differenti; fissata la prima palla, la seconda pu essere
scelta in 4 modi differenti, per cui ho un totale di 5 4 = 20 differenti modi. Pi formalmente, le disposizioni
ordinate senza sostituzione di n elementi su k posti sono n!/(n k)! = n (n 1) (n k + 1) (cfr. Tab.
B.1), e nel caso in questione n = 3 + 2 = 5 e k = 2, da cui il risultato.
Levento C = {prima palla bianca, seconda rossa} costituito da 6 elementi:

C = { w1 r1 , w2 r1 , w3 r1 , w1 r2 , w2 r2 , w3 r2 } .

Se assumiamo gli eventi elementari equiprobabili e con probabilit pari ad 1/20, allora P (C ) = card(C )/card() =
6/20 = 3/10.
Vediamo ora se possiamo applicare il concetto di probabilit condizionale per arrivare allo stesso risul-
tato pi semplicemente. Definiamo:

C = {prima palla bianca, seconda rossa} = {prima bianca} {seconda rossa}


| {z } | {z }
A B

per cui, applicando la legge della probabilit composta, si ha:

P (C ) = P ( AB ) = P ( B | A) P ( A) .

Ora, evidentemente,
P ( A) = P (prima bianca ) = 3/5
e rimane da calcolare
P ( B | A) = P (seconda rossa|prima bianca) .
Se la prima palla estratta bianca, rimangono nella scatola 4 palle, 2 bianche e 2 rosse, per cui P ( B | A) = 1/2.
Si ha allora:
3 1 3
P (C ) = P ( B | A) P ( A) = = .
5 2 10
Notiamo che seguendo il secondo approccio non stato necessario determinare (contare) il numero di
elementi di .

2.2.3 Regola della catena


possibile estendere la definizione di probabilit condizionata anche al caso di pi eventi condi-
zionanti. Per esempio, si ha:

P( ABC )
P( A| B, C ) , , P( BC ) 6= 0 .
P( BC )

Si noti che P( A| B, C ) da intendersi come P( A| BC ), cio si condiziona allevento BC, ovvero al


fatto che si sono verificati congiuntamente levento B e levento C. Riscrivendo la precedente, si
trova allora una legge di fattorizzazione analoga alle legge della probabilit composta:

P( ABC ) = P( A| B, C ) P( BC )

e poich, per la legge della probabilit composta, P( BC ) = P( B|C ) P(C ), si ottiene:

P( ABC ) = P( A| B, C ) P( B|C ) P(C ) .


32 Probabilit condizionale e indipendenza

Applicando tale relazione iterativamente al caso di n eventi A1 , A2 , . . . , An , si ha la cosiddetta


regola della catena per il calcolo della probabilit congiunta di n eventi:

P ( A1 A2 A n ) = P ( A1 ) P ( A2 | A1 ) P ( A3 | A1 , A2 ) P ( A n | A1 , A2 , . . . , A n 1 ) .

La regola precedente si applica indipendentemente dallordine in cui si considerano gli eventi.


In effetti, poich esistono n! distinte permutazioni degli eventi A1 , A2 , . . . , An , la fattorizzazione
secondo la regola della catena pu avvenire in n! modi distinti.

2.2.4 Teorema della probabilit totale e teorema di Bayes


Due importanti propriet della probabilit condizionale, che risultano estremamente utili nelle
applicazioni, sono descritte dai due teoremi seguenti:

Teorema 2.1 (probabilit totale). Siano A1 , A2 , . . . , An eventi mutuamente esclusivi (Ai


S
A j = , i 6= j) e sia B ni=1 Ai . Si ha:
n
P( B) = P( B| Ai ) P( Ai ) .
i =1

Prova. Si faccia riferimento al diagramma di Venn in Fig. 2.3. Poich B ni=1 Ai B = B {ni=1 Ai }
B = ni=1 ( B Ai ). Ma se gli Ai sono mutuamente esclusivi, anche gli eventi B Ai lo sono. Allora per il III
assioma si ha:
n
P(B) = P( B Ai ) .
i =1
Per la legge della probabilit composta, si ha:

P( B Ai ) = P( B| Ai ) P( Ai )

valida anche se P ( Ai ) = 0. Sostituendo nella precedente si ha lasserto. 

A2
A3
A1 A2 B

A1 B A3 B

A4 B B
A4

Fig. 2.3. Diagramma di Venn del teorema della probabilit totale (n = 4).
2.2 Probabilit condizionale 33

S
Nella pratica pu essere complicato verificare la condizione B ni=1 Ai , per cui spesso si assume
che gli insiemi A1 , A2 , . . . , An , mutuamente esclusivi, costituiscano una partizione di . In tal caso
Sn
i =1 A i = per cui la condizione precedente risulta senzaltro verificata.

Teorema 2.2S(Bayes). Siano A1 , A2 , . . . , An eventi mutuamente esclusivi (Ai A j = , i 6=


j) e sia B ni=1 Ai . Si ha:
P( B| Ai ) P( Ai )
P( Ai | B) = n .
P( B| Ai ) P( Ai )
i =1

Prova. Il teorema una conseguenza banale della legge della probabilit composta e del teorema della
probabilit totale. Infatti, per la legge della probabilit composta, si ha:

P( B Ai ) = P( B| Ai ) P( Ai ) = P( Ai | B) P( B)

per cui:
P( B| Ai ) P( Ai )
P( Ai | B) = .
P(B)
Sostituendo P ( B ) come espresso dal teorema della probabilit totale nella precedente si ha lasserto. 

Il teorema di Bayes vale nelle stesse ipotesi del teorema della probabilit totale; inoltre entrambi i
teoremi possono estendersi al caso in cui gli eventi Ai condizionanti siano uninfinit numerabile.
Nel teorema di Bayes, la probabilit P( Ai ) spesso definita probabilit a priori, mentre la P( Ai | B)
definita probabilit a posteriori.

Esempio 2.4. Si considerino 3 scatole che contengono componenti elettronici:


nella scatola 1, ci sono 2000 componenti, di cui il 5% (100 componenti) difettosi;
nella scatola 2, ci sono 1000 componenti, di cui il 40% (400 componenti) difettosi;
nella scatola 3, ci sono 1000 componenti, di cui il 10% (100 componenti) difettosi;
Si seleziona una scatola a caso, e successivamente si rimuove un componente a caso dalla scatola.
1. Qual la probabilit che il componente scelto sia difettoso?
2. Sapendo che un componente difettoso, qual la probabilit che provenga dalla scatola 2?
Lo spazio campione associato a tale esperimento costituito dai 2000 + 1000 + 1000 = 4000 compo-
nenti, di cui 600 difettosi. Iniziamo con losservare che se i componenti fossero tutti in ununica scatola e ne
600
scegliessi uno a caso, la probabilit di scegliere un componente difettoso sarebbe pari a 4000 = 0.15. Lespe-
rimento per condotto in maniera differente: prima si sceglie la scatola, e successivamente il componente
allinterno della scatola. Definiamo allora i seguenti eventi:
A1 = {il componente proviene dalla scatola 1} ,
A2 = {il componente proviene dalla scatola 2} ,
A3 = {il componente proviene dalla scatola 3} ,
B = {il componente difettoso} .
Poich la scatola scelta a caso, allora, per simmetria, si ha
P ( A1 ) = P ( A2 ) = P ( A3 ) = 1/3 .
Inoltre, gli eventi A1 , A2 e A3 sono mutuamente esclusivi e A1 A2 A3 = . Si ha poi, dai dati del
problema,
P ( B | A1 ) = 0.05 ,
P ( B | A2 ) = 0.40 ,
P ( B | A3 ) = 0.10 .
34 Probabilit condizionale e indipendenza

Poich siamo nelle ipotesi del teorema della probabilit totale, possiamo scrivere:

P ( B ) = P ( B | A1 ) P ( A1 ) + P ( B | A2 ) P ( A2 ) + P ( B | A3 ) P ( A3 ) .

Sostituendo i valori numerici si trova P ( B ) 0.18, che pertanto la risposta al primo quesito. Per rispondere
al secondo, possiamo applicare il teorema di Bayes:
P ( B | A2 ) P ( A2 )
P ( A2 | B ) = 0.73 .
P(B)
Notiamo che la probabilit a posteriori P ( A2 | B ) che il componente provenga dalla scatola 2, sapendo che
difettoso, molto maggiore della probabilit a priori P ( A2 ) che il componente provenga dalla stessa scatola,
che pari ad 1/3. Questo intuitivamente chiaro, perch la percentuale di componenti difettosi contenuti
nella scatola 2 maggiore di quella delle altre scatole.

Esempio 2.5. Si dispone di un test per individuare una malattia molto rara, che colpisce 1 paziente su
100 000. Il test abbastanza affidabile: se il paziente ha la malattia, il test la individua con probabilit 0.95;
se il paziente non ha la malattia, il test falsamente positivo con probabilit 0.005. Se il test dice che la
malattia presente, qual la probabilit che il paziente abbia effettivamente la malattia?
Lo spazio campione associato a tale esperimento costituito da tutti i pazienti sottoposti al test.
Definiamo i tre eventi:

A1 = {il paziente ha la malattia } ,


A2 = {il paziente non ha la malattia} ,
B = {il paziente positivo al test} .

Dobbiamo allora calcolare la probabilit:

P ( A1 | B ) = P (il paziente ha la malattia |il test positivo) .

Poich gli eventi A1 ed A2 sono mutuamente esclusivi, e A1 A2 = , possiamo adoperare il teorema di


Bayes, e scrivere:
P ( B | A1 ) P ( A1 )
P ( A1 | B ) = .
P ( B | A1 ) P ( A1 ) + P ( B | A2 ) P ( A2 )
Per semplificare i calcoli, e fare alcune considerazioni sullordine di grandezza del risultato, possiamo
riscrivere la precedente nella forma:
1
P ( A1 | B ) =
P( B| A ) P( A )
1 + P ( B | A 2) P ( A 2 )
1 1

Ora, con la notazione introdotta, si ha:


1
P ( A1 ) = = 105 ,
100 000
1
P ( A2 ) = 1 = 1 105 = 0.99999 ,
100 000
P ( B | A1 ) = 0.95 ,
P ( B | A2 ) = 0.005 .

Se facciamo le approssimazioni P ( A2 ) 1 e P ( B | A1 ) 1, si ha:


1
P ( A1 | B ) P ( B | A 2)
.
1+ P ( A1 )

Poich P ( B | A2 ) P ( A1 ), si ha che P ( A1 | B ) 1. In effetti, sostituendo i valori numerici, si trova


P ( A1 | B ) 2 103 ; nonostante il test sembri abbastanza affidabile, la rarit della malattia lo rende pra-
ticamente inutile. Dalle considerazioni fatte, si comprende che per avere P ( A1 | B ) 1 (un buon test) debba
risultare P ( B | A2 ) P ( A1 ), cio dovrei avere un test con probabilit di falsa positivit molto pi piccola
della probabilit di occorrenza della malattia. Pertanto, si capisce perch effettuare uno screening di massa
per individuare una malattia rara sia spesso considerato economicamente poco conveniente.
2.3 Indipendenza tra eventi 35

2.3 Indipendenza tra eventi


Un concetto fondamentale nella teoria della probabilit quello dellindipendenza tra eventi, che
pu intuitivamente ricavarsi dal concetto di probabilit condizionale. Infatti, si considerino due
eventi A e B: in base ad un ragionamento intuitivo, se gli eventi sono indipendenti, ci aspettiamo
che sapere che B si sia verificato non altera in nessun modo la probabilit che si verifichi A. In
formule, deve risultare:
P( A| B) = P( A) .

Si noti che sostituendo tale espressione nella legge di probabilit composta (2.2) si ha:

P( AB) = P( A) P( B) (2.3)

ed inoltre dalla definizione di probabilit condizionale (2.1) si ha pure

P( B| A) = P( B)

e quindi lindipendenza una propriet simmetrica (se A indipendente da B, anche B indipen-


dente da A). Peraltro, la (2.3) implica sia P( A| B) = P( A) che P( B| A) = P( B), per cui, sebbene
meno intuitiva, si assume per simmetria proprio la (2.3) come definizione di indipendenza tra
due eventi:

Definizione (indipendenza). Due eventi A e B si dicono indipendenti se

P( AB) = P( A) P( B) .

Tale definizione afferma che la probabilit congiunta P( AB) si fattorizza nel prodotto delle pro-
babilit P( A) e P( B), che prendono il nome di probabilit marginali.

Esempio 2.6. Consideriamo lesempio, gi visto, del lancio di due monete uguali, o di una moneta due
volte. Lo spazio campione = { TT, TC, CT, CC }, e abbiamo assunto gli eventi elementari equiprobabili
e con probabilit pari ad 1/4, per simmetria. Consideriamo ora gli eventi:

A = {testa al primo lancio} ,


B = {testa al secondo lancio} ,

e verifichiamo che essi sono indipendenti. Si ha:

A = { TT, TC } ,
B = {CT, TT } ,
P ( AB ) = P ({ TT }) = 1/4 ,
P ( A) = 2/4 = 1/2 ,
P ( B ) = 2/4 = 1/2 ,

per cui P ( AB ) = P ( A) P ( B ), e quindi gli eventi sono indipendenti. Ragionando allo stesso modo, fa-
cile provare che risultano statisticamente indipendenti tutti gli eventi del tipo { T/C al primo lancio} e
{ T/C al secondo lancio}.

Abbiamo gi osservato che la definizione di indipendenza implica che P( A| B) = P( A) e P( B| A) =


P( B). Inoltre, se A e B sono indipendenti, facile provare che risultano indipendenti anche A e
B, A e B, A e B.
36 Probabilit condizionale e indipendenza

Prova. Infatti, si ha:

P ( AB ) = P ( B | A) P ( A) = [1 P ( B | A)] P ( A) = [1 P ( B )] P ( A) = P ( B ) P ( A) ;
P ( AB ) = P ( A| B ) P ( B ) = [1 P ( A| B )] P ( B ) = [1 P ( A)] P ( B ) = P ( A) P ( B ) ;
P ( A B ) = P ( A| B ) P ( B ) = [1 P ( B | A)] P ( A) = [1 P ( B )] P ( A) = P ( B ) P ( A) ,

come volevasi dimostrare. 

2.3.1 Indipendenza di tre o pi eventi


Il concetto di indipendenza si pu estendere a tre o pi eventi, con qualche cautela:

Definizione (indipendenza di tre eventi). Gli eventi A, B e C si dicono indipendenti se:


1. sono indipendenti a coppie, cio P( AB) = P( A) P( B), P( AC ) = P( A) P(C ), P( BC ) =
P ( B ) P ( C );
2. P( ABC ) = P( A) P( B) P(C ) .

Osserviamo esplicitamente che non possibile assumere solo la seconda fattorizzazione come
definizione di indipendenza, in quanto possibile costruire esempi per i quali risulta P( ABC ) =
P( A) P( B) P(C ) mentre P( AB) 6= P( A) P( B) etc.
Generalizzando il discorso al caso di n eventi, conviene definire separatamente il concetto di
indipendenza a coppie e quello di indipendenza:

Definizione (indipendenza a coppie). Gli eventi { Ai }ni=1 si dicono indipendenti a coppie se

P ( A i A j ) = P ( A i ) P ( A j ), i 6 = j .

Definizione (indipendenza di n eventi). Gli eventi { Ai }ni=1 si dicono indipendenti se


!
\
P Ai = P( Ai ) ,
i I i I

per ogni insieme I di indici diversi.

Le precedenti definizioni si possono estendere al caso di una infinit numerabile di eventi. In


pratica, la definizione di indipendenza afferma che qualunque probabilit congiunta di un nu-
mero arbitrario di eventi Ai distinti si fattorizza nel prodotto delle corrispondenti probabilit
marginali. Va osservato esplicitamente che lindipendenza a coppie non implica necessariamen-
te lindipendenza, mentre lindipendenza implica non solo lindipendenza a coppie, ma anche a
terne, a quaterne, etc.

Esempio 2.7. Un esempio1 di eventi indipendenti a coppie ma non indipendenti il seguente: dato lo
spazio campione = {1 , 2 , 3 , 4 }, con gli eventi elementari equiprobabili, si considerino gli eventi:

A = { 1 , 2 } , B = { 1 , 3 } , C = { 1 , 4 } .
1 Tale esempio attribuito al matematico S. N. Bernstein ed menzionato nella originale monografia di Kolmogorov

(cfr. nota pag. 7).


2.4 Esperimenti combinati 37

Si ha, con facili calcoli:


P ( A) = P ( B ) = P (C ) = 1/2 ;
P ( AB ) = P ( BC ) = P ( AC ) = 1/4 = (1/2)(1/2) ;
P ( ABC ) = 1/4 6= (1/2)(1/2)(1/2) ;
per cui gli eventi sono indipendenti a coppie, ma non indipendenti. Per un altro esempio, si veda lesercizio
2.17.

Esempio 2.8 (eventi indipendenti ed eventi mutuamente esclusivi). Due concetti talvolta confusi sono
quelli di eventi indipendenti e di eventi mutuamente esclusivi. Mentre infatti lindipendenza equivale al-
la fattorizzazione P ( AB ) = P ( A) P ( B ), due eventi si dicono mutuamente esclusivi se AB = , per cui
risulta necessariamente P ( AB ) = 0. Inoltre il concetto di eventi mutuamente esclusivi ha una chiara inter-
pretazione sui diagrammi di Venn (gli insiemi A e B non si sovrappongono), mentre il concetto di eventi
indipendenti no (se utilizziamo lanalogia in termini di aree normalizzate, la condizione di indipendenza si
pu esprimere dicendo che larea dellinteresezione AB pari al prodotto delle aree di A e di B, che non
ha una chiara interpretazione sul diagramma di Venn, in quanto non si riconduce a relazioni di inclusio-
ne/esclusione). In definitiva, i due concetti non hanno alcuna relazione reciproca, salvo nel caso banale in
cui P ( A) = 0 oppure P ( B ) = 0.

2.3.2 Indipendenza condizionale tra eventi


possibile anche definire il concetto di indipendenza condizionale tra due eventi dato un terzo
evento:

Definizione (indipendenza condizionale tra eventi). Due eventi A e B si dicono


condizionalmente indipendenti, dato un terzo evento C, se

P( AB|C ) = P( A|C ) P( B|C ) .

Si noti che lindipendenza condizionale non implica lindipendenza di A e B, se non nel caso in
cui C = . Allo stesso modo, per quanto meno intuitivamente comprensibile, lindipendenza tra
A e B non implica lindipendenza condizionale rispetto ad un terzo evento C (si veda lesercizio
2.18).

2.4 Esperimenti combinati


In molti casi interessa affrontare il seguente problema: dati pi esperimenti aleatori, ognuno
dei quali descritto in termini probabilistici, descrivere lesperimento combinato, risultante dalla
combinazione dei singoli esperimenti. Per far questo, necessario costruire un nuovo spazio di
probabilit, denominato spazio di probabilit prodotto, sullesperimento combinato. Tale concetto
sviluppato nellesempio seguente.

Esempio 2.9. Supponiamo di avere due esperimenti aleatori, cui siano associati due spazi di probabilit
(1 , S1 , P1 ) e (2 , S2 , P2 ). Per fissare le idee, si consideri come primo esperimento il lancio di una moneta,
con spazio campione 1 = { T, C }, e come secondo esperimento il lancio di un dado, con spazio campione
2 = {1, 2, 3, 4, 5, 6}. Gli spazi di probabilit associati a ciascuno di tali esperimenti si costruiscono nel
modo consueto (assumendo lequiprobabilit degli eventi elementari).
Consideriamo adesso lesperimento combinato (lancio di una moneta e di un dado), che ha come spazio
campione il prodotto cartesiano di 1 ed 2 :
= 1 2 = {( T, 1), ( T, 2), . . . , ( T, 6), (C, 1), (C, 2), . . . , (C, 6)}
38 Probabilit condizionale e indipendenza

costituito da 2 6 = 12 coppie ordinate. Poich un insieme finito, possiamo considerare il -campo


S = P() contenente tutti i 212 sottoinsiemi di . Notiamo che tale -campo S conterr, tra gli altri,
eventi del tipo A B, con A S1 e B S2 . Ad esempio, se A = { T } e B = {pari}, si avr A B =
{( T, 2), ( T, 4), ( T, 6)}. Possiamo interpretare levento A B nel modo seguente: si verifica levento A B
nellesperimento combinato se si verifica levento A nellesperimento 1 e levento B nellesperimento 2.
Tuttavia non tutti gli eventi di S sono del tipo A B: si pensi ad esempio allevento C = {( T, 1), (C, 2)}, che
non pu essere interpretato come A B.
A questo punto per completare la descrizione probabilistica dellesperimento combinato resta da fissare
la legge di probabilit P su S. Osserviamo che si ha:
P ( A 2 ) = P1 ( A) (2.4)
P (1 B ) = P2 ( B ) (2.5)
dove P1 la legge di probabilit su 1 e P2 la legge di probabilit su 2 . Infatti A 2 levento dellespe-
rimento combinato corrispondente al fatto che nel primo esperimento si verifichi levento A e nel secondo
si verifichi levento certo 2 . Pertanto la probabilit devessere pari a quella relativa al solo esperimento
1, ovvero a P1 ( A). In maniera analoga si ragiona per la seconda relazione. Osserviamo allora che P1 e P2
possono servire solo a calcolare probabilit di eventi del tipo A 2 e 1 B, ma non consentono certo di
determinare la probabilit P di un qualunque evento di ; ci significa che la legge P pu essere assegnata
con una certa libert, a patto di rispettare le condizioni (2.4) e (2.5).

Dallesempio precedente, abbiamo osservato che non tutti gli eventi di 1 2 sono del tipo
A B, e quindi S non semplicemente dato da S1 S2 : daltra parte, se 1 ed 2 sono insiemi
finiti di cardinalit n1 ed n2 , e se S1 e S2 sono le classi di tutti i sottoinsiemi di 1 e 2 , rispet-
tivamente, si ha che card(S1 ) = 2n1 e card(S2 ) = 2n2 , per cui card(S1 S2 ) = 2n1 +n2 mentre
card(S) = 2n1 n2 > 2n1 +n2 . In generale possibile costruire il -campo S partendo da S1 S2
e aggiungendo complementi, unioni e intersezioni di un numero finito o infinito numerabile di
insiemi. I precedenti concetti possono essere formalizzati nella seguente definizione di spazio di
probabilit prodotto:

Definizione (spazio di probabilit prodotto). Si considerino due spazi di probabilit


(1 , S1 , P1 ) e (2 , S2 , P2 ). Si definisce spazio di probabilit prodotto lo spazio di probabilit
(, S, P) dove:
lo spazio campione il prodotto cartesiano 1 2 , ovvero i risultati del-
lesperimento combinato sono le coppie ordinate = (1 , 2 ), con 1 1 e
2 2 ;
il -campo degli eventi S il pi piccolo -campo contenente gli eventi del tipo A B,
con A S1 e B S2 ;
la legge di probabilit P definita su S deve soddisfare le seguenti propriet (di
consistenza):

P( A 2 ) = P1 ( A), A S1 ; (2.6)
P(1 B) = P2 ( B), B S2 . (2.7)

La precedente definizione pu essere facilmente estesa al caso di n > 2 esperimenti.


Abbiamo gi notato che le (2.6) e (2.7) consentono di determinare, a partire dagli spazi di
probabilit sui singoli esperimenti, solo le probabilit di eventi del tipo A 2 e 1 B, ma
non quelle di un qualsiasi evento di S. Daltra parte, in generale, intuitivamente accettabile
che assegnare solo le leggi di probabilit P1 e P2 sui due esperimenti componenti non consente
di determinare la legge di probabilit dellesperimento combinato: abbiamo bisogno di qualche
informazione sulla relazione di dipendenza che c tra i due esperimenti.
2.4 Esperimenti combinati 39

2.4.1 Esperimenti indipendenti


Un caso particolarmente semplice quello in cui si suppone che gli esperimenti siano indipendenti:

Definizione (esperimenti indipendenti). Siano (1 , S1 , P1 ) e (2 , S2 , P2 ) due spazi di proba-


bilit, e sia (, S, P) lo spazio di probabilit prodotto. Gli esperimenti si diranno indipen-
denti se gli eventi ( A 2 ) e (1 B) dello spazio prodotto sono indipendenti per ogni
A S1 e B S2 .

In sostanza, dalla precedente definizione di indipendenza,2 si ha che per tutti gli eventi di S che
possono essere espressi come A B, con A S1 e B S2 , poich risulta:

A B = ( A 2 ) ( 1 B ) ,

si ha:

P( A B) = P[( A 2 ) (1 B)] = P( A 2 ) P(1 B) = P1 ( A) P2 ( B) .

In particolare, osserviamo che, per gli eventi elementari di , si ha (1, 2 ) = {1 } {2 }, per


cui
P(1, 2 ) = P1 (1 ) P2 (2 ) . (2.8)
facile dimostrare a questo punto, almeno per spazi di probabilit discreti, che lipotesi di in-
dipendenza consente di calcolare completamente le probabilit dello spazio prodotto in termini
delle probabilit degli spazi componenti. Infatti, un qualunque evento appartenente al -campo
costruito sullo spazio di probabilit prodotto potr essere espresso come unione al pi nume-
rabile di eventi elementari dello spazio prodotto, e quindi la sua probabilit si potr calcolare, a
partire dalle probabilit degli eventi elementari (2.8), adoperando lassioma di numerabile additi-
vit. Concetti pi sofisticati di teoria della misura mostrano che possibile procedere in maniera
simile anche per spazi di probabilit continui. In definitiva, allora, nel caso di esperimenti indipenden-
ti possibile specificare la legge di probabilit P sullo spazio prodotto semplicemente a partire dalle leggi di
probabilit P1 e P2 definite sugli spazi componenti.

Esempio 2.10. Torniamo al caso del lancio di una moneta e di un dado. Se supponiamo che gli esperimenti
siano indipendenti, e la moneta ed il dado non siano truccati, avr ad esempio:
1 1 1
P ( T, 1) = P1 ( T ) P2 (1) = = .
2 6 12
Poich lo spazio campione dellesperimento combinato composto da 12 elementi, facile riconoscere che
i risultati dellesperimento combinato sono equiprobabili e con probabilit 1/12.

Esempio 2.11. Consideriamo adesso il lancio di una moneta 2 volte (i lanci sono assunti indipendenti).
chiaro che questesperimento si pu vedere come il prodotto di due esperimenti, ciascuno dei quali si
riferisce ad un singolo lancio. Possiamo introdurre, allora, i seguenti spazi campione:
1 = { T, C } ,
2 = 1 = { T, C } ,
= 1 2 = 21 = { TT, TC, CT, CC } .
2 Notiamo che tale definizione pu apparire pi elaborata della precedente definizione di indipendenza di eventi

appartenenti ad un medesimo spazio di probabilit, vale a dire P ( AB ) = P ( A ) P ( B ), ma non sostanzialmente differente:


bisogna infatti osservare che per parlare di indipendenza tra due eventi bisogna che i due eventi A e B appartengano ad
uno stesso spazio di probabilit; pertanto, bisogna prima costruire lo spazio di probabilit prodotto.
40 Probabilit condizionale e indipendenza

Notiamo poi che poich i lanci sono effettuati con la stessa moneta (supposta bilanciata), risulta P1 = P2 ,
poich i due lanci sono assunti indipendenti, allora si ha:

1 1 1
P ( TT ) = P1 ( T ) P2 ( T ) = P1 ( T ) P2 ( T ) = =
2 2 4
e similmente per le altre probabilit. Si trova in questo caso che i quattro possibili risultati dellesperimento
combinato sono equiprobabili.

Esempio 2.12. Lesempio 2.11 pu facilmente essere generalizzato al caso di n lanci indipendenti di una
moneta bilanciata. In questo caso lo spazio campione dellesperimento prodotto = 1n i cui elementi
sono le 2n stringhe di lunghezza n composte dai simboli T e C: ad esempio, per n = 4 si ha:

= 41 = { T, C }4 = { TTTT, TTTC, TTCT, . . . , CCCC }

Poich gli n lanci sono effettuati con la stessa moneta, si ha P1 = P2 = = Pn ; poich poi sono assunti
indipendenti, allora la probabilit di una qualunque successione (stringa) di lanci si calcola facilmente, in
quanto, considerando, ad esempio, la stringa composta da n teste, si ha
 n
1 1 1 1
P ( TTT T ) = P1 ( T ) P1 ( T ) P1 ( T ) = = .
| {z } 2 2 2 2
n termini

Anche in questo caso, le 2n stringhe sono tutte equiprobabili. Questo pu sembrare controintuitivo, poich
potremmo pensare (data lequiprobabilit tra testa e croce) che le stringhe con circa n/2 teste ed n/2 croci
debbano essere pi probabili di una stringa con n teste o n croci. In realt il risultato ottenuto corretto, e
lapparente contraddizione va sanata portando in conto il differente numero di tali stringhe. Tale proble-
ma sar analizzato pi in dettaglio quando si studier il problema delle prove ripetute e la distribuzione
binomiale di probabilit) (cfr. 3.5.2).

Notiamo che nella pratica lindipendenza tra due o pi esperimenti si giustifica con considerazio-
ni di natura fisica o intuitiva. Ci significa che, in molti casi, lindipendenza una assunzione o
una ipotesi di lavoro (come lequiprobabilit), spesso motivata in accordo al principio di ragione
insufficiente.

Esempio 2.13. Consideriamo come primo esperimento il seguente: si sceglie a caso una persona in un
gruppo di persone, il risultato dellesperimento la sua altezza h. Come secondo esperimento, possiamo
considerare il seguente: si sceglie a caso una persona in un gruppo di persone, il risultato dellesperimento
il suo peso p. Lesperimento combinato pu essere descritto nel modo seguente: si sceglie a caso una
persona in un gruppo di persone, il risultato dellesperimento una coppia (h, p) rappresentante laltezza
ed il peso della persona. chiaro, da considerazioni intuitive, che i due esperimenti non sono indipendenti,
perch esiste una chiara relazione di dipendenza fisica tra altezza e peso di una persona.
Consideriamo, invece, un terzo esperimento definito nel modo seguente: si sceglie a caso una persona in
un gruppo, il risultato dellesperimento il colore dei suoi occhi. chiaro adesso che le stesse motivazioni
intuitive ci indurranno a ritenere indipendenti il primo ed il terzo esperimento, cos come il secondo ed il
terzo, in quanto non esiste nessuna relazione evidente e dimostrata tra laltezza ed il colore degli occhi di
una persona, oppure tra il peso ed il colore degli occhi di una persona. Se anche sospettassimo lesistenza di
una relazione del genere, non sapremmo quantificarla, e quindi non ci resterebbe che assumere ugualmente
gli esperimenti indipendenti.

Esempio 2.14. Si hanno due scatole:


la scatola S1 contiene 10 palle bianche e 5 rosse;
la scatola S2 contiene 20 palle bianche e 20 rosse.
2.5 Elementi di un sistema di comunicazione 41

Si estrae una palla da ogni scatola. Calcolare la probabilit che la palla estratta dalla scatola S1 sia bianca e
quella estratta dalla scatola S2 sia rossa.
Gli spazi campione e le leggi di probabilit associate ai singoli esperimenti sono i seguenti (si assumono
gli eventi elementari equiprobabili):

1 = {10 bianche, 5 rosse} P1 ( i ) = 1/15 ;


2 = {20 bianche, 20 rosse} P2 ( i ) = 1/40 .

Lo spazio campione dellesperimento combinato = 1 2 ha 15 40 = 600 elementi, ognuno con


probabilit 1/600. Sia:
10 2
A = {si estrae una palla bianca da S1 } P1 ( A) = = ;
15 3
20 1
B = {si estrae una palla rossa da S2 } P2 ( B ) = = .
40 2
Si ha allora:
2 1 1
P (si estrae una palla bianca da S1 ed una rossa da S2 ) = P ( A B ) = P1 ( A) P2 ( B ) = = ,
3 2 3
per lindipendenza tra le estrazioni delle palle dalle 2 scatole.

Esempio 2.15. Riprendiamo il problema dellincontro (esempio 1.16), per mostrare come esso si possa
interpretare come esperimento combinato. Possiamo infatti costruire due spazi di probabilit (1 , S1 , P1 )
e (2 , S2 , P2 ) che descrivono, rispettivamente, listante x di arrivo di Tizio e listante y di arrivo di Caio.
Risulta 1 = 2 = [0, T ], come -campo S1 = S2 sceglieremo la classe degli insiemi di Borel e come legge
di probabilit su 1 ed 2 potremo assumere quella uniforme, cio se A = [ a, b ] 1 , si avr:

misura( A) ba
P1 ( A) = =
misura(1 ) T

e similmente se B = [ c, d] 2 si avr:

misura( B ) dc
P2 ( B ) = = .
misura(2 ) T

Lo spazio campione prodotto sar = 1 2 = [0, T ] [0, T ], cio il quadrato di lato T, con S costruito
come il pi piccolo -campo contenente i rettangoli aperti di [0, T ] [0, T ]. Se assumiamo che larrivo di
Tizio sia indipendente da quello di Caio, gli esperimenti saranno indipendenti, per cui possiamo porre:

(b a)(d c)
P (( x, y) [ a, b ] [ c, d]) = P ( A B ) = P1 ( A) P2 ( A) = ,
T2
che lo stesso risultato che abbiamo gi ricavato nellesempio 1.16. Notiamo che questa rappresenta solo
la probabilit di eventi di tipo rettangolare, ovvero esprimibili come A B, con A S1 e B S2 . Utiliz-
zando un teorema fondamentale di teoria della misura (teorema di Carathodory) si pu provare che tale
misura( A )
probabilit si pu estendere a tutto il -campo S, come P ( A) = misura( )
.

2.5 Elementi di un sistema di comunicazione


I concetti studiati nei precedenti paragrafi, e particolarmente quelli di esperimenti combinati e di
eventi indipendenti, possono essere applicati ad un caso di particolare interesse nellingegneria
dellinformazione, e cio quello della trasmissione dellinformazione da una sorgente ad una
destinazione, mediante un canale di comunicazione. Tale canale di comunicazione, in pratica,
un cavo metallico, una fibra ottica, o lo spazio libero (nel caso di trasmissione via radio).
Per discutere il problema in un caso semplice, consideriamo lo schema (astratto e semplificato)
di un sistema di comunicazione riportato in Fig. 2.4, nel quale una sorgente emette simboli X, per
42 Probabilit condizionale e indipendenza

semplicit supposti appartenenti ad un insieme discreto 1 = { x1 , x2 , . . . , x K } (alfabeto sorgen-


te), che vengono immessi su un canale di comunicazione, il quale restituisce infine alla destinazione
simboli Y appartenenti ad un insieme discreto 2 = {y1 , y2 , . . . , y M } (alfabeto destinazione), che
pu essere differente (in generale) dallalfabeto 1 di ingresso.3 Il problema fondamentale della
comunicazione che, per inevitabili limitazioni fisiche (ad esempio, per la presenza di rumore ter-
mico dovuto al moto degli elettroni nei conduttori e per lattenuazione di potenza che subisce un
qualunque segnale che viaggia su di un canale fisico), qualsiasi canale introduce errori casuali,
per cui la trasmissione dellinformazione dalla sorgente alla destinazione non completamente
affidabile.

X Y
Sorgente Canale Destinazione

Fig. 2.4. Schema semplificato di un sistema di comunicazione. La sorgente emette simboli


X, che sono trasformati dal canale in simboli Y, che giungono alla destinazione.

2.5.1 Sorgente di informazione


Per iniziare il nostro studio, dobbiamo fornire un modello probabilistico per la sorgente di in-
formazione. Faremo per il momento lipotesi (implicita nello schema di Fig. 2.4) che la sorgente
emetta un unico simbolo X in un determinato istante di tempo e poi rimanga per sempre in
quiete. In questo caso ideale, il modello estremamente semplice: il simbolo emesso dalla sor-
gente appartiene infatti ad uno spazio campione 1 discreto, con K risultati possibili, per cui la
descrizione probabilistica richiede solo lassegnazione dei K valori di probabilit p1 , p2 , . . . , p K
associati ai simboli x1 , x2 , . . . , x K , garantendo che la condizione di normalizzazione K
k =1 p k = 1
sia soddisfatta. Nel caso particolare di un sorgente con simboli appartenenti ad un alfabeto bina-
rio, ovvero 1 = {0, 1}, il modello sarebbe concettualmente simile a quello relativo al lancio di
una moneta; una tale sorgente prende il nome di sorgente binaria, e se i simboli sono equiproba-
bili la sorgente si dir anche simmetrica. Per quanto osservato, un singolo lancio di una moneta
bilanciata rappresenta un esempio concreto di realizzazione di una sorgente binaria simmetrica
(binary symmetric source, BSS).

2.5.2 Canale di comunicazione e canale binario simmetrico (BSC)


Concentriamo ora lattenzione sul canale di comunicazione, e per evitare inutili complicazioni
consideriamo dallinizio il caso di alfabeto sorgente e destinazione entrambi binari, ovvero 1 =
2 = {0, 1}; in questo caso il canale, accettando in ingresso e restituendo in uscita simboli binari,
si dir canale binario.
Poich tale canale introduce errori (scambi di 0 con 1 e viceversa) in maniera non prevedibile
a priori, allora va modellato anchesso in termini probabilistici. Abbiamo gi visto come sia
relativamente semplice costruire uno spazio di probabilit (1 , S1 , P1 ) che descriva la sorgente;
le propriet del canale entrano in gioco quando si vuole costruire uno spazio di probabilit sullo
3 In questo paragrafo, lintroduzione del simbolo X (un discorso analogo vale per Y) consente di esprimere sintetica-

mente levento: il simbolo allingresso del canale 0 mediante la notazione { X = 0}. Vedremo poi nel capitolo 3 che X
rappresenta un semplice esempio di variabile aleatoria.
2.5 Elementi di un sistema di comunicazione 43

spazio prodotto sorgente-destinazione = 1 2 = {00, 01, 10, 11}. Non ragionevole in


questo caso assumere ingresso ed uscita del canale indipendenti, perch anzi ci aspettiamo che,
se il canale sufficientemente affidabile, ci sia una forte dipendenza del simbolo di uscita Y dal
simbolo di ingresso X. Addirittura, se il canale ideale (senza errori), dovr risultare Y = X, cio
si avr una dipendenza deterministica; pi in generale, si avr solo una dipendenza probabilistica
o statistica, cio si avr Y = X con elevata probabilit.
La strada pi conveniente per descrivere matematicamente il canale quella di assegnare le
probabilit condizionali dei simboli in uscita Y, dati i simboli in ingresso X. Ad esempio, possiamo
assegnare la probabilit che si abbia in uscita Y = 0, sapendo che in ingresso si ha X = 0:

P ( 0 | 0 ) , P (Y = 0 | X = 0 )

e analogamente possibile assegnare le probabilit P(0|1), P(1|0), e P(1|1). Tale descrizione in


termini di probabilit condizionate particolarmente conveniente perch risulta svincolata dalle
caratteristiche della sorgente (i simboli di ingresso sono fissati, e quindi le loro probabilit non
compaiono esplicitamente).
Poich, per un fissato evento condizionante, la probabilit condizionale una legge di proba-
bilit, devono valere le consuete condizioni di normalizzazione, vale a dire:

P ( 0 |0 ) + P ( 1 |0 ) = 1 ,
P ( 0 |1 ) + P ( 1 |1 ) = 1 ,

per cui, delle quattro probabilit condizionali menzionate, solo due possono essere assegnate ad
arbitrio, restando univocamente determinate le altre due. Una volta assegnate tali probabilit, se
conosciamo le probabilit dei simboli X emessi dalla sorgente, siano esse:

P1 ( X = 0) = q ,
P1 ( X = 1) = p ,

chiaro che possiamo descrivere lo spazio di probabilit prodotto applicando la legge della
probabilit composta, avendosi, ad esempio,

P( X = 0, Y = 0) = P(Y = 0| X = 0) P1( X = 0) = P(0|0) q

e similmente per tutte le altre. Evidentemente, restano anche univocamente determinate le pro-
babilit dei simboli di uscita. Si ha, infatti,

P2 (Y = 0) = P( X = 0, Y = 0) + P( X = 1, Y = 0) ,
P2 (Y = 1) = P( X = 0, Y = 1) + P( X = 1, Y = 1) .

Osserviamo che le due probabilit P(0|1) e P(1|0) rappresentano le probabilit di scambiare un


simbolo di ingresso con il suo complemento in uscita, e per questo motivo si chiamano probabilit
di scambio del canale; se tali probabilit di scambio sono uguali tra loro, cio si ha:

P ( 0 |1 ) = P ( 1 |0 ) = ,

il canale binario si dir simmetrico (binary symmetric channel, BSC), e sar descritto dal solo para-
metro . Per la condizione di normalizzazione, risulta anche:

P ( 0 |0 ) = P ( 1 |1 ) = 1 ,
44 Probabilit condizionale e indipendenza

1
0 0

X Y

1 1
1

Fig. 2.5. Grafo di un canale binario simmetrico (BSC)


con ingresso X, uscita Y e parametro di scambio ;
i valori indicati sugli archi del grafo rappresentano
le probabilit condizionali dei simboli di uscita dati
i simboli di ingresso.

dove evidentemente P(0|0) e P(1|1) rappresentano probabilit di non scambio. Un canale binario
simmetrico convenientemente rappresentato da un grafo orientato (Fig. 2.5).
Ricaviamo esplicitamente, per un canale binario simmetrico, le probabilit di tutti gli elementi
dello spazio prodotto = 1 2 . Con notazione sintetica, si ha:

P(00) = P(0|0) P1(0) = (1 ) q ,


P(01) = P(1|0) P1(0) = q ,
P(10) = P(0|1) P1(1) = p ,
P(11) = P(1|1) P1(1) = (1 ) p ,

e a partire da queste possiamo ricavare le probabilit dei simboli di uscita Y:

P2 (0) = P(00) + P(10) = (1 ) q + p ,


P2 (1) = P(01) + P(11) = q + (1 ) p .

conveniente raggruppare tali probabilit in una tabella (Tab. 2.1). Possiamo osservare che som-
mando lungo le righe otteniamo le probabilit P1 dei simboli X, mentre sommando lungo le
colonne otteniamo le probabilit P2 dei simboli Y.

@ Y
X @
@ 0 1

0 (1 ) q q

1 p (1 ) p

Tab. 2.1. Probabilit caratteristiche di un canale binario simmetrico (BSC).

Se i simboli di ingresso sono equiprobabili (P1 (0) = P1 (1) = 1/2, ovvero p = q = 1/2),
si ricava facilmente che anche i simboli di uscita sono equiprobabili (P2 (0) = P2 (1) = 1/2); si
noti che questa propriet consegue dalla simmetria del canale, oltre che dalla equiprobabilit dei
simboli di ingresso.
2.5 Elementi di un sistema di comunicazione 45

Poich laffidabilit di un canale di comunicazione dipende da quanto frequentemente il


canale introduca errori, calcoliamo la probabilit di errore P(e):

P(e) = P(Y 6= X ) = P(01 10) = P(01) + P(10) = P(1|0) P1(0) + P(0|1) P1(1)
= q + p = ( p + q) = .

Notiamo allora che P(e) = , ovvero la probabilit di errore coincide con la probabilit di scam-
bio, indipendentemente dalla distribuzione di probabilit della sorgente. chiaro allora che
determina laffidabilit del canale di comunicazione; quanto pi piccolo (valori tipici sono
nellambito da 103 a 109), tanto pi il canale affidabile.4
Possiamo utilizzare il canale binario simmetrico per chiarire meglio il significato di probabilit
a priori e a posteriori. Se non osserviamo luscita del canale, potremo dire che il simbolo emesso
dalla sorgente 0 con probabilit P1 (0) oppure 1 con probabilit P1 (1) (probabilit a priori). Se
per osserviamo luscita del canale, sia ad esempio Y = 1, tali probabilit a priori si trasformano
nelle probabilit a posteriori:

P(01) q
P ( X = 0 |Y = 1 ) = = ,
P2 (1) q + (1 ) p
P(11) (1 ) p
P ( X = 1 |Y = 1 ) = = .
P2 (1) q + (1 ) p

Se il canale affidabile, ovvero se 1/2, allora si ha:


q
P ( X = 0 |Y = 1 ) ,
q+ p
p
P ( X = 1 |Y = 1 ) ,
q+ p

per cui si verifica che P( X = 1|Y = 1) P( X = 0|Y = 1) (al limite, per 0, si ha P( X =


1|Y = 1) 1 e P( X = 0|Y = 1) 0); ci significa che osservare luscita Y = 1 fa aumentare
significativamente la probabilit che la sorgente abbia emesso il simbolo 1. In questo caso il
canale trasmette linformazione dalla sorgente alla destinazione in maniera affidabile.
interessante individuare la condizione di massima incertezza, nella quale P( X = 0|Y =
1) = P( X = 1|Y = 1). Si trova:
q = (1 ) p = p .

Impostando un problema analogo per il caso in cui si osserva luscita Y = 0, si ricava simmetri-
camente = q. Le due condizioni sono entrambe soddisfatte se p = q = , il che ovviamente
implica = 0.5. Per cui il canale meno affidabile in assoluto quello caratterizzato da = 0.5;
si noti che tale canale ha una probabilit di errore anchessa pari a 0.5, cio sbaglia il 50% delle
volte.
Si pu facilmente verificare che per un BSC con = 0.5 tutte le probabilit congiunte si fat-
torizzano nel prodotto delle probabilit marginali. Questo equivale a dire che gli spazi di pro-
babilit 1 e 2 sono indipendenti. chiaro che avere unuscita indipendente dallingresso la
condizione pi sfavorevole che possa capitare se si trasmette informazione su un canale di comu-
nicazione; per decidere quale simbolo stato trasmesso, una volta osservato un valore delluscita,
tanto vale lanciare una moneta e scegliere X = 0 se esce testa, X = 1 se esce croce (o viceversa).
4 A dire il vero, osserviamo che un canale con prossimo ad 1, ad esempio = 1 103 , altrettanto affidabile

di un canale con = 103 ; infatti il primo canale inverte sistematicamente i simboli, ma questo pu facilmente essere
compensato alla destinazione. Per evitare questa incongruenza, considereremo solo valori di in [0, 1/2].
46 Probabilit condizionale e indipendenza

2.5.3 Sorgenti e canali senza memoria

Il caso considerato nel 2.5.1, di una sorgente che emette un simbolo una tantum, ovviamente
irrealistico: nella pratica, una sorgente emette non un solo simbolo, ma una sequenza X1 , X2 , . . . ,
di pi simboli (al limite, con uno sforzo di idealizzazione, potremmo considerare anche una se-
quenza infinita di simboli). Per fissare le idee, supponiamo che la sorgente emetta sequenze di
simboli di lunghezza n, che denomineremo blocchi di lunghezza n; ad esempio, per una sorgente
binaria con alfabeto 1 = {0, 1}, tali blocchi di simboli sono in effetti le stringhe di n bit, in nu-
mero pari a 2n . Lemissione di un blocco di n simboli binari esattamente equivalente a quella
del lancio di una moneta n volte, che pu essere modellata, come abbiamo gi visto nel 2.4
(cfr. esempio 2.12), in termini di esperimento combinato, avente come spazio campione = 1n ;
in generale, abbiamo anche visto che lassegnazione di una legge di probabilit per lesperimento
combinato non si ottiene semplicemente a partire dalla legge di probabilit assegnata su 1 . Il
caso pi semplice quello in cui si suppone che i simboli emessi in successione dalla sorgente
siano indipendenti; in tal caso la probabilit di un qualunque blocco di simboli emessi dalla sor-
gente si ottiene semplicemente moltiplicando tra loro le probabilit dei simboli che compongono
il blocco; ad esempio, per una sorgente binaria simmetrica, tutti i blocchi di n simboli avranno
una probabilit pari a (1/2) (1/2) (1/2) = (1/2)n . Una sorgente discreta che emette
simboli indipendenti prende anche il nome di sorgente discreta senza memoria (discrete memoryless
source, DMS).
Consideriamo adesso la trasmissione di un blocco di n simboli X = ( X1 , X2 , . . . , Xn ) su un
canale di trasmissione, e immaginiamo per semplicit che 1 = 2 = {0, 1}, ovvero ci riferiamo
al caso di sorgente e canale entrambi binari, come nel 2.5.2. In questo caso, chiaro che alla
destinazione sar consegnato un blocco di n simboli Y = (Y1 , Y2 , . . . , Yn ) in generale differente
da quello di ingresso. Per descrivere il canale completamente, in tal caso, dovremo assegnare
le probabilit condizionate di avere uno tra i qualunque 2n blocchi alla destinazione dato uno
qualunque tra i 2n blocchi di ingresso; ad esempio, per n = 3, tali probabilit sono del tipo:

P(Y = 101| X = 001) = P(Y1 = 1, Y2 = 0, Y3 = 1| X1 = 0, X2 = 0, X3 = 1) .

Un caso semplice quello di canale discreto senza memoria (discrete memoryless channel, DMC), cor-
rispondente concettualmente al caso in cui la trasmissione di un blocco avvenga trasmettendo
indipendentemente i simboli che lo compongono. In tal caso, la probabilit precedente si fattorizza
come:

P(Y = 101| X = 001) = P(Y1 = 1| X1 = 0) P(Y2 = 0| X2 = 0) P(Y3 = 1| X3 = 1)

e se il canale simmetrico (BSC) si avr:

P(Y = 101| X = 001) = (1 )(1 ) = (1 )2 .

Possiamo esprimere il tutto in forma abbastanza compatta, se osserviamo che in pratica la proba-
bilit condizionata precedente si pu vedere come il prodotto di , elevato al numero di disaccordi
tra le stringhe 101 e 001, moltiplicato per (1 ), elevato al numero di accordi. Il numero di di-
saccordi tra due stringhe binarie x e y prende il nome di distanza di Hamming tra le due stringhe
2.5 Elementi di un sistema di comunicazione 47

d H ( x, y), ed in pratica si pu calcolare effettuando la somma modulo due5 o OR esclusivo (XOR)


delle due stringhe e contando il numero di 1 del risultato, ovvero il cosiddetto peso di Hamming
p H ( x) della stringa x. Matematicamente, si ha:

d H ( x, y) = p H ( x y)

Ad esempio, la distanza di Hamming tra le stringhe x = 101 e y = 001 si pu calcolare come


segue:
d H (101, 001) = p H (101 001) = p H (100) = 1 .

Utilizzando questo formalismo, le probabilit condizionate che descrivono il canale assumono la


forma generale:
P(Y = y | X = x) = d H ( x,y) (1 )nd H ( x,y)

per cui si vede che la caratterizzazione del canale particolarmente semplice, in quanto si pu
esprimere in funzione dellunico parametro e della distanza di Hamming tra le stringhe allin-
gresso ed alluscita.

5 La somma modulo due unoperazione binaria, si denota con il simbolo ed caratterizzata dalla seguente tabella

di verit:
01 = 10 = 1
00 = 11 = 0
48 Probabilit condizionale e indipendenza

2.6 Esercizi proposti


Esercizio 2.1. Da un mazzo di carte francesi (senza jolly) si sottrae una carta senza guardarla. Poi si gira
unaltra carta: con quale probabilit questa di fiori? [Risposta: 14 ]

Esercizio 2.2. Risolvere lesercizio 1.16 utilizzando le leggi della probabilit condizionale.

Esercizio 2.3. Risolvere lesercizio 1.18 utilizzando le leggi della probabilit condizionale.

Esercizio 2.4. (Paradosso dei due figli). Considerate le seguenti due formulazioni del medesimo problema:
a) una coppia ha due figli; sapendo che uno dei due maschio, qual la probabilit che anche laltro sia
maschio?
b) una coppia ha due figli; sapendo che il maggiore dei due maschio, qual la probabilit che anche laltro
sia maschio?
Calcolate le due probabilit e discutete il risultato. [Risposta: 31 , 12 ]

Esercizio 2.5. A e B giocano a dadi, a turno tirano due dadi (comincia A) e vince chi per primo ottiene un
punteggio maggiore o uguale a 7. Si determinino le rispettive probabilit di vittoria. [Risposta: probabilit
che vinca A = 12 5
17 ; probabilit che vinca B = 17 ]

Esercizio 2.6. Una scatola contiene tre dadi, di cui uno truccato in modo tale che P (6) = 2/3, mentre gli
altri due sono bilanciati. Si estrae a caso un dado e lo si lancia ottenendo un 6. Qual la probabilit che sia
il dado truccato? Ripetere il calcolo sapendo che lanciando lo stesso dado una seconda volta si riottiene un
6. [Risposta: 32 , 89 ]

Esercizio 2.7. Una compagnia di assicurazione ha tre tipologie di clienti: ad alto rischio, a medio rischio,
e a basso rischio. In particolare, il 20% dei clienti ad alto rischio, il 30% a medio rischio, ed il 50% a
basso rischio. Inoltre, la probabilit che un cliente abbia almeno un incidente durante lanno pari a 0.25
per clienti ad alto rischio, a 0.16 per clienti a medio rischio, ed a 0.10 per clienti a basso rischio.
a) Determinare la probabilit che un cliente scelto a caso abbia almeno un incidente durante lanno.
b) Determinare la probabilit che un cliente sia ad alto rischio, sapendo che ha avuto almeno un incidente
durante lanno.
[Risposta: 0.148, 0.338]

Esercizio 2.8. Si hanno due monete, una bilanciata e laltra con due teste. Si sceglie una moneta a caso e si
lancia due volte, ottenendo due teste. Qual la probabilit che si sia scelta la moneta bilanciata? [Risposta:
1
5]

Esercizio 2.9. Un calcolatore elettronico smette di funzionare se entrambi i componenti A e B si guasta-


no. Il componente A si guasta con probabilit 0.01, ed il componente B con probabilit 0.005. Tuttavia, la
probabilit che B si guasti aumenta di un fattore 4 se A si guastato. Calcolare:
a) la probabilit che il calcolatore vada fuori servizio;
b) la probabilit che A sia guasto se B si guastato.
[Risposta: 0.0002, 0.04]

Esercizio 2.10. (Urna di Polya). Unurna contiene b palle blu e c palle ciano. Si estrae una palla a caso,
si verifica il colore, e si reintroduce nellurna insieme con d palle dello stesso colore6. La procedura viene
ripetuta allinfinito. Qual la probabilit che:
a) la prima palla estratta sia ciano;
6 Questo schema fu introdotto dal matematico G. Polya per descrivere gli effetti di una malattia contagiosa. Infatti

lestrazione di una palla di un colore aumenta la probabilit di estrarre successivamente una palla dello stesso colore, il
che rappresenta un modello semplificato per il contagio di una malattia, nelle quali il verificarsi di un caso aumenta la
probabilit che ci siano ulteriori casi.
2.6 Esercizi proposti 49

b) la seconda palla estratta sia ciano?


c) la prima palla estratta sia ciano, sapendo che la seconda palla estratta ciano?
c c c+d
[Risposta: b+ c , b+c , b+c+d ]

Esercizio 2.11. Se N studenti nati nel 1983 stanno seguendo il corso di Teoria dei Fenomeni Aleatori, qual
la probabilit che almeno due di essi festeggino il compleanno nello stesso giorno? Che cosa cambierebbe
se gli studenti fossero nati nel 1984? [Risposta: 1 365N (365!
365 N ) !
]

Esercizio 2.12. Se P ( A) = 1/3 e P ( B ) = 1/4, A e B possono essere indipendenti? Possono essere mutua-
mente esclusivi? Motivare le risposte.

Esercizio 2.13. (Paradosso di de Mer). Dimostrare che pi probabile ottenere almeno un 6 lanciando un
dado 4 volte che un doppio 6 lanciando due dadi 24 volte.7

Esercizio 2.14. Si considerino N punti p1 , p2 , . . . , p N presi indipendentemente in un cerchio C di raggio R,


con P ( pi A) = misura( A)/misura(C ), A C, dove misura( A) rappresenta larea di A. Determinare la
probabilit che il punto pi vicino al centro abbia da esso distanza maggiore di r R.

Esercizio 2.15. Dovete affrontare in un torneo di scacchi i maestri Alekhine, Botvinnik e Capablanca,
una volta ciascuno. Le vostre probabilit di vittoria contro i tre sono, rispettivamente, p A > p B > pC ;
vi aggiudicate il torneo se vincete due partite consecutive, altrimenti perdete. Avete per la possibilit di
scegliere in che ordine affrontare i tre avversari. Mostrate che per massimizzare la vostra probabilit di
vittoria dovete affrontare Alekhine per secondo.

Esercizio 2.16. Siano A, B e C tre eventi indipendenti. Mostrare che risultano indipendenti:
a) levento A e levento B C;
b) levento A e levento B C.

Esercizio 2.17. Nel lancio di due dadi, si considerino i seguenti eventi:


A = {esce dispari al primo lancio} ,
B = {esce dispari al secondo lancio} ,
C = {la somma dei due lanci un numero pari} .
Verificare che A, B e C sono indipendenti a coppie, ma non sono indipendenti.

Esercizio 2.18. Nel lancio di due dadi, si considerino i seguenti eventi:


A = {esce 6 al primo lancio} ,
B = {esce 6 al secondo lancio} ,
C = {la somma dei due lanci maggiore o uguale a 10} .

Verificare che A e B sono indipendenti, ma non sono condizionalmente indipendenti dato C.

Esercizio 2.19. (Paradosso di Monty Hall). In un gioco televisivo a premi un concorrente invitato a
scegliere una tra tre porte chiuse: dietro due di tali porte ci sono due capre, mentre dietro la rimanente
c una lussuosa automobile. Si supponga che il concorrente scelga la porta numero 1: a questo punto il
conduttore del gioco apre la porta numero 2 dietro la quale vi una capra, e chiede al concorrente se questi
voglia cambiare la propria scelta della porta oppure no. Qual la scelta pi conveniente per il concorrente?8
7 Questo il calcolo originariamente effettuato nel 1654 dal matematico e filosofo francese B. Pascal (1623-1662) su

richiesta di un famoso scommettitore e matematico dilettante, il cavaliere de Mer, che riteneva erroneamente che i due
eventi avessero la stessa probabilit.
8 Questo problema fu effettivamente proposto agli ospiti di un celebre gioco a premi televisivo americano Lets make

a deal, il cui conduttore era appunto Monty Hall, e suscit una accesa controversia sulla rivista Parade nel 1990 su
quale fosse la scelta pi conveniente (si veda P. Hoffman, Luomo che amava solo i numeri, ed. Mondadori, 1999).
La soluzione rigorosa del problema secondo lapproccio assiomatico presentata in http://www.die.unina.it/
GruppoTLC/gelli/corsoTDSlaurea/Montyhall.pdf.
50 Probabilit condizionale e indipendenza

Esercizio 2.20. (Paradosso dei prigionieri). Tre prigionieri A, B, e C sono condannati a morte. Il gover-
natore decide di concedere la grazia ad uno di essi scelto a caso, ed informa il secondino della sua scelta,
chiedendogli di non rivelare tale nome ai prigionieri. Il giorno successivo, A cerca inutilmente di sapere
dal secondino chi sia stato graziato. Allora A chiede al secondino di rivelargli almeno chi tra B e C sar
giustiziato, ed il secondino, dopo averci pensato un attimo, gli rivela che B sar giustiziato. A soddisfatto
della risposta del secondino, perch ritiene che la probabilit di essere stato graziato sia cresciuta da 1/3 ad
1/2. Ha ragione?9

Esercizio 2.21. Nel codice telegrafico Morse si utilizzano punti (dot) e linee (dash), nella proporzione di 3 : 4,
per codificare le lettere dellalfabeto. Si supponga che errori nella trasmissione possano far interpretare
erroneamente in ricezione un punto come una linea con probabilit 1/4, ed una linea come un punto con
probabilit 1/3.
a) Mostrare che il problema pu essere descritto da un modello di canale binario non simmetrico.
b) Sapendo che stata ricevuta una linea, calcolare la probabilit che sia stata trasmessa una linea.
c) Supponendo che le successive trasmissioni siano indipendenti, nellipotesi che sia stato ricevuto il mes-
saggio punto-punto, calcolare la distribuzione di probabilit dei quattro possibili messaggi trasmessi.

Esercizio 2.22. Caratterizzare il canale binario equivalente ottenuto collegando in cascata tre BSC indipen-
denti con probabilit di scambio i , i = 1, 2, 3. Discutere in particolare il caso i = = 103 . Laffidabilit
della trasmissione aumenta o diminuisce?

Esercizio 2.23. Caratterizzare il canale binario equivalente ottenuto trasmettendo tre volte lo stesso simbolo
su un BSC di parametro e decidendo a maggioranza in ricezione (si supponga che le differenti trasmissioni
siano indipendenti). Discutere in particolare il caso = 103 . Laffidabilit della trasmissione aumenta o
diminuisce?

Esercizio 2.24. Un simbolo binario trasmesso in parallelo su tre BSC indipendenti con probabilit di scam-
bio i , i = 1, 2, 3. In ricezione si decide per il simbolo presente in almeno due delle uscite dei tre cana-
li. Determinare la probabilit di scambio del canale binario equivalente, discutendo in particolare il caso
i = = 103 . Laffidabilit della trasmissione aumenta o diminuisce?

Esercizio 2.25. Tre sorgenti binarie indipendenti emettono il simbolo 1 con probabilit pi , i = 1, 2, 3, e sono
connesse mediante un interruttore ad un BSC. Linterruttore connesso per il 50% del tempo alla prima
sorgente, e per il 25% del tempo a ciascuna delle altre due (indipendentemente dai simboli emessi dalle
sorgenti). Determinare:
a) la probabilit dei simboli in uscita al BSC;
b) la probabilit che il canale sia connesso alla prima sorgente avendo osservato uno zero in uscita al BSC.

Esercizio 2.26. Per aumentare laffidabilit nella trasmissione di una coppia di bit, ad essi viene concate-
nato un terzo bit (bit di parit) in modo che il numero di bit alti in ciascuna terna risulti pari (oppure zero).
Le terne di bit cos ottenute vengono trasmesse in serie su un canale BSC con probabilit di scambio (si
suppongano le successive trasmissioni indipendenti). In ricezione, se la terna di bit non soddisfa la regola di
parit, si richiede una ritrasmissione della terna, altrimenti si elimina il bit di parit riottenendo loriginaria
coppia di bit.
a) Calcolare la probabilit p R di ritrasmissione, la probabilit pC di ricevere correttamente la coppia di bit
trasmessi, la probabilit p E di commettere un errore che il bit di parit non in grado di individuare
(ovviamente deve risultare p R + pC + p E = 1);
b) calcolare la probabilit p T di errore complessiva tenendo conto anche delle ritrasmissioni;
c) confrontare p T con la probabilit di errore che si otterrebbe trasmettendo direttamente la coppia di bit
senza alcun controllo di parit (si assuma = 103 ).

9 La formulazione di questo problema simile a quella del precedente paradosso di Monty Hall; la soluzione non

difficile da ottenere, ma considerazioni pi approfondite evidenziano le ambiguit che possono sorgere nella costruzione
di spazi di probabilit prodotto.
Capitolo 3

Variabili aleatorie

Il concetto di variabile aleatoria, introdotto in questo capitolo, anchesso fondamentale nello


studio della probabilit, in quanto consente di associare ad ogni risultato di un esperimento un
numero reale, e quindi di trasformare lo spazio campione in un insieme di numeri reali. Il van-
taggio quello di poter applicare alla risoluzione dei problemi di probabilit i potenti strumenti
dellanalisi matematica, al prezzo forse di una maggiore astrazione nella descrizione del proble-
ma. Nel capitolo si forniscono i principali strumenti per la descrizione di una singola variabile
aleatoria (i casi di pi variabili aleatorie sono trattati nei capitoli che seguono); in particolare,
si introducono le funzioni necessarie per la caratterizzazione statistica di una variabile aleatoria
(funzione di distribuzione cumulativa, funzione di densit di probabilit, funzione distribuzione
di probabilit). Infine, dopo aver classificato le variabili aleatorie in continue, discrete e miste,
si presentano alcune tra le variabili aleatorie discrete e continue maggiormente utilizzate nelle
applicazioni, tra cui la variabile aleatoria binomiale, associata al problema delle prove ripetute, e
la variabile aleatoria gaussiana o normale.

3.1 Introduzione
Nei precedenti capitoli abbiamo mostrato come costruire spazi di probabilit a partire da esperi-
menti i cui risultati non sono necessariamente numerici, quali ad esempio il lancio di una moneta
o di un dado, o lestrazione di una carta da un mazzo di carte francesi. Nelle scienze fisiche e
nellingegneria, tuttavia, nasce la necessit di descrivere i risultati di un esperimento e gli eventi
associati ad esso in maniera numerica. Un modo semplice di ottenere ci consiste nellassocia-
re ad ogni risultato dellesperimento un numero reale; ci conduce al fondamentale concetto di
variabile aleatoria.

Esempio 3.1. Consideriamo il lancio di una moneta, il cui spazio campione = { T, C }. Un esempio di
variabile aleatoria si ottiene associando al risultato T il numero 1, ed al risultato C il numero 0.
52 Variabili aleatorie

Esempio 3.2. Consideriamo il lancio di un dado, il cui spazio campione = {1 , 2 , . . . , 6 }, dove


con i abbiamo indicato il risultato che nel lancio si presenti la i-esima faccia del dado. Possiamo costruire
una variabile aleatoria semplicemente associando a i il valore i. Si noti che abbiamo gi (implicitamente)
effettuato questa corrispondenza, quando abbiamo assunto come spazio campione per il lancio di un dado
linsieme = {1, 2, . . . , 6}, invece dellinsieme = {1 , 2 , . . . , 6 }.

Negli esempi precedenti, costruire una variabile aleatoria X su equivaleva semplicemente a


cambiare nome (associando dei valori numerici) ai risultati dellesperimento, in quanto le funzioni
costruite erano biunivoche; tuttavia, in molti altri casi, si pu utilizzare opportunamente il concet-
to di variabile aleatoria per ottenere una significativa riduzione di complessit nella descrizione
dellesperimento, come mostrato dallesempio seguente.

Esempio 3.3. Consideriamo un sondaggio di opinione, nel quale si intervistano 1000 persone, per sapere
se sono daccordo oppure no su un certo argomento. Lo spazio campione associato a tale esperimento
composto da 21000 10300 risultati, ognuno dei quali una stringa di 1000 simboli, scelti tra S (corrispon-
dente alla risposta s) ed N (corrispondente alla risposta no), che un numero eccezionalmente grande
(provate a calcolarlo sulla vostra calcolatrice tascabile!). Tuttavia, nella pratica quello che interessa sapere
quante persone rispondono s e quante no. Allora ad ogni punto (stringa) dello spazio campione possiamo
associare il numero dei simboli S presenti nella stringa stessa, ottenendo un numero intero tra 0 e 1000. In
questo modo abbiamo descritto il problema in maniera pi semplice e soprattutto pi aderente alle nostre
finalit.

Generalizzando, per un dato esperimento, una variabile aleatoria X (Fig. 3.1) una funzione
costruita su e che assume valori nellinsieme R = R {, }:

X : X ( ) X R

dove abbiamo denotato con X il codominio della funzione X, ovvero linsieme dei possibili valori
assunti da X. Tale funzione deve soddisfare certe condizioni di regolarit, come vedremo meglio
nel seguito.

1 R

2 3

X ( 1 )

X ( 3 )

X ( 2 )

Fig. 3.1. Una variabile aleatoria X una funzione definita nello


spazio campione e a valori in R = R { , }.

Esempio 3.4. Consideriamo ancora il lancio di un dado, per il quale lo spazio campione = {1 , 2 , . . . , 6 }.
Tre diverse variabili aleatorie definite su sono:
3.1 Introduzione 53

1
R

2 3
4
X ( 1 )

{X x} x
X ( 3 )
X ( 4 )
X ( 2 )

Fig. 3.2. Levento { X x } il sottoinsieme A = {2 , 3 , 4 } di


(in bianco), ottenuto considerando gli elementi la cui
immagine attraverso X risulta minore o uguale ad x.

1. X ( i ) = i;
2. X ( i ) = 10 i;
(
1, se i pari;
3. X ( i ) =
0, se i dispari.
Notiamo che qui e nel seguito, in analogia alla notazione comunemente utilizzata in matematica, indichere-
mo con X la legge di corrispondenza (funzione o variabile aleatoria), e con X ( ) il valore della funzione in
corrispondenza del risultato .

Il successivo passo per una corretta comprensione del concetto di variabile aleatoria capire in
che modo, se un insieme dotato di struttura di spazio di probabilit, una variabile aleatoria
X costruita su conservi informazioni sulle probabilit degli eventi di . A tale scopo, di
fondamentale importanza chiarire il significato della notazione

{X x} (3.1)

per un dato x R. Dal punto di vista dellanalisi reale, linsieme dei valori reali minori o uguali di
un dato valore x una semiretta sinistra (chiusa a destra), che si denota anche con ] , x ]. Tutta-
via, il senso che noi daremo alla notazione (3.1) completamente differente: con essa intenderemo
riferirci al sottoinsieme A di cos definito:

A = { tali che X ( ) x } ,

ovvero allinsieme dei valori la cui immagine (Fig. 3.2) attraverso la funzione X minore o
uguale1 ad x. Pertanto, { X x } non va considerato come un sottoinsieme di R, ma come un sottoinsieme
di .
Se allora A = { X x } un evento x R, possibile calcolarne la probabilit P( A); se
tale assunzione verificata, sar pi in generale possibile calcolare la probabilit dellinsieme
B = { X T } = { tali che X ( ) T }, se tale insieme si pu ottenere come complemento,
unione o intersezione numerabile di eventi del tipo { X x }; intuitivamente, ci equivale a
dire che linsieme numerico T R si pu ottenere come complemento, unione o intersezione
numerabile di semirette sinistre.

1 Ovviamente, lordinamento su R tale che x , x R.


54 Variabili aleatorie

Esempio 3.5. Con riferimento allesempio precedente (lancio di un dado) e alla variabile aleatoria definita
al punto 2, vale a dire X ( i ) = 10 i, si ha:

{ X 35} = {1 , 2 , 3 } P ( X 35) = 1/2


{ X 5} = { } P ( X 5) = 0
{20 X 35} = {2 , 3 } P (20 X 35) = 2/6 = 1/3

3.1.1 Definizione formale di variabile aleatoria


Sulla base dei concetti introduttivi e degli esempi del precedente paragrafo, siamo ora in grado
di dare la seguente definizione formale di variabile aleatoria:2

Definizione (variabile aleatoria). Dato uno spazio di probabilit (, S, P), una variabile
aleatoria (v.a.) X una funzione definita in ed a valori in X R = R {, +},
tale che
1. { X x } un evento, x R;
2. P({ X = +}) = P({ X = }) = 0.

Il significato della propriet 1 stato discusso precedentemente; con la propriet 2, per motivi
matematici che qui non il caso di approfondire, si consente alla funzione X di assumere il valore
+ oppure , ma gli eventi { X = +} e { X = } devono avere probabilit nulla. Infine,
una osservazione sulla notazione: bench sia pi corretta la notazione P({ X x }), che evidenzia
la natura di evento di { X x }, nel seguito useremo quasi sempre la notazione semplificata, ma
pi imprecisa, P( X x ).
In conclusione, osserviamo che definire una variabile aleatoria su uno spazio di probabilit
(, S, P) equivale in pratica a costruire un nuovo spazio di probabilit, nel quale lo spazio cam-
pione diventa X R, gli eventi sono sottoinsiemi di X che si ottengono per complementazioni,
unioni ed intersezioni di semirette sinistre, e la legge di probabilit , per cos dire, indotta
dalla legge di probabilit P.

3.2 Funzione di distribuzione cumulativa (CDF)


La funzione che esprime la probabilit dellevento { X x } al variare di x in R prende il nome
di funzione di distribuzione cumulativa (CDF) della variabile aleatoria X:

Definizione (funzione di distribuzione cumulativa). Data una variabile aleatoria X, la sua


funzione di distribuzione cumulativa (CDF) :

F ( x ) , P ( X x ), x R .

Ha senso calcolare questa probabilit perch nella definizione di variabile aleatoria abbiamo
richiesto (propriet 1) che { X x } sia un evento, x R. Notiamo anche che, sebbene il
codominio di X sia X, la CDF definita in tutto R.
2 Osserviamo che il termine variabile aleatoria fuorviante, trattandosi piuttosto di una funzione aleatoria; tuttavia esso

quello pi comunemente utilizzato.


3.2 Funzione di distribuzione cumulativa (CDF) 55

F(x) F(x)

1 1

q
1/6
1 x 10 20 30 40 50 60 x

Fig. 3.3. La CDF F ( x ) della variabile aleatoria Fig. 3.4. La CDF F ( x ) della variabile aleatoria
dellesempio 3.6. dellesempio 3.7.

In alternativa alla notazione F ( x ), useremo la notazione FX ( x ) quando vorremo specificare


esplicitamente che si tratta della CDF della variabile aleatoria X (quindi, ad esempio, quando
avremo a che fare con pi variabili aleatorie). Osserviamo esplicitamente che il pedice X (maiu-
scolo) rappresenta la variabile aleatoria (ovvero la legge di corrispondenza), mentre la variabile
indipendente della funzione x (minuscolo) un numero reale. Notazioni come FX (y) oppure
FX (w) sono ovviamente lecite.

Esempio 3.6. Si consideri la variabile aleatoria definita su = { T, C } nel seguente modo:


X(T) = 1,
X (C ) = 0.

Se P ( T ) = p e P (C ) = q, con p + q = 1, la CDF di X la seguente:



0, x < 0 ;

F ( x ) = q, 0 x < 1 ;


1, x > 1 .

Infatti:
- per x < 0, si ha F ( x ) = P ( X x ) = P ( X x < 0) = P () = 0;
- per 0 x < 1, si ha F ( x ) = P ( X x ) = P ( X = 0) = P (C ) = q;
- per x 1, si ha F ( x ) = P ( X x ) = P ({ X = 0} { X = 1}) = P (C ) + P ( T ) = q + p = 1.
Osserviamo che tale CDF (Fig. 3.3) ha un andamento costante a tratti. Si parla in questo caso di variabile
aleatoria discreta (cfr. 3.2.2).

Esempio 3.7. Sia = {1 , 2 , 3 , 4 , 5 , 6 }, con risultati equiprobabili, e si consideri la variabile


aleatoria X ( i ) = 10 i. La CDF si calcola facilmente:


0, x < 10 ;



1/6, 10 x < 20 ;




2/6,
20 x < 30 ;
F ( x ) = 3/6, 30 x < 40 ;



4/6, 40 x < 50 ;





5/6, 50 x < 60 ;

1, x 60 ;

ed, anche in questo caso, ha un andamento costante a tratti (Fig. 3.4) per cui X una variabile aleatoria
discreta (cfr. 3.2.2).
56 Variabili aleatorie

F(x) F(x)

1 1

T x a x

Fig. 3.5. La CDF F ( x ) della variabile aleatoria Fig. 3.6. La CDF F ( x ) della variabile aleatoria
dellesempio 3.8. dellesempio 3.9.

Esempio 3.8. Consideriamo lesperimento consistente nellarrivo a caso di una telefonata nellintervallo
[0, T ], e denotiamo con t listante di arrivo della telefonata. Lo spazio campione = [0, T ], gli eventi sono
complementi, unioni ed intersezioni numerabili di intervalli aperti ] a, b [ . Come legge di probabilit,
porremo (legge uniforme):
ba
P (t ( a, b )) = , con 0 a b T.
T
Essendo il risultato dellesperimento gi numerico, possiamo definire una variabile aleatoria su sempli-
cemente come la trasformazione identica
X (t) = t .
allora semplice calcolare la CDF:
- per x < 0, si ha F ( x ) = P ( X x ) = P ( X x < 0) = P () = 0;
- per 0 x < T, si ha F ( x ) = P ( X x ) = P (0 X x ) = x/T;
- per x T, si ha F ( x ) = P ( X x ) = P (0 X T ) = T/T = 1.
In questo caso la CDF (Fig. 3.5) non una funzione costante a tratti, ma una funzione continua su tutto
linsieme di definizione. Si parla allora di variabile aleatoria continua (cfr. 3.2.2).

Esempio 3.9 (variabile aleatoria costante o deterministica). Sia X una variabile aleatoria definita su un
qualunque spazio campione nel seguente modo:

X ( ) = a, .

In tal caso, il calcolo della CDF si effettua come segue:


- per x < a, si ha F ( x ) = P ( X x ) = P ( X x < a) = P () = 0;
- per x a, si ha F ( x ) = P ( X x ) = P () = 1.
Tale CDF (Fig. 3.6) una funzione costante a tratti, per cui la variabile aleatoria X di tipo discreto (cfr.
3.2.2).

3.2.1 Propriet della CDF


I precedenti esempi hanno mostrato che la CDF di una variabile aleatoria una funzione a valori
in [0, 1] e non decrescente. Oltre a queste due evidenti propriet, la CDF possiede altre propriet,
riassunte e dimostrate di seguito:3
3 Nelle formule che seguono, con F ( x + ) e F ( x ) intendiamo il limite da destra e da sinistra della funzione F ( x ) nel punto
x, ovvero F( x + ) , lim 0 F( x + ) e F( x ) , lim 0 F( x ), con > 0.
3.2 Funzione di distribuzione cumulativa (CDF) 57

1. F (+) = 1, F () = 0.

Prova. Si ha, banalmente, F (+ ) = P ( X + ) = P () = 1 e F ( ) = P ( X ) = P ( X =


) = 0 (per la seconda, si sfrutta la propriet 2 della definizione di variabile aleatoria). 

2. F ( x ) una funzione monotona crescente, ovvero x1 < x2 F ( x1 ) F ( x2 ).

Prova. Se x1 < x2 , si ha che { X x1 } { X x2 } e quindi, per le propriet elementari della


probabilit, P ( X x1 ) P ( X x2 ), da cui lasserto. 

Notiamo che, se F ( x0 ) = 0, in base a tale propriet risulta F ( x ) = 0, x x0 . Conseguen-


temente, se X ( ) > 0, , risulta F (0) = P( X 0) = 0 e quindi F ( x ) = 0 per x 0.
Una tale variabile aleatoria si dice positiva, ed ha pertanto CDF nulla per x 0.

3. P ( X > x ) = 1 F ( x ).

Prova. Basta osservare che { X x } { X > x } = , e che i due eventi sono mutuamente esclusivi,
per cui P ( X x ) + P ( X > x ) = P () = 1, da cui lasserto. 
La funzione F ( x ) , 1 F ( x ) prende il nome di CDF complementare o anche di funzione di
affidabilit.4

4. F ( x ) continua da destra, ovvero F ( x + ) = F ( x ).

Prova. Dobbiamo provare che lim0 F ( x + ) = F ( x ), per > 0. Notiamo che poich per la propriet
2 la F ( x ) monotona crescente (e limitata), sicuramente in ogni punto esiste finito il limite da destra e
da sinistra (teorema sullesistenza del limite per le funzioni monotone). Allora, per calcolare il limite
da destra, non restrittivo considerare = 1/n e far tendere n (cio far tendere a zero su una
particolare successione di valori). Osserviamo allora che F ( x + 1/n ) = P ( X x + 1/n ) = P ( An ),
dove abbiamo posto An = { X x + 1/n }; si noti che An una successione decrescente e tale che
T
n=1 A n = A = { X x }, per cui possiamo applicare la propriet di continuit della probabilit (cfr.
1.4.5) e scrivere:

F ( x + ) = lim F ( x + 1/n ) = lim P ( An ) = P ( A) = P ( X x ) = F ( x )


n n

cio lasserto. 

5. P ( x1 < X x2 ) = F ( x2 ) F ( x1 ).

Prova. Per levento { x1 < X x2 }, vale la seguente identit:

{ X x1 } { x1 < X x2 } = { X x2 }

nella quale i due eventi a primo membro sono mutuamente esclusivi, per cui:

P ( X x1 ) + P ( x1 < X x2 ) = P ( X x2 )
| {z } | {z }
= F ( x1 ) = F ( x2 )

da cui si ha lasserto. 
4 La denominazione di funzione di affidabilit deriva dal fatto che, se si interpreta la variabile aleatoria X come il

tempo di vita di un dispositivo, la funzione F ( x ) descrive la probabilit che il dispositivo viva per un tempo maggiore
o uguale a x, e quindi misura laffidabilit del dispositivo stesso.
58 Variabili aleatorie

6. P ( X = x ) = F ( x ) F ( x ).

Prova. Poniamo An = { x 1/n < X x }: tale successione di eventi chiaramente decrescente e


T
tale che n=1 A n = A = { X = x }. Dalla propriet 5, per x1 = x 1/n e x2 = x, si ha:

P ( An ) = P ( x 1/n < X x ) = F ( x ) F ( x 1/n ) ,

Passando al limite per n , sfruttando la la propriet di continuit della probabilit (cfr. 1.4.5)
si ha limn P ( An ) = P ( A) = P ( X = x ) al primo membro; daltra parte, come gi osservato, la F ( x )
essendo monotona e limitata ammette sicuramente limite finito da sinistra nel punto x, e quindi si ha:

P ( X = x ) = F ( x ) lim F ( x 1/n ) = F ( x ) F ( x )
n

cio lasserto. 

7. P( x1 X x2 ) = F ( x2 ) F ( x1 ).

Prova. Si ha, banalmente,

{ x1 X x2 } = { x1 < X x2 } { X = x1 }

e gli eventi a secondo membro sono mutuamente esclusivi. Si ha allora, per le propriet 5 e 6,

P ( x1 X x2 ) = P ( x1 < X x2 ) + P ( X = x1 ) = F ( x2 ) F ( x1 ) + F ( x1 ) F ( x1 ) =
= F ( x2 ) F ( x1 )

cio lasserto. 

Notiamo che in particolare le propriet 5 e 7 consentono di calcolare la probabilit che la va-


riabile aleatoria assuma valori nellintervallo ] x1 , x2 ] ed [ x1 , x2 ], rispettivamente. Daltra parte,
utilizzando anche la propriet 6, si trova (la verifica, banale, lasciata al lettore per esercizio):

8. P( x1 X < x2 ) = F ( x2 ) F ( x1 ).

9. P( x1 < X < x2 ) = F ( x2 ) F ( x1 ).

Si noti che se F ( x ) continua (cio se la variabile aleatoria continua, cfr. 3.2.2), i limiti da
sinistra e da destra coincidono tutti con il valore assunto dalla funzione nel punto, e quindi le
probabilit calcolate sulle base delle propriet 5, 7, 8, 9 sono tutte uguali tra loro, e pari a F ( x2 )
F ( x1 ) (indipendentemente dal fatto che gli estremi appartengano oppure no allintervallo).

3.2.2 Variabili aleatorie discrete, continue, miste


La variabile aleatoria X si dir discreta se la sua CDF F ( x ) una funzione costante a tratti (Figg.
3.3, 3.4,3.6). In tal caso, detti xk i punti di discontinuit di F ( x ), si ha, per la propriet 6 della CDF,
(
0, se x 6= xk un punto di continuit;
P( X = x ) = F( x ) F( x ) =
pk , se x = xk un punto di discontinuit.

Quindi in pratica una variabile aleatoria discreta X assume i valori xk con probabilit pk date dai
valori dei salti di discontinuit della sua CDF, e pertanto linsieme X dei valori assunti da X un
insieme discreto, cio X = { x1 , x2 , . . .} (finito o infinito numerabile).
3.2 Funzione di distribuzione cumulativa (CDF) 59

Un caso particolare di variabili aleatorie discrete sono quelle di tipo reticolare, caratterizzate
dal fatto che i valori assunti xk sono equispaziati (appartengono, cio, ad un reticolo monodi-
mensionale), e si pu porre quindi xk = a + bk, con a, b R e k K Z.
La variabile aleatoria X si dir continua se la sua CDF F ( x ) una funzione continua (Fig. 3.5).
La continuit di F ( x ) implica che F ( x ) = F ( x + ) = F ( x ) e quindi P( X = x ) = 0, x R. In altri
termini, una variabile aleatoria continua assumer ogni valore del suo codominio con probabilit
nulla. Linsieme X dei valori assunti da una variabile aleatoria continua un insieme continuo,
quale ad esempio un intervallo ( a, b), o anche tutto R.
Infine, la variabile aleatoria X si dir mista se la sua CDF F ( x ) discontinua, ma non costante
a tratti. Linsieme X dei valori assunti da X sar lunione di un insieme continuo, ad esempio
un intervallo, e di un insieme discreto (eventualmente vuoto). Esempi di variabili aleatorie miste
saranno presentati nel cap. 4.

Esempio 3.10 (variabile aleatoria indicatrice di un evento). Sia uno spazio campione qualunque, e sia
A un evento di . Definiamo una variabile aleatoria X A su come segue:
(
1, se A;
X A ( ) =
0, se 6 A.

Tale variabile aleatoria X A di tipo discreto, in quanto assume solo i valori 0 ed 1 con le seguenti probabilit:

P ( X A = 1) = P ( A ) = P ( A ) ;
P ( X A = 0) = P ( 6 A ) = 1 P ( A ) ;

e quindi la sua CDF a costante a tratti e, se poniamo p = P ( A), la stessa di quella dellesempio 3.6
(Fig. 3.3). Tale variabile aleatoria prende il nome di variabile aleatoria indicatrice dellevento A.

Lultimo esempio mette in evidenza che possibile costruire variabili aleatorie discrete su un
qualunque spazio di probabilit (discreto o continuo). Osserviamo infatti che, se uno spazio
di probabilit discreto, tutte le variabili aleatorie costruite su saranno necessariamente discrete.
Se invece uno spazio di probabilit continuo, su di esso possibile costruire sia variabili
aleatorie continue che discrete (e ovviamente anche miste).

3.2.3 Percentile e mediana


A partire dalla definizione di CDF, possibile ricavare direttamente i concetti di percentile e
mediana:

Definizione (percentile). Dato u [0, 1], il percentile u-esimo di una variabile aleatoria il
pi piccolo numero xu tale che

P( X xu ) = F( xu ) u . (3.2)

Osserviamo che u deve necessariamente assumere valori in [0, 1], perch rappresenta un valore
di probabilit. Linterpretazione del percentile la seguente (Fig. 3.7): il percentile x u rappresenta
quel valore della variabile aleatoria che non superato con probabilit maggiore o uguale ad u.
Ad esempio, posto u = 0.75, il percentile x0.75 rappresenta quel valore che non superato nel
75% o pi dei casi, e viene chiamato quartile superiore. Similmente, il percentile x0.25 rappresenta
il valore che non superato con probabilit maggiore o uguale a 0.25, e viene chiamato quartile
inferiore.
60 Variabili aleatorie

F(x) F(x)

1 1

0.75 0.5
u

xu x0.75 x m = x0.5 x

Fig. 3.7. Il percentile u-esimo della variabile Fig. 3.8. La mediana m della variabile aleato-
aleatoria X con CDF F ( x ) xu ; x0.75 rappresen- ria X con CDF F ( x ) il valore che non su-
ta il valore che non superato con probabilit perato con probabilit maggiore o uguale a 0.5
maggiore o uguale a 0.75 (quartile superiore). (coincide con il percentile x0.5 ).

Notiamo inoltre che se F ( x ) assume tutti i valori in [0, 1] (non ha salti di discontinuit, ovve-
ro la variabile aleatoria continua) allora la definizione (3.2), per la monotonia di F ( x ), si pu
scrivere come:
P( X xu ) = F( xu ) = u .
per cui, se F ( x ) anche una funzione invertibile, si ha

x u = F 1 ( u ) ,

e quindi la curva che fornisce i percentili si ottiene semplicemente considerando linversa della
CDF, ovvero scambiando gli assi del diagramma cartesiano di F ( x ). In pratica le considerazioni
precedenti valgono anche se la CDF localmente invertibile in corrispondenza dellordinata u.
In tutti gli altri casi (CDF discontinua, oppure CDF non invertibile, il che accade tipica-
mente se F ( x ) presenta uno o pi tratti costanti) si pu determinare il percentile direttamente
applicando la definizione (3.2), ovvero come

xu = inf{ x R tali che F ( x ) u} . (3.3)

Notiamo che la funzione x u = F 1 (u) definita implicitamente dalla (3.3) prende il nome di inversa
sinistra della CDF F ( x ), e si riduce allinversa convenzionale quando la CDF invertibile (tale
inversa sinistra ricorre anche nel problema della generazione di variabili aleatorie discrete, si
veda anche il 4.3.1 per ulteriori dettagli). In pratica linversa sinistra si ottiene graficamente
scambiando gli assi della CDF, anche quando la CDF non invertibile. Notiamo peraltro che
il concetto di percentile maggiormente utilizzato quando la variabile aleatoria ha una CDF
continua ed invertibile.

Definizione (mediana). La mediana il percentile per u = 0.5, ovvero il pi piccolo


numero m che soddisfa la relazione:

F (m) 0.5 .

Per la determinazione della mediana (Fig. 3.8) valgono considerazioni analoghe a quelle effettua-
te per il percentile, essendo di fatto m = x0.5 . Osserviamo che la mediana un primo esempio
di grandezza media relativa ad una variabile aleatoria: nel seguito incontreremo altre grandezze
simili, quali la moda e la media propriamente detta.
3.3 Funzione densit di probabilit (pdf) 61

Esempio 3.11. Consideriamo la CDF F ( x ) dellesempio 3.8, diagrammata in Fig. 3.5. Poich landamento
di F ( x ), per x [0, T ], lineare, immediato invertirla per ottenere il percentile. Si ha:

xu
u = F ( xu ) = xu = T u
T

per cui il quartile inferiore x0.25 = 0.25 T, il quartile superiore x0.75 = 0.75 T, mentre la mediana
m = 0.5 T.

3.3 Funzione densit di probabilit (pdf)


Accanto alla CDF, la funzione densit di probabilit (pdf) gioca un ruolo fondamentale nella
descrizione di una variabile aleatoria X:

Definizione (densit di probabilit). La funzione densit di probabilit (pdf) di una


variabile aleatoria X la derivata della CDF F ( x ):

d
f (x) , F(x) . (3.4)
dx

Per quanto riguarda la notazione, useremo anche qui la notazione f X ( x ) quando vorremo speci-
ficare esplicitamente che si tratta della pdf di X.
Nella (3.4), la derivata va intesa in senso generalizzato, ovvero possono comparire degli impulsi
di Dirac5 in corrispondenza delle discontinuit di F ( x ). A tale proposito, osserviamo che se la
variabile aleatoria X continua, F ( x ) una funzione continua, e quindi la pdf f ( x ) non pu
contenere impulsi. Viceversa, se X discreta, F ( x ) costante a tratti, con salti di discontinuit in
corrispondenza dei valori xi : lampiezza dei salti di discontinuit rappresenta (per la propriet 6
della CDF) la probabilit pi che la variabile aleatoria assuma il valore x i . Pertanto, derivando tale
CDF, si ottiene una pdf costituita da soli impulsi di Dirac, centrati nei valori discreti x i X:

f (x) = pi ( x xi ) ,
x i X

dove pi , P( X = xi ). Infine, se X mista, la pdf conterr una parte continua (la derivata
convenzionale) e impulsi di Dirac in corrispondenza delle discontinuit di F ( x ).

Esempio 3.12. Consideriamo la CDF F ( x ) dellesempio 3.6, diagrammata in Fig. 3.3. Poich si tratta di una
variabile aleatoria discreta (CDF costante a tratti), la pdf sar una somma di impulsi di Dirac. Applicando
le propriet di derivazione dellimpulso di Dirac, si trova

f ( x ) = q ( x ) + p ( x 1) ,

che raffigurata in Fig. 3.9. Un risultato simile si ottiene calcolando le pdf associate alle CDF degli esempi
3.7 e 3.9.

5 Si suppone che il lettore conosca la definizione e le principali propriet dellimpulso di Dirac; tali propriet sono

comunque brevemente richiamate nellAppendice D.


62 Variabili aleatorie

f (x) f (x)
area = q
area = p
1/T

0 1 x T x

Fig. 3.9. La pdf f ( x ) della variabile aleatoria Fig. 3.10. La pdf f ( x ) della variabile aleatoria
dellesempio 3.12. dellesempio 3.13.

Esempio 3.13. Consideriamo la CDF F ( x ) dellesempio 3.8, diagrammata in Fig. 3.5. Poich si tratta di una
variabile aleatoria continua (con CDF quindi continua), la pdf non conterr impulsi di Dirac, ma la derivata
si calcoler in senso ordinario. Si ha:

1
, se x ]0, T [;
f (x) = T
0 , se x ] , 0[] T, [;

che raffigurata in Fig. 3.10. Notiamo che la derivata (e quindi la pdf) non definita nei punti x = 0 e
x = T (punti angolosi della curva della CDF). Ci, tuttavia, non rappresenta un problema perch, come
vedremo, la pdf viene utilizzata sempre allinterno di un integrale, e quindi i valori assunti in punti isolati
non giocano alcun ruolo (a patto, ovviamente, che in tali punti non siano presenti impulsi di Dirac).

3.3.1 Propriet della pdf


Di seguito sono elencate le principali propriet della pdf di una variabile aleatoria X:

1. f ( x ) 0.

Prova. La propriet discende dal fatto che F ( x ) una funzione monotona crescente, e quindi la sua
derivata non negativa. In corrispondenza delle discontinuit, la propriet va interpretata nel senso
che gli impulsi di Dirac ivi presenti hanno area positiva. 

Z x
2. F(x) = f (y) dy.

d
Prova. Poich f ( x ) , dx F ( x ), integrando ambo i membri si ha:
Z x Z x
d
f (y) dy = F (y) dy = F ( x ) F ( ) .
dy

Ma F ( ) = 0 per cui ho lasserto. 

Z
3. f ( x ) dx = 1.

Prova. Dalla propriet 2, per x = + , si ha lasserto, tenendo conto che F (+ ) = 1. 

Tale propriet prende il nome di propriet di normalizzazione della pdf.


3.3 Funzione densit di probabilit (pdf) 63

Z x2
4. P ( x1 < X x2 ) = F ( x2 ) F ( x1 ) = f ( x ) dx.
x1

Prova. Per la propriet 5 della CDF, e per la propriet 2 precedente, si ha:


Z x2 Z x1 Z x2
P ( x1 < X x2 ) = F ( x2 ) F ( x1 ) = f (y) dy f (y) dy = f (y) dy ,
x1

come volevasi dimostrare. 


La propriet va impiegata con qualche cautela nel caso in cui la pdf f ( x ) contenga impulsi
di Dirac (e quindi se la variabile aleatoria X discreta oppure mista); in particolare, in ac-
cordo con il fatto che si sta calcolando la probabilit dellevento { x1 < X x2 }, lintegrale
Rx
tra x1 ed x2 della pdf va inteso come lim0 x 2+ f ( x ) dx, con > 0, in maniera da non
1
portare in conto leventuale presenza di un impulso in x1 , mentre un (eventuale) impulso
in x2 va portato in conto. Se viceversa la variabile aleatoria X continua, la pdf f ( x ) non
contiene impulsi di Dirac e quindi P( X = x1 ) = 0, per cui P( x1 X x2 ) = P( X =
Rx
x1 ) + P( x1 < X x2 ) = x 2 f ( x ) dx. Pi in generale, per variabili aleatorie continue, la
1
probabilit di eventi del tipo { X ( x1 , x2 )} la stessa, indipendentemente dal fatto che gli
estremi x1 ed x2 si considerino appartenenti allintervallo oppure no, e si calcola integrando
(in senso ordinario) la pdf tra x1 ed x2 .

5. X continua, con pdf f ( x ) continua P( x X x + x ) f ( x ) x, per x 1.

Prova. Dalla propriet 4, ponendo x1 = x e x2 = x + x, ed osservando che per una variabile


aleatoria continua la probabilit non cambia se includiamo il limite sinistro x1 oppure no, si ha:
Z x +x
P ( x X x + x ) = P ( x < X x + x ) = f (y) dy
x

Per lipotesi di continuit della pdf f ( x ), possiamo applicare il teorema della media per il calcolo
integrale:
Z x +x
P ( x X x + x ) = f (y) dy = f ( x + x ) x f ( x ) x .
x
con [0, 1], dove lultima approssimazione vale per x 1. 
Notiamo che questultima propriet giustifica il nome di densit di probabilit: infatti da
essa discende che, se f ( x ) continua, si ha:
P( x X x + x ) P( x X x + x )
f ( x ) = lim
x 0 x x
e quindi il valore f ( x ) nel punto x rappresenta la probabilit che X assuma valori in un
intervallo ( x, x + x ) prossimo a x, divisa per lampiezza dellintervallo x, cio proprio
una densit di probabilit. Per questo motivo, poich f ( x ) una densit di probabilit e non
una probabilit, pu assumere valori maggiori di 1.
Osserviamo inoltre che, per la stessa propriet, la probabilit che X [ x, x + x ] propor-
zionale (se x 1) a f ( x ) ed (localmente) massima se [ x, x + x ] contiene il valore x m
dove f ( x ) (localmente) massima. Ognuno di tali punti xm si dice valore modale o moda,
e rappresenta un valore (localmente) pi probabile di X (Fig. 3.11). Una variabile aleato-
ria si dice unimodale se ha un solo valore modale (Fig. 3.11), altrimenti si dice multimodale
(Fig. 3.12).
64 Variabili aleatorie

f (x) f (x)
massimo locale massimi locali

xm x xm1 xm2 x

Fig. 3.11. La moda xm della variabile aleatoria X Fig. 3.12. La pdf f ( x ) in figura ha due mode
corrisponde ad un massimo locale. La pdf f ( x ) xm1 ed xm2 , corrispondenti a due massimi locali,
in figura ha una sola moda, quindi unimodale. quindi multimodale.

Notiamo in conclusione che, come gi osservato, definire una variabile aleatoria significa, in
sostanza, sostituire allo spazio di probabilit (, S, P) un nuovo spazio di probabilit, in cui lo
spazio campione X R. Se, in particolare, la variabile aleatoria continua, allora X R un
insieme continuo, per cui la definizione di una legge di probabilit su tale insieme avviene, come
descritto nel 1.6.2, definendo una funzione densit di probabilit f ( x ) che, di fatto, possiamo
adesso interpretare come la pdf di una variabile aleatoria X (si noti in particolare che vale la
condizione di normalizzazione (1.13) tipica delle pdf). In definitiva, allora, definire una legge di
probabilit su uno spazio continuo equivalente ad assegnare la pdf di una variabile aleatoria X. Il lettore
invitato a rileggere il 1.6.2 alla luce di questa interpretazione.

3.4 Funzione distribuzione di probabilit (DF)


Abbiamo visto che, se X una variabile aleatoria discreta, essa assume solo i valori xi X con
probabilit pi , e pertanto la sua pdf di tipo puramente impulsivo (cfr. esempio 3.6). In tal
caso, appare pi semplice e immediato, in luogo della CDF o pdf, definire una funzione che
restituisca direttamente le probabilit con cui la variabile aleatoria assume i suoi valori. Tale
funzione prende il nome di funzione distribuzione di probabilit (DF):

Definizione (distribuzione di probabilit). La funzione distribuzione di probabilit (DF) di


una variabile aleatoria discreta X a valori in X :

p( x ) = P( X = x ) (3.5)

con x X.

Anche per la DF, come per la CDF e la pdf, utilizzeremo la notazione p X ( x ) quando vorremo
esplicitamente denotare che essa si riferisce alla variabile aleatoria X.

Esempio 3.14. Si consideri la variabile aleatoria dellesempio 3.6, che assume i due valori X = 1 con
probabilit p e X = 0 con probabilit q. La DF di X :
(
q, x = 0 ;
p( x ) =
p, x = 1 ;
3.4 Funzione distribuzione di probabilit (DF) 65

p( x )

p
q

0 1 x

Fig. 3.13. La DF p( x ) della variabile aleatoria dellesempio 3.14.

ed raffigurata in Fig. 3.13. Si noti che la pdf (Fig. 3.9) della stessa variabile aleatoria :
f ( x ) = q ( x ) + p ( x 1)
Il vantaggio nelluso della DF quello di disporre di una funzione ordinaria che non contiene impulsi di
Dirac.

Notiamo esplicitamente che per una variabile aleatoria continua non ha senso introdurre la DF,
in quanto essa risulterebbe identicamente nulla, x X, perch una variabile aleatoria continua
assume tutti i valori di X con probabilit zero. Per lo stesso motivo, la DF fornisce una descrizione
incompleta di una variabile aleatoria mista, e non utilizzata neanche in questo caso.

3.4.1 Propriet della DF


La DF gode delle seguenti propriet, che presentano una stretta analogia con quelle della pdf:

1. p( x ) 0.

Prova. La prova banale perch p( x ) una probabilit. 

2. F(x) = p ( u).
u X,u x

Prova. Si ha, sfruttando le propriet elementari della probabilit,



[
F (x) = P(X x) = P
{ X = u}
= P(X = u) = p(u ) .
u X uX,u x uX,u x
u x

3. p(u) = 1.
u X

Prova. Si ricava dalla precedente; infatti:

F (+ ) = 1 = p(u ) = p(u ) .
uX,u+ u X


66 Variabili aleatorie

4. P ( x1 < X x2 ) = p ( u).
u ] x1 ,x2 ]X

Prova. Si ha:

[
P ( x1 < X x2 ) = P { X = u} = P(X = u) = p(u ) .
u] x1 ,x2 ]X u] x1 ,x2 ]X u] x1 ,x2 ]X

Concludiamo osservando che la CDF, pdf e DF di una variabile aleatoria sono collettivamen-
te denominate funzioni di distribuzione della variabile aleatoria: per caratterizzazione statistica di
una variabile aleatoria, allora, si intende la conoscenza di almeno una tra le sue funzioni di
distribuzione.

3.5 Variabili aleatorie notevoli


Nel corso di questo capitolo, abbiamo introdotto le variabili aleatorie come funzioni definite su
uno spazio campione , dotato di struttura di spazio di probabilit. Tale definizione richiede
lindividuazione esplicita di un esperimento aleatorio e la descrizione dello spazio di probabilit
costruito su di esso. Daltra parte, nella pratica spesso si introducono variabili aleatorie sempli-
cemente assegnando le loro funzioni di distribuzione: tale semplificazione possibile in virt del
seguente teorema di esistenza, che enunciamo senza dimostrazione (gli interessati vedano [3, cap.
4.3]):

Teorema 3.1 (teorema di esistenza). Data una funzione F ( x ) che soddisfa


Rx le propriet di
CDF (o alternativamente data una funzione f ( x ) tale che F ( x ) = f (y) dy soddisfi le
propriet di CDF, o una funzione p( x ) tale che F ( x ) = uX,u x p(u) soddisfi le propriet
di CDF), possibile costruire uno spazio di probabilit (, S, P) ed una variabile aleatoria X
con CDF F ( x ) (o pdf f ( x ), o DF p( x )).

Sulla base di questo teorema, potremo o costruire la variabile aleatoria su un determinato spazio
di probabilit, oppure in alternativa introdurre direttamente le variabili aleatorie attraverso le
loro funzioni di distribuzione (CDF, pdf o DF), senza specificare esplicitamente lesperimento su
cui sono definite.
Nel seguito del paragrafo introdurremo alcune delle variabili aleatorie pi comunemente uti-
lizzate. Per le variabili discrete, riporteremo la descrizione in termini di funzione di distribu-
zione di probabilit (DF), lasciando per esercizio al lettore di ricavare le corrispondenti pdf e
CDF, peraltro scarsamente utilizzate nel caso discreto. Notiamo preliminarmente che tutte le
variabili aleatorie discrete che introdurremo saranno di tipo reticolare. A differenza di quelle di-
screte, le variabili aleatorie continue saranno descritte attraverso la pdf e la CDF (risultando la
DF identicamente nulla).

3.5.1 Variabile aleatoria di Bernoulli


La variabile aleatoria X si dice di Bernoulli o bernoulliana, e si denota X Bern( p), se essa
assume il valore 1 con probabilit p ed il valore 0 con probabilit q = 1 p (X = {0, 1}), per cui
3.5 Variabili aleatorie notevoli 67

1
0.2
0.9
0.18
0.8 0.16
0.7 0.14
0.6 0.12
p( x )

0.5

p( x )
0.1
0.4 0.08
0.3 0.06

0.2 0.04

0.1 0.02

0 0
1 0 1 2 3 4 0 5 10 15 20
x x

Fig. 3.14. La DF p( x ) di una variabile aleatoria Fig. 3.15. La DF p( x ) di una variabile aleatoria
bernoulliana (p = 0.4). binomiale (n = 20, p = 0.4).

la sua DF (Fig. 3.14): (


q, se k = 0;
p(k) =
p, se k = 1.
Una variabile aleatoria di Bernoulli si pu anche interpretare come variabile aleatoria indicatrice
di un evento A che si verifica con probabilit p (vedi esempio 3.10). Notiamo infine che una va-
riabile aleatoria di Bernoulli un caso particolare (per n = 1) della variabile aleatoria binomiale,
discussa nel paragrafo seguente.

3.5.2 Variabile aleatoria binomiale e problema delle prove ripetute


Anzich fornire direttamente la sua DF, in questo caso istruttivo mostrare come la variabile
aleatoria binomiale si possa costruire su uno spazio di probabilit sufficientemente generale ed
applicabile alla descrizione di numerosi problemi pratici. Tale spazio di probabilit fa riferimento
al cosiddetto problema delle prove ripetute, per il cui studio si applicano i concetti di esperimento
combinato (cfr. 2.4) nonch di indipendenza statistica (cfr. 2.3).
Si consideri un esperimento, descritto dallo spazio di probabilit (1 , S1 , P1 ), e si supponga di
ripeterlo n volte, nelle medesime condizioni, assumendo che le successive ripetizioni dellesperi-
mento siano indipendenti. Lo spazio campione dellesperimento combinato sar evidentemente

= 1n = 1 1 1 ,
| {z }
n volte

il -campo S sar il pi piccolo -campo contenente gli eventi del tipo A = A1 A2 An ,


con Ai 1 , ed infine la legge di probabilit P, nellipotesi di prove indipendenti, indotta dalla
legge P1 . Infatti, per qualunque evento A S che si possa esprimere come prodotto cartesiano
del tipo precedentemente visto, risulta

P( A) = P1 ( A1 ) P1 ( A2 ) P1 ( An ) .

La probabilit di un qualunque altro evento di S si pu ottenere facilmente a partire dalle pro-


babilit del tipo precedente, ovvero utilizzando la propriet di fattorizzazione. In particolare, se
1 (e quindi ) un insieme discreto, possibile calcolare la probabilit degli eventi elemen-
tari = (1 , 2 , . . . , n ) come P( ) = P1 (1 ) P1 (2 ) P1 (n ) e quindi, a partire da esse, la
probabilit di un qualunque evento di .
68 Variabili aleatorie

Consideriamo ora il caso particolarmente interessante delle prove cosiddette di Bernoulli o


bernoulliane,6 in cui lattenzione si concentra su un evento A di 1 (convenzionalmente deno-
minato successo), che si verifica con probabilit p = P( A); ovviamente, levento complementare
A (denominato insuccesso) si verificher con probabilit q = 1 P( A) = 1 p. Data la natu-
ra essenzialmente binaria (successo/insuccesso) del problema, possiamo darne una descrizione
estremamente semplificata, ottenuta utilizzando come spazio campione 1 = {0, 1}, in cui con-
venzionalmente associamo al successo il valore 1 e allinsuccesso il valore 0. In questo caso, lo
spazio campione = 1n dellesperimento combinato rappresentato da tutte le stringhe binarie
di lunghezza n, in numero pari evidentemente a 2n . Costruiamo una variabile aleatoria X su
nel seguente modo: a ciascuna stringa binaria associamo il numero di 1 contenuti nella
stringa, denominato anche peso di Hamming p H ( ) della stringa: ad esempio, se n = 8 si ha:

= 00000000 X ( ) = p H ( ) = 0
= 01100110 X ( ) = p H ( ) = 4
= 11100100 X ( ) = p H ( ) = 4
= 11111111 X ( ) = p H ( ) = 8 (3.6)

Per costruzione, la variabile aleatoria X assume lo stesso valore in corrispondenza di tutte le


stringhe aventi lo stesso numero di 1, ovvero lo stesso peso di Hamming; pertanto determinare
la DF p( x ) della variabile aleatoria X richiede senzaltro la determinazione del numero di tali
stringhe. Notiamo che la variabile aleatoria X assume valori nellinsieme X = {0, 1, . . . , n} e che,
ritornando allinterpretazione in termini di successi ed insuccessi, p(k) , P( X = k) rappresenta
la probabilit che, nelle n prove ripetute, si abbiano esattamente k successi, in un qualunque ordine.
Per capire come determinare il numero di configurazioni (stringhe) con k {0, 1, . . . , n} suc-
cessi (k valori pari ad 1), consideriamo un esempio specifico. Se n = 4 e k = 2, levento A si
verifica in 2 delle 4 prove, ed evidentemente nelle altre n k = 2 prove si verificher A. Ovvia-
mente levento A si potr verificare nella prima e nella seconda prova, nella prima e nella terza,
nella prima e nella quarta, nella seconda e nelle terza, etc. Tutte le possibili configurazioni (sei, in
questo caso) sono riportate di seguito (insieme con la loro rappresentazione binaria):

AAAA 1100
AAAA 1010
AAAA 1001
AAAA 0110
AAAA 0101
AAAA 0011

In generale, per determinare il numero delle possibili configurazioni, posso ragionare come se-
gue: ho n oggetti (le prove), e devo specificarne k (le prove in cui si hanno i successi), senza
sostituzioni e senza ordinamento; pertanto il numero di possibili configurazioni pari al numero
delle disposizioni di n oggetti su k posti senza sostituzioni e senza ordinamento (cfr. Tab. B.1),
espressa da (nk), che nel caso in esame vale appunto (42) = 6.7 Data lindipendenza delle prove, la
6 La denominazione deriva dal matematico svizzero J. Bernoulli (16541705), autore del fondamentale trattato di

probabilit Ars Conjectandi.


7 La definizione di coefficiente binomiale n e di fattoriale n!, insieme con le principali propriet, sono riportate in
(k)
Appendice A.
3.5 Variabili aleatorie notevoli 69

probabilit di una qualsiasi configurazione di k successi ed n k insuccessi vale sempre pk qnk .


Ad esempio,

P( A A A A) = P(1100) = P1 ( A) P1 ( A) P1 ( A) P1 ( A) = p2 q2 .

Poich le (nk) configurazioni con k successi sono tutte differenti, esse corrispondono ad eventi
mutuamente esclusivi, ed allora la probabilit cercata si riduce alla somma delle probabilit di
tutte le configurazioni. Le configurazioni sono tutte equiprobabili, con probabilit p k qnk , ed in
numero pari a (nk), per cui la P( X = k) ovvero la DF della variabile aleatoria X data da
 
n k nk
p(k) = p q , k X = {0, 1, . . . , n} ,
k

con q = 1 p. Una variabile aleatoria avente tale DF si dice binomiale di parametri n > 0 e
p [0, 1], e si denota X B(n, p). I valori della DF hanno somma unitaria (propriet 3 della
DF), come si pu facilmente provare utilizzando il teorema binomiale (cfr. Appendice A). Osser-
viamo che una variabile aleatoria bernoulliana si pu riguardare come un caso particolare (per
n = 1) della variabile aleatoria binomiale, ovvero le notazioni X Bern( p) e X B(1, p) sono
equivalenti.
Landamento della DF binomiale al variare di k, per n = 20 e p = 0.4, illustrato in Fig. 3.15.
Dalla Fig. 3.15 si pu notare che, al variare di k, la p(k) prima cresce, poi decresce, presentando
un massimo per k = n p = 8. Unanalisi pi rigorosa mostra che il massimo si trova, in generale,
in k = (n + 1) p, dove con il simbolo x denotiamo il pi grande intero non superiore ad
x. Se, tuttavia, (n + 1) p intero, allora p(k) massima per due consecutivi valori di k, dati da
k1 = (n + 1) p 1 e k2 = (n + 1) p.
Il modello delle prove ripetute e la variabile aleatoria binomiale possono essere applicati a
numerosi problemi pratici, come illustrato dai seguenti esempi.

Esempio 3.15. Unazienda produce componenti elettronici in lotti da n = 1000 componenti. La probabilit
che un componente sia difettoso pari a p = 101 , indipendentemente dagli altri. Qual la probabilit che:
il numero di componenti difettosi di un lotto sia pari a zero;
il numero di componenti difettosi di un lotto sia minore o uguale a 80;
il numero di componenti difettosi di un lotto sia compreso tra 80 e 120.

Se interpretiamo come successo levento che il componente sia difettoso, abbiamo proprio un problema
di prove ripetute, con n = 1000. Pertanto, il numero di componenti difettosi si pu modellare come una
variabile aleatoria binomiale X B(1000, 101 ). La probabilit che nessun componente sia difettoso allora
data da:  
1000 0 1000
P ( X = 0) = p (0) = p q = q1000 = 0.91000 1.75 1046
0
cio del tutto trascurabile. La probabilit che il numero di componenti difettosi sia minore o uguale a 80 si
calcola facilmente, in quanto si ha { X 80} = 80 k =0 { X = k }. Poich gli eventi elementari sono mutuamente
esclusivi, la probabilit dellunione pari alla somma delle probabilit, e si ha:8

  80 80 80  
1000 k 1000k
P ( X 80) = P 80
k =0 { X = k } = P ( X = k) = p(k) = p q 0.0176 .
k =0 k =0 k =0
k

8 Per effettuare il calcolo numerico che segue, come anche per gli altri che ricorrono in questo esempio ed in quello

seguente, indispensabile ricorrere ad un calcolatore, ad esempio scrivendo un semplice script Matlab. In alternativa, si
veda il 3.5.12 per uninteressante approssimazione numerica.
70 Variabili aleatorie

Infine, levento che X sia compreso tra 80 e 120 pu essere anchesso espresso come unione di eventi
elementari mutuamente esclusivi, ovvero come {80 X 120} = 120
k =80 { X = k }, per cui

  120 120 120  


1000 k 1000k
P (80 X 120) = P 120
k =80 { X = k} = P( X = k) = p(k) = p q 0.9695 .
k =80 k =80 k =80
k

Esempio 3.16. Un test a risposte multiple prevede n = 20 domande, con tre possibili risposte per ciascuna
domanda. Uno studente poco preparato risponde a caso a tutte le domande; qual la probabilit che
totalizzi un punteggio maggiore o uguale a 12, che la soglia minima per lammissione?

Anche qui possiamo ricondurre il problema allo schema delle prove ripetute. Rispondendo a caso a cia-
scuna domanda, lo studente individuer la risposta esatta (successo) con probabilit p = 1/3, e sbaglier
(insuccesso) con probabilit q = 1 p = 2/3. Pertanto, il numero di risposte esatte una variabile aleatoria
binomiale X B(20, 1/3), e quindi la probabilit cercata, con considerazioni analoghe a quelle dellesempio
precedente data da:
20 20  
20 k nk
P ( X 12) = p(k) = p q 0.0130 ,
k =12 k =12
k
che una probabilit inferiore al 2%, per cui estremamente difficile che lo studente superi il test, rispon-
dendo a casaccio alle domande.

3.5.3 Variabile aleatoria binomiale negativa


La variabile aleatoria X si dice binomiale negativa di parametri r > 0 e p [0, 1], e si denota
X NB(r, p), se la sua DF (Fig. 3.16) la seguente:
 
r+k1 r k
p(k) = pq , k X = {0, 1, . . .} = N0 ,
k

con q = 1 p. Il nome binomiale negativa discende dal fatto che, per provare che la somma dei
valori della DF pari ad uno (propriet 3 della DF), necessario sfruttare lespansione binomiale
negativa (equazione (A.5) in Appendice A). Infatti, si ha:
 
r+k1 k
p ( k ) = pr q = p r ( 1 q ) r = 1 .
k =0 k =0
k

Esempio 3.17. Come la variabile aleatoria binomiale, anche la variabile aleatoria binomiale negativa as-
sociata al problema delle prove ripetute. Supponiamo infatti di voler calcolare la distribuzione di probabilit
della variabile aleatoria Y che rappresenta la prova in cui si verifica lr-esimo successo. Evidentemente, Y
potr assumere i valori r, r + 1, r + 2, . . ., in quanto, per avere r successi, necessario effettuare almeno r
prove. Daltra parte, lr-esimo successo si verificher nella prova h r se e solo se si verificano i seguenti
due eventi:
A = {nelle h 1 prove precedenti, si hanno r 1 successi}; tale evento ha una probabilit, descritta
1 r 1 h r
dalla legge binomiale, pari a P ( A) = (hr 1) p q ;
B = {nella h-esima prova, si ha un successo}; tale evento ha probabilit pari a P ( B ) = p.
Poich gli eventi A e B sono indipendenti, si ha:
   
h 1 r 1 h r h 1 r h r
P (Y = h ) = P ( A ) P ( B ) = p q p= p q
r1 r1
3.5 Variabili aleatorie notevoli 71

0.1 0.5

0.09 0.45

0.08 0.4

0.07 0.35

0.06 0.3
p( x )

p( x )
0.05 0.25

0.04 0.2

0.03 0.15

0.02 0.1

0.01 0.05

0 0
0 5 10 15 20 25 30 35 40 0 5 10 15
x x

Fig. 3.16. La DF p( x ) di una variabile aleatoria Fig. 3.17. La DF p( x ) di una variabile aleatoria
binomiale negativa (n = 20, p = 0.6). geometrica (p = 0.4).

per h = r, r + 1, . . ., che pu essere semplicemente espressa in termini di una variabile aleatoria binomiale
negativa. Infatti, poich h r, basta porre h = r + k, con k 0, e far riferimento ad una variabile X = Y r
che pu assumere i valori k = 0, 1, . . .. Si ha in tal caso:
 
r+k1 r k
P ( X = k ) = P (Y = r + k ) = p q
k
dove si sono sfruttate le propriet del coefficiente binomiale (cfr. Appendice A). Notiamo allora che risulta
X NB(r, p), che possiamo interpretare allora come la distribuzione del numero di prove che bisogna
effettuare, successivamente alla r-esima, per ottenere lr-esimo successo.

3.5.4 Variabile aleatoria geometrica


La variabile aleatoria X si dice geometrica di parametro p [0, 1], e si denota X Geom( p), se
la sua DF (Fig. 3.17) la seguente:

p ( k ) = p q k 1 k X = {1, 2, . . . , } = N ,

con q = 1 p. Per provare che i valori della DF hanno somma unitaria, basta sfruttare la formula
per la somma di una serie geometrica:

p
p ( k ) = p q k 1 = p q k = 1 q = 1 .
k =1 k =1 k =0

Esempio 3.18. Come la variabile aleatoria binomiale negativa, anche la variabile aleatoria geometrica
associata al problema delle prove ripetute. Infatti, se denotiamo con X il numero di prove che intercorrono
tra due successi consecutivi, tale variabile aleatoria assumer valori in 1, 2, . . .. Evidentemente, ci saranno k
prove tra due successi consecutivi se e solo se si presenter una sequenza di k 1 insuccessi seguiti da un
successo, il che avviene con probabilit q k1 p, data lindipendenza tra i successi in prove distinte. Pertanto,
X proprio una variabile aleatoria geometrica X Geom( p).

3.5.5 Variabile aleatoria di Poisson


La variabile aleatoria X si dice di Poisson9 o poissoniana di parametro > 0, e si denota X
Poiss(), se la sua DF (Fig. 3.18) la seguente:
k
p(k) = e , k X = {0, 1, . . .} = N0 .
k!
9 Dallo studioso Simon D. Poisson (17811840).
72 Variabili aleatorie

0.2

0.18

0.16

0.14

0.12

p( x )
0.1

0.08

0.06

0.04

0.02

0
0 5 10 15
x

Fig. 3.18. La DF p( x ) di una variabile aleatoria di Poisson ( = 5).

Sfruttando lo sviluppo in serie di Mc-Laurin della funzione esponenziale, si dimostra facilmente


che i valori della DF hanno somma unitaria:

k
p ( k) = e k!
= e e = 1 .
k =0 k =0

possibile mostrare che anche la variabile aleatoria di Poisson legata al problema delle prove
ripetute; in particolare, essa rappresenta la forma limite della variabile aleatoria binomiale per
p piccolo al divergere di n, ottenuta mantenendo il prodotto = n p costante (vedi [1, pagg.
153154]).

3.5.6 Variabile aleatoria uniforme


La variabile aleatoria X si dice uniforme nellintervallo ( a, b), con a b, e si denota X U( a, b),
se la sua pdf (Fig. 3.19):
1 , x [ a, b] ;
f (x) = b a
0, altrove.
La CDF (Fig. 3.20) si calcola facilmente per integrazione, e vale:


0, x ] , a[ ;
x a
F(x) = , x [ a, b] ;

ba

1, x ]b, [ .

3.5.7 Variabile aleatoria gaussiana o normale


La variabile aleatoria X si dice gaussiana o normale, e si denota X N(, ), se la sua pdf
(Fig. 3.21) :
1 ( x )2

f (x) = e 22 , (3.7)
2
con , R e > 0. La forma della pdf gaussiana (Fig. 3.21) quella tipica di una campana,
centrata in e la cui larghezza governata dal parametro : a valori elevati di corrisponde una
campana larga, mentre a valori piccoli di corrisponde una campana stretta.
3.5 Variabili aleatorie notevoli 73

1.5 1.2

1 0.8
f (x)

F (x)
0.6

0.5 0.4

0.2

0 0
1 0.5 0 0.5 1 1.5 2 1 0.5 0 0.5 1 1.5 2
x x

Fig. 3.19. La pdf f ( x ) di una variabile aleatoria Fig. 3.20. La CDF F ( x ) di una variabile aleatoria
uniforme (a = 0, b = 1). uniforme (a = 0, b = 1).

0.5 1.2

0.45
1
0.4

0.35 0.8
0.3
F (x)
f (x)

0.25 0.6

0.2
0.4
0.15

0.1
0.2
0.05

0 0
4 3 2 1 0 1 2 3 4 4 3 2 1 0 1 2 3 4
x x

Fig. 3.21. La pdf f ( x ) di una variabile aleatoria Fig. 3.22. La CDF F ( x ) di una variabile aleatoria
gaussiana ( = 0, = 1). gaussiana ( = 0, = 1).

Osserviamo che non possibile calcolare la CDF associata alla (3.7) in forma chiusa, ma solo
possibile scrivere:
Z x ( y )2
 
1 x
F(x) = e 2 2 dy = G (3.8)
2
dove, dopo un banale cambio di variabile, abbiamo espresso la F ( x ) (Fig. 3.22) in termini della
funzione G( x ):
Z x
1 y2
G( x ) , e 2 dy .
2
In particolare, dalla (3.8), notiamo che G( x ) rappresenta la CDF di una variabile aleatoria gaus-
siana standard con = 0 e = 1.
Dobbiamo osservare, tuttavia, che la funzione G( x ) non comunque una funzione elemen-
tare, per cui, per determinarne i valori, necessario ricorrere a grafici, a tabelle o a programmi
al calcolatore. Un grafico della funzione G( x ), in scala naturale, riportato in Fig. 3.23; notiamo
tuttavia che tale grafico non consente la determinazione accurata dei valori della funzione. Si
veda lAppendice C per un grafico pi accurato (Fig. C.1), per una tabella dei valori (Tab. C.1)
e per programmi Matlab utili per il calcolo; nella stessa Appendice sono riportate le principali
propriet della funzione G( x ) e le relazioni con altre funzioni frequentemente utilizzate.
74 Variabili aleatorie

0.9

0.8

0.7

0.6
G( x )

0.5

0.4

0.3

0.2

0.1

0
4 3 2 1 0 1 2 3 4
x

Fig. 3.23. Grafico in scala naturale della funzione G( x ).

Una forma alternativa per la CDF di una variabile aleatoria gaussiana si pu ottenere defi-
nendo la funzione Q( x ) (pi nota, con terminologia inglese, come Q-function)
Z
1 y2
Q( x ) , 1 G( x ) = e 2 dy (3.9)
2 x

che rappresenta la CDF complementare di una variabile aleatoria gaussiana con = 0 e = 1, e


pertanto si ha:    
x x
F(x) = G = 1Q .

Per calcolare la funzione Q( x ), possibile utilizzare grafici, tabelle e programmi per il calco-
lo della G( x ), tenendo conto della relazione (3.9). Inoltre, per ogni x > 0, vale la coppia di
disuguaglianze  
1 x 2 /2 1 1 2
e
1 2 < Q( x ) < e x /2 .
x 2 x x 2
Poich il rapporto fra i due limiti vale 1 1/x2 , al crescere di x essi diventano sempre pi vicini
e quindi entrambi approssimano la Q( x ) con notevole accuratezza.
La variabile aleatoria gaussiana gioca un ruolo preminente nella teoria della probabilit, prin-
cipalmente in virt del fatto che essa rappresenta una distribuzione limite: pi precisamente, la
pdf gaussiana rappresenta la distribuzione della somma di un numero elevato (al limite, infinito)
di variabili aleatorie indipendenti e aventi pdf arbitrarie, a patto che il contributo di ciascuna
variabile aleatoria alla somma sia trascurabile, una situazione che si verifica spesso in pratica (si
pensi alla corrente elettrica che si pu guardare come la somma dei contributi elementari di cor-
rente dei singoli elettroni). Questa propriet formulata in maniera matematicamente corretta
nel teorema fondamentale del limite, che vedremo nel capitolo 8 (cfr. 8.6.2).
3.5 Variabili aleatorie notevoli 75

1.5 1.2

1 0.8
f (x)

F (x)
0.6

0.5 0.4

0.2

0 0
0 0.5 1 1.5 2 2.5 3 3.5 4 0 0.5 1 1.5 2 2.5 3 3.5 4
x x

Fig. 3.24. La pdf f ( x ) di una variabile aleatoria Fig. 3.25. La CDF F ( x ) di una variabile aleatoria
esponenziale ( = 1). esponenziale ( = 1).

0.6 1.2

0.5 1

0.4 0.8
f (x)

F (x)

0.3 0.6

0.2 0.4

0.1 0.2

0 0
4 3 2 1 0 1 2 3 4 4 3 2 1 0 1 2 3 4
x x

Fig. 3.26. La pdf f ( x ) di una variabile aleatoria Fig. 3.27. La CDF F ( x ) di una variabile aleatoria
di Laplace ( = 1). di Laplace ( = 1).

3.5.8 Variabile aleatoria esponenziale

La variabile aleatoria X si dice esponenziale (monolatera), e si denota X Exp(), se la sua pdf


(Fig. 3.24) :

f ( x ) = ex u( x )

con > 0. La CDF (Fig. 3.25) si calcola per integrazione:

FX ( x ) = (1 ex ) u( x ) ,

dove u( x ) rappresenta la funzione gradino unitario, definita come:


(
1, x 0;
u( x ) =
0, x < 0.

Osserviamo che la variabile aleatoria esponenziale monolatera una variabile aleatoria positiva.
76 Variabili aleatorie

1 1.2

0.9
1
0.8

0.7
0.8
0.6
f (x)

F (x)
0.5 0.6

0.4
0.4
0.3

0.2
0.2
0.1

0 0
0 0.5 1 1.5 2 2.5 3 0 0.5 1 1.5 2 2.5 3
x x

Fig. 3.28. La pdf f ( x ) di una variabile aleatoria Fig. 3.29. La CDF F ( x ) di una variabile aleatoria
di Rayleigh (b = 1). di Rayleigh (b = 1).

3.5.9 Variabile aleatoria di Laplace (esponenziale bilatera)


La variabile aleatoria X si dice di Laplace (o esponenziale bilatera), e si denota X Lap(), se la
sua pdf (Fig. 3.26) :

f ( x ) = e| x | ,
2
con > 0. La CDF (Fig. 3.27) si calcola per integrazione:
(
1 x
e , x < 0;
F ( x ) = 2 1 x
1 2 e , x 0.

3.5.10 Variabile aleatoria di Rayleigh


La variabile aleatoria X si dice di Rayleigh, e si denota X Rayleigh(b), se la sua pdf (Fig. 3.28)
:
2 x x2
f (x) = e b u( x ) ,
b
con b > 0. La CDF (Fig. 3.28) si calcola per integrazione:
x2
F ( x ) = (1 e b ) u( x ) .

Osserviamo che si tratta di una variabile aleatoria positiva.

3.5.11 Variabile aleatoria di tipo mixture


Consideriamo un esempio di variabile aleatoria non elementare, ottenuta cio a partire da altre
variabili aleatorie. Siano X1 ed X2 due variabili aleatorie arbitrarie, aventi rispettivamente pdf
f 1 ( x ) ed f 2 ( x ). Definiamo una nuova pdf f ( x ) come combinazione lineare delle due:

f ( x ) = f 1 ( x ) + (1 ) f 2 ( x ) (3.10)

con [0, 1]. Osserviamo che effettivamente la (3.10) definisce una valida pdf, in quanto:

f ( x ) 0;
R
f ( x )dx = 1 .
3.5 Variabili aleatorie notevoli 77

1.2 1.2

1 1

0.8 0.8
f (x)

F (x)
0.6 0.6

0.4 0.4

0.2 0.2

0 0
4 3 2 1 0 1 2 3 4 4 3 2 1 0 1 2 3 4
x x

Fig. 3.30. La pdf f ( x ) di una variabile aleatoria Fig. 3.31. La CDF F ( x ) di una variabile aleatoria
mixture di due pdf gaussiane, con 1 = 0 2 = mixture di due CDF gaussiane, con 1 = 0 2 =
2, 1 = 0.5, 2 = 0.2, 1 = 2 = 0.5. 2, 1 = 0.5, 2 = 0.2, 1 = 2 = 0.5.

La variabile aleatoria X avente tale pdf viene chiamata mixture (mistura) delle variabili aleatorie
X1 ed X2 . Ovviamente, la CDF F ( x ) sar la combinazione lineare delle CDF F1 ( x ) ed F2 ( x ),
con gli stessi coefficienti 1 e 2 . In Figg. 3.30 e 3.31 sono riportate la pdf e la CDF della variabile
aleatoria ottenuta come mixture di due pdf (o CDF) gaussiane. Si noti in particolare dalla Fig. 3.30
la natura multimodale (in particolare, bimodale) della pdf risultante, una propriet tipica delle
variabile aleatoria mixture.
La definizione precedente pu essere facilmente estesa al caso pi generale di una pdf f ( x )
ottenuta come mixture di n > 2 pdf:
n
f (x) = i f i ( x ) ,
i =1

dove i > 0 e ni=1 i = 1.

Esempio 3.19. Una variabile aleatoria X Lap() di tipo Laplace si pu vedere come mixture delle
seguenti pdf (per = 0.5):

f 1 ( x ) = ex u ( x ) (esponenziale);
x
f2 (x) = e u ( x ) (esponenziale negativa).

Infatti, si ha:
| x |
f ( x ) = 0.5 ex u ( x ) + 0.5 ex u ( x ) = e ,
2
poich per x > 0 risulta u ( x ) = 1 e u ( x ) = 0, e viceversa per x < 0.

3.5.12 Relazioni tra variabile aleatoria binomiale e gaussiana: i teoremi di de


Moivre-Laplace
Con riferimento al problema delle prove ripetute ed alla variabile aleatoria binomiale, gli esempi
3.15 e 3.16 hanno mostrato che un problema che si pone spesso in pratica quello di valutare
espressioni del tipo
k2
p(k) , (3.11)
k=k1
78 Variabili aleatorie

dove p( x ) la DF di una variabile aleatoria X B(n, p). Tale valutazione computazionalmente


difficoltosa quando il numero di termini della somma elevato. Per valori elevati di n, tuttavia,
possibile trovare approssimazioni che semplificano il calcolo.
La prima approssimazione, nota come teorema locale di de Moivre-Laplace,10 afferma che se
npq 1, allora:
  ( k n p )2
n k nk 1
p(k) = p q p e 2n pq , (3.12)
k 2npq

e lapprossimazione accurata per k appartenente ad un intorno, di ampiezza npq, di np. Dal
confronto con la (3.7), notiamo che questa approssimazione consiste nellapprossimare i valori
della DF della variabile aleatoria binomiale X B(n, p) (discreta) con quelli della pdf della

variabile aleatoria gaussiana X N(np, npq) (continua).
Per mostrare la bont dellapprossimazione fornita da tale teorema, in Fig. 3.32 riportiamo,
al variare di k, la stessa p(k) della Fig. 3.15 (n = 20, p = 0.4), insieme con la pdf gaussiana

approssimante [secondo membro della (3.12)]. Nel caso in esame, si ha np = 8 e npq 2.19,
per cui ci aspettiamo una approssimazione accurata allincirca nellintervallo [6, 10]; notiamo che
invece si ha un buon accordo anche al di fuori di tale intervallo. Osserviamo che il parametro

della pdf gaussiana approssimante proprio pari a npq; per questo motivo, lapprossimazione
del teorema di de Moivre-Laplace buona nel centro della campana, e peggiora spostandosi
verso le code della pdf gaussiana.

0.2

0.18

0.16

0.14

0.12
p(k)

0.1

0.08

0.06

0.04

0.02

0
0 2 4 6 8 10 12 14 16 18 20
k

Fig. 3.32. Approssimazione del teorema locale di de Moivre-Laplace: pdf gaussiana (a


tratto continuo) e DF binomiale p(k), per n = 20 e p = 0.4.

10 Il teorema fu dimostrato da A. de Moivre (1667-1754) nel caso particolare p = 1/2, e generalizzato da P. S. Laplace

(1749-1827) al caso di p arbitrario. Per una dimostrazione moderna, si veda [1] oppure [2]: tale dimostrazione si basa sullo
sviluppo asintotico (per valori elevati di n) del coefficiente binomiale utilizzando la formula di Stirling per il fattoriale
(vedi Appendice A).
3.5 Variabili aleatorie notevoli 79

Una volta introdotta lapprossimazione del teorema locale di de Moivre-Laplace, possiamo


trovare una approssimazione della (3.11). Si ha infatti, utilizzando la (3.12),

k2 k2
1 ( k n p )2

p(k) p e 2n pq .
k=k1 k=k1 2npq

Poich npq rappresenta una misura della larghezza della pdf gaussiana, per npq 1 possia-
mo ritenere che tale pdf sia praticamente costante in ogni intervallo di ampiezza unitario. Allora
la sommatoria tra k1 e k2 una buona approssimazione dellintegrale, e si ha:

k2 Z k2 ( x n p )2
1 2n pq
p(k) p e dx .
k=k1 2npq k1

x np
Con il cambiamento di variabile u =
npq , lintegrale si riscrive:

Z k2 n p Z k2 n p Z k1 n p
1
n pq u2 1
n pq u2 1
n pq u2
k1 n p
e 2 du = e 2 du e 2 du
2
n pq 2 2

per cui, se introduciamo la funzione


Z x
1 u2
G( x ) = e 2 du ,
2

possiamo porre infine:

k2    
k2 np k1 np
p(k) G G .
k=k1
npq npq

Questa lespressione desiderata, che va sotto il nome di teorema integrale di de Moivre-Laplace e ci


consente di calcolare la (3.11) come differenza della funzione G( x ) in due punti.11

Esempio 3.20. Per mostrare la validit dellapprossimazione del teorema di de Moivre-Laplace, ricalcolia-

mo i risultati dellesempio 3.15. Notiamo che si ha np = 100 e npq 9.49. Tralasciando il primo risultato
(nessun componente difettoso) per il quale il calcolo diretto non presenta difficolt, per il secondo (numero
di componenti difettosi minore o uguale a 80) si ha (cfr. Tab. C.1 per i valori della G( x )):

80    
80 100 0 100
p(k) G 9.49
G
9.49
k =0
= G(2.11) G(10.54) G(2.11) = 1 G(2.11) = 1 0.9826 = 0.0174

che va confrontato con il risultato esatto pari a 0.0176. Per il terzo risultato (numero di componenti difettosi
compreso tra 80 e 120), si ha (cfr. Tab. C.1):

120    
120 100 80 100
p(k) G
9.49
G
9.49
k =80
= G(2.11) G(2.11) = G(2.11) 1 + G(2.11) =
= 2 G(2.11) 1 = 2 0.9826 1 = 0.9652

che va confrontato con il risultato esatto 0.9695.


11 Osserviamo che entrambi i teoremi di de Moivre-Laplace rappresentano un caso particolare di un teorema pi

generale, noto come teorema limite fondamentale, che vedremo in dettaglio nel 8.6.
80 Variabili aleatorie

Esempio 3.21. Unaltra applicazione interessante del teorema di de Moivre-Laplace ci consente di mettere
in relazione tra loro il concetto di probabilit con quello di frequenza di successo. Sia X B (n, p) il numero
di volte che si verifica un evento A, di probabilit p, in n prove; ci aspettiamo che, se il numero di prove
sufficientemente elevato, la frequenza di successo, definita come pb , Xn , debba essere prossima alla proba-
bilit p. Questo enunciato vago pu essere espresso in termini pi precisi nel modo seguente: per n elevato,
la probabilit che la variabile aleatoria pb si discosti da p di un ammontare pari ad deve essere piccola.
Proviamo a calcolare tale probabilit, che si pu esprimere come:

P (| pb p| > ) .

Risulta pi conveniente calcolare la probabilit complementare, ovvero:


 
X
P (| pb p| ) = P ( p pb p + ) = P p p+
n
= P [ n ( p ) X n ( p + )]

che ci aspettiamo grande per n sufficientemente elevato. Poich siamo giunti ad una probabilit binomiale,
possiamo scrivere, adoperando il teorema integrale di de Moivre-Laplace:

n( p+)    
n ( p + ) np n ( p ) np
P (| pb p| ) = p(k) G
npq
G
npq
k =n( p)
     r 
n n n
=G G = 2G 1.
npq npq pq

Se, ad esempio, p = 0.1 e = 0.1 p, cio lo scostamento pari al 10% del valore di p, allora si trova che:
per n = 100, la probabilit pari a 0.2611;
per n = 1000, la probabilit pari a 0.7063;
per n = 10 000, la probabilit pari a 0.9991.
In effetti, poich G( ) = 1, si ha che limn P (| pb p| ) = 1. Si osserva allora che, se aumentiamo
il numero di prove, effettivamente la frequenza di successo assume con probabilit tendente ad 1 valori
prossimi a piacere alla probabilit p. 12

12 Questa regolarit della frequenza di successo nota come legge dei grandi numeri, e sar approfondita pi in dettaglio

nel 8.6.
3.6 Esercizi proposti 81

3.6 Esercizi proposti


Esercizio 3.1. Si consideri lo spazio di probabilit (, S, P ) associato al lancio di un dado ben bilanciato, e
sia X la variabile aleatoria definita su come segue:

X (1 ) = 2, X (2 ) = 10, X (3 ) = 2, X (4 ) = 4, X (5 ) = 0, X (6 ) = 2.

Calcolare la CDF, la DF e la pdf della variabile aleatoria X e rappresentarle graficamente.

Esercizio 3.2. Si lanciano due dadi bilanciati, e si definisce la variabile aleatoria X come la somma dei
punteggi ottenuti nei due lanci. Determinare la DF della variabile aleatoria X e rappresentarla graficamente.

Esercizio 3.3. Si lanciano tre dadi bilanciati, e si definisce la variabile aleatoria X come la somma dei
punteggi ottenuti nei tre lanci. Determinare la DF della variabile aleatoria X e rappresentarla graficamente.
[Suggerimento: risolvere per enumerazione ed utilizzando calcolo combinatorio elementare]

Esercizio 3.4. Si lancia un dado bilanciato finch non esca la stessa faccia due volte consecutive, e sia X la
variabile aleatoria che rappresenta il numero di lanci. Calcolare la DF di X.

Esercizio 3.5. Stabilire per quale valore di c ciascuna delle seguenti funzioni p(k), definite sui valori interi
positivi k = 1, 2, . . ., una valida DF:
2k
a) p(k) = c
k!
b) p(k) = c pk , p [0, 1];
pk
c) p(k) = c , p [0, 1];
k
1
d) p(k) = c
k ( k + 1)
[Risposta: c = 1/(e2 1); c = (1 p)/p; c = 1/ ln(1/(1 p)); c = 1]

Esercizio 3.6. Si consideri il seguente esperimento di probabilit: lintensit di corrente che scorre attraverso
un resistore R una grandezza aleatoria i = [ I0 , I0 ]. Assumendo per i una distribuzione uniforme di
probabilit su , si considerino le seguenti variabili aleatorie definite su (, S, P ):
a) la corrente X (i ) = i;
b) la tensione X (i ) = R i ai capi del resistore;
c) la potenza X (i ) = R i2 dissipata dal resistore per effetto Joule.
Calcolare le CDF e le pdf delle variabili aleatorie X precedentemente definite e rappresentarle graficamente.

Esercizio 3.7. Un utente si reca ad uno sportello in un istante t qualunque dellintervallo = (0, T ), senza
sapere che lo sportello occupato fino allistante T0 < T. Costruire una variabile aleatoria positiva X su
che descrive il tempo di attesa dellutente e calcolarne CDF e pdf, rappresentandole graficamente; stabilire
inoltre se X una variabile aleatoria continua, discreta oppure mista.

Esercizio 3.8. Una coppia decide di continuare ad avere figli finch non nasce una bambina. Calcolare la DF
della variabile aleatoria discreta X che rappresenta il numero di figli della coppia.

Esercizio 3.9. Il numero di persone in una fila modellato come una variabile aleatoria X Geom(0.5).
a) Calcolare la probabilit che ci sia un numero dispari di persone in fila.
b) Calcolare la probabilit che ci sia un numero pari di persone in fila.

Esercizio 3.10. Sia X = 21 N 2 , dove N un numero intero aleatorio a valori equiprobabili in 1 N 3.


Calcolare e diagrammare la CDF di X, ed utilizzarla per calcolare le probabilit dei seguenti eventi: { X 0},
{2 < X 3}, { X < 2} e { X 2}. [Risposta: 51 , 0, 53 , 25 ]
82 Variabili aleatorie

Esercizio 3.11. In un cesto ci sono 12 mele sane e 4 mele marce, e voi estraete 3 mele a caso, simultanea-
mente.
a) Descrivere lesperimento in termini probabilistici, individuando lo spazio campione e la legge di
probabilit;
b) determinare la DF della variabile aleatoria discreta X, definita su , che rappresenta il numero di mele
sane che estraete dal cesto. Qual il valore di X pi probabile?
[Suggerimento: utilizzare il calcolo combinatoriale]
1 18 66 55
[Risposta: p X (0) = 140 , p X (1) = 140 , p X (2) = 140 , p X (3) = 140 ]

Esercizio 3.12. Determinare la pdf f ( x ) associata alla CDF F ( x ) = (1 ex ) u ( x c), con > 0 e c 0.
Stabilire se si tratta di una variabile aleatoria discreta, continua o mista.

Esercizio 3.13. Si consideri la funzione f ( x ) = c x e x u ( x ).


a) determinare c affinch f ( x ) sia la valida pdf di una variabile aleatoria X;
b) utilizzando il valore di c determinato al passo precedente, calcolare la CDF F ( x ), ed utilizzarla per
valutare P ( X 1), P (1 < X 2), e P ( X > 2).
[Risposta: c = 1; 1 2 e1 , 2 e1 3 e2 , 3 e2 ]

Esercizio 3.14. Una variabile aleatoria X ha la seguente CDF:



0,
x 0;
F ( x ) = k x2 , 0 < x 10 ;


100 k, x > 10 .

Determinare k, valutare P ( X 5) e P (5 < X 7), calcolare e diagrammare la pdf corrispondente. Si tratta


1 ; 1, 6 ]
di una variabile aleatoria discreta, continua o mista? [Risposta: k = 100 4 25

Esercizio 3.15. La pdf triangolare vale 0 ovunque, ad eccezione dellintervallo limitato ( a, b ), nel quale essa
assume la forma di un triangolo isoscele.
a) Determinare lespressione di f ( x ) e diagrammarla;
b) determinare lespressione di F ( x ) e diagrammarla.

Esercizio 3.16. Una moneta viene lanciata 10 volte ed i lanci sono tutti indipendenti.
a) Calcolare P (10 teste).
b) Calcolare P (5 teste e 5 croci in ordine qualsiasi).
c) Dire se P (testa | 10 teste) minore, uguale o maggiore di 0.5.
d) Stabilire se pi facile avere N teste e N croci su 2N lanci o N + 1 teste e N + 1 croci su 2N + 2 lanci.

Esercizio 3.17. Una moneta viene lanciata 4 volte ed i lanci sono tutti indipendenti. Calcolare la probabilit
di ottenere:
a) almeno tre teste;
b) esattamente tre teste;
c) una sequenza di tre o pi teste consecutive;
d) una sequenza di esattamente tre teste consecutive.
5 1 3 1
[Risposta: 16 , 4 , 16 , 8 ]

Esercizio 3.18. In un gioco a premi, un giocatore ha a disposizione 10 lanci per colpire un bersaglio, e vince
se il bersaglio viene colpito almeno due volte. Supponendo che la probabilit di colpire il bersaglio in un
singolo lancio sia 1/5, e che i lanci siano indipendenti:
a) calcolare la probabilit che il giocatore vinca il premio;
3.6 Esercizi proposti 83

b) calcolare la probabilit che il giocatore vinca il premio, sapendo che ha colpito almeno una volta il
bersaglio.

Esercizio 3.19. Si trasmettono messaggi di tre bit su un BSC con probabilit di scambio = 1/5, e sia X la
variabile aleatoria discreta che descrive il numero di errori presenti in una terna di bit. Determinare la DF
della variabile aleatoria X.

Esercizio 3.20. Calcolare la mediana ed il percentile u-esimo di una variabile aleatoria X Exp().

Esercizio 3.21. Calcolare la mediana ed il percentile u-esimo di una variabile aleatoria X Rayleigh(b ).

Esercizio 3.22. Calcolare la mediana ed il percentile u-esimo di una variabile aleatoria X N(, ). In
particolare, determinare il valore dei quartile inferiore x0.25 , del quartile superiore x0.75 , e dei percentili
x0.90 , x0.95 , x0.99 in funzione dei parametri e .
[Suggerimento: utilizzare la tabella dei valori della funzione G( x )]

Esercizio 3.23. Si misurano i valori di resistenza di componenti prodotti da una linea di produzione, e si
accettano solo quei componenti la cui resistenza X compresa tra 96 e 104 ohm. Determinare la percentuale
dei componenti accettati, nei casi in cui:
a) X una variabile aleatoria uniforme tra 95 e 105 ohm;
b) X una variabile aleatoria gaussiana con = 100 ohm e = 2 ohm.
[Risposta: 0.8, 0.9546]

Esercizio 3.24. In un processo per paternit contestata, un esperto testimonia che la lunghezza (espressa in
giorni) di una gravidanza, dal concepimento alla nascita, approssimativamente una variabile aleatoria
X N (, ), con = 270 e = 10. La difesa pu provare che il suo cliente, imputato nel processo, si
trovava allestero nel periodo da 290 a 240 giorni prima della nascita del bambino. Qual la probabilit che
limputato si trovasse in Italia quando il bambino fu concepito? [Risposta: 2.41 102 ]

Esercizio 3.25. Lesame finale del corso di Teoria dei Fenomeni Aleatori congegnato in modo che il punteg-
gio sia distribuito approssimativamente come una variabile aleatoria gaussiana X N(, ). Al punteggio
X si associano cinque fasce di merito, da A (la migliore) fino a E (la peggiore), secondo la tabella seguente.
Calcolare la frazione degli studenti che viene valutato A, B, C, D, E. [Risposta: 16%, 34%, 34%, 14%, 2%]

Intervallo di voti Fascia


X > + A
< X + B
< X C
2 < X D
X 2 E
84 Variabili aleatorie
Capitolo 4

Trasformazioni di una variabile


aleatoria

In questo capitolo si introduce e discute un argomento di interesse prevalentemente applicativo.


Dopo aver fornito una definizione formale di trasformazione Y = g( X ), si introducono nume-
rosi esempi che mostrano come caratterizzare statisticamente la variabile aleatoria Y, una volta
nota la caratterizzazione statistica di X (problema diretto); in particolare, si espone il teorema
fondamentale sulle trasformazioni di variabili aleatorie, che rappresenta uno strumento sempli-
ce e sufficientemente generale per la risoluzione del problema. Si affronta anche il cosiddetto
problema inverso, consistente nel determinare la trasformazione g che consente di trasformare
una variabile aleatoria X in una variabile aleatoria Y, entrambe con caratterizzazione statisti-
ca assegnata. Tale problema ricorre nella cosiddetta sintesi di variabili aleatorie, ovvero nella
generazione automatica di variabili aleatorie mediante calcolatore: a tale proposito, si discute
brevemente lalgoritmo lineare congruente, tra i pi utilizzati nelle tecniche di simulazione.

4.1 Introduzione

Si presentano spesso casi in cui, a partire da una variabile aleatoria X, si ottiene una nuova va-
riabile aleatoria Y mediante una opportuna trasformazione Y = g( X ). Ad esempio, supponiamo
che la variabile aleatoria X rappresenti lintensit di corrente che passa attraverso una resistenza
(ideale) di 1 ohm; la potenza dissipata dalla resistenza si pu scrivere come Y = X 2 , e poich X
una variabile aleatoria, anche Y sar una variabile aleatoria. Un altro esempio quello in cui
la variabile aleatoria X rappresenta un angolo scelto a caso in (0, 2 ); il coseno Y = cos( X ) di
tale angolo una variabile aleatoria ottenuta a partire da X. Formalizzando, possiamo dare la
seguente definizione di trasformazione di una variabile aleatoria:
86 Trasformazioni di una variabile aleatoria

R R

Y( )=g[X( )]
X X( ) g

Fig. 4.1. La trasformazione Y = g( X ) definisce una nuova variabile aleatoria Y sullo spazio campione .

Definizione (trasformazione di una variabile aleatoria). Sia X una variabile aleatoria defini-
ta sullo spazio di probabilit (, S, P), e g( x ) una funzione definita in R e a valori in R, tale
che linsieme di definizione di g( x ) contenga il codominio X della funzione X ( ). La tra-
sformazione Y = g( X ) definisce una nuova variabile aleatoria ottenuta associando a
il valore Y ( ) = g[ X ( )] R.

In sostanza la nuova variabile aleatoria Y definita su (, S, P) mediante una legge (Fig. 4.1)
che la funzione composta di X e g. La condizione richiesta sullinsieme di definizione di g( x ) ed
il codominio X di X ( ) serve semplicemente a garantire che tale funzione composta abbia un
insieme di definizione non vuoto. Tuttavia, affinch Y = g( X ) sia effettivamente una variabile
aleatoria, necessario che la funzione g soddisfi qualche ulteriore condizione, come analizzato
pi in dettaglio nel seguente paragrafo.1

4.1.1 Condizioni da imporre alla funzione g( x )


Per capire se sia necessario richiedere qualche ulteriore condizione alla funzione g, dobbiamo
ricordare che la definizione di variabile aleatoria (vedi 3.1.1) richiede che per Y siano soddisfatte
le seguenti due propriet:

1. {Y y} deve essere un evento, y R;

2. P({Y = +}) = P({Y = }) = 0.

Per quanto riguarda la prima propriet, osserviamo che, se {Y y} un evento, la sua probabi-
lit coincide proprio con la CDF di Y, e si ha:

FY (y) = P(Y y) = P( g( X ) y) = P( g[ X ( )] y) .

Per un dato y R, i valori di x tali che g( x ) y (le soluzioni della disequazione) formano un
sottoinsieme di R, sia esso Ry ; si ha allora:

FY (y) = P( X Ry ) . (4.1)
1 Osserviamo peraltro che tali condizioni sono sempre verificate dalle trasformazioni che si utilizzano in pratica, per

cui il lettore non interessato ad approfondimenti ulteriori pu tranquillamente saltare il paragrafo che segue.
4.2 Caratterizzazione statistica di Y = g( X ) 87

Pertanto, affinch {Y y} sia un evento, necessario e sufficiente che { X Ry } sia un even-


to per ogni y R, il che accade se linsieme Ry si ottiene per complementazione, unione e/o
intersezione (al pi numerabile) di semirette chiuse a destra.
Per inciso, osserviamo che la (4.1) fornisce anche la strada per calcolare la CDF di Y in fun-
zione della caratterizzazione statistica di X, argomento che sar ulteriormente approfondito nei
successivi paragrafi. Ricordando anche la seconda propriet, dobbiamo richiedere che la trasfor-
mazione Y = g( X ) sia tale da soddisfare le seguenti condizioni:

1. per ogni y R, linsieme Ry = { x R tali che g( x ) y} delle soluzioni della disequazione


g( x ) y devessere la complementazione, unione e/o intersezione (al pi numerabile) di
semirette chiuse a destra, cosicch {Y y} sia un evento; una funzione g che possiede tale
propriet prende il nome di funzione di Baire [1];

2. gli eventi { g( X ) = +} e { g( X ) = } devono avere probabilit zero.

Osserviamo che, mentre la prima propriet coinvolge solo la funzione g, nella seconda entra in
gioco anche la variabile aleatoria X. Peraltro, notiamo che praticamente tutte le funzioni elemen-
tari soddisfano la prima propriet (sono cio funzioni di Baire); per quanto riguarda la seconda
propriet, essa spesso automaticamente soddisfatta, per il semplice motivo che la funzione g
assume valori in R e non in R. Nel seguito, per tutte le trasformazioni di variabili aleatorie che
considereremo, riterremo sempre verificate le precedenti propriet.

4.2 Caratterizzazione statistica di Y = g( X )


Data una trasformazione Y = g( X ), il problema che si pone in pratica il seguente: nota la CDF
(o la pdf, o la DF) di X, calcolare la CDF (o la pdf, o la DF) di Y. In breve, si parla di caratterizzare
statisticamente la variabile aleatoria Y, nota la caratterizzazione statistica di X.

4.2.1 Calcolo della CDF di Y = g(X )


Consideriamo dapprima il calcolo della CDF di Y = g( X ). Possiamo scrivere

FY (y) = P(Y y) = P( g( X ) y) ,

per cui per ogni y R dobbiamo determinare i valori di X la cui immagine attraverso la funzione
g minore o uguale di y, e determinare la probabilit dellevento corrispondente. Tale problema
non ammette evidentemente una soluzione generale, ma si riconduce alla risoluzione di una o
pi disequazioni numeriche. I seguenti esempi, nei quali assumeremo che X sia una variabile
aleatoria continua, chiariranno meglio la procedura da seguire in alcuni casi tipici.

Esempio 4.1. Consideriamo la trasformazione lineare Y = a X + b, che rappresentata graficamente in


Fig. 4.2 nei casi a > 0 (a sinistra) e a < 0 (a destra). Nel caso a > 0, si ha:
   
yb yb
FY (y) = P (Y y) = P ( a X + b y) = P X = FX .
a a
88 Trasformazioni di una variabile aleatoria

Y=g(X)
Y=g(X)

y a<0
y
b

x = (y-b)/a X X
x = (y-b)/a
b

a>0

Fig. 4.2. La trasformazione Y = a X + b, nei casi a > 0 (a sinistra) e a < 0 (a destra).


Y=g(X)

Y=g(X) y

y
0 x1 x2 2 X

-1
-y 1/2 y 1/2 X

Fig. 4.3. La trasformazione Y = X2 . Fig. 4.4. La trasformazione Y = cos( X ).

Per a < 0, il verso della disuguaglianza si inverte, e si ha:2


 
yb
FY (y) = P (Y y) = P ( a X + b y) = P X
a
   
yb yb
= 1P X < = 1 FX .
a a

La pdf f X ( x ) si ottiene derivando la CDF, e per a > 0 si ha:


 
1 yb
f Y (y) = f X ,
a a

mentre per a < 0 si ha:  


1 yb
f Y (y) = f X .
a a
Le due precedenti espressioni possono essere condensate nellunica espressione, valida per a 6= 0:
 
1 yb
f Y (y) = fX .
| a| a

2 Si ricordi che, nellipotesi che X sia continua, si ha P ( X < x ) = P ( X x ).


4.2 Caratterizzazione statistica di Y = g( X ) 89

1.5 5

4.5

3.5
1
3
F (y)

f (y)
2.5
Y

Y
2
0.5
1.5

1
1/
0.5

0 0
2 1.5 1 0.5 0 0.5 1 1.5 2 2 1.5 1 0.5 0 0.5 1 1.5 2
y y

Fig. 4.5. La CDF F ( x ) della variabile aleatoria Fig. 4.6. La pdf f ( x ) della variabile aleatoria Y =
Y = cos( X ), con X U(0, 2 ). cos( X ), con X U(0, 2 ).

Esempio 4.2. Consideriamo la trasformazione Y = X2 , che rappresentata graficamente da una parabola


(Fig. 4.3). Se y < 0, evidentemente P (Y y) = P ( X2 y < 0) = P () = 0. Viceversa, se y 0, si ha che

P (Y y) = P ( X2 y) = P ( X [ y, y]) = FX ( y) FX ( y). In definitiva, si ha:

FY (y) = [ FX ( y ) FX ( y)] u (y)
e derivando si ottiene la pdf
1
f Y (y) = [ f X ( y) + f X ( y)] u (y) .
2 y

Esempio 4.3. Consideriamo la trasformazione Y = cos( X ), che rappresentata graficamente in Fig. 4.4,
e supponiamo in particolare che sia X U(0, 2 ). Se y < 1, si ha evidentemente FY (y) = P (Y y) =
P (cos( X ) y < 1) = P () = 0. Viceversa, se y 1, risulta FY (y) = P (cos( X ) y) = P () = 1. Infine,
per 1 y < 1, si ha (vedi Fig. 4.4) che la disequazione cos( X ) y soddisfatta, allinterno dellintervallo
(0, 2 ), dai valori di X [ x1 , x2 ], con x1 = arccos(y) e x2 = 2 arccos(y).3 Pertanto, per tali valori di y si
ha, poich X uniforme in (0, 2 ),
x2 x1 1
FY (y) = P ( X [ x1 , x2 ]) = = 1 arccos(y) .
2
In definitiva, allora, la CDF di Y si pu esprimere come:


0, y < 1 ;

1
FY (y) = 1 arccos(y), 1 y < 1 ;



1, y 1;

ed raffigurata in Fig. 4.5 (si noti che una funzione continua). La pdf si ottiene derivando la FY (y):



0, y < 1 ;
1 1
f Y (y) = p , 1 < y < 1 ;

1 y2

0, y > 1;

ed raffigurata in Fig. 4.6. Si noti che tale pdf non contiene impulsi, perch la CDF continua; inoltre, essa
non definita (diverge) nei punti 1, tuttavia ha comunque area unitaria.
3 Evidentemente la disuguaglianza soddisfatta, per la periodicit della funzione coseno, anche in qualunque inter-

vallo del tipo [ x1 + 2k, x2 + 2k ]; tuttavia, poich per ipotesi X assume valori in (0, 2 ), non necessario considerare
tali ulteriori intervalli, ma sufficiente limitarsi allintervallo (0, 2 ).
90 Trasformazioni di una variabile aleatoria

Esempio 4.4 (amplificatore con saturazione). Consideriamo la trasformazione in Fig. 4.7, che pu essere
espressa matematicamente come segue:

dy ,
x < dx ;
g( x ) = a x, dx x < dx ;


dy , x dx .

dy
con a , dx > 0. Tale legge quella caratteristica di un dispositivo che amplifica (se a > 1) a patto che
Y=g(X)
dy

tg( ) = d y /d x = a

-d x

dx X

-d y

Fig. 4.7. La trasformazione Y = g( X ) caratteri-


stica di un amplificatore con saturazione.

X [ d x , d x ], altrimenti luscita limitata (satura) al valore dy oppure dy .


Veniamo ora al calcolo della CDF di Y. Se y < dy , si ha evidentemente FY (y) = P (Y y) = P ( g( X )
y < dy ) = P () = 0. Viceversa, se y dy , risulta FY (y) = P ( g( X ) y) = P () = 1. Per dy y < dy ,
infine, si ha:  y y
FY (y) = P (Y y) = P ( a X y) = P X = FX
a a
In definitiva, la CDF data da:

0,
y < dy ;
FY (y) = FX (y/a), dy y < dy ;


1, y dy ;

ed riportata in Fig. 4.8. Notiamo che per y = dy tale CDF discontinua, perch il suo limite da sinistra
vale 0, mentre il limite da destra vale FX ( d x ). Allo stesso modo, la CDF discontinua nel punto y = dy ,
in quanto il limite da destra vale 1, mentre il limite da destra vale FX (d x ). Pertanto, quando calcoleremo la
pdf, compariranno, oltre alla derivata convenzionale, due impulsi di Dirac, centrati in y = dy e y = dy , e

fY(y)
F Y(y) area = F X (-d x )
area = 1- F X (d x )

1 h(y)
salto = F X (-d x )

salto = 1-F X (d x )

-d y dy y -d y dy y

Fig. 4.8. La CDF FY (y) della variabile aleatoria Y Fig. 4.9. La pdf f Y (y) della variabile aleatoria Y
alluscita di un amplificatore con saturazione. alluscita di un amplificatore con saturazione.
4.2 Caratterizzazione statistica di Y = g( X ) 91
Y=g(X)
dy

-d y

Fig. 4.10. La trasformazione Y = g( X )


caratteristica di un hard limiter.

F Y(y)
fY(y)

area = 1- F X (0)
1
salto = F X (0)
area = F X (0)
F X (0)
salto = 1-F X (0)

-d y dy y -d y dy y

Fig. 4.11. La CDF FY (y) della variabile aleatoria Fig. 4.12. La pdf f Y (y) della variabile aleatoria Y
Y alluscita di un hard limiter. alluscita di un hard limiter.

di area rispettivamente pari a FX ( d x ) ed 1 FX (d x ). La derivata convenzionale h(y) vale




0, y < dy ;
y
1
h(y) = fX , dy < y < dy ;
a
a

0, y > dy ;

mentre la pdf si ottiene aggiungendo alla derivata convenzionale gli impulsi di Dirac:

f Y (y) = h(y) + FX ( d x ) (y + dy ) + [1 FX (d x )] (y dy )

ed raffigurata in Fig. 4.9. In conclusione, la variabile aleatoria Y ha una CDF discontinua ma non costante
a tratti, per cui costituisce un primo esempio di una variabile aleatoria mista.

Esempio 4.5 (hard limiter). Consideriamo la trasformazione in Fig. 4.10, che pu essere espressa matema-
ticamente come
g( x ) = dy sgn( x ) ,
dove dy > 0, e sgn( x ) la funzione signum:
(
1, x 0;
sgn( x ) ,
1, x < 0.

Tale legge quella caratteristica di un dispositivo limitatore ideale o hard limiter, e si pu vedere come caso
limite di un amplificatore con saturazione per d x 0.
Passiamo al calcolo della CDF di Y. Se y < dy , si ha FY (y) = P (Y y) = P ( g( X ) y < dy ) =
P () = 0. Viceversa, se y dy , FY (y) = P () = 1. Per dy y < dy , si ha FY (y) = P ( g( X ) y) = P ( X
92 Trasformazioni di una variabile aleatoria

p X (x) p Y(y)

4/9
1/3 1/3
2/9 2/9 2/9
1/9 1/9

-2 -1 0 1 2 x 0 1 2 3 4 y

Fig. 4.13. La DF di X (a sinistra) e di Y = X2 (a destra).

0) = FX (0). In definitiva, allora, la CDF di Y si pu esprimere come:



0,
y < dy ;
FY (y) = FX (0), dy y < dy ;


1, y dy .
ed raffigurata in Fig. 4.11; si noti che una funzione costante a tratti, per cui Y una variabile aleatoria
discreta, e la sua pdf, puramente impulsiva, data da
f Y (y) = FX (0) (y + dy ) + [1 FX (0)] (y dy )
ed raffigurata in Fig. 4.12.

4.2.2 Calcolo della DF di Y = g(X )


Il calcolo della DF appropriato quando X una variabile aleatoria discreta. In tal caso, imme-
diato osservare che, qualunque sia la trasformazione g( x ), anche la variabile aleatoria Y = g( X )
discreta, ed assume i valori y = g( x ) Y, dove x X sono i valori assunti da X. In effetti, il
calcolo della DF di Y immediato: basta osservare che

P (Y = y ) = P( X = x ) ,
x X,g ( x )= y

ovvero la probabilit che la variabile aleatoria Y assuma un qualunque valore y Y si ottiene co-
me somma delle probabilit che la variabile aleatoria X assuma i valori x, con y = g( x ). Pertanto,
introducendo le DF di Y ed X, possiamo scrivere sinteticamente

pY ( y ) = pX (x) . (4.2)
x X,g ( x )= y

Esempio 4.6. Si consideri la seguente variabile aleatoria discreta X, che assume i valori X = {2, 1, 0, 1, 2}
con la seguente DF (Fig. 4.13):
1/3, x = 0 ;

p X ( x ) = 2/9, x = 1 ;


1/9, x = 2 .
Calcoliamo la DF della variabile aleatoria Y = X2 . La variabile aleatoria Y ancora discreta, e assume i
valori y Y = {0, 1, 4}. Applicando la (4.2), si ha:
pY (0) = P (Y = 0) = P ( X = 0) = 1/3 ;
pY (1) = P (Y = 1) = P ( X = 1) + P ( X = 1) = 2/9 + 2/9 = 4/9 ;
pY (4) = P (Y = 4) = P ( X = 2) + P ( X = 2) = 1/9 + 1/9 = 2/9 ;
4.2 Caratterizzazione statistica di Y = g( X ) 93

per cui la DF si scrive in forma compatta come:



1/3,
y = 0;
pY (y) = 4/9, y = 1;


2/9, y = 4.

ed raffigurata in Fig. 4.13. Si noti che Y una variabile aleatoria positiva.

4.2.3 Calcolo della pdf di Y = g(X )


Affrontiamo adesso il problema di determinare la pdf di Y = g( X ) in funzione della pdf di X. Di
importanza fondamentale il seguente teorema, nel quale g ( x ) indica la derivata prima di g( x ):

Teorema 4.1 (teorema fondamentale sulle trasformazioni di variabili aleatorie). Sia X una
variabile aleatoria avente pdf f X ( x ), e si consideri la trasformazione Y = g( X ); la pdf di Y
data da:

0,
se lequazione y = g( x ) non ammette soluzioni;
fY (y) = f X ( xi )
| g ( x )| , dove xi una soluzione dellequazione y = g( x ).

i i

Prova. La pdf f Y (y) si pu ottenere sulla base della seguente relazione (per dy > 0):

f Y (y) dy = P (y < Y y + dy) = P (y < g( X ) y + dy) .

Se y un valore tale che lequazione g( x ) = y non ammette soluzioni, allora f Y (y) = 0. Infatti, se y non
appartiene alla frontiera del codominio di g( x ), possibile scegliere dy sufficientemente piccolo tale che

{y < g( X ) y + dy} = f Y (y) = 0 .

Se invece y appartiene alla frontiera del codominio di g( x ), posso comunque porre f Y (y) = 0, perch la
frontiera un insieme di misura nulla, e quindi il valore della pdf su un insieme di misura nulla inessen-
ziale. Viceversa, si consideri il caso in cui y appartenga al codominio di g( x ), cio sia un valore tale che
lequazione g( x ) = y ammette una o pi soluzioni. Per semplicit, supponiamo che le soluzioni siano tre,
x1 , x2 , x3 , come in Fig. 4.14. Allora:

f Y (y) dy = P (y < Y y + dy) = P ( x1 < X x1 + dx1 ) + P ( x2 + dx2 < X x2 ) + P ( x3 < X x3 + dx3 ) ,

dove dx1 > 0, dx2 < 0, dx3 > 0. (Fig. 4.14) e, poich dy infinitesimo, i tre insiemi cui appartiene X sono
mutuamente esclusivi. Poich:

P { x1 < X x1 + dx1 } = f X ( x1 ) dx1 ;


P { x2 + dx2 < X x2 } = f X ( x2 ) | dx2 | ;
P { x3 < X x3 + dx3 } = f X ( x3 ) dx3 ;

ed inoltre

dx1 = dy/g ( x1 ) ;
dx2 = dy/g ( x2 ) ;
dx3 = dy/g ( x3 ) ;

dove (Fig. 4.14) g ( x1 ) > 0, g ( x2 ) < 0, e g ( x3 ) > 0, risulta

f X ( x1 ) f (x ) f (x )
f Y (y) dy = dy + X 2 dy + X 3 dy ,
g ( x1 ) | g ( x2 )| g ( x3 )

ed eliminando dy, si ha lasserto. 


94 Trasformazioni di una variabile aleatoria

derivata = g'(x 3) > 0


Y=g(X)

derivata = g'(x 1) > 0


derivata = g'(x 2) < 0
y + dy
y

x1 x2 x3 X
x 1 + dx 1 x 2 + dx 2 x 3 + dx 3

Fig. 4.14. Dimostrazione del teorema fondamentale sulle trasformazioni di variabili aleatorie. Le soluzioni
dellequazione y = g( x ) sono x1 , x2 , ed x3 .

Nel seguito, sono riportati numerosi esempi di applicazione del teorema precedente per alcu-
ne trasformazioni di particolare interesse. Notiamo che la caratterizzazione di Y in termini di
pdf appropriata se Y una variabile aleatoria continua oppure mista, il che richiede necessa-
riamente che X sia una variabile aleatoria continua oppure mista anchessa (se X fosse discreta,
anche Y sarebbe tale). Per semplicit, molte delle considerazioni fatte negli esempi, assumono
(esplicitamente o implicitamente) che X sia una variabile aleatoria continua.

Esempio 4.7. Consideriamo nuovamente la trasformazione lineare dellesempio 4.1:

Y = aX + b ,

raffigurata in Fig. 4.2. Qualunque sia y R, e per ogni a 6= 0, lequazione y = g( x ) = ax + b ammette


lunica soluzione
yb
x= ,
a
ed inoltre risulta
| g ( x )| = | a| ,
per cui:
 
1 yb
f Y (y) = f
| a| X a
che coincide con il risultato ottenuto, derivando la CDF, nellesempio 4.1.

Esempio 4.8. Consideriamo nuovamente la trasformazione quadratica dellesempio 4.2:

Y = X2

raffigurata in Fig. 4.3. Se y < 0, lequazione y = g( x ) = x2 non ha soluzioni, e quindi f Y (y) = 0. Se y > 0,
si hanno due soluzioni:

x1 = y, x2 = y
ed inoltre
| g ( x )| = 2| x | ,
per cui:
1
f Y (y) = [ f X ( y) + f X ( y )] u (y) ,
2 y
4.2 Caratterizzazione statistica di Y = g( X ) 95

che lo stesso risultato ottenuto nellesempio 4.2.4 Come applicazione del precedente risultato, si consideri
il caso in cui X N(0, 1):
1 2
f X (x) = e x /2
2
e sia Y = X2 . Dalla relazione precedente, tenendo conto che X ha una pdf pari, si ha:

1 1
f Y (y) = f X ( y) u (y) = p ey/2 u (y)
y 2y

che la pdf di una variabile aleatoria di tipo chi-square con un grado di libert, che si denota Y 2 (1).
Notiamo che per y 0 tale pdf diverge, ma larea sottesa si mantiene comunque finita.

Esempio 4.9. Consideriamo la trasformazione iperbolica:

Y = 1/X .

Per y 6= 0, lequazione y = g( x ) = 1/x ha lunica soluzione

1
x= ,
y

ed inoltre si ha
1
| g ( x )| = ,
x2
per cui:  
1 1
f Y (y) = fX (4.3)
y2 y
Per quanto riguarda il caso y = 0, lequazione y = g( x ) non ha soluzione per y = 0, per cui la pdf di Y
nulla in tal punto. Come applicazione del precedente risultato, si consideri il caso in cui X Cauchy (),
ovvero X ha una pdf di tipo Cauchy di parametro :

/
f X (x) = .
x 2 + 2
Si verifica facilmente, applicando la (4.3), che la variabile aleatoria Y = 1/X risulta anchessa Cauchy, e
precisamente Y Cauchy (1/):
1/( )
f Y (y) = 2 .
y + 1/2
In altri termini, la classe delle variabili aleatorie di Cauchy chiusa rispetto alloperazione di reciprocazione.
Notiamo che sebbene lespressione generale (4.3) sia stata ricavata per y 6= 0, la f Y (y) di Cauchy ottenuta
pu essere prolungata per continuit in y = 0.

Negli esempi precedenti, abbiamo incontrato casi in cui il teorema non applicabile, e precisa-
mente per quei valori di y = g( x ) in corrispondenza dei quali la derivata g ( x ) si annulla. Se tali
punti y sono isolati, il valore di f Y (y) inessenziale, in quanto la pdf compare solo in relazioni
integrali, e quindi il suo valore in un punto isolato non rilevante (lintegrale della pdf non cam-
bia). Pu accadere che, nei punti y in cui il teorema non applicabile, la pdf sia divergente (cfr.
la variabile aleatoria chi-square dellesempio 4.8 per y = 0), oppure che essa si possa prolungare
per continuit (cfr. la variabile aleatoria Cauchy dellesempio 4.9 per y = 0).
Diversa la situazione se, per un determinato y, lequazione y = g( x ) ammette una infinit
continua di soluzioni, come accade ad esempio se g( x ) presenta uno o pi tratti costanti con
4 Se y = 0 il teorema non applicabile, poich anche se lequazione y = g ( x ) ha una sola soluzione x = 0, in

corrispondenza di tale punto la derivata g ( x ) nulla. Tuttavia, essendo y = 0 un punto isolato, il valore della pdf nel
punto y = 0 inessenziale, a patto, ovviamente, di essere sicuri che in y = 0 non ci sia un impulso (si veda la discussione
che segue lesempio 4.9).
96 Trasformazioni di una variabile aleatoria

ordinata pari ad y (si noti che in tal caso si ha anche g ( x ) = 0 per tutti i valori x corrispondenti
al tratto costante). In tal caso, la pdf di Y presenta nel punto y un impulso di Dirac, la cui area
va determinata direttamente calcolando P(Y = y). Lesempio che segue chiarir meglio questo
concetto.

Esempio 4.10. Consideriamo nuovamente la trasformazione (amplificatore con saturazione) dellesempio


4.4, raffigurata in Fig. 4.7. Tale trasformazione ha due tratti costanti, di ordinata y = dy e y = dy ; antici-
piamo pertanto la presenza di due impulsi di Dirac, centrati in y = dy , le cui aree dobbiamo determinare.
Applichiamo comunque il teorema nei punti dove consentito. Per | y| > dy , lequazione y = g( x ) non ha
soluzioni, per cui f Y (y) = 0. Per | y| < dy , lequazione y = g( x ) ha una sola soluzione x = y/a. Il calcolo
della derivata prima per | y| < dy fornisce
| g ( x )| = a ;
pertanto per tutti i valori y 6= dy lapplicazione del teorema fondamentale fornisce la parte convenziona-
le h(y) della pdf (corrispondente alla derivata convenzionale della CDF):


0, y < dy ;
y
1
h(y) = fX , dy < y < dy ;

a
a
0, y > dy ;

Passiamo ora a determinare le aree degli impulsi. Si ha:

P (Y = dy ) = P ( X d x ) = FX ( d x ) ,
P (Y = dy ) = P ( X d x ) = 1 FX (d x ) ,

e quindi la pdf si scrive come:

f Y (y) = h(y) + FX ( d x ) (y + dy ) + [1 FX (d x )] (y dy ) ,

che coincide con il risultato ottenuto nellesempio 4.4 derivando la CDF.

4.3 Problema inverso: determinazione di g( x)


Finora ci siamo occupati del problema di caratterizzare la variabile aleatoria Y ottenuta dalla
variabile aleatoria X mediante una nota trasformazione g( x ). Questo problema denominato
problema diretto, per contrasto con il seguente, che denomineremo problema inverso: date due va-
riabili aleatorie X ed Y, con CDF (o pdf, o DF) assegnate, trovare la particolare trasformazione
Y = g( X ) che consente di ottenere Y da X. Nel seguito, supporremo in particolare che le due
variabili aleatorie X ed Y siano caratterizzate per mezzo delle loro CDF FX ( x ) e FY (y), e suppor-
remo inoltre che X ed Y siano due variabili aleatorie continue con CDF strettamente monotone,
e quindi invertibili.5
Per semplificare lo studio del problema, converr riguardare la trasformazione da X ad Y
come realizzata in due passi (Fig. 4.15), ovvero come composta da due successive trasformazioni
g1 e g2 : (i) mediante g1 , si passa da X ad una variabile aleatoria uniforme U U(0, 1); (ii)
mediante g2 , si passa da una variabile aleatoria uniforme U U(0, 1) ad Y.

(i) Da X ad una variabile aleatoria uniforme: vogliamo passare dalla variabile aleatoria X ad una
variabile aleatoria U U(0, 1). immediato verificare che la trasformazione appropriata
g1 ( x ) = FX ( x ).
5 Lipotesi di invertibilit delle CDF non strettamente necessaria, nel paragrafo 4.3.1 vedremo una importante

generalizzazione ottenuta rimuovendo tale ipotesi.


4.3 Problema inverso: determinazione di g( x ) 97

X Uuniforme Y
g 1 (x)=F X (x) g 2 (x)=F Y(x) -1

passo 1 passo 2

Fig. 4.15. La trasformazione di una variabile aleatoria X in una variabile aleatoria Y si articola in due passi:
a partire da X, si genera una variabile aleatoria U U(0, 1); successivamente, da U si genera la variabile
aleatoria Y.

Prova. Infatti, consideriamo la trasformazione U = g1 ( X ) = FX ( X ) e calcoliamo la CDF di U. Se


u < 0 si ha:
FU (u ) = P (U u ) = P [ FX ( X ) u ] = 0 ,
in quanto i valori assunti da una CDF sono sempre non negativi, mentre se u 1 si ha:

FU (u ) = P (U u ) = P [ FX ( X ) u ] = 1 ,

in quanto i valori assunti da una CDF sono sempre non superiori ad 1. Infine, se u [0, 1[, si ha:

FU (u ) = P (U u ) = P [ FX ( X ) u ] = P [ X FX1 (u )] = FX [ FX1 (u )] = u .

Si noti che abbiamo applicato la FX1 () ad entrambi i membri della disuguaglianza perch abbiamo
supposto che la CDF di X sia strettamente monotona (crescente) e quindi invertibile. In definitiva,
mettendo insieme i tre casi, la CDF di U data da:

0, u < 0 ;

FU (u ) = u, u [0, 1[ ;


1, u 1 ;

e questa proprio la CDF di una variabile aleatoria U U(0, 1), per cui resta dimostrato lasserto. 

(ii) Da una variabile aleatoria uniforme a Y: abbiamo a disposizione una variabile aleatoria U
U(0, 1) e vogliamo trasformarla in una variabile aleatoria Y = g2 (U ) con preassegnata CDF
FY (y). Si pu verificare in tal caso che la trasformazione cercata g2 ( x ) = FY1 ( x ), coincide
cio con linversa (che abbiamo supposto esistente) della CDF desiderata.

Prova. Per verificarlo, denotiamo con FbY (y) la CDF di Y = FY1 (U ) e dimostriamo che essa coincide
con FY (y). Si ha:

FbY (y) = P (Y y) = P [ FY1 (U ) y] = P [U FY (y)] = FU [ FY (y)] = FY (y)

perch FY (y) [0, 1] ed U una variabile aleatoria uniforme in (0, 1), quindi con CDF FU (u ) = u per
u [0, 1]. Resta pertanto dimostrato che FbY (y) = FY (y), e quindi la trasformazione g2 ( x ) coincide
proprio con linversa della CDF di Y.
Una dimostrazione pi semplice, e meno formale, la seguente: abbiamo mostrato in precedenza
che per passare da una variabile aleatoria Y qualsiasi ad una variabile aleatoria uniforme U occorre
effettuare la trasformazione U = FY (Y ). Se, allora, FY (y) invertibile, la variabile aleatoria Y si otterr
dalla variabile aleatoria uniforme U come Y = FY1 (U ). 

A questo punto, come precedentemente osservato, il caso della trasformazione di una variabile
aleatoria X con CDF arbitraria in una variabile aleatoria Y con CDF arbitraria pu essere affronta-
to sfruttando i risultati dei due casi precedenti, e cio articolando la trasformazione in due passi
(Fig. 4.15):

(i) nel primo passo, si trasforma X in una variabile aleatoria uniforme U U(0, 1), mediante
la trasformazione g1 ( x ) = FX ( x );
98 Trasformazioni di una variabile aleatoria

(ii) nel secondo passo, dalla variabile aleatoria uniforme U U(0, 1), si ottiene Y mediante la
trasformazione g2 ( x ) = FY1 ( x ).

La trasformazione g complessiva chiaramente la funzione composta di g1 (funzione interna) e g2


(funzione esterna), e cio:
g( x ) = g2 [ g1 ( x )] = FY1 [ FX ( x )] (4.4)

per cui la variabile Y si ottiene da X con la trasformazione

Y = FY1 [ FX ( X )] .

Esempio 4.11. Determiniamo la trasformazione g( x ) che consente di passare da una variabile aleatoria
esponenziale X Exp() ad una variabile aleatoria Rayleigh Y Rayleigh(b ). La CDF di X :

FX ( x ) = (1 ex ) u ( x )

mentre quella di Y :
y2
FY (y) = (1 e b ) u (y) .
Per individuare la g( x ), conviene riscrivere la (4.4) nella forma:

FY [ g( x )] = FX ( x ) ,

che va riguardata come unequazione nellincognita g( x ) e risolta rispetto allincognita. Sostituendo le


espressioni delle CDF, si ha:
   
g2 ( x)
1 e b u [ g( x )] = 1 ex u ( x ) .

Per x < 0, il secondo membro si annulla, per cui posso assumere g( x ) 0 per x < 0; invece, per x 0,
il secondo membro si annulla solo per x = 0, per cui deve risultare necessariamente g( x ) 0 cosicch
u [ g( x )] = 1; in tal caso, si ha:
g2 ( x)
1 e b = 1 ex ,
da cui con semplici passaggi algebrici si ricava:

g2 ( x ) = x b g ( x ) = xb.

Si noti che nella risoluzione abbiamo scelto la soluzione non negativa per g( x ) per tenere conto della con-
dizione g( x ) 0 ricavata in precedenza; questo corrisponde al fatto che, poich la variabile aleatoria di
Rayleigh positiva, allora la trasformazione g( x ) cercata deve essere non negativa.

4.3.1 Generazione di una variabile aleatoria con CDF assegnata


Unimportantissima applicazione dei risultati del precedente paragrafo quella della generazio-
ne di una variabile aleatoria con CDF assegnata. Infatti, se vogliamo generare una variabile
aleatoria X con CDF FX ( x ) (supposta invertibile), basta generare (Fig. 4.16) una variabile aleato-
ria U U(0, 1) e trasformarla secondo la legge g( x ) = FX1 ( x ). sufficiente allora disporre di
un generatore di variabili aleatorie uniformi in (0, 1) che, come vedremo nel 4.3.2, pu essere
facilmente realizzato mediante un calcolatore.
Notiamo che, poich linversa della CDF la legge che definisce il percentile (cfr. 3.2.3) , tale
tecnica di generazione anche denominata metodo della trasformazione percentile.
4.3 Problema inverso: determinazione di g( x ) 99

Generatore Uuniforme X
variabili aleatorie -1
g(x)=F X (x)
uniformi in (0,1)

Fig. 4.16. La generazione di una variabile aleatoria X con CDF FX ( x ) invertibile si pu effettuare a par-
tire da un generatore di variabili aleatorie uniformi U U(0, 1), applicando alluscita di questultimo la
trasformazione g( x ) = FX1 ( x ).

Esempio 4.12. Determiniamo la trasformazione che consente di generare una variabile aleatoria esponen-
ziale X Exp() a partire da una variabile aleatoria uniforme U U(0, 1). Poich:

FX ( x ) = (1 ex ) u ( x ) ,

allora si ha:
1
g( x ) = FX1 ( x ) = ln(1 x ) .

Osserviamo per che, se U U(0, 1), allora anche 1 U U(0, 1). Allora, pi semplicemente, possiamo
scrivere:
1
g( x ) = ln( x ) .

Poich X una variabile aleatoria positiva, la trasformazione g( x ) non negativa.

Esempio 4.13. Determiniamo la trasformazione che consente di generare una variabile aleatoria Rayleigh
X Rayleigh(b ) a partire da una variabile aleatoria uniforme U U(0, 1). Poich:
x2
FX ( x ) = (1 e b ) u ( x ) ,

allora si ha: q
g( x ) = FX1 ( x ) = b ln(1 x ) ,
dove nella determinazione dellinversa abbiamo scelto la soluzione positiva perch la variabile aleatoria
di Rayleigh positiva. Anche qui, poich se U U(0, 1), anche 1 U U(0, 1), possiamo scrivere pi
semplicemente: q
g( x ) = b ln( x ) .
Poich X una variabile aleatoria positiva, la trasformazione g( x ) non negativa.

In molti casi, la FX ( x ) non ha una espressione analitica semplice e pertanto, sebbene sia stret-
tamente monotona, non semplice calcolarne linversa FX1 ( x ); ci accade, ad esempio, se X
N(, ), e quindi la CDF espressa in termini della funzione non elementare G( x ). Se allora si rie-
sce a mettere in relazione la variabile aleatoria X con altre variabili aleatorie Z1 , Z2 , . . . , Zn di pi
semplice generazione, mediante una legge del tipo X = f ( Z1 , Z2 , . . . , Zn ), possibile risolvere il
problema della generazione di X in due passi:

(i) si genera ciascuna delle variabili aleatorie Z1 , Z2 , . . . , Zn con il metodo della trasformazione
percentile;

(ii) si applica alle Z1 , Z2 , . . . , Zn la trasformazione f per ottenere X.

Un esempio di applicazione di tale tecnica, di fondamentale importanza nelle applicazioni prati-


che, riguarda proprio la generazione delle variabili aleatorie gaussiane e sar discusso nellesempio
6.10 (in quanto richiede concetti che saranno introdotti nel seguito).
100 Trasformazioni di una variabile aleatoria

F X (x) F X -1 (y)

1
1
q

0
1 x q 1 y

Fig. 4.17. La CDF FX ( x ) della variabile aleatoria Fig. 4.18. Linversa sinistra FX1 (y) della CDF
X Bern( p). della variabile aleatoria X Bern( p) raffigurata
in Fig. 4.17.

Un altro caso in cui il metodo della trasformazione percentile non sembrerebbe applicabile
quello in cui la FX ( x ) non strettamente monotona e, quindi, non invertibile. Tale limita-
zione escluderebbe limpiego della tecnica di generazione nei casi in cui la CDF della variabile
aleatoria da generare presenti uno o pi tratti costanti; in particolare, ne precluderebbe luso per
la generazione di variabili aleatorie discrete, che hanno una CDF costante a tratti. In realt, per
applicare il metodo della trasformazione percentile anche a questi casi, sufficiente generalizzare
la definizione di inversa della CDF, ponendo, per ogni y [0, 1],

FX1 (y) , inf{ x R tali che FX ( x ) y} . (4.5)

Osserviamo che, se FX ( x ) strettamente monotona, la FX1 (y) definita dalla (4.5) si riduce allin-
versa convenzionale; altrimenti, se ad esempio la CDF FX ( x ) presenta un tratto costante nellin-
tervallo [ x1 , x2 ] di ordinata pari a y, facile verificare che FX1 (y) = x1 . La funzione definita
dalla (4.5) viene a volte denominata inversa sinistra, in quanto si pu facilmente verificare
che FX [ FX1 (y)] = y, mentre in generale risulta FX1 [ FX ( x )] 6= x; inoltre poich FX ( x ) mono-
tona crescente, anche la funzione FX1 (y) definita dalla (4.5) monotona crescente. Si pu al-
lora facilmente verificare che la dimostrazione sviluppata nel 4.3 al punto (ii) rimane valida,
a patto di sostituire allinversa convenzionale linversa sinistra. In particolare, il metodo della
trasformazione percentile risulta ancora applicabile, come mostrato dal seguente esempio.

Esempio 4.14. Si vuole generare una variabile aleatoria X Bern( p), la cui CDF raffigurata in Fig. 4.17.
Calcoliamo prima linversa sinistra FX1 (y), in accordo alla (4.5). Si ha:

y = 0 inf{ x R tali che FX ( x ) y} = inf{] , + [} =


y ]0, q ] inf{ x R tali che FX ( x ) y} = inf{[0, + [} = 0
y ] q, 1] inf{ x R tali che FX ( x ) y} = inf{[1, + [} = 1
per cui:
, y = 0 ;

FX1 (y) = 0, y ]0, q ] ;


1, y ] q, 1] ;
raffigurata in Fig. 4.18. Si pu osservare che linversa sinistra FX1 ( x ) continua da sinistra (mentre la CDF
continua da destra), e che si pu ottenere con una procedura grafica molto semplice: a partire dalla CDF,
4.3 Problema inverso: determinazione di g( x ) 101

F X (x) F X -1 (y)
x3

p 1 +p 2 +p 3

p 1 +p 2
x2
x1
p1

x1 x2 x3 x p1 p 1 +p 2 p 1 +p 2 +p 3 y

Fig. 4.19. La CDF FX ( x ) di una variabile Fig. 4.20. Linversa sinistra FX1 (y) della CDF
aleatoria discreta X. della variabile aleatoria X discreta raffigurata in
Fig. 4.19.

si scambiano gli assi x ed y. Pertanto, a partire da U U(0, 1) e tenendo conto della forma dellinversa
sinistra, la tecnica di generazione molto semplice:
1. si genera un valore U [0, 1];
2. se U [0, q ], si pone X = 0;
3. se U ] q, 1], si pone X = 1.
Si noti che abbiamo arbitrariamente assegnato anche a U = 0 il valore X = 0, e non il valore X = ;
questo non altera la probabilit che X = 0, e quindi la distribuzione di X, poich, essendo U una variabile
aleatoria continua, si ha P (U = 0) = 0.

Con un modesto sforzo di generalizzazione, possiamo estendere la procedura delineata nelle-


sempio 4.14 alla generazione di una qualunque variabile aleatoria discreta. Infatti, siano X =
{ x1 , x2 , x3 , . . .} i valori assunti dalla variabile aleatoria X, che supporremo, senza ledere la ge-
neralit, ordinati in senso crescente, vale a dire x1 < x2 < x3 , e siano p1 , p2, p3 , . . . le rispet-
tive probabilit, dove pi , P( X = xi ). La CDF di X sar una funzione costante a tratti, con
gradini (Fig. 4.19) posti alle quote p1 , p1 + p2 , p1 + p2 + p3 , . . . e posizionati orizzontalmente in
x1 , x2 , x3 , . . .; linversa sinistra, ottenuta scambiando gli assi della CDF, sar ancora una funzione
costante a tratti, con gradini (Fig. 4.20) situati alle quote x1 , x2 , x3 , . . . e posizionati orizzontalmen-
te in p1 , p1 + p2 , p1 + p2 + p3 , . . .. Pertanto, a partire da U U(0, 1) e tenendo conto della forma
dellinversa sinistra, la generazione di X avviene nel seguente modo:

1. si genera un valore U [0, 1];

2. se U [0, p1 ], si pone X = x1 ;

3. altrimenti, si determina il valore di k {2, 3, . . .} per cui si ha

p 1 + p 2 + . . . p k 1 < U p 1 + p 2 + . . . p k ,

e si pone X = xk .

In pratica, la procedura equivalente a suddividere lintervallo (0, 1) in tanti sottointervalli di


ampiezza pari a p1 , p2 , p3, . . .: se il valore di U cade nel k-esimo sottointervallo, allora X = xk . La
complessit dellalgoritmo di generazione [12] coincide sostanzialmente con quella dellalgorit-
mo di ricerca del sottointervallo nel quale cade la variabile aleatoria U.
102 Trasformazioni di una variabile aleatoria

4.3.2 Generazione automatica di numeri casuali


Nel precedente paragrafo abbiamo visto che, a partire da una variabile aleatoria U uniforme in
(0, 1), possibile generare una variabile aleatoria X con CDF arbitraria FX ( x ) mediante la tra-
sformazione percentile X = FX1 (U ); tuttavia non abbiamo fornito una soluzione per generare, in
maniera computazionalmente efficiente, i valori di una variabile aleatoria uniforme (0, 1). Questo
problema pu essere risolto, in via approssimata, se disponiamo di una tecnica per la generazione
di numeri casuali interi.
Evidentemente, la tecnica pi semplice e teoricamente corretta per generare un numero casua-
le intero quella di eseguire un esperimento aleatorio, ed associare ad ogni risultato un numero
intero, in accordo con la definizione stessa di variabile aleatoria. Ad esempio, lanciando un dado
potremo generare numeri casuali da 1 a 6; estraendo una pallina da un paniere della tombola,
numeri casuali da 1 a 90, e cos via. Tali procedure, tuttavia, hanno lo svantaggio di non po-
ter essere facilmente automatizzate, ed essendo inoltre di tipo manuale o meccanico, risultano
estremamente lente.
Con lavvento dei calcolatori elettronici, si pensato di ricorrere a procedure aritmetiche di
tipo ricorsivo, che fossero di semplice realizzazione e consentissero quindi la generazione rapida
di sequenze x0 , x1 , . . . di numeri casuali molto lunghe (da migliaia a milioni di campioni). La
maggior parte di tali procedure generano il valore x n+1 della sequenza a partire dal valore prece-
dente xn , mediante una legge ricorsiva del tipo xn+1 = g( xn ), dove g una funzione opportuna,
ed il primo valore x0 della sequenza denominato seme (in inglese, seed). chiaro che, osser-
vato un valore della sequenza e conoscendo la legge g, possibile prevedere esattamente tutti i
valori successivi; per questo motivo la sequenza non realmente aleatoria, ma viene detta pseudo-
aleatoria. Quello che realmente interessa, allora, che la sequenza pseudo-aleatoria generata non
sia distinguibile, da parte di un osservatore esterno che non conosca la legge g, da una sequenza
realmente aleatoria, generata cio con metodi puramente casuali.

4.3.3 Algoritmo middle-square (Von Neumann)


Una delle prime procedure di tipo ricorsivo ad essere proposte fu lalgoritmo cosiddetto middle-
square, ideato da John Von Neumann nel 1946. Lalgoritmo il seguente: si parte da un
seme x0 di 4 cifre e lo si eleva al quadrato, ottenendo un numero del quale si conservano le 4
cifre intermedie (si eliminano le ultime due cifre); tali cifre costituiscono il numero x1 , che viene
nuovamente elevato al quadrato, e cos via. Ad esempio, la sequenza generata a partire dal seme
5232 la seguente:

x0 = 5232
52322 = 27|3738|24 x1 = 3738
37382 = 13|9726|44 x2 = 9726
97262 = 94|5950|76 x3 = 5950
...

Dalla sequenza intera ottenuta possibile ottenere numeri interi in (0, 1) semplicemente spostan-
do la virgola in prima posizione, ovvero dividendo ciascun numero per 10 000: ad esempio, la
sequenza del precedente esempio genera la seguente successione di valori in (0, 1):

0.5232 0.3738 0.9726 0.5950 ...


4.3 Problema inverso: determinazione di g( x ) 103

chiaro che, essendo solo 10 000 i numeri di quattro cifre, e poich ogni numero dipende solo
da quello precedentemente generato, la sequenza ottenuta sar necessariamente periodica, con
periodo al pi pari a 10 000. In realt, il principale svantaggio di tale procedura che le propriet
della sequenza generata dipendono in maniera critica dalla scelta del seme iniziale; ad esempio,
la scelta x0 = 0000 produce la sequenza banale

0000 0000 0000 ...

Ma anche scelte meno banali del seme possono portare a risultati altrettanto sgradevoli: ad
esempio, scegliendo x0 = 2100, si ottiene la sequenza composta dai soli quattro valori interi

2100 4100 8100 6100

che si ripetono indefinitamente. Proprio a causa della sensibilit rispetto alla scelta del seme
iniziale, il metodo middle-square stato presto abbandonato, e lattenzione degli studiosi si
spostata verso tecniche ricorsive che fossero al tempo stesso pi efficienti computazionalmente
(lalgoritmo middle-square ricorre ad una elevazione al quadrato, che ha una complessit al-
goritmica non trascurabile) e tali da garantire propriet ottimali o quasi ottimali delle sequenze
generate.

4.3.4 Algoritmo lineare congruente


Al giorno doggi, lalgoritmo pi diffusamente utilizzato per la generazione di numeri casuali
quello cosiddetto lineare congruente, nel quale la ricorsione xn+1 = g( xn ) pu essere espressa
come:
x n +1 = ( a x n + c ) mod m (4.6)

dove il moltiplicatore a, lincremento c ed il modulo m sono tutti numeri interi non negativi. Le-
quazione (4.6) descrive sostanzialmente una ricorsione lineare, in cui tuttavia il risultato preso
in aritmetica modulo m, considerando cio il resto della divisione per m e ottenendo quindi
sempre numeri interi compresi tra 0 ed m 1, estremi inclusi. Ad esempio, scegliendo a = c = 7,
m = 10 ed un seme x0 = 7, si ottiene la sequenza:

7 6 9 0 7 6 9 0 ...

che risulta chiaramente periodica di periodo 4. Tale periodicit una propriet generale del
generatore lineare congruente: tutte le sequenze generate in base alla (4.6) saranno periodiche
di periodo minore o uguale ad m, in quanto composte al pi da m valori. Per avere un buon
generatore, allora, dovremo scegliere m molto grande: in pratica converrebbe scegliere m pari al
massimo numero intero rappresentabile nella parola macchina del calcolatore, quindi ad esempio
m = 216 per un calcolatore a 16 bit, oppure m = 232 per un calcolatore a 32 bit. Inoltre dobbiamo
assicurarci che la sequenza generata sia a massimo periodo: affinch ci accada, devono valere le
seguenti condizioni [9]:

1. c ed a devono essere primi tra loro;

2. a 1 devessere multiplo di ogni fattore primo di m;

3. a 1 devessere multiplo di 4 se m multiplo di 4.


104 Trasformazioni di una variabile aleatoria

chiaro che, nel caso di sequenze a massimo periodo, il periodo m dovr eccedere significa-
tivamente la lunghezza tipica delle sequenze che utilizzeremo in una singola simulazione; se
cos non fosse, la periodicit della sequenza generata sarebbe chiaramente individuabile, e ci ne
comprometterebbe la natura pseudo-aleatoria.6
Una volta progettato un buon generatore di numeri casuali interi xn tra 0 ed m 1, possiamo
ottenere un generatore7 di numeri casuali yn tra 0 ed 1 semplicemente dividendo x n per m:
xn
yn = .
m
I numeri yn cos generati non riempiono tutto lintervallo (0, 1), ma si dispongono su un reticolo
monodimensionale con spaziatura 1/m; in pratica, non otterremo tutti i numeri reali tra 0 ed 1,
ma soltanto i numeri razionali del tipo p/m, con p {0, 1, . . . , m 1}. Se per m molto grande,
il reticolo sufficientemente fitto da potersi ritenere una buona approssimazione8 dei numeri
nellintervallo (0, 1).
Osserviamo inoltre che, se la sequenza a massimo periodo, ogni valore p tra 0 ed m 1 sar
assunto una ed una sola volta nel periodo, e quindi ogni valore razionale p/m sar anchesso
assunto una ed una sola volta nel periodo; in altri termini, osservando una sequenza di lunghezza
pari al periodo m, otterrei una distribuzione perfettamente uniforme (sebbene discreta) di valori in
(0, 1). In pratica, se m sufficientemente elevato, possibile osservare solo sequenze di lunghezza
molto minore del periodo, per cui la legge di distribuzione dei valori solo approssimativamente
uniforme, se il segmento di sequenza osservato sufficientemente lungo.
Una classe di generatori lineari congruenti particolarmente utilizzata quella dei generatori
puramente moltiplicativi, per i quali cio c = 0. In questo caso, la condizione c = 0 impedisce
di raggiungere il massimo periodo m, perch dobbiamo escludere dai valori ammissibili per la
sequenza il valore 0, che porterebbe il generatore in un ciclo composto da tutti 0; tuttavia esistono
condizioni che garantiscono comunque la possibilit di raggiungere un periodo massimo pari ad
m 1, e precisamente ci accade se:

1. m primo;

2. a una radice primitiva9 di m;

3. il seme x0 diverso da zero.

Ad esempio, il generatore rand utilizzato in Matlab10 di tipo puramente moltiplicativo, con c =


0, m = 231 1 = 2147483647 ed a = 75 = 16807, e periodo pari a m 1 = 231 2 = 2147483646.
Tale generatore stato proposto per la prima volta da S. K. Park e K. W. Miller in [10] ed quello
pi comunemente implementato nella maggior parte dei linguaggi di programmazione moderni
(generatore di Park e Miller).
6 Una regola pratica [11] che il periodo del generatore deve eccedere il quadrato della massima lunghezza delle

sequenza generate in una simulazione.


7
Tali generatori fanno parte delle funzioni di libreria dei moderni linguaggi di programmazione, nei quali assumono
la denominazione di funzione rand, o similari.
8 Consideriamo anche che se m rappresenta il massimo numero rappresentabile in macchina, la differenza 1/m tra due

numeri razionali consecutivi la minima che posso rappresentare su una macchina con registri di dimensione finita.
9 Un numero intero a si dice [3] [9] radice primitiva di m se il pi piccolo valore di n tale che a n 1 = 0 mod m

n = m 1.
10 Fino alla versione 4: nella versione 5 e successive si utilizza un generatore basato su un algoritmo pi sofisticato

di quello lineare congruente, che assicura un periodo pari a 21492 (si veda http://www.mathworks.com/company/
newsletter/pdf/Cleve.pdf per maggiori dettagli sui generatori impiegati in Matlab).
4.3 Problema inverso: determinazione di g( x ) 105

0.15 0.15

0.1 0.1
f (x)

f (x)
X

X
0.05 0.05

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
x x

Fig. 4.21. Istogrammi di N = 4000 valori generati dal generatore good (a sinistra) e dal generatore bad
(a destra).

4.3.5 Test statistici sui generatori


Se osserviamo un intero periodo di una sequenza alluscita di un generatore lineare congruente,
la condizione di massimo periodo implica che ogni numero intero si presenti una ed una sola
volta, e quindi garantisce luniformit dei numeri generati; tuttavia, tale condizione da sola non
sufficiente per assicurare alla sequenza generata una natura realmente aleatoria o pseudo-aleatoria.
Si pensi, ad esempio, al seguente generatore lineare congruente:

x n +1 = ( x n + 1 ) mod m ; (4.7)

esso evidentemente a massimo periodo, in quanto inizializzato ad esempio con x0 = 0 generer


la sequenza:
0 1 2 ... m1 0 1 ...
che ha periodo m, tuttavia la sequenza generata (una rampa di valori discreti) non ha evi-
dentemente propriet aleatorie o pseudo-aleatorie. Per casi meno evidenti, gli studiosi hanno
messo a punto svariati test statistici [9], che consentono di verificare la capacit di un generatore
di simulare il comportamento aleatorio.
Un test semplice per verificare la distribuzione uniforme o quasi uniforme dei numeri generati
consiste nel generare una sequenza sufficientemente lunga (ma di lunghezza molto minore del
massimo periodo) e calcolarne listogramma dei valori (il numero dei valori che cadono tra 0.0 e
0.1, tra 0.1 e 0.2 e cos via), il che corrisponde in pratica, se si divide il numero dei valori in ciascun
intervallo per lampiezza x dellintervallo, ad effettuare una stima empirica della pdf dei valori
generati. Ad esempio, consideriamo i due seguenti generatori:

good: generatore di Park e Miller (lineare congruente con c = 0, m = 231 1 = 2147483647


ed a = 75 = 16807);

bad: generatore lineare congruente con c = 0, m = 217 = 131072 ed a = 1277.

In Fig. 4.21, sono riportati gli istogrammi di N = 4000 valori generati in (0, 1) da ciascuno dei due
generatori: si pu notare che per entrambi lipotesi di distribuzione uniforme ben verificata.
Tuttavia, abbiamo osservato che non basta che la distribuzione sia uniforme, ma occorre ve-
rificare che non ci sia una regolarit facilmente identificabile nella sequenza generata. Un te-
st semplice per individuare tali regolarit consiste nel diagrammare su un piano cartesiano le
106 Trasformazioni di una variabile aleatoria

1 1

0.9 0.9

0.8 0.8

0.7 0.7

0.6 0.6
yn+1

n+1
0.5 0.5

y
0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
yn y
n

Fig. 4.22. Diagrammi delle coppie (yn , yn+1 ) di valori consecutivi generati in (0, 1) per il generatore
good(a sinistra) ed il generatore bad (a destra).

coppie di valori ( x n , xn+1 ) generate: poich x n+1 = f ( x n ), un cattivo generatore tender a


presentare delle configurazioni regolari abbastanza evidenti. Ad esempio, il diagramma per il
generatore (4.7) a rampa sarebbe composto dalle coppie

(0, 1) (1, 2) (2, 3) (3, 4) ...

che si dispongono chiaramente a formare una retta. I corrispondenti diagrammi per i due gene-
ratori considerati sono riportati in Fig. 4.22, con riferimento ai valori yn generati nellintervallo
(0, 1): mentre il generatore good (a sinistra) non presenta schemi o regolarit facilmente indivi-
duabili, facile invece notare che nel diagramma del generatore bad (a destra) i valori tendono
a disporsi su rette oblique, il che induce a ritenere che bad non sia un buon generatore. Ov-
viamente esistono test pi sofisticati di questi menzionati, per i quali si rimanda a [9] e [12]; per
verificare la bont di un generatore, buona norma sottoporlo a pi di un test. A tale proposito,
gli studiosi di generatori di numeri casuali sono soliti citare laffermazione: Un generatore pu
ingannare un test qualche volta, e qualche test tutte le volte, ma non tutti i test tutte le volte.
4.4 Esercizi proposti 107

4.4 Esercizi proposti


Esercizio 4.1. Sia X N(0, 1), mostrare che Y = | X | ha CDF FY (y) = (2 G(y) 1) u (y). Determinare inoltre
la pdf di Y e rappresentarla graficamente.

Esercizio 4.2. Sia X N(0, 1), mostrare che Y = 1/X2 ha CDF FY (y) = 2[1 G(1/ y)] u (y). Determinare
inoltre la pdf di Y e rappresentarla graficamente.

Esercizio 4.3. Sia X una variabile aleatoria X Cauchy(1).


a) Dimostrare che la sua CDF :
1 1
+ arctan x .
FX ( x ) =
2
b) Determinare CDF e pdf della variabile aleatoria Y ottenuta attraverso la seguente trasformazione:
(
0, X 0 ;
Y=
X, X > 0 .

e rappresentarle graficamente.
c) Determinare CDF e pdf della variabile aleatoria Y ottenuta attraverso la seguente trasformazione:
(
1, X 0 ;
Y=
X, X > 0.

e rappresentarle graficamente.

Esercizio 4.4. Sia X la variabile aleatoria che descrive il numero di teste che si ottengono nel lancio di 3
monete bilanciate. Determinare la DF della variabile aleatoria Y = 3 X.

Esercizio 4.5. Sia X una variabile aleatoria discreta che assume tutti i valori interi tra 2 e 2 (estremi inclusi)
in maniera equiprobabile.
a) Determinare la DF di Y = | X | e rappresentarla graficamente;
b) ripetere il punto 1 per la variabile aleatoria Y = sgn( X ) + X;
c) ripetere il punto 1 per la variabile aleatoria Y = X2 1.

Esercizio 4.6. Mostrare che se X U(0, 2 ), allora Y = tan ( X ) Y Cauchy(1).

Esercizio 4.7. Si determini la pdf di Y definita attraverso la seguente trasformazione:


(
X, | X | Xmax ;
Y=
Xmax sgn( X ), | X | > Xmax .

in termini della pdf di X. Particolarizzare il risultato al caso in cui X N(0, 3 Xmax ).

Esercizio 4.8. Si determini la pdf di Y = sin( X + ), con X U(0, 2 ) e costante.

Esercizio 4.9. Sia X U(1, 3) una variabile aleatoria uniforme.



a) Determinare la pdf di Y = X + 1 u ( X + 1) e rappresentarla graficamente;
b) ripetere il punto 1 per Y = | X |;
p
c) ripetere il punto 1 per Y = | X |.

Esercizio 4.10. Sia X N(0, 1), e si consideri la trasformazione Y = g( X ), con



0,
| x| < 1 ;
g( x ) = x 1, x 1 ;


x + 1, x 1 .

Determinare la pdf di Y e rappresentarla graficamente.


108 Trasformazioni di una variabile aleatoria

Esercizio 4.11. Sia X Lap(), e si consideri la trasformazione Y = g( X ), con



1,
| x | < 1 ;
g( x ) = x , x 1 ;
1


x + 1 , x 1 .
Determinare la pdf di Y e rappresentarla graficamente.

Esercizio 4.12. Sia X Exp(), determinare la pdf di Y = e X .

Esercizio 4.13. Sia X N(, ), determinare la pdf di Y = e X (pdf lognormale).

Esercizio 4.14. Sia X una variabile aleatoria con pdf f X ( x ) = 2 e2x u ( x ).


a) Determinare la pdf della variabile aleatoria Y = 2 X 5, e rappresentare le pdf di X ed Y sullo stesso
diagramma;
b) ripetere il punto 1 per Y = 2 X + 1.

Esercizio 4.15. Sia X una variabile aleatoria con pdf f X ( x ) = e x u ( x ), e sia Y = g( X ) la variabile aleatoria
ottenuta mediante la seguente trasformazione:
(
x, x 1;
g( x ) =
1/x, x > 1 .
Determinare la pdf della variabile aleatoria Y e rappresentarla graficamente.

Esercizio 4.16. Determinare la trasformazione che consente di generare una variabile aleatoria X U(0, 2 )
a partire da una variabile aleatoria U U(0, 1).
[Risposta: g( x ) = 2x]

Esercizio 4.17. Determinare la trasformazione che consente di generare una variabile aleatoria X Cauchy ()
a partire da una variabile aleatoria U U(0, 1).
[Risposta: g( x ) = tan[ ( x 0.5)]]

Esercizio 4.18. Determinare la trasformazione che consente di generare una variabile aleatoria X Lap()
a partire da una variabile aleatoria U U(0, 1).
[Risposta: g( x ) = (1/) ln(2x ), per x 1/2; g( x ) = (1/) ln[2(1 x )], per x 1/2]

Esercizio 4.19. Determinare la trasformazione che consente, a partire da una variabile aleatoria U U(0, 1),
di generare una variabile aleatoria X di tipo Weibull, avente cio pdf:
f X ( x ) = x 1 e x u ( x ) ,

con 0. [Risposta: g( x ) = [ ln( x )]1/ ]

Esercizio 4.20. Determinare la trasformazione che consente, a partire da una variabile aleatoria U U(0, 1),
di generare una variabile aleatoria X di tipo Pareto, avente cio pdf:
1
f X (x) = u ( x 1)
x
  1
1 1
con > 1. [Risposta: g( x ) = x ]

Esercizio 4.21. Determinare la trasformazione che consente, a partire da una variabile aleatoria U U(0, 1),
di generare una variabile aleatoria X avente pdf
(
12( x 0.5)2 , 0 < x < 1 ;
f X (x) =
0, altrimenti .

Esercizio 4.22. Si consideri la variabile aleatoria X definita come


(
(2 U )1/2 , U < 0.5 ;
X=
2 (2 2 U )1/2 , U 0.5 .
con U U(0, 1). Mostrare che X ha una pdf triangolare in (0, 2).
Capitolo 5

Caratterizzazione sintetica di una


variabile aleatoria

In questo capitolo si introducono le principali grandezze (media, varianza, valor quadratico


medio) che consentono di fornire la cosiddetta caratterizzazione sintetica di una variabile alea-
toria, mostrando altres che tali grandezze appartengono alla pi ampia classe dei momenti di
una variabile aleatoria. Si introduce poi il teorema fondamentale della media, che semplifica no-
tevolmente il calcolo dei momenti di una variabile aleatoria Y ottenuta mediante trasformazione
Y = g( X ) da unaltra variabile aleatoria X. Infine, si introducono le disuguaglianze fondamenta-
li (Markov, Bienaym, Chebishev) che consentono di legare tra loro alcuni momenti con i valori
di probabilit; in particolare, la disuguaglianza di Chebishev fornisce uninterpretazione della
varianza come indice di dispersione e mette in relazione i valori assunti dalla varianza con quelli
della probabilit che una variabile aleatoria assuma valori in prossimit della sua media.

5.1 Introduzione

Abbiamo visto che una variabile aleatoria X completamente descritta (completamente caratte-
rizzata, in gergo probabilistico) dalla conoscenza della sua CDF, pdf, o DF. In molti casi pratici,
tuttavia, tale informazione eccessivamente dettagliata oppure difficile da ottenere, mentre in-
vece interessante conoscere solo alcuni parametri numerici della variabile aleatoria, che sono
genericamente denominati momenti. Tali parametri forniscono informazioni sintetiche (rispetto
alla conoscenza della CDF, pdf, o DF) sulla variabile aleatoria: si parla infatti in tal caso di ca-
ratterizzazione sintetica della variabile aleatoria in oggetto. Il primo passo per introdurre la ca-
ratterizzazione sintetica quello di fornire la definizione di media (statistica) di una variabile
aleatoria.
110 Caratterizzazione sintetica di una variabile aleatoria

5.2 Media di una variabile aleatoria


La definizione dei momenti di una variabile aleatoria discende in maniera diretta del concetto
fondamentale di media (statistica):

Definizione (media di una variabile aleatoria). La media (statistica) E( X ) di una variabile


aleatoria X con pdf f ( x ) : Z
E( X ) , x f ( x ) dx (5.1)

se tale integrale esiste finito.

Osserviamo che la media di una variabile aleatoria un numero reale. Nella notazione E[ X ], la
E deriva dalla denominazione anglosassone di media come expectation (in italiano, diremmo
valore atteso). Talvolta si usa indicare la media di una variabile aleatoria con la lettera greca
; per specificare, poi, che si tratta della media della variabile aleatoria X, useremo anche la
notazione X .

Esempio 5.1 (media di una variabile aleatoria uniforme). Sia X U( a, b ), allora si ha:
Z b   x =b
1 1 x2 a+b
E(X) = x dx = = ,
a ba ba 2 x=a 2

per cui la media di X coincide con il punto medio dellintervallo [ a, b ].

Esempio 5.2 (media di una variabile aleatoria esponenziale). Sia X Exp(), allora si ha:
Z Z
d
E(X) = x ex dx = x [ ex ] dx = (per parti) =
0 0 dx
h i x = Z
1
= xex + ex dx = ,
x =0 0
per cui la media di X coincide con il reciproco del parametro .

Che cosa rappresenta in pratica la media, o valore atteso? Dal punto di vista matematico, lin-
tegrale nella (5.1) effettua una media pesata dei valori x, dove la pesatura rappresentata
dal valore f ( x ) della pdf nel punto x, e quindi i valori x in corrispondenza dei quali la pdf
pi grande vengono pesati maggiormente, e contribuiscono in maggior misura al valore della
media. Con una similitudine tratta dalla fisica, possiamo pensare alla media E( X ) come al valore
baricentrico della distribuzione (pdf) di probabilit (e difatti la definizione di media formal-
mente identica alla definizione del baricentro di una distribuzione lineare di masse). In pratica, la
media una grandezza deterministica che si pu interpretare come rappresentativa dei valori
assunti dalla variabile aleatoria, ed in questo senso si parla di valore atteso; questo luso che
si fa correntemente della media quando si fanno affermazioni del tipo i maschi italiani sono alti
in media 172 cm oppure uno studente di Ingegneria impiega in media 2.3 mesi a preparare
un esame. Si noti tuttavia che, a dispetto dellinterpretazione precedente, per particolari forme
della pdf la media potrebbe non coincidere con alcuno dei valori assunti dalla variabile aleatoria
(ci accade spesso per variabili aleatorie discrete). Altre grandezze deterministiche che possono
essere assunte come rappresentative della variabile aleatoria sono la mediana (ovvero il valore
5.2 Media di una variabile aleatoria 111

che non superato con probabilit pari a 0.5, vedi 3.2.3) e la moda (ovvero il valore in cui la pdf
ha un massimo locale, vedi 3.3.1).

Esempio 5.3 (media di una variabile aleatoria di Cauchy). Per particolari pdf la media potrebbe non essere
definita, nel senso che la funzione integranda nella (5.1) potrebbe non essere sommabile. questo il caso di
una variabile aleatoria X Cauchy (), che ha pdf f ( x ) = x/2 + 2 , per la quale lintegrale nella (5.1) si scrive
esplicitamente come:
Z Z
/
E(X) , x f ( x ) dx = x dx .
x 2 + 2
La funzione integranda non sommabile, in quanto decade a zero allinfinito come 1/x. Pertanto, la media
E ( X ) di una variabile aleatoria di Cauchy non definita.1

Osserviamo che, se la media E( X ) esiste, e se la retta verticale di equazione x = a un asse di


simmetria per f ( x ), cio se
f ( a + x ) = f ( a x ), x R,
allora facile dimostrare2 che E( X ) = a. In particolare, se f ( x ) una funzione pari, x = 0 un
asse di simmetria, per cui E( X ) = 0 (variabile aleatoria a media nulla).

Esempio 5.4 (media di una variabile aleatoria gaussiana). Sia X N(, ), ricordiamo che la sua pdf
(cfr. 3.5.7)
2
1 ( x )
f (x) = e 22 .
2
Poich tale funzione ha chiaramente x = come asse di simmetria, allora risulta necessariamente E ( X ) =
(notiamo che la media esiste, in quanto la funzione x f ( x ) sicuramente sommabile, in quanto di tipo
esponenziale). Pertanto il parametro , caratteristico di una variabile aleatoria gaussiana, ne rappresenta la
media E ( X ).
Vediamo come si particolarizza la definizione di media al caso in cui X una variabile aleatoria
discreta. In tal caso, la pdf f ( x ) si riduce (cfr. 3.3) ad una somma discreta di impulsi di Dirac,
del tipo
f ( x ) = pi ( x xi ) ,
x i X

dove pi = P( X = xi ), per cui, sostituendo la pdf nella definizione di media, si ottiene con facili
passaggi:
Z Z
E( X ) =

x f ( x ) dx =

x pi ( x x i ) dx
x i X
Z
= pi

x ( x xi ) dx = pi xi
x i X x i X

= xi P( X = xi ) = xi p( xi ) ,
x i X x i X

ovvero la media si pu esprimere, anzich attraverso un integrale, mediante una sommatoria dei
valori xi X della variabile aleatoria discreta X, ciascuno pesato per la DF p( x ) calcolata nel pun-
to xi (somma pesata). Se i valori x i sono in numero finito ed equiprobabili, la media statistica
si riduce alla semplice media aritmetica dei valori xi .

1 Notiamo che se, viceversa, si adoperasse nella (5.1) la definizione di integrale a valor principale secondo Cauchy o integrale

improprio, la media risulterebbe nulla per la simmetria della pdf.


2 In questo caso, si pu anche verificare facilmente che, se x = a anche un punto di massimo locale della pdf, allora

media, moda e mediana coincidono.


112 Caratterizzazione sintetica di una variabile aleatoria

Esempio 5.5 (media di una variabile aleatoria di Bernoulli). Sia X Bern( p), allora

E ( X ) = 0 P ( X = 0) + 1 P ( X = 1) = 0 q + 1 p = p .

Si noti come la media (salvo nei casi, peraltro poco interessanti, in cui p = 0 oppure p = 1) non coincide con
alcun valore assunto dalla variabile aleatoria X.

Esempio 5.6 (media di una variabile aleatoria binomiale). Sia X B(n, p), allora

n n  
n k
E(X) = k P( X = k) = k p (1 p)nk = np .
k =0 k =0
k

Per ottenere tale risultato, occorre sfruttare opportunamente le propriet dei coefficienti binomiali. Si ha:
 
n n
n k n!
E(X) = k p (1 p ) n k = k p k (1 p ) n k
k =0
k k =1
k! ( n k)!
n n 1
n! n!
= p k (1 p ) n k = p h +1 (1 p ) n h 1
k =1
( k 1 ) ! ( n k ) ! h =0
h! ( n h 1 ) !
n 1
( n 1) !
= np ph (1 p)n1h = np .
h =0
h! ( n 1 h)!
| {z }
=( p + q ) n 1=1

Vedremo nel seguito (cfr. esempio 8.2) che il risultato precedente si pu giustificare assai pi semplicemente
riguardando la variabile aleatoria binomiale come la somma di n variabili aleatorie bernoulliane. Osserviamo
infine che solo nel caso in cui np sia intero, la media coincide con uno dei valori assunti dalla variabile
aleatoria X.

Esempio 5.7 (media di una variabile aleatoria indicatrice di un evento). Sia X A la variabile aleatoria
indicatrice di un evento A (vedi esempio 3.10), e cio:
(
1, se A;
X A ( ) =
0, se 6 A.

Tale variabile aleatoria ovviamente discreta, e assume i valori 1 e 0 con probabilit P ( A) e P ( A). Si ha,
allora:
E ( X A ) = 1 P ( A ) + 0 P ( A) = P ( A ) .
Questo esempio evidenzia che la probabilit di un evento A si pu interpretare come media della variabile
aleatoria indicatrice dellevento stesso.

Esempio 5.8 (media di una costante). Sia X = a una variabile aleatoria costante, che assume lunico valore
reale a con probabilit 1. Poich la sua pdf f ( x ) = ( x a), si ha:
Z
E(X) = x ( x a) dx = a

e pertanto E ( a) = a.
5.2 Media di una variabile aleatoria 113

5.2.1 Teorema fondamentale della media


Occupiamoci adesso del problema, ricorrente nelle applicazioni, di calcolare la media di una
variabile aleatoria Y = g( X ) ottenuta come trasformazione di unaltra variabile aleatoria X.
Applicando la definizione di media per Y, si ha:
Z
E (Y ) , y f Y (y) dy .

Pertanto, per determinare E(Y ), sembra necessario calcolare la pdf f Y (y), il che pu farsi ado-
perando il teorema fondamentale 4.1 sulle trasformazioni di variabili aleatorie. Tale conclusione
non per del tutto corretta, in virt del seguente teorema fondamentale della media, che enunciamo
senza dimostrazione:

Teorema 5.1 (teorema fondamentale della media). Sia Y = g( X ) una trasformazione della
variabile aleatoria X avente pdf f X ( x ), si ha:
Z
E(Y ) = E[ g( X )] = g( x ) f X ( x ) dx

se tale integrale esiste finito.

Nel caso in cui X sia una variabile aleatoria discreta con DF p( x ), abbiamo avuto gi modo di
osservare che anche Y = g( X ) sar una variabile aleatoria discreta, ed il teorema fondamentale
della media si pu esprimere come:

E(Y ) = E[ g( X )] = g( xi ) P( X = xi ) = g( xi ) p X ( xi )
x i X x i X

ovvero la media di Y si esprime in termini della DF p X ( x ) di X. In questo caso si pu fornire una


dimostrazione semplice del teorema (si veda [4] oppure [5]).

Esempio 5.9. Sia X U(0, 2 ), e si voglia calcolare la media di Y = cos( X ). Applicando il teorema
fondamentale, scriviamo:
Z 2
1 1 2
E (Y ) = E [cos( X )] = cos( x ) dx = [sin( x )] xx =
=0 = 0
2 0 2
per cui E (Y ) = 0 e non stato necessario calcolare esplicitamente la pdf di Y, la cui espressione abbiamo
peraltro derivato nellesempio 4.3 (si tratta di una pdf pari, per cui effettivamente E (Y ) = 0).

5.2.2 Propriet della media


Loperazione di media gode delle seguenti propriet, che vengono enunciate senza dimostrazio-
ne:

1. Siano g() e h() funzioni reali, e siano a e b costanti reali. Si ha:

E[ a g( X ) + b h( X )] = a E[ g( X )] + b E[h( X )] .

In particolare, si ha:
E ( a X + b) = a E ( X ) + b ,

in quanto E(b) = b. Tale fondamentale propriet va sotto il nome di linearit della media.
114 Caratterizzazione sintetica di una variabile aleatoria

2. Se g( x ) 0 per ogni x, allora E[ g( X )] 0.

3. Se g1 ( x ) g2 ( x ) per ogni x, allora E[ g1 ( X )] E[ g2 ( X )].

4. Se a g( x ) b per ogni x, allora a E[ g( X )] b.

5.3 Varianza e valor quadratico medio di una variabile aleatoria


Passiamo ora a definire un altro importante parametro sintetico di una variabile aleatoria X,
ovvero la sua varianza:

Definizione (varianza di una variabile aleatoria). La varianza 2 = Var( X ) di una variabile


aleatoria X con media = E( X ) :
Z
2 = Var( X ) , E[( X )2 ] = ( x )2 f ( x ) dx , (5.2)

se tale integrale esiste finito.

Notiamo che la definizione precedente si pu interpretare anche come lapplicazione del teorema
fondamentale della media al calcolo della media di Y = g( X ) = ( X )2 .
p
La varianza una quantit non negativa: la sua radice quadrata , Var( X ) prende il no-
me di deviazione standard della variabile aleatoria X; si noti che la varianza dimensionalmente
omeogenea al quadrato della variabile aleatoria, mentre la deviazione standard ha le stesse di-
mensioni della variabile aleatoria. Useremo anche la notazione X per denotare esplicitamente
che si tratta della deviazione standard della variabile aleatoria X.
Sviluppando algebricamente il quadrato che compare nella definizione di varianza, ed ado-
perando la propriet di linearit della media, si ha, con semplici passaggi,

2 = E[( X )2 ] = E[ X 2 2X + 2 ] =
= E( X 2 ) 2E( X ) + 2 = E( X 2 ) 2 =
= E ( X 2 ) E2 ( X ) ,

ovvero la relazione fondamentale

Var( X ) = E( X 2 ) E2 ( X ) . (5.3)

La quantit E( X 2 ) (anchessa non negativa) si calcola applicando il teorema fondamentale della


media e prende il nome di valore quadratico medio (vqm):

Definizione (valor quadratico medio di una variabile aleatoria). Il valore quadratico medio
E( X 2 ) di una variabile aleatoria X :
Z
E( X 2 ) , x2 f ( x ) dx ,

se tale integrale esiste finito.


5.3 Varianza e valor quadratico medio di una variabile aleatoria 115

p
La radice quadrata xrms , E( X 2 ) del valore quadratico medio prende il nome di valore efficace
della variabile aleatoria X, ed dimensionalmente omogeneo ad X.3
La relazione (5.3) tra varianza, media e valor quadratico medio fondamentale, e mostra
che solo due tra questi tre parametri possono essere assegnati arbitrariamente, in quanto il terzo
dipende univocamente dagli altri due. Inoltre, la relazione (5.3) mostra che, per variabili aleatorie
a media nulla, la varianza coincide con il valor quadratico medio, e quindi la deviazione standard
coincide con il valore efficace.

Esempio 5.10 (varianza di una variabile aleatoria uniforme a media nulla). Consideriamo il caso di X
U( /2, /2), allora = E ( X ) = 0, e si ha:
Z /2   x =/2
1 1 x3 2
2 = E [ X 2 ] = x2 dx = = .
/2 3 x = /2 12

Osserviamo come la varianza cresca al crescere dellampiezza dellintervallo in cui la variabile aleatoria
X assume i suoi valori. Il caso di una variabile aleatoria uniforme a media non nulla trattato nellesempio
5.14.

Esempio 5.11 (varianza di una costante). Sia X = a una variabile aleatoria costante, che assume lunico
valore reale a con probabilit 1. immediato verificare che la sua varianza nulla, in quanto risulta X =
a a = 0.

Qual linterpretazione della varianza? Notiamo che lintegrale (5.2) effettua una media pesata,
con funzione di peso f ( x ), degli scarti quadratici ( x )2 tra i valori assunti dalla variabile alea-
toria e la sua media. La varianza 2 , pertanto, misura la concentrazione (o, equivalentemente, la
dispersione) di X intorno alla sua media . In altri termini, se una variabile aleatoria ha varianza
piccola, allora essa poco dispersa intorno alla sua media (assumer con maggior probabilit valo-
ri intorno alla media); viceversa, se una variabile aleatoria ha varianza grande, allora essa molto
dispersa intorno alla sua media (assumer con probabilit non trascurabile valori assai lontani
dalla media).4 Possiamo equivalentemente dire che la varianza una misura dellincertezza asso-
ciata ai valori della variabile aleatoria aleatoria X; infatti una variabile aleatoria costante (X = a)
ha varianza nulla, perch non c nessuna incertezza sui valori che pu assumere.
Adoperando una similitudine fisica, come la media equivalente al baricentro di una distri-
buzione di masse, cos la varianza rappresenta (e la sua espressione matematica formalmente
equivalente) il momento di inerzia della distribuzione di masse rispetto al baricentro.

Esempio 5.12 (varianza di una variabile aleatoria gaussiana). Sia X N(, ): vogliamo verificare che 2
rappresenta proprio la varianza di X, e quindi la sua deviazione standard. Per provarlo, ricorriamo ad un
artificio: avendo gi dimostrato che = E ( X ), consideriamo lintegrale (condizione di normalizzazione per
una pdf): Z
f ( x ) dx = 1 ,

che per la pdf gaussiana si scrive esplicitamente:
Z 2
1 ( x )
e 22 dx = 1 ,
2
3
Il pedice rms sta per root mean square, che la denominazione inglese per radice del valor quadratico medio.
4 Un legame quantitativo pi preciso tra il valore della varianza e la probabilit con cui la variabile aleatoria assume
valori nellintorno della media fornito dalla fondamentale disuguaglianza di Chebishev (vedi 5.5).
116 Caratterizzazione sintetica di una variabile aleatoria

ovvero: Z
( x2
) 2
e 2 dx = 2 .

Poich questidentit vale per ogni > 0, deriviamola rispetto a :
Z ( x ) 2 ( x )2
e 22
3
dx = 2

da cui, con banali manipolazioni algebriche,
Z ( x ) 2
1
Var( X ) = ( x )2 e 22 dx = 2
2
che quanto volevamo provare.

Se X una variabile aleatoria discreta, allora la sua pdf del tipo

f (x) = pi ( x xi )
x i X

e quindi, sostituendo la pdf nella definizione di varianza, con facili passaggi si ottiene:

2 = p i ( x i )2 = p ( x i ) ( x i )2
x i X x i X

dove p( x ) la DF di X. Ovviamente, anche per variabili aleatorie discrete vale la fondamentale


relazione (5.3) tra varianza, media e valor quadratico medio.

Esempio 5.13 (varianza di una variabile aleatoria di Bernoulli). Sia X Bern( p), allora, poich:

E(X) = 1 p+0q = p,
E( X2 ) = 12 p + 02 q = p ,

applicando la (5.3) si ha:


2 = E ( X 2 ) E 2 ( X ) = p p2 = p (1 p ) = p q .
Si noti che tale varianza, al variare di p e q, assume il valore massimo per p = q = 0.5 (condizione di
massima incertezza).

5.3.1 Propriet della varianza


Come evidente dalla sua definizione, la varianza non un operatore lineare, ma quadratico: si
pone allora il problema di come calcolare la varianza di Y = aX + b. Se X una variabile aleatoria
con varianza finita, qualunque siano le costanti reali a e b, si ha la fondamentale relazione:

Var( aX + b) = a2 Var( X ) . (5.4)

Prova. Sulla base della definizione, si ha:

Var( a X + b ) = E {[ a X + b E ( aX + b )]2 }

Adoperando la linearit della media, con semplici passaggi possiamo scrivere:

E {[ a X + b E ( aX + b )]2 } = E {[ a X + b aE ( X ) b )]2 } = E {[ a X aE ( X )]2 } =


= a2 E [ X E ( X )]2 = a2 Var( X )

che il risultato cercato. 


5.3 Varianza e valor quadratico medio di una variabile aleatoria 117

Notiamo che, nella trasformazione Y = a X + b, la varianza di Y non dipende da b, e quindi


in particolare la varianza di Y = X + b coincide con quella di X per qualunque valore della
traslazione b. Tale risultato intuitivamente chiaro se si considera che la varianza misura la
dispersione intorno alla media: una traslazione di b modifica evidentemente la media, ma non la
dispersione intorno ad essa. Questa propriet di invarianza per traslazione della varianza consente
di scegliere opportunamente b nei casi pratici in maniera tale da semplificare il calcolo della
varianza. In particolare, scegliendo b = X si costruisce la variabile aleatoria centrata Y = X
X che ha media nulla e la stessa varianza di X. Notiamo che, per il teorema sulle trasformazioni
di variabili aleatorie (cfr. 4.2.3), la pdf di Y si otterr semplicemente per traslazione della pdf di
X, ovvero f Y (y) = f X (y + X ).

Esempio 5.14 (varianza di una variabile aleatoria uniforme). Sia X U( a, b ), allora X = E ( X ) = a+ b


2 .
La variabile aleatoria centrata Y = X X avr media nulla e sar ancora uniforme, ma nellintervallo
( /2, /2), con = b a. Pertanto, ricordando il risultato dellesempio 5.10, si ha:

2 ( b a )2
Var( X ) = Var(Y ) = = .
12 12

In questo caso, lapplicazione della propriet (5.4) ha consentito di semplificare il calcolo, riconducendosi
ad una variabile aleatoria uniforme con la stessa varianza ma avente media nulla.

In molti casi, a partire da una variabile aleatoria X, si desidera ottenere una variabile aleatoria
standard, ovvero una variabile aleatoria Z a media nulla e varianza unitaria. allora sufficiente
dividere la variabile aleatoria centrata Y = X X per la deviazione standard di X, costruendo
Z come:
X X
Z= .
X
Infatti, banale verificare che E( Z ) = 0, mentre applicando la propriet (5.4) si ha:

1
Var( Z ) = Var( X ) = 1 .
X2

Notiamo che, poich Z si ottiene da X attraverso una trasformazione lineare del tipo Z = aX + b,
la pdf di Z sar data (per il teorema fondamentale sulle trasformazioni di variabili aleatorie, cfr.
4.2.3) da
f Z (z) = X f X (X z + X ) ,

e pertanto tale trasformazione di normalizzazione non modifica sostanzialmente la famiglia a


cui la pdf appartiene (nel senso che una variabile aleatoria uniforme resta uniforme, una variabi-
le aleatoria gaussiana resta gaussiana, e cos via) ma cambia solo la posizione della pdf sullasse
dellascisse (per effetto della traslazione di X ) e la scala della pdf (per effetto della moltiplicazio-
ne per X sia dellargomento che dei valori assunti). In particolare, se X N( X , X ), la variabile
X
aleatoria Z = X N(0, 1) ancora gaussiana con media nulla e varianza unitaria, e prende
X
il nome di normale standard (la sua CDF proprio la funzione G( x ) riportata in Appendice C).

Esempio 5.15. La procedura di normalizzazione precedentemente descritta particolarmente utile per il


calcolo di valori di probabilit riguardanti le variabile aleatoria gaussiane, in quanto consente di ricondurre
tale calcolo al caso di una gaussiana standard Z N(0, 1), che pu essere effettuato utilizzando la funzione
118 Caratterizzazione sintetica di una variabile aleatoria

G( x ). Si consideri ad esempio la variabile aleatoria X N(3, 0.5), della quale si desidera calcolare la
probabilit che assuma valori nellintervallo [2, 4]. Si ha:
 
23 X3 43
P ( X [2, 4]) = P (2 X 4) = P
0.5 0.5 0.5
= P (2 Z 2) = G(2) G(2) = 2 G(2) 1 = 0.9546

dove abbiamo sfruttato le propriet della funzione G( x ) e la tabella dei valori riportata in Appendice C.

5.4 Momenti di una variabile aleatoria


La media, la varianza ed il valor quadratico medio appartengono ad una classe di grandezze
sintetiche pi generali, i momenti di una variabile aleatoria:5

Definizione (momento). Il momento di ordine n N di una variabile aleatoria X :


Z
n , E ( X n ) = x n f ( x ) dx ,

se lintegrale esiste finito.

Definizione (momento centrale). Il momento centrale di ordine n N di una variabile


aleatoria X con media = E( X ) :
Z
n , E[( X )n ] = ( x )n f ( x ) dx ,

se lintegrale esiste finito.

Definizione (momento assoluto). Il momento assoluto di ordine n N di una variabile


aleatoria X : Z
E[| X |n ] = | x |n f ( x ) dx ,

se lintegrale esiste finito.

Definizione (momento generalizzato/assoluto). Il momento generalizzato rispetto ad a di


ordine n N di una variabile aleatoria X :
Z
E[( X a)n ] = ( x a)n f ( x ) dx ,

oppure nella versione assoluta :


Z
E[| X a|n ] = | x a|n f ( x ) dx ,

se i corrispondenti integrali esistono finiti.

Le definizioni precedenti si particolarizzano facilmente al caso di variabili aleatorie discrete. No-


tiamo poi che, di tali definizioni, le pi utilizzate sono quelle relative ai momenti propriamente
5 La definizione delle grandezze che seguono si pu sempre ricondurre allapplicazione del teorema fondamentale

della media ad opportune trasformazioni della variabile aleatoria X.


5.4 Momenti di una variabile aleatoria 119

detti (n ) ed ai momenti centrali (n ). In particolare, osserviamo che la media E( X ) = coincide


con il momento 1 di ordine n = 1, che la varianza 2 = Var( X ) coincide con il momento centrale
2 di ordine n = 2, e infine che il valor quadratico medio E( X 2 ) coincide con il momento 2 di
ordine n = 2. I momenti con n > 2 sono meno utilizzati, e prendono il nome di momenti di ordine
superiore.
Notiamo infine che la caratterizzazione di una variabile aleatoria in termini di momenti viene
detta caratterizzazione sintetica, in quanto fornisce uninformazione ridotta (per lappunto, sin-
tetica) rispetto alla conoscenza della CDF, pdf o DF. Infatti, mentre assegnare la CDF, pdf o
DF di una variabile aleatoria X (caratterizzazione statistica o caratterizzazione completa) con-
sente di calcolare un qualunque momento, la conoscenza di un sottoinsieme di momenti di X
(caratterizzazione sintetica) non consente in generale di risalire alla CDF, pdf o DF. 6

5.4.1 Relazione tra momenti e momenti centrali


immediato ricavare i momenti centrali in funzione di quelli non centrali, sfruttando la formula
per lo sviluppo della potenza n-esima di un binomio e la linearit della media. Si ha:
" #
n  
n n k nk
n = E[( X ) ] = E X () =
k =0
k
n   n  
n nk n
= k
E( X )() = k ()nk .
k =0
k k =0
k

Osserviamo che il momento centrale n di ordine n dipende dalla media e da tutti i momenti
k di ordine k n.
Altrettanto immediato ricavare i momenti non centrali in funzione di quelli centrali. Si ha:
" #
n  
n n n k nk
n = E[ X ] = E[( X + ) ] = E ( X )
k =0
k
(5.5)
n   n  
n k nk n nk
= E[( X ) ] = .
k =0
k k =0
k k

Anche qui il momento n di ordine n dipende dalla media e da tutti i momenti centrali k di
ordine k n.

Esempio 5.16 (momenti di una variabile aleatoria gaussiana). Sia X N(, ): vogliamo calcolarne i
momenti e i momenti centrali di ordine n qualsiasi.
Iniziamo con il calcolo dei momenti della normale standard Z N(0, 1). Infatti, poich possiamo
esprimere una generica gaussiana X N(, ) in termini della normale standard Z, come X = Z + ,
potremo poi esprimere i momenti di X in funzione dei momenti di Z.
Poich Z a media nulla, momenti e momenti centrali coincidono: dobbiamo allora calcolare il generico
momento di ordine n, dato da:
Z
n = n = E [ Z n ] = x n f Z ( x ) dx ,

dove
1 1 2
f Z (x) = e 2 x .
2
6 Il discorso diverso se si suppone di conoscere tutti i momenti; in tal caso, sotto opportune ipotesi, possibile risalire

alla CDF, pdf o DF attraverso luso della funzione caratteristica (vedi ad esempio [3, 5-5])
120 Caratterizzazione sintetica di una variabile aleatoria

Notiamo che tali momenti esistono tutti finiti, perch la funzione x n f Z ( x ), per la natura esponenziale di
f Z ( x ), sommabile per ogni n N. Poich poi f Z ( x ) una funzione pari, i momenti per n dispari risultano
nulli, essendo definiti attraverso lintegrale di una funzione dispari; il calcolo va allora affrontato solo per n
pari. Poich il calcolo diretto dellintegrale per n pari tuttavia complicato, utilizziamo un artificio simile a
quello dellesempio 5.12, ovvero partiamo dallidentit
Z
2
ex dx = 1/2 ,

valida per ogni > 0, che si pu ottenere a partire dalla condizione di normalizzazione della pdf per una
variabile aleatoria X N (0, ) con 2 = 1/(2). Derivando k volte rispetto ad tale identit, si ottiene:
Z  
2 1
ex ( x2 ) dx = 3/2
2
Z   
x 2 2 2
1 3
e ( x )( x ) dx = 5/2
2 2
...
Z     
2
2 2 2
1 3 2k 1
e x
( x )( x ) ( x ) dx = (2k+1) /2
| {z } 2 2 2
k termini | {z }
k termini

Lultima relazione pu essere riscritta, con semplici manipolazioni algebriche, nella forma:
Z r
2
ex x2k dx = 1 3 (2k 1) (2)k

q

da cui, portando al primo membro e ponendo = 1/2 si ottiene:

Z
1 2
x2k e x /2
dx = 1 3 (2k 1) , (2k 1)!!
2

ovvero proprio il momento E ( Z n ) con n = 2k pari.7 In definitiva, se Z N(0, 1), si ha:


(
n 0, n dispari ;
E(Z ) =
(n 1)!!, n pari .

Possiamo adesso affrontare il caso pi generale di X N(, ). Procediamo dapprima considerando il


caso di una variabile aleatoria X con = 0 (a media nulla), per la quale ovviamente i momenti ed i momenti
centrali coincidono, ed inoltre si ha X = Z, per cui E ( X n ) = n E ( Z n ), e quindi:
(
0, n dispari ;
E(Xn ) = (5.6)
n (n 1)!!, n pari .

In particolare, per una variabile aleatoria X N(0, ), molto utilizzato il momento del quarto ordine
E ( X 4 ) = 3 4 .
Infine, se 6= 0, e quindi X N(, ), i momenti centrali n coincidono con quelli di Y = X che a
media nulla, e quindi sono dati ancora dalla relazione (5.6):
(
n 0, n dispari ;
n , E [( X ) ] =
n (n 1)!!, n pari ;

mentre i momenti non centrali si ottengono a partire da quelli centrali sfruttando la relazione (5.5).

7 Si noti che abbiamo utilizzato il simbolo !! (doppio fattoriale) per denotare il prodotto dei soli numeri dispari fino ad

un numero specificato (vedi Appendice A).


5.5 Disuguaglianze notevoli 121

5.5 Disuguaglianze notevoli


In questo paragrafo introdurremo tre disuguaglianze notevoli, che mettono in relazione tra lo-
ro momenti e probabilit. Procederemo introducendo la disuguaglianza di Markov, dalla quale
discende quella di Bienaym, ed infine particolarizzando questultima otterremo la fondamentale
disuguaglianza di Chebishev, la pi importante sia teoricamente che nelle applicazioni. Questul-
tima ci consentit, in particolare, di approfondire linterpretazione della varianza di una variabile
aleatoria X come indice di dispersione dei valori assunti dalla variabile aleatoria.

Teorema 5.2 (Disuguaglianza di Markov). Sia Y una variabile aleatoria positiva, cio tale
che f Y (y) 0 per ogni y < 0, e con media E(Y ) finita. Si ha:

E (Y )
P (Y )

per ogni > 0.

Prova. Si ha, con facili passaggi, la seguente catena di disuguaglianze:


Z Z Z
E (Y ) = y f Y (y) dy y f Y (y) dy f Y (y) dy = P (Y ) ,
0

da cui lasserto. 
Lutilit della disuguaglianza di Markov consiste nella possibilit di valutare approssimativa-
mente la probabilit che una variabile aleatoria positiva ecceda un dato valore . In effetti, poi-
ch P(Y ) per una variabile aleatoria continua rappresenta la CDF complementare F () =
1 FX (), allora la disuguaglianza di Markov fornisce un limite superiore per landamento della
CDF complementare di una variabile aleatoria positiva, che non pu decrescere pi lentamente
di 1/. Tuttavia, in molti casi pratici la rapidit di decadimento a zero della CDF complementare
molto pi rapido (ad esempio, di tipo esponenziale) di quello previsto dalla disuguaglianza
di Markov, come mostrato dal seguente esempio.

Esempio 5.17. Sia Y Exp(), con E (Y ) = 1 . Essendo FY (y) = [1 ey ] u (y), possiamo calcolare
direttamente P (Y ) = 1 FY () = e . La disuguaglianza di Markov si scrive allora esplicitamente
nella forma:
1
e .

Tale disuguaglianza senzaltro verificata, ma lerrore relativo tra primo membro (che decade con legge
esponenziale) e secondo membro (che decade con legge iperbolica) cresce senza limiti al crescere di ,
come dimostrato dai valori riportati in Tab. 5.5.

Teorema 5.3 (disuguaglianza di Bienaym). Sia X una variabile aleatoria e sia b un numero
reale. Si ha:
E(| X b|n )
P(| X b| ) ,
n
per ogni n N ed > 0.

Prova. Si ottiene banalmente dalla disuguaglianza di Markov ponendo Y = | X b | n ed = n , ed


osservando che, poich la funzione y = x n monotona crescente per n N, si ha

P (Y ) = P (| X b | n n ) = P (| X b | ) .

Si osservi che E (| X b | n ) deve esistere finito. 


122 Caratterizzazione sintetica di una variabile aleatoria

P(Y ) (Markov) P(Y ) (esatto)


2 5 101 1.35 101
5 2 101 6.74 103
10 1 101 4.54 105
20 5 102 2.06 109
50 2 102 1.93 1022
100 5 102 3.72 1044

Tab. 5.1. Confronto tra i valori di probabilit previsti dalla disuguaglianza di Markov e quelli esatti per una
variabile aleatoria esponenziale Y di parametro .

La probabilit che compare nella disuguaglianza di Bienaym quella che la variabile aleatoria
X non appartenga allintervallo (b , b + ). Tale probabilit a parit di , tanto pi piccola
quanto pi piccolo il momento assoluto E[| X b|n ] rispetto a b, che quindi va interpretato
come un indice di dispersione della variabile aleatoria intorno a b. Notiamo, in particolare, che
se b = = E( X ) e se n pari, E[| X b|n ] coincide con il momento centrale n di ordine n,
che pertanto va interpretato, per n pari, come un indice di dispersione intorno alla media. Tale
risultato vale in particolare per n = 2, e quindi per la varianza 2 = 2 , ed tanto importante da
prendere il nome di disuguaglianza di Chebishev:

Teorema 5.4 (disuguaglianza di Chebishev). Sia X una variabile aleatoria con media e
varianza 2 finite. Si ha:
2
P(| X | ) 2 , (5.7)

per ogni > 0.

Prova. Si ottiene dalla disuguaglianza di Bienaym per b = ed n = 2. 

Sulla base della disuguaglianza di Chebishev, la varianza pu essere interpretata come il pi


semplice indice di dispersione dei valori assunti da una variabile aleatoria intorno alla sua media.
Infatti, ponendo = k, possiamo anche riscrivere la (5.7) come

1
P(| X | k ) , (5.8)
k2
o equivalentemente come:
1
P(| X | < k ) 1 . (5.9)
k2
In particolare, la (5.9) consente di ottenere un limite inferiore per la probabilit che la variabile
aleatoria X assuma valori nellintervallo ( k, + k ), come evidenziato in Tab. 5.5, nella
quale tali valori sono riportati per i valori di k da 1 a 5.
Ad esempio, per k = 4 la variabile aleatoria assume valori in 4 con probabilit superiore
al 93%; pertanto, quanto pi piccola, tanto pi tale intervallo sar piccolo, e conterr comun-
que una frazione superiore al 93% dei valori assunti dalla variabile aleatoria. In questo senso,
misura la dispersione o variabilit della variabile aleatoria intorno alla media , ed questo il
motivo per cui, in ultima analisi, 2 denominata varianza.
Osserviamo infine che poich la disuguaglianza di Chebishev discende da quella di Markov,
valgono per essa considerazioni analoghe a quelle gi effettuate per la disuguaglianza di Markov
relativamente allo scostamento che pu essere notevole tra i valori effettivi di probabilit
5.5 Disuguaglianze notevoli 123

k intervallo P( X intervallo)
1 0
2 2 0.75
3 3 0.89
4 4 0.9375
5 5 0.96

Tab. 5.2. Probabilit che la variabile aleatoria X appartenga ad un intervallo centrato intorno alla media
previsti dalla disuguaglianza di Chebishev.

ed il limite previsto dalla disuguaglianza. Lutilit della disuguaglianza di Chebishev non sta
tanto nellaccuratezza con la quale in grado di fornire i valori della probabilit che la variabile
aleatoria X appartenga ad un intervallo centrato intorno alla media, ma nella sua generalit e
semplicit, in quanto consente di ottenere stime di tale probabilit senza richiedere la conoscenza
esplicita della pdf o CDF della variabile aleatoria, ma solo della sua varianza.
124 Caratterizzazione sintetica di una variabile aleatoria

5.6 Esercizi proposti


Esercizio 5.1. Calcolare la media e la varianza di una variabile aleatoria X Bern( p). [Risposta: = p,
2 = p q.]

Esercizio 5.2. Calcolare la media e la varianza di una variabile aleatoria X B(n, p). [Risposta: = n p,
2 = n p q.]

Esercizio 5.3. Calcolare la media e la varianza di una variabile aleatoria X Geom( p). [Risposta: = 1/p,
2 = q/p2 .]

Esercizio 5.4. Calcolare la media e la varianza di una variabile aleatoria X Poiss(). [Risposta: = ,
2 = .]

Esercizio 5.5. Calcolare la media e la varianza di una variabile aleatoria X U(0, 2 ). [Risposta: = ,
2
2 = 3 ]

Esercizio 5.6. Calcolare la media e la varianza di una variabile aleatoria X Exp(). [Risposta: = 1/,
2 = 1/2 ]

Esercizio 5.7. Calcolare la media e la varianza di una variabile aleatoria X Lap(). [Risposta: = 0,
2 = 2/2 ]

Esercizio
5.8. Calcolare la media e la varianza di una variabile aleatoria X Rayleigh(b ). [Risposta: =
b/4, 2 = b (1 /4)]

Esercizio 5.9. Calcolare la media e la varianza di una variabile aleatoria X di tipo Pareto, avente cio pdf:
1
f X (x) = u ( x 1)
x
con > 1. [Risposta: = 1 2 1
2 , per > 2; = ( 3)( 2)2 , per > 3]

Esercizio 5.10. Per ciascuna delle seguenti variabili aleatorie X, calcolare media e varianza.
a) X variabile aleatoria continua con pdf f X ( x ) = x 1 , 0 x 1, > 0;
b) X variabile aleatoria discreta con DF p X (k) = 1/n, k {1, 2 . . . , n }, n N;
c) X variabile aleatoria continua con pdf f X ( x ) = 3 ( x 1)2 , 0 x 2.
2
2 n +1 2 n2 1

[Risposta: a) = +
1 , = ( +2)( +1)2 ; b) = 2 , = 12 ; c) = 1, 2 = 3/5]

Esercizio 5.11. Sia X una variabile aleatoria continua non negativa. Mostrare che:

Z
E(X) = [1 FX ( x )] dx
0

Suggerimento: integrare per parti lintegrale tra (0, y) e far tendere y ad infinito.

Esercizio 5.12. Dovete aprire la porta del vostro nuovo ufficio, ed il portiere vi ha dato un mazzo con n chiavi
simili tra loro. Decidete di provarle tutte, a caso. In particolare, siete indecisi tra due strategie:
1. non eliminare dal mazzo le chiavi che si dimostrano inutili;
2. eliminare dal mazzo le chiavi che si dimostrano inutili.
Detta X la variabile aleatoria che conta il numero di tentativi che dovete effettuare per aprire la porta,
determinare la DF di X ed il numero medio di tentativi utilizzando le due strategie. [Risposta: E ( X ) = n
(strategia 1), E ( X ) = n+ 1
2 (strategia 2).]
5.6 Esercizi proposti 125

Esercizio 5.13. Se X una variabile aleatoria con media e valor quadratico medio unitari, calcolare media e
varianza della variabile aleatoria Y = X + 1.

Esercizio 5.14. Calcolare la media della variabile aleatoria Y = ln( X ), con X U(0, 1). [Risposta: = 1]

Esercizio 5.15. Se X N(0, 1), calcolare media e varianza di Y = | X |. [Risposta: = 2/, 2 = 1 2/ ]

Esercizio 5.16. Calcolare media e valore efficace della variabile aleatoria Y = cos( X ), con X U(0, 2 ).
[Risposta: = 0, yrms = 1 ]
2

Esercizio 5.17. Sia X una variabile aleatoria avente la seguente pdf


(
1 (1 + x ), | x | 1 ;
f X (x) = 2
0, altrimenti .

Calcolare la media e la varianza di Y = X2 . [Risposta: = 1/3; 2 = 4/45]

Esercizio 5.18. Un proiettile viene lanciato dal suolo con velocit iniziale v0 e con angolo rispetto al suolo
uniformemente distribuito tra 0 e /2. Detta X la variabile aleatoria che rappresenta la distanza tra il punto
in cui il proiettile stato lanciato e quello di atterraggio, determinare la distanza mediamente percorsa dal
2v20
proiettile (considerare il proiettile soggetto alla sola accelerazione di gravit g). [Risposta: E ( X ) = g ]

Esercizio 5.19. Si supponga che la durata X, espressa in secondi, di una telefonata da un cellulare sia una
variabile aleatoria esponenziale X Exp(), con media E ( X ) = 180. Il gestore A offre un piano tariffario
a 3 lire al secondo con scatto di 200 lire alla risposta (lo scatto alla risposta include i primi tre secondi di
conversazione), per cui il costo della telefonata (in lire) si esprime come:
(
200, 0<X3
Y=
200 + 3 ( X 3), X > 3

Il gestore B offre un piano tariffario a 4 lire al secondo senza scatto alla risposta, per cui il costo della
telefonata (in lire) si esprime semplicemente come Y = 4 X.
Stabilire qual il piano tariffario pi conveniente con riferimento al costo medio di una telefonata.

Esercizio 5.20. Dimostrare che la media di una variabile aleatoria X il valore b che rende minimo il
momento generalizzato E [( X b )2 ].

Esercizio 5.21. Dimostrare che la mediana m di una variabile aleatoria X il valore b che rende minimo il
momento generalizzato assoluto E (| X b |).
Suggerimento: utilizzare la formula di Leibnitz (Appendice F) per la derivazione.

Esercizio 5.22. Data una variabile aleatoria X N(, ), calcolare la probabilit che essa appartenga ad
un intervallo ( k, + k), con k {1, 2, 3, 4, 5}, e confrontare il risultato con i valori previsti dalla
disuguaglianza di Chebishev.
126 Caratterizzazione sintetica di una variabile aleatoria
Capitolo 6

Coppie di variabili aleatorie

In questo capitolo il concetto di variabile aleatoria viene generalizzato al caso di una coppia
di variabili aleatorie: si mostra in particolare che in questo caso la caratterizzazione statistica
completa avviene assegnando funzioni di due variabili, quali la CDF, la pdf o la DF congiunta
(statistiche congiunte). Inoltre, le statistiche delle variabili aleatorie prese singolarmente (statisti-
che marginali) si possono ricavare univocamente una volta assegnate le statistiche congiunte. Un
caso particolarmente semplice quello delle variabili aleatorie indipendenti, per le quali le stati-
stiche congiunte si fattorizzano semplicemente nel prodotto delle corrispondenti statistiche mar-
ginali. Particolarmente importante il caso di una coppia di variabili aleatorie congiuntamente
gaussiane, introdotto nellesempio 6.2. Il capitolo si conclude con lo studio delle trasformazioni
di coppie di variabili aleatorie e con lintroduzione del teorema fondamentale sulle trasformazio-
ni di coppie di variabili aleatorie, che rappresenta la naturale estensione del teorema gi studiato
per le trasformazioni di una variabile aleatoria.

6.1 Introduzione
Nei capitoli precedenti abbiamo affrontato lo studio di una singola variabile aleatoria X, introdu-
cendo in particolare le funzioni (CDF, pdf o DF) che servono per la sua caratterizzazione statisti-
ca. Anche quando ci siamo occupati di trasformazioni di variabili aleatorie, del tipo Y = g( X ),
mediante le quali a partire da una variabile aleatoria X si genera unaltra variabile aleatoria Y,
ci siamo limitati a caratterizzare singolarmente Y (calcolandone ad esempio la CDF, la pdf, o la
DF).
chiaro che, se Y si ottiene a partire da X mediante una trasformazione g( X ), il legame esi-
stente tra X ed Y semplice, essendo un legame di tipo deterministico; se conosciamo il valore di
X, il valore di Y perfettamente determinato (il viceversa vero solo se g una funzione inver-
tibile). Esistono tuttavia molti casi pratici in cui possibile definire due variabili aleatorie su uno
stesso esperimento di probabilit, ed il legame tra esse non semplicemente deterministico. Ad
128 Coppie di variabili aleatorie

esempio, si consideri lesperimento probabilistico che consiste nello scegliere una persona a caso
in un insieme di persone, e si supponga che la variabile aleatoria X rappresenti laltezza delle
persona scelta, mentre la variabile aleatoria Y ne rappresenta il peso. indubbio che esiste una
dipendenza tra X ed Y, ma tale dipendenza non espressa da una semplice relazione del tipo
Y = g( X ), in quanto il legame tra peso ed altezza dipende da tutta una serie di altri parametri,
quali costituzione fisica della persona, sesso, et, etc. Daltra parte appare abbastanza difficile, se
non impossibile, individuare una formula esatta che descrive la relazione tra peso ed altezza e
tenga conto di tutti i parametri del problema. ragionevole invece descrivere in maniera appros-
simata tale relazione utilizzando le leggi della probabilit, il che costituisce loggetto del presente
capitolo. Dovremo allora essere in grado di calcolare la probabilit che laltezza di una persona
sia compresa, diciamo, tra 180 e 190 cm, mentre il suo peso sia compreso tra 70 ed 80 kg. Tale
problema concettualmente simile a quello di descrivere congiuntamente due o pi esperimenti
aleatori (esperimento combinato) discusso in dettaglio nel 2.4.

6.2 Funzione di distribuzione cumulativa (CDF) congiunta


Consideriamo due variabili aleatorie X ed Y costruite sullo stesso spazio di probabilit (, S, P).
Sulla base delle conoscenze finora acquisite, siamo in grado di calcolare le probabilit che defini-
scono le CDF di X ed Y:

P( X x ) , FX ( x ) ;
P(Y y) , FY ( x ) ;

ma non sappiamo evidentemente calcolare la probabilit di eventi del tipo:

{ X x } {Y y} = { X x, Y y} ,

che rappresentano la probabilit che i valori assunti dalla coppia ( X, Y ) appartengano alla re-
gione del piano delimitata dalle rette di equazione X = x ed Y = y (regione in grigio in Fig.
6.2). Infatti questa probabilit non si pu esprimere in termini di FX ( x ) e FY (y).1 Tale considera-
zione porta naturalmente allintroduzione di una misura della probabilit congiunta degli eventi
{ X x } e {Y y}, rappresentata dalla funzione di distribuzione cumulativa (CDF) congiunta
della coppia di variabili aleatorie ( X, Y ):

Definizione (CDF congiunta). Date due variabili aleatorie X ed Y costruite su uno stesso
spazio di probabilit (, S, P), la loro CDF congiunta :

FXY ( x, y) , P( X x, Y y) , ( x, y) R R .

La CDF congiunta chiaramente una funzione reale di due variabili reali, a valori in [0, 1] (trat-
tandosi di una probabilit). Essendo una funzione di due variabili, essa risulta pi difficile da in-
terpretare e manipolare matematicamente, rispetto alle CDF FX ( x ) ed FY (y): le sue principali pro-
priet sono elencate nel paragrafo seguente. Notiamo che nel seguito, per brevit, utilizzeremo
sia la notazione FXY ( x, y), sia quella pi sintetica F ( x, y).
1 Tranne nel caso particolare in cui gli eventi { X x } e {Y y} siano indipendenti, come vedremo nel seguito.
6.2 Funzione di distribuzione cumulativa (CDF) congiunta 129

x X

Fig. 6.1. Levento { X x, Y y} costituito dai pun-


ti di le cui immagini ( X, Y ) cadono nella regione in
grigio.

6.2.1 Propriet della CDF congiunta

La CDF congiunta F ( x, y) gode delle seguenti propriet:

F (, y) = 0
1. F ( x, ) = 0
F (+, +) = 1

Prova. Per la prima identit , si ha:

F ( , y) = P ( X , Y y) ,

ma { X , Y y} { X } = { X = }, per cui P ( X , Y y) P ( X = ) = 0,
per la definizione di variabile aleatoria. Analogamente si procede per provare la seconda identit.
Infine, per provare la terza si scrive semplicemente:

F (+ , + ) = P ( X + , Y + ) = P () = 1 .

P ( x1 < X x2 , Y y ) = F ( x2 , y ) F ( x1 , y );
2.
P( X x, y1 < Y y2 ) = F ( x, y2 ) F ( x, y1 ).
130 Coppie di variabili aleatorie

Y Y

y y2

y1

x1 x2 X x1 x2 X

Fig. 6.2. Levento { x1 < X x2 , Y y} co- Fig. 6.3. Levento { x1 < X x2 , y1 < Y y2 }
stituito dai punti di le cui immagini ( X, Y ) costituito dai punti di le cui immagini ( X, Y )
cadono nella regione in grigio. cadono nella regione in grigio.

Prova. Per la prima relazione, si ha (Fig. 6.2)

{ X x1 , Y y } { x1 < X x2 , Y y } = { X x2 , Y y } ,

e gli eventi a primo membro sono mutuamente esclusivi, per cui:

P ( X x1 , Y y ) + P ( x1 < X x2 , Y y ) = P ( X x2 , Y y ) ,

ovvero:
F ( x1 , y ) + P ( x1 < X x2 , Y y ) = F ( x2 , y ) ,
da cui lasserto. Analogamente si procede per provare la seconda relazione. 

3. P ( x1 < X x2 , y1 < Y y2 ) = F ( x2 , y2 ) F ( x1 , y2 ) F ( x2 , y1 ) + F ( x1 , y1 ).

Prova. Si noti che si ha (Fig. 6.3):

{ x1 < X x2 , Y y2 } = { x1 < X x2 , Y y1 } { x1 < X x2 , y1 < Y y2 } ,

e gli eventi a secondo membro sono mutuamente esclusivi, per cui:

P ( x1 < X x2 , Y y2 ) = P ( x1 < X x2 , Y y1 ) + P ( x1 < X x2 , y1 < Y y2 ) ,

ovvero:

F ( x2 , y2 ) F ( x1 , y2 ) = F ( x2 , y1 ) F ( x1 , y1 ) + P ( x1 < X x2 , y1 < Y y2 ) ,

da cui lasserto. 

Per ricordare mnemonicamente tale propriet, osserviamo che la CDF compare con il segno
positivo nelle coppie concordi ( x1 , y1 ) e ( x2 , y2 ), mentre compare con il segno negativo
nelle coppie discordi ( x1 , y2 ) ed ( x2 , y1 ).
6.3 Funzione densit di probabilit (pdf) congiunta 131

6.3 Funzione densit di probabilit (pdf) congiunta


A partire dalla CDF congiunta, naturale definire la funzione densit di probabilit (pdf) con-
giunta di una coppia di variabili aleatorie ( X, Y ):

Definizione (pdf congiunta). Date due variabili aleatorie X ed Y con CDF congiunta
FXY ( x, y), la loro pdf congiunta :

2
f XY ( x, y) , F ( x, y) . (6.1)
xy XY

Notiamo che nella definizione di pdf congiunta compare la derivata mista (rispetto a x ed y) della
funzione di due variabili FXY ( x, y); poich la pdf unica, assumeremo che tale derivata mista
non dipenda dallordine di derivazione, ovvero che la funzione FXY ( x, y) soddisfi la seguente
condizione di Schwartz per lo scambio dellordine di derivazione: le derivate miste di FXY ( x, y)
rispetto ad x ed y devono esistere ed essere continue.2 Notiamo che nel seguito utilizzeremo per
la pdf congiunta sia la notazione f XY ( x, y), sia quella pi snella f ( x, y).

6.3.1 Propriet della pdf congiunta


Mentre, sulla base della definizione, la pdf congiunta si ottiene a partire dalla CDF congiunta per
semplice derivazione, la seguente relazione consente di calcolare la CDF congiunta a partire dalla
pdf congiunta per integrazione:

Z x Z y
F ( x, y) = f (u, v) du dv . (6.2)

Prova. Integrando membro a membro la (6.1), si ha:


Z x Z y Z x Z y
2
f (u, v) du dv = F (u, v) du dv ,
uv
ed il secondo membro si scrive:
Z x Z y
 Z x
v=y
F (u, v) dv du = [ F (u, v)]v= du
u v u

Z x

= F (u, y) F (u, ) du
u | {z }
=0
=x
= [ F (u, y)]uu= = F ( x, y) ,

per cui resta provato lasserto. 


Dalla (6.2), ponendo x = y = +, e ricordando che F (+, +) = 1 si ricava:

Z Z
f (u, v) du dv = 1 ,

che rappresenta la cosiddetta condizione di normalizzazione della pdf, che va interpretata geome-
tricamente nel senso che il volume compreso tra la superficie di equazione z = f ( x, y) ed il piano
z = 0 unitario.
2 Salvo nel caso in cui la pdf presenti un impulso nel punto ( x, y), caso che peraltro non considereremo mai in pratica
132 Coppie di variabili aleatorie

Y
Y

y+dy
dy
dx
y
D

x x+dx X X

Fig. 6.4. Levento { x < X x + dx, y < Y Fig. 6.5. La probabilit che la coppia ( X, Y ) ap-
y + dy} costituito dai punti di le cui immagi- partenga al dominio D si pu esprimere come
ni ( X, Y ) cadono nel rettangolino di area dx dy somma di sovrapposizione (al limite, come in-
(regione in grigio). tegrale) delle probabilit che la coppia ( X, Y )
appartenga a rettangolini di area infinitesima
che ricoprono il dominio D.

Come interpretare la pdf congiunta? Una possibile interpretazione fornita dalla seguente
relazione:

f ( x, y) dx dy = P( x < X x + dx, y < Y y + dy) (6.3)

cio f ( x, y) rappresenta la probabilit che la coppia di variabili aleatorie ( X, Y ) appartenga ad


un rettangolino di lati infinitesimi, divisa per larea dx dy del rettangolino (Fig. 6.4). Questo
risultato giustifica, anche nel caso bidimensionale, la denominazione di densit di probabilit, e
prova anche implicitamente che f ( x, y) 0.

Prova. Applicando la propriet 3 della CDF vista in precedenza, si ha:

P ( x < X x + dx, y < Y y + dy) = F ( x, y) + F ( x + dx, y + dy) F ( x, y + dy) F ( x + dx, y) ,

che possiamo riscrivere anche come:

P ( x < X x + dx, y < Y y + dy) = [ F ( x + dx, y + dy) F ( x, y + dy)] [ F ( x + dx, y) F ( x, y)] ,

da cui, dividendo e moltiplicando per dx dy e sfruttando la definizione di derivata parziale come limite del
rapporto incrementale rispetto alla variabile dinteresse (con laltra variabile fissa), si ha:

P ( x < X x + dx, y < Y y + dy) =


 
1 F ( x + dx, y + dy) F ( x, y + dy) F ( x + dx, y) F ( x, y)
= dx dy =
dy dx dx
 
1 F ( x, y + dy) F ( x, y)
= dx dy =
dy x x
2 F ( x, y)
= dx dy ,
yx

da cui, ricordando lassunzione che la derivata mista rispetto ad x ed y non dipende dallordine di
derivazione, si ha lasserto. 
6.4 Funzione di distribuzione di probabilit (DF) congiunta 133

y
x=y

D = {x y}

Fig. 6.6. La probabilit che X Y si ottiene inte-


grando la pdf congiunta sul dominio D = { x y}
(regione in grigio).

Pi in generale, se D un dominio qualsiasi di R2 , posso vederlo come la sovrapposizione di


rettangolini di area infinitesima (Fig. 6.5), e quindi scrivere:

ZZ
P[( X, Y ) D ] = f XY ( x, y) dx dy ,
D

per cui la pdf congiunta integrata su un qualunque dominio D restituisce la probabilit che la
coppia di variabili aleatorie ( X, Y ) appartenga al dominio. Come si vede, la pdf congiunta un
potente strumento per il calcolo di probabilit relative alla coppia di variabili aleatorie ( X, Y ): lu-
nica difficolt si pu incontrare nella risoluzione dellintegrale doppio nella (6.3.1), specialmente
se il dominio D ha una forma complicata.

Esempio 6.1. Sia ( X, Y ) una coppia di variabili aleatorie con pdf congiunta f ( x, y): applichiamo i concetti
precedenti per calcolare P ( X Y ). Evidentemente, il dominio D da considerare in questo caso quello
definito da D = {( x, y) R2 tali che x y}, raffigurato in Fig. 6.3.1.
Tale dominio si pu riguardare come normale3 sia rispetto allasse x che allasse y, per cui la probabilit
cercata si pu calcolare nei due modi equivalenti:
Z Z x Z Z
P(X Y ) = dx f ( x, y) dy = dy f ( x, y) dx .
y

6.4 Funzione di distribuzione di probabilit (DF) congiunta


Nel caso in cui le variabili aleatorie X ed Y siano entrambi discrete, anzich descriverle in termini
di CDF o pdf congiunta, risulta pi semplice fornire la loro descrizione congiunta attraverso
lintroduzione della funzione di distribuzione di probabilit (DF) congiunta:

3 Ricordiamo che un dominio D si dice normale rispetto allasse x se si pu esprimere come D = { a x b, ( x )

y ( x )}, dove ( x ) e ( x ) sono opportune funzioni di x (al limite costanti).


134 Coppie di variabili aleatorie

Definizione (DF congiunta). Date due variabili aleatorie X ed Y discrete costruite su uno
stesso spazio di probabilit (, S, P), a valori in X e Y, rispettivamente, la loro DF congiunta
:
p XY ( x, y) = P( X = x, Y = y) , (6.4)
dove ( x, y) X Y.

Concludiamo osservando che per caratterizzare statisticamente una coppia di variabili aleatorie
necessaria la conoscenza della CDF congiunta, della pdf congiunta, o della DF congiunta (nel
caso discreto).

6.5 Statistiche congiunte e marginali

Per una coppia di variabili aleatorie ( X.Y ), le CDF, pdf e DF congiunte sono dette statistiche
congiunte, mentre quelle delle singole variabili aleatorie sono dette statistiche marginali. Si pone
allora il seguente problema: abbiamo visto che non possibile ricavare le statistiche congiunte
da quelle marginali. Ci chiediamo se sia possibile il viceversa: in effetti vedremo che possibile
ricavare le statistiche marginali da quelle congiunte. Per le CDF si ha, infatti,

FX ( x ) = FXY ( x, +) ,
FY (y) = FXY (+, y) ;

mentre per le pdf

Z
f X (x) = f XY ( x, y) dy ,

Z
fY (y) = f XY ( x, y) dx ;

ed infine per le DF:

pX (x) = p XY ( x, y) ,
y Y

pY ( y ) = p XY ( x, y) .
x X
6.5 Statistiche congiunte e marginali 135

Prova. La dimostrazione per le CDF banale. Infatti, poich:

{ X x } = { X x } = { X x } {Y + } ,

allora si ha FX ( x ) = FXY ( x, + ), e scambiando i ruoli di X ed Y si ottiene anche la seconda relazione.


Per le pdf, si consideri la relazione (6.2), e si derivi rispetto ad x, applicando il teorema fondamentale del
calcolo integrale:
Z y
FXY ( x, y)
= f XY ( x, v) dv .
x
Ponendo nella precedente y = + , si ha FXY ( x, + ) = FX ( x ) e quindi:
Z
d
F (x) = f X (x) = f XY ( x, v) dv .
dx X

cio lasserto. La seconda relazione per le pdf si ottiene con ragionamento analogo, scambiando i ruoli di X
ed Y.
Infine, per quanto riguarda le DF, il ragionamento semplice. Infatti, si ha:

{ X = x } = y Y { X = x } { Y = y } ,

da cui si ha lasserto, essendo gli eventi a secondo membro mutuamente esclusivi. La seconda relazione per
le DF si ottiene banalmente scambiando i ruoli di X ed Y. 

Esempio 6.2. Una coppia di variabili aleatorie ( X, Y ) si dicono congiuntamente gaussiane, e si denotano
con ( X, Y ) N( X , Y , X , Y , ), se la loro pdf congiunta ha le seguente espressione:
 
( x X ) 2 ( x X )( y Y) ( y Y ) 2
1 2(11 2) 2 +
2 X Y 2
f XY ( x, y) = p e X Y , (6.5)
2X Y 1 2

raffigurata in Fig. 6.7. Si noti il caratteristico andamento a campana della distribuzione gaussiana, che
si manifesta anche nel caso bidimensionale. Le curve di livello della funzione f XY ( x, y), ovvero le curve
ottenute dallintersezione della superficie di Fig. 6.7 con piani orizzontali di equazione z = costante, sono
ellissi di equazione (vedi equazione (6.5))

( x X )2 ( x X )(y Y ) (y Y )2
2
2 + = costante
X X Y Y2

e sono raffigurate in Fig. 6.8 e Fig. 6.9, per due diverse scelte del parametro . Gli assi maggiori e minori di
tali ellissi sono inclinati rispetto allasse x di due angoli 1 ed 2 (che differiscono di /2) e che si ottengono
dalla seguente equazione trigonometrica:

2 X Y
tan(2) = 2 2
. (6.6)
X Y

Notiamo che la pdf congiunta di una coppia di variabili aleatorie congiuntamente gaussiane dipende da
5 parametri, dei quali X e Y possono assumere valori arbitrari, X e Y sono non negativi, ed infine
deve assumere valori tali che | | 1 (osserviamo in realt che la (6.5) perde di significato per | | = 1).
Notiamo che la distribuzione assume il valore massimo in ( X , Y ), che X e Y rappresentano lestensione
della campana lungo X e Y, rispettivamente, mentre governa la strettezza degli ellissi: si confrontino le
Figg. 6.8 e 6.9 dove si riportano le curve di livello per = 0.5 e = 0.9. Per | | 1, gli ellissi degenerano
in segmenti e la pdf congiunta tende a concentrarsi sempre pi su una retta obliqua. Vedremo nel prossimo
capitolo il significato di e della condizione | | = 1, mentre il significato degli altri parametri sar chiarito
nel corso di questo stesso esempio.
A partire dalle statistiche congiunte, applicando le relazioni tra pdf congiunte e marginali, possibile
determinare le statistiche marginali di X ed Y. Procediamo per X (per Y i calcoli sono simili); dobbiamo
calcolare Z
f X (x) = f XY ( x, y) dy .

136 Coppie di variabili aleatorie

0.2

0.15
fXY(x,y)

0.1

0.05

0
3
2
3
1 2
0 1
1 0
1
2 2
3 3
y x

Fig. 6.7. La pdf f XY ( x, y) di due variabili aleatorie congiuntamente gaussiane ( X, Y ) N(0, 0, 1, 1, 0.5).

Manipoliamo la pdf congiunta per scriverla in una forma che consenta la semplice risoluzione dellintegrale.
Si ha
 
( x X ) 2 ( x X )( y Y) ( y Y ) 2
1 2(11 2) 2 +
2 X Y 2
f XY ( x, y) = p e X Y
2X Y 1 2
 
( x X ) 2 ( y Y ) 2 ( x X )( y Y)
1 2(11 2) 2(11 2) 2
2 2 X Y
= p e X e Y .
2X Y 1 2
2 ( x X ) 2
Aggiungiamo e sottraiamo la quantit X2
nellargomento del secondo esponenziale, cos da far com-
parire un quadrato perfetto. Dopo alcune manipolazioni algebriche si ha:
 " h

i2 #
1 12 ( x X )2 1 2 1 2 y Y Y ( x X )
f XY ( x, y) = e X2
p e Y2 (1 ) X
.
X 2 Y 1 2 2

Osserviamo che il primo fattore (tra parentesi quadre) rappresenta la pdf di una variabile aleatoria X
N( X , X ); per quanto riguarda il secondo, per un fissato valore p di x, facile verificare che esso rappresenta
la pdf di una variabile aleatoria Y N(Y + YX ( x X ), Y 1 2 ), vale a dire con media Y + YX ( x
p
X ) e deviazione standard Y 1 2 .
Se adesso integriamo la pdf congiunta rispetto ad y per ottenere la pdf marginale f X ( x ), osserviamo che
il secondo fattore, essendo una pdf per ogni valore di x, ha integrale rispetto ad y unitario. Pertanto, si ha
semplicemente:
Z 12 ( x X )2
1
f X (x) = f XY ( x, y) dy = e 2X ,
X 2
e quindi evidente che X N( X , X ), cio X marginalmente gaussiana, con media X e deviazione
standard X .
Ovviamente saremmo potuti giungere ad una decomposizione simmetrica operando rispetto ad y anzi-
ch rispetto ad x, per cui con analogo ragionamento si conclude che:
Z 1
( y Y ) 2
1
22
f Y (y) = f XY ( x, y) dx = e Y ,
Y 2
6.6 Coppie di variabili aleatorie indipendenti 137

3 3

2 2

1 1

0 0
y

y
1 1

2 2

3 3
3 2 1 0 1 2 3 3 2 1 0 1 2 3
x x

Fig. 6.8. Curve di livello della pdf f XY ( x, y) Fig. 6.9. Curve di livello della pdf f XY ( x, y)
di due variabili aleatorie congiuntamente gaus- di due variabili aleatorie congiuntamente gaus-
siane ( X, Y ) N(0, 0, 1, 1, ), per = siane ( X, Y ) N(0, 0, 1, 1, ), per =
0.5. 0.9.

e quindi evidente che Y N(Y , Y ), cio Y marginalmente gaussiana, con media Y e deviazione stan-
dard Y . In conclusione: se ( X, Y ) N( X , Y , X , Y , ) sono congiuntamente gaussiane, X ed Y sono
marginalmente gaussiane, e si ha X N( X , X ) e Y N(Y , Y ). Il viceversa non sempre vero: possi-
bile costruire esempi di variabili aleatorie marginalmente gaussiane la cui pdf congiunta non sia gaussiana
(si veda [3, Es. 6-1]). Notiamo infine che in questo modo abbiamo anche interpretato 4 dei 5 parametri
che compaiono nella pdf congiunta di due variabili aleatorie congiuntamente gaussiane, e che in sostanza
sono quelli caratteristici delle statistiche marginali delle variabili aleatorie X ed Y; in effetti il parametro
lunico parametro che descrive la relazione di interdipendenza tra le due variabili aleatorie congiuntamente
gaussiane. Come gi osservato, il suo significato sar chiarito nel prossimo capitolo.

6.6 Coppie di variabili aleatorie indipendenti


Un caso particolarmente semplice da affrontare quello in cui le variabili aleatorie X ed Y
risultano indipendenti:

Definizione (coppie di variabili aleatorie indipendenti). Due variabili aleatorie X ed Y si


dicono indipendenti se

FXY ( x, y) = FX ( x ) FY (y) , ( x, y) R2 . (6.7)

Come si vede, cos come nella teoria della probabilit elementare lindipendenza tra eventi si pu
esprimere come fattorizzazione della probabilit congiunta, ovvero P( AB) = P( A) P( B), cos per
le variabili aleatorie lindipendenza si pu esprimere come fattorizzazione della CDF congiunta
nel prodotto delle CDF marginali. Questo chiaro, in quanto la CDF rappresenta in ultima analisi
la probabilit di una collezione di eventi dello spazio di probabilit.
Nel caso di variabili aleatorie discrete, la definizione di indipendenza si pu dare direttamente
in termini di probabilit:

P( X = x, Y = y) = P( X = x ) P(Y = y) ,
138 Coppie di variabili aleatorie

il che equivale a dire, in termini di DF, che:

p XY ( x, y) = p X ( x ) pY (y) .

6.6.1 Propriet delle variabili aleatorie indipendenti


Enunciamo e dimostriamo alcune semplici propriet delle coppie di variabili aleatorie indipen-
denti, che sono diretta conseguenza della definizione (6.7):

1. Se X ed Y sono indipendenti, allora f XY ( x, y) = f X ( x ) f Y (y), ( x, y) R2 (fattorizzazione


della pdf congiunta).

Prova. Si ottiene immediatamente derivando la definizione (6.7). 

2. Se X ed Y sono indipendenti, allora gli eventi { X I1 } e {Y I2 } sono indipendenti,


I1 , I2 R.
Prova. Si ha:
Z Z Z Z
P ( X I1 , Y I2 ) = f XY ( x, y) dx dy = f X ( x ) dx f Y (y) dy
I1 I2 I1 I2
= P ( X I1 ) P (Y I2 ) .


3. Se X ed Y sono indipendenti, allora le variabili aleatorie Z = g( X ) e W = h(Y ) sono
indipendenti.
Prova. Si ha:
FZW (z, w) = P ( Z z, W w) = P ( X Rz , Y Rw ) ,
dove Rz , { x R tali che g( x ) z} e Rw , {y R tali che h(y) w}. Per lindipendenza di X ed
Y, si ha (in base alla propriet 2 precedentemente dimostrata):

FZW (z, w) = P ( X Rz ) P (Y Rw ) = P ( Z z) P (W w) = FZ (z) FW (w)

per cui resta provato lasserto. 


Osserviamo che se le variabili aleatorie sono costruite su uno spazio di probabilit prodotto 1
2 , e in maniera tale che:

X [(1 , 2 )] = X (1 ) ,
Y [(1 , 2 )] = Y (2 ) ,

allora, se gli esperimenti 1 ed 2 sono indipendenti, anche le variabili aleatorie X ed Y sono


indipendenti.

Esempio 6.3. Sia 1 lo spazio campione associato allesperimento lancio di una moneta, e sia 2 lo
spazio campione associato allesperimento lancio di un dado. Qualsiasi variabile aleatoria X costruita su
1 2 che dipende solo da 1 e qualunque variabile aleatoria Y costruita su 1 2 che dipende solo
da 2 sono indipendenti.

Esempio 6.4. Spesso lindipendenza statistica tra due variabili aleatorie si pu assumere sulla base
dellindipendenza fisica. Ad esempio, appare chiaro che se X rappresenta laltezza ed Y il peso di un
individuo, X ed Y non sono indipendenti (le persone pi alte mediamente pesano di pi). Viceversa, se X
rappresenta il peso e Y rappresenta il numero di fratelli e sorelle di una persona, pare ragionevole ritenere
queste due variabili indipendenti.
6.7 Trasformazioni di coppie di variabili aleatorie 139

Esempio 6.5. Abbiamo osservato (cfr. esempio 6.2) che due variabili aleatorie X ed Y marginalmente
gaussiane non sono necessariamente anche congiuntamente gaussiane. Questo risultato per non vale se le
variabili aleatorie sono marginalmente gaussiane e indipendenti: infatti, se X N( X , X ) e Y N(Y , Y ),
indipendenti, la loro pdf congiunta si ottiene come:
1 1
1 ( x X )2 1 ( y Y ) 2
22 22
f XY ( x, y) = f X ( x ) f Y (y) = e X e Y ,
X 2 Y 2

per cui facile verificare che essa una pdf del tipo gaussiano bidimensionale (6.5), con = 0. Viceversa,
se si hanno due variabili aleatorie X, Y congiuntamente gaussiane e con = 0, si vede che esse sono
indipendenti, in quanto la loro pdf congiunta f XY ( x, y) si fattorizza nel prodotto di due pdf gaussiane
monodimensionali. Quindi, sebbene non ne abbiamo ancora dato una interpretazione rigorosa, intuiamo
che misura il grado di dipendenza tra due variabili aleatorie congiuntamente gaussiane: quando =
0 le variabili aleatorie sono indipendenti; quando | | = 1 le due variabili aleatorie sono massimamente
dipendenti.

6.7 Trasformazioni di coppie di variabili aleatorie


Vogliamo adesso estendere il nostro studio sulle trasformazioni di variabili aleatorie, condotto
nel capitolo 4 per il caso di trasformazioni di una sola variabile aleatoria, al caso di coppie di
variabili aleatorie. Qui per la situazione si presenta pi articolata, in quanto possiamo avere
una trasformazione Z = g( X, Y ), ovvero la trasformazione di una coppia di variabili aleatorie
in una singola variabile aleatoria (trasformazione 2 1), oppure una coppia di trasformazioni
Z = g( X, Y ) e W = h( X, Y ), ovvero la trasformazione di una coppia di variabili aleatorie in una
coppia di nuove variabili aleatorie (trasformazione 2 2). Studiamo separatamente i due casi.

6.7.1 Trasformazione 2 1
In questo caso, abbiamo una coppia ( X, Y ) di variabili aleatorie, caratterizzate dalle loro CDF
congiunta FXY ( x, y) e pdf congiunta f XY ( x, y), e a partire da esse costruiamo una nuova variabile
aleatoria Z = g( X, Y ), dove g( x, y) una funzione di due variabili. Vogliamo caratterizzare Z,
in particolare calcolandone la CDF FZ (z) e la pdf f Z (z). Il problema formalmente si risolve in
maniera semplice, in quanto si ha:

FZ (z) = P( Z z) = P( g( X, Y ) z)
ZZ
(6.8)
= P(( X, Y ) Dz ) = f XY ( x, y) dx dy ,
Dz

dove Dz = {( x, y) R2 tali che g( x, y) z} un dominio di R2 . Per determinare poi la pdf di


Z, possiamo o derivare la CDF, o direttamente ricavarla come:

f Z (z) dz = P(z < Z z + dz)


= P(z < g( X, Y ) z + dz) (6.9)
ZZ
= P(( X, Y ) Dz ) = f XY ( x, y) dx dy ,
Dz

dove Dz = {( x, y) R2 tali che z < g( x, y) z + dz} un dominio di R2 .


140 Coppie di variabili aleatorie

y
y

xzy x=zy
x+y=z
DZ = {x + y z} DZ

x x
xzy

Fig. 6.10. Il dominio Dz = {( x, y) Fig. 6.11. Il dominio Dz = {( x, y)


R2 tali che x + y z} raffigurato in grigio. R2 tali che x
y z} raffigurato in grigio (per
z > 0).

Esempio 6.6. Consideriamo la trasformazione Z = X + Y. Si ha:

FZ (z) , P ( Z z) = P ( X + Y z) .

Per un fissato z, il dominio Dz = {( x, y) R2 tali che x + y z} quello raffigurato in grigio in Fig. 6.10.
Tale dominio si pu riguardare ad esempio come normale rispetto allasse x, ed in tal caso si descrive come
Dz = { x R, y z x }. Pertanto applicando la (6.8) si trova:
ZZ Z Z z x
FZ (z) = f XY ( x, y) dx dy = dx f XY ( x, y) dy .
Dz

Possiamo ottenere la pdf derivando la CDF precedente rispetto a z. Si ha, applicando il teorema fondamen-
tale del calcolo integrale,
Z Z
z x Z Z
d
f Z (z) = dx f XY ( x, y) dy = f XY ( x, z x ) dx = f XY (z x, x ) dx ,
dz

dove lultimo integrale si ottiene con un semplice cambio di variabile. Osserviamo che, se X ed Y sono
indipendenti, allora f XY ( x, y) = f X ( x ) f Y (y), e quindi la pdf di Z = X + Y diventa:
Z
f Z (z) = f X ( x ) f Y (z x ) dx ,

ovvero data dal prodotto di convoluzione o semplicemente dalla convoluzione tra le funzioni f X ( x ) ed f Y (y),
che si denota sinteticamente con f X f Y . Pertanto, la pdf della somma di due variabili aleatorie indipendenti
si ottiene effettuando la convoluzione delle rispettive pdf.

Esempio 6.7. Consideriamo la trasformazione Z = X/Y. Si ha:


 
X
FZ (z) , P ( Z z) = P z .
Y
x
Osserviamo che, per un fissato z, la disuguaglianza y z si scrive come x z y, se y > 0, oppure come
x z y, se y < 0. Pertanto, il dominio Dz = {( x, y) R2 tali che yx z} quello raffigurato in grigio in
Fig. 6.11. Tale dominio normale rispetto allasse y, e si descrive come Dz = {y R, x z y, se y > 0; x
z y, se y < 0}. Pertanto, applicando la (6.8) si trova:
Z Z zy Z 0 Z
FZ (z) = dy f XY ( x, y) dx + dy f XY ( x, y) dx .
0 zy
6.7 Trasformazioni di coppie di variabili aleatorie 141

Possiamo ottenere la pdf derivando la CDF precedente rispetto a z: si ha4


Z Z 0 Z
d
f Z (z) = F (z) = y f XY (zy, y) dy y f XY (zy, y) dy = | y| f XY (zy, y) dy .
dz Z 0

Ad esempio, se ( X, Y ) N(0, 0, 1, 1, 0), sono cio gaussiane standard indipendenti, applicando la preceden-
te relazione si trova:
Z Z
1 1 ( z2 y2 + y2 ) 1 1 [y2 ( z2 +1)]
f Z (z) = | y| e 2 dy = ye 2 dy =
2 0
Z
1 1 1 2 2
= y(z2 + 1) e 2 [y ( z +1)] dy =
0 z2 + 1
Z
1 1 d h 1 [y2 ( z2 +1)] i
= 2
e 2 dy =
z + 1 0 dy
1 1 h 1 [y2 ( z2 +1)] i y=
= e 2
z2 + 1 y =0
1/
= ,
z2 + 1
cio risulta Z Cauchy (1). Pertanto il rapporto X/Y tra due variabili aleatorie gaussiane standard e
indipendenti una variabile aleatoria di Cauchy.

6.7.2 Trasformazione 2 2
In questo caso abbiamo una coppia ( X, Y ) di variabili aleatorie, caratterizzate dalle loro CDF
congiunta FXY ( x, y) e pdf congiunta f XY ( x, y), e a partire da esse costruiamo una nuova coppia di
variabili aleatorie ( Z, W ), con Z = g( X, Y ) e W = h( X, Y ), dove g( x, y) e h( x, y) sono funzioni
di due variabili. Il problema che si pone in tal caso quello di determinare la CDF FZW (z, w) o
la pdf congiunta f ZW (z, w) di Z e W. possibile applicare il seguente teorema fondamentale sulle
trasformazioni di coppie di variabili aleatorie, che generalizza al caso di coppie di variabili aleatorie il
teorema 4.1, valido per trasformazioni di una singola variabile aleatoria, e che enunciamo senza
dimostrazione:

Teorema 6.1 (teorema fondamentale sulle trasformazioni di coppie di variabili aleatorie). Sia
( X, Y ) una coppia di variabili aleatorie con pdf f XY ( x, y), e siano Z = g( X, Y ) e W = h( X, Y )
due nuove variabili aleatorie ottenute per trasformazione da ( X, Y ). Si consideri il sistema
di equazioni: 
z = g( x, y)
(6.10)
w = h( x, y)
La pdf congiunta di ( Z, W ) data da:

0,
se il sistema (6.10) non ha soluzioni;
f ZW (z, w) = f XY ( xi , yi )
|det[ J ( x , y ))]| ,
dove ( xi , yi ) una soluzione del sistema (6.10);
i i i

in cui det() denota il determinante, e


z z
!
(z, w) x y
J ( x, y) = = w w
( x, y) x y

la matrice jacobiana della trasformazione.

4 Per la derivazione, si applichi la formula di Leibnitz, riportata in Appendice F.


142 Coppie di variabili aleatorie

X x

Fig. 6.12. Trasformazione da coordinate cartesia-


ne a coordinate polari.

Si noti che per lapplicazione del teorema si richiede che il sistema (6.10) abbia al pi una infinit
numerabile di soluzioni. Nella pratica, risulta spesso utile la seguente osservazione: se il sistema
invertibile e denotiamo con J (z, w) la matrice jacobiana del sistema inverso, risulta:

J (z, w) = J ( x, y)1 , ( x, y) soluzione del sistema,

e quindi:
1
det[ J (z, w)] = , ( x, y) soluzione del sistema.
det[ J ( x, y)]

Esempio 6.8 (trasformazione da coordinate cartesiane a polari). Consideriamo la coppia di variabili aleato-
rie ( X, Y ), che possiamo interpretare come le coordinate cartesiane di un punto di R2 . Ha senso allora consi-
derare la trasformazione che fornisce le coordinate polari ( R, ) dello stesso punto, con R 0 e [0, 2 [.
Tale trasformazione si pu esprimere come:

R = X2 + Y2
,
= tan1 (Y/X )

dove la funzione tan1 (Y/X ) (da non confondere con la funzione arctan()), determina univocamente, per
ogni valore della coppia ( X, Y ), langolo [0, 2 [ formato dal segmento di estremi (0, 0) ed ( X, Y ) con
il semiasse positivo delle x, misurato in senso antiorario (Fig. 6.12). Se vogliamo ricavare la pdf di ( R, ),
applicando il teorema fondamentale 6.1 consideriamo il seguente sistema di equazioni, nelle incognite ( x, y):
 p
r = x 2 + y2
,
= tan1 (y/x )

che ha se r 0 e [0, 2 [ una sola soluzione, data da



x = r cos
,
y = r sin

mentre non ha nessuna soluzione se r < 0. Il calcolo della matrice jacobiana, inoltre, fornisce:
 
( x, y) cos r sin
J (r, ) = = ,
(r, ) sin r cos

e quindi
| J (r, )| = |r | = r 0 .
6.7 Trasformazioni di coppie di variabili aleatorie 143

Si ha allora: (
0, se r < 0;
f R (r, ) =
r f XY (r cos , r sin ), se r 0;
ovvero:
f R (r, ) = r f XY (r cos , r sin ) u (r ) , (6.11)
dove u (r ) la funzione gradino. Se poi vogliamo ottenere le distribuzioni marginali di R e , basta integrare
rispetto alla variabile che non interessa: si ha, cio:
Z 2
f R (r ) = u (r ) r f XY (r cos , r sin ) d
0
Z
f ( ) = r f XY (r cos , r sin ) dr
0
Si noti la scelta degli intervalli di integrazione: [0, [ per lintegrale in dr, [0, 2 [ per lintegrale in d,
corrispondenti ai valori assunti da R e da , rispettivamente.

Esempio 6.9. Applichiamo i risultati della trasformazione da coordinate cartesiane a coordinate polari al
caso in cui le variabili aleatorie X ed Y siano congiuntamente gaussiane, ed in particolare siano indipen-
denti ( = 0), a media nulla ( X = Y = 0) e con la stessa deviazione standard (X = Y = ), il che
sinteticamente si denota come ( X, Y ) N(0, 0, , , 0).
Per lipotesi di indipendenza, la pdf congiunta f XY ( x, y) si scrive semplicemente come prodotto di due
pdf gaussiane marginali a media nulla e con la stessa deviazione standard:
1 1 ( x 2 + y2 )
f XY ( x, y) = e 22 .
22
Applicando la (6.11), si ha:
f R (r, ) = r f XY (r cos , r sin ) u (r )
1 1 r 2 (cos2 ( )+sin2 ( )
e 22
=r u (r )
22
2
r r
= e 22 u (r ) .
22
Se ricaviamo le due pdf marginali, otteniamo per R:
Z 2 Z 2 r2
r 2
f R (r ) = f R (r, ) d = e 2 u (r ) d =
0 0 22
r r2
= 2 e 22 u (r ) ,

mentre per si ha:
Z Z r2
r
f ( ) = f R (r, ) dr = 2
e 22 dr =
0 0 2
Z    r =
1 d r22 1 r2 1
= e 2 dr = e 22 = ,
2 0 dr 2 r =0 2
per cui si osserva che f R (r, ) = f R (r ) f ( ), per cui R e sono indipendenti, ed inoltre R ha una distri-
buzione di tipo Rayleigh con parametro b = 2 2 , ovvero R Rayleigh(22 ), mentre U(0, 2 ), cio
uniforme in (0, 2 ).

Esempio 6.10 (generazione di variabili aleatorie gaussiane). Il precedente esempio suggerisce un metodo,
alternativo a quello della CDF inversa o della trasformazione percentile (cfr. 4.3.1) per generare variabili
aleatorie gaussiane. Infatti, lostacolo principale allapplicazione della tecnica della trasformazione percen-
tile al caso gaussiano risiede nel fatto che la CDF gaussiana non ammette unespressione analitica in forma
chiusa, e quindi la sua inversione si ottiene solo attraverso tecniche numeriche. Viceversa, non ci sono pro-
blemi a generare con la tecnica della trasformazione percentile due variabili aleatorie R e , rispettivamente
di tipo Rayleigh e uniforme in (0, 2 ) (cfr. esercizio 4.13), in quanto le rispettive CDF sono facilmente in-
vertibili. Pertanto, la generazione di variabili aleatorie gaussiane si pu effettuare con un algoritmo in due
passi:
144 Coppie di variabili aleatorie

1. utilizzando due generatori di variabili aleatorie U(0, 1) indipendenti,5 e adoperando la tecnica della
trasformazione percentile, si generano due variabili aleatorie R e rispettivamente di tipo Raylei-
gh ed uniforme in (0, 2 ); tali variabili aleatorie, essendo ottenute per trasformazione da variabili
aleatorie indipendenti, saranno ancora indipendenti;
2. si costruiscono le due variabili aleatorie X = R cos( ) ed Y = R sin( ); esse risulteranno variabili
aleatorie gaussiane indipendenti, a media nulla e con la stessa varianza.
Per completezza, osserviamo che se si desidera generare variabili aleatorie gaussiane non indipendenti,
sufficiente partire da variabili aleatorie Z1 e Z2 indipendenti e standard (a media nulla e varianza unitaria)
generate con lalgoritmo precedentemente esposto, e successivamente applicare la seguente trasformazione
2 2: ( p
X = X Z1 + X 1 2 Z2 + X ,
Y = Y Z1 + Y .
Infatti, applicando il teorema fondamentale sulle trasformazioni, si verifica facilmente che le variabili alea-
torie sono congiuntamente gaussiane, vale a dire ( X, Y ) N( X , Y , X , Y , ).

6.7.3 Metodo della variabile ausiliaria


Il teorema fondamentale 6.1 per le trasformazioni del tipo 2 2 pu servire anche per il caso
visto nel 6.7.1, nel quale ho una sola trasformazione Z = g( X, Y ). Per applicarlo, suffi-
ciente rendere la trasformazione 2 1 una trasformazione 2 2 (quadrare la trasforma-
zione), ricorrendo allartificio di introdurre una trasformazione fittizia o una variabile ausiliaria
W = h( X, Y ) (tipicamente si sceglie W = X oppure W = Y per semplicit). Una volta ottenu-
ta la f ZW (z, w) dallapplicazione del teorema fondamentale, poi possibile eliminare la variabile
ausiliaria, ricavando la pdf marginale f Z (z) per integrazione di f ZW (z, w) rispetto alla variabile
w.

Esempio 6.11. Consideriamo ad esempio la trasformazione Z = X Y. In questo caso, scegliamo come


variabile ausiliaria W = X, ottenendo cos la seguente trasformazione 2 2:

Z = XY,
W = X.

Il sistema di equazioni corrispondenti il seguente:



z = xy,
w = x;

e ammette, per ogni (z, w), con w 6= 0, una sola soluzione ( x, y) data da

x = w,
y = wz ;

mentre per w = 0, z 6= 0 il sistema non ha soluzioni, e infine per w = 0, z = 0, si ha x = 0 e y qualsiasi. Il


calcolo della matrice jacobiana, inoltre, fornisce:
 
(z, w) y x
J ( x, y) = =
( x, y) 1 0

e quindi il determinante in valore assoluto vale

| det[ J ( x, y)]| = | x | ,
per cui lapplicazione del teorema fondamentale fornisce per w 6= 0 la pdf congiunta di ( Z, W ):
1  z
f ZW (z, w) = f XY w,
|w| w
5 In pratica, possibile utilizzare un unico generatore di numeri pseudo-casuali inizializzato con due semi differenti.
6.8 Variabili aleatorie complesse 145

da cui ricaviamo quella di Z = XY integrando rispetto a w:


Z  z
1
f Z (z) = f XY w, dw .
|w| w

Se, ad esempio, X U(0, 1) e Y U(0, 1), con X ed Y indipendenti e Z = X Y, la precedente si scrive:


Z 1 z
1
f Z (z) = f X (w) f Y dw
0 |w| w

ma f X ( x ) = 1 per x [0, 1], e f Y (y) = 1 per y [0, 1]. Allora f Y (z/w) = 1 se z/w [0, 1], ovvero se
0 z w. Pertanto, lintervallo di integrazione per w va da z a 1, e quindi lintegrale si scrive:
Z 1
1 =1
f Z (z) = dw = [ln w]w
w = z = ln z .
z w
La pdf di Z pertanto: (
ln z , se z [0, 1];
f Z (z) =
0, altrove.

Notiamo che la scelta W = X oppure W = Y opportuna in molti casi, ma non sempre, come
illustrato chiaramente dallesempio che segue.


Esempio 6.12. Si consideri la trasformazione Z = X2 + Y2 . In questo caso, poich possiamo interpretare
Z come il modulo di una trasformazione di coordinate cartesiane a polari, conviene considerare, come
variabile ausiliaria, una variabile W che rappresenti la fase della stessa trasformazione. Pertanto, sulla base
anche dellesempio 6.8, possiamo considerare la variabile ausiliaria W definita da

W = tan1 (Y/X ) .

A questo punto, possiamo sfruttare i risultati gi ottenuti nellesempio 6.8, per scrivere direttamente la pdf
congiunta di ( Z, W ):
f ZW (z, w) = z f XY (z cos w, z sin w) u (z) ,
e successivamente eliminare la variabile ausiliaria W ricavando la pdf marginale di Z per integrazione:
Z 2
f Z (z) = u (z) z f XY (z cos w, z sin w) dw
0

Ad esempio, se ( X, Y ) N(0, 0, , , 0), applicando anche i risultati dellesempio 6.9, si trova banalmente
che Z Rayleigh(22 ).

6.8 Variabili aleatorie complesse


utile in taluni casi estendere la definizione di variabile aleatoria al caso complesso:

Definizione (variabile aleatoria complessa). una variabile aleatoria complessa Z definita


come
Z = X + jY ,

con X, Y variabili aleatorie reali, e j , 1.

Si osservi esplicitamente che nel caso complesso non ha senso indagare se { Z z} sia un evento,
perch il campo dei numeri complessi non dotato di ordinamento. Pertanto, una variabile alea-
toria complessa rappresenta solo un modo sintetico di denotare un coppia di variabili aleatorie
reali. Poich poi il piano complesso si identifica con R2 , se D una regione del piano complesso
146 Coppie di variabili aleatorie

possibile calcolare probabilit del tipo P( Z D ) semplicemente utilizzando la pdf congiunta


della coppia di variabili aleatorie ( X, Y ), come
Z Z
P( Z D ) = f XY ( x, y) dx dy .
D
Possiamo definire formalmente la media di una variabile aleatoria complessa, applicando la
propriet di linearit. Infatti, se Z = X + jY una variabile aleatoria complessa, si ha:

E( Z ) , E( X ) + jE(Y ) .
Come si vede, la media di Z si esprime attraverso la media di X (reale) e quella di Y (reale).
Il discorso si complica quando passiamo a definire il valore quadratico medio. In linea di
principio, si potrebbe pensare che una definizione appropriata sia E( Z2 ), tuttavia se Z com-
plesso la quantit E( Z2 ) non n reale n positiva. Pertanto una definizione appropriata di valor
quadratico medio di una variabile aleatoria complessa Z la seguente:

E(| Z |2 ) = E( X 2 + Y 2 ) = E( X 2 ) + E(Y 2 ) .
Anche qui, il valor quadratico medio si ottiene combinando (sommando) i valori quadratici medi
di X ed Y.
Infine, per la varianza una definizione appropriata , in accordo a quella per il valor quadra-
tico medio, la seguente:

Var( Z ) = E[| Z E( Z )|2 ] = E[( X X )2 ] + E[(Y Y )2 ] = Var( X ) + Var(Y ) ,


e coincide con la somma delle varianze di X ed Y. Notiamo che vale anche in questo caso la
relazione fondamentale tra varianza, valor quadratico medio e media, che si scrive:

Var( X ) = E(| Z |2 ) | E( Z )|2


Naturalmente, possibile definire un qualunque momento di Z, semplicemente sviluppando
lespressione risultante in termini di X ed Y. Ad esempio, per E( Z2 ) si ha:

E( Z2 ) = E[( X + jY )2 ] = E( X 2 ) E(Y 2 ) + 2jE( XY ) .


Come si vede, oltre ai valori quadratici medi di X ed Y, compare anche un momento congiunto
E( XY ) (correlazione) di X ed Y, che introdurremo nel prossimo capitolo.

Esempio 6.13. Data la variabile aleatoria U(0, 2 ), consideriamo come esempio di variabile aleatoria
complessa la seguente:
Z = e j .
Per lidentit di Eulero, si ha anche:
Z = cos( ) + j sin( ) ,
per cui possiamo identificare la coppia ( X, Y ) come X = cos( ) e Y = sin( ). Il calcolo della media e della
varianza di Z si conduce semplicemente applicando il teorema fondamentale della media. Infatti, si ha:
Z 2
1 1 h j i2
E(Z ) = e j d = e = 0,
0 2 2j 0

per la periodicit (di periodo 2) della funzione e j ; inoltre, banalmente, si ha E (| Z |2 ) = E (1) = 1, per cui
Var( Z ) = 1. Si noti, invece, che sempre lapplicazione del teorema fondamentale della media ci consente di
riconoscere che E ( Z2 ) = 0. Infatti:
Z 2
1 1 h j2 i2
E(Z2 ) = e j2 d = e = 0,
0 2 4j 0

stavolta per la periodicit (di periodo ) della funzione e j2 .


6.9 Esercizi proposti 147

6.9 Esercizi proposti


Esercizio 6.1. Si consideri lesperimento del lancio di due dadi bilanciati, e si costruiscano due variabili
aleatorie X ed Y nel seguente modo:

X , somma dei risultati


Y , valore assoluto della differenza dei risultati

Dopo aver individuato i possibili valori assunti da X ed Y, determinare la loro DF congiunta.

Esercizio 6.2. Una coppia di variabili aleatorie ha la seguente CDF:




0, se x < 0 oppure y < 0;



x y, 0 x 1 e 0 y 1;

FXY ( x, y) = x, 0 x 1 e y > 1;



y, x > 1 e 0 y 1;



1, se x > 1 e y > 1.

Calcolare in termini della CDF congiunta le seguenti probabilit:


a) P ( X 0.5, Y 0.5);
b) P (0.2 X 0.5, Y 0.2);
c) P (0.5 X 0.5, 0.5 Y 0.5);
d) P ( X 0.2, Y 0.3);
e) P ( X 0.2, Y 0.4).
[Risposta: 14 ; 3 1 14 3
50 ; 4 ; 25 ; 25 .]

Esercizio 6.3. La pdf di una coppia di variabili aleatorie definita da:


(
6 x y2 , se 0 < x < 1 e 0 < y < 1;
f XY ( x, y) =
0, altrove.

a) Verificare la condizione di normalizzazione;


b) calcolare P ( X + Y 1);
c) calcolare P (1/2 < X < 3/4).

Esercizio 6.4. Le variabili aleatorie ( X, Y ) sono uniformemente distribuite nel quadrato avente vertici nei
punti (1, 1), (1, 1), (1, 1), (1, 1). Determinare la probabilit dei seguenti eventi:
a) X2 + Y2 < 1;
b) 2X Y > 0;
c) | X + Y | < 2.

Esercizio 6.5. La pdf di una coppia di variabili aleatorie definita da:


(
k( x + 2y), se 0 < x < 2 e 0 < y < 1,
f XY ( x, y) =
0, altrove.

a) Determinare il valore di k;
b) determinare le pdf marginali di X ed Y;
c) verificare se X ed Y sono indipendenti.

Esercizio 6.6. Si supponga che le variabili aleatorie X ed Y abbiano la seguente pdf:


(
k, se x2 + y2 1,
f XY ( x, y) =
0, altrimenti.
148 Coppie di variabili aleatorie

a) Determinare il valore di k;
b) determinare le pdf marginali di X ed Y e stabilire se esse sono indipendenti.

Esercizio 6.7. Determinare P ( X > Y ) se la pdf congiunta di X ed Y f XY ( x, y) = x + y, 0 x 1,
0 y 1.

Esercizio 6.8. Determinare P ( X2 < Y < X ) se la pdf congiunta di X ed Y f XY ( x, y) = 2 x, 0 x 1,


0 y 1.

Esercizio 6.9. Date due variabili aleatorie con pdf congiunta f XY ( x, y), ricavare la pdf di Z = X + Y, Z =
X Y, Z = X/Y, Z = X Y.

Esercizio 6.10. Date due variabili aleatorie con pdf congiunta f XY ( x, y), ricavare la pdf di Z = max( X, Y ) e
Z = min( X, Y ). Particolarizzare il risultato ottenuto al caso in cui X ed Y sono indipendenti.

Esercizio 6.11. Determinare la pdf di Z = X/Y dove X e Y sono variabili aleatorie indipendenti, ciascuna
delle quali N (0, ).

Esercizio 6.12. Siano X ed Y due variabili aleatorie indipendenti, con distribuzione uniforme nellintervallo
(0, 1). Determinare la pdf della variabile aleatoria Z = | X Y |.

Esercizio 6.13. Siano X ed Y due variabili aleatorie congiuntamente gaussiane, di parametri X , Y , X , Y , .


Provare che la somma Z = X + Y ancora una variabile aleatoria gaussiana, con media X + Y e varianza
2 + 2 + 2 .
X Y X Y

Esercizio 6.14. Sia X Poiss() e Y Poiss( ), indipendenti. Provare che Z = X + Y Poiss( + ).

Esercizio 6.15. Siano U e V due variabili aleatorie gaussiane standard N (0, 1) ed indipendenti. Si consideri
la trasformazione lineare: ( p
X = X U + X 1 2 V + X
Y = Y U + Y
Verificare che X, Y N ( X , Y , X , Y , ), ovvero X ed Y sono congiuntamente gaussiane con i parametri
indicati.
Questo esercizio suggerisce un modo per generare coppie di variabili aleatorie congiuntamente gaussiane a partire da
variabili aleatorie gaussiane standard indipendenti.

Esercizio 6.16. Siano X ed Y due variabili aleatorie indipendenti, con X avente CDF FX ( x ) e Y U(0, 1).
Mostrare che la pdf di Z = X + Y f Z (z) = FX (z) FX (z 1).

Esercizio 6.17. Siano X ed Y due variabili aleatorie con pdf f XY ( x, y). Determinare la pdf delle variabili
aleatorie centrate Z = X X e W = Y Y , e delle variabili aleatorie standardizzate Z = ( X X )/X e
W = (Y Y )/Y .

Esercizio 6.18. Siano X ed Y due variabili aleatorie e sia Z = max( X, Y ) e W = min( X, Y ). Esprimere la
CDF congiunta di Z e W in termini di quella di X ed Y.

Esercizio 6.19. Sia X Exp() e Y Exp( ), con X ed Y indipendenti. Determinare le pdf delle seguenti
variabili aleatorie:
a) Z = 2 X + Y;
b) Z = X Y;
c) Z = X/Y;
d) Z = max( X, Y );
e) Z = min( X, Y ).
6.9 Esercizi proposti 149

Esercizio 6.20. Siano X N ( , ) e Y N ( , ), indipendenti, e si consideri la trasformazione di


X Y
variabili aleatorie (
R = X2 + Y2
= tan1 X
Y

Determinare la pdf di R.
1
R 2
[Suggerimento: si faccia uso della funzione I0 ( x ) , 2 0 exp( x cos )d, funzione di Bessel modificata di prima
specie ed ordine 0.]
150 Coppie di variabili aleatorie
Capitolo 7

Caratterizzazione sintetica di una


coppia di variabili aleatorie

Anche per una coppia di variabili aleatorie possibile fornire alcuni parametri numerici (mo-
menti) che ne forniscono una caratterizzazione sintetica. In questo capitolo, in particolare, dopo
aver generalizzato il teorema fondamentale della media, si introducono i momenti congiunti di
una coppia di variabili aleatorie, con particolare riferimento alla correlazione, alla covarianza, e al
coefficiente di correlazione: tali quantit forniscono una misura della dipendenza lineare esisten-
te tra due variabili aleatorie. Allinterpretazione probabilistica di tali grandezze viene affiancata
una interpretazione geometrica, consistente nel riguardare le variabili aleatorie come vettori
appartenenti ad un opportuno spazio vettoriale. Il problema della stima lineare, introdotto al ter-
mine del capitolo e risolto mediante lapplicazione del principio di ortogonalit, mostra i benefici
derivanti dallinterpretazione geometrica.

7.1 Introduzione
Nel capitolo 5, abbiamo introdotto i momenti di una singola variabile aleatoria X, tra i quali la
media, la varianza ed il valor quadratico medio sono sicuramente i pi utilizzati. Abbiamo visto
che attraverso tali momenti possibile fornire una caratterizzazione sintetica della variabile alea-
toria X, che non si basa cio sulla conoscenza della sua CDF e pdf. In questo capitolo, vogliamo
estendere la definizione dei momenti al caso di coppie ( X, Y ) di variabili aleatorie, cos da poter
fornire una caratterizzazione sintetica anche in questo caso: i momenti associati ad una coppia
di variabili aleatorie prendono il nome di momenti congiunti. Osserviamo peraltro che nel caso di
coppie di variabili aleatorie la caratterizzazione sintetica appare ancora pi interessante rispetto
al caso di una singola variabile aleatoria, vista la difficolt di manipolare, e talvolta di interpreta-
re, le funzioni (di due variabili) che forniscono la caratterizzazione completa, quali la CDF, la pdf
e la DF congiunta.
152 Caratterizzazione sintetica di una coppia di variabili aleatorie

7.2 Teorema fondamentale della media per una coppia di varia-


bili aleatorie
Il primo e fondamentale passo da seguire per definire i momenti congiunti per coppie di variabili
aleatorie quello di estendere al caso di una coppia di variabili aleatorie il teorema fondamen-
tale della media (teorema 5.1), che abbiamo introdotto nel capitolo 5 per una singola variabile
aleatoria.
Iniziamo col considerare la trasformazione (cosiddetta 2 1, cfr. 6.7.1) mediante la quale
a partire da una coppia ( X, Y ) di variabili aleatorie si ottiene una nuova variabile aleatoria Z =
g( X, Y ). Nel precedente capitolo, abbiamo studiato vari metodi per determinare CDF e pdf di Z,
conoscendo la CDF o la pdf congiunta della coppia ( X, Y ). Una volta determinata la pdf di Z,
in particolare, siamo in grado di calcolare la media di Z, utilizzando la definizione di media per
una singola variabile aleatoria: Z
E( Z) = z f Z (z) dz .

Tuttavia, non necessario conoscere la pdf di Z per calcolarne la media, poich sufficiente la
conoscenza della pdf congiunta di ( X, Y ), come affermato dal seguente teorema, il quale estende
il teorema fondamentale della media al caso di coppie di variabili aleatorie, e che enunciamo
senza dimostrazione:

Teorema 7.1 (teorema fondamentale della media per coppie di variabili aleatorie). Sia Z =
g( X, Y ) una trasformazione della coppia di variabili aleatorie ( X, Y ) aventi pdf congiunta
f XY ( x, y); si ha:
Z Z
E( Z ) = E[ g( X, Y )] = g( x, y) f XY ( x, y) dx dy ,

se tale integrale esiste finito.

Nel caso in cui ( X, Y ) siano variabili aleatorie discrete, osserviamo che anche Z = g( X, Y )
una variabile aleatoria discreta, ed il teorema precedente si esprime in termini della DF congiunta
p XY ( x, y) di ( X, Y ) come:

E( Z ) = E[ g( X, Y )] = g( x, y) p XY ( x, y) .
x X,y Y

In questo caso, anche semplice delineare la dimostrazione del teorema fondamentale (si veda
[4] oppure [5]).
immediato verificare che loperatore di media gode sempre della propriet di linearit, anche
se in questo caso il risultato pi generale, visto che coinvolge coppie di variabili aleatorie.
Infatti, siano g1 e g2 arbitrarie funzioni di due variabili, e siano a1 e a2 costanti reali; si ha:

E[ a1 g1 ( X, Y ) + a2 g2 ( X, Y )] = a1 E[ g1 ( X, Y )] + a2 E[ g2 ( X, Y )] .

La dimostrazione di questo risultato banale, basandosi direttamente sul teorema fondamentale


della media precedentemente enunciato, e si lascia al lettore per esercizio. Se, in particolare, si
sceglie g1 ( X, Y ) = X e g2 ( X, Y ) = Y, si ha:

E ( a 1 X + a 2 Y ) = a 1 E ( X ) + a 2 E (Y ) ,
7.3 Momenti congiunti di una coppia di variabili aleatorie 153

e pertanto la media della combinazione lineare di due variabili aleatorie coincide con la combina-
zione lineare delle medie. Notiamo esplicitamente che tale propriet di linearit vale in generale,
sia che X ed Y siano indipendenti, sia che non lo siano.

7.3 Momenti congiunti di una coppia di variabili aleatorie


Sulla base del teorema fondamentale della media, possiamo definire i momenti congiunti della
coppia di variabili aleatorie ( X, Y ):

Definizione (momento congiunto di ordine n = k + r). Il momento congiunto (di ordine


n = k + r) di una coppia di variabili aleatorie ( X, Y ) :
Z Z
kr , E( X k Y r ) = x k yr f XY ( x, y) dx dy ,

se lintegrale esiste finito.


Definizione (momento congiunto centrale di ordine n = k + r). Il momento congiunto cen-
trale (di ordine n = k + r) di una coppia di variabili aleatorie ( X, Y ), con medie X = E( X )
e Y = E(Y ), :
Z Z
k r
kr , E[( X X ) (Y Y ) ] = ( x X )k (y Y )r f XY ( x, y) dx dy ,

se lintegrale esiste finito.

Osserviamo che, ponendo k = 0 oppure r = 0, e sfruttando la relazione tra statistiche congiunte e


marginali, possibile ritrovare i momenti e i momenti centrali delle singole variabili aleatorie X
ed Y. Ad esempio, per k = 1 e r = 0, si verifica facilmente che il momento congiunto 10 coincide
con la media di X, in quanto:
Z Z Z Z

10 = x f XY ( x, y) dx dy = x f XY ( x, y) dy dx =

Z
= x f X ( x ) dx = E( X )

R
poich f XY ( x, y) dy = f X ( x ). Similmente si trova 20 = E( X 2 ) (valor quadratico medio) e
20 = E[( X X )2 )] (varianza), e analogamente per i corrispondenti momenti di Y. Ponendo
poi k = r = 0 nella definizione di momenti, si ottiene la propriet di normalizzazione della pdf
R R
congiunta, ovvero f XY ( x, y) dx dy = 1.
Come abbiamo accennato, la conoscenza di un sottoinsieme dei momenti congiunti va sotto
il nome di caratterizzazione sintetica della coppia di variabili aleatorie ( X, Y ). La caratterizzazio-
ne completa consiste invece nella conoscenza della CDF, pdf o DF congiunta. Ovviamente, se si
dispone della caratterizzazione completa, possibile ricavare un qualunque momento congiun-
to; viceversa, se si conosce un sottoinsieme dei momenti congiunti, non possibile in generale
ricavare CDF, pdf o DF congiunta.1
1 Anche qui, come accade per il caso di una singola variabile aleatoria, il discorso diverso se si suppone di conoscere

tutti i momenti congiunti; in tal caso, sotto opportune ipotesi, possibile risalire alla CDF, pdf o DF congiunta attraverso
luso della funzione caratteristica congiunta (si veda ad esempio [3, 7-2])
154 Caratterizzazione sintetica di una coppia di variabili aleatorie

7.4 Misure di correlazione di una coppia di variabili aleatorie


Tra i momenti congiunti di una coppia di variabili aleatorie ( X, Y ), quelli pi utilizzati sono i
momenti del secondo ordine (n = 2), che vanno sotto il nome di correlazione e covarianza.

7.4.1 Correlazione
Definizione (correlazione). La correlazione di una coppia di variabili aleatorie ( X, Y ) il
momento congiunto 11 di ordine n = 2, ovvero:
Z Z
Corr( X, Y ) , 11 = E( X Y ) = x y f XY ( x, y) dx dy ,

se lintegrale esiste finito.

Per fornire una prima interpretazione della correlazione, osserviamo che essa compare natu-
ralmente se calcoliamo il valore quadratico medio della somma di due variabili aleatorie X ed
Y:
E[( X + Y )2 ] = E( X 2 ) + E(Y 2 ) + 2 E( X Y ) .

Poich la correlazione pu essere positiva, negativa o nulla, allora il valor quadratico medio della
somma di due variabili aleatorie pu essere maggiore, minore o uguale alla somma dei valori
quadratici medi.
Una seconda interpretazione della correlazione di tipo geometrico, e precisamente come
prodotto scalare tra X ed Y; pertanto, essa richiede lintroduzione del fondamentale concetto di
spazio vettoriale di variabili aleatorie, che sar sviluppato nella successiva sezione.

7.4.2 Spazio vettoriale di variabili aleatorie


Lidea quella di interpretare le variabili aleatorie come vettori appartenenti ad un opportuno
spazio vettoriale. Osserviamo preliminarmente che, affinch si possa parlare legittimamente di
vettori, necessario che siano definite ed abbiano senso loperazione di somma di due vettori
e loperazione di prodotto di un vettore per uno scalare. Ma tali operazioni corrispondono alla
somma X + Y di due variabili aleatorie ed al prodotto a X di una variabile aleatoria per una
costante reale, per cui sono perfettamente definite.
Una volta assimilate le variabili aleatorie a vettori, possibile introdurre una serie di con-
cetti geometrici di grande importanza. In particolare, sui vettori appartenenti a questo spazio
vettoriale, possibile definire, con diretta interpretazione geometrica,
p
una norma k X k , E( X 2 );
p
una distanza d( X, Y ) , k X Y k = E[( X Y )2 ];

un prodotto scalare h X, Y i , E( XY ).

Tali definizioni non sono arbitrarie; in effetti si pu far vedere che la norma, la distanza e il pro-
dotto scalare cos definiti soddisfano le propriet caratteristiche di tali operazioni. Osserviamo,
in particolare, che la norma coincide con il valore efficace (e quindi la norma al quadrato coin-
cide con il valore quadratico medio E( X 2 )), mentre il prodotto scalare coincide proprio con la
correlazione tra le variabili aleatorie X ed Y.
7.4 Misure di correlazione di una coppia di variabili aleatorie 155

Di particolare importanza, in uno spazio vettoriale dotato di prodotto scalare, risulta la se-
guente disuguaglianza di Schwartz:

Teorema 7.2 (disuguaglianza di Schwartz). In uno spazio vettoriale di variabili aleatorie


dotato di prodotto scalare, vale la seguente disuguaglianza:
q q
| E( XY )| E( X 2 ) E(Y 2 ) ,

con uguaglianza se e solo se Y = aX (in media quadratica).

Prova. sufficiente considerare lespressione quadratica in a, non negativa,

E [( aX Y )2 ] 0 ,

che si sviluppa facilmente, utilizzando la linearit della media:

a2 E ( X2 ) 2 a E ( XY ) + E (Y2 ) 0 .

Poich tale forma quadratica non negativa, allora il suo discriminante minore o uguale a 0. Il calcolo
del discriminante fornisce:
= 4 E ( XY )2 4 E ( X2 ) E (Y2 ) 0 ,
per cui si ha E ( XY )2 E ( X2 ) E (Y2 ) e quindi, prendendo la radice quadrata, lasserto. Osserviamo che, se
il discriminante si annulla, allora esiste un valore di a, sia esso a , tale che

E [( a X Y )2 ] = 0 .

Questa condizione equivalente a dire che Y = a X in media quadratica. Ovviamente se luguaglianza


Y = a X vale puntualmente (ovvero si ha Y ( ) = a X ( ), ), essa vale a maggior ragione anche in
media quadratica, ma il viceversa non vero. 

La disuguaglianza di Schwartz afferma che, in valore assoluto, la correlazione non pu eccedere


il prodotto dei valori efficaci delle due variabili aleatorie X ed Y. Inoltra, essa consente anche di
riesprimere il prodotto scalare, e quindi la correlazione, come:

h X, Y i = k X kkY k cos( ) (7.1)

dove langolo (compreso tra 0 e 2) formato dai due vettori.2 Si trova allora che tale prodotto
scalare massimo (in modulo) quando = 0 (vettori allineati e nello stesso verso) oppure quando
= (vettori allineati ma di verso opposto). Viceversa, il prodotto scalare nullo, e quindi
minimo in modulo, quando cos( ) = 0, ovvero per = /2 o 3/2; in questo caso i vettori X ed
Y sono ortogonali. Possiamo allora fornire la seguente definizione di ortogonalit tra due variabili
aleatorie X ed Y:

Definizione (ortogonalit). Due variabili aleatorie X ed Y si dicono ortogonali (X Y) se e


solo se:
E( XY ) = 0 ,
ovvero se la loro correlazione nulla.

2 In realt la (7.1) consente di definire langolo tra due vettori sulla base del prodotto scalare, anche nei casi in cui

linterpretazione geometrica non direttamente applicabile.


156 Caratterizzazione sintetica di una coppia di variabili aleatorie

7.4.3 Covarianza
Definizione (covarianza). La covarianza di una coppia di variabili aleatorie ( X, Y ) il
momento congiunto centrale 11 di ordine n = 2, ovvero:

Cov( X, Y ) , 11 = E[( X X )(Y Y )] =


Z Z
= ( x X ) (y Y ) f XY ( x, y) dx dy ,

se lintegrale esiste finito.

Esiste una relazione semplice tra correlazione e covarianza: sviluppando infatti la media che
compare nella definizione di covarianza, si trova banalmente:

Cov( X, Y ) = E( X Y ) E( X ) E(Y ) = Corr( X, Y ) X Y . (7.2)

Una prima interpretazione della covarianza che essa compare naturalmente se proviamo
a calcolare la varianza della somma di due variabili aleatorie X ed Y. Infatti si ha, con semplici
passaggi

Var( X + Y ) = Var( X ) + Var(Y ) + 2 Cov( X, Y ) . (7.3)

Osserviamo che, poich la covarianza pu essere positiva, negativa o nulla, allora la varianza
della somma di due variabili aleatorie pu essere maggiore, minore o uguale alla somma delle
varianze.
Una seconda interpretazione della covarianza di tipo geometrico, e precisamente in termini
di prodotto scalare; infatti essa rappresenta il prodotto scalare tra le variabili aleatorie centrate
X X e Y Y . Essendo la covarianza un prodotto scalare, la disuguaglianza di Schwartz si
pu applicare anche ad essa, ed assume la seguente forma:
q q
|Cov( X, Y )| E[( X X )2 ] E[(Y Y )2 ] = X Y (7.4)

con uguaglianza se e solo se Y Y = a( X X ) (in media quadratica o quasi ovunque), e quindi


X ed Y sono legati da una dipendenza lineare esatta, del tipo Y = a X + b, con b = Y a X . La
(7.4) afferma che, in valore assoluto, la covarianza non pu eccedere il prodotto delle deviazioni
standard delle due variabili aleatorie X ed Y. Inoltre, essa consente di affermare che la covarianza
misura la dipendenza lineare tra due variabili aleatorie, in quanto massima in modulo se le due
variabili aleatorie sono legate da una relazione lineare.
Osserviamo che, se a scostamenti (rispetto alla media) X X positivi corrispondono in me-
dia scostamenti Y Y positivi, e analogamente per scostamenti negativi, la covarianza sar
positiva, e le variabili si diranno positivamente correlate; ci accade se ad esempio si considera al-
tezza e peso di una persona. In altri termini, ad un incremento di X (laltezza) corrisponde un
incremento di Y (il peso). Viceversa, se a scostamenti positivi di una variabile corrispondono
scostamenti negativi dellaltra, la covarianza sar negativa, e le variabili si diranno negativamente
correlate; ci accade ad esempio se si considerano il numero di sigarette fumate giornalmente e la
speranza di vita di una persona. In questo caso, ad un incremento di X (il numero di sigarette)
corrisponde un decremento di Y (la speranza di vita).
7.4 Misure di correlazione di una coppia di variabili aleatorie 157

7.4.4 Coefficiente di correlazione


La covarianza una misura assoluta di dipendenza lineare: per avere una misura relativa, suf-
ficiente normalizzarla al suo valore massimo (in modulo) X Y , ottenendo cos il coefficiente di
correlazione:
Definizione (coefficiente di correlazione). Il coefficiente di correlazione XY di una coppia
di variabili aleatorie ( X, Y ) :
Cov( X, Y )
XY , .
X Y

Sulla base dellinterpretazione come covarianza normalizzata, ed in particolare richiamando la


(7.4), si osserva che il coefficiente di correlazione gode della seguente propriet:
| XY | 1 ,
con uguaglianza se e solo se X ed Y presentano una dipendenza di tipo lineare esatta, ovvero
Y = a X + b (in media quadratica o quasi ovunque).

Esempio 7.1. Mostriamo che il parametro che compare nella pdf congiunta di due variabili aleatorie
congiuntamente gaussiane X ed Y proprio il coefficiente di correlazione XY . A tal scopo, consideriamo
prima il calcolo della covarianza Cov( X, Y ): si ha:
Z Z
Cov( X, Y ) = E [( X X )(Y Y )] = ( x X )(y Y ) f XY ( x, y) dx dy .

Per risolvere tale integrale, conviene decomporre la f XY ( x, y) come gi fatto nellesempio 6.2, e precisamente
come
 " h

i2 #
1 12 ( x X )2 1 2 1 2 y Y Y ( x X )
f XY ( x, y) = e 2
X p e 2 (1 )
Y X
.
X 2 Y 1 2 2
Sostituendo nellespressione della covarianza, si ottiene:
Z 1
( x X )2
1
22
Cov( X, Y ) = (x X ) e X
X 2
"Z
1
h

i2 # (7.5)
1
22 (1 2)
y Y Y ( x X )
(y Y ) p e Y X
dy dx
Y 1 2 2
Concentriamo lattenzione sullintegrale in dy: poich la pdf che vi compare ancora gaussiana, a media
Y + YX ( x X ), aggiungendo e sottraendo YX ( x X ) nel termine (y Y ) avremo che lintegrale si
pu decomporre come:
h i2
Z  
2 1 2 y Y Y ( x X )
1
y Y Y ( x X ) p e 2Y (1 ) X
dy+
X Y 1 2 2
h i2
Z
2 1 2 y Y Y ( x X )
1
+ Y (x X ) p e 2Y (1 ) X
dy .
X Y 1 2 2

Dei due integrali risultanti, il primo nullo per la definizione di media, mentre il secondo unitario, per la
condizione di normalizzazione della pdf. In definitiva, il risultato del calcolo semplicemente XY ( x X )
che, sostituito nella (7.5), fornisce:
Z 1
( x X )2
Y 1
Cov( X, Y ) = ( x X )2 e 22
X =
X X 2
Z 1
( x X )2
1
= Y ( x X )2 e 22
X =
X X 2

= Y X2 = X Y ,
X
per cui si ricava, dividendo la covarianza per X Y , che = XY , come si voleva provare.
158 Caratterizzazione sintetica di una coppia di variabili aleatorie

7.4.5 Incorrelazione tra due variabili aleatorie


Abbiamo visto che, come la covarianza, anche il coefficiente di correlazione misura la dipendenza
lineare esistente tra le due variabili aleatorie. Il vantaggio che esso, essendo normalizzato, pi
facilmente interpretabile: tale relazione lineare tanto pi forte quanto pi XY in modulo
prossimo ad uno. La completa assenza di dipendenza lineare, viceversa, si ha se XY = 0, il che
ovviamente equivale anche a Cov( X, Y ) = 0; tale condizione va sotto il nome di incorrelazione:

Definizione (incorrelazione). Due variabili aleatorie X ed Y si dicono incorrelate se


Cov( X, Y ) = 0 o, equivalentemente, se XY = 0.

Notiamo che, per la relazione (7.2) esistente tra covarianza e correlazione, la condizione di incor-
relazione si pu esprimere equivalentemente come:

E ( X Y ) = E ( X ) E (Y ) ,

che si interpreta come una propriet di fattorizzazione della correlazione (la media del prodotto
X Y uguale al prodotto delle medie di X ed Y). Questa propriet va messa in relazione con quel-
la di indipendenza, che rappresenta invece una propriet di fattorizzazione per la pdf congiunta:
facile verificare che vale il seguente teorema:

Teorema 7.3 (relazione tra incorrelazione e indipendenza). Se X ed Y sono due variabili


aleatorie indipendenti, allora esse sono anche incorrelate.

Prova. Se scriviamo E ( X Y ) esplicitamente, si ha:


Z Z
E(X Y ) = x y f XY ( x, y) dx dy ,

per cui, se le variabili aleatorie sono indipendenti, risulta f XY ( x, y) = f X ( x ) f Y (y), e quindi:


Z  Z 
E(X Y ) = x f X ( x ) dx y f X (y) dy = E ( X ) E (Y ) ,

pertanto resta dimostrato lasserto. 

altrettanto ovvio che, viceversa, lincorrelazione non implica lindipendenza: infatti se si fat-
torizzano le medie (gli integrali), non detto che si fattorizzino le pdf (le funzioni integrande).
Una eccezione degna di nota il caso delle variabili aleatorie congiuntamente gaussiane, come
mostrato dallesempio che segue.

Esempio 7.2. Siamo ( X, Y ) N( X , Y , X , Y , ) due variabili aleatorie congiuntamente gaussiane. Sup-


poniamo che ( X, Y ) siano incorrelate, il che equivale alla condizione = 0, poich tale parametro il
coefficiente di correlazione. Se allora si considera lespressione della pdf bidimensionale gaussiana (6.5) per
= 0, si vede che essa si fattorizza nel prodotto delle pdf marginali di due variabili aleatorie X N( X , X )
e Y N(Y , Y ), per cui X ed Y sono indipendenti.

Notiamo che lincorrelazione tra X ed Y garantisce solo la fattorizzazione della media del pro-
dotto X Y; viceversa, lindipendenza tra X ed Y, essendo pi forte dellincorrelazione, garantisce
7.5 Stima lineare a minimo errore quadratico medio 159

la fattorizzazione della media di un qualunque prodotto del tipo g( X ) h(Y ); per dimostrarlo for-
malmente, osserviamo che se X ed Y sono indipendenti, anche le variabili aleatorie Z = g( X ) e
W = h(Y ) sono indipendenti (cfr. 6.6.1 propriet 2) e quindi incorrelate, e si ha allora

E[ g( X ) h(Y )] = E[ g( X )] E[h(Y )] .

Una conseguenza importante di tale propriet il fatto che, per variabili aleatorie indipendenti,
qualunque momento congiunto (centrale oppure no) si fattorizza nel prodotto dei corrispondenti
momenti marginali; ad esempio, si ha:

kr = E( X k Y r ) = E( X k ) E(Y r ) = k r .

Unaltra propriet interessante delle variabili aleatorie incorrelate che, per esse, risulta

Var( X + Y ) = Var( X ) + Var(Y ) ,

ovvero la varianza della somma pari alla somma delle varianze. Tale risultato si ottiene banal-
mente dalla (7.3) ponendovi Cov( X, Y ) = 0, e ovviamente vale a maggior ragione se X ed Y sono
indipendenti.
Notiamo infine che, nonostante una terminologia poco felice, non bisogna confondere i con-
cetti di ortogonalit ed incorrelazione: lortogonalit corrisponde allannullarsi della correlazione,
lincorrelazione corrisponde allannullarsi della covarianza o del coefficiente di correlazione. Stan-
te la relazione (7.2), ortogonalit e incorrelazione coincidono se almeno una delle due variabili
aleatorie a media nulla. Inoltre, dire che X ed Y sono incorrelate equivale a dire che le variabili
centrate X X e Y Y sono ortogonali.

7.5 Stima lineare a minimo errore quadratico medio


Unapplicazione interessante dei concetti introdotti nelle precedenti sezioni, basata in particolare
sullinterpretazione delle variabili aleatorie come vettori, il problema della stima. Possiamo
formalizzarlo come segue: abbiamo a disposizione una variabile aleatoria X, e a partire da un
valore x assunto da X, vogliamo ottenere la stima di una seconda variabile aleatoria Y, collegata
ad X da qualche relazione.

Esempio 7.3. Sia Y laltezza ed X il peso di una persona; sappiamo che il peso X = x e vogliamo stimare
laltezza Y (tale problema significativo per esempio in ambito pediatrico, per controllare la crescita dei
neonati).

Chiameremo stimatore di Y, a partire dai dati X, una funzione Y b = g( X ), dove Y


b rappresenta
la stima di Y. Notiamo che uno stimatore non altro che una trasformazione della variabile
aleatoria X: sebbene la forma funzionale di g possa essere arbitraria, ci limiteremo a considerare
stimatori lineari, per i quali g una funzione lineare dei dati X, e si ha quindi:

b = aX+b,
Y (7.6)

con a, b parametri reali.


Per determinare lespressione esplicita di uno stimatore (vale a dire la forma della funzione
g, o per uno stimatore lineare i coefficienti a e b) occorre introdurre una misura di qualit dello
160 Caratterizzazione sintetica di una coppia di variabili aleatorie

stimatore stesso, per determinare quanto buona sia la stima Y.b Una misura molto utilizzata,
per la sua semplicit matematica, lerrore quadratico medio (mean square error, MSE) di stima:

MSE(Y, Y b )2 ] .
b ) , E[(Y Y (7.7)

Il criterio di stima a minimo errore quadratico medio (minimum mean square error, MMSE) consiste nel
determinare lo stimatore g che minimizza lerrore quadratico medio; nel caso di stima lineare, si
tratta semplicemente di determinare i parametri a e b che minimizzano lerrore quadratico medio.
Si ha:
Y
a = XY , (7.8)
X
Y
b = Y X XY . (7.9)
X

Prova. Si consideri lerrore quadratico medio (7.7): sostituendo lespressione dello stimatore data dalla (7.6)
nella (7.7) si trova:
MSE = E [(Y aX b )2 ] .
Per determinare i valori di a e b che rendono minimo lMSE, si calcolano le derivate parziali dellMSE
rispetto ad a e b e si eguagliano a zero (derivando sotto il segno di media):


MSE = 2E [(Y aX b ) X ] = 0 ,
a

MSE = 2 E [(Y aX b )] = 0 ,
b
Sviluppando le medie, si ottiene un sistema di due equazioni nelle incognite a e b:

a E ( X2 ) + b E ( X ) = E ( XY )
a E ( X ) + b = E (Y )

che risolto rispetto ad a e b fornisce i risultati (7.8) e (7.9). 


Osserviamo che la media dello stimatore ottimo vale

b) = a E( X ) + b = XY Y X + Y X XY Y = Y
E (Y
X X
cio uguale alla media della variabile aleatoria Y da stimare. Uno stimatore che soddisfa una
tale propriet non commette un errore sistematico di stima, e si dice quindi non polarizzato (in
inglese, unbiased).
Passiamo ora a sostituire i valori di a e b appena determinati nella (7.7), per trovare il valore
dellerrore quadratico medio minimo; con facili passaggi algebrici, si ottiene

MSEmin = Y2 [1 2XY ] ,

dove XY il coefficiente di correlazione tra le variabili aleatorie X ed Y. Poich | XY | 1,


notiamo che lerrore minimo risulta maggiore o uguale a zero, come naturale; inoltre esso
minore o uguale alla varianza di Y; in particolare, possiamo considerare i due casi limite:

1. se XY = 0, ovvero se le variabili aleatorie X ed Y sono incorrelate, risulta a = 0 e b = Y


b = Y e lerrore minimo 2 . In questo
nelle (7.8) ed (7.9), per cui lo stimatore diventa Y Y
caso, la migliore stima lineare di Y indipendente dai dati X e coincide con la sua media
Y , mentre lerrore quadratico medio coincide con la varianza di Y. chiaro che in questo
caso X non fornisce alcuna indicazione utile per determinare Y;
7.5 Stima lineare a minimo errore quadratico medio 161

Y
Y-Y Y
Y-Y

=aX
Y =aX
Y
X X
Fig. 7.1. Principio di ortogonalit: lerrore quadratico medio (MSE) rappresenta la norma del vettore Y Y b
b
(a sinistra); al variare di a, il valore minimo dellMSE si ottiene quando il vettore Y Y ortogonale ad X (a
destra).

2. se XY = 1, ovvero se le variabili aleatorie X ed Y sono legate da una dipendenza lineare


esatta, allora lerrore quadratico medio minimo pari a zero. In questo caso, uno stimatore
lineare si adatta perfettamente alla dipendenza lineare posseduta dalle variabili aleatorie,
per cui fornisce risultati assai soddisfacenti.

7.5.1 Principio di ortogonalit


Una formulazione geometrica interessante del problema della stima lineare MMSE si ottiene sup-
ponendo che X ed Y siano a media nulla, ovvero X = Y = 0. In tal caso, per avere uno stima-
tore non polarizzato, necessario porre b = 0 (si noti che tale risultato discende anche dalla (7.9)
per X = Y = 0) e scegliere quindi uno stimatore lineare omogeneo:

b = aX,
Y

b) = a E( X ) = 0, qualunque sia il parametro a. Questultimo


in quanto solo in tal caso risulta E(Y
va determinato in modo da minimizzare lerrore quadratico medio (7.7).
In effetti, tale problema un caso particolare del precedente, con X = Y = 0, per cui il
valore di a dato ancora dalla (7.8),

a = XY Y .
X
Vogliamo tuttavia reinterpretare tale problema da un punto di vista differente, ed in partico-
lare vogliamo fornirne una interessante interpretazione geometrica. Osserviamo che, se X ed Y
sono due vettori, lo stimatore Yb = a X, al variare di a, sar un vettore proporzionale (Fig. 7.1)
ad X, cio allineato ad esso. Lerrore quadratico medio E[(Y Y b)2 ] rappresenta allora la nor-
b
ma al quadrato del vettore differenza Y Y. Con semplici considerazioni geometriche, facile
convincersi che, al variare di a, tale norma minima quando il vettore Y Y b ortogonale ad X.
Daltra parte, se consideriamo lespressione esplicita di tale norma (ovvero dellerrore quadratico
medio):
MSE(Y, Y b )2 ] = E[(Y aX )2 ]
b ) = E[(Y Y

e deriviamo rispetto ad a, annullando tale derivata si ottiene:

b) X ] = 0 ,
E[(Y aX ) X ] = E[(Y Y

be
che rappresenta proprio la condizione di annullamento del prodotto scalare tra i vettori Y Y
X, ovvero la condizione di ortogonalit precedentemente menzionata. Tale risultato, in sintesi,
162 Caratterizzazione sintetica di una coppia di variabili aleatorie

afferma che la stima lineare MMSE quella che rende lerrore di stima Y Yb ortogonale ai dati
X, e va sotto il nome di principio di ortogonalit.
Per quanto riguarda il valore minimo dellerrore quadratico medio, sfruttando ancora lorto-
gonalit tra Y Yb e X, si trova:

b )2 ] = E[(Y Y
MSEmin = E[(Y Y b ) (Y Y
b )] =
b )Y ] E[(Y Y
= E[(Y Y b )Yb] =
b )Y ] a E[(Y Y
= E[(Y Y b) X ] = (7.10)
| {z }
=0
2 b Y ) = 2 [1 2 ] ,
= E (Y ) E (Y Y XY

che lo stesso valore trovato per il caso b 6= 0, e per il quale valgono le stesse considerazioni,
adesso suscettibili di una chiara interpretazione geometrica. Infatti, se osserviamo la Fig. 7.1 (a
destra), in condizioni di ortogonalit risulta, per il teorema di Pitagora,

E (Y 2 ) = E (Y
b2 ) + MSEmin ,

e inoltre si ha:
b2 ) = a2 E ( X 2 ) = 2 2 ,
E (Y XY Y

dove abbiamo sostituito lespressione di a data dalla (7.8); in definitiva, si trova proprio la (7.10).
In conclusione, va osservato che, tra tutti i tipi di stima possibile, la stima lineare raramente
ottima, in quanto la dipendenza tra X ed Y non generalmente di tipo lineare, ma spesso di
tipo non lineare. Tuttavia, la stima lineare ampiamente considerata nelle applicazioni, princi-
palmente per la semplicit matematica della sua formulazione e per linterpretazione geometrica.
Degno di nota ancora il caso delle variabili aleatorie congiuntamente gaussiane, per le quali si
pu dimostrare limportante risultato che la stima lineare ottima (in senso MMSE) tra tutti i pos-
sibili tipi di stima; ci significa intuitivamente che le variabili aleatorie congiuntamente gaussiane
presentano tra loro esclusivamente dipendenze di tipo lineare.
7.6 Esercizi proposti 163

7.6 Esercizi proposti


Esercizio 7.1. Un esperimento aleatorio consiste nello scegliere a caso ed in modo indipendente due punti X
ed Y nellintervallo (0, 1). Calcolare il valor medio della distanza tra i due punti. [Risposta: 1/3]

Esercizio 7.2. Un rettangolo ha i due lati X ed Y che sono modellati come variabili aleatorie aventi pdf
f XY ( x, y) = x + y, 0 < x < 1, 0 < y < 1. Calcolare il valor medio dellarea del rettangolo. [Risposta: 1/3]

Esercizio 7.3. In un sistema di riferimento cartesiano, si sceglie a caso ed in modo indipendente una lun-
ghezza R nellintervallo (0, 1) ed un angolo nellintervallo (0, 2 ), e si costruisce un vettore centrato
nellorigine di lunghezza R e che forma con lasse x un angolo (valutato in senso antiorario). Calcolare la
lunghezza media delle proiezioni X ed Y del vettore sui due assi cartesiani. [Risposta: 1/]

Esercizio 7.4. Lenergia cinetica E di un corpo pari a E = 21 MV 2 , dove M rappresenta la massa (in kg) e V
la velocit (scalare) del corpo (in m/s). Se la pdf congiunta di M e V f MV ( x, y) = x + y, per 0 < x < 1 e
0 < y < 1, determinare lenergia cinetica media posseduta dal corpo. [Risposta: 0.12 Joule]

Esercizio 7.5. Una particella di massa m = 107 kg si muove su un sottile strato superficiale, assimilabile ad
un piano. Le componenti lungo x ed y della sua velocit (in m/s) sono modellate come variabili aleatorie
a media nulla e varianza unitaria. Calcolare lenergia cinetica media posseduta dalla particella. [Risposta:
107 Joule]

Esercizio 7.6. Due aste X ed Y hanno lunghezze modellabili come variabili aleatorie indipendenti ed unifor-
mi in (0, 1).
a) Determinare la lunghezza media della pi lunga tra la due.
b) Determinare la lunghezza media della pi corta tra le due.
[Risposta: a) 2/3; b) 1/3]

Esercizio 7.7. Siano X, Y due variabili aleatorie con pdf congiunta f XY ( x, y) = 1/24, 0 < x < 6, 0 < y < 4.
Calcolare il momento congiunto E ( X2 Y2 ).

Esercizio 7.8. Siano X, Y due variabili aleatorie indipendenti con medie X = 2, Y = 4 e valori quadratici
medi E ( X2 ) = 8 ed E (Y2 ) = 25. Calcolare media, valor quadratico medio e varianza di Z = 3 X Y.

2 , 2 , rispetti-
Esercizio 7.9. Siano X, Y due variabili aleatorie indipendenti, con medie X , Y e varianze X Y
vamente. Esprimere la correlazione tra Z = XY ed Y in funzione dei precedenti parametri.

2 = 2, e sia Y = 6 X + 22.
Esercizio 7.10. Sia X una variabile aleatoria con media X = 3 e varianza X
a) Calcolare correlazione, covarianza e coefficiente di correlazione tra X ed Y;
b) stabilire se X ed Y sono ortogonali, incorrelate, indipendenti.

Esercizio 7.11. Siano X, Y due variabili aleatorie con la seguente pdf congiunta:
(
1
( x + y)2 , 1 < x < 1, 3 < y < 3 ;
f XY ( x, y) = 40
0, altrimenti .

Determinare il coefficiente di correlazione tra X ed Y.

Esercizio 7.12. Siano X ed Y due variabili aleatorie con pdf congiunta f XY ( x, y) = x + y, 0 x 1, 0 y


1. Calcolare correlazione, covarianza e coefficiente di correlazione tra X ed Y.

Esercizio 7.13. Siano X ed Y due variabili aleatorie con pdf congiunta f XY ( x, y) = 2 x, 0 x 1, 0 y 1.


Calcolare correlazione, covarianza e coefficiente di correlazione tra X ed Y.
164 Caratterizzazione sintetica di una coppia di variabili aleatorie

Esercizio 7.14. Siano X ed Y due variabili aleatorie con pdf congiunta f XY ( x,y) = 1, 0 x 1, x y
x + 1. Calcolare il coefficiente di correlazione tra X ed Y. [Risposta: XY = 1/ 2]

Esercizio 7.15. Siano X ed Y due variabili aleatorie con pdf congiunta f XY ( x, y) = 10, 0 x 1, x y
x + 1/10. Calcolare il coefficiente di correlazione tra X ed Y. [Risposta: XY = 100/101]

Esercizio 7.16. Sia X U(1, 1), e sia Y = X2 . Mostrare che X ed Y sono incorrelate anche se sono
chiaramente dipendenti.

Esercizio 7.17. Mostrare che ogni variabile aleatoria X incorrelata con una costante.

Esercizio 7.18. Mostrare che se u ( a X ) e u (b Y ) sono incorrelate per ogni a e b, allora X e Y sono
indipendenti.

Esercizio 7.19. Siano U, V due variabili aleatorie ottenute da X, Y mediante la seguente trasformazione:

U = X +aY
V = X aY

Determinare, in funzione dei momenti di X ed Y, i valori di a per i quali le variabili aleatorie U e V sono (i)
ortogonali; (ii) incorrelate.

2 = 4, 2 = 16, e coefficiente di
Esercizio 7.20. Siano X, Y due variabili aleatorie a media nulla, varianze X Y
correlazione XY = 0.5; a partire da esse si costruisca W = a X + 3 Y.
a) Determinare il valore di a che rende minimo il valore quadratico medio di W;
b) determinare il valore quadratico medio minimo.

Esercizio 7.21. Siano X, Y due variabili aleatorie incorrelate. Trovare il coefficiente di correlazione tra X + Y
ed X Y in funzione di X 2 e 2 . [Risposta: 2 2 2 2
Y XY = ( X Y ) /( X + Y )]
Capitolo 8

Vettori di variabili aleatorie

In questo capitolo si generalizzano al caso di n variabili aleatorie molti dei concetti gi esposti
per il caso di una coppia di variabili aleatorie; la generalizzazione quasi sempre naturale, por-
tando alla definizione di CDF, pdf e DF congiunte, che risultano in tal caso funzioni di n variabili
e consentono la caratterizzazione statistica completa delle n variabili aleatorie. Successivamente
vengono introdotte le trasformazioni di n variabili aleatorie, generalizzando il teorema fonda-
mentale sulle trasformazioni gi studiato per n = 1, 2. La definizione di indipendenza viene
anchessa generalizzata, e si introducono i concetti di indipendenza a coppie e a gruppi. Per
quanto riguarda la caratterizzazione sintetica, lattenzione viene rivolta principalmente alle ma-
trici di correlazione e di covarianza, la cui introduzione consente limportante generalizzazione
al caso n-dimensionale delle variabili aleatorie congiuntamente gaussiane, discusso nellesempio
8.5. Il capitolo si conclude con una breve introduzione ai teoremi limite (per n ), nella qua-
le si espongono la legge dei grandi numeri (nella versione debole e forte) ed il teorema limite
fondamentale.

8.1 Introduzione
Abbiamo visto nel capitolo 6 come descrivere probabilisticamente una coppia di variabili alea-
torie X ed Y. Tuttavia, evidente che esistono casi in cui si presenta la necessit di descrivere
congiuntamente pi di due variabili aleatorie. Ad esempio, un insieme di misure di tensione ef-
fettuate su un circuito elettrico pu essere rappresentato da una n-pla di variabili aleatorie, in cui
X1 rappresenta la tensione nel punto 1, X2 rappresenta la tensione nel punto 2, e cos via. Allo
stesso modo, unanalisi medica volta a individuare una malattia potrebbe essere modellata come
una n-pla di variabili aleatorie, in cui X1 rappresenta il livello di glucosio del sangue, X2 il livello
di azoto, e cos via. necessario allora introdurre gli strumenti matematici per caratterizzare
statisticamente n variabili aleatorie, con n > 2. Fortunatamente, vedremo che la maggior parte
166 Vettori di variabili aleatorie

dei concetti necessari si ottengono generalizzando in maniera semplice definizioni e risultati gi


ottenuti per il caso di coppie di variabili aleatorie.
Infine, in alcuni casi interessa studiare il comportamento limite o asintotico di n variabili aleato-
rie quando si faccia tendere n allinfinito, ottenendo cos una sequenza di variabili aleatorie. I prin-
cipali risultati sono raccolti nei cosiddetti teoremi limite (legge dei grandi numeri e teorema limite
fondamentale o central limit theorem, CLT), sulla base dei quali tra laltro possibile approfondire
il legame esistente tra la teoria assiomatica della probabilit e linterpretazione frequentista.

8.2 Caratterizzazione statistica di n variabili aleatorie


Sia (, S, P) uno spazio di probabilit, e siano X1 , X2 , . . . , Xn n variabili aleatorie costruite su tale
spazio. Per adoperare una notazione sintetica, possiamo organizzare le n variabili aleatorie in un
vettore colonna1
X = [ X1 , X2 , . . . , X n ] T ,

dove con lapice T abbiamo denotato loperazione di trasposizione. Abbiamo costruito in questo
modo un vettore di variabili aleatorie, e adopereremo indifferentemente la terminologia n variabili
aleatorie, n-pla di variabili aleatorie, oppure vettore di n variabili aleatorie.

8.2.1 Funzione di distribuzione cumulativa (CDF)


Per caratterizzare statisticamente le n variabili aleatorie, dobbiamo generalizzare il concetto di
CDF congiunta per una coppia di variabili aleatorie al caso di n variabili aleatorie:

Definizione (CDF congiunta di n variabili aleatorie). Date n variabili aleatorie


X1 , X2 , . . . , Xn costruite su uno stesso spazio di probabilit (, S, P), la loro CDF congiunta
:
FX1 X2 Xn ( x1 , x2 , . . . , x n ) , P( X1 x1 , X2 x2 , . . . , Xn xn ) ,
n
dove ( x1 , x2 , . . . , x n ) R .

La CDF congiunta una funzione reale di n variabili reali, e spesso viene denominata CDF di
ordine n.

Per adoperare una notazione sintetica, possiamo utilizzare una notazione vettoriale anche per
i valori x1 , x2 , . . . , x n , ponendo x = [ x1 , x2 , . . . , x n ], e denotare la CDF congiunta con FX ( x). Va
notato che, poich la rappresentazione grafica di una funzione di n variabili avviene in uno spazio
(n + 1)-dimensionale, per n > 2 tale rappresentazione praticamente impossibile.

8.2.2 Funzione densit di probabilit (pdf)


Analogamente al caso di coppie di variabili aleatorie, a partire dalla CDF congiunta si ottiene la
pdf congiunta per derivazione mista:
1 In questo capitolo, faremo sovente uso di nozioni elementari di algebra lineare, quali vettori, matrici, prodotti tra ma-

trici/vettori, etc; si assume pertanto che il lettore abbia familiarit con tali concetti; per agevolare la lettura, le definizioni
e propriet di uso pi frequente sono brevemente richiamate nellAppendice E.
8.2 Caratterizzazione statistica di n variabili aleatorie 167

Definizione (pdf congiunta di n variabili aleatorie). Date n variabili aleatorie X1 , X2 , . . . , Xn


con CDF congiunta FX1 X2 ...Xn ( x1 , x2 , . . . , x n ), la loro pdf congiunta :

n
f X1 X2 Xn ( x1 , x2 , . . . , x n ) , FX X X ( x1 , x2 , . . . , x n ) .
x1 x2 xn 1 2 n

Anche in questo caso assumeremo che valga la condizione di Schwartz, in modo che la deri-
vata mista non dipenda dallordine di integrazione. Inoltre, denoteremo sinteticamente la pdf
congiunta con f X ( x).

8.2.3 Funzione di distribuzione di probabilit (DF)


Infine, per vettori di variabili aleatorie discrete, possiamo definire la DF congiunta:

Definizione (DF congiunta di n variabili aleatorie). Date n variabili aleatorie X1 , X2 , . . . , Xn


discrete costruite su uno stesso spazio di probabilit (, S, P), a valori in X1 , X2 , . . . , Xn ,
rispettivamente, la loro DF congiunta :

p X1 X2 Xn ( x1 , x2 , . . . , x n ) , P( X1 = x1 , X2 = x2 , . . . , Xn = xn ) ,

dove ( x1 , x2 , . . . , x n ) X1 X2 Xn .

Anche per la DF congiunta utilizzeremo spesso la notazione sintetica p X ( x).

8.2.4 Propriet delle distribuzioni congiunte di n variabili aleatorie


Le CDF, pdf e DF di n variabili aleatorie godono di propriet che sono la naturale generalizza-
zione delle corrispondenti propriet valide per il caso n = 2. Senza elencarle tutte in maniera
sistematica, limitiamoci a considerare quelle pi importanti nelle applicazioni.
Ad esempio, notiamo che a partire dalla pdf congiunta possibile ricavare la CDF congiunta
per integrazione, come:
Z x1 Z x2 Z xn
FX1 X2 Xn ( x1 , x2 , . . . , x n ) = f X1 X2 Xn (u1 , u2 , . . . , un ) du1 du2 dun ,

o equivalentemente, utilizzando la notazione sintetica, come

Z x1 Z x2 Z xn
FX ( x) = f X (u) du .

Poich, poi, FX1 X2 Xn (, , . . . , ) = 1, dalla precedente ricaviamo la condizione di normalizza-


zione della pdf:
Z
f X ( x) dx = 1 ,
Rn

dove abbiamo utilizzato una notazione sintetica per lintegrale n-plo. Pertanto la pdf ha volu-
me unitario nello spazio n-dimensionale.
168 Vettori di variabili aleatorie

Linterpretazione della pdf congiunta come densit di probabilit scaturisce dalla seguente re-
lazione:

f X ( x) dx = P( x1 < X1 x1 + dx1 , x2 < X2 x2 + dx2 , . . . , x n < Xn xn + dxn ) ,

per cui la pdf congiunta nel punto x rappresenta la probabilit che la n-pla di variabili aleatorie
X1 , X2 , . . . , Xn appartengano ad un rettangolino n-dimensionale di lati infinitesimi centrato su x,
divisa per il volume dx1 dx2 dxn del rettangolino. Anche in questo caso, tale risultato prova
implicitamente che f X ( x) 0; inoltre, se D un dominio qualsiasi di Rn , si ha:
Z
P( X D ) = f X ( x) dx .
D

Ponendo pari a + uno o pi argomenti della CDF, poi possibile ottenere tutte le statistiche
di ordine k < n a partire da quelle di ordine n. Consideriamo, ad esempio, il caso di tre variabili
aleatorie X1 , X2 , X3 , caratterizzate dalla loro CDF congiunta FX1 X2 X3 ( x1 , x2 , x3 ). facile verificare
che si ha, ad esempio:

FX1 X2 ( x1 , x2 ) = FX1 X2 X3 ( x1 , x2 , +) ,
FX1 ( x1 ) = FX1 X2 X3 ( x1 , +, +) .

possibile procedere analogamente con le pdf, semplicemente integrando rispetto alle variabili
che non interessano. Le relazioni precedenti si scrivono, in termini di pdf, come:
Z
f X1 X2 ( x 1 , x 2 ) = f X1 X2 X3 ( x1 , x2 , x3 ) dx3

Z Z
f X1 ( x 1 ) = f X1 X2 X3 ( x1 , x2 , x3 ) dx2 dx3

Analoghe relazioni valgono per le DF, per le quali, anzich integrare rispetto alle variabili che
non interessano, si effettua la somma.
In definitiva, osserviamo che assegnare le CDF, pdf o DF congiunte di ordine n equivale ad
assegnare implicitamente tutte le CDF, pdf e DF congiunte di ordine k < n.

8.3 Trasformazioni di n variabili aleatorie


Generalizziamo adesso il concetto di trasformazione gi presentato per il caso di una e due
variabili aleatorie, considerando trasformazioni di n variabili aleatorie. Il caso pi generale
che possiamo considerare quello in cui, a partire da un vettore di n variabili aleatorie X =
[ X1 , X2 , . . . , Xn ] T , si ottiene un vettore di k variabili aleatorie Y = [Y1 , Y2 , . . . , Yk ] T , utilizzan-
do k funzioni g1 , g2 , . . . , gk di n variabili. Tale trasformazione di variabili aleatorie si esprime
esplicitamente come:

Y1 = g1 ( X1 , X2 , . . . , Xn )

Y2 = g2 ( X1 , X2 , . . . , Xn )
.. .. .. .

. . .


Yk = gk ( X1 , X2 , . . . , Xn )
Lobiettivo quello di determinare la pdf congiunta di Y a partire dalla pdf congiunta di X.
Possiamo distinguere tre casi: (i) k < n (sistema sottodeterminato); (ii) k > n (sistema sovra-
determinato); (iii) k = n (sistema quadrato). In particolare, nel caso k = n possibile forni-
re una interessante generalizzazione del teorema fondamentale sulle trasformazioni di variabili
aleatorie, che abbiamo gi introdotto per n = 1 (cfr. 4.2.3) ed n = 2 (cfr. 6.7.2):
8.3 Trasformazioni di n variabili aleatorie 169

Teorema 8.1 (teorema fondamentale sulle trasformazioni di n variabili aleatorie). Sia X =


[ X1 , X2 , . . . , Xn ] T un vettore di variabili aleatorie con pdf f X1 X2 Xn ( x1 , x2 , . . . , xn ), e sia Y =
[Y1 , Y2 , . . . , Yn ] T un vettore di variabili aleatorie ottenuto per trasformazione da X, come:


Y1 = g1 ( X1 , X2 , . . . , Xn )

Y2 = g2 ( X1 , X2 , . . . , Xn )
.. .. .. .

. . .


Yn = gn ( X1 , X2 , . . . , Xn )

Si consideri il sistema di equazioni:




y1 = g1 ( x 1 , x 2 , . . . , x n )

y2 = g2 ( x 1 , x 2 , . . . , x n )
.. .. .. . (8.1)

. . .


yn = gn ( x1 , x2 , . . . , x n )

La pdf congiunta di Y data da:



se il sistema (8.1) non ha soluzio-
0,


ni;
f Y1 Y2 Yn (y1 , y2 , . . . , y n ) =

f X1 X2 Xn ( x1i , x2i , . . . , x ni )

dove ( x1i , x2i , . . . , x ni ) una solu-
,
i |det[ J ( x1 , x2 , . . . , x n ))]|
i i i zione del sistema (8.1);

in cui det() denota il determinante, e


y y1 y1

1
x1 x2 ... x n
y2 y2 y2
( y1 , y2 , . . . , y n ) ...
x1 x2 x n
J ( x1 , x2 , . . . , x n ) = = . .. ..
( x1 , x2 , . . . , x n ) .. . .

y n y n y n
x1 x2 ... x n

la matrice jacobiana della trasformazione.

Come nel caso n = 1 ed n = 2, lapplicazione del teorema richiede che il sistema (8.1) abbia al
pi una infinit numerabile di soluzioni.

Esempio 8.1 (trasformazione lineare). Consideriamo il caso particolarmente semplice di una trasforma-
zione lineare di variabili aleatorie:


Y1 = a11 X1 + a12 X2 + . . . a1n Xn


Y2 = a21 X1 + a22 X2 + . . . a2n Xn
.. .. ..

. . .


Yn = an1 X1 + an2 X2 + . . . ann Xn

Tale trasformazione si pu esprimere in forma assai compatta utilizzando la notazione vettoriale:

Y = AX ,
170 Vettori di variabili aleatorie

dove Y = [Y1 , Y2 , . . . , Yn ] T ed X = [ X1 , X2 , . . . , Xn ] T sono vettori colonna n-dimensionali, e la matrice A


definita come:
a11 a12 . . . a1n
a21 a22 . . . a2n

A= . .
.. ... ...
an1 an2 ... ann
Se assumiamo che det( A) 6= 0, il sistema numerico y = A x ammetter, per ogni y Rn , una ed una sola
soluzione nellincognita x, data da:
x = A1 y ,
dove A1 denota la matrice inversa di A. facile, inoltre, verificare che la matrice jacobiana J della trasfor-
mazione pari proprio ad A, per cui |det( J )| = |det( A)|. Per il teorema fondamentale, allora, la pdf del
vettore Y si pu esprimere, con sintetica notazione vettoriale, come:

1
f Y (y ) = f ( A1 y ) ,
|det( A)| X
dove y = [ y1 , y2 , . . . , yn ] Rn .

Gli altri due casi menzionati (sistema sottodeterminato e sovradeterminato) si possono ri-
condurre al caso di sistema quadrato. Infatti, nel caso k < n, possiamo introdurre n k va-
riabili aleatorie ausiliarie, ad esempio Yk+1 = Xk+1 , Yk+2 = Xk+2 , . . . , Yn = Xn per ricondurci
al caso k = n (quadrando, per cos dire, il sistema). Una volta determinata la pdf congiunta
di Y = [Y1 , Y2 , . . . , Yk , Yk+1 , . . . , Yn ], possibile ottenere quella di Y = [Y1 , Y2 , . . . , Yk ] semplice-
mente integrando la pdf di Y rispetto alle variabili yk+1 , yk+2, . . . , y n , corrispondenti alle variabili
aleatorie ausiliarie Yk+1 , Yk+2 , . . . , Yn . che non interessano.
Nel caso k > n, un teorema di analisi (teorema di Dini) assicura che k n variabili aleato-
rie appartenenti a Y, ad esempio Yn+1 , Yn+2 , . . . , Yk possono essere espresse in funzione delle n
rimanenti, siano esse Y1 , Y2 , . . . , Yn . In questo caso, si pu dimostrare che la pdf congiunta del
vettore k-dimensionale Y singolare, ovvero definita su un sottospazio n-dimensionale di Rk , e
pu essere espressa in termini della pdf delle sole Y1 , Y2 , . . . , Yn . Tale pdf si pu determinare con-
siderando il sottosistema quadrato composto dalle prime n equazioni, e quindi riconducendosi
ancora al caso k = n.

8.4 Variabili aleatorie indipendenti


Vogliamo ora estendere il concetto di indipendenza a vettori di n variabili aleatorie:

Definizione (variabili aleatorie indipendenti). Le variabili aleatorie X1 , X2 , . . . , Xn si dicono


indipendenti se

FX1 X2 Xn ( x1 , x2 , . . . , x n ) = FX1 ( x1 ) FX2 ( x2 ) FXn ( x n ) , (8.2)

per ogni ( x1 , x2 , . . . , x n ) Rn .

Come si vede, lindipendenza equivale anche in questo caso alla fattorizzazione della CDF con-
giunta (si confronti con la definizione di indipendenza per coppie di variabili aleatorie, data nel
6.6). chiaro daltronde che la fattorizzazione della CDF congiunta equivalente a quella della
pdf congiunta, per cui si ha anche:

f X1 X2 Xn ( x1 , x2 , . . . , x n ) = f X1 ( x1 ) f X2 ( x2 ) f Xn ( xn ) ,
8.4 Variabili aleatorie indipendenti 171

per ogni ( x1 , x2 , . . . , x n ) Rn .
Si pu osservare, data la definizione della CDF congiunta, che lindipendenza delle varia-
bili aleatorie X1 , X2 , . . . , Xn equivale allindipendenza degli eventi { X1 x1 }, { X2 x2 }, . . .,
{ Xn xn }. Tuttavia, nel 2.3.1, abbiamo visto che per specificare lindipendenza di tre o pi
eventi, oltre alla fattorizzazione della probabilit congiunta di tutti gli eventi, bisogna richiede-
re anche la fattorizzazione della probabilit congiunta di un qualunque sottoinsieme di tutti gli
eventi. In questo caso, tale fattorizzazione di ordine inferiore, che sarebbe equivalente a richie-
dere che anche le CDF di ordine k < n si fattorizzino nel prodotto delle CDF marginali, non
necessaria, in quanto discende necessariamente dalla fattorizzazione della CDF di ordine n:
infatti, le statistiche di ordine k < n sono univocamente determinate dalle statistiche di ordine
n. Ad esempio, consideriamo il caso n = 3, per il quale la relazione di indipendenza si scrive
esplicitamente come
FX1 X2 X3 ( x1 , x2 , x3 ) = FX1 ( x1 ) FX2 ( x2 ) FX3 ( x3 ) .
Ponendo ad esempio x3 = +, si ha al primo membro FX1 X2 X3 ( x1 , x2 , +) = FX1 X2 ( x1 , x2 ) ed al
secondo FX3 (+) = 1, per cui si trova:

FX1 X2 ( x1 , x2 ) = FX1 ( x1 ) FX2 ( x2 ) ,

ovvero la fattorizzazione della CDF di X1 ed X2 . Con analogo ragionamento si pu ricavare la


fattorizzazione della CDF di X1 ed X3 e tra X2 ed X3 . La solo apparente discrepanza tra tale
definizione di indipendenza e quella fornita nel 2.3.1 sta nel fatto che in realt la fattorizzazione
(8.2), poich deve valere ( x1 , x2 , . . . , x n ) Rn , in realt una condizione assai pi forte di quella
fornita nel 2.3.1.
Con riferimento alle trasformazioni di variabili aleatorie, analogamente al caso di due varia-
bili, possibile provare che se si considera la trasformazione diagonale:


Y1 = g1 ( X1 )

Y2 = g2 ( X2 )
.. .. ..

. . .


Yn = gn ( Xn )
e le variabili aleatorie X1 , X2 , . . . , Xn sono indipendenti, allora sono indipendenti anche le varia-
bili aleatorie Y1 , Y2 , . . . , Yn . La prova semplice e ricalca quella per il caso di due variabili (cfr.
6.6).
Anche per le variabili aleatorie, cos come per gli eventi (cfr. 2.3.1), si pu definire il concetto
di indipendenza a coppie:

Definizione (variabili aleatorie indipendenti a coppie). Le variabili aleatorie X1 , X2 , . . ., Xn


si dicono indipendenti a coppie se

FXi X j ( xi , x j ) = FXi ( x i ) FX j ( x j ) , i 6 = j e ( xi , x j ) R2 .

evidente che lindipendenza implica sempre lindipendenza a coppie, mentre il viceversa non
vero.2
possibile anche definire lindipendenza tra gruppi di variabili aleatorie appartenenti ad un
vettore X:
2 Salvo per il caso delle variabili aleatorie gaussiane, per le quali, peraltro, sufficiente una condizione ancora pi

debole dellindipendenza a coppie, ovvero lincorrelazione (cfr. 8.5.4).


172 Vettori di variabili aleatorie

Definizione (variabili aleatorie indipendenti a gruppi). Le variabili aleatorie X1 , X2 , . . . , Xk


si dicono indipendenti dalle variabili aleatorie Xk+1 , Xk+2 , . . . , Xn se:

FX1 X2 Xn ( x1 , x2 , . . . , x n ) = FX1 X2 Xk ( x1 , x2 , . . . , x k ) FXk +1 Xk +2 Xn ( xk+1 , xk+2 , . . . , x n ) ,

per ogni ( x1 , x2 , . . . , x n ) Rn .

Infine, un concetto che spesso ricorre insieme a quello di variabili aleatorie indipendenti, ma
che non ha niente a che vedere con lindipendenza, quello di variabili aleatorie identicamente
distribuite .

Definizione (variabili aleatorie identicamente distribuite). Le variabili aleatorie


X1 , X2 , . . . , Xn si dicono identicamente distribuite se

FXi ( x ) = F ( x ) , i {1, 2, . . . , n} .

In altri termini, variabili aleatorie identicamente distribuite sono caratterizzate dallavere la stes-
sa CDF del primo ordine (ad esempio, sono tutte gaussiane con la stessa media e la stessa va-
rianza). Spesso si considerano n variabili aleatorie che sono sia indipendenti sia identicamente
distribuite; in tal caso si parla di variabili aleatorie indipendenti ed identicamente distribuite (iid). Si
noti che per caratterizzare completamente n variabili iid sufficiente assegnare la CDF del primo
ordine F ( x ), che la stessa per tutte le variabili. Infatti, data lindipendenza, qualsiasi CDF di
ordine k > 1 si ottiene moltiplicando tra loro k CDF del primo ordine.

8.5 Momenti di n variabili aleatorie


Il punto di partenza per definire i momenti di n variabili aleatorie introdurre la generalizzazione
del teorema fondamentale della media:

Teorema 8.2 (teorema fondamentale della media per n variabili aleatorie). Sia Z =
g( X1 , X2 , . . . , Xn ) una trasformazione delle variabili aleatorie X1 , X2 , . . ., Xn aventi pdf
congiunta f X1 X2 Xn ( x1 , x2 , . . . , x n ); si ha:

E( Z ) = E[ g( X1 , X2 , . . . , Xn )] =
Z Z Z
= g( x1 , x2 , . . . , x n ) f X1 X2 Xn ( x1 , x2 , . . . , x n ) dx1 dx2 dxn , (8.3)

se tale integrale esiste finito.

Notiamo che con notazione vettoriale la (8.3) si scrive molto pi concisamente come:
Z
E( Z ) = E[ g( X )] = g( x) f X ( x) dx .
Rn

Ovviamente anche per vettori di n variabili aleatorie la media gode della propriet di linearit.
Infatti, siano gk n arbitrarie funzioni di n variabili, e siano ak n costanti reali, con k = 1, 2, . . . , n.
Si ha: " #
n n
E a k gk ( X ) = ak E[ gk (X )] ,
k =1 k =1
8.5 Momenti di n variabili aleatorie 173

e scegliendo g1 ( X ) = X1 , g2 ( X ) = X2 , . . . , gn ( X ) = Xn ,
!
n n
E a k Xk = a k E ( Xk ) ,
k =1 k =1

ovvero la media della combinazione lineare di n variabili aleatorie coincide con la combinazione
lineare delle medie.

Esempio 8.2 (media di una variabile aleatoria binomiale). Nel 5.2 abbiamo dimostrato, utilizzando le
propriet del coefficiente binomiale, che la media di una variabile aleatoria X B(n, p) pari a E ( X ) =
n p. Una dimostrazione pi semplice si basa sullosservazione che una variabile aleatoria binomiale si pu
interpretare come la somma di n variabili aleatorie bernoulliane, di parametro p, indipendenti tra loro, cio:
n
X= Xi ,
i =1

con Xi Bern( p). Infatti, per contare il numero di successi in n prove, sufficiente sommare i valori ottenuti
associando ad un successo il valore 1 e ad un insuccesso il valore 0. Poich allora E ( Xi ) = p, applicando la
linearit della media si ha:
n
E(X) = E ( Xi ) = n p ,
i =1
che lo stesso risultato ottenuto nel 5.2.

8.5.1 Vettore delle medie


Dato un vettore di variabili aleatorie X = [ X1 , X2 , . . . , Xn ] T , possiamo calcolare le medie delle
sue componenti, date da Z
X i = E ( Xi ) , xi f Xi ( xi ) dxi ,

per i = 1, 2, . . . , n, e raccoglierle in un vettore colonna X , [ X1 , X2 , . . . , Xn ] T . Tale vettore


prende il nome di vettore delle medie, e formalmente possiamo scrivere X = E( X ), dove per
media di un vettore intendiamo loperatore che calcola la media di ciascuna componente del
vettore, restituendo un vettore di uguale dimensione. Notiamo che, per calcolare il vettore delle
medie, non necessario conoscere la pdf di ordine n, ma sufficiente conoscere la pdf del primo
ordine di ciascuna componente del vettore. Questo in accordo con il fatto che la media un
momento del primo ordine.

8.5.2 Matrice di correlazione


Dato un vettore di variabili aleatorie X = [ X1 , X2 , . . . , Xn ] T , possiamo calcolare le correlazioni tra
le sue componenti prese due a due, date da
Z Z
Corr( Xi , X j ) = E( Xi X j ) , xi x j f Xi X j ( xi , x j ) dxi dx j ,

per i, j = 1, 2, . . . , n, e raccoglierle in una matrice R X quadrata, di dimensioni n n, che prende il


nome di matrice di correlazione del vettore X o delle n variabili aleatorie X1 , X2 , . . . , Xn . Notiamo
che per calcolare tale matrice non necessario conoscere la pdf di ordine n, ma sufficiente
conoscere la pdf del secondo ordine di qualsiasi coppia di componenti del vettore, coerentemente
con il fatto che la correlazione un momento del secondo ordine.
174 Vettori di variabili aleatorie

Applicando semplici risultati di algebra lineare (cfr. Appendice E), facile verificare che la
matrice di correlazione si pu scrivere nella seguente forma, particolarmente compatta:

R = E( X X T ) , (8.4)

dove X X T il prodotto3 di un vettore colonna n 1 per un vettore riga 1 n, il cui risultato una
matrice n n i cui elementi sono ( facile verificarlo) proprio Xi X j , e per media di una matrice
intendiamo loperatore che calcola la media di ciascun elemento della matrice, restituendo una
matrice di uguali dimensioni.
Osserviamo che, per i = j, risulta Corr( Xi , Xi ) = E( Xi2 ), cio la correlazione si riduce al valore
quadratico medio; pertanto, sulla diagonale principale di R X sono presenti i valori quadratici
medi E( X12 ), E( X22 ), . . . , E( Xn2 ). Notiamo poi che la matrice R X simmetrica, cio lelemento di
posto (i, j) uguale allelemento di posto ( j, i ), come si ricava facilmente dalla simmetria della
correlazione:
Corr( Xi , X j ) = E( Xi X j ) = E( X j Xi ) = Corr( X j , Xi ) .
Una formulazione equivalente della propriet di simmetria di R X che tale matrice coincide con
la sua trasposta, cio si ha RX = R TX ; per verificare direttamente tale relazione, basta considerare
la definizione (8.4) e applicare semplici relazioni di algebra lineare:

R TX = E[( X X T ) T ] = E[( X T ) T X T ] = E( X X T ) = R X .

Unimportante e non banale propriet della matrice di correlazione si trova considerando la


combinazione lineare Y, con coefficienti arbitrari, delle n variabili aleatorie:
n
Y= a k Xk = a T X , (8.5)
k =1

che abbiamo interpretato, introducendo il vettore colonna a = [ a1 , a2 , . . . , an ] T Rn , come pro-


dotto scalare tra a ed X. Calcoliamo il valor quadratico medio di Y adoperando semplici relazioni
di algebra lineare:

E(Y 2 ) = E[( a T X )2 ] = E[ a T X ( a T X ) T ] = E( a T XX T a ) = a T E( XX T ) a = a T R X a .

Poich evidentemente E(Y 2 ) 0, si ha che

a T R X a 0, a Rn ,

che si esprime dicendo che la matrice RX semidefinita positiva (cfr. Appendice E). Se vale la
disuguaglianza stretta, ovvero se a T RX a > 0, a Rn {0}, allora la matrice R X definita
positiva. Si noti che la differenza tra i due casi la seguente: se la matrice solo semidefinita
positiva, allora esiste un valore di a 6= 0 tale che la forma quadratica a T R X a = 0. Poich tale forma
quadratica coincide con il valor quadratico medio della combinazione lineare (8.5), allora una
condizione sufficiente affinch ci accada che le variabili aleatorie siano linearmente dipendenti,
cio che esista un vettore a di coefficienti non tutti nulli tali che:

Y = a 1 X1 + a 2 X2 + . . . + a n X n = 0 .
3 Il prodotto x y T , il cui risultato una matrice, viene chiamato talvolta prodotto esterno tra i vettori (colonna) x e y, e

non va confuso con il prodotto scalare o prodotto interno x T y, il cui risultato uno scalare.
8.5 Momenti di n variabili aleatorie 175

In questo caso, allora, almeno una variabile aleatoria pu essere espressa come combinazione
lineare delle rimanenti variabili aleatorie. Viceversa, se risulta E[(nk=1 ak Xk )2 ] > 0 per ogni
a 6= 0, le variabili si diranno linearmente indipendenti, e la loro matrice di correlazione sar definita
positiva. Si pu dimostrare che una matrice definita positiva senzaltro non singolare, e quindi
invertibile, mentre una matrice che solo semidefinita positiva non ha tale propriet.

8.5.3 Matrice di covarianza


Cos come la matrice di correlazione raccoglie le correlazioni tra tutte le possibili coppie di va-
riabili aleatorie, possibile definire una matrice di covarianza C X quadrata, di dimensioni n n, il
cui elemento di posto (i, j) rappresenta la covarianza tra Xi ed X j :
Z Z
Cov( Xi , X j ) = E[( Xi Xi )( X j X j )] ,= ( xi Xi )( x j X j ) f Xi X j ( xi , x j ) dxi dx j ,

per i, j = 1, 2, . . . , n. Notiamo che la matrice C X si pu scrivere con notazione compatta come:

C X = E[( X X )( X X ) T ] . (8.6)

Poich, per i = j, la covarianza si riduce alla varianza, sulla diagonale principale di C X sono pre-
senti le varianze 12 , 22 , . . . , n2 . Inoltre, poich la covarianza, come la correlazione, simmetrica,
allora la matrice C X anchessa simmetrica, ovvero C TX = C X .
In effetti, si pu notare che la matrice di correlazione e quella di covarianza condividono
numerose propriet; ci consegue dal fatto che la matrice di covarianza di X anche una matrice
di correlazione; in particolare, essa si pu riguardare come la matrice di correlazione del vettore
centrato Y = X X , in quanto si ha:

RY = E(YY T ) = E[( X X )( X X ) T ] = C X .

Per questo motivo, la matrice di covarianza possiede tutte le propriet delle matrice di correla-
zione, ed in particolare semidefinita positiva, ovvero

a T C X a 0, a Rn .

Ragionando analogamente a quanto fatto per la matrice di correlazione, una condizione suffi-
ciente affinch a T C x a = 0 che gli scarti X1 X1 , X2 X2 , . . . , Xn Xn siano linearmente
dipendenti, nel senso che esiste un vettore a di coefficienti non tutti nulli tali che:

Y = a 1 ( X1 X 1 ) + a 2 ( X2 X 2 ) + . . . + a n ( X n X n ) = 0 .

In questo caso, almeno una variabile aleatoria pu essere espressa come combinazione lineare
delle rimanenti variabili aleatorie a meno di una quantit costante. Se ci non accade, la matrice C X
definita positiva e quindi invertibile (cfr. Appendice E).
Infine, cos come vale la seguente relazione tra la covarianza e la correlazione di una coppia
di variabili aleatorie (cfr. capitolo 7)

Cov( Xi , X j ) = Corr( Xi , X j ) Xi X j ,

allora sussiste la seguente relazione tra le matrici di covarianza e di correlazione:

C X = R X X TX .
176 Vettori di variabili aleatorie

Tale relazione si pu anche ricavare sviluppando la definizione (8.6) ed applicando semplici


risultati di algebra lineare.

Esempio 8.3 (matrice di covarianza di una coppia di variabili aleatorie). Per n = 2, possiamo porre X =
[ X, Y ] T , X = [ X , Y ] T , per cui la matrice di covarianza una matrice 2 2, data da
   2

Cov( X, X ) Cov( X, Y ) X X Y
CX = = .
Cov(Y, X ) Cov(Y, Y ) X Y Y2

Il calcolo del determinante di tale matrice fornisce:


2 2
det(C X ) = X Y (1 2XY ) 0

in quanto | XY | 1. Si verifica allora facilmente che il determinante diverso da zero, e quindi la matrice
definita positiva, se e solo se XY 6= 1; viceversa, esso si annulla, e quindi la matrice solo semidefinita
positiva, se e solo se XY = 1, il che accade se Y = a X + b. Ritroviamo allora le stesse condizioni espresse
nel 7.4.4 e dimostrate attraverso la disuguaglianza di Schwartz.

8.5.4 Incorrelazione
Concludiamo questa sezione estendendo il concetto di incorrelazione ad un vettore di variabili
aleatorie:

Definizione (incorrelazione). Le variabili aleatorie X1 , X2 , . . . , Xn si dicono incorrelate se


Cov( Xi , X j ) = 0, i 6= j.

Notiamo che la condizione di incorrelazione equivalente al fatto che la matrice di covarianza


C X diagonale. Notiamo altres che lindipendenza tra le variabili aleatorie X1 , X2 , . . . , Xn implica
lincorrelazione; in realt, poich la correlazione un momento del secondo ordine, sufficiente,
in luogo dellindipendenza, lindipendenza a coppie, basta cio che si fattorizzi la pdf congiunta
(del secondo ordine) di qualunque coppia di variabili aleatorie. Viceversa, lincorrelazione non
implica lindipendenza, e neppure lindipendenza a coppie, salvo nel caso di vettori di variabili
aleatorie congiuntamente gaussiane, come vedremo nel seguito.
Unaltra importante conseguenza della propriet di incorrelazione che, per variabili aleato-
rie X1 , X2 , . . . , Xn incorrelate, risulta:
!
n n
Var Xi = Var(Xi ) .
i =1 i =1

Prova. Sviluppando la definizione di varianza, si ha:


! " #2
n n n n n n
Var Xi = E ( X i X ) = E [( Xi Xi )( X j Xj )] = Cov( Xi , X j ) .
i =1
i =1 i
i =1 j =1 i =1 j =1

Se le variabili aleatorie sono incorrelate, allora Cov( Xi , X j ) = 0 per i 6= j, mentre Cov( Xi , Xi ) = Var( Xi ); in
tal caso, la doppia sommatoria si riduce ad una singola sommatoria, per cui si ha lasserto. 

Esempio 8.4 (varianza di una variabile aleatoria binomiale). Come applicazione del precedente risultato,
osserviamo che la varianza di una variabile aleatoria X B(n, p) pari a Var( X ) = n p q, dove q = 1 p.
Infatti, abbiamo gi osservato (cfr. esempio 8.2) che una variabile aleatoria binomiale si pu esprimere come
somma di n variabili aleatorie bernoulliane Xi indipendenti: poich lindipendenza implica lincorrelazione,
8.5 Momenti di n variabili aleatorie 177

tali variabili aleatorie bernoulliane saranno anche incorrelate, e quindi, poich la varianza di una variabile
aleatoria Xi Bern( p) pari a Var( Xi ) = p q, si ha:
!
n n
Var( X ) = Var Xi = Var(Xi ) = n p q .
i =1 i =1

come annunciato.

Esempio 8.5 (n variabili aleatorie congiuntamente gaussiane). Un esempio particolarmente importante


di n variabili aleatorie la generalizzazione del concetto di coppie di variabili aleatorie congiuntamente
gaussiane al caso n-dimensionale.
Le variabili aleatorie X = [ X1 , X2 , . . . , Xn ] T si dicono congiuntamente gaussiane se la loro pdf congiunta
ammette la seguente espressione:
 
1 1 T 1
f X (x) = exp ( x ) C ( x ) , (8.7)
(2 )n/2 [det(C X )]1/2 2 X X X

dove C X la matrice di covarianza di X e X il vettore delle medie di X. Notiamo che, affinch la (8.7)
abbia significato, occorre che: (i) il determinante della matrice di covarianza C X , del quale si calcola la
radice, sia non negativo; ci garantito dalla natura semidefinita positiva della matrice di covarianza (cfr.
Appendice E); (ii) linversa della matrice di covarianza esista; ci garantito se la matrice di covarianza
definita positiva, il che non vero sempre, ma solo se gli scarti X1 X1 , X2 X2 , . . . , Xn Xn sono
linearmente indipendenti, ipotesi che assumeremo senzaltro vera nel seguito. Notiamo che tale ipotesi
assicura anche che det(C X ) > 0.
La pdf (8.7) di un vettore X di n variabili aleatorie congiuntamente gaussiane dipende solo dal vettore
delle medie X e dalla matrice di covarianza C X , per cui si denota sinteticamente X N( X , C X ).
Possiamo osservare che la definizione (8.7) consistente con i risultati gi noti per il caso n = 1 ed n = 2.
Infatti, per n = 1, possiamo porre X = X, X = X , C X = E [( X X )2 ] = X 2 , e quindi C 1 = 1/2 e
X X
2
det(C X ) = X , per cui la (8.7) si riduce a:
1
1 ( x X )2
22
f X (x) = e X .
X 2

Per n = 2, possiamo porre X = [ X, Y ] T , X = [ X , Y ] T , mentre la matrice di covarianza una matrice


2 2, data da (cfr. esempio 8.3)
   2

Cov( X, X ) Cov( X, Y ) X X Y
CX = = ,
Cov(Y, X ) Cov(Y, Y ) X Y Y2

per cui la sua inversa si calcola facilmente (vedi Appendice E) come:


 
1 1 Y2 X Y
C = 2 ,
X det(C X ) X Y X

dove det(C X ) = X2 2 (1 2 ). Sostituendo lespressione di C , dellinversa e del determinante nella (8.7),


Y X
si ottiene una pdf bidimensionale di tipo gaussiano, come espressa dalla (6.5).
Le principali propriet delle variabili aleatorie congiuntamente gaussiane sono le seguenti:
1. Se n variabili aleatorie sono congiuntamente gaussiane, allora qualsiasi sottoinsieme composto da k < n tra
queste variabili aleatorie sono ancora congiuntamente gaussiane. In particolare, le n variabili aleatorie sono
anche marginalmente gaussiane.
Per provare questo risultato, bisognerebbe dimostrare che integrando la pdf gaussiana rispetto a n k
variabili arbitrarie si ottiene ancora una pdf gaussiana, un calcolo laborioso in generale; ricordiamo
solo che un calcolo simile stato effettuato nellesempio 6.2 per dimostrare che una coppia di variabi-
li aleatorie congiuntamente gaussiane sono anche marginalmente gaussiane. Ci risulta vero ovvia-
mente anche nel caso di n variabili aleatorie: in particolare, X1 marginalmente gaussiana, di parametri
X1 e X1 , ed analogamente per X2 , X3 , . . . , Xn . Notiamo che il viceversa non vero: n variabili alea-
torie marginalmente gaussiane non sono necessariamente anche congiuntamente gaussiane, salvo nel
caso in cui siano indipendenti (vedi propriet 2).
178 Vettori di variabili aleatorie

2. Se n variabili aleatorie marginalmente gaussiane sono anche indipendenti, allora esse sono anche congiunta-
mente gaussiane.

Prova. Poich Xi N( Xi , Xi ), i = 1, 2, . . . , n, e le Xi sono indipendenti, la pdf congiunta di


X = ( X1 , X2 , . . . , Xn ) T sar:
" #
n n
1 1 2
f X ( x ) = f Xi ( x i ) = exp 2 ( xi Xi )
i =1 i =1 Xi 2 2Xi
" #
1 1 n ( x i X i )2
= exp 2
(2 )n/2 ni=1 Xi 2 i =1 X i

Confrontando con la (8.7), si vede che questa lespressione della pdf di n variabili aleatorie
congiuntamente gaussiane, a patto che risulti
2
det(C X ) = X 2 X
1 X2
2
n
,
1 2 2 2
C
X = diag(1/X1 , 1/X2 , . . . , 1/Xn ) .

Daltra parte, lindipendenza delle variabili aleatorie X1 , X2 , . . . , Xn implica che esse sono an-
che incorrelate, e quindi la loro matrice di covarianza effettivamente diagonale, ovvero C X =
diag(X 2 , 2 , . . . , 2 ), per cui, tenendo conto delle propriet delle matrici diagonali (cfr. Appendice
1 X2 Xn
E), le precedenti relazioni sono vere e la propriet dimostrata. 

3. Se n variabili aleatorie congiuntamente gaussiane sono incorrelate, allora esse sono indipendenti.

Prova. La dimostrazione ricalca, con un ordine logico differente, quella della precedente propriet.
Infatti, se le variabili aleatorie X1 , X2 , . . . , Xn sono incorrelate, la loro matrice di covarianza risulta
diagonale, ovvero C X = diag(X 2 , 2 , . . . , 2 ). In tal caso, linversa ancora diagonale:
1 X2 Xn

1 2 2 2
C
X = diag(1/X1 , 1/X2 , . . . , 1/Xn ) ,

ed il determinante il prodotto dei valori della diagonale:


2
det(C X ) = X 2 X
1 X2
2
n

per cui la (8.7) si semplifica, riducendosi a:


" # " #
1 1 n ( x X i )2 n
1 1 2
f X ( x) = exp 2
= exp 2 ( x Xi ) ,
(2 )n/2 ni=1 Xi 2 i =1 X i =1 Xi 2 2Xi
i

cio al prodotto delle pdf marginali, per cui le X1 , X2 , . . . , Xn sono indipendenti. 

Il risultato ottenuto, in sintesi, afferma che per le variabili aleatorie gaussiane lincorrelazione implica
lindipendenza; poich in generale lindipendenza implica lincorrelazione, possiamo concludere che,
per le variabili aleatorie gaussiane, lincorrelazione del tutto equivalente allindipendenza.4

4. Una trasformazione lineare trasforma vettori gaussiani in vettori gaussiani

Questa probabilmente la propriet pi importante delle variabili aleatorie congiuntamente gaussia-


ne, e viene anche denominata propriet di chiusura delle variabili aleatorie rispetto alle trasformazioni
lineari.

4 Una conseguenza errata che si potrebbe trarre, collegando impropriamente le propriet 2 e 3, la seguente: se n varia-

bili aleatorie sono marginalmente gaussiane ed incorrelate, allora esse sono indipendenti e quindi anche congiuntamente gaussiane.
Si invita il lettore ad individuare il punto debole del precedente ragionamento.
8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie 179

Prova. Per semplicit, dimostreremo la propriet solo nel caso di trasformazioni lineari quadrate e
non singolari. Sia X un vettore gaussiano, e consideriamo la trasformazione lineare (non omogenea)

Y = AX + b ,

dove A una matrice quadrata n n, non singolare (e quindi invertibile), e b un vettore colonna
n-dimensionale, cosicch il vettore Y n-dimensionale.
Il calcolo della pdf di Y si ottiene facilmente applicando il teorema fondamentale sulle trasformazioni
(si noti che questa una generalizzazione dellesempio 8.1). La soluzione del sistema numerico y =
Ax + b unica, ed data da:
x = A1 ( y b ) ,
mentre la matrice jacobiana J della trasformazione pari ad A, per cui la pdf del vettore Y si scrive
come:
1
f Y (y ) = f [ A1 (y b)] .
|det( A)| X
Sostituendo lespressione di f X ( x ) data dalla (8.7), e tenendo conto che

x X = A1 ( y b ) X = A1 ( y b A X ) ,

si trova:
1 1 1 T 1 1
e 2 ( yb A X ) ( A ) C X A ( yb A X ) ,
T
f Y (Y ) =
(2 )n/2 det(C X )1/2 |det( A)|
che per ispezione si riconosce essere la pdf di un vettore di variabili aleatorie gaussiane di media Y =
A X + b e con matrice di covarianza CY = A C X AT . Infatti, si osservi che CY1 = ( A1 ) T C 1 1
X A e
2
det(C Y ) = det(C X ) det( A) . 

Luso appropriato delle propriet delle variabili aleatorie gaussiane consente di semplificare i calcoli in molti
casi. La propriet di chiusura, in particolare, consente di semplificare notevolmente la determinazione di
talune probabilit che coinvolgono pi variabili aleatorie congiuntamente gaussiane.
Ad esempio, si consideri il seguente problema: siano ( X, Y, Z ) tre variabili aleatorie marginalmente
gaussiane, indipendenti, con medie nulle e deviazioni standard 2 X = Y = Z = 1, e si vuole calcolare
P ( X > Y + Z ). In generale, bisognerebbe calcolare lintegrale triplo della pdf f XYZ ( x, y, z) (fattorizzabile,
per lindipendenza) sul dominio D = {( x, y, z) R3 tali che x > y + z}. Invece, osservando che

P ( X > Y + Z ) = P ( X Y Z > 0)

e tenendo conto delle propriet 2 e 4, notiamo che la variabile aleatoria W = X Y Z, essendo ottenuta per
combinazione lineare di variabili aleatorie congiuntamente gaussiane, essa stessa gaussiana, con media
E (W ) = E ( X ) E (Y ) E ( Z ) = 0 e varianza Var( X ) = Var( X ) + Var(Y ) + Var( Z ) = 0.5 + 1 + 1 = 2.5,
per cui la probabilit richiesta quella che la variabile aleatoria W, a media nulla e con pdf pari, assuma
valori positivi, che vale 1/2 per banali considerazioni di simmetria. In casi pi complicati (ad esempio, se le
variabili aleatorie non hanno tutte media nulla) possibile sempre ricondursi al calcolo di una probabilit
che coinvolge solo la variabile aleatoria W, probabilit che pu comunque essere espressa in termini della
funzione G( x ).

8.6 Teoremi limite e convergenza di una sequenza di variabili


aleatorie
Concludiamo il capitolo introducendo due fondamentali teoremi, denominati teoremi limite per-
ch descrivono il comportamento al limite (per n ) di una sequenza di variabili aleatorie
X1 , X2 , . . . , Xn . I due teoremi sono la legge dei grandi numeri (nella forma debole e forte) ed il teorema
limite fondamentale. Vedremo che tali teoremi definiscono varie forme di convergenza associate alla
sequenza di variabili aleatorie X1 , X2 , . . . , Xn .
180 Vettori di variabili aleatorie

8.6.1 Legge dei grandi numeri

Teorema 8.3 (legge debole dei grandi numeri). Siano X1 , X2 , . . . , Xn variabili aleatorie indi-
pendenti, aventi la stessa media E( Xk ) = e la stessa varianza Var( Xk ) = 2 < , e si
consideri la variabile aleatoria
1 n
bn , Xk .

n k =1
Si ha:
lim P(|
bn | < ) = 1 , > 0 . (8.8)
n

Prova. Iniziamo col calcolare media e varianza di


bn . Per la media, utilizzando la linearit, si ha:

1 n 1
E ( Xk ) = n = ;
n k
E (
bn ) =
=1
n

inoltre, sfruttando le propriet della varianza e lipotesi di indipendenza (che implica lincorrelazione), si
ha:
1 n 1 2
Var(bn ) = 2 Var( Xk ) = 2 n 2 = .
n k =1 n n
A questo punto il teorema una conseguenza diretta della disuguaglianza di Chebishev:

Var( bn ) 2
bn | < ) 1
P (| 2
= 1 2
n
Al tendere di n si ha P (|
bn | < ) 1 e quindi necessariamente P (|
bn | < ) = 1. 
Dal punto di vista matematico, il teorema5 afferma in sostanza che la probabilit di avere bn
prossimo a piacere a tende ad 1 al tendere di n , e pertanto che bn converge a per n .
La convergenza definita dalla (8.8) viene chiamata convergenza in probabilit; la legge dei grandi
numeri si dice debole perch la convergenza in probabilit una forma debole di convergenza,
vale a dire che non richiede condizioni molto restrittive. Notiamo inoltre che lassunzione di
indipendenza tra le variabili aleatorie X1 , X2 , . . . , Xn non in realt richiesta per la dimostrazione
del teorema, in quanto sufficiente lincorrelazione.
Proviamo ora dare una interpretazione intuitiva della legge dei grandi numeri. La quan-
tit
bn rappresenta la media aritmetica delle variabili aleatorie X1 , X2 , . . . , Xn ; se interpretiamo
X1 , X2 , . . . , Xn , anzich come variabili aleatorie, come valori osservati, allora la
bn rappresenta la
media empirica delle osservazioni. Nellipotesi che le osservazioni siano ripetute nelle medesime
condizioni, si osserva sperimentalmente che la media empirica, al divergere del numero delle os-
servazioni, presenta fluttuazioni sempre meno marcate, convergendo ad un valore costante. La
legge dei grandi numeri afferma, in sostanza, che tale valore costante la media delle variabili
aleatorie X1 , X2 , . . . , Xn associate alle osservazioni.
Un altra interpretazione della legge dei grandi numeri consiste nel riguardare bn come uno
stimatore della media delle variabili aleatorie. Il fatto che E( bn ) = si esprime dicendo che lo
stimatore non polarizzato, ovvero che non si commette un errore sistematico di stima, almeno in
media. desiderabile che uno stimatore sia non polarizzato, ma evidentemente questa condizio-
ne da sola non caratterizza la bont dello stimatore: infatti, un buon stimatore dovr presentare
una varianza piccola, e tendente a zero al divergere di n; tale propriet chiamata consistenza.
Notiamo che la legge debole dei grandi numeri esprime proprio il fatto che lo stimatore bn
5 Il teorema stato enunciato e dimostrato per la prima volta dal matematico svizzero J. Bernoulli (16541705) nel

trattato Ars Conjectandi.


8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie 181

consistente, in quanto la sua varianza inversamente proporzionale ad n. Possiamo pensare ad


uno stimatore consistente e non polarizzato come ad una quantit aleatoria che per, per n ,
presenta una pdf sempre pi stretta centrata intorno alla media, per cui tende a diventare una
quantit deterministica.
Notiamo infine che la condizione di consistenza si pu esprimere esplicitamente come segue:

lim Var( bn )2 ] = 0 ,
bn ) = lim E[(
n n

per cui equivale alla convergenza in media quadratica di bn a . Utilizzando la disuguaglianza di


Chebishev, come si fatto nella dimostrazione della legge debole dei grandi numeri, si prova
facilmente che la convergenza in media quadratica implica quella in probabilit, il che giustifica
anche il motivo per cui la convergenza in probabilit ritenuta una forma debole di convergenza.
possibile dimostrare che
bn converge a in un senso pi forte di quello espresso dalla legge
debole dei grandi numeri. Tale risultato stato dimostrato dal matematico francese E. Borel
(1871-1956) e prende il nome di legge forte dei grandi numeri:

Teorema 8.4 (legge forte dei grandi numeri). Siano X1 , X2 , . . . , Xn variabili aleatorie indi-
pendenti, aventi la stessa media E( Xk ) = e la stessa varianza Var( Xk ) = 2 < , e si
consideri la variabile aleatoria
1 n
bn , Xk .

n k =1
Si ha:  
P lim |
bn | < = 1 , > 0 . (8.9)
n

La tesi (8.9) della legge forte dei grandi numeri (per una dimostrazione si veda ad esempio [1])
sembra quasi identica a quella della legge debole, ma fondamentale lo scambio tra loperazione
di limite e la probabilit (si confrontino la (8.8) e la (8.9)) La convergenza definita dalla (8.9) un
tipo di convergenza pi forte della convergenza in media quadratica o in probabilit, e prende il
nome di convergenza con probabilit 1 o convergenza quasi certa o quasi ovunque. altres interessante
notare che la legge forte dei grandi numeri vale nelle stesse ipotesi della legge debole.
Le leggi dei grandi numeri (sia la versione forte che quella debole) descrivono il compor-
tamento della media aritmetica di n variabili aleatorie al divergere di n. tuttavia semplice
verificare che tali leggi possono applicarsi anche per dimostrare che la frequenza di successo di
un evento A in n prove indipendenti e ripetute sotto identiche condizioni tende alla probabilit
p = p( A) dellevento al divergere di n (si noti che questo problema esattamente quello delle
prove ripetute, affrontato nel 3.5.2). Per mostrare ci, sufficiente associare, ad ogni ripetizione
dellesperimento, la variabile aleatoria indicatrice dellevento A, definita come:
(
1, se A si verifica nella k-esima ripetizione;
Xk =
0, altrimenti.

chiaro che le variabili aleatorie cos definite sono Xk Bern( p), e inoltre sono iid. Si ha, per le
propriet delle variabili aleatorie bernoulliane:

E ( Xk ) = p ,
Var( Xk ) = p q .
182 Vettori di variabili aleatorie

Osserviamo che in questo caso la media aritmetica delle variabili aleatorie X1 , X2 , . . . , Xn , ovvero
n
1
pbn =
n Xk
k =1

rappresenta proprio la frequenza di successo dellevento A nelle n prove. Notiamo, poi, che:

E( pbn ) = p , (8.10)
pq
Var( pbn ) = ; (8.11)
n
per cui possiamo affermare che pbn uno stimatore non polarizzato e consistente della probabilit
p.
Poich ci troviamo esattamente nelle ipotesi delle leggi dei grandi numeri, possiamo affer-
mare che pbn tende a p, al divergere di n, sia in probabilit (legge debole) che con probabilit 1
(legge forte). Questo risultato di grande importanza, in quanto costituisce il legame tra la teoria
assiomatica della probabilit e linterpretazione frequentista.

Esempio 8.6. Unapplicazione estremamente importante della legge dei grandi numeri la seguente. Sup-
poniamo di voler stimare la probabilit p di un evento A con una certa affidabilit: sappiamo che per n
laffidabilit pu essere migliorata a piacere, ma vogliamo avere unindicazione su quale devessere il valore
effettivo di n per avere un determinato livello di affidabilit.
Come misura di affidabilit potremmo prendere la varianza (8.11) dello stimatore pbn ; tuttavia notiamo
che una misura assoluta di affidabilit non ha molto senso: infatti un errore di 0.01 su una probabilit di
0.3 potrebbe essere considerato trascurabile, lo stesso errore su una probabilit di 0.03 inaccettabile!
allora pi significativo considerare una misura relativa, ottenuta normalizzando la varianza al valore da
stimare. Pi precisamente, poich la varianza un momento quadratico, opportuno normalizzare la sua
radice (la deviazione standard) alla media dello stimatore, in modo da avere due quantit dimensionalmente
omogenee. Si ottiene cos la seguente misura di qualit, denominata coefficiente di variazione di pbn :
p
Var( pbn )
= .
E ( pbn )
Sostituendo i valori dati dalle (8.10) e (8.11), si trova:
r r s
1 pq q 1 p
= = = .
p n np np
Un caso che spesso si presenta quello in cui levento A poco probabile, ovvero p 1, per cui possiamo
approssimare nella precedente relazione 1 p 1 e scrivere:
1
.
np
Se allora imponiamo che il coefficiente di variazione sia 0.1, corrispondente ad un errore relativo del 10%
(non eccezionalmente piccolo, ma sufficiente in molte applicazioni), troviamo:
100
n= , (8.12)
p
cio il numero di prove deve eccedere di due ordini di grandezza linverso della probabilit da stimare.
Ad esempio, se p = 102 , allora n = 104 , e cos via. La (8.12) una regola pratica molto utilizzata per
determinare il numero di prove da effettuare negli esperimenti di simulazione.
Un problema che pu sorgere in pratica il seguente: poich non conosciamo in anticipo p, come fac-
ciamo a determinare a priori il numero di prove da effettuare? Osserviamo che se effettuiamo n prove, e
levento A si verifica k volte, allora pbn = nk . Sostituendo pbn in luogo di p nella (8.12), troviamo k = 100.
Questo significa che per avere laffidabilit desiderata levento A si deve verificare almeno 100 volte. Per-
tanto, sebbene non sappiamo calcolare a priori il numero di prove da effettuare, abbiamo una condizione di
arresto del nostro algoritmo: ripetere lesperimento finch levento A non si verificato 100 volte. Se levento A
poco probabile, questo pu significare che dobbiamo effettuare un numero molto elevato di prove.
8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie 183

8.6.2 Teorema limite fondamentale


Le legge dei grandi numeri, sia nella versione forte che in quella debole, afferma che la media
aritmetica bn converge a quella statistica al crescere di n. Abbiamo visto, inoltre, che essa
pu essere applicata per dimostrare che la frequenza di successo pbn converge alla probabilit p
al crescere di n. Limportanza, teorica ed applicativa, di tale risultato enorme, come abbiamo
discusso nel precedente paragrafo; inoltre, conoscendo la varianza di bn , ed applicando la disu-
guaglianza di Chebishev, possiamo maggiorare la probabilit che bn si discosti arbitrariamente
da , in quanto si ha:
Var(bn ) 2
P(|bn | ) = . (8.13)
2 n 2
Tuttavia nel 5.5 abbiamo verificato che la disuguaglianza di Chebishev fornisce risultati anche
assai lontani dal vero, cio non una disuguaglianza stretta. Per una valutazione pi accurata
della probabilit (8.13), allora, bisogna necessariamente conoscere la CDF di bn , eventualmente
per valori elevati di n (CDF asintotica). La determinazione di tale CDF loggetto proprio dal
teorema limite fondamentale,6 che fornisce un risultato per certi versi sorprendente: la CDF di bn ,
per n , tende a diventare gaussiana, indipendentemente dalle CDF delle variabili aleatorie
X1 , X2 , . . . , Xn ; ci giustifica lenfasi che abbiamo dato alle variabili aleatorie gaussiane durante
tutta la nostra trattazione.

Teorema 8.5 (teorema limite fondamentale). Siano X1 , X2 , . . . , Xn variabili aleatorie indipen-


denti, aventi la stessa media E( Xk ) = e la stessa varianza Var( Xk ) = 2 < , e si consideri
la variabile aleatoria
1 n
bn , Xk

n k =1
e la sua versione normalizzata (a media nulla e varianza unitaria)

bn E(
bn )
Zn = p .
Var(
bn )

Detta Fn ( x ) la CDF di Zn , si ha:


Z x
1 u2
lim Fn ( x ) = G( x ) = e 2 du .
n 2

ovvero, per n , Zn ha la CDF di una variabile aleatoria Z N(0, 1) (normale standard).

Dal punto di vista matematico, notiamo che anche il teorema limite fondamentale esprime una
forma di convergenza della sequenza di variabili aleatorie Z1 , Z2 , . . . , Zn alla variabile aleatoria
Z N(0, 1); poich tale convergenza in realt una convergenza delle rispettive CDF, viene
chiamata convergenza in distribuzione, e si pu provare che un tipo di convergenza debole.7
Dal punto di vista pratico, sebbene sia stato enunciato con riferimento alla media aritmetica
di n variabili aleatorie, il teorema limite fondamentale stabilisce in pratica che la somma di un
6 In inglese, tale teorema viene denominato Central Limit Theorem (CLT), che spesso viene tradotto come teorema

del limite centrale. Tale terminologia spesso impropriamente adottata in taluni testi italiani di probabilit e statistica; la
traduzione corretta , invece, quella di teorema limite fondamentale, in quanto esso rappresenta un risultato centrale
(nel senso, appunto, di fondamentale) dellintera teoria della probabilit.
7 Notiamo anche che la formulazione precedente del teorema una formulazione integrale, perch riguarda la CDF che

si pu esprimere come un integrale; vedremo successivamente che, sotto ipotesi pi restrittive, possibile darne anche
una formulazione puntuale o locale, con riferimento cio alla pdf.
184 Vettori di variabili aleatorie

gran numero di variabili aleatorie indipendenti tende ad assumere la distribuzione gaussiana. Si


noti che il teorema si pu generalizzare anche al caso in cui le variabili aleatorie non abbiano
tutte la stessa media e la stessa varianza, mantenendo sempre lassunzione di indipendenza. Ad
esempio, se le variabili aleatorie indipendenti X1 , X2 , . . . , Xn hanno medie E( Xk ) = k e varianze
Var( Xk ) = k2 < , e consideriamo la somma Sn = nk=1 Xk , che ha media E(Sn ) = nk=1 k e
varianza Var(Sn ) = nk=1 k2 , la versione normalizzata di Sn , sia essa

Sn E ( Sn )
Zn = p ,
Var(Sn )

tende ad assumere una distribuzione gaussiana standard, cio Zn Z N (0, 1). Per n suf-
ficientemente grande, notiamo che questo equivale a dire che Sn ha approssimativamente una
distribuzione gaussiana con media E(Sn ) e varianza Var(Sn ), e questo risultato ha una grossa ri-
levanza applicativa nei calcoli di probabilit riguardanti Sn , in quanto consente di sostituire alla
vera CDF di Sn (complicata da calcolare, in generale) una CDF gaussiana con media e varianza
pari a quelle di Sn .

Esempio 8.7. Il teorema limite fondamentale si pu applicare per ricavare la distribuzione limite della
somma Sn di n variabili aleatorie iid bernoulliane, cio Xk Bern( p). Notiamo peraltro che possibile
calcolare esattamente tale distribuzione per ogni valore di n, in quanto risulta Sn B(n, p), cio tale distri-
buzione quella di una variabile aleatoria binomiale. Poich E ( Xk ) = p e Var( Xk ) = p q, allora E (Sn ) = n p
e Var(Sn ) = n p q, per cui la variabile aleatoria normalizzata si scrive:

Sn n p
Zn = .
npq

Se allora vogliamo calcolare la probabilit che k1 Sn k2 , per n sufficientemente grande, possiamo


scrivere:
 
k1 n p Sn n p k2 n p
P (k1 Sn k2 ) = P =
npq npq npq
   
k2 n p k1 n p
=G G ,
npq npq

cio ritroviamo il teorema di de Moivre-Laplace (cfr. 3.5.12) nella forma integrale, che adesso possia-
mo riguardare come una semplice applicazione del teorema limite fondamentale alla somma di n variabili
aleatorie bernoulliane.

Come accennato precedentemente, possibile anche fornire una formulazione puntuale o locale
del teorema limite fondamentale. Nelle stesse ipotesi gi enunciate per la formulazione integrale,
con in pi lassunzione che le variabili aleatorie X1 , X2 , . . . , Xn siano continue, si pu mostrare che
la successione di variabili aleatorie Z1 , Z2 , . . . , Zn ha, per n , la pdf di una variabile aleatoria
Z N(0, 1) (normale standard), ovvero:

1 x2
lim f n ( x ) = e 2
n 2

dove f n ( x ) la pdf di Zn .
Se le Z1 , Z2 , . . . , Zn sono variabili aleatorie discrete, le loro pdf sono costituite da sovrapposi-
zioni di impulsi di Dirac, per cui evidentemente f n ( x ) non pu convergere ad una pdf ordinaria,
quale quella gaussiana. Tuttavia, per variabili aleatorie discrete di tipo reticolare, che assumo-
no cio i valori a + bk, con a, b R e k K Z, vale un risultato molto interessante. Infatti,
8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie 185

osserviamo che se X1 , X2 , . . . , Xn sono variabili aleatorie di tipo reticolare, anche la loro somma
Sn = nk=1 Xk di tipo reticolare, in quanto pu assumere i valori n a + b k. Nellipotesi che le
X1 , X2 , . . . , Xn siano indipendenti, con medie k = E( Xk ) e varianze Var( Xk ) = k2 < , posto
, E(Sn ) = nk=1 k e 2 , Var(Sn ) = nk=1 k2 , si ha:

1 1 ( a +b k )2
lim P(Sn = a + b k) = e 2 2 (8.14)
n 2
per cui in pratica la DF della somma Sn , nei punti x = a + b k, pu essere approssimata dai
campioni di una pdf gaussiana, avente media e varianza uguali a quelle di Sn .

Esempio 8.8. Il risultato precedente pu essere applicato al caso della somma Sn di n variabili aleatorie iid
bernoulliane Xk Bern( p). Tale somma ha una distribuzione binomiale, che di tipo reticolare, in quanto
assume i valori {0, 1, . . . , n }. Poich si ha E (Sn ) = n p e Var(Sn ) = n p q, la (8.14) si scrive:
2
1 ( k np )
lim P (Sn = k) = p e 2npq
n 2 n p q

che esprime proprio il teorema di de Moivre-Laplace nella forma locale (cfr. equazione (3.12)).

In conclusione, vale la pena fare qualche considerazione critica dellutilit pratica del teorema
limite fondamentale. In primo luogo, notiamo che la bont dellapprossimazione gaussiana, per
n finito, non quantificabile a priori, e dipende criticamente dalla distribuzione delle variabili
aleatorie X1 , X2 , . . . , Xn . Ci nonostante, nel passato anche recente il teorema limite fondamentale
era ampiamente utilizzato nelle applicazioni, in quanto il calcolo della pdf di un gran numero
di variabili aleatorie risultava un problema matematicamente poco trattabile. Al giorno doggi,
la disponibilit di calcolatori sempre pi veloci ha reso tale problema relativamente semplice
da affrontare con tecniche numeriche, per cui lutilit pratica del teorema limite fondamentale
diminuita. Tuttavia, per motivi teorici, esso resta uno dei risultati pi importanti e noti dellintera
teoria della probabilit, e tale da giustificare luso della distribuzione gaussiana in tanti problemi
della fisica, della statistica, e dellingegneria.
186 Vettori di variabili aleatorie

8.7 Esercizi proposti


Esercizio 8.1. In un ufficio postale, esistono tre sportelli ed una fila unica per tutti e tre gli sportelli. Quando
il signor Rossi arriva allufficio, il primo della fila, ma ciascuno degli sportelli occupato da un cliente.
Se i tempi residui di servizio T1 , T2 e T3 per i clienti agli sportelli sono modellabili come variabili aleatorie
esponenziali indipendenti, di media 20 minuti, 10 minuti e 5 minuti, rispettivamente, calcolare:
a) la probabilit che il signor Rossi debba aspettare pi di 10 minuti prima che uno degli sportelli si liberi;
b) il tempo medio di attesa del signor Rossi.

Esercizio 8.2. Siano X1 , X2 , . . . , Xn n variabili aleatorie iid, aventi ciascuna CDF F ( x ) e pdf f ( x ).
a) Determinare la CDF e la pdf di Z = max( X1 , X2 , . . . , Xn );
b) Determinare la CDF e la pdf di W = min( X1 , X2 , . . . , Xn ).
[Risposta: a) FZ (z) = [ F (z)] n , f Z (z) = n [ F (z)] n1 f (z); b) FW (w) = 1 [1 F (w)] n , f W (w) = n [1
F (w)] n1 f (w). ]

Esercizio 8.3. Siano X , X , . . . , X n variabili aleatorie iid, aventi ciascuna CDF F ( x ) e pdf f ( x ). Determi-
1 2 n
nare la pdf congiunta di Z = max( X1 , X2 , . . . , Xn ) e W = min( X1 , X2 , . . . , Xn ).
[Risposta: FZW (z, w) = n (n 1)[ F (z) F (w)] n2 f (z) f (w), per z w.]

Esercizio 8.4. Il tempo di vita di una lampadina modellabile come una variabile aleatoria X Exp(),
con media E ( X ) = 100 (in ore). Se 10 lampadine vengono installate contemporaneamente, assumendo
indipendenti i tempi di vita delle diverse lampadine, determinare la distribuzione del tempo di vita della
lampadina che si esaurisce per prima e la sua durata media.

Esercizio 8.5. Il sistema indicato in figura funziona finch il componente C ed almeno uno tra C e C
1 2 3
funzionano. Il tempo di vita del componente Ci modellabile come una variabile aleatoria Xi Exp(),
con media E ( Xi ) = 1 (in anni); i tempi di vita X1 , X2 ed X3 sono indipendenti.
a) Determinare la distribuzione del tempo di vita Z del sistema complessivo;
b) Determinare E ( Z ) (tempo medio di vita) e Var( Z ).
[Suggerimento: esprimere il tempo di vita Z in funzione di X1 , X2 ed X3 utilizzando le funzioni max e min.]

C2
(tempo di vita X 2)

C1
(tempo di vita X 1)

C3
(tempo di vita X 3)

Esercizio 8.6. Si supponga che le variabili aleatorie X, Y, Z abbiano la seguente pdf:

(
k, se x2 + y2 + y2 1,
f XYZ ( x, y, z) =
0, altrimenti.

a) Determinare il valore di k;
b) determinare le pdf f XY ( x, y) e f X ( x );
c) stabilire se le variabili aleatorie X, Y, Z sono indipendenti.
8.7 Esercizi proposti 187

3
p
[Risposta: a) k = 3/(4 ); b) f XY ( x, y) = 1 ( x2 + y2 ), per x2 + y2 1; f X ( x ) = 43 (1 x2 ), per | x | 1.]
2 Z q
[Suggerimento: Nei calcoli per la f X ( x ), si sfrutti il seguente integrale indefinito (valido per | y| < a): a2 y2 dy =
p  
y a2 y2 a 2 y
+ arcsin ]
2 2 a
Esercizio 8.7. Siano X1 , X2 , . . . , Xn n variabili aleatorie indipendenti. Adoperando il teorema fondamentale
sulle trasformazioni di variabili aleatorie, determinare la pdf di Z = ni=1 Xi .

Esercizio 8.8. Siano X1 , X2 , . . . , Xn n variabili aleatorie indipendenti, con Xi N( Xi , Xi ). Senza adoperare


il teorema fondamentale sulle trasformazioni di variabili aleatorie, determinare la pdf di Z = ni=1 Xi .

Esercizio 8.9. Siano X1 , X2 , . . . , Xn n variabili aleatorie indipendenti ed identicamente distribuite, con pdf
del primo ordine di tipo Pareto:
1
f X ( x ) = 2 u ( x 1) ,
x
e sia Y = min( X1 , X2 , . . . , Xn ).
a) Determinare E ( Xi ) (se esiste).
b) Determinare E (Y ) (se esiste).

Esercizio 8.10. Siano X , X , X , X variabili aleatorie con pdf congiunta


1 2 3 4

f X ( x1 , x2 , x3 , x4 ) = e x 1 x 2 x 3 x 4 , x1 0, x2 0, x3 0, x4 0 .
Si consideri la seguente trasformazione di variabili aleatorie:

Y = X1
1

Y2 = X2 X1
Y = X3 X2
3

Y4 = X4 X3
a) Calcolare la pdf congiunta di Y1 , Y2 , Y3 , Y4 ;
b) a partire dalla pdf congiunta calcolata al punto 1, calcolare successivamente la pdf di Y1 , Y2 , Y3 , quella di
Y1 , Y2 , ed infine quella di Y1 .

Esercizio 8.11. Siano X , X , X variabili aleatorie iid, con X Exp(). Determinare la pdf congiunta
1 2 3 i
delle variabili aleatorie Y = X2 X1 e Z = X3 X1 .

Esercizio 8.12. Siano X1 , X2 , X3 variabili aleatorie incorrelate con la stessa varianza 2 . Determinare il
coefficiente di correlazione tra X1 + X2 e X2 + X3 .

Esercizio 8.13. Siano X1 , X2 , X3 variabili aleatorie indipendenti con la stessa media e la stessa varianza 2 .
Determinare il coefficiente di correlazione tra X2 X1 e X3 + X1 .

Esercizio 8.14. Sia X un vettore di n variabili aleatorie con vettore delle medie X , matrice di correlazione
R X e matrice di covarianza C X . Calcolare le corrispondenti grandezze per il vettore Y = A X, dove A una
matrice n n.
Esercizio 8.15. Un vettore X = [ X , X , X ] T di tre variabili aleatorie congiuntamente gaussiane, a media
1 2 3
nulla e con matrice di covarianza:
4 2.05 1.05
CX = 2.05 4 2.05
1.05 2.05 4
sottoposto alla seguente trasformazione:

Y1 = 5 X1 + 2 X2 X3
Y = X1 + 3 X2 + X3
2
Y3 = 2 X1 X2 + 2 X3
Calcolare la pdf congiunta del vettore Y = [Y1 , Y2 , Y3 ] T .
[Suggerimento: la risoluzione di questo esercizio agevolata dalluso del calcolatore (Matlab).]
188 Vettori di variabili aleatorie

Esercizio 8.16. Siano X1 , X2 , X3 tre variabili aleatorie indipendenti con medie X1 = 3, X2 = 6 e X3 = 2.


Calcolare la media delle seguenti variabili aleatorie:
a) Z = X1 + 3 X2 + 4 X3 ;
b) Z = X1 X2 X3 ;
c) Z = 2 X1 X2 3 X1 X3 + 4 X2 X3 ;
d) Z = X1 + X2 + X3 .

Esercizio 8.17. Tre variabili aleatorie incorrelate X1 , X2 , X3 hanno medie X1 = 1, X2 = 3 e X3 = 1.5,


e valori quadratici medi E ( X12 ) = 2.5, E ( X22 ) = 11 e E ( X32 ) = 3.5. Sia Z = X1 2 X2 + 3 X3 una nuova
variabile aleatoria. Determinare media e varianza di Z.

Esercizio 8.18. Si scelgono a caso ed indipendentemente luno dallaltro n numeri nellintervallo [0, 1].
a) Se n = 10, determinare la probabilit che esattamente 5 numeri scelti siano minori di 0.5.
b) Se n = 10, determinare in media quanti numeri sono minori di 0.5.
c) Se n = 100, determinare la probabilit che la media aritmetica dei numeri scelti sia compresa tra 0.49 e
0.51.
[Suggerimento: per la risposta c), applicare il teorema limite fondamentale]

Esercizio 8.19. Si lancia n = 10 000 volte una moneta ben bilanciata. Calcolare la probabilit di ottenere un
numero di teste compreso tra 4950 e 5050.
[Risposta: 0.683]
[Suggerimento: applicare il teorema limite fondamentale]

Esercizio 8.20. Si collegano in serie n spezzoni di tubo, le cui lunghezze (in metri) sono modellate come
variabili aleatorie X1 , X2 , . . . , Xn discrete, indipendenti e identicamente distribuite, con Xi Geom(1/2).
Sia L la lunghezza totale del tubo.
a) Se n = 400, determinare la probabilit che la lunghezza totale del tubo sia superiore a 820 metri.
b) Se n = 400, determinare il valore di lunghezza che viene superato con probabilit 0.841 (circa).
c) Determinare il valore di n in modo che la probabilit che la lunghezza L sia almeno pari a 200 metri sia
0.841 (circa).
[Risposta: a) 0.221; b) 772; c) 108.]
[Suggerimento: applicare il teorema limite fondamentale]
Capitolo 9

Distribuzioni e medie condizionali

In questo capitolo si riprende il concetto di probabilit condizionale, applicandolo alle variabili


aleatorie per costruire le cosiddette distribuzioni (CDF, pdf o DF) condizionali. Il problema viene
affrontato prima per una singola variabile aleatoria, poi per una coppia di variabili aleatorie, ed
infine esteso al caso generale di n variabili aleatorie. Successivamente si introducono i momenti
condizionali, tra i quali la media condizionale il pi semplice e ricorre frequentemente nelle
applicazioni. Infine viene esposto il teorema della media condizionale, che rappresenta un utile
strumento di calcolo per la risoluzione di numerosi problemi applicativi.

9.1 Introduzione
La funzione di distribuzione cumulativa (CDF) di una singola variabile aleatoria, di una coppia
di variabili aleatorie, o pi in generale di un vettore di variabili aleatorie, rappresenta in ultima
analisi la probabilit di un evento, semplice o composto. Poich la probabilit condizionale defi-
nita nel capitolo 2 una valida legge di probabilit, ci chiediamo se sia possibile definire valide
CDF anche in termini di probabilit condizionali. La risposta naturalmente affermativa, e con-
duce allintroduzione delle cosiddette distribuzioni condizionali (CDF, pdf e DF). Tali distribuzioni
condizionali1 consentono di approfondire le relazioni esistenti tra le variabili aleatorie e gli eventi
dello spazio campione su cui esse sono definite, nonch le relazioni esistenti tra le variabili aleato-
rie stesse. A tali distribuzioni condizionali sono associati i corrispondenti momenti, denominati
momenti condizionali, la cui definizione si basa sul concetto fondamentale di media condizionale.

9.2 Distribuzioni condizionali per una variabile aleatoria


In questo paragrafo inizieremo col considerare le distribuzioni condizionali per il caso di una
singola variabile aleatoria X.
1 Si usa indifferentemente la terminologia distribuzioni condizionali o condizionate.
190 Distribuzioni e medie condizionali

F(x|B) f(x|B)
area =1/3

2/3
1/3

20 40 60 x 0 20 40 60 x

Fig. 9.1. La CDF condizionale F ( x | B ) della Fig. 9.2. La pdf condizionale f ( x | B ) della
variabile aleatoria dellesempio 9.1. variabile aleatoria dellesempio 9.1.

9.2.1 Funzione di distribuzione cumulativa (CDF) condizionale


Ricordiamo che dati due eventi A e B, con P( B) 6= 0, la probabilit condizionale di A dato B (cfr.
2.2) si definisce come:
P( AB)
P( A| B) = .
P( B)
Scegliendo allora levento A = { X x } e B qualsiasi, con P( B) 6= 0, possiamo definire la CDF
condizionale di X dato un evento B:

Definizione (CDF condizionale di una variabile aleatoria). Sia X una variabile aleatoria
definita su uno spazio di probabilit (, S, P), e sia B un evento di , con P( B) 6= 0. La CDF
condizionale di X dato levento B :
P( X x, B)
F( x | B) , P( X x | B) = .
P( B)

Osserviamo subito che, poich la probabilit condizionale una valida legge di probabilit, ne
consegue che la CDF condizionale una valida CDF, e pertanto gode di tutte le propriet carat-
teristiche della CDF di una variabile aleatoria (cfr. 3.2.1). In particolare, essa una funzione
continua da destra, e si ha:
1. F (+| B) = 1, F (| B) = 0;
P ( x1 < X x2 , B )
2. P( x1 < X x2 | B) = F ( x2 | B) F ( x1 | B) = .
P( B)
Per denotare che la CDF condizionale di una variabile aleatoria, dato B, F ( x | B), si scrive talvolta
X | B F ( x | B ).

Esempio 9.1. Consideriamo lo spazio = {1 , 2 , . . . , 6 } (lancio di un dado) e la variabile aleatoria


X ( i ) = 10 i ,
che abbiamo gi considerato nellesempio 3.7. Sia B = {pari} = {2 , 4 , 6 } e calcoliamo la F ( x | B ). Si ha:
x < 20 { X x } B = F ( x | B ) = 0 ;
1/6
20 x < 40 { X x } B = {2 } F ( x | B ) = = 1/3 ;
1/2
1/3
40 x < 60 { X x } B = {2 , 4 } F ( x | B ) = = 2/3 ;
1/2
1/2
x 60 { X x } B = {2 , 4 , 6 } F ( x | B ) = = 1;
1/2
9.2 Distribuzioni condizionali per una variabile aleatoria 191

per cui la CDF condizionale F ( x | B ) costante a tratti ( la CDF di una variabile aleatoria discreta) ed
mostrata in Fig. 9.1.

9.2.2 Funzione densit di probabilit (pdf) condizionale


In maniera naturale, passiamo ora a definire la pdf condizionale di una variabile aleatoria X dato
un evento B:

Definizione (pdf condizionale di una variabile aleatoria). Sia X una variabile aleatoria de-
finita su uno spazio di probabilit (, S, P), e sia B un evento di , con P( B) 6= 0. La pdf
condizionale di X dato levento B la derivata (in senso generalizzato) di F ( x | B) rispetto a x:

d
f ( x | B) , F( x | B) .
dx

Valgono per la pdf condizionale considerazioni analoghe a quelle per la CDF condizionale: poi-
ch essa a tutti gli effetti una pdf, gode di tutte le propriet della pdf (cfr. 3.3.1). In particolare,
vale la propriet di normalizzazione, cio si ha
Z
f ( x | B) dx = 1 .

Esempio 9.2. Consideriamo la CDF condizionale dellesempio 9.1. Poich la CDF ha un andamento
costante a tratti, la pdf condizionale sar puramente impulsiva, ed data da:

1 1 1
f (x| B) = ( x 20) + ( x 40) + ( x 60) ,
3 3 3
che rappresentata in Fig. 9.2.

9.2.3 Funzione distribuzione di probabilit (DF) condizionale


Infine, per variabili aleatorie discrete utile definire la DF condizionale:

Definizione (DF condizionale di una variabile aleatoria). Sia X una variabile aleatoria di-
screta definita su uno spazio di probabilit (, S, P) e a valori in X, e sia B un evento di ,
con P( B) 6= 0. La DF condizionale di X dato levento B

p( x | B) , P( X = x | B) ,

con x X.

Anche la DF condizionale, essendo una valida DF, gode delle propriet caratteristiche della DF
(cfr. 3.4).

Esempio 9.3. Riprendiamo lesempio 9.1, in cui B levento pari; poich X una variabile aleatoria
discreta, risulta pi immediato calcolare, in luogo della CDF condizionale, la DF condizionale:

P ( X = x, B ) P ( X = x, B )
p( x | B ) = P ( X = x | B ) = = .
P(B) 1/2
192 Distribuzioni e medie condizionali

p(x|B)

1/3

0 20 40 60 x

Fig. 9.3. La DF condizionale p( x | B ) della


variabile aleatoria dellesempio 9.1.

La variabile aleatoria X assume valori in X = {10, 20, 30, 40, 50, 60}; si verifica immediatamente che per
x = 10, 30, 50 (valori corrispondenti a risultati dispari dellesperimento) risulta P ( X = x, B ) = 0, mentre per
x = 20, 40, 60 (valori corrispondenti a risultati pari dellesperimento) si ha:
1
P ( X = x, B ) = P ( X = x ) = ,
6
e quindi in definitiva la DF cercata :
(
1 , x = 20, 40, 60;
p( x | B ) = 3
0 , altrimenti,

che rappresentata in Fig. 9.3.

Osserviamo che, per determinare la CDF, la pdf o la DF condizionale, dobbiamo in genere co-
noscere in dettaglio lesperimento su cui costruita la variabile aleatoria. Tuttavia, in molti casi
si assegna una variabile aleatoria X attraverso la sua CDF, pdf o DF, senza descrivere esplici-
tamente lesperimento probabilistico sul quale tale variabile aleatoria definita. Diventa allora
particolarmente interessante il caso in cui levento B possa essere espresso esso stesso in termini
della variabile aleatoria X. Ci accade se, ad esempio, B = { X a} oppure B = { X > a}, con
a R. In casi del genere, sufficiente la conoscenza della sola CDF F ( x ) (o della sola pdf o DF)
di X per calcolare le corrispondenti distribuzioni condizionali, e non occorre quindi conoscere
lesperimento probabilistico. Approfondiamo meglio questo concetto negli esempi che seguono.

Esempio 9.4. Sia X una variabile aleatoria con CDF F ( x ) (supposta continua) e sia B = { X a}. Si ha:
P ( X x, X a)
F ( x | B) = P( X x | X a) = .
P( X a)
Se x a, allora { X x, X a} = { X a} e quindi
P( X a)
F (x| B) = = 1.
P( X a)
Viceversa, se x < a, allora { X x, X a} = { X x }, e quindi
P(X x) F (x)
F (x| B) = = .
P( X a) F ( a)
In definitiva, allora
F (x) , x < a;
F ( x | X a) = F ( a)

1, x a.
9.2 Distribuzioni condizionali per una variabile aleatoria 193

Derivando, si ottiene la pdf



f (x) , x < a;
f ( x | X a) = F ( a)

0, x a.
Notiamo che nella derivazione il punto x = a potrebbe essere punto di discontinuit per la F ( x | B ), e quindi
potrebbe comparire un impulso di Dirac in x = a. Tuttavia, calcolando i limiti da sinistra e da destra della
F ( x | B ) nel punto x = a, si ha:
1
F ( a | B) = F ( a ) = 1 = F ( a+ | B)
F ( a)
per lipotesi di continuit di F ( x ). Pertanto, F ( x | B ) continua e quindi la pdf condizionale non contiene
impulsi. Pi in generale, bisogna applicare qualche cautela nella derivazione, per non ignorare possibili
discontinuit della CDF.

Esempio 9.5. Sia X una variabile aleatoria con CDF F ( x ) (supposta continua), e sia B = { a < X b }. Si
ha:
P ( X x, a < X b )
F (x| B) = P(X x| a < X b) = .
P(a < X b)
Se x b, allora { X x, a < X b } = { a < X b } e quindi

P(a < X b)
F (x| B) = = 1.
P(a < X b)

Se a < x < b, allora { X x, a < X b } = { a < X x }, e quindi

P(a < X x) F ( x ) F ( a)
F (x| B) = = .
P(a < X b) F (b ) F ( a)

Infine, se x a, allora { X x, a < X b } = , e quindi

F (x| B) = 0 .

In definitiva, allora:

0,
x a;
F( x ) F( a )
F (x| a < X b) = , a < x < b;
F( b) F( a)

1, x b.
Derivando, si ottiene la pdf:


0,
x a;
f (x)
f (x| a < X b) = , a < x < b;
F( b) F( a)

0, x b.

Anche qui, i punti x = a e x = b potrebbero essere di discontinuit per la CDF condizionale. Tuttavia,
nellipotesi che F ( x ) sia continua, facile verificare che anche F ( x | B ) lo , e quindi nella pdf condizionale
non compaiono impulsi di Dirac.2

9.2.4 Teorema della probabilit totale per CDF, pdf, DF


Poich le CDF, pdf e DF condizionali si definiscono a partire dalla probabilit condizionale, tutta
una serie di relazioni e teoremi (probabilit totale, Bayes, probabilit a posteriori) visti per le
2 In realt, calcolando i limiti da destra, si pu facilmente verificare che la CDF condizionale continua in x = a anche

se la variabile aleatoria X non continua; viceversa, lipotesi che X sia una variabile aleatoria continua indispensabile
per garantire la continuit della CDF condizionale in x = b.
194 Distribuzioni e medie condizionali

probabilit condizionali si possono estendere anche alle CDF, pdf e DF di variabili aleatorie. Ad
esempio, ricordiamo che per il teorema della probabilit totale (vedi 2.2.4) si ha:
n
P( B) = P( B| Ai ) P( Ai ) .
i =1

dove gli Ai sono eventi mutuamente esclusivi tali che B ni=1 Ai . Scegliendo allora B = { X
x }, si ha P( B) = P( X x ) = F ( x ) e P( B| Ai ) = P( X x | Ai ) = F ( x | Ai ), per cui si ottiene il
teorema della probabilit totale per la CDF:
n
F(x) = F ( x | Ai ) P( Ai ) ,
i =1

e, derivando, si ottiene il teorema della probabilit totale per la pdf:


n
f (x) = f ( x | Ai ) P( Ai ) .
i =1

Se X una variabile aleatoria discreta, possibile considerare direttamente levento B = { X =


x }, ottenendo quindi il teorema della probabilit totale per la DF:
n
p( x ) = p( x | Ai ) P( Ai ) .
i =1

Esempio 9.6 (variabili aleatorie di tipo mixture). Consideriamo il seguente problema: abbiamo una colle-
zione di dispositivi, che possono essere suddivisi in due insiemi: linsieme A rappresenta dispositivi a bassa
affidabilit, mentre linsieme A rappresenta dispositivi ad alta affidabilit. Supponiamo che il tempo di vita
dei dispositivi appartenenti al primo insieme sia modellabile come una variabile aleatoria X | A Exp(1 ),
mentre il tempo di vita dei dispositivi appartenenti al secondo insieme sia modellabile come una variabile
aleatoria X | A Exp(2 ). Poich la media di una generica variabile aleatoria esponenziale X Exp()
pari a 1/, allora deve risultare 1/1 < 1/2 , e quindi 1 > 2 , perch abbiamo supposto che linsieme A
abbia affidabilit pi bassa.
La variabile aleatoria X che descrive il tempo di vita (laffidabilit) di un qualunque dispositivo scelto
a caso tra quelli appartenenti ai due insiemi ha una pdf di tipo mixture, che si pu calcolare applicando
il teorema della probabilit totale. Infatti, se denotiamo con p = P ( A) la probabilit che un dispositivo
appartenga al primo insieme, e con q = 1 p la probabilit che un dispositivo appartenga al secondo
insieme, si ha (probabilit totale):
F ( x ) = F ( x | A ) P ( A ) + F ( x | A) P ( A ) .
Poich
F ( x | A ) = (1 e 1 x ) u ( x ) ;
F ( x | A) = ( 1 e 2 x ) u ( x ) ;
allora si ha:
F ( x ) = [(1 e1 x ) p + (1 e2 x )(1 p)] u ( x ) ,
e derivando
f ( x ) = [ 1 e1 x p + 2 e2 x (1 p)] u ( x ) .
Abbiamo ottenuto in questo modo una variabile aleatoria di tipo mixture (vedi 3.5.11) con = p.
La particolare interpretazione della variabile aleatoria di tipo mixture fornita da questo esempio sug-
gerisce anche una pratica strategia per la sua generazione. Infatti, per generare una variabile aleatoria
del tipo precedentemente visto, sufficiente avere due generatori (Fig. 9.4), uno per la variabile aleato-
ria X | A Exp(1 ) ed un altro per la variabile aleatoria X | A Exp(2 ), e scegliere luscita di un generatore
oppure di un altro in accordo con i valori di una terza variabile aleatoria binaria W (riconducibile ad una
bernoulliana), che assume il valore 1 con probabilit p ed il valore 2 con probabilit q = 1 p.
9.2 Distribuzioni condizionali per una variabile aleatoria 195

Generatore X|A 1
v.a. X|A
X

Generatore X|A 2
v.a. X|A

Generatore
v.a. W
binaria

Fig. 9.4. Schema per la generazione di una variabile aleatoria


di tipo mixture (esempio 9.6): linterruttore comandato dalla
variabile aleatoria W, ed chiuso su 1 con probabilit p e su 2
con probabilit q = 1 p.

9.2.5 Probabilit a posteriori di un evento


Unaltra relazione utile quella che calcola la probabilit a posteriori di un evento in termini di
CDF condizionale. Partiamo dallidentit
P( B| A) P( A)
P( A| B) = ,
P( B)
valida per P( B) 6= 0. Scegliendo B = { X x }, possiamo scrivere:
P( X x | A) P( A) F ( x | A)
P( A| X x ) = = P( A) .
P( X x ) F(x)
Questa relazione si interpreta come la probabilit a posteriori dellevento A, sapendo che il valore
della variabile aleatoria X minore o uguale ad un certo numero x. La denominazione di proba-
bilit a posteriori per P( A| X x ) utilizzata per contrasto con la probabilit P( A), denominata
probabilit a priori. In altri termini, a priori sappiamo che la probabilit di A pari a P( A),
poi veniamo a conoscenza del fatto che X x, per cui a posteriori calcoliamo la probabilit
P( A| X x ). Si osservi che tale probabilit a posteriori maggiore, uguale o minore alla proba-
bilit a priori, in dipendenza del fatto che il rapporto tra la CDF condizionale F ( x | A) e la CDF
F ( x ) sia maggiore, uguale, o minore dellunit.
In maniera analoga, se scegliamo B = { x1 < X x2 }, si ha:
P ( x1 < X x2 | A ) P ( A ) F ( x2 | A ) F ( x1 | A )
P ( A | x1 < X x2 ) = = P( A) , (9.1)
P ( x1 < X x2 ) F ( x2 ) F ( x1 )
che si interpreta come la probabilit a posteriori dellevento A sapendo che il valore della variabile
aleatoria X compreso nellintervallo (aperto a sinistra) ] x1 , x2 ]. Gli esempi precedenti si possono
estendere facilmente al caso in cui B un qualunque evento (con P( B) 6= 0) che pu essere
espresso in termini della variabile aleatoria X.

9.2.6 Probabilit a posteriori dato X = x


Notiamo che se la variabile aleatoria X discreta possiamo senza difficolt estendere il calcolo
della probabilit a posteriori effettuato nel precedente paragrafo al caso in cui B = { X = x }, in
196 Distribuzioni e medie condizionali

quanto P( B) 6= 0. Si ha in tal caso:

P( X = x | A) P( A) p( x | A)
P( A| X = x ) = = P( A) , (9.2)
P( X = x ) p( x )

ovvero tale probabilit a posteriori si esprime in termini del rapporto tra la DF condizionale
p( x | A) e la DF p( x ). Se invece X una variabile aleatoria continua, sappiamo che P( X =
x ) = 0, e quindi non possiamo procedere direttamente come nel caso precedente, in quanto il
denominatore della (9.2) si annulla. Daltra parte, si ha anche:

P({ X = x } A)
P( X = x | A) = = 0,
P( A)

perch { X = x } A { X = x } e quindi P({ X = x } A) P({ X = x }) = 0. In sostanza, nella


(9.2) sia il numeratore che il denominatore sono nulli, per cui P( A| X = x ) si presenta in forma
indeterminata, e pu darsi che il risultato esista lo stesso finito al limite. Supponiamo allora che
X sia una variabile aleatoria continua, e procediamo ponendo3

P( A| X = x ) , lim P( A| x < X x ) .
0

con 0. Possiamo calcolare facilmente la probabilit al secondo membro, in quanto essa del
tipo (9.1) con x1 = x e x2 = x. Si ha:

P( x < X x | A) P( A) F ( x | A) F ( x | A)
P( A| x < X x ) = = P( A)
P( x < X x ) F ( x ) F ( x )
[ F ( x | A) F ( x | A)]/
= P( A) ,
[ F ( x ) F ( x )]/
da cui, al limite per 0, e ricordando la definizione di pdf e di pdf condizionale dato A, si
ottiene la relazione cercata:

f ( x | A)
P( A| X = x ) = P( A) , (9.3)
f (x)

che costituisce una generalizzazione della (9.2) al caso di variabili aleatorie continue. Si noti che
si supposto che le pdf che compaiono nella (9.3) esistano e che f ( x ) 6= 0.

Esempio 9.7. Consideriamo una popolazione di individui, che possiamo suddividere nellinsieme A =
{maschi} e nellinsieme A = {femmine}. Sia X una variabile aleatoria che rappresenta laltezza di un
individuo appartenente alla popolazione in esame: chiaro che tale variabile aleatoria la mixture delle
altezze X | A (altezza di un maschio) ed X | A (altezza di una femmina), per cui la pdf di X

f ( x ) = f ( x | A ) P ( A ) + f ( x | A) P ( A )

da cui risulta
f ( x| A)
P( A| X = x) = P( A) ,
f ( x | A ) P ( A ) + f ( x | A) P ( A)
Intuitivamente, tale probabilit a posteriori rappresenta la probabilit che un individuo sia maschio, sapendo
che la sua altezza pari ad x; essa pu essere confrontata con la probabilit a priori P ( A) che un individuo
sia maschio senza sapere nulla sulla sua altezza. Poich mediamente i maschi sono pi alti delle femmine, ci
3 Per un maggior rigore formale, bisognerebbe effettuare il limite considerando una successione discreta di eventi ( =

1/n) ed utilizzando la propriet di continuit della probabilit; tuttavia si giungerebbe allo stesso risultato.
9.2 Distribuzioni condizionali per una variabile aleatoria 197

0.045

0.04

0.035 f ( x | A) f ( x | A)

0.03
f (x)

0.025

0.02

0.015

0.01

0.005

x
0
120 130 140 150 160 170 180 190 200 210 220

x (cm)
Fig. 9.5. Le due pdf rappresentano (vedi esempio 9.7) la pdf dellaltezza della
popolazione femminile (a sinistra) e quella della popolazione maschile (a de-
stra); il valore x = x quella particolare altezza che non fornisce informazioni
sullappartenenza ad un sesso .

aspettiamo che se x grande, risulter P ( A| X = x ) > P ( A), viceversa se x piccolo. Ci sar un particolare
valore di x per il quale P ( A| X = x ) = P ( A), che rappresenta la condizione per cui gli eventi A ed { X = x }
sono indipendenti, e quindi la conoscenza dellaltezza non fornisce informazione sullappartenenza ad un
sesso. Imponendo la condizione P ( A| X = x ) = P ( A) si trova
f ( x| A)
= 1,
f ( x | A ) P ( A ) + f ( x | A) P ( A)

sviluppando la quale si ha la condizione f ( x | A) = f ( x | A). Il punto x = x si pu allora determinare (Fig.


9.5) riportando su uno stesso diagramma le due pdf condizionali e trovando la loro intersezione (si noti che
tale intersezione potrebbe non essere unica, in dipendenza dalla forma della pdf).

Esempio 9.8 (test di ipotesi). Riprendiamo lesempio 9.6, e supponiamo di voler risolvere il seguente
problema, tipico del controllo industriale di qualit: si prende a caso un dispositivo, e si misura il suo
tempo di vita, ottenendo un valore x; si vuole determinare se il dispositivo sia a bassa oppure ad alta
affidabilit. Matematicamente, ci equivale al seguente problema: si vuole valutare, osservato un valore x
della variabile aleatoria mixture X, se sia pi probabile che si sia verificato levento A (dispositivo a bassa
affidabilit) oppure A (dispositivo ad alta affidabilit). Questo equivale a valutare quale delle due quantit
P ( A| X = x ) e P ( A| X = x ) sia la pi grande, il che si pu formalizzare come un test di ipotesi:
A
>
P ( A | X = x ) < P ( A| X = x )
A
che si interpreta nel modo seguente: se il primo membro maggiore del secondo, allora diremo che le-
vento A pi probabile, per cui sceglieremo lipotesi il componente appartiene alla classe A, viceversa
se il primo membro minore del secondo. Poich tale test sceglie lipotesi che ha probabilit a posteriori
maggiore, esso prende il nome di test a massima probabilit a posteriori (maximum a posteriori probability, MAP).
Applicando la (9.3), tale test si pu riscrivere come segue:
A
f ( x| A) > f ( x | A)
P( A) < P( A) ,
f (x) f (x)
A
198 Distribuzioni e medie condizionali

e semplificando un termine f ( x ) > 0 in ambo i membri, si ha:


A
>
f ( x | A ) P ( A ) < f ( x | A) P ( A ) .
A
Se si suppone poi che gli eventi A e A siano equiprobabili, il test MAP si semplifica ulteriormente:
A
>
f ( x | A ) < f ( x | A) .
A

Tale test prende il nome di test a massima verosimiglianza (maximum likelihood, ML), e la funzione f ( x | A) pren-
de il nome di funzione di verosimiglianza dellevento A. Pertanto il test ML si ottiene come particolarizzazione
del test MAP nel caso di ipotesi equiprobabili.
Sostituendo le pdf condizionali di tipo esponenziale (cfr. esempio 9.6), il test si pu scrivere nella forma
esplicita
A
>
1 e 1 x < 2 e
2 x ,

A
che, nel caso 1 > 2 (corrispondente al caso in cui A sia la classe a pi bassa affidabilit rispetto a A), pu
essere posto nella forma:
A
1 >
ln 1 < x .
1 2 2
A

Notiamo che nelle ipotesi fatte il primo membro positivo. Osserviamo che il test si riduce a confrontare
1 1
il tempo di vita osservato x con una soglia positiva = 1 2 ln 2 ; se il tempo di vita inferiore a tale
soglia, si dichiara che il dispositivo appartiene alla classe A a pi bassa affidabilit; viceversa, se il tempo
di vita superiore a tale soglia, si dichiara che il dispositivo appartiene alla classe A a pi alta affidabilit.
Il risultato pare intuitivamente accettabile, meno intuitiva lespressione della soglia che abbiamo ricavato,
e che dipende dalla particolare distribuzione esponenziale scelta per il tempo di vita. Se il tempo di vita
esattamente uguale alla soglia (il che peraltro accade, essendo X una variabile aleatoria continua, con pro-
babilit zero), scegliere unipotesi oppure unaltra indifferente (le due ipotesi hanno la stessa probabilit a
posteriori).

9.2.7 Teorema della probabilit totale (versione continua)


Sulla base della (9.3), possiamo a questo punto ottenere una generalizzazione del teorema della
probabilit totale visto al 2.2.4. Si riscriva infatti la (9.3) nella forma:

f ( x | A) P( A) = P( A| X = x ) f ( x ) . (9.4)

Poich f ( x | A) una valida pdf, allora avr area unitaria:


Z
f ( x | A) dx = 1 ,

per cui, integrando membro a membro la (9.4), si ha:

Z
P( A) = P( A| X = x ) f ( x ) dx . (9.5)

Questa relazione rappresenta una versione continua del teorema della probabilit totale P( A) =
i P( A| Bi ) P( Bi ), nella quale gli eventi condizionanti sono del tipo { X = x } e costituiscono una
infinit continua (e non finita o numerabile).
9.3 Distribuzioni condizionali per coppie di variabili aleatorie 199

9.2.8 Teorema di Bayes per le pdf


Come ultima relazione utile, introduciamo una relazione per le pdf affine a quella di Bayes. Dalla
(9.3), si ottiene:
P( A| X = x )
f ( x | A) = f (x) ,
P( A)
per cui, sostituendo a P( A) il valore dato dalla (9.5) si ha:

P( A| X = x ) f ( x )
f ( x | A) = R ,
P ( A | X = x ) f ( x ) dx

che rappresenta una sorta di teorema di Bayes per le pdf.

9.3 Distribuzioni condizionali per coppie di variabili aleatorie


Analogamente a quanto fatto nel paragrafo precedente per il caso di una variabile aleatoria,
possibile definire distribuzioni condizionali (CDF, pdf e DF) anche per una coppia di variabili
aleatorie. Ad esempio, date due variabili aleatorie ( X, Y ) ed un evento B con P( B) 6= 0, possiamo
definire la CDF condizionale di ( X, Y ) dato B:

Definizione (CDF condizionale di una coppia di variabili aleatorie). Siano ( X, Y ) una coppia
di variabili aleatorie definite su uno spazio di probabilit (, S, P), e sia B S un evento di
, con P( B) 6= 0. La CDF condizionale di ( X, Y ) dato levento B :

P( X x, Y y, B)
FXY ( x, y| B) , P( X x, Y y| B) = .
P( B)

La corrispondente pdf condizionale si ricava per derivazione dalla CDF, ed :

2
f XY ( x, y| B) , F ( x, y| B) .
x y XY

Se le variabili aleatorie X ed Y sono discrete, a valori in X e Y, rispettivamente, utile definire la


DF condizionale di ( X, Y ) dato B:

P( X = x, Y = y, B)
p XY ( x, y| B) , P( X = x, Y = y| B) = ,
P( B)

con ( x, y) X Y.

Esempio 9.9. Come per il caso di una singola variabile aleatoria, il calcolo della CDF condizionale par-
ticolarmente semplice se levento B si esprime in funzione delle variabili aleatorie ( X, Y ) o di una di esse.
Supponiamo, ad esempio, che B = { X a}, con a numero reale (cfr. esempio 9.4 per un calcolo simile per
il caso di una singola variabile aleatoria). Si ha:

P ( X x, Y y, X a)
FXY ( x, y| B ) , P ( X x, Y y| B ) = .
P( X a)
200 Distribuzioni e medie condizionali

Se x < a, si ha che { X x, Y y, X a} = { X x, Y y}, per cui:

FXY ( x, y)
FXY ( x, y| B ) , ;
FX ( a)

mentre se x a si ha che { X x, Y y, X a} = { X a, Y y}, per cui:

FXY ( a, y)
FXY ( x, y| B ) , .
FX ( a)

Calcolando la derivata mista rispetto ad x ed y (escludiamo la presenza di impulsi) si ottiene la pdf condi-
zionale:
f XY ( x, y) , x < a ;
f XY ( x, y| B ) = F ( a)
X
0, x a.
Verifichiamo che la precedente una valida pdf, osservando se soddisfatta la condizione di normalizza-
zione. Si ha:
Z Z Z Z
1 a
f XY ( x, y| B ) dx dy = f ( x, y) dx dy
FX ( a) XY
1
= F ( a, + ) = 1 ,
FX ( a) XY

dove abbiamo sfruttato la (6.2) e la relazione tra CDF congiunte e marginali, secondo la quale FXY ( a, + ) =
FX ( a).

Esempio 9.10. Consideriamo adesso il caso in cui B = { a < X b } (cfr. esempio 9.5 per un calcolo simile
per il caso di una singola variabile aleatoria). Si ha:

P ( X x, Y y, a < X b )
FXY ( x, y| B ) = P ( X x, Y y| a < X b ) = .
P(a < X b)

Se x b, allora { X x, Y y, a < X b } = { a < X b, Y y}, e quindi

P ( a < X b, Y y) F (b, y) FXY ( a, y)


FXY ( x, y| B ) = = XY .
P(a < X b) FX (b ) FX ( a)

Se a < x < b, allora { X x, Y y, a < X b } = { a < X x, Y y}, e quindi

P ( a < X x, Y y) F ( x, y) FXY ( a, y)
FXY ( x, y| B ) = = XY .
P(a < X b) FX (b ) FX ( a)

Infine, se x a, allora { X x, Y y, a < X b } = , e quindi

FXY ( x, y| B ) = 0 .

In definitiva, allora:

0, x a;
F ( x,y) F ( a,y)
FXY ( x, y| a < X b ) =
XY XY
FX ( b ) FX ( a )
, a < x < b;

FXY ( b,y) FXY ( a,y)
, x b.
F ( b ) F ( a )
X X

Calcolando la derivata mista rispetto ad x e ad y, si ottiene la corrispondente pdf:




0,
x a;
f XY ( x,y )
f XY ( x, y| a < X b ) = , a < x < b;
FX ( b) FX ( a)

0, x b.
9.3 Distribuzioni condizionali per coppie di variabili aleatorie 201

Anche in questo caso, verifichiamo che la condizione di normalizzazione delle pdf sia soddisfatta. Si ha:
Z Z Z b Z
f XY ( x, y)
f XY ( x, y| a < X b ) dx dy = dx dy
a FX (b ) FX ( a)
Z b Z
1
= dx f XY ( x, y) dy
FX (b ) FX ( a) a
Z b
1
= f X ( x ) dx = 1 ,
FX (b ) FX ( a) a

dove abbiamo sfruttato la relazione tra pdf congiunte e marginali e le propriet della pdf.

9.3.1 Distribuzioni condizionali dato X = x ed Y = y


Consideriamo ora il caso particolarmente interessante in cui levento condizionante B = { X =
x }, che non pu rientrare come caso particolare delle precedenti definizioni, in quanto, se X
una variabile aleatoria continua, allora risulta P( B) = 0. Lobiettivo calcolare le distribuzioni
condizionali di Y dato B = { X = x }, per capire come si modifica la distribuzione marginale di
Y se fissiamo un valore X = x di unaltra variabile aleatoria; ad esempio, come si modifica la
distribuzione del peso Y di una persona se conosciamo la sua altezza X. Per aggirare il problema
insito nellannullamento di P( B), procediamo al limite, ponendo per definizione:

FY (y| X = x ) , lim P(Y y| x < X x ) ,


0
con 0. Si trova:
1
FY (y| X = x ) = F ( x, y) . (9.6)
f X ( x ) x XY

Prova. Si ha:
P (Y y, x < X x ) F ( x, y) FXY ( x , y)
P (Y y | x < X x ) = = XY ,
P(x < X x) FX ( x ) FX ( x )

da cui, dividendo numeratore e denominatore per e passando al limite per 0, si ha lasserto


(supponendo lesistenza della derivata parziale rispetto ad x di FXY ( x, y)). 
Scambiando i ruoli di X ed Y, si ottiene la relazione simmetrica:

1
FX ( x |Y = y) = F ( x, y) . (9.7)
f Y (y) y XY

Particolarmente interessante lespressione delle pdf condizionali, che si ottengono derivando la


(9.6) rispetto a y e la (9.7) rispetto ad x. Si ha, infatti:
1 2 f ( x, y)
fY (y|X = x ) = FY (y| X = x ) = F ( x, y) = XY ,
y f X ( x ) y x XY f X (x)
e similmente:
f XY ( x, y)
f X ( x |Y = y ) = .
fY (y)
Spesso le relazioni precedenti si esprimono, in forma pi sintetica, come:

f XY ( x, y)
f X ( x |y) = ;
fY (y)
(9.8)
f ( x, y)
f Y (y| x ) = XY .
f X (x)
202 Distribuzioni e medie condizionali

Si noti laffinit formale tra tali relazioni e la definizione (2.1) di probabilit condizionale. Ricor-
diamo, inoltre, che f X ( x |y) una pdf (monodimensionale) vista come funzione di x, ma non di
y, per cui risulta verificata la condizione di normalizzazione in x:
Z
f X ( x |y) dx = 1 ,

ma il corrispondente integrale in dy non unitario. Analogo discorso, scambiando i ruoli di x ed


y, vale per f Y (y| x ). Notiamo poi che, per denotare che f Y (y| x ) la pdf condizionale di Y dato
{ X = x }, si usa la notazione sintetica Y | x f Y (y| x ).
Osserviamo infine che se X ed Y sono indipendenti, la fattorizzazione f XY ( x, y) = f X ( x ) f Y (y)
della pdf congiunta implica che

f X ( x |y) = f X ( x ) ,
fY (y|x ) = fY (y) ,

ovvero la pdf condizionale uguale a quella marginale (levento { X = x } non modifica la pdf di
Y, e simmetricamente levento {Y = y} non modifica la pdf di X).
Data la somiglianza formale tra lespressione delle pdf condizionali e la definizione di proba-
bilit condizionale, non sorprende che alcuni teoremi tipici della probabilit condizionale abbia-
no una loro controparte per le pdf condizionali. Ad esempio, sulla base delle definizioni (9.8), la
pdf congiunta ammette due distinte fattorizzazioni in termini di pdf condizionali:

f XY ( x, y) = f X ( x |y) f Y (y) = f Y (y| x ) f X ( x ) , (9.9)

che una relazione simile alla legge della probabilit composta (2.2). Utilizzando la relazione tra
statistiche congiunte e marginali, si ha poi:

Z Z
fY (y) = f XY ( x, y) dx = f Y (y| x ) f X ( x ) dx , (9.10)

che una relazione analoga al teorema della probabilit totale (cfr. teorema 2.1, capitolo 2) e genera-
lizza il teorema della probabilit totale per le pdf (cfr. 9.2) al caso in cui gli eventi condizionanti
siano una infinit continua. Per questo motivo, tale relazione costituisce una versione continua
del teorema della probabilit totale per le pdf. Infine, combinando la legge della probabilit
composta (9.9) e quella della probabilit totale (9.10), possiamo ottenere la relazione

fY (y|x ) f X ( x ) f (y|x ) f X ( x )
f X ( x |y) = = R Y (9.11)
fY (y) f Y ( y | x ) f X ( x ) dx

che consente di esprimere una pdf condizionale in funzione dellaltra, ed una relazione analoga
al teorema di Bayes (cfr. teorema 2.2, capitolo 2).

Esempio 9.11. Consideriamo il caso di una coppia di variabili aleatorie congiuntamente gaussiane ( X, Y )
N( X , Y , X , Y , ), e calcoliamo le pdf condizionali f X ( x | y) e f Y (y| x ). Il risultato si ottiene semplicemente
9.4 Distribuzioni condizionali per vettori di variabili aleatorie 203

se ricordiamo la fattorizzazione della pdf congiunta ricavata nellesempio 6.2, che si riporta di seguito per
comodit del lettore:
 " h

i2 #
1 12 ( x X )2 1 2 1 2 y Y Y ( x X )
f XY ( x, y) = e X2
p e Y2 (1 ) X
.
X 2 Y 1 2 2

Infatti, poich nellesempio 6.2 abbiamo dimostrato che il primo fattore rappresenta la pdf marginale f X ( x ),
allora il secondo fattore per la (9.9) deve necessariamente rappresentare la pdf condizionale f Y (y| x ), ovvero
si ha: h i2

f XY ( x, y) 1 2 1 2 y Y Y ( x X )
f Y (y| x ) = = p e Y2 (1 ) X
.
f X (x) Y 1 2 2
Tale pdf (come funzione di y) ha ancora la forma gaussiana monodimensionale, con parametri p media e
varianza che si individuano facilmente per ispezione, per cui Y | x N(Y + XY ( x X ), Y 1 2 ), cio
Y dato X = x condizionalmente gaussiana, con i parametri indicati (dipendenti dal valore di y). In maniera
simmetrica, si trova:
h i2

f XY ( x, y) 1 2 1 2 x X X ( y Y )
f X ( x | y) = = p e 2X (1 ) Y
,
f Y (y) X 1 2 2
p
per cui X | y N( X + XY (y Y ), X 1 2 ), per cui anche X, dato Y = y, condizionalmente gaussiana,
con i parametri indicati. In conclusione, possiamo affermare che variabili aleatorie ( X, Y ) congiuntamente
gaussiane sono non solo marginalmente gaussiane, ma anche condizionalmente gaussiane.
interessante interpretare intuitivamente i parametri caratteristici della distribuzione condizionale di
X dato Y = y, con riferimento ad un esempio concreto. Si consideri ad esempio il caso in cui X rappresenti
laltezza ed Y il peso di una persona; supponendo di modellare tali quantit approssimativamente (perch?)
come variabili aleatorie congiuntamente gaussiane, esse risulteranno sicuramente positivamente correlate,
perch ad un incremento delluna corrisponde in media unincremento dellaltra.
Se infatti fissiamo Y = y, con y > Y (un peso al di sopra della media), la media della distribuzione
condizionale di X |Y = y si sposta verso destra (cio verso altezze superiori alla media X . Se invece fissiamo
y < Y (un peso al di sotto della media) la media della distribuzione condizionale di X |Y = y si sposta verso
sinistra (cio verso altezze inferiori alla media X ); si sarebbe verificato il contrario se X ed Y fossero state
negativamente correlate.
Per quanto riguarda la varianza della distribuzione condizionale di X dato Y = y, notiamo che essa
non dipende dal valore y che fissiamo di volta in volta, ma solo da X e da ; in particolare, tale varianza
assume il valore massimo X 2 per = 0, e diminuisce al crescere di (in modulo). Tale comportamento

si interpreta come segue: se fissiamo un valore del peso, si riduce lincertezza che abbiamo sullaltezza,
e quindi la varianza condizionale dellaltezza dato il peso pi piccola; questa riduzione della varianza
tanto pi grande quanto pi il coefficiente di correlazione prossimo (in modulo) ad uno, cio quanto pi
le variabili aleatorie X ed Y sono correlate.

9.4 Distribuzioni condizionali per vettori di variabili aleatorie


possibile generalizzare la definizione di distribuzioni condizionali introdotte per due variabili
aleatorie al caso di vettori di variabili aleatorie. Ad esempio, la definizione di CDF congiunta
delle variabili aleatorie X1 , X2 , . . . , Xn dato un evento B si generalizza come segue:

Definizione (CDF condizionale di un vettore di variabili aleatorie). Siano X1 , X2 , . . . , Xn n


variabili aleatorie definite su uno spazio di probabilit (, S, P), e sia B S un evento di ,
con P( B) 6= 0. La CDF condizionale di X1 , X2 , . . . , Xn dato levento B :

FX1 X2 Xn ( x1 , x2 , . . . , x n | B) , P( X1 x1 , X2 x2 , . . . , Xn xn | B) .

La corrispondente pdf condizionale si ricava per derivazione della CDF condizionale.


204 Distribuzioni e medie condizionali

Particolarmente interessante calcolare la pdf condizionale di X1 , X2 , . . . , Xk dati i valori


assunti da Xk+1 , Xk+2 , . . . , Xn , siano essi xk+1 , xk+2 , . . . , x n , che si ottiene generalizzando le (9.8):
f X1 X2 Xn ( x1 , x2 , . . . , x n )
f X1 X2 Xk ( x1 , x2 , . . . , x k | xk+1 , xk+2 , . . . , x n ) , .
f Xk +1 Xk +2 Xn ( x k+1 xk+2 , . . . , x n )
Ovviamente tale funzione una pdf vista come funzione di x1 , x2 , . . . , x k , ed in particolare soddi-
sfa la condizione di normalizzazione, per ogni ( xk+1 , xk+2 , . . . , x n ):
Z Z Z
f X1 X2 Xk ( x1 , x2 , . . . , x k | xk+1 , x k+2 , . . . , x n ) dx1 dx2 dxk .

Il modo per costruire una qualunque pdf condizionale dovrebbe essere a questo punto chiaro al
lettore: al numeratore va la pdf congiunta di tutte le variabili aleatorie in gioco, al denominatore
quella delle sole variabili aleatorie condizionanti.

Esempio 9.12. Consideriamo il caso di quattro variabili aleatorie X1 , X2 , X3 , X4 , e calcoliamo esplicitamen-


te alcune distribuzioni condizionali:
f X1 X2 X3 X4 ( x 1 , x 2 , x 3 , x 4 )
f X2 ( x 2 | x 1 , x 3 , x 4 ) = ;
f X1 X3 X4 ( x 1 , x 3 , x 4 )
f X1 X2 X3 X4 ( x 1 , x 2 , x 3 , x 4 )
f X1 X2 ( x 1 , x 2 | x 3 , x 4 ) = ;
f X3 X4 ( x 3 , x 4 )
f X1 X2 X3 X4 ( x 1 , x 2 , x 3 , x 4 )
f X1 X2 X4 ( x 1 , x 2 , x 4 | x 1 ) = .
f X1 ( x 1 )

Le corrispondenti CDF condizionali si possono ottenere per integrazione, ad esempio si ha:

FX1 X2 Xk ( x1 , x2 , . . . , x k | xk+1 , xk+2 , . . . , x n ) =


Z x1 Z x2 Z x
k
= f X1 X2 Xk (u1 , u2 , . . . , uk | xk+1 , xk+2 , . . . , x n ) du1 du2 duk . (9.12)

Per variabili aleatorie discrete, possibile estendere in maniera analoga anche la definizione di
DF condizionali.

9.4.1 Indipendenza condizionale e regola della catena per le pdf


Consideriamo il caso in cui le variabili aleatorie X1 , X2 , . . . Xk siano indipendenti dalle variabili
aleatorie Xk+1 , Xk+2 , . . . , Xn , evidentemente si ha:

f X1 X2 Xk ( x1 , x2 , . . . , x k | xk+1 , x k+2 , . . . , x n ) = f X1 X2 Xk ( x1 , x2 , . . . , x k )

cio il condizionamento non opera. Avendo introdotto le CDF e pdf condizionali, possiamo anche
introdurre il concetto di indipendenza condizionale tra le variabili aleatorie componenti il vettore
X. Ad esempio, X1 ed X2 si diranno condizionalmente indipendenti, data una terza variabile X3 ,
se vale la seguente fattorizzazione della pdf condizionale:

f X1 X2 ( x 1 , x 2 | x 3 ) = f X1 ( x 1 | x 3 ) f X2 ( x 2 | x 3 ) ,

che con semplici manipolazioni algebriche si pu mostrare che implica le:

f X1 ( x 1 | x 2 , x 3 ) = f X1 ( x 1 | x 3 ) ;
f X2 ( x 2 | x 1 , x 3 ) = f X2 ( x 2 | x 3 ) ;
9.5 Media condizionale e momenti condizionali 205

che si interpretano nel seguente modo: dato X3 = x3 , il condizionamento X2 = x2 o X1 = x1 non


opera. Il concetto di indipendenza condizionale si pu estendere banalmente anche a gruppi di
variabili aleatorie.
Una relazione interessante che scaturisce dalla definizione di pdf condizionale la cosid-
detta regola della catena per le pdf. Infatti, notiamo che, con successivi condizionamenti, la pdf
congiunta di X si pu fattorizzare nel prodotto di n pdf condizionali monodimensionali, come:
f X1 X2 Xn ( x1 , x2 , . . . , x n ) = f X1 ( x1 ) f X2 X3 Xn ( x2 , x3 , . . . , x n | x1 )
= f X1 ( x1 ) f X2 ( x2 | x1 ) f X3 Xn ( x3 , . . . , xn | x1 , x2 )
= ...
= f X1 ( x 1 ) f X2 ( x 2 | x 1 ) f X3 ( x 3 | x 1 , x 2 ) f X n ( x n | x 1 , x 2 , . . . , x n 1 ) .

9.5 Media condizionale e momenti condizionali


La definizione di media condizionale di una variabile aleatoria X, dato un evento B, una semplice
estensione dalla definizione di media di una variabile aleatoria, ottenuta sostituendo alla pdf
f ( x ) la pdf condizionale f ( x | B):

Definizione (media condizionale di una variabile aleatoria). La media condizionale E( X | B)


di una variabile aleatoria X con pdf condizionale f ( x | B) :
Z
E( X | B) , x f ( x | B) dx ,

se tale integrale esiste finito.

Esempio 9.13. Abbiamo gi visto (cfr. esempio 9.4) che se B = { X a}, allora:
( f (x)
, x < a;
f ( x | X a) = F( a )
0, x a.
Pertanto, si ha: Ra
Z a Z a x f ( x ) dx
f (x) 1
E(X| B) = x dx = x f ( x ) dx = Ra .
F ( a) F ( a) f ( x ) dx

Osserviamo che la media condizionale gode di tutte le propriet della media (cfr. 5.2): in
particolare ad essa si applica il teorema fondamentale della media. Infatti, se si vuole calcolare la
media condizionale di g( X ) dato un evento B, si ha:
Z
E[ g( X )| B] = g( x ) f X ( x | B) dx ,

mentre per variabili aleatorie discrete il teorema si pu particolarizzare come:

E[ g( X )| B] = g( x ) P( X = x | B) = g( x ) p X ( x | B) ,
x X x X

ovvero si esprime in termini della DF condizionale p( x | B) della variabile aleatoria X. A partire


dal teorema fondamentale della media, poi, possibile definire qualunque momento condizionale:
ad esempio, il valor quadratico medio condizionale dato da:
Z
E( X 2 | B) , x2 f ( x | B) dx ,

206 Distribuzioni e medie condizionali

mentre la varianza condizionale si pu esprimere facilmente in termini del valor quadratico


medio condizionale e della media condizionale, come:

Var( X | B) = E( X 2 | B) E2 ( X | B) . (9.13)

Si noti che non possibile scrivere Var( X | B) = E[( X X )2 | B] in quanto X non la media
condizionale; viceversa, si verifica facilmente che la definizione corretta :

Var( X | B) , E[( X E( X | B))2 | B] ;

infatti, sviluppando la precedente relazione, si ottiene la (9.13).


La definizione di media condizionale dato un evento B si estende naturalmente al caso di cop-
pie di variabili aleatorie e, pi in generale, al caso di vettori di variabili aleatorie; basta sostituire
alla pdf, nellintegrale che definisce la media, la pdf condizionale dato B. Il teorema fondamen-
tale della media si estende anche al caso in cui desideriamo calcolare la media condizionale di
g( X, Y ) dato un evento B, e conosciamo la pdf condizionale f XY ( x, y| B). Si ha:
Z Z
E[ g( X, Y )| B] = g( x, y) f XY ( x, y| B) dx dy . (9.14)

Tale teorema consente di definire i momenti congiunti condizionali di una coppia di variabili
aleatorie, come la correlazione condizionale e la covarianza condizionale.
Infine, pi in generale, nel caso in cui abbiamo un vettore X = [ X1 , X2 , . . . , Xn ] T di n variabili
aleatorie, e vogliamo calcolare la media condizionale di g( X ) dato un evento B, conoscendo la
pdf condizionale f X ( x| B), si ha:
Z
E[ g( X )| B] = g( x) f X ( x| B) dx .
Rn

Anche in questo caso il teorema fondamentale della media consente di definire un qualunque
momento condizionale associato al vettore X.

9.5.1 Teorema della media condizionale


La media condizionale pu essere calcolata anche per le pdf condizionali f X ( x |y) e f Y (y| x ) viste
nel 9.3. Infatti, abbiamo visto che la pdf condizionale f Y (y| x ) rappresenta la pdf di Y, per un
fissato valore x della variabile aleatoria X. A tale pdf associato un valor medio, che prende il
nome di media condizionale di Y dato X = x:

Definizione (media condizionale di Y dato X = x). La media condizionale di Y dato X = x


: Z
E (Y | x ) , y f Y (y| x ) dy ,

se tale integrale esiste finito.

La definizione precedente si pu estendere anche al caso in cui consideriamo una trasforma-


zione g(Y ) di Y, e vogliamo calcolarne la media. Vale infatti anche in questo caso il teorema
fondamentale della media, per cui:
Z
E[ g(Y )| x ] = g(y) f Y (y| x ) dy .

9.5 Media condizionale e momenti condizionali 207

Osserviamo che, per ogni fissato x, la media condizionale E[ g(Y )| x ] un numero; se allora faccia-
mo variare x, la media condizionale E[ g(Y )| x ] definisce una funzione ( x ) di x. Possiamo allora
costruire una variabile aleatoria Z = ( X ) = E[ g(Y )| X ] semplicemente associando ad ogni va-
lore X = x il valore z = E[ g(Y )| x ]. Il calcolo della media di Z rappresenta loggetto del seguente
teorema della media condizionale:

Teorema 9.1 (media condizionale). Sia E[ g(Y )| x ] = ( x ) la media condizionale di g(Y ) dato
X = x, e costruiamo la variabile aleatoria Z = ( X ) = E[ g(Y )| X ]. Si ha:

E[ E( g(Y )| X )] = E[ g(Y )] ,

se tale media esiste finita.

Prova. Con facili passaggi, si ha:


Z Z Z 
E [ E ( g(Y )| X )] = E [ g(Y )| x ] f X ( x )dx = g(y) f Y (y| x ) dy f X ( x )dx =

Z Z Z Z
= g(y) f Y (y| x ) f X ( x ) dx dy = g(y) f XY ( x, y) dx dy =

Z Z  Z
= g(y) f XY ( x, y) dx dy = g(y) f Y (y) dy = E [ g(Y )] ,

dove abbiamo applicato la legge della probabilit composta per le pdf, le relazioni tra statistiche congiunte
e marginali, ed il teorema fondamentale della media. 

Il teorema si applica anche al caso in cui g(Y ) = Y, ed in questo caso assume una forma partico-
larmente semplice:
E[ E(Y | X )] = E(Y ) ;

questa relazione suggerisce una procedura in due passi per il calcolo della media di una variabile
aleatoria Y che dipende da unaltra variabile aleatoria X; (i) si fissa prima un valore di X = x, e si
calcola la media condizionale E(Y | x ); (ii) successivamente si media tale risultato rispetto a tutti i
possibili valori di X, ottenendo la media E(Y ) cercata.

Esempio 9.14. Consideriamo il caso di p due variabili aleatorie congiuntamente gaussiane. Abbiamo osser-
vato che Y | x N(Y + YX ( x X ), Y 1 2 ), per cui:

Y
E (Y | x ) = Y + (x X ) .
X

Si ha, pertanto, mediando su X:


Y
E [ E (Y | X )] = Y + E ( X X ) = Y = E (Y ) ,
X | {z }
=0

come previsto dal teorema della media condizionale. Questo esempio serve pi per illustrare lapplica-
zione del teorema che per evidenziarne lutilit pratica; si veda lesempio 9.16 per unapplicazione pi
significativa.

9.5.2 Generalizzazione al caso di coppie di variabili aleatorie


Il teorema della media condizionale si pu generalizzare al caso di coppie di variabili aleatorie,
e precisamente si pu applicare per calcolare la media di g( X, Y ). Supponiamo infatti di fissare
208 Distribuzioni e medie condizionali

X = x e di voler calcolare la media condizionale E[ g( X, Y )| X = x ], che possiamo denotare


sinteticamente come E[ g( X, Y )| x ], essendo essa una funzione di x. Poich levento condizionante
B = { X = x }, possiamo applicare il teorema fondamentale della media (9.14)
Z Z
E[ g( X, Y )| x ] = g(u, v) f XY (u, v| x ) du dv ,

dove f XY (u, v| x ) denota sinteticamente f XY (u, v| X = x ). Il calcolo di tale pdf pone, tuttavia,
qualche problema, se X una variabile aleatoria continua; infatti, potremmo pensare di ottenere
f XY (u, v| x ) sulla base del risultato dellesempio 9.10 che fornisce f XY (u, v| a < x b), ponendo
a = x e b = x, e facendo tendere a zero. Si avrebbe (cfr. esempio 9.10):

0,
u x;
f XY ( u,v )
f XY (u, v| x < X x ) = F ( x ) F ( x ) , x < u x ;

X X
0, u > x.
Il problema che passando poi al limite per 0 tale espressione diverge, in quanto FX ( x )
FX ( x ) 0, per cui la pdf f XY (u, v| x < X x ) singolare. Possiamo aggirare tale
difficolt calcolando direttamente la E[ g( X, Y )| x ] con procedura al limite, ponendo cio:
E[ g( X, Y )| x ] = E[ g( X, Y )| X = x ] = lim E[ g( X, Y )| x < X x ] .
0
Si trova: Z
E[ g( X, Y )| x ] = g( x, y) f Y (y| x ) dy .

Prova. Si ha:
Z Z
E [ g( X, Y )| x < X x ] = g(u, v) f XY (u, v| x < X x ) du dv =

Z Z x
f XY (u, v)
= dv g(u, v) du =
x FX ( x ) FX ( x )
Z
f XY ( x, v)
g( x, v) dv .
FX ( x ) FX ( x )
FX ( x ) FX ( x )
Facendo tendere 0, si ha che f X ( x ) (supposta esistente), per cui:
Z Z

f XY ( x, v)
E [ g( X, Y )| X = x ] = g( x, v) dv = g( x, v) f Y (v| x ) dv ,
f X (x)

cio lasserto, cambiando nome alla variabile di integrazione v. 


Siamo in grado adesso di formulare lannunciata generalizzazione del teorema della media con-
dizionale. Osserviamo che E[ g( X, Y )| x ] rappresenta, anche in questo caso, al variare di x, una
funzione ( x ); definiamo allora una variabile aleatoria Z = ( X ) = E[ g( X, Y )| X ], della quale
calcoliamo la media. Si trova:
E[ E[ g( X, Y )| X ]] = E[ g( X, Y )] .

Prova. La prova analoga a quella del teorema della media condizionale. Si ha:
Z Z Z 
E [ E ( g( X, Y )| X )] = E [ g( X, Y )| x ] f X ( x )dx = g( x, y) f Y (y| x ) dy f X ( x )dx =

Z Z Z Z
= g( x, y) f Y (y| x ) f X ( x ) dx dy = g( x, y) f XY ( x, y) dx dy =

= E [ g( X, Y )] ,

cio lasserto. 
9.5 Media condizionale e momenti condizionali 209

Esempio 9.15. Applichiamo il risultato precedente per calcolare la correlazione tra due variabili aleatorie
gaussiane. In questo caso g( X, Y ) = X Y, e si ha:
E ( X Y ) = E [ E ( X Y | X )] .
Inoltre, risulta:
E ( X Y | x ) = E ( x Y | x ) = x E (Y | x ) ,
poich x fissato; poich poi (cfr. esempio 9.14)

E (Y | x ) = Y + Y ( x X ) ,
X
allora si ha:
Y 2
(x x X ) .
E ( X Y | x ) = x Y +
X
Mediando il risultato precedente rispetto ad X troviamo il risultato cercato:
2
E ( X Y ) = X Y + Y [ E ( X2 ) 2X ] = X Y + Y X = X Y + X Y ,
X X
da cui si ha anche
Cov( X, Y ) = E ( X Y ) X Y = X Y ,
per cui ritroviamo anche che XY = , cio il parametro coincide con il coefficiente di correlazione.

I concetti precedenti si estendono al caso di n variabili aleatorie in maniera naturale. Ad esem-


pio, possiamo calcolare la media condizionale di X1 per fissati valori x2 , x3 , . . . , x n delle variabili
aleatorie X2 , X3 , . . . , Xn :
Z
E ( X1 | x 2 , x 3 , . . . , x n ) , x1 f X1 ( x1 | x2 , x3 , . . . , x n ) dx1 . (9.15)

La relazione precedente definisce una funzione ( x2 , x3 , . . . , x n ); se allora consideriamo la va-
riabile aleatoria Z = ( X2 , X3 , . . . , Xn ) , E( X1 | X2 , X3 , . . . , Xn ) e ne calcoliamo la media, si
trova:
E[ E( X1 | X2 , X3 , . . . , Xn )] = E( X1 ) .
che rappresenta la generalizzazione del teorema della media condizionale.
Prova. Applicando il teorema fondamentale della media, si ha:

E [ E ( X1 | X2 , X3 , . . . , Xn )] = E [ ( X2 , X3 , . . . , Xn )] =
Z Z Z
... ( x2 , x3 , . . . , xn ) f X2 X3 Xn ( x2 , x3 , . . . , xn )dx2 dx3 dxn

Sostituendo la (9.15), si ha:

E [ E (X1 | X2 , X3 , . . . , Xn )] =
Z Z Z Z

= ... x1 f X1 ( x1 | x2 , x3 , . . . , xn ) dx1 f X2 X3 Xn ( x2 , x3 , . . . , xn ) dx2 dx3 dxn

Z Z Z
= ... x1 f X1 ( x1 | x2 , x3 , . . . , xn ) f X2 X3 Xn ( x2 , x3 , . . . , xn ) dx1 dx2 dxn
| {z }
= f X1 X2 Xn ( x1 , x2 , . . . , xn )
Z Z Z
= ...x1 f X1 X2 Xn ( x1 , x2 , . . . , xn ) dx1 dx2 dxn

Z  Z Z Z 
= x1 ... f X1 X2 Xn ( x1 , x2 , . . . , xn ) dx2 dx3 dxn

| {z }
= f X1 ( x 1 )
Z
= x1 f X1 ( x1 ) dx1 = E ( X1 ) ,

cio lasserto. 
210 Distribuzioni e medie condizionali

Esempio 9.16 (somma di un numero aleatorio di variabili aleatorie). Si considerino le variabili aleatorie
iid X1 , X2 , . . . , Xn , con media e varianza 2 , ed una variabile aleatoria N discreta, indipendente dalle
precedenti, a valori in {1, 2, . . . , n }. Costruiamo la variabile aleatoria S come:
N
S= Xk ,
k =1

dove lestremo superiore della somma aleatorio. Calcolare media, valor quadratico medio e varianza di S.
Il problema si risolve semplicemente adoperando il teorema della media condizionata, ed in particolare
condizionando ai possibili valori assunti da N. Infatti, per quanto riguarda il calcolo della media di S, si ha:

E (S ) = E [ E (S | N )] ,

e, per un fissato valore N = n, risulta:


! !
N n n
E (S | n ) = E Xk N = n = E Xk = E ( Xk ) = n ,
k =1 k =1 k =1

dove abbiamo sfruttato lindipendenza tra N e le X1 , X2 , . . . , Xn , per cui:

E (S ) = E ( N ) = E ( N ) .

In maniera simile si pu calcolare il valore quadratico medio, ovvero:

E (S2 ) = E [ E (S2 | N )] ,

e si ha:
!
N N n n n n h i
2
E (S | n ) = E Xk Xh N = n = E ( Xk Xh ) = Cov( Xk , Xh ) + 2 .
k =1 h =1 k =1 h =1 k =1 h =1

Poich le variabili aleatorie X1 , X2 , . . . , Xn sono indipendenti, allora esse sono anche incorrelate, per cui
Cov( Xk , Xh ) = 2 kh , e si ha quindi:
E ( S 2 | n ) = n 2 + n 2 2 ,
per cui
E ( S 2 ) = E ( N 2 + N 2 2 ) = E ( N ) 2 + E ( N 2 ) 2 .
La varianza si ottiene infine come:

Var(S ) = E (S2 ) E2 (S ) = E ( N ) 2 + 2 [ E ( N 2 ) E2 ( N )] = E ( N ) 2 + 2 Var( N ) .

Se assumiamo N deterministico (N = n con probabilit 1), ritroviamo E (S ) = n e Var(S ) = n 2 , come


naturale.
9.6 Esercizi proposti 211

9.6 Esercizi proposti


Esercizio 9.1. Il tempo di vita X di un dispositivo modellato come una variabile aleatoria X Exp().
Sapendo che il dispositivo vissuto fino al tempo a > 0, calcolare CDF e pdf del tempo residuo di vita
Y = X a. [Risposta: Y Exp()]

Esercizio 9.2. Il tempo di vita (misurato in settimane) di un componente elettronico modellato come una
variabile aleatoria X Rayleigh(b ), con b = 30. Se per qualche motivo noto che il dispositivo non durer
pi di 20 settimane, determinare la CDF e la pdf del nuovo tempo di vita X.

Esercizio 9.3. Il numero di prove che intercorrono tra due successi consecutivi in un esperimento di prove
ripetute modellato come una variabile aleatoria X Geom( p). Sapendo che sono gi trascorse k > 0
prove senza alcun successo, calcolare la DF del numero residuo di prove Y = X k.

Esercizio 9.4. Sia X U(0, 2 ). Determinare la CDF e la pdf della variabile aleatoria X condizionata
allevento B = {cos( X ) 0}.

Esercizio 9.5. Siano X ed Y due variabili aleatorie con pdf congiunta


(
2, se 0 x 1 e 0 y x,
f XY ( x, y) =
0, altrimenti.

a) Determinare le pdf condizionali f X ( x | y) e f Y (y| x );


b) verificare che le pdf condizionali determinate al punto 1 soddisfino la condizione di normalizzazione
per le pdf.

Esercizio 9.6. Siano X ed Y due variabili aleatorie con pdf congiunta

f XY ( x, y) = u ( x ) u (y) x e x ( y+1) , ( x, y) R2

a) Determinare le pdf condizionali f X ( x | y) e f Y (y| x );


b) verificare che le pdf condizionali determinate al punto 1 soddisfino la condizione di normalizzazione
per le pdf;
c) utilizzando le pdf condizionali precedentemente calcolate, determinare il valore di P (Y 2| X = 1).

Esercizio 9.7. Si supponga che le variabili aleatorie X ed Y abbiano la seguente pdf:


(
k, se x2 + y2 1,
f XY ( x, y) =
0, altrimenti.

a) Determinare il valore di k;
b) determinare le pdf condizionali f X ( x | y) e f Y (y| x ).

Esercizio 9.8. Siano X Geom( p ed Y Geom( p) due variabili aleatorie indipendenti, aventi entrambe
distribuzione geometrica. Calcolare P ( X = Y ).
[Risposta: p2 /(1 q2 )]

Esercizio 9.9. Si generalizzi il concetto di variabile aleatoria binomiale nel seguente modo: la probabilit p
di un successo non pi una costante, ma una variabile aleatoria P U(0, 1), per cui il numero di successi
in n prove ha la distribuz