Sei sulla pagina 1di 268

Giacinto Gelli

Probabilit`a e informazione
Note per il corso di Teoria dei fenomeni aleatori

N APOLI 2002

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

c 20022006 Giacinto Gelli gelli@unina.it



Lautore consente la riproduzione anche parziale del testo agli studenti del corso. Non e`
consentito modificare il testo, diffonderlo, pubblicarlo anche con mezzi telematici senza
il consenso scritto dellautore.
Prima versione: settembre 2001.
Seconda versione: febbraio 2002.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Indice
1

Probabilit`a elementare
1.1 Introduzione . . . . . . . . . . . . . . . . . . .
1.2 Richiami di teoria degli insiemi . . . . . . . .
1.3 Definizioni preliminari di probabilit`a . . . . .
1.4 Probabilit`a assiomatica . . . . . . . . . . . . .
1.4.1 Campi e -campi (campi di Borel) . .
1.4.2 Assiomi di Kolmogorov . . . . . . . .
1.4.3 Propriet`a elementari della probabilit`a
1.5 Altri approcci alla teoria della probabilit`a . .
1.5.1 Approccio frequentista . . . . . . . . .
1.5.2 Approccio classico . . . . . . . . . . .
1.5.3 Vantaggi dellapproccio assiomatico .
1.6 Esempi di spazi di probabilit`a . . . . . . . . .
1.6.1 Spazi di probabilit`a discreti . . . . . .
1.6.2 Spazi di probabilit`a continui  . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

Probabilit`a condizionale e indipendenza


2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . .
2.2 Probabilit`a condizionale . . . . . . . . . . . . . . .
2.2.1 Legge della probabilit`a composta . . . . . .
2.2.2 Regola della catena . . . . . . . . . . . . . .
2.2.3 Teoremi della probabilit`a totale e di Bayes .
2.3 Indipendenza tra eventi . . . . . . . . . . . . . . .
2.3.1 Indipendenza di tre o piu` eventi . . . . . .
2.3.2 Indipendenza condizionale tra eventi . . .
2.4 Esperimenti combinati . . . . . . . . . . . . . . . .
2.4.1 Esperimenti indipendenti . . . . . . . . . .
2.4.2 Prove ripetute . . . . . . . . . . . . . . . . .
2.4.3 Teoremi di de Moivre-Laplace  . . . . . .
2.4.4 Canale binario simmetrico (BSC) . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

1
1
3
5
7
7
9
9
11
12
13
13
14
14
17

.
.
.
.
.
.
.
.
.
.
.
.
.

23
23
23
26
27
28
31
33
34
34
36
39
43
47

ii

INDICE
3

Variabili aleatorie
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Definizione di variabile aleatoria . . . . . .
3.2 Funzione di distribuzione cumulativa (CDF) . . .
3.2.1 Propriet`a della CDF . . . . . . . . . . . . .
3.2.2 Variabili aleatorie discrete, continue, miste
3.2.3 Percentile e mediana  . . . . . . . . . . . .
3.3 Funzione densit`a di probabilit`a (pdf) . . . . . . . .
3.3.1 Propriet`a della pdf . . . . . . . . . . . . . .
3.4 Funzione distribuzione di probabilit`a (DF) . . . .
3.4.1 Propriet`a della DF . . . . . . . . . . . . . .
3.5 Esempi di variabili aleatorie . . . . . . . . . . . . .
3.5.1 Variabili aleatorie discrete . . . . . . . . . .
3.5.2 Variabili aleatorie continue . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

Trasformazioni di una variabile aleatoria


4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Condizioni da imporre alla funzione g(x)  . . . . . . . . .
4.2 Caratterizzazione statistica di Y = g(X) . . . . . . . . . . . . . . .
4.2.1 Calcolo della CDF di Y = g(X) . . . . . . . . . . . . . . . .
4.2.2 Calcolo della DF di Y = g(X) . . . . . . . . . . . . . . . . .
4.2.3 Calcolo della pdf di Y = g(X) . . . . . . . . . . . . . . . . .
4.3 Problema inverso: determinazione di g(x) . . . . . . . . . . . . . .
4.3.1 Generazione di una variabile aleatoria con CDF assegnata
4.3.2 Generazione automatica di numeri casuali . . . . . . . . .
4.3.3 Algoritmo middle-square (Von Neumann) . . . . . . . .
4.3.4 Algoritmo lineare congruente . . . . . . . . . . . . . . . . .
4.3.5 Test statistici sui generatori . . . . . . . . . . . . . . . . .
Caratterizzazione sintetica di una variabile aleatoria
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Media di una variabile aleatoria . . . . . . . . . . . . . . . . .
5.2.1 Teorema fondamentale della media . . . . . . . . . .
5.2.2 Propriet`a della media . . . . . . . . . . . . . . . . . .
5.3 Varianza e valor quadratico medio di una variabile aleatoria
5.3.1 Propriet`a della varianza . . . . . . . . . . . . . . . . .
5.4 Momenti di una variabile aleatoria . . . . . . . . . . . . . . .
5.4.1 Relazione tra momenti e momenti centrali . . . . . .
5.5 Disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

53
53
56
57
59
61
62
64
65
67
69
70
70
75

.
.
.
.
.
.
.
.
.
.
.
.

81
81
82
83
83
89
90
95
98
102
102
103
105

.
.
.
.
.
.
.
.
.

109
109
109
113
114
114
117
119
120
122

INDICE
6

iii

Coppie di variabili aleatorie


6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Funzione di distribuzione cumulativa (CDF) congiunta
6.2.1 Propriet`a della CDF congiunta . . . . . . . . . .
6.3 Funzione densit`a di probabilit`a (pdf) congiunta . . . .
6.3.1 Propriet`a della pdf congiunta . . . . . . . . . . .
6.4 Funzione di distribuzione di probabilit`a (DF) congiunta
6.5 Statistiche congiunte e marginali . . . . . . . . . . . . .
6.6 Indipendenza per coppie di variabili aleatorie . . . . .
6.7 Trasformazioni di coppie di variabili aleatorie . . . . .
6.7.1 Trasformazione 21 . . . . . . . . . . . . . . . .
6.7.2 Trasformazione 22 . . . . . . . . . . . . . . . .
6.7.3 Metodo della variabile ausiliaria . . . . . . . . .
6.8 Variabili aleatorie complesse . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

127
127
128
129
130
131
133
134
138
141
141
143
147
150

Caratterizzazione sintetica di una coppia di variabili aleatorie


7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Teorema fondamentale della media per una coppia di variabili aleatorie
7.3 Momenti congiunti di una coppia di variabili aleatorie . . . . . . . . . .
7.4 Misure di correlazione di una coppia di variabili aleatorie . . . . . . . . .
7.4.1 Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.2 Spazio vettoriale di variabili aleatorie . . . . . . . . . . . . . . . .
7.4.3 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.4 Coefficiente di correlazione . . . . . . . . . . . . . . . . . . . . . .
7.4.5 Incorrelazione tra due variabili aleatorie . . . . . . . . . . . . . . .
7.5 Stima lineare a minimo errore quadratico medio . . . . . . . . . . . . .
7.5.1 Principio di ortogonalit`a . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

153
153
153
155
156
156
156
158
159
161
162
164

Vettori di variabili aleatorie


8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Caratterizzazione statistica di n variabili aleatorie . . . . . . . . . . .
8.2.1 Funzione di distribuzione cumulativa (CDF) . . . . . . . . . .
8.2.2 Funzione densit`a di probabilit`a (pdf) . . . . . . . . . . . . . .
8.2.3 Funzione di distribuzione di probabilit`a (DF) . . . . . . . . . .
8.2.4 Propriet`a delle distribuzioni congiunte di n variabili aleatorie
8.3 Trasformazioni di n variabili aleatorie . . . . . . . . . . . . . . . . . .
8.4 Indipendenza per n variabili aleatorie . . . . . . . . . . . . . . . . . .
8.5 Momenti di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . .
8.5.1 Vettore delle medie . . . . . . . . . . . . . . . . . . . . . . . . .
8.5.2 Matrice di correlazione . . . . . . . . . . . . . . . . . . . . . . .
8.5.3 Matrice di covarianza . . . . . . . . . . . . . . . . . . . . . . .
8.5.4 Incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie

.
.
.
.
.
.
.
.
.
.
.
.
.
.

167
167
167
168
168
169
169
170
173
175
176
177
178
179
183

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

iv

INDICE
8.6.1
8.6.2
9

Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . 183


Teorema limite fondamentale . . . . . . . . . . . . . . . . . . . . . . 187

Distribuzioni e medie condizionali


9.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Distribuzioni condizionali per una variabile aleatoria . . . . . . .
9.2.1 Funzione di distribuzione cumulativa (CDF) condizionale
9.2.2 Funzione densit`a di probabilit`a (pdf) condizionale . . . . .
9.2.3 Funzione distribuzione di probabilit`a (DF) condizionale .
9.2.4 Teorema della probabilit`a totale per CDF, pdf, DF . . . . .
9.2.5 Probabilit`a a posteriori di un evento . . . . . . . . . . . .
9.2.6 Probabilit`a a posteriori dato X = x . . . . . . . . . . . . .
9.2.7 Teorema della probabilit`a totale (versione continua) . . .
9.2.8 Teorema di Bayes per le pdf . . . . . . . . . . . . . . . . .
9.3 Distribuzioni condizionali per coppie di variabili aleatorie . . . .
9.3.1 Distribuzioni condizionali dato X = x ed Y = y . . . . . .
9.4 Distribuzioni condizionali per vettori di variabili aleatorie . . . .
9.4.1 Indipendenza condizionale e regola della catena per le pdf
9.5 Media condizionale e momenti condizionali . . . . . . . . . . . . .
9.5.1 Teorema della media condizionale . . . . . . . . . . . . . .

10 Elementi di teoria dellinformazione


10.1 Introduzione . . . . . . . . . . . . . . . . . . . .
10.2 Misura dellinformazione ed entropia . . . . .
10.2.1 Autoinformazione . . . . . . . . . . . .
10.2.2 Entropia . . . . . . . . . . . . . . . . . .
10.2.3 Propriet`a dellentropia . . . . . . . . . .
10.2.4 Entropia congiunta . . . . . . . . . . . .
10.3 Sorgenti di informazione . . . . . . . . . . . . .
10.3.1 Tasso dentropia di una sorgente . . . .
10.3.2 Sorgenti discrete senza memoria (DMS)
10.4 Codifica di sorgente . . . . . . . . . . . . . . . .
10.5 Codici per la compattazione dati . . . . . . . .
10.5.1 Codici a lunghezza fissa . . . . . . . . .
10.5.2 Codici a lunghezza variabile . . . . . .
10.5.3 Codici univocamente decifrabili . . . .
10.5.4 Codici a prefisso . . . . . . . . . . . . .
10.5.5 Condizioni per lunivoca decifrabilit`a .
10.6 Efficienza di codifica . . . . . . . . . . . . . . .
10.6.1 Codici di Shannon . . . . . . . . . . . .
10.6.2 Primo teorema di Shannon . . . . . . .
10.6.3 Efficienza dei codici a lunghezza fissa .
10.7 Codici di Huffmann . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

191
191
191
191
193
194
197
198
199
201
202
202
205
207
208
209
211

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

217
217
219
220
221
222
223
225
225
226
228
229
230
230
231
231
233
235
236
239
240
241

INDICE

A Fattoriale e coefficiente binomiale


247
A.1 Fattoriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
A.2 Coefficiente binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
A.3 Espansioni binomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
B La funzione G(x)

251

C Limpulso di Dirac

255

Bibliografia

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

259

vi

INDICE

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 1
Probabilit`a elementare
1.1

Introduzione

La teoria della probabilit`a e` uno strumento matematico utile per lo studio dei cosiddetti
fenomeni aleatori, che sono fenomeni complessi o di difficile modellizzazione, che tuttavia presentano una qualche forma di regolarit`a, ed il cui comportamento puo` essere
descritto solo attraverso opportune grandezze globali o medie.
Per esempio, il lancio di una moneta su un tavolo e` un fenomeno fisico che puo` essere certamente descritto in termini delle equazioni matematiche tipiche della cinematica
e della dinamica; tuttavia e` estremamente difficile, se non praticamente impossibile, pur
supponendo di conoscere esattamente la forma, il peso, la quantit`a di moto iniziale della moneta, le caratteristiche del tavolo, e ogni altro parametro del problema, prevedere
` la nostra
quale faccia della moneta si manifester`a in un singolo lancio. Nonostante cio,
intuizione ci dice che se lanciamo la moneta (supposta non truccata) un numero sufficientemente elevato di volte, la percentuale di volte che si presenter`a la faccia testa o la
faccia croce sar`a prossima al 50%. Quindi, pur non essendo possibile prevedere il risultato di un singolo lancio, riconosciamo che il fenomeno aleatorio presenta una qualche
forma di regolarit`a se si considera un numero elevato di lanci o ripetizioni dellesperimento. La teoria della probabilit`a si occupa proprio di individuare, studiare e modellare tali
regolarit`a.1
Un altro esempio di fenomeno aleatorio e` un fluido gassoso, composto da un numero elevato di particelle in moto casuale. E` praticamente impossibile descrivere il
comportamento del gas descrivendo il comportamento di ogni particella che lo compone; tuttavia laggregato delle particelle tende ad esibire propriet`a regolari: ad esempio,
la pressione del gas stesso e` una quantit`a perfettamente definita e misurabile. La disci1

Lesempio del lancio di una moneta non e` scelto a caso: per lungo tempo, una delle principali applicazioni della teoria della probabilit`a e` stato il calcolo delle percentuali di vittoria o di sconfitta per i piu`
comuni giochi dazzardo (lancio di dadi, roulette, poker, etc.).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Probabilit`a elementare
plina che studia il comportamento dei gas con un approccio basato sulla teoria della
probabilit`a prende il nome di meccanica statistica.
Altri fenomeni aleatori che possono essere utilmente modellati attraverso la teoria
della probabilit`a sono, ad esempio, larrivo di utenti ad uno sportello di una banca,
nel quale e` impossibile prevedere con esattezza listante di arrivo di ciascun utente, ma
il comportamento globale dellinsieme degli utenti (ad esempio, la lunghezza media
della coda allo sportello) puo` essere modellato con una certa esattezza. In un ambito
completamente differente, gli arrivi possono essere le telefonate che giungono ad una
centrale telefonica, e la teoria della probabilit`a puo` servire a dimensionare opportunamente il numero di linee di tale centrale. Lapplicazione della teoria della probabilit`a
a tali problemi ha determinato la nascita di una disciplina denominata teoria delle code,
ampiamente utilizzata nellanalisi e nel progetto delle reti di telecomunicazioni.
In ambito economico, la teoria della probabilit`a e` stata utilizzata con successo per
modellare aggregati composti da un gran numero di soggetti economici, quali ad esempio i mercati nei quali avvengono le transazioni di borsa. Se infatti e` impossibile prevedere con esattezza il comportamento del singolo investitore, tuttavia il comportamento globale di un gran numero di investitori tende ad esibire regolarit`a che rendono
possibile una descrizione basata sui modelli della teoria della probabilit`a.
Un altro campo nel quale la teoria della probabilit`a trova unimportante applicazione e` lelaborazione e la trasmissione dellinformazione; bisogna infatti osservare che, per
sua natura, il concetto di informazione e` intrinsecamente legato a quello di impredicibilit`a. Ad esempio, laffermazione stanotte far`a buio non convoglia nessuna informazione, semplicemente perch`e e` una affermazione certa. Viceversa, una affermazione
poco probabile, quale domani il pianeta Terra sar`a invaso dai marziani convoglia una
grande quantit`a di informazione, perche poco probabile. La disciplina che studia i problemi associati allinformazione con approccio probabilistico prende il nome di teoria
dellinformazione; alcuni aspetti basilari di tale disciplina saranno introdotti e discussi
nel capitolo 10.
Abbiamo fornito alcuni esempi, certamente non esaustivi, di applicazione della teoria della probabilit`a, che dovrebbero evidenziare lampia portata e la rilevanza di tale
disciplina. Siamo adesso pronti a porre le basi di tale teoria, che ha un forte contenuto
matematico, ma che cercheremo di trattare in modo semplice, e con continuo ricorso ad
esempi. In particolare, prima di addentrarci nel vivo delle studio della teoria della probabilit`a, richiamiamo brevemente alcuni concetti della teoria degli insiemi, che peraltro
dovrebbero essere gi`a noti al lettore, principalmente per familiarizzare con la notazione
che utilizzeremo nel seguito.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.2 Richiami di teoria degli insiemi

A
A

A
Fig. 1.1. Linsieme B e` sottoinsieme dellinsieme A (B A).

1.2

Fig. 1.2. Il complemento A = A di un


insieme A (in grigio).

Richiami di teoria degli insiemi

Un insieme A e` una collezione di oggetti, chiamati elementi dellinsieme. Un insieme puo`


essere definito per enumerazione, vale a dire specificando in dettaglio i suoi elementi,
per esempio A = {1 , 2 , . . . , n } o A = {bianco, rosso, verde}, oppure descrivendo
quali propriet`a devono possedere tali elementi, ad esempio 2 A = { R tali che
0}. Per indicare che e` un elemento di A, si usa la notazione A. Linsieme vuoto
e` linsieme che non contiene elementi.
Per agevolare la comprensione delle relazioni che coinvolgono gli insiemi, e` utile
ricorrere ad un particolare tipo di rappresentazione grafica, denominata diagramma di
Venn, nel quale gli insiemi sono rappresentati come porzioni del piano.
Un sottoinsieme B di A e` un insieme i cui elementi sono anche elementi di A (Fig.
1.1). Per indicare che B e` un sottoinsieme di A (ovvero e` incluso in A) si usa la notazione
B A. Se esiste almeno un elemento di A che non appartiene a B, B si dice sottoinsieme
proprio di A, e si indica B A (relazione di inclusione stretta). Si assume che linsieme
vuoto sia sottoinsieme di un qualunque insieme. Nella logica formale, la relazione di
inclusione corrisponde allimplicazione logica.
La differenza A B tra due insiemi e` linsieme che contiene gli elementi di A che
non appartengono a B.
Sia A un sottoinsieme di . Il complemento A di A (rispetto ad ) e` linsieme conteQui e nel seguito denotiamo con R linsieme dei numeri reali, con N linsieme dei numeri naturali
(interi positivi escluso lo zero), con Z linsieme dei numeri relativi (interi positivi e negativi, zero incluso).
2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Probabilit`a elementare

AB

AB

Fig. 1.3. Lunione A B di due insiemi (in


grigio).

Fig. 1.4. Lintersezione AB di due insiemi


(in grigio)

nente tutti gli elementi di che non appartengono ad A (Fig. 1.2), ovvero A = A.
Nella logica formale, il complemento corrisponde alloperazione di NOT.
Lunione o somma di due insiemi e` linsieme (Fig. 1.3). che contiene tutti gli elementi
di A, di B, o di entrambi. Lunione di due insiemi si denota con A B oppure A +
B, e gode delle propriet`a commutativa e associativa. Nella logica formale, lunione
corrisponde alloperazione di OR (non esclusivo).
Lintersezione o prodotto di due insiemi e` linsieme (Fig. 1.4). che contiene tutti gli
elementi comuni ad A e B. Lintersezione di due insiemi si denota con A B oppure
AB, e gode delle propriet`a commutativa, associativa e distributiva rispetto allunione.
Nella logica formale, lintersezione corrisponde alloperazione di AND.
Le operazioni di unione ed intersezione possono essere estese a piu` di due insiemi,
ed anche al caso di infiniti insiemi.
Due insiemi A e B si dicono mutuamente esclusivi o disgiunti se A B = . Piu`
insiemi A1 , A2 , . . . si dicono mutuamente esclusivi o disgiunti se Ai Aj = per ogni
i = j. Dati n insiemi A1 , A2 , . . . , An mutuamente esclusivi, si dice che essi costituiscono
una partizione di se nk=1 Ak = .
La cardinalit`a card(A) di un insieme A e` il numero degli elementi di A. Se A contiene
infiniti elementi, card(A) = . La cardinalit`a di un insieme infinito puo` essere infinita
numerabile o infinita continua; si dice numerabile se comunque gli infiniti elementi di
A si possono porre in corrispondenza biunivoca con linsieme N dei numeri naturali,
altrimenti si dir`a continua. Ad esempio, linsieme A dei numeri non negativi e pari e`
un insieme con cardinalit`a infinita numerabile; viceversa linsieme A = [0, 1] = {x
R tali che 0 x 1} e` un insieme con cardinalit`a infinit`a continua. E facile verificare

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.3 Definizioni preliminari di probabilit`a

che la cardinalit`a gode delle seguenti propriet`a:


1. se A, B sono mutuamente esclusivi, allora card(A + B) = card(A) + card(B);
2. in generale, se A, B non sono mutuamente esclusivi, si ha card(A + B) = card(A) +
card(B) card(AB);
3. se A B, allora card(A) card(B);
4. card() = 0;
Le leggi di de Morgan, utilizzate anche nella logica formale, mettono in relazione tra loro
le operazioni di unione, intersezione e complementazione:
AB =AB,

(1.1)

AB =AB.

(1.2)

Tali leggi possono essere estese anche allunione e allintersezione di uninfinit`a numerabile di insiemi.

1.3

Definizioni preliminari di probabilit`a

Iniziamo introducendo i concetti basilari di esperimento, spazio campione, ed evento.


Definizione (esperimento). Un esperimento e` una procedura sperimentale
con un ben definito insieme di possibili risultati.
 Esempio 1.1. Un possibile esperimento e` il lancio di una moneta, con risultati convenzionalmente denominati testa (T ) e croce (C); oppure il lancio di un dado, con
possibili risultati una faccia marcata con un numero intero tra uno e sei; oppure ancora
lestrazione di un numero al gioco del lotto, con possibili risultati un numero intero tra
1 e 90.

Definizione (spazio campione). Lo spazio campione = {1 , 2 , . . . , n , . . . }
(finito o infinito) associato ad un esperimento e` linsieme dei possibili risultati
dellesperimento.
 Esempio 1.2. Nel lancio di una moneta lo spazio campione e` = {T, C}; nel lancio di
un dado, lo spazio campione e` = {1, 2, 3, 4, 5, 6}; nellestrazione di un numero al lotto,
lo spazio campione e` = {1, 2, . . . , 89, 90}.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Probabilit`a elementare
Definizione (evento). Dato uno spazio campione , si dice evento un
qualunque sottoinsieme A di .

 Esempio 1.3. Nel lancio di una moneta un possibile evento e` A = {T } (evento elementare, costituito da un solo elemento); nel lancio di un dado, un possibile evento
e` A = {pari} = {2, 4, 6}; nellestrazione di un numero al lotto, un possibile evento e`
A = {minore di 10} = {1, 2, 3, . . . , 9}.

Supponiamo allora di effettuare lesperimento e di ottenere il risultato : diremo
allora che si e` verificato levento A se A. Allo stesso modo, diremo che:
- non si e` verificato levento A, se A o, equivalentemente, se A;
- si sono verificati gli eventi A e B, se A B;
- si e` verificato levento A oppure B, se A B (gli eventi A e B potrebbero
verificarsi anche entrambi, ovvero lOR non e` esclusivo).
Ad esempio, poich`e sempre, levento (evento certo) si verifica ad ogni prova,
mentre levento (evento impossibile) non si verifica in nessuna prova.
Possiamo adesso introdurre i concetti di spazio degli eventi ed una prima definizione
di probabilit`a. Per spazio degli eventi intendiamo linsieme B di tutti gli eventi di interesse
(`e una collezione di insiemi). La probabilit`a e` una funzione P definita sullo spazio degli
eventi B e a valori in [0, 1]:
P : A B P (A) [0, 1] .
A questo punto sorge un problema fondamentale: dato un qualsiasi esperimento, e`
abbastanza semplice identificare in maniera non ambigua lo spazio campione , gli
eventi A, lo spazio dei possibili eventi B. Ma come e` possibile specificare la legge di
probabilit`a? Vediamo un semplice esempio.
 Esempio 1.4. Consideriamo il lancio di una moneta, il cui spazio campione denotiamo
con = {T, C}. Come spazio degli eventi, consideriamo B = {{T }, {C}, {T, C}, {}},
ovvero linsieme contenente tutti i sottoinsiemi di che, per un insieme con n elementi,
sono in numero pari a 2n . 3 Possiamo assegnare la probabilit`a a tutti gli eventi di B nel
3

Tale risultato si puo` facilmente motivare, se pensiamo che individuare un particolare sottoinsieme
di , che ha n elementi, equivale a costruire una stringa di n bit, nella quale ai simboli 0 si associa la
mancanza nel sottoinsieme dellelemento di corrispondente, mentre ai simboli 1 si associa la sua presenza. Poich`e e` possibile costruire 2n distinte stringhe di n bit, tale sar`a il numero dei distinti sottoinsiemi
di .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.4 Probabilit`a assiomatica

seguente modo:
P ({T }) = P ({C}) = 1/2, per simmetria;
P ({T, C}) = 1,
evento certo;
P ({}) = 0,
evento impossibile.
In questo caso, allora, abbiamo assegnato un valore numerico di probabilit`a ad un
qualunque evento dello spazio degli eventi.

Nel semplice esempio precedente una plausibile legge di probabilit`a si e` ottenuta sulla
base di considerazioni intuitive e per motivi di simmetria. Tuttavia, per trattare casi piu`
complicati e` necessario ricorrere ad un approccio sistematico. In particolare, e` possibile
introdurre degli assiomi o dei postulati4 a cui deve soddisfare una legge di probabilit`a;
questa strada e` quella seguita dallapproccio assiomatico, introdotto dal matematico russo
A. N. Kolmogorov (19031987), ed e` quella ritenuta piu` soddisfacente dal punto di vista
matematico. Tuttavia, lapproccio assiomatico soffre di una limitazione fondamentale, e
cio`e che si tratta di un approccio incompleto, come discuteremo piu` approfonditamente
nel seguito.

1.4

Probabilit`a assiomatica

Per costruire una legge di probabilit`a secondo lapproccio assiomatico dobbiamo richiedere qualche propriet`a particolare allo spazio B degli eventi di interesse. In particolare,
dobbiamo richiedere che B possieda la struttura algebrica di campo o, piu` precisamente,
di -campo o campo di Borel.

1.4.1 Campi e -campi (campi di Borel)


Iniziamo col definire il concetto di campo.
Definizione (campo). Un campo B di eventi e` una collezione non vuota di
eventi che soddisfa le seguenti propriet`a:
1. A B A B

(chiusura rispetto al complemento);

2. A, B B A B B

(chiusura rispetto allunione).

Sulla base delle propriet`a 12, e` facile dimostrare che, se B e` un campo, si ha:
4

Ricordiamo che, in una teoria formale, un assioma o un postulato e` unasserzione che non devessere
dimostrata. Ad esempio, lassioma fondamentale della geometria euclidea e` il cosiddetto assioma delle
rette parallele: per un punto non appartenente ad una retta, passa una ed una sola retta parallela alla retta
data.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Probabilit`a elementare
1 . , B.
Prova. Infatti, poich`e B e` non vuoto, contiene almeno un elemento A A B (per la propriet`a 1)
A A = B (per la propriet`a 2) = B (per la propriet`a 1).

2 . se A, B B, allora A B B.
Prova. Se A, B B A, B B (per la propriet`a 1) A B B (per la propriet`a 2) A B B
(per la propriet`a 1). Ma A B = A B per le leggi di de Morgan.

Lapplicazione ripetuta delle propriet`a 2 e 2 mostra che ogni insieme che possa essere
espresso come unione e/o intersezione di un numero finito di elementi di B appartiene
anchesso ad B. Tale propriet`a non rimane valida, tuttavia, se si considera un numero
infinito di insiemi, che e` un caso di interesse nella teoria della probabilit`a. E allora necessario estendere il concetto di campo al caso di infiniti insiemi, definendo il cosiddetto
-campo o campo di Borel.
Definizione (-campo o campo di Borel). Un -campo B o campo di Borel di
eventi e` un campo che soddisfa, oltre alle propriet`a 1 e 2, anche la seguente:

3. {Ai }
i=1 B i=1 Ai B (chiusura rispetto allunione numerabile).

Applicando le leggi di de Morgan e` facile verificare che anche


i=1 Ai appartiene a B
(chiusura rispetto allintersezione numerabile).
Notiamo poi che poich`e e devono necessariamente appartenere ad B, ne segue
che B = {, } e` il piu` semplice -campo che posso costruire e prende il nome di campo
di Borel banale.
Osserviamo in conclusione che la distinzione tra campo e -campo e` significativa se
il numero di eventi possibili e` infinito, il che puo` accadere solo se lo spazio campione
ha infiniti elementi. Viceversa, se lo spazio campione ha un numero n finito di
elementi, linsieme B costituito da tutti i 2n sottoinsiemi di B e` sicuramente un campo
(e anche un -campo), poich`e contiene tutti i possibili sottoinsiemi di . In generale
linsieme di tutti i possibili sottoinsiemi e` sempre un -campo, tuttavia se e` infinito
continuo tale -campo potrebbe essere un insieme troppo ampio per definire una valida
legge di probabilit`a su di esso. Approfondiremo meglio questo concetto nel 1.6.2.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.4 Probabilit`a assiomatica

1.4.2 Assiomi di Kolmogorov


A questo punto abbiamo introdotto le definizioni preliminari e siamo in grado di fornire
una definizione assiomatica di probabilit`a.
Definizione (probabilit`a assiomatica). Assegnato uno spazio campione ed
un -campo B di eventi di , si definisce probabilit`a una funzione P definita in B e a valori in [0, 1], tale da soddisfare i seguenti tre assiomi (assiomi di
Kolmogorov):
I. P (A) 0 per ogni A B (assioma di non negativit`a);
II. P () = 1 (assioma di normalizzazione);
` una successione di eventi 
III. Se {Ai }
mutuamente esclusivi (Ai Aj =
i=1 e

, i = j) di B, allora P (i=1 Ai ) =
i=1 P (Ai ) (assioma di numerabile
additivit`a).
Lintera teoria della probabilit`a discende dai precedenti assiomi in maniera deduttiva.

1.4.3 Propriet`a elementari della probabilit`a


A partire dagli assiomi di Kolmogorov, applicando semplici concetti di teoria degli
insiemi, e` possibile ricavare le seguenti propriet`a elementari della probabilit`a.
1. P () = 0.
Prova. Scegliendo A1 = e Ai = , i > 1 (tali Ai risultano chiaramente mutuamente esclusivi),
risulta
i=1 Ai = + = . Per lassioma III allora si ha:
P () = P (
i=1 Ai ) =


i=1

P (Ai ) = P () +

P ()

i=2

da cui risulta necessariamente P () = 0.

2. A, B B, A B = P (A B) = P (A) + P (B) (finita additivit`a).


Prova. Segue dallassioma III e dalla propriet`a 1, scegliendo A1 = A, A2 = B, Ai = , i > 2.

3. P (A) = 1 P (A), A B.
Prova. Poich`e A A = e A A = , per la propriet`a 2 e per lassioma II si ha:
P (A A) = P (A) + P (A) = P () = 1 P (A) = 1 P (A) .


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10

Probabilit`a elementare
4. P (A B) = P (A) + P (B) P (A B).
Prova. Utilizzando i diagrammi di Venn (Fig. 1.5) e` facile verificare che:
A B = A AB
con A e AB mutuamente esclusivi. Allo stesso modo (Fig. 1.5, si ha:
B = S B = (A + A) B = A B A B
con A B e A B mutuamente esclusivi. Applicando la propriet`a 2 si ha:
P (A B) = P (A) + P (AB) ,
P (B) = P (AB) + P (AB) .
Eliminando P (AB) tra le due equazioni si ottiene il risultato.

Notiamo che P (A B) P (A) + P (B) perch`e P (A B) 0. Si ha uguaglianza se


e solo se P (A B) = 0 (eventi mutuamente esclusivi).
5. B A P (B) P (A).
Prova. Utilizzando i diagrammi di Venn (Fig. 1.6) e` facile verificare che, se B A, si ha:
A = B AB
con B e A B mutuamente esclusivi. Per la propriet`a 2 si ha:
P (A) = P (B A B) = P (B) + P (AB) P (B) P (A)
perch`e P (A B) 0.

6. P (A) 1, A B.
Prova. Segue direttamente dalla propriet`a precedente e dallassioma II scegliendo B = .

In sostanza, per definire una legge di probabilit`a, occorre specificare: 1) uno spazio
campione ; 2) un -campo B di eventi di ; 3) una funzione P definita su B e a valori in [0, 1] che soddisfi gli assiomi I-III di Kolmogorov. La terna (, B, P ) prende il
nome di spazio di probabilit`a. Si noti che, nellapproccio assiomatico, tutta la teoria della
probabilit`a viene costruita in maniera deduttiva a partire dagli assiomi di Kolmogorov.
 Esempio 1.5. Riprendiamo lesempio del lancio di una moneta. Abbiamo definito lo
spazio campione = {T, C} ed il -campo B = {{T }, {C}, {T, C}, {}}. Per definire
una legge di probabilit`a bisogna allora assegnare le probabilit`a agli eventi. A tale scopo
e` sufficiente assegnare le probabilit`a ai cosiddetti eventi elementari {T } e {C}. Una scelta
ragionevole e` :
P ({T }) = P ({C}) = 1/2 ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.5 Altri approcci alla teoria della probabilit`a

AB

11

AB

AB

Fig. 1.5. Diagramma di Venn delle relazioni A B = A AB e B = A B


A B.

Fig. 1.6. Diagramma di Venn della relazione A = B A B (valida se B


A).

tuttavia se assegniamo le probabilit`a come:


P ({T }) = 1/3 ,

P ({C}) = 2/3 ;

e` facile vedere che anche tale assegnazione soddisfa gli assiomi di Kolmogorov. Allora
qual e` la legge di probabilit`a corretta?

Lesempio precedente mette in luce la principale limitazione dellapproccio assiomatico
di Kolmogorov, ovvero il fatto che esso e` un sistema di assiomi incompleto, non consente
cio`e di determinare univocamente quali debbano essere le probabilit`a degli eventi. Come si fa allora a capire quale sia la legge di probabilit`a corretta? In pratica una volta
definita una legge di probabilit`a che soddisfa allapproccio assiomatico, si utilizza tale
legge per effettuare previsioni sullesperimento (ad esempio, per calcolare probabilit`a di
eventi piu` complessi a partire da probabilit`a di eventi semplici). Se le previsioni sono
accurate (validazione sperimentale) le probabilit`a ipotizzate sono corrette, altrimenti e`
necessario modificare la legge (i valori) di probabilit`a. Il processo si puo` iterare fino ad
avere un accordo soddisfacente tra valori teorici e valori sperimentali.

1.5

Altri approcci alla teoria della probabilit`a

Lapproccio assiomatico e` quello piu` recentemente proposto per la teoria della probabilit`a. Storicamente, nel corso degli anni, oltre allapproccio assiomatico si sono sviluppati
almeno altri due importanti approcci: lapproccio frequentista e lapproccio classico.5

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

12

Probabilit`a elementare

1.5.1 Approccio frequentista


Lapproccio frequentista, dovuto a R. E. von Mises (18831953), definisce la probabilit`a
di un evento nel seguente modo: se un esperimento e` ripetuto n volte e se levento A si
verifica nA volte, si definisce probabilit`a dellevento A il limite della frequenza di successo:
nA
.
n n

P (A) = lim

(1.3)

Lapproccio frequentista e` un approccio induttivo, cio`e un approccio che si basa (o vorrebbe basarsi) sullesperienza, e presenta il vantaggio innegabile di essere vicino al nostro concetto intuitivo di probabilit`a; tuttavia non e` del tutto soddisfacente per fornire
una definizione operativa di probabilit`a, perch`e non e` possibile ripetere un esperimento un numero infinito di volte. Inoltre, dal punto di vista teorico, lesistenza stessa del
limite nella (1.3) puo` essere messa in discussione.
E` interessante interpretare gli assiomi di Kolmogorov in senso frequentista, visto che
la nostra interpretazione intuitiva di probabilit`a e` proprio quella frequentista. Infatti, se
interpretiamo la probabilit`a come frequenza di successo dellevento A su n prove, cio`e
trascuriamo loperazione di limite nella (1.3), ponendo
P (A) =

nA
,
n

si ha:
I. P (A) 0, banalmente perch`e nA 0 ed n > 0;
II. P () = 1, perch`e n = n (levento certo si verifica ad ogni prova);
III. se A B = , allora nA+B = nA + nB perch`e non possono verificarsi entrambi
simultaneamente. Allora:
P (A + B) =

nA nB
nA+B
=
+
= P (A) + P (B) .
n
n
n

Si noti che abbiamo scritto il terzo assioma per semplicit`a nella forma finita, per evitare
lastrazione insita nel considerare infiniti eventi.
5

Non consideriamo qui, perch`e poco scientifico, lapproccio soggettivista, secondo il quale la probabilit`a esprime il grado di aspettativa soggettiva di un individuo relativamente al verificarsi di un
evento.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.5 Altri approcci alla teoria della probabilit`a

1.5.2 Approccio classico


Nellapproccio classico, dovuto a P. S. Laplace (17491827), la probabilit`a di un evento
si determina a priori come il rapporto
P (A) =

NA
,
N

dove N e` il numero dei possibili risultati dellesperimento ed NA e` il numero dei risultati


favorevoli allevento A.
 Esempio 1.6. Consideriamo il lancio di un dado, per il quale = {1, 2, 3, 4, 5, 6}. Sia
poi A = {pari} = {2, 4, 6}. Sulla base dellapproccio classico, risulta NA = card(A) = 3,
N = card() = 6, per cui P (A) = card(A)
= 12 .

card()
Lapproccio classico e` anchesso, come quello assiomatico, di tipo deduttivo, cio`e si fonda su postulati. Inoltre e` facile verificare che le leggi di probabilit`a costruite a partire
dallapproccio classico soddisfano gli assiomi di Kolmogorov. A prima vista, poi, lapproccio classico pare piu` soddisfacente dellapproccio assiomatico, in quanto mediante
esso e` possibile assegnare dei precisi valori alle probabilit`a. Tuttavia, i limiti insiti nelluso di tale approccio appaiono chiari se ragioniamo piu` approfonditamente sullesempio
precedente. Infatti, il valore di probabilit`a dellesempio precedente e` corretto a patto
che si assuma che il dado non sia truccato. E se viceversa assumessi il dado truccato? Secondo lapproccio classico, otterrei esattamente lo stesso valore di probabilit`a, il
che ovviamente non e` il risultato corretto, e rappresenta una grossa limitazione di tale
approccio. Potrei modificare la definizione classica richiedendo che i risultati da considerare siano equiprobabili, ma in questo modo userei il concetto di equiprobabilit`a per
definire il concetto di probabilit`a, cio`e ricadrei in un circolo vizioso o tautologico.

1.5.3 Vantaggi dellapproccio assiomatico


Tra i tre approcci (assiomatico, frequentista, classico) visti, quello assiomatico e` probabilmente il meno intuitivo, basandosi su concetti della teoria degli insiemi e sullintroduzione di una serie di assiomi cui deve soddisfare la definizione di probabilit`a. Nonostante il suo carattere poco intuitivo, e` lunico approccio che consente di definire matematicamente la teoria della probabilit`a in maniera soddisfacente ed elegante, evitando una serie di incongruenze ed inconsistenze tipiche dellapproccio frequentista e di
quello classico. In particolare, lintera teoria viene ad assumere un carattere puramente
deduttivo, discende cio`e in maniera logica e rigorosa dagli assiomi della probabilit`a cos`
come, ad esempio, la geometria euclidea discende dal postulato sul numero di rette parallele ad una retta data passanti per un punto. Per questo motivo, quello assiomatico

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

13

14

Probabilit`a elementare
e` stato riconosciuto dai matematici come lapproccio piu` soddisfacente alla teoria della
probabilit`a, e sar`a quello considerato nella trattazione che segue.
Tuttavia anche gli approcci frequentista e classico presentano alcuni vantaggi. In
sintesi, e` possibile affermare che:
lapproccio frequentista e` quello piu` vicino al nostro concetto intuitivo di probabilit`a, e spesso e` daiuto per interpretare intuitivamente i risultati ottenuti;
lapproccio classico serve ad assegnare i valori di probabilit`a in molti casi pratici (es. giochi, scommesse, etc.), in cui i risultati possibili si possono ritenere
equiprobabili;
lapproccio assiomatico e` quello piu` soddisfacente dal punto di vista formale (matematico), ma non consente di fissare univocamente i valori numerici delle probabilit`a da assegnare agli eventi (incompletezza).

1.6

Esempi di spazi di probabilit`a

Per concludere questo primo capitolo, consideriamo alcuni esempi di spazi di probabilit`a; per semplicit`a di trattazione, considereremo prima il caso piu` semplice di spazi di
probabilit`a discreti, e successivamente quello piu` astratto di spazi di probabilit`a continui.

1.6.1 Spazi di probabilit`a discreti


Sia = {1 , 2 , . . . , n , . . . } un insieme discreto, vale a dire di cardinalit`a finita o infinita
numerabile. In tal caso, e` possibile scegliere come -campo linsieme cos` definito:
B = {tutti i sottoinsiemi di , incluso} .
Osserviamo che A B si puo` esprimere come unione al piu` numerabile di eventi elementari {ij }, cio`e
A =
j=1 {ij } .
Poich`e gli eventi elementari sono mutuamente esclusivi, allora si ha, per lassioma III,
P (A) =

P ({ij }) .

j=1

Pertanto, per assegnare la probabilit`a di un qualunque evento A, e` sufficiente assegnare le probabilit`a degli eventi elementari pi  P ({i }), i , garantendo che, per

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.6 Esempi di spazi di probabilit`a

15

lassioma II,
P () =

P ({i }) =

i=1

pi = 1 .

(1.4)

i=1

Consideriamo il caso di un insieme di cardinalit`a finita (card() = N ): se e` possibile assumere gli eventi elementari equiprobabili (per motivi di simmetria o applicando
il cosiddetto principio di ragione insufficiente 6 ) risulta necessariamente, per la (1.4),
pi =

1
N

ed inoltre si ha, evidentemente,


P (A) =

card(A)
.
card()

(1.5)

Si osservi, peraltro, che tale risultato e` esattamente equivalente alla definizione di probabilit`a secondo lapproccio classico, che quindi puo` riguardarsi come lapplicazione
dellapproccio assiomatico a spazi campione finiti con eventi elementari equiprobabili, un caso tipico della teoria dei giochi e delle scommesse. Osserviamo inoltre esplicitamente che determinare la probabilit`a di un evento A secondo la (1.5) e` equivalente a
contare gli elementi di A e quelli di . Evidentemente, se card() = non e` possibile
assumere gli eventi equiprobabili, in quanto avrei P () = in tal caso!
In definitiva, la (1.5) mostra che in molti casi il calcolo delle probabilit`a di eventi si
riduce ad un problema puramente combinatorio, consistente cio`e nel contare gli elementi
di un insieme, problema semplice in linea di principio, ma la cui applicazione a casi
reali puo` giungere a notevoli livelli di complessit`a. Per problemi non troppo difficili, le
principali formule del calcolo combinatorio sono spesso
n sufficienti, e sono riportate in
Tab. 1.1. La definizione di coefficiente binomiale k e di fattoriale n!, insieme con le
principali propriet`a, sono riportate in Appendice A.
 Esempio 1.7. Consideriamo il lancio di una moneta. In tal caso lo spazio campione
e` = {T, C}, e come -campo B e` possibile scegliere linsieme di tutti i possibili sottoinsiemi di (pari a 22 = 4). Per assegnare la legge di probabilit`a, basta assegnare la
probabilit`a degli eventi elementari {T } e {C}. Per simmetria, poniamo:
P ({T }) = P ({C}) = 1/2
e le probabilit`a di tutti gli altri eventi in B si ricavano da queste.
6

Tale principio, noto anche come rasoio di Occam, dal nome del filosofo inglese William of Ockham
` stabilisce che, se si deve scegliere tra diverse ipotesi riguardanti un fenomeno,
(1280-1349) che lo formulo,
bisogna scegliere la piu` semplice.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

16

Probabilit`a elementare

senza sostituzione

con sostituzione

n!
(n k)!

nk

ordinate

 
n
k

non ordinate


n+k1
k

Tab. 1.1. Numero di possibili disposizioni di n oggetti su k posti.

 Esempio 1.8. Consideriamo il lancio di un dado, per il quale lo spazio campione e`


= {1, 2, 3, 4, 5, 6}, e come -campo B e` possibile scegliere linsieme di tutti i possibili
sottoinsiemi di (pari a 26 = 64). Per assegnare la legge di probabilit`a, basta assegnare la probabilit`a degli eventi elementari {1}, {2}, {3}, {4}, {5}, {6}. Per simmetria,
poniamo:
P ({1}) = P ({2}) = = P ({6}) = 1/6
e le probabilit`a di tutti gli altri eventi in B si ricavano da queste.

 Esempio 1.9. Consideriamo il lancio di due monete uguali, o di una moneta due volte.
In tal caso, lo spazio campione e` = {T T, T C, CT, CC}, e come -campo B e` possibile
scegliere linsieme di tutti i possibili sottoinsiemi di (pari a 24 = 16). Osserviamo che
levento
A = {esce testa al primo lancio}
non e` un evento elementare. Infatti:
A = {T T } {T C} .
Per assegnare la legge di probabilit`a basta assegnare la probabilit`a degli eventi elementari {T T }, {T C}, {CT }, {CC}. Per simmetria, poniamo:
P ({T T }) = P ({T C}) = P ({CT }) = P ({CC}) = 1/4
e le probabilit`a di tutti gli altri eventi in B si ricavano da queste. Ad esempio, per
levento A definito precedentemente, si ha:
P (A) = P ({T T }) + P ({T C}) = 1/4 + 1/4 = 1/2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.6 Esempi di spazi di probabilit`a

17

perch`e {T T } {T C} = (gli eventi elementari sono sempre mutuamente esclusivi) e


per lassioma III di Kolmogorov.


1.6.2 Spazi di probabilit`a continui 


Lo spazio 7 campione si dice continuo se ha una cardinalit`a infinita non numerabile,
ovvero se ha infiniti elementi, che pero` non si possono mettere in relazione biunivoca
con linsieme N dei numeri naturali. Esempi di spazi campione continui sono = R,
= (a, b), = R2 , = R3 . In pratica considereremo solo spazi continui che sono
sottoinsiemi dello spazio euclideo Rk .
Se e` continuo,8 non e` conveniente scegliere come -campo B linsieme di tutti i
sottoinsiemi di . Questultimo e` senzaltro un -campo, anzi e` il -campo piu` grande
che e` possibile concepire, ma si puo` dimostrare che e` impossibile costruire una valida
legge di probabilit`a (che soddisfi gli assiomi di Kolmogorov) su di esso. Lapproccio
corretto e` invece scegliere B come il piu` piccolo -campo che contiene tutti gli insiemi
aperti di .
 Esempio 1.10. Se = R, allora e` possibile definire B come il piu` piccolo -campo che
contiene tutti gli intervalli aperti ]a, b[ di . Si puo` facilmente verificare che complementando, unendo ed intersecando uninfinit`a numerabile di intervalli di questo tipo, si
ottengono tutti i tipi di intervalli [a, b], [a, b[, ]a, b], ]a, b[, cos` come i punti isolati {a}, e
tutti i loro complementi, unioni e intersezioni. Tuttavia e` possibile (anche se non immediato) costruire sottoinsiemi di che non stanno in B, e quindi B non contiene tutti i
sottoinsiemi di .
Per assegnare la legge di probabilit`a su , si considera una funzione reale f (x) 0
tale che

f (x) dx = 1
(1.6)

e si pone, per ogni A B,


P (A) = P ({x A}) 

f (x) dx .
A

Si puo` facilmente osservare che una tale legge di probabilit`a rispetta gli assiomi di

Kolmogorov. Infatti, P (A) 0 perch`e f (x) 0 (primo assioma); P () = f (x) dx =


1 per la (1.6) (secondo assioma); infine, se A e B sono insiemi disgiunti, si ha P (A B) =
P (A) + P (B) per ladditivit`a dellintegrale (terzo assioma).
Le sezioni contrassegnate dal simbolo  possono essere saltate ad una prima lettura.
Osserviamo che per definire rigorosamente leggi di probabilit`a su spazi continui sono necessari
concetti di teoria della misura (secondo Lebesgue).
7
8

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

18

Probabilit`a elementare
Notiamo che se A = [y, y + y] e se f (x) e` limitata, si ha:

lim P (A) = lim P ({y x y + y}) = P ({x = y}) = lim

y0

y0

y0

y+y

f (x) dx = 0 ,
y

quindi gli eventi elementari {x = y} hanno probabilit`a nulla. Questo risultato, apparentemente sorprendente, non e` in contrasto con lassioma di normalizzazione (P () = 1)
e con lassioma di numerabile additivit`a perch`e non e` numerabile.
Daltra parte, se f (x) e` continua, si ha anche:
 y+y
P (A) =
f (x) dx f (y) y
y

e si puo` porre allora


P (A)
,
y0 y

f (y) = lim

per cui la funzione f (y) si puo` interpretare come densit`a di probabilit`a. Notiamo che tale
densit`a di probabilit`a e` diversa da zero, anche se la probabilit`a dellevento {x = y} e`
nulla.

Nellesempio precedente, un punto non completamente chiaro e` la scelta della funzione
f (x). Anche qui emerge lincompletezza dellapproccio assiomatico, ovvero ogni funzione f (x) 0 che soddisfi la (1.6) definisce una valida legge di probabilit`a. Ma, se
vogliamo invocare il principio di ragione insufficiente, qual e` la scelta piu` semplice da
fare? A prima vista, sembrerebbe che, in mancanza di altre informazioni, scegliere f (x)
costante sia la cosa piu` semplice. Tale scelta non e` tuttavia lecita se non e` limitato,
perch`e una funzione costante e positiva avrebbe integrale infinito su un insieme non
limitato, e quindi non potrebbe soddisfare la (1.6). La scelta di una funzione costante
e` viceversa perfettamente legittima se e` limitato, ad esempio se = [x1 , x2 ], come
discusso nel seguente esempio.
 Esempio 1.11. Si consideri lesperimento consistente nellarrivo a caso di una telefonata ad una centrale telefonica nellintervallo [t1 , t2 ]. In tal caso, il risultato dellesperimento e` un numero reale x [t1 , t2 ], che rappresenta listante di arrivo della telefonata,
per cui lo spazio campione e` = [t1 , t2 ]. Come -campo, tenendo conto dellosservazione fatta nel precedente esempio, scegliamo il piu` piccolo -campo che contiene
tutti gli intervalli aperti ]a, b[ [t1 , t2 ]. Come legge di probabilit`a, in mancanza di altre
informazioni, scegliamo una funzione f (x) cos` definita:

, se x [t1 , t2 ];
f (x) =
0, altrimenti.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.6 Esempi di spazi di probabilit`a

19

Tale f (x) si dice uniforme in [t1 , t2 ]. Imponiamo ora che la (1.6) sia soddisfatta:
 t2
1
f (x) dx = 1 =
.
t2 t1
t1
In base a questa definizione, la probabilit`a che giunga una telefonata in un intervallo
A = [a, b] e` :
 b
1
ba
P (A) =
dx =
.
t2 t1 a
t2 t1
Osserviamo che, poich`e b a e` la misura dellintervallo [a, b], e t2 t1 e` la misura
dellintervallo = [t1 , t2 ], la probabilit`a P (A) si puo` interpretare come una misura
normalizzata:
P (A) =

misura(A)
.
misura()

Tale interpretazione della probabilit`a mostra i legami della teoria della probabilit`a con
la teoria della misura, e prende il nome di probabilit`a geometrica.

 Esempio 1.12 (problema dellincontro). Un esempio di spazio di probabilit`a continuo su
un sottoinsieme di R2 e` il cosiddetto problema dellincontro, una cui possibile formulazione e` la seguente: due amici, Tizio e Caio, si recano, per caso e indipendentemente
luno dallaltro, nello stesso bar nellintervallo [0, T ], e ciascuno si trattiene per t1 e t2
secondi.
Tale esperimento puo` essere descritto in termini probabilistici come segue. Il risultato dellesperimento e` una coppia ordinata di numeri (x, y), con x [0, T ] e y [0, T ],
dove x ed y rappresentano rispettivamente gli istanti di arrivo del primo e del secondo amico. Lo spazio campione e` allora il quadrato = [0, T ] [0, T ] R2 . Come
-campo, potremo scegliere il piu` piccolo -campo che contiene tutti i rettangoli aperti
A =]a, b[]c, d[. Come legge di probabilit`a, infine, in analogia al precedente esempio,
utilizzeremo la misura normalizzata, corrispondente a scegliere una densit`a di probabilit`a uniforme nel quadrato; se cio`e A e` un evento, ovvero e` un sottoinsieme del quadrato
appartenente ad B, e se misura(A) rappresenta la sua misura (unarea, in questo caso),
allora porremo:
P (A) =

misura(A)
,
misura()

dove misura() = misura(quadrato) = T 2 . Ad esempio, la probabilit`a che (x, y) A =


[a, b] [c, d] e` data da:
P (A) =

(b a)(d c)
.
T2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

20

Probabilit`a elementare

y=x + t1

T
T1

C
D
t1

y=x

t2

T2

t2

Fig. 1.7. Problema dellincontro: C = {x


y} rappresenta levento Tizio arriva prima
di Caio.

Fig. 1.8. Problema dellincontro: D = {x


t2 y x + t1 } rappresenta levento
Tizio e Caio si incontrano.

Una volta individuato un corretto modello probabilistico, possiamo affrontare il calcolo della probabilit`a di un qualsiasi evento, e data la definizione della probabilit`a come misura normalizzata, il calcolo si puo` effettuare utilizzando semplici considerazioni
geometriche.
Ad esempio, sia C il seguente evento: Tizio arriva prima di Caio. In termini numerici, risulta evidentemente C = {x y}, per cui levento C e` il triangolo rappresentato
in Fig. 1.7. Si ha allora:
P (C) =

1
T 2 /2
misura(C)
= .
=
2
misura()
T
2

Calcoliamo adesso la probabilit`a dellevento D definito come segue: Tizio e Caio si


incontrano. Evidentemente, cio` si verifica se:
arriva prima Tizio, e risulta y x + t1 ;
arriva prima Caio, e risulta x y + t2 .
Le due disuguaglianze si possono scrivere come lunica disuguaglianza x t2 y
x + t1 , per cui levento D e` rappresentato in Fig. 1.8. Larea del dominio D si ottiene
facilmente per sottrazione, in quanto si ha:
misura(D) = misura() misura(T1 ) misura(T2 )

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.6 Esempi di spazi di probabilit`a

21

e le aree dei triangoli T1 e T2 sono:


(T t1 )2
,
2
(T t2 )2
misura(T2 ) =
,
2

misura(T1 ) =

da cui sostituendo si ha il risultato finale:


misura(D)
t1 + t2
P (D) =
=

misura()
T

t21 + t22
2T2


.

Ad esempio, se T = 60 (minuti) e t1 = t2 = 5 (minuti), si ha P (D) 0.139.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

22

Probabilit`a elementare

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 2
Probabilit`a condizionale e indipendenza
2.1

Introduzione

Nel precedente capitolo abbiamo introdotto le basi della teoria della probabilit`a, ed in
particolare abbiamo visto come calcolare la probabilit`a di un evento A appartenente
ad uno spazio di probabilit`a (, B, P ), o di unioni, complementazioni e intersezioni di
piu` eventi. Tuttavia, anche nelle relazioni che coinvolgono piu` eventi di uno spazio di
probabilit`a, non abbiamo approfondito le relazioni di dipendenza o indipendenza tra tali
eventi. Approfondiremo tale analisi nel corso di questo capitolo, introducendo dapprima il concetto di probabilit`a condizionale, che costituisce il punto di partenza delle nostre
considerazioni.

2.2

Probabilit`a condizionale

Siano A e B due eventi di uno spazio di probabilit`a (, B, P ). Vogliamo mettere in relazione, in senso probabilistico, gli eventi A e B, introducendo una misura dellincertezza
residua su A sapendo che B si e` verificato. Tale misura e` fornita dalla cosiddetta probabilit`a
condizionale di A dato B, definita nel modo seguente:
Definizione (probabilit`a condizionale). Sia (, B, P ) uno spazio di probabilit`a, e siano A, B B due eventi, con P (B) = 0. La probabilit`a condizionale (o
condizionata) di A dato B e` :
P (A|B) =

P (AB)
.
P (B)

(2.1)

Ricordiamo che, nella (2.1), AB rappresenta lintersezione A B.


 Esercizio 2.1. In un lancio di un dado ben equilibrato, calcolare la probabilit`a che esca
6 sapendo che (dato che) e` uscito un numero pari.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

24

Probabilit`a condizionale e indipendenza


Svolgimento. Definiamo come al solito lo spazio campione = {1, 2, 3, 4, 5, 6}, e gli
eventi A = {6}, B = {pari} = {2, 4, 6}. Assumendo gli eventi elementari equiprobabili,
si ha:
P (A) = 1/6 ,
P (B) = 3/6 = 1/2 ,
P (AB) = P (A) = 1/6 ,
1/6
= 1/3 .
P (A|B) =
1/2
Si noti che P (A|B) > P (A), cio`e e` aumentata la probabilit`a che esca 6 se sappiamo che
e` uscito un numero pari, come e` naturale.

Il concetto espresso nel precedente esercizio si puo` formalizzare come segue:
se P (A|B) > P (A), allora A e` attratto da B.
se P (A|B) < P (A), allora A e` respinto da B.
se P (A|B) = P (A), A e` indifferente a B; in questo caso vedremo nel seguito (cfr.
2.3) che A e B sono statisticamente indipendenti.
 Esempio 2.1. Dati gli eventi A = {oggi piove} e B = {oggi e` estate}, si ha che P (A|B) <
P (A) cio`e diminuisce la probabilit`a che oggi piova se so che e` estate. Se viceversa
B = {oggi e` inverno} ho che P (A|B) > P (A) cio`e aumenta la probabilit`a che oggi
piova se so che e` inverno.

Dalla definizione (2.1), il lettore puo` facilmente dimostrare che:
1. se B A, allora P (A|B) = 1; infatti, poich`e B implica A, se sappiamo che si e`
verificato B allora siamo certi che si sia verificato anche A;
P (A)
P (A); in tal caso, e` A ad implicare B (e non
P (B)
viceversa), e quindi se sappiamo che si e` verificato B non possiamo affermare con
certezza che si sia verificato anche A; tuttavia, la probabilit`a P (A|B) che A si sia
verificato dato B e` non inferiore alla probabilit`a P (A) che A si sia verificato se non
abbiamo nessuna informazione su B.

2. se A B, allora P (A|B) =

E interessante notare che, per un fissato B, la probabilit`a condizionale definisce una


vera e propria legge di probabilit`a su B, in quanto gli assiomi di Kolmogorov risultano soddisfatti. Pertanto tutti i risultati e le propriet`a validi per le probabilit`a valgono
ugualmente anche per le probabilit`a condizionali.
Prova. Per provarlo, verifichiamo che, dato B con P (B) = 0, la P (|B) soddisfa gli assiomi di Kolmogorov. Si ha:

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.2 Probabilit`a condizionale

25

I. P (A|B) 0, A B banalmente;
II. P (|B) =

P (B)
P ( B)
=
= 1;
P (B)
P (B)

III. Se A1 ed A2 sono mutuamente esclusivi:


P (A1 A2 |B) =

P (A1 B A2 B)
P [(A1 A2 )B]
=
.
P (B)
P (B)

Ma A1 B ed A2 B sono anchessi mutuamente esclusivi (Fig. 2.1) per cui:


P (A1 A2 |B) =

P (A1 B) + P (A2 B)
= P (A1 |B) + P (A2 |B) .
P (B)

Similmente vale per la numerabile additivit`a.




E
A2B

A1B

E
B

A2
A1

Fig. 2.1. Diagramma di Venn che mostra


che se A1 ed A2 sono mutuamente esclusivi, anche A1 B ed A2 B sono mutuamente
esclusivi.

Fig. 2.2. Diagramma di Venn della relazione E = B E = A B, con E = A


B.

Una interpretazione leggermente differente e` quella che la probabilit`a condizionale definisce una legge di probabilit`a PB su un nuovo spazio campione = B, con eventi del
tipo E = A B (A B).
Prova. Consideriamo il nuovo spazio campione B = B, come -campo linsieme BB composto da tutti
gli insiemi del tipo E = A B, con A B, e come legge di probabilit`a su B la PB definita dalla seguente:
PB (E) 

P (AB)
.
P (B)

Osserviamo preliminarmente che, nel nuovo spazio campione B = B, il complemento di E va inteso


rispetto a B, cio`e si ha E = B E.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

26

Probabilit`a condizionale e indipendenza


Il punto centrale e` dimostrare che BB e` effettivamente un -campo. Anzitutto, notiamo che BB non
e` vuoto, perch`e BB . Se poi E BB , allora E = A B, E = B E = B A B = A B (Fig.
2.2). Ma A B BB perch`e A B. Similmente, se E1 , E2 BB , allora E1 = A1 B e E2 = A2 B, per
cui E1 E2 = (A1 A2 ) B BB perch`e A1 A2 B. Similmente si prova anche la chiusura rispetto
allunione numerabile.
A questo punto e` banale verificare che la PB soddisfa gli assiomi di Kolmogorov:
I. PB (E) 0, E BB banalmente;
II. PB (B ) =

P (B)
P (B B)
=
= 1;
P (B)
P (B)

III. Se E1 ed E2 sono mutuamente esclusivi:


PB (E1 E2 ) =

P (A1 B A2 B)
P [(A1 A2 )B]
=
.
P (B)
P (B)

Ma A1 B ed A2 B sono mutuamente esclusivi per cui:


P (E1 E2 ) =

P (A1 B) + P (A2 B)
= PB (E1 ) + PB (E2 ) .
P (B)


2.2.1 Legge della probabilit`a composta


Una conseguenza banale della definizione di probabilit`a condizionale e` la legge della
probabilit`a composta:
P (A B) = P (A|B) P (B) = P (B|A) P (A) .

(2.2)

A rigore, per ricavare tale legge dalla definizione (2.1), e` necessario supporre che P (A)
e P (B) siano non nulle. Tuttavia, si osservi che essa vale formalmente anche se P (A)
e/o P (B) e` zero, e quindi la probabilit`a condizionale non e` ben definita. Infatti, in tal
caso, dalla relazione A B A e A B B si ricava necessariamente P (A B) = 0. Si
osservi, infine, che la probabilit`a P (A B) prende il nome di probabilit`a congiunta degli
eventi A e B.
 Esercizio 2.2. Una scatola contiene 3 palle bianche (w1 , w2 , w3 ) e 2 rosse (r1 , r2 ). Si rimuovono due palle in successione. Qual e` la probabilit`a che la prima sia bianca e la
seconda rossa?
Svolgimento. Lo spazio campione e` costituito da tutte le coppie ordinate di palle, che
sono esattamente venti:
= {w1 w2 , w1 w3 , w1 r1 , w1 r2 , w2 w1 , w2 w3 , . . . , r1 r2 } .
Infatti, la prima palla puo` essere scelta in 5 modi differenti; fissata la prima palla, la
seconda puo` essere scelta in 4 modi differenti, per cui ho un totale di 5 4 = 20 differenti

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.2 Probabilit`a condizionale

27

modi. Piu` formalmente, le disposizioni ordinate senza sostituzione di n elementi su k


posti sono n!/(n k)! (cfr. Tab. 1.1), e nel caso in questione n = 3 + 2 = 5 e k = 2, da cui
il risultato.
Levento C = {prima palla bianca, seconda rossa} e` costituito da 6 elementi:
C = {w1 r1 , w2 r1 , w3 r1 , w1 r2 , w2 r2 , w3 r2 } .
Se assumiamo gli eventi elementari equiprobabili e con probabilit`a pari ad 1/20, allora
P (C) = 6/20 = 3/10.
Vediamo se possiamo applicare il concetto di probabilit`a condizionale per arrivare
allo stesso risultato. Definiamo:
C = {prima palla bianca, seconda rossa} = {prima bianca} {seconda rossa}



per cui, applicando la legge della probabilit`a composta, si ha:


P (C) = P (AB) = P (B|A) P (A) .
Ora:
P (A) = P ({prima bianca}) = 3/5
e rimane da calcolare
P (B|A) = P ({seconda rossa}|{prima bianca}) .
Se la prima palla estratta e` bianca rimangono nella scatola 4 palle, 2 bianche e 2 rosse
P (B|A) = 1/2. Per cui:
P (C) = P (B|A) P (A) =

3
3 1
=
.
5 2
10

Notiamo che con questo approccio non e` stato necessario determinare (contare) il numero di elementi di .


2.2.2 Regola della catena


E` possibile estendere la definizione di probabilit`a condizionata anche al caso di piu`
eventi condizionanti. Per esempio, si ha:
P (A|B, C) 

P (ABC)
,
P (BC)

P (BC) = 0 .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

28

Probabilit`a condizionale e indipendenza


Si noti che P (A|B, C) e` da intendersi come P (A|BC), cio`e si condiziona allevento BC.
Riscrivendo la precedente, si trova allora una legge di fattorizzazione analoga alle legge
della probabilit`a composta:
P (ABC) = P (A|B, C) P (BC)
e poich`e, per la legge della probabilit`a composta, P (BC) = P (B|C) P (C), si ottiene:
P (ABC) = P (A|B, C) P (B|C) P (C) .
Applicando tale relazione iterativamente al caso di n eventi A1 , A2 , . . . , An , si ha la
cosiddetta regola della catena per il calcolo della probabilit`a congiunta di n eventi:
P (A1 A2 An ) = P (A1 ) P (A2 |A1 ) P (A3 |A1 , A2 ) P (An |A1 , A2 , . . . , An1 ) .
La regola precedente si applica indipendentemente dallordine in cui si considerano
gli eventi. In effetti, poich`e esistono n! permutazioni degli eventi A1 , A2 , . . . , An , la
fattorizzazione secondo la regola della catena puo` avvenire in n! modi distinti.

2.2.3 Teoremi della probabilit`a totale e di Bayes


Due importanti propriet`a della probabilit`a condizionale, che risultano estremamente
utili nelle applicazioni, sono contenute nei due teoremi seguenti.
Teorema 2.1 (probabilit`a totale). Siano A1 , A2 , . . . , An eventi mutuamente esclusivi (Ai
Aj = , i = j) e sia B ni=1 Ai . Si ha:
P (B) =

n


P (B|Ai )P (Ai ) .

i=1

Prova. Si faccia riferimento al diagramma di Venn in Fig. 2.3. Poich`e B ni=1 Ai B = B {ni=1 Ai }
B = ni=1 (B Ai ). Ma se gli Ai sono mutuamente esclusivi, anche gli eventi B Ai lo sono. Allora per
il III assioma si ha:
P (B) =

n


P (B Ai ) .

i=1

Per la legge della probabilit`a composta, si ha:


P (B Ai ) = P (B|Ai ) P (Ai )
valida anche se P (Ai ) = 0. Sostituendo nella precedente si ha lasserto.

Nella pratica puo` essere complicato verificare la condizione B ni=1 Ai , per cui spesso
si assume che gli insiemi A1 , A2 , . . . , An , mutuamente esclusivi, costituiscano una partizione di . In tal caso ni=1 Ai = per cui la condizione precedente risulta senzaltro
verificata.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.2 Probabilit`a condizionale

29

A2
A1

A3

A 2B
A 1B

A 3B
A 4B

A4

Fig. 2.3. Diagramma di Venn del teorema della probabilit`a totale (n = 4).

Teorema 2.2 (Bayes). Siano A1 , A2 , . . . , An eventi mutuamente esclusivi (Ai Aj = ,


i = j) e sia B ni=1 Ai . Si ha:
P (B|Ai )P (Ai )
P (Ai |B) = n
.
i=1 P (B|Ai )P (Ai )
La probabilit`a P (Ai ) e` spesso definita probabilit`a a priori, mentre la P (Ai |B) e` definita
probabilit`a a posteriori.
Prova. Il teorema e` una conseguenza banale della legge della probabilit`a composta e del teorema della
probabilit`a totale. Infatti, per la legge della probabilit`a composta, si ha:
P (B Ai ) = P (B|Ai ) P (Ai ) = P (Ai |B) P (B)
per cui:
P (Ai |B) =

P (B|Ai ) P (Ai )
.
P (B)

Sostituendo P (B) come espresso dal teorema della probabilit`a totale nella precedente si ha lasserto.

Il teorema di Bayes vale nelle stesse ipotesi del teorema della probabilit`a totale; inoltre
entrambi i teoremi possono estendersi al caso in cui gli eventi Ai condizionanti siano
uninfinit`a numerabile.
 Esercizio 2.3. Si considerino 3 scatole che contengono componenti elettronici:
nella scatola 1, ci sono 2000 componenti, di cui il 5% (100 componenti) difettosi;
nella scatola 2, ci sono 1000 componenti, di cui il 40% (400 componenti) difettosi;

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

30

Probabilit`a condizionale e indipendenza


nella scatola 3, ci sono 1000 componenti, di cui il 10% (100 componenti) difettosi;
Si seleziona una scatola a caso, e successivamente si rimuove un componente a caso
dalla scatola.
1. Qual e` la probabilit`a che il componente scelto sia difettoso?
2. Sapendo che un componente e` difettoso, qual e` la probabilit`a che provenga dalla
scatola 2?
Svolgimento. Iniziamo con losservare che se i componenti fossero tutti in ununica
scatola, avrei 4000 componenti in totale, di cui 600 difettosi. Quindi la probabilit`a di
600
= 0.15.
estrarre un componente difettoso sarebbe pari a 4000
Lesperimento pero` e` condotto in maniera differente. Prima si sceglie la scatola, e
successivamente il componente allinterno della scatola. Definiamo allora i seguenti
eventi:
A1 = {il componente proviene dalla scatola 1} ,
A2 = {il componente proviene dalla scatola 2} ,
A3 = {il componente proviene dalla scatola 3} ,
B = {il componente e` difettoso} .
Poich`e la scatola e` scelta a caso, allora:
P (A1 ) = P (A2 ) = P (A3 ) = 1/3 .
Inoltre, gli eventi A1 , A2 e A3 sono mutuamente esclusivi e A1 A2 A3 = . Si ha poi:
P (B|A1 ) = 0.05 ,
P (B|A2 ) = 0.40 ,
P (B|A3 ) = 0.10 .
Poich`e siamo nelle ipotesi del teorema della probabilit`a totale, possiamo scrivere:
P (B) = P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 ) + P (B|A3 ) P (A3 ) .
Sostituendo i valori numerici si trova P (B) 0.18, che pertanto e` la risposta al primo
quesito.
Per rispondere al secondo, possiamo applicare il teorema di Bayes:
P (A2 |B) =

P (B|A2 ) P (A2 )
0.73 .
P (B)

Notiamo che la probabilit`a a posteriori che il componente provenga dalla scatola 2, sapendo che e` difettoso, e` molto maggiore della probabilit`a a priori che il componente
provenga dalla stessa scatola, che e` pari ad 1/3.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.3 Indipendenza tra eventi

31

 Esercizio 2.4. Si dispone di un test per individuare una malattia molto rara, che colpisce 1 persona su 100 000. Il test e` abbastanza affidabile: se la malattia e` presente, la
individua con probabilit`a 0.95; se la malattia non e` presente, il test e` falsamente positivo
con probabilit`a 0.005. Se il test dice che la malattia e` presente, qual e` la probabilit`a che
il paziente abbia effettivamente la malattia?
Svolgimento. Definiamo i tre eventi:
A1 = {il paziente ha la malattia} ,
A2 = {il paziente non ha la malattia} ,
B = {il test e` positivo} .
Dobbiamo allora calcolare la probabilit`a:
P (A1 |B) = P (il paziente ha la malattia|il test e` positivo) .
Poich`e gli eventi A1 ed A2 sono mutuamente esclusivi, e A1 A2 = , possiamo adoperare il teorema di Bayes, e scrivere:
P (A1 |B) =

P (B|A1 )P (A1 )
.
P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 )

Ora, con la notazione introdotta, si ha:


1
= 105 ,
100 000
1
P (A2 ) = 1
= 1 105 = 0.99999 ,
100 000
P (B|A1 ) = 0.95 ,
P (A1 ) =

P (B|A2 ) = 0.005 .
Sostituendo i valori numerici, si trova P (A1 |B) 2 103 ; nonostante il test sembri
abbastanza affidabile, la rarit`a della malattia lo rende praticamente inutile. Pertanto,
effettuare uno screening di massa per individuare una malattia rara e` economicamente
poco conveniente.


2.3

Indipendenza tra eventi

Un concetto fondamentale nella teoria della probabilit`a e` quello dellindipendenza tra


eventi, che puo` intuitivamente ricavarsi dal concetto di probabilit`a condizionale. Infatti,
si considerino due eventi A e B: in base ad un ragionamento intuitivo, se gli eventi sono

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

32

Probabilit`a condizionale e indipendenza


indipendenti, ci aspettiamo che sapere che B si sia verificato non altera in nessun modo
la probabilit`a che si verifichi A. In formule, deve risultare:
P (A|B) = P (A) .
Si noti che sostituendo tale espressione nella legge di probabilit`a composta (2.2) si ha:
P (AB) = P (A) P (B)

(2.3)

ed inoltre dalla definizione di probabilit`a condizionale (2.1) si ha pure


P (B|A) = P (B)
e quindi lindipendenza e` una propriet`a simmetrica (se A e` indipendente da B, anche B
e` indipendente da A). Peraltro, la (2.3) implica sia P (A|B) = P (A) che P (B|A) = P (B),
per cui, sebbene meno intuitiva, si assume la seguente come definizione di indipendenza tra due eventi.
Definizione (indipendenza). Due eventi A e B sono indipendenti se
P (AB) = P (A) P (B) .
Tale definizione afferma che la probabilit`a congiunta P (AB) si fattorizza nel prodotto
delle probabilit`a P (A) e P (B), che prendono il nome di probabilit`a marginali.
 Esempio 2.2. Consideriamo lesempio, gi`a visto, del lancio di due monete uguali, o
di una moneta due volte. Lo spazio campione e` = {T T, T C, CT, CC}, e abbiamo
assunto gli eventi elementari equiprobabili e con probabilit`a pari ad 1/4, per simmetria.
Consideriamo ora gli eventi:
A = {testa al primo lancio} ,
B = {testa al secondo lancio} ,
e verifichiamo che essi sono statisticamente indipendenti. Si ha:
A = {T T, T C} ,
B = {CT, T T } ,
P (AB) = P ({T T }) = 1/4 ,
P (A) = 2/4 = 1/2 ,
P (B) = 2/4 = 1/2 ,
per cui P (AB) = P (A) P (B), e quindi gli eventi sono statisticamente indipendenti. Allo stesso modo si vede che sono statisticamente indipendenti tutti gli eventi del tipo
{T /C al primo lancio} e {T /C al secondo lancio}.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.3 Indipendenza tra eventi

33

Abbiamo gi`a osservato che la definizione di indipendenza implica che P (A|B) = P (A)
e P (B|A) = P (B). Inoltre, se A e B sono indipendenti, e` facile provare che risultano
indipendenti anche A e B, A e B, A e B.
Prova. Infatti, si ha:
P (AB) = P (B|A) P (A) = [1 P (B|A)] P (A) = [1 P (B)] P (A) = P (B) P (A) .
P (AB) = P (A|B) P (B) = [1 P (A|B)] P (B) = [1 P (A)] P (B) = P (A) P (B) .
P (A B) = P (A|B) P (B) = [1 P (B|A)] P (A) = [1 P (B)] P (A) = P (B) P (A) .


2.3.1 Indipendenza di tre o piu` eventi


Il concetto di indipendenza si puo` estendere a tre o piu` eventi.
Definizione (indipendenza di tre eventi). Gli eventi A, B e C si dicono
indipendenti se:
1. sono indipendenti a coppie, cio`e P (AB) = P (A) P (B), P (AC) =
P (A) P (C), P (BC) = P (B) P (C);
2. P (ABC) = P (A) P (B) P (C) .
Si noti che non e` possibile assumere solo la seconda fattorizzazione come definizione
di indipendenza, in quanto e` possibile costruire esempi per i quali risulta P (ABC) =
P (A) P (B) P (C) mentre P (AB) = P (A) P (B) etc.
Generalizzando al caso di n eventi, definiamo esplicitamente il concetto di indipendenza e quello di indipendenza a coppie.
Definizione (indipendenza a coppie). Gli eventi Ai si dicono indipendenti a
coppie se
P (Ai Aj ) = P (Ai )P (Aj ),

i = j .

Definizione (indipendenza di n eventi). Gli eventi {Ai } si dicono indipendenti se



P (Ai ) ,
P (iI Ai ) =
iI

per ogni insieme I di indici diversi.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

34

Probabilit`a condizionale e indipendenza


In pratica, la definizione precedente afferma che qualunque probabilit`a congiunta di
un numero arbitrario di eventi Ai distinti si fattorizza nel prodotto delle corrispondenti
probabilit`a marginali. Va osservato esplicitamente che lindipendenza a coppie non implica necessariamente lindipendenza, mentre lindipendenza implica lindipendenza a
coppie, a terne, a quaterne, etc.
 Esempio 2.3. Due concetti spesso confusi sono quello di eventi indipendenti e di eventi mutuamente esclusivi. Mentre lindipendenza implica la fattorizzazione P (AB) =
P (A) P (B), due eventi mutuamente esclusivi sono tali che AB = , per cui P (AB) = 0.
Inoltre il concetto di eventi mutuamente esclusivi ha una chiara interpretazione sui diagrammi di Venn (gli insiemi A e B non si sovrappongono), mentre il concetto di eventi
indipendenti no. In definitiva, i due concetti non hanno alcuna relazione reciproca,
salvo nel caso banale in cui P (A) = 0 oppure P (B) = 0.


2.3.2 Indipendenza condizionale tra eventi


E possibile anche definire il concetto di indipendenza condizionale tra due eventi dato un
terzo evento.
Definizione (indipendenza condizionale tra eventi). Due eventi A e B si
dicono condizionalmente indipendenti dato un terzo evento C, se
P (AB|C) = P (A|C)P (B|C) .
Si noti che lindipendenza condizionale non implica lindipendenza di A e B, se non nel
caso in cui C = . Allo stesso modo, per quanto meno intuitivamente comprensibile,
lindipendenza tra A e B non implica lindipendenza condizionale rispetto ad un terzo
evento C.

2.4

Esperimenti combinati

In molti casi interessa affrontare il seguente problema: dati piu` esperimenti, ognuno dei
quali descritto in termini probabilistici, descrivere lesperimento combinato, risultante
dalla combinazione dei singoli esperimenti. Per far questo, e` necessario costruire un
nuovo spazio di probabilit`a, denominato spazio di probabilit`a prodotto, sullesperimento
combinato. Tale concetto e` sviluppato nellesempio seguente.
 Esempio 2.4. Supponiamo di avere due esperimenti, cui siano associati due spazi di
probabilit`a (1 , B1 , P1 ) e (2 , B2 , P2 ). Per fissare le idee, si consideri come primo esperimento il lancio di una moneta, con spazio campione 1 = {T, C}, e come secondo

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

35

esperimento il lancio di un dado, con spazio campione 2 = {1, 2, 3, 4, 5, 6}. Gli spazi di
probabilit`a associati a ciascuno di tali esperimenti si costruiscono nel modo consueto.
Consideriamo adesso lesperimento combinato (lancio di una moneta e di un dado),
che ha come spazio campione il prodotto cartesiano di 1 ed 2 :
= 1 2 = {(T, 1), (T, 2), . . . , (T, 6), (C, 1), (C, 2), . . . , (C, 6)}
costituito da 2 6 = 12 coppie ordinate. Poich`e e` un insieme finito, possiamo considerare come -campo B linsieme di tutti i 212 sottoinsiemi di . Notiamo che tale
-campo B conterr`a, tra gli altri, eventi del tipo A B, con A B1 e B B2 . Ad
esempio, se A = {T } e B = {pari}, si avr`a A B = {(T, 2), (T, 4), (T, 6)}. Possiamo interpretare levento A B nel modo seguente: si verifica levento A B nellesperimento
combinato se si verifica levento A nellesperimento 1 e levento B nellesperimento 2.
Tuttavia non tutti gli eventi di B sono del tipo A B: si pensi ad esempio allevento
C = {(T, 1), (C, 2)}, che non puo` essere interpretato come A B.
A questo punto per completare la descrizione probabilistica dellesperimento combinato resta da fissare la legge di probabilit`a su B. Osserviamo che si ha:
P (A 2 ) = P1 (A)
P (1 B) = P2 (B)
dove P1 e` la legge di probabilit`a su 1 e P2 e` la legge di probabilit`a su 2 . Infatti A 2 e`
levento dellesperimento combinato corrispondente al fatto che nel primo esperimento
si verifichi levento A e nel secondo si verifichi levento certo 2 . Pertanto la probabilit`a devessere pari a quella relativa al solo esperimento 1, ovvero a P1 (A). In maniera
analoga si ragiona per la seconda relazione.


Dallesempio precedente, abbiamo osservato che non tutti gli eventi di 1 2 sono
del tipo A B, e quindi B non e` semplicemente dato da B1 B2 : daltra parte, se 1
ed 2 sono insiemi finiti di cardinalit`a n1 ed n2 , e se B1 e B2 sono linsieme di tutti i
sottoinsiemi di 1 e 2 , rispettivamente, si ha che card(B1 ) = 2n1 e card(B2 ) = 2n2 , per
cui card(B1 B2 ) = 2n1 +n2 mentre card(B) = 2n1 n2 . In generale e` possibile costruire il
-campo B partendo da B1 B2 e aggiungendo complementi, unioni e intersezioni di
un numero finito o infinito numerabile di insiemi. I precedenti concetti possono essere
formalizzati dalla seguente definizione:

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

36

Probabilit`a condizionale e indipendenza


Definizione (spazio di probabilit`a prodotto). Si considerino due spazi di probabilit`a (1 , B1 , P1 ) e (2 , B2 , P2 ). Si definisce spazio di probabilit`a prodotto lo
spazio di probabilit`a (, B, P ) dove:
lo spazio campione e` il prodotto cartesiano 1 2 , ovvero i risultati
dellesperimento combinato sono del tipo = (1 , 2 ), con 1 1 e
2 2 ;
il -campo degli eventi B e` il piu` piccolo -campo contenente eventi del
tipo A B, con A B1 e B B2 ;
la legge di probabilit`a P definita su B deve soddisfare le seguenti
propriet`a (di consistenza):
P (A 2 ) = P1 (A),
P (1 B) = P2 (B),

A B1 ;
B B2 .

(2.4)
(2.5)

La precedente definizione puo` essere facilmente estesa al caso di n > 2 esperimenti.


Notiamo che le (2.4) e (2.5) consentono di determinare, a partire dagli spazi di probabilit`a sui singoli esperimenti, solo le probabilit`a di eventi del tipo A 2 e 1 B,
ma non quelle di un qualsiasi evento di B. Daltra parte, in generale, assegnare solo le
leggi di probabilit`a P1 e P2 sui due esperimenti componenti non consente di determinare la legge di probabilit`a dellesperimento combinato: abbiamo bisogno di qualche
informazione sulla relazione di dipendenza che c`e tra i due esperimenti.

2.4.1 Esperimenti indipendenti


Un caso particolarmente semplice e` quello in cui si suppone che gli esperimenti siano
indipendenti.
Definizione (esperimenti indipendenti). Siano (1 , B1 , P1 ) e (2 , B2 , P2 ) due
spazi di probabilit`a, e sia (, B, P ) lo spazio di probabilit`a prodotto. Gli esperimenti si diranno indipendenti se gli eventi (A 2 ) e (1 B) dello spazio
prodotto sono statisticamente indipendenti per ogni A B1 e B B2 .
In sostanza, dalla definizione di indipendenza 1 , si ha che per tutti gli eventi di B che
possono essere espressi come A B, con A B2 e B B2 , poiche risulta:
A B = (A 2 ) (1 B) ,
1

Notiamo che tale definizione puo` apparire piu` elaborata della precedente definizione di indipendenza di eventi, vale a dire P (AB) = P (A) P (B), ma non e` sostanzialmente differente: bisogna infatti
osservare che per parlare di indipendenza tra due eventi bisogna che i due eventi A e B appartengono
ad uno stesso spazio di probabilit`a. Pertanto, bisogna prima costruire lo spazio di probabilit`a prodotto.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

37

si ha:
P (A B) = P [(A 2 ) (1 B)] = P (A 2 )P (1 B) = P1 (A) P2 (B) .
In particolare, osserviamo che per gli eventi elementari di si ha (1 , 2 ) = {1 } {2 },
per cui P (1 , 2 ) = P1 (1 ) P2 (2 ).
E` facile dimostrare che lipotesi di indipendenza consente di calcolare completamente le probabilit`a dello spazio prodotto in termini delle probabilit`a degli spazi componenti. Infatti, dalla definizione di -campo costruito sullo spazio di probabilit`a prodotto, un
qualunque evento di B si potr`a esprimere come complemento, unione o intersezione (al
piu` numerabile) di eventi del tipo A B; allora e` possibile completamente specificare
la legge di probabilit`a P sullo spazio prodotto semplicemente a partire dalle leggi di
probabilit`a P1 e P2 definite sugli spazi componenti.
 Esempio 2.5. Torniamo al caso del lancio di una moneta e di un dado. Se supponiamo
che gli esperimenti siano indipendenti, e la moneta ed il dado non siano truccati, avro`
ad esempio:
P (T, 1) = P1 (T ) P2 (1) =

1 1
1
=
.
2 6
12

Poich`e lo spazio campione dellesperimento combinato e` composto da 12 elementi, e`


facile riconoscere che i risultati dellesperimento combinato sono equiprobabili e con
probabilit`a 1/12.


 Esempio 2.6. Lancio di una moneta 2 volte (i lanci sono assunti indipendenti):
1 = {T, C} ,
2 = {T, C} ,

= 1 2 = {T T, T C, CT, CC} .

Poich`e i due lanci sono assunti indipendenti, allora


P (T T ) = P1 (T ) P2 (T ) =

1 1
1
=
2 2
4

e similmente per le altre.

Notiamo che nella pratica lindipendenza statistica tra due o piu` esperimenti si giustifica
con considerazioni di natura fisica o intuitiva.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

38

Probabilit`a condizionale e indipendenza


 Esempio 2.7. Consideriamo come primo esperimento il seguente: si sceglie a caso una
persona in un gruppo, il risultato dellesperimento e` la sua altezza h. Come secondo esperimento, possiamo considerare il seguente: si sceglie a caso una persona in un
gruppo, il risultato dellesperimento e` il suo peso p. Lesperimento combinato puo` essere descritto nel modo seguente: si sceglie a caso una persona in un gruppo, il risultato
dellesperimento e` una coppia (h, p) rappresentante laltezza ed il peso della persona. E`
chiaro, da considerazioni intuitive, che i due esperimenti non sono indipendenti, perch`e
esiste una chiara relazione di dipendenza fisica tra altezza e peso di una persona.
Consideriamo, invece, un terzo esperimento definito nel modo seguente: si sceglie a
caso una persona in un gruppo, il risultato dellesperimento e` il colore dei suoi occhi. E`
chiaro adesso che le stesse motivazioni intuitive ci indurranno a ritenere indipendenti il
primo ed il terzo esperimento, cos` come il secondo ed il terzo, in quanto non esiste nessuna relazione evidente e dimostrata tra laltezza ed il colore degli occhi di una persona,
oppure tra il peso ed il colore degli occhi di una persona.

 Esempio 2.8. Riprendiamo il problema dellincontro (esempio 1.12), per mostrare come esso si possa interpretare come esperimento combinato. Possiamo infatti costruire
due spazi di probabilit`a (1 , B1 , P1 ) e (2 , B2 , P2 ) che descrivono, rispettivamente, listante x di arrivo di Tizio e listante y si arrivo di Caio. Risulta 1 = 2 = [0, T ],
e come legge di probabilit`a su 1 ed 2 potremo assumere quella uniforme, cio`e se
A = [a, b] 1 , si avr`a:
P1 (A) =

misura(A)
ba
=
misura(1 )
T

e similmente se B = [c, d] 2 si avr`a:


P2 (B) =

misura(B)
dc
=
.
misura(2 )
T

Lo spazio campione prodotto sar`a = 1 2 = [0, T ][0, T ], cio`e il quadrato di lato T .


Se assumiamo che larrivo di Tizio sia indipendente da quello di Caio, gli esperimenti
sono indipendenti, per cui possiamo porre:
P ((x, y) [a, b] [c, d]) = P (A B) = P1 (A) P2 (A) =

(b a)(d c)
,
T2

che e` lo stesso risultato che abbiamo gi`a ricavato nellesempio 1.12.


 Esercizio 2.5. Si hanno due scatole:
la scatola S1 contiene 10 palle bianche e 5 rosse;

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

39

la scatola S2 contiene 20 palle bianche e 20 rosse


Si estrae una palla da ogni scatola. Calcolare la probabilit`a che la palla estratta dalla
scatola S1 sia bianca e quella estratta dalla scatola S2 sia rossa.
Svolgimento. Gli spazi campione e le leggi di probabilit`a associate ai singoli esperimenti
sono i seguenti (si assumono gli eventi elementari equiprobabili):
1 = {10 bianche, 5 rosse} P1 (i ) = 1/15 ;
2 = {20 bianche, 20 rosse} P2 (i ) = 1/40 .
Lo spazio campione dellesperimento combinato = 1 2 ha 15 40 = 600 elementi,
ognuno con probabilit`a 1/600. Sia:
10
2
= ;
15
3
20
1
B = {si estrae una palla rossa da S2 } P2 (B) =
= .
40
2
A = {si estrae una palla bianca da S1 } P1 (A) =

Si ha allora:
P (si estrae una palla bianca da S1 ed una rossa da S2 ) = P (A B)
2 1
1
= P1 (A) P2 (B) = = .
3 2
3


2.4.2 Prove ripetute


Una applicazione molto importante del concetto di esperimento combinato e` il caso
delle cosiddette prove ripetute.
Si consideri un esperimento, descritto dallo spazio di probabilit`a (1 , B1 , P1 ), e si
supponga di ripeterlo n volte, nelle medesime condizioni, assumendo che le successive prove siano statisticamente indipendenti. Lo spazio campione dellesperimento
combinato sar`a evidentemente
= n1 = 1 1 1 ,



n volte

il -campo B sar`a il piu` piccolo -campo contenente eventi del tipo A = A1 A2 An ,


con Ai 1 , ed infine la legge di probabilit`a P , nellipotesi di prove indipendenti, e`
indotta dalla legge P1 . Infatti, per qualunque evento A B che si possa esprimere come
prodotto cartesiano del tipo precedentemente visto, risulta
P (A) = P1 (A1 ) P1 (A2 ) P1 (An ) .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

40

Probabilit`a condizionale e indipendenza


La probabilit`a di un qualunque altro evento di B si ottiene facilmente a partire dalle
probabilit`a del tipo precedente.
Consideriamo ora il caso particolarmente interessante delle prove bernoulliane2 , in cui
abbiamo un evento A di 1 (convenzionalmente denominato successo), che si verifica con
probabilit`a p = P (A); ovviamente, levento complementare A (denominato insuccesso)
si verificher`a con probabilit`a q = 1 P (A) = 1 p. Vogliamo determinare la probabilit`a
pn (k) che, nelle n prove ripetute, levento A si verifichi esattamente k volte, in un qualunque
ordine.
Per chiarire meglio questo concetto, consideriamo un esempio specifico. Se n = 4 e
k = 2, levento A si verifica in 2 delle 4 prove, ed evidentemente nelle altre n k = 2
prove si verificher`a A. Ovviamente levento A si potr`a verificare nella prima e nella
seconda prova, nella prima e nella terza, nella prima e nella quarta, nella seconda e
nelle terza, etc. Tutte le possibili configurazioni (sei) sono riportate di seguito:
AAAA
AAAA
AAAA
AAAA
AAAA
AAAA
Il numero di possibili configurazioni e` pari al numero delle disposizioni di n oggetti
su

n
k posti senza sostituzioni e senza
  ordinamento (cfr. Tab. 1.1), espressa da k , che nel
caso in esame vale appunto 42 = 6. Data lindipendenza delle prove, la probabilit`a di
una qualsiasi configurazione di k successi ed nk insuccessi (indipendenti) vale pk q nk .
Ad esempio,
P (A A A A) = P1 (A) P1 (A) P1 (A) P1 (A) = p2 q 2 .
Poich`e le configurazioni sono tutte differenti, esse corrispondono ad eventi mutuamente
esclusivi, ed allora la probabilit`a cercata si riduce alla somma delle probabilit`a di tutte
le configurazioni.Le
configurazioni sono tutte equiprobabili, con probabilit`a pk q nk , ed

in numero pari a nk , per cui la probabilit`a cercata e`
 
n k nk
pn (k) =
p q
.
k
Tale legge di probabilit`a si dice binomiale, ed il suo andamento al variare di k, per
n = 20 e p = 0.4, e` illustrato in Fig. 2.4. Dalla Fig. 2.4 si puo` notare che, al variare di k, la
2

La denominazione bernoulliane deriva dal matematico svizzero J. Bernoulli (16541705), autore del
fondamentale trattato di probabilit`a Ars Conjectandi.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

41

0.2

0.18

0.16

0.14

pn (k)

0.12

0.1

0.08

0.06

0.04

0.02

10

12

14

16

18

20

k
Fig. 2.4. Probabilit`a binomiale pn (k), al variare di k, per n = 20 e p = 0.4. Si noti che tale
probabilit`a e` massima per k = n p = 8.

pn (k) prima cresce, poi decresce, presentando un massimo per k = n p = 8. Unanalisi


piu` rigorosa mostra che il massimo si trova, in generale, in k = (n + 1)p, dove con il
simbolo x denotiamo il piu` grande intero non superiore ad x. Se, tuttavia, (n + 1)p e`
intero, allora pn (k) e` massima per due consecutivi valori di k, dati da k1 = (n + 1)p 1
e k2 = (n + 1)p.
La teoria delle prove di Bernoulli e la legge di probabilit`a binomiale possono essere
applicate a numerosi problemi pratici, come illustrato dai seguenti esercizi.
 Esercizio 2.6. Unazienda produce componenti elettronici in lotti da n = 1000 componenti. La probabilit`a che un componente sia difettoso e` pari a p = 101 , indipendentemente dagli altri. Qual e` la probabilit`a che:
il numero X di componenti difettosi di un lotto sia pari a zero;
il numero X di componenti difettosi di un lotto sia minore o uguale a 80;
il numero X di componenti difettosi di un lotto sia compreso tra 80 e 120.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

42

Probabilit`a condizionale e indipendenza


Svolgimento. La probabilit`a che nessun componente sia difettoso e` data da:


1000 0 1000
P (X = 0) = p1000 (0) =
p q
= q 1000 = 0.91000 1.75 1046
0
cio`e del tutto trascurabile. Levento che il numero di componenti difettosi sia minore o
uguale a 80 non e` un evento elementare, ma si puo` facilmente esprimere come lunione
80
e gli eventi elementari sono muk=0 {X = k} degli eventi elementari {X = k}. Poich`
tuamente esclusivi, la probabilit`a dellunione e` pari alla somma delle probabilit`a, e si
ha: 3

80
80
80 


 80
 
1000 k 1000k
p q
P k=0 {X = k} =
P (X = k) =
p1000 (k) =
0.0176 .
k
k=0
k=0
k=0
Infine, levento che N sia compreso tra 80 e 120 puo` essere anchesso espresso come
unione di eventi elementari mutuamente esclusivi, ovvero come 120
k=80 {X = k}, per cui
P

120
k=80 {X


120
120
120 


 
1000 k 1000k
p q
= k} =
P (X = k) =
p1000 (k) =
0.9695 .
k
k=80
k=80
k=80


 Esercizio 2.7. Un test a risposte multiple prevede n = 20 domande, con tre possibili
risposte per ciascuna domanda. Uno studente poco preparato risponde a caso a tutte le
domande; qual e` la probabilit`a che totalizzi un punteggio maggiore o uguale a 12, che e`
la soglia minima per lammissione?
Svolgimento. Anche qui possiamo modellare il problema mediante prove di Bernoulli.
Rispondendo a caso a ciascuna domanda, lo studente individuer`a la risposta esatta con
probabilit`a p = 1/3, e sbaglier`a con probabilit`a q = 1 p = 2/3. A questo punto, se X
e` il numero di risposte esatte, dobbiamo determinare la probabilit`a P (X 12), che con
considerazioni analoghe a quelle dellesempio precedente e` data da:
P (X 12) =

20  

20
k=12

pk q nk 0.0130 ,

che e` una probabilit`a inferiore al 2%, per cui e` estremamente difficile che lo studente
superi il test.

3

Per effettuare il calcolo numerico che segue, come anche per gli altri che ricorrono in questo esercizio
ed in quello seguente, e` indispensabile ricorrere ad un calcolatore, ad esempio scrivendo un semplice
script Matlab.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

43

2.4.3 Teoremi di de Moivre-Laplace 


Gli esercizi della precedente sezione hanno mostrato che un problema che si pone spesso in pratica e` quello di valutare espressioni del tipo
k2


(2.6)

pn (k) ,

k=k1

che e` difficoltoso quando il numero di termini della somma e` elevato. Per valori elevati
di n, tuttavia, e` possibile trovare approssimazioni che semplificano il calcolo.
La prima approssimazione, nota come teorema locale di de Moivre-Laplace, 4 afferma
che se npq  1, allora:
 
(knp)2
n k nk
1
e 2npq ,
pn (k) =
p q

(2.7)
k
2npq

e lapprossimazione e` accurata per k appartenente ad un intorno, di ampiezza npq,


di np. Per mostrare la bont`a dellapprossimazione fornita da tale teorema, in Fig. 2.5
riportiamo, al variare di k, la stessa pn (k) della Fig. 2.4 (n = 20, p = 0.4), insieme
con la funzione esponenziale approssimante (secondo membro della (2.7)). Nel caso in

esame, si ha np = 8 e npq 2.19, per cui ci aspettiamo una approssimazione accurata


allincirca nellintervallo [6, 10]; notiamo che invece si ha un buon accordo anche al di
fuori di tale intervallo. La funzione esponenziale approssimante corrisponde alla legge
di probabilit`a gaussiana, ed e` di fondamentale importanza nella teoria della probabilit`a;
avremo modo di approfondire il suo studio nel seguito. Osserviamo solo (Fig. 2.5) la

sua caratteristica forma a campana, centrata in np e di larghezza circa pari a npq; per
questo motivo, lapprossimazione del teorema di de Moivre-Laplace e` buona nel centro
della campana, e peggiora spostandosi verso le code della funzione esponenziale.
Una volta introdotta lapprossimazione del teorema locale di de Moivre-Laplace,
possiamo trovare una approssimazione della (2.6). Si ha infatti, utilizzando la (2.7),
k2

k=k1

pn (k)

k2

k=k1

(knp)2
1
e 2npq .
2npq

Poich`e npq rappresenta la larghezza della curva gaussiana, per npq  1 possiamo
ritenere che tale curva sia praticamente costante in ogni intervallo di ampiezza unitario.
Allora la sommatoria tra k1 e k2 e` una buona approssimazione dellintegrale, e si ha:
k2

k=k1

1
pn (k)
2npq

k2

(xnp)2
2npq

dx .

k1

Il teorema fu dimostrato da A. de Moivre (1667-1754) nel caso particolare p = 1/2, e generalizzato da


P. S. Laplace (1749-1827) al caso di p arbitrario. Per una dimostrazione moderna, si veda [1] oppure [2].

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

44

Probabilit`a condizionale e indipendenza


0.2

0.18

0.16

0.14

pn (k)

0.12

0.1

0.08

0.06

0.04

0.02

10

12

14

16

18

20

k
Fig. 2.5. Approssimazione del teorema locale di de Moivre-Laplace (tratto continuo) alla
probabilit`a binomiale pn (k), per n = 20 e p = 0.4.

Con il cambiamento di variabile u =


1

k2 np

npq

u2

k1 np

npq

xnp

,
npq

1
du =
2

lintegrale si riscrive:

k2 np

npq

u2

per cui, se introduciamo la funzione


1
G(x) =
2

1
du
2

u2
2

k1 np

npq

u2
2

du

du ,

possiamo porre infine:


k2

k=k1


pn (k) G

k2 np

npq


G

k1 np

npq


.

Questa e` lespressione desiderata, che va sotto il nome di teorema integrale di de MoivreLaplace e ci consente di calcolare la (2.6) come differenza della funzione G(x) in due
punti. 5
5

Osserviamo che entrambi i teoremi di de Moivre-Laplace rappresentano un caso particolare di un


teorema piu` generale, noto come teorema limite fondamentale, che vedremo in dettaglio nel 8.6.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

45

Dobbiamo osservare, tuttavia, che la funzione G(x) non e` comunque una funzione
elementare, per cui, per determinarne i valori, e` necessario ricorrere a grafici, a tabelle o
a programmi al calcolatore. Un grafico della funzione G(x), in scala naturale, e` riportato
in Fig. 2.6; notiamo tuttavia che tale grafico non consente la determinazione accurata
dei valori della funzione. Si veda lAppendice B per un grafico piu` accurato (Fig. B.1) e
per una tabella dei valori (Tab. B.1); nella stessa Appendice sono riportate le principali
propriet`a della funzione G(x) e le relazioni con altre funzioni frequentemente utilizzate.
1

0.9

0.8

0.7

G(x)

0.6

0.5

0.4

0.3

0.2

0.1

0
4

x
Fig. 2.6. Grafico in scala naturale della funzione G(x).

 Esempio 2.9. Per mostrare la validit`a dellapprossimazione del teorema di de Moivre


Laplace, ricalcoliamo i risultati dellesercizio 2.6. Notiamo che si ha np = 100 e npq
9.49. Tralasciando il primo risultato (nessun componente difettoso) per il quale il calcolo
diretto non presenta difficolt`a, per il secondo (numero di componenti difettosi minore o
uguale a 80) si ha (cfr. Tab. B.1 per i valori della G(x)):
80

k=0


p1000 (k) G

80 100
9.49


G

0 100
9.49

= G(2.11) G(10.54) G(2.11) = 1 G(2.11) = 1 0.9826 = 0.0174

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

46

Probabilit`a condizionale e indipendenza


che va confrontato con il risultato esatto pari a 0.0176. Per il terzo risultato (numero di
componenti difettosi compreso tra 80 e 120), si ha (cfr. Tab. B.1):
120

k=80


p1000 (k) G

120 100
9.49


G

80 100
9.49

= G(2.11) G(2.11) = G(2.11) 1 + G(2.11) =


= 2 G(2.11) 1 = 2 0.9826 1 = 0.9652

che va confrontato con il risultato esatto 0.9695.

 Esempio 2.10. Unaltra applicazione interessante del teorema di de Moivre-Laplace ci


consente di mettere in relazione tra loro il concetto di probabilit`a con quello di frequenza
di successo. Sia X il numero di volte che si verifica un evento A, di probabilit`a p, in n
prove; ci aspettiamo che, se il numero di prove e` sufficientemente elevato, la frequenza
di successo, definita come p  Xn , debba essere prossima alla probabilit`a p. Questo
enunciato vago puo` essere espresso in termini piu` precisi nel modo seguente: per n
elevato, la probabilit`a che p si discosti da p di un ammontare pari ad deve essere
piccola. Proviamo a calcolare tale probabilit`a, che si puo` esprimere come:
P (|
p p| > ) .
Risulta piu` conveniente calcolare la probabilit`a complementare, ovvero:


X
p+
P (|
p p| ) = P (p p p + ) = P p
n
= P [n(p ) X n(p + )]
che ci aspettiamo grande per n sufficientemente elevato. Poich`e siamo giunti ad una
probabilit`a binomiale, possiamo scrivere, adoperando il teorema integrale di de MoivreLapalace:





n(p + )
n(p )
P (|
p p| ) =
pn (k) G
G

npq
npq
k=n(p)




  
n
n
n
=G
G
= 2G
1.
npq
npq
pq


n(p+)

Se, ad esempio, p = 0.1 e = 0.1 p, cio`e lo scostamento e` pari al 10% del valore di p,
allora si trova che:
per n = 100, la probabilit`a e` pari a 0.2611;
per n = 1000, la probabilit`a e` pari a 0.7063;

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

47

per n = 10 000, la probabilit`a e` pari a 0.9991.


In effetti, poiche G() = 1, si ha che limn P (|
p p| ) = 1. Si osserva allora che,
se aumentiamo il numero di prove, effettivamente la frequenza di successo assume con

probabilit`a tendente ad 1 valori prossimi a piacere alla probabilit`a p. 6

2.4.4 Canale binario simmetrico (BSC)


Un altro esempio particolarmente interessante di esperimento combinato, in cui tuttavia
gli spazi di probabilit`a non possono ritenersi statisticamente indipendenti, e` il caso dellingresso e delluscita di un canale di comunicazione, che e` un componente fondamentale
di un sistema di comunicazione.
Per fissare le idee, consideriamo lo schema (semplificato) di un sistema di comunicazione riportato in Fig. 2.7, nel quale una sorgente emette simboli X, per semplicit`a
supposti appartenenti ad un insieme discreto 1 = {x1 , x2 , . . . , xN } (alfabeto sorgente),
che vengono immessi su un canale di comunicazione, il quale restituisce infine alla destinazione simboli Y appartenenti ad un insieme discreto 2 = {y1 , y2 , . . . , yM } (alfabeto
destinazione), che puo` essere differente dallalfabeto 1 di ingresso. Il problema fondamentale della comunicazione e` che, per fondamentali limitazioni fisiche (ad esempio,
per la presenza di rumore termico dovuto al moto degli elettroni nei conduttori), qualsiasi
canale introduce errori casuali, per cui la trasmissione dellinformazione dalla sorgente
alla destinazione non e` completamente affidabile.

X
Sorgente

Y
Canale

Destinazione

Fig. 2.7. Schema semplificato di un sistema di comunicazione. La sorgente emette simboli X,


che sono trasformati dal canale in simboli Y , che giungono alla destinazione.

Concentriamo ora lattenzione sul canale di comunicazione, che supporremo binario,


ovvero 1 = 2 = {0, 1}. Poich`e tale canale introduce errori casuali, allora dobbiamo
modellarlo in termini probabilistici. Osserviamo che e` semplice costruire uno spazio di
probabilit`a (1 , B1 , P1 ) su 1 (sorgente) ed uno spazio di probabilit`a (2 , B2 , P2 ) su 2
(destinazione); le propriet`a del canale entrano in gioco quando si vuole costruire uno
spazio di probabilit`a su = 1 2 = {00, 01, 10, 11}. Non e` ragionevole in questo
caso assumere ingresso ed uscita del canale statisticamente indipendenti, perch`e anzi ci
6

Questa regolarit`a della frequenza di successo e` nota come legge dei grandi numeri, e la approfondiremo
piu` in dettaglio nel 8.6.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

48

Probabilit`a condizionale e indipendenza


aspettiamo che, se il canale e` sufficientemente affidabile, ci sia una forte dipendenza del
simbolo di uscita Y dal simbolo di ingresso X. Addirittura, se il canale e` ideale, deve
risultare Y = X, cio`e si ha una dipendenza deterministica; piu` in generale, si avr`a solo
una dipendenza statistica, cio`e si avr`a Y = X con elevata probabilit`a.
Il canale puo` essere convenientemente descritto in termini delle probabilit`a condizionali dei simboli in uscita, assegnati i simboli in ingresso. Ad esempio, possiamo
assegnare la probabilit`a che si abbia in uscita Y = 0 sapendo che in ingresso si ha X = 0:
P (0|0)  P (Y = 0|X = 0)
e analogamente, e` possibile assegnare le probabilit`a P (0|1), P (1|0), e P (1|1). Tale descrizione e` particolarmente conveniente perch`e non entrano in gioco le caratteristiche della
sorgente.
Poich`e per un fissato evento condizionante la probabilit`a condizionale e` una legge
di probabilit`a, devono valere le condizioni di normalizzazione, vale a dire:
P (0|0) + P (1|0) = 1 ,
P (0|1) + P (1|1) = 1 ,
per cui solo due di tali probabilit`a possono essere assegnate ad arbitrio, restando univocamente determinate le altre due. Una volta assegnate tali probabilit`a, se conosciamo le
probabilit`a dei simboli X emessi dalla sorgente, siano esse:
P1 (X = 0) = q ,
P1 (X = 1) = p ,
e` chiaro che possiamo descrivere lo spazio di probabilit`a prodotto applicando la legge
della probabilit`a composta, avendosi, ad esempio,
P (X = 0, Y = 0) = P (Y = 0|X = 0) P1 (X = 0) = P (0|0) q
e similmente per tutte le altre. Evidentemente, restano anche univocamente determinate
le probabilit`a dei simboli di uscita. Si ha, infatti,
P2 (Y = 0) = P (X = 0, Y = 0) + P (X = 1, Y = 0) ,
P2 (Y = 1) = P (X = 0, Y = 1) + P (X = 1, Y = 1) .
Osserviamo che le due probabilit`a P (0|1) e P (1|0) rappresentano le probabilit`a di
scambiare un simbolo di ingresso con il suo complemento in uscita, e per questo motivo
si chiamano probabilit`a di scambio del canale; se tali probabilit`a di scambio sono uguali
tra loro, cio`e si ha:
P (0|1) = P (1|0) = ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

49

il canale binario si dir`a simmetrico (binary symmetric channel, BSC), e sar`a descritto dal
solo parametro . Osserviamo che per la condizione di normalizzazione, risulta anche:
P (0|0) = P (1|1) = 1 ,
dove evidentemente P (0|0) e P (1|1) rappresentano probabilit`a di non scambio. Un canale
binario simmetrico e` convenientemente rappresentato da un grafo orientato (Fig. 2.8).

1-

1
1-

Fig. 2.8. Grafo di un canale binario simmetrico (BSC) con ingresso X, uscita Y e parametro di
scambio ; i valori indicati sugli archi del grafo rappresentano le probabilit`a condizionali dei
simboli di uscita dati i simboli di ingresso.

Ricaviamo esplicitamente, per un canale binario simmetrico, le probabilit`a di tutti


gli elementi dello spazio prodotto = 1 2 . Con notazione sintetica, si ha:
P (00) = P (0|0) P1 (0) = (1 ) q ,
P (01) = P (1|0) P1 (0) = q ,
P (10) = P (0|1) P1 (1) = p ,
P (11) = P (1|1) P1 (1) = (1 ) p ,
e a partire da queste possiamo ricavare le probabilit`a dei simboli di uscita Y :
P2 (0) = P (00) + P (10) = (1 ) q + p ,
P2 (1) = P (01) + P (11) = q + (1 )p .
E` conveniente raggruppare tali probabilit`a in una tabella (Tab. 2.1). Possiamo osservare che sommando lungo le righe otteniamo le probabilit`a P1 dei simboli X, mentre
sommando lungo le colonne otteniamo le probabilit`a P2 dei simboli Y .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

50

Probabilit`a condizionale e indipendenza


Y
X

(1 ) q

(1 ) p

Tab. 2.1. Probabilit`a caratteristiche di un canale binario simmetrico (BSC).

Se i simboli di ingresso sono equiprobabili (P1 (0) = P1 (1) = 1/2, ovvero p = q = 1/2),
si ricava facilmente che anche i simboli di uscita sono equiprobabili (P2 (0) = P2 (1) =
1/2); si noti che questa propriet`a consegue dalla simmetria del canale, oltre che dalla
equiprobabilit`a dei simboli di ingresso.
Poich`e laffidabilit`a di un canale di comunicazione dipende da quanto frequentemente il canale introduca errori, calcoliamo la probabilit`a di errore P (e):
P (e) = P (Y = X) = P (01 10) = P (01) + P (10) = P (1|0) P1 (0) + P (0|1) P1 (1)
= q + p = (p + q) = .
Notiamo allora che P (e) = , ovvero la probabilit`a di errore coincide con la probabilit`a di scambio, indipendentemente dalla distribuzione di probabilit`a della sorgente. E`
chiaro allora che determina laffidabilit`a del canale di comunicazione; quanto piu` e`
piccolo (valori tipici sono nellambito da 103 a 109 ), tanto piu` il canale e` affidabile. 7
Possiamo utilizzare il canale binario simmetrico per chiarire meglio il significato di
probabilit`a a priori e a posteriori. Se non osserviamo luscita del canale, potremo dire
che il simbolo emesso dalla sorgente e` 0 con probabilit`a P1 (0) oppure 1 con probabilit`a
P1 (1) (probabilit`a a priori). Se pero` osserviamo luscita del canale, sia ad esempio Y = 1,
tali probabilit`a a priori si trasformano nelle probabilit`a a posteriori:
P (01)
q
=
,
P2 (1)
q + (1 )p
P (11)
(1 ) p
P (X = 1|Y = 1) =
=
.
P2 (1)
q + (1 )p

P (X = 0|Y = 1) =

A dire il vero, osserviamo che un canale con prossimo ad 1, ad esempio = 1 103 , e` altrettanto
affidabile di un canale con = 103 ; infatti il primo canale inverte sistematicamente i simboli, ma questo
puo` facilmente essere compensato alla destinazione. Per evitare questo comportamento paradossale,
considereremo solo valori di in [0, 1/2].
7

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

2.4 Esperimenti combinati

51

Se il canale e` affidabile, ovvero se  1/2, allora si ha:


q
,
q + p
p
P (X = 1|Y = 1)
,
q + p

P (X = 0|Y = 1)

per cui si verifica che P (X = 1|Y = 1)  P (X = 0|Y = 1) (al limite, per 0, si ha


P (X = 1|Y = 1) 1 e P (X = 0|Y = 1) 0); cio` significa che osservare luscita Y = 1
fa aumentare significativamente la probabilit`a che la sorgente abbia emesso il simbolo
1. In questo caso il canale trasmette linformazione dalla sorgente alla destinazione in
maniera affidabile.
E` interessante individuare la condizione di massima incertezza, nella quale P (X =
0|Y = 1) = P (X = 1|Y = 1). Si trova:
q = (1 )p = p .
Impostando un problema analogo per il caso in cui si osserva luscita Y = 0, si ricava
simmetricamente = q. Le due condizioni sono entrambe soddisfatte se p = q = , il
che ovviamente implica = 0.5. Per cui il canale meno affidabile in assoluto e` quello
caratterizzato da = 0.5; si noti che tale canale ha una probabilit`a di errore anchessa
pari a 0.5, cio`e sbaglia il 50% delle volte.
Si puo` facilmente verificare che per un BSC con = 0.5 tutte le probabilit`a congiunte si fattorizzano nel prodotto delle probabilit`a marginali. Questo equivale a dire
che gli spazi di probabilit`a 1 e 2 sono statisticamente indipendenti. E` chiaro che avere
unuscita statisticamente indipendente dallingresso e` la condizione piu` sfavorevole che
possa capitare se si trasmette informazione su un canale di comunicazione; per decidere quale simbolo e` stato trasmesso, una volta osservato un valore delluscita, tanto vale
lanciare una moneta e scegliere X = 0 se esce testa, X = 1 se esce croce (o viceversa).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

52

Probabilit`a condizionale e indipendenza

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 3
Variabili aleatorie
3.1

Introduzione

Nei precedenti capitoli abbiamo mostrato come costruire spazi di probabilit`a a partire da esperimenti i cui risultati non sono necessariamente numerici, quali ad esempio
il lancio di un dado o lestrazione di una carta da un mazzo di carte francesi. Nelle
scienze fisiche e nellingegneria, tuttavia, nasce la necessit`a di descrivere i risultati di
un esperimento e gli eventi associati ad esso in maniera numerica. Un modo semplice di
ottenere cio` consiste nellassociare ad ogni risultato dellesperimento un numero reale;
cio` conduce al fondamentale concetto di variabile aleatoria.
 Esempio 3.1. Consideriamo il lancio di una moneta, il cui spazio campione e` =
{T, C}. Un semplice esempio di variabile aleatoria si ottiene associando al risultato
T il numero 1, ed al risultato C il numero 0.


 Esempio 3.2. Consideriamo il lancio di un dado, e denotiamo lo spazio campione come = {1 , 2 , . . . , 6 }, dove con i abbiamo indicato il risultato che nel lancio si
presenti la i-esima faccia del dado. Possiamo costruire una variabile aleatoria semplicemente associando a i il valore i. Si noti che abbiamo gi`a implicitamente fatto questa
corrispondenza, quando abbiamo assunto come spazio campione per il lancio di un
dado linsieme = {1, 2, . . . , 6}.


 Esempio 3.3. Consideriamo un sondaggio di opinione, nel quale si intervistano 1000


persone, per sapere se sono daccordo oppure no su un certo argomento. Lo spazio
campione associato a tale esperimento e` composto da 21000 risultati, ognuno dei quali
e` una stringa di 1000 simboli, scelti tra S (corrispondente alla risposta s`) ed N (corrispondente alla risposta no), che e` un numero eccezionalmente grande (provate a

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

54

Variabili aleatorie
calcolarlo sulla vostra calcolatrice tascabile!). Tuttavia, nella pratica quello che interessa sapere e` quante persone rispondono s` e quante no. Allora ad ogni punto (stringa)
dello spazio campione possiamo associare il numero dei simboli S presenti nella stringa
stessa, ottenendo un numero intero tra 0 e 1000. In questo modo abbiamo descritto il
problema in maniera piu` semplice e soprattutto piu` aderente alle nostre finalit`a.

Generalizzando, per un dato esperimento, una variabile aleatoria X (Fig. 3.1) e` una
funzione costruita su e che assume valori nellinsieme R = R {, }:
X : X() X R
dove abbiamo denotato con X il codominio della funzione X, ovvero linsieme dei possibili valori assunti da X. Tale funzione deve soddisfare certe condizioni di regolarit`a,
come vedremo meglio nel seguito.

R
3
X( 1 )
X( 3)
X( 2)

Fig. 3.1. Una variabile aleatoria X e` una funzione definita nello spazio campione e a valori in
R = R {, }.

 Esempio 3.4. Consideriamo ancora il lancio di un dado, per il quale lo spazio campione e` = {1 , 2 , . . . , 6 }. Tre diverse variabili aleatorie definite su sono:
1. X(i ) = i;
2. X(i ) = 10 i;

1, se i e` pari;
3. X(i ) =
0, se i e` dispari.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.1 Introduzione

55

Notiamo che qui e nel seguito, in analogia alla notazione comunemente utilizzata in matematica, indicheremo con X la legge di corrispondenza (funzione o variabile aleatoria),
e con X() il valore della funzione in corrispondenza del risultato .

Il successivo passo per una corretta definizione di variabile aleatoria e` capire come, se
e` un insieme dotato di struttura di spazio di probabilit`a, una variabile aleatoria X
costruita su conservi informazioni sulle probabilit`a degli eventi di . A tale scopo,
di fondamentale importanza e` chiarire il significato della notazione
{X x}

(3.1)

per un dato x R. Dal punto di vista numerico, linsieme dei valori reali minori o
uguali di un dato valore x e` una semiretta sinistra (chiusa a destra), che si denota anche
con ] , x]. Tuttavia, il senso della notazione (3.1) e` completamente differente: con

R
3

2
4

{X x}

X( 1)
X( 3)
X( 4)

X( 2)

Fig. 3.2. Levento {X x} e` il sottoinsieme A = {2 , 3 , 4 } di (in bianco), le cui immagini


attraverso X sono minori o uguali ad x.

essa si intende denotare il sottoinsieme A di cos` definito:


A = { tali che X() x} ,
ovvero linsieme dei valori la cui immagine (Fig. 3.2) attraverso la funzione X e`
minore o uguale ad x. 1 Pertanto, {X x} non va considerato come un sottoinsieme di
R, ma come un sottoinsieme di .
1

Ovviamente, lordinamento su R e` tale che x , x R.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

56

Variabili aleatorie
Se allora A = {X x} e` un evento x R, e` possibile calcolarne la probabilit`a.
Inoltre e` possibile calcolare la probabilit`a di {X T }, se tale insieme si puo` ottenere
come complemento, unione o intersezione numerabile di eventi del tipo {X x}, il che
equivale a dire che linsieme numerico T si puo` ottenere come complemento, unione o
intersezione di semirette sinistre.
 Esempio 3.5. Con riferimento allesempio precedente (lancio di un dado) e alla variabile aleatoria definita al punto 2, vale a dire X(i ) = 10 i, si ha:
{X 35} = {1 , 2 , 3 } P (X 35) = 1/2
{X 5} = {} P (X 5) = 0
{20 X 35} = {2 , 3 } P (20 X 35) = 2/6 = 1/3


3.1.1 Definizione di variabile aleatoria


Sulla base dei concetti introduttivi e degli esempi del precedente paragrafo, siamo ora
in grado di dare una definizione formale di variabile aleatoria.2
Definizione (variabile aleatoria). Dato uno spazio di probabilit`a (, B, P ),
una variabile aleatoria (v.a.) X e` una funzione definita in ed a valori in
X R = R {, +}, tale che
1. {X x} e` un evento, x R;
2. P ({X = +}) = P ({X = }) = 0.
Il significato della propriet`a 1 e` stato discusso precedentemente; con la propriet`a 2, per
motivi matematici che qui non e` il caso di approfondire, si consente alla funzione X
di assumere il valore + oppure , ma gli eventi {X = +} e {X = } devono
avere probabilit`a nulla. Infine, una osservazione sulla notazione: bench`e sia piu` corretta
la notazione P ({X x}), che evidenzia la natura di evento di {X x}, nel seguito
useremo quasi sempre la notazione semplificata, ma piu` imprecisa, P (X x).
In conclusione, osserviamo che definire una variabile aleatoria su uno spazio di probabilit`a (, B, P ) equivale in pratica a costruire un nuovo spazio di probabilit`a, nel quale
lo spazio campione diventa X R, gli eventi sono sottoinsiemi di X che si ottengono per
complementazioni, unioni ed intersezioni di semirette sinistre, e la legge di probabilit`a
e` , per cos` dire, indotta dalla legge di probabilit`a P .
2

Osserviamo che il termine variabile aleatoria e` fuorviante, trattandosi piuttosto di una funzione
aleatoria; tuttavia esso e` quello piu` comunemente utilizzato.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.2 Funzione di distribuzione cumulativa (CDF)

3.2

57

Funzione di distribuzione cumulativa (CDF)

La funzione che esprime la probabilit`a dellevento {X x} al variare di x in R prende


il nome di funzione di distribuzione cumulativa (CDF) della variabile aleatoria X.
Definizione (funzione di distribuzione cumulativa). Data una variabile aleatoria X, la sua funzione di distribuzione cumulativa (CDF) e` :
F (x)  P (X x),

x R .

Ha senso calcolare questa probabilit`a perch`e nella definizione di variabile aleatoria abbiamo richiesto (propriet`a 1) che {X x} sia un evento, x R. Notiamo anche che,
sebbene il codominio di X sia X, la CDF e` definita in tutto R.
In alternativa alla notazione F (x), useremo la notazione FX (x) quando vorremo specificare esplicitamente che si tratta della CDF della variabile aleatoria X (quindi, ad
esempio, quando avremo a che fare con piu` variabili aleatorie). Osserviamo esplicitamente che il pedice X (maiuscolo) rappresenta la variabile aleatoria (ovvero la legge di
corrispondenza), mentre la variabile indipendente della funzione x (minuscolo) e` un
numero reale. Notazioni come FX (y) oppure FX (w) sono ovviamente lecite.
 Esempio 3.6. Si consideri la variabile aleatoria definita su = {T, C} nel seguente
modo:
X(T ) = 1 ,
X(C) = 0 .
Se P (T ) = p e P (C) = q, con p + q = 1, la CDF di X e` la seguente:

0, x < 0 ;
F (x) = q, 0 x < 1 ;

1, x > 1 .
Infatti:
- per x < 0, si ha F (x) = P (X x) = P (X x < 0) = P () = 0;
- per 0 x < 1, si ha F (x) = P (X x) = P (X = 0) = P (C) = q;
- per x 1, si ha F (x) = P (X x) = P ({X = 0} {X = 1}) = P (C) + P (T ) =
q + p = 1.
Osserviamo che tale CDF (Fig. 3.3) ha un andamento costante a tratti. Si parla in questo
caso di variabile aleatoria discreta (cfr. 3.2.2).


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

58

Variabili aleatorie
F(x)

F(x)

q
1/6
1

10

Fig. 3.3. La CDF F (x) della variabile


aleatoria dellesempio 3.6.

20

30

40

50

60

Fig. 3.4. La CDF F (x) della variabile


aleatoria dellesempio 3.7.

 Esempio 3.7. Sia = {1 , 2 , 3 , 4 , 5 , 6 }, con risultati equiprobabili, e si consideri


la variabile aleatoria X(i ) = 10 i. La CDF si calcola facilmente:

0,
x < 10 ;

1/6,
10 x < 20 ;

20 x < 30 ;
2/6,
F (x) = 3/6,
30 x < 40 ;

4/6,
40 x < 50 ;

5/6,
50 x < 60 ;

1,
x 60 ;
ed, anche in questo caso, ha un andamento costante a tratti (Fig. 3.4) per cui X e` una
variabile aleatoria discreta (cfr. 3.2.2).

 Esempio 3.8. Consideriamo lesperimento consistente nellarrivo a caso di una telefonata nellintervallo [0, T ], e denotiamo con t listante di arrivo della telefonata. Lo spazio
campione e` = [0, T ], gli eventi sono complementi, unioni ed intersezioni numerabili
di intervalli aperti ]a, b[ . Come legge di probabilit`a, porremo (legge uniforme):
P (t (a, b)) =

ba
,
T

con 0 a b T .

Essendo il risultato dellesperimento gi`a numerico, possiamo definire una variabile


aleatoria su semplicemente come la trasformazione identica
X(t) = t .
E` allora semplice calcolare la CDF:

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.2 Funzione di distribuzione cumulativa (CDF)


F(x)

59
F(x)

Fig. 3.5. La CDF F (x) della variabile


aleatoria dellesempio 3.8.

Fig. 3.6. La CDF F (x) della variabile


aleatoria dellesempio 3.9.

- per x < 0, si ha F (x) = P (X x) = P (X x < 0) = P () = 0;


- per 0 x < T , si ha F (x) = P (X x) = P (0 X x) = x/T ;
- per x T , si ha F (x) = P (X x) = P (0 X T ) = T /T = 1.
In questo caso la CDF (Fig. 3.5) non e` una funzione costante a tratti, ma e` una funzione
continua su tutto linsieme di definizione. Si parla allora di variabile aleatoria continua
(cfr. 3.2.2).

 Esempio 3.9. Sia X una variabile aleatoria definita su un qualunque spazio campione
nel seguente modo:
X() = a,

In tal caso, il calcolo della CDF si effettua come segue:


- per x < a, si ha F (x) = P (X x) = P (X x < a) = P () = 0;
- per x a, si ha F (x) = P (X x) = P () = 1.
Tale CDF (Fig. 3.6) e` una funzione costante a tratti, per cui la variabile aleatoria e`
discreta (cfr. 3.2.2).


3.2.1 Propriet`a della CDF


I precedenti esempi hanno mostrato che la CDF di una variabile aleatoria e` una funzione a valori in [0, 1] e non decrescente. Oltre a queste due evidenti propriet`a, la CDF
possiede altre propriet`a, riassunte e dimostrate di seguito:3

Nelle formule che seguono, con F (x+


0 ) e F (x0 ) intendiamo il limite da destra e da sinistra della
+
funzione F (x) nel punto x0 , ovvero F (x0 )  lim0 F (x0 + ) e F (x
0 )  lim0 F (x0 ), con > 0.
3

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

60

Variabili aleatorie
1. F (+) = 1, F () = 0.
Prova. Si ha, banalmente, F (+) = P (X +) = P () = 1 e F () = P (X ) = P (X =
) = 0 (per la seconda, si sfrutta la propriet`a 2 della definizione di variabile aleatoria).

2. F (x) e` una funzione monotona crescente, ovvero x1 < x2 F (x1 ) F (x2 ).


Prova. Infatti, se x1 < x2 , si ha che {X x1 } {X x2 } e quindi, per le propriet`a elementari
della probabilit`a, P (X x1 ) P (X x2 ), da cui lasserto.

Notiamo che, se F (x0 ) = 0, in base a tale propriet`a risulta F (x) = 0, x x0 .


Conseguentemente, se X() > 0, , risulta F (0) = P (X 0) = 0 e quindi
F (x) = 0 per x 0. Una tale variabile aleatoria si dice positiva, ed ha pertanto
CDF identicamente nulla, x 0.
3. P (X > x) = 1 F (x).
Prova. Basta osservare che {X x} {X > x} = , e che i due eventi sono mutuamente esclusivi,
per cui P (X x) + P (X > x) = P () = 1, da cui lasserto.

La funzione F (x)  1 F (x) prende il nome di CDF complementare o anche di


funzione di affidabilit`a.4
4. F (x) e` continua da destra, ovvero F (x+ ) = F (x).
Prova. Dobbiamo provare che lim0 F (x + ) = F (x), per > 0. Notiamo che F (x + ) = P (X
x + ), e si ha:
{X x + } = {X x} + {x < X x + }
con i due eventi a secondo membro mutuamente esclusivi. Si ha allora:
P (X x + ) = P (X x) + P (x < X x + )
Poiche, per 0, il secondo insieme tende allinsieme vuoto, allora:
lim P (X x + ) = P (X x) = F (x)

cio`e lasserto.

5. P (x1 < X x2 ) = F (x2 ) F (x1 ).


Prova. Per levento {x1 < X x2 }, vale la seguente identit`a:
{X x1 } {x1 < X x2 } = {X x2 }
4

La denominazione di funzione di affidabilit`a deriva dal fatto che, se si interpreta la variabile aleatoria X come il tempo di vita di un dispositivo, la funzione F (x) descrive la probabilit`a che il dispositivo
viva per un tempo maggiore o uguale a x, e quindi misura laffidabilit`a del dispositivo stesso.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.2 Funzione di distribuzione cumulativa (CDF)

61

nella quale i due eventi a primo membro sono mutuamente esclusivi, per cui:
P (X x1 ) +P (x1 < X x2 ) = P (X x2 )





=F (x1 )

=F (x2 )

da cui si ha lasserto.

6. P (X = x) = F (x) F (x ).
Prova. Dalla propriet`a 5, per x1 = x e x2 = x, si ha:
P (x < X x) = F (x) F (x )
con > 0. Passando al limite per 0, levento {x < X x} tende a {X = x}, per cui:
P (X = x) = F (x) F (x )


cio`e lasserto.

7. P (x1 X x2 ) = F (x2 ) F (x
1 ).
Prova. Si ha, banalmente,
{x1 X x2 } = {x1 < X x2 } {X = x1 }
e gli eventi a secondo membro sono mutuamente esclusivi. Si ha allora, per le propriet`a 5 e 6,
P (x1 X x2 ) = P (x1 < X x2 ) + P (X = x1 ) = F (x2 ) F (x1 ) + F (x1 ) F (x
1)=
= F (x1 ) F (x
)
1
cio`e lasserto.

3.2.2 Variabili aleatorie discrete, continue, miste


La variabile aleatoria X si dir`a discreta se la sua CDF F (x) e` una funzione costante a
tratti (Figg. 3.3, 3.4,3.6). In tal caso, detti xi i punti di discontinuit`a di F (x), si ha, per la
propriet`a 6 della CDF,

0, se x = xi e` un punto di continuit`a;

P (X = x) = F (x) F (x ) =
pi , se x = xi e` un punto di discontinuit`a.
Quindi in pratica una variabile aleatoria discreta X assume i valori xi con probabilit`a pi
date dai valori dei salti di discontinuit`a della sua CDF, e pertanto linsieme X dei valori
assunti da X e` un insieme discreto, cio`e X = {x1 , x2 , . . . }.
Un caso particolare di variabili aleatorie discrete sono quelle di tipo reticolare, caratterizzate dal fatto che i valori assunti xi sono equispaziati (appartengono, cio`e, ad un
reticolo monodimensionale), e si puo` porre quindi xk = a + bk, con a, b R e k K Z.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

62

Variabili aleatorie
La variabile aleatoria X si dir`a continua se la sua CDF F (x) e` una funzione continua
(Fig. 3.5). La continuit`a di F (x) implica che F (x) = F (x+ ) = F (x ) e quindi P (X =
x) = 0, x R. In altri termini, una variabile aleatoria continua assumer`a ogni valore
con probabilit`a nulla. Linsieme X dei valori assunti da una variabile aleatoria continua
e` un insieme continuo, quale ad esempio un intervallo (a, b), o anche tutto R.
Infine, la variabile aleatoria X si dir`a mista se la sua CDF F (x) e` discontinua, ma non
costante a tratti. Linsieme X dei valori assunti da X sar`a lunione di un insieme continuo, ad esempio un intervallo, e di un insieme discreto. Esempi di variabili aleatorie
miste saranno presentati nel Cap. 4.
 Esempio 3.10 (variabile aleatoria indicatrice di un evento). Sia uno spazio campione qualunque, e sia A un evento di . Definiamo una variabile aleatoria XA su come
segue:

1, se A;
XA () =
0, se A.
Tale variabile aleatoria XA e` di tipo discreto, in quanto assume solo i valori 0 ed 1 con le
seguenti probabilit`a:
P (XA = 1) = P ( A) = P (A) ;
P (XA = 0) = P ( A) = 1 P (A) ;
e quindi la sua CDF e` a costante a tratti e, se poniamo p = P (A), e` la stessa di quella
dellesempio 3.6 (Fig. 3.3). Tale variabile aleatoria prende il nome di variabile aleatoria
indicatrice dellevento A.

Lultimo esempio mette in evidenza che e` possibile costruire variabili aleatorie discrete
su un qualunque spazio di probabilit`a (discreto o continuo). Osserviamo infatti che, se
e` uno spazio di probabilit`a discreto, tutte le variabili aleatorie costruite su saranno
necessariamente discrete. Se invece e` uno spazio di probabilit`a continuo, su di esso
e` possibile costruire sia variabili aleatorie continue che discrete (e ovviamente anche
miste).

3.2.3 Percentile e mediana 


I concetti di percentile e mediana si ottengono direttamente a partire dalla definizione di
CDF.
Definizione (percentile). Dato u [0, 1], il percentile u-esimo di una variabile
aleatoria e` il piu` piccolo numero xu tale che
u = P (X xu ) = F (xu ) .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.2 Funzione di distribuzione cumulativa (CDF)

63

F(x)

F(x)

1
0.75

1
0.5

u
xu

x 0.75

Fig. 3.7. Il percentile u-esimo della variabile aleatoria X con CDF F (x) e` xu ; x0.75 rappresenta il valore che non e` superato con
probabilit`a 0.75 (quartile superiore).

m=x 0.5

Fig. 3.8. La mediana m della variabile aleatoria X con CDF F (x) e` il valore che non e`
superato con probabilit`a 0.5 (coincide con
il percentile x0.5 ).

Osserviamo che u deve necessariamente assumere valori in [0, 1], perch`e rappresenta un
valore di probabilit`a. Linterpretazione del percentile e` la seguente (Fig. 3.7): il percentile xu rappresenta quel valore della variabile aleatoria che non e` superato con probabilit`a
pari ad u. Ad esempio, posto u = 0.75, il percentile x0.75 rappresenta quel valore che non
e` superato nel 75% dei casi, e viene chiamato quartile superiore. Similmente, il percentile x0.25 rappresenta il valore che non e` superato con probabilit`a 0.25, e viene chiamato
quartile inferiore. E` chiaro che se F (x) e` una funzione invertibile, allora si ha
xu = F 1 (u) ,
e quindi la curva che fornisce i percentili si ottiene semplicemente considerando linversa della CDF, ovvero scambiando gli assi del diagramma cartesiano di F (x). In pratica e` sufficiente che la CDF sia localmente invertibile in corrispondenza del punto u.
Se la CDF non e` invertibile, e` possibile ancora determinare il percentile graficamente
scambiando gli assi della CDF.
Definizione (mediana). La mediana e` il percentile per u = 0.5, ovvero e` il piu`
piccolo numero m che soddisfa la relazione:
F (m) = 0.5 .
Per determinare la mediana (Fig. 3.8) valgono considerazioni analoghe a quelle effettuate per il percentile, essendo di fatto m = x0.5 . Osserviamo che la mediana e` un primo
esempio di grandezza media relativa ad una variabile aleatoria: nel seguito incontreremo
altre grandezze simili, quali la media statistica e la moda.
 Esempio 3.11. Consideriamo la CDF F (x) dellesempio 3.8, diagrammata in Fig. 3.5.
Poich`e landamento di F (x), per x [0, T ], e` lineare, e` immediato invertirla per ottenere

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

64

Variabili aleatorie
il percentile. Si ha:
u = F (xu ) =

xu
xu = T u
T

per cui il quartile inferiore e` x0.25 = 0.25 T , quello superiore e` x0.75 = 0.75 T , e la mediana
e` m = 0.5 T .


3.3

Funzione densit`a di probabilit`a (pdf)

Accanto alla CDF, la funzione densit`a di probabilit`a (pdf) gioca un ruolo fondamentale
nella descrizione di una variabile aleatoria X.
Definizione (densit`a di probabilit`a). La funzione densit`a di probabilit`a (pdf)
di una variabile aleatoria X e` la derivata della CDF F (x):
f (x) 

d
F (x) .
dx

(3.2)

Per quanto riguarda la notazione, useremo anche qui la notazione fX (x) quando vorremo specificare esplicitamente che si tratta della pdf di X.
Nella (3.2), la derivata va intesa in senso generalizzato, ovvero possono comparire
degli impulsi di Dirac5 in corrispondenza delle discontinuit`a di F (x). A tale proposito,
osserviamo che se la variabile aleatoria X e` continua, F (x) e` una funzione continua, e
quindi la pdf f (x) non puo` contenere impulsi. Viceversa, se X e` discreta, F (x) e` costante
a tratti, con salti di discontinuit`a in corrispondenza dei valori xi : lampiezza dei salti di
discontinuit`a rappresenta (per la propriet`a 6 della CDF) la probabilit`a pi che la variabile
aleatoria assuma il valore xi . Pertanto, derivando tale CDF, si ottiene una pdf costituita
da soli impulsi di Dirac, centrati nei valori discreti xi X:
f (x) =

pi (x xi ) ,

xi X

dove pi  P (X = xi ). Infine, se X e` mista, la pdf conterr`a una parte continua (la derivata
convenzionale) e impulsi di Dirac in corrispondenza delle discontinuit`a di F (x).
 Esempio 3.12. Consideriamo la CDF F (x) dellesempio 3.6, diagrammata in Fig. 3.3.
Poich`e si tratta di una variabile aleatoria discreta (CDF costante a tratti), la pdf sar`a
5

Si suppone che il lettore conosca la definizione e le propriet`a dellimpulso di Dirac; tali propriet`a sono
comunque brevemente richiamate nellAppendice C.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.3 Funzione densit`a di probabilit`a (pdf)

65

f(x)

f(x)

area = q
area = p

1/T

Fig. 3.9. La pdf f (x) della variabile aleatoria dellesempio 3.12.

Fig. 3.10. La pdf f (x) della variabile


aleatoria dellesempio 3.13.

una somma di impulsi di Dirac. Applicando le propriet`a di derivazione dellimpulso di


Dirac, si trova
f (x) = q (x) + p (x 1) ,
che e` raffigurata in Fig. 3.9. Un risultato analogo si ottiene per le CDF degli esempi 3.7
e 3.9.

 Esempio 3.13. Consideriamo la CDF F (x) dellesempio 3.8, diagrammata in Fig. 3.5.
Poich`e si tratta di una variabile aleatoria continua (con CDF quindi continua), la pdf
non conterr`a impulsi di Dirac, ma la derivata si calcoler`a in senso ordinario. Si ha:

1 , se x ]0, T [;
f (x) = T
0 , se x ] , 0[]T, [;
che e` raffigurata in Fig. 3.10. Notiamo che la derivata (e quindi la pdf) non e` definita
` tuttavia, non rapnei punti x = 0 e x = T (punti angolosi della curva della CDF). Cio,
presenta un problema perch`e, come vedremo, la pdf viene utilizzata sempre allinterno
di un integrale, e quindi i valori assunti in punti isolati non giocano alcun ruolo.


3.3.1 Propriet`a della pdf


Di seguito sono elencate le principali propriet`a della pdf di una variabile aleatoria X.
1. f (x) 0.
Prova. La dimostrazione discende dal fatto che F (x) e` una funzione monotona crescente, e quindi
la sua derivata e` non negativa. In corrispondenza delle discontinuit`a, la propriet`a va interpretata
nel senso che gli impulsi di Dirac ivi presenti hanno area positiva.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

66

Variabili aleatorie

2. F (x) =

f (y) dy.

Prova. Poich`e f (x) 

d
dx F (x),

integrando ambo i membri si ha:




f (y) dy =

d
F (y) dy = F (x) F () .
dy


Ma F () = 0 per cui ho lasserto.


3.

f (x) dx = 1.

Prova. Dalla propriet`a 2, per x = +, si ha lasserto, tenendo conto che F (+) = 1.


4. P (x1 < X x2 ) = F (x2 ) F (x1 ) =

x2

f (x) dx.
x1

Prova. Per la propriet`a 5 della CDF, e per la propriet`a 2 precedente, si ha:


 x2
 x1

P (x1 < X x2 ) = F (x2 ) F (x1 ) =
f (y) dy
f (y) dy =

x2

f (y) dy

x1

Notiamo che, se X e` continua, allora


 x2P (X = x1 ) = 0, per cui P (x1 X x2 ) =
P (X = x1 ) + P (x1 < X x2 ) = x1 f (x) dx. In altri termini, se X e` una variabile aleatoria continua, la probabilit`a di eventi del tipo X (x1 , x2 ) e` la stessa,
indipendentemente dal fatto che gli estremi x1 ed x2 si considerino appartenenti
allintervallo oppure no.
5. X continua P (x X x + x) f (x) x, per x  1.
Prova. Dalla propriet`a 4 (vedi osservazione precedente per il caso di X continua), ponendo x1 = x
e x2 = x + x si ha:

P (x X x + x) =

x+x

f (y) dy f (x) x .

Notiamo che questultima propriet`a giustifica il nome di densit`a di probabilit`a:


infatti da essa discende che:
f (x)

P (x X x + x)
x

e quindi il valore f (x) nel punto x rappresenta la probabilit`a che X assuma valori
in un intervallo (x, x + x) di x, divisa per lampiezza dellintervallo x, cio`e

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.4 Funzione distribuzione di probabilit`a (DF)

67
f(x)

f(x)

massimi locali

massimo locale

xm

Fig. 3.11. La moda xm della variabile aleatoria X corrisponde ad un massimo locale. La pdf f (x) in figura ha una sola moda,
quindi e` unimodale.

x m1

x m2

Fig. 3.12. La pdf f (x) in figura ha due


mode xm1 ed xm2 , corrispondenti a due
massimi locali, quindi e` multimodale.

proprio una densit`a di probabilit`a. Per questo motivo, poiche f (x) e` una densit`a di
probabilit`a e non una probabilit`a, puo` assumere valori maggiori di 1.
Osserviamo inoltre che, per la stessa propriet`a, la probabilit`a che X [x, x + x] e`
proporzionale (se x  1) a f (x) ed e` (localmente) massima se [x, x+x] contiene
il valore xm dove f (x) e` (localmente) massima. Ognuno di tali punti xm si dice un
valore modale o una moda, e rappresenta un valore (localmente) piu` probabile di X
(Fig. 3.11). Una variabile aleatoria si dice unimodale se ha un solo valore modale
(Fig. 3.11), altrimenti si dice multimodale (Fig. 3.12).
Notiamo in conclusione che, come gi`a osservato, definire una variabile aleatoria significa, in sostanza, sostituire allo spazio di probabilit`a (, B, P ) un nuovo spazio di probabilit`a, in cui lo spazio campione e` X R. Se, in particolare, la variabile aleatoria e`
continua, allora X R e` un insieme continuo, per cui la definizione di una legge di
probabilit`a su tale insieme avviene, come descritto nel 1.6.2, definendo una funzione
densit`a di probabilit`a f (x) che, di fatto, possiamo adesso interpretare come la pdf di
una variabile aleatoria X (si noti in particolare che vale la condizione di normalizzazione (1.6) tipica delle pdf). In definitiva, allora, definire una legge di probabilit`a su uno
spazio continuo e` equivalente ad assegnare la pdf di una variabile aleatoria X. Il lettore
e` invitato a rileggere il 1.6.2 alla luce di questa interpretazione.

3.4

Funzione distribuzione di probabilit`a (DF)

Abbiamo visto che, se X e` una variabile aleatoria discreta, essa assume solo i valori
xi X con probabilit`a pi , e pertanto la sua pdf e` di tipo puramente impulsivo (esempio
3.6). In tal caso, appare piu` semplice e immediato, in luogo della CDF o pdf, definire

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

68

Variabili aleatorie
p(x)
p
q

Fig. 3.13. La DF p(x) della variabile aleatoria dellesempio 3.14.

una funzione che restituisca direttamente le probabilit`a con cui la variabile aleatoria
assume i suoi valori. Tale funzione prende il nome di funzione distribuzione di probabilit`a
(DF).
Definizione (distribuzione di probabilit`a). La funzione distribuzione di probabilit`a (DF) di una variabile aleatoria discreta X a valori in X e` :
p(x) = P (X = x)

(3.3)

con x X.
Anche per la DF, come per la CDF e la pdf, utilizzeremo la notazione pX (x) quando
vorremo esplicitamente denotare che essa si riferisce alla variabile aleatoria X.
 Esempio 3.14. Si consideri la variabile aleatoria dellesempio 3.6, che assume i due
valori X = 1 con probabilit`a p e X = 0 con probabilit`a q. La DF di X e` :

q, x = 0 ;
p(x) =
p, x = 1 ;
ed e` raffigurata in Fig. 3.13. Si noti che la pdf (Fig. 3.9) della stessa variabile aleatoria e` :
f (x) = q (x) + p (x 1)
Il vantaggio nelluso della DF e` quello di disporre di una funzione che non contiene
impulsi di Dirac.

Notiamo esplicitamente che per una variabile aleatoria continua non ha senso introdurre la DF, in quanto essa risulterebbe identicamente nulla, x X, perche una variabile
aleatoria continua assume tutti i valori di X con probabilit`a zero. Per lo stesso motivo, la DF fornisce una descrizione incompleta di una variabile aleatoria mista, e non e`
utilizzata neanche in questo caso.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.4 Funzione distribuzione di probabilit`a (DF)

69

3.4.1 Propriet`a della DF


La DF gode delle seguenti propriet`a, che presentano una stretta analogia con quelle
della pdf.
1. p(x) 0.


Prova. La prova e` banale perch`e p(x) e` una probabilit`a.

2. F (x) =

p(u).

uX,ux

Prova. Si ha, sfruttando le propriet`a elementari della probabilit`a,




F (x) = P (X x) = P (uX {X = u}) =


ux

P (X = u) =

uX,ux

p(u) .

uX,ux

3.

p(xi ) = 1.

xi X

Prova. Si ricava dalla precedente; infatti:


F (+) = 1 =

p(u) =

uX,u+

p(u) .

uX

4. p(x1 < X x2 ) =

p(u).

u]x1 ,x2 ]X

Prova. Si ha:
P (x1 < X x2 ) = P (u]x1 ,x2 ]X {X = u}) =


u]x1 ,x2 ]X

P (X = u) =

p(u) .

u]x1 ,x2 ]X

Concludiamo osservando che la CDF, pdf e DF di una variabile aleatoria sono collettivamente denominate funzioni di distribuzione della variabile aleatoria: per caratterizzazione
statistica di una variabile aleatoria, allora, si intende la conoscenza di almeno una tra le
sue funzioni di distribuzione.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

70

Variabili aleatorie

3.5

Esempi di variabili aleatorie

Nel corso del capitolo, abbiamo introdotto le variabili aleatorie come funzioni definite
su uno spazio campione , dotato di struttura di spazio di probabilit`a. Tale definizione richiede lindividuazione esplicita di un esperimento aleatorio e la descrizione dello
spazio di probabilit`a costruito su di esso. Daltra parte, nella pratica spesso si introducono variabili aleatorie semplicemente assegnando la loro funzioni di distribuzione:
tale semplificazione e` possibile in virtu` del seguente teorema di esistenza, che enunciamo
senza dimostrazione (gli interessati vedano [3, cap. 4.3]).
Teorema 3.1 (teorema di esistenza). Data una funzione F (x) che soddisfa
le propriet`a
x
di CDF (o alternativamente data una funzione f (x) tale che F (x) = f (y) dy soddisfi

le propriet`a di CDF, o una funzione p(x) tale che F (x) = uX,ux p(u) soddisfi le propriet`a di CDF), e` possibile costruire uno spazio di probabilit`a (, , P ) e una variabile
aleatoria X con CDF F (x) (o pdf f (x), o DF p(x)).
Sulla base di questo teorema, generalmente introdurremo le variabili aleatorie attraverso le loro funzioni di distribuzione (CDF, pdf o DF), senza specificare esplicitamente lesperimento su cui sono definite. In particolare, nel seguito del paragrafo introdurremo
alcune delle variabili aleatorie piu` comunemente utilizzate.

3.5.1 Variabili aleatorie discrete


Per le variabili discrete, riporteremo la descrizione in termini di funzione di distribuzione di probabilit`a (DF), lasciando per esercizio al lettore di ricavare le corrispondenti
pdf e CDF, peraltro scarsamente utilizzate nel caso discreto. Notiamo preliminarmente
che tutte le variabili aleatorie discrete che introdurremo saranno di tipo reticolare.
Variabile aleatoria di Bernoulli
La variabile aleatoria X si dice di Bernoulli o bernoulliana, e si denota X Bern(p),
se essa assume il valore 1 con probabilit`a p ed il valore 0 con probabilit`a q = 1 p
(X = {0, 1}), per cui la sua DF e` (Fig. 3.14):

q, se k = 0;
p(k) =
p, se k = 1.
Notiamo che una variabile aleatoria di Bernoulli si puo` anche interpretare come variabile aleatoria indicatrice di un evento A che si verifica con probabilit`a p (vedi esempio
3.10).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.5 Esempi di variabili aleatorie

71

0.2

0.9

0.18
0.16

0.7

0.14

0.6

0.12
p(x)

p(x)

0.8

0.5

0.1

0.4

0.08

0.3

0.06

0.2

0.04

0.1

0.02

0
1

Fig. 3.14. La DF p(x) di una variabile


aleatoria bernoulliana (p = 0.4).

0
0

10
x

15

20

Fig. 3.15. La DF p(x) di una variabile


aleatoria binomiale (n = 20, p = 0.4).

Variabile aleatoria binomiale


La variabile aleatoria X si dice binomiale di parametri n > 0 e p [0, 1], e si denota
X B(n, p), se la sua DF (Fig. 3.15) e` la seguente:
 
n k nk
p(k) =
p q
,
k X = {0, 1, . . . , n} ,
k
con q = 1p. I valori della DF hanno somma unitaria (propriet`a 3 della DF), come si puo`
facilmente provare utilizzando il teorema binomiale (cfr. Appendice A). Osserviamo
che una variabile aleatoria bernoulliana si puo` riguardare come un caso particolare (per
n = 1) della variabile aleatoria binomiale, ovvero le notazioni X Bern(p) e X B(1, p)
sono equivalenti.
Lespressione della DF p(k) di una variabile aleatoria binomiale e` esattamente la stessa della probabilit`a pn (k) caratteristica di un esperimento di prove ripetute (cfr. 2.4.2).
Pertanto, la variabile aleatoria X B(n, p) si puo` interpretare proprio come il numero
di volte che si verifica un evento A, di probabilit`a p, in n prove ripetute e statisticamente
indipendenti.
Variabile aleatoria binomiale negativa
La variabile aleatoria X si dice binomiale negativa di parametri r > 0 e p [0, 1] e si
denota X NB(r, p), se la sua DF (Fig. 3.16) e` la seguente:


r+k1 r k
p(k) =
pq ,
k X = {0, 1, . . . } ,
k
con q = 1 p. Il nome binomiale negativa discende dal fatto che, per provare che la
somma dei valori della DF e` pari ad uno (propriet`a 3 della DF), e` necessario sfruttare

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

72

Variabili aleatorie
0.1
0.09
0.08
0.07

p(x)

0.06
0.05
0.04
0.03
0.02
0.01
0
0

10

15

20
x

25

30

35

40

Fig. 3.16. La DF p(x) di una variabile aleatoria binomiale negativa (n = 20, p =


0.6).

lespansione binomiale negativa (equazione (A.5) in Appendice A). Infatti, si ha:


k=0

p(k) = p




r+k1
k=0

q k = pr (1 q)r = 1 .

 Esempio 3.15. Come la variabile aleatoria binomiale, anche la variabile aleatoria binomiale negativa e` associata al problema delle prove ripetute. Supponiamo infatti di voler
calcolare la distribuzione di probabilit`a della variabile aleatoria Y che rappresenta la
prova in cui si verifica lr-esimo successo. Evidentemente, Y potr`a assumere i valori
r, r + 1, r + 2, . . . , in quanto, per avere r successi e` , necessario effettuare almeno r prove.
Daltra parte, lr-esimo successo si verificher`a nella prova h r se e solo se si verificano
i seguenti due eventi:
A = {nelle h 1 prove precedenti, si hanno r 1 successi};
ha una
 r1evento
 tale
hr
p
probabilit`a, descritta dalla legge binomiale, pari a P (A) = h1
q
;
r1
B = {nella h-esima prova, si ha un successo}; tale evento ha probabilit`a pari a
P (B) = p.
Poiche gli eventi A e B sono indipendenti, si ha:




h 1 r hr
h 1 r1 hr
p=
p q
P (Y = h) = P (A) P (B) =
p q
r1
r1
per h = r, r + 1, . . . , che puo` essere semplicemente espressa in termini di una variabile
aleatoria binomiale negativa. Infatti, poiche h r, basta porre h = r + k, con k 0, e

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.5 Esempi di variabili aleatorie

73

0.5
0.45
0.4
0.35

p(x)

0.3
0.25
0.2
0.15
0.1
0.05
0
0

10

15

Fig. 3.17. La DF p(x) di una variabile


aleatoria geometrica (p = 0.4).

far riferimento ad una variabile X = Y r che puo` assumere i valori k = 0, 1, . . . . Si ha


in tal caso:


r+k1 r k
P (X = k) = P (Y = r + k) =
p q
k
dove si sono sfruttate le propriet`a del coefficiente binomiale (cfr. Appendice A). Notiamo allora che risulta X NB(r, p), che possiamo interpretare come la distribuzione
del numero di prove che bisogna effettuare, successivamente alla r-esima, per ottenere
lr-esimo successo.


Variabile aleatoria geometrica


La variabile aleatoria X si dice geometrica di parametro p [0, 1] e si denota X
Geom(p), se la sua DF (Fig. 3.17) e` la seguente:
p(k) = p q k1

k X = {1, 2, . . . , } ,

con q = 1 p. Per provare che i valori della DF hanno somma unitaria, basta sfruttare
la formula per la somma di una serie geometrica:


k=1

p(k) = p


k=1

q k1 = p


k=0

qk =

p
=1.
1q

 Esempio 3.16. Come la variabile aleatoria binomiale negativa, anche la variabile aleatoria geometrica e` associata al problema delle prove ripetute. Infatti, se denotiamo con

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

74

Variabili aleatorie
0.2
0.18
0.16
0.14

p(x)

0.12
0.1
0.08
0.06
0.04
0.02
0
0

10

15

Fig. 3.18. La DF p(x) di una variabile aleatoria di Poisson ( = 5).

X il numero di prove che intercorrono tra due successi consecutivi, tale variabile aleatoria assumer`a valori in 1, 2, . . . . Evidentemente, ci saranno k prove tra due successi
consecutivi se e solo se si presenter`a una sequenza di k 1 insuccessi seguiti da un successo, il che avviene con probabilit`a q k1 p, data lindipendenza tra i successi in prove
distinte. Pertanto, X e` proprio una variabile aleatoria geometrica X Geom(p).


Variabile aleatoria di Poisson


La variabile aleatoria X si dice di Poisson6 o poissoniana di parametro > 0, e si denota
X Poiss(), se la sua DF (Fig. 3.18) e` la seguente:
p(k) =

k
e ,
k!

k X = {0, 1, . . . } .

Sfruttando lo sviluppo in serie di Mc-Laurin della funzione esponenziale, si dimostra


facilmente che i valori della DF hanno somma unitaria:


k=0

p(k) = e


k
k=0

k!

= e e = 1 .

E` possibile mostrare che anche la variabile aleatoria di Poisson e` legata al problema delle
prova ripetute; in particolare, essa rappresenta unapprossimazione della distribuzione
binomiale per p piccolo al divergere di n, con il prodotto = n p costante (vedi [1, pagg.
153154]).
6

Dallo studioso Simeon D. Poisson (17811840).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.5 Esempi di variabili aleatorie

75

1.5

1.2

0.8

f(x)

F(x)

0.5

0.6

0.4

0.2

0
1

0.5

0.5
x

1.5

Fig. 3.19. La pdf f (x) di una variabile


aleatoria uniforme (a = 0, b = 1).

0
1

0.5

0.5
x

1.5

Fig. 3.20. La CDF F (x) di una variabile


aleatoria uniforme (a = 0, b = 1).

3.5.2 Variabili aleatorie continue


A differenza di quelle discrete, le variabili aleatorie continue sono descritte tipicamente
attraverso la pdf e la CDF (risultando la DF identicamente nulla).
Variabile aleatoria uniforme
La variabile aleatoria X si dice uniforme nellintervallo (a, b), con a b, e si denota
X U(a, b), se la sua pdf e` (Fig. 3.19):

1 , x [a, b] ;
f (x) = b a
0,
altrove.
La CDF (Fig. 3.20) si calcola facilmente per integrazione, e vale:

0,
x ] , a[ ;

x a
, x [a, b] ;
F (x) =

ba

1,
x ]b, [ .

Variabile aleatoria gaussiana


La variabile aleatoria X si dice gaussiana o normale, e si denota X N(, ), se la sua
pdf (Fig. 3.21) e` :
(x)2
1
f (x) = e 22 ,
2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

76

Variabili aleatorie
0.5

1.2

0.45

0.4
0.35

0.8
F(x)

f(x)

0.3
0.25

0.6

0.2

0.4

0.15
0.1

0.2
0.05
0
4

0
x

0
4

Fig. 3.21. La pdf f (x) di una variabile


aleatoria gaussiana ( = 0, = 1).

0
x

Fig. 3.22. La CDF F (x) di una variabile


aleatoria gaussiana ( = 0, = 1).

con , R e > 0. Osserviamo che non e` possibile calcolare la CDF in forma chiusa,
per cui scriviamo:


F (x) =

(y)2
1
e 22 dy = G
2


(3.4)

dove, dopo un banale cambio di variabile, abbiamo espresso la F (x) (Fig. 3.22) in
termini della funzione G(x), gi`a definita nel 2.4.3,
1
G(x) 
2

y2

e 2 dy .

In particolare, dalla (3.4), notiamo che G(x) rappresenta la CDF di una variabile aleatoria gaussiana standard con = 0 e = 1. Le principali propriet`a della funzione G(x)
sono riportate in Appendice B, insieme con grafici, tabelle e programmi Matlab utili per
il calcolo.
Una forma alternativa per la CDF di una variabile aleatoria gaussiana si puo` ottenere
definendo la funzione Q(x) (piu` nota, con terminologia inglese, come Q-function)
1
Q(x) = 1 G(x) =
2

y2

e 2 dy

(3.5)

che rappresenta la CDF complementare di una variabile aleatoria gaussiana con = 0


e = 1, e pertanto si ha:

F (x) = G


=1Q


.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.5 Esempi di variabili aleatorie

77

1.5

1.2

0.8

f(x)

F(x)

0.5

0.6

0.4

0.2

0
0

0.5

1.5

2
x

2.5

3.5

Fig. 3.23. La pdf f (x) di una variabile


aleatoria esponenziale ( = 1).

0
0

0.5

1.5

2
x

2.5

3.5

Fig. 3.24. La CDF F (x) di una variabile


aleatoria esponenziale ( = 1).

Per calcolare la funzione Q(x), e` possibile utilizzare grafici, tabelle e programmi per il
calcolo della G(x), tenendo conto della relazione (3.5). Inoltre, per ogni x > 0, vale la
coppia di disuguaglianze


1
1
1
2
x2 /2
e
1 2 < Q(x) < ex /2 .
x
x 2
x 2
Poich`e il rapporto fra i due limiti vale 1 1/x2 , al crescere di x essi diventano sempre
piu` vicini e quindi entrambi approssimano la Q(x) con notevole accuratezza.
Variabile aleatoria esponenziale
La variabile aleatoria X si dice esponenziale (monolatera), e si denota X Exp(), se
la sua pdf (Fig. 3.23) e` :
f (x) = ex u(x)
con > 0. La CDF (Fig. 3.24) si calcola per integrazione:
FX (x) = (1 ex ) u(x) ,
dove u(x) rappresenta la funzione gradino unitario, definita come:

1, x 0 ;
u(x) =
0, x < 0 .
Osserviamo infine che si tratta di una variabile aleatoria positiva.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Variabili aleatorie
0.6

1.2

0.5

0.4

0.8
F(x)

f(x)

78

0.3

0.6

0.2

0.4

0.1

0.2

0
4

0
x

Fig. 3.25. La pdf f (x) di una variabile


aleatoria di Laplace ( = 1).

0
4

0
x

Fig. 3.26. La CDF F (x) di una variabile


aleatoria di Laplace ( = 1).

Variabile aleatoria di Laplace (esponenziale bilatera)


La variabile aleatoria X si dice di Laplace o esponenziale bilatera, e si denota X
Lap(), se la sua pdf (Fig. 3.25) e` :
f (x) =

|x|
,
e
2

con > 0. La CDF (Fig. 3.26) si calcola per integrazione:



F (x) =

1
2

ex ,
x<0;
1 x
1 2 e , x0.

Variabile aleatoria di Rayleigh


La variabile aleatoria X si dice di Rayleigh, e si denota X Rayleigh(b), se la sua pdf
(Fig. 3.27) e` :
f (x) =

2 x x2
e b u(x) ,
b

con b > 0. La CDF (Fig. 3.27) si calcola per integrazione:


x2

F (x) = (1 e b ) u(x) .
Osserviamo che si tratta di una variabile aleatoria positiva.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

3.5 Esempi di variabili aleatorie

79

1.2

0.9
1

0.8
0.7

0.8
F(x)

f(x)

0.6
0.5

0.6

0.4
0.4

0.3
0.2

0.2

0.1
0
0

0.5

1.5
x

2.5

0
0

Fig. 3.27. La pdf f (x) di una variabile


aleatoria di Rayleigh (b = 1).

0.5

1.5
x

2.5

Fig. 3.28. La CDF F (x) di una variabile


aleatoria di Rayleigh (b = 1).

Variabile aleatoria di tipo mixture


Consideriamo un esempio di variabile aleatoria non elementare, ottenuta cio`e a partire
da altre variabili aleatorie. Siano X1 ed X2 due variabili aleatorie aventi pdf f1 (x) ed
f2 (x). Definiamo una nuova pdf f (x) come combinazione lineare delle due:
f (x) = f1 (x) + (1 ) f2 (x)

(3.6)

con [0, 1]. Osserviamo che effettivamente la (3.6) definisce una valida pdf, in quanto:
f (x) 0;

f (x)dx = 1 .
La variabile aleatoria X avente tale pdf viene chiamata mixture (mistura) delle variabili
aleatorie X1 ed X2 . Ovviamente, la CDF F (x) sar`a la combinazione lineare delle CDF
F1 (X) ed F2 (x), con gli stessi coefficienti 1 e 2 . In Figg. 3.29 e 3.30 sono riportate le pdf
e CDF della variabile aleatoria ottenuta come mixture di due pdf (o CDF) gaussiane. Si
noti in particolare dalla Fig. 3.29 la natura multimodale (in particolare, bimodale) della
pdf risultante.
La definizione precedente puo` essere facilmente estesa al caso piu` generale di una
pdf f (x) ottenuta come mixture di n > 2 pdf:
f (x) =

n


i fi (x) ,

i=1

dove i > 0 e

n
i=1

i = 1.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Variabili aleatorie
1.2

1.2

0.8

0.8
F(x)

f(x)

80

0.6

0.6

0.4

0.4

0.2

0.2

0
4

0
x

Fig. 3.29. La pdf f (x) di una variabile aleatoria mixture di due pdf gaussiane, con
1 = 0 2 = 2, 1 = 0.5, 2 = 0.2,
1 = 2 = 0.5.

0
4

0
x

Fig. 3.30. La CDF F (x) di una variabile


aleatoria mixture di due CDF gaussiane,
con 1 = 0 2 = 2, 1 = 0.5, 2 = 0.2,
1 = 2 = 0.5.

 Esempio 3.17. Una variabile aleatoria X Lap() di tipo Laplace si puo` vedere come
mixture delle seguenti pdf (per = 0.5):
f1 (x) = ex u(x)

(esponenziale);

f2 (x) = ex u(x)

(esponenziale negativa).

Infatti, si ha:
f (x) = 0.5 ex u(x) + 0.5 ex u(x) =

|x|
,
e
2

poich`e per x > 0 risulta u(x) = 1 e u(x) = 0, e viceversa per x < 0.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 4
Trasformazioni di una variabile
aleatoria
4.1

Introduzione

Nella pratica, si presentano spesso casi in cui, a partire da una variabile aleatoria X,
si ottiene una nuova variabile aleatoria Y mediante una opportuna trasformazione Y =
g(X). I seguenti esempi chiariranno meglio questo concetto.
 Esempio 4.1. La variabile aleatoria X rappresenta lintensit`a di corrente che passa attraverso una resistenza (ideale) di 1 ohm. La potenza dissipata dalla resistenza si puo`
scrivere come Y = X 2 ; poich`e X e` una variabile aleatoria, anche Y sar`a una variabile
aleatoria.

 Esempio 4.2. La variabile aleatoria X rappresenta un angolo scelto a caso in (0, 2). Il
coseno Y = cos(X) di tale angolo e` una variabile aleatoria ottenuta a partire da X. 
Formalizzando, possiamo dare la seguente definizione di trasformazione di una variabile aleatoria.
Definizione (trasformazione di una variabile aleatoria). Sia X una variabile
aleatoria definita sullo spazio di probabilit`a (, B, P ), e g(x) una funzione definita in R e a valori in R, tale che linsieme di definizione di g(x) contenga il codominio X della funzione X(). La trasformazione Y = g(X) definisce una nuova variabile aleatoria ottenuta associando a il valore
Y () = g[X()] R.
In sostanza la nuova variabile aleatoria Y e` definita su (, B, P ) mediante una legge
(Fig. 4.1) che e` la funzione composta di X e g. La condizione richiesta sullinsieme di definizione di g(x) ed il codominio X di X() serve a garantire che tale funzione composta
abbia un insieme di definizione non nullo.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

82

Trasformazioni di una variabile aleatoria

Y()=g[X()]
X()

Fig. 4.1. La trasformazione Y = g(X) definisce una nuova variabile aleatoria Y sullo spazio
campione .

4.1.1 Condizioni da imporre alla funzione g(x) 


Per capire se sia necessario richiedere qualche ulteriore condizione a g(x), dobbiamo
ricordare che la definizione di variabile aleatoria (vedi 3.1.1) richiede che siano soddisfatte due propriet`a:
1. {Y y} deve essere un evento, y R;
2. P ({Y = +}) = P ({Y = }) = 0.
Per quanto riguarda la prima propriet`a, osserviamo che, se {Y y} e` un evento, la sua
probabilit`a coincide proprio con la CDF di Y , e si ha:
FY (y) = P (Y y) = P (g(X) y) = P (g[X()] y) .
Per un dato y R, i valori di x tali che g(x) y formano un sottoinsieme di R, sia esso
Ry ; si ha allora:
FY (y) = P (X Ry ) .

(4.1)

Pertanto, affinch`e {Y y} sia un evento, e` necessario e sufficiente che {X Ry } sia un


evento, il che accade se Ry si ottiene per complementazione, unione e/o intersezione (al
piu` numerabile) di semirette chiuse a destra. Tale propriet`a coinvolge esclusivamente la
funzione g(x) e non la variabile aleatoria X. Ricordando anche la seconda propriet`a, che
peraltro e` quasi sempre verificata, dobbiamo richiedere che siano soddisfatte le seguenti
condizioni:

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.2 Caratterizzazione statistica di Y = g(X)

83

1. per ogni y R, linsieme Ry = {x tali che g(x) y} delle soluzioni della disequazione g(x) y devessere la complementazione, unione e/o intersezione (al
piu` numerabile) di semirette chiuse a destra, cosicch`e {Y y} sia un evento; una
funzione g(x) che possiede tale propriet`a prende il nome di funzione di Baire [1];
2. gli eventi {g(X) = +} e {g(X) = } devono avere probabilit`a zero.
Mentre la prima propriet`a coinvolge solo la funzione g(x), per la seconda entra in gioco
anche la variabile aleatoria X. Peraltro, notiamo che praticamente tutte le funzioni elementari soddisfano la prima propriet`a, mentre la seconda propriet`a e` quasi sempre non
entra in gioco, in quanto la funzione g(x) assume valori in R e non in R. Nel seguito,
per le trasformazioni che considereremo, riterremo sempre verificate le propriet`a 1 e 2.

4.2

Caratterizzazione statistica di Y = g(X)

Data una trasformazione Y = g(X), il problema che si pone in pratica e` il seguente: nota
la CDF (o la pdf, o la DF) di X, calcolare la CDF (o la pdf, o la DF) di Y . In breve, si parla di caratterizzare statisticamente la variabile aleatoria Y , nota la caratterizzazione
statistica di X.

4.2.1 Calcolo della CDF di Y = g(X)


Consideriamo dapprima il calcolo della CDF di Y = g(X). Possiamo scrivere
FY (y) = P (Y y) = P (g(X) y) ,
per cui per ogni y R dobbiamo determinare i valori di X la cui immagine attraverso la funzione g e` minore o uguale di y, e determinare la probabilit`a dellevento corrispondente. Tale problema non ammette evidentemente una soluzione generale, ma
si riconduce alla risoluzione di una o piu` disequazioni numeriche. I seguenti esempi,
nei quali assumeremo che X sia una variabile aleatoria continua, chiariranno meglio la
procedura da seguire in alcuni casi tipici.
 Esempio 4.3. Consideriamo la trasformazione lineare Y = a X + b, che e` rappresentata
graficamente in Fig. 4.2 nei casi a > 0 (a sinistra) e a < 0 (a destra). Nel caso a > 0, si ha:

FY (y) = P (Y y) = P (a X + b y) = P

yb
X
a


= FX

yb
a

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis


.

84

Trasformazioni di una variabile aleatoria


Y=g(X)

Y=g(X)

a<0

x = ( y-b)/a

x = ( y-b)/a

b
a>0

Fig. 4.2. La trasformazione Y = a X + b, nei casi a > 0 (a sinistra) e a < 0 (a destra).

Per a < 0, il verso della disuguaglianza si inverte, e si ha:1




yb
FY (y) = P (Y y) = P (a X + b y) = P X


 a

yb
yb
= 1 FX
.
=1P X <
a
a

La pdf fX (x) si ottiene derivando la CDF, e per a > 0 si ha:


1
fX (x) = fX
a

yb
a


,

mentre per a < 0 si ha:


1
fX (x) = fX
a

yb
a


.

Le due precedenti espressioni possono essere ottenute a partire dallunica espressione,


valida per a = 0:
1
fX (x) =
fX
|a|

yb
a


.


Si ricordi che, nellipotesi che X sia continua, si ha P (X < x) = P (X x).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.2 Caratterizzazione statistica di Y = g(X)

85
Y=g(X)
1

Y=g(X)

y
0

-y 1/2

y 1/2

Fig. 4.3. La trasformazione Y = X 2 .

x1

x2

-1

Fig. 4.4. La trasformazione Y = cos(X).

 Esempio 4.4. Consideriamo la trasformazione Y = X 2 , che e` rappresentata graficamente da una parabola (Fig. 4.3). Se y < 0, evidentemente P (Y y) = P (X 2 y <
0) = P () = 0. Viceversa, se y 0, si ha che P (Y y) = P (X 2 y) = P (X


[ y, y]) = FX ( y) FX ( y). In definitiva, si ha:

FY (y) = [FX ( y) FX ( y)] u(y)


e derivando si ottiene la pdf
1

fY (y) = [fX ( y) + fX ( y)] u(y) .


2 y


 Esempio 4.5. Consideriamo la trasformazione Y = cos(X), che e` rappresentata graficamente in Fig. 4.4, e supponiamo in particolare che sia X U(0, 2). Se y < 1, si ha
evidentemente FY (y) = P (Y y) = P (cos(X) y < 1) = P () = 0. Viceversa, se
y 1, risulta FY (y) = P (cos(X) y) = P () = 1. Infine, per 1 y < 1, si ha (vedi
Fig. 4.4) che la disequazione cos(X) y e` soddisfatta, allinterno dellintervallo (0, 2),
dai valori di X [x1 , x2 ], con x1 = arccos(y) e x2 = 2 arccos(y).2 Pertanto, per tali
valori di y si ha, poiche X e` uniforme in (0, 2),
FY (y) = P (X [x1 , x2 ]) =

x2 x1
1
= 1 arccos(y) .
2

In definitiva, allora, la CDF FY (y) si puo` esprimere come:


2

Evidentemente la disuguaglianza e` soddisfatta, per la periodicit`a della funzione coseno, anche in


qualunque intervallo del tipo [x1 + 2 k , x2 + 2 k]; tuttavia, poiche per ipotesi X assume valori in (0, 2),
non e` necessario considerare tali ulteriori intervalli, ma e` sufficiente limitarsi allintervallo (0, 2).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

86

Trasformazioni di una variabile aleatoria


1.5

5
4.5
4
3.5

2.5

f (y)

FY(y)

2
0.5

1.5
1
0.5

0
2

1.5

0.5

0
y

0.5

1.5

Fig. 4.5. La CDF F (x) della variabile


aleatoria Y = cos(X), con X U(0, 2).

0
2

1/

1.5

0.5

0
y

0.5

1.5

Fig. 4.6. La pdf f (x) della variabile aleatoria Y = cos(X), con X U(0, 2).

0,

1
FY (y) = 1 arccos(y),

1,

y < 1 ;
1 y < 1 ;
y 1;

ed e` raffigurata in Fig. 4.5 (si noti che e` una funzione continua). La pdf si ottiene
derivando la FY (y):

0,
y < 1 ;

1
1

, 1 < y < 1 ;
fY (y) =
1 y2

0,
y >1;
ed e` raffigurata in Fig. 4.6. Si noti che tale pdf non contiene impulsi, perche la CDF e`
continua; inoltre, essa non e` definita (diverge) nei punti 1, tuttavia ha comunque area
unitaria.

 Esempio 4.6 (amplificatore con saturazione). Consideriamo la trasformazione in Fig. 4.7,
che puo` essere espressa matematicamente come segue:

dy , x < dx ;
g(x) = a x, dx x < dx ;

dy ,
x dx .
con a  ddxy > 0. Tale legge e` quella caratteristica di un dispositivo che amplifica (se
a > 1) a patto che X [dx , dx ], altrimenti luscita e` limitata (satura) al valore dy
oppure dy .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.2 Caratterizzazione statistica di Y = g(X)

87

Y=g(X)
dy
tg() = d y /d x = a

-d x
dx

-d y

Fig. 4.7. La trasformazione Y = g(X) caratteristica di un amplificatore con saturazione.


area = F X (-d x )

F Y(y)

fY(y)
area = 1- F X (d x )
h(y)

1
salto = F X (-d x )
salto = 1- F X (d x )

-d y

dy

Fig. 4.8. La CDF FY (y) della variabile aleatoria Y alluscita di un amplificatore con
saturazione.

-d y

dy

Fig. 4.9. La pdf fY (y) della variabile aleatoria Y alluscita di un amplificatore con
saturazione.

Veniamo ora al calcolo della CDF di Y . Se y < dy , si ha evidentemente FY (y) =


P (Y y) = P (g(X) y < dy ) = P () = 0. Viceversa, se y dy , risulta FY (y) =
P (g(X) y) = P () = 1. Per dy y < dy , infine, si ha:
FY (y) = P (Y y) = P (a X y) = P (X y/a) = FX (y/a)
In definitiva, la CDF e` data da:

y < dy ;
0,
FY (y) = FX (y/a), dy y < dy ;

1,
y dy ;
ed e` riportata in Fig. 4.8. Notiamo che per y = dy tale CDF e` discontinua, perche il suo
limite da sinistra vale 0, mentre il limite da destra vale FX (dx ). Allo stesso modo, la
CDF e` discontinua nel punto y = dy , in quanto il limite da destra vale 1, mentre il limite da destra vale FX (dx ). Pertanto, quando calcoliamo la pdf, compariranno, oltre alla

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

88

Trasformazioni di una variabile aleatoria


Y=g(X)
dy

-d y

Fig. 4.10. La trasformazione Y


caratteristica di un hard limiter.

= g(X)

derivata convenzionale, due impulsi di Dirac, centrati in y = dy e y = dy , e di area rispettivamente pari a FX (dx ) ed 1 FX (dx ). Pertanto, poiche la derivata convenzionale
vale (notiamo che la funzione non e` derivabile nei punti y = dy ):

0,
y < dy ;



1
y
h(y) =
fX
, dy < y < dy ;

a
0,
y > dy ;
la pdf si ottiene come:
fY (y) = h(y) + FX (dx ) (y + dy ) + [1 FX (dx )] (y dy )
ed e` raffigurata in Fig. 4.9. Notiamo in conclusione che la variabile aleatoria Y ha una
CDF discontinua ma non costante a tratti, per cui costituisce un primo esempio di una
variabile aleatoria mista.

 Esempio 4.7 (hard limiter). Consideriamo la trasformazione in Fig. 4.10, che puo` essere
espressa matematicamente come
g(x) = dy sgn(x) ,
dove dy > 0, e sgn(x) e` la funzione signum:

1,
sgn(x) 
1,

x0;
x<0.

Tale legge e` quella caratteristica di un dispositivo limitatore ideale o hard limiter, e si


puo` vedere come caso limite di un amplificatore con saturazione per dx 0.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.2 Caratterizzazione statistica di Y = g(X)

89

F Y(y)
fY(y)
area = 1- F X (0)

1
salto = F X (0)

area = F X (0)

F X (0)

-d y

salto = 1- F X (0)
dy

Fig. 4.11. La CDF FY (y) della variabile


aleatoria Y alluscita di un hard limiter.

-d y

dy

Fig. 4.12. La pdf fY (y) della variabile


aleatoria Y alluscita di un hard limiter.

Passiamo al calcolo della CDF. Se y < dy , si ha FY (y) = P (Y y) = P (g(X) y <


dy ) = P () = 0. Viceversa, se y dy , FY (y) = P () = 1. Per dy y < dy , si ha
FY (y) = P (g(X) y) = P (X 0) = FX (0). In definitiva, allora, la CDF FY (y) si puo`
esprimere come:

y < dy ;
0,
FY (y) = FX (0), dy y < dy ;

1,
y dy .
ed e` raffigurata in Fig. 4.11; si noti che e` una funzione costante a tratti, per cui Y e` una
variabile aleatoria discreta, e la sua pdf, puramente impulsiva,
fY (y) = FX (0) (y + 1) + [1 FX (0)] (y 1)


e` raffigurata in Fig. 4.12.

4.2.2 Calcolo della DF di Y = g(X)


Il calcolo della DF e` indicato quando X e` una variabile aleatoria discreta. In tal caso, e`
immediato osservare che, quale che sia la trasformazione g(x), anche Y = g(X) e` una
variabile aleatoria discreta, che assume i valori y = g(x) Y, dove x X sono i valori
assunti da X. Il calcolo della DF e` immediato: basta osservare che la probabilit`a che la
variabile aleatoria Y assuma un valore y Y si ottiene come somma delle probabilit`a
che la variabile aleatoria X assuma i valori x, con y = g(x). Pertanto, possiamo scrivere:

pX (x) .
(4.2)
pY (y) =
xX,g(x)=y

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

90

Trasformazioni di una variabile aleatoria


p X (x)

p Y(y)

4/9

1/3
2/9

1/3

2/9

1/9
-2

2/9

1/9
-1

Fig. 4.13. La DF di X (a sinistra) e di Y = X 2 (a destra).

 Esempio 4.8. Si consideri la seguente variabile aleatoria discreta X, che assume i valori
X = {2, 1, 0, 1, 2} con la seguente DF (Fig. 4.13):

1/3, x = 0 ;
pX (x) = 2/9, x = 1 ;

1/9, x = 2 .
Calcoliamo la DF della variabile aleatoria Y = X 2 . La variabile aleatoria Y e` ancora
discreta, e assume i valori y Y = {0, 1, 4}. Applicando la (4.2), si ha:
pY (0) = P (Y = 0) = P (X = 0) = 1/3 ;
pY (1) = P (Y = 1) = P (X = 1) + P (X = 1) = 2/9 + 2/9 = 4/9 ;
pY (4) = P (Y = 4) = P (X = 2) + P (X = 2) = 1/9 + 1/9 = 2/9 ;
per cui la DF si scrive in forma compatta (Fig. 4.13) come:

1/3, y = 0 ;
pY (y) = 4/9, y = 1 ;

2/9, y = 4 .
Si noti che Y e` una variabile aleatoria positiva.

4.2.3 Calcolo della pdf di Y = g(X)


Affrontiamo adesso il problema di determinare la pdf di Y = g(X) in funzione della
pdf di X. Di importanza fondamentale e` il seguente teorema, nel quale g  (x) indica la
derivata prima di g(x).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.2 Caratterizzazione statistica di Y = g(X)

91

Teorema 4.1 (teorema fondamentale sulle trasformazioni di variabili aleatorie). Sia X


una variabile aleatoria avente pdf fX (x), e si consideri la trasformazione Y = g(X); la
pdf di Y e` data da:

se lequazione y = g(x) non ammette soluzioni;


0,

fX (xi )
fY (y) =
, dove xi e` una soluzione dellequazione y = g(x).

|g  (xi )|
i
Prova. La pdf fY (y) si puo` ottenere sulla base della seguente relazione (per dy > 0):
fY (y) dy = P (y < Y y + dy) = P (y < g(X) y + dy) .
Se y e` un valore tale che lequazione g(x) = y non ammette soluzioni, allora fY (y) = 0. Infatti, se y non
appartiene alla frontiera del codominio di g(x), e` possibile scegliere dy sufficientemente piccolo tale che
{y < g(X) y + dy} = fY (y) = 0 .
Viceversa, se y appartiene alla frontiera del codominio, posso comunque porre fY (y) = 0, perch`e la
frontiera e` un insieme di misura nulla, e quindi il valore della pdf su un insieme di misura nulla e`
inessenziale.

Y=g(X)
derivata = g'(x 1 ) > 0

derivata = g'(x 3 ) > 0

derivata = g'(x 2 ) < 0


y + dy
y

x1

x2
x 1 + dx 1

x 2 + dx 2

x3

x 3 + dx 3

Fig. 4.14. Dimostrazione del teorema fondamentale sulle trasformazioni di variabili aleatorie.
Le soluzioni dellequazione y = g(x) sono x1 , x2 , ed x3 .
Viceversa, si consideri il caso in cui y appartenga al codominio di g(x), cio`e sia un valore tale che
lequazione g(x) = y ammette una o piu` soluzioni. Per semplicit`a, supponiamo che le soluzioni siano tre,
x1 , x2 , x3 , come in Fig. 4.14. Allora:
fY (y) dy = P (y < Y y + dy) =
= P (x1 < X x1 + dx1 ) + P (x2 + dx2 < X x2 ) + P (x3 < X x3 + dx3 ) ,
dove dx1 > 0, dx2 < 0, dx3 > 0. (Fig. 4.14) e, per dy sufficientemente piccolo, i tre insiemi cui appartiene
X sono mutuamente esclusivi. Poich`e:
P {x1 < X x1 + dx1 } = fX (x1 ) dx1 ;
P {x2 + dx2 < X x2 } = fX (x2 ) |dx2 | ;
P {x3 < X x3 + dx3 } = fX (x3 ) dx3 ;

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

92

Trasformazioni di una variabile aleatoria


ed inoltre
dx1

= dy/g  (x1 ) ;

dx2
dx3

= dy/g  (x2 ) ;
= dy/g  (x3 ) ;

dove (Fig. 4.14) g  (x1 ) > 0, g  (x2 ) < 0, e g  (x3 ) > 0, risulta
fY (y) dy =

fX (x2 )
fX (x3 )
fX (x1 )
dy + 
dy + 
dy ,
g  (x1 )
|g (x2 )|
g (x3 )


ed eliminando dy, si ha lasserto.

 Esempio 4.9. Consideriamo nuovamente la trasformazione lineare dellesempio 4.3:


Y = aX + b ,
raffigurata in Fig. 4.2. Qualunque sia y R, e per ogni a = 0, lequazione y = g(x) =
ax + b ammette lunica soluzione
x=

yb
,
a

ed inoltre risulta
|g  (x)| = |a| ,
per cui:
1
fX
fY (y) =
|a|

yb
a

che coincide con il risultato ottenuto, derivando la CDF, nellesempio 4.3.

 Esempio 4.10. Consideriamo nuovamente la trasformazione quadratica dellesempio


4.4:
Y = X2
raffigurata in Fig. 4.3. Se y < 0, lequazione y = g(x) = x2 non ha soluzioni, e quindi
fY (y) = 0. Se y > 0, si hanno due soluzioni:
x1 =

y,

x2 = y

ed inoltre
|g  (x)| = 2|x| ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.2 Caratterizzazione statistica di Y = g(X)

93

per cui:
1

fY (y) = [fX ( y) + fX ( y)] u(y) ,


2 y
che e` lo stesso risultato ottenuto nellesempio 4.4.3 Come applicazione del precedente
risultato, si consideri il caso in cui X N(0, 1):
1
2
fX (x) = ex /2
2
e sia Y = X 2 . Dalla relazione precedente, tenendo conto che X ha una pdf pari, si ha:
1
1

fY (y) = fX ( y) u(y) =
ey/2 u(y)
y
2y
che e` la pdf di una variabile aleatoria di tipo chi-square con un grado di libert`a, che si
denota Y 2 (1).

 Esempio 4.11. Consideriamo la trasformazione iperbolica:
Y = 1/X .
Per y = 0, lequazione y = g(x) = 1/x ha lunica soluzione
x=

1
,
y

ed inoltre si ha
|g  (x)| =

1
,
x2

per cui:4
1
fY (y) = 2 fX
y

 
1
y

(4.3)

Come applicazione del precedente risultato, si consideri il caso in cui X Cauchy(),


ovvero X ha una pdf di tipo Cauchy di parametro :
fX (x) =

/
.
+ 2

x2

Se y = 0 il teorema non e` applicabile, poich`e lequazione y = g(x) ha una sola soluzione x = 0, in


corrispondenza della quale la derivata g (x) e` nulla. Tuttavia, essendo y = 0 un punto isolato, il valore
della pdf nel punto y = 0 e` inessenziale.
4
Per quanto riguarda il caso y = 0, si veda la nota 3.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

94

Trasformazioni di una variabile aleatoria


Si verifica facilmente, applicando la (4.3), che la variabile aleatoria Y = 1/X risulta
anchessa Cauchy, e precisamente Y Cauchy(1/):
fY (y) =

1/()
.
+ 1/2

y2

Notiamo che sebbene la (4.3) sia stata ricavata per y = 0, la fY (y) puo` essere prolungata
per continuit`a in y = 0.

Negli esempi precedenti, abbiamo incontrato casi in cui il teorema non e` applicabile, e
precisamente per quei valori di y = g(x) in corrispondenza dei quali la derivata g  (x)
si annulla. Se tali punti y sono isolati, il valore di fY (y) e` inessenziale, in quanto la
pdf compare solo in relazioni integrali, e quindi il suo valore in un punto isolato non
e` rilevante (lintegrale della pdf non cambia). Puo` accadere che, nei punti y in cui il
teorema non e` applicabile, la pdf sia divergente (cfr. la variabile aleatoria chi-square
dellesempio 4.10 per y = 0), oppure che essa si possa prolungare per continuit`a (cfr. la
variabile aleatoria Cauchy dellesempio 4.11 per y = 0).
Diversa e` la situazione se, per un determinato y, lequazione y = g(x) ammette una
infinit`a continua di soluzioni, come accade ad esempio se g(x) presenta uno o piu` tratti
costanti con ordinata pari ad y (si noti che in tal caso si ha anche g  (x) = 0 per tutti i
valori x corrispondenti al tratto costante). In tal caso, generalmente la pdf di Y presenta nel punto y un impulso di Dirac, la cui area va determinata direttamente calcolando
P (Y = y). Lesempio che segue chiarir`a meglio questo concetto.
 Esempio 4.12. Consideriamo nuovamente la trasformazione (amplificatore con saturazione) dellesempio 4.6, raffigurata in Fig. 4.7. Tale trasformazione ha due tratti costanti, di ordinata y = dy e y = dy ; anticipiamo pertanto la presenza di due impulsi di
Dirac, centrati in y = dy , le cui aree dobbiamo determinare. Applichiamo comunque il
teorema nei punti dove e` consentito. Per |y| > dy , lequazione y = g(x) non ha soluzioni,
per cui fY (y) = 0. Per |y| < dy , lequazione y = g(x) ha una sola soluzione x = y/a. Il
calcolo della derivata prima per |y| < a fornisce
|g  (x)| = a ;
pertanto per tutti i valori y = dy lapplicazione del teorema fondamentale fornisce la
parte convenzionale h(y) della pdf (corrispondente alla derivata convenzionale della
CDF):

0,
y < dy ;

y 
1
h(y) =
fX
, dy < y < dy ;

a
a

0,
y > dy ;

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.3 Problema inverso: determinazione di g(x)

95

Passiamo ora a determinare le aree degli impulsi. Si ha:


P (Y = dy ) = P (X dx ) = FX (dx ) ,
P (Y = dy ) = P (X dx ) = 1 FX (dx ) ,
e quindi la pdf si scrive come:
fY (y) = h(y) + FX (dx ) (y + dy ) + [1 FX (dx )] (y dy ) ,
che coincide con il risultato ottenuto nellesempio 4.6 derivando la CDF.

4.3

Problema inverso: determinazione di g(x)

Finora ci siamo occupati del problema di caratterizzare la variabile aleatoria Y ottenuta


dalla variabile aleatoria X mediante una nota trasformazione g(x). Questo problema e`
denominato problema diretto, per contrasto con il seguente, che denomineremo problema
inverso: date due variabili aleatorie X ed Y , con CDF (o pdf, o DF) assegnate, trovare
la particolare trasformazione Y = g(X) che consente di ottenere Y da X. Nel seguito,
supporremo che le due variabili aleatorie X ed Y siano caratterizzate per mezzo delle
loro CDF FX (x) e FY (y), e supporremo inoltre che X ed Y siano due variabili aleatorie
continue con CDF strettamente monotone, e quindi invertibili.5
Per semplificare lo studio del problema, converr`a riguardare la trasformazione da X
ad Y come realizzata in due passi (Fig. 4.15), ovvero come composta da due successive
trasformazioni g1 e g2 : (i) mediante g1 , si passa da X ad una variabile aleatoria uniforme
U U(0, 1); (ii) mediante g2 , si passa da una variabile aleatoria uniforme U U(0, 1)
ad Y .
(i) Da X ad una variabile aleatoria uniforme: vogliamo passare dalla variabile aleatoria X ad una variabile aleatoria U U(0, 1). E` immediato verificare che la
trasformazione appropriata e` g1 (x) = FX (x).
Prova. Infatti, consideriamo la trasformazione U = g1 (X) = FX (X) e calcoliamo la CDF di U . Se
u < 0 si ha:
FU (u) = P (U u) = P [FX (X) u] = 0 ,
in quanto i valori assunti da una CDF sono sempre non negativi, mentre se u 1 si ha:
FU (u) = P (U u) = P [FX (X) u] = 1 ,
5

Lipotesi di invertibilit`a delle CDF non e` strettamente necessaria, nel paragrafo 4.3.1 vedremo una
importante generalizzazione.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

96

Trasformazioni di una variabile aleatoria


X

U uniforme

g 1 (x)= F X (x)

g 2 (x)= F Y(x)

passo 1

passo 2

-1

Fig. 4.15. La trasformazione di una variabile aleatoria X in una variabile aleatoria Y si articola
in due passi: a partire da X, si genera una variabile aleatoria U U(0, 1); successivamente, da
U si genera la variabile aleatoria Y .
in quanto i valori assunti da una CDF sono sempre non superiori ad 1. Infine, se u [0, 1[, si ha:
1
1
FU (u) = P (U u) = P [FX (X) u] = P [X FX
(u)] = FX [FX
(u)] = u
1
Si noti che abbiamo applicato la FX
() ad entrambi i membri della disuguaglianza perch`e abbiamo
supposto che la CDF di X sia strettamente monotona (crescente) e quindi invertibile. In definitiva,
mettendo insieme i tre casi, la CDF di U e` data da:

0, u < 0 ;
FU (u) = u, u [0, 1[ ;

1, u 0 ;

ed e` proprio la CDF di una variabile aleatoria U U(0, 1), per cui resta dimostrato lasserto.

(ii) Da una variabile aleatoria uniforme a Y : abbiamo a disposizione una variabile aleatoria U U(0, 1) e vogliamo trasformarla in una variabile aleatoria Y = g2 (U ) con
preassegnata CDF FY (y). Si puo` verificare in tal caso che la trasformazione cercata
e` g2 (x) = FY1 (x), coincide cio`e con linversa (che abbiamo supposto esistente) della
CDF desiderata.
Prova. Per verificarlo, denotiamo con FY (y) la CDF di Y = FY1 (U ) e dimostriamo che essa
coincide con FY (y). Si ha:
FY (y) = P (Y y) = P [FY1 (U ) y] = P [U FY (y)] = FU [FY (y)] = FY (y)
perch`e FY (y) [0, 1] ed U e` una variabile aleatoria uniforme in (0, 1), quindi con CDF FU (u) = u
per u [0, 1]. Resta pertanto dimostrato che FY (y) = FY (y), e quindi la trasformazione g2 (x)
coincide proprio con linversa della CDF di Y .

A questo punto, come precedentemente osservato, il caso della trasformazione di una


variabile aleatoria X con CDF arbitraria in una variabile aleatoria Y con CDF arbitraria
puo` essere affrontato sfruttando i risultati dei due casi precedenti, e cio`e articolando la
trasformazione in due passi (Fig. 4.15):
(i) nel primo passo, si trasforma X in una variabile aleatoria uniforme U U(0, 1),
mediante la trasformazione g1 (x) = FX (x);

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.3 Problema inverso: determinazione di g(x)

97

(ii) nel secondo passo, dalla variabile aleatoria uniforme U U(0, 1), si ottiene Y
mediante la trasformazione g2 (x) = FY1 (x).
La trasformazione g complessiva e` chiaramente la funzione composta di g1 (funzione
interna) e g2 (funzione esterna), e cio`e:
g(x) = g2 [g1 (x)] = FY1 [FX (x)]

(4.4)

per cui la variabile Y si ottiene da X con la trasformazione


Y = FY1 [FX (X)] .

 Esercizio 4.1. Determinare la trasformazione g(x) che consente di passare da una variabile aleatoria esponenziale X Exp() ad una variabile aleatoria Rayleigh Y
Rayleigh(b).
Svolgimento. La CDF di X e` :
FX (x) = (1 ex ) u(x)
mentre quella di Y e` :
y2

FY (y) = (1 e b ) u(y) .
Per individuare la g(x), conviene riscrivere la (4.4) nella forma:
FY [g(x)] = FX (x) ,
che va riguardata come unequazione nellincognita g(x) e risolta rispetto allincognita.
Sostituendo le espressioni delle CDF, e tralasciando le funzioni gradino, si ha:
1 e

g 2 (x)
b

= 1 ex ,

da cui con semplici passaggi algebrici si ricava:


g 2 (x) = x b g(x) =

xb .

Si noti che nella risoluzione abbiamo scelto la soluzione positiva per g(x) perch`e la variabile aleatoria Y = g(X) e` positiva.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

98

Trasformazioni di una variabile aleatoria

Generatore
variabili aleatorie
uniformi in (0,1)

U uniforme

X
g(x)= F X (x)-1

Fig. 4.16. La generazione di una variabile aleatoria X con CDF FX (x) invertibile si puo` effettuare
a partire da un generatore di variabili aleatorie uniformi U U(0, 1), applicando alluscita di
questultimo la trasformazione g(x) = FX1 (x).

4.3.1 Generazione di una variabile aleatoria con CDF assegnata


Unimportantissima applicazione dei risultati del precedente paragrafo e` quella della
generazione di una variabile aleatoria con CDF assegnata. Infatti, se vogliamo generare una variabile aleatoria X con CDF FX (x) (supposta invertibile), basta generare (Fig.
4.16) una variabile aleatoria U U(0, 1) e trasformarla secondo la legge g(x) = FX1 (x).
E` sufficiente allora disporre di un generatore di variabili aleatorie uniformi in (0, 1)
che, come vedremo nel successivo 4.3.2, puo` essere facilmente realizzato mediante
un calcolatore.
Notiamo che, poich`e linversa della CDF e` la legge (cfr. 3.2.3) che definisce il
percentile, tale tecnica di generazione e` anche denominata metodo della trasformazione
percentile.
 Esercizio 4.2. Determinare la trasformazione che consente di generare una variabile
aleatoria esponenziale X Exp() a partire da una variabile aleatoria uniforme U
U(0, 1).
Svolgimento. Poich`e:
FX (x) = (1 ex ) u(x) ,
allora si ha:
1
g(x) = FX1 (x) = ln(1 x) .

Osserviamo pero` che, se U U(0, 1), allora anche 1 U U(0, 1). Allora, piu` semplicemente, possiamo scrivere:
1
g(x) = ln(x) .


 Esercizio 4.3. Determinare la trasformazione che consente di generare una variabile
aleatoria Rayleigh X Rayleigh(b) a partire da una v.a. uniforme U U(0, 1).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.3 Problema inverso: determinazione di g(x)

99

Svolgimento. Poich`e:
x2

FX (x) = (1 e b ) u(x) ,
allora si ha:
g(x) = FX1 (x) =

b ln(1 x) ,

dove nella determinazione dellinversa abbiamo scelto la soluzione positiva perch`e la


variabile aleatoria di Rayleigh e` positiva. Anche qui possiamo osservare che, se U
U(0, 1), anche 1 U U(0, 1), per cui possiamo scrivere piu` semplicemente:

g(x) = b ln(x) .

In molti casi, la FX (x) non ha una espressione analitica semplice e pertanto, sebbene sia
strettamente monotona, non e` semplice calcolarne linversa FX1 (x); cio` accade, ad esempio, se X N(, ), e quindi la CDF e` espressa in termini della funzione non elementare
G(x). Se allora si e` capaci di mettere in relazione la variabile aleatoria X con altre variabili aleatorie Z1 , Z2 , . . . , Zn di piu` semplice generazione, mediante una legge del tipo
X = f (Z1 , Z2 , . . . , Zn ), allora e` possibile risolvere il problema della generazione di X in
due passi: (i) nel primo passo, si generano le variabili aleatorie Z1 , Z2 , . . . , Zn con il metodo della trasformazione percentile; (ii) nel secondo passo, si applica alle Z1 , Z2 , . . . , Zn
la trasformazione f per ottenere X. Vedremo nei successivi capitoli esempi significativi
di tale tecnica.
Un altro caso in cui il metodo della trasformazione percentile non sembra applicabile e` quello in cui la FX (x) non e` strettamente monotona e, quindi, non e` invertibile. Tale
limitazione escluderebbe limpiego della tecnica di generazione nei casi in cui la CDF
della variabile aleatoria da generare presenti uno o piu` tratti costanti; in particolare,
ne precluderebbe luso per la generazione di variabili aleatorie discrete, che hanno una
CDF costante a tratti. In realt`a, per applicare il metodo della trasformazione percentile anche a questi casi, e` sufficiente generalizzare la definizione di inversa della CDF,
ponendo, per ogni y [0, 1],
FX1 (y)  inf{x R tali che FX (x) y} .

(4.5)

In tal caso, se FX (x) e` strettamente monotona, la FX1 (y) definita dalla (4.5) si riduce
allinversa convenzionale; altrimenti, se ad esempio la CDF FX (x) presenta un tratto
costante nellintervallo [x1 , x2 ] di altezza pari a y, e` facile verificare che FX1 (y) = x1 .
La funzione definita dalla (4.5) viene a volte denominata inversa sinistra, in quanto si
puo` facilmente verificare che FX [FX1 (y)] = y, mentre in generale risulta FX1 [FX (x)] = x;

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

100

Trasformazioni di una variabile aleatoria

F X -1 (y)

F X (x)

1
1
q
0
1

Fig. 4.17. La CDF FX (x) della variabile


aleatoria X Bern(p).

Fig. 4.18. Linversa sinistra FX1 (y) della


CDF della variabile aleatoria X Bern(p)
raffigurata in Fig. 4.17.

inoltre poich`e FX (x) e` monotona crescente, anche la funzione FX1 (y) definita dalla (4.5)
e` monotona crescente. Si puo` allora facilmente verificare che la dimostrazione sviluppata nel 4.3 al punto (ii) rimane valida, a patto di sostituire allinversa convenzionale
linversa sinistra. In particolare, il metodo della trasformazione percentile risulta ancora
applicabile, come mostrato dal seguente esempio.
 Esempio 4.13. Si vuole generare una variabile aleatoria X Bern(p), la cui CDF e`
raffigurata in Fig. 4.17. Calcoliamo prima linversa sinistra FX1 (y), in accordo alla (4.5).
Si ha:
y = 0 inf{x R tali che FX (x) y} =
y ]0, q] inf{x R tali che FX (x) y} = 0
y ]q, 1] inf{x R tali che FX (x) y} = 1
per cui:

,
1
FX (y) = 0,

1,

y =0;
y ]0, q] ;
y ]q, 1] ;

raffigurata in Fig. 4.18. Si puo` osservare che linversa sinistra FX1 (x) e` continua da
sinistra (mentre la CDF e` continua da destra), e che si puo` ottenere con una procedura
grafica molto semplice: a partire dalla CDF, si scambiano gli assi x ed y.
Pertanto, a partire da U U(0, 1) e tenendo conto della forma dellinversa sinistra,
la tecnica di generazione e` molto semplice:

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.3 Problema inverso: determinazione di g(x)

101

F X (x)

F X -1 (y)
x3

p 1 +p 2 +p 3
x2

p 1 +p 2

x1

p1
x1

x2

x3

Fig. 4.19. La CDF FX (x) di una variabile


aleatoria discreta X.

p1

p 1 +p 2

p 1 +p 2 +p 3

Fig. 4.20. Linversa sinistra FX1 (y) della


CDF della variabile aleatoria X discreta
raffigurata in Fig. 4.19.

si genera un valore U [0, 1];


se U [0, q], si pone X = 0;
se U ]q, 1], si pone X = 1.
Si noti che abbiamo arbitrariamente assegnato anche a U = 0 il valore X = 0, e non il
valore X = ; questo non altera la probabilit`a che X = 0, e quindi la distribuzione di
X, poiche, essendo U una variabile aleatoria continua, si ha P (U = 0) = 0.

Con un modesto sforzo di generalizzazione, possiamo estendere la procedura dellesempio 4.13 alla generazione di una qualunque variabile aleatoria discreta. Infatti, siano
X = {x1 , x2 , x3 , . . . } i valori assunti dalla variabile aleatoria X, che supporremo, senza ledere la generalit`a, ordinati in senso crescente, vale a dire x1 < x2 < x3 , e siano
p1 , p2 , p3 , . . . le rispettive probabilit`a, dove pi  P (X = xi ). La CDF di X sar`a una funzione costante a tratti, con gradini (Fig. 4.19) posti alle quote p1 , p1 + p2 , p1 + p2 + p3 , . . . e
posizionati orizzontalmente in x1 , x2 , x3 , . . . ; linversa sinistra, ottenuta scambiando gli
assi della CDF, sar`a ancora una funzione costante a tratti, con gradini (Fig. 4.20) situati alle quote x1 , x2 , x3 , . . . e posizionati orizzontalmente in p1 , p1 + p2 , p1 + p2 + p3 , . . . .
Pertanto, a partire da U U(0, 1) e tenendo conto della forma dellinversa sinistra, la
generazione di X avviene nel seguente modo:
si genera un valore U [0, 1];
se U [0, p1 ], si pone X = x1 ;
altrimenti, si determina il valore di k {2, 3, . . . } per cui si ha
p1 + p2 + . . . pk1 < U p1 + p2 + . . . pk ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

102

Trasformazioni di una variabile aleatoria


e si pone X = xk .
In pratica, la procedura e` equivalente a suddividere lintervallo (0, 1) in tanti sottointervalli di ampiezza pari a p1 , p2 , p3 , . . . : se il valore di U cade nel k-esimo sottointervallo,
allora X = xk . La complessit`a dellalgoritmo di generazione coincide sostanzialmente
con quella dellalgoritmo di ricerca del sottointervallo [10].

4.3.2 Generazione automatica di numeri casuali


Nel precedente paragrafo abbiamo visto che, a partire da una variabile aleatoria U uniforme in (0, 1), e` possibile generare una variabile aleatoria X con CDF arbitraria FX (x)
mediante la trasformazione percentile X = FX1 (U ); tuttavia non abbiamo fornito una
soluzione per generare, in maniera computazionalmente efficiente, i valori di una variabile aleatoria uniforme (0, 1). Questo problema puo` essere risolto, in via approssimata,
se disponiamo di una tecnica per la generazione di numeri casuali interi.
Evidentemente, la tecnica piu` semplice e teoricamente corretta per generare un numero casuale intero e` quella di eseguire un esperimento aleatorio, ed associare ad ogni
risultato un numero intero, in accordo con la definizione stessa di variabile aleatoria.
Ad esempio, lanciando un dado potremo generare numeri casuali da 1 a 6; estraendo
una pallina da un paniere della tombola, numeri casuali da 1 a 90, e cos` via. Tali procedure, tuttavia, hanno lo svantaggio di non poter essere facilmente automatizzate, ed
essendo inoltre di tipo manuale o meccanico, risultano estremamente lente.
Con lavvento dei calcolatori elettronici, si e` pensato di ricorrere a procedure aritmetiche di tipo ricorsivo, che fossero di semplice realizzazione e consentissero quindi la
generazione rapida di sequenze x0 , x1 , . . . di numeri casuali molto lunghe (da migliaia a milioni di campioni). La maggior parte di tali procedure generano il valore xn+1
della sequenza a partire dal valore precedente xn , mediante una legge ricorsiva del tipo
xn+1 = g(xn ), dove g e` una funzione opportuna, ed il primo valore x0 della sequenza e`
denominato seme (in inglese, seed). E` chiaro che, osservato un valore della sequenza
e conoscendo la legge g, e` possibile prevedere esattamente tutti i valori successivi; per
questo motivo la sequenza non e` realmente aleatoria, ma viene detta pseudo-aleatoria.
Quello che realmente interessa, allora, e` che la sequenza pseudo-aleatoria generata non
sia distinguibile, da parte di un osservatore esterno che non conosca la legge g, da una
sequenza realmente aleatoria, generata cio`e con metodi puramente casuali.

4.3.3 Algoritmo middle-square (Von Neumann)


Una delle prime procedure di tipo ricorsivo ad essere proposte fu lalgoritmo cosiddetto
middle-square, ideato da John Von Neumann nel 1946. Lalgoritmo e` il seguente: si
parte da un seme x0 di 4 cifre e lo si eleva al quadrato, ottenendo un numero del quale si

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.3 Problema inverso: determinazione di g(x)

103

conservano le 4 cifre intermedie (si eliminano le ultime due cifre); tali cifre costituiscono
il numero x1 , che viene nuovamente elevato al quadrato, e cos` via. Ad esempio, la
sequenza generata a partire dal seme 5232 e` la seguente:
x0 = 5232
52322 = 27|3738|24 x1 = 3738
37382 = 13|9726|44 x2 = 9726
97262 = 94|5950|76 x3 = 5950
...
Dalla sequenza intera ottenuta e` possibile ottenere numeri interi in (0, 1) semplicemente spostando la virgola in prima posizione: ad esempio, la sequenza del precedente
esempio genera la seguente successione di valori in (0, 1):
0.5232

0.3738

0.9726

0.5950

...

E` chiaro che, essendo solo 10 000 i numeri di quattro cifre, e poich`e ogni numero dipende
solo da quello precedentemente generato, la sequenza ottenuta sar`a necessariamente
periodica, con periodo al piu` pari a 10 000. In realt`a, il principale svantaggio di tale
procedura e` che le propriet`a della sequenza generata dipendono in maniera critica dalla
scelta del seme iniziale; ad esempio, la scelta x0 = 0000 produce la sequenza banale
0000

0000

0000

...

Ma anche scelte meno banali del seme possono portare a risultati altrettanto sgradevoli:
ad esempio, scegliendo x0 = 2100, si ottiene la sequenza composta dai soli quattro valori
interi
2100

4100

8100

6100

che si ripetono indefinitamente. Proprio a causa della sensibilit`a rispetto alla scelta del
seme iniziale, il metodo middle-square e` stato presto abbandonato, e lattenzione degli studiosi si e` spostata verso tecniche ricorsive che fossero al tempo stesso piu` efficienti
computazionalmente (lalgoritmo middle-square ricorre ad una elevazione al quadrato, che ha una complessit`a non trascurabile) e tali da garantire propriet`a ottimali o quasi
ottimali delle sequenze generate.

4.3.4 Algoritmo lineare congruente


Al giorno doggi, lalgoritmo piu` diffusamente utilizzato per la generazione di numeri
casuali e` quello cosiddetto lineare congruente, nel quale la ricorsione puo` essere espressa
come:
xn+1 = (a xn + c) mod m

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(4.6)

104

Trasformazioni di una variabile aleatoria


dove il moltiplicatore a, lincremento c ed il modulo m sono tutti numeri interi non negativi. Lequazione (4.6) descrive sostanzialmente una ricorsione lineare, in cui tuttavia
il risultato e` preso in aritmetica modulo m, considerando cio`e il resto della divisione
per m e ottenendo quindi sempre numeri interi compresi tra 0 ed m 1, estremi inclusi.
Ad esempio, scegliendo a = c = 7, m = 10 ed un seme x0 = 7, si ottiene la sequenza:
7

...

che risulta chiaramente periodica di periodo 4. Tale periodicit`a e` una propriet`a generale
del generatore lineare congruente: tutte le sequenze generate in base alla (4.6) saranno
periodiche di periodo minore o uguale ad m, in quanto composte al piu` da m valori.
Per avere un buon generatore, allora, dovremo scegliere m molto grande: in pratica
converrebbe scegliere m pari al massimo numero intero rappresentabile nella parola
macchina del calcolatore, quindi m = 216 per un calcolatore a 16 bit, oppure m = 232
per un calcolatore a 32 bit. Inoltre dobbiamo assicurarci che la sequenza generata sia a
massimo periodo: affinche cio` accada, devono valere le seguenti condizioni [7]:
1. c ed a devono essere primi tra loro;
2. a 1 devessere multiplo di ogni fattore primo di m;
3. a 1 devessere multiplo di 4 se m e` multiplo di 4.
E` chiaro che, nel caso di sequenze a massimo periodo, il periodo m dovr`a eccedere significativamente la lunghezza tipica delle sequenze che utilizzeremo in una singola simulazione; se cos` non fosse, la periodicit`a della sequenza generata sarebbe chiaramente
individuabile, e cio` ne comprometterebbe la natura pseudo-aleatoria.6
Una volta progettato un buon generatore di numeri casuali interi xn tra 0 ed m
1, possiamo ottenere un generatore di numeri casuali yn tra 0 ed 1,7 semplicemente
dividendo xn per m:
xn
yn =
.
m
I numeri yn cos` generati non riempiono tutto lintervallo (0, 1), ma si dispongono su un
reticolo monodimensionale con spaziatura 1/m; in pratica, non otterremo tutti i numeri
reali tra 0 ed 1, ma soltanto i numeri razionali del tipo p/m, con p {0, 1, . . . , m 1}. Se
pero` m e` molto grande, il reticolo e` sufficientemente fitto da potersi ritenere una buona
approssimazione dei numeri nellintervallo (0, 1).8
6

Una regola pratica [9] e` che il periodo del generatore deve eccedere il quadrato della massima
lunghezza delle sequenza generate in una simulazione.
7
Tali generatori fanno parte delle funzioni di libreria dei moderni linguaggi di programmazione, nei
quali assumono la denominazione di funzione rand, o similari.
8
Consideriamo anche che se m e` il massimo numero rappresentabile in macchina, la differenza 1/m
tra due numeri razionali consecutivi e` la minima che posso rappresentare su una macchina con registri
di dimensione finita.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.3 Problema inverso: determinazione di g(x)

105

Osserviamo inoltre che, se la sequenza e` a massimo periodo, ogni valore p tra 0 ed


m1 sar`a assunto una ed una sola volta nel periodo, e quindi ogni valore razionale p/m
sar`a anchesso assunto una ed una sola volta nel periodo; in altri termini, osservando
una sequenza di lunghezza pari al periodo m, otterrei una distribuzione perfettamente
uniforme (sebbene discreta) di valori in (0, 1). In pratica, se m e` sufficientemente elevato,
e` possibile osservare solo sequenze di lunghezza molto minore del periodo, per cui la
legge di distribuzione dei valori e` solo approssimativamente uniforme, se il segmento e`
sufficientemente lungo.
Una classe di generatori lineari congruenti particolarmente utilizzata e` quella dei
generatori puramente moltiplicativi, per i quali cio`e c = 0. In questo caso, la condizione
c = 0 impedisce di raggiungere il massimo periodo m, perche dobbiamo escludere dai
valori ammissibili per la sequenza il valore 0, che porterebbe il generatore in un ciclo
composto da tutti 0; tuttavia esistono condizioni che garantiscono comunque la possibilit`a di raggiungere un periodo massimo pari ad m 1, e precisamente cio` accade
se:
1. m e` primo;
2. a e` una radice primitiva di m;9
3. il seme x0 e` diverso da zero.
Ad esempio, il generatore rand utilizzato in Matlab10 e` di tipo puramente moltiplicativo, con c = 0, m = 231 1 = 2147483647 ed a = 75 = 16807, con periodo pari a
m 1. Tale generatore e` stato proposto per la prima volta da S. K. Park e K. W. Miller
in [8] ed e` quello piu` comunemente implementato nella maggior parte dei linguaggi di
programmazione moderni.

4.3.5 Test statistici sui generatori


La condizione di massimo periodo garantisce luniformit`a dei numeri generati, ma da
sola evidentemente non e` sufficiente per assicurare la natura pseudo-aleatoria della
sequenza generata: si pensi ad esempio al seguente generatore lineare congruente:
xn+1 = (xn + 1)

mod m .

(4.7)

Un numero intero a si dice [3] [7] radice primitiva di m se il piu` piccolo valore di n tale che an 1 = 0
mod m e` n = m 1.
10
Fino alla versione 4: nella versione 5 e successive si utilizza un generatore basato su un algoritmo piu` sofisticato di quello lineare congruente, che assicura un periodo pari a 21492 (si veda
http://www.mathworks.com/company/newsletter/pdf/Cleve.pdf per maggiori dettagli sui generatori
impiegati in Matlab).
9

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

106

Trasformazioni di una variabile aleatoria


Tale generatore e` evidentemente a massimo periodo, in quanto inizializzato ad esempio
con x0 = 0 generer`a la sequenza:
0

m1

...

...

che ha periodo m, tuttavia la sequenza generata non ha evidentemente le propriet`a


pseudo-aleatorie desiderate! Esistono allora una serie di test statistici [7] che consentono
di verificare la capacit`a di un generatore di simulare il comportamento aleatorio.
Un test semplice per verificare la distribuzione uniforme consiste nel generare una
sequenza sufficientemente lunga e calcolarne listogramma dei valori (il numero dei valori che cadono tra 0.0 e 0.1, tra 0.1 e 0.2 e cos` via), il che corrisponde in pratica ad
effettuare una stima empirica della pdf dei valori generati. Ad esempio, consideriamo i
due seguenti generatori:
Good: generatore di Park e Miller (lineare congruente con c = 0, m = 231 1 =
2147483647 ed a = 75 = 16807);
Bad: generatore lineare congruente con c = 0, m = 217 = 131072 ed a = 1277.
In Fig. 4.21, sono riportati gli istogrammi di N = 4000 valori generati in (0, 1) da ciascuno dei due generatori: si puo` notare che per entrambi lipotesi di distribuzione uniforme
e` ben verificata.

0.1

0.1

f (x)

0.15

f (x)

0.15

0.05

0
0

0.05

0.2

0.4

0.6
x

0.8

0
0

0.2

0.4

0.6

0.8

Fig. 4.21. Istogrammi di N = 4000 valori generati dal generatore good (a sinistra) e dal
generatore bad (a destra).

Tuttavia, abbiamo osservato che non basta che la distribuzione sia uniforme, ma occorre verificare che non ci sia una regolarit`a facilmente identificabile nella sequenza
generata. Un test semplice per individuare tali regolarit`a consiste nel diagrammare su
un piano cartesiano le coppie di valori (xn , xn+1 ) generate: poich`e xn+1 = f (xn ), un cattivo generatore tender`a a presentare delle configurazioni regolari abbastanza evidenti.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

4.3 Problema inverso: determinazione di g(x)

107

Ad esempio, il diagramma per il generatore (4.7) sarebbe composto dalle coppie


(0, 1)

(1, 2)

(2, 3)

(3, 4)

...

che si dispongono chiaramente a formare una retta.


1

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6
yn+1

n+1

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0
0

0.2

0.4

0.6
y

0.8

0
0

0.2

0.4

0.6

0.8

yn

Fig. 4.22. Diagrammi delle coppie (yn , yn+1 ) di valori consecutivi generati in (0, 1) per il
generatore good(a sinistra) ed il generatore bad (a destra).

I corrispondenti diagrammi per i due generatori considerati sono riportati in Fig.


4.22, con riferimento ai valori yn generati nellintervallo (0, 1): mentre il generatore
good (a sinistra) non presenta schemi o regolarit`a facilmente individuabili, e` facile
invece notare che nel diagramma del generatore bad (a destra) i valori tendono a disporsi su rette oblique, il che induce a ritenere che bad non sia un buon generatore.
Ovviamente esistono test piu` sofisticati di questi menzionati, per i quali si rimanda a
[7] e [10]; per verificare la bont`a di un generatore, e` buona norma sottoporlo a piu` di
un test. A tale proposito, gli studiosi di generatori di numeri casuali sono soliti citare
laffermazione: Un generatore puo` ingannare un test qualche volta, e qualche test tutte
le volte, ma non tutti i test tutte le volte.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

108

Trasformazioni di una variabile aleatoria

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 5
Caratterizzazione sintetica di una
variabile aleatoria
5.1

Introduzione

Abbiamo visto che una variabile aleatoria X e` completamente caratterizzata dalla conoscenza della sua CDF, pdf, o DF. In molti casi pratici, tuttavia, si e` interessati a conoscere
solo alcuni parametri numerici della variabile aleatoria, che vanno genericamente sotto
il nome di momenti, i quali forniscono informazioni sintetiche sulla variabile aleatoria
(rispetto alla conoscenza della CDF, pdf, o DF): si parla in tal caso di caratterizzazione
sintetica della variabile aleatoria in oggetto.

5.2

Media di una variabile aleatoria

La definizione dei momenti di una variabile aleatoria discende in maniera diretta del
concetto fondamentale di media (statistica).
Definizione (media di una variabile aleatoria). La media (statistica) E(X) di
una variabile aleatoria X con pdf f (x) e` :

x f (x) dx
(5.1)
E(X) 

se tale integrale esiste finito.


Nella notazione E[X], la E deriva dalla denominazione anglosassone di media come
expectation (in italiano, diremmo valore atteso). Talvolta si usa indicare la media con la lettera greca ; per specificare, poi, che si tratta della media della variabile
aleatoria X, useremo anche la notazione X .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

110

Caratterizzazione sintetica di una variabile aleatoria


 Esempio 5.1 (media di una variabile aleatoria uniforme). Sia X U(a, b), allora si ha:

E(X) =
a

 2 x=b
1
a+b
1
x
x
=
dx =
,
ba
b a 2 x=a
2

per cui la media di X coincide con il punto medio dellintervallo [a, b].

 Esempio 5.2 (media di una variabile aleatoria esponenziale). Sia X Exp(), allora si ha:


d
x
xe
dx =
x [ex ] dx = (per parti) =
E(X) =
dx
0
 0


1
x=
= xex x=0 +
ex dx = ,

0
per cui la media di X coincide con il reciproco del parametro .

Che cosa rappresenta la media, o valore atteso? Dal punto di vista matematico, lintegrale nella (5.1) effettua una media pesata dei valori x, dove la pesatura e` rappresentata dal valore f (x) della pdf nel punto x, e quindi i valori x in corrispondenza
dei quali la pdf e` piu` grande vengono pesati maggiormente. Con una similitudine tratta dalla fisica, possiamo pensare alla media E(X) come al valore baricentrico della
distribuzione (pdf) di probabilit`a (e difatti la definizione di media e` formalmente identica alla definizione del baricentro di una distribuzione lineare di masse). In pratica, la
media e` una grandezza deterministica che si puo` interpretare come rappresentativa
dei valori assunti dalla variabile aleatoria ed in questo senso di parla di valore atteso; e` questo luso che si fa correntemente della media quando si fanno affermazioni
del tipo i maschi italiani sono alti in media 172 cm oppure uno studente di Ingegneria impiega in media 2.3 mesi a preparare un esame. Si noti tuttavia che, a dispetto
dellinterpretazione precedente, per particolari forme della pdf la media potrebbe non
coincidere con alcuno dei valori assunti dalla variabile aleatoria (cio` accade spesso per
variabili aleatorie discrete). Altre grandezze deterministiche che possono essere assunte come rappresentative della variabile aleatoria sono la mediana (ovvero il valore che
non e` superato con probabilit`a pari a 0.5, vedi 3.2.3) e la moda (ovvero il valore in cui
la pdf ha un massimo locale, vedi 3.3.1).
 Esempio 5.3 (media di una variabile aleatoria di Cauchy). Per particolari pdf la media potrebbe non essere definita, nel senso che la funzione integranda nella (5.1) potrebbe non
essere sommabile. E` questo il caso di una variabile aleatoria X Cauchy(), che ha pdf
, per la quale lintegrale nella (5.1) si scrive esplicitamente come:
f (x) = x2/
+2


/
x f (x) dx =
x 2
dx .
E(X) 
x + 2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

5.2 Media di una variabile aleatoria

111

La funzione integranda non e` sommabile, in quanto decade a zero allinfinito come 1/x.

Pertanto, la media E(X) di una variabile aleatoria di Cauchy non e` definita.1
Osserviamo che se la media E(X) esiste, e se la retta verticale di equazione x = a e` un
asse di simmetria per f (x), cio`e se
f (a + x) = f (a x),

x R,

allora e` facile dimostrare che E(X) = a.2 In particolare, se f (x) e` una funzione pari,
x = 0 e` un asse di simmetria, per cui E(X) = 0 (variabile aleatoria a media nulla).
 Esempio 5.4 (media di una variabile aleatoria gaussiana). Sia X N(, ), ricordiamo che
la sua pdf e` (cfr. 3.5.2)
(x)2
1
f (x) = e 22 .
2

Poich`e tale funzione ha chiaramente x = come asse di simmetria, allora risulta necessariamente E(X) = . Pertanto il parametro di una variabile aleatoria gaussiana ne
rappresenta la media statistica.

Vediamo come si particolarizza la definizione di media al caso in cui X e` una variabile
aleatoria discreta. In tal caso, la pdf f (x) si riduce (cfr. 3.3) ad una somma discreta di
impulsi di Dirac, del tipo

pi (x xi ) ,
f (x) =
xi X

dove pi = P (X = xi ), per cui, sostituendo nella definizione di media, si ottiene con facili
passaggi:

 
E(X) =
x f (x) dx =
x
pi (x xi ) dx

x
X
i
 

=
pi
x (x xi ) dx =
p i xi
xi X

xi X

xi P (X = xi ) =

xi X

xi p(xi ) ,

xi X

ovvero la media si puo` esprimere, anziche attraverso un integrale, mediante una sommatoria dei valori xi X della variabile aleatoria discreta X, ciascuno pesato per la DF
p(x) calcolata nel punto xi (somma pesata). Se i valori xi sono in numero finito ed
equiprobabili, la media statistica si riduce alla semplice media aritmetica dei valori xi .
1

Notiamo che se, viceversa, si adoperasse nella (5.1) la definizione di integrale a valor principale secondo
Cauchy, la media risulterebbe nulla.
2
In questo caso, si puo` anche verificare facilmente che, se x = a e` anche un punto di massimo locale
della pdf, allora media, moda e mediana coincidono.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

112

Caratterizzazione sintetica di una variabile aleatoria


 Esempio 5.5 (media di una variabile aleatoria di Bernoulli). Sia X Bern(p), allora
E(X) = 0 P (X = 0) + 1 P (X = 1) = 0 q + 1 p = p .
Si noti come la media (salvo nei casi, peraltro poco interessanti, in cui p = 0 oppure
p = 1) non coincide con alcun valore assunto dalla variabile aleatoria X.

 Esempio 5.6 (media di una variabile aleatoria binomiale). Sia X B(n, p), allora
 
n
n


n k
k P (X = k) =
k
p (1 p)nk = np .
E(X) =
k
k=0
k=0
Il risultato precedente si puo` ottenere utilizzando le propriet`a dei coefficienti binomiali,
ma risulta laborioso; vedremo successivamente che il calcolo si puo` effettuare assai piu`
semplicemente riguardando la variabile aleatoria binomiale come somma di n variabili
aleatorie bernoulliane. Osserviamo infine che solo nel caso in cui np sia intero, la media
coincide con uno dei valori assunti dalla variabile aleatoria X, come spesso accade per
le variabile aleatoria discrete.

 Esempio 5.7 (media di una variabile aleatoria indicatrice di un evento). Sia XA la variabile
aleatoria indicatrice (vedi esempio 3.10) di un evento A, e cio`e:

1, se A;
XA () =
0, se A.
Tale variabile aleatoria e` ovviamente discreta, e assume i valori 1 e 0 con probabilit`a
P (A) e P (A). Si ha, allora:
E(XA ) = 1 P (A) + 0 P (A) = P (A) .
Questo esempio evidenzia che la probabilit`a di un evento A si puo` interpretare come
media della variabile aleatoria indicatrice dellevento stesso.

 Esempio 5.8 (media di una costante). Sia X = a una variabile aleatoria costante, che assume lunico valore reale a con probabilit`a 1. Poiche la sua pdf e` f (x) = (x a), si
ha:

x (x a) dx = a
E(X) =

e pertanto E(a) = a.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

5.2 Media di una variabile aleatoria

113

5.2.1 Teorema fondamentale della media


Occupiamoci adesso del problema, ricorrente nelle applicazioni, di calcolare la media
di una variabile aleatoria Y = g(X) ottenuta come trasformazione di unaltra variabile
aleatoria X. Applicando la definizione di media per Y , si ha:

E(Y ) 

y fY (y) dy .

Pertanto, per determinare E(Y ), sembra necessario calcolare la pdf fY (y), il che puo` farsi
adoperarando il teorema fondamentale 4.1 sulle trasformazioni di variabili aleatorie.
Tale conclusione non e` pero` del tutto corretta, in virtu` del seguente teorema fondamentale
della media, che enunciamo senza dimostrazione.
Teorema 5.1 (teorema fondamentale della media). Sia Y = g(X) una trasformazione
della variabile aleatoria X avente pdf fX (x), si ha:


E(Y ) = E[g(X)] =

g(x) fX (x) dx

se tale integrale esiste finito.


Nel caso in cui X sia una variabile aleatoria discreta con DF p(x), abbiamo avuto gi`a modo di osservare che anche Y = g(X) sar`a una variabile aleatoria discreta, ed il teorema
fondamentale si puo` esprimere come:
E(Y ) = E[g(X)] =

g(xi ) P (X = xi ) =

xi X

g(xi ) pX (xi )

xi X

ovvero in termini della DF pX (x) di X. In questo caso si puo` fornire una dimostrazione
semplice del teorema (si veda [5] oppure [4]).
 Esempio 5.9. Sia X U(0, 2), e si voglia calcolare la media di Y = cos(X). Applicando il teorema fondamentale, scriviamo:
1
E(Y ) = E[cos(X)] =
2

cos(x) dx =
0

1
[sin(x)]x=2
x=0 = 0
2

per cui E(Y ) = 0 e non e` stato necessario calcolare esplicitamente la pdf di Y , la cui
espressione abbiamo peraltro derivato nellesempio 4.5 (si tratta di una pdf pari, per cui
effettivamente E(Y ) = 0).


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

114

Caratterizzazione sintetica di una variabile aleatoria

5.2.2 Propriet`a della media


Loperazione di media statistica gode delle seguenti propriet`a, che vengono enunciate
senza dimostrazione.
1. Siano g() e h() funzioni reali, e siano a e b costanti reali. Si ha:
E[a g(X) + b h(X)] = a E[g(X)] + b E[h(X)] .
In particolare, si ha:
E(a X + b) = a E(X) + b ,
in quanto E(b) = b. Tale fondamentale propriet`a va sotto il nome di linearit`a della
media.
2. Se g(x) 0 per ogni x, allora E[g(X)] 0.
3. Se g1 (x) g2 (x) per ogni x, allora E[g1 (X)] E[g2 (X)].
4. Se a g(x) b per ogni x, allora a E[g(X)] b.

5.3

Varianza e valor quadratico medio di una variabile aleatoria

Passiamo ora a definire un altro importante parametro sintetico di una variabile aleatoria X, ovvero la sua varianza.3
Definizione (varianza di una variabile aleatoria). La varianza 2 = VAR(X)
di una variabile aleatoria X con media = E(X) e` :

2
2
(x )2 f (x) dx ,
= VAR(X)  E[(X ) ] =

se tale integrale esiste finito.



La varianza e` una quantit`a non negativa: la sua radice quadrata  VAR(X) prende
il nome di deviazione standard della variabile aleatoria X; si noti che la varianza e` dimensionalmente affine al quadrato della variabile aleatoria, mentre la deviazione standard
ha le stesse dimensioni della variabile aleatoria.
3

La definizione che segue si puo` interpretare anche come lapplicazione del teorema fondamentale
della media al calcolo della media di Y = g(X) = (X )2 .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

5.3 Varianza e valor quadratico medio di una variabile aleatoria

115

Sviluppando algebricamente il quadrato che compare nella definizione di varianza,


ed adoperando la propriet`a di linearit`a della media, si ha, con semplici passaggi,
2 = E[(X )2 ] = E[X 2 2X + 2 ] =
= E(X 2 ) 2E(X) + 2 = E(X 2 ) 2 =

(5.2)

= E(X 2 ) E 2 (X) .
La quantit`a E(X 2 ) (anchessa non negativa) prende il nome di valore quadratico medio
(vqm), e si calcola, sulla base del teorema fondamentale della media, come:

2
E(X ) =
x2 f (x) dx .


La radice quadrata xrms  E(X 2 ) del valore quadratico medio prende il nome di valore
efficace della variabile aleatoria X, ed e` dimensionalmente affine ad X.4
La relazione (5.2) tra varianza, media e valor quadratico medio e` fondamentale, e
mostra che solo due tra questi tre parametri possono essere assegnati arbitrariamente, in
quanto il terzo dipende univocamente dagli altri due. Inoltre, la relazione (5.2) mostra
che, per variabili aleatorie a media nulla, la varianza coincide con il valor quadratico
medio, e quindi la deviazione standard coincide con il valore efficace.
 Esempio 5.10 (varianza di una variabile aleatoria uniforme a media nulla). Consideriamo il
caso di X U(/2, /2), allora = E(X) = 0, e si ha:
 x=/2
2
1 x3
1
x
=
dx =
.
= E[X ] =

3 x=/2
12
/2


/2

Osserviamo come la varianza cresca al crescere dellampiezza dellintervallo in cui la


variabile aleatoria X assume i suoi valori. Il caso di una variabile aleatoria uniforme a
media non nulla e` trattato nellesempio 5.14.

 Esempio 5.11 (varianza di una costante). Sia X = a una variabile aleatoria costante, che
assume lunico valore reale a con probabilit`a 1. E` facile verificare che la sua varianza e`
nulla, in quanto X = a a = 0.

Qual e` linterpretazione della varianza ? La varianza 2 di una variabile aleatoria misura la concentrazione (o, equivalentemente, la dispersione) di X intorno alla sua media
. In altri termini, se una variabile aleatoria ha varianza piccola, allora essa e` poco dispersa intorno alla sua media (assumer`a con maggior probabilit`a valori intorno alla
4

Il pedice rms sta per root mean square, che e` la denominazione inglese per radice del valor
quadratico medio.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

116

Caratterizzazione sintetica di una variabile aleatoria


media); viceversa, se una variabile aleatoria ha varianza grande, allora essa e` molto dispersa intorno alla sua media (assumer`a con probabilit`a non trascurabile valori assai
lontani dalla media).5 Possiamo equivalentemente dire che la varianza e` una misura
dellincertezza associata ai valori della variabile aleatoria aleatoria X; infatti una variabile aleatoria X = a costante ha varianza nulla, perch`e non c`e nessuna incertezza sui
valori che puo` assumere.
Adoperando una similitudine fisica, cos` come la media e` equivalente al baricentro
di una distribuzione di masse, cos` la varianza rappresenta (e la sua espressione matematica e` formalmente equivalente) il momento di inerzia della distribuzione di masse
rispetto al baricentro.
 Esempio 5.12 (varianza di una variabile aleatoria gaussiana). Sia X N(, ): vogliamo
verificare che 2 rappresenta proprio la varianza, e quindi la deviazione standard. Per
provarlo, ricorriamo ad un artificio: avendo gi`a dimostrato che = E(X), consideriamo
lintegrale (condizione di normalizzazione per una pdf):


f (x) dx = 1 ,

che per la pdf gaussiana si scrive esplicitamente:




(x)2
1
e 22 dx = 1 ,
2

ovvero:


(x)2
2 2

dx = 2 .

Poiche questidentit`a vale per ogni > 0, deriviamola rispetto a :




(x)2
2 2

(x )2
dx = 2
3

da cui:

VAR(X) =

(x)2
1
(x )2 e 22 dx = 2
2

che e` quanto volevamo provare.


5

Un legame quantitativo piu` preciso tra il valore della varianza e la probabilit`a con cui la variabile
aleatoria assume valori nellintorno della media e` fornito dalla fondamentale disuguaglianza di Chebishev
(vedi 5.5).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

5.3 Varianza e valor quadratico medio di una variabile aleatoria

117

Se X e` una variabile aleatoria discreta, allora



f (x) =
pi (x xi )
xi X

e quindi, sostituendo nella definizione di varianza, con facili passaggi si ottiene:




2 =
pi (xi )2 =
p(xi ) (xi )2
xi X

xi X

dove p(x) e` la DF di X. Ovviamente, anche per variabili aleatorie discrete vale la


fondamentale relazione (5.2) tra varianza, media e valor quadratico medio.
 Esempio 5.13 (varianza di una variabile aleatoria di Bernoulli). Sia X Bern(p), allora, poiche:
E(X) = 1 p + 0 q = p ,
E(X 2 ) = 12 p + 0 q = p ,
applicando la (5.2) si ha:
2 = E(X 2 ) E 2 (X) = p p2 = p (1 p) = p q .
Si noti che tale varianza assume il valore massimo per p = q = 0.5.

5.3.1 Propriet`a della varianza


Come e` evidente dalla sua definizione, la varianza non e` un operatore lineare, ma quadratico: si pone allora il problema di come calcolare la varianza di Y = aX + b. Se X e`
una variabile aleatoria con varianza finita, qualunque siano le costanti reali a e b, si ha:
Var(aX + b) = a2 Var(X) .

(5.3)

Prova. Sulla base della definizione, si ha:


Var(a X + b) = E{[a X + b E(aX + b)]2 }
Adoperando la linearit`a della media, con semplici passaggi possiamo scrivere:
E{[a X + b E(aX + b)]2 } = E{[a X + b aE(X) b)]2 } = E{[a X aE(X)]2 } =
= a2 E[X E(X)]2 = a2 Var(X)
che e` il risultato cercato.

Notiamo che, nella trasformazione Y = a X + b, la varianza non dipende da b, e quindi


in particolare la varianza di X coincide con quella di Y = X + b, per qualunque valore

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

118

Caratterizzazione sintetica di una variabile aleatoria


della traslazione b. Tale risultato e` intuitivamente chiaro se si considera che la varianza
misura la dispersione rispetto alla media: una traslazione di b modifica la media, ma non
la dispersione intorno ad essa. Questa invarianza per traslazione della varianza consente
di scegliere opportunamente b nei casi pratici in maniera tale da semplificare il calcolo
della varianza. In particolare, scegliendo b = X si costruisce la variabile aleatoria
centrata Y = X X che ha media nulla e la stessa varianza di X. Notiamo che la pdf di
Y si otterr`a semplicemente per traslazione della pdf di X, ovvero fY (y) = fX (y + X ).
 Esempio 5.14 (varianza di una variabile aleatoria uniforme). Sia X U(a, b), allora X =
. La variabile aleatoria centrata Y = X X avr`a media nulla e sar`a anE(X) = a+b
2
cora uniforme, ma nellintervallo (/2, /2), con = b a. Pertanto, ricordando il
risultato dellesempio 5.10, si ha:
Var(X) = Var(Y ) =

(b a)2
2
=
.
12
12


In molti casi, a partire da una variabile aleatoria X, si desidera ottenere una variabile
aleatoria standard, ovvero una variabile aleatoria Z a media nulla e varianza unitaria. E`
allora sufficiente dividere la variabile aleatoria centrata Y = X X per la deviazione
standard di X, costruendo Z come:
Z=

X X
.
X

Infatti, e` banale verificare che E(Z) = 0, mentre applicando la propriet`a (5.3) si ha:
Var(Z) =

1
Var(X) = 1 .
2
X

Notiamo che, poiche Z si ottiene da X attraverso una trasformazione lineare del tipo
Z = aX + b, la pdf di Z sar`a data da
fZ (z) = X fX (X z + X ) ,
e pertanto tale trasformazione non modifica sostanzialmente la famiglia a cui la pdf
appartiene (nel senso che una variabile aleatoria uniforme resta uniforme, una variabile
aleatoria gaussiana resta gaussiana, e cos` via) ma cambia solo la posizione della pdf
sullasse dellascisse (per effetto della traslazione di X ) e la scala della pdf (per effetto
della moltiplicazione per X sia dellargomento che dei valori assunti). In particolare, se
X
N(0, 1) e` ancora gaussiana con media
X N(X , X ), la variabile aleatoria Z = X
X
nulla e varianza unitaria, e prende il nome di normale standard (la sua CDF e` proprio la
funzione G(x) riportata in Appendice B).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

5.4 Momenti di una variabile aleatoria

5.4

119

Momenti di una variabile aleatoria

La media, la varianza ed il valor quadratico medio appartengono ad una classe di


grandezze sintetiche piu` generali, i momenti di una variabile aleatoria.6
Definizione (momento). Il momento di ordine n N di una variabile aleatoria
X e` :

n
xn f (x) dx ,
n  E(X ) =

se lintegrale esiste finito.


Definizione (momento centrale). Il momento centrale di ordine n N di una
variabile aleatoria X con media = E(X) e` :

n
(x )n f (x) dx ,
n  E[(X ) ] =

se lintegrale esiste finito.


Definizione (momento assoluto). Il momento assoluto di ordine n N di una
variabile aleatoria X e` :

n
E[|X| ] =
|x|n f (x) dx ,

se lintegrale esiste finito.


Definizione (momento generalizzato/assoluto). Il momento generalizzato rispetto ad a di ordine n N di una variabile aleatoria X e` :

n
E[(X a) ] =
(x a)n f (x) dx ,

oppure nella versione assoluta e` :



E[|X a| ] =
n

|x a|n f (x) dx ,

se i corrispondenti integrali esistono finiti.


Le definizioni precedenti si particolarizzano facilmente al caso di variabili aleatorie discrete. Notiamo poi che, di tali definizioni, le piu` utilizzate sono quelle relative ai momenti propriamente detti (n ) ed ai momenti centrali (n ). In particolare, osserviamo
6

La definizione delle grandezze che seguono si pu`o sempre ricondurre allapplicazione del teorema
fondamentale della media ad opportune trasformazioni della variabile aleatoria X.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

120

Caratterizzazione sintetica di una variabile aleatoria


che la media E(X) = coincide con il momento 1 di ordine n = 1, che la varianza
2 = Var(X) coincide con il momento centrale 2 di ordine n = 2, e infine che il valor
quadratico medio E(X 2 ) coincide con il momento 2 di ordine n = 2. I momenti con
n > 2 sono meno utilizzati, e prendono il nome di momenti di ordine superiore.
Notiamo infine che la caratterizzazione di una variabile aleatoria in termini di momenti viene detta caratterizzazione sintetica, in quanto fornisce uninformazione ridotta
(per lappunto, sintetica) rispetto alla conoscenza della CDF, pdf o DF. Infatti, mentre
assegnare la CDF, pdf o DF di una variabile aleatoria X (caratterizzazione completa)
consente di calcolare un qualunque momento, la conoscenza di un sottoinsieme di momenti di X (caratterizzazione sintetica) non consente in generale di risalire alla CDF,
pdf o DF. 7

5.4.1 Relazione tra momenti e momenti centrali


E` immediato ricavare i momenti centrali in funzione di quelli non centrali, sfruttando la
formula per lo sviluppo della potenza n-esima di un binomio e la linearit`a della media.
Si ha:

 n  
 n
X k ()nk =
n = E[(X )n ] = E
k
k=0


n
n  
 n

n
k
nk
E(X )()
k ()nk
=
=
k
k
k=0
k=0
Osserviamo che il momento centrale n di ordine n dipende dalla media e da tutti i
momenti k di ordine k n.
Altrettanto immediato e` ricavare i momenti non centrali in funzione di quelli centrali. Si ha:
 n  

 n
(X )k nk
n = E[X n ] = E[(X + )n ] = E
k
k=0
(5.4)
n  
n  


n
n
E[(X )k ] nk =
k nk
=
k
k
k=0
k=0
Anche qui il momento n di ordine n dipende dalla media e da tutti i momenti centrali
k di ordine k n.
 Esempio 5.15 (momenti di una variabile aleatoria gaussiana). Sia X N(, ): vogliamo
calcolarne i momenti e i momenti centrali di ordine n qualsiasi.
7

Il discorso e` diverso se si suppone di conoscere tutti i momenti; in tal caso, sotto opportune ipotesi, e`
possibile risalire alla CDF, pdf o DF attraverso luso della funzione caratteristica (vedi ad esempio [3, 5-5])

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

5.4 Momenti di una variabile aleatoria

121

Iniziamo con il calcolo dei momenti della normale standard Z N(0, 1). Infatti, poich`e possiamo esprimere una generica gaussiana X N(, ) in termini della normale
standard Z, come X = Z + , potremo poi esprimere i momenti di X in funzione dei
momenti di Z.
Poiche Z e` a media nulla, momenti e momenti centrali coincidono: dobbiamo allora
calcolare il generico momento di ordine n, dato da:

n
xn fZ (x) dx ,
n = n = E[Z ] =

dove
1 2
1
fZ (x) = e 2 x .
2

Osserviamo subito che, poiche fZ (x) e` una funzione pari, i momenti per n dispari risultano nulli, essendo definiti attraverso lintegrale di una funzione dispari; il calcolo
va allora affrontato solo per n pari. Tuttavia, poiche il calcolo diretto dellintegrale per
n pari e` complicato, utilizziamo un artificio simile a quello dellesempio 5.12, ovvero
partiamo dallidentit`a


2
ex dx = 1/2 ,

valida per ogni > 0, che si puo` ottenere a partire dalla condizione di normalizzazione
della pdf per una variabile aleatoria X N (0, ) con 2 = 1/(2). Derivando k volte
rispetto ad tale identit`a, si ottiene:
 


1
x2
2
e
(x ) dx =

3/2
2
  


1
3
2
ex (x2 )(x2 ) dx =

5/2
2
2

...
   



1
3
2k 1
x2
2
2
2
e
(x )(x ) (x ) dx =

(2k+1)/2



2
2
2

k termini
k termini

Lultima relazione puo` essere riscritta, con semplici manipolazioni algebriche, nella
forma:



x2 2k
e
x dx =
1 3 (2k 1) (2)k


da cui, portando al primo membro e ponendo = 1/2 si ottiene:

1
2

x2k ex /2 dx = 1 3 (2k 1)  (2k 1)!!


2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

122

Caratterizzazione sintetica di una variabile aleatoria


ovvero proprio il momento E(Z n ) con n = 2k pari.8 In definitiva, se Z N(0, 1), si ha:

0,
n dispari ;
E(Z n ) =
(n 1)!!, n pari .
Possiamo adesso affrontare il caso piu` generale di X N(, ). Procediamo dapprima considerando il caso = 0, per il quale i momenti ed i momenti centrali di X
coincidono, ed inoltre si ha X = Z, per cui E(X n ) = n E(Z n ), e quindi:

0,
n dispari ;
(5.5)
E(X n ) =
n (n 1)!!, n pari .
In particolare, per una variabile aleatoria X N(0, ), molto utilizzato e` il momento del
quarto ordine E(X 4 ) = 3 4 .
Infine, se = 0, e quindi X N(, ), i momenti centrali n coincidono con quelli di
Y = X che e` a media nulla, e quindi sono dati ancora dalla relazione (5.5):

0,
n dispari ;
n  E[(X )n ] =
n (n 1)!!, n pari ;
mentre i momenti non centrali si ottengono a partire da quelli centrali sfruttando la
relazione (5.4).


5.5

Disuguaglianze notevoli

In questa sezione introdurremo tre disuguaglianze notevoli, che mettono in relazione


tra loro momenti e probabilit`a. Procederemo introducendo la disuguaglianza di Markov, dalla quale discende quella di Bienayme, ed infine particolarizzando questultima
otterremo la fondamentale disuguaglianza di Chebishev, la piu` importante sia teoricamente che nelle applicazioni. Questultima ci consentit`a, in particolare, di approfondire
linterpretazione della varianza di una variabile aleatoria X come indice di dispersione
dei valori assunti dalla variabile aleatoria.
Teorema 5.2 (Disuguaglianza di Markov). Sia Y una variabile aleatoria positiva, cio`e
tale che fY (y) 0 per ogni y < 0, e con media E(Y ) finita. Si ha:
P (Y )

E(Y )

per ogni > 0.


8

Si noti che abbiamo utilizzato il simbolo !! (doppio fattoriale) per denotare il prodotto dei soli numeri
dispari fino ad un numero specificato.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

5.5 Disuguaglianze notevoli

123

P (Y ) (Markov) P (Y ) (esatto)
2
5 101
1.35 101
1
5
2 10
6.74 103
10
1 101
4.54 105
20
5 102
2.06 109
50
2 102
1.93 1022
2
100
5 10
3.72 1044
Tab. 5.1. Confronto tra i valori di probabilit`a previsti dalla disuguaglianza di Markov e quelli
esatti per una variabile aleatoria esponenziale Y di parametro .
Prova. Si ha, con facili passaggi, la seguente catena di disuguaglianze:



E(Y ) =
y fY (y) dy
y fY (y) dy
fY (y) dy = P (Y ) ,
0

da cui lasserto.

Lutilit`a della disuguaglianza di Markov consiste nella possibilit`a di valutare approssimativamente la probabilit`a che una variabile aleatoria positiva ecceda un dato valore .
In effetti, essa fornisce un limite superiore per landamento della CDF complementare
di una variabile aleatoria positiva, che non puo` decrescere piu` lentamente di 1/. Tuttavia, in molti casi pratici la rapidit`a di decadimento a zero della CDF complementare e`
molto piu` rapido di quello previsto dalla disuguaglianza di Markov, come mostrato dal
seguente esempio.
 Esempio 5.16. Sia Y Exp(), con E(Y ) = 1 . Essendo FY (y) = [1 ey ] u(y), possiamo calcolare direttamente P (Y ) = 1 FY () = e . La disuguaglianza di Markov
si scrive allora esplicitamente nella forma:
e

1
.

Tale disuguaglianza e` senzaltro verificata, ma lerrore relativo tra primo membro (che
decade con legge esponenziale) e secondo membro (che decade con legge iperbolica)
cresce senza limiti al crescere di , come dimostrato dai valori riportati in Tab. 5.5. 

Teorema 5.3 (disuguaglianza di Bienayme). Sia X una variabile aleatoria e sia b un


numero reale. Si ha:
E(|X b|n )
,
P (|X b| )
n
per ogni n N ed > 0.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

124

Caratterizzazione sintetica di una variabile aleatoria


Prova. Si ottiene banalmente dalla disuguaglianza di Markov ponendo Y = |X b|n ed = n , ed
osservando che, poiche la funzione y = xn e` monotona crescente per n N, si ha
P (Y ) = P (|X b|n n ) = P (|X b| ) .
Si osservi che E(|X b|n ) deve esistere finito.

La probabilit`a che compare nella disuguaglianza di Bienayme e` quella che la variabile


aleatoria X non appartenga allintervallo (b , b + ). Tale probabilit`a a parit`a di , e`
tanto piu` piccola quanto piu` e` piccolo il momento assoluto rispetto a b E[|X b|n ], che
quindi va interpretato come un indice di dispersione della variabile aleatoria intorno a b.
Notiamo, in particolare, che se b = = E(X) e se n e` pari, E[|X b|n ] coincide con il
momento centrale n di ordine n, che pertanto va interpretato, per n pari, come un indice di dispersione intorno alla media. Tale risultato vale in particolare per n = 2, e quindi
per la varianza 2 = 2 , ed e` tanto importante da prendere il nome di disuguaglianza di
Chebishev.
Teorema 5.4 (disuguaglianza di Chebishev). Sia X una variabile aleatoria con media
e varianza 2 finite. Si ha:
P (|X | )

2
,
2

(5.6)

per ogni > 0.


Prova. Si ottiene dalla disuguaglianza di Bienayme per b = ed n = 2.

Sulla base della disuguaglianza di Chebishev, la varianza puo` essere interpretata come
il piu` semplice indice di dispersione dei valori assunti da una variabile aleatoria intorno
alla sua media. Infatti, ponendo = k, possiamo anche riscrivere la (5.6) come
P (|X | k)

1
,
k2

(5.7)

o equivalentemente come:
P (|X | < k) 1

1
.
k2

(5.8)

In particolare, la (5.8) consente di ottenere un limite inferiore per la probabilit`a che la


variabile aleatoria X assuma valori nellintervallo ( k, + k), come evidenziato in
Tab. 5.5, nella quale tali valori sono riportati per i valori di k da 1 a 5.
Ad esempio, per k = 4 la variabile aleatoria assume valori in 4 con probabilit`a
superiore al 93%; pertanto, quanto piu` e` piccola, tanto piu` tale intervallo sar`a piccolo,
e conterr`a comunque una frazione superiore al 93% dei valori assunti dalla variabile
aleatoria. In questo senso, misura la dispersione o variabilit`a della variabile aleatoria

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

5.5 Disuguaglianze notevoli


k
1
2
3
4
5

125
intervallo

2
3
4
5

P (X intervallo)
0
0.75
0.89
0.9375
0.96

Tab. 5.2. Probabilit`a che la variabile aleatoria X appartenga ad un intervallo centrato intorno
alla media previsti dalla disuguaglianza di Chebishev.

intorno alla media , ed e` questo il motivo per cui, in ultima analisi, 2 e` denominata
varianza.
Osserviamo infine che poiche la disuguaglianza di Chebishev discende da quella di
Markov, valgono per essa considerazioni analoghe a quelle gi`a effettuate per la disuguaglianza di Markov relativamente allo scostamento tra i valori effettivi di probabilit`a
ed il limite previsto dalla disuguaglianza. Lutilit`a della disuguaglianza di Chebishev
non sta tanto nellaccuratezza con la quale e` in grado di fornire i valori della probabilit`a
che la variabile aleatoria X appartenga ad un intervallo centrato intorno alla media, ma
nella sua generalit`a e semplicit`a, in quanto consente di ottenere stime di tale probabilit`a
senza richiedere la conoscenza esplicita della pdf o CDF della variabile aleatoria, ma
solo della sua varianza.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

126

Caratterizzazione sintetica di una variabile aleatoria

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 6
Coppie di variabili aleatorie
6.1

Introduzione

Nei precedenti capitoli abbiamo affrontato lo studio di una singola variabile aleatoria
X; anche quando ci siamo occupati di trasformazioni di variabili aleatorie, del tipo
Y = g(X), mediante le quali a partire da una variabile aleatoria X e` possibile generare unaltra variabile aleatoria Y , ci siamo limitati a caratterizzare singolarmente Y
(calcolandone ad esempio la CDF o la pdf).
E` chiaro che, se Y si ottiene a partire da X mediante una trasformazione g(X), il
legame esistente tra X ed Y e` semplice, essendo di tipo deterministico; tuttavia esistono molti casi pratici in cui e` possibile definire due variabili aleatorie su uno stesso
esperimento di probabilit`a ed il legame tra esse non e` semplicemente deterministico.
Ad esempio, lesperimento probabilistico puo` consistere nello scegliere una persona
a caso in un insieme di persone, e la variabile aleatoria X puo` rappresentarne laltezza,
mentre la variabile aleatoria Y puo` rappresentarne il peso. E` chiaro che esiste una dipendenza tra X ed Y , ma non e` espressa da una semplice relazione del tipo Y = g(X), in
quanto il legame tra peso ed altezza dipende dal tutta una serie di altri parametri, quali
conformazione fisica della persona, sesso, et`a, etc. Daltra parte appare impensabile individuare una formula esatta che descrive la relazione tra peso ed altezza e tenga conto
di tutti i parametri del problema. E` ragionevole invece descrivere in maniera approssimata tale relazione utilizzando le leggi della probabilit`a, il che costituisce loggetto del
presente capitolo. Dovremo allora essere in grado di calcolare la probabilit`a che laltezza di una persona sia compresa, diciamo, tra 180 e 190 cm, mentre il suo peso sia
compreso tra 70 ed 80 kg. Tale problema e` concettualmente simile a quello di descrivere
congiuntamente due o piu` esperimenti probabilistici (esperimento combinato) discusso
in dettaglio nel 2.4.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

128

Coppie di variabili aleatorie

Y
y

Fig. 6.1. Levento {X x, Y y} e` costituito dai punti di le cui immagini (X, Y ) cadono nella
regione in grigio.

6.2

Funzione di distribuzione cumulativa (CDF) congiunta

Consideriamo due variabili aleatorie X ed Y costruite sullo stesso spazio di probabilit`a


(, B, P ). Sulla base delle conoscenze finora acquisite, siamo in grado di calcolare le
probabilit`a che definiscono le CDF di X ed Y :
P (X x)  FX (x) ;
P (Y y)  FY (x) ;
ma non sappiamo evidentemente calcolare la probabilit`a di eventi del tipo:
{X x} {Y y} = {X x, Y y} ,
che rappresentano la probabilit`a che i valori assunti dalla coppia (X, Y ) appartengano
alla regione del piano delimitata dalle rette di equazione X = x ed Y = y (regione in
grigio in Fig. 6.1). Infatti questa probabilit`a non si puo` esprimere in termini di FX (x)
e FY (y).1 Tale considerazione porta naturalmente allintroduzione di una misura della
probabilit`a congiunta degli eventi {X x} e {Y y}, rappresentata dalla funzione di
distribuzione cumulativa (CDF) congiunta della coppia di variabili aleatorie (X, Y ).
Tranne nel caso particolare in cui gli eventi {X x} e {Y y} siano statisticamente indipendenti,
come vedremo nel seguito.
1

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.2 Funzione di distribuzione cumulativa (CDF) congiunta

129

Definizione (CDF congiunta). Date due variabili aleatorie X ed Y costruite su


uno stesso spazio di probabilit`a (, B, P ), la loro CDF congiunta e` :
FXY (x, y)  P (X x, Y y) ,

(x, y) R R .

La CDF congiunta e` chiaramente una funzione reale di due variabili reali, a valori in
[0, 1] (trattandosi di una probabilit`a). Essendo una funzione di due variabili, essa risulta
piu` difficile da interpretare e manipolare matematicamente, rispetto alle CDF FX (x) ed
FY (y): le sue principali propriet`a sono elencate nel paragrafo seguente. Notiamo che
nel seguito, per brevit`a, utilizzeremo sia la notazione FXY (x, y), sia quella piu` sintetica
F (x, y).

6.2.1 Propriet`a della CDF congiunta


La CDF congiunta F (x, y) gode delle seguenti propriet`a.
1. F (, y) = 0, F (x, ) = 0, F (+, +) = 1.
Prova. Per la prima identit`a , si ha:
F (, y) = P (X , Y y) ,
ma {X , Y y} {X = } per cui P (X , Y y) P (X = ) = 0, per
la definizione di variabile aleatoria. Analogamente si procede per provare la seconda identit`a.
Infine, per provare la terza si scrive semplicemente:
F (+, +) = P (X +, Y +) = P () = 1 .


2. P (x1 < X x2 , Y y) = F (x2 , y) F (x1 , y);


P (X x, y1 < Y y2 ) = F (x, y2 ) F (x, y1 ).
Prova. Per la prima relazione, si noti che si ha (Fig. 6.2)
{X x1 , Y y} {x1 < X x2 , Y y} = {X x2 , Y y} ,
e gli eventi a primo membro sono mutuamente esclusivi, per cui:
P (X x1 , Y y) + P (x1 < X x2 , Y y) = P (X x2 , Y y) ,
ovvero:
F (x1 , y) + P (x1 < X x2 ) = F (x2 , y) ,
da cui lasserto. Analogamente si procede per provare la seconda relazione.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

130

Coppie di variabili aleatorie

y2
y1

x1

x2

x1

Fig. 6.2. Levento {x1 < X x2 , Y y}


e` costituito dai punti di le cui immagini
(X, Y ) cadono nella regione in grigio.

x2

Fig. 6.3. Levento {x1 < X x2 , y1 <


Y y2 } e` costituito dai punti di le cui
immagini (X, Y ) cadono nella regione in
grigio.

3. P (x1 < X x2 , y1 < Y y2 ) = F (x2 , y2 ) F (x1 , y2 ) F (x2 , y1 ) + F (x1 , y1 ).


Prova. Si noti che si ha (Fig. 6.3):
{x1 < X x2 , Y y2 } = {x1 < X x2 , Y y1 } {x1 < X x2 , y1 < Y y2 } ,
e gli eventi a secondo membro sono mutuamente esclusivi, per cui:
P (x1 < X x2 , Y y2 ) = P (x1 < X x2 , Y y1 ) + P (x1 < X x2 , y1 < Y y2 ) ,
ovvero:
F (x2 , y2 ) F (x1 , y2 ) = F (x2 , y1 ) F (x1 , y1 ) + P (x1 < X x2 , y1 < Y y2 ) ,
da cui lasserto.

Per ricordare mnemonicamente tale propriet`a, osserviamo che la CDF compare


con il segno positivo nelle coppie concordi (x1 , y1 ) e (x2 , y2 ), mentre compare
con il segno negativo nelle coppie discordi (x1 , y2 ) ed (x2 , y1 ).

6.3

Funzione densit`a di probabilit`a (pdf) congiunta

A partire dalla CDF congiunta, e` naturale definire la funzione densit`a di probabilit`a


(pdf) congiunta di una coppia di variabili aleatorie (X, Y ).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.3 Funzione densit`a di probabilit`a (pdf) congiunta

131

Definizione (pdf congiunta). Date due variabili aleatorie X ed Y con CDF


congiunta FXY (x, y), la loro pdf congiunta e` :
2
fXY (x, y) 
FXY (x, y) .
xy

(6.1)

Notiamo che nella definizione di pdf congiunta compare la derivata mista (rispetto a
x ed y) della funzione di due variabili FXY (x, y); poiche la pdf e` unica, assumeremo
che tale derivata mista non dipenda dallordine di derivazione, ovvero che la funzione
FXY (x, y) soddisfi la seguente condizione di Schwartz per lo scambio dellordine di derivazione: le derivate miste di FXY (x, y) rispetto ad x ed y devono esistere ed essere
continue.2 Notiamo che nel seguito utilizzeremo per la pdf congiunta sia la notazione
fXY (x, y), sia quella piu` snella f (x, y).

6.3.1 Propriet`a della pdf congiunta


Mentre, sulla base della definizione, la pdf congiunta si ottiene a partire dalla CDF
congiunta per semplice derivazione, la seguente relazione consente di calcolare la CDF
congiunta a partire dalla pdf congiunta per integrazione:
 x  y
F (x, y) =
f (u, v) du dv .
(6.2)

Prova. Integrando membro a membro la (6.1), si ha:




f (u, v) du dv =

2
F (u, v) du dv ,
uv

ed il secondo membro si scrive:



 y
 x
 x

v=y
F (u, v) dv du =
[F (u, v)]v= du
u
v
u


 x

=
F (u, y) F (u, ) du


u
=0

u=x

= [F (u, y)]u= = F (x, y) ,




per cui resta provato lasserto.

Dalla (6.2), ponendo x = y = +, e ricordando che F (+, +) = 1 si ricava:


 
f (u, v) du dv = 1 ,

Salvo nel caso in cui la pdf presenti un impulso nel punto (x, y), caso che peraltro non considereremo
mai in pratica

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

132

Coppie di variabili aleatorie

y+dy

dy
dx

x+ dx

Fig. 6.4. Levento {x < X x + dx, y <


Y y +dy} e` costituito dai punti di le cui
immagini (X, Y ) cadono nel rettangolino
di area dx dy (regione in grigio).

Fig. 6.5. La probabilit`a che la coppia (X, Y )


appartenga al dominio D si puo` esprimere
come somma di sovrapposizione (al limite,
come integrale) delle probabilit`a che la coppia (X, Y ) appartenga a rettangolini di
area infinitesima che ricoprono il dominio
D.

che rappresenta la cosiddetta condizione di normalizzazione della pdf, che va interpretata


geometricamente nel senso che il volume compreso tra la superficie di equazione z =
f (x, y) ed il piano z = 0 e` unitario.
Come interpretare la pdf congiunta? Una possibile interpretazione e` fornita dalla seguente relazione:
f (x, y) dx dy = P (x < X x + dx, y < Y y + dy)

(6.3)

cio`e f (x, y) rappresenta la probabilit`a che la coppia di variabili aleatorie (X, Y ) appartenga ad un rettangolino di lati infinitesimi, divisa per larea dx dy del rettangolino
(Fig. 6.4). Questo risultato giustifica, anche nel caso bidimensionale, la denominazione
di densit`a di probabilit`a, e prova anche implicitamente che f (x, y) 0.
Prova. Applicando la propriet`a 3 della CDF vista in precedenza, si ha:
P (x < X x + dx, y < Y y + dy) = F (x, y) + F (x + dx, y + dy) F (x, y + dy) F (x + dx, y) ,
che possiamo riscrivere anche come:
P (x < X x + dx, y < Y y + dy) = [F (x + dx, y + dy) F (x, y + dy)] [F (x + dx, y) F (x, y)] ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.4 Funzione di distribuzione di probabilit`a (DF) congiunta

133

da cui, dividendo e moltiplicando per dx dy e sfruttando la definizione di derivata parziale come limite
del rapporto incementale rispetto alla variabile dinteresse (con laltra variabile fissa), si ha:
P (x <"X x + dx, y < Y y + dy) =
#
1 F (x + dx, y + dy) F (x, y + dy) F (x + dx, y) F (x, y)

=
dx dy =
dy 
dx
dx

1 F (x, y + dy) F (x, y)

=
dx dy =
dy
x
x
2 F (x, y)
dx dy ,
=
yx
da cui, ricordando lassunzione che la derivata mista rispetto ad x ed y non dipende dallordine di


derivazione, si ha lasserto.

Piu` in generale, se D e` un dominio qualsiasi di R2 , posso vederlo come la sovrapposizione di rettangolini di area infinitesima (Fig. 6.5), e quindi scrivere:
 
P ((X, Y ) D) =
fXY (x, y) dx dy ,
D

per cui la pdf congiunta integrata su un qualunque dominio D restituisce la probabilit`a


che la coppia di variabili aleatorie (X, Y ) appartenga al dominio. Come si vede, la pdf
congiunta e` un potente strumento per il calcolo di probabilit`a relative alla coppia di variabili aleatorie (X, Y ): lunica difficolt`a si puo` incontrare nella risoluzione dellintegrale
doppio nella (6.3.1), specialmente se il dominio D ha una forma complicata.
 Esempio 6.1. Sia (X, Y ) una coppia di variabili aleatorie con pdf congiunta f (x, y):
applichiamo i concetti precedenti per calcolare P (X Y ).
Evidentemente, il dominio D da considerare in questo caso e` quello definito da D =
{(x, y) R2 tali che x y}, raffigurato in Fig. 6.6. Tale dominio si puo` riguardare come
normale sia rispetto allasse x che allasse y, per cui la probabilit`a cercata si puo` calcolare
nei due modi equivalenti:
 x

dx
f (x, y) dy
P (X Y ) =



P (X Y ) =
dy
f (x, y) dx

6.4

Funzione di distribuzione di probabilit`a (DF) congiunta

Nel caso in cui le variabili aleatorie X ed Y siano entrambi discrete, anziche descriverle in termini di CDF o pdf congiunta, risulta piu` semplice fornire la loro descrizione

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

134

Coppie di variabili aleatorie

y
x=y

D = {x y}
x

Fig. 6.6. La probabilit`a che X Y si ottiene integrando la pdf congiunta sul dominio D = {x
y} (regione in grigio).

congiunta attraverso lintroduzione della funzione di distribuzione di probabilit`a (DF)


congiunta.
Definizione (DF congiunta). Date due variabili aleatorie X ed Y discrete
costruite su uno stesso spazio di probabilit`a (, B, P ), a valori in X e Y,
rispettivamente, la loro DF congiunta e` :
pXY (x, y) = P (X = x, Y = y) ,

(6.4)

dove (x, y) X Y.

6.5

Statistiche congiunte e marginali

Per una coppia di variabili aleatorie (X.Y ), le CDF, pdf e DF congiunte sono dette statistiche congiunte, mentre quelle delle singole variabili aleatorie sono dette statistiche
marginali. Si pone allora il seguente problema: abbiamo visto che non e` possibile ricavare le statistiche congiunte da quelle marginali. Ci chiediamo se sia possibile il
viceversa: in effetti vedremo che e` possibile ricavare le statistiche marginali da quelle
congiunte. Per le CDF si ha, infatti,
FX (x) = FXY (x, +) ,
FY (y) = FXY (+, y) ;

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.5 Statistiche congiunte e marginali


mentre per le pdf

135


fX (x) =
fY (y) =

fXY (x, y) dy ,
fXY (x, y) dx ;

ed infine per le DF:


pX (x) =

pXY (x, y) ,

yY

pY (y) =

pXY (x, y) .

xX

Prova. La dimostrazione per le CDF e` banale. Infatti, poiche:


{X x} = {X x} = {X x} {Y +} ,
allora si ha FX (x) = FXY (x, +), e scambiando i ruoli di X ed Y si ottiene anche la seconda relazione.
Per le pdf, si consideri la relazione (6.2), e si derivi rispetto ad x, applicando il teorema fondamentale
del calcolo integrale:
 y
FXY (x, y)
=
fXY (x, v) dv .
x

Ponendo nella precedente y = +, si ha FXY (x, +) = FX (x) e quindi:



d
FX (x) = fX (x) =
fXY (x, v) dv .
dx

cio`e lasserto. La seconda relazione per le pdf si ottiene con ragionamento analogo, scambiando i ruoli di
X ed Y .
Infine, per quanto riguarda le DF, il ragionamento e` semplice. Infatti, si ha:
{X = x} = yY {X = x} {Y = y} ,
da cui si ha lasserto, essendo gli eventi a secondo membro mutuamente esclusivi. La seconda relazione


per le DF si ottiene banalmente scambiando i ruoli di X ed Y .

 Esempio 6.2. Una coppia di variabili aleatorie (X, Y ) si dicono congiuntamente gaussiane, e si denotano con (X, Y ) N(X , Y , X , Y , ), se la loro pdf congiunta ha le
seguente espressione:
1

1
2

fXY (x, y) =
e 2(1 )
2X Y 1 2

(xX )2
(xX )(yY )
(yY )2
2
+
X Y
2
2
X
Y

(6.5)

raffigurata in Fig. 6.7. Si noti il caratteristico andamento a campana della distribuzione


gaussiana, che si manifesta anche nel caso bidimensionale. Le curve di livello della funzione fXY (x, y), ovvero le curve ottenute dallintersezione della superficie di Fig. 6.7 con

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

136

Coppie di variabili aleatorie


piani orizzontali di equazione z = costante, sono ellissi di equazione (vedi equazione
(6.5))
(x X )2
(x X )(y Y ) (y Y )2

2
+
= costante
2
X
X Y
Y2
e sono raffigurate in Fig. 6.8 e Fig. 6.9. per due diverse scelte del parametro . Gli assi
maggiori e minori di tali ellissi sono inclinati rispetto allasse x di due angoli 1 ed 2
(che differiscono di /2) e che si ottengono dalla seguente equazione trigonometrica:
tan(2) =

2 X Y
.
2
X
Y2

(6.6)

Notiamo che la pdf congiunta di una coppia di variabili aleatorie congiuntamente


gaussiane dipende da 5 parametri, dei quali X e Y possono assumere valori arbitrari,
X e Y sono non negativi, ed infine deve assumere valori tali che || 1 (osserviamo
in realt`a che la (6.5) perde di significato per || = 1). Notiamo che la distribuzione assume il valore massimo in (X , Y ), che X e Y rappresentano lestensione della campana
lungo X e Y , rispettivamente, mentre governa la strettezza degli ellissi: si confrontino le Figg. 6.8 e 6.9 dove si riportano le curve di livello per = 0.5 e = 0.9. Per || 1,
gli ellissi degenerano in segmenti e la pdf congiunta tende a concentrarsi sempre piu` su
una retta obliqua. Vedremo nel prossimo capitolo il significato di e della condizione
|| = 1, mentre il significato degli altri parametri sar`a chiarito nel corso di questo stesso
esempio.
A partire dalle statistiche congiunte, applicando le relazioni tra pdf congiunte e marginali, e` possibile determinare le statistiche marginali di X ed Y . Procediamo per X (per
Y i calcoli sono simili); dobbiamo calcolare

fX (x) =
fXY (x, y) dy .

Manipoliamo la pdf congiunta per scriverla in una forma che consenta la semplice
risoluzione dellintegrale. Si ha


(xX )
(xX )(yY )
(yY )
1

2
+
1
2
2
X Y
2
Y

e 2(1 ) X
fXY (x, y) =
2X Y 1 2


(yY )2
(xX )(yY )
(xX )2
1
1

2
1
2
2
2
2

X Y

=
e 2(1 ) X e 2(1 ) Y
.
2X Y 1 2
2

X)
nellargomento del secondo esponenziaAggiungiamo e sottraiamo la quantit`a (x
2
X
le, cos` da far comparire un quadrato perfetto. Dopo alcune manipolazioni algebriche
si ha:
$
%2 



12 (xX )2
2 1 2 yY Y (xX )
1
1
X
e 2X

.
fXY (x, y) =
e 2Y (1 )
X 2
Y 1 2 2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.5 Statistiche congiunte e marginali

137

0.2

0.1

XY

(x,y)

0.15

0.05

0
3
2

2
0

1
0

2
3

Fig. 6.7. La pdf fXY (x, y) di due variabili aleatorie congiuntamente gaussiane (X, Y )
N(0, 0, 1, 1, 0.5).

Osserviamo che il primo fattore (tra parentesi quadre) rappresenta la pdf di una variabile aleatoria X N(X , X ); per quanto riguarda il secondo, per un fissato valore di x, e` facile verificare
 che esso rappresenta la pdf di una variabile aleatoria Y
N(Y + XY (x X ), Y 1 2 ), vale a dire con media Y + XY (x X ) e deviazione

standard Y 1 2 .
Se adesso integriamo la pdf congiunta rispetto ad y per ottenere la pdf marginale fX (x), osserviamo che il secondo fattore, essendo una pdf per ogni valore di x, ha
integrale rispetto ad y unitario. Pertanto, si ha semplicemente:

12 (xX )2
1
e 2X
fXY (x, y) dy =
,
fX (x) =
X 2

e quindi e` evidente che X N(X , X ), cio`e X e` marginalmente gaussiana, con media


X e deviazione standard X .
Ovviamente saremmo potuti giungere ad una decomposizione simmetrica operando
rispetto ad y anziche rispetto ad x, per cui con analogo ragionamento si conclude che:

12 (yY )2
1
e 2Y
fY (y) =
fXY (x, y) dx =
,
Y 2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Coppie di variabili aleatorie


3

138

3
3

3
3

Fig. 6.8. Curve di livello della pdf


di
due
variabili
aleafXY (x, y)
torie
congiuntamente
gaussiane
(X, Y ) N(0, 0, 1, 1, ), per = 0.5.

Fig. 6.9. Curve di livello della pdf


di
due
variabili
aleafXY (x, y)
torie
congiuntamente
gaussiane
(X, Y ) N(0, 0, 1, 1, ), per = 0.9.

e quindi e` evidente che Y N(Y , Y ), cio`e Y e` marginalmente gaussiana, con media Y


e deviazione standard Y . In conclusione: se (X, Y ) N(X , Y , X , Y , ) sono congiuntamente gaussiane, X ed Y sono marginalmente gaussiane, e si ha X N(X , X )
e Y N(Y , Y ). Il viceversa non e` sempre vero: e` possibile costruire esempi di variabili aleatorie marginalmente gaussiane la cui pdf congiunta non sia gaussiana (si veda
[3, Es. 6-1]). Notiamo infine che in questo modo abbiamo anche interpretato 4 dei 5
parametri che compaiono nella pdf congiunta di due variabili aleatorie congiuntamente gaussiane, e che in sostanza sono quelli caratteristici delle statistiche marginali delle
variabili aleatorie X ed Y ; in effetti il parametro e` lunico parametro che descrive la
relazione di interdipendenza tra le due variabili aleatorie congiuntamente gaussiane.
Come gi`a osservato, il suo significato sar`a chiarito nel prossimo capitolo.


6.6

Indipendenza per coppie di variabili aleatorie

Un caso particolarmente semplice da affrontare e` quello in cui le variabili aleatorie X


ed Y risultano statisticamente indipendenti.
Definizione (variabili aleatorie statisticamente indipendenti). Due variabili
aleatorie X ed Y si dicono statisticamente indipendenti se
FXY (x, y) = FX (x) FY (y) ,

(x, y) R2 .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(6.7)

6.6 Indipendenza per coppie di variabili aleatorie

139

Come si vede, cos` come nella teoria della probabilit`a elementare lindipendenza tra
eventi si puo` esprimere come fattorizzazione della probabilit`a congiunta, ovvero P (AB) =
P (A) P (B), cos` per le variabili aleatorie lindipendenza si puo` esprimere come fattorizzazione della CDF congiunta nel prodotto delle CDF marginali.
Nel caso di variabili aleatorie discrete, la definizione di indipendenza si puo` dare
direttamente in termini di probabilit`a:
P (X = x, Y = y) = P (X = x) P (Y = y) ,
ovvero in termini di DF, come:
pXY (x, y) = pX (x) pY (y) .
Enunciamo e dimostriamo alcune semplici propriet`a delle variabili aleatorie indipendenti, che sono diretta conseguenza della definizione (6.7).
1. Se X ed Y sono statisticamente indipendenti, allora fXY (x, y) = fX (x)fY (y), (x, y)
R2 (fattorizzazione della pdf congiunta).


Prova. Si ottiene immediatamente derivando la definizione (6.7).

2. Se X ed Y sono statisticamente indipendenti, allora gli eventi {X I1 } e {Y I2 }


sono statisticamente indipendenti, I1 , I2 R.
Prova. Si ha:
 
P (X I1 , Y I2 ) =

I1 I2


fXY (x, y) dx dy =

= P (X I1 ) P (Y I2 ) .


fX (x) dx

I1

fY (y) dy
I2

3. Se X ed Y sono statisticamente indipendenti, allora le variabili aleatorie Z = g(X)


e W = h(Y ) sono statisticamente indipendenti.
Prova. Si ha:
FZW (z, w) = P (Z z, W w) = P (X Rz , Y Rw )
dove Rz  {x R tali che g(x) z} e Rw  {y R tali che h(y) w}. Per lindipendenza di X
ed Y , si ha:
FZW (z, w) = P (X Rz )P (Y Rw ) = P (Z z)P (W w) = FZ (z) FW (w)
per cui resta provato lasserto.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

140

Coppie di variabili aleatorie


Osserviamo che se le variabili aleatorie sono costruite su uno spazio di probabilit`a
prodotto 1 2 , e in maniera tale che:
X((1 , 2 )) = X(1 ) ,
Y ((1 , 2 )) = Y (2 ) ,
allora se gli esperimenti 1 ed 2 sono indipendenti, anche le variabili aleatorie X ed Y
sono indipendenti.
 Esempio 6.3. Sia 1 lo spazio campione associato allesperimento lancio di una moneta, e sia 2 lo spazio campione associato allesperimento lancio di un dado. Qualsiasi variabile aleatoria X costruita su 1 2 che dipende solo da 1 e qualunque
variabile aleatoria Y costruita su 1 2 che dipende solo da 2 sono statisticamente
indipendenti.

 Esempio 6.4. Spesso lindipendenza statistica di due variabili aleatorie si puo` assumere sulla base dellindipendenza fisica. Ad esempio, appare chiaro che se X rappresenta laltezza ed Y il peso di un individuo, X ed Y non sono indipendenti (le persone
` Viceversa, se X rappresenta il peso e Y rapprepiu` alte mediamente pesano di piu).
senta il numero di fratelli e sorelle di una persona, pare ragionevole ritenere queste due
variabili indipendenti.

 Esempio 6.5. Abbiamo osservato (cfr. esempio 6.2) che due variabili aleatorie X ed Y
marginalmente gaussiane non sono necessariamente anche congiuntamente gaussiane.
Questo risultato pero` non vale se le variabili aleatorie sono marginalmente gaussiane e
indipendenti: infatti, se X N(X , X ) e Y N(Y , Y ), statisticamente indipendenti,
la loro pdf congiunta si ottiene come:
fXY (x, y) = fX (x) fY (y) =

X 2

1
2 2
X

(xX )2

1
2 2
Y

(yY )2

per cui e` facile verificare che essa e` una pdf del tipo gaussiano bidimensionale (6.5), con
= 0. Viceversa, se si hanno due variabili aleatorie X, Y congiuntamente gaussiane e
con = 0, si vede che esse sono indipendenti, in quanto la loro pdf congiunta fXY (x, y)
si fattorizza nel prodotto di due pdf gaussiane monodimensionali. Quindi, sebbene non
ne abbiamo ancora dato una interpretazione rigorosa, intuiamo che misura il grado
di dipendenza tra due variabili aleatorie congiuntamente gaussiane: quando = 0 le
variabili aleatorie sono statisticamente indipendenti; quando || = 1 le due variabili
aleatorie sono massimamente dipendenti.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.7 Trasformazioni di coppie di variabili aleatorie

6.7

141

Trasformazioni di coppie di variabili aleatorie

Vogliamo adesso estendere il nostro studio sulle trasformazioni di variabili aleatorie


condotto nel Capitolo 4 per il caso di trasformazioni di una sola variabile aleatoria, al
caso di coppie di variabili aleatorie. Qui pero` la situazione si presenta piu` articolata, in
quanto possiamo avere una trasformazione Z = g(X, Y ), ovvero la trasformazione di
una coppia di variabili aleatorie in una singola variabile aleatoria (trasformazione 2
1), oppure una coppia di trasformazioni X = g(X, Y ) e W = h(X, Y ), ovvero la trasformazione di una coppia di variabili aleatorie in una coppia di nuove variabili aleatorie
(trasformazione 2 2). Studiamo separatamente i due casi.

6.7.1 Trasformazione 21
In questo caso, abbiamo una coppia (X, Y ) di variabili aleatorie, caratterizzate dalle
loro CDF congiunta FXY (x, y) e pdf congiunta fXY (x, y), e a partire da esse costruiamo
una nuova variabile aleatoria Z = g(X, Y ), dove g(x, y) e` una funzione di due variabili.
Vogliamo caratterizzare statisticamente Z, in particolare calcolandone la CDF FZ (z) e la
pdf fZ (z). Il problema formalmente si risolve in maniera semplice, in quanto si ha:
FZ (z) = P (Z z) = P (g(X, Y ) z)
 
fXY (x, y) dx dy ,
= P ((X, Y ) Dz ) =

(6.8)

Dz

dove Dz = {(x, y) R2 tali che g(x, y) z} e` un dominio di R2 . Per determinare poi la


pdf di Z, possiamo o derivare la CDF, o direttamente ricavarla come:
fZ (z) dz = P (z < Z z + dz)
= P (z < g(X, Y ) z + dz)
 
= P ((X, Y ) Dz ) =

(6.9)
fXY (x, y) dx dy ,

Dz

dove Dz = {(x, y) R2 tali che z < g(x, y) z + dz} e` un dominio di R2 .


 Esempio 6.6. Consideriamo la trasformazione Z = X + Y . Si ha:
FZ (z)  P (Z z) = P (X + Y z) .
Per un fissato z, il dominio Dz = {(x, y) R2 tali che x + y z} e` quello raffigurato in
grigio in Fig. 6.10. Tale dominio si puo` riguardare ad esempio come normale rispetto
allasse x, ed in tal caso si descrive come Dz = {x R, y z x}. Pertanto applicando
la (6.8) si trova:
 

 zx
FZ (z) =
fXY (x, y) dx dy =
dx
fXY (x, y) dy .
Dz

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

142

Coppie di variabili aleatorie

x=zy

xzy

x+y=z
DZ = {x + y z}

DZ
x

xzy

Fig. 6.10. Il dominio Dz = {(x, y)


R2 tali che x+y z} e` raffigurato in grigio.

Fig. 6.11. Il dominio Dz = {(x, y)


R2 tali che xy z} e` raffigurato in grigio.

Possiamo ottenere la pdf derivando la CDF precedente rispetto a z. Si ha, applicando il


teorema fondamentale del calcolo integrale,
d
fZ (z) =
dz

dx

zx

fXY (x, y) dy =


fXY (x, z x) dx =

fXY (z x, x) dx ,

dove lultimo integrale si ottiene con un semplice cambio di variabile. Osserviamo che,
se X ed Y sono indipendenti, allora fXY (x, y) = fX (x) fY (y), e quindi la pdf di Z =
X + Y diventa:

fX (x) fY (z x) dx ,
fZ (z) =

ovvero e` data dal prodotto di convoluzione o semplicemente dalla convoluzione tra le funzioni fX (x) ed fY (y), che si denota sinteticamente con fX fY . Pertanto, la pdf della
somma di due variabili aleatorie indipendenti si ottiene effettuando la convoluzione delle
rispettive pdf.


 Esempio 6.7. Consideriamo la trasformazione Z = X/Y . Si ha:




X
FZ (z)  P (Z z) = P
z .
Y
Osserviamo che, per un fissato z, la disuguaglianza xy z si scrive come x z y, se y >
0, oppure come x z y, se y < 0. Pertanto, il dominio Dz = {(x, y) R2 tali che xy z}
e` quello raffigurato in grigio in Fig. 6.11. Tale dominio e` normale rispetto allasse y, e si

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.7 Trasformazioni di coppie di variabili aleatorie

143

descrive come Dz = {y R, x z y, se y > 0; x z y, se y < 0}. Pertanto, applicando la


(6.8) si trova:


FZ (z) =

dy

zy

fXY (x, y) dx +

dy

fXY (x, y) dx .
zy

Possiamo ottenere la pdf derivando la CDF precedente rispetto a z: si ha3


d
fZ (z) = FZ (z) =
dz


y fXY (zy, y) dy

y fXY (zy, y) dy =

|y| fXY (zy, y) dy .

Ad esempio, se (X, Y ) N(0, 0, 1, 1, 0), sono cio`e gaussiane standard indipendenti,


applicando la precedente relazione si trova:

fZ (z) =
=
=
=
=


1 1 (z2 y2 +y2 )
1 1 [y2 (z2 +1)]
2
|y|
dy =
ye 2
dy =
e
2

0

1 2 2
1
1
y(z 2 + 1) e 2 [y (z +1)] dy =
2
0 z + 1

1 1
d $ 1 [y2 (z2 +1)] %
dy =
e 2
z 2 + 1 0 dy
1 1 $ 1 [y2 (z2 +1)] %y=
e 2
z2 + 1
y=0
1/
,
z2 + 1

cio`e risulta Z Cauchy(1). Pertanto il rapporto X/Y tra due variabili aleatorie gaussiane standard e indipendenti e` una variabile aleatoria di Cauchy.


6.7.2 Trasformazione 22
In questo caso abbiamo una coppia (X, Y ) di variabili aleatorie, caratterizzate dalle loro
CDF congiunta FXY (x, y) e pdf congiunta fXY (x, y), e a partire da esse costruiamo una
nuova coppia di variabili aleatorie (Z, W ), con Z = g(X, Y ) e W = h(X, Y ), dove g(x, y)
e h(x, y) sono funzioni di due variabili. Il problema in tal caso e` quello di determinare la
CDF FZW (z, w) o la pdf congiunta fZW (z, w) di Z e W . E` possibile applicare il seguente
teorema fondamentale sulle trasformazioni di coppie di variabili aleatorie, che generalizza al
caso di coppie di variabili aleatorie il teorema 4.1, valido per trasformazioni di una
singola variabile aleatoria.
3

Per la derivazione, si applichi la formula di Leibnitz: se F (x) =

 (x)

f (x, y) dy
(x) x

 (x)
(x)

f (x, y) dy, allora F  (x) =

+ f [x, (x)]  (x) f [x, (x)]  (x).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

144

Coppie di variabili aleatorie


Teorema 6.1 (teorema fondamentale sulle trasformazioni di coppie di variabili aleatorie).
Sia (X, Y ) una coppia di variabili aleatorie con pdf fXY (x, y), e siano Z = g(X, Y ) e
W = h(X, Y ) due nuove variabili aleatorie ottenute per trasformazione da (X, Y ). Si
consideri il sistema di equazioni:
"
z = g(x, y) ;
(6.10)
w = h(x, y) .
La pdf congiunta di (Z, W ) e` data da:

se il sistema (6.10) non ha soluzioni;


0,

fXY (xi , yi )
fZW (z, w) =
, dove (xi , yi ) e` una soluzione del sistema (6.10);

|det[J (xi , yi ))]|


i
in cui det() denota il determinante, e
(z, w)
J (x, y) =
=
(x, y)

 z
x
w
x

z 
y
w
y

e` la matrice jacobiana della trasformazione.


Si noti che per lapplicazione del teorema si richiede che il sistema (6.10) abbia al piu` una
infinit`a numerabile di soluzioni. Nella pratica, risulta utile la seguente osservazione: se
il sistema e` invertibile e denotiamo con J (z, w) la matrice jacobiana del sistema inverso,
risulta:
J (z, w) = J (x, y)1 ,
e quindi:
det[J (z, w)] =

1
.
det[J (x, y)]

 Esempio 6.8 (trasformazione da coordinate cartesiane a polari). Consideriamo la coppia di


variabili aleatorie (X, Y ), che possiamo interpretare come le coordinate cartesiane di un
punto di R2 . Ha senso allora considerare la trasformazione che fornisce le coordinate
polari (R, ) dello stesso punto, con R 0 e [0, 2[. Tale trasformazione si puo`
esprimere come:
"

R =
X2 + Y 2
,
= tan1 (Y /X)
dove la funzione tan1 (Y /X) (da non confondere con la funzione arctan()), determina univocamente, per ogni valore della coppia (X, Y ), langolo [0, 2[ formato dal

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.7 Trasformazioni di coppie di variabili aleatorie

145

y
Y
R

Fig. 6.12. Trasformazione da coordinate


cartesiane a coordinate polari

segmento di estremi (0, 0) ed (X, Y ) con il semiasse positivo delle x, misurato in senso antiorario (Fig. 6.12). Se vogliamo ricavare la pdf di (R, ), applicando il teorema
fondamentale 6.1 consideriamo il seguente sistema di equazioni, nelle incognite (x, y):

"
r = x2 + y 2
,
= tan1 (y/x)
che ha se r 0 e [0, 2[ una sola soluzione, data da
"
x = r cos
,
y = r sin
mentre non ha nessuna soluzione se r < 0. Il calcolo della matrice jacobiana, inoltre,
fornisce:


(x, y)
cos r sin
J(r, ) =
=
,
sin r cos
(r, )
e quindi
|J(r, )| = |r| = r 0 .
Si ha allora:


0,
fR (r, ) =
rfXY (r cos , r sin ),

se r < 0;
se r 0;

ovvero:
fR (r, ) = rfXY (r cos , r sin ) u(r) ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(6.11)

146

Coppie di variabili aleatorie


dove u(r) e` la funzione gradino. Se poi vogliamo ottenere le distribuzioni marginali di
R e , basta integrare rispetto alla variabile che non interessa: si ha, cio`e:
 2
rfXY (r cos , r sin ) d
fR (r) = u(r)
0

f () =
rfXY (r cos , r sin ) dr
0

Si noti la scelta degli intervalli di integrazione: [0, [ per lintegrale in dr, [0, 2[ per
lintegrale in d, corrispondenti ai valori assunti da R e da , rispettivamente.

 Esempio 6.9. Applichiamo i risultati della trasformazione da coordinate cartesiane a
coordinate polari al caso in cui le variabili aleatorie X ed Y siano congiuntamente
gaussiane, ed in particolare siano statisticamente indipendenti ( = 0), a media nulla
(X = Y = 0) e con la stessa deviazione standard (X = Y = ), il che sinteticamente
si denota come (X, Y ) N(0, 0, , , 0).
Per lipotesi di indipendenza, la pdf congiunta fXY (x, y) si scrive semplicemente
come prodotto di due pdf gaussiane marginali a media nulla e con la stessa deviazione
standard:
1
2
2
1
fXY (x, y) =
e 22 (x +y ) .
2
2
Applicando la (6.11), si ha:
fR (r, ) = rfXY (r cos , r sin ) u(r)
1
2
2
2
1
e 22 r (cos ()+sin () u(r)
=r
2
2
2
r
r2
2 u(r) .
=
e
2 2
Se ricaviamo le due pdf marginali, otteniamo per R:
 2
 2
2
r
r2
2 u(r) dr =
fR (r, ) d =
e
fR (r) =
2 2
0
0
r r22
= 2 e 2 u(r) ,

mentre per si ha:




2
r
r2
2 dr =
f () =
fR (r, ) dr =
e
2
0 
0 2 
r=

2
2
1
d r2
1
1
r2
=
e 2 dr =
=
e 2
,
2 0
dr
2
2
r=0
per cui si osserva che fR (r, ) = fR (r) f (), per cui R e sono statisticamente indipendenti, ed inoltre R ha una distribuzione di tipo Rayleigh con parametro b = 2 2 ,
ovvero R Rayleigh(2 2 ), mentre U(0, 2), cio`e e` uniforme in (0, 2).


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.7 Trasformazioni di coppie di variabili aleatorie


 Esempio 6.10 (generazione di variabili aleatorie gaussiane). Il precedente esempio suggerisce un metodo, alternativo a quello della CDF inversa o della trasformazione percentile (cfr. 4.3.1) per generare variabili aleatorie gaussiane. Infatti, lostacolo principale
allapplicazione della tecnica della trasformazione percentile al caso gaussiano risiede
nel fatto che la CDF gaussiana non ammette unespressione analitica in forma chiusa, e
quindi la sua inversione si ottiene solo attraverso tecniche numeriche. Viceversa, non
ci sono problemi a generare con la tecnica della trasformazione percentile due variabili aleatorie R e , rispettivamente di tipo Rayleigh e uniforme in (0, 2) (cfr. esercizio
4.3.1), in quanto le rispettive CDF sono facilmente invertibili. Pertanto, la generazione
di variabili aleatorie gaussiane si puo` effettuare con un algoritmo in due passi:
1. utilizzando due generatori di variabili aleatorie U(0, 1) indipendenti,4 e adoperando la tecnica della trasformazione percentile, si generano due variabili aleatorie R
e rispettivamente di tipo Rayleigh ed uniforme in (0, 2); tali variabili aleatorie,
essendo ottenute per trasformazione da variabili aleatorie indipendenti, saranno
ancora indipendenti;
2. si costruiscono le due variabili aleatorie X = R cos() ed Y = R sin(); esse risulteranno variabili aleatorie gaussiane indipendenti, a media nulla e con la stessa
varianza.
Per completezza, osserviamo che se si desidera generare variabili aleatorie gaussiane non indipendenti, e` sufficiente partire da variabili aleatorie Z1 e Z2 indipendenti e
standard (a media nulla e varianza unitaria) generate con lalgoritmo precedentemente
esposto, e successivamente applicare la seguente trasformazione 2 2:


X = X Z1 + X 1 2 Z2 + X ,
Y = Y Z1 + Y .
Infatti, applicando il teorema fondamentale sulle trasformazioni, si verifica facilmente

che (X, Y ) N(X , Y , X , Y , ).

6.7.3 Metodo della variabile ausiliaria


Il teorema fondamentale 6.1 per le trasformazioni del tipo 2 2 puo` servire anche
per il caso visto nel 6.7.1, nel quale ho una sola trasformazione Z = g(X, Y ). Per
applicarlo, e` sufficiente rendere la trasformazione 2 1 una trasformazione 2 2
(quadrare la trasformazione), ricorrendo allartificio di introdurre una trasformazione
4

In pratica, e` possibile utilizzare un unico generatore di numeri pseudo-casuali inizializzato con due
semi differenti.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

147

148

Coppie di variabili aleatorie


fittizia o una variabile ausiliaria W = h(X, Y ) (tipicamente si sceglie W = X oppure
W = Y per semplicit`a). Una volta ottenuta la fZW (z, w) dallapplicazione del teorema
fondamentale, e` poi possibile eliminare la variabile ausiliaria, ricavando la pdf marginale
fZ (z) per integrazione di fZW (z, w) rispetto alla variabile w.
 Esempio 6.11. Consideriamo ad esempio la trasformazione Z = X Y . In questo caso,
scegliamo come variabile ausiliaria W = X, ottenendo cos` la seguente trasformazione
2 2:
"
Z =XY ,
W =X.
Il sistema di equazioni corrispondenti e` il seguente:
"
z = xy ,
w =x;
e ammette, per ogni (z, w), con w = 0, una sola soluzione (x, y) data da
"
x =w,
y = wz ;
mentre per w = 0, z = 0 il sistema non ha soluzioni, e infine per w = 0, z = 0, si ha x = 0
e y qualsiasi. Il calcolo della matrice jacobiana, inoltre, fornisce:


(z, w)
y x
J (x, y) =
=
1 0
(x, y)
e quindi il determinante in valore assoluto vale
| det[J (x, y)]| = |x| ,
per cui lapplicazione del teorema fondamentale fornisce per w = 0 la pdf congiunta di
(Z, W ):
 z
1
fZW (z, w) =
fXY w,
|w|
w
da cui ricaviamo quella di Z = XY integrando rispetto a w:

 z
1
fZ (z) =
fXY w,
dw .
w
|w|
Se, ad esempio, X U(0, 1) e Y U(0, 1), con X ed Y statisticamente indipendenti e
Z = X Y , la precedente si scrive:
 1
z
1
fX (w) fY
dw
fZ (z) =
w
0 |w|

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.7 Trasformazioni di coppie di variabili aleatorie

149

ma fX (x) = 1 per x [0, 1], e fY (y) = 1 per y [0, 1]. Allora fY (z/w) = 1 se z/w [0, 1],
ovvero se 0 z w. Pertanto, lintervallo di integrazione per w va da z a 1, e quindi
lintegrale si scrive:


fZ (z) =
z

1
dw = [ln w]w=1
w=z = ln z .
w

La pdf di Z e` pertanto:

ln z ,
fZ (z) =
0,

se z [0, 1];
altrove.


Notiamo che la scelta W = X oppure W = Y e` opportuna in molti casi, ma non sempre,


come illustrato chiaramente dallesempio che segue.

 Esempio 6.12. Si consideri la trasformazione Z = X 2 + Y 2 . In questo caso, poiche


possiamo interpretare Z come il modulo di una trasformazione di coordinate cartesiane
a polari, conviene considerare, come variabile ausiliaria, una variabile W che rappresenti la fase della stessa trasformazione. Pertanto, sulla base anche dellesempio 6.8,
possiamo considerare la variabile ausiliaria W definita da
W = tan1 (Y /X) .
A questo punto, possiamo sfruttare i risultati gi`a ottenuti nellesempio 6.8, per scrivere
direttamente la pdf congiunta di (Z, W ):
fZW (z, w) = zfXY (z cos w, z sin w) u(z) ,
e successivamente eliminare la variabile ausiliaria W ricavando la pdf marginale di Z
per integrazione:

fZ (z) = u(z)

zfXY (z cos w, z sin w) dz


0

Ad esempio, se (X, Y ) N(0, 0, , , 0), applicando anche i risultati dellesempio 6.9, si


trova banalmente che Z Rayleigh(2 2 ).


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

150

Coppie di variabili aleatorie

6.8

Variabili aleatorie complesse

E` utile in taluni casi estendere la definizione di variabile aleatoria al caso complesso.


Definizione (variabile aleatoria complessa). una variabile aleatoria complessa Z e` definita come
Z = X + jY ,

con X, Y variabili aleatorie reali, e j  1.


Si osservi esplicitamente che nel caso complesso non ha senso indagare se {Z z} sia
un evento, perch`e il campo dei numeri complessi non e` dotato di ordinamento. Pertanto,
una variabile aleatoria complessa rappresenta solo un modo sintetico di denotare un
coppia di variabili aleatorie reali. Poich`e poi il piano complesso si identifica con R2 , se
D e` una regione del piano complesso e` possibile calcolare probabilit`a del tipo P (Z D)
semplicemente utilizzando la pdf congiunta della coppia di variabili aleatorie (X, Y ),
come
 
P (Z D) =
fXY (x, y) dx dy .
D

Possiamo definire formalmente la media di una variabile aleatoria complessa, applicando la propriet`a di linearit`a. Infatti, se Z = X+jY e` una variabile aleatoria complessa,
si ha:
E(Z)  E(X) + jE(Y ) .
Come si vede, la media di Z si esprime attraverso la media di X (reale) e quella di Y
(reale).
Il discorso si complica quando passiamo a definire il valore quadratico medio. In linea di principio, si potrebbe pensare che una definizione appropriata sia E(Z 2 ), tuttavia
se Z e` complesso la quantit`a E(Z 2 ) non e` ne reale ne positiva. Pertanto una definizione appropriata di valor quadratico medio di una variabile aleatoria complessa Z e` la
seguente:
E(|Z|2 ) = E(X 2 + Y 2 ) = E(X 2 ) + E(Y 2 ) .
Anche qui, il valor quadratico medio si ottiene combinando (sommando) i valori quadratici medi di X ed Y .
Infine, per la varianza una definizione appropriata e` , in accordo a quella per il valor
quadratico medio, la seguente:
Var(Z) = E[|Z E(Z)|2 ] = E[(X X )2 ] + E[(Y Y )2 ] = Var(X) + Var(Y ) ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

6.8 Variabili aleatorie complesse

151

e coincide con la somma delle varianze di X ed Y . Notiamo che vale anche in questo
caso la relazione fondamentale tra varianza, valor quadratico medio e media, che si
scrive:
Var(X) = E(|Z|2 ) |E(Z)|2
Naturalmente, e` possibile definire un qualunque momento di Z, semplicemente
sviluppando lespressione risultante in termini di X ed Y . Ad esempio, per E(Z 2 ) si
ha:
E(Z 2 ) = E[(X + jY )2 ] = E(X 2 ) E(Y 2 ) + 2jE(XY ) .
Come si vede, oltre ai valori quadratici medi di X ed Y , compare anche un momento
congiunto E(XY ) (correlazione) di X ed Y , che introdurremo nel prossimo capitolo.
 Esempio 6.13. Data la variabile aleatoria U(0, 2), consideriamo come esempio di
variabile aleatoria complessa la seguente:
Z = ej .
Per lidentit`a di Eulero, si ha anche:
Z = cos() + j sin() ,
per cui possiamo identificare la coppia (X, Y ) come X = cos() e Y = sin(). Il calcolo della media e della varianza di Z si conduce semplicemente applicando il teorema
fondamentale della media. Infatti, si ha:
 2
1  j 2
1
E(Z) =
ej
d =
e 0 =0,
2
2j
0
per la periodicit`a (di periodo 2) della funzione ej ; inoltre, banalmente, si ha E(|Z|2 ) =
E(1) = 1, per cui Var(Z) = 1. Si noti, invece, che sempre lapplicazione del teorema
fondamentale della media ci consente di riconoscere che E(Z 2 ) = 0. Infatti:
 2
1  j2 2
1
2
E(Z ) =
ej2
d =
e 0 =0,
2
4j
0
stavolta per la periodicit`a (di periodo ) della funzione ej2 .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

152

Coppie di variabili aleatorie

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 7
Caratterizzazione sintetica di una coppia
di variabili aleatorie
7.1

Introduzione

Nel capitolo 5, abbiamo introdotto i momenti di una singola variabile aleatoria X, tra i
quali la media, la varianza ed il valor quadratico medio sono sicuramente i piu` utilizzati.
Abbiamo visto come attraverso tali momenti sia possibile fornire una caratterizzazione
sintetica della variabile aleatoria X, che non si basa cio`e sulla conoscenza precisa della
sua CDF e pdf. In questo capitolo, vogliamo estendere la definizione di momenti al
caso di coppie (X, Y ) di variabili aleatorie, cos` da poter fornire una caratterizzazione
sintetica anche in questo caso: i momenti associati ad una coppia di variabili aleatorie
prendono il nome di momenti congiunti. Osserviamo peraltro che nel caso di coppie di
variabili aleatorie la caratterizzazione sintetica appare ancora piu` interessante rispetto
al caso di una singola variabile aleatoria, vista la difficolt`a di manipolare, e talvolta di
interpretare, le funzioni (di due variabili) che forniscono la caratterizzazione completa,
quali la CDF, la pdf e la DF congiunta.

7.2

Teorema fondamentale della media per una coppia di


variabili aleatorie

Il primo e fondamentale passo da seguire per definire i momenti congiunti per coppie
di variabili aleatorie e` quello di estendere al caso di una coppia di variabili aleatorie il
teorema fondamentale della media (teorema 5.1), che abbiamo introdotto nel capitolo 5
per una singola variabile aleatoria.
Iniziamo col considerare la trasformazione (cosiddetta 2 1, cfr. 6.7.1) mediante
la quale a partire da una coppia (X, Y ) di variabili aleatorie si ottiene una nuova variabile aleatoria Z = g(X, Y ). Nel precedente capitolo, abbiamo studiato vari metodi per

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

154

Caratterizzazione sintetica di una coppia di variabili aleatorie


determinare CDF e pdf di Z, conoscendo la CDF o la pdf congiunta della coppia (X, Y ).
Una volta determinata la pdf di Z, in particolare, siamo in grado di calcolare la media
di Z, utilizzando la definizione di media per una singola variabile aleatoria:

z fZ (z) dz .
E(Z) =

Tuttavia, non e` necessario conoscere la pdf di Z per calcolarne la media, poiche e` sufficiente la conoscenza della pdf congiunta di (X, Y ), come affermato dal seguente teorema, il quale estende il teorema fondamentale della media al caso di coppie di variabili
aleatorie, e che enunciamo senza dimostrazione.
Teorema 7.1 (teorema fondamentale della media per coppie di variabili aleatorie). Sia
Z = g(X, Y ) una trasformazione della coppia di variabili aleatorie (X, Y ) aventi pdf
congiunta fXY (x, y); si ha:
 
E(Z) = E[g(X, Y )] =
g(x, y) fXY (x, y) dx dy ,

se tale integrale esiste finito.


Nel caso in cui (X, Y ) siano variabili aleatorie discrete, osserviamo che anche Z =
g(X, Y ) e` una variabile aleatoria discreta, ed il teorema precedente si esprime in termini
della DF congiunta pXY (x, y) di (X, Y ) come:

E(Z) = E[g(X, Y )] =
g(x, y) pXY (x, y) .
xX,yY

In questo caso, e` anche semplice delineare la dimostrazione del teorema fondamentale


(si veda [4] oppure [5]).
E` immediato verificare che loperatore di media gode sempre della propriet`a di linearit`a, anche se in questo caso il risultato e` piu` generale, visto che coinvolge coppie di
variabili aleatorie. Infatti, siano g1 e g2 arbitrarie funzioni di due variabili, e siano a1 e
a2 costanti reali; si ha:
E[a1 g1 (X, Y ) + a2 g2 (X, Y )] = a1 E[g1 (X, Y )] + a2 E[g2 (X, Y )] .
La dimostrazione di questo risultato e` banale, basandosi direttamente sul teorema fondamentale della media precedentemente enunciato, e si lascia al lettore per esercizio.
Se, in particolare, si sceglie g1 (X, Y ) = X e g2 (X, Y ) = Y , si ha:
E(a1 X + a2 Y ) = a1 E(X) + a2 E(Y ) ,
e pertanto la media statistica della combinazione lineare di due variabili aleatorie coincide con la combinazione lineare delle medie statistiche. Notiamo esplicitamente che
tale propriet`a di linearit`a vale in generale, sia che X ed Y siano indipendenti, sia che non
lo siano.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

7.3 Momenti congiunti di una coppia di variabili aleatorie

7.3

Momenti congiunti di una coppia di variabili aleatorie

Sulla base del teorema fondamentale della media, possiamo definire i momenti congiunti
della coppia di variabili aleatorie (X, Y ).
Definizione (momento congiunto di ordine n = k + r). Il momento congiunto (di ordine n = k + r) di una coppia di variabili aleatorie (X, Y )
e` :
 
k
r
xk y r fXY (x, y) dx dy ,
kr  E(X Y ) =

se lintegrale esiste finito.


Definizione (momento congiunto centrale di ordine n = k + r). Il momento
congiunto centrale (di ordine n = k + r) di una coppia di variabili aleatorie
(X, Y ), con medie X = E(X) e Y = E(Y ), e` :
 
k
r
(x X )k (y Y )r fXY (x, y) dx dy ,
kr  E[(X X ) (Y Y ) ] =

se lintegrale esiste finito.


Osserviamo che, ponendo k = 0 oppure r = 0, e sfruttando la relazione tra statistiche
congiunte e marginali, e` possibile ritrovare i momenti e i momenti centrali delle singole
variabili aleatorie X ed Y . Ad esempio, per k = 1 e r = 0, si verifica facilmente che il
momento congiunto 10 coincide con la media di X, in quanto:

 
 
10 =
xfXY (x, y) dx dy =
x
fXY (x, y) dy dx =

x fX (x) dx = E(X)
=


poiche fXY (x, y) dy = fX (x). Similmente si trova 20 = E(X 2 ) (valor quadratico


medio) e 20 = E[(X X )2 )] (varianza), e analogamente per i corrispondenti momenti
di Y . Ponendo poi k = r = 0 nella definizione
 momenti, si ottiene la propriet`a di
 di
normalizzazione della pdf congiunta, ovvero fXY (x, y) dx dy = 1.
Come abbiamo accennato, la conoscenza di un sottoinsieme dei momenti congiunti
va sotto il nome di caratterizzazione sintetica della coppia di variabili aleatorie (X, Y ).
La caratterizzazione completa consiste invece nella conoscenza della CDF, pdf o DF
congiunta. Ovviamente, se si dispone della caratterizzazione completa, e` possibile ricavare un qualunque momento congiunto; viceversa, se si conosce un sottoinsieme dei
momenti congiunti, non e` possibile in generale ricavare CDF, pdf o DF congiunta. 1

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

155

156

Caratterizzazione sintetica di una coppia di variabili aleatorie

7.4

Misure di correlazione di una coppia di variabili aleatorie

Tra i momenti congiunti di una coppia di variabili aleatorie (X, Y ), quelli piu` utilizzati sono quelli del secondo ordine (n = 2), che vanno sotto il nome di correlazione e
covarianza.

7.4.1 Correlazione
Definizione (correlazione). La correlazione di una coppia di variabili aleatorie
(X, Y ) e` il momento congiunto 11 di ordine n = 2, ovvero:
 
x y fXY (x, y) dx dy ,
Corr(X, Y )  11 = E(X Y ) =

se lintegrale esiste finito.


Per fornire una prima interpretazione della correlazione, osserviamo che essa compare
naturalmente se calcoliamo il valore quadratico medio della somma di due variabili
aleatorie X ed Y :
E[(X + Y )2 ] = E(X 2 ) + E(Y 2 ) + 2 E(X Y ) .
Poiche la correlazione puo` essere positiva, negativa o nulla, allora il valor quadratico
medio della somma di due variabili aleatorie puo` essere maggiore, minore o uguale alla
somma dei valori quadratici medi.
Una seconda interpretazione della correlazione e` di tipo geometrico, e precisamente
come prodotto scalare tra X ed Y ; pertanto, essa richiede lintroduzione del fondamentale
concetto di spazio vettoriale di variabili aleatorie, che sar`a sviluppato nella successiva
sezione.

7.4.2 Spazio vettoriale di variabili aleatorie


Lidea e` quella di interpretare le variabili aleatorie come vettori appartenenti ad un opportuno spazio vettoriale. Osserviamo preliminarmente che, affinche si possa parlare
legittimamente di vettori, e` necessario che siano definite ed abbiano senso loperazione
di somma di due vettori e loperazione di prodotto di un vettore per uno scalare. Ma tali
1

Anche qui, come accade per il caso di una singola variabile aleatoria, il discorso e` diverso se si suppone di conoscere tutti i momenti congiunti; in tal caso, sotto opportune ipotesi, e` possibile risalire alla
CDF, pdf o DF congiunta attraverso luso della funzione caratteristica congiunta (si veda ad esempio [3,
7-2])

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

7.4 Misure di correlazione di una coppia di variabili aleatorie

157

operazioni corrispondono alla somma X + Y di due variabili aleatorie ed al prodotto


a X di una variabile aleatoria per una costante reale, per cui sono perfettamente definite.
Una volta assimilate le variabili aleatorie a vettori, e` possibile introdurre una serie
di concetti geometrici di grande importanza. In particolare, sui vettori appartenenti a
questo spazio vettoriale, e` possibile definire, con diretta interpretazione geometrica,

una norma X  E(X 2 );

una distanza d(X, Y )  X Y = E[(X Y )2 ];
un prodotto scalare !X, Y "  E(XY ).
Tali definizioni non sono arbitrarie; in effetti si puo` far vedere che la norma, la distanza
e il prodotto scalare cos` definiti soddisfano le propriet`a caratteristiche di tali operazioni. Osserviamo, in particolare, che la norma coincide con il valore efficace (e quindi la
norma al quadrato coincide con il valore quadratico medio E(X 2 )), mentre il prodotto
scalare coincide proprio con la correlazione tra le variabili aleatorie X ed Y .
Di particolare importanza, in uno spazio vettoriale dotato di prodotto scalare, risulta
la seguente disuguaglianza di Schwartz.
Teorema 7.2 (disuguaglianza di Schwartz). In uno spazio vettoriale di variabili aleatorie dotato di prodotto scalare, vale la seguente disuguaglianza:


|E(XY )| E(X 2 ) E(Y 2 ) ,
con uguaglianza se e solo se Y = aX (in media quadratica).
Prova. E` sufficiente considerare lespressione quadratica in a, non negativa,
E[(aX Y )2 ] 0 ,
che si sviluppa facilmente, utilizzando la linearit`a della media:
a2 E(X 2 ) 2 a E(XY ) + E(Y 2 ) 0 .
Tale forma quadratica e` non negativa se e solo se il suo discriminante e` minore o uguale a 0. Il calcolo
del discriminante fornisce:
= 4E(XY )2 4E(X 2 ) E(Y 2 ) 0 ,
per cui si ha E(XY )2 E(X 2 ) E(Y 2 ) e quindi, prendendo la radice quadrata, lasserto. Osserviamo che,
se il discriminante si annulla, allora esiste un valore di a, sia esso a , tale che
E[(a X Y )2 ] = 0 .
Questa condizione e` equivalente a dire che Y = a X in media quadratica. Ovviamente se luguaglianza
Y = a X vale puntualmente, essa vale a maggior ragione anche in media quadratica, ma il viceversa non


e` vero.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

158

Caratterizzazione sintetica di una coppia di variabili aleatorie


La disuguaglianza di Schwartz afferma che, in valore assoluto, la correlazione non puo`
eccedere il prodotto dei valori efficaci delle due variabili aleatorie X ed Y . Inoltra, essa
consente anche di riesprimere il prodotto scalare, e quindi la correlazione, come:
!X, Y " = X

Y cos()

(7.1)

dove e` langolo (compreso tra 0 e 2) formato dai due vettori.2 Si trova allora che
tale prodotto scalare e` massimo (in modulo) quando = 0 (vettori allineati e nello
stesso verso) oppure quando = (vettori allineati ma di verso opposto). Viceversa,
il prodotto scalare e` nullo, e quindi minimo in modulo, quando cos() = 0, ovvero per
= /2 o 3/2; in questo caso i vettori X ed Y sono ortogonali. Possiamo allora fornire
la seguente definizione di ortogonalit`a tra due variabili aleatorie X ed Y .
Definizione (ortogonalit`a). Due variabili aleatorie X ed Y si dicono ortogonali
(X Y ) se e solo se:
E(XY ) = 0 ,
ovvero se la loro correlazione e` nulla.

7.4.3 Covarianza
Definizione (covarianza). La covarianza di una coppia di variabili aleatorie
(X, Y ) e` il momento congiunto centrale 11 di ordine n = 2, ovvero:
Cov(X, Y )  11 = E[(X
 X )(Y Y )] =
(x X ) (y Y ) fXY (x, y) dx dy ,
=

se lintegrale esiste finito.


Esiste una relazione semplice tra correlazione e covarianza: sviluppando infatti la media
che compare nella definizione di covarianza, si trova banalmente:
Cov(X, Y ) = E(X Y ) E(X) E(Y ) = Corr(X, Y ) X Y .

(7.2)

Una prima interpretazione della covarianza e` che essa compare naturalmente se proviamo a calcolare la varianza della somma di due variabili aleatorie X ed Y . Infatti si ha,
con semplici passaggi
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ) .
2

(7.3)

In realt`a la (7.1) consente di definire langolo tra due vettori sulla base del prodotto scalare, anche
in casi in cui i concetti geometrici non sono direttamente applicabili.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

7.4 Misure di correlazione di una coppia di variabili aleatorie


Osserviamo che, poich`e la covarianza puo` essere positiva, negativa o nulla, allora la
varianza della somma di due variabili aleatorie puo` essere maggiore, minore o uguale
alla somma delle varianze.
Una seconda interpretazione della covarianza e` di tipo geometrico, e precisamente
in termini di prodotto scalare; infatti essa rappresenta il prodotto scalare tra le variabili aleatorie centrate X X e Y Y . Essendo la covarianza un prodotto scalare,
la disuguaglianza di Schwartz si puo` applicare anche ad essa, ed assume la seguente
forma:


|Cov(X, Y )| E[(X X )2 ] E[(Y Y )2 ] = X Y
(7.4)
con uguaglianza se e solo se Y Y = a(X X ) (in media quadratica o quasi ovunque),
e quindi X ed Y sono legati da una dipendenza lineare, del tipo Y = a X + b, con
b = Y a X . La (7.4) afferma che, in valore assoluto, la covarianza non puo` eccedere
il prodotto delle deviazioni standard delle due variabili aleatorie X ed Y . Inoltre, essa
consente di affermare che la covarianza misura la dipendenza lineare tra due variabili
aleatorie, in quanto e` massima in modulo se le due variabili aleatorie sono legate da una
relazione lineare.
Osserviamo che se a scostamenti (rispetto alla media) X X positivi corrispondono in media scostamenti Y Y positivi, e analogamente per scostamenti negativi, la
covarianza sar`a positiva, e le variabili si diranno positivamente correlate; cio` accade se ad
esempio si considera altezza e peso di una persona. In altri termini, ad un incremento
di X (laltezza) corrisponde un incremento di Y (il peso). Viceversa, se a scostamenti positivi di una variabile corrispondono scostamenti negativi dellaltra, la covarianza
sar`a negativa, e le variabili si diranno negativamente correlate; cio` accade ad esempio se
si considerano il numero di sigarette fumate giornalmente e la speranza di vita di una
persona. In questo caso, ad un incremento di X (il numero di sigarette) corrisponde un
decremento di Y (la speranza di vita).

7.4.4 Coefficiente di correlazione


La covarianza e` una misura assoluta di dipendenza lineare: per avere una misura relativa, e` sufficiente normalizzarla al suo valore massimo (in modulo) X Y , ottenendo cos`
il coefficiente di correlazione.
Definizione (coefficiente di correlazione). Il coefficiente di correlazione XY
di una coppia di variabili aleatorie (X, Y ) e` :
XY 

Cov(X, Y )
.
X Y

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

159

160

Caratterizzazione sintetica di una coppia di variabili aleatorie


Sulla base dellinterpretazione come covarianza normalizzata, ed in particolare richiamando la (7.4), si osserva che il coefficiente di correlazione gode della seguente propriet`a:
|XY | 1 ,
con uguaglianza se e solo se X ed Y presentano una dipendenza di tipo lineare, ovvero
Y = a X + b (in media quadratica o quasi ovunque).
 Esempio 7.1. Mostriamo che il parametro che compare nella pdf congiunta di due
variabili aleatorie congiuntamente gaussiane X ed Y e` proprio il coefficiente di correlazione XY . A tal scopo, consideriamo prima il calcolo della covarianza Cov(X, Y ): si
ha:
 
(x X )(y Y ) fXY (x, y) dx dy .
Cov(X, Y ) = E[(X X )(Y Y )] =

Per risolvere tale integrale, conviene decomporre la fXY (x, y) come gi`a fatto nellesempio 6.2, e precisamente come

fXY (x, y) =

X 2

1
2 2
X

(xX )2


Y

1
1

1
2 2 (12 )
Y

yY Y (xX )

%2 

Sostituendo nellespressione della covarianza, si ottiene:




Cov(X, Y ) =


(x X )

X 2

(y Y )

1
2 2
X

(xX )2

e
1 2 2

1
2 2 (12 )
Y

yY Y (xX )

%2

(7.5)

dy dx

Concentriamo lattenzione sullintegrale in dy: poiche la pdf che vi compare e` ancora


gaussiana, a media Y + XY (xX ), aggiungendo e sottraendo XY (xX ) nel termine
(y Y ) avremo che lintegrale si puo` decomporre come:
%2
$



2 1 2 yY Y (xX )
Y
1
2 (1 )
X

y Y (x X )
dy +
e Y
X
Y 1 2 2

%2
$


2 1 2 yY Y (xX )
Y
1
2 (1 )
X

dy .
+ (x X )
e Y
X
1 2 2
Y

Dei due integrali risultanti, il primo e` nullo per la definizione di media, mentre il secondo e` unitario, per la condizione di normalizzazione della pdf. In definitiva, il risultato

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

7.4 Misure di correlazione di una coppia di variabili aleatorie


del calcolo e` semplicemente XY (x X ) che, sostituito nella (7.5), fornisce:

12 (xX )2
Y
1
e 2X
(x X )2
=
Cov(X, Y ) =
X 2
X
12 (xX )2
1
Y
e 2X
=
(x X )2
=
X
X 2
Y 2
=
= X Y ,
X X
per cui si ricava, dividendo la covarianza per X Y , che = XY , come si voleva
provare.


7.4.5 Incorrelazione tra due variabili aleatorie


Abbiamo visto che, come la covarianza, anche il coefficiente di correlazione misura la
dipendenza lineare esistente tra le due variabili aleatorie. Il vantaggio e` che esso, essendo normalizzato, e` piu` facilmente interpretabile: tale relazione lineare e` tanto piu`
forte quanto piu` XY in modulo e` prossimo ad uno. La completa assenza di dipendenza
lineare, viceversa, si ha se XY = 0, il che ovviamente equivale anche a Cov(X, Y ) = 0.
Tale condizione va sotto il nome di incorrelazione.
Definizione (incorrelazione). Due variabili aleatorie X ed Y si dicono
incorrelate se Cov(X, Y ) = 0 o, equivalentemente, se XY = 0.
Notiamo che, per la relazione (7.2) esistente tra covarianza e correlazione, la condizione
di incorrelazione si puo` esprimere equivalentemente come:
E(X Y ) = E(X)E(Y ) ,
che si interpreta come una propriet`a di fattorizzazione della correlazione (la media del
prodotto X Y e` uguale al prodotto delle medie din X ed Y ). Questa propriet`a va messa in relazione con quella di indipendenza, che rappresenta invece una propriet`a di
fattorizzazione per la pdf congiunta: e` facile verificare che vale il seguente teorema.
Teorema 7.3 (incorrelazione e indipendenza). Se X ed Y sono due variabili aleatorie
indipendenti, allora esse sono anche incorrelate.
Prova. Se scriviamo E(X Y ) esplicitamente, si ha:
 
x y fXY (x, y) dx dy ,
E(X Y ) =

per cui, se le variabili aleatorie sono indipendenti, risulta fXY (x, y) = fX (x) fY (y), e quindi:

 

E(X Y ) =
x fX (x) dx
y fX (y) dy = E(X) E(Y ) ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

161

162

Caratterizzazione sintetica di una coppia di variabili aleatorie


pertanto resta dimostrato lasserto.

E` altrettanto ovvio che, viceversa, lincorrelazione non implica lindipendenza: infatti se si fattorizzano le medie (gli integrali), non e` detto che si fattorizzino le pdf (le
funzioni integrande). Una eccezione degna di nota e` il caso delle variabili aleatorie
congiuntamente gaussiane, come mostrato dallesempio che segue.
 Esempio 7.2. Siamo (X, Y ) N(X , Y , X , Y , ) due variabili aleatorie congiuntamente gaussiane. Supponiamo che (X, Y ) siano incorrelate, il che equivale alla condizione = 0, poich`e tale parametro e` il coefficiente di correlazione. Se allora si considera
lespressione della pdf bidimensionale gaussiana (6.5) per = 0, si vede che essa si
fattorizza nel prodotto delle pdf marginali di due variabili aleatorie X N(X , X ) e

Y N(Y , Y ), per cui X ed Y sono statisticamente indipendenti.
Unaltra propriet`a interessante delle variabili aleatorie incorrelate e` che risulta
Var(X + Y ) = Var(X) + Var(Y ) ,
ovvero la varianza della somma e` pari alla somma delle varianze. Tale risultato si
ottiene banalmente dalla (7.3) ponendovi Cov(X, Y ) = 0.
Notiamo infine che, nonostante una terminologia poco felice, non bisogna confondere i concetti di ortogonalit`a ed incorrelazione: lortogonalit`a corrisponde allannullarsi
della correlazione, lincorrelazione corrisponde allannullarsi della covarianza o del coefficiente di correlazione. Stante la relazione (7.2), ortogonalit`a e incorrelazione coincidono se
almeno una delle due variabili aleatorie e` a media nulla. Inoltre, dire che X ed Y sono
incorrelate equivale a dire che le variabili centrate X X e Y Y sono ortogonali.

7.5

Stima lineare a minimo errore quadratico medio

Unapplicazione interessante dei concetti introdotti nelle precedenti sezioni, basata in


particolare sullinterpretazione delle variabili aleatorie come vettori, e` il problema della
stima. Possiamo formalizzarlo come segue: abbiamo a disposizione una variabile aleatoria X, e a partire da questa vogliamo ottenere una stima di una seconda variabile
aleatoria Y , ad essa collegata.
 Esempio 7.3. Sia Y laltezza ed X il peso di una persona; sappiamo che il peso e` X = x
e vogliamo stimare la sua altezza Y (tale problema e` significativo per esempio in ambito
pediatrico, per controllare la crescita dei neonati).

Chiameremo stimatore di Y , a partire dai dati X, una funzione Y = g(X), dove Y rappresenta la stima di Y . Notiamo che uno stimatore non e` altro che una trasformazione

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

7.5 Stima lineare a minimo errore quadratico medio

163

della variabile aleatoria X: sebbene la forma funzionale di g possa essere arbitraria, ci


limiteremo a considerare stimatori lineari, per i quali g e` una funzione lineare dei dati X,
e si ha quindi:
Y = a X + b ,

(7.6)

con a, b parametri reali.


Per determinare lespressione esplicita di uno stimatore (vale a dire la forma della
funzione g, o per uno stimatore lineare i coefficienti a e b) occorre introdurre una misura
di qualit`a dello stimatore stesso, per determinare quanto buona sia la stima Y . Una
misura molto utilizzata, per la sua semplicit`a matematica, e` lerrore quadratico medio
di stima:
MSE(Y, Y )  E[(Y Y )2 ] .

(7.7)

Il criterio di stima a minimo errore quadratico medio (MMSE) consiste nel determinare lo
stimatore che minimizza lerrore quadratico medio; nel caso di stima lineare, si tratta
semplicemente di determinare i parametri a e b che minimizzano lerrore quadratico
medio. Si ha:
a = XY

Y
,
X

(7.8)

b = Y X XY

Y
.
X

(7.9)

Prova. Si consideri lerrore quadratico medio (7.7): sostituendo lespressione dello stimatore data dalla
(7.6) nella (7.7) si trova:
MSE = E[(Y aX b)2 ] .
Per determinare i valori di a e b che rendono minimo lMSE, si calcolano le derivate parziali dellMSE
rispetto ad a e b e si eguagliano a zero (derivando sotto il segno di media):

MSE =
a

MSE =
b

2E[(Y aX b)X] = 0 ,
2 E[(Y aX b)] = 0 ,

Sviluppando le medie, si ottiene un sistema di due equazioni nelle incognite a e b:


a E(X 2 ) + b E(X)
a E(X) + b

= E(XY )
= E(Y )

che risolto rispetto ad a e b fornisce il risultato (7.8) ed (7.9).

Osserviamo che la media dello stimatore ottimo vale


E(Y ) = a E(X) + b = XY

Y
Y
X + Y X XY
= Y
X
X

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

164

Caratterizzazione sintetica di una coppia di variabili aleatorie


cio`e e` uguale alla media della variabile aleatoria Y da stimare. Uno stimatore che soddisfa una tale propriet`a non commette un errore sistematico di stima, e si dice quindi
non polarizzato (in inglese, unbiased).
Passiamo ora a sostituire i valori di a e b appena determinati nella (7.7), per trovare
il valore dellerrore quadratico medio minimo; con facili passaggi algebrici, si ottiene
MSEmin = Y2 [1 2XY ] ,
dove XY e` il coefficiente di correlazione tra le variabili aleatorie X ed Y . Poiche |XY |
1, notiamo che lerrore minimo risulta maggiore o uguale a zero, come e` naturale; inoltre
esso e` minore o uguale alla varianza di Y ; in particolare, possiamo considerare i due casi
limite:
1. se XY = 0, ovvero se le variabili aleatorie X ed Y sono incorrelate, risulta a = 0 e
b = Y nelle (7.8) ed (7.9), per cui lo stimatore diventa Y = Y e lerrore minimo
e` Y2 . In questo caso, la migliore stima lineare di Y e` indipendente dai dati X e
coincide con la sua media Y , mentre lerrore quadratico medio coincide con la
varianza di Y . E` chiaro che in questo caso X non fornisce alcuna indicazione utile
per determinare Y ;
2. se XY = 1, ovvero se le variabili aleatorie X ed Y sono linearmente dipendenti,
allora lerrore quadratico medio minimo e` pari a zero. In questo caso, uno stimatore lineare si adatta perfettamente alla dipendenza lineare posseduta dalle variabili
aleatorie, per cui fornisce risultati assai soddisfacenti.

7.5.1 Principio di ortogonalit`a


Una formulazione geometrica interessante del problema della stima lineare MMSE si
ottiene supponendo che X ed Y siano a media nulla, ovvero X = Y = 0. In tal
caso, per avere uno stimatore non polarizzato, e` necessario porre b = 0 (si noti che tale
risultato discende anche dalla (7.9) per X = Y = 0) e scegliere quindi uno stimatore
lineare omogeneo:
Y = a X ,
in quanto solo in tal caso risulta in tal caso E(Y ) = a E(X) = 0, qualunque sia il parametro a. Questultimo va determinato in modo da minimizzare lerrore quadratico
medio (7.7).
In effetti, tale problema e` un caso particolare del precedente, con X = Y = 0, per
cui il valore di a e` dato ancora dalla (7.8),
a = XY

Y
.
X

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

7.5 Stima lineare a minimo errore quadratico medio

Y-Y

=aX
Y

165

Y-Y
=aX
Y

Fig. 7.1. Principio di ortogonalit`a: lerrore quadratico medio (MSE) rappresenta la norma del
vettore Y Y (a sinistra); al variare di a, il valore minimo dellMSE si ottiene quando il vettore
Y Y e` ortogonale ad X (a destra).

Vogliamo tuttavia reinterpretare tale problema da un punto di vista differente, ed in


particolare vogliamo fornirne una interessante interpretazione geometrica. Osserviamo
che, se X ed Y sono due vettori, lo stimatore Y = a X, al variare di a, sar`a un vettore
proporzionale (Fig. 7.1) ad X, cio`e allineato ad esso. Lerrore quadratico medio E[(Y
Y )2 ] rappresenta allora la norma al quadrato del vettore differenza Y Y . Con semplici
considerazioni geometriche, e` facile convincersi che, al variare di a, tale norma e` minima
quando il vettore Y Y e` ortogonale ad X. Daltra parte, se consideriamo lespressione
esplicita di tale norma (ovvero dellerrore quadratico medio):
MSE(Y, Y ) = E[(Y Y )2 ] = E[(Y aX)2 ]
e deriviamo rispetto ad a, annullando tale derivata si ottiene:
E[(Y aX)X] = E[(Y Y )X] = 0 ,
che rappresenta proprio la condizione di annullamento del prodotto scalare tra i vettori
Y Y e X, ovvero la condizione di ortogonalit`a precedentemente menzionata. Tale
risultato, in sintesi, afferma che la stima lineare MMSE e` quella che rende lerrore di
stima Y Y ortogonale ai dati X, e va sotto il nome di principio di ortogonalit`a.
Per quanto riguarda il valore minimo dellerrore quadratico medio, sfruttando ancora lortogonalit`a tra Y Y e X, si trova:
MSEmin = E[(Y Y )2 ] = E[(Y Y ) (Y Y )] =
= E[(Y Y )Y ] E[(Y Y )Y ] =
= E[(Y Y )Y ] a E[(Y Y )X] =



= E(Y ) E(Y Y ) =
2

=0
2
Y [1

(7.10)

2XY ] ,

che e` lo stesso valore trovato per il caso b = 0, e per il quale valgono le stesse considerazioni, adesso suscettibili di una chiara interpretazione geometrica. Infatti, se osserviamo

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

166

Caratterizzazione sintetica di una coppia di variabili aleatorie


la Fig. 7.1 (a destra), in condizioni di ortogonalit`a risulta, per il teorema di Pitagora,
E(Y 2 ) = E(Y 2 ) + MSEmin ,
e inoltre si ha:
E(Y 2 ) = a2 E(X 2 ) = 2XY Y2 ,
dove abbiamo sostituito lespressione di a data dalla (7.8); in definitiva, si trova proprio
la (7.10).
In conclusione, va osservato che, tra tutti i tipi di stima possibile, la stima lineare e`
raramente ottima, in quanto la dipendenza tra X ed Y non e` generalmente di tipo lineare, ma spesso e` di tipo non lineare. Tuttavia, la stima lineare e` ampiamente considerata
nelle applicazioni, principalmente per la semplicit`a matematica della sua formulazione
e per linterpretazione geometrica. Degno di nota e` ancora il caso delle variabili aleatorie congiuntamente gaussiane, per le quali si puo` dimostrare limportante risultato
che la stima lineare e` ottima (in senso MMSE) tra tutti i possibili tipi di stima; cio` significa intuitivamente che le variabili aleatorie congiuntamente gaussiane presentano
esclusivamente dipendenze di tipo lineare.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 8
Vettori di variabili aleatorie
8.1

Introduzione

Abbiamo visto nel capitolo 6 come descrivere probabilisticamente una coppia di variabili aleatorie X ed Y . Tuttavia, e` evidente che esistono casi in cui si presenta la necessit`a
di descrivere congiuntamente piu` di due variabili aleatorie. Ad esempio, un insieme di
misure di tensione effettuate su un circuito elettrico potrebbe essere rappresentato da
una n-pla di variabili aleatorie, in cui X1 rappresenta la tensione nel punto 1, X2 rappresenta la tensione nel punto 2, e cos` via. Allo stesso modo, unanalisi medica volta
a individuare una malattia potrebbe essere modellata come una n-pla di variabili aleatorie, in cui X1 rappresenta il livello di glucosio del sangue, X2 il livello di azoto, e cos`
via. E` necessario allora introdurre gli strumenti matematici per caratterizzare statisticamente n variabili aleatorie, con n > 2. Fortunatamente, vedremo che la maggior parte
dei concetti necessari si ottengono generalizzando semplicemente definizioni e risultati
gi`a ottenuti per il caso di coppie di variabili aleatorie.
In alcuni casi, poi, interessa studiare il comportamento limite o asintotico di n variabili
aleatorie quando si faccia tendere n allinfinito, ottenendo cos` una sequenza di variabili
aleatorie. I principali risultati sono raccolti nei cosiddetti teoremi limite (legge dei grandi
numeri e teorema limite fondamentale o CLT), sulla base dei quali e` tra laltro possibile approfondire il legame tra la teoria assiomatica della probabilit`a e linterpretazione
frequentista.

8.2

Caratterizzazione statistica di n variabili aleatorie

Sia (, B, P ) uno spazio di probabilit`a, e siano X1 , X2 , . . . , Xn n variabili aleatorie costruite su tale spazio. Per adoperare una notazione sintetica, possiamo organizzare le n

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

168

Vettori di variabili aleatorie


variabili aleatorie in un vettore colonna1
X = [X1 , X2 , . . . , Xn ]T ,
dove con lapice T abbiamo denotato loperazione di trasposizione. Abbiamo costruito in questo modo un vettore di variabili aleatorie, e adopereremo indifferentemente la
terminologia n variabili aleatorie, n-pla di variabili aleatorie, oppure vettore di n
variabili aleatorie.

8.2.1 Funzione di distribuzione cumulativa (CDF)


Per caratterizzare statisticamente le n variabili aleatorie, dobbiamo generalizzare il concetto di CDF congiunta per una coppia di variabili aleatorie al caso di n variabili aleatorie.
Definizione (CDF congiunta di n variabili aleatorie). Date n variabili aleatorie X1 , X2 , . . . , Xn costruite su uno stesso spazio di probabilit`a (, B, P ), la loro
CDF congiunta e` :
FX1 X2 Xn (x1 , x2 , . . . , xn )  P (X1 x1 , X2 x2 , . . . , Xn xn ) ,
n

dove (x1 , x2 , . . . , xn ) R .
La CDF congiunta e` una funzione reale di n variabili reali, e spesso viene denominata
CDF di ordine n. Per adoperare una notazione sintetica, possiamo utilizzare una notazione vettoriale anche per i valori x1 , x2 , . . . , xn , ponendo x = [x1 , x2 , . . . , xn ], e denotare la CDF congiunta con FX (x). Va notato che, poiche la rappresentazione grafica di
una funzione di n variabili avviene in uno spazio (n + 1)-dimensionale, per n > 2 tale
rappresentazione e` praticamente impossibile.

8.2.2 Funzione densit`a di probabilit`a (pdf)


Analogamente al caso di coppie di variabili aleatorie, a partire dalla CDF congiunta si
ottiene la pdf congiunta per derivazione.
Definizione (pdf congiunta di n variabili aleatorie). Date n variabili aleatorie X1 , X2 , . . . , Xn con CDF congiunta FX1 X2 ...Xn (x1 , x2 , . . . , xn ), la loro pdf
congiunta e` :
fX1 X2 Xn (x1 , x2 , . . . , xn ) 

n
FX1 X2 Xn (x1 , x2 , . . . , xn ) .
x1 x2 xn

In questo capitolo, faremo sovente uso di nozioni elementari di algebra lineare, quali vettori, matrici,
prodotti matrici-vettori, etc; si assume pertanto che il lettore abbia familiarit`a con tali concetti.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.2 Caratterizzazione statistica di n variabili aleatorie


Anche in questo caso assumeremo che valga la condizione di Schwartz, in modo che la
derivata mista non dipenda dallordine di integrazione. Inoltre, denoteremo sinteticamente la pdf congiunta con fX (x).

8.2.3 Funzione di distribuzione di probabilit`a (DF)


Infine, per vettori di variabili aleatorie discrete, possiamo definire la DF congiunta.
Definizione (DF congiunta di n variabili aleatorie). Date n variabili aleatorie
X1 , X2 , . . . , Xn discrete costruite su uno stesso spazio di probabilit`a (, B, P ),
a valori in X1 , X2 , . . . , Xn , rispettivamente, la loro DF congiunta e` :
pX1 X2 Xn (x1 , x2 , . . . , xn )  P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) ,
dove (x1 , x2 , . . . , xn ) X1 X2 Xn .
Anche per la DF congiunta utilizzeremo spesso la notazione sintetica pX (x).

8.2.4 Propriet`a delle distribuzioni congiunte di n variabili aleatorie


Le CDF, pdf e DF di n variabili aleatorie godono di propriet`a che sono la naturale generalizzazione delle corrispondenti propriet`a valide per il caso n = 2. Senza elencarle tutte in maniera sistematica, limitiamoci a considerare quelle piu` importanti nelle
applicazioni.
Ad esempio, notiamo che a partire dalla pdf congiunta e` possibile ricavare la CDF
congiunta per integrazione, come:
 x1  x2
 xn

fX1 X2 ...Xn (u1 , u2 , . . . , un ) du1 du2 dun ,


FX1 X2 ...Xn (x1 , x2 , . . . , xn ) =

o equivalentemente, utilizzando la notazione sintetica, come


 x1  x2
 xn

fX (u) du .
FX (x) =

Poich`e, poi, FX1 X2 ...Xn (, , . . . , ) = 1, dalla precedente ricaviamo la condizione di


normalizzazione della pdf:

fX (x) dx = 1 ,
Rn

dove abbiamo utilizzato una notazione sintetica per lintegrale n-plo. Pertanto la pdf ha
volume unitario nello spazio n-dimensionale.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

169

170

Vettori di variabili aleatorie


Linterpretazione della pdf congiunta come densit`a di probabilit`a scaturisce dalla seguente relazione:
fX (x) dx = P (x1 < X1 x1 + dx1 , x2 < X2 x2 + dx2 , . . . , xn < Xn xn + dxn ) ,
per cui la pdf congiunta nel punto x rappresenta la probabilit`a che la n-pla di variabili
aleatorie X1 , X2 , . . . , Xn appartengano ad un rettangolino n-dimensionale di lati infinitesimi centrato su x, divisa per il volume dx1 dx2 dxn del rettangolino. Anche
in questo caso, tale risultato prova implicitamente che fX (x) 0; inoltre, se D e` un
dominio qualsiasi di Rn , si ha:

P (X D) =
fX (x) dx .
D

Ponendo pari a + uno o piu` argomenti della CDF, e` poi possibile ottenere tutte
le statistiche di ordine k < n a partire da quelle di ordine n. Consideriamo, ad esempio, il caso di tre variabili aleatorie X1 , X2 , X3 , caratterizzate dalla loro CDF congiunta
FX1 X2 X3 (x1 , x2 , x3 ). E` facile verificare che si ha, ad esempio:
FX1 X2 (x1 , x2 ) = FX1 X2 X3 (x1 , x2 , +) ,
FX1 (x1 ) = FX1 X2 X3 (x1 , +, +) .
E` possibile procedere analogamente con le pdf, semplicemente integrando rispetto alle
variabili che non interessano. Le relazioni precedenti si scrivono, in termini di pdf,
come:

fX1 X2 X3 (x1 , x2 , x3 ) dx3
fX1 X2 (x1 , x2 ) =


fX1 (x1 ) =
fX1 X2 X3 (x1 , x2 , x3 ) dx2 dx3

Analoghe relazioni valgono per le DF, per le quali, anziche integrare rispetto alle variabili che non interessano, si effettua la somma.
In definitiva, osserviamo che assegnare le CDF, pdf o DF congiunte di ordine n
equivale ad assegnare implicitamente tutte le CDF, pdf e DF congiunte di ordine k < n.

8.3

Trasformazioni di n variabili aleatorie

Generalizzamo adesso i concetti gi`a presentati per il caso di una e due variabili aleatorie, considerando trasformazioni di n variabili aleatorie. Il caso piu` generale e` che
possiamo considerare e` quello in cui, a partire da un vettore di n variabili aleatorie X =

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.3 Trasformazioni di n variabili aleatorie

171

[X1 , X2 , . . . , Xn ]T , si ottiene un vettore di k variabili aleatorie Y = [Y1 , Y2 , . . . , Yk ]T , utilizzando k funzioni g1 , g2 , . . . , gk di n variabili. Tale trasformazione di variabili aleatorie
si esprime esplicitamente come:

Y1 = g1 (X1 , X2 , . . . , Xn )

Y2 = g2 (X1 , X2 , . . . , Xn )
.
.. ..
..

.
.
.

Y = g (X , X , . . . , X )
k

Lobiettivo e` quello di determinare la pdf congiunta di Y a partire dalla pdf congiunta


di X. Possiamo distinguere tre casi: (i) k < n (sistema sottodeterminato); (ii) k > n
(sistema sovradeterminato); (iii) k = n (sistema quadrato). In particolare, vedremo
che nel caso k = n e` possibile fornire una interessante generalizzazione del teorema
fondamentale sulle trasformazioni di variabili aleatorie, che abbiamo gi`a introdotto per
n = 1 (cfr. 4.2.3) ed n = 2 (cfr. 6.7.2).
In realt`a, gli altri due casi si possono ricondurre al caso quadrato. Infatti, nel caso k < n, possiamo introdurre n k variabili aleatorie ausiliarie, ad esempio Yk+1 =
Xk+1 , Yk+2 = Xk+2 , . . . , Yn = Xn per ricondurci al caso k = n (quadrando, per cos` dire, il sistema). Una volta determinata la pdf congiunta di Y  = [Y1 , Y2 , . . . , Yk , Yk+1 , . . . ,
Yn ], e` possibile ottenere quella di Y = [Y1 , Y2 , . . . , Yk ] semplicemente integrando la pdf
di Y  rispetto alle variabili yk+1 , yk+2 , . . . , yn , che non interessano.
Nel caso k > n, un teorema di analisi (Dini) assicura che k n variabili aleatorie
appartenenti a Y , ad esempio Yn+1 , Yn+2 , . . . , Yk possono essere espresse in funzione
delle n rimanenti, siano esse Y1 , Y2 , . . . , Yn . In questo caso, la pdf congiunta del vettore
k-dimensionale Y e` singolare, ovvero e` definita su un sottospazio n-dimensionale di
Rk , e puo` essere espressa in termini della pdf delle sole Y1 , Y2 , . . . , Yn . Tale pdf si puo`
determinare considerando il sottosistema quadrato composto dalle prime n equazioni
(e quindi ci siamo ricondotti al caso k = n anche stavolta).
Resta allora da considerare il caso k = n: come accennato, esso si puo` affrontare
ricorrendo ad una generalizzazione del teorema fondamentale sulle trasformazioni di
variabili aleatorie.
Teorema 8.1 (teorema fondamentale sulle trasformazioni di n variabili aleatorie). Sia
X = [X1 , X2 , . . . , Xn ]T un vettore di variabili aleatorie con pdf fX1 X2 Xn (x1 , x2 , . . . , xn ),
e sia Y = [Y1 , Y2 , . . . , Yn ]T un vettore di variabili aleatorie ottenuto per trasformazione
da X, come:

Y1 = g1 (X1 , X2 , . . . , Xn )

Y2 = g2 (X1 , X2 , . . . , Xn )
.
.. ..
..

.
.
.

Y = g (X , X , . . . , X )
n
n
1
2
n

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

172

Vettori di variabili aleatorie


Si consideri il sistema di equazioni:

y1 = g1 (x1 , x2 , . . . , xn )

y2 = g2 (x1 , x2 , . . . , xn )
.
.. ..
..

.
.
.

y = g (x , x , . . . , x )
n
n 1
2
n
La pdf congiunta di Y e` data da:

0,

fY1 Y2 Yn (y1 , y2 , . . . , yn ) =

 fX X X (xi , xi , . . . , xi )

n
1 2
1
2
n

i
i
i
|det[J (x1 , x2 , . . . , xn ))]|
i
in cui det() denota il determinante, e

J (x1 , x2 , . . . , xn ) =

(8.1)

se il sistema (8.1) non ha


soluzioni;
dove (xi1 , xi2 , . . . , xin ) e` una
soluzione del sistema (8.1);

x1
y2
x1

y1
x2
y2
x2

...
...

y1
xn
y2
xn

yn
x1

yn
x2

...

yn
xn

y1

(y1 , y2 , . . . , yn )
=
(x1 , x2 , . . . , xn ) ...

..
.

..
.

e` la matrice jacobiana della trasformazione.


Come nel caso n = 1 ed n = 2, lapplicazione del teorema richiede che il sistema (8.1)
abbia al piu` una infinit`a numerabile di soluzioni.
 Esempio 8.1 (trasformazione lineare). Consideriamo ad esempio il caso particolarmente
semplice di una trasformazione lineare di variabili aleatorie:

Y1 = a11 X1 + a12 X2 + . . . a1n Xn

Y2 = a21 X1 + a22 X2 + . . . a2n Xn


.. ..
..

. .
.

Y = a X + a X + ...a X
n

n1

n2

nn

Tale trasformazione si puo` esprimere in forma assai compatta utilizzando la notazione


vettoriale:
Y = AX ,
dove Y = [Y1 , Y2 , . . . , Yn ]T ed X = [X1 , X2 , . . . , Xn ]T sono vettori colonna n-dimensionali, e la matrice A e` definita come:

a11 a12 . . . a1n


a21 a22 . . . a2n

A = ..
..
.. .
.
.
.
an1 an2 . . . ann

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.4 Indipendenza per n variabili aleatorie

173

Se assumiamo che det(A) = 0, il sistema numerico y = A x ammetter`a, per ogni y Rn ,


una ed una sola soluzione nellincognita x, data da:
x = A1 y ,
dove A1 denota la matrice inversa di A. E` facile, inoltre, verificare che la matrice jacobiana J della trasformazione e` pari proprio ad A, per cui |det(J )| = |det(A)|. Per
il teorema fondamentale, allora, la pdf del vettore Y si puo` esprimere, con sintetica
notazione vettoriale, come:
fY (y) =

1
fX (A1 y) ,
|det(A)|

dove y = [y1 , y2 , . . . , yn ] Rn .

8.4

Indipendenza per n variabili aleatorie

Vogliamo ora estendere il concetto di indipendenza statistica a vettori di n variabili


aleatorie.
Definizione (variabili aleatorie indipendenti). Le variabili aleatorie X1 , X2 ,
. . . , Xn si dicono statisticamente indipendenti se
FX1 X2 Xn (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) FXn (xn ) ,

(8.2)

per ogni (x1 , x2 , . . . , xn ) Rn .


Come si vede, lindipendenza equivale anche in questo caso alla fattorizzazione della
CDF congiunta (si confronti con la definizione di indipendenza per coppie di variabili
aleatorie, data nel 6.6). E` chiaro daltronde che la fattorizzazione della CDF congiunta
e` equivalente a quella della pdf congiunta, per cui si ha anche:
fX1 X2 Xn (x1 , x2 , . . . , xn ) = fX1 (x1 ) fX2 (x2 ) fXn (xn ) ,
per ogni (x1 , x2 , . . . , xn ) Rn .
Si puo` osservare, data linterpretazione della CDF, che lindipendenza statistica delle variabili aleatorie X1 , X2 , . . . , Xn equivale allindipendenza degli eventi {X1 x1 },
{X2 x2 }, . . . , {Xn xn }. Tuttavia, nel 2.3.1, abbiamo visto che per specificare lindipendenza di tre o piu` eventi, oltre alla fattorizzazione della probabilit`a congiunta di
tutti gli eventi, bisogna richiedere anche la fattorizzazione della probabilit`a congiunta di
un qualunque sottoinsieme di tutti gli eventi. In questo caso, tale fattorizzazione di ordine inferiore, che sarebbe equivalente a richiedere che anche le CDF di ordine k < n si

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

174

Vettori di variabili aleatorie


fattorizzino nel prodotto delle CDF marginali, non e` necessaria, in quanto discende necessariamente dalla fattorizzazione della CDF di ordine n: infatti, le statistiche di ordine
k < n sono univocamente determinate dalle statistiche di ordine n. Ad esempio, consideriamo il caso n = 3, per il quale la relazione di indipendenza si scrive esplicitamente
come
FX1 X2 X3 (x1 , x2 , x3 ) = FX1 (x1 ) FX2 (x2 ) FX3 (x3 ) .
Ponendo ad esempio x3 = +, si ha al primo membro FX1 X2 X3 (x1 , x2 , +) = FX1 X2 (x1 , x2 )
ed al secondo FX3 (+) = 1, per cui si trova:
FX1 X2 (x1 , x2 ) = FX1 (x1 ) FX2 (x2 ) ,
ovvero la relazione di indipendenza tra X1 ed X2 . Con analogo ragionamento si puo`
ricavare lindipendenza tra X1 ed X3 e tra X2 ed X3 . Lapparente discrepanza tra tale
definizione di indipendenza e quella fornita nel 2.3.1 sta nel fatto che in realt`a la fattorizzazione (8.2), poich`e deve valere (x1 , x2 , . . . , xn ) Rn , e` in realt`a una condizione
assai piu` forte di quella fornita nel 2.3.1.
Con riferimento alle trasformazioni di variabili aleatorie, analogamente al caso di
due variabili, e` possibile provare che se si considera la trasformazione:

Y1 = g1 (X1 )

Y2 = g2 (X2 )
.. ..
..

. .
.

Y = g (X )
n
n
n
e le variabili aleatorie X1 , X2 , . . . , Xn sono indipendenti, allora sono indipendenti anche
le variabili aleatorie Y1 , Y2 , . . . , Yn . La prova e` semplice e ricalca quella per il caso di due
variabili (cfr. 6.6).
Anche per le variabili aleatorie, cos` come per gli eventi (cfr. 2.3.1), si puo` definire
il concetto di indipendenza a coppie.
Definizione (variabili aleatorie indipendenti a coppie). Le variabili aleatorie
X1 , X2 , . . . , Xn si dicono indipendenti a coppie se
FXi Xj (xi , xj ) = FXi (xi ) FXj (xj ) ,

i = j

(xi , xj ) R2 .

E` evidente che lindipendenza implica sempre lindipendenza a coppie, mentre il viceversa non e` vero. E` possibile anche definire lindipendenza tra gruppi di variabili
aleatorie appartenenti ad un vettore X.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.5 Momenti di n variabili aleatorie

175

Definizione (variabili aleatorie statisticamente indipendenti a gruppi).


Le variabili aleatorie X1 , X2 , . . . , Xk si dicono indipendenti dalle variabili
aleatorie Xk+1 , Xk+2 , . . . , Xn se:
FX1 X2 Xn (x1 , x2 , . . . , xn ) =
= FX1 X2 Xk (x1 , x2 , . . . , xk ) FXk+1 Xk+2 Xn (xk+1 , xk+2 , . . . , xn ) ,

(8.3)

per ogni (x1 , x2 , . . . , xn ) Rn .


Infine, un concetto che spesso ricorre insieme a quello di variabili aleatorie statisticamente indipendenti, ma che non ha niente a che vedere con lindipendenza, e` quello di
variabili aleatorie identicamente distribuite .
Definizione (variabili aleatorie identicamente distribuite). Le variabili aleatorie X1 , X2 , . . . , Xn si dicono identicamente distribuite se
FXi (x) = F (x) ,

i {1, 2, . . . , n} .

In altri termini, variabili aleatorie identicamente distribuite sono caratterizzate dallavere la stessa CDF del primo ordine (ad esempio, sono tutte gaussiane con la stessa media
e la stessa varianza). Spesso si considerano n variabili aleatorie che sono sia indipendenti sia identicamente distribuite; in tal caso si parla di variabili aleatorie indipendenti ed
identicamente distribuite (iid). Si noti che per caratterizzare completamente n variabili iid
e` sufficiente assegnare la CDF del primo ordine F (x), che e` la stessa per tutte le variabili.
Infatti, data lindipendenza, qualsiasi CDF di ordine k > 1 si ottiene moltiplicando tra
loro k CDF del primo ordine.

8.5

Momenti di n variabili aleatorie

Il punto di partenza per definire i momenti di n variabili aleatorie e` introdurre la generalizzazione del teorema fondamentale della media.
Teorema 8.2 (teorema fondamentale della media per n variabili aleatorie). Sia Z =
g(X1 , X2 , . . . , Xn ) una trasformazione delle variabili aleatorie X1 , X2 , . . . , Xn aventi pdf
congiunta fX1 X2 Xn (x1 , x2 , . . . , xn ); si ha:
E(Z) = E[g(X1 , X2 , . . . , Xn )] =
 

=

g(x1 , x2 , . . . , xn ) fX1 X2 Xn (x1 , x2 , . . . , xn ) dx1 dx2 dxn ,

se tale integrale esiste finito.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(8.4)

176

Vettori di variabili aleatorie


Notiamo che con notazione vettoriale la (8.4) si scrive molto piu` concisamente come:

E(Z) = E[g(X)] =
g(x)fX (x) dx .
Rn

Ovviamente anche in questo caso la media statistica e` un operatore lineare. Infatti,


siano gk (k = 1, 2, . . . , n) n arbitrarie funzioni di n variabili, e siano ak (k = 1, 2, . . . , n) n
costanti reali. Si ha:

 n
n


ak gk (X) =
ak E[gk (X)] ,
E
k=1

k=1

e scegliendo g1 (X) = X1 , g2 (X) = X2 , . . . , gn (X) = Xn , si ha:



 n
n


E
ak Xk =
ak E[Xk ] ,
k=1

k=1

e quindi la media statistica della combinazione lineare di n variabili aleatorie coincide


con la combinazione lineare delle medie statistiche.
 Esempio 8.2 (media di una variabile aleatoria binomiale). Nel 5.2 abbiamo riportato, senza dimostrarlo, il risultato che la media di una variabile aleatoria X B(n, p) e` pari
a E(X) = n p. A questo punto, possiamo dimostrarlo semplicemente, riconoscendo
che una variabile aleatoria binomiale si puo` interpretare come la somma di n variabili
aleatorie bernoulliane, di parametro p, statisticamente indipendenti, cio`e:
X=

n


Xi ,

i=1

con Xi Bern(p). Infatti, per contare il numero di successi in n prove, e` sufficiente


sommare i valori ottenuti associando ad un successo il valore 1 e ad un insuccesso il
valore 0. Poich`e allora E(Xi ) = p, applicando la linearit`a della media si ha:
E(X) =

n


E(Xi ) = n p ,

i=1

come avevamo annunciato nel 5.2.

8.5.1 Vettore delle medie


Se abbiamo un vettore di variabili aleatorie X = [X1 , X2 , . . . , Xn ]T , possiamo calcolare
le medie delle sue componenti, date da

Xi = E(Xi ) 
xi fXi (xi ) dxi ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.5 Momenti di n variabili aleatorie

177

per i = 1, 2, . . . , n, e raccoglierle in un vettore colonna X  [X1 , X2 , . . . , Xn ]T . Tale vettore prende il nome di vettore delle medie, e formalmente possiamo scrivere X =
E(X), dove per media di un vettore intendiamo loperatore che calcola la media di ciascuna componente del vettore, restituendo un vettore di uguale dimensione. Notiamo
che, per calcolare il vettore delle medie, non e` necessario conoscere la pdf di ordine n,
ma e` sufficiente conoscere la pdf del primo ordine di ciascuna componente del vettore.
Questo e` in accordo con il fatto che la media e` un momento del primo ordine.

8.5.2 Matrice di correlazione


Dato un vettore di variabili aleatorie X = [X1 , X2 , . . . , Xn ]T , possiamo calcolare le
correlazioni tra le sue componenti prese due a due, date da

Corr(Xi , Xj ) = E(Xi Xj ) 

xi xj fXi Xj (xi , xj ) dxi dxj ,

per i, j = 1, 2, . . . , n, e raccoglierle in una matrice RX quadrata, di dimensioni n n,


che prende il nome di matrice di correlazione del vettore X o delle n variabili aleatorie
X1 , X2 , . . . , Xn . Notiamo che per calcolare tale matrice non e` necessario conoscere la
pdf di ordine n, ma e` sufficiente conoscere la pdf del secondo ordine di qualunque
coppia di componenti del vettore, coerentemente con il fatto che la correlazione e` un
momento del secondo ordine.
Applicando semplici risultati di algebra lineare, e` facile verificare che la matrice di
correlazione si puo` scrivere nella forma particolarmente compatta
R = E(X X T ) ,

(8.5)

dove X X T e` il prodotto2 di un vettore colonna n 1 per un vettore riga 1 n, il cui


risultato e` una matrice n n i cui elementi sono (`e facile verificarlo) proprio Xi Xj , e per
media di una matrice intendiamo loperatore che calcola la media di ciascun elemento
della matrice, restituendo una matrice di uguali dimensioni.
Osserviamo che, per i = j, risulta Corr(Xi , Xi ) = E(Xi2 ), cio`e la correlazione si riduce
al valore quadratico medio; pertanto, sulla diagonale principale di RX sono presenti
i valori quadratici medi E(X12 ), E(X22 ), . . . , E(Xn2 ). Notiamo poi che la matrice RX e`
simmetrica, cio`e lelemento di posto (i, j) e` uguale allelemento di posto (j, i), come si
ricava facilmente dalla simmetria della correlazione:
Corr(Xi , Xj ) = E(Xi Xj ) = E(Xj Xi ) = Corr(Xj , Xi ) .
Il prodotto x y T , il cui risultato e` una matrice, viene chiamato talvolta prodotto esterno tra i vettori
(colonna) x e y, e non va confuso con il prodotto scalare o prodotto interno xT y, il cui risultato e` uno scalare.
2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

178

Vettori di variabili aleatorie


Osserviamo infine che una matrice simmetrica coincide con la sua trasposta, cio`e si ha
RX = RTX ; per verificare direttamente tale relazione, basta considerare la definizione
(8.5) e applicare semplici relazioni di algebra lineare:
RTX = E[(X X T )T ] = E[(X T )T X T ] = E(X X T ) = RX .
Unimportante propriet`a della matrice di correlazione si trova considerando la combinazione lineare Y , con coefficienti arbitrari, delle n variabili aleatorie:
Y =

n


ak Xk = aT X ,

(8.6)

k=1

che abbiamo interpretato come prodotto scalare, introducendo il vettore colonna a =


[a1 , a2 , . . . , an ]T Rn . Calcoliamo il valor quadratico medio di Y adoperando semplici
relazioni di algebra lineare; si ha:
E(Y 2 ) = E[(aT X)2 ] = E[aT X(aT X)T ] = E(aT XX T a) = aT E(XX T ) a = aT RX a .
Poich`e evidentemente E(Y 2 ) 0, si ha che
aT RX a 0,

a Rn ,

che si esprime dicendo che la matrice RX e` semidefinita positiva. Se vale la disuguaglianza stretta, ovvero se aT RX a > 0, a Rn {0}, allora la matrice RX e` definita positiva.
Si noti che la differenza tra i due casi e` la seguente: se la matrice e` solo semidefinita
positiva, allora esiste un valore di a = 0 tale che la forma quadratica aT RX a = 0. Poich`e
tale forma quadratica coincide con il valor quadratico medio della combinazione lineare (8.6), allora una condizione sufficiente affinch`e cio` accada e` che le variabili aleatorie
siano linearmente dipendenti, cio`e che esista un vettore a di coefficienti non tutti nulli tali
che:
Y = a1 X1 + a2 X2 + . . . + an Xn = 0 .
In questo caso, allora, almeno una variabile aleatoria puo` essere espressa come combi
nazione lineare delle restanti. Viceversa, se risulta E[( nk=1 ak Xk )2 ] > 0 per ogni a = 0,
le variabili si diranno linearmente indipendenti, e la loro matrice di correlazione sar`a definita positiva. Si puo` dimostrare che una matrice definita positiva e` di rango pieno, e
quindi e` invertibile, mentre una matrice semidefinita positiva non ha tale propriet`a.

8.5.3 Matrice di covarianza


Cos` come la matrice di correlazione raccoglie le correlazioni tra tutte le possibili coppie di variabili aleatorie, e` possibile definire una matrice di covarianza C X quadrata, di

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.5 Momenti di n variabili aleatorie

179

dimensioni n n, il cui elemento di posto (i, j) rappresenta la covarianza tra Xi ed Xj :


Cov(Xi , Xj ) = E[(X
 i Xi )(Xj Xj )] 

(xi Xi )(xj Xj ) fXi Xj (xi , xj ) dxi dxj ,

per i, j = 1, 2, . . . , n. Notiamo che la matrice C X si puo` scrivere con notazione compatta


come:
C X = E[(X X )(X X )T ] .

(8.7)

Poich`e, per i = j, la covarianza si riduce alla varianza, sulla diagonale principale di


C X sono presenti le varianze 12 , 22 , . . . , n2 . Inoltre, poich`e la covarianza, come la correlazione, e` simmetrica, allora la matrice C X e` anchessa simmetrica, ovvero C TX =
CX.
In effetti, si puo` notare che la matrice di correlazione e quella di covarianza condividono numerose propriet`a; cio` consegue dal fatto che la matrice di covarianza di X si
puo` riguardare come la matrice di correlazione del vettore centrato Y = X X , ovvero:
RY = E(Y Y T ) = E[(X X )(X X )T ] = C X .
Per questo motivo, la matrice di covarianza possiede tutte le propriet`a delle matrice di
correlazione, ed in particolare e` semidefinita positiva.
Infine, cos` come vale la seguente relazione tra la covarianza e la correlazione di una
coppia di variabili aleatorie (cfr. capitolo 7)
Cov(Xi , Xj ) = Corr(Xi , Xj ) Xi Xj ,
allora sussiste la seguente relazione tra le matrici di covarianza e di correlazione:
C X = RX X TX .
Tale relazione si puo` anche ricavare sviluppando la definizione (8.7) ed applicando
semplici risultati di algebra lineare.

8.5.4 Incorrelazione
Concludiamo questa sezione estendendo il concetto di incorrelazione ad un vettore di
variabili aleatorie.
Definizione (incorrelazione). Le variabili aleatorie X1 , X2 , . . . , Xn si dicono
incorrelate se Cov(Xi , Xj ) = 0, i = j.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

180

Vettori di variabili aleatorie


Notiamo che la condizione di incorrelazione e` equivalente al fatto che la matrice di covarianza C X e` diagonale. Notiamo altres` che lindipendenza tra le variabili aleatorie
X1 , X2 , . . . , Xn implica lincorrelazione; in realt`a e` sufficiente, in luogo dellindipendenza, lindipendenza a coppie, basta cio`e che si fattorizzi la pdf congiunta (del secondo
ordine) di qualunque coppia di variabili aleatorie. Viceversa, lincorrelazione non implica lindipendenza, e neppure lindipendenza a coppie, salvo nel caso di vettori di
variabili aleatorie congiuntamente gaussiane, come vedremo nel seguito.
Unaltra implicazione della propriet`a di incorrelazione e` che, per variabili aleatorie
X1 , X2 , . . . , Xn incorrelate, risulta:
, n
n


Var
Xi =
Var(Xi ) .
i=1

i=1

Prova. Sviluppando la definizione di varianza, si ha:



, n
2
n
n 
n 
n
n




Var
Xi = E
(Xi Xi )
E[(Xi Xi )(Xj Xj )] =
Cov(Xi , Xj ) .
=

i=1

i=1

i=1 j=1

i=1 j=1

Se le variabili aleatorie sono incorrelate, allora Cov(Xi , Xj ) = 0 per i = j, mentre Cov(Xi , Xi ) = Var(Xi );
in tal caso, la doppia sommatoria si riduce ad una singola sommatoria, per cui si ha lasserto.

 Esempio 8.3 (varianza di una variabile aleatoria binomiale). Come applicazione del precedente risultato, osserviamo che la varianza di una variabile aleatoria X B(n, p) e` pari
a Var(X) = n p q, dove q = 1 p. Infatti, una variabile aleatoria binomiale si puo` esprimere (cfr. esempio 8.2) come somma di n variabili aleatorie bernoulliane Xi indipendenti: poich`e lindipendenza implica lincorrelazione, tali variabili aleatorie bernoulliane saranno anche incorrelate, e quindi, poiche la varianza di una variabile aleatoria
Xi Bern(p) e` pari a Var(Xi ) = p q, si ha:
, n
n


Var(X) = Var
Xi =
Var(Xi ) = n p q .
i=1

i=1


 Esempio 8.4 (n variabili aleatorie congiuntamente gaussiane). Un esempio particolarmente interessante di n variabili aleatorie e` la generalizzazione del concetto di coppie di
variabili aleatorie congiuntamente gaussiane al caso n-dimensionale. Le variabili aleatorie X = [X1 , X2 , . . . , Xn ]T si diranno congiuntamente gaussiane se la loro pdf congiunta
ammette la seguente espressione:


1
1
1
T
fX (x) =
exp (x X ) C X (x X ) ,
(8.8)
(2)n/2 det(C X )1/2
2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.5 Momenti di n variabili aleatorie

181

dove C X e` la matrice di covarianza di X e X e` il vettore delle medie di X. Notiamo


che, affinche la (8.8) abbia significato, occorre che: (i) il determinante della matrice di covarianza C X , del quale si calcola la radice, sia non negativo; cio` e` garantito dalla natura
semidefinita positiva della matrice di covarianza; (ii) linversa della matrice di covarianza esista; cio` e` garantito se la matrice di covarianza e` definita positiva, il che non e` vero
sempre, ma solo se le variabili aleatorie X1 , X2 , . . . , Xn sono linearmente indipendenti,
ipotesi che assumeremo vera nel seguito.
Possiamo osservare che la definizione (8.8) e` consistente con i risultati gi`a noti per
il caso n = 1 ed n = 2. Infatti, per n = 1, possiamo porre X = X, X = X , C X =
2
2
2
, e quindi C 1
E[(X X )2 ] = X
X = 1/X e det(C X ) = X , per cui la (8.8) si riduce a:
fX (x) =

X 2

1
2 2
X

(xX )2

Per n = 2, possiamo porre X = [X, Y ]T , X = [X , Y ]T , mentre la matrice di covarianza e` una matrice 2 2, data da


 
2
X
Cov(X, X) Cov(X, Y )
X Y
,
CX =
=
X Y
Y2
Cov(Y, X) Cov(Y, Y )
per cui la sua inversa si calcola facilmente come:

1
Y2
1
CX =
det(C X ) X Y

X Y
2
X


,

2 2
dove det(C X ) = X
Y (12 ). Sostituendo lespressione di C X , dellinversa e del determinante nella (8.8), si ottiene una pdf bidimensionale di tipo gaussiano, come espressa
dalla (6.5).
Piu` in generale, si puo` mostrare che se n variabili aleatorie sono congiuntamente
gaussiane, allora qualsiasi sottoinsieme composto da k < n tra queste variabili aleatorie
sono ancora congiuntamente gaussiane. In particolare, X1 e` marginalmente gaussiana, di
parametri X1 e X1 , ed analogamente per X2 , X3 , . . . , Xn . Notiamo che il viceversa non
e` vero: n variabili aleatorie marginalmente gaussiane non sono necessariamente anche
congiuntamente gaussiane, salvo nel caso in cui siano statisticamente indipendenti.
Unaltra importante propriet`a delle variabili aleatorie congiuntamente gaussiane e`
la seguente: se n variabili aleatorie congiuntamente gaussiane sono incorrelate, allora
esse sono statisticamente indipendenti. Questo e` un risultato che non vale in generale,
ma solo nel caso gaussiano; infatti lindipendenza in generale e` una propriet`a piu` forte
dellincorrelazione, nel senso che lindipendenza implica lincorrelazione, ma non vale
il viceversa.

Prova. Se le variabili aleatorie X1 , X2 , . . . , Xn sono incorrelate, la loro matrice di covarianza risulta


2
2
2
, X
, . . . , X
). In tal caso, linversa e` ancora diagonale:
diagonale, ovvero C X = diag(X
1
2
n
2
2
2
C 1
X = diag(1/X1 , 1/X2 , . . . , 1/Xn ) ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

182

Vettori di variabili aleatorie


ed il determinante e` il prodotto dei valori della diagonale:
2
2
2
X
X
det(C X ) = X
1
2
n

per cui la (8.8) si semplifica, riducendosi a:






n
n

1
1
1
1  (x Xi )2
2
1

exp 2 (x Xi ) ,
exp
=
fX (x) =
n
2
2 i=1
X
2Xi
(2)n/2 i=1 Xi

2
i
i=1 Xi
cio`e al prodotto delle pdf marginali, per cui le X1 , X2 , . . . , Xn sono indipendenti.

Probabilmente la propriet`a piu` importante delle variabili aleatorie congiuntamente gaussiane e` la chiusura rispetto alle trasformazioni lineari, nel senso che una trasformazione
lineare trasforma vettori gaussiani in vettori gaussiani. Sia X un vettore gaussiano, e
consideriamo la trasformazione lineare (non omogenea)
Y = AX + b ,
dove A e` una matrice quadrata nn, invertibile, e b e` un vettore colonna n-dimensionale.
Il calcolo della pdf di Y si ottiene facilmente applicando il teorema fondamentale sulle
trasformazioni (si noti che questa e` una generalizzazione dellesempio 8.1). La soluzione
del sistema numerico y = Ax + b e` unica, ed e` data da:
x = A1 (y b) ,
mentre la matrice jacobiana J della trasformazione e` pari ad A, per cui la pdf del vettore
Y si scrive come:
fY (y) =

1
fX [A1 (y b)] .
|det(A)|

Sostituendo lespressione di fX (x) data dalla (8.8), e tenendo conto che


x X = A1 (y b) X = A1 (y b AX ) ,
si trova:
fY (Y ) =

(2)n/2 det(C X )1/2 |det(A)|




1
1 T
1 1
T
exp (y b A X ) (A ) C X A (y b A X ) ,
2

(8.9)

che si riconosce essere la pdf di un vettore di variabili aleatorie gaussiane di media


Y = A X + b e con matrice di covarianza C Y = A C X AT .


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie

8.6

183

Teoremi limite e convergenza di una sequenza di variabili aleatorie

Concludiamo il capitolo introducendo due fondamentali teoremi, denominati teoremi


limite perch`e descrivono il comportamento al limite (per n ) di una sequenza di
variabili aleatorie X1 , X2 , . . . , Xn . I due teoremi sono la legge dei grandi numeri (nella forma debole e forte) ed il teorema limite fondamentale. Vedremo che tali teoremi definiscono
varie forme di convergenza associate alla sequenza di variabili aleatorie X1 , X2 , . . . , Xn .

8.6.1 Legge dei grandi numeri


Teorema 8.3 (legge debole dei grandi numeri). Siano X1 , X2 , . . . , Xn variabili aleatorie
indipendenti, aventi la stessa media E(Xk ) = e la stessa varianza Var(Xk ) = 2 < ,
e si consideri la variabile aleatoria
1
Xk .

n 
n k=1
n

Si ha:
n | < ) = 1 ,
lim P (|

> 0 .

(8.10)

Prova. Iniziamo col calcolare media e varianza di


n . Per la media, utilizzando la linearit`a, si ha:
1
1
E(Xk ) = n = ;
n
n
n

E(
n ) =

k=1

inoltre, sfruttando le propriet`a della varianza e lipotesi di indipendenza (che implica lincorrelazione), si
ha:
Var(
n ) =

n
1 
1
2
2
.
Var(X
)
=
n

=
k
n2
n2
n
k=1

A questo punto il teorema e` una conseguenza diretta della disuguaglianza di Chebishev:


P (|
n | < ) 1

Var(
n )
2
=
1

2
n 2

Al tendere di n si ha P (|
n | < ) 1 e quindi necessariamente P (|
n | < ) = 1.

Dal punto di vista matematico, il teorema3 afferma in sostanza che la probabilit`a di avere
n converge

n prossimo a piacere a tende ad 1 al tendere di n , e pertanto che


a per n . La convergenza definita dalla (8.10) viene chiamata convergenza in
3

Il teorema e` stato enunciato e dimostrato per la prima volta dal matematico svizzero J. Bernoulli
(16541705) nel trattato Ars Conjectandi.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

184

Vettori di variabili aleatorie


probabilit`a; la legge dei grandi numeri si dice debole perch`e la convergenza in probabilit`a
e` una forma debole di convergenza, vale a dire che non sono richieste condizioni molto
stringenti. Notiamo inoltre che lassunzione di indipendenza tra le variabili aleatorie
X1 , X2 , . . . , Xn non e` in realt`a richiesta per la dimostrazione del teorema, in quanto e`
sufficiente lincorrelazione.
Dobbiamo ora dare una interpretazione intuitiva della legge dei grandi numeri. Osserviamo che la quantit`a
n rappresenta la media aritmetica delle variabili aleatorie
X1 , X2 , . . . , Xn . Se interpretiamo X1 , X2 , . . . , Xn , anziche come variabili aleatorie, come
valori osservati, allora la
n rappresenta la media empirica delle osservazioni. Nellipotesi
che le osservazioni siano ripetute nelle medesime condizioni, si osserva sperimentalmente che la media empirica, al divergere del numero delle osservazioni, presenta fluttuazioni sempre meno marcate, convergendo ad un valore costante. La legge dei grandi
numeri afferma, in sostanza, che tale valore costante e` la media delle variabili aleatorie
X1 , X2 , . . . , Xn associate alle osservazioni.
Un altra interpretazione della legge dei grandi numeri consiste nel riguardare
n
come uno stimatore della media statistica delle variabili aleatorie. Il fatto che E(
n ) =
si esprime dicendo che lo stimatore e` non polarizzato, ovvero che non si commette un
errore sistematico di stima, almeno in media. E` desiderabile che uno stimatore sia non
polarizzato, ma evidentemente questa condizione da sola non caratterizza la bont`a dello
stimatore. Infatti, un buono stimatore dovr`a presentare una varianza piccola, e tendente
a zero al divergere di n; tale propriet`a e` chiamata consistenza. Notiamo che la legge
debole dei grandi numeri esprime proprio il fatto che lo stimatore
n e` consistente, in
quanto la sua varianza e` inversamente proporzionale ad n. Possiamo pensare ad uno
` per
stimatore consistente e non polarizzato come ad una quantit`a aleatoria che pero,
n , presenta una pdf sempre piu` stretta centrata intorno alla media, per cui tende a
diventare una quantit`a deterministica.
Notiamo infine che la condizione di consistenza si puo` esprimere esplicitamente
come segue:
n ) = lim E[(
n )2 ] = 0 ,
lim Var(

per cui equivale alla convergenza in media quadratica di


n a . Utilizzando la disuguaglianza di Chebishev, come si e` fatto nella dimostrazione della legge debole dei grandi numeri, si prova facilmente che la convergenza in media quadratica implica quella
in probabilit`a, il che giustifica anche il motivo per cui la convergenza in probabilit`a e`
ritenuta una forma debole di convergenza.
E` possibile dimostrare che
n converge a in un senso piu` forte di quello espresso
dalla legge debole dei grandi numeri. Tale risultato e` stato dimostrato dal matematico
francese E. Borel (1871-1956) e prende il nome di legge forte dei grandi numeri.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie

185

Teorema 8.4 (legge forte dei grandi numeri). Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, aventi la stessa media E(Xk ) = e la stessa varianza Var(Xk ) = 2 < , e
si consideri la variabile aleatoria
1
Xk .

n 
n k=1
n

Si ha:

P


lim |
n | < = 1 ,

> 0 .

(8.11)

La tesi (8.11) della legge forte dei grandi numeri (per una dimostrazione si veda ad
esempio [1]) sembra quasi identica a quella della legge debole, ma fondamentale e` lo
scambio tra loperazione di limite e la probabilit`a (si confrontino la (8.10) e la (8.11)) La
convergenza definita dalla (8.11) e` un tipo di convergenza piu` forte della convergenza
in media quadratica o in probabilit`a, e prende il nome di convergenza con probabilit`a 1 o
convergenza quasi certa. E` altres` interessante notare che la legge forte dei grandi numeri
vale nelle stesse ipotesi della legge debole.
Le leggi dei grandi numeri (sia la versione forte che quella debole) descrivono il
comportamento della media aritmetica di n variabili aleatorie al divergere di n. E` tuttavia semplice verificare che tali leggi possono applicarsi anche per dimostrare che la
frequenza di successo di un evento A in n prove indipendenti e ripetute sotto identiche
condizioni tende alla probabilit`a p = p(A) dellevento al divergere di n (si noti che questo
problema e` esattamente quello delle prove ripetute, affrontato nel 2.4.2). Per mostrare
` e` sufficiente associare, ad ogni ripetizione dellesperimento, la variabile aleatoria
cio,
indicatrice dellevento A, definita come:

1, se A si verifica nella k-esima ripetizione;
Xk =
0, altrimenti.
E` chiaro che le variabili aleatorie cos` definite sono Xk Bern(p), e inoltre sono iid. Si
ha, per le propriet`a delle variabili aleatorie bernoulliane:
E(Xk ) = p ,
Var(Xk ) = p q .
Osserviamo che in questo caso la media aritmetica delle variabili aleatorie X1 , X2 , . . . , Xn ,
ovvero
1
Xk
pn =
n k=1
n

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

186

Vettori di variabili aleatorie


rappresenta proprio la frequenza di successo dellevento A nelle n prove. Notiamo, poi,
che:
(8.12)

E(
pn ) = p ,
pq
;
Var(
pn ) =
n

(8.13)

per cui possiamo affermare che pn e` uno stimatore non polarizzato e consistente della
probabilit`a p.
Poich`e ci troviamo esattamente nelle ipotesi delle leggi dei grandi numeri, possiamo
affermare che pn tende a p, al divergere di n, sia in probabilit`a (legge debole) che con probabilit`a 1 (legge forte). Questo risultato e` di grande importanza, in quanto costituisce il
legame tra la teoria assiomatica della probabilit`a e linterpretazione frequentista.
 Esempio 8.5. Unapplicazione estremamente importante della legge dei grandi numeri e` la seguente. Supponiamo di voler stimare la probabilit`a p con una certa affidabilit`a:
sappiamo che per n laffidabilit`a puo` essere migliorata a piacere, ma vogliamo
avere unindicazione su quale devessere il valore effettivo di n per avere un determinato livello di affidabilit`a. Come misura di affidabilit`a potremmo prendere la varianza
(8.13) dello stimatore pn ; tuttavia notiamo che una misura assoluta non ha molto senso, mentre e` piu` significativo considerare una misura relativa, ottenuta normalizzando
la varianza al valore da stimare. Piu` precisamente, poiche la varianza e` un momento
quadratico, e` opportuno normalizzare la sua radice (la deviazione standard) alla media
dello stimatore, in modo da avere due quantit`a dimensionalmente omogenee. Si ottiene
cos` la seguente misura di qualit`a, denominata coefficiente di variazione di pn :

Var(
pn )
=
.
E(
pn )
Sostituendo i valori, si trova:
=

pq
n


=

q
=
np

1p
.
np

Un caso tipico e` quello in cui levento A e` poco probabile, ovvero p  1, per cui
possiamo approssimare nella precedente 1 p 1 e scrivere:
1
.
np
Se allora imponiamo che il coefficiente di variazione sia 0.1, che corrisponde ad un
errore relativo del 10%, troviamo:
n=

100
,
p

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(8.14)

8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie

187

cio`e il numero di prove deve eccedere di due ordini di grandezza linverso della probabilit`a da stimare. Ad esempio, se p = 102 , allora n = 104 , e cos` via.
Un problema che puo` sorgere in pratica e` il seguente: poich`e non conosciamo in
anticipo p, come facciamo a determinare a priori il numero di prove da effettuare? Osserviamo che se effettuiamo n prove, e levento A si verifica k volte, allora pn = nk .
Sostituendo pn in luogo di p nella (8.14), troviamo k = 100. Questo significa che per
avere laffidabilit`a desiderata levento A si deve verificare almeno 100 volte. Pertanto,
sebbene non sappiamo calcolare a priori il numero di prove da effettuare, abbiamo una
condizione di arresto del nostro algoritmo: ripetere lesperimento finche levento A
non si e` verificato 100 volte.


8.6.2 Teorema limite fondamentale


Le legge dei grandi numeri, sia nella versione forte che in quella debole, afferma che
la media aritmetica
n converge a quella statistica al crescere di n. Abbiamo visto,
inoltre, che essa puo` essere applicata per dimostrare che la frequenza di successo pn
converge alla probabilit`a p al crescere di n. Limportanza, teorica ed applicativa, di
tale risultato e` enorme, come abbiamo discusso nel precedente paragrafo; inoltre, conoscendo la varianza di
n , ed applicando la disuguaglianza di Chebishev, possiamo
maggiorare la probabilit`a che
n si discosti arbitrariamente da , in quanto si ha:
P (|
n | )

Var(
n )
2
=
.
2
n 2

(8.15)

Tuttavia nel 5.5 abbiamo verificato che la disuguaglianza di Chebishev fornisce risultati anche assai lontani dal vero, cio`e non e` una disuguaglianza stretta. Per una valutazione piu` accurata della probabilit`a (8.15), allora, bisogna necessariamente conoscere
la pdf di
n , eventualmente per valori elevati di n. La determinazione di tale pdf e`
loggetto proprio dal teorema limite fondamentale,4 che fornisce un risultato per certi versi
sorprendente: la pdf di
n , per n , tende a diventare gaussiana, indipendentemente dalle pdf delle variabili aleatorie X1 , X2 , . . . , Xn . Cio` giustifica lenfasi che abbiamo
dato alle variabili aleatorie gaussiane durante tutta la nostra trattazione.
Teorema 8.5 (teorema limite fondamentale). Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, aventi la stessa media E(Xk ) = e la stessa varianza Var(Xk ) = 2 < , e
si consideri la variabile aleatoria
n
1

n 
Xk
n k=1
4

In inglese, tale teorema viene denominato Central Limit Theorem (CLT), che spesso viene tradotto
come teorema del limite centrale. Tale terminologia e` quella adottata in quasi tutti i testi italiani di
probabilit`a e statistica.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

188

Vettori di variabili aleatorie


e la sua versione normalizzata (a media nulla e varianza unitaria)
n )

n E(
.
Zn = 
Var(
n )
Detta FZn (x) la CDF di Zn , si ha:
1
lim FZn (x) = G(x) =
n
2

u2
2

du .

ovvero, per n , Zn ha la CDF di una variabile aleatoria Z N(0, 1) (normale


standard).
Dal punto di vista matematico, notiamo che anche il teorema limite fondamentale esprime una forma di convergenza della sequenza Zn alla variabile aleatoria Z N(0, 1); poich`e tale convergenza e` in realt`a una convergenza delle rispettive CDF, viene chiamata
convergenza in distribuzione, e si puo` provare che e` un tipo di convergenza debole.5
Dal punto di vista pratico, sebbene enunciato con riferimento alla media aritmetica di n variabili aleatorie, il teorema limite fondamentale stabilisce in pratica che la
somma di un gran numero di variabili aleatorie indipendenti tende ad assumere la distribuzione gaussiana. Si noti che il teorema si puo` generalizzare anche al caso in cui
le variabili aleatorie non abbiano tutte la stessa media e la stessa varianza, mantenendo
sempre lassunzione di indipendenza. Ad esempio, se le variabili aleatorie indipendenti
X1 , X2 , . . . , Xn hanno medie E(Xk ) = k e varianze Var(Xk ) = k2 < , e consideriamo



la somma Sn = nk=1 Xk , che ha media E(Sn ) = nk=1 k e varianza Var(Sn ) = nk=1 k2 ,
la versione normalizzata di Sn , sia essa
Sn E(Sn )
Zn = 
,
Var(Sn )
tende ad assumere una distribuzione gaussiana standard, cio`e Zn Z N (0, 1). Per
n sufficientemente grande, notiamo che questo equivale a dire che Sn ha approssimativamente una distribuzione gaussiana con media E(Sn ) e varianza Var(Sn ), e questo
risultato ha una grossa rilevanza applicativa nei calcoli di probabilit`a riguardanti Sn ,
in quanto consente di sostituire alla vera CDF di Sn una CDF gaussiana con media e
varianza pari a quelli di Sn .
 Esempio 8.6. Il teorema limite fondamentale si puo` applicare per ricavare la distribuzione limite della somma Sn di n variabili aleatorie iid bernoulliane, cio`e Xk Bern(p).
Notiamo che e` possibile calcolare esattamente tale distribuzione per ogni valore di n, in
5

Notiamo anche che la formulazione precedente del teorema e` una formulazione integrale, perch`e
riguarda la CDF che si puo` esprimere come un integrale; vedremo successivamente poi che e` possibile
darne anche una formulazione locale, con riferimento cio`e alla pdf.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie

189

quanto risulta Sn B(n, p), cio`e e` una variabile aleatoria binomiale. Poich`e E(Xk ) = p
e Var(Xk ) = p q, allora E(Sn ) = n p e Var(Sn ) = n p q, per cui la variabile aleatoria
normalizzata si scrive:
Sn n p
.
Zn =
npq
Se allora vogliamo calcolare la probabilit`a che k1 Sn k2 , per n sufficientemente
grande, possiamo scrivere:


Sn n p
k2 n p
k1 n p


=
P (k1 Sn k2 ) = P
n
p
q
n
p
q
n
p
q




k2 n p
k1 n p
=G
G
,
npq
npq
cio`e ritroviamo il teorema di de Moivre-Laplace (cfr. 2.4.3) nella forma integrale, che
adesso possiamo riguardare come una semplice applicazione del teorema limite fondamentale alla somma di n variabili aleatorie bernoulliane.

Come accennato precedentemente, e` possibile anche fornire una formulazione locale del
teorema limite fondamentale. Nelle stesse ipotesi gi`a enunciate per la formulazione
integrale, con in piu` lassunzione che le variabili aleatorie X1 , X2 , . . . , Xn siano continue,
si puo` mostrare che la variabile aleatoria Zn ha, per n , ha la pdf di una variabile
aleatoria Z N(0, 1) (normale standard), ovvero:
x2
1
lim fZn (x) = e 2
n
2

Per variabili aleatorie discrete, la pdf e` una somma di impulsi di Dirac, per cui
non puo` convergere ad una pdf ordinaria, qual e` la distribuzione gaussiana. Tuttavia, per variabili aleatorie discrete di tipo reticolare, che assumono cio`e i valori a + bk,
con a, b R e k K Z, vale un risultato molto interessante. Infatti, osserviamo
che se X1 , X2 , . . . , Xn sono variabili aleatorie di tipo reticolare, anche la loro somma

Sn = nk=1 Xk e` di tipo reticolare, in quanto puo` assumere i valori n a + b k. Nellipotesi che le X1 , X2 , . . . , Xn siano statisticamente indipendenti, con medie k = E(Xk ) e


varianze Var(Xk ) = k2 < , posto  E(Sn ) = nk=1 k e 2  Var(Sn ) = nk=1 k2 , si
ha:
1
2
1
lim P (Sn = a + b k) = e 2 2 (a+b k)
n
2

(8.16)

per cui in pratica la DF, nei punti x = a + b k, puo` essere approssimata dai campioni di
una pdf gaussiana, avente media e varianza uguali a quelle di X.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

190

Vettori di variabili aleatorie


 Esempio 8.7. Il risultato precedente puo` essere applicato al caso della somma Sn di
n variabili aleatorie iid bernoulliane Xk Bern(p). Tale somma ha una distribuzione
binomiale, che e` di tipo reticolare, in quanto assume i valori {0, 1, . . . , n}. Poich`e si ha
E(Sn ) = n p e Var(Sn ) = n p q, la (8.16) si scrive:
lim P (Sn = k) =

(knp)2
1
e 2npq
2 n p q

che esprime proprio il teorema di de Moivre-Laplace nella forma locale (cfr. equazione
(2.7)).

In conclusione, qualche considerazione critica dellutilit`a pratica del teorema limite fondamentale. In primo luogo, notiamo che la bont`a dellapprossimazione gaussiana, per
n finito, non e` quantificabile a priori, e dipende criticamente dalla distribuzione delle
variabili aleatorie X1 , X2 , . . . , Xn . Cio` nonostante, nel passato anche recente il teorema
limite fondamentale era ampiamente utilizzato nelle applicazioni, in quanto il calcolo della pdf di un gran numero di variabili aleatorie risultava un problema matematicamente poco trattabile. Al giorno doggi, la disponibilit`a di calcolatori sempre piu`
veloci ha reso tale problema relativamente semplice da affrontare con tecniche numeriche, per cui lutilit`a pratica del teorema limite fondamentale e` diminuita. Tuttavia, per
motivi teorici, esso resta uno dei risultati piu` importanti e noti dellintera teoria della
probabilit`a.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 9
Distribuzioni e medie condizionali
9.1

Introduzione

La CDF, sia essa di una singola variabile aleatoria, di una coppia di variabili aleatorie, o
piu` in generale di un vettore di variabili aleatorie, rappresenta in ultima analisi la probabilit`a di un evento, semplice o composto. Poich`e la probabilit`a condizionale definita
nel capitolo 2 e` una valida legge di probabilit`a, ci chiediamo se sia possibile definire
valide CDF anche in termini di probabilit`a condizionali. La risposta e` affermativa, e
conduce allintroduzione delle cosiddette distribuzioni condizionali (CDF, pdf e DF). Tali
distribuzioni condizionali1 consentono di approfondire le relazioni esistenti tra variabili
aleatorie ed eventi dello spazio campione su cui sono definite, nonche le relazioni esistenti tra le variabili aleatorie stesse. Ovviamente, a tali distribuzioni condizionali sono
associati i corrispondenti momenti, cosiddetti momenti condizionali, la cui definizione si
basa sul concetto fondamentale di media condizionale.

9.2

Distribuzioni condizionali per una variabile aleatoria

9.2.1 Funzione di distribuzione cumulativa (CDF) condizionale


Iniziamo col considerare il caso di una singola variabile aleatoria X. Ricordiamo che
dati due eventi A e B, con P (B) = 0, la probabilit`a condizionale di A dato B (cfr. 2.2)
si definisce come:
P (A|B) =

P (AB)
.
P (B)

Scegliendo allora A = {X x} e B qualsiasi, con P (B) = 0, possiamo definire la CDF


condizionale di X dato un evento B.
1

Si usa indifferentemente la terminologia distribuzioni condizionali o condizionate.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

192

Distribuzioni e medie condizionali


F(x|B)

f(x|B)
area =1/3

1
2/3
1/3
20

40

60

Fig. 9.1. La CDF condizionale F (x|B) della


variabile aleatoria dellesempio 9.1.

20

40

60

Fig. 9.2. La pdf condizionale f (x|B) della


variabile aleatoria dellesempio 9.1.

Definizione (CDF condizionale di una variabile aleatoria). Sia X una variabile aleatoria definita su uno spazio di probabilit`a (, B, P ), e sia B un evento
di , con P (B) = 0. La CDF condizionale di X dato levento B e` :
F (x|B)  P (X x|B) =

P (X x, B)
.
P (B)

Osserviamo subito che, poiche la probabilit`a condizionale e` una valida legge di probabilit`a, ne consegue che la CDF condizionale e` una valida CDF, e pertanto gode di tutte le
propriet`a caratteristiche della CDF di una variabile aleatoria (cfr. 3.2.1). In particolare,
essa e` una funzione continua da destra, e si ha:
1. F (+|B) = 1, F (|B) = 0;
2. P (x1 < X x2 |B) = F (x2 |B) F (x1 |B) =

P (x1 < X x2 , B)
.
P (B)

Per denotare che la CDF condizionale di una variabile aleatoria, dato B, e` F (x|B), si
scrive X|B F (x|B).
 Esempio 9.1. Consideriamo lo spazio = {1 , 2 , . . . , 6 } (lancio di un dado) e la
variabile aleatoria
X(i ) = 10 i ,
che abbiamo gi`a considerato nellesempio 3.7. Sia B = {pari} = {2 , 4 , 6 } e calcolia-

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.2 Distribuzioni condizionali per una variabile aleatoria

193

mo la F (x|B). Si ha:
x < 20 {X x} B = F (x|B) = 0 ;
1/6
= 1/3 ;
1/2
1/3
40 x < 60 {X x} B = {2 , 4 } F (x|B) =
= 2/3 ;
1/2
1/2
x 60 {X x} B = {2 , 4 , 6 } F (x|B) =
=1;
1/2

20 x < 40 {X x} B = {2 } F (x|B) =

per cui la CDF condizionale F (x|B) e` costante a tratti ed e` mostrata in Fig. 9.1.

9.2.2 Funzione densit`a di probabilit`a (pdf) condizionale


In maniera naturale, passiamo ora a definire la pdf condizionale di una variabile aleatoria
X dato un evento B.
Definizione (pdf condizionale di una variabile aleatoria). Sia X una variabile aleatoria definita su uno spazio di probabilit`a (, B, P ), e sia B un evento di
, con P (B) = 0. La pdf condizionale di X dato levento B e` la derivata (in senso
generalizzato) di F (x|B) rispetto a x:
f (x|B) 

d
F (x|B) .
dx

Valgono per la pdf condizionale considerazioni analoghe a quelle per la CDF condizionale: poich`e essa e` a tutti gli effetti una pdf, gode di tutte le propriet`a della pdf (cfr.
3.3.1). In particolare, essa gode della propriet`a di normalizzazione, cio`e si ha

f (x|B) dx = 1 .

 Esempio 9.2. Consideriamo la CDF condizionale dellesempio 9.1. Poiche la CDF ha


un andamento costante a tratti, la pdf condizionale sar`a puramente impulsiva, ed e` data
da:
f (x|B) =

1
1
1
(x 20) + (x 40) + (x 60) ,
3
3
3

che e` rappresentata in Fig. 9.2.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

194

Distribuzioni e medie condizionali


p(x|B)

1/3

20

40

60

Fig. 9.3. La DF condizionale p(x|B) della


variabile aleatoria dellesempio 9.1.

9.2.3 Funzione distribuzione di probabilit`a (DF) condizionale


Infine, per variabili aleatorie discrete e` utile definire la DF condizionale.
Definizione (DF condizionale di una variabile aleatoria). Sia X una variabile aleatoria discreta definita su uno spazio di probabilit`a (, B, P ) e a valori in
X, e sia B un evento di , con P (B) = 0. La DF condizionale di X dato levento
B e`
p(x|B)  P (X = x|B) ,
con x X.
Anche la DF condizionale, essendo una valida DF, gode delle propriet`a caratteristiche
della DF (cfr. 3.4).
 Esempio 9.3. Riprendiamo lesempio 9.1: poich`e X e` una variabile aleatoria discreta,
risulta piu` immediato calcolare, in luogo della CDF condizionale, la DF condizionale:
P (X = x, B)
P (X = x, B)
=
.
P (B)
1/2

p(x|B) = P (X = x|B) =

La variabile aleatoria X assume valori in X = {10, 20, 30, 40, 50, 60}; si verifica immediatamente che per x = 10, 30, 50 (corrispondenti a risultati dispari dellesperimento)
risulta P (X = x, B) = 0, mentre per x = 20, 40, 60 (corrispondenti a risultati pari) si ha:
P (X = x, B) = P (X = x) =
e quindi in definitiva la DF cercata e` :
p(x|B) =

1
3

,
0,

1
,
6

x = 20, 40, 60;


altrimenti,

che e` rappresentata in Fig. 9.3.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.2 Distribuzioni condizionali per una variabile aleatoria


Osserviamo che, per determinare la CDF, la pdf o la DF condizionale, dobbiamo in genere conoscere in dettaglio lesperimento su cui e` costruita la variabile aleatoria. Tuttavia,
abbiamo osservato che in molti casi si assegna una variabile aleatoria X attraverso la sua
CDF, pdf o DF, senza descrivere esplicitamente lesperimento probabilistico sul quale la
variabile aleatoria e` definita. Diventa allora particolarmente interessante il caso in cui
levento B possa essere espresso esso stesso in termini della variabile aleatoria X. Cio`
accade se, ad esempio, B = {X a}, con a R. In casi del genere, e` sufficiente la conoscenza della sola CDF F (x) (o della sola pdf o DF) di X per calcolare le corrispondenti
distribuzioni condizionali, e non occorre quindi conoscere lesperimento probabilistico.
Approfondiamo meglio questo concetto negli esempi che seguono.
 Esempio 9.4. Sia X una variabile aleatoria con CDF F (x) (supposta continua) e sia
B = {X a}. Si ha:
F (x|B) = P {X x|X a} =

P {X x, X a}
.
P {X a}

Se x a, allora {X x, X a} = {X a} e quindi
F (x|B) =

P {X a}
=1.
P {X a}

Viceversa, se x < a, allora {X x, X a} = {X x}, e quindi


F (x|B) =
In definitiva, allora

P {X x}
F (x)
=
.
P {X a}
F (a)

F (x) , x < a ;
F (x|X a) = F (a)

1,
xa.

Derivando, si ottiene la pdf

f (x) , x < a ;
f (x|X a) = F (a)

0,
xa.

Notiamo che nella derivazione il punto x = a potrebbe essere punto di discontinuit`a


per la F (x|B), e quindi potrebbe comparire un impulso di Dirac in x = a. Tuttavia,
calcolando i limiti da sinistra e da destra della F (x|B) nel punto x = a, si ha:
F (a |B) =

1
F (a ) = 1 = F (a+ |B)
F (a)

per lipotesi di continuit`a di F (x). Pertanto, F (x|B) e` continua e quindi la pdf condizionale non contiene impulsi. Piu` in generale, bisogna applicare qualche cautela nella
derivazione, per non ignorare possibili discontinuit`a della CDF.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

195

196

Distribuzioni e medie condizionali


 Esempio 9.5. Sia X una variabile aleatoria con CDF F (x) (supposta continua), e sia
B = {a < X b}. Si ha:
F (x|B) = P (X x|a < X b) =

P (X x, a < X b)
.
P (a < X b)

Se x > b, allora {X x, a < X b} = {a < X b} e quindi


F (x|B) =

P (a < X b)
=1.
P (a < X b)

Se a < x b, allora {X x, a < X b} = {a < X x}, e quindi


F (x|B) =

F (x) F (a)
P (a < X x)
=
.
P (a < X b)
F (b) F (a)

Infine, se x a, allora {X x, a < X b} = {}, e quindi


F (x|B) = 0 .
In definitiva, allora:

F (x|a < X b) =

0,

F (x)F (a)
,
F (b)F (a)

1,

xa;
a<xb;
x>b.

Derivando, si ottiene la pdf:

f (x|a < X b) =

0,

f (x)
,
F
(b)F
(a)

0,

xa;
a<xb;
x>b.

Anche qui, i punti x = a e x = b potrebbero essere di discontinuit`a per la CDF condizionale. Tuttavia, nellipotesi che F (x) sia continua, e` facile verificare che anche F (x|B) lo

e` , e quindi nella pdf condizionale non compaiono impulsi di Dirac.2

In realt`a, calcolando i limiti da destra, si pu`o facilmente verificare che la CDF condizionale e` continua in x = a anche se la variabile aleatoria X non e` continua; viceversa, lipotesi di X continua e`
indispensabile per garantire la continuit`a in x = b.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.2 Distribuzioni condizionali per una variabile aleatoria

9.2.4 Teorema della probabilit`a totale per CDF, pdf, DF


Poich`e le CDF, pdf e DF condizionali si definiscono a partire dalla probabilit`a condizionale, tutta una serie di relazioni e teoremi (probabilit`a totale, Bayes, probabilit`a a
posteriori) visti per le probabilit`a condizionali si possono estendere anche alle CDF, pdf
e DF di variabili aleatorie. Ad esempio, ricordiamo che per il teorema della probabilit`a
totale (vedi 2.2.3) si ha:
P (B) =

n


P (B|Ai ) P (Ai ) .

i=1

Scegliendo allora B = {X x}, si ha P (B) = P (X x) = F (x) e P (B|Ai ) = P (X


x|Ai ) = F (x|Ai ), per cui si ottiene il teorema della probabilit`a totale per la CDF:
F (x) =

n


F (x|Ai ) P (Ai ) ,

i=1

e, derivando, si ottiene il teorema della probabilit`a totale per la pdf:


f (x) =

n


f (x|Ai ) P (Ai ) .

i=1

Se X e` una variabile aleatoria discreta, e` possibile considerare direttamente B = {X =


x}, ottenendo quindi il teorema della probabilit`a totale per la DF:
p(x) =

n


p(x|Ai ) P (Ai ) .

i=1

 Esempio 9.6 (variabili aleatorie di tipo mixture). Supponiamo di voler modellare la seguente situazione: abbiamo una famiglia di dispositivi, che possono essere suddivisi
in due classi: la classe A1 rappresenta dispositivi a bassa affidabilit`a, mentre la classe
A2 = A1 rappresenta dispositivi ad alta affidabilit`a. Supponiamo che il tempo di vita
dei dispositivi appartenenti alla prima classe sia modellabile come una variabile aleatoria X|A1 Exp(1 ), mentre il tempo di vita dei dispositivi appartenenti alla seconda
classe sia modellabile come una variabile aleatoria X|A2 Exp(2 ). Poich`e la media
di una variabile aleatoria X Exp() e` pari a 1/, allora deve risultare 1/1 < 1/2 , e
quindi 1 > 2 , perche abbiamo supposto che la classe A1 abbia affidabilit`a piu` bassa.
La variabile aleatoria X che descrive il tempo di vita (laffidabilit`a) di un qualunque dispositivo scelto a caso tra quelli appartenenti alle due classi ha una pdf di tipo
mixture, che si puo` calcolare applicando il teorema della probabilit`a totale. Infatti,
se denotiamo con p = P (A1 ) la probabilit`a che un dispositivo appartenga alla prima

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

197

198

Distribuzioni e medie condizionali


classe, e con q = 1 p la probabilit`a che un dispositivo appartenga alla seconda classe,
si ha:
F (x) = F (x|A1 ) P (A1 ) + F (x|A2 ) P (A2 ) .
Poich`e
F (x|A1 ) = (1 e1 x ) u(x) ;
F (x|A2 ) = (1 e2 x ) u(x) ;
allora si ha:
F (x) = [(1 e1 x )p + (1 e2 x )(1 p)] u(x) ,
e derivando
f (x) = [1 e1 x p + 2 e2 x (1 p)] u(x) .
Abbiamo ottenuto in questo modo una variabile aleatoria di tipo mixture (vedi 3.5.2)
con = p.
Linterpretazione della variabile aleatoria di tipo mixture fornita da questo esempio
suggerisce anche una strategia per la sua generazione. Infatti, se per generare una variabile aleatoria del tipo precedentemente visto, e` sufficiente avere due generatori, uno
per X|A1 Exp(1 ) ed un altro per X|A2 Exp(2 ), e scegliere luscita di un generatore oppure di un altro in accordo con i valori di una terza variabile aleatoria binaria, che
assume il valore 1 con probabilit`a p ed il valore 2 con probabilit`a q = 1 p.


9.2.5 Probabilit`a a posteriori di un evento


Unaltra relazione utile e` quella che calcola la probabilit`a a posteriori di un evento in
termini di CDF condizionale. Partiamo dallidentit`a
P (A|B) =

P (B|A) P (A)
,
P (B)

valida per P (B) = 0. Scegliendo B = {X x}, possiamo scrivere:


P (A|X x) =

P (X x|A) P (A)
F (x|A)
=
P (A) .
P (X x)
F (x)

Questa relazione si interpreta come la probabilit`a a posteriori dellevento A, sapendo che


il valore della variabile aleatoria X e` minore o uguale ad un certo numero x. La denominazione di probabilit`a a posteriori per P (A|X x) e` utilizzata per contrasto con la

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.2 Distribuzioni condizionali per una variabile aleatoria

199

probabilit`a P (A), denominata probabilit`a a priori. In altri termini, a priori sappiamo che la probabilit`a di A e` pari a P (A), poi veniamo a conoscenza del fatto che X x,
per cui a posteriori calcoliamo la probabilit`a P (A|X x). Si osservi che tale probabilit`a a posteriori e` maggiore, uguale o minore alla probabilit`a a priori, in dipendenza del
fatto che il rapporto tra la CDF condizionale F (x|A) e la CDF F (x) sia maggiore, uguale,
o minore dellunit`a.
In maniera analoga, se scegliamo B = {x1 < X x2 }, si ha:
P (A|x1 < X x2 ) =

P (x1 < X x2 |A) P (A)


F (x2 |A) F (x1 |A)
=
P (A) ,
P (x1 < X x2 )
F (x2 ) F (x1 )

(9.1)

che si interpreta come la probabilit`a a posteriori dellevento A sapendo che il valore della
variabile aleatoria X e` compreso nellintervallo (aperto a sinistra) ]x1 , x2 ]. Gli esempi
precedenti si possono estendere facilmente al caso in cui B e` un qualunque evento (con
P (B) = 0) che puo` essere espresso in termini della variabile aleatoria X.

9.2.6 Probabilit`a a posteriori dato X = x


Notiamo che se la variabile aleatoria X e` discreta possiamo senza difficolt`a estendere il
calcolo della probabilit`a a posteriori effettuato nel precedente paragrafo al caso in cui
B = {X = x}, in quanto P (B) = 0. Si ha in tal caso:
P (A|X = x) =

P (X = x|A) P (A)
p(x|A)
=
P (A) ,
P (X = x)
p(x)

(9.2)

ovvero tale probabilit`a a posteriori si esprime in termini del rapporto tra la DF condizionale p(x|A) e la DF p(x). Se invece X e` una variabile aleatoria continua, sappiamo che
P (X = x) = 0, e quindi non possiamo procedere direttamente come nel caso precedente,
in quanto il denominatore della (9.2) si annulla. Daltra parte, si ha anche:
P (X = x|A) =

P ({X = x} A)
=0,
P (A)

perche {X = x} A {X = x} e quindi P ({X = x} A) P ({X = x}) = 0. In


sostanza, nella (9.2) sia il numeratore che il denominatore sono nulli, per cui P (A|X = x)
si presenta in forma indeterminata, e puo` darsi che il risultato esista lo stesso finito al
limite. Supponiamo allora che X sia continua, e procediamo ponendo
P (A|X = x)  lim P (A|x < X x + x) .
x0

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

200

Distribuzioni e medie condizionali


Possiamo calcolare facilmente tale probabilit`a, in quanto e` del tipo (9.1) con x1 = x e
x2 = x + x. Si ha:
P (x < X x + x|A) P (A)
P (x < X x + x)
F (x + x|A) F (x|A)
P (A)
=
F (x + x) F (x)
[F (x + x|A) F (x|A)]/x
=
P (A) ,
[F (x + x) F (x)]/x

P (A|x < X x + x) =

da cui, al limite per x 0, e ricordando la definizione di pdf e di pdf condizionale


dato A, si ottiene la relazione cercata:
P (A|X = x) =

f (x|A)
P (A) ,
f (x)

(9.3)

che costituisce una generalizzazione della (9.2) al caso di variabili aleatorie continue.
 Esempio 9.7 (test di ipotesi). Come esempio di applicazione della precedente relazione,
riprendiamo lesempio 9.6. Supponiamo di voler valutare, osservato un valore della variabile aleatoria mixture X, se sia piu` probabile che si sia verificato levento A1 oppure
A2 . Ad esempio, se X rappresenta il tempo di vita di un dispositivo, e A1 e A2 = A1
rappresentano due classi di affidabilit`a, vogliamo determinare, osservato che il dispositivo in esame ha vissuto un tempo X = x, a quale classe sia piu` probabile il dispositivo appartenga. Questo equivale a valutare quale delle due quantit`a P (A1 |X = x) e
P (A2 |X = x) sia la piu` grande, il che si puo` formalizzare come un test di ipotesi:
A1

>
P (A1 |X = x) < P (A2 |X = x) ,
A2

che si interpreta nel modo seguente: se il primo membro e` maggiore del secondo, allora
diremo che levento A1 e` piu` probabile, per cui sceglieremo lipotesi il componente
appartiene alla classe A1 , viceversa se il primo membro e` minore del secondo. Poiche
tale test sceglie lipotesi che ha probabilit`a a posteriori maggiore, esso prende il nome di
test a massima probabilit`a a posteriori (MAP). Applicando la (9.3), tale test si puo` scrivere
come segue:
A1

f (x|A1 )
> f (x|A2 )
P (A1 ) <
P (A2 ) ,
f (x)
f (x)
A2
e semplificando un termine f (x) > 0 in ambo i membri, si ha:
A1

>
f (x|A1 ) P (A1 ) < f (x|A2 ) P (A2 ) .
A2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.2 Distribuzioni condizionali per una variabile aleatoria

201

Se si suppone poi che gli eventi A1 e A2 siano equiprobabili, il test MAP si semplifica
ulteriormente:
A1

>
f (x|A1 ) < f (x|A2 ) .
A2

Tale test prende il nome di test a massima verosimiglianza (ML), e la funzione f (x|A1 )
prende il nome di funzione di verosimiglianza dellevento A1 . Pertanto il test ML si ottiene
come particolarizzazione del test MAP nel caso di ipotesi equiprobabili.
Sostituendo le pdf condizionali di tipo esponenziale (cfr. esempio 9.6), il test si puo`
scrivere nella forma esplicita
A1
1 x

1 e

>
2 x
,
< 2 e

A2

che, nel caso 1 > 2 (corrispondente al caso in cui A1 sia la classe a piu` bassa affidabilit`a
rispetto a A2 ), puo` essere posto nella forma:
A1

1 >
1
ln
x.
1 2 2 A<2
Notiamo che nelle ipotesi fatte il primo membro e` positivo. Osserviamo che il test si
1
ln 12 ;
riduce a confrontare il tempo di vita osservato x con una soglia positiva = 1
2
se il tempo di vita e` inferiore a tale soglia, si dichiara che il dispositivo appartiene alla
classe A1 a piu` bassa affidabilit`a; viceversa, se il tempo di vita e` superiore a tale soglia,
si dichiara che il dispositivo appartiene alla classe A2 a piu` alta affidabilit`a. Il risultato
pare intuitivamente accettabile, meno intuitiva e` lespressione della soglia che abbiamo
ricavato. Se il tempo di vita e` esattamente uguale alla soglia (il che peraltro accade,
essendo X una variabile aleatoria continua, con probabilit`a zero), scegliere unipotesi
oppure unaltra e` indifferente (le due ipotesi hanno la stessa probabilit`a a posteriori). 

9.2.7 Teorema della probabilit`a totale (versione continua)


Sulla base della (9.3), possiamo a questo punto ottenere una generalizzazione del teorema della probabilit`a totale visto al 2.2.3. Si riscriva infatti la (9.3) nella forma:
f (x|A) P (A) = P (A|X = x) f (x) .
Poich`e f (x|A) e` una valida pdf, allora avr`a area unitaria:

f (x|A) dx = 1 ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(9.4)

202

Distribuzioni e medie condizionali


per cui, integrando membro a membro la (9.4), si ha:

P (A|X = x)f (x) dx .
P (A) =

(9.5)

Questa relazione rappresenta una versione continua del teorema della probabilit`a totale

P (A) = i P (A|Bi ) P (Bi ), nella quale gli eventi condizionanti sono del tipo {X = x} e
costituiscono una infinit`a continua (e non finita o numerabile).

9.2.8 Teorema di Bayes per le pdf


Come ultima relazione utile, introduciamo una relazione per le pdf affine a quella di
Bayes. Dalla (9.3), si ottiene:
f (x|A) =

P (A|X = x)
f (x) ,
P (A)

per cui, sostituendo a P (A) il valore dato dalla (9.5) si ha:


P (A|X = x)f (x)
,
P
(A|X
=
x)f
(x)dx

f (x|A) = 

che rappresenta una sorta di teorema di Bayes per le pdf.

9.3

Distribuzioni condizionali per coppie di variabili aleatorie

Analogamente a quanto fatto nel paragrafo precedente per il caso di una variabile aleatoria, e` possibile definire distribuzioni condizionali (CDF, pdf e DF) anche per una coppia di variabili aleatorie. Ad esempio, date due variabili aleatorie (X, Y ) ed un evento
B con P (B) = 0, possiamo definire la CDF condizionale di (X, Y ) dato B.
Definizione (CDF condizionale di una coppia di variabili aleatorie). Siano
(X, Y ) una coppia di variabili aleatorie definite su uno spazio di probabilit`a
(, B, P ), e sia B B un evento di , con P (B) = 0. La CDF condizionale di
(X, Y ) dato levento B e` :
FXY (x, y|B)  P (X x, Y y|B) =

P (X x, Y y, B)
.
P (B)

La corrispondente pdf condizionale si ricava per derivazione dalla CDF, ed e` :


fXY (x, y|B) 

2
FXY (x, y|B) .
x y

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.3 Distribuzioni condizionali per coppie di variabili aleatorie


Se le variabili aleatorie X ed Y sono discrete, a valori in X e Y, rispettivamente, e` utile
definire la DF condizionale di (X, Y ) dato B:
pXY (x, y|B)  P (X = x, Y = y|B) =

P (X = x, Y = y, B)
,
P (B)

con (x, y) X Y.
 Esempio 9.8. Come per il caso di una singola variabile aleatoria, il calcolo della CDF
condizionale e` particolarmente semplice se levento B si esprime in funzione delle variabili aleatorie (X, Y ) o di una di esse. Supponiamo, ad esempio, che B = {X a}, con
a numero reale (cfr. esempio 9.4 per un calcolo simile per il caso di una singola variabile
aleatoria). Si ha:
FXY (x, y|B)  P (X x, Y y|B) =

P (X x, Y y, X a)
.
P (X a)

Se x < a, si ha che {X x, Y y, X a} = {X x, Y y}, per cui:


FXY (x, y|B) 

FXY (x, y)
;
FX (a)

mentre se x a si ha che {X x, Y y, X a} = {X a, Y y}, per cui:


FXY (x, y|B) 

FXY (a, y)
.
FX (a)

Calcolando la derivata mista rispetto ad x ed y (escludiamo la presenza di impulsi) si


ottiene la pdf condizionale:

fXY (x, y) , x < a ;


FX (a)
fXY (x, y|B) =

0,
xa.
Verifichiamo che la precedente e` una valida pdf, osservando se e` soddisfatta la condizione di normalizzazione. Si ha:
  a
 
1
fXY (x, y|B) dx dy =
fXY (x, y) dx dy
FX (a)

1
=
FXY (a, +) = 1 ,
FX (a)
dove abbiamo sfruttato la (6.2) e la relazione tra CDF congiunte e marginali, in accordo
alla quale FXY (a, +) = FX (a).


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

203

204

Distribuzioni e medie condizionali


 Esempio 9.9. Consideriamo adesso il caso in cui B = {a < X b} (cfr. esempio 9.5
per un calcolo simile per il caso di una singola variabile aleatoria). Si ha:
FXY (x, y|B) = P (X x, Y y|a < X b) =

P (X x, Y y, a < X b)
.
P (a < X b)

Se x > b, allora {X x, Y y, a < X b} = {a < X b, Y y}, e quindi


FXY (x, y|B) =

FXY (b, y) FXY (a, y)


P (a < X b, Y y)
=
.
P (a < X b)
FX (b) FX (a)

Se a < x b, allora {X x, Y y, a < X b} = {a < X x, Y y}, e quindi


FXY (x, y|B) =

P (a < X x, Y y)
FXY (x, y) FXY (a, y)
=
.
P (a < X b)
FX (b) FX (a)

Infine, se x a, allora {X x, Y y, a < X b} = {}, e quindi


FXY (x, y|B) = 0 .
In definitiva, allora:
FXY (x, y|a < X b) =

0,

FXY (x,y)FXY (a,y)


,
FX (b)FX (a)

FXY (b,y)FXY (a,y)


,
FX (b)FX (a)

xa;
a<xb;
x>b.

Calcolando la derivata mista rispetto ad x e ad y, si ottiene la corrispondente pdf:

xa;
0,
fXY (x,y)
fXY (x, y|a < X b) = FX (b)FX (a) , a < x b ;

0,
x>b.
Anche in questo caso, verifichiamo che la condizione di normalizzazione delle pdf sia
soddisfatta. Si ha:
 b 
 
fXY (x, y)
dy
fXY (x, y|a < X b) dx dy =
dx

a
FX (b) FX (a)
 b 
1
=
dx
fXY (x, y) dy
FX (b) FX (a) a

 b
1
=
fX (x) dx = 1 ,
FX (b) FX (a) a
dove abbiamo sfruttato la relazione tra pdf congiunte e marginali e le propriet`a della
pdf.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.3 Distribuzioni condizionali per coppie di variabili aleatorie

205

9.3.1 Distribuzioni condizionali dato X = x ed Y = y


Consideriamo ora il caso particolarmente interessante in cui levento condizionante e`
B = {X = x}, che non puo` rientrare come caso particolare delle precedenti definizioni,
in quanto, se X e` una variabile aleatoria continua, allora risulta P (B) = 0. Lobiettivo e`
calcolare le distribuzioni condizionali di Y dato B = {X = x}, per capire come si modifica la distribuzione marginale di Y se fissiamo un valore X = x di unaltra variabile
aleatoria; ad esempio, come si modifica la distribuzione del peso Y di una persona se
conosciamo la sua altezza X. Per aggirare il problema insito nellannullamento di P (B),
procediamo al limite, ponendo per definizione:
FY (y|X = x)  lim P (Y y|x < X x + x) .
x0

Si trova:
FY (y|X = x) =

FXY (x, y) .
fX (x) x

(9.6)

Prova. Si ha:
P (Y y|x < X x + x) =

FXY (x + x, y) FXY (x, y)


P (Y y, x < X x + x)
=
,
P (x < X x + x)
FX (x + x) FX (x)

da cui, dividendo numeratore e denominatore per x e passando al limite per x 0, si ha lasserto. 

Scambiando i ruoli di X ed Y , si ottiene la relazione simmetrica:


FX (x|Y = y) =

FXY (x, y) .
fY (y) y

(9.7)

Particolarmente interessante e` lespressione delle pdf condizionali, che si ottengono derivando la (9.6) rispetto a y e la (9.7) rispetto ad x. Si ha, infatti:
fY (y|X = x) =

1
fXY (x, y)
2
FY (y|X = x) =
FXY (x, y) =
,
y
fX (x) y x
fX (x)

e similmente:
fX (x|Y = y) =

fXY (x, y)
.
fY (y)

Spesso le relazioni precedenti si esprimono, in forma piu` sintetica, come:


fXY (x, y)
;
fY (y)
fXY (x, y)
fY (y|x) =
.
fX (x)

fX (x|y) =

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(9.8)
(9.9)

206

Distribuzioni e medie condizionali


Si noti laffinit`a formale tra tali relazioni e la definizione (2.1) di probabilit`a condizionale. Ricordiamo, inoltre, che fX (x|y) e` una pdf monodimensionale vista come funzione
di x, ma non di y, per cui risulta verificata la condizione di normalizzazione in x:

fX (x|y) dx = 1 ,

ma il corrispondente integrale in dy non e` unitario. Analogo discorso, scambiando i


ruoli di x ed y, vale per fY (y|x). Notiamo poi che, per denotare che fY (y|x) e` la pdf
condizionale di Y dato {X = x}, si usa la notazione sintetica Y |x fY (y|x).
Osserviamo infine che se X ed Y sono statisticamente indipendenti, la fattorizzazione fXY (x, y) = fX (x) fY (y) della pdf congiunta implica che
fX (x|y) = fX (x) ,
fY (y|x) = fY (y) ,
ovvero la pdf condizionale e` uguale a quella marginale (levento {X = x} non modifica
la pdf di Y , e simmetricamente levento {Y = y} non modifica la pdf di X).
Data la somiglianza formale tra lespressione delle pdf condizionali e la definizione
di probabilit`a condizionale, non sorprende che alcuni teoremi tipici della probabilit`a
condizionale abbiano una loro controparte per le pdf condizionali. Ad esempio, sulla
base della definizione, la pdf congiunta ammette due distinte fattorizzazioni in termini
di pdf condizionali:
fXY (x, y) = fX (x|y) fY (y) = fY (y|x) fX (x) ,

(9.10)

che e` una relazione simile alla legge della probabilit`a composta (2.2). Utilizzando la relazione tra statistiche congiunte e marginali, si ha poi:


fY (y) =
fXY (x, y) dx =
fY (y|x) fX (x) dx ,
(9.11)

che e` una relazione analoga al teorema della probabilit`a totale (cfr. teorema 2.1, capitolo
2) e generalizza il teorema della probabilit`a totale per le pdf (cfr. 9.2) al caso in cui
gli eventi condizionanti siano una infinit`a continua. Per questo motivo, tale relazione
costituisce una versione continua del teorema della probabilit`a totale per le pdf. Infine,
combinando la legge della probabilit`a composta (9.10) e quella della probabilit`a totale
(9.11), possiamo ottenere la relazione
fX (x|y) =

fY (y|x) fX (x)
fY (y|x) fX (x)
= 
fY (y)
f (y|x) fX (x) dx
Y

(9.12)

che consente di esprimere una pdf condizionale in funzione dellaltra, ed e` una relazione
analoga al teorema di Bayes (cfr. teorema 2.2, capitolo 2).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.4 Distribuzioni condizionali per vettori di variabili aleatorie

207

 Esempio 9.10. Consideriamo il caso di una coppia di variabili aleatorie congiuntamente gaussiane (X, Y ) N(X , Y , X , Y , ), e calcoliamo le pdf condizionali fX (x|y) e
fY (y|x). Il risultato si ottiene semplicemente se ricordiamo la fattorizzazione della pdf
congiunta ricavata nellesempio 6.2, che si riporta di seguito per comodit`a del lettore:
$
%2 



12 (xX )2
2 1 2 yY Y (xX )
1
1
X
e 2X

fXY (x, y) =
.
e 2Y (1 )
2
X 2
Y 1 2
Infatti, poiche nellesempio 6.2 abbiamo dimostrato che il primo fattore rappresenta
la pdf marginale fX (x), allora il secondo fattore per la (9.10) deve necessariamente
rappresentare la pdf condizionale fY (y|x), ovvero si ha:
2 1 2
fXY (x, y)
1

=
fY (y|x) =
e 2Y (1 )
fX (x)
Y 1 2 2

yY Y (xX )

%2

Tale pdf (come funzione di y) ha ancora la forma gaussiana monodimensionale, con


parametri media e varianza che si identificano facilmente, per cui Y |x N(Y + XY (x

X ), Y 1 2 ), cio`e Y dato X = x e` condizionalmente gaussiana, con i parametri indicati
(dipendenti dal valore di y). In maniera simmetrica, si trova:
$

%2

2 1 2 xX X (yY )
fXY (x, y)
1
Y

,
=
fX (x|y) =
e 2X (1 )
fY (y)
X 1 2 2

per cui X|y N(X + XY (y Y ), X 1 2 ), per cui anche X, dato Y = y, e`
condizionalmente gaussiana, con i parametri indicati. In conclusione, possiamo affermare che variabili aleatorie (X, Y ) congiuntamente gaussiane sono anche marginalmente e
condizionalmente gaussiane.


9.4

Distribuzioni condizionali per vettori di variabili aleatorie

E` possibile generalizzare la definizione di distribuzioni condizionali introdotte per due


variabili aleatorie al caso di vettori di variabili aleatorie. Ad esempio, la definizione di
CDF congiunta delle variabili aleatorie X1 , X2 , . . . , Xn dato un evento B si generalizza
come segue.
Definizione (CDF condizionale di un vettore di variabili aleatorie). Siano
X1 , X2 , . . . , Xn n variabili aleatorie definite su uno spazio di probabilit`a
(, B, P ), e sia B B un evento di , con P (B) = 0. La CDF condizionale di
X1 , X2 , . . . , Xn dato levento B e` :
FX1 X2 Xn (x1 , x2 , . . . , xn |B)  P (X1 x1 , X2 x2 , . . . , Xn xn |B) .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

208

Distribuzioni e medie condizionali


La corrispondente pdf condizionale si ricava per derivazione della CDF condizionale.
Particolarmente interessante e` calcolare la pdf condizionale di X1 , X2 , . . . , Xk dati i
valori assunti da Xk+1 , Xk+2 , . . . , Xn , siano essi xk+1 , xk+2 , . . . , xn , che si ottiene generalizzando le (9.8) e (9.9):
fX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn ) 

fX1 X2 Xn (x1 , x2 , . . . , xn )
.
fXk+1 Xk+2 Xn (xk+1 xk+2 , . . . , xn )

Ovviamente tale funzione e` una pdf vista come funzione di x1 , x2 , . . . , xk , ed in particolare soddisfa la condizione di normalizzazione, per ogni (xk+1 , xk+2 , . . . , xn ):

 

fX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn ) dx1 dx2 dxk .

Il modo per costruire una qualunque pdf condizionale dovrebbe essere a questo punto
chiaro al lettore. Al numeratore va la pdf congiunta di tutte le variabili aleatorie in
gioco, al denominatore quella delle sole variabili aleatorie condizionanti.
 Esempio 9.11. Consideriamo il caso di quattro variabili aleatorie X1 , X2 , X3 , X4 , e calcoliamo esplicitamente alcune distribuzioni condizionali:
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
;
fX1 X3 X4 (x1 , x3 , x4 )
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
fX1 X2 (x1 , x2 |x3 , x4 ) =
;
fX3 X4 (x3 , x4 )
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
fX1 X2 X4 (x1 , x2 , x4 |x1 ) =
.
fX1 (x1 )
fX2 (x2 |x1 , x3 , x4 ) =


Le corrispondenti CDF condizionali si possono ottenere per integrazione, ad esempio si
ha:
FX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn ) =
 x1  x2
 xk
=

fX1 X2 Xk (u1 , u2 , . . . , uk |xk+1 , xk+2 , . . . , xn ) du1 du2 duk . (9.13)

Per variabili aleatorie discrete, e` possibile estendere in maniera analoga anche la definizione di DF condizionali.

9.4.1 Indipendenza condizionale e regola della catena per le pdf


Consideriamo il caso in cui le variabili aleatorie X1 , X2 , . . . Xk siano indipendenti dalle
variabili aleatorie Xk+1 , Xk+2 , . . . , Xn : evidentemente si ha:
fX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn ) = fX1 X2 Xk (x1 , x2 , . . . , xk )

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.5 Media condizionale e momenti condizionali


cio`e il condizionamento non opera. Avendo introdotto le CDF e pdf condizionali, possiamo anche introdurre il concetto di indipendenza condizionale tra le variabili aleatorie componenti il vettore X. Ad esempio, X1 ed X2 si diranno condizionalmente indipendenti, data una terza variabile X3 , se vale la seguente fattorizzazione della pdf
condizionale:
fX1 X2 (x1 , x2 |x3 ) = fX1 (x1 |x3 ) fX2 (x2 |x3 ) ,
che con semplici manipolazioni si puo` mostrare che implica le:
fX1 (x1 |x2 , x3 ) = fX1 (x1 |x3 ) ;
fX2 (x2 |x1 , x3 ) = fX2 (x2 |x3 ) ;
che si interpretano nel seguente modo: dato X3 = x3 , il condizionamento X2 = x2 o
X1 = x1 non opera. Il concetto di indipendenza condizionale si puo` estendere banalmente anche a gruppi di variabili aleatorie.
Una relazione interessante che scaturisce dalla definizione di pdf condizionale e` la
cosiddetta regola della catena per le pdf. Infatti, notiamo che, con successivi condizionamenti, la pdf congiunta di X si puo` fattorizzare nel prodotto di n pdf condizionali
monodimensionali, come:
fX1 X2 Xn (x1 , x2 , . . . , xn ) = fX1 (x1 ) fX2 X3 Xn (x2 , x3 , . . . , xn |x1 )
= fX1 (x1 ) fX2 (x2 |x1 ) fX3 Xn (x3 , . . . , xn |x1 , x2 )
= ...
= fX1 (x1 ) fX2 (x2 |x1 ) fX3 (x3 |x1 , x2 ) fXn (xn |x1 , x2 , . . . , xn ) .

9.5

Media condizionale e momenti condizionali

La definizione di media condizionale di una variabile aleatoria X, dato un evento B, e`


una semplice estensione dalla definizione di media di una variabile aleatoria, ottenuta
sostituendo alla pdf f (x) la pdf condizionale f (x|B).
Definizione (media condizionale di una variabile aleatoria). La media condizionale E(X|B) di una variabile aleatoria X con pdf condizionale f (x|B)
e` :

E(X|B) 
x f (x|B) dx ,

se tale integrale esiste finito.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

209

210

Distribuzioni e medie condizionali


 Esempio 9.12. Abbiamo gi`a visto (cfr. esempio 9.4) che se B = {X a}, allora:

f (x)
, x<a;
f (x|X a) = F (a)
0,
xa.
Pertanto, si ha:


f (x)
1
E(X|B) =
x
dx =
F (a)
F (a)

a
x f (x) dx = 
a

x f (x) dx

f (x) dx

.


Osserviamo che la media condizionale gode di tutte le propriet`a della media (cfr. 5.2):
in particolare ad essa si applica il teorema fondamentale della media. Infatti, se si vuole
calcolare la media condizionale di g(X) dato un evento B, si ha:

g(x) fX (x|B) dx ,
E[g(X)|B] =

mentre per variabili aleatorie discrete il teorema si puo` particolarizzare come:




E[g(X)|B] =
g(x) P (X = x|B) =
g(x) pX (x|B) ,
xX

xX

ovvero si esprime in termini della DF condizionale p(x|B) della variabile aleatoria X.


A partire dal teorema fondamentale della media, poi, e` possibile definire qualunque
momento condizionale: ad esempio, il valor quadratico medio condizionale e` dato da:

2
x2 f (x|B) dx ,
E(X |B) 

mentre la varianza condizionale si puo` esprimere facilmente in termini del valor quadratico medio condizionale e della media condizionale, come:
Var(X|B) = E(X 2 |B) E 2 (X|B) .
La definizione di media condizionale dato un evento B si estende naturalmente al
caso di coppie di variabili aleatorie e, piu` in generale, al caso di vettori di variabili aleatorie; basta sostituire alla pdf, nellintegrale che definisce la media, la pdf condizionale
dato B. Il teorema fondamentale della media si estende anche al caso in cui desideriamo calcolare la media condizionale di g(X, Y ) dato un evento B, e conosciamo la pdf
condizionale fXY (x, y|B). Si ha:
 
E[g(X, Y )|B] =
g(x, y) fXY (x, y|B) dx dy .
(9.14)

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.5 Media condizionale e momenti condizionali


Tale teorema consente di definire i momenti congiunti condizionali di una coppia di
variabili aleatorie, come la correlazione condizionale e la covarianza condizionale.
Infine, piu` in generale, nel caso in cui abbiamo un vettore X = [X1 , X2 , . . . , Xn ]T di
n variabili aleatorie, e vogliamo calcolare la media condizionale di g(X) dato un evento
B, conoscendo la pdf condizionale fX (x|B), si ha:

g(x) fX (x|B) dx .
E[g(X)|B] =
Rn

Anche in questo caso il teorema fondamentale della media consente di definire un


qualunque momento condizionale associato al vettore X.

9.5.1 Teorema della media condizionale


La media condizionale puo` essere calcolata anche per le pdf condizionali fX (x|y) e
fY (y|x) viste nel 9.3. Infatti, abbiamo visto che la pdf condizionale fY (y|x) rappresenta
la pdf di Y , per un fissato valore x della variabile aleatoria X. A tale pdf e` associato un
valor medio, che prende il nome di media condizionale di Y dato X = x.
Definizione (media condizionale di Y dato X = x). La media condizionale di
Y dato X = x e` :

E(Y |x) 
y fY (y|x) dy ,

se tale integrale esiste finito.


La definizione precedente si puo` estendere anche al caso in cui consideriamo una trasformazione g(Y ) di Y , e vogliamo calcolarne la media. Vale infatti anche in questo caso
il teorema fondamentale della media, per cui:

E[g(Y )|x] =
g(y) fY (y|x) dy .

Osserviamo che, per ogni fissato x, la media condizionale E[g(Y )|x] e` un numero; se
allora facciamo variare x, la media condizionale E[g(Y )|x] definisce una funzione (x)
di x. Possiamo allora costruire una variabile aleatoria Z = (X) = E[g(Y )|X] semplicemente associando ad ogni valore X = x il valore z = E[g(Y )|x]. Il calcolo della media
di Z rappresenta loggetto del seguente teorema della media condizionale.
Teorema 9.1 (media condizionale). Sia E[g(Y )|x] = (x) la media condizionale di g(Y )
dato X = x, e costruiamo la variabile aleatoria Z = (X) = E[g(Y )|X]. Si ha:
E[E(g(Y )|X)] = E[g(Y )] ,
se tale media esiste finita.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

211

212

Distribuzioni e medie condizionali


Prova. Con facili passaggi, si ha:

 

E[g(Y )|x] fX (x)dx =
g(y) fY (y|x) dy fX (x)dx =
E[E(g(Y )|X)] =





g(y) fY (y|x) fX (x) dx dy =
g(y) fXY (x, y) dx dy =
=






=
g(y)
fXY (x, y) dx dy =
g(y) fY (y) dy = E[g(Y )] ,

dove abbiamo applicato la legge della probabilit`a composta per le pdf e le relazioni tra statistiche con

giunte e marginali.

Il teorema si applica anche al caso in cui g(Y ) = Y , ed in questo caso assume una forma
particolarmente semplice:
E[E(Y |X)] = E(Y ) ,
secondo la quale la media di una variabile aleatoria Y , che dipende da unaltra variabile aleatoria X, si puo` calcolare prima fissando un valore di X = x, e calcolando la
media condizionale E(Y |x), e successivamente mediando tale risultato rispetto a tutti i
possibili valori di X.
 Esempio 9.13. Consideriamo il caso di due variabili aleatorie
 congiuntamente gausY
siane. Abbiamo osservato che Y |x N(Y + X (x X ), Y 1 2 ), per cui:
E(Y |x) = Y +

Y
(x X ) .
X

Si ha, pertanto, mediando su X:


E[E(Y |X)] = Y +

Y
E(X X ) = Y = E(Y ) ,


X

=0

come previsto dal teorema della media condizionale.

Il teorema della media condizionale si puo` generalizzare al caso di coppie di variabili


aleatorie, e precisamente si puo` applicare al calcolo della media di g(X, Y ). Supponiamo
infatti di fissare X = x e di voler calcolare la media condizionale E[g(X, Y )|X = x], che
possiamo denotare sinteticamente come E[g(X, Y )|x], essendo una funzione di x. Poich`e levento condizionante e` B = {X = x}, possiamo applicare il teorema fondamentale
della media (9.14)
 
E[g(X, Y )|x] =
g(u, v) fXY (u, v|x) du dv ,

dove fXY (u, v|x) denota sinteticamente fXY (u, v|X = x). Il calcolo di tale pdf pone,
tuttavia, qualche problema; infatti, potremmo pensare di ottenere fXY (u, v|x) sulla base

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.5 Media condizionale e momenti condizionali

213

del risultato dellesempio 9.9 che fornisce fXY (u, v|a < x b), ponendo a = x e b =
x + x, e facendo tendere x a zero. Si avrebbe (cfr. esempio 9.9):

ux;
0,
fXY (u,v)
fXY (u, v|x < X x + x) = FX (x+x)FX (x) , x < u x + x ;

0,
u > x + x .
Il problema e` che passando al limite per x 0 tale espressione diverge, in quanto
FX (x + x) FX (x) 0, per cui la pdf fXY (u, v|x < X x + x) e` singolare. Possiamo
aggirare tale problema calcolando direttamente la E[g(X, Y )|x] con procedura al limite,
ponendo cio`e:
E[g(X, Y )|x] = E[g(X, Y )|X = x] = lim E[g(X, Y )|x < X x + x] .
x0

Si trova:

E[g(X, Y )|x] =

Prova. Si ha:

E[g(X, Y )|x < X x + x] =

g(x, y) fY (y|x) dy .

g(u, v) fXY (u, v|x < X x + x) du dv =


x+x

fXY (u, v)
du =
FX (x + x) FX (x)
x


fXY (x, v)

x dv .
g(x, v)
F
(x
+ x) FX (x)
X

Facendo tendere x 0, si ha che

dv

g(u, v)

FX (x+x)FX (x)
x

fX (x), per cui:




fXY (x, v)
dv =
E[g(X, Y )|X = x] =
g(x, v)
g(x, v) fY (v|x) dv ,
fX (x)

cio`e lasserto, cambiando nome alla variabile di integrazione v.

Siamo in grado adesso di formulare lannunciata generalizzazione del teorema della


media condizionale. Osserviamo che E[g(X, Y )|x] rappresenta, anche in questo caso, al
variare di x, una funzione (x); definiamo allora una variabile aleatoria Z = (X) =
E[g(X, Y )|X], della quale calcoliamo la media. Si trova:
E[E[g(X, Y )|X]] = E[g(X, Y )] .
Prova. La prova e` analoga a quella del teorema della media condizionale. Si ha:


 
E[E(g(X, Y )|X)] =
E[g(X, Y )|x] fX (x)dx =
g(x, y) fY (y|x) dy fX (x)dx =

 


g(x, y) fY (y|x) fX (x) dx dy =
g(x, y) fXY (x, y) dx dy =
=

= E[g(X, Y )] .


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

214

Distribuzioni e medie condizionali


 Esempio 9.14. Applichiamo il risultato precedente per calcolare la correlazione tra due
variabili aleatorie gaussiane. In questo caso g(X, Y ) = X Y , e si ha:
E(X Y ) = E[E(X Y |X)] .
Inoltre, risulta:
E(X Y |x) = E(x Y |x) = xE(Y |x) ,
poich`e x e` fissato; poich`e (cfr. esempio 9.13)
E(Y |x) = Y +

Y
(x X ) ,
X

si ha:
E(X Y |x) = xY +

Y 2
(x x X ) .
X

Mediando il risultato precedente rispetto ad X troviamo il risultato cercato:


Y
Y 2
(E(X 2 ) 2X ) = X Y + (X
)=
X
X
= X Y + X Y ,

E(X Y ) = X Y +

da cui si ha anche
Cov(X, Y ) = E(X Y ) X Y = X Y ,
per cui ritroviamo anche che XY = , cio`e il parametro coincide con il coefficiente di
correlazione.

I concetti precedenti si estendono al caso di n variabili aleatorie in maniera naturale. Ad
esempio, possiamo calcolare la media condizionale di X1 per fissati valori x2 , x3 , . . . , xn
delle variabili aleatorie X2 , X3 , . . . , Xn :

E(X1 |x2 , x3 , . . . , xn ) 
x1 fX1 (x1 |x2 , x3 , . . . , xn ) dx1 .
(9.15)

La relazione precedente definisce una funzione (x2 , x3 , . . . , xn ); se allora consideriamo


la variabile aleatoria Z = (X2 , X3 , . . . , Xn )  E(X1 |X2 , X3 , . . . , Xn ) e ne calcoliamo la
media, si trova:
E[E(X1 |X2 , X3 , . . . , Xn )] = E(X1 ) .
che rappresenta la generalizzazione del teorema della media condizionale.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

9.5 Media condizionale e momenti condizionali

215

Prova. Applicando il teorema fondamentale della media, si ha:


E[E(X1 |X2 , X3 , . . . , Xn )] = E[(X2 , X3 , . . . , Xn )] =
 

...
(x2 , x3 , . . . , xn ) fX2 X3 Xn (x2 , x3 , . . . , xn )dx2 dx3 dxn

Sostituendo la (9.15), si ha:


=
E[E(X1 |X2 , X3 , . . . , Xn )] 

 


=
...
x1 fX1 (x1 |x2 , x3 , . . . , xn ) dx1 fX2 X3 Xn (x2 , x3 , . . . , xn ) dx2 dx3 dxn





=
...
x1 fX1 (x1 |x2 , x3 , . . . , xn ) fX2 X3 Xn (x2 , x3 , . . . , xn ) dx1 dx2 dxn

= fX1 X2 Xn (x1 , x2 , . . . , xn )
 

=
...
x1 fX1 X2 Xn (x1 , x2 , . . . , xn ) dx1 dx2 dxn







=
x1
...
fX1 X2 Xn (x1 , x2 , . . . , xn ) dx2 dx3 dxn

= fX1 (x1 )

x1 fX1 (x1 ) dx1 = E(X1 ) ,
=

cio`e lasserto.

 Esercizio 9.1. Si considerino le variabili aleatorie iid X1 , X2 , . . . , Xn , con media e varianza 2 , ed una variabile aleatoria N discreta, indipendente dalle precedenti, a valori
in {1, 2, . . . , n}. Costruiamo la variabile aleatoria S come:
S=

N


Xk ,

k=1

dove lestremo superiore della somma e` aleatorio. Calcolare media, valor quadratico
medio e varianza di S.
Svolgimento. Il problema si risolve semplicemente adoperando il teorema della media
condizionata, ed in particolare condizionando ai possibili valori assunti da N . Infatti,
per quanto riguarda il calcolo della media di S, si ha:
E(S) = E[E(S|N )] ,
e risulta:
E(S|n) = E

, N

k=1

, n
2
n


2
Xk 22N = n = E
Xk =
E(Xk ) = n ,
k=1

k=1

dove abbiamo sfruttato lindipendenza tra N e le X1 , X2 , . . . , Xn , per cui:


E(S) = E(N ) = E(N ) .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

216

Distribuzioni e medie condizionali


In maniera simile si puo` calcolare il valore quadratico medio, ovvero:
E(S 2 ) = E[E(S 2 |N )] ,
e si ha:
E(S 2 |n) = E

, N N

k=1 h=1

2
n 
n

2
2
Xk Xh 2N = n =
E(Xk Xh ) =

n 
n



Cov(Xk , Xh ) + 2 .
=

k=1 h=1

k=1 h=1

Poich`e le variabili aleatorie X1 , X2 , . . . , Xn sono indipendenti, allora saranno anche


incorrelate, per cui Cov(Xk , Xh ) = 2 kh , e si ha quindi:
E(S 2 |n) = n 2 + n2 2 ,
per cui
E(S 2 ) = E(N 2 + N 2 2 ) = E(N ) 2 + E(N 2 ) 2 .
La varianza si ottiene infine come:
Var(S) = E(S 2 ) E 2 (S) = E(N ) 2 + 2 [E(N 2 ) E 2 (N )] = E(N ) 2 + 2 Var(N ) .


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Capitolo 10
Elementi di teoria dellinformazione
10.1

Introduzione

Lo scopo della teoria dellinformazione e` quello di porre le basi teoriche per i problemi
della trasmissione, della ricezione, dellelaborazione e della memorizzazione dellinformazione. Tale disciplina e` relativamente recente, essendo nata solo negli anni 40 e
principalmente per effetto di un singolo e decisivo contributo del ricercatore statunitense della Bell Claude E. Shannon, che pubblico` nel 1948 il fondamentale A mathematical
theory of communication, nel quale si sviluppano i principali concetti della teoria.1
Il punto di partenza della teoria dellinformazione e` ovviamente il concetto stesso di
informazione, che ricorre in varie discipline e assume significati e sfumature differenti a
seconda dei contesti nei quali viene utilizzato. Noi ci riferiremo al caso di un sistema
di comunicazione (lo schema in Fig. 10.1 e` dovuto allo stesso Shannon), nel quale linformazione emessa da una sorgente viene trasportata fino ad una destinazione, mediante
un canale di comunicazione; sorgente e destinazione possono essere due persone (es.
comunicazione telefonica), due apparecchiature (es. comunicazione tra due calcolatori), o due parti di una stessa apparecchiatura (es. comunicazione tra microprocessore e
memoria RAM di un calcolatore).
Spesso linformazione e` di natura simbolica, o puo` comunque essere espressa mediante un insieme di simboli (si pensi alle lettere dellalfabeto); tale rappresentazione
non e` necessariamente efficiente, anzi contiene sovente un elevato grado di ridondanza.
Poiche il trasporto e la memorizzazione di ridondanza comporta uno spreco di risorse, compito del codificatore di sorgente e` quello di fornire una rappresentazione il piu`
possibile compatta e sintetica dei simboli emessi dalla sorgente, eliminando se possibile ogni ridondanza (il decodificatore di sorgente opera la trasformazione inversa alla
destinazione).
1

Si veda lURL http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html per una versione


Postscript o pdf del lavoro di Shannon.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

218

Elementi di teoria dellinformazione

Codificatore
sorgente

Sorgente

di

Codificatore
canale

di

Modulatore

Canale

Destinazione

Decodificatore
di sorgente

Decodificatore
di canale

Demodulatore

Fig. 10.1. Schema di Shannon di un sistema di comunicazione per la trasmissione di


informazione da una sorgente ad una destinazione.

Poiche poi il canale di comunicazione e` un canale fisico (ad esempio, un doppino telefonico, una fibra ottica o lo spazio libero), si richiede per la trasmissione che i simboli
vengano rappresentati con segnali fisici (elettrici, ottici o di altra natura): questo compito e` svolto dal modulatore, mentre il demodulatore opera la trasformazione inversa alla
destinazione (il blocco modulatore/demodulatore e` spesso comunemente denominato
modem).
Osserviamo infine che qualunque canale di comunicazione e` rumoroso, cio`e introduce errori; per ridurre il loro effetto, e consentire comunque una comunicazione affidabile, prima della modulazione si puo` effettuare una codifica di canale, che ha lo scopo di
introdurre una quantit`a controllata di ridondanza per irrobustire la trasmissione dellinformazione attraverso il canale (un semplice esempio di codifica di canale e` costituito dal bit di parit`a che viene concatenato ad una stringa di bit prima della trasmissione).
Tale ridondanza viene rimossa alla destinazione dal decodificatore di canale.
 Esempio 10.1. Per fornire un esempio tratto dallesperienza quotidiana, supponiamo
di voler invitare il nostro amico Mario Rossi, che vive allestero, alla nostra laurea, e di
volerlo fare per telegramma. La codifica di sorgente in questo caso consiste nel trasformare il nostro invito in una formula telegrafica, del tipo GRADITA TUA PARTECIPAZIONE MIA LAUREA PROSSIMO 15 GIUGNO ORE 9:00 FACOLTA INGEGNERIA
NAPOLI, nella quale abbiamo fornito le informazioni essenziali, eliminando un certo
livello di ridondanza tipica della lingua parlata. A questo punto, telefoniamo al servizio
dettatura telegrammi, e per essere sicuri che limpiegato (un po duro dorecchi) capisca
bene tutte le parole del telegramma, le ripetiamo scandendole piu` volte; in particolare
per fargli capire che il cognome e` Rossi usiamo frasi del tipo R come Roma, O come
Orvieto, S come Sassari, etc.: in questo caso stiamo introducendo ridondanza, ovvero
stiamo effettuando una codifica di canale.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.2 Misura dellinformazione ed entropia


Le principali aree di studio della teoria dellinformazione sono strettamente collegate ai
blocchi funzionali dello schema di Shannon (Fig. 10.1); in particolare, essa si occupa dei
seguenti problemi:
1. la rappresentazione dellinformazione nella forma piu` efficiente possibile, eliminando ogni possibile ridondanza, in modo da ridurre il numero di simboli necessari per la sua descrizione (codifica di sorgente);
2. la determinazione della massima quantit`a di informazione che e` possibile trasmettere con degradazione piccola a piacere su un canale di trasmissione (capacit`a di
canale);
3. lintroduzione di ridondanza controllata in trasmissione, cos` da limitare le degradazioni introdotte dal canale (codifica di canale).
La teoria dellinformazione e` una disciplina dal forte contenuto matematico, e noi ci
limiteremo semplicemente ad introdurre i concetti fondamentali, quali la misura dellinformazione, ed a fornire qualche elemento di codifica di sorgente. Per non sottovalutare limportanza applicativa di tale disciplina, tuttavia, menzioniamo solo che alcuni
tra i piu` importanti standard tecnologici utilizzati al giorno doggi (JPEG, MPEG, MP3,
ADSL tra essi) devono la loro nascita ai risultati della teoria dellinformazione.

10.2

Misura dellinformazione ed entropia

Come gi`a accennato, informazione e` un concetto necessariamente vago, che talvolta assume caratteristiche soggettive; tuttavia, per costruire una teoria matematica, dovremo definirla in maniera piu` rigorosa, tanto rigorosa da fornire degli strumenti per
misurarla.
Losservazione fondamentale per arrivare ad introdurre una misura dellinformazione e` che il concetto di informazione e` intrinsecamente associato a quello di impredicibilit`a
o di incertezza. Ad esempio, se telefoniamo al servizio informazioni meteorologiche in
pieno agosto, e ci viene detto domani sar`a una bella giornata, sicuramente attribuiremo a tale asserzione un minore contenuto informativo rispetto ad una previsione del
tipo domani si scatener`a un uragano tropicale, semplicemente perch`e alle nostre latitudini e nel mese di agosto la prima eventualit`a e` sicuramente di gran lunga piu` probabile
del secondo. Per questo motivo, a livello intuitivo accettiamo che linformazione associata ad un evento sia inversamente proporzionale alla probabilit`a con la quale quel dato
evento puo` verificarsi. Sulla base di questa osservazione, possiamo passare ad introdurre una definizione operativa di misura dellinformazione. Parlando di eventi e di probabilit`a, e` naturale modellare loggetto del nostro studio come un esperimento aleatorio,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

219

220

Elementi di teoria dellinformazione


dotato di struttura di spazio di probabilit`a discreto2 (, B, P ). Poich`e intendiamo misurare linformazione associata ad eventi di , supponiamo (senza ledere la generalit`a) che
ai possibili risultati dellesperimento siano associati i valori x X = {x1 , x2 , . . . , xn , . . . }
assunti da una variabile aleatoria discreta X, avente DF pX (x)  P (X = x). Per comodit`a di notazione, porremo talvolta pk  pX (xk ); supporremo poi che la variabile
aleatoria assuma un numero finito di valori x1 , x2 , . . . , xK .

10.2.1 Autoinformazione
Avendo osservato che ad una minore probabilit`a corrisponde una maggiore quantit`a di
informazione, definiamo lautoinformazione dellevento {X = x}.
Definizione (autoinformazione). Sia X una variabile aleatoria discreta a valori x X e con DF pX (x): lautoinformazione associata allevento {X = x} e`
data da:
H(x)  log

1
= log pX (x) ,
pX (x)

dove il logaritmo e` in una base qualsiasi maggiore di 1.


Osserviamo che il valore dellautoinformazione dipende solo della probabilit`a pX (x), e
non dal valore di x; inoltre essa puo` assumere solo valori maggiori o uguali a zero (in
quanto pX (x), essendo una probabilit`a, e` minore o uguale ad uno), e assume valori tanto
maggiori quanto meno probabile e` levento {X = x}: in particolare, se pX (x) 0, lautoinformazione H(x) tende allinfinito, mentre se pX (x) 1, lautoinformazione H(x)
tende a zero. Tale propriet`a soddisfa il ragionamento intuitivo effettuato in precedenza:
il verificarsi di un evento poco probabile possiede un maggior contenuto informativo
rispetto ad un evento molto probabile o addirittura certo. La presenza del logaritmo
nella definizione di autoinformazione si puo` poi giustificare per la propriet`a della funzione logaritmo di trasformare prodotti in somme. Infatti, siano X ed Y due variabili
aleatorie discrete con DF congiunta pXY (x, y): lautoinformazione associata allevento
{X = x, Y = y} e` :
H(x, y) = log

1
.
pXY (x, y)

Se gli eventi {X = x} ed {Y = y} sono statisticamente indipendenti, la DF congiunta


pXY (x, y) si fattorizza nel prodotto delle DF marginali, e quindi si ha:
H(x, y) = log

1
1
1
= log
+ log
= H(x) + H(y) ,
pX (x) pY (y)
pX (x)
pY (y)

La misura dellinformazione associata a spazi di probabilit`a continui e` un problema matematicamente piu` complesso, che non prenderemo in cosiderazione.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.2 Misura dellinformazione ed entropia


per cui lautoinformazione associata ad eventi statisticamente indipendenti e` la somma
delle autoinformazioni associate ai singoli eventi, come pare intuitivamente accettabile.
Sebbene in teoria il logaritmo possa essere calcolato in una base qualsiasi maggiore
di uno, le scelte piu` comuni sono il logaritmo in base e (logaritmo naturale o neperiano,
che denoteremo con ln()) oppure il logaritmo in base 2, che denoteremo semplicemente
con log(); nel primo caso, lautoinformazione si misura in nat, nel secondo si misura
in bit.3 . Poiche log x = ln x/ ln 2, per convertire linformazione da nat a bit, e viceversa,
basta applicare le seguenti relazioni:
[H(x)]nat = ln 2 [H(x)]bit = 0.693 [H(x)]bit ;
[H(x)]bit = ln12 [H(x)]nat = 1.443 [H(x)]nat .
Nel seguito, misureremo linformazione sempre in bit. Notiamo che non bisogna confondere il bit come unit`a di misura dellinformazione con il bit inteso come simbolo
binario (0 oppure 1), come il seguente esempio dovrebbe chiarire.
 Esempio 10.2. Supponiamo che X assuma K valori equiprobabili, per cui pX (x) = K1 .
In tal caso, lautoinformazione associata ad un qualunque valore di X e` la stessa, e vale
H(x) = log

1
= log K .
pX (x)

Ad esempio, supponiamo di avere una stringa composta da n simboli binari (bit); possiamo costruire K = 2n di tali stringhe, e se esse sono ugualmente probabili si avr`a
H(x) = log 2n = n, misurando linformazione in bit. Pare abbastanza naturale che linformazione associata ad una stringa di n bit sia pari ad n bit! Osserviamo, tuttavia, che
questo e` vero solo nellipotesi che le K stringhe siano equiprobabili: se cio` non accade,
lautoinformazione di ogni stringa potr`a essere maggiore o minore di n bit. Quindi la
conclusione leggermente paradossale e` : una stringa di n bit non porta sempre n bit di
informazione!


10.2.2 Entropia
A questo punto, osserviamo che lautoinformazione H(x) precedentemente definita e`
una funzione che associa ad ogni x il numero reale H(x). Pertanto, al variare di x X
essa definisce una variabile aleatoria funzione della variabile aleatoria X. Possiamo
allora calcolare la media statistica di tale variabile aleatoria, ottenendo una misura media
dellautoinformazione associata ad X che, per affinit`a con la corrispondente grandezza
termodinamica, prende il nome di entropia (informazionale).
3

Il termine bit, proposto da J.W. Tukey, e` lacronimo per binary digit.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

221

222

Elementi di teoria dellinformazione


Definizione (entropia). Data una variabile aleatoria X, lentropia di X e` la
media statistica dellautoinformazione H(x), ed e` data da:
H(X) = E[ log pX (x)] =


xX

pX (x) log pX (x) =

pX (x) log

xX

1
,
pX (x)

dove il logaritmo e` in una base qualsiasi maggiore di 1.


Come gi`a osservato per lautoinformazione, anche lentropia H(X) non dipende in effetti dai valori assunti dalla variabile aleatoria, ma soltanto dalle probabilit`a pX (x) con
cui vengono assunti tali valori. Quindi in sostanza lentropia non dipende dal significato dellinformazione ma solo dalle probabilit`a con cui essa si puo` manifestare. Se
denotiamo tali probabilit`a (in numero finito) con pk = pX (xk ), e costruiamo il vettore
p = [p1 , p2 , . . . , pK ], possiamo parlare di entropia associata al vettore di probabilit`a p, e
scrivere anche H(p) in luogo di H(X).
 Esempio 10.3. . Supponiamo che gli eventi di interesse siano due, ad esempio A =
{oggi piove} e A = {oggi non piove}. E` chiaro che possiamo descrivere tale esperimento mediante una variabile aleatoria bernoulliana X Bern(p), a valori 0 ed 1, dove
possiamo convenzionalmente associare il valore 1 ad A ed il valore 0 a A. In ogni caso,
lentropia associata ad X non dipende dai valori della variabile aleatoria, ma solo dalle
probabilit`a con cui tali valori sono assunti; essa si calcola immediatamente, e vale
H(X) = H(p) = p log p (1 p) log(1 p) .

(10.1)

Tale entropia si denota anche con H(p), poiche dipende solo dal valore di p, e prende
il nome di entropia binaria. Il suo andamento e` diagrammato in Fig. 10.3, dalla quale si vede che essa vale 0 per p = 0 oppure p = 1, mentre e` massima (vale 1 bit) per
p = 1/2 (osserviamo che poniamo 0 log 0 = limp0 p log p = 0). Anche in questo caso,
allora, per specificare una tra due alternative equiprobabili occorre un bit di informazione, mentre per specificare una tra due alternative non equiprobabili e` sufficiente una
quantit`a di informazione inferiore ad 1 bit. Pertanto, lequiprobabilit`a, essendo la situazione di massima incertezza, equivale anche ad un massimo di informazione, il che
pare intuitivamente accettabile.


10.2.3 Propriet`a dellentropia


Lentropia gode delle seguenti propriet`a fondamentali, alcune delle quali di immediata
verifica ed interpretazione.
1. H(X) e` simmetrica rispetto al vettore di probabilit`a p da cui dipende, nel senso
che se si effettua una permutazione degli elementi del vettore p lentropia non
cambia.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.2 Misura dellinformazione ed entropia

223

0.9

0.8

0.7

H(X) (bit)

0.6

0.5

0.4

0.3

0.2

0.1

0.1

0.2

0.3

0.4

0.5
p

0.6

0.7

0.8

0.9

Fig. 10.2. Entropia binaria H(X) (espressa in bit) in


funzione della probabilit`a p.

2. H(X) e` nulla se la distribuzione di probabilit`a e` del tipo:



1,
pX (x) =
0,

per x = x;
altrimenti.

3. H(X) e` massima, e vale H(X) = log K, se pX (x) =

1
K

(alternative equiprobabili)

Di queste propriet`a, la prima riafferma che lentropia non dipende dallordine in cui si
considerano i possibili eventi; la seconda afferma che se esiste un risultato certo (per cui
gli altri hanno necessariamente probabilit`a nulla) il contenuto informativo medio e` nullo; infine, la terza propriet`a afferma che il contenuto informativo, a parit`a di alternative,
e` massimo se tali alternative sono equiprobabili. Notiamo per inciso che al crescere di K
il valore massimo log K dellentropia aumenta, il che significa che un maggior numero
di alternative porta potenzialmente una maggior quantit`a di informazione.

10.2.4 Entropia congiunta


Nelle precedenti sezioni, abbiamo definito lentropia di una singola variabile aleatoria X. E` immediato estendere tale definizione al caso di due o piu` variabili aleatorie
X1 , X2 , . . . , Xn .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

224

Elementi di teoria dellinformazione


Definizione (entropia congiunta). Date n variabili aleatorie X
=
T
[X1 , X2 , . . . , Xn ] , a valori x = [x1 , x2 , . . . , xn ] in X = X1 X2 Xn ,
con DF congiunta pX (x), lentropia congiunta H(X) di X e` data da:

H(X)  E[ log pX (x)] =
pX (x) log pX (x) ,
xX

dove il logaritmo e` in una base qualsiasi maggiore di 1.


Ad esempio, nel caso n = 2, ponendo X1 = X ed X2 = Y , si ha esplicitamente:

pXY (x, y) log pXY (x, y) .
H(X, Y ) =
xX,yY

Se le variabili aleatorie X ed Y sono indipendenti, la DF congiunta si fattorizza, e per le


propriet`a del logaritmo si ha:

H(X, Y ) =
pXY (x, y) log[pX (x) pY (y)] =


xX,yY

pXY (x, y) log pX (x)

xX,yY

pXY (x, y) log pY (x)

xX,yY

= H(X) + H(Y ) ,
dove abbiamo sfruttato la relazione tra DF congiunte e marginali, e la definizione di
entropia. Per cui, lentropia congiunta associata a variabili aleatorie indipendenti e` la
somma delle entropie delle singole variabili aleatorie. Il risultato si generalizza ovviamente al caso di un vettore X = [X1 , X2 , . . . , Xn ] di n variabili aleatorie indipendenti,
per il quale si ha:
H(X) =

n


H(Xi ) ;

i=1

se poi le variabili aleatorie che compongono X, oltre ad essere indipendenti, sono anche
identicamente distribuite, si ha H(Xi ) = H(Xj ) = H(X1 ), per cui si ottiene semplicemente:
H(X) = n H(X1 ) .
Osserviamo, infine, che sostituendo alle DF congiunte le DF condizionali, e` possibile
definire anche le entropie condizionali, la cui trattazione esula comunque dalla natura
introduttiva di questo capitolo.
 Esempio 10.4. Consideriamo ancora il caso della stringa di n bit, che possiamo riguardare come n variabili aleatorie iid X1 , X2 , . . . , Xn , con Xi Bern(p). In tal caso, si
ha:
H(X) = n H(X1 ) = n H(p) ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.3 Sorgenti di informazione


dove H(p) e` lentropia binaria data dalla (10.1). Pertanto landamento dellentropia
H(X) al variare di p e` , a meno di un fattore di scala n, lo stesso di quello di Fig. 10.3; la
conclusione e` che il valore massimo di H(X) al variare di p vale n, e si ottiene quando
p = 1/2. In tutti gli altri casi, lentropia di una stringa di n bit assume un valore inferiore
ad n bit.


10.3

Sorgenti di informazione

Con riferimento allo schema di Shannon (Fig. 10.1), il punto di partenza per affrontare un qualunque problema di teoria dellinformazione e` definire con esattezza cosa
intendiamo per sorgente di informazione e misurare la quantit`a di informazione da essa
prodotta: senza dare una definizione formale, possiamo assimilare una sorgente di informazione discreta ad un dispositivo (fisico, elettronico, astratto etc.) che emette simboli appartenenti ad un insieme discreto con una determinata regolarit`a statistica. Alcuni esempi di sorgenti discrete di informazione sono i seguenti: un utente che scrive
ad una tastiera alfanumerica di un calcolatore (i simboli sono in tal caso le lettere dellalfabeto piu` i caratteri speciali); un termometro che registra i valori della temperatura
esterna a passi di 1o C (i simboli sono in tal caso un sottoinsieme dei numeri interi relativi); la successione dei valori dellindice di borsa italiana (Mibtel) nei diversi giorni della
settimana (i simboli sono in tal caso numeri interi). Non tutte le sorgenti di informazione sono, ovviamente, discrete (sia nei valori prodotti, che nel tempo); molte sorgenti
emettono simboli appartenenti ad un insieme continuo e con comtinuit`a nel tempo (ad
esempio, un voltmetro analogico per la misura della tensione continua in un dispositivo
elettronico puo` emettere in ogni istante reale un valore reale di tensione nellintervallo
[0, 5V ]). Comunque, nel seguito, coerentemente con la scelta di introdurre la misura
dellinformazione solo negli spazi di probabilit`a discreti, ci limiteremo a considerare
esclusivamente il caso di sorgenti discrete.4

10.3.1 Tasso dentropia di una sorgente


Dal punto di vista matematico, poich`e generalmente una sorgente emette non un solo
simbolo, ma una sequenza di simboli, potremo assimilare una sorgente S discreta ad
una sequenza X1 , X2 , . . . (potenzialmente infinita) di variabili aleatorie discrete.
Assumeremo che ogni simbolo della sequenza appartenga ad un alfabeto numeri5
co di cardinalit`a K finita, sia esso X = {x1 , x2 , . . . , xK }. Poniamoci ora il problema
4

In molti casi, i risultati ottenuti sono applicabili anche al caso delle sorgenti continue, purche
queste siano appropriatamente discretizzate, ad esempio con una procedura di campionamento (per la
discretizzazione dei tempi) e quantizzazione (per la discretizzazione dei valori).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

225

226

Elementi di teoria dellinformazione


di misurare linformazione associata alla sequenza (potenzialmente infinita) di simboli
X1 , X2 , . . . emessi dalla sorgente; e` chiaro che se vogliamo catturare la struttura della
sequenza di simboli, ovvero le dipendenze tra simbolo e simbolo, non possiamo limitarci a considerare lentropia di un solo simbolo H(X1 ), ma dobbiamo calcolare quella
associata a blocchi di due simboli H(X1 , X2 ), a blocchi di tre simboli H(X1 , X2 , X3 ), e cos`
via, il caso generale essendo H(X1 , X2 , . . . , Xn ). Se teniamo presente che al crescere della dimensione n del blocco aumenta il numero delle alternative possibili (esistono K n
differenti blocchi di lunghezza n), ci rendiamo conto che tale sequenza di entropie potrebbe aumentare indefinitamente. Daltra parte possiamo considerare linformazione
media per simbolo semplicemente dividendo H(X1 , X2 , . . . , Xn ) per n. Possiamo allora
definire il tasso dentropia H(S) della sorgente come il limite:
1
H(X1 , X2 , . . . , Xn ) ,
n n

H(S)  lim

ammesso che esso esista finito. Tale quantit`a rappresenta il contenuto medio di informazione associata a ciascun simbolo della sorgente, nella trasmissione di una lunga (al
limite, infinita) sequenza di simboli.

10.3.2 Sorgenti discrete senza memoria (DMS)


In generale, i simboli emessi in successione dalla sorgente presenteranno qualche forma
di dipendenza statistica; ad esempio, se un utente (italiano) digita sulla tastiera le lettere
a e c in successione, e` piu` probabile che la successiva lettera sia una q piuttosto
che una t; se la temperatura in una giornata vale 18o , e` probabile che il valore nel
giorno successivo sia compreso tra 16o e 20o ; se lindice di borsa in una giornata vale x,
e` probabile che il valore nel giorno successivo non si discosti di 2% da x, e cos` via.
In sostanza, tale livello di dipendenza statistica o di ridondanza puo` essere sfruttato con
vantaggio per rappresentare linformazione emessa dalla sorgente in maniera efficiente,
cos` come avviene nella codifica di sorgente (vedi 10.4).
Nonostante le sorgenti con simboli statisticamente dipendenti siano praticamente la
norma (si pensi ad esempio alle forti dipendenze statistiche del linguaggio parlato), la
trattazione matematica di tali sorgenti risulta estremamente difficoltosa; spesso risulta
utile considerare il caso particolarmente semplice, seppure ideale, di sorgente discreta
senza memoria (DMS): in questo caso i successivi simboli X1 , X2 , . . . emessi dalla sorgente sono assunti statisticamente indipendenti, ed identicamente distribuiti, con DF
5

Tale assunzione non e` limitativa, in quanto se i simboli emessi dalla sorgente non sono numerici (ad
esempio, lalfabeto italiano), essi possono essere messi in corrispondenza biunivoca con un sottoinsieme dei numeri interi. Inoltre abbiamo osservato che lentropia non dipende dai valori della variabile
aleatoria, ma solo dalle probabilit`a con cui tali valori sono assunti.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.3 Sorgenti di informazione

227

comune pX (x). In questo caso, si ha H(X1 , X2 , . . . , Xn ) = n H(X1 ) e quindi


1
n H(X1 )
H(X1 , X2 , . . . , Xn ) = lim
= H(X1 ) ,
n n
n
n

H(S) = lim

cio`e il tasso dentropia della sorgente DMS coincide con lentropia di un singolo simbolo
emesso dalla sorgente.
 Esempio 10.5 (tasso di entropia del linguaggio). Un esempio di sorgente discreta di informazione e` il linguaggio scritto, che possiamo vedere come una successione di simboli
appartenenti ad un certo alfabeto, con in aggiunta lo spazio ed i simboli di interpunzione. Il modello di sorgente discreta senza memoria non e` assolutamente appropriato per
il linguaggio, in quanto e` intuitivamente comprensibile che qualsiasi lingua o dialetto
presenta un elevato grado di struttura e quindi di ridondanza statistica, come provato anche dalla possibilit`a, spesso sfruttata nei giochi enigmistici, di ricostruire parole
o anche frasi a partire da poche lettere. Consideriamo ad esempio la lingua italiana:
senza considerare per semplicit`a la punteggiatura, e senza distinguere tra lettere maiuscole e minuscole, limitiamoci a considerare le 21 lettere dellalfabeto (a, b, c, d, e, f,
g, h, i, l, m, n, o, p, q, r, s, t, u, v, z) piu` lo spazio, che indichiamo con , e lapostrofo
(23 simboli in totale). Se si dispone di un campione di testo sufficientemente lungo,
e di un po di pazienza (meglio ancora, di un buon programma al calcolatore) e` possibile calcolare la frequenza di occorrenza dei 23 simboli, i cui risultati sono riportati
in Tab. 10.1. Osserviamo che la massima entropia che si puo` ottenere con 23 lettere e`
lettera

a
e
o
i
s
n
l
t
r
c

probabilit`a
0.161
0.108
0.085
0.079
0.073
0.060
0.055
0.053
0.051
0.050
0.049

lettera probabilit`a
d
0.038
u
0.027
v
0.025
m
0.016
p
0.015
f
0.014
b
0.010

lettera probabilit`a
h
0.009
z
0.008
g
0.006
q
0.004

0.004

Tab. 10.1. Lettere dellalfabeto italiano con probabilit`a di occorrenza (in ordine decrescente di
probabilit`a).

pari a log 23 = 4.52 bit, mentre quella effettiva delle lettere dellalfabeto italiano e` pari a
H(X1 ) 4 bit, con una ridondanza di circa 0.5 bit. Lesempio non deve pero` indurre a

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

228

Elementi di teoria dellinformazione


conclusioni errate: in realt`a, la ridondanza e` molto piu` elevata, ma richiede che si considerino gruppi di 2 lettere, di 3 lettere e cos` via, cio`e richiede il calcolo dellentropia
media per lettera n1 H(X1 , X2 , . . . , Xn ) e, al limite per n , del tasso di entropia.
Un esempio di questo tipo e` riportato in [11] per la lingua inglese, con un alfabeto di 27 simboli (26 lettere ed uno spazio), per il quale la massima entropia e` pari a log 27 = 4.76 bit. Lentropia di una singola lettera della lingua inglese e` invece
pari a H(X1 ) 4 bit, quindi praticamente coincidente con quella dellalfabeto italiano, nonostante il maggior numero di simboli; se si considerano gruppi di piu` lettere,
lentropia per lettera diminuisce; ad esempio, per 4 lettere lentropia media per lettera
1
H(X1 , X2 , X3 , X4 ) e` pari a 2.8 bit. Esperimenti condotti dallo stesso Shannon e da al4
tri ricercatori stimano il tasso di entropia H(S) della lingua inglese pari a circa 1.3 bit
per lettera, che confrontato con il valore massimo di 4.76 bit mostra lelevato grado di
ridondanza della lingua inglese.


10.4

Codifica di sorgente

Unimportante applicazione dei concetti di misura dellinformazione e di entropia e`


rappresentata dalla cosiddetta codifica di sorgente, che consiste nella rappresentazione
efficiente dei simboli emessi da una sorgente di informazione. Piu` precisamente, sulla
base della definizione di sorgente di informazione data nel paragrafo precedente, possiamo formalizzare il problema della codifica di sorgente come segue: data una sorgente
di informazione S, si desidera codificare le sequenze di simboli emessi dalla sorgente,
che appartengono ad un alfabeto di sorgente X = {x1 , x2 , . . . , xK } di cardinalit`a K, in sequenze binarie, ovvero composte da soli due valori, 0 ed 1, che costituiscono lalfabeto
codice.6 Un esempio tipico di codifica binaria e` quello fornito dal codice ASCII, mediante
il quale si codificano caratteri alfanumerici, piu` alcuni caratteri di controllo, in stringhe
composte da 8 bit (1 byte).
Lobiettivo tipico della codifica di sorgente e` quello di ridurre al minimo (compattare) la lunghezza delle stringhe binarie necessarie a codificare le sequenze di simboli emessi dalla sorgente, eliminando, o riducendo al minimo, ogni ridondanza di
informazione presente nella sorgente.
Tale riduzione di ridondanza, effettuata da un dispositivo denominato codificatore di
sorgente, puo` essere anche assai rilevante, a spese tuttavia della possibilit`a di ricostruire
esattamente i simboli emessi dalla sorgente a partire dalle stringhe codificate: si parla in
6

La codifica binaria non e` lunico tipo di codifica esistente: il caso piu` generale puo` prevedere un
alfabeto codice composto da tre o piu` valori. Tuttavia la rilevanza della codifica binaria discende dal fatto
che linformazione binaria puo` piu` facilmente essere trasmessa, elaborata, e memorizzata.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.5 Codici per la compattazione dati


tal caso di codifica di sorgente con perdite o di compressione dati. Tale perdita di informazione in molte applicazioni e` accettabile, in quanto il destinatario ultimo dellinformazione
(tipicamente un essere umano) ha una sensibilit`a finita; la compressione dati si applica
infatti utilmente nella trasmissione telefonica, nella telefonia via Internet, nella trasmissione del segnale televisivo, nella codifica di file audio, ed in numerose altre applicazioni. Ad esempio, gli standard JPEG (per la compressione di immagini fisse), MPEG
(per la compressione di immagini in movimento) ed MP3 (per la compressione di file
audio) sono tutti esempi di codifica con perdite, quindi senza la possibilit`a di ricostruire
esattamente linformazione originaria a partire da quella codificata.
Risultati piu` modesti, ma comunque rilevanti, si conseguono se si richiede la perfetta
ricostruibilit`a dei simboli emessi dalla sorgente, il che nella comunicazione tra macchine
(si pensi alla compressione di un file eseguibile di un programma) e` un requisito imprescindibile: si parla in tal caso di codifica di sorgente senza perdite o di compattazione dati .
Esempi di codifica senza perdite sono quelli effettuati dai popolari programmi di compattazione file, quali Winzip (per sistemi operativi Windows) o il comando compress
o gzip (per sistemi operativi Unix/Linux).
 Esempio 10.6. La codifica senza perdite consente di rappresentare linformazione in
maniera esatta, ma meno efficiente: per convincersene, basta citare un esempio concreto: un file audio in formato WAV di circa 16 MB, corrispondente a circa 1 minuto e
mezzo di musica stereo con qualit`a CD, viene convertito senza perdite dal programma
Winzip, basato sullalgoritmo cosiddetto di Lempel-Ziv, in un file ZIP di circa 14 MB; viene invece convertito con perdite in un file MP3 a 128 kbps di circa 1.5 MB. In questo caso,
la codifica con perdite risulta quasi 10 volte piu` efficiente della codifica senza perdite,
senza unapprezzabile degradazione della qualit`a percepita.

Nel seguito, ci occuperemo esclusivamente della compattazione dati, ovvero della codifica senza perdite.

10.5

Codici per la compattazione dati

Prima di introdurre le tecniche piu` semplici per la compattazione dati, forniamo alcune nozioni e la terminologia principale riguardanti i codici, iniziando dalla definizione
formale di codice binario.
Definizione (codice binario). Sia S una sorgente discreta, un codice binario C
per la sorgente S e` una regola che trasforma sequenze di simboli emessi da S
in sequenze di simboli binari, per esempio appartenenti allalfabeto di codice
{0, 1}.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

229

230

Elementi di teoria dellinformazione


Applichiamo poi tale definizione individuando tipologie e propriet`a di alcuni fondamentali codici. In particolare, tra le possibili strategie di codifica, considereremo due
famiglie di codici: i codici a lunghezza fissa ed i codici a lunghezza variabile.

10.5.1 Codici a lunghezza fissa


Nei codici a lunghezza fissa, le sequenze di simboli di sorgente da codificare sono segmentate in blocchi di lunghezza fissa, pari ad n simboli; ciascun blocco viene poi trasformato in un blocco codificato (binario) anchesso di lunghezza fissa, pari ad A cifre
binarie o bit. Comunemente i blocchi codificati si chiamano parole codice, e linsieme
delle parole codice prende il nome di dizionario del codice.
 Esempio 10.7 (codice ASCII). Un esempio particolarmente semplice di codice a lunghezza fissa e` rappresentato dal codice ASCII, nel quale tutti i caratteri alfanumerici
ed i caratteri speciali sono codificati con parole di lunghezza fissa e pari a A = 8 bit. 

10.5.2 Codici a lunghezza variabile


Nei codici a lunghezza variabile, le sequenze di simboli di sorgente da codificare sono
ancora segmentate in blocchi di lunghezza fissa pari ad n, mentre le parole codice non
sono piu` vincolate ad avere tutte la stessa lunghezza. Il motivo per cui si introduce
questo grado di libert`a e` intuitivamente comprensibile: si tende a codificare simboli
(o blocchi di simboli) di sorgente meno probabili con parole codice lunghe, e viceversa
simboli (o blocchi di simboli) piu` probabili con parole codice corte; in questo modo si
riduce la lunghezza media della sequenza codificata, rispetto ad un codice a lunghezza
fissa.
 Esempio 10.8 (codice Morse). Un classico esempio di codice a lunghezza variabile e` il
codice telegrafico Morse (ormai in disuso), nel quale lalfabeto codice e` costituito da
punti (dot) e linee (dash), e il codice e` costruito in modo da tener conto della frequenza relativa delle lettere nella lingua inglese: ad esempio, alla frequente lettera e
e` associata la parola codice breve . (punto), mentre alla poco frequente lettera q e`
associata la parola codice lunga . . (punto, punto, linea, linea).

Nel seguito, considereremo prevalentemente il caso in cui la codifica sia effettuata su
blocchi di sorgente di lunghezza n = 1, ovvero su singoli simboli della sorgente (codifica
simbolo a simbolo); il caso n > 1 si puo` trattare come generalizzazione del precedente,
considerando una macro-sorgente che emette blocchi anziche simboli.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.5 Codici per la compattazione dati

231

10.5.3 Codici univocamente decifrabili


In una codifica senza perdite, una propriet`a irrinunciabile di un codice e` che esso sia
univocamente decifrabile.
Definizione (codice univocamente decifrabile). Un codice C si dice univocamente decifrabile se e` possibile ricostruire senza ambiguit`a le sequenze di simboli
originali a partire dalle sequenze codificate.
 Esempio 10.9. Consideriamo una sorgente S che emette simboli X appartenenti allalfabeto X = {x1 , x2 , x3 , x4 }. Quattro possibili codici binari simbolo a simbolo per tale
sorgente sono riportati in Tab. 10.2: i codici C1 e C2 sono a lunghezza fissa, mentre i
codici C3 e C4 sono a lunghezza variabile.
X
x1
x2
x3
x4

C1
00
01
10
11

C2 C3
00 0
01 11
01 00
11 01

C4
0
10
110
1110

Tab. 10.2. Codici binari per una sorgente con K = 4 simboli.

Affinch`e un codice risulti univocamente decifrabile, in primo luogo le parole codice


devono essere tutte differenti; codici che non soddisfano tale propriet`a, come il codice C2 , si dicono singolari, e non saranno considerati piu` nel seguito. A questo punto, e`
facile verificare che, se il codice e` a lunghezza fissa, affinche esso risulti univocamente
decifrabile e` necessario e sufficiente che esso sia non singolare, come il codice C1 . Piu`
complesso e` il problema di riconoscere lunivoca decifrabilit`a per codici a lunghezza
variabile, in quanto il fatto che il codice sia non singolare non garantisce che esso sia anche univocamente decifrabile. Ad esempio, i codici C3 e C4 sono entrambi non singolari;
tuttavia, se si considera il codice C3 , e` facile verificare che la stringa codificata 0011 puo`
corrispondere alla sequenza di sorgente x1 x1 x2 ma anche alla sequenza di sorgente x3 x2 ,
per cui tale codice non e` univocamente decifrabile. Viceversa, si verifica facilmente che
il codice C4 e` univocamente decifrabile, in quanto le sue parole codice terminano tutte
per 0 (che puo` essere considerato come una specie di simbolo di separazione tra due
parole codice consecutive).


10.5.4 Codici a prefisso


Tra i codici a lunghezza variabile univocamente decifrabili, unimportante classe di
codici e` rappresentata dalla classe dei cosiddetti codici a prefisso.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

232

Elementi di teoria dellinformazione


Definizione (codice a prefisso). Un codice C si dice a prefisso se nessuna
parola codice e` prefissa di unaltra parola codice.
Si intende che una parola codice e` prefissa di unaltra parola codice se ne costituisce la
sottostringa iniziale; ad esempio, la parola codice 01 e` prefissa delle parole codice 011,
0110, e 01111. A questo punto, e` chiaro che, se un codice e` a prefisso, nella decodifica
di una sequenza codificata non possono sorgere ambiguit`a, e quindi un tale codice e`
sicuramente univocamente decifrabile.
 Esempio 10.10. Consideriamo nuovamente i codici C3 e C4 dellesempio 10.9. Per il
primo, osserviamo che la parola codice 0 e` prefissa delle parole codice 00 e 01, per cui
tale codice non e` un codice a prefisso (peraltro, abbiamo gi`a verificato che esso non
e` univocamente decifrabile). Viceversa, se consideriamo il codice C4 , osserviamo che
nessuna parola codice e` prefissa di unaltra parola codice, per cui tale codice e` a prefisso,
e quindi univocamente decifrabile.

Per verificare se un codice e` a prefisso oppure no, e` assai utile la sua rappresentazione
mediante un albero di codice, dove per albero intendiamo un grafo orientato (generalmente da sinistra a destra), composto da punti, detti nodi, e da linee, dette rami, con la
condizione che da ogni nodo partano due rami (albero binario). Con ovvia similitudine
botanica, il nodo allestrema sinistra dellalbero prende il nome di radice, mentre i
nodi allestrema destra, da cui non partono rami, si dicono nodi terminali o foglie;
i nodi che non sono n`e radice n`e terminali si dicono interni. Se si contrassegnano i
rami partenti da un nodo sempre allo stesso modo (ad esempio, il ramo superiore con
1 e quello inferiore con 0), ad ogni nodo viene assegnata unetichetta univoca, ottenuta
concatenando ordinatamente i contrassegni dei rami che si percorrono dalla radice fino
al nodo in esame.7 Un nodo i si dice predecessore di un nodo j se muovendosi dalla
radice verso j si incontra prima i; equivalentemente, j si dir`a successore di i.
E` possibile allora costruire la rappresentazione ad albero di un codice semplicemente
associando le parole codice (stringhe binarie) ai nodi corrispondenti dellalbero, scelto
di lunghezza appropriata. A questo punto, e` semplice verificare se un codice e` a prefisso
oppure no: infatti, se una parola codice ci e` prefissa di unaltra parola cj , il nodo i e`
predecessore di j; pertanto, affinche il codice sia a prefisso, tutte le parole codice devono
corrispondere a nodi terminali dellalbero.
Osserviamo infine che un codice a prefisso e` anche detto istantaneo perche, nella fase
di decodifica, non appena percorrendo lalbero si riconosce una parola codice, e` possibile decodificarla istantaneamente, garantendo in questo modo un ritardo di decodifica
nullo. In generale, un codice univocamente decifrabile ma non a prefisso non soddisfa a
tale propriet`a.
7

Notiamo che tale percorso sullalbero, dalla radice ad un nodo, e` necessariamente unico.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.5 Codici per la compattazione dati

233

11
1110

1
1

110

01

10

0
00

(a)

(b)

Fig. 10.3. Alberi di codice per il codice C3 (a) ed il codice C4 (b).

 Esempio 10.11. Consideriamo la rappresentazione ad albero dei codici C3 e C4 dellesempio 10.9, riportata in Fig. 10.3. Dallesame degli alberi di codice, si nota chiaramente
come il codice C3 (albero a sinistra) non sia a prefisso (la parola codice 0 e` predecessore
delle parole codice 01 e 00), mentre il codice C4 (albero a destra) e` chiaramente a prefisso,
in quanto tutte le sue parole codice corrispondono a nodi terminali.


10.5.5 Condizioni per lunivoca decifrabilit`a


Osserviamo che un codice univocamente decifrabile non e` necessariamente a prefisso:
in altri termini, la classe dei codici univocamente decifrabili comprende la classe dei
codici a prefisso, ma non si limita ad essa. Pertanto, esistono codici univocamente decifrabili che non sono a prefisso, e quindi verificare mediante lanalisi dellalbero che il
codice non e` a prefisso non consente di dire con sicurezza che esso non e` univocamente
decifrabile.
In effetti, esiste una procedura sistematica (metodo di Sardinas e Patterson) per individuare se un dato codice (a prefisso oppure no) sia univocamente decifrabile, che
tuttavia non approfondiremo. Approfondiamo invece tale problema da un punto di
vista leggermente diverso, che risulter`a piu` proficuo per determinare i limiti ultimi
dellefficienza con cui e` possibile compattare i simboli emessi da una sorgente. Sia
S una sorgente che emette simboli appartenenti ad un alfabeto X = {x1 , x2 , . . . , xK }
con K possibili simboli, e sia C un codice binario simbolo a simbolo, avente parole codice c1 , c2 , . . . , cK , di lunghezze A1 , A2 , . . . , AK . Se il codice e` univocamente decifrabile, le lunghezze Ak devono soddisfare al seguente teorema, che enunciamo senza
dimostrazione.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

234

Elementi di teoria dellinformazione


Teorema 10.1 (disuguaglianza di Mc Millan). Se il codice binario C con parole codice
aventi lunghezze A1 , A2 , . . . , AK e` univocamente decifrabile, risulta necessariamente
K


21k 1 .

k=1

 Esempio 10.12. Applichiamo la disuguaglianza di Mc Millan ai codici C3 e C4 dellesempio 10.9. Per il primo, che gi`a sappiamo essere non univocamente decifrabile, si
ha:
K


21k = 21 + 22 + 22 + 22 =

k=1

5
>1
4

per cui, come ci attendiamo, la disuguaglianza di Mc Millan non e` verificata. Per


il secondo, che sappiamo essere a prefisso e quindi univocamente decifrabile, risulta
invece:
K


21k = 21 + 22 + 23 + 23 = 1

k=1

per cui la disuguaglianza di Mc Millan e` verificata (con il segno di uguaglianza).

Notiamo che la disuguaglianza di Mc Millan fornisce solo una condizione necessaria per
lunivoca decifrabilit`a, condizione che coinvolge tra laltro soltanto le lunghezze delle
parole codice; in altri termini, non e` detto che un codice le cui lunghezze soddisfino la
disuguaglianza di Mc Millan sia univocamente decifrabile: al limite, un tale codice potrebbe addirittura essere singolare, cio`e avere due parole codice coincidenti! Tuttavia,
la disuguaglianza di Mc Millan puo` essere utilizzata anche come condizione sufficiente per la costruzione di un codice a prefisso (e quindi univocamente decifrabile), come
evidenziato dal seguente teorema, che enunciamo senza dimostrazione.
Teorema 10.2 (disuguaglianza di Kraft). Se i K numeri interi positivi A1 , A2 , . . . , AK soddisfano la disuguaglianza
K


21k 1 ,

k=1

allora e` possibile costruire un codice binario C a prefisso (e quindi univocamente decifrabile) con K parole codice aventi lunghezze A1 , A2 , . . . , AK .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.6 Efficienza di codifica

235

Notiamo che la disuguaglianza che compare nei due teoremi precedentemente enunciati e` la stessa, e per questo motivo essi vengono spesso condensati in un unico teorema,
che prende il nome di disuguaglianza di Kraft-Mc Millan. Una conseguenza notevole
di tale disuguaglianza e` che essa ci consente, senza ledere la generalit`a, di considerare, tra i codici univocamente decifrabili, solo quelli a prefisso. Infatti, se ho un codice
univocamente decifrabile, le lunghezze delle parole codice soddisfano necessariamente
il teorema 10.1; allora, in virtu` del teorema 10.2, e` possibile trovare un codice a prefisso avente lo stesso insieme di lunghezze, e quindi la stessa efficienza, in termini di
lunghezza media delle parole codificate.

10.6

Efficienza di codifica

Possiamo adesso affrontare il problema di misurare lefficienza di una data strategia di


codifica, facendo riferimento per il momento a strategie di codifica simbolo a simbolo.
Sia S una sorgente discreta, che emette simboli X appartenenti ad un alfabeto X =
{x1 , x2 , . . . , xK }, di cardinalit`a K, con probabilit`a p1 , p2 , . . . , pK . Lentropia H(X) associata ai simboli emessi dalla sorgente e` pari a:
H(X) =

K


pk log pk .

k=1

Lobiettivo della codifica di sorgente e` quello di costruire un codice univocamente decifrabile, in modo da ottenere sequenze codificate che risultino mediamente le piu` corte
possibile. Per codici a lunghezza fissa, la lunghezza A e` la stessa per tutte le parole
codice, mentre per codici a lunghezza variabile, la lunghezza di ogni parola codice e`
differente. Poiche le parola codice di lunghezza Ak , essendo associata al simbolo di sorgente xk , ricorre con probabilit`a pk , la lunghezza A e` in effetti una variabile aleatoria, di
cui possiamo calcolare la media statistica, ottenendo la lunghezza media del codice:
A  E[A] =

K


p k Ak .

k=1

Possiamo allora, sulla base della disuguaglianza di Kraft-Mc Millan, introdurre un fondamentale risultato, che mette in relazione la lunghezza media A di un codice simbolo a simbolo univocamente decifrabile con lentropia H(X) dei simboli emessi dalla
sorgente.
Teorema 10.3. Per ogni codice C binario simbolo a simbolo univocamente decifrabile, la
lunghezza media A del codice soddisfa la seguente disuguaglianza:
A H(X) ,
dove H(X) e` lentropia dei simboli emessi dalla sorgente (espressa in bit).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

236

Elementi di teoria dellinformazione


Prova. Proviamo che H(X) 8 0, scrivendo (si ricordi che i logaritmi sono in base 2):
H(X) 8 =

K


pk log pk

k=1

K


k=1

K


pk 8k =

k=1

K


pk log pk +

k=1

K


pk log 2k =

k=1

2k
pk log
.
pk

Possiamo adoperare la seguente disuguaglianza, valida per i logaritmi naturali:


ln x x 1 ,
che per i logaritmi in base 2 si scrive, adoperando le formula per il cambiamento di base, come
log x log e (x 1) ,
per cui si ha:
,K

 k
K
K



2
2k
pk log
log e
pk
1 = log e
2k
pk
H(X) 8 =
pk
pk
k=1 ,
k=1
k=1
k=1
K

k
2
1 .
= log e
K


k=1

Poich`e il codice C e` univocamente decifrabile, allora esso soddisfa la disuguaglianza di Mc Millan (cfr.
K
teorema 10.1) per cui k=1 2k 1 0, ed essendo log e 0 si ha
H(X) 8 0 ,


cio`e lasserto.

Il precedente teorema fornisce una interpretazione nuova ed estremamente importante


dellentropia dei simboli emessi da una sorgente; infatti, esso consente di interpretare
tale entropia (in bit) come la minima lunghezza media di un codice binario simbolo
a simbolo che rappresenti i simboli di sorgente in maniera non ambigua (vincolo di
univoca decifrabilit`a). Di converso, il teorema fornisce anche un limite inferiore alla
capacit`a di compattazione dati operata dalla codifica di sorgente: infatti la lunghezza
media di un codice simbolo a simbolo univocamente decifrabile non potr`a mai essere
inferiore allentropia della sorgente. Per confrontare tra loro differenti codici, possiamo
allora definire lefficienza di un codice con lunghezza media A come:


H(X)
,
A

che ovviamente assume valori tra 0 ed 1, ed e` sovente espressa in percentuale.

10.6.1 Codici di Shannon


Bisogna osservare che in pratica la lunghezza media A di un cattivo codice puo` anche essere molto maggiore dellentropia H(X), e quindi lefficienza puo` essere anche

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.6 Efficienza di codifica

237

molto minore dellunit`a. E` utile allora disporre di una procedura per costruire codici
univocamente decifrabili la cui lunghezza media A sia, oltre che inferiormente, anche
superiormente limitata; tale procedura e` dovuta allo stesso Shannon, ed e` descritta dal
seguente teorema.
Teorema 10.4. Data una sorgente discreta S di simboli appartenenti ad un alfabeto X =
{x1 , x2 , . . . , xk } e con probabilit`a p1 , p2 , . . . , pk , e` sempre possibile costruire un codice
binario simbolo a simbolo a prefisso (e quindi univocamente decifrabile) tale che la sua
lunghezza media A sia compresa tra i seguenti limiti:
H(X) A < H(X) + 1 .
Prova. Il limite inferiore e` valido per qualunque codice univocamente decifrabile, e quindi anche per
un codice a prefisso, come stabilito dal precedente teorema. Resta da dimostrare la validit`a del limite
superiore, e per far questo si procede in maniera costruttiva. Definiamo allora le lunghezze delle parole
codice come:
8k = & log pk ' ,

(10.2)

dove il simbolo &x' denota il piu` piccolo numero intero maggiore o uguale ad x. Risulta allora 8k
log pk e quindi 2k pk . Sommando su k si ha:
K

k=1

2k

K


pk = 1 ,

k=1

per cui risulta verificata la disuguaglianza di Kraft (teorema 10.2), e pertanto esiste un codice a prefisso
univocamente decifrabile con parole codice aventi lunghezze 81 , 82 , . . . , 8K . Poiche poi, per la definizione
(10.2) delle lunghezze 8k , risulta anche
8k < log pk + 1 ,
allora si ha
8=

K

k=1

pk 8k <

K


pk ( log pk + 1) =

k=1

K

k=1

pk log pk +

K


pk = H(X) + 1 ,

k=1

per cui risulta provato anche il limite superiore. Notiamo che il codice costruito secondo questa procedura
prende il nome di codice di Shannon.

Per costruire effettivamente il codice di Shannon, una volta determinate le lunghezze


sulla base della (10.2), basta costruire un albero binario di lunghezza pari a L = maxk Ak
ed assegnare le parole codice ai nodi dellalbero, partendo dalle parole piu` corte ed
eliminando via via dallalbero tutti i nodi discendenti dei nodi gi`a assegnati, in modo
da soddisfare la condizione di prefisso. Al termine di questa procedura, tipicamente
si riconosce che alcuni rami che portano alle parole codice possono essere accorciati
senza ledere la condizione di prefisso; a valle di tale potatura dellalbero, si ottiene
allora un codice a prefisso con lunghezza media inferiore a quella del codice di Shannon
originario.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

238

Elementi di teoria dellinformazione


In effetti, bisogna osservare che le prestazioni di un codice di Shannon (senza potatura) non sono necessariamente buone, in quanto la sua efficienza e` compresa tra i
seguenti limiti:
H(X)
<1
H(X) + 1
per cui se H(X)  1 lefficienza puo` assumere valori estremamente bassi, come mostrato dal seguente esempio.
 Esempio 10.13. Sia S una sorgente che emette i simboli x1 ed x2 con probabilit`a p1 =
0.99 e p2 = 0.01. Lentropia dei simboli emessi da una tale sorgente e` estremamente
bassa:
H(X) = 0.99 log 0.99 0.01 log 0.01 = 8.08 102 bit .
Le parole codice del codice di Shannon avranno lunghezze date dalla (10.2), ovvero
A1 = &log 0.99' = 1 ,
A2 = &log 0.01' = 7 ,
per cui la lunghezza media del codice e` :
A = 1 0.99 + 7 0.01 = 1.06 ,
che risulta minore di H(X) + 1, ma molto prossimo ad esso, per cui lefficienza e`
estremamente bassa, essendo pari a 0.076. Daltra parte, pare abbastanza stravagante utilizzare un codice a lunghezza variabile per codificare due simboli di sorgente, in
quanto sarebbe sufficiente considerare un codice a lunghezza fissa, con parole codice
0 ed 1, la cui lunghezza media, esattamente pari ad 1, e` tuttavia ancora molto distante
dallentropia H(X). Daltra parte, questo il meglio che possiamo fare con una codifica
simbolo a simbolo.

Va osservato che lesempio precedente e` un caso limite, in quanto spesso il codice di
Shannon presenta valori di A non troppo lontani dallentropia H(X). In particolare, si
puo` osservare che se le probabilit`a pk sono del tipo pk = 21k , con Ak interi positivi, allora
risulta per la (10.2) Ak = log pk , ed inoltre
A=

K

k=1

p k Ak =

K


pk log pk = H(X) ,

k=1

per cui si ottiene una lunghezza media esattamente pari allentropia, e quindi il codice
di Shannon e` ottimo in questo caso; ovviamente e` raro che la sorgente S presenti proprio
probabilit`a esprimibili come 21k .

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.6 Efficienza di codifica

239

10.6.2 Primo teorema di Shannon


Lesempio 10.13 mostra che la codifica simbolo a simbolo non consente sempre di ottenere lunghezze media prossime allentropia, in particolar modo per sorgenti con pochi
` dobbiamo
simboli e con probabilit`a dei simboli fortemente sbilanciate. Per ovviare a cio,
rimuovere il vincolo della codifica simbolo a simbolo, passando a codificare blocchi di
n simboli. Consideriamo allora un blocco di n simboli consecutivi emessi dalla sorgente, siano essi X1 , X2 , . . . , Xn . Per applicare i risultati della codifica simbolo a simbolo, e`
sufficiente interpretare la sorgente come una sorgente che emette blocchi anziche simboli, e sostituire allentropia del simbolo H(X) lentropia del blocco H(X1 , X2 , . . . , Xn ).
Pertanto, detta A la lunghezza media di un codice di Shannon per i blocchi di n simboli
emessi dalla sorgente, risulta, per il teorema 10.4,
H(X1 , X2 , . . . , Xn ) A < H(X1 , X2 , . . . , Xn ) + 1 .
Ovviamente, al crescere di n crescer`a anche la lunghezza media A del codice di Shannon;
pertanto, per avere un confronto equo per differenti valori di n, calcoliamo la lunghezza
media per simbolo di sorgente An = A/n. Si ha:
1
1
1
H(X1 , X2 , . . . , Xn ) An < H(X1 , X2 , . . . , Xn ) + ,
n
n
n

(10.3)

Osserviamo allora che tale strategia di codifica a blocchi consente di ottenere per n grandi valori arbitrariamente prossimi allentropia media per simbolo n1 H(X1 , X2 , . . . , Xn ).
In particolare, se la sorgente e` senza memoria (DMS), risulta n1 H(X1 , X2 , . . . , Xn ) =
H(X1 ), per cui:
H(X1 ) An < H(X1 ) +

1
,
n

per cui lefficienza puo` essere resa arbitrariamente prossima allunit`a aumentando la
lunghezza del blocco n.
La (10.3) non si applica pero` solo alle sorgenti DMS, ma a qualunque sorgente per
la quale si possa definire il tasso di entropia H(S). Infatti, passando al limite per n
nella (10.3), si ha che limn n1 H(X1 , X2 , . . . , Xn ) = H(S), se tale limite esiste finito, per
cui
lim An = H(S) ,

secondo la quale il tasso dentropia di una sorgente S rappresenta proprio la minima


lunghezza media per simbolo di un codice per la rappresentazione non ambigua dellinformazione emessa da tale sorgente. Tale risultato e` di fondamentale importanza
nella codifica di sorgente, e prende il nome di primo teorema di Shannon, che possiamo
formulare sinteticamente come segue.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

240

Elementi di teoria dellinformazione


Teorema 10.5 (Primo teorema di Shannon). Data una sorgente discreta S, e` sempre possibile costruire un codice binario a blocchi a prefisso (e quindi univocamente decifrabile)
tale che la sua lunghezza media per simbolo di sorgente A sia compresa tra i seguenti
limiti:
1
1
1
H(X1 , X2 , . . . , Xn ) An < H(X1 , X2 , . . . , Xn ) + ,
n
n
n
e quindi arbitrariamente prossima allentropia media per simbolo della sorgente. Inoltre, se H(S) e` il tasso di entropia della sorgente (supposto esistente), risulta
lim An = H(S) .

10.6.3 Efficienza dei codici a lunghezza fissa


Molti dei risultati del paragrafo precedente si applicano, come caso particolare, anche
ai codici a lunghezza fissa. Per questi ultimi, tuttavia, possiamo ragionare in maniera
diretta e molto semplice. Infatti, supponiamo di effettuare la codifica simbolo a simbolo
di una sorgente con K possibili simboli, utilizzando un codice binario di lunghezza fissa
A: le possibili parole codice sono 21 , per cui si richiede, per lunivoca decifrabilit`a, che
(si ricordi che il logaritmo e` in base 2):
21 K A log K .
Daltra parte, log K rappresenta proprio il massimo valore dellentropia H(X) associata
ad una sorgente con K simboli, valore che si ottiene quando i simboli sono equiprobabili, per cui H(X) log K. Combinando tali disuguaglianze, si ha per codici a lunghezza
fissa:
A log K H(X)
e quindi, se H(X)  log K, si ha unefficienza  1, per cui non riusciremo ad ottenere
prestazioni confrontabili a quelle dei codici a lunghezza variabile, salvo nel caso in cui
la sorgente emetta simboli equiprobabili. Daltra parte, le cose non migliorano se pensiamo di estendere la codifica a blocchi di n simboli. Infatti, in questo caso avremo K n
differenti blocchi, per cui la lunghezza media del codice binario dovr`a soddisfare alla
seguente disuguaglianza:
21 K n A log K n = n log K .
Se allora calcoliamo la lunghezza media per simbolo An = A/n, avremo:
An log K ,

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.7 Codici di Huffmann

241

cio`e la stessa limitazione che ottenevamo per la codifica simbolo a simbolo, per cui le
cose non sono affatto migliorate.
Possiamo pertanto affermare che i codici a lunghezza fissa, almeno sulla base di
queste semplici considerazioni, non sono competitivi con i codici a lunghezza variabile.
Considerazioni piu` avanzate porterebbero a strategie di codifica piu` sofisticate, nelle
quali i simboli di sorgente vengono raccolti in blocchi molto lunghi e non a tutti i blocchi
si associano parole codice (si accetta cio`e la possibilit`a che alcuni blocchi possano non
essere codificati). In questo modo si riesce ad ottenere una lunghezza del codice che
approssima a piacere lentropia della sorgente, a patto tuttavia di accettare una (piccola)
probabilit`a di mancata codifica.

10.7

Codici di Huffmann

In questa sezione introdurremo una classe di codici a prefisso, noti come codici di Huffmann, che risultano ottimi e per i quali e` possibile fornire una procedura di costruzione
sistematica. Lottimalit`a di tali codici non va intesa nel senso che essi presentano necessariamente lunghezza media pari al valore minimo possibile, cio`e allentropia, ma nel
senso che tra tutti i codici che utilizzano la stessa lunghezza dei blocchi di sorgente i
codici di Huffmann presentano la minima lunghezza media.8
Anziche definire formalmente le propriet`a dei codici di Huffmann, nei seguenti
esempi mostriamo direttamente come sia possibile costruire tali codici per determinate
sorgenti S.
 Esempio 10.14. Sia S una sorgente con alfabeto di K = 7 simboli X = {x1 , x2 , . . . , x7 },
caratterizzati dalle seguenti probabilit`a (che assumiamo ordinate in senso decrescente,
senza ledere la generalit`a):
p1
p2
p4
p5
p6

= 3/8
= p3 = 3/16
= 1/8
= 1/16
= p7 = 1/32

Codificare tale sorgente con un codice a lunghezza fissa richiede &log K' = 3 bit per
8

Per una discussione piu` approfondita ed una prova dellottimalit`a di tali codici, si veda [11].

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

242

Elementi di teoria dellinformazione

x1

3/8
1

x2
x3
x4
x5
x6
x7

3/16
3/16

3/8

5/8

1/8
1

1/16
1

1/32

1/32

1/16

1/8

1/4

Fig. 10.4. Costruzione di un codice di Huffmann per una sorgente con K = 7 simboli.

simbolo. Se pero` calcoliamo lentropia della sorgente (in bit), troviamo:


H(X) =

7


pk log pk =

k=1

= (3/8) log(3/8) 2(3/16) log(3/16) +


(1/8) log(1/8) (1/16) log(1/16) 2(1/32) log(1/32) =
= 2.37 bit ,
per cui lefficienza di un tale codice a lunghezza fissa e` pari a = 2.37/3 = 79%, e
pertanto relativamente modesta; ci aspettiamo di poter ottenere un risultato migliore
costruendo un codice a lunghezza variabile.
La procedura sistematica per la costruzione di un codice di Huffmann si articola come segue: si costruisce un albero, partendo da sinistra dai simboli di sorgente ordinati
secondo le loro probabilit`a in senso decrescente (vedi Fig. 10.4). Ad ogni passo, i due
simboli con probabilit`a piu` piccole sono accorpati in un nuovo simbolo, cui si assegna
una probabilit`a pari alla somma delle due. Lalbero in questo modo viene costruito a
partire dai nodi terminali fino alla radice, procedendo da sinistra verso destra ed accorpando via via i simboli meno probabili, fino ad esaurire i simboli a disposizione. A
questo punto, il codice di Huffmann si ottiene ripercorrendo lalbero da destra verso
sinistra ed associando a ciascun simbolo la stringa costituita dai contrassegni dei rami.
Il codice che si ottiene con tale procedura e` riportato in Tab. 10.3.
La lunghezza media A di tale codice di Huffmann e` pari a 2.44 bit per simbolo di
sorgente, il che confrontato con lentropia, che e` pari a 2.37 bit, mostra che siamo molto

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.7 Codici di Huffmann


X
x1
x2
x3
x4
x5
x6
x7

probabilit`a pk
3/8
3/16
3/16
1/8
1/16
1/32
1/32

243
parola codice lunghezza Ak
1
1
011
3
010
3
001
3
0001
4
00001
5
00000
5

Tab. 10.3. Codice di Huffmann per una sorgente con K = 7 simboli.

vicini al massimo livello di compattazione ottenibile (lefficienza del codice e` pari a


= 2.37/2.44 97%).

 Esempio 10.15. Mostriamo adesso con un esempio come sia generalmente piu` conveniente la codifica a blocchi rispetto a quella simbolo a simbolo. Consideriamo una
sorgente S senza memoria con alfabeto di sorgente X = {x1 , x2 , x3 }, aventi probabilit`a
3/4, 3/16, e 1/16. Per semplicit`a di notazione, poniamo x1 = A, x2 = B e x3 = C. Lentropia per simbolo di sorgente e` pari a 1.012 bit, ed il codice di Huffmann costruito sulla
base dellalbero in Fig. 10.5 e riportato in Tab. 10.4 ha lunghezza media A pari a 1.25, per
unefficienza pari a = 1.012/1.25 = 81%.

A
B
C

3/4

3/16

1/16

1/4

Fig. 10.5. Costruzione di un codice di Huffmann per una sorgente con K = 3 simboli (codifica
simbolo a simbolo)

X
A
B
C

probabilit`a pk
3/4
3/16
1/16

parola codice lunghezza Ak


1
1
01
2
00
2

Tab. 10.4. Codice di Huffmann per una sorgente con K = 3 simboli (codifica simbolo a simbolo).

Possiamo migliorare questo risultato codificando anziche singoli simboli di sorgente


blocchi di lunghezza n = 2. In questo caso, tutto procede come se considerassimo una

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

244

Elementi di teoria dellinformazione


AA

0.5625
1

AB
AC
BA
BB

0.1406

1.0000

0.2812

0.0469

0.1406

0.4375

0.1563

0.0352

BC
CA
CB
CC

0.0117

0.0625

0.0469

0.0273
0.0117
0.0039

0
1

0.1094
0
0

0.0156

Fig. 10.6. Costruzione di un codice di Huffmann per una sorgente con K = 3 simboli (codifica a
blocchi di n = 2 simboli).

sorgente equivalente di blocchi, che emette i blocchi AA, AB, etc. Poich`e la sorgente
e` senza memoria, e quindi i simboli successivamente emessi dalla sorgente sono statisticamente indipendenti, le probabilit`a associate ai blocchi si ottengono semplicemente
moltiplicando le probabilit`a dei simboli, e sono riportate in Tab. 10.5.
Lentropia di questa nuova sorgente e` chiaramente doppia rispetto a quella della
sorgente per n = 1, essendo i simboli indipendenti (sorgente senza memoria), e vale
pertanto 2.024 bit; lentropia per simbolo pero` non e` cambiata, e vale ancora 1.012 bit.
La costruzione del codice di Huffmann procede come mostrato in Fig. 10.6 (notiamo
che non abbiamo ordinato i blocchi in ordine decrescente di probabilit`a), ed il codice
X1 X2
AA
AB
AC
BA
BB
BC
CA
CB
CC

probabilit`a pk
0.5625
0.1406
0.0469
0.1406
0.0352
0.0117
0.0469
0.0117
0.0039

parola codice lunghezza Ak


1
1
011
3
001
3
010
3
00011
5
000101
6
0000
4
0001001
7
0001000
7

Tab. 10.5. Codice di Huffmann per una sorgente con K = 3 simboli (codifica a blocchi di n = 2
simboli).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

10.7 Codici di Huffmann


relativo e` riportato in Tab. 10.5.
Se si calcola la lunghezza media del codice, si trova A = 2.09, ma stavolta con tale
codice si codificano 2 simboli di sorgente, per cui la lunghezza media per simbolo di
sorgente An e` pari a 2.09/2 = 1.045 bit, inferiore al valore ottenuto con la codifica di un
simbolo alla volta. Difatti, lefficienza passa dal valore = 81% a = 2.024/2.09 =
1.012/1.045 97%, mostrando il significativo vantaggio conseguito con tale strategia
di codifica a blocchi. Notiamo che tale vantaggio della codifica a blocchi si e` manifestato anche se di fatto la sorgente e` senza memoria: vantaggi ancora maggiori si ottengono per sorgenti con memoria. Il prezzo da pagare per questa compattazione piu`
spinta e` la maggiore complessit`a realizzativa del codificatore e del decodificatore. Tale
complessit`a e` certamente proporzionale al numero K n di parole codice e quindi cresce
esponenzialmente con la lunghezza n del blocco da codificare.


autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

245

246

Elementi di teoria dellinformazione

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Appendice A
Fattoriale e coefficiente binomiale
A.1

Fattoriale

Il fattoriale n! di un numero n N {0} e` definito come:


n!  n (n 1) (n 2) 3 2 1 .
Ad esempio, si ha 3! = 3 2 1 = 6 e 5! = 5 4 3 2 1 = 120. Convenzionalmente, si
pone 0! = 1. Nel calcolo combinatorio, il fattoriale rappresenta il numero di differenti
permutazioni di n elementi.
In Matlab, il fattoriale si puo` calcolare come prod(1:n). Il fattoriale e` una funzione
che cresce molto rapidamente, ed unapprossimazione valida per valori elevati di n e` la
cosiddetta formula di Stirling:
n!

A.2

2 nn+1/2 en .

Coefficiente binomiale

Il coefficiente binomiale di parametri n e k n e` definito come:


 
n!
n
n (n 1) (n k + 2) (n k + 1)
=
.

k!
k! (n k)!
k

(A.1)

Nel calcolo combinatorio, il coefficiente binomiale di parametri n e k rappresenta il


numero di disposizioni non ordinate e senza sostituzioni di n oggetti su k posti.
Valgono le seguenti identit`a notevoli:
 
n
= 1;
0

 
n
= n;
1

  

n
n
=
.
k
nk

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

248

Fattoriale e coefficiente binomiale


nonche la seguente:
  
 

n
n
n+1
+
=
.
k
k+1
k+1
In Matlab, il coefficiente binomiale si puo` calcolare con il comando nchoosek(n,k).

A.3

Espansioni binomiali

Il coefficiente binomiale compare nellespansione della potenza n-esima di un binomio,


come enunciato dal seguente teorema binomiale:
n

(a + b) =

n  

n
k=0

ak bnk ,

(A.2)

valido per ogni n N e per ogni a, b R.


Il teorema puo` essere generalizzato al caso di elevazione a potenza qualsiasi, ricorrendo allo sviluppo in serie di Mc-Laurin di (1 + x) . Si ha:

(1 + x) =

 


k=0

xk

(A.3)

dove R, e lespansione vale se |x| < 1. Nella (A.3), la definizione di coefficiente


binomiale e` una semplice generalizzazione della (A.1):
 

( 1) ( k + 2) ( k + 1)
.
(A.4)

k!
k
Per sviluppare (a + b) , allora, ci si riconduce al caso della (A.3), mettendo in evidenza
il maggiore tra a e b.
La relazione (A.3) puo` essere applicata, in particolare, al caso in cui = n, con
n N. Si ha in tal caso:






n
n
n
k
(x) =
(1)k xk .
(1 + x) =
k
k
k=0
k=0
Ma essendo, per la (A.4),
 
n
(n)(n 1) (n k + 1)
n(n + 1) (n + k 1)
=
= (1)k
k
k!
k!


n+k1
(n + k 1)!
= (1)k
= (1)k
k
k! (n 1)!

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

A.3 Espansioni binomiali

249

si ottiene
(1 + x)




n+k1
k=0

(1)k xk ,

|x| < 1 .

Ponendo x in luogo di x, si ottiene poi la formula piu` compatta:


n

(1 x)




n+k1
k=0

xk ,

|x| < 1 ,

che va sotto il nome di espansione binomiale negativa.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(A.5)

250

Fattoriale e coefficiente binomiale

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Appendice B
La funzione G(x)
La funzione G(x) e` definita dallintegrale:
1
G(x) =
2

u2
2

du .

Le principali propriet`a della G(x) sono le seguenti:


1. G() = 0, G(+) = 1, G(0) = 12 ;
2. G(x) e` una funzione monotona strettamente crescente;
3. G(x) = 1 G(x);
4. per valori grandi di x, si ha
x2
1
G(x) 1 e 2 .
x 2

Inoltre la funzione G(x) puo` essere espressa in termini della funzione di errore:
 x
2
2
erf(x) 
eu du .
0
Infatti si ha:

 x
 x
2
u2
1
1
1
u2
G(x) =
e
du = +
e 2 du ,
2
2
2 0

e con il cambio di variabile u/ 2 = v nellintegrale si ha:


1
1
G(x) = +
2


0

v 2




1
x
dv =
1 + erf
.
2
2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

(B.1)

La funzione G(x)

252
0.9999

0.999
0.998
0.99
0.98
0.95
0.9
0.8

G(x)

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.02
0.01
0.005
0.002
0.001
0.0005
0.0001
4

x
Fig. B.1. Grafico in scala gaussiana della funzione G(x).

Tale espressione e` conveniente quando si voglia implementare la funzione G(x) al calcolatore, in quanto quasi tutti i linguaggi di programmazione (Matlab tra essi) possiedono
la erf(x) tra le funzioni di libreria.
Ad esempio, riportiamo di seguito una function Matlab per il calcolo della G(x), che
puo` essere salvata nel file G.m.
function y = G(x);
%G Funzione G.
%
G(X) Calcola la funzione G nel valore x.
y = (1/2) * (1+erf(x/sqrt(2)));
Ad esempio, per ottenere il grafico di Fig. 2.6, si possono utilizzare i comandi
>> x = [-4:0.01:4];
>> plot(x,G);
Se non si dispone di un calcolatore, un grafico in scala gaussiana (Fig. B.1) della
G(x), nel quale la funzione appare come una retta, consente di determinare abbastanza
precisamente i valori della funzione. Per una valutazione ancora piu` accurata, e` tuttavia
indispensabile utilizzare una tabella dei valori della G(x). In Tab. B.1, tratta da [1, pp.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

253
176177], sono riportati i valori di G(x) con quattro cifre decimali per 0 x 3.29.
Per valori di x < 0, si usi la relazione G(x) = 1 G(x), per valori di x 3.29 si
usi lapprossimazione (B.1). La tabella va letta come segue: sulle righe sono riportati i
valori di x con passo 0.1, spostandosi poi lungo una riga si ottengono i valori con passo
0.01. Ad esempio, la terza colonna della terza riga corrisponde a x = 0.22.
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9

0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159

0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7612
0.7910
0.8186

0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212

0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238

0.04
0.5159
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264

0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289

0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315

0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340

0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7518
0.7823
0.8016
0.8365

0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8380

1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9

0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713

0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719

0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726

0.8485
0.8718
0.8907
0.9083
0.9236
0.9370
0.9485
0.9582
0.9664
0.9732

0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738

0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9509
0.9678
0.9744

0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750

0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9758

0.8599
0.8810
0.8997
0.9162
0.9306
0.9430
0.9535
0.9625
0.9699
0.9762

0.8621
0.8836
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767

2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9

0.9773
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981

0.9778
0.9826
0.9865
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982

0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9983

0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9984

0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984

0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984

0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9989
0.9985

0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9980
0.9985

0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986

0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986

3.0
3.1
3.2

0.9986
0.9990
0.9993

0.9987
0.9991
0.9993

0.9987
0.9991
0.9993

0.9988
0.9991
0.9994

0.9988
0.9992
0.9994

0.9988
0.9992
0.9994

0.9989
0.9992
0.9994

0.9989
0.9992
0.9994

0.9989
0.9993
0.9995

0.9990
0.9993
0.9995

Tab. B.1. Valori della funzione G(x) (adattata da [1, pp. 176177]).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

254

La funzione G(x)

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Appendice C
Limpulso di Dirac
Limpulso di Dirac (x) non e` una funzione ordinaria, ma una funzione generalizzata o,
piu` precisamente, una distribuzione. Proviamo a darne una definizione formale, anche
se un maggior rigore matematico richiederebbe luso della teoria delle distribuzioni:
Definizione (impulso di Dirac). Sia (x) una qualsiasi funzione continua in
x = 0. Limpulso di Dirac (x) e` definito dalla seguente condizione:

 b
(0), se 0 ]a, b[
(x) (x) dx =
(C.1)
0,
se 0 [a, b]
a
Notiamo che limpulso di Dirac campiona il valore della funzione (x) nel punto 0. E`
chiaro che non esiste nessuna funzione ordinaria che ha questa propriet`a; tuttavia, una
buona approssimazione di (x) e` una funzione stretta ed alta di area unitaria, ad
esempio:

1
, |x| T /2 ;
T (x) = T
0, |x| > T /2 ;
con T  1 (Fig. C.1). Infatti, se lintervallo ] T /2, T /2[ e` contenuto in ]a, b[, e se la
funzione (x) e` lentamente variabile nellintervallo ] T /2, T /2[, per cui si puo` porre
(x) (0) per |x| T /2, si ha:

a

1
(x) T (x) dx =
T

T /2

T /2

(x) dx (0) .

In realt`a, la precedente uguaglianza approssimata diventa esatta se si passa al limite per


T 0:
 b

1 T /2
lim
(x) T (x) dx = lim
(x) dx = (0) .
T 0 a
T 0 T T /2

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

256

Limpulso di Dirac
y
1/T
T(x)
(area=1)

(x)
(0)

x
-T/2

T/2

Fig. C.1. La funzione T (x) rappresenta, al diminuire della durata T , unapprossimazione della
delta di Dirac (x). Osserviamo che per T sufficientemente piccolo la funzione (x) (0)
nellintervallo ] T /2, T /2[.

nellipotesi che (x) sia continua in x = 0. Questo consente di interpretare limpulso di


Dirac come il limite di una famiglia di funzioni T (x) con le seguenti propriet`a:
per T 0, le funzioni diventano sempre piu` strette;
per T 0, le funzioni diventano sempre piu` alte;
larea di tali funzioni vale 1 indipendentemente da T .
Tale interpretazione dellimpulso di Dirac, tuttavia, per quanto intuitivamente chiara,
non e` matematicamente rigorosa. Infatti, con riferimento alla famiglia di funzioni T (x)
considerata precedentemente, basta osservare, che essa converge, in senso ordinario,
alla funzione (x) identicamente nulla per ogni x = 0, mentre per x = 0 non converge
affatto (diverge); e` chiaro poi che la funzione (x) quasi ovunque nulla non soddisfa la
definizione (C.1), poiche risulta


(x) (x) dx = 0 .
a

La conclusione e` che, a stretto rigore matematico, non possiamo considerare (x) come
il limite per T 0 della famiglia di funzioni T (x); tuttavia tale interpretazione, anche
se imprecisa, puo` rappresentare un valido aiuto allintuizione.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

257

y
area = A

x0

Fig. C.2. La rappresentazione grafica di un impulso di Dirac A (x x0 ) e` una freccia centrata


in x0 , la cui altezza e` proporzionale allarea dellimpulso; si suole indicare il valore dellarea A a
lato dellimpulso.

Limpulso di Dirac gode delle seguenti propriet`a, che si possono facilmente dimostrare sulla base della definizione (C.1):

(x) dx = 1;
1. Area unitaria:

2. Campionamento: f (x) (x) = f (0) (x);


3. Traslazione: f (x) (x x0 ) = f (x0 ) (x x0 );
4. Cambiamento di scala: (ax) =

1
(x);
|a|

d
u(x);
dx
 x
(u) du.
6. Integrazione: u(x) =
5. Derivazione: (x) =

Sulla base delle propriet`a 2 e 3, e` possibile considerare il caso piu` generale di un


impulso A (x x0 ), che rappresenta un impulso di Dirac centrato in x0 e di area pari ad
A (Fig. C.2).
Una importante conseguenza della propriet`a 5 e` la propriet`a di derivazione di una
funzione discontinua: se la funzione f (x) presenta una discontinuit`a di prima specie
del punto x0 , la sua derivata generalizzata presenter`a un impulso di Dirac nel punto x0

di area pari al valore del salto di discontinuit`a f (x+


0 ) f (x0 ) nel punto in questione;
ovvero, detta h(x) la derivata convenzionale, si avr`a:
d

f (x) = h(x) + [f (x+


0 ) f (x0 )] (x x0 ) .
dx

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

258

Limpulso di Dirac

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Bibliografia
Testi elementari di probabilit`a
[1] W. Feller An Introduction to Probability Theory and Its Applications. Volume I. John
Wiley & Sons, 1950.
[2] B. V. Gnedenko, Teoria della probabilit`a. Editori Riuniti, 1979.
[3] A. Papoulis. Probability, Random Variables, and Stochastic Processes. Third edition.
McGraw Hill International Editions, 1991.
[4] D. Stirzaker. Elementary Probability. Cambridge University Press, Cambridge, UK,
1994.

Testi avanzati di probabilit`a


[5] G. Casella and R. L. Berger. Statistical Inference. Duxbury Press, Belmont, California,
USA, 1990.
[6] W. Feller, An Introduction to Probability Theory and Its Applications. Volume II. John
Wiley & Sons, 1966.

Generazione di numeri casuali


[7] D. E. Knuth. The Art of Computer Programming. Volume 2: Seminumerical Algorithms.
Addison-Wesley, Reading, Massachusetts, USA, 1971.
[8] S. K. Park e K. W. Miller, Random number generators: Good ones are hard to
find, Communications of the ACM, vol. 31, n. 10, pp. 1192-1201, 1988.
[9] B. D. Ripley. Stochastic Simulation. John Wiley & Sons, New York, 1987.
[10] R. Y. Rubinstein. Simulation and the Monte Carlo Method. John Wiley & Sons, New
York, 1981.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

260

BIBLIOGRAFIA

Teoria dellinformazione
[11] T. M. Cover and J. A. Thomas Elements of Information Theory. John Wiley & Sons,
New York, 1991.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis