Sei sulla pagina 1di 9

1 Valore atteso condizionato

Supponiamo dato uno spazio di probabilità (Ω, A, P ). Considereremo variabili aleatorie


reali, salvo avviso contrario.

1.1 Preliminari
Sia (G1 , . . . , Gm ) una famiglia di eventi che forma una partizione di Ω (cioè Gi ∩ Gj = ∅
per i 6= j, ∪m j=1 Gj = Ω). Consideriamo la σ-algebra generata da (G1 , . . . , Gm ), indicata
G = σ(G1 , . . . , Gm ). E’ facile verificare che G consiste dell’insieme vuoto e di tutte le unioni
di elementi di (G1 , . . . , Gm ). Inoltre una variabile aleatoria Z èP G-misurabile se e solo se
prende valori costanti su ogni insieme Gj , cioè ha la forma Z = m j=1 zj 1Gj per opportuni
numeri zj .
Analoghe considerazioni si possono fare nel caso di una partizione numerabile (Gj ).
Ricordiamo che fissato B ∈ A la probabilità condizionata dato B è la funzione che a ogni
A ∈ A associa il numero
P (A ∩ B)
P (A|B) := .
P (B)
Ora il nostro obiettivo è definire il valore atteso condizionato di una variabile aleatoria
data una σ-algebra.

1.2 Un caso semplice


Per motivare la definizione che seguirà consideriamo dapprima la situazione particolare
seguente. Sia Y una variabile aleatoria che prende i valori y1 , . . . , yn e X una variabile
aleatoria chePprende i valori x1 , . . . , xm (nel senso che P (X = xj ) > 0). Motivati dal fatto
che E[Y ] = ni=1 yi P (Y = yi ), per ogni xj fissato definiamo
n
X n
X P (X = xj , Y = yi )
E[Y |X = xj ] := yi P (Y = yi |X = xj ) = yi . (1)
P (X = xj )
i=1 i=1

Definiamo ora una variabile aleatoria Z ponendo

Z(ω) = E[Y |X = xj ] se X(ω) = xj .

In altre parole, posto Gj := X = xj = {ω ∈ Ω : X(ω) = xj } si definisce Z avente su ogni


Gj il valore costante E[Y |X = xj ]. Evidentemente (G1 , . . . , Gm ) forma una partizione di
Ω, e per le considerazioni precedenti

Z è G−misurabile, (2)

dove G = σ(G1 , . . . , Gm ). Verifichiamo inoltre che


Z Z
Z dP = Y dP, G ∈ G. (3)
G G

Per questo, dato che ogni G ∈ G è unione di elementi Gj , basta mostrare che per ogni fissato
Gj risulti Z Z
Z dP = Y dP. (4)
Gj Gj

1
Poiché su ogni Gj Z ha il valore costante E[Y |X = xj ] risulta
Z Z
Z dP = E[Y |X = xj ] dP = E[Y |X = xj ]P (Gj )
Gj Gj
n
X X n
P (X = xj , Y = yi )
= yi P (X = xj ) = yi P (X = xj , Y = yi ).
P (X = xj )
i=1 i=1
Pn
D’altra parte poiché Y = i=1 yi 1{Y =yi } risulta
Z n
X Z n
X
Y dP = yi 1{Y =yi } 1Gj dP = yi P (X = xj , Y = yi ),
Gj i=1 Ω i=1

e abbiamo cosı̀ mostrato (4) e di conseguenza anche (3).


Nel prossimo paragrafo vedremo che, date in partenza una variabile aleatoria y ∈ L1 e
una σ-algebra G, le proprietà (2) e (4) caratterizzano Z.

1.3 Definizione e proprietà del valore atteso condizionato


Teorema 1.1. Siano Y ∈ L1 e G una σ-algebra contenuta in A. Esiste allora una variabile
aleatoria Z tale che

a) Z ∈ L1 ;

b) Z è G−misurabile;
Z Z
c) Z dP = Y dP per ogni G ∈ G.
G G

Inoltre se un’altra variabile aleatoria Z 0 soddisfa le proprietà a) − b) − c) allora Z = Z 0 q.c.

Dimostrazione. Ricordiamo il teorema di Radon-Nikodym: sia dato uno spazio misurabile


(E, E) dove sono definite una misura positiva σ-finita µ e una probabilità Q; se risulta che
Q è assolutamente continua rispetto a µ (cioè A ∈ E, µ(A) = 0 implica Q(A) = 0) allora
Q ammette una densità Z rispetto a µ,R cioè esiste una variabile aleatoria Z su (E, E),
integrabile rispetto a µ, tale che Q(A) = A Z dµ per ogni A ∈ E.
Nel nostro caso prendiamo (E, E) = (Ω, G),
Z
µ(A) = P (A), Q(A) = Y dP, A ∈ G.
A

E’ immediato verificare che Q è assolutamente continua rispetto a P e ammette pertanto


una densità Z: esiste allora una variabile aleatoria Z su (Ω, G) R(cioè soddisfacente b)),
integrabile rispetto a P (cioè soddisfacente a)), tale che Q(A) = A Z dµ per ogni A ∈ E
(cioè Z soddisfa anche c)).
Se infine Z 0 soddifa a) − b) − c) allora Z 0 è anch’essa densità di Q rispetto a P e si
conclude che P (Z 6= Z 0 ) = 0.

Definizione 1.2. Siano Y ∈ L1 e G una σ-algebra contenuta in A. La variabile Z nel-


l’enunciato del teorema 1.1 si chiama valore atteso condizionato di Y data G e si indica
E(Y |G).

2
Osserviamo che Z è determinata solo a meno di equivalenza, cioè se Z 0 è G-misurabile
e P (Z 6= Z 0 ) = 0 allora anche Z 0 è valore atteso condizionato di Y data G. Perciò a
rigore E(Y |G) è una classe di equivalenza di variabili aleatorie G-misurabili. Nel seguito
però useremo il simbolo E(Y |G) per indicare una qualsiasi delle variabili aleatorie Z che
soddisfano le proprietà a) − b) − c) nel teorema 1.1.

Osservazione 1.3. La condizione c) del teorema 1.1 si può scrivere nella forma:

E[1G E(Y |G)] = E[1G Y ] per ogni G ∈ G.

Vale in effetti una conclusione più forte:

E[V E(Y |G)] = E[V Y ] per ogni variabile aleatoria V, G−misurabile e limitata.

Questa formula vale infatti per V = 1G (con G ∈ G), perché in tal caso si riduce alla
precedente. Viene poi estesa al caso in cui V è una funzione semplice G-misurabile (cioè una
combinazione lineare di funzioni caratteristiche della forma 1G ) e infine per approssimazione
vale nel caso generale.
Nel caso particolare in cui Y ∈ L2 allora, come vedremo in seguito, risulta E(Y |G) ∈ L2
e
E[V E(Y |G)] = E[V Y ] per ogni variabile aleatoria V, G−misurabile e in L2 . (5)
Anche questa formula si dimostra per approssimazione con ragionamenti standard.

Il prossimo risultato, che presentiamo senza dimostrazione, riporta le principali proprietà


del valore atteso condizionato.

Teorema 1.4. Siano Y, Yn ∈ L1 e G una σ-algebra contenuta in A. Allora valgono le


seguenti proprietà .

1. Y → E(Y |G) è lineare (cioè E(α1 Y1 + α2 Y2 |G) = α1 E(Y1 |G) + α2 E(Y2 |G) q.c. per
α1 , α2 ∈ R).

2. Y ≥ 0 q.c. =⇒ E(Y |G) ≥ 0 q.c.

3. E[E(Y |G)] = E[Y ].

4. Y G-misurabile =⇒ E(Y |G) = Y q.c.

5. Y indipendente da G =⇒ E(Y |G) = E[Y ] q.c.

6. 0 ≤ Yn ↑ Y q.c. =⇒ E(Yn |G) ↑ E(Y |G) q.c. (teorema di convergenza monotona


condizionale).

7. Yn ≥ 0 q.c. =⇒ E(lim inf n→∞ Yn |G) ≤ lim inf n→∞ E(Yn |G) q.c. (lemma di Fatou
condizionale).

8. |Yn | ≤ V ∈ L1 e Yn → Y q.c. =⇒ E(Yn |G) → E(Y |G) q.c. (teorema di convergenza


dominata condizionale).

9. φ : R → R convessa, φ(Y ) ∈ L1 =⇒ φ(E(Y |G)) ≤ E(φ(Y )|G) q.c. (disuguaglianza di


Jensen condizionale).

3
10. H σ-algebra, H ⊂ G ⊂ A =⇒ E(E(Y |G)|H) = E(Y |H) q.c.

11. Z G-misurabile, ZY ∈ L1 =⇒ E(ZY |G) = ZE(Y |G) q.c.

In particolare applicando la disuguaglianza di Jensen condizionale alla funzione φ(x) =


|x|p , che è convessa per 1 ≤ p < ∞, si ottiene

|E(Y |G)|p ≤ E(|Y |p |G) q.c.

a condizione che |Y |p ∈ L1 , cioè che Y ∈ Lp . Prendendo il valore atteso risulta

E[|E(Y |G)|p ] ≤ E[E(|Y |p |G)] = E[|Y |p ] < ∞.

Abbiamo cosı̀ dimostrato che Y ∈ Lp =⇒ E(Y |G) ∈ Lp .

1.4 Valore atteso condizionato e approssimazione


Sia data una variabile aleatoria Y ∈ L2 . Ci proponiamo il problema di approssimarla
mediante un’altra variabile aleatoria Z ∈ L2 vincolata però ad essere misurabile rispetto a
una fissata σ-algebra G ⊂ A. Per misurare la bontà dell’approssimazione useremo il criterio
dell’errore quadratico medio E[(Y − Z)2 ], che cercheremo di minimizzare.

Proposizione 1.5. Data una variabile aleatoria Y ∈ L2 e una σ-algebra G ⊂ A, il minimo


della quantità
E[(Y − Z)2 ],
al variare di Z nell’insieme delle variabili aleatorie G-misurabili e in L2 , si ottiene in
corrispondenza di
Z = E(Y |G).

Dimostrazione. Osserviamo anzitutto che E(Y |G) ∈ L2 poiché Y ∈ L2 . Sia ora Z ∈ L2


G-misurabile arbitrario. Scriviamo

E[(Y − Z)2 ] = E[(Y − E(Y |G) − E(Y |G) − Z)2 ]


= E[(Y − E(Y |G)2 ] + E[(E(Y |G) − Z)2 ] + 2E[(Y − E(Y |G))(E(Y |G) − Z)]

e mostriamo che il terzo addendo è nullo. Posto infatti V = E(Y |G) − Z si osserva che
V ∈ L2 è G-misurabile e si conclude che

E[(Y − E(Y |G))(E(Y |G) − Z)] = E[(Y − E(Y |G))V ] = E[Y V ] − E[E(Y |G)V ] = 0

grazie alla formula (5). Risulta pertanto

E[(Y − Z)2 ] = E[(Y − E(Y |G)2 ] + E[(E(Y |G) − Z)2 ] ≥ E[(Y − E(Y |G)2 ]

che conclude la dimostrazione.

4
1.5 Valore atteso condizionato a una variabile aleatoria
Data una variabile aleatoria X, indichiamo con σ(X) la σ-algebra generata:

σ(X) = X −1 (B) = {A ⊂ Ω : A = X −1 (B), B ∈ B},

dove B indica gli insiemi boreliani di R.


Le variabili aleatorie misurabili rispetto a σ(X) si possono descrivere in modo semplice
come indicato nel seguente teorema.

Teorema 1.6. Una funzione Z : Ω → R è σ(X)-misurabile se e solo se ha la forma

Z(ω) = g(X(ω)), ω∈Ω

dove g : R → R è una funzione misurabile (cioè boreliana).

Dimostrazione. Supponiamo che Z abbia la forma indicata. Allora se B ∈ B

Z −1 (B) = X −1 (g −1 (B)) ∈ σ(X)

per definizione di σ(X) e per il fatto che g −1 (B) ∈ B grazie alla misurabilità di g.
Viceversa supponiamo che Z sia G-misurabile e mostriamo che esiste g boreliana tale
che Z = G(X). Ci limitiamo al caso in cui X prende valori in un insieme al più numerabile
{x1 , x2 , . . .}. Allora, come osservato nella discussione preliminare, Z è G-misurabileP
se e solo
se prende valori costanti su ogni insieme Gj := {X = xj }, cioè ha la forma Z = j zj 1Gj
per opportuni numeri zj . Basta allora scegliere g : R → R ponendo g(xj ) = zj e g(x) = 0
per x 6= xj .

Definizione 1.7. Siano Y ∈ L1 e X un’altra variabile aleatoria. Il valore atteso condizio-


nato E(Y |σ(X)) è detto valore atteso condizionato di Y data X e si indica E(Y |X).

Poiché E(Y |X) è σ(X)-misurabile per definizione, il teorema precedente assicura che
esiste una funzione f : R → R misurabile tale che E(Y |X) = f (X) q.c. In altre parole,
E(Y |X) è una variabile aleatoria che è funzione di X. La funzione f (x) viene indicata con
il simbolo E(Y |X = x) secondo la definizione seguente.

Definizione 1.8. Siano Y ∈ L1 e X un’altra variabile aleatoria. Con il simbolo E(Y |X =


x) si indica una funzione reale misurabile f (x) della variabile x ∈ R tale che E(Y |X) =
f (X) q.c.. E(Y |X = x) è detto valore atteso condizionato di Y dato X = x.

1.6 Approssimazione di una variabile aleatoria per mezzo di un’altra


Siano date due variabili aleatorie X e Y , con Y ∈ L2 . Y rappresenta un valore che non
può essere osservato, mentre il valore di X può essere misurato. Ci proponiamo il problema
di approssimare il valore di Y mediante un’altra variabile aleatoria che abbia la forma
f (X), con f : R → R. La funzione f rappresenta perciò il modo in cui si elabora il
dato osservato X per approssimare una quantità non osservata Y . Per misurare la bontà
dell’approssimazione useremo il criterio dell’errore quadratico medio E[(Y − f (X))2 ], che
cercheremo di minimizzare scegliendo nel modo migliore la funzione f . Su tale funzione
imporremo solo il vincolo che risulti misurabile e che f (X) ∈ L2 .

5
Proposizione 1.9. Siano date due variabili aleatorie X e Y , con Y ∈ L2 . Il minimo della
quantità
E[(Y − f (X))2 ],
al variare di f : R → R nell’insieme delle funzioni misurabili tali che f (X) ∈ L2 , si ottiene
in corrispondenza di
f (x) = E(Y |X = x).
Dimostrazione. Al variare di f nell’insieme delle funzioni descritte, la variabile aleatoria
Z = f (X) varia nell’insieme di tutte le funzioni σ(X)-misurabili tali che Z ∈ L2 . Per
la proposizione 1.5 il minimo si realizza per Z = E(Y |X) e risulta Z = f (X) prendendo
f (x) = E[Y |X = x].

1.7 Calcolo di E[Y |X = x] con formule esplicite: caso continuo


Sia (X, Y ) un vettore aleatorio che ammette densità congiunta f (x, y) rispetto alla misura
di Lebesgue bidimensionale. Supporremo Y ∈ L1 e ci proponiamo di trovare una formula
per il calcolo di E[Y |X = x].
Ricordiamo che X ammette densità rispetto alla misura di Lebesgue (sulla retta reale)
data dalla funzione Z
fX (x) = f (x, y) dy, (6)
R
chiamata anche densità marginale.
Per ogni x ∈ R introduciamo la funzione y → fY |X (y|x), chiamata densità condizionale
di Y dato X = x, definita dalla formula

 f (x, y)
se fX (x) 6= 0,
fY |X (y|x) = fX (x) (7)

k(y) se fX (x) = 0.

In questa formula k(y) è una densità


R di probabilità fissata ad arbitrio, cioè una funzione
misurabile soddisfacente k(y) ≥ 0 e R k(y)dy = 1. E’ facile verificare, usando (6), che anche
la funzione y → fY |X (y|x) soddisfa tali condizioni, e ciò giustifica la sua denominazione.
Proposizione 1.10. Risulta
Z
E[Y |X = x] = y fY |X (y|x) dy.
R
R
Dimostrazione. Posto g(x) = R y fY |X (y|x) dy, occorre verificare che g(X) = E(Y |X),
cioè che per ogni A ∈ σ(X) si abbia

E[g(X) 1A ] = E[Y 1A ].

Per definizione, A ha la forma A = X −1 (B) per un boreliano B ⊂ R, e perciò 1A (ω) =


1B (X(ω)) e occorre pertanto verificare

E[g(X) 1B (X)] = E[Y 1B (X)].

Risulta Z
E[g(X) 1B (X)] = g(x) 1B (x) fX (x) dx
R

6
e sostituendo l’espressione di g(x) e usando il teorema di Fubini si arriva a
Z
E[g(X) 1B (X)] = y fY |X (y|x) 1B (x) fX (x) dxdy.
R2

Supponiamo dapprima B ⊂ C := {x ∈ R : fX (x) 6= 0}. In tal caso per x ∈ B risulta


fY |X (y|x) = f (x, y)/fX (x), da cui
Z
E[g(X) 1B (X)] = y 1B (x) f (x, y) dxdy = E[Y 1B (X)]
R2

che è la formula richiesta. R


Nel caso generale notiamo che P (X ∈ C) = C fX (x)dx = 0 e pertanto P (X ∈ B) =
P (X ∈ B ∩ C), ovvero 1B (X) = 1B∩C (X) q.c., e la tesi da verificare diventa
E[g(X) 1B∩C (X)] = E[Y 1B∩C (X)].
Questa si verifica come nel caso precedente, dato che ovviamente B ∩ C ⊂ C.

Sostanzialmente con gli stessi ragionamenti si dimostra il seguente corollario, per il quale
non serve neppure supporre che Y sia in L1 .
Corollario 1.11. Per ogni funzione h : R → R misurabile e limitata risulta
Z
E[h(Y )|X = x] = h(y) fY |X (y|x) dy.
R

1.8 Calcolo di E[Y |X = x] con formule esplicite: caso discreto


Sia (X, Y ) un vettore aleatorio e supponiamo che X prenda valori in un insieme al più
numerabile (xj ) = {x1 , x2 , . . .}, con P (X = xj ) > 0, e Y ∈ L1 prenda valori in un insieme
al più numerabile (yi ) = {y1 , y2 , . . .}. Ci proponiamo di trovare una formula per il calcolo
di E[Y |X = x].
Ricordiamo che la funzione di massa di probabilità congiunta (chiamata anche densità
discreta congiunta) è definita, sui punti di R2 della forma (xj , yi ), dalla formula
f (xj , yi ) = P (X = xj , Y = yi ).
Ricordiamo anche che la funzione di massa di probabilità di X (chiamata anche densità
discreta di X, o densità marginale di X) è data sui punti xj da
X
fX (xj ) = f (xj , yi ), (8)
i

e risulta fX (xj ) = P (X = xj ) > 0.


Per ogni xj introduciamo ora la funzione yi → fY |X (yi |xj ), chiamata densità condizio-
nale di Y dato X = xj , definita sui punti yi dalla formula
f (xj , yi ) P (X = xj , Y = yi )
fY |X (yi |xj ) = = . (9)
fX (xj ) P (X = xj )
E’ facile verificare, usando (8), che risulta
X
fY |X (yi |xj ) ≥ 0, fY |X (yi |xj ) = 1.
i

Vale allora il risultato seguente, che è l’analogo discreto della proposizione 1.10.

7
Proposizione 1.12. Risulta
 X
 yi fY |X (yi |xj ), se x = xj ,
E[Y |X = x] = i

0 se x 6= xj .
Non riportiamo la dimostrazione, che è del tutto analoga. Osserviamo che la formula
per E[Y |X = xj ] è la stessa che avevamo introdotto nel caso di variabili con un numero
finito di valori (si vedano le formule (1) e (9)).
Sostanzialmente con gli stessi ragionamenti si dimostra il seguente corollario, per il quale
non serve supporre che Y sia in L1 .
Corollario 1.13. Per ogni funzione h : R → R misurabile e limitata risulta
 X
 h(yi ) fY |X (yi |xj ), se x = xj ,
E[h(Y )|X = x] = i

0 se x 6= xj .

1.9 Distribuzioni condizionate


Siano date due variabili aleatorie X e Y . Vogliamo definire il concetto di distribuzione di
Y condizionata a X. Indichiamo ancora con B i boreliani di R.
Definizione 1.14. Diciamo che una funzione q(x, A), definita per x ∈ R e A ∈ B, è una
distribuzione di Y condizionata a X, e la indichiamo col simbolo
P (Y ∈ A|X = x)
se valgono le proprietà seguenti:
a) per ogni A ∈ B, x → q(x, A) è misurabile;
b) per ogni x ∈ R, A → q(x, A) è una probabilità su B;
c) risulta q(x, A) = E[1A (Y )|X = x].
In termini meno precisi si può dire che P (Y ∈ A|X = x) = E[1A (Y )|X = x], a
condizione che tale funzione sia una probabilità rispetto ad A e sia misurabile rispetto
a x.
Formule esplicite per P (Y ∈ A|X = x) si trovano nelle situazioni descritte nei due
paragrafi precedenti.
1. Se (X, Y ) è un vettore aleatorio che ammette densità congiunta f (x, y) rispetto alla
misura di Lebesgue bidimensionale, allora si può applicare il corollario 1.11 prendendo
la funzione h(y) = 1A (y) e ottenendo
Z
P (Y ∈ A|X = x) = fY |X (y|x) dy.
A

2. Se (X, Y ) è un vettore aleatorio, X prende valori in un insieme al più numerabile (xj ),


con P (X = xj ) > 0, e Y prende valori in un insieme al più numerabile (yi ), allora si
può applicare il corollario 1.13 prendendo la funzione h(y) = 1A (y) e ottenendo
 X
 fY |X (yi |xj ), se x = xj ,
P (Y ∈ A|X = x) = yi ∈A

0 se x 6= xj .

8
Notiamo che P (Y ∈ A|X = x) si calcola in entrambi i casi a partire dalla densità
condizionata di Y dato X = x: nel primo caso integrando su A, nel secondo caso facendo
la somma su A dei termini di una serie (o di una somma finita).
Notiamo infine che nel secondo caso
X X P (Y = yi , X = xj ) P (Y ∈ A, X = xj )
P (Y ∈ A|X = xj ) = fY |X (yi |xj ) = = ,
P (X = xj ) P (X = xj )
yi ∈A yi ∈A

e ritroviamo cosı̀ la definizione elementare di probabilità dell’evento {Y ∈ A} condizionata


all’evento {X = xj }, che in questo caso è ben definita poiché P (X = xj ) > 0.