Sei sulla pagina 1di 21

Capitolo 5

Distribuzione gaussiana
5.1 Introduzione
La distribuzione gaussiana (detta anche distribuzione normale) ha una particolare im-
portanza sia nelle applicazioni che nella teoria. Deve questa sua particolare rilevanza alla
sua proprietà di invarianza per la somma standardizzata, come sarà spiegato più avanti
in questo capitolo, nel corso della trattazione generale del teorema limite centrale nel Par.
5.7. Inoltre ha una caratteristica che ne rende il calcolo particolarmente agevole: molte
operazioni si riconducono a calcoli di algebra lineare (matrici). In un caso particolare è
già stata definita nel Par. 3.5; qui riprendiamo l’argomento per introdurre la definizione
generale multivariata.

5.2 Gaussiana unidimensionale (univariata)


Definizione 5.1 (Gaussiana N (0,1)) La distribuzione gaussiana standard, che si in-
dica con il simbolo N (0,1), è quella di densità
1 1
 
p(x) = √ exp − x2 ,
2π 2
x ∈ IR, vedi Fig. 5.1
Si noti che i due flessi sono in −1 e +1 e che le ordinate e le aree corrispondenti sono
molto piccole per |x| > 3
La distribuzione gaussiana N (0,1) è detta anche distribuzione normale N (0,1). Di
questa distribuzione si calcolano facilmente la funzione generatrice dei momenti, la
funzione generatrice dei cumulanti, la funzione caratteristica, i momenti, i cumulanti.

Proposizione 5.2 La funzione generatrice dei momenti della distribuzione gaussiana


standard N (0,1) è la funzione
1
 
G : IR →]0, + ∞[, G(t) = exp t2 .
2
121
122 5 – Distribuzione gaussiana

0.8

0.6
densità
distribuzione cumulata
0.4

0.2

0
-3 -2 -1 0 1 2 3

Figura 5.1 Densità gaussiana standard e sua funzione di distribuzione cumulata

Dimostrazione. Se X ha distribuzione N (0,1) si ha infatti


1
Z
IE[exp(tX)] = √ exp(tx) exp(−x2 /2)dx
2π IR
exp(t2 /2)
Z
= √ exp(−x2 /2 + tx − t2 /2)dx
2π IR
2
exp(t /2)
Z
= √ exp(−(x − t)2 /2)dx
2π IR
2
exp(t /2)
Z
= √ exp(−y 2 /2)dy
2π IR
2
= exp(t /2)
per ogni numero reale t. 2
Conoscendo la funzione generatrice dei momenti possiamo calcolare facilmente i mo-
menti come abbiamo visto nel Par. 3.8:
dn

1

n
IE[X ] = n exp t2 .

dt 2


t=0

Conviene ricorrere allo sviluppo di Taylor della funzione esponenziale:

 n
1 2
1
  ∞
2
t
exp t2
X
=
2 n=0 n!
§5.2 – Gaussiana unidimensionale (univariata) 123


X (t2n )
= n
n=0 2 n!

X (2n)! (t2n )
= n
n=0 2 n! (2n)!

Troviamo quindi, per ogni intero n ≥ 0,


(2n)!
IE[X 2n ] =n
, IE[X 2n+1 ] = 0.
2 n!
La funzione generatrice dei cumulanti è la funzione
1
K : IR → IR, K(t) = t2 .
2
Pertanto i cumulanti della distribuzione N (0,1) sono dati da

km = 0 se m 6= 2,
1 se m = 2.
Un calcolo formalmente identico, che però fa uso dell’integrale di una funzione di
variabile complessa, permette di determinare la funzione caratteristica.
Proposizione 5.3 Se X ha distribuzione N (0,1) la variabile aleatoria a valori complessi
exp(zX) è integrabile per ogni numero complesso z e si ha
1 2
 
IE[exp(zX)] = exp z .
2
Dimostrazione. La variabile aleatoria exp(zX) è integrabile poiché vale la diseguaglianza
|exp(zX)| ≤ exp((<z)X)
e la variabile aleatoria reale exp((<z)X) è integrabile per la Prop. 5.2. La conclusione
segue procedendo come nella dimostrazione della Prop. 5.2. 2
In particolare se z = it con t ∈ IR otteniamo il seguente
Corollario 5.4 La funzione caratteristica della distribuzione N (0,1) è la funzione
1
 
ϕ : IR → C,
I ϕ(t) = exp t2 .
2
Si noti che la funzione caratteristica è proporzionale alla densità e che anche la funzione
generatrice dei momenti è analoga. Inoltre solo i primi due cumulanti sono diversi da 0;
questa proprietà sarà ripresa più sotto.
La funzione di distribuzione cumulata della distribuzione gaussiana standard,
x 1 1
Z  
Φ(x) = √ exp − u2 du
−∞ 2π 2
non è calcolabile con funzioni elementari ma è disponibile tabulata o tramite algoritmi
di calcolo approssimati. La Tab. 5.1 contiene alcuni valori di Φ(x), x = 0,0. 05 . . . 3, da
124 5 – Distribuzione gaussiana

cui si possono ricavare quelli dei corrispondenti valori negativi utilizzando la simmetria
come mostrato in Fig. 5.1. Spesso è anche disponibile una funzione speciale strettamente
collegata, cioè la funzione degli errori
2 x
Z
erf (x) = √ exp(−t2 )dt
π −∞

a cui è facile ricondurre la Φ.

y Φ(y) y Φ(y) y Φ(y)


0. 00 0. 500000 1. 00 0. 841345 2. 00 0. 977250
0. 05 0. 519939 1. 05 0. 853141 2. 05 0. 979818
0. 10 0. 539828 1. 10 0. 864334 2. 10 0. 982136
0. 15 0. 559618 1. 15 0. 874928 2. 15 0. 984222
0. 20 0. 579260 1. 20 0. 884930 2. 20 0. 986097
0. 25 0. 598706 1. 25 0. 894350 2. 25 0. 987776
0. 30 0. 617911 1. 30 0. 903199 2. 30 0. 989276
0. 35 0. 636831 1. 35 0. 911492 2. 35 0. 990613
0. 40 0. 655422 1. 40 0. 919243 2. 40 0. 991802
0. 45 0. 673645 1. 45 0. 926471 2. 45 0. 992857
0. 50 0. 691462 1. 50 0. 933193 2. 50 0. 993790
0. 55 0. 708840 1. 55 0. 939429 2. 55 0. 994614
0. 60 0. 725747 1. 60 0. 945201 2. 60 0. 995339
0. 65 0. 742154 1. 65 0. 950529 2. 65 0. 995975
0. 70 0. 758036 1. 70 0. 955435 2. 70 0. 996533
0. 75 0. 773373 1. 75 0. 959941 2. 75 0. 997020
0. 80 0. 788145 1. 80 0. 964070 2. 80 0. 997445
0. 85 0. 802338 1. 85 0. 967843 2. 85 0. 997814
0. 90 0. 815940 1. 90 0. 971283 2. 90 0. 998134
0. 95 0. 828944 1. 95 0. 974412 2. 95 0. 998411
3. 00 0. 998650
Tabella 5.1 Valori della funzione di distribuzione
cumulata Φ della distribuzione normale standard

Anche la funzione dei quantili della distribuzione gaussiana standard, cioè la funzione
U (p) = Φ−1 (p), p ∈]0,1[, non ammette una espressione analitica semplice ed è disponibile
tabulata o tramite algoritmi di calcolo approssimati. La Tab. 5.2 contiene alcuni valori
per p = 0. 5,0. 51 . . . 0. 97,0. 971 . . . . 999.
La definizione generale univariata si ottiene costruendo a partire dalla distribuzione
N (0,1) tutte le sue trasformazioni ottenibili con un cambiamento di posizione e di scala.

Definizione 5.5 (Gaussiana N (m,σ 2 )) La distribuzione gaussiana generale N (m,σ 2 ),


con m,σ ∈ IR, σ 2 ≥ 0, è quella che si ottiene dalla distribuzione standard con la
trasformazione x 7→ σx + m, vedi Fig. 5.2

Si tratta cioè della distribuzione ricavabile dalla densità gaussiana normale variando
i parametri di posizione e di scala, rispettivamente m e σ. I parametri m, σ 2 sono
rispettivamente la media e la varianza. Infatti, se X ha distribuzione N (0,1), allora
§5.3 – Gaussiana multidimensionale (multivariata) 125

p U (p) p U (p) p U (p) p U (p)


0. 50 0. 00000 0. 70 0. 52440 0. 90 1. 28155 0. 983 2. 12007
0. 51 0. 02507 0. 71 0. 55338 0. 91 1. 34076 0. 984 2. 14441
0. 52 0. 05015 0. 72 0. 58284 0. 92 1. 40507 0. 985 2. 17009
0. 53 0. 07527 0. 73 0. 61281 0. 93 1. 47579 0. 986 2. 19729
0. 54 0. 10043 0. 74 0. 64335 0. 94 1. 55477 0. 987 2. 22621
0. 55 0. 12566 0. 75 0. 67449 0. 95 1. 64485 0. 988 2. 25713
0. 56 0. 15097 0. 76 0. 70630 0. 96 1. 75069 0. 989 2. 29037
0. 57 0. 17637 0. 77 0. 73885 0. 97 1. 88079 0. 990 2. 32635
0. 58 0. 20189 0. 78 0. 77219 0. 971 1. 89570 0. 991 2. 36562
0. 59 0. 22754 0. 79 0. 80642 0. 972 1. 91104 0. 992 2. 40891
0. 60 0. 25335 0. 80 0. 84162 0. 973 1. 92684 0. 993 2. 45726
0. 61 0. 27932 0. 81 0. 87790 0. 974 1. 94313 0. 994 2. 51215
0. 62 0. 30548 0. 82 0. 91537 0. 975 1. 95996 0. 995 2. 57583
0. 63 0. 33185 0. 83 0. 95417 0. 976 1. 97737 0. 996 2. 65207
0. 64 0. 35846 0. 84 0. 99446 0. 977 1. 99539 0. 997 2. 74778
0. 65 0. 38532 0. 85 1. 03643 0. 978 2. 01409 0. 998 2. 87817
0. 66 0. 41246 0. 86 1. 08032 0. 979 2. 03352 0. 999 3. 09024
0. 67 0. 43991 0. 87 1. 12639 0. 980 2. 05375
0. 68 0. 46770 0. 88 1. 17499 0. 981 2. 07485
0. 69 0. 49585 0. 89 1. 22653 0. 982 2. 09693
Tabella 5.2 Valori della funzione dei quan-
tili U della distribuzione gaussiana standard

σX + m ha distribuzione N (m,σ 2 ) e si ha
IE [σX + m] = m, Var (σX + m) = σ 2 .
osserviamo che nel caso σ 2 = 0 di ottiene la variabile aleatoria costante e dunque
la distribuzione N (a,0) coincide con la distribuzione di Dirac δa . Nel caso σ 2 > 0 si
riottiene la densità già introdotta precedentemente nell’Es. E. Data la semplicità della
trasformazione, di questa distribuzione si calcolano facilmente la densità, la funzione
generatrice dei momenti, la funzione generatrice dei cumulanti, la funzione caratteristica,
i momenti, e i cumulanti come sopra per la media e la varianza oppure riconducendosi
con la trasformazione inversa y 7→ (y − m)/σ al caso standard1 .
Si noti che il solo cumulante non nullo è il secondo: questa proprietà è caratteristica
della distribuzione N (m,σ 2 ). La vicinanza della funzione caratteristica o dei cumulanti
di una distribuzione generica possono essere usate per valutare la somiglianza di tale
distribuzione a quella gaussiana.
La funzione di distribuzione cumulata e quella dei quantili si possono ricondurre
facilmente a quelle della distribuzione standard, oppure alla funzione x 7→ erf (x).

5.3 Gaussiana multidimensionale (multivariata)


Nel caso multidimensionale si costruisce la famiglia delle distribuzioni gaussiane come
nel caso unidimensionale, partendo cioè da un caso standard e poi generando tutti gli
altri con una generica trasformazione.
1
Ricavarle come esercizio!
126 5 – Distribuzione gaussiana

0.8 standard
trasformazione
trasformata
0.6

0.4

0.2

0
-6 -4 -2 0 2 4 6

Figura 5.2 Distribuzione gaussiana univariata N (m,σ 2 ) rica-


vata per trasformazione della distribuzione gaussiana standard

Siano X1 , . . . ,Xn variabili aleatorie indipendenti e identicamente distribuite secondo


una gaussiana N (0,1). La densità della distribuzione congiunta del vettore
X1
 
 .. 
X = . 
Xn
si ottiene come prodotto delle distribuzioni delle componenti,
n
1 1 1
   
√ exp − x2i = (2π)−n/2 exp − kxk2 .
Y
pX (x) = (5.1)
i=1 2π 2 2

Questa è la distribuzione che tiene il posto della gaussiana standard univariata.

Definizione 5.6 (Gaussiana N (0n ,In )) Si chiama distribuzione gaussiana standard


n-variata e si indica con il simbolo Nn (0n ,In ), dove 0n denota il vettore nullo di IRn e In
la matrice identica su IRn la distribuzione su IRn che ha densità 5.1.

La funzione caratteristica si calcola a partire dalla funzione caratteristica della distri-


buzione N (0,1).

Proposizione 5.7 La funzione caratteristica della distribuzione N (0 n ,In ) è la funzione


1
 
n
ϕ : IR → C,
I ϕ(t) = exp − ktk2 .
2
§5.3 – Gaussiana multidimensionale (multivariata) 127

Dimostrazione. Denotando con (ϕXk )nk=1 le funzioni caratteristiche delle variabili alea-
torie indipendenti (Xk )nk=1 si ha
ϕ(t) = ϕX1 (t1 )ϕX2 (t2 ) . . . ϕXn (tn )
1 1 1
     
= exp − t21 exp − t22 . . . exp − t2n
2 2 2
1 2
 
= exp − ktk
2
2
Passiamo ora a definire la distribuzione gaussiana generale come trasformazione di
quella “standard”.

Definizione 5.8 (Gaussiana N (b,Γ)) Sia A una matrice n × k tale che AA∗ = Γ e
b un vettore b ∈ IRn . La distribuzione gaussiana N (b,Γ) è quella che si ottiene dalla
distribuzione standard N (0k ,Ik ) con la trasformazione IRk 3 x 7→ Ax + b ∈ IRn .
Osserviamo che la matrice Γ è simmetrica e semidefinita positiva poiché è della forma
AA∗ .
Come nel caso unidimensionale i momenti, la matrice di covarianza, la funzione ca-
ratteristica ... si calcolano facilmente a partire dal corrispondente dalla distribuzione
standard N (0k ,Ik ).

Proposizione 5.9 Se X ha distribuzione N (b,Γ) allora


IE[Xj ] = bj ,
per ogni j ∈ {1, . . . ,n}, la matrice di covarianza di X è Γ e la funzione caratteristica di
X è la funzione
1
 
ϕ : IRn → C,
I ϕ(t) = exp iht,bi − ht,Γti .
2
Dimostrazione. Per come è stata definita la distribuzione N (b,Γ), X ha la stessa distri-
buzione, e perciò gli stessi momenti e la stessa funzione caratteristica, di una variabile
h=1,...,k
aleatoria della forma AY + b con A = (ajh )j=1,...,n matrice k × n e Y è una variabile alea-
toria a valori in IRk le cui componenti sono indipendenti e hanno distribuzione N (0,1).
Si ha quindi
IE[Xj ] = IE[(AY )j + bj ]
k
X
= ajh IE[Yh ] + bj = bj
h=1

e, inoltre, per le proprietà delle variabili aleatorie (Yj )kj=1 ,


IE[(Xj − IE[Xj ])(Xh − IE[Xh ])] = IE [(AY )j (AY )h ]
k X
X k
= ajl ahm IE[Yl Ym ]
l=1 m=1
128 5 – Distribuzione gaussiana

k
X
= ajl ahl
l=1
= (AA∗ )jh = Γjk .
Infine funzione caratteristica di X è
ϕ(t) = IE [exp (i ht,AY + bi)]
= exp(iht,bi) IE [exp (ihA∗ t,Y i)]
1
 
= exp(iht,bi) exp − kA∗ tk2
2
1
 

= exp iht,bi − ht,AA ti
2
essendo la funzione caratteristica di Y data dalla Prop. 5.7. 2
La famiglia delle distribuzioni gaussiane multivariate è stabile per trasformazioni del
tipo di quelle che la definiscono.
Proposizione 5.10 Sia B una matrice m × n e v un vettore in IR m . Se la variabile
aleatoria X ha distribuzione N (b,Γ) allora la variabile aleatoria BX + v ha distribuzione
N (Bb + v,BΓB ∗ ).
Dimostrazione. Basta osservare che, se era X = AZ + b allora Y = B(AZ + b) + v =
BAZ + (Bb + v) e BA(BA)∗ = BΓB. 2
Facciamo vedere infine che esistono variabili aleatorie gaussiane per ogni assegnazione
di b e di Γ.
Proposizione 5.11 (Standardizzazione della N (b,Γ)) Sia b un generico vettore di
IRn e sia Γ una generica matrice simmetrica e definita non negativa di dimensione n.
Indichiamo con k il rango di Γ.
1. Esiste una matrice B di dimensione k × n tale che BΓB ∗ = Ik . Dunque, se Y ∼
N (b,Γ), allora B(Y − b) ∼ Nk (0,I).
2. Esiste una matrice una matrice n × k A tale che AA∗ = Γ. Dunque esiste una
variabile aleatoria di distribuzione N (b,Γ)
Dimostrazione. Non riportiamo la dimostrazione, che è di carattere algebrico ed è basata
sul calcolo degli autovalori e degli autovettori della matrice simmetrica e semidefinita
positiva Γ 2
Applicando la formula di cambiamento di variabile negli integrali multipli del Teo.
3.19 si può trovare la densità della distribuzione N (b,Γ) sotto un’ipotesi opportuna.
Infatti la proposizione precedente mostra che se k < n cioè se la matrice Γ è degenere,
allora la distribuzione N (b,Γ) sta tutta in un sottospazio proprio di dimensione k di IR n .
Proposizione 5.12 Supponiamo che la matrice Γ sia invertibile. Allora la distribuzione
N (b,Γ) ha densità
1D
 E 
−n/2 −1/2
p(x) = (2π) (det Γ) exp − x − b,Γ−1 (x − b) .
2
§5.3 – Gaussiana multidimensionale (multivariata) 129

Segnaliamo infine quest’uso di terminologia: se X è un vettore gaussiano, allora si


usa anche dire equivalentemente che le sue componenti sono congiuntamente gaussiane.
Quest’uso serve a mettere in evidenza il problema illustrato nell’esempio seguente.
Esempio A (Non congiuntamente gaussiane)  Siano X e Z due variabili
aleatorie indipendenti. La prima è gaussiana standard e la seconda vale +1 o −1 con
probabilità 1/2 (segno aleatorio). Consideriamo la variabile aleatoria Y = ZX. Si
ottiene dall’indipendenza e dalla simmetria della distribuzione di X:
1 1
IP {Y ∈ A} = IP X ∈ A + IP −X ∈ A = IP X ∈ A
2 2
Dunque anche Y è gaussiama. Ma X e Y non sono congiuntamente gaussiane, per-
ché se lo fossero allora lo sarebbe anche X + Y . ma questo non è vero; infatti
IP X + Y = 0 = IP Z = −1 = 12 , cosa impossibile per una gaussiana univariata. 

Esempio B (Gaussiana bivariata)  È interessante considerare il caso particolare


della distribuzione bivariata. In questo caso, indicando con X e Y le due componenti,
la matrice Γ assume la forma
" #
Var (X) Cov (X,Y ) σ12 ρσ1 σ2
 
=
Cov (X,Y ) Var (Y ) ρσ1 σ2 σ22
dove abbiamo introdotto la correlazione ρ tra X e Y . Allora
" #
σ12 ρσ1 σ2
det = (1 − ρ2 )σ12 σ22
ρσ1 σ2 σ22
Se ρ = 1 allora la matrice diventa di rango 1 e si può scrivere
" #
σ12 σ1 σ2 σ
 
= σ1 [ σ1 σ2 ]
σ1 σ2 σ22 2

cioè la distribuzione con media nulla e quella Γ si può ottenere da una Z ∼ N (0,1)
come X = σ1 Z e Y = σ2 Z. La distribuzione è tutta concentrata su di una retta.
Se ρ 6= 1 allora la matrice Γ è invertibile e l’inversa vale
" #−1 " #
σ12 ρσ1 σ2 h
2
i−1 σ22 ρσ1 σ2
= (1 − ρ )σ12 σ22
ρσ1 σ2 σ22 ρσ1 σ2 σ12
" #
σ1−2 ρσ1−1 σ−12
= (1 − ρ2 )−1 −1 −1
ρσ1 σ2 σ2−2
La densità con medie a1 e a2 è
h i−1/2
p(x,y) = (2π)−1 (1 − ρ2 )σ12 σ22
" " 2 2 ##
1 x − a1 x − a1 y − a2 y − a2
   
× exp − − 2ρ +
2(1 − ρ2 ) σ1 σ1 σ2 σ2
130 5 – Distribuzione gaussiana

5.4 Indipendenza per la distribuzione gaussiana multivariata


Supponiamo che un certo vettore Y di distribuzione gaussiana Nn (b,Γ) sia suddiviso in
Y1
 
due blocchi, Y = , di dimensioni rispettivamente n1 ,n2 , con n = n1 + n2 . Allora
Y2
la media  e la matrice delle
 varianze e covarianze risultano anch’esse ripartite in blocchi,
b1 Γ11 Γ12
 
b= ,Γ= , con bi = IE [Yi ] ,Γij = IE [(Yi − bi )(Yj − bj )t ], i,j = 1,2. Anche
b2 Γ21 Γ22
la funzione caratteristica si può ripartire in blocchi e si ricava:
1
 
ΦY1 Y2 (t1 ,t2 ) = ΦY1 (t1 )ΦY2 (t2 ) exp − (t1 · Γ12 t2 + t2 · Γ21 t1 ) .
2
Ciò dimostra la proposizione seguente.

Proposizione 5.13 (Indipendenza per la gaussiana) Y1 e Y2 sono indipendenti se


e solo se sono non correlati, cioè se e solo se Γ12 = 0. Ne segue che per l’indipendenza
dei vettori gaussiani, la condizione necessaria di non correlazione è anche sufficiente.

Esempio C (Gaussiana bivariata - segue dall’Es. B)  Nel caso della distri-


buzione bivariata la non correlazione significa ρ = 0. Dunque la densità diventa

" 2  #
1 y − a2 2
x − a1
h i−1/2 
p(x,y) = (2π)−1 σ12 σ22 exp − +
2 σ2 σ1
" # " #
1 1 2 1 1 2
= q exp − 2 (x − a1 ) × q exp − 2 (y − a2 )
2πσ12 2σ1 2πσ22 2σ2

5.5 Regressione lineare


Prima di passare alla trattazione del condizionamento tra due variabili aleatorie congiun-
tamente gaussiane, consideriamo una problema detto della regressione.

Proposizione 5.14 Sia Y1 una variabile aleatoria di dimensione n1 e Y2 una variabile


aleatoria di dimensione n2 .

1. Sia L12 una matrice n1 × n2 . Allora

Cov (Y1 − L12 Y2 ,Y2 ) = 0 se e solo se L12 Var (Y2 ) = Cov (Y1 ,Y2 )
§5.6 – Condizionamento per la distribuzione gaussiana multivariata 131

2. Sia n1 = 1 e sia l12 un vettore riga tale che l12 Var (Y2 ) = Cov (Y1 ,Y2 ). Allora il
minimo della quantità

IE [Y1 − (a + lY2 )]
si ottiene per a = IE [Y1 ] − l IE [Y2 ] e l = l12 .
Dimostrazione. Non riportiamo la dimostrazione che per altro è una verifica diretta. Il
problema risolto da questa proposizione si chiama spesso problema dei minimi quadrati
2

Esempio D (Gaussiana bivariata - segue dall’Es. C)  Nel caso della distribu-


zione gaussiana bivariata abbiamo l12 σ22 = ρσ1 σ2 da cui segue, se σ2 6= 0 che l12 = ρ σσ12 .
La miglior approssimazione ai minimi quadrati di X con Y è a1 + ρ σσ12 (Y − a2 ). 

5.6 Condizionamento per la distribuzione gaussiana multiva-


riata
Consideriamo un vettore gaussiano diviso in due blocchi Y1 , Y2 . Usando la proposizione
5.14 determiniamo una matrice L e un vettore c tali che Y1 − (LY2 + c) sia di media
nulla e indipendente da Y2 . Si ricava che deve essere c = −Lb2 + b1 , Γ12 = LΓ22 . Tale
equazione in L ha sempre una soluzione e la soluzione è unica se det Γ22 6= 0.
Il vettore gaussiano cosı̀ determinato,
Y1 − b1 − L12 (Y2 − b2 )
 
,
Y2 − b 2
ha distribuzione gaussiana
0 Γ − L12 Γ21 0
   
Nn , 11 . (5.2)
0 0 Γ22

Proposizione 5.15 (Condizionamento per la Gaussiana) La distribuzione di Y1


condizionatamente a Y2 è gaussiana
Nn1 (b1 + L12 (Y2 − b2 ),Γ11 − L12 Γ21 ).
Dimostrazione. La distribuzione condizionata può essere caratterizzata considerando
l’attesa condizionata della generica funzione di Y1 rispetto a Y2 .
Se in tale attesa intercaliamo la variabile L12 (Y2 − b2 ) + b1 , otteniamo, usando l’indi-
pendenza e la distribuzione 5.2

IE [φ(Y1 )|Y2 ] = IE [φ(Y1 − (L12 (Y2 − b2 ) + b1 ) + (L12 (Y2 − b2 ) + b1 )|Y2 ]


Z
= φ(z + L12 (Y2 + b2 ) + b1 )µN (0,Γ11 −L12 Γ21 ) (dz)
Z
= φ(z)µN (L12 (Y2 +b2 )+b1 ,Γ11 −L12 Γ21 ) (dz)
132 5 – Distribuzione gaussiana

Esempio E (Gaussiana bivariata - segue dall’Es. D)  In questo caso, usando


i calcoli svolti negli esempi precedenti, si trova che la distribuzione di X data Y è
N (a1 + ρ σσ12 (Y − a2 ),(1 − ρ2 )σ12 ). 

5.7 Teorema limite centrale


Riprendiamo con maggiore generalità la trattazione del teorema limite centrale di cui si
è fatto cenno nel caso particolare delle Schema di Bernoulli nel Par. 2.8.3.
La distribuzione gaussiana è stabile per la somma standardizzata, nelPsenso seguente.
Siano X1 . . . Xn variabili aleatorie gaussiane indipendenti e sia Sn P= nk=1 XPk la loro
somma. Allora, se Xk ∼ N (ak ,σk2 ) la somma Sn è una gaussiana N ( nk=1 ak , nk=1 σk2 ) e
dunque la sua standardizzata
Pn
Sn − ( k=1 ak )
qP
n
k=1 σk2

è una gaussiana standard.


Questa stabilità è valida anche in modo approssimato per tutte le variabili aleatorie
indipendenti ed equidistribuite nel senso che le distribuzioni delle somme standardizzate
convergono in senso opportuno ad una distribuzione gaussiana. È come se la distribuzione
gaussiana fosse una sorta di situazione di equilibrio stabile ottenibile calcolando delle
somme standardizzate di molte variabili aleatorie indipendenti.
Il teorema limite centrale ha anche una seconda interpretazione interessante nei termini
della velocità di convergenza della legge dei grandi numeri: ritorneremo su questo punto
dopo aver enunciato il Teorema.

Teorema 5.16 (Teorema limite centrale) Sia (Xn )n≥1 una successione di variabili
aleatorie indipendenti equidistribuite con media m e varianza σ 2 . Per ogni intero n ≥ 1,
posto
n
X
Sn = Xk .
k=1

si ha la relazione
( )
Sn − mn 1 Zb 1 2
 
lim IP a < √ <b = exp − x dx
n→∞ σ n 2π a 2
per ogni coppia di numeri reali a,b tali che a < b.

La successione di variabili aleatoria che compare nel teorema si può anche scrivere
√ 
Sn − mn n Sn

√ = −m
σ n σ n
§5.7 – Teorema limite centrale 133

mettendo in evidenza che il fatto che questa quantità tende in un modo opportuno verso
un limite finito e non nullo comporta
 una
 affermazione sul modo di convergere a zero per
Sn
la legge dei grandi numeri di n − m
Premettiamo alcuni lemmi alla dimostrazione
√ del teorema. Nel seguito denotiamo con
Yn le variabili aleatorie (Sn − mn)/(σ n) e con ϕYn le loro funzioni caratteristiche.

Lemma 5.17 La successione delle funzioni caratteristiche (ϕYn )n≥1 converge puntual-
mente verso la funzione caratteristica della distribuzione N (0,1).

Dimostrazione. La dimostrazione si fa calcolando il logaritmo della funzione caratteristica


di Yn e calcolandone il polinomio di Taylor di ordine 2 2
Denotiamo con S l’algebra delle funzioni f su IR infinite volte derivabili e a decrescenza
rapida cioè tali che
h

k d

sup x f (x) < +∞.

dx h
x∈IR

per ogni coppia di interi non negativi h,k. Osserviamo che S contiene, in particolare,
l’algebra delle funzioni infinite volte differenziabili con supporto compatto e le funzioni
della forma x → P (x) exp(−x2n ) con P polinomio e n intero non negativo.
Utilizziamo questo risultato di Analisi: la trasformata di Fourier su S
Z
F : S → S, (F f ) (t) = f (x) exp(itx)dx,
IR

è un’applicazione bigettiva.

Proposizione 5.18 Per ogni funzione f appartenente a S si ha la relazione


1 1
Z  
lim IE[f (Yn )] = f (x) exp − x2 dx.
n→∞ 2π IR 2
Dimostrazione. Come abbiamo già osservato, per ogni f ∈ S esiste un’unica g ∈ S tale
che Z
f (x) = g(t) exp(itx)dt
IR

per ogni x ∈ IR. Utilizzando la funzione g, detta µn la distribuzione di Yn , possiamo


scrivere il valore atteso IE[f (Yn )] nel modo seguente
Z
IE[f (Yn )] = f (x)dµn (x)
ZIR Z
= dµn (x) g(t) exp(itx)dt
IR IR

e quindi, per il teorema di Fubini,


Z Z
IE[f (Yn )] = g(t)dt exp(itx)dµn (x)
ZIR IR

= g(t)ϕYn (t)dt.
IR
134 5 – Distribuzione gaussiana

La successione di funzioni caratteristiche (ϕYn )n≥1 è uniformemente limitata per il Teo-


rema 3.34 1. e converge puntualmente verso la funzione t → exp(−t2 /2). Dunque,
applicando il teorema di Lebesgue, troviamo
Z
lim IE[f (Yn )] = lim g(t)ϕYn (t)dt
n→∞ n→∞ IR
Z  
= g(t) exp −t2 /2 dt
IR
1
Z Z
= √ g(t)dt exp(itx) exp(−x2 /2)dx.
2π IR IR

Applicando ancora il teorema di Fubini si ha infine


1
Z Z
lim IE[f (Yn )] = √ g(t)dt exp(itx) exp(−x2 /2)dx
n→∞ 2π IR IR
1
Z Z 
2
= √ exp(−x /2)dx g(t) exp(itx)dt
2π IR IR
1 Z
= √ f (x) exp(−x2 /2)dx.
2π IR
La proposizione è cosı̀ dimostrata. 2
Possiamo ora dimostrare il teorema limite centrale.
Dimostrazione. (teorema limite centrale) Per ogni ε ∈]0,(b − a)/2[ consideriamo due
funzioni fε e gε appartenenti ad S perché a supporto compatto tali che

1 se x ∈ [a,b], 1 se x ∈ [a + ε,b − ε],


 
fε (x) = gε (x) =
0 se x ∈
/ [a − ε,b + ε], 0 se x ∈
/ [a,b],
Per ogni intero n ≥ 1 si ha

IE[gε (Yn )] ≤ IE[1]a,b[ (Yn )] = IP {a < Yn < b} ≤ IE[fε (Yn )]


Grazie alla proposizione precedente, si può trovare un intero nε 1 in modo tale che, per
ogni intero n > nε , valgano le diseguaglianze
1
Z
IE[fε (Yn )] < ε + √ fε (x) exp(−x2 /2)dx
2π IR
1 Z
< ε+ √ 1]a−ε,b+ε[ (x) exp(−x2 /2)dx
2π I
R
= ε + (Φ(b + ε) − Φ(a − ε)) ,
dove Φ denota la funzione di distribuzione cumulata della distribuzione N (0,1). Ana-
logamente si trova la diseguaglianza
IE[gε (Yn )] > −ε + (Φ(b − ε) − Φ(a + ε)) .
Quindi, per ogni intero n > nε , si ottiene la diseguaglianza
−ε + (Φ(b − ε) − Φ(a + ε)) < IP {a < Yn < b} < ε + (Φ(b + ε) − Φ(a − ε))
§5.8 – Formulario 135

da sui segue immediatamente


−ε − (Φ(b) − Φ(b − ε)) − (Φ(a + ε) − Φ(a)) < IP {a < Yn < b} − (Φ(b) − Φ(a))
< ε + (Φ(b + ε) − Φ(b)) + (Φ(a) − Φ(a − ε)) .
Ricordando che la funzione Φ è derivabile la sua derivata è la densità della distribuzione
N (0,1) che è maggiorata dalla costante 1, otteniamo facilmente le diseguaglianze
0 < Φ(a + ε) − Φ(a) < ε , 0 < Φ(a) − Φ(a − ε) < ε,
0 < Φ(b + ε) − Φ(b) < ε , 0 < Φ(b) − Φ(b − ε) < ε.
Otteniamo quindi la diseguaglianza
−3ε < IP {a < Yn < b} − (Φ(b) − Φ(a)) < 3ε
per ogni n > nε che conclude la dimostrazione. 2

5.8 Formulario
5.8.1 Distribuzione gaussiana standard
1. Simbolo: Z ∼ N (0,1)
 
2. Densità: pZ (z) = √1 exp − 12 z 2

 2
t
3. Funzione generatrice dei momenti: GZ (t) = exp 2
, t ∈ IR.
 2

4. Funzione caratteristica: ΦZ (t) = exp − t2 , t ∈ IR.
5. Funzione degli errori: erf (x) = √2 x exp(−t2 )dt,x ∈ IR
R
π −∞
Rx    
6. Funzione di ripartizione: FZ (x) = √1 exp − 12 z 2 dz = erf √x , x ∈ IR
−∞ 2π 2

5.8.2 Distribuzione gaussiana univariata


1. Simbolo: Y ∼ N (m,σ 2 )
2. Costruzione: se Z ∼ N (0,1) e Y = m + σZ allora Y ∼ N (m,σ 2 )
3. Trasformazione: se Y ∼ N (m,σ 2 ) e X = c + bY , allora X ∼ N (c + bm,b2 σ 2 )
Y −m
4. Standardizzazione: se Y ∼ N (m,σ 2 ) e σ 2 6= 0, se Z = σ
allora Z ∼ N (0,1)
 
σ2 t 2
5. Funzione generatrice dei momenti: GY (t) = exp mt + 2
, t ∈ IR.
 
σ2 t 2
6. Funzione caratteristica: ΦY (t) = exp imt − 2
, t ∈ IR.
h i
7. Densità: se Y ∼ N (m,σ 2 ) e σ 2 6= 0, allora pY (y) = √1 1
exp − 2y (m − σ 2 )2
2πy
136 5 – Distribuzione gaussiana

5.8.3 Distribuzione gaussiana multivariata standard


1. Simbolo: Z ∼ Nn (0,In ), 0 vettore nullo di IRn e In matrice identità n × n
 
Qn t2i
2. Funzione generatrice dei momenti: GZ (t) = i=1 exp 2
= exp 21 |t|2
 
Qn t2
3. Funzione caratteristica: ΦZ (t) = i=1 exp − 2i = exp − 12 |t|2
Qn   n
4. Densità: pZ (z1 , . . . ,zn ) = √1 exp − 12 zi2 = (2π)− 2 exp − 12 |x|2
i=1 2π

5.8.4 Distribuzione gaussiana multivariata


1. Simbolo: Y ∼ Nn (b,Γ), b ∈ IRn e Γ matrice n × n simmetrica e definita positiva
2. Costruzione: se Z ∼ Nn (0,In ) e Y = b + AZ, allora Y ∼ Nn (b,Γ) con Γ = AAt
3. Trasformazione: se Y ∼ Nn (b,Γ) e X = c + BY allora X ∼ Nn (c + Bb,BΓB t )
4. Standardizzazione: se Y ∼ Nn (b,Γ) e Γ ha rango k ≤ n allora esistono una Z ∼
Nk (0,Ik ) ed una matrice A tali che Y = b + AZ
 
5. Funzione generatrice dei momenti: GY (t) = exp b · t + 21 t · Γt , t ∈ IRn , b ∈ IRn , Γ
simmetrica e semi-definita positiva.
 
6. Funzione caratteristica: ΦY (t) = exp ib · t − 21 t · Γt , t ∈ IRn , b ∈ IRn , Γ simmetrica
e semi-definita positiva.
7. Densità: se Y ∼ N (b,Γ), b ∈ IRn , Γ simmetrica e definita positiva e det Γ 6= 0, allora
pY (y) = (2π)−n/2 (det Γ)−1/2 exp 12 (y − b) · Γ−1 (y − b), yıIRn.
8. Densità bivariata: p(x,y) =
 2 
y−a2 2
    
2 −1/2 1 x−a1 x−a1 y−a2
(2π) −1
[(1 − ρ )σ12 σ22 ] exp − 2(1−ρ 2) σ12
− 2ρ σ12 σ22
+ 2
σ2

5.8.5 Distribuzione gaussiana a blocchi


Y1 b1 Γ Γ
     
1. Simbolo: ∼ Nn1 +n2 , 11 12
Y2 b2 Γ21 Γ22
2. Pseudo-inversa: se Γ è simmetrica, l’inversa generalizzata Γ+ è quella matrice che
ha gli stessi autovettori di Γ, associati ad autovalori nulli se lo erano per Γ, ed ai
reciproci degli autovalori non nulli di Γ. Se la matrice Γ è non degenere, allora
Γ+ = Γ−1
3. Predittore: La variabile aleatoria Y1 − [b1 + L12 (Y2 − b2 )], L12 = Γ12 Γ+
22 è di media
nulla ed è indipendente da Y2
4. Attesa condizionata: IE [Y1 |Y2 ] = b1 + L12 (Y2 − b2 ), L12 = Γ12 Γ+
22

5. Distribuzione condizionata: Y1 |Y2 ∼ Nn1 (b1 +L12 (Y2 −b2 ),Γ11 −L12 Γ21 ), L12 = Γ12 Γ+
22

6. Distribuzione condizionata, caso bivariato: X|Y ∼ N (a1 + ρ σσ21 (Y − a2 ),(1 − ρ2 )σ12 )


Esercizi 137

0.20
df = 4
df = 6
df = 8
0.15

0.10

0.05

0.00
0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0

Figura 5.3 Densità χ2

5.8.6 Distribuzioni connesse con la gaussiana


Pn
1. Distribuzione χ2 χ2 (n), n ≥ 1 intero: è la distribuzione di k=1 Xk2 con Xi ∼ N (0,1)
e indipendenti. Vedi la Fig. 5.3.
2. Distribuzione di Student t(n), n ≥ 1 intero: è la distribuzione di √X , con X ∼
Y /n
2
N (0,1) e Y ∼ χ (n) indipendenti. vedi la Fig. 5.4.
X/m
3. Distribuzione di Fisher F (m,n), m,n ≥ 1 interi: è la distribuzione di Y /n
con
X ∼ χ2 (m) e Y ∼ χ2 (n) indipendenti. Vedi la Fig. 5.5

Esercizi
5.1 Se X ∼ N (0,1), calcolare la densità di |X|, X 2 , X 3 .
5.2 Se X e Y sono indipendenti e N (0,1), calcolare la distribuzione di ρ2 =
2 2
X + Y e la distribuzione di ρ.
5.3 Ricordando le regole di trasformazione della funzione caratteristica e della
funzione generatrice dei momenti per trasformazioni affini, ricavare la funzione caratte-
ristica e la funzione generatrice dei momenti per la distribuzione gaussiana. Ricavarne
l’espressione dei momenti, della funzione generatrice dei cumulanti, dei cumulanti.
5.4 Se X ∼ N (m,σ 2 ), calcolare la distribuzione di X + e di exp X e determinarne
la moda (il massimo della densità).
138 5 – Distribuzione gaussiana

0.40
df = 3
0.35

0.30

0.25

0.20

0.15

0.10

0.05

0.00
-6.0 -4.0 -2.0 0.0 2.0 4.0 6.0

Figura 5.4 Densità di Student

X 0 1 1
     
5.5 Sia V = Y ∼ N2 1 , 1 4 . Calcolare la funzione caratteristica e la
densità di hV . Calcolare
i la distribuzione di X condizionata a Y e i momenti di X dato
k
Y , cioè IE X |Y , k ∈ IN .
X 1 1 2
     
5.6 Sia Y ∼ N2 1 , 2 8 . Determinare tutte le combinazioni lineari
V = αX + βY che sono indipendenti da X.
5.7 Se X1 ,X2 ,X3 sono indipendenti e N (0,1) e Y1 = X1 , Y2 = Y1 + X2 , Y3 =
Y2 + X3 , calcolare tutte le densità congiunte e condizionate del vettore di componenti
Y1 ,Y2 ,Y3 .
5.8
q Se X1 ,X2 sono indipendenti e N (0,1), calcolare la legge di X12 + X22 , di
X12 + X22 e la legge di X1 |X12 + X22 .
5.9 Siano Y1 ,Y2 ,Y3 variabili aleatorie tali che le variabili aleatorie Z1 = Y1 + Y2 ,
Z2 = Y2 + Y3 , Z3 = Y3 + Y1 siano indipendenti e di legge N (0,σ 2 ).
1. Calcolare la legge congiunta di Y1 ,Y2 ,Y3 .
2. Calcolare la legge di Y1 date Y2 ,Y3
3. Calcolare la legge di Y1 ,Y2 data Y3 .
5.10 Siano X,Y una coppia di variabili aleatorie gaussiane con distribuzione con-
giunta
3 2 1
   
N2 ,
−4 1 2
Esercizi 139

0.80
df1 = 5, df2 = 9
0.70 df1 = 7, df2 = 6

0.60

0.50

0.40

0.30

0.20

0.10

0.00
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

Figura 5.5 Densità di Fisher

1. Trovare le trasformazioni tali che le v.c. W e Z definite da


W X
   
=A +b
Z Y
siano indipendenti a media nulla.
2. Calcolare IE [W |X]
5.11 Questo esercizio serve ad introdurre al Teorema Limite Centrale.
Sia Xi , i ∈ IN una successione di variabili aleatorie indipendenti ed equidistribuite di
distribuzione µ. Siano m e σ 2 rispettivamente la media e la varianza di µ. Sia Sn =
X1 + . . . + Xn la somma dei primi n valori e Fn = Sn /n la media empirica dei primi n
√  Fn −m 
valori. verificare che Yn = n σ
è una variabile aleatoria ridotta (cioè ha media
0 e varianza 1). Se g è la funzione generatrice dei momenti di µ, calcolare la funzione
generatrice dei momenti gn di Yn in funzione di g. Calcolare analogamente l’espressione
per i cumulanti. Si considerino poi i casi particolari: a) µ = U [−a,a] e b) µ = B(1/2), e
si mostri in questo caso quale è il limite limn→∞ gn (t), t ∈ IR.
5.12 Svolgere i calcoli del Teorema Centrale Limite nel caso della distribuzione
di Bernoulli, Uniforme, Esponenziale.
140
Bibliografia
[1] Paolo Baldi. Calcolo delle probabilità e statistica. McGraw-Hill, Milano 1992
[2] Sergio Bebedetto, Ezio Biglieri. Teoria delle probabilità e variabili casuali. Quaderni
di Elettronica 7, Bollati Boringhieri, Torino 1980
[3] Kay Lay Chung. A Course in Probability Theory. Harcourt, Brace & World, New
York 1968
[4] Didier Dachuna-Castelle, Marie Duflo. Probabilités et Statistiques. Tome 1: Pro-
blèmes à temps fixe. Masson, Paris 1982
[5] Andrea De Marchi, Letizia Lo Presti. Incertezze di Misura. CLUT, Torino 1993
[6] Boris V. Gnedenko. Teoria della probabilità. Editori Riuniti Ed. Mir, Roma 1979
[7] Giorgio Letta. Probabilità elementare. Zanichelli, Bologna 1993
[8] Letizia Lo Presti, Fabio Neri. Introduzione ai processi casuali. CLUT, Torino 1993
[9] A. Papoulis. Probability, Random Variables, and Stochastic processes. 3rd Ed Mc-
Graw Hill New York. [Trad. italiana della 1a ed. Probabilità, variabili aleatorie e
processi stocastici. Boringhieri, Torino 1973
[10] Nicolò Pintacuda. Probabilità. Decibel-Zanichelli, Padova 1994
[11] Al’bert N. Shirı̂aev. Probability. Springer-Verlag, New York 1984

Note alla Bibliografia


Chi trovasse questo testo troppo avanzato in prima lettura potrebbe cominciare a leggere
a titolo di introduzione il libro di Benedetto e Biglieri [2] che costituisce un’ottima intro-
duzione. Testi di livello equivalente a questo, ma più estesi nei contenuti, sono quelli di
Baldi [1], di Chung [3], di Dacunha-Castelle e Duflo [4] e Letta [7]. Testi più avanzati e
interessanti per chi desidera approfondimenti matematici sono Gnedenko [6], Pintacuda
[10], Shirı̂aev [11]. Per sviluppi sulle applicazioni si può cominciare con i libri di Lo Presti
e Neri [8] e Papoulis [9]. Per le applicazioni statistiche si possono vedere De Marchi e
Lo Presti [5] e Dachuna-Castelle e Duflo [4]. Infine il testo di Letta [7] contiene anche
un’ottima raccolta di esercizi completamente risolti.

141