Sei sulla pagina 1di 76

Metodi statistici per leconomia

M. D. Cifarelli e C. Gigliarano

Prima versione: Marzo 2011

Questa dispensa ha un carattere riepilogativo e sintetico: intende essere un complemento alle lezioni svolte in aula.
Un particolare ringraziamento al dott. Davide Malacrino per il suo prezioso contributo nella stesura della stessa.
i
ii
Contents
1 La variabile aleatoria 1
1.1 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variabili aleatorie dotate di densit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 I valori di sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Speranza matematica di una variabile aleatoria . . . . . . . . . . . . . . . . . . 5
1.3.2 I momenti e la varianza di una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Distribuzioni di probabilit`a notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1 La legge di probabilit`a binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 La legge di probabilit`a geometrica e binomiale negativa . . . . . . . . . . . . . 8
1.4.3 La legge di probabilit`a di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.4 La legge di probabilit`a gaussiana o normale . . . . . . . . . . . . . . . . . . . . 10
1.4.5 La legge di probabilit`a esponenziale negativa . . . . . . . . . . . . . . . . . . . 12
1.4.6 La legge di probabilit`a gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.7 La legge di probabilit`a beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Funzione di variabile aleatoria (trasformazione di v.a.) . . . . . . . . . . . . . . . . . . 15
1.5.1 Speranza matematica di funzioni di v.a. . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Propriet`a della speranza matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Propriet`a della varianza di una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 La funzione generatrice dei momenti 21
2.1 Alcune importanti f.g.m. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 La f.g.m. della somma di v.a. stocasticamente indipendenti . . . . . . . . . . . . . . . 24
3 I vettori aleatori 27
3.1 La funzione di ripartizione di un vettore aleatorio bidimensionale . . . . . . . . . . . . 30
3.2 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Distribuzioni condizionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 La legge di probabilit`a multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5 La legge gaussiana bidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.7 Funzioni di vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
iv Contents
3.8 Vettori aleatori m-dimensionali e la normale m-dimensionale . . . . . . . . . . . . . . . 47
3.8.1 La legge gaussiana a pi` u dimensioni (multivariata) . . . . . . . . . . . . . . . . 48
4 Statistiche e alcune loro distribuzioni 51
4.1 Campionamento dalla popolazione normale ed alcune distribuzioni notevoli . . . . . . 52
5 Stimatori di massima verosimiglianza 55
5.1 Propriet`a asintotiche degli stimatori di massima verosimiglianza . . . . . . . . . . . . . 58
5.1.1 Convergenza in probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1.2 Convergenza in media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.1.3 Convergenza in distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.4 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1.5 Risultati asintotici degli stimatori di massima verosimiglianza . . . . . . . . . . 66
6 Stima parametrica per intervalli 67
6.1 Il metodo della quantit`a pivotale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2 Campionamento dalla distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2.1 Intervallo di condenza per la media . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2.2 Intervallo di condenza per la varianza . . . . . . . . . . . . . . . . . . . . . . 69
6.2.3 Intervallo di condenza asintotico per una frequenza relativa . . . . . . . . . . 70
6.3 Metodo statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1
La variabile aleatoria
Uno degli obiettivi principali della statistica `e quello di fare inferenza riguardo ad una popolazione di
oggetti mediante lo svolgimento di esperimenti. Tali esperimenti sono casuali, e ci`o signica che il loro
esito `e incerto, cosicch`e un dato risultato `e solo uno dei molti esiti possibili.
Denizione 1 Si denisce spazio campionario, indicato con , la totalit`a di tutti i possibili risultati
di un esperimento.
Il primo passo `e quello di identicare i possibili esiti dellesperimento, che vengono detti eventi
elementari.
Denizione 2 Un evento `e un sottoinsieme dello spazio campionario. La famiglia di tutti gli eventi
associati ad un dato esperimento `e denita spazio degli eventi F.
Un evento `e dunque un sottoinsieme dello spazio campionario, ma in generale non tutti i sottoinsiemi
di spazi campionari sono eventi, e quindi la famiglia di tutti i sottoinsiemi dello spazio campionario
non necessariamente corrisponde allo spazio degli eventi. Se lo spazio campionario consiste solo di un
numero nito o numerabile di punti, allora il corrispondente spazio degli eventi sar`a la famiglia di
tutti i sottoinsiemi dello spazio campionario stesso.
Noi siamo interessati a stabilire una probabilit`a sugli eventi. Dobbiamo allora restringerci dalla
classe di tutti i suoi sottoinsiemi ad una classe F di sottoinsiemi che soddis le seguenti propriet`a:
(i) F;
(ii) se A F, allora A
C
F;
(iii) se A
1
, A
2
, ... F, allora A
1
A
2
... F.
Ogni collezione di eventi che soddisfa le propriet`a (i), (ii), (iii) viene chiamata -algebra. Su F
possiamo ora denire una misura di probabilit`a.
Denizione 3 Sia lo spazio campionario e F una -algebra di sottoinsiemi di . Si chiama fun-
zione di probabilit`a una qualunque funzione P denita su F e a valori in [0, 1] che soddisfa le seguenti
condizioni:
2 1. La variabile aleatoria
1. P(A) 0, per ogni A F;
2. P() = 1,
3. se A
1
, A
2
, ... F e A
i
A
j
= i = j, i, j = 1, 2, ... allora P(

i=1
A
i
) =

i=1
P(A
i
).
`
E possibile associare dunque ad un esperimento linsieme degli eventi elementari e la classe di
tutti gli eventi F, unici sottoinsiemi di che hanno titolo ad avere assegnata la probabilit`a P.
La tripletta (, F, P) sar`a detta spazio di probabilit` a.
Nella descrizione dellinsieme degli eventi elementari relativo ad un dato esperimento, i suoi elementi
possono anche essere rappresentati da oggetti concreti (individui, famiglie) di natura non numerica.
In molte situazioni sperimentali, pi` u che allesperimento in s`e, si `e spesso interessati alle conseguenze,
numericamente valutate, dei possibili risultati sperimentali. Si pensi, ad esempio, al lancio della mon-
etina; se si suppone che al realizzarsi di testa corrisponde un incasso di una certa somma mentre al
realizzarsi di croce un esborso di altra o uguale somma, pu`o interessare il numero di teste realizzato
perch`e collegato alla somma vinta o persa. Ci`o che risulta rilevante `e il valore assunto da una funzione
denita sullinsieme dei possibili risultati dellesperimento.
Il nome che si attribuisce ad una funzione, a valori reali, denita sullinsieme degli eventi elementari
`e quello di variabile aleatoria.
Denizione 4 Sia dato lo spazio (, F). Si dice variabile aleatoria (v.a.) ogni funzione a valori reali
denita in , X(), tale che
{ : X() x} F per ogni valore reale x. (1.1)
Si osservi che quando F coincide con la classe di tutti i sottoinsiemi di , e quindi quando `e nito
o numerabile, la condizione (1.1) `e sempre soddisfatta. Per rendersi conto della necessit`a di imporre
alla funzione X() di soddisfare la (1.1) baster`a dire che, intendendo assegnare una probabilit`a agli
insiemi { : X() x} per ogni reale x ed avendo probabilizzato F, occorre che tali insiemi
appartengano ad F.
Esempio 5 Si consideri lesperimento consistente nel lancio di due dadi il cui insieme dei risultati `e
dato da
= {(i, j) : 1 i 6, 1 j 6, i e j interi}.
Se si `e interessati al punteggio totale dei due dadi, perch`e, ad esempio, impegnati in una scommessa
riguardante tale punteggio, allora si potr`a denire la funzione
X((i, j)) = i +j, (i, j)
la quale assegna ad ogni coppia di punteggi possibili dei due dadi la loro somma. Cos`, X((2, 1)) =
X((1, 2)) = 3, X((5, 6)) = X((6, 5)) = 11,etc.. Naturalmente, sullo stesso insieme possono denirsi
anche altre funzioni.
Il valore che assume la funzione X() in corrispondenza di un esperimento `e aleatorio in quanto
dipende dal particolare risultato conseguito nellesperimento, ; ci si potr`a allora chiedere con
quale probabilit`a la funzione X : R assume valore nellintervallo (a, b]. Si tratta di dare signicato
alla scrittura
Probabilit`a di (a < X b) = Pr(X (a, b]), < a < b < .
Per raggiungere tale nalit`a si osservi che levento A e lintervallo (a, b] tali che
A = { : a < X() b} F
sono in un certo senso equivalenti giacch`e quando si verica A, cio`e A, allora X (a, b] e viceversa.
Dato che allevento A si suppone di avere assegnato la probabilit`a P(A) si potr`a porre, per ogni a < b,
P
X
((a, b]) = Pr(X (a, b]) := P({ : a < X() b}) = P(A).
La misura di probabilit`a P
X
`e nota con il nome di distribuzione della v.a. X.
1.1 Variabili aleatorie discrete 3
1.1 Variabili aleatorie discrete
Denizione 6 Una v.a. X denita su (, F) `e detta discreta se linsieme dei possibili valori assunti
da X `e un insieme R
X
nito o numerabilmente innito.
Esempio 7 Lesperimento consiste nel registrare il numero di auto che transitano per un certo tratto
di strada nellarco di uno specicato intervallo di tempo. I risultati sperimentali potranno essere 0, 1, ...
e quindi = {0, 1, 2, ...}. La funzione X() = `e allora una v.a. discreta con R
X
= {0, 1, 2, ..}.
Per descrivere la distribuzione di una v.a. discreta risulta comoda la cosiddetta funzione di proba-
bilit`a (o di densit`a discreta) di cui alla seguente
Denizione 8 Se X `e una v.a. discreta con R
X
= {x
1
, x
2
, ...}, allora la funzione, denita in R, data
da
p(x) =
_
Pr(X = x
i
) > 0 x = x
i
R
X
0 x / R
X
(1.2)
`e detta funzione di probabilit`a della v.a. X.
Proposizione 9 Se X `e una v.a. discreta con R
X
= {x
1
, x
2
, ...}, allora
p(x) 0 per ogni x reale e

xR
X
p(x) = 1 (1.3)
La conoscenza della funzione di probabilit`a di una v.a. discreta X permette di ottenere immediata-
mente la sua distribuzione, P
X
, cio`e la funzione mediante la quale calcolare la probabilit`a con cui la
v.a. X assume valore in un qualsivoglia sottoinsieme di R. Infatti, se B R
X
R allora
Pr(X B) = P
X
(B) =

xB
Pr(X = x) =

xB
p(x);
se invece B non contiene punti di R
X
allora P
X
(B) = 0.
Una particolare variabile aleatoria discreta `e la cosidetta indicatrice di evento. Dato un evento
A F, si chiama funzione indicatrice dellevento A la funzione denita in tale che
I
A
() =
_
1 se A
0 se / A
(1.4)
Accanto alla funzione di probabilit`a di una v.a. pu`o porsi unaltra funzione ugualmente utile per la
descrizione probabilistica di una v.a.. Si tratta della funzione di ripartizione (f. di r.).
Denizione 10 Sia X una v.a. discreta. Si dice f. di r. della v.a. X la funzione F(x) denita per
ogni reale x, data da
F(x) := Pr(X x), x R. (1.5)
Lordinata della f. di r. calcolata in un punto x R indica pertanto la probabilit`a con cui la v.a.
X assume valori non maggiori di x. Quando della v.a. `e nota la funzione di probabilit`a, allora dalla
(1.5) si ha
F(x) =

x
i
x
p(x
i
), < x <
il cui signicato `e: per calcolare la f. di r. in un punto x, F(x), basta sommare la probabilit`a di tutti
i punti x
i
di R
X
che soddisfano la disuguaglianza x
i
x.
Proposizione 11 Se F(X) `e la f. di r. di una v.a. discreta X, allora
4 1. La variabile aleatoria
1. F(x) `e non decrescente: F(x
1
) F(x
2
) per x
1
< x
2
;
2. F(x) `e continua da destra: F(x) = lim
tx
+F(t) per ogni x R;
3. lim
x
F(x) = 0 ; lim
x
F(x) = 1;
4. F(x) lim
h0
+F(x h) = Pr(X = x) 0.
1.2 Variabili aleatorie dotate di densit`a
Denizione 12 Si dice che la v.a. X `e dotata di densit`a se la probabilit`a con cui X assume valori
nellintervallo (a, b] `e descritta mediante
Pr(X (a, b]) = Pr(a < X b) =

b
a
f(x)dx
in cui f(x) `e funzione, denita su tutto lasse reale, tale che
f(x) 0 per ogni x R,

f(x)dx = 1.
La funzione f(x) prende il nome di funzione di densit`a di probabilit`a della v.a. X.
La precedente denizione implica
Pr(X (a, b]) =

b
a
f(x)dx =

f(x)dx

f(x)dx = F(b) F(a).


`
E una conseguenza della denizione di v.a. dotata di densit`a che per ogni x
0
R si abbia P(X =
x
0
) = 0.
`
E questa una caratteristica che non trova riscontro per le v.a. discrete. Ed `e a causa di ci`o
che le probabilit`a di tutti i tipi di intervalli sono tra loro uguali
Pr(a < X < b) = Pr(a < X b) = Pr(a X < b) = Pr(a X b) =

b
a
f(x)dx.
Denizione 13 Si chiama funzione di ripartizione (f. di r.) di una v.a. X con funzione di densit`a di
probabilit` a f(x) la funzione F(x) data da
F(x) =

f(t)dt, x R. (1.6)
La f. di r. valutata in x R rappresenta allora la probabilit`a con cui X (, x], cio`e F(x) =
Pr(X x).
Le propriet`a della f. di r. di una variabile aleatoria dotata di densit`a sono analoghe a quelle date per
la f. di r. relativa alla v.a. discreta.
Aggiungeremo solo che ora F(x) `e una funzione continua.
Applicando il teorema fondamentale del calcolo integrale discende, dalla (1.6), che
f(x) = F

(x) =
F(x)
x
in tutti i punti x in cui la funzione f `e continua.
Per concludere questo paragrafo giover`a dire che esistono v.a. che non sono n`e discrete e n`e assoluta-
mente continue; esse vengono dette di tipo misto.
1.3 I valori di sintesi 5
1.3 I valori di sintesi
Abbiamo visto come le propriet`a di una variabile aleatoria possono essere descritte mediante la fun-
zione di probabilit`a o di densit`a di probabilit`a (o dalla f.di r.). Tuttavia, la descrizione delle propriet`a
della v.a. attraverso queste funzioni pu`o riuscire non agevole sicch`e conviene apprezzarle ricorrendo
alla determinazione di un certo numero di caratteristiche sintetiche che pongano in luce particolari as-
petti dellintera distribuzione. Scopo di questa sezione `e di presentare alcuni valori di sintesi per le v.a..
1.3.1 Speranza matematica di una variabile aleatoria
Denizione 14 Sia X una v.a. discreta con funzione di probabilit`a p
X
(x). Allora si chiama speranza
matematica di X la quantit`a (nita)
E(X) =

xR
X
x p
X
(x)
nellipotesi che
E(|X|) =

xR
X
|x| p
X
(x) < .
Nel caso di v.a. dotata di densit`a f
X
(x), E(X) pu`o darsi nei termini seguenti.
Denizione 15 Sia X una v.a. con funzione di densit`a di probabilit`a f
X
(x). Allora si chiama sper-
anza matematica di X la quantit`a (nita)
E(X) =

x f
X
(x)dx
nellipotesi che
E(|X|) =

|x| f
X
(x)dx < .
1.3.2 I momenti e la varianza di una v.a.
La speranza matematica E(X) `e un caso particolare di una intera classe di valori di sintesi detti
momenti.
Denizione 16 Si dice momento k-mo di una v.a. X, avente funzione di probabilit` a p
X
(x) o di
densit`a di probabilit`a f
X
(x), rispettivamente la quantit`a
E(X
k
) =

xR
X
x
k
p
X
(x) =
k
E(X
k
) =

x
k
f
X
(x)dx =
k
nellipotesi che la serie e lintegrale siano assolutamente convergenti. Si osservi che
1
= E(X).
Denizione 17 Se X `e una v.a., si chiama varianza di X la quantit`a

2
(X) = V (X) =
2

2
1
= E(X E(X))
2
= E(X
2
) (E(X))
2
.
La radice quadrata aritmetica di
2
(X), indicata con (X), `e detta scarto quadratico medio.
6 1. La variabile aleatoria
1.4 Distribuzioni di probabilit`a notevoli
Scopo di questa sezione `e quello di presentare alcune leggi di probabilit`a note.
1.4.1 La legge di probabilit`a binomiale
Questa legge di probabilit`a regola il numero dei successi (o risultati favorevoli) conseguito in una
successione (nita) di prove indipendenti.
Si supponga che un certo esperimento venga replicato N 1 volte e lesito di ognuno di essi possa
essere favorevole (evento A) oppure non favorevole (evento A
C
). Ad esempio, lanciando una monetina
il risultato pu`o essere testa (successo) o croce (insuccesso).
Ad ogni prova dellesperimento associamo una v.a. X
i
, i = 1, ..., N che ne rappresenti lesito;X
i
= 1 se
si verica A (successo) e X
i
= 0 se non si verica A (insuccesso). Si supponga che le v.a. X
1
, ..., X
N
siano mutuamente stocasticamente indipendenti e che P(X
i
= 1) = p, 0 p 1, cio`e che la probabilit`a
dellevento A sia costante ad ogni prova e data dal numero p.
Qual `e la legge di probabilit`a del numero totale di successi nelle N prove? Detto altrimenti, qual `e la
legge di probabilit`a della v.a. X = X
1
+X
2
+... +X
N
?
Denizione 18 Si dice che una v.a. X si distribuisce secondo la legge binomiale di parametri N
1(intero) e 0 p 1, se la sua funzione di probabilit`a `e data
Pr(X = x) = p
X
=
_
_
_
_
N
x
_
p
x
(1 p)
Nx
x = 0, 1, ..., N
0 altrove.
(1.7)
Naturalmente si tratta di una famiglia di funzioni di probabilit`a, ogni membro della quale si ottiene
ssando un valore intero di N 1 ed un numero reale 0 p 1.
Ritorniamo alla domanda gi`a posta: qual `e la legge di probabilit`a del numero totale di successi in
N prove indipendenti con probabilit`a di successo costante ed uguale a p ad ogni prova?
La risposta `e contenuta nel seguente
Teorema 19 La funzione di probabilit`a del numero totale di successi ottenuti in N prove indipendenti
con probabilit`a di successo eguale a p ad ogni prova `e data da
Pr(X = x) = p
X
=
_
_
_
_
N
x
_
p
x
(1 p)
Nx
x = 0, 1, ..., N
0 altrove.
(1.8)
Esempio 20 Il tempo di durata (in ore) di un certo tipo di strumento segue una legge di probabilit` a
con funzione di densit`a
f(x) =
_
1
2
e
1/2x
x 0
0 altrove.
(1.9)
Qual `e la probabilit`a che su 100 strumenti (omogenei) esattamente k abbiano durata maggiore di 2
ore?
La probabilit`a che uno strumento duri pi` u di 2 ore `e data da
p =


2
1
2
e
1/2x
dx = e
1
(1.10)
sicch`e, indicato con X il numero degli strumenti che durano pi` u di 2 ore, sar`a
Pr(X = k) =
_
N
x
_
(e
1
)
k
(1 e
1
)
100k
k = 0, 1, ..., 100 (1.11)
1.4 Distribuzioni di probabilit`a notevoli 7
La determinazione della speranza matematica e della varianza di una v.a. X con legge di probabilit`a
binomiale pu`o farsi o direttamente valutando le somme che servono a denire questi parametri oppure
ricorrendo ai risultati concernenti il calcolo del valore atteso e varianza della somma di v.a.
Con il primo procedimento si ha:
E(X) =
N

x=0
x
_
N
x
_
p
x
(1 p)
Nx
=
N

x=1
x
N!
x!(N x)!
p
x
(1 p)
Nx
=
N

x=1
N!
(x 1)!(N x)!
p
x
(1 p)
Nx
= N
N

x=1
(N 1)!
(x 1)!(N x)!
p
x
(1 p)
Nx
= N
N

x=1
_
N 1
x 1
_
p
x
(1 p)
Nx
= N
N1

s=0
_
N 1
s
_
p
s+1
(1 p)
N1s
= Np
N1

s=0
_
N 1
s
_
p
s
(1 p)
N1s
= Np(p + 1 p)
N1
= Np (1.12)
V (X) = E(X
2
) (E(X))
2
=
N

x=1
x
2
_
N
x
_
p
x
(1 p)
Nx
N
2
p
2
=
N

x=1
x
N!
(x 1)!(N x)!
p
x
(1 p)
Nx
N
2
p
2
= N
N

x=1
x
_
N 1
x 1
_
p
x
(1 p)
Nx
N
2
p
2
= N
N1

s=0
(s + 1)
_
N 1
s
_
p
s+1
(1 p)
N1s
N
2
p
2
= N
_
N1

s=0
s
_
N 1
s
_
p
s+1
(1 p)
N1s
+
N1

s=0
_
N 1
s
_
p
s+1
(1 p)
N1s
_
N
2
p
2
= Np(N 1)p +p N
2
p
2
= Np(1 p) (1.13)
8 1. La variabile aleatoria
Agli stessi risultati si giunge, pi` u speditamente, ricordando che X = X
1
+ X
2
+ ... + X
N
, con X
i
,
i = 1, ..., N, mutuamente stocasticamente indipendenti con
Pr(X
i
= 1) = p, Pr(X
i
= 0) = 1 p, i = 1, ..., N
E(X
i
) = p, V (X
i
) = p(1 p).
Infatti
E(X) = E
_
N

i=1
X
i
_
=
N

i=1
E(X
i
) = Np (1.14)
V (X) = V
_
N

i=1
X
i
_
=
N

i=1
V (X
i
) = Np(1 p) (1.15)
la seconda delle quali vale in virt` u della mutua indipendenza stocastica delle v.a.
1.4.2 La legge di probabilit`a geometrica e binomiale negativa
La legge di probabilit`a geometrica (e anche binomiale negativa) nasce con riferimento allo stesso
teorema che ha condotto alla legge binomiale ma ora, anzich`e il numero complessivo di esiti favorevoli
conseguiti in N prove indipendenti, interessa il numero delle prove necessarie per ottenere il primo
successo ovvero il tempo di attesa per il primo successo.
Denizione 21 Si dice che una v.a. X si distribuisce secondo una legge geometrica di parametro
0 p 1 se la sua funzione di probabilit`a `e data da
pr(X = x) =
_
p(1 p)
x1
x = 1, 2, 3, ...
0 altrove.
(1.16)
Si consideri una successione di prove indipendenti ognuna delle quali produce un successo con
probabilit`a 0 p 1 oppure un insuccesso con probabilit`a 1 p. Quante prove si devono eseguire
anch`e si manifesti il primo successo?
Teorema 22 La funzione di probabilit`a del numero di prove, indipendenti, e con probabilit`a costante
0 p 1 di successo, necessario ad ottenere il primo successo `e fornita da
Pr(X = x) =
_
p(1 p)
x1
x = 1, 2, 3, ...
0 altrove.
(1.17)
La speranza matematica e la varianza possono essere ottenute facilmente. Si ha infatti:
E(X) =

x=1
xp(1 p)
x1
= p

x=1
x(1 p)
x1
= p

x=1
d
dp
(1 p)
x
(1.18)
Ricorrendo alla serie geometrica

k=0
z
k
= 1 +z +z
2
+... =
1
1 z
e a note propriet`a di serie assolutamente convergenti, secondo cui loperazione di derivazione pu`o
essere invertita con quella di somma, si ottiene
1.4 Distribuzioni di probabilit`a notevoli 9
E(X) = p
d
dp

x=1
(1 p)
x
= p
d
dp
_
1
1 (1 p)
1
_
= p
d
dp
_
1 p
1 (1 p)
_
= p
d
dp
_
1p
p
_
=
1
p
. (1.19)
Vale inoltre
V (X) = E(X
2
) (E(X))
2
=
1 p
p
2
(1.20)
poich`e
E(X
2
) =

x=1
x
2
p(1 p)
x1
= p
_

x=1
x(x 1)(1 p)
x1
+

x=1
x(1 p)
x1
_
= p
_

x=2
x(x 1)(1 p)
x1
+
1
p
2
_
= p(1 p)
_

x=2
x(x 1)(1 p)
x2
+
1
p
2
_
= p(1 p)
d
2
dp
2

x=1
(1 p)
x
+
1
p
= p(1 p)
d
2
dp
2
_
1p
p
_
+
1
p
= p(1 p)
2
p
3
+
1
p
=
2p
p
2
.
Esempio 23 Unurna contiene M palline di cui 0 < K M bianche. Estraendo con una reimmis-
sione, qual `e la probabilit` a che la pallina bianca appaia per la prima volta alla quinta estrazione?
Mediamente, quante estrazioni sono necessarie per osservare una pallina bianca?
Poich`e la probabilit`a di estrarre una pallina bianca ad ogni prova `e p = K/M, si avr`a
Pr(X = 5) =
K
M
_
1
K
M
_
4
=
K(M K)
4
M
5
(1.21)
e
E(X) =
1
p
=
M
K
. (1.22)
La prossima distribuzione `e una generalizzazione della legge geometrica. Viene detta binomiale
negativa.
Denizione 24 Si dice che una v.a. X si distribuisce con una legge di probabilit`a binomiale negativa
di parametri 0 < p 1 e r 1 (intero) se la sua funzione di probabilit` a `e data da
Pr(X = x) =
_ _
x1
r1
_
p
r
(1 p)
xr
x = r, r + 1, ...
0 altrove.
Si noti che quando r = 1 si riottiene la legge geometrica.
Esempio 25 Unurna contiene M palline di cui 0 < H < M bianche. Estraendo con reimmissione,
qual `e la probabilit`a che il numero delle estrazioni necessarie per ottenere 3 successi sia uguale a 10?
Poich`e p = K/M `e la probabilit`a di successo ad ogni estrazione, r = 3, x = 10 si avr`a
Pr(X = 10) =
_
9
2
__
K
M
_
3
_
1
K
M
_
7
10 1. La variabile aleatoria
1.4.3 La legge di probabilit`a di Poisson
Tra le leggi di probabilit`a, quella detta di Poisson `e certamente da annoverare fra quelle pi` u frequente-
mente adottate per descrivere fenomeni del mondo reale.
Denizione 26 Si dice che una v.a. `e discreata X segue la legge di Poisson con parametro > 0 se
la sua funzione di probabilit`a ha lespressione:
Pr(X = x) =
_

x
e

x!
x = 0, 1, 2, ..
0 altrove.
Per indicare che X possiede legge di probabilit`a di Poisson si scriver`a X Po().
Se X possiede legge di probabilit`a di Poisson allora
E(X) =

x=0
x

x
e

x!
= ... =
e
V (X) =

x=0
x
2

x
e

x!

2
= ... = .
Lasciamo la dimostrazione come esercizio.
Esempio 27 Si supponga che il numero di richieste, al secondo, che pervengono ad un computer possa
essere descritto da una legge di Poisson con = 10. Qual `e la probabilit`a con cui nessuna richiesta
arrivi al computer in un secondo? E quella con la quale non ne arrivino pi` u di 15?
Poich`e si suppone
Pr(X = x) =
10
x
x!
e
10
x = 1, 2, ..
si avr`a
Pr(X = 0) = e
10
mentre
Pr(X 15) = e
10
15

x=0
10
x
x!

= 0.95.
1.4.4 La legge di probabilit`a gaussiana o normale
La distribuzione gaussiana `e quella che pi` u dogni altra trova applicazione nella metodologia statistica.
Infatti essa costitusce un modello che approssima numerose altre distribuzioni e possiede propriet`a
matematiche che rendono possibile lottenimento di molti ed importanti risultati teorici.
Denizione 28 Si dice che una v.a. X si distribuisce normalmente con parametri e se possiede
funzione di densit`a
f(x; , ) =
1

2
e
_

1
2
(
x

)
2
_
< x < +
essendo e > 0 due numeri reali.
1.4 Distribuzioni di probabilit`a notevoli 11
Il graco di f(x; , ) `e simmetrico rispetto allasse x = ed inoltre ha una forma a campana con
punti di esso in x = e x = +.
Il graco risulta piuttosto piatto per grande mentre appare appuntito per piccolo.
Ad indicare che la v.a. X si distribuisce con la legge gaussiana si scriver`a X N(,
2
).
Mostriamo ora che la speranza matematica di X coincide con il parametro mentre la varianza
coincide con
2
.
Si ha infatti
E(X) =

x
1

2
e

1
2
(
x

)
2
dx
=
1

(z +)e

1
2
z
2
dz
avendo posto z = (x )/ da cui dx = dz. Dalla precedente si ottiene allora
E(X) =

ze

1
2
z
2
dz +

2
e

1
2
z
2
dz =
essendo il primo integrale nullo (a causa della disparit`a della funzione integranda) ed il secondo eguale
a 1 (area sottesa alla particolare densit`a gaussiana con parametri rispettivamente nullo ed unitario).
Si ha poi il momento secondo
E(X
2
) =

x
2
1

2
e

1
2
(
x

)
2
dx
=
1

(z +)
2
e

1
2
z
2
dz
=
1

2
z
2
e

1
2
z
2
dz +
2

ze

1
2
z
2
dz+
+
2

1
2
z
2

2
dz
=

2

z
2
e

1
2
z
2
dz +
2
=

2

z
_
ze

1
2
z
2
_
dz +
2
.
Questultimo integrale potr`a valutarsi integrando per parti. Si ottiene:

z
_
ze

1
2
z
2
_
dz =
_
_
e

1
2
z
2
_
+

1
2
z
2
dz
_

2

2
=
2
e dunque
V (X) = E(X
2
) (E(X))
2
=
2
+
2

2
=
2
.
La densit`a f(x; 0, 1), cio`e la densit`a di probabilit`a
f(x; 0, 1) =
1

2
exp
_

x
2
2
_
= (x) < x < +
`e detta gaussiana standardizzata.
Limportanza di questa speciale funzione di densit`a nelle applicazioni ha suggerito la tabulazione
della sua funzione di ripartizione.
12 1. La variabile aleatoria
Se X `e una v.a. dotata di funzione di densit`a gaussiana con parametri e > 0, allora la v.a.
Y = a +bX, b = 0, `e dotata ancora di densit`a gaussiana con parametri
E(Y ) = a +b V (Y ) = b
2

2
.
Ovvero, la sua funzione di densit`a `e:
f
Y
(y) =
1
|b|

2
e

1
2
(
yab
|b|
)
2
=
1
|b|

2
e

1
2b
2

2
(yab)
2
< y < +.
da ci`o segue che ogni densit`a gaussiana con parametri e pu`o essere ricondotta a quella standard-
izzata.
Se infatti X possiede una densit`a gaussiana con parametri e , allora la v.a.
Y =
X

+
1

X
avr`a funzione di densit`a f(y; 0, 1) (essendo appunto a + b =

+
1

= 0 e b
2
2 =
1

2

2
= 1).
Dunque, le tavole della funzione di ripartizione corrispondente alla gaussiana standardizzata permet-
tono di determinare la probabilit`a di numerosi eventi riguardanti una v.a. con legge gaussiana anche
non standardizzata.
1.4.5 La legge di probabilit`a esponenziale negativa
Denizione 29 Si dice che una v.a. X possiede legge di probabilit`a esponenziale negativa con parametro
> 0 se la sua funzione di densit`a `e data da
f(x; ) =
_
_
_
e
x
x > 0
> 0
0 altrove.
Proposizione 30 Se X
t
rappresenta il numero di volte che un certo evento A si manifesta nellin-
tervallo di tempo di lunghezza t e se esso `e regolato da una legge di Poisson di parametro > 0, allora
il tempo di attesa dellevento T `e una v.a. con densit`a di probabilit`a esponenziale negativa.
Dimostrazione. La tesi segue immediatamente da
Pr(T t) = 1 Pr(T > t) = 1 Pr(X
t
= 0) = 1 e
t
In altri termini la legge esponenziale negativa regola il tempo di attesa di un evento A nellipotesi
che il numero di volte che si verica A nellintervallo di lunghezza t sia retto da una legge Poisson.
La funzione di ripartizione di una v.a. che abbia densit`a esponenziale negativa `e data da
Pr(X x) =
_
x
0
e
t
dt = 1 e
t
x 0
0 x < 0
ed ha speranza matematica e varianza:
E(X) =

+
0
xe
x
dx =
1

V (X) =
1

2
come si appura immediatamente integrando per parti.
1.4 Distribuzioni di probabilit`a notevoli 13
1.4.6 La legge di probabilit`a gamma
Denizione 31 Si dice che una v.a. continua X possiede legge di probabilit`a gamma di parametri
> 0 e k > 0, se la sua funzione di densit`a di probabilit`a `e data da
f(x; , k) =
_

k
x
k1
(k)
e
x
x > 0,
0 altrove
(1.23)
dove la funzione (k) denita da
(k) =


0
x
k1
e
x
dx
`e detta funzione gamma.
Consideriamo ora alcune importanti propriet`a della funzione gamma, sintetizzate nella seguente
proposizione.
Proposizione 32 Sia (k) =

R
+
x
k1
e
x
dx. Si dimostri che
1. (1) = 1.
2. (k) = (k 1)(k 1), e che quindi (n) = (n 1)! per n N.
3.
_
1
2
_
=

.
Dimostrazione.
1. (1) =

+
x
11
e
x
dx =

+
e
x
dx = 1.
2. (k) =

+
x
k1
e
x
dx =
_
x
k1
e
x
_
+
0
+

+
(k 1)x
k2
e
x
dx
= (k 1)

+
x
(k1)1
e
x
dx = (k 1)(k 1)
(e quindi (n) = (n 1)! per n N).
3.
_
1
2
_
=

+
x
1
2
1
e
x
dx =

+
x

1
2
e
x
dx.
Da (b) si ha che
_
3
2
_
=
1
2

_
1
2
_
, ovvero
_
1
2
_
= 2
_
3
2
_
, e

_
3
2
_
=

+
x
1
2
e
x
dx = (x = t
2
/2) =

+
t

2
e

t
2
2
t dt =

+
t
2

2
e

t
2
2
dt
=
1
2

t
2

2
e

t
2
2
dt =
1

2
_
2

2
_
1
,
riconoscendo lespressione della varianza della variabile aleatoria N(0, 1). Quindi

_
1
2
_
= 2
_
3
2
_
= 2
_
1

2
_
2

2
_
1
_
=

.
La speranza matematica di una v.a. X distribuita come una gamma `e data da
E(X) =


0
x

k
x
k1
(k)
e
x
dx =

k
x
k
(k)
e
x
dx,
da cui, ponendo t = x e quindi dx =
1

dt, si ha
E(X) =

k
(k)


0
x
k

k
e
t
dt

=
k

avendo utilizzato la denizione di (k) e la relazione (k + 1) = k(k).


14 1. La variabile aleatoria
Similmente si ottiene
V (X) =
k

2
.
Nel capitolo dedicato alla funzione generatrice dei momenti porremo in evidenza come la densit`a
gamma (con k intero) possa essere dedotta quale legge di densit`a della somma di k v.a. mutuamente
stocasticamente indipendenti ciascuna con legge esponenziale negativa di medesimo parametro.
Facciamo notare che anche la legge gamma ammette uninteressante interpretazione in termini di
tempi di attesa (simile alla binomiale negativa). Precisamente, se X
t
rappresenta il numero di volte
che nellintervallo di lunghezza t (ad es.(0, t]) si verica un evento A e se questo `e retto da una legge
di Poisson con parametro , cio`e
Pr(X
t
= x) =
(t)
x
x!
e
t
, x = 0, 1, 2, ..., > 0
allora il tempo necessario anch`e levento A si manifesti k volte `e retto dalla legge gamma con
parametri e k.
La f.di r. corrispondente alla densit`a gamma non si trova di solito tabulata.
`
E invece tabulata la f.
di r. della cosiddetta densit`a chi-quadrato che rappresenta una particolare densit`a gamma avente per
parametri = 1/2 e k = g/2.
Denizione 33 Si chiama legge di probabilit`a chi-quadrato con g gradi di libert`a la densit`a gamma
della Denizione 31 in cui = 1/2 e k = g/2.
Una v.a. avente densit`a chi-quadrato con g gradi di libert`a viene spesso indicata col simbolo
2
(g)
(leggi chi-quadrato).
Se perci`o si intende calcolare Pr(X > c) essendo X una v.a. con densit`a gamma di parametri e k,
allora (c 0)
Pr(X > c) =

k
x
k1
(k)
e
x
dx =


2c
_
1
2
_
k
(k)
s
k1
e

1
2
s
ds
avendo posto 2x = s. Perci`o
Pr(X > c) = Pr(
2
(2k)
> 2c)
e dalle tavole della densit`a con 2k gradi di libert`a si otterr`a la probabilit`a ceercata. Naturalmente, la
speranza matematica e la varianza relativa ad una densit`a
2
(g)
saranno date da
E(
2
(g)
) = g, V (
2
(g)
) = 2g.
1.4.7 La legge di probabilit`a beta
La famiglia di distribuzioni beta `e una famiglia continua su (0, 1) indicizzata da due parametri e .
Denizione 34 Si dice che una v.a. continua X possiede legge di probabilit`a beta di parametri > 0
e > 0 se la sua funzione di densit`a di probabilit`a `e data da
f(x; , ) =
1
B(, )
x
1
(1 x)
1
, 0 < x < 1, > 0, > 0,
dove B(, ) denota la funzione beta, denita da
B(, ) =

1
0
x
1
(1 x)
1
dx.
1.5 Funzione di variabile aleatoria (trasformazione di v.a.) 15
La funzione beta B(, ) `e legata alla funzione gamma () attraverso la seguente identit`a:
B(, ) =
()(
( +)
.
La distribuzione beta `e una delle poche distribuzioni note che attribuiscono probabilit`a 1 ad un
intervallo nito, in questo caso allintervallo (0, 1).
Valore atteso e varianza della distribuzione beta(, ) sono dati da
E(X) =

+
e
V ar(X) =

( +)
2
( + + 1)
.
Al variare dei parametri e , la distribuzione beta assume diverse forme. La densit`a pu`o essere
strettamente crescente ( > 1, = 1), strettamente decrescente ( = 1, > 1), con forma a U
( < 1, < 1) o unomodale ( > 1, > 1). In caso di = = 1 la densit`a beta coincide con la
distribuzione uniforme continua sullintervallo (0, 1); la densit`a uniforme pu`o quindi essere considerata
come un membro della famiglia beta.
1.5 Funzione di variabile aleatoria (trasformazione di v.a.)
Si immagini un esperimento il cui insieme dei risultati `e . Sia inoltre X() una v.a. il cui valore
`e, naturalmente, determinato dallesito dellesperimento. Se tale valore viene aumentato di un
numero K / 0, il risultato `e ancora una v.a. X() + K = Y (). Stessa conseguenza si avrebbe se si
considerasse Y () = cX(), c / 0, e, in generale, Y () = g(X()) dove y = g(x) `e una qualunque
funzione reale denita sullasse reale.
Anch`e g(X()) sia una v.a. si richieder`a alla funzione y = g(x) di soddisfare la condizione
{x R : g(x) z} B(R) per ogni z R,
dove B(R) `e la algebra di Borel.
Tale condizione risulta certamente soddisfatta se y = g(x) `e funzione continua oppure monotona
crescente o decrescente. Cos`, se X() `e una v.a., anche |X()|, X
m
(), aX(), e
X()
e cos` via sono
v.a. poich`e tali funzioni sono continue.
Vogliamo ora determinare la funzione di probabilit`a o di densit`a o la f. di r. della nuova v.a. Y = g(X).
Per risolvere questo problema si osservi che se A `e levento A = {x R : g(x) z} allora {X A} e
{Y z} sono, in un certo senso, equivalenti e perci`o
F
Y
(z) = Pr(Y z) := Pr(X A). (1.24)
La (1.24) permette il calcolo di Pr(Y z), cio`e della f. di r. della v.a. Y , in termini della distribuzione
della v.a. X.
Se X `e una v.a. discreta con R
X
= {x
1
, x
2
, ...} e con funzione di probabilit`a p
X
(x) allora Y = g(X)
sar`a necessariamente discreta in quanto i suoi valori saranno dati da g(x
1
), g(x
2
), ..., anche se non
necessariamente tutti distinti. La (1.24) fornir`a allora
Pr(Y z) =

{x:g(x)z}
p
X
(x) = F
Y
(z).
`
E possibile ottenere la funzione di probabilit`a della v.a. Y , p
Y
(y), mediante
p
Y
(y) =
_
x:g(x)=y
p
X
(x) y R
Y
0 y / R
Y
16 1. La variabile aleatoria
Se invece la v.a. X possiede densit`a f
X
(x), allora la (1.24) d`a
F
Y
(y) = Pr(Y y) =

x:g(x)y
f
X
(x)dx
La funzione di densit`a di Y , f
Y
(y), potr`a poi ottenersi nei punti in cui esiste, derivando F
Y
(y).
Un importante risultato, solitamente denito come trasformazione integrale di probabilit`a, `e dato
dalla seguente
Proposizione 35 Se X `e una v.a. con f. di r. continua F
X
(x) e se y = g(x) = F
X
(x), allora la v.a.
Y = F
X
(X) possiede f. di r.
F
Y
(y) =
_
_
_
0 y < 0
y 0 y < 1
1 y 1
e funzione di densit`a
F

Y
(y) = f
Y
(y) =
_
1 0 < y < 1
0 altrove
Dimostrazione. Se F
X
(x) `e strettamente crescente, allora
Pr(Y y) = Pr(F
X
(x) y) =
_
_
_
0 y < 0
Pr(x F
1
X
(y)) = F
X
(F
1
X
(y)) = y 0 y < 1
1 y 1
Se invece F
X
(x) ha un tratto di costanza, ad esempio, y
0
= F
X
(x
0
), x
0
x x
1
, allora Pr(x
0

X x
1
) = 0 e
Pr(Y y) = Pr(F
X
(x) y) =
_

_
0 y < 0
y 0 y < y
0
Pr(X x
1
) = Pr(X x
0
) = y
0
y = y
0
Pr(X x
0
) +Pr(x
1
X < F
1
X
(y)) = y y
0
y < 1
1 y 1
Si `e indicato con F
1
X
la funzione inversa di F
X
.
La Proposizione 35 aerma che la funzione di ripartizione di una qualunque v.a. continua X possiede
una distribuzione uniforme sullintervallo (0, 1).
Una volta determinata la f. di r. di Y = g(X), la funzione di densit`a di Y si ottiene derivando
F
Y
(y); tuttavia, quando siano vericate alcune condizioni la funzione di densit`a f
Y
(y) pu`o ottenersi
direttamente senza la previa determinazione di F
Y
(y). Vale infatti il
Teorema 36 Sia X una v.a. con densit`a f
X
(x) > 0 solo su un intervallo (a, b), eventualmente non
limitato, e sia y = g(x) una funzione con derivata esistente per ogni x (a, b) con g

(x) > 0 per ogni


x (a, b), oppure g

(x) < 0 per ogni x (a, b). Allora la v.a. Y = g(X) `e dotata di densit`a data da
F

Y
(y) = f
Y
(y) =
_
f
X
(g
1
(y))

g
1
(y)
y

< y <
0 altrove
(1.25)
dove = min(g(a), g(b)); = max(g(a), g(b)).
1.5 Funzione di variabile aleatoria (trasformazione di v.a.) 17
Dimostrazione. Se g

(x) > 0 per x (a, b), allora y = g(x) `e continua e strettamente crescente, i
limiti g(a) e g(b) esistono ed in pi` u la funzione inversa x = g
1
(y) esiste, `e strettamente crescente e
ha derivata nita. Da ci`o segue
F
Y
(y) = Pr(Y y) = Pr(g(X) y) = Pr(X g
1
(y)) =
_
_
_
F
X
(g
1
(y)), y <
1 y
0 y <
Derivando rispetto a y si ottiene
F

Y
(y) = f
Y
(y) =
_
F

X
(g
1
(y))

y
g
1
(y) = f
X
(g
1
(y))

y
g
1
(y) < y <
0 altrove.
Similmente, se g

(x) < 0 per x (a, b), si ottiene


F
Y
(y) = Pr(g(X) y) = Pr(X g
1
(y))
= 1 Pr(X < g
1
(y)) = 1 Pr(X g
1
(y))
=
_
_
_
1 F
X
(g
1
(y)), y <
1 y
0 y <
e derivando
F

Y
(y) = f
Y
(y) = F

X
(g
1
(y))

y
g
1
(y) =
_
f
X
(g
1
(y))


y
g
1
(y)

< y <
0 altrove.
Esempio 37 Sia X una v.a con densit`a esponenziale negativa di parametro > 0 e sia y = e
x
= g(x).
Si ha a = 0, b = +, g(a) = 1, g(b) = +, = 1, = +, g
1
(y) = log y per 1 < y < . La funzione
di densit`a di Y = e
X
, applicando la (1.25),`e data da
f
Y
(y) =
_
f
X
(g
1
(y))


y
g
1
(y)

= f
X
(log y)


y
log y

=

y
+1
1 < y <
0 altrove.
La seguente proposizione mostra limportante relazione esistente tra la distribuzione gaussiana e la
distribuzione chi-quadrato.
Proposizione 38 Sia X una v.a. con distribuzione normale standardizzata (X N(0, 1)). Allora la
v.a. Y = g(X) = X
2
segue una distribuzione chi-quadrato con 1 grado di libert`a.
Dimostrazione. Per y > 0 la f. di r. di Y = X
2
`e
F
Y
(y) = P(Y y) = P(X
2
y) = P(

y X

y) =
= P(

y < X

y) = P(X

y) P(X

y) = F
X
(

y) F
X
(

y).
La densit`a di Y pu`o essere ottenuta dierenziando la f. di r.:
f
Y
(y) =

y
F
Y
(y)
=

y
(F
X
(

y) F
X
(

y))
=
1
2

y
f
X
(

y) +
1
2

y
f
X
(

y)
=
1
2

y
(f
X
(

y) +f
X
(

y)).
18 1. La variabile aleatoria
Sostituendo a f
X
la densit`a normale standard, otteniamo
f
Y
(y) =
1

22

y
(e

y)
2
2
+e

y)
2
2
) =
1

y
e

y
2
, y > 0
che corrisponde ad una distribuzione chi-quadrato con 1 grado di libert`a.
1.5.1 Speranza matematica di funzioni di v.a.
Se si `e interessati al calcolo della speranza matematica di Y = g(X), E(Y ), si potranno utilizzare le
seguenti denizioni
E(Y ) =

yR
Y
y p
Y
(y);
E(Y ) =

y f
Y
(y)dy.
Tuttavia le formule precedenti presuppongono la previa determinazione di p
Y
(y) o di f
Y
(y) e ci`o,
quando non si richiede altro, risulta superuo bastando, al ne del calcolo di E(Y ), utilizzare diretta-
mente la funzione di probabilit`a o di densit`a della v.a. X.
Precisamente vale la
Proposizione 39 Se X `e una v.a. con funzione di probabilit` a p
X
(x) o di densit`a f
X
(x) e se Y =
g(X), allora la speranza matematica di Y `e data da
E(Y ) =

yR
Y
y p
Y
(y) =

xR
X
g(x) p
X
(x)
se

xR
X
|g(x)| p
X
(x) <
nel caso discreto e
E(Y ) =

y f
Y
(y)dy =

g(x) f
X
(x)dx
se

|g(x)| f
X
(x)dx <
nel caso di v.a. dotata di densit`a.
Quanto abbiamo detto per le v.a. che sono funzioni di v.a. vale anche per le v.a. che sono funzioni di
vettori aleatori. Cos` se (X, Y ) `e un vettore aleatorio con funzione di densit`a di probabilit`a f
XY
(x, y)
e se Z = g(X, Y ) possiede densit`a di probabilit`a f
Z
(z), allora
E(Z) =

z f
Z
(z)dz =

g(x, y) f
XY
(x, y)dxdy
e similmente nel caso discreto
E(Z) =

zR
Z
z p
Z
(z) =

(x,y)R
XY
g(x, y) p
XY
(x, y).
1.6 Propriet`a della speranza matematica 19
1.6 Propriet`a della speranza matematica
Esamineremo ora alcune propriet`a della speranza matematica suppondendo in ciascun caso che essa
esista.
1. La speranza matematica di una v.a. X = c costante coincide con la costante c: E(X) = c.
2. La speranza matematica di Y = cg(X) coincide con la speranza matematica di g(X) per la
costante c: E(cg(X)) = cE(g(X)).
3. La speranza matematica di una combinazione lineare di v.a. coincide con lanaloga combinazione
lineare delle speranze matematiche: se Z = aX +bY allora E(aX +bY ) = aE(X) +bE(Y ).
4. Se X e Y sono indipendenti allora E(X Y ) = E(X) E(Y ).
5. Se X `e una v.a. con speranza matematica nita, allora E(X c)
2
risulta minimo quando la
costante c coincide con la speranza matematica di X, cio`e quando E(X) = c.
1.7 Propriet`a della varianza di una v.a.
La varianza di una v.a., quando esiste, possiede varie propriet`a.
1. Se c `e una costante, allora V (X +c) = V (X), cio`e sommare una costante ad una v.a. non altera
la variabilit`a dello stesso.
2. Se c `e una costante, allora V (cX) = c
2
V (X), cio`e moltiplicando per una costante c una v.a. se
ne altera la dispersione.
3. Se X `e una v.a. e Y = aX +b allora V (Y ) = V (aX +b) = a
2
V (X).
4. Se X e Y sono due v.a. stocasticamente indipendenti allora V (X +Y ) = V (X) +V (Y ).
5. Se X
1
, ..., X
n
sono v.a. due a due stocasticamente indipendenti, allora V (

n
i=1
a
i
X
i
) =

n
i=1
a
2
i
V (X
i
).
20 1. La variabile aleatoria
2
La funzione generatrice dei momenti
Il calcolo della speranza matematica, varianza ed in generale dei momenti di una v.a. `e compito
piuttosto laborioso. Una via ecace per superare inconvenienti di calcolo ma principalmente per
raggiungere altre importanti nalit`a `e quella di utilizzare particolari trasformazioni delle funzioni di
probabilit`a o di densit`a di probabilit`a. Una di queste trasformazioni `e quella nota col nome di funzione
generatrice dei momenti. Si tratta di una trasformazione integrale che associa ad ogni funzione di
probabilit`a o di densit`a unaltra funzione (quando esiste) con la quale `e possibile operare in modo pi` u
agevole per risolvere importanti problemi.
Denizione 40 Si dice funzione generatrice dei momenti (f.g.m.) di una v.a. X con funzione di
probabilit` a p
X
(x) o funzione di densit`a di probabilit`a f
X
(x) la funzione (del numero reale t) denita
da
M
X
(t) = E(e
tX
) =
_
_
_

xR
X
e
tx
p
X
(x)

e
tx
f
X
(x)dx
(2.1)
se la serie o integrale esiste nito per ogni valore di t appartenente ad un intorno completo dellorigine,
cio`e per ogni < t < , > 0.
Per lesistenza della f.g.m. si richiede che lintegrale o serie esista nito per almeno tutti i valori di
t contenuti in un intorno qualunque dellorigine. Esistono v.a. che non posseggono f.g.m..
Il vantaggio di sostituire ad una funzione di densit`a f
X
(x) la corrispondente f.g.m. consiste nella
possibilit`a di operare con regole relativamente pi` u semplici nella risoluzione di numerosi problemi. Ma
il procedimento deve essere giusticato con la circostanza che la corrispondenza tra funzioni di densit`a
(o di probabilit`a) e f.g.m. `e biunivoca.
Proposizione 41 Se X e Y sono due v.a. con f. di r. F
X
(), F
Y
() e f.g.m. esistenti, M
X
(t), M
X
(t),
allora
F
X
() F
Y
() M
X
() M
Y
().
La proposizione aerma che nella classe delle v.a. aventi f.g.m ad ogni funzione di densit`a di proba-
bilit`a corrisponde una sola f.g.m. e, viceversa, ad ogni f.g.m. corrisponde ununica funzione di densit`a
(o di probabilit`a).
22 2. La funzione generatrice dei momenti
Un altro importante risultato riguardante la f.g.m. che spiega anche il motivo della terminologia
adottata per designare la funzione M
X
(t) `e quello contenuto nella seguente
Proposizione 42 Se X ammette f.g.m. M
X
(t) allora vale
M
(n)
X
(0) =
_

n
t
n
M
X
(t)
_
t=0
= E(X
n
), n 1 intero.
Se dunque la v.a. X possiede f.g.m. allora essa possiede tutti i momenti, e questi ultimi possono
essere ricavati dalla f.g.m. per derivazione successiva secondo la formula precedente.
Esempio 43 Si consideri una v.a. distribuita con la densit`a di probabilit`a esponenziale negativa di
parametro > 0. La sua f.g.m. si ottiene
M
X
(t) = E(e
tX
) =


0
e
tx
e
x
dx =

t
, < t < .
Poich`e
M

X
(t) =

( t)
2
, M

X
(t) =
2
( t)
3
si avr`a
M

X
(0) = E(X) = 1/, M

X
(0) = E(X
2
) = 2/
2
.
Un risultato che ha diusa applicazione riguarda la f.g.m. di una trasformazione lineare di v.a.
Proposizione 44 Se X `e una v.a. con f.g.m. M
X
(t) e se Y = aX +b, allora
M
Y
(t) = E(e
tY
) = e
tb
M
X
(at).
Dimostrazione.
M
Y
(t) = E(e
tY
) = E(e
t(aX+b
) = E(e
atX+bt
) = e
tb
E(e
atX
) = e
tb
M
X
(at).
2.1 Alcune importanti f.g.m.
Distribuzione binomiale
M
X
(t) =
N

x=0
e
tx
_
N
x
_
p
x
(1 p)
Nx
=
N

x=0
_
N
x
_
(pe
t
)
x
(1 p)
Nx
= (1 p +pe
t
)
N
, < t < .
Poich`e per N 1 si ha
M

X
(t) = N(1 p +pe
t
)
N1
pe
t
M

X
(t) = N(N 1)(1 p +pe
t
)
N2
(pe
t
)
2
+N(1 p +pe
t
)
N1
pe
t
i primi due momenti varranno M

X
(0) = E(X) = Np, M

X
(0) = E(X
2
) = N(N 1)p
2
+ Np
e dunque V (X) = Np(1 p).
2.1 Alcune importanti f.g.m. 23
Distribuzione di Poisson
M
X
(t) =

x=0
e
tx

x
e

x!
= e

x=0
(e
t
)
x
x!
= e

e
e
t
= e
(e
t
1)
, < t < .
Si ha poi
M

X
(t) = e
t
e
(e
t
1)
M

X
(t) = [e
t
+ (e
t
)
2
]e
(e
t
1)
e quindi
E(X) = M

X
(0) =
E(X
2
) = M

X
(0) = +
2
V (X) = .
Distribuzione geometrica
M
X
(t) =

x=1
e
tx
p(1 p)
x1
=
p
1 p

x=1
[(1 p)e
t
]
x
=
p
1 p
(1 p)e
t
1 (1 p)e
t
=
pe
t
1 (1 p)e
t
, < t < log(1 p) > 0.
M

X
(t) =
pe
t
(1 (1 p)e
t
)
2
M

X
(t) =
pe
t
((1 + (1 p)e
t
))
(1 (1 p)e
t
)
3
E(X) = M

X
(0) =
1
p
E(X
2
) = M

X
(0) =
2 p
p
2
V (X) =
1 p
p
2
.
Distribuzione gaussiana
M
X
(t) =

e
tx
1

2
e

1
2
2
(x)
2
dx.
Con la sostituizione s =
x

si ottiene
M
X
(t) = e
t+
2 t
2
2
, < t < .
E(X) = M

X
(0) =
E(X
2
) = M

X
(0) =
2
+
2
, , V (X) =
2
.
24 2. La funzione generatrice dei momenti
Distribuzione gamma
M
X
(t) =


0
e
tx
1
(k)

k
x
k1
e
x
dx
=


0
1
(k)

k
x
k1
e
(t)x
dx
=

k
( t)
k


0
1
(k)
( t)
k
x
k1
e
(t)x
dx
=
_

t
_
k
, < t <
Da cui si ottengono valore atteso e varianza:
E(X) = M

X
(0) =
_
k
_

t
_
k1

( t)
2
_
t=0
=
k

V (X) =
k

2
.
2.2 La f.g.m. della somma di v.a. stocasticamente indipendenti
La determinazione della legge di probabilit`a di una v.a. somma di altre v.a. `e in generale operazione
quasi mai semplice se portata avanti operando direttamente sulle funzioni di probabilit`a o di densit`a
di probabilit`a delle v.a. implicate. Vogliamo ora mostrare come ladozione della f.g.m. facilita grande-
mente questa operazione quando le v.a. sommate si suppongono stocasticamente indipendenti. Vale
in proposito il seguente
Teorema 45 Se X e Y sono due v.a. stocasticamente indipendenti con f.g.m. rispettivamente M
X
(t)
e M
Y
(t), allora la f.g.m. della v.a. somma Z = X +Y `e data da
M
Z
(t) = M
X
(t) M
Y
(t).
Dimostrazione. Da M
Z
(t) = E(e
tZ
) = E(e
t(X+Y )
) = E(e
tX
e
tY
) segue, per lindipendenza delle
due v.a. X e Y , che M
Z
(t) = E(e
tX
e
tY
= M
X
(t) M
Y
(t).
Questo importante risultato pu`o essere esteso alla somma di pi` u di due v.a. secondo il seguente
Teorema 46 Se X
1
, X
2
, ..., X
n
sono v.a. mutuamente stocasticamente indipendenti con f.g.m. rispet-
tivamente M
X
1
(t), M
X
2
(t), ..., M
X
n
(t), allora la f.g.m. della v.a. somma Z = X
1
+ X
2
+ ... + X
n
`e
data da
M
Z
(t) = M
X
1
(t) M
X
2
(t) ... M
X
n
(t) =
n

i=1
M
X
i
(t).
Questultimo risultato, unito a quello della unicit`a della f.g.m., permette di ottenere la distribuzione
della somma di v.a. in numerosi ed importanti casi.
Esempio 47 Se X
1
, X
2
, ..., X
n
sono v.a. stocasticamente mutuamente indipendenti con leggi gamma
di parametri (, k
1
), (, k
2
)..., (, k
n
) allora la legge di probabilit`a della somma Z =

n
i=1
X
i
ha ancora
legge gamma con parametri e

n
i=1
k
i
.
Infatti, la f.g.m. di X
i
`e data da
M
X
i
(t) =
_

t
_
k
i
, < t <
2.2 La f.g.m. della somma di v.a. stocasticamente indipendenti 25
e dunque quella della somma Z sar`a
M
Z
(t) =
n

i=1
_

t
_
k
i
=
_

t
_

i
k
i
, < t <
la quale corrisponde ad una densit`a gamma di parametri dati da e

i
k
i
.
Se, in particolare, = 1/2 e k
i
= g
i
/2, i = 1, ..., n allora dal risultato precedente si deduce che la
somma di v.a. stocasticamente mutuamente indipendenti con leggi chi-quadrato con g
i
gradi di libert`a
`e ancora una legge chi-quadrato con

n
i=1
g
i
gradi di libert`a. Se invece k
i
= 1, i = 1, ..., n allora si
deduce che la somma di n v.a. stocasticamente mutuamente indipendenti con leggi esponenziali negative
con lo stesso parametro possiede legge di probabilit`a gamma con parametri e n.
La propriet`a riproduttiva (per somma) della legge di probabilit`a gamma dimostrata nellesempio
precedente `e posseduta anche da altre leggi di probabilit`a tra cui quella gaussiana, binomiale, di
Poisson, binomiale negativa. Lasciamo al lettore il compito di provare, seguendo lo schema delle-
sempio precedente, che se X
1
, ..., X
n
sono v.a. stocasticamente mutuamente indipendenti con leggi di
probabilit`a
a) gaussiana di parametri
i
e
2
i
, i = 1, ...n
b) binomiale di parametri (N
1
, p), ..., (N
n
, p)
c) di Poisson di parametri
1
, ...,
n
d) binomiale negativa di parametri (r
1
, p), ..., (r
n
, p)
allora la legge di probabilit`a della somma Z =

n
i=1
X
i
`e
a) gaussiana con parametri

n
i=1

i
e

n
i=1

2
i
, i = 1, ...n
b) binomiale con parametri (

n
i=1
N
i
, p)
c) di Poisson con parametri

n
i=1

i
d) binomiale negativa con parametri (

n
i=1
r
i
, p).
26 2. La funzione generatrice dei momenti
Figura 2.1: Alcune importanti f.g.m.
3
I vettori aleatori
Sia lo spazio dei risultati elementari connesso ad un dato esperimento e siano X() e Y () due
variabili aleatorie (v.a.) denite su in modo che ad ogni risulti assegnato il vettore (X() =
x, Y () = y).
Denizione 48 Si dice vettore aleatorio a due dimensioni il vettore (X(), Y ()) le cui componenti
X() e Y () sono variabili aleatorie denite sullo stesso ambiente .
Esempio 49 Si consideri il lancio di tre monetine regolari e lo spazio degli eventi elementari relativo a
tale esperimento = {(T, T, T), (T, T, C), (T, C, T), (C, T, T), (T, C, C), (C, T, C), (C, C, T), (C, C, C)}
e su tale spazio si deniscano le seguenti due funzioni:
X() = numero di teste in
Y () = numero di teste nelle prime due componenti di .
Tali funzioni costituiscono due v.a. denite su (si consideri la convenzione di considerare come
classe degli eventi quella di tutti i sottoinsiemi di ) e pertanto Z() = (X(), Y ()) `e un vettore
aleatorio le cui determinazioni sono:
per = {(T, T, T)}, (X(), Y ()) = (3, 2)
per = {(T, T, C)}, (X(), Y ()) = (2, 2)
per = {(T, C, T)}, (X(), Y ()) = (2, 1)
per = {(C, T, T)}, (X(), Y ()) = (2, 1)
per = {(T, C, C)}, (X(), Y ()) = (1, 1)
per = {(C, T, C)}, (X(), Y ()) = (1, 1)
per = {(C, C, T)}, (X(), Y ()) = (1, 0)
per = {(C, C, C)}, (X(), Y ()) = (0, 0)
Denizione 50 Si dir`a che il vettore aleatorio (X(), Y ()) `e discreto se entrambe le variabili aleato-
rie X() e Y () sono discrete, cio`e, anche, se linsieme di valori che pu`o assumere (X(), Y ()) `e
costituito da un numero nito oppure da una innit`a numerabile di coppie ordinate di numeri reali.
Come per le variabili aleatorie discrete, porremo Pr((X, Y ) = (x, y)) := P{ : (X(), Y ()) =
(x, y)} = P{ : X() = x, Y () = y}.
28 3. I vettori aleatori
Denizione 51 Se (X, Y ) `e un vettore aleatorio discreto con possibili valori (x
i
, y
j
), i = 1, 2, ..., k; j =
1, 2, ..., s, allora la funzione
p
XY
(x, y) =
_
Pr((X, Y ) = (x, y)) = Pr(X = x, Y = y) > 0 x = x
i
, y = y
j
0 altrove
`e detta funzione di probabilit`a del vettore aleatorio (X, Y ).
Proposizione 52 Se (X, Y ) `e un vettore aleatorio con insieme dei valori possibili R
XY
= {(x
i
, y
j
), i =
1, ..., k; j = 1, ..., s} e con funzione di probabilit`a p
XY
(x, y), allora
p
XY
(x, y) 0 e

(x,y)R
XY
p
XY
(x, y) = 1. (3.1)
Se di un vettore aleatorio `e nota la funzione di probabilit`a p
XY
(x, y) e se B `e un evento di R
XY
, cio`e
B = {(x
i
1
, y
j
1
), (x
i
2
, y
j
2
), ...} allora
Pr((X, Y ) B) = P{ : (X(), Y ()) B}
= P{ : (X(), Y ()) = (x
i
1
, y
j
1
) oppure (X(), Y ()) = (x
i
2
, y
j
2
)
oppure (X(), Y ()) = (x
i
3
, y
j
3
) oppure...}
=

k=1

p=1
P{ : X() = x
i
k
, Y () = y
j
p
}
=

(x,y)B
p
XY
(x, y)
ovvero la probabilit`a di un evento B di R
XY
`e eguale alla somma delle probabilit`a dei singoli elementi
di B.
Esempio 53 Una monetina viene lanciata tre volte. Lo spazio `e dato dalle terne
{(T, T, T), (T, T, C), (T, C, T), (C, T, T), (T, C, C), (C, T, C), (C, C, T), (C, C, C)}.
Se p() = 1/8 e se
X() = numero di teste nei primi due lanci
Y () = numero di teste negli ultimi due lanci
allora
{ : X() = 0, Y () = 0} = {(C, C, C)}
{ : X() = 0, Y () = 1} = {(C, C, T)}
{ : X() = 1, Y () = 0} = {(T, C, C)}
{ : X() = 1, Y () = 1} = {(T, C, T), (C, T, C)}
{ : X() = 1, Y () = 2} = {(C, T, T)}
{ : X() = 2, Y () = 1} = {(T, T, C)}
{ : X() = 2, Y () = 2} = {(T, T, T)}
da cui la funzione di probabilit` a di (X, Y )
p
XY
(x, y) =
1
8
per (x, y) {(0, 0), (0, 1), (1, 0), (1, 2), (2, 1), (2, 2)}
=
1
4
per (x, y) = (1, 1)
= 0 altrove
essendo R
XY
= {(0, 0), (0, 1), (1, 0), (1, 1), (1, 2), (2, 1), (2, 2)}.
Se B `e levento dato da X+Y > 1, allora i punti di R
XY
che realizzano B sono {(1, 2), (2, 1), (1, 1), (2, 2)}
e quindi
Pr(X +Y > 1) =

(x,y)B
p
XY
(x, y) =
5
8
.
3. I vettori aleatori 29
Ogni funzione p
XY
(x, y) che soddisfa (3.1), indipendentemente dal procedimento con cui essa `e stata
derivata e cio`e indipendentemente da e dalla misura di probabilit`a P denita sui suoi sottinsiemi,
`e detta funzione di probabilit`a. Cos` sono funzioni di probabilit`a di vettori aleatori le seguenti due
funzioni
p
XY
(x, y) =
1
8
per (x, y) = (0, 1), (x, y) = (3, 1), (x, y) = (1, 3), (x, y) = (2, 3)
=
1
4
per (x, y) = (1, 2), (x, y) = (2, 2)
= 0 altrove,
in quanto p
XY
(x, y) 0 (x, y) R
2
e

(x,y)R
XY
p
XY
(x, y) = 1;
p
XY
(x, y) = (1 a)
2
a
x+y
su R
XY
= {(x, y) : x 0, y 0 interi}, 0 < a < 1
= 0 altrove,
in quanto p
XY
(x, y) 0 (x, y) R
2
e

(x,y)R
XY
p
XY
(x, y) =

(x,y)R
XY
(1 a)
2
a
x+y
= (1 a)
2

x=0
a
x

y=0
a
y
= 1.
Quando i valori possibili di (X, Y ) sono in numero nito allora si `e soliti riportare la sua funzione di
probabilit`a sotto forma di tabella a doppia entrata. Sulla riga madre vengono riportati i valori possibili
della componente X, sulla colonna madre quelli della componente Y e nelle caselle le probabilit`a
corrispondenti. Cos`, per lEsempio 53 si avrebbe
Y \ X 0 1 2
0 1/8 1/8 0
1 1/8 2/8 1/8
2 0 1/8 1/8
in modo che, ad esempio, Pr(X = 1, Y = 1) =
2
8
=
1
4
, Pr(X = 2, Y = 0) = 0 e cos` via.
Denizione 54 Un vettore aleatorio (X, Y ) si dir`a dotato di densit`a se esso pu`o assumere valori in
un insieme innito non numerabile del piano e se esiste una funzione f
XY
(x, y) tale che
f
XY
(x, y) 0 (x, y) R
2
,

f
XY
(x, y)dxdy = 1
e la probabilit`a Pr(a < X b, c < Y d) `e prescritta con
Pr(a < X b, c < Y d) =

b
a

d
c
f
XY
(x, y)dydx.
La funzione f
XY
(x, y) `e detta funzione di densit`a di probabilit`a del vettore aleatorio (X, Y ).
Come nel caso delle variabili aleatorie, lintegrale di f
XY
(x, y) sullintervallo {(x, y) : a < x b, c <
y d}, cio`e il volume ad essa sotteso nellintervallo considerato, rappresenta la probabilit`a con cui il
vettore assume valori in detto intervallo (del piano).
Per piccoli valori di x e y si ha
f
XY
(x, y)xy Pr(x < Y < x + x, y < Y < y + y).
Anche per i vettori aleatori dotati di densit`a si ha Pr(X = x, Y = y) = 0 quale che sia il punto del
piano (x, y) ma occorre ora osservare che nulle sono anche le probabilit`a relative ad altri eventi del
piano, come ad esempio Pr(a < X b, Y = y
0
), Pr(X = Y ). Ed infatti il volume sotteso alla densit`a
di probabilit`a sullinsieme {(x, y) : a < x b, y = y
0
} oppure sullinsieme {(x, y) : x = y} `e nullo.
30 3. I vettori aleatori
Esempio 55 La funzione
f
XY
(x, y) =
_
e
xy
x > 0, y > 0
0 altrove
`e una funzione di densit`a di probabilit`a in quanto
f
XY
(x, y) 0 (x, y) R
2
e

f
XY
(x, y)dxdy =

e
xy
dxdy = 1.
Se C = {(x, y) : x + y > 1} allora Pr((X, Y ) C) si otterr`a integrando f
XY
(x, y) sulla porzione di
piano ombreggiata indicata nella Figura 3.1
Figura 3.1: Graco dellinsieme C
0 1
0
1
6
-
x
y
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Pr((X, Y ) C) =

C
f
XY
(x, y)dxdy = Pr(X +Y > 1) =
=

1
0
_
+
1x
e
x
e
y
dy
_
dx +


1
_
+
0
e
x
e
y
dy
_
dx =
=

1
0
e
x
_
+
1x
e
y
dy
_
dx +


1
e
x
dx

+
0
e
y
dy =
=

1
0
e
x
e
(1x)
dx +


1
e
x
dx 1 =
1
e
+
1
e
=
2
e
.
Naturalmente esistono vettori aleatori che non sono n`e discreti n`e dotati di densit`a. Una delle
svariate circostanze in cui ci`o si manifesta `e quella in cui, ad esempio, X `e una variabile aleatoria
discreta e Y invece una variabile aleatoria dotata di densit`a.
3.1 La funzione di ripartizione di un vettore aleatorio bidimensionale
Denizione 56 Sia (X, Y ) un vettore aleatorio. Si dice funzione di ripartizione (f. di r.) la funzione
di due variabili denita, per ogni (x, y) R
2
, da
F
XY
(x, y) := Pr(X x, Y y).
3.1 La funzione di ripartizione di un vettore aleatorio bidimensionale 31
La funzione di ripartizione valutata nel punto (x, y) rappresenta dunque la probabilit`a con cui il
vettore (X, Y ) assume valori nellintervallo (, x] (, y].
La f. di r. F
XY
(x, y) possiede requisiti che in parte ripetono quelli della f. di r. di una variabile
aleatoria:
1) F
XY
(x, y) `e continua da destra in ognuno degli argomenti;
2) F
XY
(, y) = F
XY
(x, ) = 0; F
XY
(+, +) = 1;
3) per ogni (x
1
, y
1
), (x
2
, y
2
) con x
1
< x
2
, y
1
< y
2
si ha
F = F
XY
(x
2
, y
2
) F
XY
(x
1
, y
2
) F
XY
(x
2
, y
1
) +F
XY
(x
1
, y
1
) 0.
Non dimostreremo queste propriet`a; osserveremo solamente che il segno di non negativit`a nella 3)
dipende dalla circostanza che F = Pr(x
1
< X x
2
, y
1
< Y y
2
).
Quando di un vettore aleatorio si conosce la sua funzione di probabilit`a o di densit`a di probabilit`a,
la f. di r. F
XY
(x, y) pu`o determinarsi tramite
F
XY
(x, y) =
_
_
_

{(s,t),sx,ty}
p
XY
(s, t) nel caso discreto

f
XY
(s, t)ds dt nel caso continuo
Esempio 57 Si consideri il vettore aleatorio (X, Y ) con funzione di probabilit`a rappresentata nella
seguente tabella a doppia entrata
Y \ X 0 1 2 3
1 1/8 - - 1/8
2 - 1/4 1/4 -
3 - 1/8 1/8 -
Si avr`a
F
XY
(x, y) = 0, per x < 0 e y, oppure x e y < 1
=
1
8
per 0 x < 1 e y 1, oppure 1 x 3 e 1 y < 2
=
1
4
per x 3, 1 y < 2
=
3
8
per 1 x < 2, 2 y < 3
=
1
2
per 1 x < 2, y 3
=
5
8
per 2 x < 3, 2 y < 3
=
6
8
per x 3, 2 y < 3
=
7
8
per 2 x < 3, y 3
= 1 per x 3, y 3
32 3. I vettori aleatori
Esempio 58 Se (X, Y ) `e un vettore aleatorio con densit`a di probabilit`a
f
XY
(x, y) =
_
e
xy
x > 0, y > 0
0 altrove
allora
F
XY
(x, y) =

f
XY
(s, t)dtds =

x
0

y
0
e
st
dtds =
=

x
0
e
s
ds

y
0
e
t
dt = (1 e
x
)(1 e
y
), x 0, y 0;
F
XY
(x, y) = 0, x < 0 oppure y < 0.
Quando `e nota la f.di r. di un vettore (X, Y ) `e possibile determinare la funzione di probabilit`a o
densit`a. Infatti, nel caso discreto,
p
XY
(x, y) = F
XY
(x, y) F
XY
(x, y) F
XY
(x, y) +F
XY
(x, y) 0
essendo
F
XY
(x, y) = lim
b0
+F
XY
(x b, y); F
XY
(x, y) = lim
b0
+F
XY
(x, y b)
e
f
XY
(x, y) = lim
x 0
y 0
F
xy
=

2
F
XY
(x, y)
xy
.
3.2 Distribuzioni marginali
Ad ogni vettore aleatorio a due dimensioni (X, Y ) possiamo associare due variabili aleatorie X e Y .
Dalla funzione di probabilit`a o densit`a del vettore, con operazioni elementari, si potranno ottenere le
funzioni di probabilit`a o densit`a delle due variabili. Esse si dicono funzioni di probabilit`a marginali
ed informano intorno alla distribuzione di probabilit`a delle due variabili aleatorie considerate isolata-
mente. Precisamente, si consideri il vettore (X, Y ) discreto con funzione di probabilit`a p
XY
(x, y).
Poich`e
p
XY
(x, y) = Pr(X = x
i
, Y = y
j
) quando x = x
i
, y = y
j
,
volendo determinare la funzione di probabilit`a della variabile aleatoria X baster`a eseguire la somma
delle probabilit`a degli eventi (incompatibili)
p
X
(x) =

y:(x,y)R
XY
Pr(X = x, Y = y) =

y:(x,y)R
XY
p
XY
(x, y) = Pr(X = x).
Similmente
p
Y
(y) =

x:(x,y)R
XY
Pr(X = x, Y = y) =

x:(x,y)R
XY
p
XY
(x, y) = Pr(Y = y).
Nel caso di vettore dotato di densit`a si avranno le formule
f
X
(x) =

f
XY
(x, y)dy; f
Y
(y) =

f
XY
(x, y)dx
per la densit`a di X e Y rispettivamente.
3.2 Distribuzioni marginali 33
Esempio 59 Se (X, Y ) possiede funzione di probabilit`a rappresentata nella seguente tabella
Y \ X 0 1 2 p
Y
(y)
0 1/8 1/8 - 1/4
1 1/8 2/8 1/8 1/2
2 - 1/8 1/8 1/4
p
X
(x) 1/4 1/2 1/4 1
allora
p
X
(x) =
_
_
_
1
8
+
1
8
=
1
4
x = 0 oppure x = 2
1
8
+
1
4
+
1
8
=
1
2
x = 1
0 altrove
p
Y
(y) =
_
_
_
1
8
+
1
8
=
1
4
y = 0 oppure y = 2
1
8
+
1
4
+
1
8
=
1
2
y = 1
0 altrove
Esempio 60 Se (X, Y ) possiede densit`a data da
f
XY
(xy) =
_
1 0 < x < 1, 0 < y < 1
0 altrove
allora
f
X
(x) =
_
+

f
XY
(x, y)dy =

1
0
1 dy = 1 0 < x < 1
0 altrove
f
Y
(y) =
_
+

f
XY
(x, y)dx =

1
0
1 dx = 1 0 < y < 1
0 altrove.
Inoltre si ha
F
X
(x) = lim
y+
F
XY
(x, y); F
Y
(y) = lim
x+
F
XY
(x, y).
Mentre dalle distribuzioni bidimensionali `e sempre possibile riottenere le marginali, il viceversa non
vale in generale. La conoscenza delle funzioni di probabilit`a o densit`a marginali di un vettore aleatorio
(X, Y ) non `e, in generale, suciente per la conoscenza della funzione di probabilit`a o densit`a del
vettore. Con riferimento al caso discreto infatti, la conoscenza di p
X
(x) e p
Y
(y) equivale a quella della
somma per riga e per colonna degli elementi della tabella a doppia entrata che rappresenta p
XY
(x, y);
`e pertanto agevole intendere come, salvo ipotesi aggiuntive, di tabelle che rispettino tali vincoli di
somma se ne possano costruire pi` u di una.
Esempio 61 Consideriamo le due funzioni di probabilit`a
p
X
(x) =
_
_
_
1/4 x = 0, x = 2
1/2 x = 1
0 altrove
p
Y
(y) =
_
_
_
1/4 y = 0, y = 2
1/2 y = 1
0 altrove
34 3. I vettori aleatori
ed immaginiamo che esse rappresentino le funzioni di probabilit`a marginali di un vettore aleatorio
(X, Y ). Le tre seguenti tabelle a doppia entrata costituiscono altrettanti esempi di funzioni di proba-
bilit`a p
XY
(x, y) che hanno p
X
(x) e p
Y
(y) come marginali:
Tabella 1:
Y \ X 0 1 2 p
Y
(y)
0 1/4 - - 1/4
1 - 1/2 - 1/2
2 - - 1/4 1/4
p
X
(x) 1/4 1/2 1/4 1
Tabella 2:
Y \ X 0 1 2 p
Y
(y)
0 - - 1/4 1/4
1 - 1/2 - 1/2
2 1/4 - - 1/4
p
X
(x) 1/4 1/2 1/4 1
Tabella 3:
Y \ X 0 1 2 p
Y
(y)
0 1/16 1/8 1/16 1/4
1 1/8 1/4 1/8 1/2
2 1/16 1/8 1/16 1/4
p
X
(x) 1/4 1/2 1/4 1
3.3 Distribuzioni condizionali
Ricordiamo che, dati gli eventi A e B, si denisce probabilit`a condizionale di A dato B la quantit`a
P(A|B) =
P(A B)
P(B)
, P(B) > 0.
Sulla scorta della precedente denizione `e possibile introdurre la nozione di funzione di probabilit`a
condizionale.
Supponiamo che (X, Y ) sia un vettore aleatorio discreto con funzione di probabilit`a
p
XY
(x, y) = Pr(X = x, Y = y)
e con funzioni di probabilit`a marginali
p
X
(x) = Pr(X = x), p
Y
(y) = Pr(Y = y)
e supponiamo di essere interessati alla valutazione della probabilit`a
Pr(Y = y|X = x), x R
X
,
vale a dire della probabilit`a che la variabile Y assuma il valore y nellipotesi che X assuma il valore x.
Siano A
x
= { : X() = x}, B
y
= { : Y () = y} e P(A
x
) = Pr(X = x), P(B
y
) =
Pr(Y = y).
Allora
P(A
x
B
y
) = P{ : X() = x, Y () = y} = Pr(X = x, Y = y)
3.3 Distribuzioni condizionali 35
e
Pr(Y = y|X = x) =
P(A
x
B
y
)
P(A
x
)
=
Pr(X = x, Y = y)
Pr(X = x)
=
p
XY
(x, y)
p
X
(x)
, x R
X
. (3.2)
Si osservi come Pr(Y = y|X = x) sia denita solo per valori x R
X
, cio`e per valori di x tali che
p
X
(x) > 0.
La funzione Pr(Y = y|X = x), x R
X
, prende il nome di probabilit`a condizionale di Y dato X=x.
Similmente si potr`a denire la probabilit`a condizionale di X dato Y = y:
Pr(X = x|Y = y) =
Pr(X = x, Y = y)
Pr(Y = y)
=
p
XY
(x, y)
p
Y
(y)
, p
Y
(y) > 0. (3.3)
Si osservi che per ogni x R
X
, Pr(Y = y|X = x) 0 e in pi` u

y
Pr(Y = y|X = x) = 1 e
similmente per Pr(X = x|Y = y).
Esempio 62 Riprendiamo lEsempio 53 in cui (X, Y ) possiede funzione di probabilit`a data da
Y \ X 0 1 2 p
Y
(y)
0 1/8 1/8 - 1/4
1 1/8 2/8 1/8 1/2
2 - 1/8 1/8 1/4
p
X
(x) 1/4 1/2 1/4 1
ed in cui X e Y rappresentano rispettivamente il numero di teste realizzate nei primi due lanci e
negli ultimi due lanci di una monetina lanciata tre volte. Qual `e la funzione di probabilit` a del numero
di teste osservato nei primi due lanci, nellipotesi che gli ultimi due lanci hanno dato luogo a due
teste?
Si tratta di determinare Pr(X = x|Y = 2).
Poich`e Pr(Y = 2) = p
Y
(2) = 1/4 > 0, si avr`a
Pr(X = 0|Y = 2) =
p
XY
(0, 2)
p
Y
(2)
= 0
Pr(X = 1|Y = 2) =
p
XY
(1, 2)
p
Y
(2)
=
1/8
1/4
=
1
2
Pr(X = 2|Y = 2) =
p
XY
(2, 2)
p
Y
(2)
=
1/8
1/4
=
1
2
Pr(X = x|Y = 2) = 0, per altri valori di x.
Nel caso di vettori (X, Y ) dotati di densit`a le denizioni (3.2) e (3.3) non possono essere applicate
a causa dellannullarsi di Pr(X = x) e Pr(Y = y).
Diamo la seguente denizione formale
Denizione 63 Sia (X, Y ) un vettore aleatorio con funzione di densit`a f
XY
(x, y) e densit`a marginali
f
X
(x), f
Y
(y). La funzione di densit`a condizionale di X dato Y = y `e la funzione denita da
f
X|Y
(x|y) =
f
XY
(x, y)
f
Y
(y)
, f
Y
(y) > 0 (3.4)
mentre quella di Y dato X = x
f
Y |X
(y|x) =
f
XY
(x, y)
f
X
(x)
, f
X
(x) > 0.
36 3. I vettori aleatori
Una giusticazione della precedente denizione pu`o essere data nei termini seguenti.
Si supponga che > 0 sia Pr(y Y y +) > 0.
Possiamo allora denire
Pr(X x|y Y y +) =
Pr(X x, y Y y +)
Pr(y Y y +)
e chiamare f. di r. condizionale di X dato Y = y il seguente limite (se esiste)
F
X|Y
(x|y) = lim
0
Pr(X x|y Y y +).
Se esiste una funzione f
X|Y
(x|y) tale che
F
X|Y
(x|y) =

f
X|Y
(s|y)ds,
allora essa `e detta funzione di densit`a di probabilit`a condizionale di X dato Y = y.
Si dimostra che se f
XY
(x, y), f
Y
(y) > 0 sono continue in y, allora la funzione di densit`a condizionale
f
X|Y
(x|y) esiste ed `e data dalla (3.4).
Esempio 64 Sia (X, Y ) un vettore aleatorio con funzione di densit`a
f
XY
(x, y) =
_
2 0 < x < y < 1
0 altrove
Figura 3.2: Graco di R
XY
0 1
0
1
6
-
x
y
.
.
. .
. .
. . .
. . .
. . . .
. . . .
. . . . .
. . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Allora
f
X
(x) =
_
_
_

f
XY
(x, y)dy =

1
x
2dy = 2(1 x) 0 < x < 1
0 altrove
f
Y
(y) =
_
_
_

f
XY
(x, y)dx =

y
0
2dx = 2y 0 < y < 1
0 altrove
f
X|Y
(x|y) =
_
f
XY
(x,y)
f
Y
(y)
=
2
2y
=
1
y
0 < x < y < 1
0 altrove.
3.4 La legge di probabilit`a multinomiale 37
3.4 La legge di probabilit`a multinomiale
Si tratta di una legge di probabilit`a che generalizza la binomiale al caso in cui ci siano pi` u di due
eventi incompatibili.
Si supponga che in un esperimento si possa vericare uno (ed uno solo) degli eventi E
1
, E
2
, ..., E
k+1
(k
1) con probabilit`a, rispettivamente, p
1
, p
2
, ..., p
k+1
> 0 essendo

1
k+1
p
i
= 1. Se si immagina di
replicare (in modo indipendente) lesperimento N 1 volte (essendo p
i
costante in ognuno degli
esperiment) e si indica con X = (X
1
, X
2
, .., X
k+1
) il vettore aleatorio in cui X
i
denota il numero di
volte che si verica levento E
i
, i = 1, 2, ..., k + 1, qual `e la legge di probabilit`a del vettore X?
Si pu`o dimostrare il seguente
Teorema 65 Se X `e il vettore aleatorio che abbiamo denito, la sua legge di probabilit`a `e data da
Pr(X
1
= n
1
, ..., X
k+1
= n
k+1
) =
N!
n
1
!n
2
!...n
k+1
!
p
n
1
1
p
n
2
2
...p
n
k+1
k+1
essendo
n
i
0,
k+1

1
n
i
= N, p
k+1
= 1
k

1
p
i
.
La legge di probabilit`a data nellespressione precedente `e detta multinomiale di parametri N, p
1
, ..., p
k
e nel caso in cui k = 1 si riduce a quella binomiale.
Si pu`o anche mostrare che le leggi di probabilit`a marginali di X
1
, X
2
, .., X
k+1
sono binomiali. Precisa-
mente:
X
i
Bi(N, p
i
), i = 1, ..., k + 1
e dunque
E(X
i
) = Np
i
V (X
i
) = Np
i
(1 p
i
)
ed in pi` u (ma `e meno facile da mostrare):
Cov(X
i
, X
j
) = Np
i
p
j
.
3.5 La legge gaussiana bidimensionale
Denizione 66 Si dice che un vettore ha legge di probabilit`a gaussiana a due dimensioni se esso
possiede densit`a data da
f
XY
(x, y) =
1
2
X

1
2
e

1
2(1
2
)
_
_
x
X

X
_
2
2
_
y
Y

Y
__
x
X

X
_
+
_
y
Y

Y
_
2
_
(3.5)
per (x, y) R
2
e per certe costanti
X
,
Y
, 1 < < 1,
X
,
Y
> 0.
Se si eseguono le necessarie integrazioni si ottengono le densit`a marginali
f
X
(x) =
1

2
e

1
2
2
X
(x
X
)
2
, x R
38 3. I vettori aleatori
f
Y
(y) =
1

2
e

1
2
2
Y
(y
Y
)
2
, y R
ovvero densit`a gaussiane.
Infatti
f
X
(x) =

f
XY
(x, y)dy =
=
1
2
X

1
2

1
2(1
2
)
_
_
x
X

X
_
2
2
_
y
Y

Y
__
x
X

X
_
+
_
y
Y

Y
_
2
_
dy =
=
e

1
2(1
2
)
_
x
X

X
_
2
2
X

1
2

1
2(1
2
)
_
2
y
Y

Y
x
X

X
+
_
y
Y

Y
_
2
_
dy.
Ma
2
_
y
Y

Y
__
x
X

X
_
+
_
y
Y

Y
_
2
=
= 2
_
y
Y

Y
__
x
X

X
_
+
_
y
Y

Y
_
2
+
2
_
x
X

X
_
2

2
_
x
X

X
_
2
=
=
2
_
x
X

X
_
2
+
_

x
X

y
Y

Y
_
2
.
e perci`o
f
X
(x) =
1
2
X

1
2
e

1
2
(
x
x

X
)
2

1
2(1)
2
_
y
Y

x
X

X
_
2
dy.
La funzione integranda rappresenta

2
Y

1
2
per la funzione di densit`a gaussiana di media

Y
+
Y
(
x
X

X
) e varianza
2
Y
(1
2
) e dunque il valore dellintegrale `e

2
Y

1
2
da cui il
risultato.
La funzione di densit`a condizionale di Y dato X = x `e invece data da
f
Y |X
(y|x) =
f
XY
(x, y)
f
X
(x)
=
1

2
Y

1
2
e

1
2(1
2
)
_
_
x
X

X
_
2
2
_
x
X

X
__
y
Y

Y
_
+
_
y
Y

Y
_
2
_
+
1
2
_
x
X

X
_
2
=
1

2
Y

1
2
e

1
2(1
2
)
_

2
_
x
X

X
_
2
2
_
x
X

X
__
y
Y

Y
_
+
_
y
Y

Y
_
2
_
=
1

2
Y

1
2
e

1
2(1
2
)
_
y
Y

x
X

X
_
2
=
1

2
Y

1
2
e

1
2(1
2
)
2
Y
_
y
Y

X
(x
X
)
_
2
Per x ssato si tratta di una densit`a gaussiana con media
Y
+

X
(x
X
) e varianza
2
Y
(1
2
).
Similmente per la densit`a condizionale di X dato Y = y si ottiene
f
X|Y
(x|y) =
1

2
X

1
2
e

1
2(1
2
)
2
X
(x
X

Y
(y
Y
))
2
.
3.6 Variabili aleatorie indipendenti
Una nozione che generalizza quella dellindipendenza tra due (o pi` u) eventi A e B concerne le variabili
aleatorie. Per introdurre questo concetto di capitale importanza si considerino due v.a. discrete X e
3.6 Variabili aleatorie indipendenti 39
Y denite su e siano A
X
e B
Y
gli insiemi
A
X
= { : X() = x}, B
Y
= { : Y () = y}.
Dalla denizione di indipendenza di due eventi segue che A
X
e B
Y
sono eventi indipendenti se e
solo se
P(A
X
B
Y
) = Pr(X = x, Y = y) = P(A
X
) P(B
Y
) = Pr(X = x) Pr(Y = y).
Si dir`a che le due v.a. X e Y sono stocasticamente indipendenti se la precedente fattorizzazione sussiste
per ogni coppia di valori possibili di x e y. Precisamente
Denizione 67 Due v.a. discrete X e Y si dicono stocasticamente indipendenti se e solo se
p
XY
(x, y) = p
X
(x) p
Y
(y) (x, y) R
X
R
Y
. (3.6)
Detto altrimenti, le due v.a. X e Y si dicono stocasticamente indipendenti se la funzione di proba-
bilit`a del vettore (X, Y ), p
XY
(x, y), pu`o essere scritta come prodotto delle due funzioni di probabilit`a
marginali p
X
(x) e p
Y
(y).
Esempio 68 Sia (X,Y) un vettore con funzione di probabilit`a
p
XY
(x, y) =
_
(1 a)
2
a
x+y
(x, y) {0, 1, 2..} {0, 1, 2, ..}, 0 < a < 1
0 altrove
Le funzioni di probabilit`a marginali di X e Y sono date da
p
X
(x) =

y=0
(1 a)
2
a
x+y
= (1 a)
2
a
x

y=0
a
y
= (1 a)a
x
, x {0, 1, 2, ...}
p
Y
(y) =

x=0
(1 a)
2
a
x+y
= (1 a)
2
a
y

x=0
a
x
= (1 a)a
y
, y {0, 1, 2, ...}
Pertanto
p
XY
(x, y) = (1 a)
2
a
x+y
= (1 a)a
x
(1 a)a
y
, (x, y) {0, 1, 2, ...} {0, 1, 2, ...}
e le due v.a. X e Y sono stocasticamente indipendenti.
Esempio 69 Sia (X, Y ) il vettore con funzione di probabilit`a p
XY
(x, y) rappresentata nella seguente
tabella
Y \ X 0 1 2 3 p
Y
(y)
0 0,02 0,04 0,06 0,08 0,2
1 0,05 0,10 0,15 0,20 0,5
2 0,03 0,06 0,09 0,12 0,3
p
X
(x) 0,1 0,2 0,3 0,4 1
`
E agevole appurare che per ogni casella della tabella sussiste leguaglianza p
XY
(x, y) = p
X
(x)p
Y
(y).
Ad esempio: 0, 1 = 0, 20, 5; 0, 12 = 0, 40, 3; e cos` via. Le due variabili X e Y sono stocasticamente
indipendenti.
Analoga denizione vale per le v.a. dotate di densit`a.
40 3. I vettori aleatori
Denizione 70 Due v.a. dotate di densit`a X e Y si dicono stocasticamente indipendenti se e solo se
f
XY
(x, y) = f
X
(x) f
Y
(y) (x, y) R
X
R
Y
(3.7)
in cui f
XY
, f
X
, f
Y
sono rispettivamente la densit`a del vettore (X, Y ), della v.a. X e della v.a. Y .
Esempio 71 Se (X, Y ) `e un vettore aleatorio con funzione di densit`a di probabilit`a
f
XY
(x, y) =
_
a
2
e
a(x+y)
x, y > 0, a > 0
0 altrove
allora le due v.a. X e Y sono stocasticamente indipendenti poich`e
f
X
(x) =

f
XY
(x, y)dy =

+
0
a
2
e
a(x+y)
dy = a
2
e
ax

+
0
e
ay
dy = ae
ax
, x > 0
f
Y
(y) =

f
XY
(x, y)dx =

+
0
a
2
e
a(x+y)
dx = a
2
e
ay

+
0
e
ax
dx = ae
ay
, y > 0
e
f
XY
(xy) = a
2
e
a(x+y)
= f
X
(x) f
Y
(y) = ae
ax
ae
ay
, (x, y) R
2
+
.
Osservazione. Se luguaglianza (3.6) viene a mancare per una qualsivoglia coppia (x, y) di proba-
bilit`a positiva oppure la (3.7) per tutti i punti di un sottoinsieme di R
2
che contiene un intervallo del
piano in cui f
XY
(x, y) > 0, allora le due v.a. si dicono connesse o, anche, stocasticamente dipendenti.
La condizione di indipendenza stocastica pu`o esser data, invece che in termini di funzioni di proba-
bilit`a o densit`a di probabilit`a, con riferimento alle f.di r. delle due v.a..
Precisamente
Denizione 72 Due v.a. X e Y sono stocasticamente indipendenti se e solo se
F
XY
(x, y) = F
X
(x) F
Y
(y) (x, y) R
2
.
3.7 Funzioni di vettori aleatori
Siano X() e Y () due funzioni denite in (variabili aleatorie) e sia z = g(x, y) una funzione
sucientemente regolare di x e y; allora Z = g(X, Y ) sar`a una variabile aleatoria in quanto le sue
determinazioni dipendono dallesito di dellesperimento. Esempi particolarmente importanti di
funzioni z = g(x, y) sono: z = x +y, z = x/y, z = x y, z = min(x, y), z = max(x, y).
Il problema che si pone `e quello di determinare la funzione di probabilit`a o di densit`a di probabilit`a
della nuova variabile aleatoria Z conoscendo la distribuzione del vettore aleatorio (X, Y ).
Per arontare il problema, distingueremo il caso in cui (X, Y ) `e discreto dal caso in cui (X, Y ) `e
dotato di densit`a.
Sia allora (X, Y ) un vettore con funzione di probabilit`a p
XY
(x, y), (x, y) R
XY
e sia Z = g(X, Y ).
Si tratter`a di determinare levento equivalente a {Z = z} in termini di (X, Y ) e quindi calcolare la
sua probabilit`a tramite p
XY
(x, y). Se {Z = z} = {(x, y) R
XY
: g(x, y) = z} = B
z
, allora la funzione
di probabilit`a di Z valutata in z sar`a
Pr(Z = z) =
_
{(x,y):(x,y)B
Z
}
p
XY
(x, y) z R
Z
0 altrove.
(3.8)
3.7 Funzioni di vettori aleatori 41
Esempio 73 Si supponga che p
XY
(x, y) sia rappresentata mediante la seguente tabella
Y \ X 0 1 2
0 0,3 - -
1 0,1 0,1 -
2 - 0,2 0,1
3 - - 0,2
e sia z = g(x, y) = max(x, y).
Naturalmente Z assumer`a con probabilit`a positiva valori in R
Z
= {0, 1, 2, 3}.
Poich`e
{Z = 0} `e equivalente a {(x, y) = (0, 0)}
{Z = 1} `e equivalente a {(x, y) = (0, 1), (x, y) = (1, 0), (x, y) = (1, 1)}
{Z = 2} `e equivalente a {(x, y) = (0, 2), (x, y) = (1, 2), (x, y) = (2, 0), (x, y) = (2, 1), (x, y) = (2, 2)}
{Z = 3} `e equivalente a {(x, y) = (0, 3), (x, y) = (1, 3), (x, y) = (2, 3)}
si avr`a
Pr(Z = 0) = Pr(X = 0, Y = 0) = p
Z
(0) = 0, 3;
Pr(Z = 1) = Pr(X = 0, Y = 1) +Pr(X = 1, Y = 0) +Pr(X = 1, Y = 1) = p
Z
(1) = 0, 2;
Pr(Z = 2) = Pr(X = 0, Y = 2) + Pr(X = 1, Y = 2) + Pr(X = 2, Y = 0) + Pr(X = 2, Y =
1) +Pr(X = 2, Y = 2) = p
Z
(2) = 0, 3;
Pr(Z = 3) = Pr(X = 0, Y = 3) +Pr(X = 1, Y = 3) +Pr(X = 2, Y = 2) = p
Z
(3) = 0, 2;
Pr(Z = z) = 0, z = {0, 1, 2, 3}.
Nel caso di vettori dotati di densit`a il provvedimento ha la stessa semplicit`a concettuale ma, di
solito, pi` u complicata realizzazione.
Si consideri levento {Z z}. Esso `e equivalente allevento {(x, y) R
XY
: g(x, y) z} = B
z
e
pertanto
Pr(Z z) = F
Z
(z) =

B
z
f
XY
(x, y)dxdy.
Tutto il problema si riduce alla ricerca dellevento B
z
ed alla integrazione della funzione di densit`a
f
XY
su detto insieme.
Esempio 74 Sia
f
XY
(x, y) =
_
2 0 < x < y < 1
0 altrove
la funzione di densit`a del vettore (X, Y ) e sia z = max(x, y) = g(x, y). Linsieme R
XY
= {(x, y)
R
2
: 0 < x < y < 1} `e rappresentato in Figura 3.3.
Levento {Z z} `e equivalente a {(x, y) R
XY
: max(x, y) z}, cio`e a
B
z
= {(x, y) R
XY
: x z, y z}, 0 < z < 1.
Pertanto
Pr(Z z) = F
Z
(z) =

{(x,y)R
XY
:xz,yz}
f
XY
(x, y)dxdy
=

z
0
_
z
x
2dy
_
dx = 2

z
0
(z x)dx = z
2
, 0 < z < 1.
42 3. I vettori aleatori
Figura 3.3: Graco di R
XY
0 1
0
1
6
-
x
y
.
.
. .
. .
. . .
. . .
. . . .
. . . .
. . . . .
. . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dunque,
F
Z
(z) =
_
_
_
z
2
0 < z < 1
0 z < 0
1 z 1.
Se si deriva la funzione di ripartizione F
Z
(z) ottenuta, si perviene alla funzione di densit`a di
probabilit` a di Z = max(X, Y ):

z
F
Z
(z) = f
Z
(z) =
_
2z 0 < z < 1
0 altrove.
Osservazione. Abbiamo supposto la funzione z = g(x, y) sucientemente regolare. In realt`a la
funzione g deve essere Borel-misurabile, vale a dire linsieme
{(x, y) : g(x, y) < z} B(R
2
), z reale,
dove B(R
2
) `e la sigma-algebra di Borel sul piano.
Tale condizione risulta soddisfatta se, ad esempio, g `e funzione continua. In ogni caso supporremo
sempre che la condizione risulta soddisfatta per ogni funzione g che andremo a considerare.
Per ottenere direttamente la funzione di densit`a di Z = g(X, Y ) quando siano soddisfatte alcune
condizioni di regolarit`a, si pu`o ricorrere al seguente
Teorema 75 Sia (X, Y ) un vettore con funzione di densit`a f
XY
(x, y) > 0 per (x, y) R
XY
e sia
Z = g
1
(X, Y ) con g
1
funzione continua in R
XY
. Accanto a Z = g
1
(X, Y ) poniamo anche V = g
2
(X, Y )
con g
2
pure continua.
Si consideri il sistema
_
z = g
1
(x, y)
v = g
2
(x, y),
(x, y) R
XY
, che trasforma R
XY
in R
ZV
e si supponga che esso sia biunivoco, cio`e ammetta la
soluzione continua
_
x = x(z, v)
y = y(z, v),
(z, v) R
ZV
. Si supponga inoltre che esistono continue in R
ZV
le funzioni
x
z
,
x
v
,
y
z
,
y
v
e tali che
detJ =

x
z
x
v
y
z
y
v

= 0, (z, v) R
ZV
.
3.7 Funzioni di vettori aleatori 43
Allora la funzione di densit`a di (Z, V ) `e data da
f
ZV
(z, v) =
_
f
XY
(x(z, v), y(z, v)) |detJ|, (z, v) R
ZV
0 altrove.
(3.9)
La funzione di densit`a di Z = g
1
(X, Y ) (oppure V = g
2
(X, Y )) potr`a ottenersi integrando f
ZV
(z, v)
rispetto a v (oppure a z).
Prima di mostrare come utilizzare la (3.9) per ottenere le funzioni di densit`a delle funzioni z =
x +y, z = x y, z = x/y, illustriamo il suo uso con un esempio.
44 3. I vettori aleatori
Esempio 76 Sia (X, Y ) il vettore di densit`a
f
XY
(x, y) =
_
2 0 < x < y < 1
0 altrove.
e sia da determinare la densit`a di Z = g
1
(X, Y ) = X +Y . Poniamo anche V = g
2
(X, Y ) = X.
Figura 3.4: Graci di R
XY
e R
ZV
0 1
0
1
6
-
x
y
.
.
. .
. .
. . .
. . .
. . . .
. . . .
. . . . .
. . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
0 2
0
1
6
-
z
v
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Il sistema
_
z = x +y
v = x
con (x, y) R
XY
= {(x, y) : 0 < x < y < 1} d`a luogo a
_
x = x(z, v) = v
y = y(z, v) = z v
con (z, v) R
ZV
= {(z, v) : 0 < z < 2, max(z 1, 0) < v < z/2}.
Si ha poi
x
z
= 0,
x
v
= 1,
y
z
= 1,
y
v
= 1 e detJ = 1.
La (3.9) fornisce
f
XY
(x, y) =
_
2 (z, v) R
ZV
0 altrove.
3.7 Funzioni di vettori aleatori 45
Per ottenere la funzione di densit`a di Z = X +Y baster`a integrare f
ZV
rispetto a v. Si ottiene
f
Z
(z) =

f
ZV
(z, v)dv =
_

z/2
0
2dv = z 0 < z < 1

z/2
z1
2dv = 2 z 1 < z < 2
0 altrove.
Vediamo ora come dalla formula generale (3.9) sia possibile ottenere la densit`a di
a) Z = X +Y ;
b) Z = X Y ;
c) Z = X/Y .
a) Ponendo z = x +y, v = y, si ha che |detJ| = 1 e la (3.9) fornisce
f
ZV
(z, v) = f
XY
(z v, v)
e integrando rispetto a v
f
Z
(z) =

f
XY
(z v, v)dv
e se X e Y fossero indipendenti
f
Z
(z) =

f
X
(z v)f
Y
(v)dv. (3.10)
Lultimo integrale scritto, in (3.10), prende il nome di integrale di convoluzione.
Esempio 77 Siano X e Y due variabili aleatorie stocasticamente indipendenti e con funzioni
di densit`a
f
X
(x) =
_
e
x
x > 0
0 altrove.
f
Y
(y) =
_
e
y
y > 0
0 altrove.
Poich`e f
X
(x) > 0 per x > 0 e f
Y
(y) > 0 per y > 0, lintegrazione indicata nella (3.10) verr`a
eettuata per i valori di v tali che v > 0 e z v > 0. Si ottiene allora
f
Z
(z) =
_
z
0
e
(zy)
e
v
dv = ze
z
z > 0
0 altrove.
b) Ponendo z = x y e v = y, si ha |detJ =
1
|v|
, v = 0, e quindi
f
ZV
(z, v) = f
XY
_
z
v
, v
_
1
|v|
,
46 3. I vettori aleatori
da cui la densit`a di Z = X Y
f
Z
(z) =

f
XY
_
z
v
, v
_
1
|v|
dv
e nel caso indipendente
f
Z
(z) =

f
X
_
z
v
_
f
Y
(v)
1
|v|
dv
=

f
X
_
z
v
_
f
Y
(v)
1
|v|
dv +

+
0
f
X
_
z
v
_
f
Y
(v)
1
|v|
dv. (3.11)
Esempio 78 Siano X e Y due variabili indipendenti e con densit`a
f
X
(x) =
_
1 0 < x < 1
0 altrove.
f
Y
(y) =
_
1 0 < y < 1
0 altrove.
Linsieme di integrazione della (3.11) `e dato da 0 < v < 1, 0 <
z
v
< 1, cio`e o < z < v < 1 per
0 < z < 1 mentre `e vuoto per altri valori di z.
La densit`a di X Y `e data da
f
Z
(z) =
_
1
z
1
v
dv = log(z) 0 < z < 1
0 altrove.
c) Ponendo z = x/y, v = y, si ha |detJ| = |v| e quindi la (3.9) diviene
f
ZV
(z, v) = f
XY
(zv, v)|v|
dalla quale la densit`a di Z = X/Y diviene
f
Z
(z) =

f
XY
(zv, v)|v|dv (3.12)
che nel caso di indipendenza diviene
f
Z
(z) =

f
X
(zv)f
Y
(v)|v|dv. (3.13)
Esempio 79 Siano X e Y indipendenti e dotate di densit`a
f
X
(x) =
_
1 0 < x < 1
0 altrove.
f
Y
(y) =
_
1 0 < y < 1
0 altrove.
Linsieme di integrazione della (3.13) sar`a 0 < zv < 1, 0 < v < 1, cio`e 0 < v < min(
1
z
, 1)
quando z > 0 e linsieme vuoto quando z < 0.
Perci`o la densit`a di X/Y sar`a
f
Z
(z) =
_

1
0
vdv =
1
2
0 < z < 1

1/z
0
vdv =
1
2z
2
z 1
0 altrove.
3.8 Vettori aleatori m-dimensionali e la normale m-dimensionale 47
3.8 Vettori aleatori m-dimensionali e la normale m-dimensionale
`
E agevole estendere le argomentazioni precedenti che riguardavano vettori bidimensionali al caso di
vettori di 3 o pi` u dimensioni. Si parler`a in generale di vettori m-dimensionali.
Possiamo immaginare che in siano state denite m funzioni X
1
(), X
2
(), ..., X
m
(), m 1, e
introdurre per il caso discreto, la funzione di probabilit`a
p
X
1
,X
2
,...X
m
(x
1
, x
2
, ..., x
m
) = Pr(X
1
= x
1
, X
2
= x
2
, ..., X
m
= x
m
), (x
1
, ..., x
m
) R
X
1
,...,X
m
con le propriet`a
a) p
X
1
,...,X
m
(x
1
, ..., x
m
) 0 per ogni (x
1
, ..., x
m
) R
X
1
,...,X
m
b)

(x
1
,...,x
m
)R
X
1
,...,X
m
p
X
1
,...,X
m
(x
1
, ..., x
m
) = 1
c) Pr(a
1
< X
1
b
1
, a
2
< X
2
b
2
, ..., a
m
< X
m
b
m
) =

x
1
(a
1
,b
1
],...,x
1
(a
m
,b
m
]
p
X
1
,...,X
m
(x
1
, ..., x
m
),
e, per il caso continuo, la funzione di densit`a di probabilit`a
f
X
1
,...,X
m
(x
1
, ..., x
m
)
con le propriet`a
a) f
X
1
,...,X
m
(x
1
, ..., x
m
) 0 per ogni (x
1
, ..., x
m
) R
X
1
,...,X
m
b)

...

f
X
1
,...,X
m
(x
1
, ..., x
m
)dx
1
...dx
m
= 1
c) Pr(a
1
< X
1
b
1
, a
2
< X
2
b
2
, ..., a
m
< X
m
b
m
) =

b
1
a
1

b
2
a
2
...

b
m
a
m
f
X
1
,...,X
m
(x
1
, ..., x
m
)dx
1
...dx
m
.
La denizione di f. di r. Pr(X
1
x
1
, ..., X
m
x
m
) `e del tutto analoga al caso bidimensionale:
F
X
1
...X
m
(x
1
, ..., x
m
) =

{(t
1
,..,t
m
):t
1
x
1
,...,t
m
x
m
}
p
X
1
,X
2
,...X
m
(t
1
, t
2
, ..., t
m
)
F
X
1
...X
m
(x
1
, ..., x
m
) =

x
1

...

x
m

f
X
1
,...,X
m
(t
1
, ..., t
m
)dt
1
...dt
m
rispettivamente per il caso discreto e il caso con densit`a.
Si deniscono le funzioni di densit`a di probabilit`a marginali unidimensionali
f
X
1
(x
1
) =

...

. .
(m1)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
2
dx
3
...dx
m
f
X
2
(x
2
) =

...

. .
(m1)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
1
dx
3
...dx
m

f
X
m
(x
m
) =

...

. .
(m1)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
1
dx
2
...dx
m1
48 3. I vettori aleatori
mentre le funzioni di densit`a di probabilit`a marginali bidimensionali
f
X
1
X
2
(x
1
, x
2
) =

...

. .
(m2)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
3
...dx
m

f
X
m1
X
m
(x
m1
, x
m
) =

...

. .
(m2)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
1
dx
2
...dx
m2
.
Ripartito il vettore (X
1
, ..., X
m
) nei due sottovettori (X
1
, ..., X
k
|X
k+1
, ..., X
m
) si denir`a la funzione
di densit`a condizionale di (X
1
, ..., X
k
) dato X
k+1
= x
k+1
, ..., X
m
= x
m
, la funzione
f
X
1
...X
k
|X
k+1
...X
m
(x
1
, ..., x
k
|x
k+1
, ..., x
m
) =
f
X
1
...X
m
(x
1
, ..., x
m
)
f
X
k+1
...X
m
(x
k+1
, ..., x
m
)
in cui a denominatore (positivo) compare la densit`a marginale di (X
k+1
, ..., X
m
).
Si dir`a inne che le v.a. X
1
, X
2
, ..., X
m
sono mutuamente stocasticamente indipendenti se (e solo se)
f
X
1
...X
m
(x
1
, ..., x
m
) =
m

i=1
f
X
i
(x
i
) (x
1
, ..., x
m
) R
m
essendo f
X
i
(x
i
) la funzione di densit`a di probabilit`a marginale della v.a. X
i
, i = 1, 2, ..., m.
Una importante situazione in cui ricorrere alla nozione di vettore aleatorio m-dimensionale `e quella
esemplicata qui di seguito.
Si supponga che X rappresenti la durata di vita aleatoria di un certo utensile con funzione di densit`a
f
X
(x). Nellipotesi che un gruppo di m utensili siano in qualche modo omogenei possiamo indicare
con (X
1
, X
2
, ..., X
m
) le loro durate di vita. Perci`o (X
1
, ..., X
m
) rappresenta un vettore aleatorio. Se
ora si pu`o ipotizzare che le v.a. X
1
, ..., X
m
siano mutuamente stocasticamente indipendenti e con la
stessa distribuzione
f
X
1
(x
1
) = f
X
2
(x
2
) = ... = f
X
m
(x
m
) = f
X
(x)
allora si dir`a che il vettore aleatorio (X
1
, ..., X
m
) con funzione di densit`a
f
X
1
...X
m
(x
1
, ..., x
m
) =
m

i=1
f
X
(x
i
)
costituisce un campione bernoulliano di ampiezza m 1 estratto dalla popolazione X con densit`a
f
X
(x).
3.8.1 La legge gaussiana a pi` u dimensioni (multivariata)
Siano X
i
, i = 1, 2, ..., m v.a. indipendenti e con distribuzione gaussiana standard di parametri = 0 e

2
= 1, cio`e con funzione di densit`a
f
X
i
(x) =
1

2
e

1
2
x
2
, < x < .
3.8 Vettori aleatori m-dimensionali e la normale m-dimensionale 49
La funzione di densit`a del vettore aleatorio X = (X
1
, ..., X
m
) sar`a perci`o data da
f
X
1
...X
m
(x
1
, .., x
m
) =
m

i=1
f
X
i
(x
i
) =
_
1
2
_
m/2
e

1
2

i
x
2
i
=
_
1
2
_
m/2
e

1
2
x
T
x
essendo x
T
= (x
1
, x
2
, ..., x
m
).
Si dice allora che il vettore aleatorio X ha distribuzione gaussiana m-dimensionale standard.
Pi` u in generale,
Denizione 80 Sia Y = (Y
1
, ..., Y
m
) un vettore aleatorio. Si dice che Y `e distribuito con legge
gaussiana m- dimensionale se possiede la funzione di densit`a data da
f
Y
(y
1
, ..., y
m
) =
_
1
2
_
m/2
||

1
2
e

1
2
(y)
T

1
(y)
dove `e una matrice simmetrica (
ij
=
ji
) e non singolare, || `e il determinante della matrice e

T
= (
1
,
2
, ..,
m
).
Si ha che
E(Y) = , cio`e
T
= (
1
,
2
, ..,
m
) rappresenta il vettore delle speranze matematiche di Y,
cio`e E(Y
i
) =
i
, i = 1, ..., m.
`e la matrice di varianze-covarianze: Cov(Y
i
, Y
j
) =
ij
, i = j e che V (Y
i
)
ii
, i = 1, ..., m
Per indicare che il vettore Y = (Y
1
, ..., Y
m
) si distribuisce con densit`a gaussiana si usa scrivere
Y N
m
(, ).
Nel caso m = 2 la funzione di densit`a di (Y
1
, Y
2
) assume la forma
f
Y
1
,Y
2
(y
1
, y
2
) =
1
2
1

1
2
e

1
2(1
2
)
_
_
y
1

1
_
2
2
y
1

1
y
2

2
+
_
y
2

2
_
2
_
dove
i
= E(Y
i
),
2
i
= V (Y
i
) > 0, i = 1, 2 e (1, 1) `e il coeciente di correlazione lineare tra Y
1
e
Y
2
; si ha cio`e
=
_

2
1

1

2

2
2
_
e, naturalmente, se = 0, le due variabili Y
1
e Y
2
risultano, oltre che non correlate naturalmente,
anche indipendenti.
Inne, si ha che
Y
1
|Y
2
= y N
_

1
+

1

2
(y
2
),
2
1
(1
2
)
_
Y
i
N(
i
,
2
i
), i = 1, 2
sicch`e la funzione di regressione di Y
1
su Y
2
`e lineare con varianza costante.
50 3. I vettori aleatori
4
Statistiche e alcune loro distribuzioni
Uno dei principali problemi della statistica `e quello della stima dei parametri della distribuzione di
una popolazione sulla base di un campione estratto da essa. Il problema della stima pu`o presentarsi in
due forme distinte. Nella prima si assume che sia nota la forma analitica della funzione di ripartizione
o di densit`a della popolazione e non siano noti uno o pi` u parametri della stessa. Si parla allora di
problemi di stima parametrici. Se ad esempio una popolazione ha distribuzione normale si pu`o
dire che la classe di tutte le possibili distribuzioni ammesse per la popolazione `e linsieme delle dis-
tribuzioni normali le quali dieriscono tra loro per i valori che possono assumere i due parametri e

2
. Nella seconda forma non si assume la forma analitica della funzione di ripartizione e pertanto gli
elementi della classe delle distribuzioni ammissibili della popolazione possono dierire non solo per i
valori dei parametri ma anche per la forma analitica. In questo caso si parla di problemi di stima non
parametrici.
Qui aronteremo solo problemi di stima parametrici.
Si intende per popolazione statistica una variabile aleatoria X caratterizzata dalla funzione di ripar-
tizione F(x) o di densit`a f(x), nel caso continuo, o dalla funzione di probabilit`a p(x) nel caso discreto.
Come abbiamo gi`a visto, si denisce campione bernoulliano di ampiezza n 1 estratto dalla popo-
lazione data X la variabile aleatoria n-dimensionale (X
1
, X
2
, ..., X
n
) caratterizzata dalla funzione di
ripartizione
P(X
1
x
1
, ..., X x
n
) =
n

i=1
F(x
i
), (x
1
, ..., x
k
) R
n
.
Pi` u esplicitamente, ln-pla campionaria (X
1
, ..., X
n
) si compone di variabili
mutuamente indipendenti,
che posseggono tutte la stessa funzione di ripartizione coincidente con quella della popolazione.
Supponiamo data una popolazione X con funzione di ripartizione F(x; ) in cui `e un parametro
non noto che si intende stimare sulla base di un campione (X
1
, ..., X
n
).
`
E chiaro che tutte le infor-
mazioni disponibili sulla popolazione, e quindi sul parametro, sono solo quelle fornite dal campione.
Per sintetizzare tali informazioni intorno a occorre in qualche modo ridurle ad un solo numero. Ci`o
pu`o essere fatto proponendo una funzione T
n
= T(X
1
, ..., X
n
) indipendente da .
52 4. Statistiche e alcune loro distribuzioni
Denizione 81 Una qualunque funzione delln-pla campionaria (X
1
, ..., X
n
) del tipo T
n
= T(X
1
, ..., X
n
)
(ossia indipendente da ) viene detta stimatore di .
Data tale denizione risulta evidente che, per essere T
n
funzione di n variabili aleatorie, `e essa stessa
una variabile aleatoria.
Il valore di T
n
calcolato per una particolare realizzazione del campione viene indicato con t
n
e detto
stima di . La questione fondamentale della teoria della stima puntuale `e evidentemente quella di
predisporre lo stimatore T
n
di che fornisca buoni risultati.
Importanti esempi di stimatori sono la media campionaria

X =
1
n
n

i=1
X
i
,
la varianza campionaria
S
2
=
1
n
n

i=1
(X
i


X)
2
e la varianza campionaria corretta
S
2
C
=
1
n 1
n

i=1
(X
i


X)
2
.
Esse godono delle seguenti propriet`a
Proposizione 82 Sia X
1
, X
2
, ...X
n
un campione casuale da una densit`a f() con valore atteso e
varianza nita
2
. Allora
E(

(X)) = e V ar(

X) =

2
n
;
E(S
2
C
) =
2
.
La proposizione aerma che la distribuzione della media campionaria

X `e centrata attorno alla
media della popolazione , ossia che la media campionaria `e uno stimatore corretto (o non distorto)
per la media della popolazione. Inoltre, V ar(

X) =

2
n
indica che la dispersione dei valori di

X attorno
a `e piccola se lampiezza del campione `e grande. Inne, dalla proposizione si evince anche che la
varianza campionaria corretta S
2
C
`e uno stimatore corretto per la varianza della popolazione.
4.1 Campionamento dalla popolazione normale ed alcune
distribuzioni notevoli
Ci occupiamo ora di determinare la densit`a di probabilit`a di qualche funzione campionaria T
n
quando
il campione `e estratto dalla popolazione normale N(,
2
).
La prima di queste funzioni campionarie `e la media campionaria denita da

X =
1
n
n

i=1
X
i
essendo (X
1
, ..., X
n
) il campione bernoulliano.
Vale il seguente
Teorema 83 Sia (X
1
, ..., X
n
) un campione estratto da N(,
2
). La variabile aleatoria

X risulta
distribuita ancora normalmente con media e varianza

2
n
(ossia

X N(,

2
n
)). Inoltre, la variabile
aleatoria Z
n
=

n
i=1
X
i
risulta distribuita anchessa normalmente con media n e varianza n
2
(ossia
Z
n
N(n, n
2
)).
4.1 Campionamento dalla popolazione normale ed alcune distribuzioni notevoli 53
Il seguente risultato generalizza quanto avevamo gi`a dimostrato nel capitolo 1, ossia la relazione tra
la distribuzione normale standard e la distribuzione chi-quadrato.
Teorema 84 Sia (X
1
, ..., X
n
) un campione estratto da N(0, 1). La variabile aleatoria Y =

n
i=1
X
2
i
si distribuisce con densit`a chi-quadrato con n gradi di libert` a, ovvero
f
Y
(y) =
1
2
n/2
(
n
2
)
e
y/2
y
n
2
1
y > 0.
Pi` u in generale:
Teorema 85 Sia (X
1
, ..., X
n
) un campione estratto da N(,
2
). La variabile aleatoria Y =

n
i=1
_
X
i

_
2
si distribuisce con densit`a chi-quadrato con n gradi di libert` a.
Tradotto in parole, il Teorema 85 dice che la somma dei quadrati di variabili aleatorie casuali normali
standardizzate indipendenti ha una distribuzione chi-quadrato con gradi di libert`a uguali al numero
dei termini delladdizione.
Dopo aver enunciato la distribuzione della media campionaria sotto lipotesi di popolazione gaus-
siana, cerchiamo ora la distribuzione della varianza campionaria S
2
sempre assumendo che la popo-
lazione sia gaussiana. Vale il seguente
Teorema 86 Sia (X
1
, ..., X
n
) un campione estratto da N(,
2
). La variabile aleatoria
nS
2

2
=

n
i=1
(X
i

X)
2

2
si distribuisce con densit`a chi-quadrato con n 1 gradi di libert`a, ovvero S
2
si distribuisce come una
gamma di parametri =
n1
2
e =
n
2
2
.
Si osservi che la densit`a di
nS
2

2
`e indipendente da
2
.
Il termine gradi di libert`a pu`o riferirsi al numero di quadrati indipendenti nella somma. Per esempio,
la varianza campionaria S
2
ha solo n 1 termini indipendenti poich`e la relazione

n
i=1
(X
i


X) = 0
ci consente di calcolare una delle dierenze X
i


X, date le altre n 1 dierenze.
Teorema 87 Sia (X
1
, ..., X
n
) un campione estratto da N(,
2
). Allora le variabili

X =
1
n

n
i=1
X
i
e S
2
=
1
n

n
i=1
(X
i


X)
2
sono indipendenti.
Si osservi che lindipendenza di

X da S
2
`e caratteristica della distribuzione normale.
Unaltra distribuzione di considerevole rilevanza pratica `e la distribuzione t di Student.
Denizione 88 Si dice che una variabile aleatoria si distribuisce secondo una t di Student con p
gradi di libert`a se essa possiede densit`a data da
f
T
(t) =
(
p+1
2
)
(
p
2
)
1

p
1
(1 +
t
2
p
)
(p+1)/2
, < t < (4.1)
Osserviamo che se T `e una variabile aleatoria avente una distribuzione t di Student con p gradi di
libert`a allora
E(T) = 0 se p > 1 e V ar(T) =
p
p 2
se p > 2.
La distribuzione t di Student si pu`o ottenere come rapporto tra una variabile aleatoria con dis-
tribuzione normale standardizzata e la radice quadrata di una variabile aleatoria con distribuzione
chi-quadrato, indipendente dalla prima e divisa per i suoi gradi di libert`a. Ossia,
Teorema 89 Se Z ha una distribuzione normale standardizzata, se U ha una distribuzione chi-
quadrato con p gradi di libert`a, e se Z e U sono indipendenti, allora
Z

U/p
ha una distribuzione t
di Student con p gradi di libert` a.
54 4. Statistiche e alcune loro distribuzioni
La proposizione che segue mostra come sia possibile applicare il Teorema 89 al campionamento da
una popolazione normale.
Proposizione 90 Sia (X
1
, ..., X
n
) un campione estratto da N(,
2
) allora Z =

X
/

n
ha una dis-
tribuzione normale standardizzata e U =

i
(X
i

X)
2

2
ha una distribuzione chi-quadrato con n1 gradi
di libert`a. Inoltre Z e U sono indipendenti (vedi Teorema 87); quindi
(

X )/(/

n)

(X
i

X)/
2
n1
=

X

S
2
n1
si distribuisce secondo una t di Student con n 1 gradi di libert` a.
Inne, consideriamo unultima importante distribuzione notevole che si ottiene a partire dalla
distribuzione normale, ossia la distribuzione F.
Denizione 91 Si dice che la variabile aleatoria X `e dotata di densit`a F con m e n gradi di libert` a,
se
f
X
(x) =
(
m+n
2
)
(
m
2
)(
n
2
)
_
m
n
_
m/2
x
(m2)/2
(1 + (m/n)x)
(m+n)/2
, 0 < x <
La distribuzione F `e la distribuzione del rapporto di due variabili aleatorie chi-quadrato indipendenti
divise per i loro rispettivi gradi di libert`a. Ossia, se U
2
p
e V
s
q
sono v.a. indipendenti allora la
variabile aleatoria (U/p)/(V/q) ha distribuzione F con p e q gradi di libert`a.
La seguente proposizione mostra come la distribuzione F possa essere utile nel campionamento dalla
popolazione gaussiana.
Proposizione 92 Siano (X
1
, ..., X
n
1
) e (Y
1
, ..., Y
n
2
) due campioni indipendenti rispettivamente es-
tratti da N(
1
,
2
) e N(
2
,
2
). Allora segue che

n
1
i=1
(X
i

X)
2

2
ha distribuzione chi-quadrato con n
1
1
gradi di libert`a e

n
2
i=1
(Y
i

Y )
2

2
ha distribuzione chi-quadrato con n
2
1 gradi di libert`a. Allora la
variabile
F =
S
2
X
/
2
S
2
Y
/
2
=

(X
i


X)
2
/n
1

(Y
i


Y )
2
/n
2
ha una distribuzione F con n
1
1 e n
2
1 gradi di libert`a.
Concludiamo ora il paragrafo con alcune ulteriori osservazioni circa la distribuzione F. Se X `e una
variabile aleatoria avente distribuzione F con m e n gradi di libert`a, allora
E(X) =
n
n2
per n > 2;
V ar(X) =
2n
2
(m+n2)
m(n2)
2
(n4)
per n > 4;
la variabile 1/X ha una distribuzione F con n e m gradi di libert`a. Grazie a questo risultato ci
si pu`o limitare a tabulare la distribuzione F solo per la sua coda superiore.
5
Stimatori di massima verosimiglianza
Prima di enunciare il principio su cui si basa il metodo di deduzione degli stimatori di massima
verosimiglianza e descrivere il metodo di costruzione degli stessi stimatori, conviene fornire il concetto
di funzione di verosimiglianza.
Sia data una popolazione X con una funzione di densit`a (o di probabilit`a) f(x; ) dipendente da un
parametro .
Denizione 93 Se dalla popolazione X si estrae il campione (X
1
, X
2
, ..., X
n
) di realizzazione (x
1
, x
2
, ..., x
n
),
si denisce verosimiglianza della realizzazione (x
1
, x
2
, ..., x
n
) la quantit`a
L(; x
1
, ..., x
n
) =
n

i=1
f(x
i
; ).
La funzione L deve essere pensata come una funzione ordinaria di . Formalmente, essa rappresenta,
per popolazioni dotate di densit`a, la densit`a delln-pla campionaria.
La stessa denizione vale per popolazioni discrete salvo sostituire la funzione di probabilit`a p(x; ) al
posto della densit`a f(x; ).
Ad illustrare la denizione data valgono i seguenti esempi.
Esempio 94 Data la popolazione X con funzione di probabilit` a
p(x; ) =
_
x = 1
1 x = 0
con 0 < < 1 ed il campione di realizzazione (x
1
, x
2
, ..., x
n
) da essa estratto, la funzione di verosimiglian-
za risulta
L(; x
1
, ..., x
n
) =

i
x
i
(1 )
n

i
x
i
; 0 < < 1.
rappresentando

i
x
i
il numero degli 1 nel campione e n

i
x
i
il numero degli zeri.
Per introdurre il principio di verosimiglianza consideriamo il seguente esempio.
Sia data una monetina che si sospetta essere distorta, cio`e truccata a favore della testa nel rapporto
di 2 a 1.
Assumiamo pertanto che i possibili valori della probabilit`a di testa () siano =
1
2
oppure =
2
3
. Il
problema che si propone `e quello di scegliere il valore plausibile di (tra i due valori ammissibili) sulla
56 5. Stimatori di massima verosimiglianza
base di 10 lanci della monetina.
Supponiamo che i dieci lanci abbiano dato luogo alla successione (T, C, C, T, T, C, T, T, T, C) = x.
La verosimiglianza di questo risultato `e data, per i due casi,
L
_
x;
1
2
_
=
_
1
2
_
10
= 0.000977
L
_
x;
2
3
_
=
_
2
3
_
6
_
1
3
_
4
= 0.0011.
Queste due quantit`a rappresentano le probabilit`a, a priori, di osservare il risultato eettivamente
osservato nel caso in cui =
1
2
e =
2
3
. Si ha
L
_
x;
1
2
_
< L
_
x;
2
3
_
e poich`e dobbiamo ritenere che levento osservato ha a priori maggior probabilit`a di vericarsi, dobbi-
amo plausibilmente concludere che la stima di `e

=
2
3
. Lo stimatore, detto pi` u verosimile, `e pertanto
2
3
piuttosto che
1
2
poich`e il valore di =
2
3
conduce ad una pi` u grande probabilit`a a priori dellevento
eettivamente osservato.
In ci`o consiste il principio della massima verosimiglianza.
Denizione 95 Si dir`a che lo stimatore T(x
1
, ..., x
n
) =

(x
1
, ..., x
n
) `e di massima verosimiglianza (o
pi` u verosimile) se

`e punto di massimo (stretto) della funzione di verosimiglianza, cio`e se

`e tale
che
L(x
1
, ..., x
n
;

) L(x
1
, ..., x
n
; ), per ogni . (5.1)
Esempio 96 Sia X una popolazione con densit`a
f(x; ) =
_
_
_
1

0 x
0 altrove
con > 0.
La verosimiglianza del campione (x
1
, ..., x
n
) `e
L(x
1
, ..., x
n
; ) =
_
_
_
1

n
se 0 min(x
1
, ..., x
n
) < max(x
1
, ..., x
n
)
0 altrove
Il graco della funzione L mostra immediatamente che

(x
1
, ..., x
n
) = max(x
1
, ..., x
n
)
cio`e che lo stimatore pi` u verosimile `e lelemento massimo del campione.
Esempio 97 Sia X la popolazione normale con densit`a
f(x; ) =
1

2
e

(x)
2
2
2
in cui `e noto.
La verosimiglianza di (x
1
, ..., x
n
) `e data da
L(x
1
, ..., x
n
; ) =
_
1

2
_
n
e

n
i=1
(x
i
)
2
2
2
.
5. Stimatori di massima verosimiglianza 57
Poich`e linsieme dei valori ammissibili di non `e chiuso, il punto di massimo assoluto, se esiste,
coincide con un punto di massimo relativo e pertanto possiamo procedere annullando la derivata prima
di L. Si ha
L

=
_
1

2
_
n
e

n
i=1
(x
i
)
2
2
2

n
i=1
(x
i
)

2
= 0
da cui immediatamente
n

i=1
(x
i
) = 0 e quindi

=
1
n

i
x
i
.
Poich`e poi

2
L

2
< 0,
il punto

=
1
n

i
x
i
`e di massimo per L. Concluderemo allora che lo stimatore pi` u verosimile di `e

=
1
n

i
X
i
=

X.
La ricerca dello stimatore (o degli stimatori) pi` u verosimile, almeno nel caso generale, non `e sempre
agevole. La determinazione di tale tipo di stimatore `e invece relativamente semplice quando
1) il dominio di f(x; ) `e indipendente da ;
2) L(x; ) `e due volte dierenziabile con continuit`a in e ogni funzione

soddisfacente la (5.1) `e
da ricercare tra le soluzioni di
_
_
_
L

= 0
con

2
L|

< 0.
(5.2)
La condizione 2) esclude il caso in cui

appartenga alla frontiera di .
Nelle applicazioni, poich`e la funzione logaritmica `e monotona, conviene sostituire alla (5.2) la con-
dizione

logL(x
1
, ..., x
n
; ) =
n

logf(x
i
; ) = 0 (5.3)
Infatti le radici della (5.2), con L > 0, sono tutte e solo quelle di (5.3).
Lequazione (5.2) prende il nome di equazione di verosimiglianza.
Esempio 98 Sia X la popolazione normale con media nota e varianza non nota, cio`e con densit`a
f(x; ) =
1

2
e

(x)
2
2
2
.
La verosimiglianza di (x
1
, ..., x
n
) `e data da
L(x
1
, ..., x
n
; ) =
_
1

2
_
n
e

n
i=1
(x
i
)
2
2
2
,
da cui
logL(x
1
, ..., x
n
; ) = nlog

2
n
2
log

n
i=1
(x
i
)
2
2
,

logL =
n
2
+

n
i=1
(x
i
)
2
2
= 0
58 5. Stimatori di massima verosimiglianza
da cui

n
i=1
(x
i
)
2
n
= S
2
.
Si ha poi

2
logL =
n
2
2

n
i=1
(x
i
)
2

3
la quale nel punto

ha valore
_

2

2
logL
_
=

=
n
3

n
i=1
(x
i
)
2
< 0.
Lo stimatore pi` u verosimile di `e pertanto

= S
2
=

n
i=1
(x
i
)
2
n
.
Lesempio mostra che non necessariamente gli stimatori pi` u verosimili sono non distorti.
Propriet`a di invarianza degli stimatori di massima verosimiglianza Sia

lo stimatore di
massima verosimiglianza del parametro . Allora lo stimatore di massima verosimiglianza di una fun-
zione del parametro , ossia di (), `e (

).
Ad esempio nella densit`a normale con noto, lo stimatore di massima verosimiglianza di
2
`e
1
n

n
i=1
(x
i
)
2
. Per la propriet`a di invarianza degli stimatori di massima verosimiglianza, lo stimatore
di massima verosimiglianza di `e

1
n

n
i=1
(x
i
)
2
.
5.1 Propriet`a asintotiche degli stimatori di massima verosimiglianza
Quando si considera una successione di variabili aleatorie (X
n
())
n1
tutte denite nello stesso am-
biente , esistono diversi modi per denire la convergenza di X
n
() verso una v.a. X() (anchessa
denita su ): qui considereremo la convergenza in media, la convergenza in probabilit`a, convergenza
in distribuzione o in legge.
Nei paragra che seguono presenteremo queste nozioni assieme a qualche risultato riguardante il
comportamento della somma di v.a. indipendenti e stabiliremo collegamenti tra i modi di convergenza
e alcune propriet`a degli stimatori.
5.1.1 Convergenza in probabilit`a
Denizione 99 Si dice che la successione di v.a. (X
n
())
n1
converge in probabilit`a alla v.a. X()
(eventualmente degenere) se
lim
n+
P ({ : |X
n
() X()| > }) = lim
n+
P (|X
n
() X()| > ) = 0 > 0
Per indicare che la successione di v.a. (X
n
())
n1
converge in probabilit`a alla v.a. X() si usa
scrivere
X
n
()
P
X() oppure P limX
n
() = X()
La convergenza in probabilit`a chiede che converga a 0 la probabilit`a che la distanza tra X
n
() e
X() superi una soglia > 0 comunque questultima sia scelta. Vedremo quando queste nozioni sono
equivalenti e quando invece dieriscono.
Esempio 100 Sia X
n
() una successione di v.a. distribuite con legge binomiale di parametri (n, p),
cioe con funzione di probabilit`a data da
P (X
n
= x) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, 2, . . . , n, n 1, 0 p 1
5.1 Propriet`a asintotiche degli stimatori di massima verosimiglianza 59
Ricordiamo che E(X
n
) = np e Var (X
n
) = np (1 p) sicche E
_
1
n
X
n
_
=
1
n
E(X
n
) p e Var
_
1
n
X
n
_
=
1
n
2
Var (X
n
) =
p (1 p)
n
.
La successione Y
n
=
1
n
X
n
converge in probabilit`a alla costante p. Infatti la disuguaglianza di Cheby-
shev fornisce:
P
_

1
n
X
n
p

>
_

Var
_
1
n
X
n
_

2
=
p (1 p)
n
2
0 per ogni > 0
Esempio 101 Sia X
n
() una successione di v.a. indipendenti, uniformemente distribuite e con la
stessa densit`a di probabilit`a
f
X
n
(x) =
_
1/ 0 < x <
0 altrove
Si consideri la successione di v.a.
M
n
= max (X
1
, X
2
, . . . , X
n
)
Si ha che M
n
P
. Infatti, per lipotesi di indipendenza delle v.a. X
n
, si ha che
P (M
n
x) = P (max (X
1
, X
2
, . . . , X
n
) x) = P (X
1
x) P (X
2
x) P (X
n
x) =
= [P (X
1
x)]
n
=
_

_
0 x < 0
_
x
0
1/dt
_
n
=
_
x

_
n
0 < x <
1 x
Inoltre
P (|M
n
| > ) = 1 P (|M
n
| ) = 1 P ( M
n
+) =
= 1 [P (M
n
+) P (M
n
)]
Essendo P (M
n
+) = 1 per ogni > 0, si ha
P (|M
n
| > ) = P (M
n
) =
=
_
_
_
_

_
n
0 < <
0
e dunque
lim
n+
P (|M
n
| > ) = 0 > 0
Esempio 102 Sia (X
n
, X)
n2
il vettore (bidimensionale) aleatorio con funzione di probabilit` a
P
_
X
n
=
1
n
, X = 0
_
= P
_
X
n
=
n 1
n
, X = 1
_
=
n 2
2n
P
_
X
n
=
1
n
, X = 1
_
= P
_
X
n
=
n 1
n
, X = 0
_
=
1
n
Sia ora Y
n
= |X
n
X|. La funzione di probabilit` a di Y
n
`e data da
P (Y
n
= y) =
_

_
2
n
y =
n 1
n
n 2
n
y =
1
n
0 altrove
60 5. Stimatori di massima verosimiglianza
e quindi
P (Y
n
> ) =
_

_
0 >
n 1
n
2
n
1
n
<
n 1
n
1 0 <
1
n
da cui
lim
n+
P (Y
n
> ) = lim
n+
P (|X
n
X| > ) = 0
Pertanto X
n
P
X dove X `e una v.a. con funzione di probabilit` a
P (X = x) =
_
1/2 x = 0 x = 1
0 altrove
Un risultato di rilievo `e fornito dal seguente
Teorema 103 Se g : A R R `e continua e se X
n
P
X, allora anche
g (X
n
)
P
g (X)
Esempio 104 Nellesempio 100 si `e mostrato che Y
n
=
1
n
X
n
P
p, 0 p 1. Se consideriamo la
successione Z
n
= Y
n
(1 Y
n
) si avr`a Z
n
P
p (1 p).
Il teorema 103 pu`o essere generalizzato nel seguente
Teorema 105 Se g : A R
m
R `e continua e se X
1
n
P
X
1
, X
2
n
P
X
2
, , X
m
n
P
X
m
,, allora
anche
g
_
X
1
n
, X
2
n
, , X
m
n
_
P
g (X
1
, X
2
, , X
m
)
Esempio 106 Sia (X
n
)
n1
una successione di v.a. indipendenti e identicamente distribuite con den-
sit`a uniforme
f
X
n
(x) =
_
1
b a
a x b
0 altrove
La successione M
n
= max (X
1
X
n
)
P
b, la successione m
n
= min (X
1
X
n
)
P
a e dunque
(M
n
m
n
)
P
b a
Seguendo lesempio 101 si ha
P (M
n
x) = [P (M
1
x)]
n
=
_

_
0 x < a
_
x a
b a
_
n
a x < b
1 x b
e quindi, preso > 0 e osservato che |M
n
b| > equivale a M
n
> b + M
n
< b , si ha
P (|M
n
b| > ) = P (M
n
< b ) =
_

_
0 > b a
_
_
b a
b a
_
_
n
0 < b a
5.1 Propriet`a asintotiche degli stimatori di massima verosimiglianza 61
perci` o lim
n+
P (|M
n
b| > ) = 0 per ogni > 0.
Analogamente
P (m
n
> x) = [P (m
1
> x)]
n
=
_

_
1 x < a
_
_
b x
b a
_
_
n
a x < b
0 x b
e quindi, preso > 0, si ha
P (|m
n
a| > ) = P (m
n
> a +) =
_

_
0 > b a
_
_
b a
b a
_
_
n
0 < b a
perci` o anche lim
n+
P (|m
n
a| > ) = 0 per ogni > 0.
Inne il Teorema 105 permette di concludere che (M
n
m
n
)
P
b a.
5.1.2 Convergenza in media
Denizione 107 Sia (X
n
)
n1
una successione di v.a. con E(|X
n
|
r
) < + e X una v.a. con
E(|X|
r
) < +, r 1, eventualmente degenere. Si dice che X
n
converge in media di ordine r alla
v.a. X se
lim
n+
E(|X
n
X|
r
) = 0
e si scrive
X
n
r
X
In particolare se r = 1 o r = 2 si parla di convergenza in media o di convergenza in media quadratica
rispettivamente.
Esempio 108 Sia (X
n
)
n1
una successione di v.a. con funzione di probabilit` a
P (X
n
= 0) = 1
1
n
e P (X
n
= 1) =
1
n
Allora E(|X
n
|
r
) = 0
r

_
1
1
n
_
+ 1
r

1
n
=
1
n
qualunque sia r = 0 e perci` o X
n
r
0 per ogni r 1.
Esempio 109 Sia (X
n
, X)
n2
il vettore aleatorio con funzione di probabilit`a
P
_
X
n
=
1
n
, X = 0
_
= P
_
X
n
=
n 1
n
, X = 1
_
=
n 2
2n
P
_
X
n
=
1
n
, X = 1
_
= P
_
X
n
=
n 1
n
, X = 0
_
=
1
n
Si ha
E(|X
n
|) =
1
n

1
2
+
n 1
n

1
2
=
1
2
e E(|X|) = 0
1
2
+ 1
1
2
=
1
2
Nellesempio 102 abbiamo mostrato che Y
n
= |X
n
X| possiede funzione di probabilit` a
P (Y
n
= y) =
_

_
2
n
y =
n 1
n
n 2
n
y =
1
n
0 altrove
62 5. Stimatori di massima verosimiglianza
Perci`o
E(|X
n
X|) =
n 1
n

2
n
+
1
n

n 2
n
=
3n 4
n
2
0
e perci`o si ha la convergenza in media X
n
1
X.
La convergenza in media di ordine s implica quella di ogni ordine inferiore 1 r < s
X
n
s
X = X
n
r
X per ogni s > r 1
In particolare la convergenza in media quadratica (r = 2) implica la convergenza in media (r = 1)
Inoltre, la convergenza in media di ordine r implica la convergenza in probabilit`a per ogni r 1
X
n
r
X = X
n
P
X per ogni r 1
. La seguente proposizione dimostra il caso in cui r = 2, ossia che la convergenza in media quadratica
implica la convergenza in probabilit`a.
Proposizione 110 Se una successione di v.a. X
1
, X
2
... converge in media quadratica ad una costante
c, allora essa vi converge anche in probabilit`a.
Dimostrazione. La dimostrazione `e una semplice applicazione della disuguaglianza di Chebychev.
Abbiamo che
P(|X
n
c| ) = P((X
n
c)
2

2
)
E(X
n
c)
2

2
. (5.4)
Dato che la successione {X
n
}
n1
converge in media quadratica alla costante c, abbiamo che il membro
a destra della disuguaglianza (5.4) tende a 0 al crescere di n. Poich`e inoltre una probabilit`a non `e mai
negativa, segue necessariamente che P(|X
n
c| ) 0 per n .
5.1.3 Convergenza in distribuzione
Lultimo modo di convergenza che esamineremo `e quello in distribuzione. Si tratta di un tipo di
convergenza che non attiene alla successione delle v.a. come funzioni denite in (, F, P) ma piuttosto
sulla convergenza della loro funzione di ripartizione.
Denizione 111 Si dice che la successione di v.a. (X
n
)
n1
converge in distribuzione alla v.a. X se
la successione delle delle su funzioni di ripartizione F
X
n
() converge verso la funzione di ripartizione
F
X
() per ogni punto di continuit`a di questultima:
lim
n+
F
X
n
(x) = F
X
(x) per ogni x R in cui F
X
`e continua
Il simbolo che si adotta `e
X
n
D
X
Esempio 112 Siano (X
n
)
n1
una successione di v.a. distribuite normalmente con funzione di ripar-
tizione
F
X
n
(x) =
n

n
2
2
y
2
dy
e X una v.a. con funzione di ripartizione
F
X
(x) =
_
0 x < 0
1 x 0
5.1 Propriet`a asintotiche degli stimatori di massima verosimiglianza 63
continua in ogni punto x = 0. Si ha X
n
D
X. Infatti:
lim
n+
F
X
n
(x) = lim
n+
n

n
2
2
y
2
dy =
= lim
n+
1

nx

1
2
t
2
dt =
_
_
_
0 x < 0
1/2 x = 0
1 x > 0
e dunque lim
n+
F
X
n
(x) = F
X
(x) in tutti punti di continuit`a di F
X
.
Esempio 113 Siano X
n
una successione di v.a. distribuite uniformemente in
_
1
2

1
n
,
1
2
+
1
n
_
e X la
v.a. degenere con P (X = 1/2) = 1. Si ha X
n
D
X. Infatti:
F
X
n
(x) =
_

_
0 x <
1
2

1
n
n
2
_
x
1
2
+
1
n
_
1
2

1
n
x <
1
2
+
1
n
1 x >
1
2
+
1
n
; F
X
(x) =
_

_
0 x <
1
2
1 x
1
2
Osservando che F
X
n
(1/2) =
n
2
_
1
2

1
2
+
1
n
_
=
1
2
per ogni n, si ottiene
lim
n+
F
X
n
(x) = lim
n+
F
X
n
(x)
_

_
0 x <
1
2
1
2
x =
1
2
1 x >
1
2
ovvero lim
n+
F
X
n
(x) = F
X
(x) per ogni punto x = 1/2 (che `e un punto di discontinuit`a di F
X
).
La relazione tra convergenza in distribuzione e in probabilit`a `e posta in luce dal seguente
Teorema 114 Se (X
n
)
n1
`e una successione di v.a. che converge in probabilit` a verso la v.a. X allora
essa converge anche in distribuzione
X
n
P
X = X
n
D
X
In generela non sussiste limplivazione inversa, ma se la convergenza in distribuzione avviene verso
una costante allora si ha anche convergenza in probabilit`a. Vale infatti
Teorema 115 Per ogni numero reale a vale limplicazione
X
n
D
a = X
n
P
a
Dimostrazione.
P (|X
n
a| > ) = P (X
n
< a ) +P (X
n
> a +) F
n
(a ) + [1 F
n
(a +)]
Per ipotesi X
n
D
a e quindi
F
n
(x) F
a
(x) =
_
0 x < a
1 x a
per ogni x = a
64 5. Stimatori di massima verosimiglianza
Essendo a e a + punti di continuit`a di F
a
segue che
lim
n+
P (|X
n
a| > ) F (a ) + [1 F (a +)] = 0 + 1 1 = 0

lim
n+
P (|X
n
a| > ) = 0
Esempio 116 Si considerino le v.a.
X
n
= I
[0,
1
2
+
1
n
)
() =
_
1 se 0 <
1
2
+
1
n
0 altrimenti
e X = I
[
1
2
,1]
() =
_
1 se
1
2
1
0 altrimenti
denite su = [0, 1]. Sia P la misura di probabilit`a P ((a, b]) = b a. Si ha che X
n
D
a ma X
n
P
a.
Infatti
F
X
n
(x) =
_

_
0 x < 0
1
2
+
1
n
0 x < 1
1 x 1
e F
X
(x) =
_

_
0 x < 0
1
2
0 x < 1
1 x 1
quindi limF
X
n
(x) = F
X
(x) per ogni x R. Ma poiche la distribuzione congiunta di (X
n
, X) `e data
dalla seguente tabella
X
n
X 0 1
0 0 1/2 1/n 1/2 1/n
1 1/2 1/n 1/2 + 1/n
1/2 1/2 1
si ha che P (|X
n
X| > ) = 1 1/n 1 e quindi X
n
non converge in probabilit`a a X.
Un criterio di convergenza per molti aspetti pi` u conveniente al ne di stabilire la convergenza in
distribuzione di una successione di v.a. `e il seguente che diamo senza dimostrazione.
Teorema 117 Sia C la classe delle funzioni f : R R limitate e continue. Allora X
n
D
X se e solo
se
lim
n+
E(f (X
n
)) = E(f (X))
per ogni funzione f della classe C.
Sono molto utili anche i seguenti risultati concernenti la convergenza in probabilit`a, quasi certa e
in media e il cosiddetto Teorema di Slusky:
Teorema 118 Date due successioni di v.a. (X
n
)
n1
e (Y
n
)
n1
e due v.a. X e Y, valgono le seguenti
implicazioni:
(a) X
n
q.c.
X, Y
n
q.c.
Y = X
n
+Y
n
q.c.
X+Y;
(b) X
n
P
X, Y
n
P
Y = X
n
+Y
n
P
X+Y;
(c) X
n
2
X, Y
n
2
Y = X
n
+Y
n
2
X+Y;
(d) X
n
1
X, Y
n
1
Y = X
n
+Y
n
1
X+Y.
Teorema 119 (di Slusky) Se X
n
D
X e Y
n
D
a (costante) allora
X
n
+Y
n
D
X+a e X
n
Y
n
D
aX
In generale, se X
n
D
X e Y
n
D
Y non `e detto che X
n
+Y
n
D
X+Y e nemmeno che X
n
Y
n
D

XY.
5.1 Propriet`a asintotiche degli stimatori di massima verosimiglianza 65
5.1.4 Teorema centrale del limite
Il teorema centrale del limite `e forse il pi` u importante e utile nel calcolo delle probabilit`a. Esso aerma,
nella sostanza, che una somma di variabili aleatorie indipendenti possiede una funzione di ripartizione
che, allaumentare degli addendi, si approssima a quella di una gaussiana.
Precisamente vale il seguente teorema centrale (che diciamo nella versione particolare in cui le
variabili addende hanno tutte la stessa legge di probabilit`a).
Teorema 120 (centrale del limite) Sia (X
n
)
n1
una successione di v.a. indipendenti, con la stessa
legge di probabilit`a e con E(X
n
) = , Var (X
n
) =
2
> 0. Allora la v.a.:
Z
n
=
n

k=1
X
k
n

n
=

n
1
n
n

k=1
X
k

=

n
_
X
n

_
con X
n
=
1
n
n

k=1
X
k
, n 1
converge in distribuzione a una v.a. X avente distribuzione gaussiana con valore atteso nullo e varianza
unitaria (detta distribuzione normale standardizzata).
Si usa scrivere
Z
n
=
n

k=1
X
k
n

n
d
X ovvero
n

k=1
X
k
d
n +

nX
dove il simbolo
d
signica approssimativamente con la stessa distribuzione di. Quando n `e grande,
X `e distribuita con legge gaussiana di parametri E(X) = 0 e Var (X) = 1 (quindi anche (X) = 1).
Esempio 121 Siano X
1
, X
2
, . . . , X
k
, . . . v.a. indipendenti con legge di Bernoulli, cio`e con funzione
di densit`a di probabilit`a
f
X
k
(x) =
_
p
x
(1 p)
x
x (0, 1)
0 x / (0, 1)
con 0 < p < 1
Si determini approssimativamente
P (X
1
+X
2
+. . . +X
n
x)
Poiche E(X
n
) = p e Var (X
n
) = p (1 p), la v.a.
Z
n
=
n

k=1
X
k
n

n
=
n

k=1
X
k
np

np (1 p)
`e approssimativamente distribuita con legge gaussiana di media 0 e varianza 1, cioe
P
_
_
_
_
_
_
n

k=1
X
k
np

np (1 p)
x
_
_
_
_
_
_

2
e

1
2
t
2
dt
Quindi
P
_
n

k=1
X
k
x
_
= P
_
_
_
_
_
_
n

k=1
X
k
np

np (1 p)

x np

np (1 p)
_
_
_
_
_
_

xnp

np(1p)

2
e

1
2
t
2
dt
66 5. Stimatori di massima verosimiglianza
Per esempio, con n = 100, p = 1/2 e x = 60, si ha
x np

np (1 p)
=
60 100/2

100/4
= 2
e quindi si ottiene
P
_
100

k=1
X
k
60
_

2
e

1
2
t
2
dt 0.9772
5.1.5 Risultati asintotici degli stimatori di massima verosimiglianza
Se la densit`a f(x; ) soddisfa certe condizioni di regolarit`a e se

n
=
n
(X
1
, ..., X
n
) `e lo stimatore di
massima verosimiglianza di per un campione casuale di ampiezza n da f(x; ), allora
per ogni > 0 e per ogni , lim
n
P(|

|) ) = 0, cio`e

`e uno stimatore consistente
di ;


ha distribuzione asintotica normale con media e varianza
1
nE
_
(

lnf(X;))
2
_
; ossia

d
N
_
_
;
1
nE
_
_

lnf(X; )
_
2
_
_
_
.
Analogamente, se la densit`a f(x; ) soddisfa certe condizioni di regolarit`a e se

n
=
n
(X
1
, ..., X
n
)
`e lo stimatore di massima verosimiglianza di () per un campione casuale di ampiezza n da f(x; ),
allora
per ogni > 0 e per ogni , lim
n
P(|

() ()|) ) = 0, cio`e (

) `e uno stimatore
consistente di ();
(

) ha distribuzione asintotica normale con media () e varianza


(

())
2
nE
_
(

lnf(X;))
2
_
; ossia
(

)
d
N
_
_
();
(

())
2
nE
_
_

lnf(X; )
_
2
_
_
_
.
6
Stima parametrica per intervalli
Le stime puntuali sono molto utili anche se non del tutto soddisfacenti. Sembra auspicabile che una
stima puntuale sia accompagnata da una misura del possibile errore di stima. Per esempio, una
stima puntuale potrebbe essere accompagnata da un intervallo centrato attorno alla stima puntuale,
insieme ad una misura della ducia che si pu`o riporre nel fatto che il vero valore del parametro cada
entro lintervallo. Invece di fare inferenza per stimare in modo puntuale il vero valore del parametro,
potremmo fare inferenza per stimare un intervallo contenente il vero valore del parametro.
Lobiettivo di usare una stima per intervalli anzich`e una stima puntuale `e quello di avere qualche
garanzia di catturare il parametro dinteresse. Perdendo in termini di precisione rispetto alla stima
puntuale, con la stima per intervalli guadagnamo in condenza che la nostra asserzione sia corretta.
Denizione 122 Sia X
1
, ..., X
n
un campione casuale estratto dalla densit`a f(; ).
Siano T
1
= t
1
(X
1
, ..., X
n
) e T
2
= t
2
(X
1
, ..., X
n
) due statistiche che soddisfano T
1
T
2
per le quali
P(T
1
() T
2
) = , dove non dipende da , allora lintervallo (T
1
, T
2
) si chiama intervallo
di condenza al 100 percento per (); si chiama livello di condenza e T
1
e T
2
si chiamano
rispettivamente limite di condenza inferiore e superiore per (). Anche un valore numerico (t
1
, t
2
)
dellintervallo casuale (T
1
, T
2
) viene chiamato intervallo di condenza al 100 percento per ().
Esistono diversi metodi per trovare intervalli di condenza. Qui ne considereremo due: (i) il metodo
della quantit`a pivotale e (ii) il metodo statistico.
6.1 Il metodo della quantit`a pivotale
Ipotizziamo un campione casuale X
1
, ..., X
n
estratto da una densit`a f(; ) parametrizzata da . Il
nostro obiettivo `e trovare un intervallo di condenza per (), funzione reale di .
Denizione 123 Sia X
1
, ..., X
n
un campione casuale estratto da una densit`a f(; ).
Sia Q = q(X
1
, ..., X
n
; ); cio`e sia Q una funzione di X
1
, ..., X
n
e . Se Q ha una distribuzione che
non dipende da , allora Q viene denita quantit`a pivotale.
La nostra speranza `e di poter utilizzare la quantit`a pivotale per ottenere un intervallo di condenza.
Se Q = q(X
1
, ..., X
n
; ) `e una quantit`a pivotale e ha una funzione di densit`a di probabilit`a, al-
lora per ogni 0 < < 1 esisteranno q
1
e q
2
dipendenti da tali che P(q
1
Q q
2
) = .
68 6. Stima parametrica per intervalli
Ora, se per ogni possibile realizzazione campionaria (x
1
, ..., x
n
) vale q
1
< q(x
1
, ..., x
n
) < q
2
se e
solo se t
1
(x
1
, ..., x
n
) < () < t
2
(x
1
, ..., x
n
) essendo le funzioni t
1
e t
2
non dipendenti da , allora
(T
1
, T
2
) `e un intervallo di condenza al 100 percento per (), avendo posto T
1
= t
1
(X
1
, ..., X
n
) e
T
2
= t
2
(X
1
, ..., X
n
).
Alcuni commenti:
1. q
1
e q
2
sono indipendenti da dato che la distribuzione di Q lo `e.
2. Per ogni ssata, ci sono molte possibili coppie di numeri q
1
e q
2
tali che P(q
1
< Q < q
2
) = .
Dovremmo scegliere quella coppia di q
1
e q
2
che in un certo senso rende vicini t
1
e t
2
. Per esempio
potremmo scegliere quella coppia q
1
e q
2
che rende minima la lunghezza dellintervallo.
3. La caratteristica essenziale del metodo della quantit`a pivotale consiste nel fatto che la disug-
uaglianza q
1
< q(x
1
, ..., x
n
) < q
2
pu`o essere riscritta o invertita o trasformata in t
1
(x
1
, ..., x
n
) <
() < t
2
(x
1
, ..., x
n
) per ogni possibile realizzazione campionaria x
1
, ..., x
n
.
Con il metodo della quantit`a pivotale si arriva a trovare un intervallo di condenza in due passaggi:
prima si trova la quantit`a pivotale, poi la si inverte.
Esempio 124 Sia X
1
, X
2
, .., X
n
un campione casuale estratto da una popolazione normale di media
e varianza 1. Supponiamo di stimare () = . Q = (

X )/

1/n ha una distribuzione normale


standardizzata ed `e perci`o una quantit`a pivotale. Per un dato esistono q
1
e q
2
tali che P(q
1
< Q <
q
2
) = ; in eetti, ne esistono molti di tali q
1
, q
2
.
Ora {q
1
< ( x )/

1/n < q
2
} se s solo se { x q
2

1/n < < x q


1

1/n}; cos` {

X q
2

1/n <
<

X q
1

1/n} `e un intervallo di condenza al 100 percento per . La lunghezza dellintervallo


di condenza `e data da (

X q
1

1/n) (

X q
2

1/n) = (q
2
q
1
)

1/n. Quindi la lunghezza sar`a


resa minima con la condizione che = P(q
1
< Q < q
2
) = (q
2
) (q
1
), dove indica la funzione di
ripartizione della normale standard; q
2
q
1
sar`a un minimo se q
1
= q
2
, come si vedr`a nella sezione
seguente.
6.2 Campionamento dalla distribuzione normale
Sia X
1
, ..., X
n
un campione casuale estratto dalla distribuzione normale con media e varianza
2
.
I seguenti paragra considerano i casi di (i) intervallo di condenza solo per , (ii) intervallo di
condenza solo per
2
, (iii) intervallo di condenza per la proporzione.
6.2.1 Intervallo di condenza per la media
Bisogna distinguere due casi, a seconda che
2
sia noto o che non lo sia. Lasciamo il caso in cui
2
sia
noto come esercizio e cerchiamo lintervallo di condenza per quando
2
sia incognito.
Si noti che qui = (,
2
) e () = .
Abbiamo bisogno di una quantit`a pivotale. (

X)/(/

n) ha una distribuzione normale standardiz-


zata; `e quindi una quantit`a pivotale, ma {q
1
< ( x)/(/

n) < q
2
} non pu`o essere invertito per dare
{t
1
(x
1
, ..., x
n
) < < t
2
(x
1
, ..., x
n
)} per qualsiasi coppia di statistiche t
1
e t
2
. Sembra che il problema
per (

X )/(/

n) sia la presenza di . Cerchiamo una quantit`a pivotale che contenga solo .


Sappiamo che
(

X )/(/

n)

(X
i


X)
2
/(n 1)
2
=

X
S/

n
ha una distribuzione t con n 1 gradi di libert`a. Cos` (

X )/(S/

n) ha una densit`a indipendente


da e
2
; quindi `e una quantit`a pivotale.
6.2 Campionamento dalla distribuzione normale 69
Si ha (q
1
< ( x)/(s/

n) < q
2
) se e solo se ( xq
2
(s/

n) < < xq
1
(s/

n), dove q
1
e q
2
sono tali
che P(q
1
< (

X)/(S/

n) < q
2
) = ; perci`o (

Xq
2
(S/

n,

Xq
1
(S/

n)) `e un intervallo di con-


denza al 100 percento per . La lunghezza di questo intervallo `e (q
2
q
1
)(S/

n), che `e casuale. Per


ogni dato campione la lunghezza sar`a minimizzata se q
1
e q
2
sono scelti in modo che q
2
q
1
sia minimo.
Una breve riessione ci far`a capire che q
1
e q
2
devono essere scelti simmetricamente rispetto a 0.
Cerchiamo di minimizzare
L =
S

n
(q
2
q
1
)
soggetto alla condizione

q
2
q
1
f
T
(t)dt = , (6.1)
dove f
T
(t) `e la densit`a della distribuzione t con n1 gradi di libert`a. La (6.1) d`a q
2
come funzione
di q
1
, e dierenziando la (6.1) rispetto a q
1
si ottiene
f
T
(q
2
)
q
2
q
1
f
T
(q
1
) = 0
Per minimizzare L, poniamo L/q
1
= 0, cio`e
L
q
1
=
S

n
_
q
2
q
1
1
_
= 0
ma
S

n
_
q
2
q
1
1
_
=
S

n
_
f
T
(q
1
)
f
T
(q
2
)
1
_
= 0
se e solo se f
T
(q
1
) = f
T
(q
1
), che implica q
1
= q
2
oppure q
1
= q
2
. La soluzione desiderata `e q
1
= q
2
,
e tali q
1
e q
2
possono essere immediatamente ricavati da una tabella della distribuzione t.
6.2.2 Intervallo di condenza per la varianza
Di nuovo si hanno due casi, a seconda che si assuma nota o no, e di nuovo si lascia come esercizio
il caso in cui `e nota. Cerchiamo un intervallo di condenza per
2
essendo incognita. Abbiamo
bisogno di una quantit`a pivotale che possa essere invertita. Sappiamo che
Q =

(X
i


X)
2

2
=
(n 1)S
2

2
ha una distribuzione chi-quadrato con n 1 gradi di libert`a; quindi Q `e una quantit`a pivotale. Si ha
inoltre
_
q
1
<
(n 1)s
2

2
< q
2
_
se e solo se
_
(n 1)s
2
q
2
<
2
<
(n 1)s
2
q
1
_
cos`
_
(n 1)s
2
q
2
;
(n 1)s
2
q
1
_
`e un intervallo di condenza al 100 percento per
2
, dove q
1
e q
2
sono dati da P(q
1
< Q < q
2
) = .
q
1
e q
2
sono scelti spesso in modo che P(Q < q
1
) = P(Q > q
2
) = (1 )/2. Ci si riferisce a volte
a tale intervallo di condenza col termine di intervallo di condenza con code uguali per
2
. q
1
e q
2
70 6. Stima parametrica per intervalli
si possono trovare nelle tabelle della distribuzione chi-quadrato. Inoltre potremmo essere interessati a
scegliere q
1
e q
2
cos` da minimizzare la lunghezza L dellintervallo di condenza
L = (n 1)S
2
_
1
q
1

1
q
2
_
.
Sia f
Q
(q) una densit`a chi-quadrato con n 1 gradi di libert`a; allora dierenziando

q
2
q
1
f
Q
(q)dq =
rispetto a q
1
si ha
q
2
q
1
f
Q
(q
2
) f
Q
(q
1
) = 0
e cos`
L
q
1
= (n 1)S
2
_

1
q
2
1
+
1
q
2
2
q
2
q
1
_
= (n 1)S
2
_

1
q
2
1
+
1
q
2
2
f
Q
(q
1
)
f
Q
(q
2
)
_
= 0
che implica q
2
1
f
Q
(q
1
) = q
2
2
f
Q
(q
2
). La lunghezza dellintervallo di condenza sar`a minimizzata se q
1
e
q
2
sono scelti in modo che
q
2
1
f
Q
(q
1
) = q
2
2
f
Q
(q
2
)
con la condizione

q
2
q
1
f
Q
(q)dq = .
Si pu`o ottenere una soluzione per q
1
e q
2
iterativa o per integrazione numerica.
Potremmo notare che per ogni q
1
e q
2
che soddisfano

q
2
q
1
f
Q
(q)dq = ,
_

(n 1)S
2
q
2
,

(n 1)S
2
q
1
_
`e un intervallo di condenza al 100 percento per .
6.2.3 Intervallo di condenza asintotico per una frequenza relativa
Consideriamo il caso in cui si abbia una popolazione X dicotomica le cui due modalit`a indicheremo con
insuccesso (0) e successo (1). In tal caso, X `e distribuita secondo la legge bernoulliana di parametro
, dove rappresenta la frequenza relativa di successo nella popolazione. Poich`e per`o E(X) = , tale
parametro coincide con il valore atteso di X, e potremo quindi costruire un intervallo di condenza
asintotico (cio`e per n grande) per .
Consideriamo

X come stimatore di , tale che
E(

X) = E(X) = , V ar(

X) =
V ar(X)
n
=
(1 )
n
.
In particolare, per n sucientemente grande,

X `e asintoticamente distribuita secondo la legge normale,
ovvero

X N(, (1 )/n). Di conseguenza:
(

X )

(1 )/n
N(0, 1). (6.2)
6.3 Metodo statistico 71
In questo caso, per`o, il parametro compare anche al denominatore della (6.2) e quindi linversione
della quantit`a pivotale non `e pi` u cos` agevole come nei casi precedenti. Invertendo la (6.2) rispetto
a e trascurando tutti i termini contenenti un fattore del tipo 1/

n, che tendono a 0 per n


(ricordando che stiamo considerando intervalli asintotici, e quindi approssimati), si ottiene il seguente
intervallo di condenza per :
_
x z
1/2

x(1 x)
n
, x +z
1/2

x(1 x)
n
_
Si osservi inoltre che la precedente formula coincide con quella che si otterrebbe partendo dalla (6.2),
sostituendo alla varianza della popolazione, (1 ), che non `e nota, la sua stima, x(1 x).
6.3 Metodo statistico
Supponiamo di avere un campione casuale X
1
, ..., X
n
estratto dalla densit`a f(;
0
). Supponiamo inoltre
che il parametro
0
sia scalare e che lo spazio dei parametri sia un intervallo. (In questo paragrafo
indicheremo con
0
il vero valore del parametro.) Cerchiamo una stima per intervalli di
0
. Sia T =
t(X
1
, ..., X
n
) una statistica. La statistica T pu`o essere scelta in diversi modi.
Si indichi con f
T
(t; ) la densit`a di T. Procederemo come se T fosse una variabile aleatoria continua,
bench`e la tecnica funzioni anche nel caso in cui T sia una variabile aleatoria discreta. Possiamo denire
due funzioni h
1
() e h
2
() come segue:

h
1
()

f
T
(t; )dt = p
1
e


h
2
()
f
T
(t; )dt = p
2
(6.3)
dove p
1
e p
2
sono due numeri ssati che soddisfano 0 < p
1
, 0 < p
2
, p
1
+p
2
< 1.
h
1
() e h
2
() possono essere tracciate come funzioni di . Assumeremo che sia h
1
() che h
2
() siano
funzioni strettamente monotone di , e per il nostro graco assumeremo che siano strettamente cres-
centi. Sappiamo che h
1
() < h
2
(). Si veda la Figura 6.1.
Indichiamo con t
0
il valore osservato di T; cio`e t
0
= t(x
1
, ..., x
n
), data una realizzazione campionaria
x
1
, ..., x
n
. Segnamo il valore di t
0
sullasse verticale in Figura 6.1 e poi troviamo v
1
e v
2
come indicato.
Per ogni possibile valore di t
0
, si pu`o ottenere una coppia v
1
e v
2
, cos` v
1
e v
2
sono funzioni di t
0
;
indichiamo questo con con v
1
= v
1
(t
0
) e v
2
= v
2
(t
0
). Lintervallo (V
1
, V
2
) risulter`a essere un intervallo
di condenza al 100(1p
1
p
2
) percento per
0
. La Figura 6.1 indica il metodo per trovare lintervallo
di condenza.
Vediamo dalla Figura 6.2 che h
1
(
0
) < t
0
= t(x
1
, ..., x
n
) < h
2
(
0
) se e solo se v
1
= v
1
(x
1
, ..., x
n
) <

0
< v
2
= v
2
(x
1
, ..., x
n
) per ogni possibile realizzazione campionaria (x
1
, ..., x
n
). Ma per la denizione
di h
1
() e h
2
(),
P(h
1
(
0
) < t(X
1
, ..., X
n
) < h
2
(
0
)) = 1 p
1
p
2
cos`
P(v
1
(X
1
, ..., X
n
) <
0
< v
2
(X
1
, ..., X
n
)) = 1 p
1
p
2
cio`e, come aermato, (V
1
, V
2
) `e un intervallo di condenza al 100(1 p
1
p
2
) percento per
0
, dove
V
1
= v
1
(X
1
, ..., X
n
) e V
2
= v
2
(X
1
, ..., X
n
).
Esempio 125 Sia X
1
, ..., X
n
un campione casuale estratto dalla densit`a f(x;
0
) = (1/
0
)I
(0,
0
)
(x).
Cerchiamo un intervallo di condenza per
0
. Si sa che Y
n
= max(X
1
, ..., X
n
) `e lo stimatore di
massima verosimiglianza di
0
. Useremo Y
n
come la statistica T che compare sopra; allora
f
T
(t; ) = n
_
t

_
n1
1

I
(0,)
(t).
72 6. Stima parametrica per intervalli
Per p
1
e p
2
dati, troviamo h
1
() e h
2
(). p
1
=

h
1
()
0
nt
n1

n
dt implica

h
1
()
0
t
n1
dt =
n
p
1
/n che
implica a sua volta (h
1
())
n
/n =
n
p
1
/n, e inne h
1
() = p
1/n
1
. Analogamente, p
2
=

h
2
()
nt
n1

n
dt
implica
n
(h
2
()
n
) =
n
p
2
ovvero h
2
() = (1 p
2
)
1/n
.
Per il valore osservato t
0
= max(x
1
, ..., x
n
), v
1
`e tale che h
2
(v
1
) = t
0
, cio`e h
2
(v
1
) = v
1
(1p
2
)
1/n
= t
0
ovvero v
1
= t
0
(1 p
2
)
1/n
. Analogamente, v
2
= t
0
(1 p
1
)
1/n
.
Cos` un intervallo di condenza al 100(1p
1
p
2
)percento per
0
`e dato da (Y
n
(1p
1/n
2
); Y
n
p
1/n
1
).
Potremmo preoccuparci di scegliere p
1
e p
2
in modo che lintervallo di condenza risulti il pi` u piccolo
intervallo soggetto alla restrizione 1 p
1
p
2
= . La lunghezza dellintervallo di condenza `e
L = Y
n
(p
1/n
1
(1 p
2
)
1/n
)
e cos` la lunghezza sar`a minima se p
1
e p
2
sono presi in modo da minimizzare p
1/n
1
(1 p
2
)
1/n
con le condizioni 1 p
1
p
2
= e 0 < p
1
+p
2
< 1, il che si ottiene per p
2
= 0 e p
1
= 1 .
Figura 6.1: Metodo statistico per costruire un intervallo di condenza
Figura 6.2: Metodo statistico per costruire un intervallo di condenza - continua