Sei sulla pagina 1di 131

Appunti di Statistica Matematica

Rita Giuliano e Maurizio Pratelli

1
1. Modelli statistici

(1.1) Esempio di partenza. L’analisi di qualità.


Si vuole analizzare la qualità dei pezzi prodotti da una ditta. C’è una probabilità p (non nota)
che il generico pezzo sia difettoso. Lo scopo è quello di stimare p. Si considera allora un campione
di n pezzi (con n noto) e poniamo X = numero di pezzi difettosi (fra gli n scelti). Sappiamo che
X ∼ B(n, p), cioè µ ¶
n k
P (X = k) = p (1 − p)n−k , k = 0, 1, . . . , n.
k
Questa quantità dipende dal parametro incognito p (0 < p < 1).

La situazione è la seguente. Abbiamo


(i) uno spazio campione Ω (cioè l’insieme di tutti i possibili risultati) (nel nostro esempio abbiamo
Ω = {1, 2, . . . , n});
(ii) una tribù F (nell’esempio è F = P(Ω)); ¡ ¢
(iii) una famiglia parametrizzata di leggi di probabilità su Ω P θ , θ ∈ Θ (nell’esempio si tratta
delle leggi binomiali B(n, p). In questo caso il parametro è p. In generale, cioè quando non saremo
in situazioni specifiche per le quali si usano tipicamente altre notazioni, il parametro sarà indicato
con θ).
Lo scopo di un’analisi statistica è quello di ottenere informazioni sul parametro θ; parlando gener-
icamente, esse sono di due tipi fondamentali:
(a) si vuole stimare il parametro a partire dai dati;
(b) si vuole effettuare un test sul parametro.
Per capire meglio, torniamo all’esempio di partenza.
(a) Intuitivamente una buona stima sembra essere la quantità X/n (almeno per valori di n ra-
gionevolmente grandi).
(b) Supponiamo di dover effettuare un test per sapere se p ≤ 0.1 (ipotesi), e supponiamo che risulti
X/n = 0.07. In questo caso l’ipotesi verrà accettata con sufficiente tranquillità. Con altrettanta
tranquillità l’ipotesi verrebbe respinta se risultasse ad esempio X/n = 0.35.
Ma come comportarsi se risultasse X/n = 0.11? Vedremo in seguito la risposta.
¡ ¢
(1.2) Definizione. Ω, F, (P θ , θ ∈ Θ) si chiama modello statistico (parametrico).

La speranza e la varianza fatte rispetto alla legge P θ verranno indicate rispettivamente con i simboli
Eθ e V arθ .

Per evitare problemi sulle questioni di trascurabilità (gli insiemi trascurabili possono essere diversi
a seconda della probabilità P θ ) si dà la seguente
¡ ¢
(1.2) Definizione. Il modello statistico Ω, F, (P θ , θ ∈ Θ) si dice dominato se esiste una misura
µ σ-finita su (Ω, F) tale che, ∀θ ∈ Θ, risulti P θ ¿ µ. µ si chiama misura dominante.

Se le P θ sono tutte equivalenti tra loro (in particolare sono tutte dominanti) il modello si dice
regolare.

2
Vale il seguente
(1.3) Teorema (di Radon-Nikodym). Siano ν e µ due misure positive e σ−finite su (Ω, F), tali
che ν ¿ µ. Allora esiste una e una sola f ∈ L1 (µ) tale che
Z
ν(E) = f dµ, ∀E ∈ F.
E

In questo caso, f si chiama versione della derivata di Radon-Nikodym di ν rispetto a µ. Essa si


indica anche con il simbolo

f= .

(1.4) Osservazione. Siano µ1 ,µ2 e µ3 tre misure tali che

µ1 ¿ µ2 ; µ2 ¿ µ3 ;

È facile vedere che


(i) µ1 ¿ µ3 ;
dµ3
(ii) una versione della derivata di dµ1 è data da

dµ3 dµ2
· .
dµ2 dµ1

(1.5) Osservazione. Sia ν ¿ µ, e sia



f= .

Allora ν ∼ µ se e solo se f > 0 q.o. e

dµ 1 1
= = dν
dν f dµ

(1.6) Esempi.
(a) Sia n un intero fissato. Su Ω = {0, 1, . . . , n} consideriamo le leggi binomiali B(n, θ), al variare
di θ ∈ (0, 1) =: Θ. Si ha cioè
µ ¶
n k
P θ (X = k) = θ (1 − θ)n−k , k = 0, 1, . . . , n.
k

Questo è un modello regolare (P θ1 ∼ P θ2 ∀(θ1 , θ2 ) (perché tutte le P θ “caricano” i numeri


{0, 1, . . . , n}).
(b) Su Ω = N consideriamo le stesse leggi B(n, θ). Al variare di (n, θ) ∈ N × (0, 1) =: Θ questo
è un modello dominato ma non regolare. Una misura dominante è una qualsiasi misura che
“carica” tutti gli interi, ad esempio la misura µ che conta i punti.
(c) Su (R, B(R)) le leggi uniformi su [a, b] (al variare di a e b) sono un modello dominato ma non
regolare (per gli stessi motivi del punto 2): in questo caso si ha θ = (a, b) ∈ R2 =: Θ).

3
(d) Su (R, B(R)) le leggi normali N (m, σ 2 ) (m ∈ IR, σ > 0) hanno tutte densità rispetto a λ,
misura di Lebesgue; la densità è data dalla formula
µ ¶
1 1 (x − m)2
fm,σ (x) = √ exp −
2πσ 2 σ2

Pertanto le leggi normali sono un modello dominato (da λ). Poiché fm,σ è strettamente positiva,
ciascuna legge N (m, σ 2 ) è equivalente a λ. Dunque questo è un modello addirittura regolare.
(e) Su (R, B(R)) le (εx )x∈R (εx = misura di Dirac in x) non sono un modello dominato (vedere
l’Osservazione (1.8) (ii) ).

Si ha la seguente
¡ ¢
(1.7)Proposizione. Sia Ω, F, (P θ , θ ∈ Θ) un modello statistico dominato. Allora esiste una
probabilità dominante P0 della forma
X X
P0 = an P θn an ≥ 0, an = 1.
n n

Una tale P0 (cioè del tipo combinazione lineare convessa di una successione (P θn )) è detta domi-
nante privilegiata.

Dimostrazione

(a) Ogni misura σ−finita µ è equivalente ad una misura ν di probabilità. Infatti, se µ− è σ−finita,
esiste una Zv. a. strettamente positiva e µ− integrabile. Allora si ha
Z
0 < Zdµ < ∞,

e quindi si può porre


Z
Z̃ = R , ν = Z̃.µ.
Zdµ
Dunque possiamo supporre µ(Ω) = 1.

(b) Poniamo ora

dP θ
pθ = , C = {C ∈ F : µ(C) > 0 e ∃ θ ∈ Θ, pθ > 0 su C}.

C non è vuoto: infatti, fissato θ e posto Ωθ = {pθ > 0}, si ha


Z Z
P θ (Ωθ ) = pθ dµ = pθ dµ = 1,
Ωθ Ω

e dunque µ(Ωθ ) > 0, perché P θ ¿ µ.

4
(c) Sia ora D={unioni finite di elementi di C}, e poniamo

S = sup µ(D).
D∈D

Osserviamo che S ≤ 1. Sia ora (Dk ) una successione crescente di elementi di D, tale che

sup µ(Dk ) = S.
k

S
Poniamo Do = k Dk . Si hanno i fatti seguenti:

(d) Do è unione numerabile di elementi di C (in quanto unione numerabile di unioni finite di
elementi di C): [
Do = Cn
n

(e) Per definizione di C per ogni n esiste θn tale che pθn > 0 su Cn . Poniamo
X
p0 = 2−n pθn , P0 = p0 .µ.
n

È facile vedere che p0 > 0 su Do (infatti, dal punto (d) segue che , ∀x ∈ Do ∃ Cn tale che x ∈ Cn ,
e dunque pθn (x) > 0 per definizione di C).

(f) ∀ θ, si ha pθ = 0 µ-q.o. su Doc . (Infatti, supponiamo per assurdo che ∃ θ, ∃ A ⊂ Doc con
µ(A) > 0 e pθ > 0 su A. Allora A ∈ C per definizione di C. Poniamo E = A ∪ Dk , dove Dk è uno
degli insiemi usati per costruire Do . Di conseguenza E ∈ D. Poiché A ∩ Dk = ∅ si ha

µ(A) + µ(Dk ) = µ(E) ≤ sup µ(D) = S;


D∈D

Passando ora al sup rispetto a k si ottiene

µ(A) + S ≤ S,

il che è assurdo perché S è un numero finito e µ(A) > 0).

(g) Poiché p0 > 0 su Do , si ha P0 ∼ µ su Do .

Questi fatti implicano che ogni P θ è assolutamente continua rispetto a P0 . Sia infatti E tale che
P0 (E) = 0. Allora:

(i) per il punto (f) si ha Z


P θ (E ∩ Doc ) = pθ dµ = 0;
E∩Doc

5
(ii)si ha
P0 (E ∩ Do ) ≤ P0 (E) = 0
e quindi, per il punto (g), si ha anche

µ(E ∩ Do ) = 0

Dunque è anche
P θ (E ∩ Do ) = 0,
perchè P θ è assolutamente continua rispetto a µ.

Si conclude che
P θ (E) = P θ (E ∩ Do ) + P θ (E ∩ Doc ) = 0 + 0 = 0,
cioè P0 domina ogni P θ .

(1.8) Osservazioni. (i) Se il modello è regolare, ogni P θ è del tipo della proposizione precedente
(basta prendere θ1 = θ, a1 = 1).

(ii) Su R, le (²x )x∈R non sono unP modello dominato. Infatti, se per assurdo lo fosse, esisterebbe
una P0 dominante, del tipo P0 = n an ²xn ; tuttavia non è possibile che P0 domini tutte le ²x : sia
x 6∈ {x1 , x2 , x3 , . . .}. Allora x è trascurabile per P0 , ma non per ²x .
P
(iii) Se P0 = n an P θn , allora, ∀A si ha
X
P0 (A) = an P θn (A),
n

e quindi, ∀g limitata, Z Z
X
gdP0 = an gdP θn .
n

¡ ¢
(1.9) Definizione. Sia Ω, F, (P θ , θ ∈ Θ) un modello statistico dominato da una misura µ. Si
chiama verosimiglianza del modello una funzione L : Θ × Ω → R tale che, per ogni fissato θ, la
funzione L(θ) = L(θ, ·) : ω 7→ L(θ, ω) sia una versione della densità di P θ rispetto a µ.

(1.10) Osservazione. ω 7→ L(θ, ω) è misurabile (come funzione di ω) e, ∀A ∈ F, si ha


Z
θ
P (A) = L(θ, ω)µ(dω).
A

2. La nozione di riassunto esaustivo


¡ ¢
(2.1) Definizione. Sia Ω, F, (P θ , θ ∈ Θ) un modello statistico. Si chiama statistica (definita
sul modello statistico) ogni applicazione misurabile S di (Ω, F) in uno spazio misurabile (E, E),
che non dipenda da θ.

6
(2.2) Osservazione. La differenza tra una statistica e una variabile aleatoria sta nel fatto che,
mentre una v.a. è definita su uno spazio misurabile (Ω, F) a cui è associata una sola probabilità
P , adesso sullo spazio di definizione della statistica c’è una famiglia di probabilità ({P θ , θ ∈ Θ}).

(2.3) Definizione. (a) Sia µ una misura di probabilità su R. Si chiama campione di taglia n e
legge µ una famiglia X1 , X2 , . . . , Xn di v. a. reali indipendenti, tutte con legge µ.

Una realizzazione si ottiene nel modo seguente: prendiamo

Ω = Rn ; F = B(Rn ), P = µ ⊗ µ · · · ⊗ µ = µ⊗n .
| {z }
n volte

Poi poniamo Xi : Ω → R = proiezione i-esima, definita da

Xi : (x1 , x2 , . . . , xn ) 7→ xi .

Allora la legge di ogni Xi è µ e le Xi sono tra loro indipendenti.

(b) Data una famiglia (µθ , θ ∈


¡ Θ) di leggi di probabilità
¢ su R, chiamiamo campione di taglia n e
legge µθ il modello statistico Ω, F, (P θ , θ ∈ Θ) definito da

Ω = IRn , F = B(IRn ), P θ = µθ ⊗ µθ · · · ⊗ µθ = (µθ )⊗n .


| {z }
n volte

(2.4) Osservazione. Sia (X1 , . . . , Xn ) un campione¡ di taglia n e legge µθ , θ ∈ Θ;


¢ secondo quanto
detto in (2.3) (b), si tratta del modello statistico Rn , B(Rn ), ((µθ )⊗n , θ ∈ Θ) . Se µθ ¿ µ, e
dµθ
dµ = f θ (x), allora P θ = µθ ⊗ · · · ⊗ µθ ¿ µ ⊗ · · · ⊗ µ ed inoltre
| {z } | {z }
n volte n volte

Yn
dP θ
L(θ; ω) = ¡ ⊗n ¢ (ω) = f θ (ωi ) (prodotto tensoriale di n leggi aventi densità f θ ).
d µ i=1

Si lascia la verifica per esercizio.

(2.4) Esempio. Un’altra situazione interessante è la seguente. Supponiamo di avere una catena di
Markov sullo spazio misurabile (E, E), di legge iniziale ρ assegnata e operatore di transizione
Z
Π(θ, x; A) = `(θ, x, y)Π(x, dy), x ∈ E, A ∈ E,
A

dove Π è un operatore di transizione fissato di E in E e {`(θ, ·, ·)}θ∈Θ è una famiglia di verosimi-


glianze.

7
Una notazione. Dato un operatore di transizione (x, A) 7→ Π(x; A) di E in E, poniamo Π⊗1 = Π
e per induzione definiamo
Z Z
⊗(n+1)
Π (x, B) = Π(x, dy) Π⊗n (y, dz)1B (y, z), x ∈ E, B ∈ E ⊗(n+1)

⊗n ⊗n ⊗n
(notare che
¡ la misura
¢ Π (y, ·) è definita su E ). Allora Π è un operatore di transizione di
n ⊗n
(E, E) in E , E , e la misura di probabilità (definita come abbiamo detto su E ⊗n )

B 7→ Π⊗n (x, B)

rappresenta la legge del vettore (X1 , . . . , Xn ) condizionata a X0 = x; in altre parole si ha


¡ ¢
P (X1 , . . . , Xn ) ∈ B|X0 = x = Π⊗n (x, B).

Pertanto, se la legge di X0 è ρ, la legge congiunta del vettore (X0 , X1 , . . . , Xn ) è data da


Z
¡ ¢
C 7→ ρ(dx)Π⊗n (x, dy)1C (x, y) := ρ ⊗ Π⊗n (C), C ∈ E ⊗(n+1) .

Torniamo alla situazione iniziale. Se si osservano i primi n + 1 passi X0 , X1 , . . . , Xn , possiamo


prendere come modello statistico
¡ ¡ ¢ ¢
E n+1 , E ⊗n+1 , { ρ ⊗ (Πθ )⊗n , θ ∈ Θ} ,

Si vede facilmente che si tratta di un modello dominato; una misura dominante è ρ ⊗ Π⊗n e una
versione della verosimiglianza è (x = (x0 , . . . , xn ))

L(θ, x) = `(θ, x0 , x) · `(θ, x1 , x2 ) · . . . · `(θ, xn−1 , xn ).

Infatti (caso n = 2 per semplicità), per C ∈ E ⊗3 si ha (y = (y1 , y2 ))


Z
¡ θ ⊗2
¢
ρ ⊗ (Π ) (C) = ρ(dx)(Πθ )⊗2 (x, dy)1C (x, y)
Z Z Z
= ρ(dx) Πθ (x, dy1 ) Πθ (y1 , dy2 )1C (x, y1 , y2 )
Z Z Z
= ρ(dx) `(θ, x, y1 )Π(x, dy1 ) `(θ, y1 , y2 )Π(y1 , dy2 )1C (x, y1 , y2 ).

Diamo ora una motivazione intuitiva per la nozione di riassunto esaustivo, che definiremo tra
poco, utilizzando ancora l’esempio del controllo di qualità: si estraggono in modo indipendente
l’uno dall’altro n pezzi prodotti, e poniamo, per i = 1, . . . , n,
n
1 se il pezzo i-esimo è difettoso
Xi =
0 se no
8
Sia p (non nota) la probabilità che il generico pezzo sia difettoso.

(X1 , . . . , Xn ) è il nostro campione, e ha legge B(1, p).

Poniamo poi
X1 + · · · + Xn = numero di pezzi difettosi.
Se vogliamo stimare p, è chiaro che basta sapere qual è il valore di X1 + · · · + Xn , non è necessario
conoscere il vettore (X1 , . . . , Xn ). In altri termini, il vettore T (X1 , . . . , Xn ) = X1 + · · · + Xn
contiene tutta l’informazione necessaria; conoscere separatamente i valori di X1 , . . . , Xn non ci
direbbe di più.

Cerchiamo di arrivare ad una buona definizione matematica. Sia assegnato il modello statistico
(Ω, F, (P θ , θ ∈ Θ)). Osservare T (X1 , . . . , Xn ) equivale ad osservare la σ-algebra generata da T ,
B = σ(T ). Generalmente risulta B ⊂ F: il nostro scopo è (o meglio sarebbe!) individuare P θ su
tutta la tribù F conoscendo i valori che essa assume su B, (o, in modo equivalente, per esprimersi in
termini di T , conoscendo P θ (T ∈ I), al variare di I sottoinsieme misurabile di R, cioè conoscendo
la legge di T secondo P θ ).

Ora, in generale, assegnata una sottotribù B di F, ogni probabilità P θ è individuata dalla sua
traccia su B (cioè dai valori che essa assume sugli elementi B ∈ B: P θ (B)) e dalle speranze,
condizionate a B, delle v. a. limitate: infatti, se A ∈ F , risulta
Z Z
(2.5) P θ (A) = Eθ [1A ] = Eθ [Eθ [1A |B]] = Eθ [1A |B]dP θ = Eθ [1A |B]dP θ |B .

Dunque, se riusciamo a trovare una versione della speranza condizionale Eθ [1A |B] che non dipen -
de da θ, per individuare P θ è sufficiente conoscere P θ |B .

(2.6) Esempio. Di nuovo il controllo di qualità. Prendiamo n = 2 per semplicità. Vogliamo


mostrare che la statistica T = X1 + X2 è esaustiva. In questo caso abbiamo F = B(R2 ). Inoltre
µθ = B(1, θ). Faremo i conti solo per il caso particolare in cui A = [1/2, 3/2] × [−1/2, 1/2].

Abbiamo prima di tutto P θ (A) = P θ (X1 = 1, X2 = 0). Calcoliamo ora Eθ [1A |B]. B è la tribù
generata da X1 + X2 . In altri termini si ha

B = {B : B = {X1 + X2 ∈ I}, I misurabile ⊆ R}.

Si vede facilmente che B è generata dai tre eventi B0 = {X1 + X2 = 0}, B1 = {X1 + X2 = 1} e
B2 = {X1 + X2 = 2}.

Poniamo (ω = (ω1 , ω2 )) n
1/2 per ω ∈ B1 ;
Y (ω) =
0 altrimenti.
θ
Vogliamo far vedere che Y = E [1A |B]. Y è ovviamente B- misurabile; essa sarà la speranza
condizionale cercata se, ∀B ∈ B, risulta
Z Z
θ
1A dP = Y dP θ .
B B

9
Basterà verificare la relazione precedente per i tre generatori B0 , B1 e B2 .

(i) Per B0 . Si ha
Z
1A dP θ = P θ (A ∩ B0 )
B0
Z
= P (X1 = 1, X2 = 0, X1 + X2 = 0) = 0 = Y dP θ ;
B0

(ii) Per B2 la verifica è identica.

(iii) Per B1 . In questo caso risulta


Z
1A dP θ = P θ (A ∩ B1 )
B1
= P (X1 = 1, X2 = 0, X1 + X2 = 1) = P (X1 = 1, X2 = 0) = θ(1 − θ)
Z
1 1
= 2θ(1 − θ) = P θ (B1 ) = Y dP θ .
2 2 B1

Concludiamo questo esempio con la verifica che la speranza condizionale, cioè la v. a. Y , verifica
la relazione (2.3). Si trova infatti
Z
1 θ
Y dP θ |B = P (B1 ) = θ(1 − θ) = P θ (A).
2

Siamo pronti per dare la definizione formale di riassunto esaustivo:

(2.7) Definizione. È assegnato il modello statistico (Ω, F, (P θ , θ ∈ Θ)), dominato da una misura
µ. Sia T : Ω → (E, E) una v. a. Si dice che T è un riassunto esaustivo (o una statistica
esaustiva o anche sufficiente, sufficient statistic in inglese) se, per ogni v. a. Y definita su Ω, a
valori reali e limitata, esiste, definita µ q.o., una versione della speranza condizionale Eθ [Y |T ] che
non dipenda da θ. Se T è cosiffatta, scriveremo E¦ [Y |T ] invece che Eθ [Y |T ].

(2.8) Osservazione. Vediamo un caso particolare importante. Sia (Ω, F, (P θ , θ ∈ Θ)), del tipo
Ω = Rn ; Xi = i-esima proiezione, F= tribù generata da X = (X1 , . . . , Xn ), P θ = (µθ )⊗n . In altre
parole X è un campione di taglia n e ciascuna Xi ha legge µθ . Per il criterio di misurabilità di
Doob ogni v. a. Y che sia F-misurabile è del tipo Y = φ(X1 , . . . , Xn ). Dunque, dire che T è
esaustiva equivale a dire che, qualunque sia φ, la speranza condizionale Eθ [φ(X1 , . . . , Xn )|T ] non
dipende da θ, o, ciò che è lo stesso, che la legge condizionale di (X1 , . . . , Xn ), data T non dipende
da θ. Questa seconda definizione è quella preferita nei libri di tipo applicativo.

(2.9) Esempio. (Calcolo di una statistica sufficiente nel caso particolare dell’Oss.
(2.8)). Sia (X1 , . . . , Xn ) un campione di legge Πθ . Mostrare che la statistica T = T (X1 , . . . , Xn ) =
X1 + · · · + Xn è esaustiva.

10
Soluzione. Calcolare la legge condizionale del vettore (X1 , . . . , Xn ), data T , significa calcolare
P (X1 = x1 , . . . , Xn = xn |T = t) al variare di (x1 , . . . , xn ) ∈ Nn e t ∈ N. Si ha facilmente
P (X1 = x1 , . . . , Xn = xn , T = t)
P (X1 = x1 , . . . , Xn = xn |T = t) = =
P (T = t)

 0 se t 6= x1 + · · · xn

 P (X1 = x1 , . . . , Xn = xn )
 se t = x1 + · · · xn ;
P (T = t)
continuiamo il calcolo nel secondo caso: ricordando che le Xi sono tra loro indipendenti e di legge
Πθ , e di conseguenza T ∼ Πnθ , si ha
¡ θx1 −θ ¢ ¡ θxn −θ ¢ θ x1 +···+xn −nθ
P (X1 = x1 , . . . , Xn = xn ) e . . . xn ! e e t!
= x1 ! nt θt = x1n!···x
t θt
n!
= ,
P (T = t) t! e −nθ
t! e −nθ x1 ! · · · xn !nt

dato che t = x1 + · · · xn . Come si vede, il risultato non dipende da θ, e quindi si conclude che T è
un riassunto esaustivo.

Comunque sia, la definizione non è comoda per decidere se una statistica è esaustiva oppure no.
Serve un criterio operativo, che è fornito dal teorema seguente.

(2.10) Teorema (di fattorizzazione, o di Neymann–Fisher).Sia (Ω, F, (P θ , θ ∈ Θ)) un modello


statistico dominato. Sia µ una misura dominante, T : Ω → E una v.a. Allora sono fatti equivalenti:
(a) T è un riassunto esaustivo;
(b) esistono una funzione h non dipendente da θ, e, per ogni θ, una funzione misurabile g θ tali che

. dP θ
L(θ, ω) = (ω) = g θ (T (ω)) · h(ω), µ − q.o.;

(c) se P è una dominante privilegiata, allora

. dP θ
L(θ, ω) = (ω) = g θ (T (ω)) P − q.o.
dP
dP θ
(cioè si può prendere h = 1, ovvero dP coincide P –q.o. con una v. a. della forma g θ ◦ T.)

Dimostrazione. (a) ⇒(c). Osserviamo prima di tutto che, per ogni v.a. limitata X, se
E ¦ [X|T ] (non dipendente da θ!) è una versione della speranza condizionale di X rispetto a T
relativamente ad ogni P θ , allora E ¦ [X|T ] è una versione della speranza condizionale di X rispetto
a T anche relativamente a P (che è una dominante privilegiata). Infatti, per ogni B ∈ σ(T )
(σ(T ) = tribù generata da T ), si ha
Z X Z X Z Z ³X ´
X dP = an XdP θn = an E ¦ [X|T ]dP θn = E ¦ [X|T ]d an P θn
B n B n B B n
Z
= E ¦ [X|T ]dP,
B

11
per l’Osservazione (1.8)(iii).
θ . θ
Sia ora dP
dP = L una versione della verosimiglianza (cioè della densità di P θ rispetto a P ), e
θ . P θ
mostriamo che la v. a. g (T ) = E [L |T ] è anch’essa una versione della verosimiglianza. Infatti,
per ogni v. a. X limitata, si ha
£ ¤ £ ¤ £ ¤
E θ [X] = E θ E ¦ [X|T ] = E P Lθ E ¦ [X|T ] = E P E P [Lθ E ¦ [X|T ]|T ]
£ ¤ £ ¤
= E P E ¦ [X|T ]E P [Lθ |T ] =
|{z} E P g θ (T )E ¦ [X|T ]
T −misur.di g θ (T )
£ ¤ £ ¤
= E P E ¦ [g θ (T )X|T ] |{z}
= E P E P [g θ (T )X|T ] = E P [g θ (T )X].
oss.prec.

In altri termini, per ogni v.a. limitata X si ha


Z Z
XdP θ = Xg θ (T )dP,

dP θ
il che significa proprio che g θ (T ) è una versione di dP , e il punto (c) è dimostrato.

(c) ⇒ (b). Dato che µ domina tutte le P θ , e di conseguenza anche P , per l’ipotesi si ha

dP θ dP θ dP dP
(ω) = (ω) · (ω) = g θ (T (ω)) · (ω) = g θ (T (ω)) · h(ω),
dµ dP dµ dµ

dP
dove si è posto h = dµ .

(b) ⇒ (a). Premettiamo un

(2.11) Lemma. Su (Ω, F) siano Q1 e Q2 due probabilità, e supponiamo che Q1 ¿ Q2 . Sia B una
dQ1
sottotribù di F. Posto Z = dQ 2
, per ogni v.a. X positiva si ha

E Q2 [XZ|B]
E Q1 [X|B] = .
E Q2 [Z|B]

(2.12) Osservazione. La formula del lemma precedente generalizza la classica formula che
definisce la probabilità condizionale rispetto ad un evento, nel modo che segue: assegnato lo spazio
di probabilità (Ω, F, P ), sia B un evento, con P (B) > 0. Prendiamo (nell’enunciato del lemma)
dQ1
Q1 (·) = P (·|B), Q(·) = P (·). È evidente che Q1 ¿ Q2 ed inoltre si ha Z = dQ 2
= P1(B)
B
: infatti,
per ogni A ∈ F si ha
R Z Z
P (A ∩ B) 1A∩B dP 1B
Q1 (A) = P (A|B) = = = 1A · dP = ZdQ2 .
P (B) P (B) P (B) A

12
Sia B = {∅, Ω} la σ−algebra banale; la speranza condizionale rispetto a B non è altro che la
speranza, e il lemma dice allora che, per ogni v.a. X positiva si ha

E Q2 [XZ]
E Q1 [X] = ;
E Q2 [Z]

traducendo significa Z
E[XZ] 1
E[X|B] = = · XdP,
E[Z] P (B) B

dato che E[Z] = 1. In particolare, se X = 1A , con A ∈ F , si trova

P (A ∩ B)
P (A|B) = .
P (B)

Dimostrazione(del Lemma). Prima di tutto osserviamo che l’evento A = {E Q2 [Z|B] = 0} è


trascurabile rispetto a Q1 (e dunque il secondo membro della relazione precedente è ben definito).
Infatti A è B− misurabile e quindi, per definizione di speranza condizionale E Q2 [Z|B],
Z Z Z Z
dQ1
Q1 (A) = dQ1 = dQ = Z dQ2 = E Q2 [Z|B] dQ2 = 0.
A A dQ2 A A

Q2
Poniamo per semplicità U = EE Q2[XZ|B]
[Z|B]
. U è chiaramente B–misurabile. Per terminare la di-
mostrazione basta allora verificare che, per ogni B ∈ B si ha
Z Z
U dQ1 = X dQ1 .
B B

Infatti
Z Z Z Z
E Q2 [XZ|B] E Q2 [XZ|B] dP E Q2 [XZ|B]
U dQ1 = Q2 [Z|B]
dQ 1 = 1 B dQ 2 = 1 B Z dQ2
B B E E Q2 [Z|B] dQ2 E Q2 [Z|B]
· ¸ · h E Q2 [XZ|B] ¯ i ¸
E Q2 [XZ|B] ¯
= E Q2 1B Q2 Z = E Q2 E Q2 1B Q2 Z ¯B
E [Z|B] E [Z|B]
· ¸
E Q2
[XZ|B] £ ¤ £ ¤
= E Q2 1B Q2 E Q2 [Z|B] = E Q2 1B E Q2 [XZ|B] = E Q2 E Q2 [1B XZ|B]
E [Z|B]
Z Z Z
Q2 dQ1
= E [1B XZ] = XZ dQ2 = X dQ2 = X dQ1 .
B B dQ2 B

Passiamo a dimostrare che (b) ⇒ (a) (nel Teorema di fattorizzazione). Prima di tutto vediamo
che non è restrittivo supporre che µ sia una misura di probabilità. Sia infatti W una v. a. con

13
R
W > 0 ovunque e tale che W dµ = 1 (µ misura dominante). Quindi la misura Q = W.µ è una
probabilità. Inoltre P θ ¿ Q, in quanto P θ ¿ µ ∼ Q; infine, per l’ipotesi,

dP θ dP θ dµ dP θ 1 h(ω)
= · = · = g θ (T (ω)) · = g θ (T (ω)) · k(ω).
dQ dµ dQ dµ W W (ω)

Dunque l’ipotesi (b) vale anche per Q.


Poiché Q è una probabilità, possiamo applicare il lemma precedente alla coppia di probabilità
Q1 = P θ e Q2 = Q e si trova

E Q [Xg θ (T ) · k|B] g θ (T ) · E Q [Xk|T ] E Q [Xk|T ]


E θ [X|T ] = = = ,
E Q [g θ (T ) · k|T ] g θ (T ) · E Q [k|T ] E Q [k|T ]

e quest’ultima variabile aleatoria non dipende da θ, e quindi T è un riassunto esaustivo.

(2.13) Osservazione. Conseguenza del teorema di fattorizzazione è che, nel caso di un modello
dominato, se T è esaustiva e S = φ(T ), con φ invertibile, allora anche S è esaustiva. Questa
proprietà non vale se il modello non è dominato.

(2.14) Alcuni esempi di statistiche esaustive.

(a) Controllo di qualità. Verifichiamo il numero di pezzi difettosi fra n pezzi dati. Poniamo {0, 1}n ,
F = P(Ω), e, per ogni i = 1, 2, . . . , n
n
1 se l’i–esimo pezzo è difettoso
Xi =
0 se no.

In altre parole, se ω ∈ Ω, (ω = (ω1 , . . . , ωn ), con ωi ∈ {0, 1}), si pone Xi (ω) = ωi , cioè Xi : Ω →


{0, 1} non è altro che l’i− esima proiezione. Poniamo poi

P θ (ω) = θω1 +···+ωn (1 − θ)n−(ω1 +···+ωn ) m(ω), (prodotto tensoriale di n leggi B(1, θ))

dove m è la misura che assegna massa 1 ad ogni punto di Ω (dunque m è una misura dominante).
Allora, se T (ω) = ω1 + · · · + ωn = X1 (ω) + · · · + Xn (ω), si ha

dP θ .
(ω) = θT (ω) (1 − θ)n−T (ω) = g θ (T (ω)),
dm

e quindi T è un riassunto esaustivo (condizione (b) del Teorema di Neymann–Fisher).

(b) Sia (X1 , . . . , Xn ) un campione di taglia n avente legge di Poisson di parametro θ > 0 (Πθ ), cioè
la legge data dalla formula
θk −θ
µθ (k) = e m(k), k ∈ N,
k!
14
dove m è la misura che “conta”i punti di N. Secondo la definizione di campione, il modello statistico
è (Ω, F, (P θ , θ ∈ Θ)), con
Ω = Rn , F = B(Rn ), P θ = (µθ )⊗n ,
Xi = i−esima proiezione, T = X1 + · · · Xn . La misura dominante in questo modello è m⊗n , cioè
la misura che “conta”i punti di Nn . Allora, indicato con (k1 , . . . , kn ) (ki ∈ N) il generico elemento
ω di Ω, per l’osservazione (2.2) si ha
Yn
dP θ −θ θ
ki
−nθ θ
k1 +···kn
−nθ θ
T (ω)
L(θ; k1 , . . . , kn ) = ¡ ¢ (k1 , . . . , k n ) = e = e Qn = e Qn
d m⊗n i=1
ki ! i=1 ki ! i=1 ki !

= g θ (T (ω)) · h(ω),
dove
1
g θ (k) = e−nθ θk , h(ω) = h(k1 , . . . , kn ) = Qn .
i=1 ki !
Dunque si conclude che T = X1 + · · · Xn è un riassunto esaustivo.

(c) Sia µθ la legge, concentrata su (0, 1), assolutamente continua rispetto alla misura di Lebesgue,
con densità
f θ (x) = (θ + 1)xθ 1(0,1) (x), θ > −1.
Sia (X1 , . . . , Xn ) un campione di taglia n e legge µθ (costruito con il solito metodo). Una misura
dominante è la misura di Lebesgue n−dimensionale (su (0, 1)n ). Indichiamo con (x1 , . . . , xn ) il
generico elemento ω ∈ Ω = (0, 1)n . Ancora per l’Osservazione (2.2), la verosimiglianza ha la forma
³Y
n ´θ
L(θ; x1 , . . . , xn ) = (θ + 1)n xi = g θ (T (ω)),
i=1

θ n θ
Qn
dove
Qn g (x) = (θ+1) x e T (ω) = T (x1 , . . . , xn ) = i=1 xi . In altri termini T (X1 (ω), . . . , Xn (ω)) =
i=1 Xi (ω) è un riassunto esaustivo.

(d) Campione di taglia n e legge N (µ, σ 2 ), dove µ ∈ R e σ 2 > 0 sono sconosciuti. Dunque in
questo caso il parametro θ è vettoriale: θ = (µ, σ 2 ), e varia nell’insieme Θ = R × R+ . La legge
N (µ, σ 2 ) è assolutamente continua rispetto alla misura di Lebesgue su R. La misura dominante è
la misura di Lebesgue n−dimensionale. La verosimiglianza è

1 ³ (x − µ)2 ´
n
Yi
L(µ, σ 2 ; x1 , . . . , xn ) = exp −
(2π)n/2 σ n i=1 2σ 2
³ P n ´
1 (xi − µ)2
= exp − i=1 2 − n log σ
(2π)n/2 2σ
1 ³ 1 ¡ Xn Xn
¢ ´,
= exp − 2 x2i + nµ2 − 2µ xi − n log σ
(2π)n/2 2σ i=1 i=1
³X
n n
X ´
= gθ xi , x2i
i=1 i=1

15
³ ¡ ¢ ´
1 1
dove g θ (x, y) = (2π)n/2
exp − 2σ 2 y + nµ2 − 2µx − n log σ . Si conclude che il vettore aleatorio

³X
n n
X ´
Xi , Xi2
i=1 i=1
Pn
è un
Pnriassunto esaustivo (bidimensionale questa volta). Si dice anche che le due statistiche i=1 Xi
e i=1 Xi2 sono congiuntamente sufficienti.

(e) Sia (X1 , . . . , Xn ) un campione di taglia n di legge uniforme sull’intervallo (θ1 , θ2 ), con θ2 > θ1 .
In questo caso Ω = Rn , F = B(Rn ), e il parametro θ è bidimensionale, θ = (θ1 , θ2 ), con Θ ∈
R2 ∩ {y > x}. µθ è la legge su R avente densità (rispetto alla misura di Lebesgue)

1
f θ (x) = 1(θ ,θ ) (x).
θ2 − θ1 1 2

La misura dominante è la misura di Lebesgue su Rn . La verosimiglianza ha la forma


n
Y Yn
1 1
L(θ; x1 , . . . , xn ) = 1(θ1 ,θ2 ) (xi ) = 1(θ ,θ ) (xi ).
θ − θ1
i=1 2
(θ2 − θ1 )n i=1 1 2

D’altra parte si vede facilmente che


 ½
n
Y n  1 se u = min(x1 , . . . , xn ) > θ1
1(θ1 ,θ2 ) (xi ) = 1 se xi ∈ (θ1 , θ2 )∀i = 1, . . . , n = v = max(x1 , . . . , xn ) < θ2
0 altrimenti 
i=1
0 altrimenti
= 1(θ1 ,θ2 )×(θ1 ,θ2 ) (u, v) = g θ (u, v),

dove evidentemente si pone


g θ (x, y) = 1(θ1 ,θ2 )×(θ1 ,θ2 ) (y, z).
Tutto questo significa che le statistiche
½
U = min(X1 , . . . , Xn )
V = max(X1 , . . . , Xn )

sono congiuntamente sufficienti (ved. esempio precedente).

3. Teoria della stima. La nozione di stimatore.

Sia (Ω, F, (P θ , θ ∈ Θ)) un modello statistico. Supponiamo dapprima che Θ ⊆ R. Stimare il


parametro θ significa assegnare una funzione U : Ω → R, che supporremo misurabile (dunque U
è una v.a. (il risultato del nostro esperimento è un ω ∈ Ω, e in base al risultato assegniamo un
numero, che indichiamo con U (ω) perché dipende dunque da ω). Più in generale, senza restringerci
cioè al caso di Θ ⊆ R, saremo portati ad assegnare una funzione g : Θ → R, e a stimare g(θ) (ad
esempio, in un campione di legge gaussiana nel quale il parametro θ è la coppia (m, σ 2 ), possiamo
essere interessati a stimare solo la media m o la varianza σ 2 ).

16
(3.1) Definizione. Assegnato (Ω, F, (P θ , θ ∈ Θ)) un modello statistico ed una funzione g : Θ → D
(D aperto di R), si chiama stimatore (o stima) di g(θ) una v. a. U : Ω → D, che non dipenda da
θ.

Intuitivamente uno stimatore è buono quando si avvicina (in qualche senso da definire) al “vero”
valore del parametro θ (della sua funzione g(θ) nel caso generale). Più precisamente, è chiaro che
la sostituzione del valore vero con il suo stimatore U comporta un “costo” (o perdita) , ed uno
stimatore sarà tanto migliore quanto più piccolo è questo costo. Dunque si tratta di chiarire cosa
intendiamo per costo. In generale, il “costo” conseguenza della sostituzione di g(θ) con un numero
reale a è una funzione non negativa (θ, a) 7→ C(θ, a). Poiché noi sostituiamo g(θ) con U (ω), per
ogni θ otteniamo la v.a. ω 7→ C(θ, U (ω)).

(3.2) Definizione. Si chiama “rischio” dello stimatore U il costo medio, o, più precisamente, la
funzione definita su Θ da
Z
θ 7→ RU (θ) := E [C(θ, U )] = C(θ, U )dP θ .
θ

Generalmente come funzione “costo” si prende (θ, a) 7→ |g(θ) − a|2 , e si parla in questo caso di
costo quadratico. In corrispondenza il rischio RU (θ) = E θ [|g(θ) − U |2 ] si chiama rischio quadratico.
Tuttavia altre scelte sono possibili per la funzione costo, e di conseguenza per il rischio.

Avvertenza. D’ora in avanti, salvo diverso avviso, utilizzeremo sempre la funzione “costo quadra-
tico”, e di conseguenza, parlando di rischio, intenderemo il rischio quadratico.

(3.3) Definizione. (a) Uno stimatore U si dice preferibile ad un altro stimatore V se, per ogni
θ ∈ Θ, si ha
RU (θ) ≤ RV (θ).

(b) U si dice strettamente preferibile a V se è preferibile ed esiste almeno un θ0 ∈ Θ, tale che

RU (θ) < RV (θ)

(con la diseguaglianza stretta).


(c) Sia D una famiglia di stimatori, e sia U ∈ D. U si dice ammissibile (relativamente a D) se in
D non esistono stimatori strettamente preferibili a U .
(d) U ∈ D si dice ottimale (relativamente a D) se è preferibile ad ogni altro stimatore della famiglia
D.

(3.4) Osservazione. La relazione di preferibilità è un preordinamento nella classe degli stimatori:


due stimatori possono essere non confrontabili, cioè può accadere che per alcuni valori di θ si abbia
RU (θ) ≤ RV (θ) e per altri si abbia invece RU (θ) ≥ RV (θ)).

(3.5) Esempio Nell’esempio del controllo di qualità , consideriamo uno stimatore del parametro
θ della forma U = h(X1 + · · · + Xn ), dove h = x+a
n+b , e a e b sono due costanti non negative.

17
Calcoliamo RU (θ). Posto Sn = X1 + · · · + Xn , ricordare che E θ [Sn ] = nθ e Varθ Sn = nθ(1 − θ).
Si ha allora
£ ¤ 1 £ ¤
RU (θ) = E θ (h(Sn ) − θ)2 = 2
· E θ {(Sn − nθ) + (a − bθ)}2
(n + b)
1 ³ £ ¤ £ ¤´
θ θ 2 2 θ θ
= · E (S n − E [S n ]) + (a − bθ) + 2(a − bθ) E S n − E [S n ]
(n + b)2 | {z }
=0
1 ³ ´ (b2 − n)θ2 + (n − 2ab)θ + a2
2
= · Var θ S n + (a − bθ) = .
(n + b)2 (n + b)2

A seconda dei valori che si danno ai parametri a e b, si hanno diversi andamenti della funzione
di rischio. In particolare si vede che√ due di questi stimatori possono essere non confrontabili

tra loro. Per esempio, ponendo a = 2n e b = n, si ottiene lo stimatore U1 di rischio costante
1
RU1 (θ) = 4(√n+1) 2 (si tratta dello stimatore bayesiano (v.)). Invece per a = b = 0 (che corrisponde

al caso in cui si prende come stimatore U2 la media campionaria, di cui parleremo tra poco), si
ottiene la funzione di rischio RU2 (θ) = θ(1−θ)
n ; si vede facilmente che RU2 ( 12 ) ≥ RU1 ( 21 ), mentre
RU2 (θ) ≤ RU1 (θ) per θ abbastanza vicino a 0 oppure a 1.
(3.6) Definizione. (a) Uno stimatore U di g(θ) si dice corretto (o non distorto, unbiased in inglese)
se è integrabile (cioè è integrabile per ogni θ ∈ Θ) ed inoltre

E θ [U ] = g(θ), ∀ θ ∈ Θ.

(3.7) Osservazione. Se U è corretto, allora RU (θ) = V arθ (U ).

(3.8) Osservazione. Tutte le definizioni appena date restano valide nel caso multidimensionale,
cioè se si considera (i) una funzione g : Θ → D, con D aperto di Rk (ii) una famiglia di stimatori
a valori in Rk (iii) il costo quadratico definito da C(θ, a) = ||g(θ) − a||2 .

(3.9) EsercizioR . Si consideri una famiglia di leggi di probabilità su R (µθ , θ ∈ Θ) tale che, per
ogni θ, si abbia x2 dµθ (x) < +∞. Sia (X1 , . . . , Xn ) un campione di taglia n e legge µθ . Mostrare
che R Pn
(a) tra tutti gli stimatori corretti della media m(θ) = xdµθ (x) della forma i=1 ai Xi , la media
empirica (o media campionaria)
X1 + · · · + Xn
X=
n
è ottimale;
(b) la varianza empirica (o varianza campionaria)
Pn
2 − X)2
i=1 (Xi
S =
n−1
R
è uno stimatore corretto della varianza σ 2 = (x − m)2 dµθ (x).

18
Soluzione di (b) Cominciamo calcolando la media del numeratore della frazione che definisce S 2 ;
sommando e sottraendo µ all’interno della parentesi e svolgendo il quadrato si ha
·X
n ¸ ·X
n ¸
¡ ¢2
E (Xi − X)2 = E (Xi − µ) − (X − µ)
i=1 i=1
n
X n · n ¸
£ ¤ X £ ¤ X
= E (Xi − µ)2 + E (X − µ)2 − 2E (X − µ) (Xi − µ)
i=1 i=1 i=1
£ ¤
Osserviamo ora che E (Xi − µ)2 = VarXi = σ 2 ; inoltre ricordando che E[X] = µ,

£ ¤ ³ Pn X ´ n
1 X σ2
i=1 i
E (X − µ)2 = VarX = Var = 2 VarXi =
n n i=1 n

(qui è stata usata l’indipendenza delle Xi ); infine


· n
X ¸ · ³X
n ´¸
E (X − µ) (Xi − µ) = E (X − µ) Xi − nµ
i=1 i=1
·³ Pn X ´¸ £ ¤
i=1 i
= nE (X − µ) − µ = nE (X − µ)2 = nVarX = σ 2 .
n

Usando le relazioni precedenti si ottiene:


n
£X ¤ σ2
E (Xi − X)2 = nσ 2 + n − 2σ 2 = (n − 1)σ 2 .
i=1
n

4. Stimatori ed esaustività

In tutto il paragrafo è assegnato un modello statistico dominato (Ω, F, (P θ , θ ∈ Θ)) ed una funzione
g : Θ → R. Useremo le notazioni seguenti:
Dc = classe degli stimatori corretti;
D2 = classe degli stimatori di quadrato integrabile rispetto ad ogni P θ ∈ Θ;
D2c = Dc ∩ D2 .

(4.1) Teorema (di Blackwell–Rao). Sia T un riassunto esaustivo a valori in (E, E), e sia U uno
stimatore di quadrato integrabile (cioè di quadrato integrabile per ogni P θ ). Allora
(i) V = E ¦ [U |T ] (versione della speranza condizionale non dipendente da θ) è preferibile a U ;
inoltre V è strettamente preferibile a U a meno che U non sia σ(T )−misurabile.
(ii) Se U è corretto, anche V è corretto.

Dimostrazione. (i) Si ha RU (θ) = E θ [(U − g(θ))2 ] = ||U − g(θ)||2L2 (Ω,F ,P θ ) . Inoltre

V − g(θ) = E ¦ [U |T ] − g(θ) = E ¦ [U − g(θ)|T ] = E θ [U − g(θ)|T ].

19
Ricordiamo che E θ [U − g(θ)|T ] coincide con la proiezione ortogonale di U − g(θ) sul sottospazio
chiuso L2 (Ω, σ(T ), P θ ). La sua norma L2 è quindi più piccola di quella di U − g(θ); inoltre essa
è strettamente più piccola a meno che U − g(θ) non appartenga già a L2 (Ω, σ(T ), P θ ), e cioè non
coincida P θ –q.o. con una funzione σ(T )–misurabile.
(ii) E θ [V ] = E θ [E ¦ [U |T ]] = E θ [E θ [U |T ]] = E θ [U ] = g(θ).

(4.2) Osservazione. Una conseguenza del Teorema di B–R è che è necessario cercare stimatori
che siano T − misurabili, cioè della forma h(T ), con h : E → R funzione opportuna. In altre parole,
i“buoni” stimatori dipendono da ω solo attraverso T (ω).

(4.3) Definizione. Una statistica esaustiva T si dice completa se ogni v.a. reale Y che sia T −
misurabile (cioè della forma h(T )), integrabile e tale che E θ [Y ] = 0 per ogni θ ∈ Θ è nulla q.c.

Il seguente teorema giustifica l’importanza della definizione appena data.

(4.4) Teorema. Supponiamo che esista una statistica esaustiva completa T e sia U uno stimatore
corretto e di quadrato integrabile di g(θ). Allora E ¦ [U |T ] è preferibile ad ogni altro stimatore
corretto e di quadrato integrabile di g(θ).

(4.5) Osservazione. Il teorema precedente dice in altre parole che, nel caso esista una statistica
esaustiva completa, o la classe D2c è vuota, oppure contiene un elemento ottimale.

Dimostrazione. Per il Teorema di B–R, sappiamo che, se U appartiene a D2 , allora E ¦ [U |T ] è


preferibile a U . Quindi basterà dimostrare che, per ogni coppia U e V di elementi di D2c , si ha
E ¦ [U |T ] = E ¦ [V |T ]. Questo è vero: infatti E ¦ [U − V |T ] è T –misurabile (cioè del tipo h(T ) con h
misurabile) ed inoltre
£ ¤ £ ¤ £ ¤ £ ¤ £ ¤
E θ E ¦ [U − V |T ] = E θ E θ [U − V |T ] = E θ U − V = E θ U − E θ V = g(θ) − g(θ) = 0,

perché U e V sono stimatori corretti. Dunque E ¦ [U |T ] − E ¦ [V |T ] = E ¦ [U − V |T ] = 0 perché la


statistica T è completa.

Le statistiche esaustive complete possono essenzialmente essere trovate in due modi: o per calcolo
diretto oppure mediante l’uso dei modelli esponenziali, che vedremo fra poco. Qui facciamo un
calcolo diretto.

(4.6) Esempio. Consideriamo un campione (X1 , . . . , Xn ) di legge uniforme sull’intervallo (0, θ)


(con θ ¡> 0). La¢ verosimiglianza (rispetto alla misura di Lebesgue n–dimensionale sullo spazio
Rn + = [0, +∞) ha la forma

n
Y
L(θ; x1 , . . . , xn ) = θ−n 1(0,θ) (xi ) = θ−n 1(0,θ) ( max xi ).
1≤i≤n
i=1

Dunque T = max1≤i≤n Xi è una statistica esaustiva. Vogliamo vedere che T è completa. Il modello
non è esponenziale (lo vedremo poi) quindi non ci resta che il calcolo diretto. Sia dunque Y = h(T )

20
una v.a. T −misurabile, (h boreliana integrabile), tale che E θ [h(T )] = 0 per ogni θ > 0. Dobbiamo
vedere se Y = 0 q.c. Indicando con f la densità della legge di T (sotto la probabilità P θ ) si ha
R +∞
E θ [h(T )] = −∞ h(t)f (t) dt, e quindi tutto è ricondotto al calcolo di f . Calcoliamo dapprima la
funzione di ripartizione di T . Si ha subito
½
0 per t < 0
F (t) = P θ ( max Xi ≤ t) =
1≤i≤n 1 per t > θ.

Per 0 ≤ t ≤ θ si ha invece
n
Y ¡ ¢n
P θ ( max Xi ≤ t) = P θ (∩ni=1 {Xi ≤ t}) = P θ (Xi ≤ t) = P θ (X1 ≤ t) .
1≤i≤n
i=1

Dato che Z t
1 t
P θ (X1 ≤ t) = = ,
0 θ θ
si conclude che, per 0 ≤ t ≤ θ risulta

P θ ( max Xi ≤ t) = tn θ−n .
1≤i≤n

Una densità di T si ottiene allora “per derivazione ”, e vale


½
−n n−1
f (t) = nθ t per 0 < t < θ = nθ−n tn−1 1
(0,θ) (t).
0 altrimenti

Si conclude quindi che


Z +∞ Z θ
E θ [h(T )] = h(t)f (t) dt = nθ−n h(t)tn−1 dt = 0 ∀θ > 0
−∞ 0

se e solo se h(t)tn−1 = 0, e quindi h(t) = 0 q. c. rispetto alla misura di Lebesgue. In altre parole
h(T ) = 0 P θ − q.c. per ogni θ, e cioè T è completa. Per trovare uno stimatore corretto non ci sono
regole generali. In questo caso possiamo procedere cosı̀ : calcoliamo
Z θ Z θ
n θn+1 nθ
E θ [T ] = nθ−n t · tn−1 dt = nθ−n tn dt = · n = .
0 0 n+1 θ n+1

Se ne deduce che
n + 1¡ ¢
max Xi
n 1≤i≤n

è uno stimatore corretto (e dunque ottimale) di θ.

Diamo ora la nozione di statistica libera. Si tratta dell’opposto della nozione di esaustività , nel
senso che, mentre una statistica esaustiva conserva tutta l’“informazione”sul parametro θ fornita
dal modello statistico, una statistica libera non dà su θ alcuna informazione (questa affermazione

21
sarà più chiara una volta che avremo il concetto di informazione di Fisher). La formalizzazione di
questa idea è data dalla seguente

(4.7) Definizione. Assegnato il modello statistico (Ω, F, (P θ , θ ∈ Θ)), una statistica S definita
su di esso e a valori in (E, E), si dice che S è libera se la sua legge S(P θ ) non dipende da θ.

(4.8) Esempio. Sia (X1 , . . . , Xn ) un campione di legge N (θ, 1). Poniamo X = X1 +···+X
n
n
(media
campionaria).
Pn
(a) Consideriamo la statistica S1 = i=1 (Xi − X)2 . Si tratta di una statistica libera in quanto,
posto Yi = Xi − θ, si ha Y = X − θ, e quindi
n
X
S1 = (Yi − Y )2 .
i=1

Il vettore (Y1 , . . . , Yn ) ha per legge il prodotto tensoriale di n leggi N (0, 1), quindi una legge non
dipendente da θ; dunque anche S1 ha una legge non dipendente da θ (vedremo in seguito che si
tratta della χ2 (n − 1)).
(b) Poniamo S2 = max Xi − min Xi . Si vede subito che S2 = max Yi − min Yi , dove il vettore
(Y1 , . . . , Yn ) è quello introdotto sopra. Dunque anche S2 è una statistica libera.

Vediamo ora quali relazioni sussistono tra i concetti di statistica esaustiva, completa, libera.

(4.9) Teorema. Sul modello statistico (Ω, F, (P θ , θ ∈ Θ)) siano S e T due statistiche. Supponiamo
che T sia esaustiva e completa e S sia libera. Allora S e T sono indipendenti (come statistiche,
cioè relativamente ad ogni P θ ).

Dimostrazione. Per ogni funzione limitata h si ha


£ ¤ £ ¤ h £ ¤i £ ¤ h £ ¤ £ ¤i
0 = E θ h(S) − E θ h(S) = E θ E θ h(S)|T − E θ h(S) = E θ E θ h(S)|T − E θ h(S) .

D’altra parte
£ ¤
• E θ h(S)|T è misurabile rispetto a T (perché è una speranza condizionata a T ) e non dipende
da θ perché T è esaustiva;
£ ¤
• E θ h(S) (misurabile rispetto a T perché costante rispetto ω) non dipende da θ perché S è libera.

Dunque, per il criterio di Doob, esiste una funzione misurabile φ (non dipendente da θ) tale che
£ ¤ £ ¤
E θ h(S)|T − E θ h(S) = φ(T );

pertanto, da quanto precede, si ottiene


£ ¤
E θ φ(T ) = 0,

22
da cui, dato che T è completa, si deduce che φ ≡ 0, cioè , in modo equivalente,
£ ¤ £ ¤
E θ h(S)|T = E θ h(S) .

Dato che questa relazione vale per ogni h, si conclude che S e T sono indipendenti relativamente
a P θ , per ogni θ.

(4.10) Osservazione. Mettiamoci nella situazione dell’esempio precedente (4.8); vedremo tra
poco (paragrafo sui modelli esponenziali) che la statistica X è esaustiva completa. Si deduce allora
dal Teorema che X è indipendente da S1 e da S2 . Ritroveremo l’indipendenza di S1 e X come
conseguenza del teorema di Cochran (v.)

Del Teorema precedente vale un viceversa, in ipotesi particolari. Precisamente

(4.11) Teorema. Sul modello statistico (Ω, F, (P θ , θ ∈ Θ)) dominato da µ siano S e T due
statistiche. Supponiamo che T sia esaustiva e T e S siano indipendenti (in quanto statistiche).
Supponiamo inoltre che, per ogni coppia (θ1 , θ2 ), P θ1 e P θ2 non siano tra loro singolari. Allora S
è libera.

Dimostrazione.
£ ¤ Dato che T è esaustiva, per ogni h limitata consideriamo (una versione di)
E ¦ h(S)|T non dipendente da θ. Allora, per ogni coppia (θ1 , θ2 ), esiste B ∈ F, con µ(B) = 1 tale
che £ ¤ £ ¤ £ ¤
E ¦ h(S)|T (ω) = E θ1 h(S)|T (ω) = E θ2 h(S)|T (ω), per ∀ω ∈ B.
D’altra parte, dato che S e T sono indipendenti, esistono A1 ∈ F e A2 ∈ F con P θ1 (A1 ) =
P θ1 (A2 ) = 1 e
£ ¤ £ ¤ £ ¤ £ ¤
E θ1 h(S)|T (ω) = E θ1 h(S) , ∀ ω ∈ A1 ; E θ2 h(S)|T (ω) = E θ2 h(S) , ∀ ω ∈ A2 .

Possiamo sempre supporre che A1 ⊆ B e A2 ⊆ B (infatti, dato che µ(B c ) = 0, si ha anche


P θ1 (A1 ∩ B c ) = 0, dunque anche P θ1 (A1 ∩ B c ) = 0 (perché P θ1 (A1 ∩ B c ) ≤ P θ1 (B c )). Quindi
P θ1 (A1 ∩ B) = P θ1 (A1 ) − P θ1 (A1 ∩ B c ) = 1. In modo analogo si vede che P θ2 (A2 ∩ B) = 1. Basta
allora sostituire A1 con A1 ∩B e A2 con A2 ∩B). Se fosse A1 ∩A2 = ∅, A1 e A2 sarebbero due eventi
disgiunti, il primo dei quali porta la probabilità P θ1 e il secondo P θ2 ; ma questo non è possibile
dato che P θ1 e P θ2 sono tra loro non singolari. Dunque esiste almeno un ω ∈ A1 ∩ A2 ⊆ B; per
tale ω abbiamo allora
£ ¤ £ ¤ £ ¤ £ ¤
E θ1 h(S) = E θ1 h(S)|T (ω) = E θ2 h(S)|T (ω) = E θ2 h(S) ;

dunque, per ogni h limitata, troviamo


£ ¤ £ ¤
E θ1 h(S) = E θ2 h(S) ,

il che equivale a dire che la legge di S non dipende da θ, cioè che S è libera.

(4.12) Applicazione. Sia X = (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ); sia assegnata una
matrice A = (ai,j )i,j=1,...,n simmetrica e semidefinita positiva. Condizione necessaria e sufficiente

23
Pn Pn
affinché X e t XAX siano indipendenti è che i=1 ai,j = 0, per ogni j = 1, . . . , n ( i=1 ai,j è la
somma degli elementi della matrice A che si trovano sulla colonna j− esima).
Dimostrazione. Supponiamo dapprima che sia σ 2 = 1. Indicati rispettivamente con 0 e e i
vettori n−dimensionali t (0, . . . , 0) e t (1, . . . , 1) (vettori colonna con tutte le componenti uguali a 0
e 1), poniamo Y = X − me. Il vettore aleatorio X ha legge N (me, I) (gaussiana n− dimensionale
di media me e matrice di covarianza I. Quindi Y ha legge N (0, I) (e di conseguenza t Y AY è
libera). Osserviamo poi che
X n
¡ ¢ ¡t ¢
ai,j = Ae j = eA j .
i=1

Si ha d’altra parte
t
XAX =t (Y + me)A(Y + me) =t Y AY +t (me)AY +t Y A(me) +t (me)A(me)
¡t ¢ ¡ ¢
=t Y AY + 2m eAY + m2 t eAe .
Pn
Dunque se i=1 ai,j = 0, si ha t XAX =t Y AY , e quindi t XAX è libera. Poiché X è esaustiva
(a varianza σ 2 fissata, ved. Es. (2.14) (d)), t XAX e X sono indipendenti per il teorema (4.9); e
viceversa, se t XAX e X sono indipendenti, allora t XAX è libera per il teorema (4.11) D’altra parte
per definizione t XAX è libera se la sua legge non dipende dal parametro m; pertanto ¡ non
¢ dipende
da m neppure E m [t XAX] = E m [t Y AY ] +t (me)AE m [Y ] + E m [t Y ]A(me) + m2 t eAe . Dato che
E m [t Y AY ] non dipende da m, E m [Y ] = 0 e E m [t Y ] =t E m [Y ] =t 0, deve essere t eAe = 0, da cui
si deduce Ae = 0. Infatti, essendo A semidefinita positiva, i suoi autovalori λ1 , . . . , λn sono tutti
non negativi. È noto che, posto
 
λ1 0 . . . 0
 0 λ2 . . . 0 
K=  ... .. ..  ,
. . 
0 0 . . . λn

esiste una matrice ortogonale O tale che A =t OK O. Sarà


o o1,2 ... o1,n 
1,1
 o2,1 o2,2 ... o2,n 
O=
 .. .. .. 
,
. . .
on,1 on,2 . . . on,n

e l’elemento di posto (i, j) della matrice A si scrive allora nella forma


X X
ai,j = ok,i λk δk,r or,j = or,i λr or,j
k,r r

Se si pone v = Oe, il vettore (colonna) v =t (v1 , . . . , vn ) ha la forma


n
X
vr = or,j , r = 1, . . . , n.
j=1

24
La relazione 0 = t eAe = t e(tOK O)e =t (Oe)K (Oe) =t vK v può essere scritta nella forma
n
X
λr vr2 = 0,
r=1

e dato che tutti gli addendi di questa somma sono non negativi, si deduce che, per ogni r = 1, . . . , n
si ha λr vr2 = 0, e quindi anche λr vr = 0. La componente i−esima del vettore Ae è allora data da
X X X X X
ai,j = or,i λr or,j = or,i λr or,j = or,i (λr vr ) = 0.
j j,r r j r

5. I modelli esponenziali.

Prima di introdurre i modelli esponenziali, occorre richiamare qualche proprietà della trasformata
di Laplace di una misura.

Sia µ una misura σ−finita su (Rk , B(Rk )), e sia


Z
¡ ¢
Dµ = {θ ∈ Rk : exp hθ, xi dµ(x) < +∞}.

Per θ ∈ Dµ , definiamo Z
¡ ¢
Lµ (θ) = exp hθ, xi dµ(x).

La funzione Lµ : Dµ → R+ cosı̀ definita si chiama trasformata di Laplace della misura µ. Le


proprietà essenziali che ci serviranno nel seguito sono le seguenti:
(i) Dµ è un convesso di Rk (eventualmente vuoto);
(ii) all’interno di Dµ , l’applicazione θ 7→ Lµ (θ) è di classe C ∞ ed inoltre la derivata passa sotto il
segno di integrale, cioè
Z Z Z
∂ ∂ ¡ ¢ ∂ ¡ ¢ ¡ ¢
L(θ) = exp hθ, xi dµ(x) = exp hθ, xi dµ(x) = xi exp hθ, xi dµ(x);
∂θi ∂θi ∂θi

più in generale, se α = (α1 , . . . , αk ), è un multiindice, si ha


Z Z Z
α α
¡ ¢ α
¡¢ ¡ ¢
D L(θ) = D exp hθ, xi dµ(x) = D exp hθ, xi dµ(x) = xα exp hθ, xi dµ(x),

dove come al solito si pone

D α = D α1 · · · D αk , xα = xα1 · · · xαk .

(iii) Siano µ e ν due misure: se esiste un aperto non vuoto A ⊆ Dµ ∩ Dν tale che Lµ (θ) = Lν (θ)
per ogni θ ∈ A, allora µ = ν.

25
Cenno di dimostrazione. (i) poiché u 7→ eu è convessa, si ha, per t ∈ (0, 1)

ethθ1 ,xi+(1−t)hθ2 ,xi ≤ tehθ1 ,xi + (1 − t)ehθ2 ,xi

e dunque, integrando
Lµ (tθ1 + (1 − t)θ2 ) ≤ tLµ (θ1 ) + (1 − t)Lµ (θ2 ).
(ii) è immediata, a condizione di provare che, se θ ∈ Dµ◦ , allora xi ehθ,xi è µ−integrabile.
(iii) si può dedurre dall’analogo risultato riguardante le funzioni caratteristiche, nel modo seguente
(cenno): nelle ipotesi fatte, per alcuni risultati sulle funzioni analitiche (di più variabili) le funzioni
θ 7→ Lµ (θ) e θ 7→ Lν (θ) (definite su un sottoinsieme aperto di Rn ) possono essere estese a (un
sottoinsieme aperto di) Cn . Prendendo allora θ = (it1 , . . . , itn ), si vede che µ e ν hanno la stessa
trasformata di Fourier (o funzione caratteristica) e pertanto coincidono.

(5.1) Definizione. Un modello statistico dominato (Ω, F, (P θ , θ ∈ Θ)) si dice esponenziale se


esiste una misura dominante µ tale che si abbia

dP θ ¡ ¢
L(θ) = = C(θ) exp hθ, T i

dove
(i) C(θ) è una costante (rispetto a ω);
(ii) T è una v.a. a valori in Rk ;
(iii) Θ è un aperto convesso di Rk , contenuto in
Z
D = {θ ∈ Rk : exp(hθ, T i)dµ < +∞}.

R
Poiché si deve avere Ω
L(θ)dµ = 1, si ha necessariamente
³Z ´−1
C(θ) = exp(hθ, T i)dµ .

Dunque, se si pone
³Z ´
ψ(θ) = log exp(hθ, T i)dµ

si ottiene la forma canonica della verosimiglianza


³ ´
L(θ) = exp hθ, T i − ψ(θ) .

(5.2) Osservazione. (i) T è una statistica esaustiva (ovvio per il teorema di fattorizzazione).
(ii) Il modello statistico è regolare. Infatti L(θ) è strettamente positiva ovunque (se fosse C(θ) = 0
θ
per qualche valore di θ, avremmo una densità dP dµ (ω) = 0 per ogni ω ∈ Ω, e questo non è possibile).

Vediamo come si usano i modelli esponenziali per trovare statistiche complete. Vale il

26
³ ´
(5.3) Teorema. In un modello esponenziale nel quale L(θ) = C(θ) exp hθ, T i , T è una statistica
esaustiva completa.

Dimostrazione. Sia Y = h(T ) tale che, per ogni θ, si abbia


Z ³ ´ Z ³ ´
θ
0 = E [h(T )] = C(θ) h(T ) exp hθ, T i dµ = C(θ) h(x) exp hθ, xi dµT (x)
Ω Ω

dove µT = T (µ) indica la misura immagine di µ secondo T . Scriviamo h nella forma h+ − h− ; si


ha allora Z ³ ´ Z ³ ´
exp hθ, xi h+ (x)dµT (x) = exp hθ, xi h− (x)dµT (x).
Ω Ω

Dunque, per la proprietà (iii) della trasformata di Laplace, le due misure h+ .µT e h− .µT coincidono,
cioè h+ = h− µT q. o. Ciò significa che h = 0 µT q. o., ossia che h(T ) = 0 µ q. o.

(5.4) Esempio. Nell’esempio (2.9) (c) avevamo trovato la seguente verosimiglianza, rispetto alla
misura di Lebesgue su [0, 1]n :
³Y
n ´θ ³ Xn ´ ¡ ¢
L(θ; x1 , . . . , xn ) = (θ + 1)n xi = exp θ log xi + n log(θ + 1) = exp θT − ψ(θ) ,
i=1 i=1
Pn
dove T (x1 , . . . , xn ) = i=1 log xi e ψ(θ) = −n log(θ + 1). Dunque, se poniamo T (X1 , . . . , Xn ) =
P n θ
i=1 log Xi , T è una statistica esaustiva completa. Calcoliamone la speranza rispetto a P . Si ha

n
X n
X Z 1
−n
E θ [T ] = E θ [ log Xi ] = E θ [log Xi ] = nE θ [log X1 ] = n(θ + 1) xθ log xdx = .
i=1 i=1 0 θ+1
Pn
log Xi
Dunque − i=1
n è una statistica esaustiva completa e corretta, e quindi è uno stimatore
1
ottimale di θ+1 .

(5.5) Osservazione. Attenzione: non è affatto vero che − Pn n


log Xi
sia uno stimatore corretto
i=1
di θ + 1.
Pn
Xi
(5.6) Esercizio. (a) In un campione di legge di Poisson di parametro θ, i=1
n è uno stimatore
ottimale di θ.
Soluzione. Abbiamo visto nell’esempio (2.9) (b) che, rispetto alla misura µ che conta i punti di
Nn , la verosimiglianza è data da

dP θ e−nθ θk1 +···kn


(k1 , . . . , kn ) = .
dµ k1 ! · · · kn !
Per “scaricare i fattoriali”, cambiamo misura dominante e prendiamo
1
m(k1 , . . . , kn ) =
k1 ! · · · kn !

27
Allora la verosimiglianza diventa
dP θ ¡ ¢
(k1 , . . . , kn ) = e−nθ θk1 +···kn = exp (k1 + · · · kn ) log θ − nθ .
dm
Posto allora T (k1 , . . . , kn ) = k1 +· · ·+kn , e cambiando il parametro t = log θ, ψ(t) = net , possiamo
scrivere la verosimiglianza nella forma
¡ ¢
L(t) = exp t(k1 + · · · + kn ) − ψ(t) .

Si riconosce quindi un modello esponenziale, e dunque


Pn la statistica T = X1 + · · · + Xn è esaustiva
X i
completa. Dato che E θ [T ] = nθ, si ottiene che i=1
n è uno stimatore ottimale di θ.
Pn
Xi
(b) In un campione di legge esponenziale di parametro θ, i=1
n è uno stimatore ottimale di θ1 .

(5.7) Osservazione. Talvolta il modello non è di tipo esponenziale, ma lo diventa se si effettua


un opportuno cambio di parametro θ̃ = g(θ). Abbiamo già trovato un esempio nell’esercizio (5.6)
(a). Vediamone un altro.
Le leggi normali N (m, σ 2 ) hanno densità (rispetto alla misura di Lebesgue)
µ ¶ µ ¶
1 (x − m)2 m 1 2 m2 1
L(m, σ 2 ; x) = √ exp − = exp x − x − − log σ − log(2π)
2πσ 2σ 2 σ2 2σ 2 2σ 2 2

Se m e σ 2 sono entrambi sconosciuti, il modello diventa esponenziale ponendo


µ ¶
m 1
θ= , − , T (x) = (x, x2 ).
σ2 2σ 2
Nel caso che m sia noto, il modello diventa esponenziale ponendo
1
θ=− , T (x) = (x − m)2 .
2σ 2
Nel caso che σ 2 sia noto, il modello diventa esponenziale ponendo
m
θ= , T (x) = x,
σ2
e prendendo come misura dominante la misura con densità (rispetto alla misura di Lebesgue su R)
µ ¶
1 m2 1
exp − 2 x2 − log σ − 2 − log(2π) .
2σ 2σ 2

θ
(5.8) Osservazione. Sia µθ una famiglia esponenziale di probabilità su R (cioè si ha dµ dµ (x) =
¡ ¢ θ
exp hθ, T (x)i − ψ(θ) . Consideriamo un campione di taglia n e legge µ ; allora la verosimiglianza
rispetto alla misura dominante µ⊗n è data da
n
Y n
¡ ¢ ¡ X ¢
L(θ; x1 , . . . , xn ) = exp hθ, T (xi )i − ψ(θ) = exp hθ, T (xi )i − nψ(θ) ;
i=1 i=1

28
quindi anche
Pn il campione è un modello esponenziale e, se si pone come al solito Xi (x1 , . . . , xn ) = Xi ,
la v. a. i=1 T (Xi ) è una statistica esaustiva.

(5.9) Esempi. Vediamo alcuni esempi di modelli esponenziali su R.


(a) Legge di Bernoulli di parametro θ. La densità, rispetto alla misura che assegna massa unitaria
ai punti 0 e 1, è data da
µ ¶
k 1−k θ
L(θ; k) = θ (1 − θ) = exp k log + log(1 − θ) ,
1−θ

che diventa esponenziale passando al parametro

θ
t = log .
1−θ

(b)Legge di Poisson di parametro θ. La densità, rispetto alla misura che conta gli interi, è data da

θk
L(θ; k) = e−θ , k ∈ N,
k!
che non ha una forma esponenziale. Se però cambiamo misura dominante, prendendo la misura µ
1
concentrata su N tale che µ(k) = k! , allora la densità è

dµθ
= e−θ θk = exp(k log θ − θ),

che è esponenziale se passiamo al parametro t = log θ. (ved. anche es. (5.6) (a)).
(c) Legge Γ di parametri r > 0, λ > 0. La sua densità rispetto alla misura di Lebesgue su R+ , è
data da
λr xr−1 e−λx
L(r, λ; x) = = exp(−λx + (r − 1) log x + r log λ − log Γ(r)),
Γ(r)
che diventa esponenziale se si pone

θ = (λ, r − 1), T (x) = (−x, log x).

Torniamo adesso alle proprietà dei modelli esponenziali, dimostrando un risultato che utilizzeremo
nel seguito.

(5.10) Proposizione. Valgono le seguenti equazioni

∂ψ(θ)
(a) = E θ [Ti ], i = 1, . . . , k;
∂θi

∂ 2 ψ(θ)
(b) = Covθ (Ti , Tj ).
∂θi ∂θj

29
Dimostrazione. (a) Se T = (T1 , . . . , Tk ), si ha
Z Z
¡ ¢ ¡ ¢
exp hθ, T i dµ = exp hθ, xi dµT (x),
Ω Rk

dove µT è l’immagine di µ secondo l’applicazione T : Ω → Rk . Dunque, per una delle proprietà


della trasformata di Laplace sopra ricordate,
Z Z Z
∂ ¡ ¢ ∂ ¡ ¢ ¡ ¢
exp hθ, T i dµ = exp hθ, xi dµT (x) = xi exp hθ, xi dµT (x)
∂θi Ω ∂θi Rk Rk
Z
¡ ¢
= Ti exp hθ, T i dµ

e dunque
³ Z Z
∂ψ(θ) ∂ ¡ ¢ ´ ¡ ¢
= log exp hθ, T i dµ = Ti exp hθ, T i − ψ(θ) dµ = E θ [Ti ].
∂θi ∂θi Ω Ω

(b) Continuando a derivare, si trova


Z Z
∂ 2 ψ(θ) ∂ ¡ ¢ ¡ ¢³ ∂ψ(θ) ´
= Ti exp hθ, T i − ψ(θ) dµ = Ti exp hθ, T i − ψ(θ) Tj −
∂θi ∂θj Ω ∂θj Ω ∂θj
= E θ [Ti Tj ] − E θ [Ti ]E θ [Tj ] = Covθ (Ti , Tj ).

6. Informazione secondo Fisher e diseguaglianza di Cramer–Rao.

Quando si deve stimare il parametro θ ∈ Θ (con Θ aperto di Rk ) l’importante è il tipo di variabilità


delle leggi P θ intorno a θ. Di qui l’idea di un’ “informazione locale”. A questa esigenza risponde
il concetto di informazione introdotto da Fisher.
³ ´
Supponiamo assegnato in tutto il paragrafo un modello statistico regolare Ω, F, (P θ , θ ∈ Θ) ,
dP θ
una misura dominante P ed una scelta della verosimiglianza L(θ) = dP . Indicheremo con E
l’operatore di speranza fatta rispetto a P .

Si suppone che Θ sia un aperto di Rk , che la funzione θ 7→ L(θ, ω) sia per ogni ω strettamente
positiva e differenziabile (più in generale potremmo supporre che l’insieme Aθ = {ω ∈ Ω : L(θ, ω) >
0} non dipenda da θ). Inoltre faremo l’ipotesi che si possa scambiare l’operazione di integrazione
con quella di derivazione nel derivare le¡ funzioni
¢ del tipo θ 7→ E[L(θ)Y ], per ogni v. a. Y ∈ L2 (P )
(questa ipotesi è vera ad esempio se ∇ L(θ) è di quadrato integrabile secondo P ). In particolare
R θ R
si ha E[L(θ)] = Ω dP θ
dP dP = Ω dP = 1, e quindi, per ogni i = 1, . . . , k
· ¸
∂ ∂ ∂
E L(θ) = E[L(θ)] = 1 = 0,
∂θi ∂θi ∂θi

30
che significa
E[∇L(θ)] = ∇E[L(θ)] = ∇1 = 0,

(dove 0 è il vettore a componenti tutte nulle). Dall’ultima relazione segue che


· ¸ Z Z
¡ ¢ 1 1 1 dP θ
E θ [∇ log L(θ) ] = E θ ∇L(θ) = ∇L(θ)dP θ = ∇L(θ) dP
L(θ) Ω L(θ) Ω L(θ) dP
Z
= ∇L(θ)dP = E[∇L(θ)] = 0.

In altre parole, questa relazione dice che, per ogni i = 1, . . . , k, le v. a.

∂ ¡ ¢
ω 7→ log L(θ, ω)
∂θi

sono centrate rispetto a ogni P θ .


¡ ¢
Supponiamo infine che ∇ log L(θ) sia di quadrato integrabile secondo P θ per ogni θ ∈ Θ.

(6.1)Osservazione. Su Ω = (R+ )n sia (X1 , . . . , Xn ) un campione di legge µθ = U[0, 1]. Dato che
L(θ, ω) = 1[0,1] (ω), in questo caso non è vero che L(θ, ω) > 0 per ogni ω ∈ Ω. Invece è vero che Aθ
(=[0, 1]) non dipende da θ. Tuttavia ci sono casi in cui anche questa ipotesi non è valida; ad es.
se siamo nel caso di un campione di legge µθ = U[0, θ].

¡ ¢
(6.2) Definizione. Si chiama matrice di informazione secondo Fisher la matrice I(θ) = I(θ)i,j
dove · ¸
∂ ∂
I(θ)i,j = E θ log L(θ) · log L(θ) .
∂θi ∂θj

(6.3) Osservazione. Dato che per ogni j

∂ log L(θ) 1 ∂L(θ)


= · ,
∂θj L(θ) ∂θj

si ha la formula alternativa
· ¸
1 ∂L(θ) ∂L(θ)
I(θ)i,j = E θ · · .
L2 (θ) ∂θj ∂θi

(6.4) Osservazione. I(θ) è una matrice


¡ simmetrica
¢ e semi–definita positiva. Infatti essa è la
matrice di covarianza del vettore ∇ log L(θ) (che come abbiamo visto è centrato). D’altra parte,

31
la matrice di covarianza C di un vettore aleatorio (X1 , . . . , Xk )è sempre simmetrica (ovvio) e
semi–definita positiva. Infatti
X X h i
hCx, xi = Cov(Xi , Xj )xi xj = E xi (Xi − E[Xi ])xj (Xj − E[Xj ]) =
i,j i,j
hX i
E xi (Xi − E[Xi ])xj (Xj − E[Xj ])
i,j
à ! 
h X X i
=E xi (Xi − E[Xi ])  xi (Xj − E[Xj ])
i j
à !2
h X i h i
=E xi (Xi − E[Xi ]) = E hx, X − E[X]i2 ≥ 0.
i

Vogliamo vedere ora come si comporta l’informazione quando il numero di esperienze fatte au-
menta. Per prima cosa, vediamo cosa accade quando le varie ripetizioni sono tra loro indipen-
denti.
¡ Supponiamo di¢ essere nella situazione seguente: si hanno due modelli ¡ statistici dominati¢
Ω1 , F1 , {P1θ , θ ∈ Θ} (misura dominante P1 e verosimiglianza L1 (θ)) e Ω2 , F2 , {P2θ , θ ∈ Θ}
(misura dominante P2 e verosimiglianza L2 (θ)). Poniamo Ω = Ω1 ×Ω2 ; F = F1 ⊗F2 ; P θ = P1θ ⊗P2θ
¡(ω ∈ Ω èθ del tipo¢ ω = (ω1 , ω2 ), con ω1 ∈ Ω1 e ω2 ∈ Ω2 ); è immediato vedere che il modello
Ω, F, {P , θ ∈ Θ} ora costruito è dominato da P1 ⊗ P2 e che una versione della verosimiglianza
è data da L(θ; ω) = L1 (θ, ω1 ) · L2 (θ; ω2 ). Denotiamo (come al solito) con X1 e X2 le proiezioni
(X1 (ω) = ω1 e X2 (ω) = ω2 ), che risultano indipendenti per costruzione. Indichiamo infine con I,
I1 e I2 le informazioni di Fisher nei relativi modelli (con notazioni ovvie).
¡ ¢
(6.5) Esercizio. Su (Ω, F, P ) siano U e V due vettori aleatori a valori in Rk , B(Rk ) , tra loro
indipendenti. Indichiamo con CovU , CovV e Cov(U + V ) le matrici di covarianza di U , V e
U + V rispettivamente. Mostrare che

Cov(U + V ) = CovU + CovV.

(6.6) Teorema (di additività). Nelle ipotesi fatte sopra, per ogni θ ∈ Θ si ha

I(θ) = I1 (θ) + I2 (θ).


¡ ¢
Dimostrazione. Si ha prima di tutto log L(θ; ω) = log L1 (θ, ω1 ) · L2 (θ; ω2 ) = log L(θ; ω1 ) +
log L(θ; ω2 ). Dunque, ricordando che I(θ) è la matrice di covarianza del vettore ∇ log L(θ; ω)(os-
servazione (6.4)), si ha
¡ ¢ ¡ ¢
I(θ) = Cov ∇ log L(θ; ·) = Cov ∇{log L1 (θ; X1 ) + log L2 (θ; X2 )}
¡ ¢
= Cov ∇ log L1 (θ; X1 ) + ∇ log L2 (θ; X2 )
¡ ¢ ¡ ¢
= Cov ∇ log L1 (θ; X1 ) + Cov ∇ log L2 (θ; X2 ) = I1 (θ) + I2 (θ),

32
per l’indipendenza di X1 e X2 .

(6.7) Osservazione. (a) Ovviamente il teorema vale anche quando i modelli di partenza sono più
di 2;
(b) il significato del teorema è che in caso di indipendenza le informazioni si sommano; in particolare
l’informazione In fornita da un campione (X1 , . . . , Xn ) (di legge µθ e misura dominante µ), e cioè
l’informazione del modello ¡ n ¢
R , B(Rn ), {(µθ )⊗n , θ ∈ Θ}
è uguale a n volte l’informazione I fornita dal modello
¡ ¢
R, B(R), {µθ , θ ∈ Θ} .

Cioè l’informazione fornita da n prove è n volte l’informazione fornita da una singola prova.

Talvolta è utile una forma alternativa per I(θ).

(6.8) Lemma. Si ha · ¸
θ 1 ∂ 2 L(θ)
E · = 0.
L(θ) ∂θi ∂θj

Dimostrazione.
· ¸ Z Z
θ 1 ∂ 2 L(θ) 1 ∂ 2 L(θ) θ 1 ∂ 2 L(θ) dP θ
E · = · dP = · dP
L(θ) ∂θi ∂θj L(θ) ∂θi ∂θj L(θ) ∂θi ∂θj |{z}
dP
=L(θ)
Z 2
· 2
¸ 2
∂ L(θ) ∂ L(θ) ∂
= dP = E = E [L(θ)] = 0.
∂θi ∂θj ∂θi ∂θj ∂θi ∂θj | {z }
=1

(6.9) Teorema. Vale la formula


· ¸
∂ 2 log L(θ)
I(θ)i,j = −E θ
∂θi ∂θj

Dimostrazione. Si ha

∂ 2 log L(θ) ∂ ³ ∂ log L(θ) ´ ∂ ³ 1 ∂L(θ) ´ 1 ³ ∂ 2 L(θ) ∂L(θ) ∂L(θ) ´


= = = 2 L(θ) − ·
∂θi ∂θj ∂θi ∂θj ∂θi L(θ) ∂θj L (θ) ∂θi ∂θj ∂θj ∂θi
2
1 ∂ L(θ) 1 ∂L(θ) ∂L(θ)
= · − 2 · · .
L(θ) ∂θi ∂θj L (θ) ∂θj ∂θi

33
Passando alle speranze e utilizzando il Lemma (6.8) si trova
· 2 ¸ · ¸
θ ∂ log L(θ) θ 1 ∂L(θ) ∂L(θ)
E = −E · · = −I(θ)i,j ,
∂θi ∂θj L2 (θ) ∂θj ∂θi
per l’osservazione (6.3)

(6.10)Esempi. (a) Sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Calcoliamo In (m).


La verosimiglianza è data da
1 n 1 X
n o
−n
L(m; x1 , . . . , xn ) = n/2
σ exp − 2
(xi − m)2 .
(2π) 2σ i=1

Quindi (la notazione L(m) usata qui sotto sta a rammentare che stiamo considerando la verosimi-
glianza come funzione di m, che è il parametro che ci interessa)
n
n 1 X
log L(m) = − log(2π) − n log σ − 2 (xi − m)2 ;
2 2σ i=1

d2 n o d n1 X o
n n
d2 1 X 2 n
2
log L(m) = 2
− 2
(xi − m) = 2
(xi − m) = − 2 .
dm dm 2σ i=1 dm σ i=1 σ
Dunque
h d2 i n
In (m) = −E m 2
log L(m) = 2.
dm σ

Osserviamo comunque che, per il teorema di additività, si ha In (m) = nI1 (m), e quindi basterebbe
calcolare I1 (m) = σ12 .
(b) Come in (a), sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Calcoliamo In (σ 2 ).
La verosimiglianza è la stessa che in (a), ma questa volta va guardata come funzione di σ 2 , quindi
scriviamo
n
n n 1 X
log L(σ 2 ) = − log(2π) − log(σ 2 ) − 2 (xi − m)2 ;
2 2 2σ i=1

d2 n n o
n
d2 2 2 1 X 2
log L(σ ) = − log(σ ) − (x i − m)
d(σ 2 )2 d(σ 2 )2 2 2σ 2 i=1
P Pn
d n 2o
n 2
n i=1 (xi − m) n i=1 (xi − m)
= − + = − .
d(σ 2 ) 2σ 2 2σ 4 2σ 4 σ6
Quindi Pn
d2 h i h n 2i
2 σ2 2 σ2 i=1 (Xi − m)
In (σ ) = −E log L(σ ) = −E −
d(σ 2 )2 2σ 4 σ6
1 X σ2 h³ Xi − m ´2 i
n
n n n n
=− 4 + 4 E =− 4 + 4 = 4
.
2σ σ i=1 | {z σ } 2σ σ 2σ
³ ´
Xi −m
=V ar σ =1

34
(c) Ancora come in (a), sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Calcoliamo In (σ).
Ora scriviamo
n
n 1 X
log L(σ) = − log(2π) − n log σ − 2 (xi − m)2 ;
2 2σ i=1

d2 n o
n
d2 1 X 2
log L(σ) = − n log σ − (x i − m)
dσ 2 dσ 2 2σ 2 i=1
P Pn
d n n 2o
n
i=1 (xi − m) n 3 i=1 (xi − m)2
= − + = 2− ;
dσ σ σ3 σ σ4
h d2 i h Pn
σ n 3 i=1 (Xi − m)2 i
In (σ) = −E σ log L(σ) = −E −
dσ 2 σ2 σ4
n
n h³
3 X σ2 Xi − m 2 ´ i n 3n 2n
=− 2 + 2 E = − 2 + 2 = 2.
σ σ i=1 | {z σ } σ σ σ
³ ´
Xi −m
=V ar σ =1

In tutti gli esempi precedenti sono valide le ipotesi necessarie per poter sviluppare la teoria
dell’informazione di Fisher (dunque fra l’altro, come abbiamo potuto verificare con i calcoli di-
retti, vale il teorema di additività). Vediamo cosa accade nell’esempio che segue, in cui, come
abbiamo osservato in (6.1), le ipotesi non valgono.

(d) Sia (X1 , . . . , Xn ) un campione di legge U(0, θ) (θ > 0).


(i) Calcoliamo I1 (θ) con la definizione. La verosimiglianza è

1
L(θ; x) = 1(0,θ) (x);
θ

dunque Aθ = {x : L(θ, x) > 0} = (0, θ), e, per x ∈ Aθ = (0, θ), abbiamo

d 1
log L(θ, x) = − ;
dθ θ
in altre parole
d 1
log L(θ, x) = − 1(0,θ) (x)
dθ θ
e quindi
hn d o2 i hn 1 o2 i Z θ
1 £ ¤ 1 1 1
I1 (θ) = E θ log L(θ, X) = E θ − 1(0,θ) (X) = 2 E θ 1(0,θ) (X) = 2 dx = 2 .
dθ θ θ θ 0 θ θ

(ii) Proviamo ad usare la formula del Teorema (6.9):


h d2 i h i
θ 1 1
I(θ) = −E θ log L(θ) = −E 1 (0,θ) (X) = − 2.
dθ2 θ2 θ
35
Si osserva che in questo modo non otteniamo il valore corretto (quello del punto (i)); fra l’altro si
tratta di un numero negativo (sappiamo che l’informazione è sempre non negativa).
(iii) Verifichiamo che non vale il teorema di additività, calcolando In (θ). La verosimiglianza del
campione (X1 , . . . , Xn ) è
1
L(θ; x1 , . . . , xn ) = 1(0,θ) (x1 ) · . . . · 1(0,θ) (xn ).
θn
Dunque
Aθ = {x1 , . . . , xn : L(θ; x1 , . . . , xn ) > 0} = (0, θ)n ;
log L(θ; x1 , . . . , xn ) = (−n log θ)1(0,θ)n (x1 , . . . , xn ).
Pertanto
hn d o2 i hn n o2 i
In (θ) = E θ log L(θ; X1 , . . . , Xn ) = E θ − 1(0,θ)n (X1 , . . . , Xn )
dθ θ
Z
n2 θ £ ¤ n2 1 n2
= 2 E 1(0,θ)n (X1 , . . . , Xn ) = 2 dx = 2 6= nI1 (θ).
θ θ (0,θ)n θn θ

(6.11) Esempio (un caso bidimensionale). Sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ).
Calcoliamo I(m, σ 2 ). Osserviamo che in questo caso si ha θ = (m, σ 2 ), cioè il parametro è bidi-
mensionale. I(θ) sarà dunque una matrice 2 × 2:
µ ¶
I1,1 (θ) I1,2 (θ)
I(θ) =
I2,1 (θ) I2,2 (θ)

La verosimiglianza è data da

1 n 1 X
n o
L(θ; x1 , . . . , xn ) = L((m, σ 2 ); x1 , . . . , xn ) = σ −n
exp − (x i − m)2
.
(2π)n/2 2σ 2 i=1

Quindi
n
n n 1 X
log L((m, σ 2 )) = − log(2π) − log σ 2 − 2 (xi − m)2 ,
2 2 2σ i=1
da cui
∂2 n o ∂ n1 X o
n n
∂2 2 1 X 2 n
• 2
log L((m, σ )) = 2
− 2
(xi − m) = 2
(xi − m) = − 2;
∂m ∂m 2σ i=1 ∂m σ i=1 σ
∂2 n n o
n
∂2 2 2 1 X
• 2 2
log L((m, σ )) = 2 2
− log(σ ) − 2
(xi − m)2
∂(σ ) ∂(σ ) 2 2σ i=1
P P
∂ n (xi − m)2 o
n n
n n (xi − m)2
= 2
− 2 + i=1 4 = 4
− i=1 6 ;
∂(σ ) 2σ 2σ 2σ σ
∂ n1 X o
n n
∂2 2 1 X
• log L((m, σ )) = (xi − m) = − (xi − m).
∂m∂(σ 2 ) ∂(σ 2 ) σ 2 i=1 σ 4 i=1

36
Dunque
h ∂2 i n
• I1,1 (θ) = −E θ 2
log L((m, σ 2
)) = 2
∂m σ Pn
h ∂2 i h n 2i
σ2 2 σ2 i=1 (Xi − m)
• I2,2 (θ) = −E 2 2
log L((m, σ )) = −E 4
− 6
∂(σ ) 2σ σ
n
n h³
1 X σ2 Xi − m 2 ´ i n n n
=− 4 + 4 E =− 4 + 4 = ;
2σ σ i=1 | {z σ } 2σ σ 2σ 4
³ ´
Xi −m
=V ar σ =1

h ∂2 i 1 θh X
n i
• I1,2 (θ) = I2,1 (θ) = −E θ log L((m, σ 2
)) = E (Xi − m) = 0;
∂m∂(σ 2 ) σ4 i=1

e quindi la matrice d’informazione è


 n 
2
0
In (m, σ 2 ) =  σ n .
0
2σ 4

(6.12) Il caso di una catena di Markov. Un’altra situazione interessante in cui studiare come
varia l’informazione all’aumentare delle osservazioni è quella del modello statistico dell’esempio
(2.4) (catena di Markov). Supponiamo di avere una catena di Markov sullo spazio misurabile
(E, E), di legge iniziale ρ assegnata e operatore di transizione
Z
Π(θ, x; A) = `(θ, x, y)Π(x, dy), x ∈ E, A ∈ E,
A

dove Π è un operatore di transizione fissato di E in E. Prendiamo il modello statistico (definito


in (2.4)) ¡ n+1 ⊗n+1 ¢
E ,E , {P θ , θ ∈ Θ} , dove P θ = ρ ⊗ (Πθ )⊗n
sappiamo che si tratta di un modello dominato; una misura dominante è ρ ⊗ Π⊗n e una versione
della verosimiglianza è (x = (x0 , . . . , xn ))

L(θ, x) = `(θ, x0 , x1 ) · `(θ, x1 , x2 ) · . . . · `(θ, xn−1 , xn ).

Calcoliamo In (θ) con la formula della definizione. Prendiamo n = 2 per semplicità e poniamo
˙ x, y) = ∂ `(θx, y). Allora L(θ, X0 , X1 , X2 ) = `(θ, X0 , X1 )`(θ, X1 , X1 ) e
`(θ, ∂θ

˙ X0 , X1 )`(θ, X1 , X1 ) + `(θ, X0 , X1 )`(θ,


L0 (θ) = `(θ, ˙ X1 , X2 ),

e quindi
L0 (θ) ˙ X0 , X1 ) `(θ,
`(θ, ˙ X1 , X 2 )
= + .
L(θ) `(θ, X0 , X1 ) `(θ, X1 , X2 )

37
Dunque
n L0 (θ) o2 n `(θ,
˙ X0 , X1 ) o2 n `(θ,
˙ X1 , X2 ) o2 ˙ X0 , X1 ) `(θ,
`(θ, ˙ X1 , X 2 )
= + +2 · ,
L(θ) `(θ, X0 , X1 ) `(θ, X1 , X2 ) `(θ, X0 , X1 ) `(θ, X1 , X2 )
e passando alle speranze si trova
˙ X0 , X1 ) o2 i
hn `(θ, hn `(θ,
˙ X1 , X2 ) o2 i h `(θ,
˙ X0 , X1 ) `(θ,˙ X1 , X 2 ) i
I2 (θ) = E θ + Eθ + 2E θ · .
`(θ, X0 , X1 ) `(θ, X1 , X2 ) `(θ, X0 , X1 ) `(θ, X1 , X2 )
D’altra parte
h `(θ,
˙ X0 , X1 ) `(θ, ˙ X1 , X 2 ) i h h `(θ, ˙ X1 , X2 ) ¯¯
˙ X0 , X1 ) `(θ, ii
Eθ · = Eθ Eθ · ¯X0 , X1
`(θ, X0 , X1 ) `(θ, X1 , X2 ) `(θ, X0 , X1 ) `(θ, X1 , X2 )
,
h `(θ,
˙ X0 , X 1 ) ˙ X1 , X2 ) ¯¯
h `(θ, ii
θ θ
=E ·E ¯X0 , X1 = 0
`(θ, X0 , X1 ) `(θ, X1 , X2 )
perché
˙ X1 , X2 ) ¯¯
h `(θ, i Z `(θ,
˙ X1 , y) Z ˙ X1 , y)
`(θ,
θ θ
E ¯X0 , X1 = Π (X1 , dy) = `(θ, X1 , y)Π(X1 , dy)
`(θ, X1 , X2 ) `(θ, X1 , y) `(θ, X1 , y)
Z Z Z
= `(θ,˙ X1 , y)Π(X1 , dy) = ∂ `(θ, X1 , y)Π(X1 , dy) =

Πθ (X1 , dy) = 0.
∂θ ∂θ
| {z }
=1

Si conclude quindi che


hn `(θ,
˙ X0 , X1 ) o2 i hn `(θ,
˙ X1 , X2 ) o2 i
I2 (θ) = E θ + Eθ .
`(θ, X0 , X1 ) `(θ, X1 , X2 )
In generale, se φ è una funzione limitata (di due variabili), si ha
h i Z Z Z
¡ ¢
E θ φ(X0 , X1 ) = ρ(dx0 ) Πθ (x0 , dx1 )φ(x0 , x1 ) = φ(x0 , x1 )d ρ ⊗ (Πθ ) (x0 , x1 );

h i Z Z Z
E θ φ(X1 , X2 ) = ρ(dx0 ) Πθ (x0 , dx1 ) Πθ (x1 , dx2 )φ(x1 , x2 )
Z
¡ ¢
= φ(x1 , x2 )d ρ ⊗ (Πθ )⊗2 (x1 , x2 ).

Inoltre,
R se ρ è una misura invariante per la catena, la legge di X1 e cioè l’applicazione A 7→
ρ(dx0 )Πθ (x0 , A), coincide con ρ. Pertanto
h i Z Z Z
E φ(X1 , X2 ) = ρ(dx0 ) Π (x0 , dx1 ) Πθ (x1 , dx2 )φ(x1 , x2 )
θ θ

Z nZ oZ Z Z
= ρ(dx0 )Πθ (x0 , dx1 ) Πθ (x1 , dx2 )φ(x1 , x2 ) = ρ(dx1 ) Πθ (x1 , dx2 )φ(x1 , x2 )
h i
= E θ φ(X0 , X1 ) .

38
Si può dunque scrivere
hn `(θ,
˙ X0 , X1 ) o2 i Z n˙
`(θ, x0 , x1 ) o2 ¡ ¢
Eθ = d ρ ⊗ (Πθ ) (x0 , x1 );
`(θ, X0 , X1 ) `(θ, x0 , x1 )
hn `(θ,
˙ X1 , X2 ) o2 i Z n˙
θ `(θ, x1 , x2 ) o2 ¡ ¢
E = d ρ ⊗ (Πθ )⊗2 (x0 , x1 , x2 );
`(θ, X1 , X2 ) `(θ, x1 , x2 )
quindi
Z n˙ Z n˙
`(θ, x0 , x1 ) o2 ¡ ¢ `(θ, x1 , x2 ) o2 ¡ ¢
I2 (θ) = d ρ ⊗ (Πθ ) (x0 , x1 ) + d ρ ⊗ (Πθ )⊗2 (x0 , x1 , x2 )
`(θ, x0 , x1 ) `(θ, x1 , x2 )

e, se ρ è invariante per la catena, si trova


hn `(θ,
˙ X0 , X1 ) o2 i
I2 (θ) = 2E θ = 2I1 (θ).
`(θ, X0 , X1 )

In generale (n ≥ 1) otteniamo la formula

hn `(θ, o2 i n Z n ˙
`(θ, xi−1 , xi ) o2 ¡
n
X ˙ X X
θ i−1 , Xi ) ¢
I(θ) = E = d ρ ⊗ (Πθ )⊗i (x0 , x1 , . . . , xi−1 , xi );
i=1
`(θ, Xi−1 , Xi ) i=1
`(θ, x i−1 , x i )

se ρ è invariante per la catena, si trova


hn `(θ,
˙ X0 , X1 ) o2 i
In (θ) = nE θ = nI1 (θ).
`(θ, X0 , X1 )

Si nota che l’informazione cresce al crescere del numero n di passi osservati; se per di più ρ è
invariante per la catena, si ritrova la stessa situazione che avevamo visto nel caso di un campione:
l’informazione ottenuta dopo n passi della catena è n volte quella ottenuta dopo un passo.

Vogliamo ora vedere se il concetto di informazione di Fisher è in accordo con l’intuizione per quanto
riguarda i concetti di statistica libera e statistica esaustiva. È necessario innanzitutto definire cosa
si intende per “misura dell’informazione” contenuta in una statistica T . Per questo, mettiamoci
nella situazione seguente.

Sia (Ω, F, {P θ , θ ∈ Θ}) un modello statistico assegnato, dominato da una misura µ e con vero-
simiglianza L(θ); su di esso consideriamo la statistica T , a valori nello spazio misurabile (E, E).
Indicata con Qθ = T (P θ ) la legge di T (cioè la probabilità immagine di P θ secondo T ), consid-
eriamo il modello statistico (E, E, {Qθ , θ ∈ Θ}) (detto modello immagine di (Ω, F, {P θ , θ ∈ Θ})
secondo T ). Si tratta ovviamente di un modello dominato (una misura dominante è ν = T (µ),
supposta σ−finita); indicheremo la verosimiglianza di questo modello con LT (θ). Supporremo che
sia L(θ) che LT (θ) verifichino le ipotesi necessarie per poter definire l’informazione di Fisher; le
informazioni dei due modelli (Ω, F, {P θ , θ ∈ Θ}) e (E, E, {Qθ , θ ∈ Θ}) saranno indicate con I(θ) e
IT (θ) rispettivamente.

39
Sappiamo che una statistica libera non dà alcuna informazione sul parametro, mentre all’opposto
una statistica esaustiva conserva tutta l’informazione del modello.

(6.13) Proposizione. (a)Se T è una statistica libera, allora IT (θ) = 0 per ogni θ.
(b) Viceversa, se IT (θ) = 0 per ogni θ e θ 7→ ∇LT (θ) è continua, allora T è libera.

dQθ
Dimostrazione. (a) T è libera se T (P θ ) = Qθ non dipende da θ. Dunque neppure LT (θ) = dν
dipende da θ (e di conseguenza ∇ log LT (θ) = 0).
(b) Indicando con X : (E, E) → (E, E) l’applicazione identica X(x) = x, osserviamo che IT (θ) è la
matrice di covarianza del vettore aleatorio centrato ∇ log LT (θ, X). Dunque, se essa è identicamente
nulla, allora, per ogni θ, il vettore ∇ log LT (θ, X) è Qθ − quasi certamente nullo. In altre parole,
per ogni θ ∈ Θ, esiste un evento Nθ ∈ E con Qθ (Nθ ) = 0 e tale che, per ogni x 6∈ Nθ si ha

∇LT (θ, x) = 0.
dQθ
Osserviamo che, poiché dν (x) = LT (θ, x) > 0 per ogni θ e per ogni x, si ha anche ν(Nθ ) = 0 per
ogni θ ∈ Θ. Infatti
Z Z Z
dν 1
ν(Nθ ) = dν = dQθ = dQθ = 0,
Nθ Nθ dQθ Nθ LT (θ)

perché l’integrale è fatto su un insieme trascurabile rispetto a Qθ .


Sia D ⊆ Θ un sottoinsieme numerabile e denso in Θ, e poniamo
[
N= Nθ .
θ∈D

Allora ν(N ) = 0. Sia x 6∈ N ; allora x 6∈ Nθ per ogni θ ∈ D e quindi

∇LT (θ, x) = 0, sempre per ogni θ ∈ D.

Per ogni θ0 ∈ Θ, esiste una successione (θn ) di elementi di D, tali che θn → θ0 . Passando allora al
limite nella relazione precedente, per la continuità di θ 7→ ∇LT (θ) si ottiene

∇LT (θo , x) = lim ∇LT (θn , x) = 0.


n→∞

θ
Dunque LT (θ, x) = dQ θ θ
dν è costante rispetto a θ, e di conseguenza anche Q = T (P ) lo è: per ogni
A ∈ E abbiamo infatti Z Z
θ θ dQθ
Q (A) = dQ = dν.
A A dν

Ciò significa che T è libera.

(6.14) Proposizione. Si ha la relazione


£ ¤
E θ ∇ log L(θ)|T = ∇ log LT (θ, T )

40
Dimostrazione. Il secondo membro dell’uguaglianza nell’enunciato è chiaramente T −misurabile,
quindi basta vedere che, per ogni B ∈ F ,del tipo B = T −1 (A) = {T ∈ A} (con A ∈ E), e per ogni
i si ha Z Z
∂ log L(θ, ω) θ ∂ log LT (θ, T (ω)) θ
dP (ω) = dP (ω).
B ∂θ i B ∂θi
Si ha
Z Z Z
∂ log L(θ, ω) θ ∂L(θ, ω) 1 θ ∂L(θ, ω) dµ
dP (ω) = · dP (ω) = · dP θ (ω)
B ∂θ i B ∂θi L(θ, ω) B ∂θi dP θ
Z Z Z
∂L(θ, ω) ∂ ∂ dP θ ∂ θ ∂ θ
= dµ = L(θ, ω)dµ(ω) = dµ = P (B) = Q (A).
B ∂θi ∂θi B ∂θi B dµ ∂θi ∂θi

Ripercorrendo al contrario le relazioni precedenti (con Qθ , ν, A e LT (θ) al posto di P θ , µ, B e


L(θ) ripettivamente) e utilizzando la definizione di misura immagine (Qθ = T (P θ )) si perviene
all’uguaglianza
Z Z
∂ θ ∂ log LT (θ, x) θ ∂ log LT (θ, T ) θ
Q (A) = dQ (x) = dP .
∂θi A ∂θ i B ∂θi

(6.15) Proposizione. Per ogni θ ∈ Θ si ha

IT (θ) ≤ I(θ),

nel senso che la matrice I(θ) − IT (θ) è semidefinita positiva.

Dimostrazione. Per il lemma precedente, per ogni u ∈ Rk si ha


n £ ¤o2 h i
h∇ log LT (θ, T ), ui2 = E θ h∇ log L(θ), ui|T ≤ E θ h∇ log L(θ), ui2 |T

(dove la diseguaglianza segue dalla proprietà generale delle speranze condizionali E 2 [X|Y ] ≤
E[X 2 |Y ].

Sappiamo (oss. (6.4)) che se X è un vettore aleatorio centrato a valori in Rk , si ha E[hX, ui2 ] =
ut (CovX)u. Dunque

Passando allora in entrambi i membri alla speranza rispetto a P θ , si trova

ut {Cov(∇ log LT (θ, T ))}u ≤ ut {Cov(∇ log L(θ, X))}u,

e cioè, per ogni u ∈ Rk ,


ut IT (θ)u ≤ ut I(θ)u,
che è la tesi.

41
(6.16) Teorema. Se T è esaustiva, allora I(θ) = IT (θ) per ogni θ ∈ Θ.

Dimostrazione. Si può supporre che µ sia una dominante privilegiata. In tal caso il teorema di
Neymann–Fisher ci dice che la verosimiglianza si scrive nella forma

L(θ, ω) = g θ , T (ω)).

Questo implica che la verosimiglianza nel modello immagine (rispetto alla misura dominante ν =
T (µ)) ha la forma
LT (θ, t) = g θ (t).
Infatti, per ogni A ∈ E si ha
Z Z Z Z
θ θ θ θ
Q (A) = P (T ∈ A) = 1A (T )dP = 1A (T )L(θ) dµ = 1A (T )g (T ) dµ = 1A (t)g θ (t) dν
Ω Ω Ω E
Z
= g θ (t) dν,
A

per il teorema di integrazione rispetto alla legge immagine.

Dunque, per ogni i, j = 1, 2, . . . k si ha


h ∂ ∂ i Z ∂ ∂ ¡ ¢
I(θ)i,j = E θ log L(θ) · log L(θ) = log g θ (T ) · log g θ (T ) · g θ (T ) dµ
∂θi ∂θj ∂θi ∂θj | {z }
=L(θ)dµ=dP θ
Z .
∂ ∂ ¡ θ
= log g θ (t) · log g θ (t) · g (t) dν(t)) = IT ()θi,j
∂θi ∂θj | {z }
=LT (θ)dν(t)=dQθ (t)

Il viceversa di questo risultato ha bisogno di qualche ipotesi supplementare. Precisamente

(6.17) Teorema. Se θ 7→ L(θ) e θ 7→ LT θ) sono continue e I(θ) = IT (θ) per ogni θ ∈ Θ, allora T
è esaustiva.

Dimostrazione. Dire che I(θ) = IT (θ), significa dire che, per ogni u e per ogni θ, la speranza
rispetto a P θ di
h i n £ ¤o2
E θ h∇ log L(θ), ui2 |T − E θ h∇ log L(θ), ui|T

è nulla; ma dato che questa quantità è sempre non negativa (per la prima relazione della di-
mostrazione precedente), si deduce che
h i n £ ¤o2
E θ h∇ log L(θ), ui2 |T = E θ h∇ log L(θ), ui|T

P θ −quasi certamente, per ogni u e per ogni θ. Vale la

42
Proposizione (reciproca della disuguaglianza di Jensen). Sullo spazio (Ω, F, P ) sia X un
vettore aleatorio integrabile a valori in Rd e B una sottotribù di F. Sia φ una funzione strettamente
convessa definita su Rd e a valori in R. Se accade che
¡ ¢
E[φ(X)|B] = φ E[X|B] ,

allora 1B X è B− misurabile per ogni B ∈ B.


Applicando questa proposizione si trova che, per ogni u e per ogni θ, la v. a.

ω 7→ 1B h∇ log L(θ, ω), ui

è σ(T )−misurabile per ogni B ∈ σ(T ). Dunque, indicando con X la v.a. identica su Ω, si ha
£ ¤
1B h∇ log L(θ, X), ui = E θ 1B h∇ log L(θ, X), ui|T
£ ¤
= 1B E θ h∇ log L(θ, X), ui|T ] = 1B h∇ log LT (θ, T ), ui,

(dove nell’ultima uguaglianza si è applicata la proposizione (6.14)). L’uguaglianza ottenuta, appli-


cata a B = Ω, dice allora che

h∇ log L(θ, X), ui = h∇ log LT (θ, T ), ui,

P θ −quasi certamente. In altre parole, per ogni θ e per ogni u, esiste un evento Nθ,u ∈ F con
P θ (Nθ,u ) = 0 tale che, per ogni ω 6∈∈ Nθ,u , si ha

h∇ log L(θ, ω), ui = h∇ log LT (θ, T (ω)), ui.

Procedendo come nella dimostrazione della proposizione (6.13), si arriva a trovare un evento Nu ∈
F, con µ(Nu ) = 0, tale che, per ogni ω 6∈ Nu , e per ogni θ

h∇ log L(θ, ω), ui = h∇ log LT (θ, T (ω)), ui.

A questo punto, fissata una base u1 , . . . uk di Rk , e posto N = ∪ki=1 Nui si ha che µ(N ) = 0 e per
ogni ω 6∈ N , la relazione precedente vale per ogni u ∈ Rk , e di conseguenza si ha l’uguaglianza

∇ log L(θ, ω) = ∇ log LT (θ, T (ω)).

Integrando, si trova che, per ogni ω 6∈ N e per ogni θ risulta

log L(θ, ω) = log LT (θ, T (ω)) + g(ω)

e cioè
L(θ, ω) = LT (θ, T (ω)) · eg(ω) .
La conclusione segue allora dal Teorema di fattorizzazione.

(6.18) Esempi. (a) Sia (X1 , . . . , Xn ) un campione di legge N (m, 1), e sia T = X (media campi-
onaria). Il modello statistico di partenza è
¡ n ¢
R , B(Rn ), {P m , m ∈ R} ,

43
con P m = Nn (m, In ) (m =t (m, . . . , m), In matrice identità n × n); dall’esempio (6.10) (a) segue
che che I(θ) = σn2 = n; dato che la legge di X è N (m, n1 ), il modello di arrivo è
¡ ¢
R, B(R), {Qm , m ∈ R} ,

con Qm = N (m, n1 ), e quindi, sempre dall’esempio(6.10) (a), si deduce che IT (θ) = 1


σ2 = 1
1 = n.
n
Dunque IT (θ) = I(θ), in accordo con il fatto che T = X è esaustiva (a varianza costante).
Pn
2 2 (Xi −X)2
(b) Sia (X1 , . . . , Xn ) un campione di legge N (m, σ ), e sia T = S = i=1
n−1 (varianza
campionaria). In questo caso è θ = (m, σ 2 ). Il modello di partenza è
¡ n ¢
R , B(Rn ), {P θ , θ ∈ R × R+ } ,
T (n−1)
con P θ = Nn (m, σ 2 In ) (m =t (m, . . . , m), In matrice identità n × n). Vedremo in... che σ2
ha legge χ2 (n − 1) = Γ( n−1 1
2 , 2 ), la cui densità è

1 n−3 x
f (x) = x 2 e− 2 1R+ (x).
2(n−1)/2 Γ( n−1
2 )

Dunque
³ T (n − 1) Z
t(n − 1) ´
t(n−1)
σ2
P (T ≤ t) = P ≤ = f (x) dx
σ2 σ2 −∞

e quindi
³ t(n − 1) ´ n − 1 n−1 1 ³ t(n − 1) ´ n−3
2 t(n−1)

fT (t) = f · = · n−1 e 2σ 2 1 + (t)
R
σ2 σ2 σ2 2(n−1)/2 Γ( 2 ) σ2
³ n − 1 ´ n−1 .
1 2 n−3

t(n−1)
= (n−1)/2 n−1 t 2 e 2σ 1R+ (t)
2
2 Γ( 2 ) σ 2
2
Indicheremo la legge di T con il simbolo Qσ (= σ 2 .χ2 (n − 1)).
Il modello di arrivo è ¡ 2 ¢
R+ , B(R+ ), {Qσ , σ 2 ∈ R+ } .
n
Abbiamo già visto che I(σ 2 ) = 2σ 4 ; calcoliamo ora IT (σ 2 ). Si ha

1 ³n − 1´ n−1
2 n−3 t(n−1)
LT (θ, t) = LT (σ 2 , t) = t 2 e− 2σ 2 .
2(n−1)/2 Γ( n−1
2 )
σ2

Dunque
n−1 n−1 n−3 (n − 1)t
log LT (σ 2 , t) = c + log + log t − .
2 σ2 2 2σ 2
Derivando
∂ 2 n−1 σ2 n − 1 (n − 1)t n − 1 (n − 1)t
2
log L T (σ , t) = − · · 4
+ 4
=− + .
∂σ 2 n−1 σ 2σ 2σ 2 2σ 4

44
Derivando ancora
∂2 n − 1 (n − 1)t
log LT (σ 2 , t) = + − .
∂(σ 2 )2 2σ 4 σ6
Quindi
hn − 1 (n − 1)T i n−1 h i 1 σ2 h (n − 1)T i
2
σ 2 (n − 1)T n−1
IT (σ 2 ) = −E σ − = − + E = − + E .
2σ 4 σ6 2σ 4 σ6 2σ 4 σ4 σ2
T (n−1)
Come abbiamo detto, σ2 ha legge χ2 (n − 1), e quindi media n − 1. Per concludere, si trova
n−1 n
IT (σ 2 ) = < = I(m, σ 2 );
2σ 4 2σ 4
dunque T non è esaustiva per σ 2 .

Facciamo ora qualche richiamo di algebra lineare. Sia A una matrice n × n simmetrica; si dice che
A è semi–definita positiva (A ≥ 0) se, per ogni x ∈ Rn , hAx, xi ≥ 0; si dice che A è definita positiva
(A > 0) se, per ogni x ∈ Rn , con x 6= 0, hAx, xi > 0.
È noto che A è definita positiva se e solo se A è semi–definita positiva e invertibile. Nel seguito ci
serviranno due risultati di algebra lineare:

(6.19) Lemma. Sia A una matrice n × n simmetrica semidefinita positiva; allora esiste una matrice
B n × n simmetrica tale che A = B tB = B 2 . Inoltre, se A è invertibile, anche B è invertibile.

Dimostrazione. Dato che A è semidefinita positiva, i suoi autovalori λ1 , . . . , λn sono tutti non
negativi. È noto che, posto
 
λ1 0 . . . 0
 0 λ2 . . . 0 
K=  ... .. ..  ,
. . 
0 0 . . . λn
esiste una matrice ortogonale O tale che A = OK tO. Poniamo
√ 
λ1 √0 ... 0
 0 λ2 . . . 0 
H=  .. .. .. 

. . √.
0 0 ... λn
¡ ¢
e B = OH tO. B risponde alla questione. Infatti tB =t OH tO = OH tO = B ed inoltre B 2 =
¡ ¢¡ ¢ ¡t ¢
OH tO OH tO = OH OO H tO = OH 2 tO = OK tO = A.
La seconda affermazione è ovvia, perché se A è invertibile, allora è definita positiva e quindi tutti
i suoi autovalori sono strettamente positivi, dunque anche H è invertibile.

(6.20) Lemma. Siano a ∈ Rn , con a 6= 0, A una matrice n × n simmetrica e definita positiva, e sia
A−1 la sua matrice inversa; allora
hx, ai2 hx, ai2
sup = maxn = hA−1 a, ai.
x∈Rn hAx, xi x∈R hAx, xi

45
Dimostrazione. Dal Lemma precedente sappiamo che esiste una matrice B n × n simmetrica
e invertibile tale che A = B 2 , dunque, per ogni x ∈ Rn , esiste uno e un solo y ∈ Rn tale che
x = B −1 y; in particolare poniamo b = B −1 a. Allora, poiché B −1 è simmetrica e AB −1 = B, si ha

hx, ai2 hB −1 y, ai2 hy, B −1 ai2 hy, B −1 ai2 hy, bi2 ³ |hy, bi| ´2
= = = = = .
hAx, xi hAB −1 y, B −1 yi hBy, B −1 yi hy, BB −1 yi ||y||2 ||y||

È ben noto che la funzione y 7→ |hy,bi|


||y|| assume il suo massimo per y =
b
||b|| e che tale massimo vale
||b||. Pertanto il massimo del suo quadrato vale
¡ ¢2 ¡ ¢−1
||b||2 = hB −1 a, B −1 ai = h B −1 a, ai = h B 2 a, ai = hA−1 a, ai.

(6.21) Teorema. In aggiunta alle ipotesi fatte finora, supponiamo che I(θ) sia invertibile. Allora,
per ogni v. a. Y (di quadrato integrabile secondo P ) si ha
¡ ¢ ¡ ¢
V arθ (Y ) ≥ hI(θ)−1 ∇E θ [Y ] , ∇E θ [Y ] i.

Dimostrazione. Non è restrittivo supporre che la funzione θ 7→ E θ [Y ] non sia costante (in tal
caso la tesi del teorema è ovvia). Si ha (passando la derivata dentro la speranza)
Z
¡ ¢ ¡ ¢
∇E θ [Y ] = ∇E[L(θ)Y ] = E[∇ L(θ) Y ] = ∇ L(θ) Y dP

Z Z
¡ ¢ dP θ
¡ ¢ 1 ¡ ¢
= ∇ L(θ) Y θ
dP = ∇ L(θ) Y dP θ = E θ [∇ log L(θ) · Y ]
Ω dP Ω L(θ)
θ
¡ ¢ ¡ θ
¢
= E [∇ log L(θ) · Y − E [Y ] ],
¡ ¢ ¡ ¢
ricordando che il vettore ∇ log L(θ) è centrato rispetto a ogni P θ e quindi E θ [∇ log L(θ) ·
E θ [Y ]] = 0. Moltiplicando scalarmente per x ∈ Rk il primo e ultimo termine della relazione
precedente, si ottiene allora
¡ ¢ ¡ ¢
hx, ∇E θ [Y ]i = E θ [hx, ∇ log L(θ) i · Y − E θ [Y ] ],

e, per la diseguaglianza di Schwartz,


¡ ¢
hx, ∇E θ [Y ]i2 ≤ V arθ (Y ) · E θ [hx, ∇ log L(θ) i2 ].

Dato che
¡ ¢ ³X ∂ ´2 X ∂ ∂
hx, ∇ log L(θ) i2 = xi log L(θ) = xi xj log L(θ) · log L(θ),
i
∂θ i i,j
∂θ i ∂θ j

46
passando alla speranza rispetto a P θ si trova
X · ¸ X
¡ ¢ ∂ ∂
E θ [hx, ∇ log L(θ) i2 ] = xi xj E θ log L(θ) · log L(θ) = xi xj I(θ)i,j = hI(θ)x, xi
i,j
∂θi ∂θj i,j

e si conclude che
hx, ∇E θ [Y ]i2 ≤ V arθ (Y ) · hI(θ)x, xi.
Dato che I(θ) è definita positiva (in quanto I(θ) è invertibile), la relazione precedente si può scrivere
anche nella forma
hx, ∇E θ [Y ]i2
V arθ (Y ) ≥ ,
hI(θ)x, xi
e questa disuguaglianza può essere ottimizzata passando al sup in x ∈ Rk . Utilizzando il lemma
(6.19) con A = I(θ) e a = ∇E θ [Y ] (che non è il vettore nullo per l’ipotesi fatta su Y ), si ottiene la
tesi.

(6.22) Osservazione. Nel caso particolare in cui Θ è un intervallo della retta, I(θ) si riduce al
numero ·³ ´2 ¸
θ d
I(θ) = E log L(θ) .

Sia Y uno stimatore di g(θ). Posto b(θ) = E θ [Y − g(θ)] (cioè E θ [Y ] = b(θ) + g(θ)), si ha dal
teorema
¡ 0 ¢2
£¡θ θ
¢2 ¤ 2 g (θ) + b0 (θ)
RY (θ) = E (Y − E [Y ]) − b(θ) = V arθ (Y ) + b (θ) ≥ + b2 (θ).
I(θ)

L’errore quadratico di Y è dunque minorato da un numero positivo, tanto più piccolo quanto
più nell’intorno di θ l’informazione di Fisher è grande. Questa osservazione spiega (in parte)
quanto detto all’inizio di questo paragrafo. Le cose saranno più chiare quando avremo introdotto
l’informazione nel senso di Kullback (v.)

L’importanza di questo teorema è riposta nel corollario seguente.

(6.23) Corollario (diseguaglianza di Cramer–Rao). Nelle ipotesi del Teorema precedente, sia Y
uno stimatore corretto della funzione g(θ). Allora
¡ ¢ ¡ ¢
RY (θ) = V arθ (Y ) ≥ hI(θ)−1 ∇g(θ) , ∇g(θ) i.

(6.24)Osservazione. Nel caso particolare in cui Θ è un intervallo della retta e Y ∈ D2c , si ha dal
corollario (e dall’oss. (6.22), in cui ora è b = 0)
¡ 0 ¢2
g (θ)
RY (θ) ≥ .
I(θ)

47
La diseguaglianza di Cramer–Rao dice che uno stimatore corretto ha sempre un rischio non inferiore
al termine a destra nella diseguaglianza, ed è quindi naturale chiedersi se il confine inferiore posto
da tale diseguaglianza sia raggiungibile.

(6.25) Definizione. Si chiama efficace (efficient in inglese) uno stimatore Y ∈ D2c della funzione
g(θ) il cui rischio uguaglia il confine inferiore posto dalla diseguaglianza di Cramer–Rao.

(6.26) Esempio.
¡ Consideriamo
¢ un modello esponenziale con Θ ⊆ R e verosimiglianza della forma
L(θ) = exp θT − ψ(θ) . Ricordando la proposizione (5.10) si ha
·³ ´2 ¸
d £¡ ¢2 ¤ £¡ ¢2 ¤
I(θ) = E θ log L(θ) = E θ T − ψ 0 (θ) = E θ T − E θ [T ] = V arθ (T ) = ψ 00 (θ).

Siccome T è uno stimatore corretto di g(θ) = ψ 0 (θ), proviamo a vedere se si tratta di uno stimatore
efficace. Il confine di Cramer–Rao è
¡ ¢2 ¡ 00 ¢2
g 0 (θ) ψ (θ)
= = ψ 00 (θ) = V arθ (T ) = RT (θ).
I(θ) ψ 00 (θ)

Dunque T è uno stimatore efficace di ψ 0 (θ).


¡ ¢
Considerando più in generale un modello esponenziale con L(θ) = exp hθ, T i − ψ(θ) , con θ ∈ Θ
aperto di Rk , con passaggi analoghi (che richiedono qualche calcolo di algebra lineare) si prova
facilmente che ¡ ¢
(a) la matrice di informazione I(θ) = I(θ)i,j è data da

∂2ψ
I(θ)i,j = (θ);
∂θi ∂θj

∂ψ
(b) per ogni i = 1, . . . , k, Ti è uno stimatore efficace di ∂θ i
(θ). Se vogliamo parlare in termini
vettoriali, questo fatto si enuncia dicendo che T è uno stimatore efficace di ∇ψ(θ).

θ ¡
(6.27) Esercizio. Sia µθ una famiglia esponenziale su R (significa: dµ dµ (x) = exp hθ, T (x)i −
¢
ψ(θ) ), e si consideri un campione di taglia n e legge µθ . Provare che, al variare di n, il confine
inferiore della diseguaglianza di Cramer–Rao decresce come n1 .

(6.28) Esercizio. Si consideri un campione di taglia n e legge esponenziale di parametro θ, con


0 < θ < ∞. Provare che non esiste una stima efficace di θ.
Pn
(Suggerimento: ricordando che i=1 Xi è una statistica esaustiva completa e che, sotto P θ , ha
legge Γ(n, θ), verificare che Pn X è uno stimatore corretto (e quindi ottimale nella classe Dc2 ) di
n−1
i
i=1
θ, che però non è efficace).

7. Informazione di Kullback.

48
Il significato dell’informazione di Fisher si comprende meglio se si introduce un altro concetto di
informazione, proposto da Kullback.
¡ ¢
Sia Ω, F, {P θ , θ ∈ Θ} un modello statistico dominato dalla misura µ. Supponiamo che il vero
valore di θ sia θ1 ; ci domandiamo in quale misura il modello ci permette di distinguere θ1 da un
altro valore θ2 . Consideriamo i due casi estremi (i) L(θ1 , ω) = L(θ2 , ω) per ogni ω ∈ Ω; è chiaro
che in questo caso il risultato ω dell’esperimento non permette di fare alcuna distinzione fra θ1 e
θ2 .
(ii) L(θ1 , ω) > 0 su (a1 , b1 ), L(θ2 , ω) > 0 su (a2 , b2 ), con (a1 , b1 ) ∩ (a2 , b2 ) = ∅. Dato che ω cade
quasi certamente in (a1 , b1 ), possiamo identificare θ1 con certezza (essendo (a1 , b1 ) disgiunto da
(a2 , b2 )).

Ma naturalmente in generale ci troviamo in una situazione intermedia tra (i) e (ii): in qualche caso
l’identificazione non è proprio possibile, come mostra la figura:

Invece, in una situazione come quella della figura sottostante, se il risultato dell’esperimento cade
tra a1 e a2 , possiamo di nuovo identificare θ1 .

(7.1)Definizione. Il potere discriminante tra θ1 e θ2 da assegnare al risultato ω è la quantità

L(θ1 , ω)
i(θ1 /θ2 )(ω) = log ,
L(θ2 , ω)

definita su {ω : L(θ1 , ω) > 0} ∪ {ω : L(θ2 , ω) > 0} e con la convenzione che log 0 = −∞, log(c/0) =
+∞.

(7.2)Osservazione. Se siamo nella situazione di perfetta discriminazione, (caso (ii)) allora la


quantità precedente vale +∞; se invece non è possibile distinguere (caso (i)) allora essa vale 0.
Inoltre, per i risultati ω per i quali si ha L(θ2 , ω) > L(θ1 , ω), i(θ1 /θ2 )(ω) è negativo: questo è
naturale se si interpreta L(θ1 , ω) come le probabilità di ottenere il risultato ω se il valore del
parametro è θ1 , e L(θ2 , ω) analogamente: se la probabilità di ottenere ω con il parametro θ1 è più
bassa della probabilità di ottenere ω con il parametro θ2 , saremo inclini a decidere in favore di θ2 .

Il potere discriminante dipende ovviamente da ω. Quindi, se vogliamo poterlo usare come una
misura della discriminazione possibile tra θ1 e θ2 , occorre effettuare una media. Si dà dunque la

(7.3)Definizione. Si chiama informazione di Kullback di θ1 contro θ2 la quantità

£ ¤ h L(θ1 ) i
I(θ1 /θ2 ) = E θ1 i(θ1 /θ2 ) = E θ1 log .
L(θ2 )

È ovviamente necessario verificare che la speranza che compare nella definizione ha senso.

(7.4) Teorema. I(θ1 /θ2 )ha senso per ogni coppia (θ1 , θ2 ).

49
Dimostrazione. La variabile ω 7→ log L(θ 1 ,ω) θ1 θ1
L(θ2 ,ω) è definita P – quasi ovunque. (L(θ1 , ω) > 0, P –
quasi ovunque essendo la densità della legge di X(ω) = ω rispetto alla misura dominante µ).
Esercizio (A). Sullo spazio (Ω, F, P ) sia Y una v.a. con media finita (E[|Y |] < +∞). Sia φ una
funzione convessa. Allora E[φ(Y )− ] < +∞.
Soluzione. Sia a un numero fissato. Poiché φ è convessa, per ogni y si ha φ(y)−φ(a) ≥ κ(a)(y−a),
dove κ(a) è un’opportuna costante. Dunque
¡ ¢ ¡ ¢
Φ(Y ) ≥ φ(a) − aκ(a) + κ(a)Y .

Esercizio (B). (a) Siano u, v due numeri reali. Allora

(u + v)− ≤ u− + v − .

(b) Siano w e t due numeri reali. Allora

(wt)− ≤ w− t+ + t− w+ .

(Verifica per esercizio).

Utilizzando queste due relazioni, si trova che


h¡ ¢ ¡ ¢i− ¡ ¢− ¡ ¢−
Φ(Y )− ≤ φ(a) − aκ(a) + κ(a)Y ≤ φ(a) − aκ(a) + κ(a)Y
¡ ¢−
≤ φ(a) − aκ(a) + κ(a)− Y + + κ(a)+ Y − ,

e si conclude passando alla speranza.

Torniamo alla dimostrazione del teorema. Applichiamo l’esercizio (A) alla funzione convessa x 7→
L(θ2 ,ω)
− log x e alla variabile Y (ω) = L(θ1 ,ω)
, osservando che

Z Z Z Z
L(θ2 , ω) θ1 L(θ2 , ω) dP θ1 (ω)
E1θ [Y ]= dP (ω) = dµ = L(θ2 , ω) dµ = dP θ2 = 1.
Ω L(θ1 , ω) Ω L(θ1 , ω) dµ Ω | {z } Ω
| {z } dP θ2 (ω)
=L(θ1 ,ω) = dµ

Troviamo che h³ L(θ1 ) ´− i h³ L(θ2 ) ´− i


E θ1 log = E θ1 − log < +∞,
L(θ2 ) L(θ1 )
h i
L(θ1 )
da cui segue che E θ1 log L(θ2 ) ha senso (eventualmente uguale a +∞).

(7.5) Esempi. (a) Sia (R, B(R), P θ , θ > 0) il modello statistico con P θ = Πθ (con misura dominante
µ= misura che conta i punti di N). Calcolare I(θ1 /θ2 ).

50
Soluzione. Per k ∈ N si ha
L(θ1 , k) ³ θ1 ´k −(θ1 −θ2 )
= e ,
L(θ2 , k) θ2
quindi
L(θ1 , k) ³θ ´
1
log = k log − θ1 + θ2 ,
L(θ2 , k) θ2
e, integrando rispetto a P θ1 , si trova
³θ ´ ³θ ´
1 1
I(θ1 /θ2 ) = log E θ1 [X] − θ1 + θ2 = θ1 log − θ1 + θ2 .
θ2 θ2
¡ ¢
(b) Più in generale, supponiamo di avere il modello esponenziale Ω, F, {P θ , θ ∈ Θ} con vero-
simiglianza ¡ ¢
L(θ, ω) = C(θ) exp hθ, T (ω)i .
Allora

L(θ1 , ω) n C(θ ) ¡ ¢o
1
log = log exp hθ1 − θ2 , T (ω)i = log C(θ1 ) − log C(θ2 ) + hθ1 − θ2 , T (ω)i,
L(θ2 , ω) C(θ2 )

e integrando rispetto a P θ1 si trova


Z
¡ ¢
I(θ1 /θ2 ) = log C(θ1 ) − log C(θ2 ) + hθ1 − θ2 , T (ω)iC(θ1 ) exp hθ1 , T (ω)i dµ(ω)
Z
¡ ¢
= log C(θ1 ) − log C(θ2 ) + C(θ1 )hθ1 − θ2 , T (ω) exp hθ1 , T (ω)i dµ(ω)i

(7.6) Teorema Per ogni coppia (θ1 , θ2 ) si ha I(θ1 /θ2 ) ≥ 0; inoltre I(θ1 /θ2 ) = 0 se e solo se
P θ1 = P θ2 .

Dimostrazione. Per la disuguaglianza di Jensen si ha


h L(θ2 ) i h L(θ ) i
2
I(θ1 /θ2 ) = E θ1 − log ≥ − log E θ1 = − log 1 = 0.
L(θ1 ) L(θ1 )

Inoltre, per l’inversa della disuguaglianza di Jensen, (v. dimostrazione di (6.15)) , nella relazione
precedente vale l’uguaglianza se e solo se la funzione integranda è P θ1 −q.c. costante, cioè se esiste
un evento N ∈ F con P θ1 (N ) = 0 e tal che, per ogni ω ∈ N , si ha

L(θ2 , ω)
= c,
L(θ1 , ω)

e poiché
h L(θ ) i
2
c = E θ1 = 1,
L(θ1 )

51
si ottiene L(θ2 , ω) = L(θ1 , ω) per ω ∈ N c , da cui
Z Z
P θ2 (N c ) = L(θ2 ) dµ = L(θ1 ) dµ = P θ1 (N c ) = 1.
Nc Nc

Pertanto, per ogni A ∈ F si ha


Z Z
P θ2 (A) = P θ2 (A ∩ N c ) + P θ2 (A ∩ N ) = L(θ2 ) dµ = L(θ1 ) dµ
| {z } A∩N c A∩N c
=0
= P (A ∩ N ) = P (A ∩ N ) + P θ1 (A ∩ N ) = P θ1 (A).
θ1 c θ1 c
| {z }
=0

Vediamo ora che relazione c’è tra l’informazione di Fisher e quella di Kullback.

(7.7) Teorema. Sotto le ipotesi necessarie affinché sia possibile definire l’informazion di Fisher, e
se la funzione θ 7→ I(θ1 /θ) è due volte derivabile sotto il segno di integrale, si ha

∂ 2 I(θ1 /θ) ¯¯
I(θ1 )i,j = ¯ .
∂θi ∂θj θ=θ1

Dimostrazione. Derivando l’espressione


Z
L(θ1 )
I(θ1 /θ) = log L(θ1 ) dµ
L(θ)
si trova Z
∇I(θ1 /θ) = −∇ log L(θ)L(θ1 ) dµ,

e derivando ancora
Z h ∂L(θ) ∂L(θ) ∂ 2 L(θ) i
∂ 2 I(θ1 /θ) ∂θi ∂θj ∂θi ∂θj
= − L(θ1 ) dµ,
∂θi ∂θj L2 (θ) L(θ)
e calcolando per θ = θ1 , si ha
Z ∂L(θ) ∂L(θ) Z ∂L(θ) ∂L(θ)
∂ 2 I(θ1 /θ) ¯¯ ∂θi ∂θj
¯
¯ ∂θi ∂θj
¯
¯
¯ = L(θ1 ) dµ¯ = dP θ1 ¯
∂θi ∂θj θ=θ1 L2 (θ) θ=θ1 2
L (θ) θ=θ1

h Z ∂L(θ) ∂L(θ) i¯
∂θi ∂θj ¯
= E θ1 ¯ = I(θ1 ),
L2 (θ) θ=θ1

osservando che
Z ∂ 2 L(θ1 ) Z Z
∂θi ∂θj ∂ 2 L(θ1 ) ∂2 ∂2
L(θ1 ) dµ = dµ = L(θ1 ) dµ = 1 = 0.
L(θ1 ) ∂θi ∂θj ∂θi ∂θj ∂θi ∂θj

52
(7.8) Osservazione. (a) È facile vedere che ∇I(θ1 /θ1 ) = 0. Infatti, come abbiamo visto nella
dimostrazione precedente,
Z Z Z
¯ ¯ 1 ¯
¯ ¯
− ∇I(θ1 /θ1 ) = ∇ log L(θ) θ=θ1 L(θ1 ) dµ = ∇L(θ) θ=θ1 · L(θ1 ) dµ = ∇L(θ)¯θ=θ1 dµ
L(θ1 )
nZ o¯ nZ o¯
¯ ¯
=∇ L(θ) dµ ¯ =∇ dP θ ¯ = ∇1 = 0.
θ=θ1 θ=θ1

Questo fatto è naturale, perché, come abbiamo visto, I(θ1 /θ) ≥ 0 per ogni θ e I(θ1 /θ1 ) = 0.
Dunque θ1 è punto di minimo per la funzione θ 7→ I(θ1 /θ).
(b) Dal teorema appena dimostrato si deduce che l’hessiano di θ 7→ I(θ1 /θ), calcolato in θ1 , è
semidefinito positivo (in quanto uguale a I(θ1 ), che è una matrice di covarianza). Anche questo è
naturale, per gli stessi motivi del punto (a).
(c)Il teorema precedente permette di precisare l’affermazione (fatta all’inizio del paragrafo 6) che
l’informazione di Fisher serva per descrivere la variazione “locale”delle leggi P θ . Per semplicità
supponiamo che il parametro θ sia unidimensionale; ricordiamo da (b) che I(θ1 )è la derivata
seconda di θ 7→ I(θ1 /θ), calcolata in θ1 ), e quindi approssimando al secondo ordine si ha

d ¯ 1 d2 ¯ 1
¯ ¯
I(θ1 /θ) ≈ I(θ1 /θ1 ) + I(θ1 /θ)¯ (θ − θ1 ) + I(θ 1 /θ)¯ (θ − θ1 )2 = I(θ1 )(θ − θ1 )2 .
dθ θ=θ1 2 dθ2 θ=θ1 2

Dunque più I(θ1 ) è vicino a 0 e più il grafico di θ 7→ I(θ1 /θ) “piatto”nell’intorno di θ1 , ed è quindi
difficile discriminare tra il vero valore θ1 e i valori di θ nel suo intorno. La situazione è ovviamente
inversa per valori grandi di I(θ1 ) (ved. figure).

8. Stimatori di massima verosimiglianza.

Il metodo della massima verosimiglianza è largamente usato in statistica per la sua presentazione
intuitiva e soprattutto per la sua semplicità ; tuttavia le giustificazioni rigorose sono solo asintotiche,
e pertanto dovrebbe essere usato solo quando si dispone di campioni molto numerosi.

Esempio introduttivo. Una moneta dà testa con probabilità θ. Il valore di θ non è noto; si sa
però che esso che è uguale a 1/1000 oppure a 999/1000. Un tizio, che deve stabilire quale di questi
due valori è quello giusto, decide di effettuare 100 lanci della moneta, e ottiene in ciascun lancio
la faccia testa. A questo punto, come è facile capire, egli è propenso a credere che la probabilità
che la moneta dia testa è 999/1000. Ritiene infatti che il risultato ottenuto (100 volte testa in 100
estrazioni) potrebbe sı̀ verificarsi anche nell’altro caso , ma con una probabilità inferiore.

Cerchiamo di formalizzare la situazione. Indichiamo con X il risultato di un generico lancio:


n
1 se la moneta dà testa
X=
0 se la moneta dà croce.
53
Allora i 100 lanci effettuati costituiscono un campione di 100 osservazioni del fenomeno, che in-
dicheremo, come sempre, con (X1 , . . . , X100 ). Sulla legge di ogni Xi l’informazione è la seguente:
½ ¾
1 999
Xi ∼ B(1, θ), con θ ∈ Θ = , .
1000 1000

Allora la probabilità di ottenere 100 volte testa in 100 lanci è


 1 100 1
 ( 1000 ) se θ = 1000 ,
P θ (X1 = 1, X2 = 1, . . . , X100 = 1) = θ100 =
 999 100 999
( 1000 ) se θ = 1000 .

Il tizio ha dunque deciso di considerare vero il valore di θ per il quale il risultato effettivamente
osservato è il più probabile. In altre parole, egli ha calcolato

max P θ (X1 = 1, X2 = 1, . . . , X100 = 1) = max θ100 ,


θ∈Θ θ∈Θ

ed ha deciso per il valore del parametro in cui tale massimo è raggiunto, cioè per il punto di massimo
della funzione

θ 7→ P θ (X1 = 1, X2 = 1, . . . , X100 = 1) = L(θ; 1, . . . , 1) = θ100 .

Più in generale, se egli avesse ottenuto il risultato ω = (ω1 , . . . , ωn ), la sua decisione sarebbe stata
quella di prendere come vero valore del parametro parametro il punto di massimo della funzione
θ 7→ L(θ; ω), che ovviamente dipende da ω.

Passiamo alla formalizzazione matematica. Consideriamo un modello statistico (Ω, F, (P θ , θ ∈ Θ))


dominato dalla misura µ. Per il momento supporremo che Θ sia un intervallo della retta (in senso
lato, cioè eventualmente non limitato). Supponiamo assegnata una scelta della verosimiglianza
θ
L(θ, ω) = dP dµ (ω) (nel senso che L(θ, ·) è una rappresentante nella classe di equivalenza delle
densità di P θ rispetto a µ).

(8.1) Definizione. Sia U : Ω → R uno stimatore del parametro θ. Si dice che U è uno stimatore
di massima verosimiglianza se, per ogni ω ∈ Ω, si ha

L(U (ω), ω) = sup L(θ, ω).


θ∈Θ

(ovviamente questo estremo superiore sarà un massimo se viene assunto in qualche punto θ0 ).

In generale non è affatto detto che un tale stimatore esista, oppure che sia univocamente deter-
minato; tuttavia, quando esiste, generalmente è facile calcolarlo, e si usa denotarlo con il simbolo
θ̂(ω). Normalmente la specificazione di ω viene omessa, e si scrive più brevemente θ̂. Se la funzione
θ 7→ L(θ, ω) (a ω fissato) è differenziabile, θ̂ verifica l’equazione

d ¯
¯
L(θ, ω)¯ =0
dθ θ=θ̂(ω)

54
(attenzione: questa è naturalmente una condizione solo necessaria).

(8.2) Esempio. Sia µθ una famiglia di misure di probabilità su R, dominata dalla misura µ.
θ
Sia dµ
dµ = f (θ, x) la (una) densità, e consideriamo un campione di taglia n e legge µθ . La
⊗n
Qn
verosimiglianza (rispetto alla misura µ ) è L(θ; x1 , . . . , xn ) = i=1 f (θ, xi ) e l’equazione diventa

d ³Y ´¯
n
¯
f (θ, xi ) ¯ = 0.
dθ i=1 θ=θ̂(ω)

Ovviamente è inutile cercare il massimo di questa funzione per gli (x1 , . . . , xn ) nei quali essa vale
0. D’altra parte, se x appartiene all’insieme {x = (x1 , . . . , xn ) : f (x, θ) > 0}, è più comodo (ma
equivalente!) cercare il massimo della funzione log L(·, x) (= log L(·, ω)) e l’equazione diventa
Xn
d ¯
¯
log f (θ, xi )¯ = 0.
i=1
dθ θ=θ̂(ω)

L’equazione sopra scritta si chiama equazione di massima verosimiglianza.

(8.3) Esempio. Consideriamo un campione di legge esponenziale di parametro θ, con θ > 0. Allora
½
−θx
f (θ, x) = θe per x > 0
0 altrove.
Dunque la verosimiglianza è
½
L(θ; x1 , . . . , xn ) = θn e−θ(x1 +···xn ) se xi > 0, ∀i
0 altrove.
L’equazione di massima verosimiglianza è
n ³
X ´
1
− xi = 0,
i=1
θ

e cioè
n
n X
− xi = 0,
θ i=1
che ha la (unica) soluzione θ = Pnn xi
; si verifica poi facilmente che si tratta effettivamente di un
i=1
punto di massimo, e quindi lo stimatore di massima verosimiglianza di θ è
n
θ̂ = Pn .
i=1 Xi
Pn
Vediamo se θ̂ è uno stimatore corretto di θ; sotto P θ , la v. a. i=1 Xi ha legge Γ(n, θ). Dunque
· ¸ Z +∞ Z +∞
n n 1 n n−1 −θx nθ
E Pn = θ x e dx = (θx)n−2 e−θx (θdx)
i=1 X i Γ(n) 0 x Γ(n) 0
Z +∞
nθ nθ nθ
= y n−2 e−y dy = Γ(n − 1) = ;
Γ(n) 0 Γ(n) n−1

55
si deduce che θ̂ non è corretto (lo è solo asintoticamente, cioè per n che tende a ∞), mentre è
corretto lo stimatore di θ
n−1
Pn .
i=1 Xi
Pn
Sappiamo (dalla teoria dei modelli esponenziali) che T = i=1 Xi è una statistica esaustiva com-
pleta. Dunque Pn−1 n
X
, essendo uno stimatore T −misurabile e corretto di θ, è ottimale (per il
i
i=1

Teorema di B–R). Osserviamo che i due stimatori che abbiamo trovato, cioè θ̂ e quello ottimale
Pn−1
n differiscono di poco. Questo succede molto spesso (nel caso di stimatori di massima
X i
i=1
verosimiglianza).

(8.4) Esercizio. (a) Calcolare lo stimatore di massima verosimiglianza del parametro θ basandosi
su un campione di taglia n e di legge di Poisson di parametro θ.
(b) Calcolare lo stimatore di massima verosimiglianza del parametro θ > −1 basandosi su un
campione di taglia n e di legge avente densità
½
θ
f (θ; x) = (θ + 1)x per x ∈ [0, 1]
0 altrove.

Come abbiamo accennato all’inizio, per gli stimatori di massima verosimiglianza non si possono
dare che dei risultati asintotici (cioè per la taglia n del campione che tende a ∞). Bisogna allora
costruire un modello statistico che idealizzi una successione infinita di esperimenti. Cominciamo
con l’ammettere il risultato seguente di teoria della misura (è un caso particolare del teorema di
Ionescu–Tulcea):
Q
(8.5) Teorema.
N Sia P una probabilità su (R, B(R). Esiste su RN = n∈N Rn , munito della tribù
prodotto n∈N B(Rn ) una e una sola probabilità (indicata usualmente con P ⊗N ) tale che, per ogni
successione finita di boreliani A1 , . . . , Ak , risulti
¡ ¢
P ⊗N A1 × A2 × · · · × Ak × R × R · · · = P (A1 ) · . . . · P (Ak ).

Quando RN è munito di questa probabilità, le proiezioni canoniche Xi (ω) = Xi (x1 , . . . , xi , . . .) = xi


sono indipendenti e tutte di legge P .

Nei teoremi che seguiranno, considereremo una famiglia ³(µθ , θ ∈ Θ) di probabilità su ´R e un


N
campione infinito di legge µθ . Il modellostatistico sarà RN , n∈N B(Rn ), (P θ , θ ∈ Θ) , dove
P θ = (µθ )⊗N .

dµθ
Supporremo che le leggi µθ siano dominate da una misura µ, e porremo dµ = f (θ; x), e chiameremo
successione di stime di massima verosimiglianza una successione di v. a. θ̂n tali che, per ogni n,
θ̂n sia uno stimatore di massima verosimiglianza per il campione (X1 , . . . , Xn ) (cioè θ̂n è funzione
solo delle variabili X1 , . . . , Xn e si ha

Ln (θ̂; X1 , . . . , Xn ) = sup Ln (θ; X1 , . . . , Xn ),


θ∈Θ

56
dove
n
Y
Ln (θ; X1 , . . . , Xn ) = f (θ; Xi )
i=1

è la verosimiglianza del campione (X1 , . . . , Xn )).

(8.6) Definizione. Si dice che la successione (θ̂n ) è consistente (risp. fortemente consistente) se,
per ogni θ ∈ Θ, rispetto alla probabilità P θ , θ̂n converge a θ in probabilità (quasi certamente).

Noi considereremo solo il caso di un campione di un modello esponenziale

dµθ ¡ ¢
(x) = f (θ; x) = exp θT (x) − ψ(θ) ,

dove θ è un intervallo della retta (l’esame di casi più generali è possibile, ma a prezzo di serie
complicazioni). L’equazione di massima verosimiglianza è in questo caso

Xn Xn n
d d¡ ¢ X
log f (θ; xi ) = θT (xi ) − ψ(θ) = T (xi ) − nψ 0 (θ) = 0,
i=1
dθ i=1
dθ i=1

e cioè
Pn
T (xi )
(8.7) ψ 0 (θ) = i=1
.
n
Come sappiamo dalla Proposizione (5.10) (b),

ψ 00 (θ) = V arθ (T ) > 0

(se fosse V arθ (T ) = 0, T sarebbe costante, e quindi f (θ; x) sarebbe costante (in x). Questo non
è possibile perché l’unica funzione costante integrabile su R è la funzione identicamente nulla, che
non è una densità di probabilità).
Dunque ψ 0 è strettamente crescente, dunque biunivoca da Θ a ψ 0 (Θ), e quindi l’equazione di
verosimiglianza (8.7) ha al più una soluzione. Più precisamente, la soluzione è
µ Pn ¶
0 −1 i=1 T (xi )
θ̂n = (ψ ) ,
n
Pn
T (xi )
a patto che i=1
n ∈ ψ 0 (Θ).

Negli enunciati seguenti considereremo dunque un campione infinito di una famiglia esponenziale
di leggi di probabilità su R.

(8.8) Teorema. Supponiamo che ψ 0 (Θ) sia un intervallo aperto. Allora, per ogni fissato θ, è
definito P θ −q. c. per n abbastanza grande lo stimatore di massima verosimiglianza θ̂n e θ̂n → θ
P θ −q. c. per n → ∞.

57
Detto in termini più precisi, l’enunciato precedente significa che, per P θ − quasi ogni ω e per
n > n0 (ω, θ), l’equazione (nell’incognita θ)

Ln (θ; X1 (ω), . . . , Xn (ω)) = sup Ln (θ; X1 (ω), . . . , Xn (ω))


θ∈Θ

ha una e una sola soluzione θ̂n (ω) ed inoltre limn→∞ θ̂n (ω) = θ, per P θ − quasi ogni ω.

Dimostrazione. Per la legge forte dei grandi numeri, la v.a.


Pn
i=1 T (Xi )
n

converge P θ −quasi certamente verso E θ [T (X1 )] = ψ 0 (θ), dove quest’ultima uguaglianza segue dalle
relazioni Z
E θ [T (X1 )] = T dµθ = ψ 0 (θ),
0
come sappiamo dallaPn Proposizione (5.10)(a). Dato che ψ (Θ) è un intervallo aperto, per n ab-
T (Xi )
bastanza grandeµ Pn
i=1
n ¶ appartiene a ψ 0 (Θ) (in quanto convergente a ψ 0 (θ) ∈ ψ 0 (Θ). Dunque
T (xi )
θ̂n = (ψ 0 )−1 i=1
n è definito (per l’osservazione fatta sopra). Infine, per n → ∞ e P θ −quasi
certamente µ Pn ¶
T (xi ) ¡ ¢
θ̂n = (ψ 0 )−1 i=1
→ (ψ 0 )−1 ψ 0 (θ) = θ.
n

(8.9) Osservazione. Dal Teorema precedente si deduce che, a differenza di quanto succedeva
per il campione finito (di taglia n fissata, per una famiglia esponenziale di leggi di probabilità su
R), nel campione infinito le probabilità P θ sono tutte tra loro estranee (cioè portate da insiemi
disgiunti). Infatti, sia θ1 6= θ2 . Per i = 1, 2 poniamo Ai = {ω ∈ Ω : θ̂n → θi }. Ovviamente A1 e
A2 sono disgiunti, ed inoltre P θi (Ai ) = 1 per il teorema precedente. Dunque il campione infinito
non è dominato.

(8.10) Corollario. Nelle ipotesi del Teorema precedente, la successione θ̂n di stimatori di mas-
sima verosimiglianza è fortemente consistente.

(8.11) Esempio. Ripetiamo in un caso concreto il ragionamento fatto nel Teorema (7.8). Sia
(X1 , . . . , Xn ) un campione di legge esponenziale di parametro θ, con 0 < θ < 1 (cioè in questo caso
si ha Θ = (0, 1)). Scriviamo prima di tutto l’equazione di verosimiglianza. Si ha
½
−θx
f (θ; x) = θe = e−θx+log θ per x > 0
0 altrimenti .

Considerando al solito solo il caso in cui xi è positivo, si trova


¡ ¢
L(θ; x1 , . . . , xn ) = exp − θ(x1 + · · · + xn ) + n log θ

58
Quindi l’equazione di verosimiglianza in questo caso è
n
θ = Pn ,
i=1 xi

ed ha l’eventuale (unica) soluzione


n
θ̂n = Pn .
Xi
i=1
Tale soluzione però in questo caso esiste solo se 0 < Pnn < 1, e questo non è necessariamente
Xi
Pn i=1
Xi
vero. Tuttavia, la legge forte dei grandi numeri assicura che i=1
n converge P θ –quasi certamente
verso θ , e dunque θ̂n = Pn X converge P –quasi certamente verso θ ∈ (0, 1). Quindi θ̂n è definito
1 n θ
i
i=1
a partire da un n0 = n0 (ω, θ) abbastanza grande in poi.

Vediamo ora un risultato di convergenza in legge.



(8.12) Teorema. Nelle ipotesi del Teorema precedente, n(θ̂n − θ) converge in legge (secondo la
1
probabilità P θ ) alla v. a. normale di media 0 e varianza ψ 00 (θ) .

(8.13) Osservazione. Ricordiamo che ψ 00 = I(θ) (informazione di Fisher, Es. (6.25)). Per un
parametro θ ∈ Θ ⊆ Rk si può dimostrare che se (θ̂n )n è una successione di stimatori di massima

verosimiglianza in un modello esponenziale, allora n(θ̂n − θ)¡ converge¢ in legge verso una vettore
aleatorio k−dimensionale di legge normale (multivariata) Nk 0, I −1 (θ) , dove I(θ) è la matrice di
informazione di Fisher (matrice k × k). Delle leggi normali multivariate parleremo nel paragrafo 9.

Per la dimostrazione del Teorema (8.12) ci servono tre lemmi.

(8.14) Lemma. Su (Ω, A, P ) sia Xn convergente in legge ad una v. a. X P −quasi certamente


finita e Yn convergente a 0 in probabilità (o, ciò che è lo stesso, in legge). Allora Xn · Yn converge
a 0 in probabilità .

(8.15) Osservazione. Se X non è P −quasi certamente finita, la tesi può non valere. Per esempio,
sia Xn una successione convergente P −quasi certamente verso X = +∞. Prendiamo Yn = X1n ,
che ovviamente converge a 0. Allora Xn Yn converge a 1.
R
Dimostrazione.
R (i) Dato che Xn → X in legge, per ogni f continua e limitata si ha f (Xn )dP →
f (X)dP . Sia c > 0 e consideriamo la funzione g = 1(−∞,−c)∪(c,+∞) . Questa funzione non
è continua, ma esiste una successione decrescente (fm ) di funzioni continue e limitate tali che
g = infm fm . Dunque, per ogni m si ha fm ≥ g e quindi, per la convergenza in legge di Xn a X,
Z Z Z
fm (X)dP = lim fm (Xn )dP ≥ lim sup g(Xn )dP = lim sup P (|Xn | > c).
n n n

D’altra parte, per il teorema della convergenza monotona


Z Z
lim fm (X)dP = g(X)dP = P (|X| > c).
m

59
Si conclude che
P (|X| > c) ≥ lim sup P (|Xn | > c).
n
¡ ¢
Dato che limc→+∞ P (|X| > c) = limc→+∞ P (X < −c) + 1 − P (X ≤ c) = 0, fissato ², esiste c²
tale che
lim sup P (|Xn | > c² ) ≤ P (|X| > c² ) ≤ ².
n

Sia ora δ > 0 fissato. Si ha


n δo
{|Xn · Yn | > δ} ⊆ {|Xn | > c² } ∪ |Yn | > ,

e quindi
³ δ´ ³ δ´
P (|Xn · Yn | > δ) ≤ P (|Xn | > c² ) + P |Yn | > ≤ ² + P |Yn | > .
c² c²
Mandando n a ∞, dato che Yn converge a 0 in probabilità , si trova

lim sup P (|Xn · Yn | > δ) ≤ ²,


n→∞

e si conclude per l’arbitrarietà di ².

(8.16) Lemma. (Teorema di Slutsky) Se Xn converge in legge a X e Yn converge a c in probabilità


(o equivalentemente in legge), allora Xn + Yn converge a X + c in legge.

Dimostrazione. Non è restrittivo supporre c = 0. Per un criterio di convergenza in legge (ved.


Jacod–Protter, Th. 18.7), Xn +Yn converge in legge a X se e solo se limn E[f (Xn +Yn )] = E[f (X)]
per ogni funzione f continua, Lipschitziana (con costante di Lipschitz Lf ) e limitata (da una
costante ¡Mf ). Poiché limn E[f (Xn )]¢ = E[f (X)] (Xn converge in legge a X), basterà far vedere
che limn E[f (Xn + Yn )] − E[f (Xn )] = 0. Ora
¯ ¯
lim ¯E[f (Xn + Yn )] − E[f (Xn )]¯ ≤ lim E[|f (Xn + Yn )] − f (Xn )|]
n n
¡ ¢
= lim E[|f (Xn + Yn )] − f (Xn )|1|Yn |≤² ] + E[|f (Xn + Yn )] − f (Xn )|1|Yn |>² ]
n
≤ Lf ² + 2Mf lim P (|Yn | > ²).
n

Si conclude passando al limite per l’arbitrarietà di ².



(8.17) Lemma (metodo δ). Se Tn converge P −q.c. verso a, n(Tn − a) converge in legge alla
2 2
√ ³
variabile N (0, σ ), e g è una funzione di classe C definita in un intorno di a, allora n g(Tn ) −
´
g(a) converge in legge alla variabile N (0, (g 0 (a))2 σ 2 ).

Dimostrazione. Sviluppando con la formula di Taylor al secondo ordine si ha

(x − a)2 00
g(x) − g(a) = g 0 (a)(x − a) + g (ξ),
2
60
(con ξ opportuno). Quindi
√ ³ ´ √ g 00 (Mn ) √
n g(Tn ) − g(a) = ng 0 (a)(Tn − a) + (Tn − a) n(Tn − a).
2
Il primo addendo converge in legge alla N (0, (g 0 (a))2 σ 2 ). Il secondo addendo è il prodotto di
g 00 (Mn ) 00 √
2 , che converge a g 2(a) , di n(Tn − a) (che converge in legge) e di (Tn − a) (che converge
q.c. e quindi in probabilità a 0). Per il Lemma (8.15) si conclude che il secondo addendo tende
a 0 in probabilità. Per il Lemma (8.16) si conclude che la somma dei due addendi tende alla
N (0, (g 0 (a))2 σ 2 ) in legge.
Pn
T (xi )
Dimostrazione. (del teorema). Basta applicare il lemma precedente con Tn = i=1
n ,
0
¡ ¢
0 −1
a = ψ (θ), g = ψ .Osserviamo che
(a) Pn
√ T (xi ) − nψ 0 (θ)
n(Tn − a) = i=1 √
n
converge in legge alla variabile N (0, ψ 00 (θ)) (ricordare che le T (Xi ) sono v. a. indipendenti equidis-
tribuite, con E θ [T (Xi )] = ψ 0 (θ), V arθ (T (Xi )) = ψ 00 (θ));
(b)
³d¡ ¢ ´ 1 1
−1
g 0 (a) = ψ0 (ψ 0 (θ)) = ³¡ ¢ ´ = 00 .
dθ ψ 00 ψ 0
−1
(ψ 0 (θ)) ψ (θ)

9. Variabili gaussiane e vettori gaussiani.

Sullo spazio di probabilità (Ω, F, P ) consideriamo un campione X1 , . . . , Xn di legge gaussiana


N (0, σ 2 ) e sia X il vettore aleatorio X = (X1 , . . . , Xn ). La sua funzione caratteristica è

£ ¡ ¢¤ h ³X
n ´i hY
n
©¡ ¢ªi
φX (u) = E exp ihu, Xi = E exp i uj Xj = E exp i uj Xj
j=1 j=1
(9.1) h
n
Y ©¡ ¢ªi n
Y ³ 2
σ 2 ´ ³ σ2 ´
= E exp i uj Xj = exp − uj = exp − ||u||2 ,
j=1 j=1
2 2

ricordando che la funzione caratteristica di una v. a. unidimensionale Z di legge N (m, σ 2 ) è


³ σ2 ´
(9.2) ϕZ (t) = exp(itm) exp − t2 .
2

Consideriamo ora una matrice A n × n ortogonale (cioè invertibile e tale che t A = A−1 ) e sia Y il
vettore aleatorio AX.

(9.3) Proposizione. Se A è ortogonale, anche Y è un campione di legge N (0, σ 2 ) (ovvero le sue


componenti Yj sono indipendenti e di legge N (0, σ 2 )).

61
Dimostrazione. Basta calcolare la f.c. di Y :
£ ¡ ¢¤ £ ¡ ¢¤ ³ σ2 ´ ³ σ2 ´
φY (u) = E exp ihu, AXi = E exp iht Au, Xi = exp − ||t Au||2 = exp − ||u||2 ,
2 2
dato che, essendo la matrice ortogonale,

ht Au,t Aui = hAt Au, ui = hu, ui = ||u||2 .

Si riconosce la f.c. di un campione di legge N (0, σ 2 ) (ved. (9.1)).

Ricordiamo che si chiama legge del chi–quadro a n gradi di libertà (indicata con il simbolo χ2 (n))
la legge Γ( n2 , 12 ). Si dice anche che X ha legge q · χ2 (n) se Xq ha legge χ2 (n).

(9.4) Esercizio. (a) Sia X una v.a. di legge N (0, σ 2 ). Calcolare la legge della v.a. X 2 .
(b) Mostrare che la legge χ2 (n) coincide con la legge di Z12 + · · · + Zn2 , dove le Zi sono indipendenti
e tutte di legge N (0, 1).

(9.5) Teorema (di Cochran). Sia E1 ⊕ · · · ⊕ Ek una decomposizione ortogonale di Rn in k


sottospazi di dimensioni rispettive r1 , . . . , rk (con r1 + · · · + rk = n), X un campione di taglia n e
legge N (0, σ 2 ); indichiamo con XEi la proiezione del vettore X sul sottospazio Ei ; allora le v. a.
XE1 , . . . , XEk sono indipendenti e ||XEi ||2 ha legge σ 2 · χ2 (ri ).

Dimostrazione. Sia η1 , . . . ηr1 una base ortonormale per il sottospazio E1 , ηr1 +1 , . . . ηr1 +r2 una
base per E2 , ... ηr1 +r2 +···+rk−1 +1 , . . . ηr1 +···+rk una base per Ek . Allora η1 , . . . ηr1 , . . . ηr1 +r2 +···+rk
formano una base ortonormale per Rn e la matrice A che ha per righe η1 , . . . ηr1 , . . . ηr1 +r2 +···+rk è
ortogonale; inoltre (AX)j = hX, ηj i. Quindi, per la proposizione P precedente, le v. a hX, ηj i sono
r1
tutte tra loro indipendenti e di legge N (0, σ 2 ). Essendo XE1 = j=1 hX, ηj iηj , si ha ||XE1 ||2 =
Pr1 2 2 2 2
j=1 hX, ηj i e quindi ||XE1 || ha legge σ · χ (r1 ). Analogamente per gli altri vettori XEi .

Assegnato un vettore aleatorio (X1 , . . . , Xn ), poniamo


Pn Pn
i=1 Xi 2 − X)2
i=1 (Xi
X= , S = .
n n−1

X e S 2 vengono chiamate rispettivamente media empirica e varianza empirica di X1 , . . . , Xn (le


abbiamo già incontrate).

Ricordiamo che si chiama


√ legge di Student a n gradi di libertà (denotata con t(n)) la legge di
una v. a. del tipo n √XY , dove X e Y sono due v. a. indipendenti, di leggi rispettive N (0, 1) e
χ2 (n). La legge t(n) ammette densità; una sua versione può essere calcolata con il metodo indicato
nell’esercizio che segue. Tale versione risulta essere una funzione pari, e dunque la t(n) è una legge
simmetrica.
Si può anche mostrare che la t(n) converge debolmente alla N (0, 1) per n → ∞. qSiano infatti
X, U1 , . . . Un variabili aleatorie indipendenti e tutte di legge N (0, 1); posto Wn = Pnn U 2 , la
k=1 k

62
v.a. XWn ha legge Pnt(n) 2. Per n → ∞, Wn converge a 1 q.c. (si tratta della radice quadrata
U
della reciproca di k=1 k
n , che converge q.c. a E[U12 ] = V arU1 = 1 per la legge forte dei grandi
numeri). Per il Lemma (8.14) X(Wn − 1) converge a 0 in probabilità, e per il lemma (8.16)
XWn = X(Wn − 1) + X converge a una N (0, 1) in legge.

(9.6) Esercizio. Siano X e Y due v. a. di densità congiunta (rispetto alla misura di Lebesgue
bidimensionale) f . Calcolare la densità (rispetto alla misura di Lebesgue sulla retta) della v. a.
Z=X Y .
Soluzione. Sia g una funzione boreliana. Allora
h ³ X ´i ZZ ³x´ Z +∞ Z +∞ ³ ´
x
E[g(Z)] = E g = g f (x, y)dxdy = dy g f (x, y) dx
Y R 2 y −∞ −∞ y
Z +∞ Z +∞ ³ ´ Z +∞ Z +∞ ³ ´ Z +∞
= dy g(z)f zy, y |y|dz = dz g(z) f zy, y |y|dy = dz g(z)h(z),
−∞ −∞ −∞ −∞ −∞

dove si pone
Z +∞ ³ ´
(i) h(z) = f zy, y |y|dy,
−∞

che è evidentemente la (una) densità per Z. In particolare, se X e Y sono indipendenti e di densità


rispettivamente f1 e f2 , allora
Z +∞
(ii) h(z) = |y|f1 (zy) · f2 (y) dy;
−∞

osserviamo che, se il vettore (X, Y ) prende valori in (R+ )2 le formule (8.5)(i) e (8.5)(ii) diventano
rispettivamente
µZ +∞ ³ ´ ¶ µZ +∞ ¶
h(z) = f zy, y ydy 1R+ (z), h(z) = yf1 (zy) · f2 (y) dy 1R+ (z).
0 0

Dal Teorema di Cochran discende un importante corollario, che utilizzeremo varie volte.

(9.7) Teorema. Sia X un campione di taglia n e legge gaussiana N (m, σ 2 ). Allora


(i) X e S 2 sono indipendenti.
σ2 X−m √
(ii) X
P ha legge N (m, n ) (in modo equivalente si può dire che σ n ha legge N (0, 1)).
n
(Xi −X)2 S 2 (n−1)
(iii) i=1
σ 2√ = σ2 ha legge χ2 (n − 1).
(X−m) n
(iv) S ha legge t(n − 1).

Dimostrazione. Il punto (ii) è un semplice esercizio. Segue dal fatto che X1 + · · · Xn (somma di
n variabili indipendenti tutte di legge N (m, σ 2 )) ha legge N (nm, nσ 2 )).

63
³ ´
(iii) Sia E1 il sottospazio generato dal vettore η1 = √1 , . . . , √1 , e sia E2 = E1⊥ . Posto Yi =
n n
Xi −m
σ , (Y1 , . . . , Yn ) è un campione di legge N (0, 1). D’altra parte
Pn Pn Pn
i=1 (Xi − m) X −m i=1 Yi
√ Yi √
Y = = ; YE1 = hY, η1 iη1 = √ η1 = n i=1 η1 = n Y η1 ;
nσ σ n n
Pn n ³
Xi − X ´2
n ³
(Xi − m) − (X − m) ´2 X
X X n
i=1 (Xi − X)2
= = = (Yi − Y )2
σ2 i=1
σ i=1
σ i=1
n
X n
X n
2 ¡ ¢ X 2
= Yi2 + nY − 2Y Yi = Yi2 − nY = ||Y ||2 − ||YE1 ||2 = ||YE2 ||2 .
i=1 i=1 i=1
Pn
(Xi −X)2
Dunque, per il Teorema di Cochran, i=1
σ2 = ||YE2 ||2 ha legge χ2 (n − 1).
(i) Ancora dal teorema di Cochran sappiamo che YE1 e YE2 sono indipendenti. Dunque anche
hY ,η i σ2
Y = E√1n 1 (funzione di YE1 ) e S 2 = n−1 ||YE2 ||2 (funzione di YE2 ), sono indipendenti.
(iv) Si può scrivere
√ √ r 2 √ v √
(X − m) n (X − m) n σ (X − m) n u σ2
(X−m) n

u σ
= · = · t Pn = q Pn · n − 1,
S σ S2 σ i=1
(Xi −X)2
i=1
(Xi −X)2
n−1 σ2

che ha legge t(n − 1) per la definizione di legge di Student e per i punti precedenti.
√ √
(9.8)Osservazione. Notare la somiglianza tra le due v.a. U = X−m σ n e V = X−m σ n; la
quantità σ, presente nell’espressione di U , è sostituita da S in quella di V , e quindi V dipende solo
dal campione (X1 , . . . , Xn ). Notiamo anche che V ha, come U , una legge nota (e che è assai simile
alla legge di U per n grande). Ciò fa prevedere la possibilità di utilizzare V al posto di U nel caso
che σ sia una quantità incognita.

(9.9) Esercizio. Siano (X1 , . . . , Xp ) e (Y1 , . . . , Yq ) due campioni gaussiani tra loro indipendenti,
di leggi rispettive N (m1 , σ 2 ) e N (m2 , σ 2 ).
Poniamo
Pp Pq Pp Pq
Xi Yi 2 (Xi − X)2 (Yi − Y )2
X = i=1 , Y = i=1 , SX = i=1 , SY2 = i=1 .
p q p−1 q−1
Mostrare che Pp Pq
2
(i) le v.a. X, Y e SX (p − 1) + SY2 (q − 1) = 2
i=1 (Xi − X) +
2
i=1 (Yi − Y ) sono tra loro
(globalmente) indipendenti;
³ ¡ ¢´
(ii) X − Y ha legge N m1 − m2 , σ 2 p1 + 1q ;
2
(iii) SX (p − 1) + SY2 (q − 1) ha legge σ 2 · χ2 (p + q − 2).
(iv) la v.a.

p + q − 2 · {(X − Y ) − (m1 − m2 )}
q qP Pq
1 1 p 2 2
p + q · i=1 (Xi − X) + i=1 (Yi − Y )

64
ha legge di Student a (p + q − 2) gradi di libertà.

Soluzione. I punti (ii) e (ii) possono essere ricavati come semplici conseguenze del Teorema ¡ ¢(9.7)
(per il punto (ii) si deve ricordare anche che la legge χ2 (n) non è altro che la legge Γ n2 , 12 ). Il
punto (iv) è conseguenza di (i), (ii) e (iii).
La verifica di (i) è analoga alla dimostrazione del Teorema (9.7). Per k = 1, 2, . . . , p + q poniamo

 X − m1
 k per 1 6 k 6 p
Zk = Y σ − m .

 k−p 2
per p + 1 6 k 6 p + q
σ
Allora Z = (Z1 , . . . , Zp+q ) è un campione di v.a. aventi legge N (0, 1). Consideriamo i due versori
ortogonali di Rp+q
³ 1 1 1 ´ ³ 1 1 1 ´
η1 = √ , √ , . . . , √ , 0, . . . , 0 , η2 = 0, . . . , 0, √ , √ , . . . , √ ;
p p p | {z } | {z } q q q
| {z } q volte p volte | {z }
p volte q volte

siano E1 e E2 i sottospazi di Rp+q generati rispettivamente da η1 e η2 e E3 il sottospazio ortogonale


a E1 ⊕ E2 . Per il Teorema di Cochran, le tre proiezioni ZE1 , ZE2 e ZE3 sono tra loro indipendenti.
D’altra parte
³Xp
Zi ´ √ ³ X Zi ´
p
√ ³ X Xi − m1 ´
p
√ ³ X − m1 ´
ZE1 = hZ, η1 iη1 = √ η1 = p η1 = p η1 = p η1 ,
i=1
p i=1
p i=1
σp σ

da cui si ricava
X − m1 hZE1 , η1 i hZE1 , η1 i
= √ , X =σ· √ + m1
σ p p
In modo analogo abbiamo
hZE2 , η2 i
Y =σ· √ + m2 ;
q
pertanto X è funzione di ZE1 e Y è funzione di ZE2 . Infine
p
X q
X
2
SX (p − 1) + SY2 (q − 1) = (Xi − X)2 + (Yi − Y )2
i=1 i=1
p
X q
X
2 2
= Xi2 − pX + Yi2 − qY
i=1 i=1
p
X ³ Pp Z ´2 p+q
X ³ Pp+q Zi ´2
2 i=1 i 2 i=p+1
= (σZi + m1 ) − p σ + m1 + (σZi + m2 ) − q σ + m2
i=1
p i=p+1
q
nX Pp Pp+q
2
p+q
2 ( i=1 Zi )2 ( i=p+1 Zi )2 o ³ ´
=σ Zi − − = σ 2 ||Z||2 − ||ZE1 ||2 − ||ZE2 ||2 = σ 2 · ||ZE3 ||2 .
i=1
p q

65
2
e quindi SX (p − 1) + SY2 (q − 1) è funzione di ZE3 . Le tre variabili X, Y e SX
2
(p − 1) + SY2 (q − 1)
sono dunque indipendenti in quanto funzioni di tre variabili indipendenti.

(9.10) Esercizio. Sia (X1 , . . . , Xn ) un campione di taglia n e legge N (m, σ)2 . Mostrare che gli
stimatori di massima verosimiglianza m̂ e σ̂ 2 rispettivamente di m e σ 2 sono
(i) stimatore di m: in ogni caso (cioè sia che la varianza sia nota sia che non lo sia), si ha m̂ = X;
(ii) stimatore di σ 2 : P n
(Xi −m)2
(a) se m è nota si ha σ̂ 2 = i=1
P
n ;
n
(Xi −X)2 n−1 2
(b) se m non è nota si ha σ̂ 2 = i=1
n = n S .

(9.11) Esercizio (in parte già visto in (3.9)). (a) Sia (X1 , . . . , XR n ) una famiglia di v. a. equidis-
tribuite con legge µ su R (non necessariamente gaussiana), con R x2 dµ(x) < +∞ ( e quindi sia la
R R
media m = R xdµ(x) che la varianza σ 2 = R (x − m)2 dµ(x) sono finite). Mostrare che X è uno
stimatore corretto di m.
(b) Se in più si suppone che le v. a. (X1 , . . . , Xn ) siano anche indipendenti (e dunque costituiscano
un campione di legge
P µ e di taglia n), allora
n
(Xi −m)2
(i) se m è nota, i=1
n è uno stimatore corretto di σ 2 ;
(ii) se m non è nota, S è uno stimatore corretto di σ 2 .
2

(c) Se µ è la legge N (m, σ)2 , le statistiche corrette trovate nei punti (a) e (b) precedenti sono, in
ciascun caso, funzioni della relativa statistica esaustiva completa. Dunque sono stimatori ottimali
nella classe D2c .

(9.12) Definizione. Si chiama vettore aleatorio gaussiano un vettore aleatorio X = (X1 , . . . , Xn )


tale che, per ogni u ∈ Rn , la v.a. hu, Xi sia una v. a. gaussiana.

Indicheremo con m = (E[X ¡ 1 ],¢. . . ,¡E[Xn ]) il vettore


¢ dei valori medi (mi = E[Xi ]), e con Γ la
matrice di covarianza Γ = Γi,j = Cov(Xi , Xj ) (Γ è semidefinita positiva, come ogni matrice di
covarianza). È facile provare che la v. a. hu, Xi ha media hu, mi e varianza hΓu, ui:
n n n
£X ¤ X £ ¤ X
E[hu, Xi] = E ui Xi = ui E Xi = ui mi = hu, mi;
i=1 i=1 i=1
n n n n
¡X X ¢ X X
V ar(hu, Xi) = Cov ui Xi , uj Xj = ui uj Cov(Xi , Xj ) = ui uj Γi,j = hΓu, ui.
i=1 j=1 i,j=1 i,j=1

(9.13) Teorema.(a) La legge di X è determinata da m e Γ, e denotata con Nn (m, Γ).


(b) Se X ha legge Nn (m, Γ), A è una matrice k × n e b ∈ Rk , allora Y = AX + b ha legge
Nk (Am + b, AΓAt )

Dimostrazione. (a) La funzione caratteristica di X è


£ ¡ ¢¤ ³ 1 ´
φX (u) = E exp ihu, Xi = ϕhu,Xi (1) = exp ihu, mi − hΓu, ui ,
2
66
ricordando la (9.2).
(b) Calcoliamo la funzione caratteristica di Y . Si ha
£ ¡ ¢¤ £ ¡ ¢¤ ¡ ¢ £ ¡ ¢¤
φY (u) = E exp ihu, Y i = E exp ihu, (AX + b)i = exp ihu, bi · E exp ihu, AXi
¡ ¢ £ ¡ ¢¤ ¡ ¢ ³ 1 ´
= exp ihu, bi · E exp ihtA u, Xi = exp ihu, bi · exp ihtA u, mi − hΓtA u,t A ui
2
¡ ¢ ³ 1 ´ ³ 1 ´
= exp ihu, bi · exp ihu, Ami − hAΓ A u, ui = exp ihu, Am + bi − hAΓtA u, ui .
t
2 2

(9.14) Osservazione. Se X = (X1 , . . . , Xn ) è un campione di legge N (0, 1), allora X è un vettore


gaussiano, di legge N (0, In ), dove In è la matrice identità n × n.

Ricordiamo l’enunciato del Lemma (6.19):

(9.15) Lemma. Sia Γ una matrice n × n simmetrica semidefinita positiva; allora esiste una matrice
simmetrica A n × n tale che Γ = A tA = A2 . Inoltre, se Γ è invertibile, anche A è invertibile.

(9.16) Teorema. (a) Fissati m ∈ Rn e Γ matrice simmetrica n × n semidefinita positiva, esiste


un vettore aleatorio di legge N (m, Γ).
(b) Se Γ è invertibile, la legge N (m, Γ) è assolutamente continua rispetto alla misura di Lebesgue
n−dimensionale, con densità
µ ¶
1 1
f (x) = p exp − hΓ−1 (x − m), (x − m)i .
(2π)n/2 |Γ| 2


Dimostrazione. (a) Sia X un vettore aleatorio di legge Nn (0, In ), e sia A = Γ la matrice del
lemma precedente (tale che A2 = Γ). Posto Y = AX + m, allora per Teorema precedente, punto
(b), Y ha legge Nn (A · 0 + m, AIn tA) = Nn (m, A2 ) = Nn (m, Γ).
−1
(b) Poniamo φ(x) = Ax + m. φ è invertibile e φ−1 (x) = A−1 (x − m), ∂φ∂x = A−1 ; per la nota
formula di cambio di variabili si ha
¯ ¯ µ ¶
¡ −1 ¢ ¯ ∂φ−1 ¯ 1 1 −1 ¯ ¯
fY (x) = fX φ (x) ¯ ¯ ¯= exp ||A (x − m)||2
· ¯A−1 ¯.
∂x ¯ (2π) n/2 2
¯ ¯ p
Dato che A2 = Γ, si ha |A2 | = |A|2 = |Γ|, quindi ¯A−1 ¯ = |A|−1 = ( |Γ|)−1 . Inoltre

||A−1 (x − m)||2 = hA−1 (x − m), A−1 (x − m)i = ht(A−1 )A−1 (x − m), (x − m)i
.
= h(A tA)−1 (x − m), (x − m)i = h(A2 )−1 (x − m), (x − m)i = h(Γ)−1 (x − m), (x − m)i

Sostituendo si trova la formula dell’enunciato.

10. I modelli lineari.

67
(10.1) Esempio introduttivo. L’esito di un certo fenomeno aleatorio (ad esempio il rendimento
di un certo terreno coltivato) è la somma di una funzione f (x) (dove f è sconosciuta) di una certa
quantità x (ad esempio x= quantità di concime impiegato) e di un “disturbo” aleatorio W di
varianza σ 2 , anch’essa sconosciuta.
Per valutare ragionevolmente f si fanno n prove (ad es. si concimano n terreni nello stesso modo).
In questa maniera si ottengono i risultati

Ym = f (xm ) + Wm , m = 1, 2, . . . , n,

e si suppone che le v. a. Wm siano centrate, non correlate e con varianza σ 2 .


Lo scopo dell’indagine è quello di ottenere informazioni su f e σ 2 . Per rendere il problema mate-
maticamente trattabile, si può approssimare f con un polinomio di grado k − 1, con k ≤ n:
k
X
f (x) ≈ xj−1 θj
j=1

e quindi le equazioni precedenti diventano


k
X
Ym = (xm )j−1 θj + Wm , m = 1, 2, . . . , n, k ≤ n.
j=1

Le v.a. Wm possono essere scritte nella forma Wm = σZm , dove le Zm sono centrate e tali che
Cov(Zi , Zj ) = δi,j . In definitiva il modello è diventato

k
X
Ym = (xm )j−1 θj + σZm , m = 1, 2, . . . , n, k≤n
j=1

e a questo punto ottenere informazioni su f e σ significa stimare i numeri θ1 , . . . , θk e σ 2 . I modelli


come quello qui indicato sono detti modelli di regressione, e sono un caso particolare dei cosiddetti
modelli lineari, di cui ora diamo la definizione.

(10.2) Definizione. Si chiama modello lineare un modello statistico nel quale l’osservazione è
formata da n v. a. della forma
k
X
Ym = am,j θj + σZm , m = 1, 2, . . . , n, , k ≤ n,
j=1

dove le incognite sono θ1 , . . . , θk e σ 2 .

Si suppone che il vettore aleatorio Z = (Z1 , . . . , Zn ) sia centrato e di matrice di covarianza In .


Inoltre, il modello può essere¡ rappresentato
¢ in forma vettoriale come Y = Aθ + σZ, dove si
pone θ = t(θ1 , . . . , θk ), A = am,j m≤n,j≤k , Z = t(Z1 , . . . , Zn ). Si suppone che l’applicazione
LA : Rk → Rn definita da LA (x) = Ax sia iniettiva (cioè che la matrice n × k A sia di rango
massimo (=k)).

68
Volendo rappresentare la situazione come un modello statistico, si prende Ω = Rn , F = B(Rn ), e
2
P θ,σ (legge di Y ) è l’immagine della legge di Z secondo l’applicazione z 7→ Aθ + σz.

Diremo che siamo nel caso gaussiano se la legge di Z è la N (0, In ) (cioè le Zm sono indipendenti
2
e tutte di legge N (0, 1)). In tal caso la P θ,σ ammette densità rispetto alla misura di Lebesgue su
Rn , data da µ ¶
2 1 1
f θ,σ (y) = exp − ||y − Aθ|| 2
.
(2π)n/2 σ n 2σ 2
Si ha
||y − Aθ||2 = hy − Aθ, y − Aθi = ||y||2 + ||Aθ||2 − 2hy, Aθi;
indichiamo con A(Rk ) il sottospazio chiuso di Rn immagine di Rk secondo l’applicazione LA e con
¶ la proiezione di Rn su A(Rk ). Allora si ha y = ¶y + z, con z ortogonale ad A(Rk ), e quindi

hy, Aθi = h¶y + z, Aθi = h¶y, Aθi + hz, Aθi = h¶y, Aθi.

Ne segue che
µ ¶
θ,σ 2 1 1 n 2 2
o
f (y) = exp − 2 ||y|| + ||Aθ|| − 2h¶y, Aθi − n log σ ;
(2π)n/2 2σ

dato che D¡ Aθ E h¶y, Aθi ||Y ||2


1 ¢ 2
2
,− , (¶Y, ||Y || ) = − ,
σ 2σ 2 σ2 2σ 2
si riconosce che siamo in presenza di un modello esponenziale e che (¶Y, ||Y ||2 ) è una statistica
esaustiva completa. In particolare ¶Y è uno stimatore di θ (osservare che ¶ manda Rn in A(Rk ),
che è un sottospazio di Rn a dimensione k (= numero dei θi ), in quanto A è di rango massimo).

In analogia al caso gaussiano, in un modello lineare considereremo solo degli stimatori lineari di θ,
cioè del tipo V Y , con V matrice k × n (e di conseguenza LV : Rn → Rk ).

Cominciamo con un lemma.

(10.3) Lemma. Siano A una matrice n × k di rango massimo e y ∈ Rn . Allora il vettore x ∈ Rk


¡t ¢
che rende minima la quantità ||y − Ax||2 è dato da x = U y, dove U = A A −1 (tA).

Dimostrazione. È noto che il vettore z di LA (Rk ) (cioè del tipo z = Ax per qualche x ∈ Rk ) che
rende minima la distanza di y da LA (Rk ) è z = ¶y, dove ¶ è la proiezione ortogonale di Rn su A(Rk ).
Dunque dovrà essere Ax = z = ¶y, e di conseguenza x è unico (se ¶y = Ax1 = Ax2 allora x1 = x2
perché A è di rango massimo). Esiste quindi un’applicazione U : Rn → Rk tale che il vettore x che
cerchiamo si può mettere nella forma x = U y, e cioè AUy = ¶y per ogni y ∈ Rn . In altre parole
abbiamo ¶ = AU . D’altra parte, t¶ = ¶ (siano u e v due vettori di Rn . Allora u = ¶u + a, dove a è
ortogonale a A(Rk ) e quindi hu, ¶vi = h¶u + a, ¶vi = h¶u, ¶vi + ha, ¶vi = h¶u, ¶vi. Analogamente
h¶u, vi = h¶u, ¶vi. Quindi h¶u, vi = hu, ¶vi). Dato che A = ¶A, si ha anche
t
¡ ¢ ¡ ¢
A = t ¶A = tAt ¶ = tA¶ = tAA U.

69
Da questa relazione segue la tesi, a patto che tAA sia invertibile. Osserviamo che k k
¡ t L¢tAA : R → R .
t
Dunque AA ¡è invertibile
¢ se e solo se L tAA è iniettiva, ovvero se e solo se AA x = 0 implica
x = 0. Ma se tAA x = 0, allora
¡ ¢
0 = h tAA x, xi = hAx, Axi = ||Ax||2 ,

da cui segue Ax = 0 e quindi x = 0, perché LA è iniettiva (essendo A di rango massimo).

Diremo che uno stimatore vettoriale è corretto se è corretto componente per componente.

(10.4)Teorema(di Gauss–Markov). Lo stimatore UY è uno stimatore corretto di θ, ottimale nella


classe degli stimatori lineari corretti di θ, e ||AU Y − Y ||2 è uno stimatore corretto di (n − k)σ 2 .
Nel caso gaussiano, tali stimatori sono ottimali tra tutti gli stimatori corretti (lineari e non, per
quanto riguarda θ) di θ e (n − k)σ 2 rispettivamente.

Dimostrazione. Sia V Y uno stimatore lineare. V Y è uno stimatore corretto di θ se e solo se


2
θ = E θ,σ [V Y ] = E[V (Aθ + σZ)] = V Aθ + σV E[Z] = V Aθ

(perché Z è centrato). Dunque si deve avere V A = Ik , e in effetti U ha questa proprietà . Infatti,


per il Lemma precedente,
n¡ ¢ o ¡t ¢
t
UA = A A −1 (tA) A = A A −1 (tA A) = Ik .

Quindi UY è uno stimatore corretto. Valutiamo il rischio di uno stimatore corretto (generico) V Y .
Esso è uguale a
2
E θ,σ [||V Y − θ||2 ] = E[||V (Aθ + σZ) − θ||2 ] = E[||V Aθ + σV Z − θ||2 ] = σ 2 E[||V Z||2 ]

(perché V A = Ik ). D’altra parte


X³X ´2 X³X ´³ X ´ X³X ´
||V Z||2 = vi,j Zj = vi,j Zj vi,k Zk = vi,j vi,k Zj Zk ,
i j i j k i j,k

e, passando alla speranza


X³X ´ X³X ´ X³X ´
E[||V Z||2 ] = vi,j vi,k E[Zj Zk ] = vi,j vi,k δj,k = 2
vi,j
i j,k i j,k i j
X
2 2
= vi,j = ||V || ,
i,j

per cui si ottiene


2
E θ,σ [||V Y − θ||2 ] = σ 2 ||V ||2 .
Dunque, volendo trovare lo stimatore ottimale, cioè di rischio minimo, nella classe degli stimatori
lineari, bisogna minimizzare la quantità ||V ||2 sotto la condizione V A = Ik . Mostriamo che lo

70
stimatore UY è appunto quello che minimizza tale quantità . Osserviamo
¡ che,
¢ per ogni V tale
che V A = Ik , si ha (ricordando che AU = ¶) U = Ik U = V AU = V AU = V ¶, e quindi
t
U =t ¶ t V = ¶ t V, da cui

||U||2 = ||t U||2 = ||¶ t V ||2 ≤ ||t V ||2 = ||V ||2 ,

poiché la proiezione diminuisce la norma.


Passiamo a considerare lo stimatore ||AUY − Y ||2 . Si ha AU Y − Y = ¶Y − Y = ¶(Aθ + σZ) −
Aθ + σZ = σ(¶Z − Z), ricordando che ¶A = A. Quindi E[||AUY − Y ||2 ] = σ 2 E[||¶Z − Z||2 ]. Per
dimostrare che ||AU Y − Y ||2 è uno stimatore corretto di σ 2 (n − k), bisogna allora far vedere che
E[||¶Z − Z||2 ] = n − k. Se ¶ fosse la proiezione sul sottospazio generato dalle prime k coordinate,
avremmo ¶Z − Z = (0, . . . , 0, Zk+1 , . . . , Zn ), e la cosa sarebbe allora ovvia perché
| {z }
kvolte
£ 2 ¤
E[||¶Z − Z||2 ] = E Zk+1 + · · · Zn2 = n − k,

ricordando che E[Zi Zj ] = δi,j .


Nel caso generale, si vede facilmente che, se B è una matrice n × n ortogonale, allora il vettore
W = BZ ha le stesse proprietà di Z, cioè si ha ancora E[Wi Wj ] = δi,j (infatti, in generale si ha
ΓW = BΓZ t B, in quanto
£X X ¤ £X ¤ X £ ¤
E[Wi Wj ] = E ( bi,h Zh ) bj,k Zk ) = E bi,h bj,k Zh Zk = bi,h bj,k E Zh Zk .
h h h,k h,k
³ £ ¤´
Dato che E Zh Zk = (γh,k ) = ΓZ , e t B = (b̃k,j ) = (bj,k ), l’espressione precedente si può
h,k
scrivere nella forma X
bi,h γh,k b̃k,j ,
h,k

e vi si riconosce l’elemento di posto (i, j) della matrice BΓZ t B. Nel nostro caso particolare
abbiamo allora ΓW = BΓZ t B = BIn t B = In ).
Basta allora considerare la matrice B che cambia la base in modo che i primi k elementi generino
il sottospazio (a dimensione k) A(Rk ) su cui ¶ proietta, e in questo modo ci si riconduce al caso
precedente.
Se siamo nel caso gaussiano, allora abbiamo visto prima che (¶Y, ||Y ||2 ) è una statistica esaustiva
completa. Dunque per i risultati generali sulle statistiche esaustive complete, per vedere che UY e
||AU Y − Y ||2 sono stimatori ottimali, basta far vedere che sono funzioni della statistica completa.
Osserviamo prima di tutto che U = U¶. Infatti
¡t ¢ ¡t ¢ ¡t ¢ ©¡t ¢ ª
U = A A −1 (tA) = A A −1 t(¶A) = A A −1 (tA)(t¶) = A A −1 (tA) ¶ = U¶.

Dunque U Y = U(¶Y ) è funzione di ¶Y . Inoltre, per il teorema di Pitagora ||Y ||2 = ||¶Y ||2 + ||Y −
¶Y ||2 , da cui (ricordando che AU = ¶)

||AUY − Y ||2 = ||¶Y − Y ||2 = ||Y ||2 − ||¶Y ||2 ,

71
e quindi anche ||AU Y − Y ||2 è funzione della statistica completa.

(10.5) Osservazione. Per il calcolo effettivo di UY (ω) si procede cosı̀. Noi abbiamo a disposizione
l’osservazione Y (ω), e sappiamo dal Teorema di G–M. che la stima lineare di θ deve essere UY (ω).
Dal Lemma che precede il Teorema di G–M, sappiamo che UY (ω) minimizza ||Y (ω)−A(UY (ω))||2 .
Dunque si cerca il vettore θ0 ∈ Rk in cui si realizza il minimo della funzione
n ³
X k
X ´2
θ 7→ ||Y (ω) − Aθ||2 = Ym (ω) − am,j θj ,
m=1 j=1

e si pone UY (ω) = θ0 . In casi come questo si usa dire che si stima θ nel senso dei minimi quadrati.
In pratica si annullano le derivate parziali rispetto a θ1 , . . . , θk .

(10.6) Esempio. Torniamo al modello di regressione che abbiamo visto all’inizio, e cioè
k
X
Ym = (xm )j−1 θj + σZm , m = 1, 2, . . . , n.
j=1

con k ≤ n e x1 6= x2 6= · · · 6= xn . Allora è ben noto che la matrice A data da


1 x1 ... xk−1 
1
1 x2 ... xk−1
2 
A=
 .. .. .. 

. . .
k−1
1 xn ... xn

ha sempre rango massimo. Annullando le derivate parziali si arriva alle equazioni


k
X
di = ci,j θj ,
j=1

dove
n
X n
X
di = Ym (ω)xi−1
m , ci,j = xi+j−2
m .
m=1 m=1

11. Cenni sulle regioni di fiducia (o di confidenza)

Premettiamo la nozione di quantile. Sia F una funzione di ripartizione.

Per ogni u ∈ (0, 1) poniamo

Su = {x ∈ R : F (x) ≥ u}, F ← (u) = inf Su = inf{x ∈ R : F (x) ≥ u}.

La funzione F ← cosı̀ definita non è altro che dell’inversa generalizzata di F . Tuttavia in Statistica
si usa chiamarla preferibilmente funzione quantile di F (meglio: della legge definita da F ). Se
α ∈ (0, 1), il numero F ← (α) si chiama quantile di ordine α di F .

72
La Proposizione seguente elenca le principali proprietà di F ← .

(11.2) Proposizione Valgono le seguenti proprietà:


(i) F (x) > u ⇐⇒ F ← (u) 6 x.
(ii) F (x) < u ⇐⇒ F ← (u) > x.
(iii) F ¡(x1 ) < u¢ 6 F (x2 ) ⇐⇒ x1 < F ← (u) 6 x2 .
(iv) F F¡ ← (u)¢ > u per ogni u ∈ [0, 1]. In più, se F è continua, la diseguaglianza è un’eguaglianza.
(v) F ← F (x) 6 x per ogni x ∈ R. In più, se F è (strettamente) crescente, la diseguaglianza è
un’eguaglianza.
(vi) F è continua se e solo se F ← è (strettamente) crescente.
(vii) F è (strettamente) crescente se e solo se F ← è continua.
¡ ¡ ¢ ¢
(viii) Se la v.a. X ha funzione di ripartizione F , allora P F ← F (x) 6= X = 0.

Si lascia la dimostrazione per esercizio; tuttavia, dato che saranno usate in seguito (nella di-
mostrazione del Teorema (23.2)), a titolo di esempio mostriamo direttamente due proprietà di F ←
( in realtà sono solo conseguenze della Proposizione (11.2)).
(1) Se u ≤ v allora F ← (u) ≤ F ← (v).
Infatti in tal caso Sv ⊆ Su e quindi F ← (u) = inf Su ≤ inf Sv = F ← (v).
(2)F (F ← (u)− ) ≤ u ≤ F (F ← (u)).
Infatti
(a) Sia t < F ← (u). Allora, osservato che Su è una semiretta destra di R (per la non decrescenza di
F ) di origine F ← (u), t non appartiene a Su , e quindi F (t) < u. Passando al limite per t ↑ F ← (u)
si ha la prima delle due diseguaglianze da dimostrare.
(b) Per definizione di estremo inferiore, esiste una successione xn ∈ Su tale che xn ↓ φ(u). Dato che
xn ∈ Su , si ha u ≤ F (xn ) e passando al limite in n, si trova u ≤ limn→∞ F (xn ) = limt↓F ← (u) F (t) =
F (F ← (u)), per la continuità a destra di F .

Mentre nei problemi di stima puntuale studiata nel paragrafo 3 si cerca di identificare il parametro
che regola un certo fenomeno aleatorio, nella teoria delle regioni di fiducia si cerca di identificare
un sottoinsieme di Θ a cui il parametro appartiene con una probabilità abbastanza alta. Più
precisamente si dà la seguente definizione.

(11.3) Definizione. Siano α ∈ (0, 1), S : Ω → P(Θ) una funzione tale che, per ogni θ ∈ Θ,
l’insieme {ω ∈ Ω : S(ω) non contiene θ} (che si scrive preferibilmente, anche se in modo un po’
improprio, nella forma {θ ∈ / S}) appartenga alla tribù F. Si dice che S è una regione di fiducia di
livello 1 − α se, per ogni θ ∈ Θ, risulta

P θ (θ ∈
/ S) ≤ α.

(11.4) Osservazione. Se Θ ⊆ R, le regioni di fiducia che si costruiscono nella pratica sono in


genere degli intervalli della retta (limitati o no).

(11.5) Esempio. Costruire un intervallo di fiducia di livello 0.95 per il parametro θ dell’esponenzia-
le, basato su una sola osservazione X (cioè sul campione unidimensionale X).

73
Significa che si devono trovare due funzioni t1 (X) e t2 (X) tali che
¡ ¢
P θ t1 (X) ≤ θ ≤ t2 (X) ≥ 0.95.

Partiamo da questa semplice osservazione: se X ha legge E(θ), allora la variabile Y = θX ha


legge∼ E(1). Infatti, per t > 0 si ha

P (Y ≤ t) = P (θX ≤ t) = P (X ≤ t/θ) = 1 − e−t .

Di conseguenza, ∀a, b > 0 con a < b si ottiene

P θ (a ≤ Y ≤ b) = (1 − e−b ) − (1 − e−a ) = e−a − e−b ,

il che equivale a µ ¶
a b
Pθ ≤θ≤ = e−a − e−b .
X X
Allora poniamo
a b
t1 (X) = , t2 (X) = ,
X X
dove le costanti a e b sono scelte in modo che e−a − e−b = 0.95.

(11.6) Osservazione. Il metodo qui seguito, e che verrà usato sistematicamente nel seguito, è
quello cosiddetto della quantità pivotale, che consiste nel determinare una funzione di X1 , . . . , Xn
e del parametro θ, Q(X1 , . . . , Xn , θ) (X e θ nell’esempio), invertibile rispetto alla variabile θ, in
modo che la legge P θ (Q(X1 , . . . , Xn , θ) ∈ A) non dipenda da θ.

Nota. Nei paragrafi seguenti X1 , . . . , Xn sarà un campione di taglia n e di legge N (µ, σ 2 ); inoltre
gli intervalli che costruiremo saranno tutti di livello 1 − α fissato. Indicheremo con Φ la f.d.r.
della legge N (0, 1) e con φα il quantile di ordine α di tale legge (ossia la funzione inversa di Φ:
φα = Φ−1 (α)).

(11.7) Intervalli di fiducia per la media della Normale con varianza nota.

Si parte dall’osservazione che


X − µ√
Y = n ∼ N (0, 1).
σ

(a) Intervallo bilaterale. Dalla relazione

P µ (a ≤ Y ≤ b) = Φ(b) − Φ(a)

si ricava
Φ(b) − Φ(a)
µ ¶ µ ¶
µ X − µ√ µ σ σ
=P a≤ n≤b =P X− √ b≤µ≤X− √ a .
σ n n

74
Pertanto basterà trovare a e b in modo che

Φ(b) − Φ(a) = 1 − α.

Siano β e γ due numeri reali ∈ [0, 1] tali che b = φβ , a = φγ ; allora si ha

Φ(b) − Φ(a) = β − γ.

Pertanto basterà scegliere β e γ in modo che risulti β −γ = 1−α. Una scelta possibile è β = 1−α/2,
γ = α/2, (cioè b = φ1−α/2 , a = φα/2 = −φ1−α/2 , dove l‘ultima uguaglianza segue dalla nota
proprietà dei quantili della legge normale standard).
L‘intervallo risultante è allora
µ ¶
σ σ
(∗) X − √ φ1−α/2 , X + √ φ1−α/2 .
n n

Osservazione. La scelta fatta non è ovviamente l’unica possibile: ad esempio β = 1 − α/3,


γ = 2(α/3) va ancora bene. Tuttavia l’intervallo (∗) è quello di ampiezza minima, (cioè dà la stima
migliore possibile, al livello 1 − α assegnato); dimostrazione per esercizio (segue dalla convessità
della funzione α 7→ φα ).

(b) Intervallo unilaterale destro. Il termine significa che si vuole trovare una limitazione
per µ solo dal basso, cioè del tipo H < µ (il termine “destro” si spiega osservando che in tal caso
µ ∈ (H, +∞), semiretta destra).
Questa volta partiamo dalla relazione

P µ (Y ≤ b) = Φ(b),

che equivale a µ ¶
µ σ
P X − √ b ≤ µ = Φ(b).
n
Se b = φβ , allora basterà che
1 − α = Φ(b) = β,
ovvero, semplicemente, b = φ1−α , e l’intervallo è
µ ¶
σ
X − √ φ1−α , +∞ .
n

(c) Intervallo unilaterale sinistro. Non ripeteremo i calcoli, che sono analoghi ai precedenti.
Si trova l’intervallo µ ¶ µ ¶
σ σ
− ∞, X − √ φα = − ∞, X + √ φ1−α ,
n n
ricordando la relazione −φα = φ1−α (dimostrazione: si fa vedere che Φ(−φα ) = Φ(φ1−α ) usando la
definizione di quantile e la relazione Φ(t) = 1 − Φ(−t), valida per la simmetria della legge N (0, 1)).

75
(11.8) Osservazione. La scelta del tipo di intervallo da considerare è in genere legata alla situa-
zione pratica (se si deve avere una stima sia da destra che da sinistra calcoleremo un intervallo
bilaterale, se invece occorre stimare il parametro solo dal basso cercheremo un intervallo unilaterale
destro, e cosı̀ via).

(11.9) Osservazione. Per quanto riguarda le stime da sinistra 8nilaterale e bilaterale si ha

σ σ
X − √ φ1−α/2 ≤ X − √ φ1−α
n n

Per le stime da destra vale ovviamente la diseguaglianza inversa. (dimostrazione per esercizio).

Indichiamo con tα,n il quantile di ordine α della legge t(n). A causa della simmetria della legge
t(n), anche per questi quantili vale la relazione −tα,n = t1−α,n .

(11.10) Intervalli di fiducia per la media della Normale con varianza non nota.

Nella pratica gli intervalli del paragrafo precedente sono di scarsa utilità, perché nelle formule che
li definiscono interviene la varianza σ 2 , che in genere non si conosce.
In questo caso si può sostituire σ 2 con
Pn
− X)2
i=1 (Xi
S2 =
n−1

(che ne è uno stimatore), e applicare di nuovo il metodo della quantità pivotale partendo dalla v.
a.
X − µ√
Z= n ∼ t(n − 1),
S
(corollario al teorema di Cochran). Osservando che l’unica proprietà della legge normale standard
che abbiamo usato è stata la simmetria (a proposito dei quantili, nella relazione −φα = φ1−α ), e
ricordando che anche la legge t di Student è simmetrica, risulta chiaro che tutto ciò che abbiamo
detto nel paragrafo precedente si può ripetere, semplicemente sostituendo σ con S e i quantili della
N (0, 1) con quelli della t(n − 1). Per comodità di chi legge, riportiamo comunque le formule finali.
Il quantile di ordine α della t(n) sarà indicato con il simbolo tα,n .

(a) Intervallo bilaterale.


µ ¶
S S
X − √ t1−α/2,n−1 , X + √ t1−α/2,n−1 .
n n

(b) Intervallo unilaterale destro.


µ ¶
S
X− √ t1−α,n−1 , +∞ .
n

76
(c) Intervallo unilaterale sinistro.
µ ¶
S
− ∞, X + √ t1−α,n−1 .
n

Indichiamo con χα,n il quantile di ordine α della legge χ(n).

(11.11) Intervalli di fiducia per la varianza della Normale con media nota.

Qui si parte osservando che la v. a.


Pn
i=1 (Xi − µ)2
Y =
σ2

ha legge χ2 (n). Posto Pn


2 i=1 (Xi − µ)2
U = ,
n
(che, come sappiamo, è uno stimatore della varianza) si può scrivere

nU 2
Y = .
σ2

(a) Intervallo bilaterale. Indichiamo con Fn la funzione di ripartizione della χ2 (n). Allora si
ha 2
Fn (b) − Fn (a) = P σ (a ≤ Y ≤ b)
µ ¶ µ ¶
σ2 nU 2 σ 2 nU
2
2 nU 2
=P a≤ 2 ≤b =P ≤σ ≤ .
σ b a
Quindi, se al solito poniamo b = χ2β,n , a = χ2γ,n , avremo

1 − α = Fn (b) − Fn (a) = β − γ.

Una scelta possibile è β = 1 − α/2, γ = α/2, e si ottiene l’intervallo


µ ¶
nU 2 nU 2
, .
χ21−α/2,n χ2α/2,n

Gli intervalli unilaterali si ottengono in modo analogo. Riportiamo solo le formule finali.

(b) Intervallo unilaterale destro.


µ ¶
nU 2
, +∞ .
χ21−α,n

77
(c) Intervallo unilaterale sinistro.
µ ¶
nU 2
0, 2 .
χα,n

(11.12) Intervalli di fiducia per la varianza della Normale con media non nota.

Poiché normalmente la media non è nota, si può cercare di sostituire µ con il suo stimatore X,
usando, al posto di U 2 , la v. a. Pn
(Xi − X)2
S 2 = i=1
n−1
(che è ancora uno stimatore della varianza). Quindi applicheremo il metodo della quantità pivotale
a partire dalla v. a.
(n − 1)S 2
Z= ,
σ2
che, dal corollario al teorema di Cochran, sappiamo avere legge χ2 (n − 1). Dunque, per avere i tre
nuovi intervalli basterà sostituire nelle formule del paragrafo precedente n − 1 al posto di n (e i
quantili della χ2 (n − 1) al posto di quelli della χ2 (n)). Si ottengono cosı̀ le espressioni che seguono:

(a) Intervallo bilaterale. µ ¶


(n − 1)S 2 (n − 1)S 2
, .
χ21−α/2,n−1 χ2α/2,n−1

(b) Intervallo unilaterale destro.


µ ¶
(n − 1)S 2
, +∞ .
χ21−α,n−1

(c) Intervallo unilaterale sinistro.


µ ¶
(n − 1)S 2
0, .
χ2α,n−1

12. Teoria dei test

Fare un test statistico significa formulare un’ipotesi riguardante il parametro θ ∈ Θ (che non è
noto) e pianificare un’esperienza per decidere se tale ipotesi può essere ritenuta vera, e quindi
accettata.

Un’ipotesi statistica (usualmente indicata con il simbolo H0 e talvolta denominata ipotesi nulla) e
la sua negazione, cioè l’ alternativa (indicata con il simbolo H1 ) si formalizzano nel modo seguente.

78
¡ ¢
Dato il modello statistico Ω, F, (P θ , θ ∈ Θ) , si assegna una partizione dell’insieme Θ dei parametri
in due sottoinsiemi non vuoti Θ0 e Θ1 (dunque Θ0 ∪ Θ1 = Θ e Θ0 ∩ Θ1 = ∅).

(12.1) Esempio. Nell’esempio iniziale del controllo di qualità , supponiamo di voler sottoporre a
test l’ipotesi H0 = la probabilità che un generico pezzo sia difettoso è < 0.1 La formalizzazione è
la seguente
Θ = (0, 1), Θ0 = (0, 0.1), Θ1 = [0.1, 1)
e dobbiamo pianificare un’esperimento che ci permetta di discriminare tra l’ipotesi H0 : θ ∈ Θ0
(cioè θ < 0.1) e l’alternativa H1 : θ ∈ Θ1 (cioè θ ≥ 0.1).

(12.2) Definizione. Si chiama funzione di test una funzione Φ : Ω → {0, 1} misurabile, cioè della
forma Φ = 1D , con D ∈ F. D = {ω ∈ Ω : Φ(ω) = 1} si chiama regione di rigetto o di rifiuto, o
anche regione critica del test. Essa va interpretata come l’insieme dei risultati dell’esperimento che
inducono (meglio sarebbe dire “obbligano”) lo sperimentatore a ritenere che l’ipotesi H0 sia falsa,
e, come tale, a respingerla. In modo simmetrico, l’evento Dc si chiama regione di accettazione del
test.

(12.3) Osservazione. Identificheremo spesso un test con la sua regione critica: diremo quindi “il
test D” invece che “il test di regione critica D”.

(12.4) Esempio. Ancora nell’esempio del controllo di qualità (con l’ipotesi H0 stabilita in (12.1.)),
supponiamo che l’esperimento da effettuare consista nel provare 100 pezzi, e che si sia deciso di
rifiutare l’ipotesi nel caso che il numero di pezzi difettosi risulti maggiore (strettamente) di 11. La
formalizzazione della situazione è allora la seguente.
Si prende il modello statistico (Ω, F, (P θ , θ ∈ Θ)) (che rappresenta
P la successione
P delle 100 prove
di Bernoulli), in cui Ω = {0, 1}100 , F = P(Ω), P θ (ω) = θ i ωi (1 − θ)100− i
ωi
(in cui ωi = 1
P100
significa che l’i−esimo pezzo è difettoso). Poniamo poi T (ω) = i=1 ωi e
½
0 se T (ω) ≤ 11
Φ(ω) = .
1 se T (ω) ≥ 12

Allora Φ è la funzione test e si può scrivere Φ = 1D , dove D = {ω ∈ Ω : T (ω) ≥ 12} è la regione


critica del test.

(12.5) Osservazione. Poniamo ½


0 se θ ∈ Θ0 ,
g(θ) =
1 se θ ∈ Θ1
(a parole potremmo dire che g(θ) è l’indice di quello tra i due sottoinsiemi Θ0 e Θ1 a cui θ
appartiene). Allora la funzione Φ = 1D sopra introdotta non è altro che uno stimatore di g(θ)
(nel senso della definizione data a suo tempo): significa che, nell’eventualità che ω ∈ Dc (cioè
Φ(ω) = 0), allora decidiamo che θ ∈ Θ0 (e cioè g(θ) = 0), e quindi accettiamo H0 , mentre se ω ∈ D
(cioè Φ(ω) = 1), allora diciamo che θ ∈ Θ1 (e cioè g(θ) = 1), e quindi rifiutiamo H0 .

Generalmente si ha a disposizione un certo numero di test, e bisogna decidere quale è il più affida-
bile. L’osservazione precedente (cioè l’interpretazione della funzione di test come uno stimatore)

79
ci dice che ciò è possibile introducendo anche in questo caso (come per gli stimatori) un costo.
Precisamente

(12.6) Definizione. Il costo in un problema di test è la funzione C : Θ × {0, 1} → R definita da


½
a se θ ∈ Θ0
C(θ, a) =
1−a se θ ∈ Θ1 .

Ricordiamo che il costo relativo alla stima U (ω) è definito come C(θ, U (ω)). Dunque nel nostro caso
vale C(θ, 1D (ω)): se θ ∈ Θ0 e decidiamo che θ ∈ Θ0 , allora non paghiamo alcun costo; viceversa,
se θ ∈ Θ1 e decidiamo che θ ∈ Θ0 , allora paghiamo un costo (unitario) (e in modo simmetrico: se
θ ∈ Θ1 e decidiamo che θ ∈ Θ1 , allora non paghiamo alcun costo; viceversa, se θ ∈ Θ1 e decidiamo
che θ ∈ Θ0 , allora paghiamo un costo (unitario)).

Di conseguenza il rischio dello “stimatore” 1D è


½
θ E θ [1D ] = P θ (D) per θ ∈ Θ0
R(θ, 1D ) = E [C(θ, 1D )] =
1 − E θ [1D ] = P θ (Dc ) per θ ∈ Θ1 .

La decisione che prenderemo (θ ∈ Θ0 oppure θ ∈ Θ1 ) dipende dal risultato dell’esperimento, ed è


dunque aleatoria. C’è dunque una probabilità di prendere una decisione sbagliata. Precisamente:

(12.7) Definizione. (a) Si chiama errore di prima specie l’errore che consiste nel respingere a
torto l’ipotesi H0 (l’esperimento che abbiamo effettuato ha dato un risultato ω ∈ D ma in realtà
θ ∈ Θ0 ). La probabilità di commettere questo tipo di errore è il numero P θ (D), per θ ∈ Θ0 .
(b) Si chiama errore di seconda specie l’errore che consiste nell’accettare a torto l’ipotesi H0
(l’esperimento ha dato un risultato ω ∈ Dc ma in realtà θ ∈ Θ1 ). La probabilità di commet-
tere questo tipo di errore è il numero P θ (Dc ), per θ ∈ Θ1 .

Seguendo ancora la terminologia introdotta per gli stimatori, possiamo dare la definizione seguente:

(12.8) Definizione. Un test (di regione critica) D è preferibile ad un test (di regione critica) D∗
se R(θ, 1D ) ≤ R(θ, 1D∗ ) per ogni θ ∈ Θ. Ricordando l’espressione del rischio, si deve cioè avere

P θ (D) ≤ P θ (D∗ ) per θ ∈ Θ0


P θ (D) ≥ P θ (D∗ ) per θ ∈ Θ1 .

(ovvero, se l’ipotesi è vera, è meno probabile respingerla con il test (di regione critica) D piuttosto
che con il test (di regione critica) D∗ . Il contrario se l’ipotesi è falsa).

In modo analogo si possono dare le definizioni di test strettamente preferibile, test ammissibile e
test ottimale.

Con la relazione di preferibilità si ottiene solo un ordinamento parziale fra test: esistono infatti
test tra loro non confrontabili (come accadeva per gli stimatori).

80
Esiste un altro criterio di ordinamento tra test, nel quale, a differenza del precedente, H0 e H1
non giocano un ruolo simmetrico. Spesso infatti si ritiene che sia meglio accettare un’ipotesi falsa
piuttosto che respingere un’ipotesi vera. Come esempio, si può pensare ad un test sul DNA usato
per decidere la colpevolezza di una persona accusata di omicidio in uno stato dove per questo reato
è prevista la pena di morte: se l’ipotesi H0 corrisponde all’affermazione “l’imputato è innocente”,
e H1 all’affermazione “l’imputato è colpevole”, accettare l’ipotesi falsa equivale a mandare libero
un assassino, ma respingere l’ipotesi vera significa condannare a morte un innocente, cosa ben più
grave.
In altri termini si considera meno grave commettere un errore di seconda specie piuttosto che uno
di prima specie. Questo conduce ad una nuova relazione di preordinamento sulle funzioni test, che
traduce il fatto che lo sperimentatore deve cautelarsi contro la possibilità di commettere un errore
di prima specie.

(12.8) Definizione. (a) Si chiama taglia del test la “massima probabilità di errore di prima
specie”, cioè il numero supθ∈Θ0 P θ (D).
(b) Fissato α ∈ (0, 1), si dice che il test è di livello α se la sua taglia è minore o uguale ad α:

sup P θ (D) ≤ α.
θ∈Θ0

Contrariamente al caso in cui θ ∈ Θ0 , nel caso in cui θ ∈ Θ1 , P θ (D) rappresenta la probabilità di


fare la scelta giusta. Questo giustifica la definizione seguente:

(12.9) Definizione. La funzione definita su Θ1 da θ 7→ P θ (D) si chiama potenza del test.

(12.10) Osservazione. In genere, H0 è un’ipotesi che si spera di poter respingere, cioè si tratta di
un’ipotesi per cosı̀ dire “allarmante”; in quest’ottica, la quantità 1−P θ (D), con θ ∈ Θ1 (probabilità
di accettare a torto H0 ) è spesso chiamata probabilità di “falso allarme”, o probabilità di “falso
positivo”. In particolare la seconda espressione è comune (e ben nota a tutti) per i test medici, e
si usa anche nell’ambito degli studi sulla sicurezza informatica.

Allo scopo di garantirsi contro la possibilità di errore di prima specie, si fissa per prima cosa un
livello α; in altri termini, il numero α è la “massima probabilità di errore di prima specie che
lo sperimentatore è disposto a tollerare”. D’altro canto, è anche auspicabile che la potenza non
sia troppo bassa (perché questo significherebbe una probabilità bassa di fare la scelta corretta
nel caso che sia vera l’alternativa). Dunque, se Dα è la classe dei test di livello α, si dice che il
test (di regione critica) D è uniformemente il più potente (abbreviato in UPP, o UMP, uniformly
most powerful in inglese) tra i test di livello α se D ∈ Dα e D è più potente di ogni altro test D∗
appartenente a Dα , cioè se, per ogni D∗ ∈ Dα , si ha

P θ (D) ≥ P θ (D∗ ), ∀ θ ∈ Θ1 .

In altre parole si cerca di scegliere il test D la cui potenza sia la più alta possibile (tra i test di
Dα ).

81
(12.11) Osservazione. La teoria delle regioni di fiducia può essere considerata un caso particolare
della teoria dei test. Fissiamo infatti θ0 ∈ Θ e consideriamo il test d’ipotesi H0 : θ = θ0 contro
l’alternativa H1 : θ 6= θ0 . Supponiamo che D(θ0 ) sia la regione critica di un test di livello α
dell’ipotesi H0 contro l’alternativa H1 .

Supponiamo di avere scelto D(θ) con questo procedimento per ogni θ ∈ Θ (mantenendo fisso α);
consideriamo la regione di fiducia S : Ω → P(Θ) definita da

S(ω) = {θ ∈ Θ : ω ∈
/ D(θ)}.

Si ha subito ¡ ¢ ¡ ¢
P θ (θ ∈
/ S) = P θ {ω : ω ∈ D(θ)} = P θ D(θ) ≤ α,
e quindi S è una regione di fiducia di livello 1 − α.
Viceversa, se S è una regione di fiducia di livello 1 − α, l’insieme D(θ0 ) = {ω : θ0 ∈ / S(ω)} è la
regione critica di un test di livello α dell’ipotesi H0 : θ = θ0 contro l’alternativa θ 6= θ0 . Infatti in
questo caso Θ0 = {θ0 } e quindi
¡ ¢ ¡ ¢
sup P θ D(θ0 ) = P θ0 D(θ0 ) = P θ0 (θ0 6∈ S) ≤ α.
θ∈Θ0

13. Il lemma di Neymann–Pearson

In questo paragrafo studieremo il caso in cui Θ = {0, 1}. I risultati che otterremo potranno essere
poi applicati anche a casi più generali.

Si dice che l’ipotesi (risp. l’alternativa) è semplice se Θ0 (risp. Θ1 ) è formato da un solo punto.
Supponendo che sia l’ipotesi che l’alternativa siano semplici, Θ può essere rappresentato nella
forma Θ = {0, 1}. In questo caso è possibile dire esattamente quali sono i “buoni” test. Si tratta
della teoria di Neymann–Pearson, di cui ci occupiamo adesso.
¡ ¢
In questo paragrafo si suppone dunque che il modello statistico sia del tipo Ω, F, (P θ , θ ∈ {0, 1} ,
cioè sia formato da due sole probabilità. Cominciamo con l’osservare che un tale modello è certa-
mente dominato (una misura dominante è per esempio µ = P 0 + P 1 ); scegliamo allora una misura
i
dominante µ e siano pi (i = 0, 1) una scelta delle densità dP
dµ .

(13.1) Lemma di Neymann–Pearson. Sia C un numero reale strettamente positivo. L’insieme


D = {p1 > Cp0 } è la regione critica di un test dell’ipotesi H0 : θ = 0 contro l’alternativa H1 : θ = 1,
con taglia α = P 0 (D). Questo test è ammissibile e UPP tra i test di livello α.

(13.2) Osservazione. Questo test rifiuta H0 se la densità di P 1 è molto più grande di quella di P 0 :
intuitivamente, ricordando che valori grandi della densità corrispondono a valori dell’osservazione
più probabili, ciò significa che, se p1 è grande allora è vera l’alternativa (e infatti per p1 /p0 grande
siamo nella zona di rigetto). Se invece p0 è grande allora è vera l’ipotesi (infatti per p1 /p0 piccolo
siamo nella regione di accettazione).

82
(13.3) Osservazione. La funzione p1 /p0 si chiama rapporto di verosimiglianza .

Dimostrazione. Sia D∗ un’altra regione critica: integrando rispetto a µ la diseguaglianza


¡ ¢
1D∗ − 1D (p1 − Cp0 ) ≤ 0

(se p1 − Cp0 > 0 (risp. ≤ 0), allora 1D = 1 (risp. 1D = 0)); otteniamo


¡ ¢
P 1 (D∗ ) − P 1 (D) ≤ C P 0 (D∗ ) − P 0 (D) .

Da questa diseguaglianza segue che (i) D è ammissibile e che (ii) D è più potente di D∗ se D∗ ha
livello P 0 (D). Infatti:
(i) D è ammissibile se non esiste alcun test D∗ strettamente preferibile. Se per assurdo tale D∗
esistesse, esso sarebbe intanto preferibile a D, e quindi P 0 (D∗ ) ≤ P 0 (D) e P 1 (D∗ ) ≥ P 1 (D)
(ricordare che in generale affinché D∗ sia preferibile a D si deve avere P θ (D∗ ) ≤ P θ (D) se θ ∈ Θ0 ,
mentre deve valere la diseguaglianza contraria se θ ∈ Θ1 ). Ma per la diseguaglianza precedente,
queste due relazioni sono compatibili se e solo se P 0 (D∗ ) = P 0 (D) e P 1 (D∗ ) = P 1 (D). Dunque
D∗ non può essere strettamente preferibile a D (perchè in almeno uno dei due casi (θ = 0 e θ = 1)
dovrebbe valere la diseguaglianza stretta).
(ii) Dire che D∗ ha livello α = P 0 (D), significa che P 0 (D∗ ) = α = P 0 (D) e quindi, per la
diseguaglianza iniziale, si ha P 1 (D) ≥ P 1 (D∗ ), cioè la potenza di D non è inferiore alla potenza
di D∗ .

(13.4) Osservazione. Si verifica facilmente che il lemma rimane valido anche per C = 0 (e in tal
caso D = {p1 > 0}) oppure per C = +∞, con la convenzione 0 · (+∞) = 0, (e in tal caso si pone
D = {p0 = 0, P 1 > 0}.

Si presenta ora il problema di determinare C. In base al Lemma di N–P., assegnato a priori α ∈


(0, 1), il test di regione critica D = {p1 > Cp0 } sarà di livello α se C è tale che P 0 (p1 > Cp0 ) = α,
ovvero se, posto per ogni numero reale positivo x, f (x) = P 0 (p1 > xp0 ), esiste una soluzione
dell’equazione f (x) = α, (detto in altre parole, se la funzione f : R+ → (0, 1) è surgettiva).
In generale questo non succede. Infatti, si vede facilmente che la funzione f è non crescente,
continua a destra ed inoltre limx→+∞ f (x) = 0 (verifica per esercizio). ¡ Tuttavia f in ¢generale
non è continua, e dunque, se α appartiene ad un intervallo del tipo f (x0 ), limx→x− f (x) , con x0
0
punto di discontinuità di f , la soluzione dell’equazione precedente non esiste. In altre parole, posto
C = inf{x : f (x) ≤ α} (la funzione α 7→ inf{x : f (x) ≤ α} si chiama anche inversa generalizzata
di f e quindi, se la indichiamo con il simbolo usuale f −1 , si può scrivere C = f −1 (α)), si vede
facilmente che valgono solo le diseguaglianze limx→C − f (x) ≥ α ≥ f (C), e cioè

P 0 (p1 ≥ Cp0 ) ≥ α ≥ P 0 (p1 > Cp0 ).

Ne segue che la condizione (necessaria e sufficiente) affinché l’equazione f (x) = α abbia soluzione
è che f sia continua o, equivalentemente (verifica per esercizio) che P (p1 = xp0 ) = 0 per ogni x.
Notiamo per inciso che, se tale condizione è valida e se la funzione f è strettamente decrescente,
la soluzione esiste ed è anche unica (a causa della stretta monotonia di f ).

83
Proprio per poter costruire un test che abbia esattamente la taglia desiderata (e anche per poter
caratterizzare in modo preciso tutti i test ammissibili nel caso di ipotesi e alternativa semplici) è
stata costruita la teoria dei test aleatori, di cui ci occuperemo in seguito.

Qui diamo intanto qualche esempio di test deterministici.

(13.5) Esempio. Si vuole verificare se è stato inviato un segnale deterministico noto, funzione
del tempo, s(t), con 0 ≤ t ≤ T , al quale, tuttavia, si sovrappone un rumore aleatorio, anch’esso
funzione del tempo, B(t) (cioè il segnale risultante dopo l’invio è U (t) = s(t) + B(t)). A questo
scopo, si campiona il segnale in n istanti t1 < t2 < . . . < tn , e poniamo si = s(ti ), Bi = B(ti ).
Supponiamo che le v. a. Bi siano indipendenti e di legge N (0, σ 2 ) (con σ 2 noto). Sia poi
(U1 , U2 , . . . , Un ) la sequenza degli n segnali ricevuti, e sia H0 l’ipotesi “il segnale è stato effet-
tivamente inviato”. Sotto H0 , le v. a. Ui sono dunque indipendenti e di legge N (si , σ 2 ), mentre
sotto l’alternativa H1 (che significa che il segnale non è stato inviato, e dunque si è ricevuto solo
il rumore aleatorio B), le Ui sono ancora indipendenti ma di legge N (0, σ 2 ).

Rispetto alla misura di Lebesgue n−dimensionale, le due verosimiglianze sono rispettivamente

1 ³
1 X
n ´
0 2
p (u1 , . . . , un ) = exp − (ui − s i ) ;
(2π)n/2 σ n 2σ 2 i=1
1 ³ 1 X 2´
n
p1 (u1 , . . . , un ) = exp − u ;
(2π)n/2 σ n 2σ 2 i=1 i

sappiamo inoltre dal lemma di N–P. che le buone regioni critiche sono del tipo (qui λ = 1/C)

n p0 o
Dλ = <λ .
p1

Dato che
p0 h 1 ³X n
1 X 2 ´i
n
(u1 , . . . , un ) = exp s u
i i − s ,
p1 σ 2 i=1 2 i=1 i

con qualche conto si vede che

n Xn
1 X 2o n
n Xn o
Dλ = (u1 , . . . , un ) : si ui < σ 2 log λ + si = (u1 , . . . , un ) : si ui < λ̃
i=1
2 i=1 i=1
n n
X o
= ω∈Ω: si Ui (ω) < λ̃ ,
i=1

Pn
dove ovviamente λ̃ = σ 2 log λ + 12 i=1 s2i . A questo punto, supponendo assegnato il livello α,
dobbiamo determinare λ̃ in modo che la nostra regione critica abbia probabilità (sotto P 0 ) minore

84
Pn ³P ¡P ¢´
2 2 2
o uguale ad α. D’altra parte, sotto H0 la v.a i=1 si Ui ha legge N i si , σ i si e quindi
la taglia del test è
P 2
λ̃− s
q¡ Pi i ¢
s2
³ λ̃ − P s2 ´
σ
³X
n ´ Z i i
³ x2 ´
1
0
P (Dλ ) = P 0
si Ui < λ̃ = √ exp − dx = Φ q¡ Pi i ¢ ,
i=1
2π −∞ 2 σ s2 i i

dove Φ è la funzione di ripartizione della normale standard. λ̃ si troverà dunque (dalle tavole della
normale standard), imponendo che sia

³ λ̃ − P s2 ´
Φ q¡ Pi i ¢ ≤ α,
σ 2
i si

e cioè sX X
λ̃ ≤ φα σ s2i + s2i .
i i
Pn
Si può anche
³ calcolare´la potenza di questo test. Infatti, sotto l’alternativa H1 la v.a i=1 si Ui ha
2
¡ P 2¢
legge N 0, σ i si e quindi la potenza vale

pP
λ̃
s2
³X
n ´ Z σ
i i ³ x2 ´ ³ ´
1 λ̃
P 1 (Dλ ) = P 1 si Ui < λ̃ = √ exp − dx = Φ pP 2 .
i=1
2π −∞ 2 σ i si

Se per esempio vogliamo anche che l’errore di seconda specie sia inferiore a β, dovremo imporre
che
³ λ̃ ´
1 − Φ pP 2 ≤ β,
σ i si
ovvero sX
λ̃ ≥ φ1−β σ s2i .
i

Pertanto troviamo per λ̃ le relazioni


sX sX X
φ1−β σ s2i ≤ λ̃ ≤ φα σ s2i + s2i ,
i i i

per cui dovrà essere sX sX X


φ1−β σ s2i < φα σ s2i + s2i ,
i i i

85
e cioè sX
¡ ¢
φ1−β − φα σ < s2i .
i

Se vogliamo essere sicuri che la relazione precedente sia valida per ogni (s1 , . . . , sn ) (anche piccoli),
dovremo imporre che φ1−β − φα ≤ 0, da cui β ≥ 1 − α. Ad esempio, se α = 0.05, dovrà essere
β = 0.95, il che purtroppo fornisce un errore di seconda specie troppo alto. Dunque questo test
non è soddisfacente nella pratica.

(13.6) Esercizio. Rifare i conti dell’esempio precedente, prendendo come ipotesi H0 : “il segnale
non è stato inviato”. Si troverà che è possibile rendere contemporaneamente bassa la taglia del
test e alta la potenza.

14. Test aleatori: il teorema di Neymann–Pearson.

(14.1) Definizione. Un test per il quale la funzione test è a valori in tutto [0,1] (Φ : Ω → [0, 1])
si chiama test aleatorio.

(14.2) Osservazione. In altre parole, in un test aleatorio, se Φ(ω) = p (con p ∈ [0, 1]), allora si
rifiuta H0 con probabilità p; in particolare, se p = 0 (risp. p = 1) l’ipotesi viene accettata (risp.
rifiutata). Si può immaginare che la decisione se accettare o meno H0 dipenda dal risultato del
lancio (indipendente dall’osservazione) di una moneta (che dà “testa”con probabilità p), che porta
a decidere H1 se esce “testa”, H0 se esce “croce”.

La funzione costo è la stessa che nel caso di ipotesi e alternativa semplici, e cioè
½
a se θ ∈ Θ0
C(θ, a) =
1 − a se θ ∈ Θ1 ,

ma con la differenza che adesso a ∈ [0, 1].

Il rischio è ½
E θ [Φ] se θ ∈ Θ0
R(θ, Φ) =
1 − E θ [Φ] se θ ∈ Θ1 .
Si conserva per i test aleatori tutto il vocabolario usato per i test con ipotesi e alternativa semplici
(test preferibile, ammissibile, livello, potenza, etc...). Per quanto ovvio, sottolineiamo il fatto che
la taglia di un test Φ di N.–P. vale α = E 0 [Φ].

Torniamo alla situazione di un modello statistico con due sole probabilità , P 0 e P 1 .

(14.3) Definizione. Si chiama test di Neymann–Pearson un test aleatorio per il quale esiste una
costante positiva C tale che Φ valga 1 sull’insieme {p1 > Cp0 } e 0 sull’insieme {p1 < Cp0 }.

(14.4) Teorema (di Neymann–Pearson).(a) Per ogni α ∈ (0, 1), si possono determinare due
costanti C ≥ 0 e γ ∈ [0, 1] tali che il test (di Neymann–Pearson)

Φ = 1{p1 >Cp0 } + γ1{p1 =Cp0 }

86
abbia taglia α.
(b) Ogni test di Neymann–Pearson Φ è ammissibile (cioè non esistono test strettamente preferibili)
e UPP tra i test di taglia E 0 [Φ].
(c) Condizione necessaria e sufficiente affinché Φ sia di Neymann–Pearson è che, per ogni Φ∗ tale
che E 0 [Φ∗ ] 6 E 0 [Φ], si abbia E 1 [Φ∗ ] 6 E 1 [Φ].
(d) Ogni test Φ ammissibile è di Neymann–Pearson.

Dimostrazione. (a) Sia f la funzione definita da f (x) = P 0 (p1 > xp0 ). Abbiamo allora visto (a
p. 82) che, posto C = f −1 (α) (f −1 inversa generalizzata di f ),valgono le diseguaglianze

P 0 (p1 ≥ Cp0 ) ≥ α ≥ P 0 (p1 > Cp0 ),

e che α = P 0 (p1 > Cp0 ) se e solo se P 0 (p1 = Cp0 ) = 0. Un test della forma Φ = 1{p1 >Cp0 } +
γ1{p1 =Cp0 } ha taglia
E 0 [Φ] = P 0 (p1 > Cp0 ) + γP 0 (p1 = Cp0 ),
che, nel caso che P 0 (p1 = Cp0 ) = 0, è uguale ad α , per ogni γ, per quanto detto sopra. Se invece
P 0 (p1 = Cp0 ) 6= 0, la costante γ richiesta è data da

α − P 0 (p1 > Cp0 )


γ= .
P 0 (p1 = Cp0 )

(b) Supponiamo Φ di N.–P.; sia Φ∗ un altro test. Sia C la costante relativa a Φ fornita dalla
definizione (14.3). Si parte dalla diseguaglianza (si dimostra come quella del lemma di N–P)
¡ ∗ ¢¡ ¢
Φ (ω) − Φ(ω) p1 (ω) − Cp0 (ω) ≤ 0;

integrando rispetto a µ si trova la relazione


¡ ¢
E 1 [Φ∗ ] − E 1 [Φ] 6 C E 0 [Φ∗ ] − E 0 [Φ] ;

si prosegue la dimostrazione come nel lemma di N–P.


(c) Se Φ è di N.–P. e Φ∗ un altro test, la relazione precedente dice che se E 0 [Φ∗ ] 6 E 0 [Φ], allora
E 1 [Φ∗ ] 6 E 1 [Φ].
Viceversa, sia Φ un test per il quale vale la condizione enunciata in (c) e poniamo α = E 0 [Φ].
Per il punto (a), esiste un test Φ∗ di N.–P. avente taglia α (in altre parole E 0 [Φ∗ ] = E 0 [Φ]);
inoltre Φ∗ , essendo di N.–P., soddisfa la condizione enunciata in (c) (per la prima parte di questa
dimostrazione); dato che E 0 [Φ] = E 0 [Φ∗ ], ciò implica che E 1 [Φ] 6 E 1 [Φ∗ ]. D’altra parte per
ipotesi anche Φ verifica la condizione enunciata in (c), e dunque deve essere anche E 1 [Φ∗ ] 6 E 1 [Φ],
e le ultime due diseguaglianze sono compatibili se e solo se E 1 [Φ∗ ] = E 1 [Φ]. Ne deduciamo che,
per ogni costante C > 0, si ha
Z
¡ ¢ ¡ ¢
(Φ − Φ∗ )(p1 − Cp0 ) dµ = E 1 [Φ] − E 1 [Φ∗ ] − C E 0 [Φ] − E 0 [Φ∗ ] = 0.

87
Sia ora C ∗ è la costante associata al test Φ∗ (che, ricordiamo, è di N.–P.); sappiamo (relazione
dimostrata nel punto (b)) che
¡ ¢¡ ¢
Φ(ω) − Φ∗ (ω) p1 (ω) − C ∗ p0 (ω) ≤ 0;

dunque questa funzione è non positiva e con integrale nullo si Ω e di conseguenza è µ−q.o. nulla;
ciò significa che sull’evento {p1 6= p0 } si deve avere Φ = Φ∗ , e di conseguenza anche Φ è di N.–P.
(esattamente come Φ∗ , Φ vale 1 su {p1 > C ∗ p0 } e 0 su {p1 < C ∗ p0 }).
(d) Sia Φ ammissibile, e sia Φ∗ un test di N.–P. con taglia α = E 0 [Φ] (l’esistenza è garantita dal
punto (a)). Dunque E 0 [Φ] = E 0 [Φ∗ ], e di conseguenza R(0, Φ) = R(0, Φ∗ ). Poiché Φ è ammissibile,
non può accadere che R(1, Φ∗ ) < R(1, Φ) e cioè dovrà essere E 1 [Φ∗ ] 6 E 1 [Φ]. D’altra parte anche
Φ∗ è ammissibile per il punto (b), e quindi sarà anche E 1 [Φ] 6 E 1 [Φ∗ ]. Queste due relazioni
sono compatibili tra loro se e solo se E 1 [Φ] = E 1 [Φ∗ ]. A questo punto si procede come nella
dimostrazione del punto (c).

(14.5) Corollario. Se Φ è un test di Neymann–Pearson, allora E 1 [Φ] ≥ E 0 [Φ].

Dimostrazione. Poniamo α = E 0 [Φ], e consideriamo il test Φ∗ ≡ α. Allora, dato che Φ è UPP,


si ha
E 1 [Φ] ≥ E 1 [Φ∗ ] = α = E 0 [Φ].

15. Test unilaterali e bilaterali.

Supponiamo assegnato un modello statistico nel quale l’insieme dei parametri Θ è un intervallo (in
senso lato) della retta reale.

(15.1) Definizione. Si chiama test unilaterale un test della forma H0 : θ ≤ θ0 contro H1 : θ > θ0
(dove θ0 è un elemento fissato di Θ).

(15.2) Osservazione. Anche un test del tipo H0 : θ ≥ θ0 contro H1 : θ < θ0 è unilaterale nel
senso della definizione data sopra: basta cambiare il parametro con la trasformazione θ 7→ −θ.

(15.3) Esempio. Il test sul controllo di qualità trattato all’inizio è un test unilaterale.

I test di questo tipo si trattano bene se il modello ha la proprietà seguente.

(15.4) Definizione. Supponiamo il modello dominato da µ. Si dice che la famiglia delle verosimi-
glianze è a rapporto di verosimiglianza crescente (risp. decrescente) se esiste una v. a. reale T e, per
ogni coppia (θ1 , θ2 ), con θ1 < θ2 , una funzione crescente (risp. decrescente) fθ1 ,θ2 : R → [0, +∞]
tali che
L(θ2 )
= fθ1 ,θ2 (T ), µ − q.o.
L(θ1 )
Basta ovviamente considerare il caso di rapporto di verosimiglianza crescente: nel caso decrescente
ci si riporta all’altro utilizzando la variabile −T al posto di T .

88
¡ ¢
(15.5) Esempi. (a) Per un modello esponenziale con verosimiglianza L(θ) = exp θT − ψ(θ) si ha

L(θ2 ) ¡ ¢
= exp(ψ(θ1 ) − ψ(θ2 )) exp (θ2 − θ1 )T ,
L(θ1 )
¡ ¢
e la funzione fθ1 ,θ2 : x 7→ exp (θ2 − θ1 )x è crescente.
(b) Sia (X1 , . . . , Xn ) un campione di legge uniforme su [0, θ], e L(θ) = θ−n 1{max1≤i≤n Xi ≤θ} (rispetto
alla misura di Lebesgue). Ponendo T = max1≤i≤n Xi , si ha
½
L(θ2 ) θ1n θ2−n per T ≤ θ1
=
L(θ1 ) +∞ per T > θ1 .

La funzione ½
θ1n θ2−n per x ≤ θ1
fθ1 ,θ2 : x 7→=
+∞ per x > θ1
è chiaramente crescente.

(15.6) Osservazione. Come abbiamo appena visto, L(θ1 ) può essere nullo, più precisamente
si pone a/0 = +∞ se a > 0 e 0/0 = qualsiasi valore ci faccia comodo, dato che l’unica cosa
che interessa è che valga l’uguaglianza L(θ2 ) = L(θ1 )fθ1 ,θ2 (T ). Nell’esempio (b) precedente, se
θ1 < T < θ2 si ha L(θ2 )/L(θ1 ) = a/0, con a > 0. Invece se θ2 ≤ T , si ha L(θ2 )/L(θ1 ) = 0/0, e si
prende il valore +∞ perché questo è l’unico modo per rendere fθ1 ,θ2 crescente.

Vogliamo adesso vedere che per un test unilaterale, se il modello è a rapporto di verosimiglianza
crescente, le “buone”regioni critiche sono del tipo {T > C} o {T ≥ C} (o qualcosa di intermedio).

(15.7) Lemma. Supponiamo che il modello sia a rapporto di verosimiglianza crescente, e sia

Φ = 1{T >C} + γ1{T =C}

(con C ∈ R e 0 ≤ γ ≤ 1). Allora, per ogni θ1 < θ2 , Φ è un test di Neymann-Pearson dell’ipotesi


H0 : θ = θ1 contro H1 : θ = θ2 .

Dimostrazione. Sia C ∗ = fθ1 ,θ2 (C); è evidente che


(i) se L(θ2) ∗
L(θ1 ) (ω) = fθ1 ,θ2 (T (ω)) < C , allora T (ω) < C e quindi Φ(ω) = 0 (accetto H0 );
L(θ2 )
(ii) se invece L(θ1 ) (ω) = fθ1 ,θ2 (T (ω)) > C ∗ , allora T (ω) > C e quindi Φ(ω) = 1 (respingo H0 ).

(15.8) Osservazione. Notiamo che può aversi C ∗ = 0 oppure C ∗ = +∞; per questo nella
dimostrazione del Lemma di N.–P. avevamo preso in considerazione anche questi casi.

(15.9) Osservazione. Per il Corollario (13.5), si ha Eθ2 [Φ] ≥ Eθ1 [Φ], e cioè la funzione θ 7→ Eθ [Φ]
è crescente.

(15.10) Teorema. (a) Fissati C ∈ R e 0 ≤ γ ≤ 1, il test aleatorio

Φ = 1{T >C} + γ1{T =C}

89
è un test dell’ipotesi H0 : θ ≤ θ0 contro H1 : θ > θ0 , ammissibile, di taglia Eθ0 [Φ] e UPP tra i test
di livello Eθ0 [Φ].
(b) Fissato 0 < α < 1, si possono determinare C e γ in modo tale che la taglia di Φ sia esattamente
α.

Dimostrazione. Poiché θ 7→ Eθ [Φ] è crescente, la taglia del test è


sup Eθ [Φ] = Eθ0 [Φ]
θ≤θ0
.

Dimostriamo che Φ è UPP e ammissibile. Per il lemma precedente, per ogni θ > θ0 Φ è un test
di N.–P. di ipotesi e alternativa semplici. Dunque, per il Teorema di N.–P., è ammissibile e UPP
tra i test di livello Eθ0 [Φ] (il Teorema di N–P richiede il livello E 0 [Φ], che, in questo caso, per il
lemma è proprio Eθ0 [Φ]).

(b) Questo punto si dimostra esattamente come nel teorema di N.–P.

(15.11) Osservazione. Il teorema precedente dice che se il modello è a rapporto di verosimiglianza


crescente, le “buone ”regioni critiche sono del tipo {T > C} (caso γ = 0) oppure {T ≥ C} (caso
γ = 1). Tuttavia è possibile prendere anche un caso intermedio 0 < γ < 1. Questo suggerisce che
una buona regione critica D sia del tipo {T > C} ⊆ D ⊆ {T ≥ C}.

(15.12) Osservazione. Supponiamo di avere una regione critica del tipo {T > C}, caso γ = 0
(oppure {T ≥ C}, caso γ = 1). Volendo calcolare C in funzione del livello α desiderato, si deve
risolvere rispetto a C l’equazione
Eθ0 [Φ] = P θ0 (T > C) = 1 − P θ0 (T ≤ C) = α,
ovvero
P θ0 (T ≤ C) = 1 − α,
quindi bisogna conoscere la legge di T sotto P θ0 . Se, sotto P θ0 , T ha f.d.r. FT continua e stret-
tamente crescente (almeno su un intervallo contenuto in R la cui immagine secondo FT sia tutto
l’intervallo (0, 1)) l’equazione precedente ha l’unica soluzione C = q1−α , dove q1−α è il quantile di
ordine 1 − α della legge di T (sotto P θ0 ).

(15.13) Osservazione. (a) Se la famiglia delle verosimiglianze è a rapporto di verosimiglianza


decrescente, si prendono test della forma Φ = 1{T <C} + γ1{T =C} .
(b) Per un test della forma H0 : θ ≥ θ0 contro H1 : θ < θ0 si prenderanno ancora test della forma
Φ = 1{T <C} + γ1{T =C} .
(c) Non è strettamente necessario che Θ sia un intervallo; ad esempio, se Θ = [0, 1] ∪ [2, +∞), si
può ugualmente utilizzare il Teorema precedente per il test H0 : θ ≤ 1 contro H1 : θ > 2.

(15.14) Esempio. Consideriamo un campione di taglia n e ¡leggeP esponenziale


¢ di parametro θ ∈
n
(0, +∞), e il test di ipotesi H0 : θ ≤ 1. Allora L(θ) = θn exp − θ i=1 Xi 1{Xi >0,∀ i} e
½ ¡ Pn ¢
L(θ2 ) θ n −n
θ exp − (θ 2 − θ1 ) Xi se Xi > 0, ∀ i
= 2 1 i=1
L(θ1 ) +∞ altrove

90
Pn
è a rapporto di verosimiglianza crescente in T = − i=1 Xi . Pertanto le buone regioni critiche
sono della forma
n X n o nX n o
− Xi > C = Xi < −C , C < 0.
i=1 i=1

Calcoliamo
³P la taglia
´ del test, che, perP il risultato teorico, e posto a = −C, è data dal numero
n n
P1 X
i=1 i < a . Sotto P 1
, la v. a. i=1 Xi ha legge Γ(n, 1) e pertanto, integrando per parti,

³X
n ´ Z a ¯a Z a
1 −1 ¯ 1
P1 Xi < a = xn−1 e−x dx = xn−1 e−x ¯ + xn−2 e−x dx
i=1
(n − 1)! 0 (n − 1)! 0 (n − 2)! 0
· n−1
¸
−a a an−2
= ... = e − − − . . . − a + 1.
(n − 1)! (n − 2)!

Se vogliamo fissare il livello α, si deve allora risolvere l’equazione


· ¸
−a an−1 an−2
e − − − . . . − a + 1 = α,
(n − 1)! (n − 2)!

che ammette una e una sola soluzione a. La regione critica è cosı̀ determinata.

(15.15) Esempio. Torniamo all’esempio (2.9)(c) e consideriamo il test dell’ipotesi H0 : θ ≥ 0


contro H1 : θ < 0. Il rapporto di verosimiglianza
n
L(θ2 ) (θ2 + 1)n ¡ Y ¢θ2 −θ1
= Xi
L(θ1 ) (θ1 + 1)n i=1

è crescente, e quindi le buone regioni critiche sono del tipo


nY
n o
Xi ≤ C .
i=1

Volendo calcolare C in funzione del livello desiderato


Pn α, osserviamo che, sotto P 0 , la v. a. − log Xi
è esponenziale di parametro 1, dunque − i=1 log Xi ha legge Γ(n, 1) e quindi si deve risolvere
l’equazione
³Yn ´ ³ X n ´
α = P0 Xi ≤ C = P 0 − log Xi ≥ − log C = · · ·
i=1 i=1

(15.16) Esercizio. Esaminare il test H0 : θ ≥ 1/2 contro H1 : θ < 1/2 per un campione di legge
(i) di Poisson di parametro θ;
(ii) di Bernoulli di parametro θ. Questo secondo caso è quello del controllo di qualità (esempio
iniziale).

(15.17) Definizione. Si chiama test bilaterale un test della forma H0 : θ ∈ [θ1 , θ2 ], dove θ1 e θ2
sono due punti interni a Θ (può accadere che sia θ1 = θ2 ).

91
Per i test bilaterali, vale un risultato meno forte del teorema sui test unilaterali visto sopra, e in
condizioni molto più restrittive. Bisogna
¡ innanzitutto
¢ limitarsi al caso di un modello esponenziale
con verosimiglianza L(θ) = exp θT − ψ(θ) , e bisogna poi supporre che, per ogni x, si abbia
µ(T = x) = 0 (µ misura dominante).
Occorre poi introdurre un’ulteriore

(15.18) Definizione. Un test Φ si dice corretto se la potenza è superiore alla taglia, cioè se,
comunque si scelgano θ0 ∈ Θ0 e θ1 ∈ Θ1 , si ha Eθ1 [Φ] ≥ Eθ0 [Φ].

(15.19) Osservazione. Abbiamo visto (Corollario (14.5)) che i test di N.–P. sono corretti. Anche
i test del teorema (15.10) sono corretti.

Nelle ipotesi sopra precisate, vale il seguente risultato (di cui omettiamo la dimostrazione, alquanto
complessa):

(15.20) Teorema.© Assegnato 0ª< α < 1, si possono determinare due numeri reali C1 < C2 tali
che l’insieme D = T 6∈ [C1 , C2 ] sia soluzione del sistema
½
P θ1 (D) = α
(i)
P θ2 (D) = α

se θ1 6= θ2 , oppure del sistema



 θ1
 P (D) = α
(ii) ¯
 θ ¯
 dP dθ(D) ¯ =0
θ=θ1

se θ1 = θ2 .
In tal caso il test (deterministico) di regione critica D è un test corretto, di taglia α, dell’ipotesi
H0 : θ ∈ [θ1 , θ2 ] contro l’alternativa H1 : θ 6∈ [θ1 , θ2 ], UPP tra i test corretti di livello α.

(15.21) Esempio: test sulla media di un campione gaussiano, con varianza nota.

Sia X1 , . . . , Xn un campione di legge N (m, σ 2 ), dove σ 2 è un valore noto. La verosimiglianza


(rispetto alla misura di Lebesgue n−dimensionale) ha la forma

1 ³ Pn (X − m)2 ´
i
L(m) = exp − i=1 2
(2π)n/2 σ n 2σ

e con qualche calcolo si vede che

L(m2 ) ³m − m ¡ X n
¢´
2 1
= c(m1 , m2 ) exp 2
· Xi
L(m1 ) σ i=1
Pn
Xi
e quindi è a rapporto di verosimiglianza crescente rispetto alla v. a. X = i=1
n .

92
Per un test della forma H0 : m ≤ m0 scegliamo un test (deterministico) di regione critica {X > C}
con C tale che P m0 (X > C) = α. Sotto P m0 , la legge di X è , come sappiamo, la N (m0 , σ 2 /n), e
quindi
³C − m √ ´
0
α = P m0 (X > C) = 1 − P m0 (X ≤ C) = 1 − Φ n ,
σ
da cui
C − m0 √
n = φ1−α ,
σ
da cui si ricava facilmente C.

Gli stessi risultati si ottengono scegliendo un test (ancora deterministico) di regione critica {X ≥ C}
(osservando che gli eventi del tipo {X = C} sono trascurabili rispetto a P m0 ).

Per un test bilaterale del tipo H0 : m = m0 contro H1 : m 6= m0 , si deve dapprima risolvere in C1


e C2 il sistema 
 m0
 P (X 6∈ [C1 , C2 ]) = α
¯
 d ¯
 dm P m (X 6∈ [C1 , C2 ])¯ = 0.
m=m0

Notiamo che
à ! à ! à !
X −m hC − m C − mi C1 − m C2 − m
m m 1 2
P (X 6∈ [C1 , C2 ]) = P 6∈ , =Φ +1−Φ ,
√σ σ√ σ √ σ σ √ √
n n n n n

(Φ= f.d.r della normale standard). Dunque


√ Ã ! √ Ã !
d m n C1 − m n C2 − m
P (X 6∈ [C1 , C2 ]) = − ϕ + ϕ ,
dm σ √σ σ √σ
n n

(ϕ= densità normale standard). Quindi l’equazione

d m ¯
¯
P (X 6∈ [C1 , C2 ])¯ =0
dm m=m0

diventa à ! à !
C1 − m 0 C2 − m 0
ϕ =ϕ .
√σ √σ
n n

L’equazione ϕ(x) = ϕ(y) ha le soluzioni x = y e x = −y, che per noi significano rispettivamente
C1 = C2 e C1 + C2 = 2m0 . La prima di queste relazioni non è utilizzabile (altrimenti sarebbe
P m0 (X 6∈ [C1 , C1 ]) = 1 > α). La seconda equivale a C1 = m0 − C e C2 = m0 + C, con C ∈ R. A
questo punto si può determinare C (per mezzo delle tavole della normale standard) dalla relazione
à ! à !
C1 − m0 C2 − m0
Φ +1−Φ = α,
√σ √σ
n n

93
ovvero ( Ã !)
C
2 1−Φ = α,
√σ
n

che ha la soluzione C = √σ φ1−α/2


n

(15.22) Esempio: test sulla varianza di un campione gaussiano, con media nota.

Sia X1 , . . . , Xn un campione di legge N (m, σ 2 ), dove m è un valore noto. La verosimiglianza


(rispetto alla misura di Lebesgue n−dimensionale) è

1 ³ Pn (X − m)2 ´
i
L(σ 2 ) = exp − i=1 2
(2π)n/2 σ n 2σ

e con qualche calcolo si vede che il rapporto di verosimiglianza si scrive nella forma
à !
L(σ22 ) σ2 X
n ³ 1 1 ´
2
= exp −n log + (Xi − m) − 2
L(σ12 ) σ1 i=1 2σ12 2σ2
Pn 2
ed è crescente rispetto alla v. a. i=1 (Xi −©m) . Per un test unilaterale del tipo H0 : σ 2 ≤ σ02
Pn 2
ª σ02
© Pn 2
scegliamo dunque una regione critica del tipo i=1 (Xi − m) > C , con P i=1 (Xi − m) >
ª Pn 2 σ02 2 2
C = α. Ricordando che la v.a. i=1 (Xi − m) , sotto P ha legge σ0 · χ (n), si trova
( n ) ½ Pn ¾
X − m)2 ³C´
σ02 2 2
i=1 (Xi C
α=P (Xi − m) > C = P σ0 > =1−F ,
i=1
σ02 σ02 σ02

e quindi, dalle tavole dei quantili della χ2 (n), si ottiene

C = σ02 · χ21−α (n).


© Pn
Per un test bilaterale del tipo H0 : σ 2 = σ02 , si prende una regione critica della forma i=1 (Xi −
m)2 6∈ [C1 , C2 ]}, dove per il teorema (14.20), C1 e C2 sono determinate dalle relazioni (α = livello
desiderato)
( σ2 ¡ Pn 2
P 0 ³ (Xi −´m) 6∈ [C1 , C³2 ]) = α,
i=1 ´
n/2 C1 n/2 C2
C1 exp − 2σ 2 = C2 exp − 2σ 2 ,
0 0

ma il calcolo effettivo è quasi impossibile.

16. Test in presenza di un parametro fantasma.

Supponiamo che, in un problema di test, Θ sia un prodotto cartesiano della forma Θ = Λ × M , ed


inoltre che sia Θ0 = Λ0 × M , Θ1 = Λ1 × M , dove Λ0 e Λ1 sono una partizione di Λ: nel parametro
del modello statistico θ = (λ, m), la componente m si chiama parametro fantasma per il problema
di test indicato, e non è noto.

94
La teoria generale in questa situazione è piuttosto complicata. Faremo quindi solo due esempi, di
largo impiego.
Come regola generale diciamo solo che conviene cercare una statistica la cui legge non dipenda da
m (ovviamente) e sia diversa per valori diversi di λ. In questo modo spesso il problema diventa
semplice.

(16.1) Esempio: test sulla varianza di un campione gaussiano, con media sconosciuta.
Pn
Sia (X1 , . . . , Xn ) un campione di legge N (m, σ 2 ). Sappiamo che la v. a. T = i=1 (Xi − X)2 ha
legge σ 2 · χ2 (n − 1), la cui densità è

1 ³ 1 ´ n−1
2 n−1 x
fσ2 (x) = ³ ´· σ −(n−1) x 2 −1 e− 2σ2 .
Γ n−1 2
2

Si ha in particolare ³ ´
fσ22 x
2
1
σ2
− 1
σ2
(x) = c(σ1 , σ2 ) · e 1 2 ,
fσ12
e quindi questo modello è a rapporto di verosimiglianza crescente. Un test unilatero della forma
H0 : σ 2 ≤ σ02 contro 2 2
PnH1 : σ > σ20 basato sulla statistica T avrà pertanto una regione critica del
tipo {T > C} = { i=1 (Xi − X) > C}, dove C è scelto, in funzione del livello α desiderato, in
modo tale che
2
³Xn ´
P σ0 (Xi − X)2 > C = α.
i=1
Pn
2 (Xi −X)2
Dato che sotto P σ0 la v. a. i=1
σ02
ha legge χ2 (n − 1) (come sappiamo dal Teorema (8.7),
corollario al Teorema di Cochran), si può scrivere
³X
n ´ ³ Pn (X − X)2 C´ ³C´
σ02 2 σ02 i=1 i
α=P (Xi − X) > C = P > = 1 − F n−1 ,
i=1
σ02 σ02 σ02

dove con Fn−1 indichiamo la f. d. r. della legge χ2 (n − 1). Si trova dunque C = σ02 · χ21−α (n − 1).

(16.2) Esempio: il test di Student (test sulla media di un campione gaussiano, con
varianza sconosciuta).
Premettiamo una
(16.3) Definizione. Si chiama legge di Student a n gradi di libertà decentrata di a la legge di una
v. a. del tipo
√ X
n√ ,
Y
dove X ha legge N (a, 1), Y ha legge χ2 (n), e X e Y sono indipendenti.
(16.4) Osservazione. Si può verificare (ma i calcoli sono laboriosi) che queste leggi sono a rapporto
di verosimiglianza crescente (rispetto al parametro a).

95
Consideriamo allora un campione di legge N (m, σ 2 ) e il test dell’ipotesi H0 : m ≤ 0 contro

l’alternativa H1 √: m > 0; la v. a. T = n XS ha legge di Student a (n − 1) gradi di libertà
decentrata di mσ n. ³ ´
m 2
Conviene allora prendere come parametri della legge normale σ ,σ invece che (m, σ 2 ). Il test
diventa H0 : m m 2
σ ≤ 0 contro l’alternativa H1 : σ > 0, e σ è un parametro fantasma. Se però
utilizziamo la statistica T , il test è un test unilaterale, di regione critica {T > C}; per calcolare C
in funzione del livello desiderato α, si tiene presente che se m σ = 0, T ha legge di Student a (n − 1)
gradi di libertà e il valore di C può essere ricavato con i soliti conti.

Se il test è H0 : m ≤ m0 contro l’alternativa H1 : m > m0 , si osserva che, se il campione


(X1 , . . . , Xn ) ha legge N (m, σ 2 ), allora (Y1 , . . . , Yn ) = (X1 − m0 , . . . , Xn − m0 ) è un campione di
legge N (m − m0 , σ 2 ), e ci si può ricondurre al caso precedente. Osservando che Y = X − m0 e che
Pn Pn ¡ ¢2 Pn
− Y )2
i=1 (Yi i=1 (Xi − m0 ) − (X − m0 ) − X)2
i=1 (Xi
SY2 = = = ,
n−1 n−1 n−1
la statistica del test è √ √
√ Y n n − 1(X − m0 )
T = n = qP
SY n
(X − X)2 i=1 i

e si avrà cosı̀ una regione critica della forma


 
 √n√n − 1(X − m ) 
0
qP >C .
 n 2 
i=1 (Xi − X)

17. Test del rapporto di verosimiglianza .


Sia H0 : θ = 0 l’ipotesi, H1 : θ = 1 un test ad ipotesi ed alternativa semplici. Abbiamo visto
dal lemma di Neymann–Pearson che in questo caso una buona regione critica è {p0 < Cp1 }. In
generale,

(17.1) Definizione. Assegnate l’ipotesi H0 : θ ∈ Θ0 contro l’alternativa H1 : θ ∈ Θ1 , e supposto


che le due funzioni supθ∈Θ0 L(θ) e supθ∈Θ1 L(θ) siano misurabili, si chiama test del rapporto di
verosimiglianza un test di regione critica
½ ¾
sup L(θ) < C sup L(θ) .
θ∈Θ0 θ∈Θ1

Se supθ∈Θ1 L(θ) è sempre strettamente positiva, allora la regione critica si può scrivere nella forma
½ ¾
supθ∈Θ0 L(θ)
<C ,
supθ∈Θ1 L(θ)

e questo spiega il nome di rapporto di verosimiglianza.

96
(17.2) Osservazione. La giustificazione per la scelta di una regione critica di questo tipo è simile
a quella che abbiamo dato a suo tempo per i test di Neyman–Pearson: se ad esempio è vera
l’alternativa, significa che almeno una delle L(θ) con θ ∈ Θ1 è grande, e quindi il supθ∈Θ1 L(θ) è
grande, dunque il rapporto di verosimiglianza è piccolo.

(17.3) Osservazione. Se l’ipotesi è semplice (H0 : θ = θ0 ) e se θ 7→ L(θ, ω) è continua per ogni


ω ∈ Ω, in molti casi si può mostrare che la regione critica diventa
½ ¾
L(θ0 ) < C sup L(θ)
θ∈Θ

e quindi, se si ha a disposizione uno stimatore di massima verosimiglianza θ̂, essa diventa


n o
L(θ0 ) < CL(θ̂) .

Anche se le proprietà di questo test non sono ben chiare, esso in generale è facile da costruire
(come mostra l’osservazione precedente) e porta a delle procedure che si rivelano soddisfacenti in
molti casi particolari; si potrebbe anche mostrare che, sotto opportune condizioni, ha delle buone
proprietà asintotiche.

(17.4) Esempio. Il test di Student (test sulla media di un campione con varianza
sconosciuta).

Su un campione di legge N (m, σ 2 ) vogliamo verificare l’ipotesi H0 : m = 0 contro l’alternativa


H1 : m 6= 0. Non si tratta di un test bilaterale (perché c’è anche σ); lo diventa se si segue la
procedura già usata precedentemente nel caso dell’ipotesi H0 : m ≤ 0, ma è piuttosto complicato.
Partiamo allora dalla verosimiglianza rispetto alla misura di Lebesgue n−dimensionale che, a meno
della costante moltiplicativa (2π)−n/2 è , come abbiamo visto nell’esempio (2.9)(d)
µ Pn 2
Pn ¶
2 i=1 xi m( i=1 xi ) nm2
L(m, σ ; x1 , . . . , xn ) = exp − + − − n log σ
2σ 2 σ2 2σ 2

per calcolare
sup L(0, σ 2 ), sup L(m, σ 2 ).
σ∈R+ m∈R,σ∈R+

Questo si può fare facilmente utilizzando gli stimatori di massima verosimiglianza che abbiamo
trovato a suo tempo (esercizio (8.9)):
µ P 2
¶ ³ n´ µP ¶
2 −n/2
2 i=1 Xi i=1 Xi
sup L(0, σ ) = L 0, = exp − · ;
σ∈R+ n 2 n

µ Pn ¶ ³ n ´ µ Pn (X − X)2 ¶−n/2
(Xi − X)2 i
sup L(m, σ 2 ) = L X, i=1 = exp − · i=1
,
m∈R,σ∈R+ n 2 n

97
e il rapporto di verosimiglianza diventa di conseguenza
µ Pn ¶ Ã Pn !n/2
2 n/2 2
supσ∈R+ L(0, σ 2 ) i=1 (X i − X) i=1 (Xi − X)
= P 2 = P 2
supm∈R,σ∈R+ L(m, σ 2 ) i=1 Xi (X 2
i − X) + nX
i=1
 ( )2 −n/2
X
= n qP + 1 ,
2
i=1 (Xi − X)

e la regione critica è
 −n/2 
½ ¾  ( )2 
supσ∈R+ L(0, σ ) 2  X 
<C = n qP + 1 <C
supm∈R,σ∈R+ L(m, σ 2 ) 
 

i=1 (Xi − X)2
 
 |X| 
= qP >a ,
 
i=1 (Xi − X)2

con a = a(C) opportuno. Per calcolare a ( e di conseguenza C) in funzione del livello α desiderato,
osserviamo che
√ µ ¶
X 1 n−1 √ 1 √ X
qP =p · qP ·( n · X) = p n· ,
2 n(n − 1) 2 n(n − 1) S
i=1 (Xi − X) i=1 (Xi − X)
| {z }
=S


e, sotto l’ipotesi H0 : m = 0, la v. a. n · X
S ha legge di Student a n − 1 gradi di libertà (per
√ X−m
il Corollario al Teorema di Cochran, n · S ha legge t(n − 1) e sotto l’ipotesi m = 0 si tratta

appunto della variabile n · XS ).

(17.5) Esempio. Sia µθ (0 < θ < +∞) la legge definita su R+ , continua rispetto alla misura di
Lebesgue e di densità e−(x−θ) 1[θ,+∞) (x) (può essere interpretata ad esempio come la durata di
vita di una lampadina accesa all’istante θ). Consideriamo un campione di taglia n e legge µθ ; la
verosimiglianza, rispetto alla misura di Lebesgue su Ω = (R+ )n , è
n
Y ¡ Pn ¢
L(θ; x1 , . . . , xn ) = e−(xi −θ) 1[θ,+∞) (xi ) = e− i=1
xi −nθ
1[θ,+∞) ( min xi ),
1≤i≤n
i=1

ovvero ¡ Pn ¢ µ ¶
− Xi −nθ
L(θ) = e i=1 1[θ,+∞) min Xi .
1≤i≤n

Consideriamo il test del rapporto di verosimiglianza dell’ ipotesi H0 : θ = 1 contro H1 : θ 6= 1. La


regione critica è ( )
L(1) < C sup L(θ) .
θ6=1

98
Per calcolare supθ6=1 L(θ) si può fare un calcolo diretto (studio della funzione θ 7→ L(θ)) oppure
osservare che lo stimatore di massima verosimiglianza del parametro θ è θ̂ = min1≤i≤n Xi e quindi
Pn
sup L(θ) = sup L(θ) = L(θ̂) = en(min1≤i≤n Xi )− i=1
Xi
.
θ6=1 0<θ<+∞

Quindi 
L(1) 0 se min1≤i≤n Xi < 1
=
supθ6=1 L(θ)  en(1−min1≤i≤n Xi ) se min1≤i≤n Xi ≥ 1 .
La regione critica è ½ ¾
L(1)
D= <C .
supθ6=1 L(θ)
Se C = 0 si ha D = ∅; se C > 1 si ha invece D = Ω (perché supθ6=1 L(θ) = sup0<θ<+∞ L(θ) ≥ L(1)).
Quindi ha senso considerare solo il caso 0 < C < 1. In questo caso si ha

D = { min Xi < 1} ∪ { min Xi ≥ 1, en(1−min1≤i≤n Xi ) < C}


1≤i≤n 1≤i≤n
n log C −1 o
= { min Xi < 1} ∪ min Xi > 1 + .
1≤i≤n 1≤i≤n n

Si può calcolare la taglia del test in base al livello conoscendo la legge di min1≤i≤n Xi sotto P 1 ,
che è l’oggetto del seguente

(17.6) Esercizio. Mostrare che sotto P θ la densità di min1≤i≤n Xi è data da

n(e−n(x−θ) )1[θ,+∞) (x).

(17.7) Esercizio. Si consideri un campione di legge esponenziale di parametro θ ∈ (0, +∞) e si


studi il test H0 : θ = 1 contro H1 : θ 6= 1 con il metodo dei test bilaterali e con il metodo del
rapporto di verosimiglianza.
Pn Pn
Il primo metodo suggerisce una regione critica della forma { i=1 Xi ≤ a} ∪ { i=1 Xi ≥ b}, dove
a e b sono legati dall’equazione an−1 e−a = bn−1 e−b .
Pn
IlPtest del rapporto di verosimiglianza dà invece una regione critica della forma { i=1 Xi ≤ c} ∪
n
{ i=1 Xi ≥ d}, con c e d tali che cn e−c = dn e−d .

18. Cenni all’Analisi della Varianza (ANOVA)

Supponiamo di avere diversi campioni di legge gaussiana, tra loro indipendenti: X1,1 , . . . , X1,n1
campione di taglia n1 e legge N (m1 , σ12 ), X2,1 , . . . , X2,n2 campione di taglia n2 e legge N (m2 , σ22 )
e cosı̀ via.
Prende il nome di analisi della varianza quella parte della statistica che costruisce dei test per
verificare delle ipotesi riguardanti i parametri dei diversi campioni (ad esempio l’uguaglianza delle

99
medie...). I campioni sono pensati estratti da popolazioni differenti, e l’ANOVA viene impiegata
per confrontare tra loro queste popolazioni.
Diciamo subito che si impiegano le leggi normali sia perché in mancanza di ulteriori informazioni
sono le più usate in statistica (a causa per esempio del Teorema Limite Centrale), sia perché in
ipotesi diverse i conti diventano impossibili.
L’ANOVA è un capitolo lungo e molto complicato; qui ci limitiamo ad illustrare due esempi classici.

(18.1) Esempio. Il problema di Behrens–Fisher.

Siano (X1 , . . . , Xp ) e (Y1 , . . . , Yq ) due campioni indipendenti di leggi rispettivamente N (m1 , σ12 )
e N (m2 , σ22 ). Vogliamo costruire un test per l’ipotesi H0 : m1 = m2 contro H1 : m1 6= m2 . La
soluzione generale del problema è decisamente difficile. Un caso trattabile (anche se non realistico)
è quello in cui σ12 = σ22 = σ 2 (sconosciuta).
Pp Pq
Xi Yj
Siano X = i=1
p e Y = j=1 q le medie campionarie. Per l’Esercizio (9.9) (iv), la v. a.

p + q − 2 · (X − Y )
Zp,q = q qP Pp
1 1 p 2 2
p + q · i=1 (Xi − X) + i=1 (Yi − Y )

ha legge di Student a (p + q − 2) gradi di libertà decentrata di mp


1 −m2
1 1
.
σ p+q

Abbiamo visto per il test di Student che queste leggi sono a rapporto di verosimiglianza crescente
rispetto a (m1 − m2 ). Proprio il test di Student ci suggerisce come proseguire: per il test H0 :
m1 ≤ m2 sceglieremo una regione critica del tipo {Zp,q > C}, per il test H0 : m1 = m2 una regione
critica del tipo {|Zp,q | > C}.
Per calcolare C in funzione del livello desiderato, ricordiamo che, se m1 = m2 , Zp,q ha legge di
Student a (p + q − 2) gradi di libertà.

All’esempio successivo premettiamo una


Z1 /n1
(18.2) Definizione. Si chiama legge di Fisher–Snedecor F (n1 , n2 ) la legge di Z2 /n2 , dove Z1 e Z2
sono indipendenti e di leggi rispettive χ2 (n1 ) e χ2 (n2 ).

L’espressione della densità è piuttosto complicata; sono state compilate delle tavole della funzione
di ripartizione. Alcuni autori chiamano legge di Fisher–Snedecor la legge di Z Z2 e altri quella di di
1

√Z1 . Si tratta naturalmente di convenzioni, a cui bisogna fare attenzione al momento di consultare
Z2
le tavole.

L’esempio che segue è molto generale, ma servirà per trattare in maniera concisa il cosiddetto test
di omogeneità.

(18.3) Esempio. Sia X = (X1 , . . . , Xn ) una v. a. vettoriale di legge Nn (m, σ 2 In ), dove m ∈ E (E


sottospazio di Rn di dimensione k < n) e σ qualunque. Consideriamo un sottospazio H di E di
dimensione r < k ed il test dell’ipotesi H0 : m ∈ H contro l’alternativa H1 : m ∈ E \ H.

100
È conveniente rappresentare X nella forma X = m + Y , dove Y ha legge Nn (0, σ 2 In ). Per il
Teorema di Cochran, i vettori aleatori Y − YE , YE − YH e YH (YE = proiezione di Y su E, YH =
2 2
proiezione di Y su H) sono indipendenti ed inoltre ||Y −Y
σ2
E ||
e ||YE −Y
σ2
H ||
hanno leggi χ2 (n − k) e
2
χ (k − r) rispettivamente. Dunque la v. a.
||YE −YH ||2
k−r
||Y −YE ||2
n−k

ha legge F (k − r, n − k). Dato che m ∈ E, si ha mE = m e quindi X − XE = (Y + m) − (YE + m) =


Y − YE . Inoltre XE − XH = YE − YH + (m − mH ). Dunque bisognerà attendersi che ||XE − XH ||2
sia tanto più grande quanto più è grande ||m − mH ||2 (alternativa). Questo suggerisce una regione
critica del tipo  
 ||XE −XH ||2 
k−r
> C .
 ||X−XE ||2 
n−k

La costruzione che abbiamo fatto è solo intuitiva, ma si potrebbe rendere rigorosa dimostrando
||XE −XH ||2

che le leggi delle v.a. Z = k−r


||X−XE ||2
sono a rapporto di verosimiglianza crescente al crescere di
n−k
||m − mH ||.
Per calcolare il numero C in funzione del livello desiderato, si tiene presente che, sotto l’ipotesi
||YE −YH ||2

(che implica m − mH = 0), Z coincide con k−r


||Y −YE ||2
, e quindi ha legge F (k − r, n − k).
n−k

Le considerazioni precedenti ci serviranno per costruire il test di omogeneità, che è la generaliz-


zazione del problema di Behrens–Fisher al caso di più campioni (ma il caso di due soli campioni si
sa risolvere anche senza supporre uguali le varianze).

(18.4) Esempio: il test di omogeneità. siano (X1,1 , . . . , X1,n1 ), . . . . . ., (Xk,1 , . . . , Xk,nk ) k


campioni indipendenti di legge rispettivamente N (m1 , σ 2 ), . . . . . ., N (mk , σ 2 ) (σ sconosciuta). Con-
sideriamo il test H0 : m1 = m2 = . . . = mk . Indichiamo con X il campione globale (X1,1 , . . . , X1,n1 ,
. . . . . ., Xk,1 , . . . , Xk,nk ) e poniamo
P Pni
i,j Xi,j j=1 Xi,j
X= , Xi = , i = 1, 2, . . . , k.
n1 + · · · + nk ni

La v. a. X è la media campionaria globale (media campionaria di X), mentre la X i è la media


campionaria all’interno del gruppo i−esimo (media campionaria di (Xi,1 , . . . , Xi,ni )).
La media del vettore X è (m1 , . . . , m1 , m2 , . . . , m2 , . . . , mk , . . . , mk ), e quindi appartiene al sot-
| {z } | {z } | {z }
n1 volte n2 volte nk volte
tospazio E di dimensione k generato da η1 , η2 , . . . , ηk , dove
³ 1 1 1 ´ ³ 1 1 1 ´
η1 = √ , √ , . . . , √ , 0, 0, . . . , 0, 0 , η2 = 0, 0, . . . , 0, √ , √ , . . . , √ , 0, . . . , 0
n1 n1 n1 | {z } n2 n2 n2
| {z } n1 volte | {z }
n1 volte n2 volte

101
e cosı̀ via.
Se l’ipotesi H0 è vera, e posto n1 + n2 + · · · + nk = n, la media di X è (m1 , . . . , m1 ), e quindi
| {z }
nvolte
appartiene al sottospazio 1–dimensionale H di E generato dal vettore
³ 1 1 1 ´
η= √ , √ ,..., √ .
n n n
| {z }
n volte

Si verifica poi facilmente che


√ √ √
(∗) XE = X 1 n1 η1 + · · · + X k nk ηk ; XH = X nη.

Infatti la prima eguaglianza segue da


k
X Xk Xk
hX, ηi i √ √
XE = hX, ηi iηi = √ ni ηi = X i ni ηi
i=1 i=1
ni i=1

perché, per ogni i = 1, 2, . . . , k,


ni ni
hX, ηi i 1 X Xi,j X Xi,j
√ =√ √ = = X i.
ni ni j=1 ni j=1
ni

La seconda eguaglianza si dimostra in modo analogo.


Notiamo che le due relazioni in (∗) in modo esplicito significano rispettivamente

XE = (X 1 , . . . , X 1 , . . . . . . , X k , . . . , X k ); XH = (X, . . . , X ).
| {z } | {z } | {z }
n1 volte nk volte n volte

Quindi

X − XE = (X1,1 − X 1 , . . . , X1,n1 − X 1 , . . . . . . , Xk,1 − X k , . . . , Xk,nk − X 1 );

XE − XH = (X 1 − X, . . . , X 1 − X , . . . . . . , X k − X, . . . , X k − X ).
| {z } | {z }
n1 volte nk volte

Pertanto

X ni
k X k
X
||X − XE ||2 = (Xi,j − X i )2 ; ||XE − XH ||2 = ni (X i − X)2 .
i=1 j=1 i=1

Pk Pni
(18.4) Osservazione. La quantità ||X − XE ||2 = i=1 j=1 (Xi,j − X i )2 si chiama anche vari-
azione interna; si tratta cioè della
Pk somma delle variazioni di ogni gruppo attorno alla propria media
campionaria; ||XE − XH ||2 = i=1 ni (X i − X)2 è invece la cosiddetta variazione esterna (cioè la

102
somma delle variazioni delle medie campionarie dei vari gruppi rispetto alla media campionaria del
campione globale). È naturale considerare anche la variazione totale, che è definita come

ni
k X
X
||X − XH ||2 = (Xi,j − X)2 .
i=1 j=1

Ora i vettori X − XE e XE − XH sono tra loro perpendicolari (i vettori XE e XH appartengono a


E, mentre X − XE è perpendicolare a E per definizione di proiezione su E); dunque per il teorema
di Pitagora abbiamo

||X − XH ||2 = ||(X − XE ) + (XE − XH )||2 == ||X − XE ||2 + ||XE − XH ||2 .

In altre parole

X ni
k X X ni
k X k
X
2 2
(Xi,j − X) = (Xi,j − X i ) + ni (X i − X)2 .
i=1 j=1 i=1 j=1 i=1

Questa formula, nota come formula di Huygens, dice che la variazione totale è la somma delle
variazioni interna ed esterna.

Tornando alla descrizione del test, consideriamo la v. a.


Pk
ni (X i −X)2 ||XE −XH ||2
i=1
k−1 k−1
Z = Pk Pni = ||XE −XH ||2
,
(Xi,j −X i )2
i=1 j=1 n−k
n−k

che sotto l’ipotesi, ha legge F (k − 1, n − k) per il teorema di Cochran. Si sceglierà un test di regione
critica {Z > C}, e si determina C con i soliti calcoli.

19. Il modello Bayesiano

Cominciamo ricordando la nozione di “nucleo di transizione” tra due spazi misurabili.

Siano (E, E) e (F, F) due spazi misurabili.

(18.1) Definizione. Si chiama probabilità di transizione (o anche nucleo) di (E, E) su (F, F) una
funzione N (x, A) definita su E × F e a valori in [0, 1] tale che
(i) per ogni fissato A ∈ F , la funzione x 7→ N (x, A) (da (E, E) in [0, 1]) è E−misurabile;
(ii) per ogni fissato x ∈ E, la funzione A 7→ N (x, A) (da F in [0, 1]) è una probabilità su (F, F).

Richiamiamo inoltre (senza dimostrazione, che è una semplice estensione del teorema di Fubini
classico) il

103
(18.2) Teorema (di Fubini generalizzato). Sia N una probabilità di transizione di (E, E)
su (F, F), e P una misura di probabilità su (E, E). Allora
(a)
R per ogni funzione f : E × F → R che sia E ⊗ F−misurabile e limitata, la funzione x 7→
F
f (x, y)N (x, dy) è E−misurabile;
(b) esiste una e una sola probabilità Q su E ⊗ F tale che, se f è limitata, valga la formula
ZZ Z Z
f (x, y) Q(dx, dy) = P (dx) f (x, y)N (x, dy);
E×F E F

(c) la proprietà (a) e la formula (b) rimangono vere per f positiva, non necessariamente limitata;
(d) sia f misurabile di segno qualunque; allora f è Q−integrabile se e solo se
ZZ Z Z
|f (x, y)| Q(dx, dy) = P (dx) |f (x, y)|N (x, dy) < +∞.
E×F E F

In tal caso restano valide per f la proprietà (a) e la formula (b).

(18.3) Definizione. Un modello statistico bayesiano è formato da


¡ ¢
(a) Un modello statistico Ω, F; (P θ , θ ∈ (Θ, T )) , nel quale si suppone che l’insieme dei parametri
Θ sia munito di una tribù T e che, fissato A ∈ F, l’applicazione θ 7→ P θ (A) sia misurabile.
(b) una misura di probabilità ν su (Θ, T ), chiamata la legge a priori del parametro.

(18.4) Osservazione. La probabilità ν va interpretata come la conoscenza che si ha della situ-


azione prima di fare l’indagine statistica.

(18.5) Esempio. Un segnale proviene il 40% delle volte da un’apparecchiatura A1 e per il restante
60% delle volte da una seconda apparecchiatura A2 . Esso può essere di due tipi: “lungo” oppure
“breve”. È noto che A1 (risp. A2 ) trasmette un segnale breve il 48% (risp. 63%) delle volte. In
un certo istante viene ricevuto un segnale breve; qual è la probabilità che esso provenga da A1 ? e
da A2 ?
Consideriamo gli eventi
A1 = {il segnale proviene da A1 };
A2 = {il segnale proviene da A2 };
B = {il segnale risulta breve};
per essi si ha

P (A1 ) = 0.40; P (A2 ) = 0.60; P (B|A1 ) = 0.48; P (B|A2 ) = 0.63.


Ci interessa calcolare P (A1 |B) e P (A2 |B); per la formula di Bayes si ha

P (B|A1 )P (A1 ) 0.48 × 0.4


P (A1 |B) = = = 0.3368,
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) 0.48 × 0.4 + 0.63 × 0.6

e di conseguenza P (A2 |B) = 1 − 0.3368 = 0.6632.

104
In altre parole: la nostra conoscenza “a priori” (cioè prima dell’invio del segnale) delle probabilità
di A1 e di A2 era P (A1 ) = 0.40 e P (A2 ) = 0.60 (conoscenza ricavata in base ad esperienze
precedenti, “a priori ”appunto); dopo l’invio del segnale abbiamo rivalutato queste probabilità
in P (A1 |B) = 0.3368 e P (A1 |B) = 0.6632 (probabilità “a posteriori”). Con le notazioni della
definizione precedente, diremo che Ω = {B, L}, mentre il parametro θ appartiene a Θ = {1, 2}
(indice dell’apparecchiatura), ed inoltre ν(1) = 0.40, ν(2) = 0.60. La teoria bayesiana si occupa,
fra l’altro, dei metodi per calcolare la legge “a posteriori”(in questo esempio si tratta della legge
che assegna a θ = 1 il peso 0.3368 e a θ = 2 il peso 0.6632, dati ottenuti dalla formula di Bayes
(di qui il nome della teoria) in base al risultato dell’esperimento. Vedremo fra poco (Es. (18.10))
come si formalizza il calcolo fatto sopra.

Torniamo alla definizione generale di modello bayesiano. La funzione (θ, A) 7→ P θ (A) è una
probabilità di transizione di (Θ, T ) su (Ω, F) (e perciò in questo contesto useremo la notazione
P (θ, A) piuttosto che quella solita P θ (A)). Consideriamo allora la probabilità Q su (Θ × Ω, T ⊗ F )
associata, secondo il Teorema di Fubini generalizzato, alla legge a priori ν e alla probabilità di
transizione P (θ, A); in particolare, vale la relazione
ZZ Z Z Z
Q(T × A) = 1T ×A Q(dθ, dω) = ν(dθ) P (θ, dω) = ν(dθ)P (θ, A), T ∈ T , A ∈ F.
Θ×Ω T A T

Indichiamo con T̃ la tribù su Θ × Ω formata dagli insiemi del tipo T × Ω, con T ∈ T . Osserviamo
che una variabile X : Θ × Ω → R è T̃ −misurabile se e solo se X(θ, ω) = V (θ) (cioè X dipende solo
da θ) e V è misurabile (dimostrazione per esercizio).

Analogamente si definisce la tribù F̃ su Θ × Ω come la tribù formata dagli insiemi del tipo Θ × A,
con A ∈ F, e una variabile X : Θ × Ω → R è F̃−misurabile se e solo se X(θ, ω) = W (ω), con W
misurabile.
¡ ¢
(18.6) Teorema. Sia X una v. a. limitata definita su Θ × Ω, T ⊗ F, Q . Vale allora l’uguaglianza
Z
E[X|T̃ ](θ) = X(θ, ω) P (θ, dω), Q − q.c.

(Ovviamente, in questa formula, la speranza condizionale è calcolata rispetto alla probabilità Q su


Θ × Ω).
R
Dimostrazione. La variabile (θ, ω) 7→ Y (θ, ω) = Ω X(θ, ω)P (θ, dω) è T̃ −misurabile
R (perché
dipende solo da θ e, per il teorema di Fubini generalizzato, la funzione θ 7→ Ω X(θ, ω)P (θ, dω)
è T −misurabile). Dunque, per definizione di probabilità condizionale, basta provare che su ogni
insieme della forma T × Ω si ha
Z Z
X dQ = Y dQ.
T ×Ω T ×Ω

Infatti, per il teorema di Fubini,


Z Z Z
X dQ = ν(dθ) X(θ, ω)P (θ, dω);
T ×Ω T Ω

105
Z Z Z Z Z ³Z ´
Y dQ = ν(dθ) Y (θ, ω)P (θ, dω) = ν(dθ) X(θ, ω)P (θ, dω) P (θ, dω) =
T ×Ω T Ω T Ω Ω
Z Z
= ν(dθ) X(θ, ω)P (θ, dω),
T Ω
e si ha l’uguaglianza cercata.

Il risultato precedente permette di interpretare la probabilità P θ (definita su (Ω, F)) come la legge
condizionale (su Θ × Ω), noto θ: infatti, se per un certo θ si ha {θ} ∈ T e ν(θ) > 0, allora, preso
A ∈ F, P θ (A) = P (θ, A) è effettivamente una probabilità condizionale:

P θ (A) = P (θ, A) = Q[Θ × A|{θ} × Ω],

o, con abuso di scrittura


P θ (A) = P (θ, A) = Q(A|θ).
Infatti ¡ ¢ ¡ ¢
Q (Θ × A) ∩ ({θ} × Ω) Q {θ} × A
Q[Θ × A|{θ} × Ω] = ¡ ¢ = ¡ ¢
Q {θ} × Ω Q {θ} × Ω
R
{θ}
ν(dθ)P (θ, A) P (θ, A)ν(θ)
= R = = P (θ, A)
{θ}
ν(dθ)P (θ, Ω) P (θ, Ω)ν(θ)
Quindi si può dire che la probabilità di transizione P (θ, A) di (Θ, T ) su (Ω, F) dà la probabilità di
A, “noto il valore di θ”. Se invece vogliamo “aggiornare”la nostra conoscenza della probabilità a
priori ν (cioè del fenomeno che stiamo osservando), “noto il valore di ω”(cioè dopo aver effettuato
l’esperimento), abbiamo bisogno di una probabilità di transizione N (ω, T ) di (Ω, F) su (Θ, T ).
Diamo allora la seguente

(18.7) Definizione. Supponiamo che esista una probabilità di transizione N (ω, T ) di (Ω, F) su
(Θ, T ) tale che, per ogni v.a. X limitata definita su (Θ × Ω, T × F ), risulti
Z
E[X|F̃](ω) = X(θ, ω) N (ω, dθ), Q − q.c.
Θ

Allora la probabilità N (ω, ·) si chiama legge a posteriori su (Θ, T ) condizionale a ω.

(18.8) Osservazione. Dunque il meccanismo bayesiano è il seguente


(a) prima dell’esperimento la legge a priori ν rappresenta la nostra conoscenza del fenomeno;
(b) si effettua l’esperimento, che dà l’esito ω;
(c) la conoscenza del fenomeno è aggiornata passando alla probabilità N (ω, ·).

L’esistenza della legge a posteriori in ipotesi generali è un teorema piuttosto complicato; noi ci
limiteremo al caso di un modello dominato, che copre la maggior parte delle applicazioni.

Supponiamo dunque che il modello sia dominato da una misura µ su (Ω, F) e che esista una versione
θ
della verosimiglianza L(θ, ω) = dP
dµ (ω) che sia T ⊗ F misurabile (questo garantisce in particolare
che θ 7→ P (θ, A) sia T −misurabile).

106
(18.9) Teorema. Nelle ipotesi sopra enunciate, poniamo
Z
A = {ω ∈ Ω : L(θ, ω)dν(θ) = 0};
Θ
Z
M = {ω ∈ Ω : L(θ, ω)dν(θ) = +∞}
Θ
e 
R L(θ, ω)
se ω ∈ Ac
g(θ, ω) = Θ
L(τ, ω)ν(dτ )

1 se ω ∈ A
(con la convenzione c/∞ = 0). Allora
(a) Θ × A è Q−trascurabile;R
(b) l’insieme M = {ω ∈ Ω : Θ L(θ, ω)dν(θ) = +∞} è µ−trascurabile;
(c) fissato ω ∈ M c , la funzione θ 7→ g(θ, ω) è una densità di probabilità su (Θ, T ) rispetto a ν;
(d) La probabilità di transizione definita da
Z
N (ω, T ) = g(θ, ω)dν(θ)
T

è la legge a posteriori su (Θ, T ) condizionale a ω.

Dimostrazione. (a) Si ha, per definizione di verosimiglianza e per il Teorema di Fubini,


Z Z Z Z Z
Q(Θ × A) = dν(θ)P (θ, A) = dν(θ) P (θ, dω) = dν(θ) L(θ, ω)dµ(ω)
Z ZΘ Θ A Θ A

= dµ(ω) L(θ, ω)dν(θ) = 0,


A Θ

per la definizione di A.
(b) È ovvio perché
Z Z Z Z Z
µ(dω) L(θ, ω)ν(dθ) = ν(dθ) L(θ, ω)µ(dω) = ν(dθ) = 1 < +∞.
Ω Θ Θ Ω Θ
| R {z }
P (θ,dω)=1

c
R(c) Dobbiamo provare che, fissato cω ∈ M , si ha g(θ, ω) ≥ 0 (questo è ovvio) ed inoltre risulta
Θ
g(θ, ω)ν(dθ) = 1. Ora, se ω ∈ A , si ha
Z Z
L(θ, ω)
g(θ, ω)dν(θ) = R ν(dθ) = 1;
Θ Θ Θ
L(τ, ω)dν(τ )

se ω ∈ A Z Z
g(θ, ω)dν(θ) = 1dν(θ) = 1.
Θ Θ

107
(d) Osserviamo prima di tutto che ω 7→ N (ω, T ) è misurabile (per Fubini, dato che R è l’integrale
di una funzione misurabile). Inoltre T 7→ N (ω, T ) è una probabilità (N (ω, Θ) = Θ g(θ, ω)dν(θ)
= 1 per il punto (c)). Dunque N (ω, T ) è effettivamente una probabilità di transizione (di (Ω, F)
su (Θ, T )).
Per vedere che si tratta effettivamente della legge a posteriori, in base alla definizione (18.7)
dobbiamo far vedere che, se X è una v. a. limitata definita su (Θ × Ω, T × F ), e posto
Z
 L(θ, ω)
 R c
Z  Θ X(θ, ω) L(τ, ω)ν(dτ ) ν(dθ) se ω ∈ A

 Θ
V (ω) = X(θ, ω)g(θ, ω)ν(dθ) =
Θ 
 Z


 X(θ, ω)ν(dθ) se ω ∈ A ,
Θ

su ogni insieme della forma Θ × B si ha


ZZ ZZ
X dQ = V dQ.
Θ×B Θ×B

Infatti, per la definizione di Q e per il punto (a), si ha


ZZ ZZ Z Z
X dQ = X dQ = ν(dθ) X(θ, ω)P (θ, dω)
Θ×B Θ×(B∩Ac ) Θ B∩Ac
Z Z
= ν(dθ) X(θ, ω)L(θ, ω)µ(dω);
Θ B∩Ac

d’altra parte
ZZ ZZ Z Z
V dQ = V dQ = ν(dθ) V (ω)P (θ, dω)
Θ×B Θ×(B∩Ac ) Θ B∩Ac
Z Z
= ν(dθ) V (ω)L(θ, ω)µ(dω)
c
ZΘ ZB∩A µZ ¶
L(s, ω)
= ν(dθ) X(s, ω) R ν(ds) L(θ, ω)µ(dω)
Θ B∩Ac Θ Θ
L(τ, ω)ν(dτ )
Z Z R Z Z
L(θ, ω)ν(dθ)
= ν(ds) X(s, ω)L(s, ω) µ(dω) RΘ = ν(ds) X(s, ω)L(s, ω) µ(dω).
Θ B∩Ac Θ
L(τ, ω)ν(dτ ) Θ B∩Ac

D’ora in avanti indicheremo con ν ω la legge a posteriori su (Θ, T ) condizionale a ω; come abbiamo
appena visto, nelle ipotesi in cui ci siamo posti (modello dominato) essa è assolutamente continua
rispetto a ν, di densità

R
dν ω  R L(θ, ω)

se Θ L(θ, ω)ν(dθ) 6= 0;
= g(θ, ω) = Θ
L(τ, ω)ν(dτ )
dν 
 R
1 se Θ L(θ, ω)ν(dθ) = 0.

(18.10) Esempio. Riprendiamo l’esempio (18.5). Abbiamo già detto che Θ = {1, 2}, ν({1}) = 0.40
e ν({2}) = 0.60; inoltre avevamo Ω = {B, L}; per motivi di notazione ora scriviamo ω 0 al posto di

108
B e ω 00 al posto di L, quindi Ω = {ω 0 , ω 00 }. Le quantità P (ω 0 |A1 ), P (ω 0 |A2 ), P (ω 00 |A1 ) e P (ω 00 |A2 )
sono da interpretare come i valori della verosimiglianza L: precisamente, se prendiamo come misura
dominante su Ω la misura µ che conta i punti, si ha
dP 1 0 dP 2 0
L(1, ω 0 ) = (ω ) = P (ω 0 |A1 ) = 0.48; L(2, ω 0 ) = (ω ) = P (ω|A2 ) = 0.63;
dµ dµ
dP 1 00 dP 2 00
L(1, ω 00 ) = (ω ) = P (ω 00 |A1 ) = 0.52; L(2, ω 00 ) = (ω ) = P (ω 00 |A2 ) = 0.37.
dµ dµ
La legge a posteriori è assolutamente continua rispetto a ν con densità
L(θ, ω)
g(θ, ω) = , (θ, ω) ∈ {1, 2} × {ω 0 , ω 00 }.
L(1, ω)ν({1}) + L(2, ω)ν({2})
In altre parole
L(1, ω 0 ) 0.48
N (ω 0 , {1}) = · ν({1}) = × 0.4 = 0.3368,
L(1, ω)ν({1}) + L(2, ω)ν({2}) 0.48 × 0.4 + 0.63 × 0.6
e questo è il calcolo che abbiamo fatto in precedenza per ottenere P (A1 |B). In modo simile per
gli altri valori.

19. Il formalismo decisionale; decisione bayesiana

Anche se non rappresenta tutti gli aspetti della statistica, il formalismo decisionale è abbastanza
intuitivo ed ha permesso degli sviluppi matematici rigorosi. Diciamo subito che le definizioni usuali
della teoria degli stimatori e dei test possono essere ricondotte al formalismo decisionale.
Lo statistico osserva un fenomeno la cui legge dipende da un parametro θ ∈ Θ, con lo scopo di
intraprendere un’azione a ∈ A (A (insieme delle azioni possibili) è un insieme di oggetti, che di
solito sono numeri ma teoricamente possono essere anche altro, se necessario). La scelta dell’azione
a porta come conseguenza un costo (o perdita) C(θ, a) ≥ 0 dipendente dal parametro θ.
¡ ¢
Lo statistico effettua un esperimento, formalizzato con un modello statistico Ω, F; (P θ , θ ∈ Θ) ,
e la sua decisione dipenderà naturalmente dal risultato ω, cioè
(19.1) Definizione. Una regola decisionale è una funzione δ : Ω → A. Si chiama funzione costo
(della regola δ) la funzione ω → C(θ, δ(ω)).

Supporremo sempre che A sia munito di una tribù A, e che le funzioni δ : ω 7→ δ(ω) e a → C(θ, a)
siano misurabili. In queste ipotesi, la funzione costo è una variabile aleatoria non negativa.
(19.2) Esempio. Uno stimatore, cosı̀ come lo abbiamo definito a suo tempo, è una regola de-
cisionale. In questo caso l’insieme delle azioni è l’aperto D che compare nella definizione (3.1).
Abbiamo notato a suo tempo che un test non è altro che uno stimatore (Oss.(11.5)). Dunque anche
la nozione di test può essere ricondotta al formalismo decisionale.

Nella statistica classica si definisce rischio della regola decisionale δ la speranza della sua funzione
costo, e precisamente
R(θ, δ) = Eθ [C(θ, δ)]

109
(in realtà noi abbiamo dato questa definizione solo per gli stimatori (e di conseguenza per i test),
ma come si vede subito la definizione è identica per ogni regola decisionale). Lo scopo è poi quello di
minimizzare il rischio, come accadeva per gli stimatori, ma dovendo tener conto del fatto che su Θ
ora abbiamo una probabiltà ν, avremo bisogno di minimizzare rispetto a δ non R(θ, δ) a θ fissato,
ma
R il suo integraleR rispetto a ν; in altre parole dovremo trovare una regola decisionale δ tale che
Θ
R(θ, δ)ν(dθ) 6 Θ R(θ, δ)ν(dθ) per ogni δ.

Nel contesto bayesiano si procede dunque come segue. Sia ρ una generica misura di probabilità su
(Θ, T ) (per il momento ρ non è necessariamente la legge a priori di cui abbiamo
R parlato nel para-
grafo precedente). Si cerca di minimizzare la perdita media (definita da Θ C(θ, a)dρ(θ)) rispetto
al parametro a (occorre naturalmente supporre che la funzione θ 7→ (C(θ, a)) sia misurabile, con-
dizione che è sempre verificata nelle applicazioni). Si dà cioè la

(19.3) Definizione. Si chiama rischio bayesiano (relativo a ρ) il numero

Z
inf C(θ, a)dρ(θ).
a∈A Θ

Inoltre

R R
(19.4) Definizione. Se esiste a ∈ A tale che Θ C(θ, a)dρ(θ) = inf a∈A Θ C(θ, a)dρ(θ), a si
chiama decisione bayesiana relativa a ρ. In altre parole in questo modo si definisce una funzione
d : ρ 7→ a = d(ρ).

Il meccanismo decisionale bayesiano consiste allora nel considerare come regola decisionale la regola
ω 7→ d(ν ω ) (ammesso che esista), dove ν ω è la legge a posteriori condizionale a ω di cui abbiamo
parlato nel paragrafo precedente.

La bontà di questa procedura è espressa dal risultato seguente:

¡ ¢
(19.5) Teorema. Sia Ω, F; (P θ , θ ∈ (Θ, T )) un modello statistico dominato, con verosimiglianza
L(θ, ω), e sia ν la legge a priori su (Θ, T ). Supponiamo che, per ogni ω, esista una decisione
bayesiana d(ν ω ) e che la funzione ω 7→ d(ν ω ) sia misurabile. Allora, per ogni altra regola di
decisione δ, si ha
Z Z
R(θ, δ)ν(dθ) ≥ R(θ, d(ν ¦ ))ν(dθ).
Θ Θ

Dimostrazione. Sia A l’insieme definito nel Teorema (18.9); ricordiamo che Θ × A è Q−trascu-

110
rabile. Per la definizione di Q si ha allora
Z Z µZ ¶ ZZ
R(θ, δ)ν(dθ) = ν(dθ) C(θ, δ(ω))P (θ, dω) = C(θ, δ(ω))Q(dθ, dω)
Θ Θ Ω Θ×Ω
ZZ Z µZ ¶
= C(θ, δ(ω))Q(dθ, dω) = ν(dθ) C(θ, δ(ω))P (θ, dω)
Θ×(Ω∩Ac ) Θ Ω∩Ac
Z µZ ¶
= ν(dθ) C(θ, δ(ω))L(θ, ω)µ(dω)
Θ Ω∩Ac
Z µZ ¶
= µ(dω) ν(dθ)C(θ, δ(ω))L(θ, ω)
Ω∩Ac
Z µZΘ ¶ µZ ¶
L(θ, ω)
= µ(dω) L(τ, ω)ν(dτ ) ν(dθ)C(θ, δ(ω)) R
Ω∩Ac Θ Θ Θ
L(τ, ω)ν(dτ )
Z µZ ¶ µZ ¶
= µ(dω) L(τ, ω)ν(dτ ) C(θ, δ(ω))ν ω (dθ)
Ω∩Ac Θ Θ
Z µZ ¶ µZ ¶
ω ω
≥ µ(dω) L(τ, ω)ν(dτ ) C(θ, d(ν ))ν (dθ) ,
Ω∩Ac Θ Θ

e, con gli stessi calcoli, si vede che quest’ultima quantità è uguale a


Z
R(θ, d(ν ¦ ))ν(dθ).
Θ

(19.6) Osservazione. Per le regole di decisione si possono dare le definizioni di preferibile, stret-
tamente preferibile e ammissibile esattamente come per gli stimatori. La decisione bayesiana è
ammissibile (in senso classico), sotto diverse ipotesi facili da verificare, per esempio:
(i) se Θ è un aperto di Rk , il supporto di ν è tutto Θ (cioè non esistono sottoinsiemi aperti (o
chiusura di un aperto) non vuoti di Θ che siano trascurabili rispetto a ν e, per ogni regola di
decisione δ, la funzione θ 7→ R(θ, δ) è continua.
Infatti, se d(ν ¦ ) non fosse ammissibile, esisterebbe una regola di decisione δ strettamente preferibile
a d(ν ¦ ), cioè tale che
R(θ, δ) ≤ R(θ, d(ν ¦ )), ∀ θ;
R(θ, δ) < R(θ, d(ν ¦ )), per almeno un θ.
Ma in tal caso, per motivi di continuità, la diseguaglianza stretta sarebbe verificata per ogni θ in
un intorno U di θ, con ν(U ) > 0, e quindi la tesi del teorema precedente, cioè
Z Z
R(θ, δ)ν(dθ) ≥ R(θ, d(ν ¦ ))ν(dθ),
Θ Θ

sarebbe falsa.
(ii) Se Θ è numerabile e nessun punto di Θ è ν−trascurabile (verifica per esercizio, è simile a quella
del punto precedente).

111
(19.7) Osservazione. Se T è una statistica esaustiva, si ha L(θ, ω) = h(ω)g θ (T (ω)) e di con-
seguenza
dν ω g θ (T (ω))
(θ) = R τ
dν Θ
g (T (ω)) dν(τ )
è σ(T )−misurabile. Dunque si può sostituire il risultato dell’esperimento (cioè ω) con l’osservazione
della statistica T (ω). Inoltre, in genere d(ν ω ) è σ(T )−misurabile.

20. Stimatori bayesiani

Sia g : Θ 7→ R misurabile e limitata. Vogliamo stimare la quantità g(θ); per questo porremo A = R
e utilizzeremo il costo C(θ, a) = (g(θ) − a)2 . La procedura bayesiana illustrata precedentemente
richiede per Rprima cosa che, per ogni probabilità ρ su Θ, si cerchi (se esiste) a = d(ρ) che minimizza
la quantità Θ (g(θ) − a)2 ρ(dθ).
R
(20.1) Lemma. Se Θ
g 2 (θ)ρ(dθ) < +∞ (non necessariamente limitata), allora
Z Z
(g(θ) − a) ρ(dθ) ≥ (g(θ) − a)2 ρ(dθ),
2
Θ Θ
R
dove a = Θ
g(θ)ρ(dθ) = d(ρ).

Dimostrazione. Infatti
Z Z
2
¡ ¢2
(g(θ) − a) ρ(dθ) = (g(θ) − a) + (a − a) ρ(dθ)
Θ Θ
Z Z Z
= (g(θ) − a) ρ(dθ) + (a − a) + 2(a − a) (g(θ) − a)ρ(dθ) = (g(θ) − a)2 ρ(dθ) + (a − a)2
2 2

ZΘ Θ Θ
2
≥ (g(θ) − a) ρ(dθ).
Θ

Il Lemma precedente dice dunque che lo stimatore bayesiano della funzione g(θ) è
R
R
Z  ΘRg(θ)L(θ, ω)ν(dθ) se

L(θ, ω)ν(dθ) 6= 0
ω ω L(θ, ω)ν(dθ) Θ
T (ω) := d(ν ) = g(θ)ν (dθ) = Θ
Θ 
R R
Θ
g(θ)ν(dθ) se Θ L(θ, ω)ν(dθ) = 0.

Notiamo che, per il Teorema (18.9), si ha l’uguaglianza T (ω) = E[g|F̃](ω) Q−q.c.: infatti
Z Z
L(θ, ω)
E[g|F̃](ω) |{z}= g(θ)N (ω, dθ) |{z}= g(θ) R ν(dθ) = T (ω).
Θ Θ Θ
L(τ, ω)ν(dτ )
def.(18.7) T eor.(18.9)

Questo fatto permette quindi di interpretare lo stimatore di g(θ) in termini di speranza con-
dizionale; questa interpretazione è utile nel risultato che segue, che dice che, tranne che in casi
banali, gli stimatori bayesiani non sono mai corretti: ved. oss. (20.3).

112
(20.2) Teorema. Sia T lo stimatore bayesiano di g(θ). Se T è corretto, allora
ZZ
¯ ¯
¯T (ω) − g(θ)¯2 dQ = 0.
Θ×Ω

Dimostrazione.
Consideriamo la variabile X(θ, ω) = T (ω) − g(θ) come elemento di L2 (Θ × Ω, T ⊗ F , Q). Si ha

E[X|F̃] = E[T |F̃] − E[g|F̃] = 0,

perché E[g|F̃] = T come detto sopra, dunque T è F̃−misurabile e quindi E[T |F̃] = T = E[g|F̃].
Pertanto X è ortogonale (in L2 (Θ×Ω, T ⊗ F, Q)) ad ogni funzione V che sia F̃−misurabile. Infatti
£ ¤ £ ¤
E[XV ] = E E[XV |F̃] = E V E[X|F̃] = 0.

D’altra parte, anche E[X|T̃ ](θ) = 0, perché (θ, ω) 7→ g(θ) è T̃ −misurabile (per definizione della
tribù T̃ ) e, per il Teorema (18.6),
Z
E[T |T̃ ](θ) = T (ω)P (θ, dω) = Eθ [T ] = g(θ)

perché T è corretto per ipotesi. Dunque E[X|T̃ ](θ) = g(θ) − g(θ) = 0. Quindi X è ortogonale (in
L2 (Θ × Ω, T ⊗ F , Q)) anche ad ogni funzione W che sia T̃ −misurabile.
Allora X è ortogonale anche a se stesso, perchè è somma di (θ, ω) 7→ g(θ) (che è T̃ −misurabile) e
di (θ, ω) 7→ −T (ω) (che è F̃−misurabile). Dunque ha norma nulla in L2 (Θ × Ω, T ⊗ F , Q).

(20.3) Osservazione. Notiamo che


ZZ Z Z
¯ ¯ ¯ ¯
¯T (ω) − g(θ)¯2 dQ = ν(dθ) ¯T (ω) − g(θ)¯2 dP θ (ω).
Θ×Ω Θ Ω

Quindi, se T è corretto, per il risultato precedente esiste un N ∈ T con ν(N ) = 0 e tale che per
ogni θ ∈ N c l’insieme Bθ = {ω ∈ Ω : T (ω) 6= g(θ)} è P θ −trascurabile. Se (i) le probabilità P θ
sono tutte equivalenti, (ii) N c contiene almeno due elementi e (iii) g non è costante su N c , questo
non è possibile; infatti, siano θ0 e θ1 due elementi di N c tali che g(θ0 ) 6= g(θ1 ). Allora
³ ´ ³ [ ´ ¡ ¢
P θ0 {ω ∈ Ω : T (ω) = g(θ1 )} 6 P θ0 {ω ∈ Ω : T (ω) = g(θ)} = P θ0 Bθ0 = 0,
θ:g(θ)6=g(θ0 )

e quindi ³ ´
P θ0 {ω ∈ Ω : T (ω) = g(θ1 )} = 0;

di conseguenza, dato che le P θ sono tutte equivalenti, si ha anche


³ ´ ³ ´
0 = P θ1 {ω ∈ Ω : T (ω) = g(θ1 )} = 1 − P θ1 {ω ∈ Ω : T (ω) 6= g(θ1 )} = 1 − P θ1 (Bθ1 ).

113
Ma questo non è possibile, perché P θ (Bθ1 ) = 0.

(20.4) Osservazione. I risultati enunciati restano validi se g, anziché essere limitata, è di quadrato
integrabile per ogni legge a posteriori ν ω , e anche se g è a valori vettoriali (cioè g : Θ → Rk ) e si
impone C(θ, a) = ||g(θ) − a||2 .

(20.5) Esempio. Sia (X1 , . . . , Xn ) un campione di legge geometrica di parametro θ ∈ Θ = (0, 1).
Come legge a priori su Θ prendiamo la misura di Lebesgue. La verosimiglianza è
Pn
L(θ; k1 , . . . , kn ) = θn (1 − θ) i=1 ki −n

e dunque lo stimatore bayesiano di g(θ) = θ è


R1 Pn
n+1 ki −n
θ (1 − θ) i=1 dθ
T (k1 , . . . , kn ) = 0R 1 Pn .
n (1 − θ) k −n
0
θ i=1
i

Ricordiamo che Γ(n) = (n − 1)! per n intero e che


Z 1
Γ(α)Γ(β)
B(α, β) = θα−1 (1 − θ)β−1 dθ = , α > 0, β > 0.
0 Γ(α + β)

Dunque Z 1
Γ(n + 1)Γ(m + 1) n! m!
θn (1 − θ)m dθ = = ;
0 Γ(n + m + 2) (m + n + 1)!
ricaviamo pertanto l’espressione
n+1
T = T (X1 , . . . , Xn ) = Pn .
i=1 Xi + 2

Questo stimatore è molto simile allo stimatore di massima verosimiglianza, che risulta essere
n
θ̂ = Pn
i=1 Xi

(verifica per esercizio).

(20.6)Esempio. Sia (X1 , . . . , Xn ) un campione di legge esponenziale di parametro θ ∈ Θ = (0, +∞)


e prendiamo come legge a priori su Θ la probabilità ν(dθ) = ae−aθ dθ con a > 0 (questa legge è
assegnata essenzialmente per rendere possibili i conti). Lo stimatore bayesiano di g(θ) = θ è
R +∞ n+1 −θ(Pn Xi +a)
θ e i=1 dθ
T = 0R +∞ Pn .
n −θ( Xi +a)
0
θ e i=1 dθ

Dato che Z +∞
n!
θn e−θb dθ = ,
0 bn+1

114
ne segue che
n+1
T = T (X1 , . . . , Xn ) = Pn .
i=1 Xi + a

Di nuovo, questo stimatore è molto simile allo stimatore di massima verosimiglianza, che è
n
θ̂ = Pn
i=1 Xi

(ved. esempio (7.3)).

—————————————o—————————————
Nel seguito ci intersserà il concetto mediana, di cui ora parleremo
¡ brevemente.
¢ ¡ Alcuni¢ testi definis-
cono la mediana di ν come un numero reale m tale che ν (−∞, m] = ν [m, +∞) = 12 . Espri-
mendoci in termini della funzione di ripartizione F di ν, una mediana è un valore m tale che
F (m) = F (m− )(:= limt→m− F (t)) = 21 . Da queste relazioni segue che nel punto m la funzione F
deve essere continua (e deve valere l’uguaglianza F (m) = 12 ). Dunque è facile capire che con questa
definizione, una mediana può non esistere, e questo non è soddisfacente (un esempio semplice è
quello della legge ν tale che ν({0}) = ν({1}) = ν({2}) = 13 . Sarebbe naturale dire che la mediana
di questa legge è il numero m = 1, ma tale valore non rispetta la definizione data sopra). Allora
una migliore definizione è la seguente

(20.7)
¡ Definizione.
¢ ¡ Si chiama
¢ mediana della legge di probabilità ν un punto m tale che
ν (−∞, m] ≥ 12 e ν [m, +∞) ≥ 12 . In termini di F , una mediana m verifica le condizioni
F (m− ) ≤ 12 ≤ F (m).

È facile dimostrare che, con questa definizione, una mediana esiste sempre. Tuttavia la mediana
non sempre è unica. Ad esempio la legge di densità
½
1 3
f (x) = 1 per 0 ≤ x ≤ 2 oppure per 1 ≤ x ≤ 2
0 altrove

ha come mediana ogni valore m con 12 ≤ m ≤ 1.


In generale, non è difficile vedere che l’insieme delle mediane di una legge ν è un intervallo chiuso
non vuoto [m0 , m1 ]. (Suggerimento: porre m0 = sup{x ∈ R : F (x) < 12 }, m1 = sup{x ∈ R :
F (x) ≤ 21 }.
Si capisce che la mediana m è un “indice di centralità ”della legge ν, come la media µ. Dunque
una domanda naturale è quali relazioni intercorrano tra µ e m. È immediato vedere che µ = m
per ogni legge simmetrica. In generale però media e mediana possono essere differenti (trovare
esempi). Tuttavia

(20.8) Esercizio. Dimostrare che la media µ, ogni mediana m e la varianza σ 2 di una legge λ
verificano la diseguaglianza |µ − m| ≤ σ.

Soluzione (di Dario Trevisan). Sia X una v.a. definita sullo spazio di probabilità (Ω, F, P ) e
avente legge λ. Facciamo vedere innanzitutto che

115
£ ¤ £ ¤
(i) inf E |X − a| = E |X − m| ;
a∈R

£ ¤ £ ¤
(ii) inf E |X − a|2 = E |X − µ|2 = σ 2 .
a∈R

0
(i) Senza perdere in generalità,
£ si può
¤ supporre
£ ¤ che m = 0 (ponendo Y = X −m e a = a−m, £ basta
¤
0
dimostrare
£ ¤ che inf a 0 ∈R E |Y − a |
£ ¤ = E |Y | );
£ basta inoltre
¤ dimostrare£ che inf a<0 ¤ E |Y£ − a| ¤=
E£|Y |¤ (dato che inf a>0 E |Y −a| = inf a>0 E |(−Y )−(−a)| = inf a<0 E |(−Y )−a| = E |−Y | =
E |Y | ). Per a < 0 e per x ∈ R vale la diseguaglianza (facile da dimostrare)
¡ ¢
|x| 6 |x − a| + a 1[0,+∞) (x) − 1(−∞,0) (x) .

Sostituiamo Y (ω) al posto di x; osservando che 1[0,+∞) (Y (ω)) = 1{Y >0} (ω) e 1(−∞,0) (Y (ω)) =
1{Y <0} (ω) si ottiene
¡ ¢
|Y | 6 |Y − a| + a 1{Y >0} − 1{Y <0} ;
passando infine alla speranza si trova
£ ¤ £ ¤ ¡ ¢ £ ¤
E |Y | 6 E |Y − a| + a P (Y > 0) − P (Y < 0) 6 E |Y − a|

perché a < 0 e P (Y > 0) − P (Y < 0) = P (Y > m) − P (Y < m) > 0 per la definizione di mediana
(ricordare che m = 0 nel nostro caso).
(ii) La dimostrazione di questa seconda relazione è identica a quella del Lemma (20.1): basta
sostituire in esso lo spazio (Θ, T , ν) con lo spazio (Ω, F, P ) e la funzione misurabile θ 7→ g(θ) con
la v.a. ω 7→ X(ω).
£ ¤
Possiamo
£ ora¤ provare la diseguaglianza |µ − m| 6 σ. Posto α = E (X − m)+ > 0 e β =
E (X − m)− > 0, l’asserto risulta dalla catena di relazioni

¯ £ ¤¯ £ ¤ £ ¤ q £ ¤
|µ − m| = ¯E (X − m) ¯ = |α − β| 6 α + β = E |X − m| = inf E |X − a| 6 inf E |X − a|2
a a
= σ.

—————————————o—————————————

Torniamo ora agli stimatori bayesiani.

(20.9) Osservazione. Talvolta ha interesse prendere in considerazione funzioni costoRdifferenti dal


costo quadratico. Ad esempio, se si pone C(θ, a) = |θ−a|, si può mostrare che mina∈R R |θ−a|dν(θ)
è realizzata dalla mediana della misura di probabilità ν. In altre parole

116
(20.10) Proposizione. Se m è una mediana per ν, allora, per ogni a ∈ R,
Z Z
|θ − m|ν(dθ) ≤ |θ − a|ν(dθ)
R R
R R
(e di conseguenza, se m1 e m2 sono due mediane per ν, si ha R
|θ − m1 |ν(dθ) = R
|θ − m2 |ν(dθ)).

La dimostrazione di questa Proposizione è identica a quella della relazione (i) dell’ Es. (20.8) :
basta sostituire in esso lo spazio (Ω, F, P ) con lo spazio (Θ, T , ν) e la v.a. ω 7→ X(ω) con la
funzione misurabile θ 7→ θ.

(20.11) Esercizio. Sia X (osservazione) una v.a. avente legge uniforme su [0, θ] (θ ∈ Θ = R+ ).
Scegliamo come legge a priori su R+ ν(dθ) = θe−θ dθ. Cercare lo stimatore bayesiano di g(θ) = θ
prendendo come costo
(i) C(θ, a) = (θ − a)2 ;
(ii) C(θ, a) = |θ − a|.

Soluzione. (i) Si ha
½
L(θ, x) = θ−1 per x ∈ [0, θ] = θ−1 1 −1
[0,θ] (x) = θ 1[x,+∞] (θ).
0 altrove
Quindi Z Z Z
+∞ +∞ +∞
L(θ, X)ν(dθ) = θ−1 1[X,+∞] (θ)θe−θ dθ = e−θ dθ = e−X ;
0 0 X
Z +∞ Z +∞ Z +∞
−1 −θ
g(θ)L(θ, X)ν(dθ) = θθ 1[X,+∞] (θ)θe dθ = θe−θ dθ = e−X (X + 1);
0 0 X
dunque R +∞
0
g(θ)L(θ, X)ν(dθ)
T = R +∞ = X + 1.
0
L(θ, X)ν(dθ)
(ii) In questo secondo caso, per la proposizione precedente, sappiamo che T è dato dalla mediana
della legge a posteriori ν X , che è assolutamente continua rispetto alla legge a priori ν con densità

L(θ, X) θ−1 1[x,+∞] (θ)


f (θ, X) = R +∞ = .
L(θ, X)ν(dθ) e−X
0

Si tratta di una legge assolutamente continua, dunque continua, e pertanto la mediana è l’unico
valore m tale che
Z +∞ Z Z
1 X X −1 −θ X
= ν ([m, +∞)) = f (θ, X)ν(dθ) = e θ θe dθ = e e−θ dθ.
2 m m∨X m∨X

D’altra parte, se m ≤ X, l’equazione precedente non può essere soddisfatta (perché il suo secondo
membro vale 1). Invece, se m > X l’equazione diventa
Z
1 X
=e e−θ dθ = eX−m ,
2 m

117
da cui si ricava m = T = X + log 2.

(20.12) Esercizio. Sia Θ = (0, 1) e C(θ, a) = θ(1 − a) + (1 − θ)a. Qual è la decisione bayesiana
per una generica legge ν? Verificare che il rischio è sempre inferiore a 12 .

21. Test dal punto di vista bayesiano

In un problema di test dell’ipotesi H0 : θ ∈ Θ0 contro l’alternativa H1 : θ ∈ Θ1 in un contesto


bayesiano, Θ0 e Θ1 sono supposti misurabili, perchè ora su Θ c’è una tribù T . L’insieme delle
azioni è A = {0, 1} (0 = accetto H0 , 1= respingo H0 ). Il costo è definito assegnando due costi
differenti: c0 > 0 all’ errore di prima specie e c1 > 0 a quello di seconda specie. Precisamente si
pone ½
c0 per θ ∈ Θ0
C(θ, 1) =
0 per θ ∈ Θ1 ;
½
0 per θ ∈ Θ0
C(θ, 0) =
c1 per θ ∈ Θ1 .
Volendo riassumere in una sola formula:
½
a c0 per θ ∈ Θ0
C(θ, a) = .
(1 − a)c1 per θ ∈ Θ1

Questa formula assegna il costo anche nel caso di test aleatori, in cui l’insieme delle azioni è
A = [0, 1].

Mentre in contesto non bayesiano la discrezionalità dello statistico consiste nello scegliere il livello
desiderato, in contesto bayesiano consiste nello scegliere, oltre alla legge a priori, i due costi c0 e
c1 , o piuttosto il numero c = cc10 , detto rapporto dei costi.

Se ρ è una probabilità su (Θ, T ), la perdita media è in questo caso


Z
£ ¤
C(θ, a)ρ(dθ) = a c0 ρ(Θ0 ) + (1 − a)c1 ρ(Θ1 ) = a c0 ρ(Θ0 ) − c1 ρ(Θ1 ) + c1 ρ(Θ1 ),
Θ

e la regola di decisione bayesiana è pertanto



0 se ρ(Θ0 ) > cρ(Θ1 )
d(ρ) = 1 se ρ(Θ0 ) < cρ(Θ1 )

indifferente se ρ(Θ0 ) = cρ(Θ1 ).

La funzione test bayesiana (cioè la decisione bayesiana relativa alla legge a posteriori ν ω ) è di
conseguenza 
0 se ν ω (Θ0 ) > cν ω (Θ1 )
φ(ω) = d(ν ω ) = 1 se ν ω (Θ0 ) < cν ω (Θ1 )

indifferente se ν ω (Θ0 ) = cν ω (Θ1 ),
a condizione naturalmente che si tratti di una funzione misurabile.

118
Notiamo cheRsi prende la decisione 1 (cioè si respinge H0 ) nel caso che ν ω (Θ0 ) < cν ω (Θ1 ), che,
supponendo Θ L(θ, ω)ν(dθ) > 0, significa
R R
Θ0
L(θ, ω)ν(dθ) L(θ, ω)ν(dθ)
R < c RΘ1 ,
Θ
L(θ, ω)ν(dθ) Θ
L(θ, ω)ν(dθ)

o anche Z Z
L(θ, ω)ν(dθ) < c L(θ, ω)ν(dθ).
Θ0 Θ1

Dunque, se E = {ω ∈ Ω : ν ω (Θ0 ) = cν ω (Θ1 )} è µ−trascurabile, si ottiene un test di regione critica


½ Z Z ¾
D= ω∈Ω: L(θ, ω)ν(dθ) < c L(θ, ω)ν(dθ) .
Θ0 Θ1

Si
R può notare una vaga rassomiglianza con R il test del rapporto di verosimiglianza (se si sostituisce
Θ0
L(θ, ω)ν(dθ) con sup θ∈Θ0 L(θ, ω) e Θ1
L(θ, ω)ν(dθ) con supθ∈Θ1 L(θ, ω) si ottiene infatti la
regione critica del test del rapporto di verosimiglianza).

Se E non è trascurabile, un test bayesiano è un test con una qualunque regione critica D ∈ F tale
che
{ω ∈ Ω : ν ω (Θ0 ) < cν ω (Θ1 )} ⊆ D ⊆ {ω ∈ Ω : ν ω (Θ0 ) ≤ cν ω (Θ1 )}.
(21.1) Esempio. Se Θ = {0, 1}, H0 : θ = 0, H1 : θ = 1 e ν(0), ν(1) è la legge a priori, la funzione
test è 
0 se L(0, ω) > κL(1, ω)
Φ(ω) = 1 se L(0, ω) < κL(1, ω)

indifferente se L(0, ω) = κL(1, ω),
c1 ν(1)
dove κ = c0 ν(0) . Si tratta dunque di un test di Neyman–Pearson.

—————————————o—————————————

Chiudiamo questa parte di trattazione con un

Esempio riassuntivo

Sia µθ la legge su [0, 1] avente densità f θ (x) = θxθ−1 rispetto alla misura di Lebesgue), con θ ∈ R+ .
Sia (X1 , . . . , Xn ) un campione di legge µθ .
1) Trovare una statistica esaustiva. È completa?
2) Trovare uno stimatore corretto di θ e dire se è ottimale. Trovare lo stimatore di massima
verosimiglianza di θ.
3) Trovare un test unilaterale dell’ipotesi H0 : θ ≤ 1 contro H1 : θ > 1 di livello 0.05.
4) Trovare uno stimatore bayesiano di θ per la legge a priori ν(dθ) = e−θ dθ
5) Trovare un test bayesiano dell’ipotesi H0 : θ = 1 contro H1 : θ 6= 1 con rapporto dei costi c e
con legge a priori ν = 12 δ1 + 12 µ, dove δ1 è la misura di Dirac concentrata in 1 e µ(dθ) = e−θ dθ.

119
Soluzione. La verosimiglianza del campione è
³Y
n ´θ−1 ³ n
X ´
L(θ; x1 , . . . , xn ) = θn xi = exp (θ − 1) log xi + n log θ .
i=1 i=1

Si tratta
Pn come si vede di un modello esponenziale (cambio di parametro θ 7→ θ − 1), e quindi
T = i=1 log Xi è una statistica esaustiva completa.
2) L’equazione di verosimiglianza è

d³ ´¯
Xn
¯
(θ − 1) log xi + n log θ ¯ = 0,
dθ i=1
θ=θ̂

cioè
n
X n
log Xi + = 0,
i=1 θ̂
da cui
n
θ̂ = − Pn
i=1 log Xi

(osservazione: θ̂ > 0 perché Xi ∈ (0, 1)).


Pn
Cerchiamo la legge di − i=1 log Xi sotto P θ . Il singolo
Pn addendo − log Xi ha legge esponenziale
di parametro θ (verifica per esercizio). Quindi − i=1 log Xi (somma di n v. a. indipendenti
tutte di legge E(θ) = Γ(1, θ)) ha legge Γ(n, θ). Dunque (ispirandoci allo stimatore di massima
verosimiglianza) calcoliamo
h i Z +∞
1 1 θn n−1 −θx
E Pn = x e dx
− i=1 log Xi 0 x Γ(n)
Z +∞ Z
θn θn Γ(n − 1) +∞ θn−1 θ
= xn−2 e−θx dx = · xn−2 e−θx dx = ,
Γ(n) 0 Γ(n) θn−1 0 Γ(n − 1) n − 1

perché la funzione integranda è la densità Γ(n − 1, θ) e dunque il suo integrale su R vale 1.


Se ne deduce che la statistica T = Pnn−1 log Xi
è uno stimatore corretto di θ, funzione della statistica
Pn i=1
esaustiva completa i=1 log Xi . Per il Teorema (4.4), si tratta dunque di uno stimatore ottimale
tra gli stimatori corretti.
3) Il modello è esponenziale, e quindi a rapporto di verosimiglianza crescente. Direttamente

θn ³ Y ´θ2 −θ1
n
L(θ2 )
= 2n Xi
L(θ1 ) θ1 i=1
Qn
è a rapporto di verosimiglianza crescente rispetto a i=1 Xi . In queste condizioni sappiamo che
un test unilaterale ha una regione critica della forma
nY
n o
D= Xi > c
i=1

120
con c (∈ (0, 1) perché 0 < Xi < 1) tale che
³Y
n ´ ³ Xn ´
P1 Xi > c = P 1 − log Xi < − log c = 0.05.
i=1 i=1
Pn
Sotto P 1 , − i=1 log Xi ha legge Γ(n, 1), e quindi dobbiamo trovare c in modo che
³ n
X ´ Z − log c
1
1
P − log Xi < − log c = xn−1 e−x dx = 0.05.
i=1 0 (n − 1)!

A questo punto si procede come abbiamo visto in altre situazioni simili.

4) Dalla teoria, sappiamo che lo stimatore bayesiano di θ (con la misura a priori assegnata) è
R +∞ ³ Q ´θ−1
n+1
0
θ Xi e−θ dθ
T = R ³ ´θ−1 .
+∞ n Q −θ dθ
0
θ Xi e

Si ha
Z +∞ Z +∞ Z +∞
n θ −θ n θ log b −θ Γ(n + 1) (1 − log b)n+1 n −θ(1−log b)
θ b e dθ = θ e e dθ = θ e dθ =
0 0 (1 − log b)n+1 0 Γ(n + 1)
Γ(n + 1) n!
= = ,
(1 − log b)n+1 (1 − log b)n+1

perché la funzione nell’ultimo integrale è la densità Γ(n + 1, 1 − log b) e quindi il suo integrale vale
1. Dunque
³ Pn ´n+1
1− i=1 log Xi (n + 1)! n+1
T = ·³ ´n+2 = Pn .
n! Pn 1 − i=1 log Xi
1 − i=1 log Xi

5) La regione critica è
½ Z Z ¾
D= ω∈Ω: L(θ, ω)ν(dθ) < c L(θ, ω)ν(dθ) ,
Θ0 Θ1

che in questo caso (ν = 12 δ1 + 21 e−θ dθ, Θ0 = {1}, Θ1 = (0, 1) ∪ (1, +∞))diventa


½ Z ¾ ( Z )
1 1 +∞ +∞ ³Y
n ´θ−1
−θ n −θ
D= ω ∈ Ω : L(1, ω) < c L(θ, ω)e dθ = ω∈Ω:1<c θ Xi e dθ .
2 2 0 0 i=1

Dato che Z +∞
n!
θn bθ−1 e−θ dθ = ,
0 b · (1 − log b)n+1

121
la regione critica è
 

 

n!
D = ω ∈ Ω : 1 < c³ Q ´ ³ Pn ´n+1 .

 n 

X
i=1 i · 1 − i=1 log Xi

Per vedere come è fatta la regione critica, bisogna risolvere la diseguaglianza

b · (1 − log b)n+1 < c n!, 0 < b < 1,

che si può studiare qualitativamente disegnando il grafico di b 7→ b · (1 − log b)n+1 .

Esercizio. Studiare il test H0 : θ = 1 contro θ 6= 1 per un campione di legge esponenziale di


parametro θ ∈ R+ = Θ, prendendo come legge a priori ν = 21 δ1 + 21 e−θ dθ. Si trova
Pn Z µ ¶n Pn
n −θ( Xi ) 1 1 1
L(θ; X1 , . . . , Xn ) = θ e i=1 ; L(θ)ν(dθ) = · e− 2 i=1 Xi ;
Θ0 2 2
Z Z +∞ Pn
1 (n + 1)!
L(θ)ν(dθ) = θn e−θ[ i=1 Xi +1] dθ = Pn ;
Θ1 2 0 ( i=1 Xi + 1)n+1
la regione critica è
( )
Pn Xn
− 12 Xi
D= e i=1 ( Xi + 1)n+1 < c(n + 1)!2n+1 ,
i=1

e studiando un’opportuna diseguaglianza si vede che essa è della forma


( n ) ( n )
X X
D= Xi ≤ a ∪ Xi ≥ b ,
i=1 i=1

dove a e b soddisfano l’equazione

(a + 1)n+1 e−a/2 = (b + 1)n+1 e−b/2 .

Vedere l’ultimo esercizio (16.7) per dei risultati analoghi con i metodi classici (non bayesiani).

22. La funzione di ripartizione empirica e il metodo dei momenti.


Sia (X1 , . . . , Xn ) un campione di legge µ (da pensare come l’incognita del problema).
(22.1) Definizione. Si chiama funzione di ripartizione empirica la variabile aleatoria (x ∈ R
fissato)
n
1X
ω 7→ Fn (x, ω) = 1{Xi ≤x} (ω).
n i=1

122
Osservazione. Sia ω ∈ Ω fissato, e supponiamo (ma non sarebbe necessario) che X1 (ω) <
X2 (ω) < . . . < Xn (ω). Allora, per X1 (ω) ≤ x < X2 (ω),
n
1X 1
Fn (x, ω) = 1{Xi ≤x} (ω) =
n i=1 n

perché 1{X1 ≤x} (ω) = 1 mentre 1{Xi ≤x} (ω) = 0 per i ≥ 2; per X2 (ω) ≤ x < X3 (ω) si ha
n
1X 2
Fn (x, ω) = 1{Xi ≤x} (ω) =
n i=1 n

perché 1{X1 ≤x} (ω) = 1{X2 ≤x} (ω) = 1 mentre 1{Xi ≤x} (ω) = 0 per i ≥ 3 e cosı̀ via. Dunque,
x 7→ Fn (x, ω) è la funzione di ripartizione di una legge di probabilità discreta che assegna massa
1/n ai punti di ascissa X1 (ω), . . . , Xn (ω), cioè della legge
n
1X
δX (ω) ,
n i=1 i

(δt = misura di Dirac nel punto t).

Sia x fissato. Le v.a. 1{Xi ≤x} sono indipendenti e hanno legge B(1, F (x)), perchè P (1{Xi ≤x} = 1) =
P (Xi ≤ x) = F (x). Dunque hanno media F (x) e varianza F (x)(1−F (x)). Quindi, per la Legge dei
Grandi Numeri, per ogni x, Fn (x, ·) converge q.c. a F (x) (dunque ne è un’approssimazione, di qui il
√ ³
nome di funzione di ripartizione empirica); inoltre, per il Teorema Limite Centrale, n Fn (x, ·) −
´ ¡ ¢
F (x) converge in legge ad una N 0, F (x)(1 − F (x)) .

La Legge dei Grandi Numeri dice che


(i) La convergenza è puntuale in x (cioè il risultato vale per ogni fissato x);
(ii) l’evento Acx = {ω : Fn (x, ω) → F (x)} è tale che P (Ax ) = 1, ma dipende da x. Quindi a priori
l’insieme ∩x Ax (che è l’evento su cui si ha la convergenza di Fn (x, ·) → F (x) per ogni x), potrebbe
non avere probabilità uguale a 1.
La convergenza verso F (x) è però rafforzata dal seguente risultato:

(22.2) Teorema (di Glivenko–Cantelli). Per ogni n ∈ N∗ poniamo


. ¯ ¯
Dn (ω) = sup ¯Fn (x, ω) − F (x)¯.
x∈R

Allora
(i) Per ogni n, Dn è una v. a.;
(ii) la successione (Dn )n converge q.c. a 0 per n → ∞.
(22.3) Osservazione. Il teorema dice dunque che
(i) la convergenza è uniforme in x;

123
(ii) Esiste un evento E, tale che P (E) = 1, sul quale si ha convergenza uniforme. Dunque, se
ω ∈ E, si ha anche la convergenza puntuale per ogni fissato x di Fn (x, ω) verso F (x).

Dimostrazione. (i) Dn è misurabile perché il sup può essere fatto sui soli razionali.
(ii) Indichiamo con F (x− ) = limt↑x F (x); notazione analoga per Fn (x, ·). Si ha
n n
1X 1X
1{Xi <x} (ω) = lim 1{Xi ≤t} (ω) = Fn (x− , ω);
n i=1 t↑x n
i=1

inoltre, ancora per la Legge dei Grandi Numeri, per ogni x esiste un evento Bx con P (Bx ) = 1 tale
che Fn (x− , ω) → F (x− ), ∀x.

Ricordiamo che la funzione quantile φ = F ← è cosı̀ definita:

φ(u) = F ← (u) = inf{x ∈ R : F (x) ≥ u}, u ∈ (0, 1).

Essa ha, fra le altre, le due seguenti proprietà (dimostrate dopo la Proposizione (11.2)
(i) Se u ≤ v allora φ(u) ≤ φ(v).
(ii)F (φ(u)− ) ≤ u ≤ F (φ(u)).

Sia ora k un intero ≥ 1 fissato. Poniamo x0 = −∞, xk = +∞ e, per ogni j = 1, 2, . . . , k − 1,


µ ¶
j
xj = φ .
k

Osserviamo che dalla prima delle relazioni (ii) (applicata a u = j/k) segue, per 1 ≤ j ≤ k − 1
¡ ¢ j
F x−
j ≤ ,
k
mentre dalla seconda delle (ii) (applicata a u = (j − 1)/k) segue per 2 ≤ j ≤ k
¡ ¢ j−1
F xj−1 ≥ .
k
In particolare si ha
1 1
(22.4) F (x−
1)≤ , F (xk−1 ) ≥ 1 − .
k k
e sottraendo, per j = 2, . . . , k − 1 si ottiene
¡ ¢ ¡ ¢ 1
(22.5) F x−
j − F xj−1 ≤ .
k

Se si pone per convenzione F (x0 ) = 0 e F (x−


k+1 ) = 1, usando le (22.4) si vede che la (22.5) vale
per ogni j = 1, . . . , k.

124
Poniamo ora © ª
Rn (ω) = max |Fn (xj , ω) − F (xj )| ∨ |Fn (x− −
j , ω) − F (xj )|
0≤j≤k+1
.
Posto Ek = ∩kj=1 Axj ∩ Bxj , si osserva che P (Ek ) = 1 e che

(22.6) lim Rn (ω) = 0, ∀ω ∈ Ek .


n

Per (i) si ha −∞ = x0 ≤ x1 ≤ . . . , ≤ xk ≤ xk+1 = +∞, e dunque quelli non vuoti tra gli intervalli
[xj−1 , xj ), con j = 0, . . . , k + 1 costituiscono una partizione di R. Sia allora x ∈ R, e sia j(= j(x))
tale che xj−1 ≤ x < xj . Dalla relazione {Xi ≤ x} ⊆ {Xi < xj } segue che

Fn (x, ω) ≤ Fn (x− −
j , ω) ≤ F (xj ) + Rn (ω),

per la definizione di Rn . Continuando, e usando la (22.5)

1 1
F (x−
j ) + Rn (ω) ≤ F (xj−1 ) + + Rn (ω) ≤ F (x) + + Rn (ω),
k k
per la non decrescenza di F . Si conclude che

1
Fn (x, ω) ≤ F (x) + + Rn (ω).
k
In modo analogo si hanno le diseguaglianze

1 1
Fn (x, ω) ≥ Fn (xj−1 , ω) ≥ F (xj−1 ) − Rn (ω) ≥ F (x−
j )− − Rn (ω) ≥ F (x) − − Rn (ω),
k k
e quindi, in conclusione, per ogni x ∈ R

1
|Fn (x, ω) − F (x)| ≤ + Rn (ω),
k
o, equivalentemente
1
Dn (ω) ≤ + Rn (ω).
k
Se ω ∈ Ek , si ottiene, per la (22.6),

1
(22.7) lim sup Dn (ω) ≤ .
n k

Poniamo ora E = ∩Ek , e osserviamo che P (E) = 1. Per ogni ω ∈ E, si ha ω ∈ Ek per ogni k, e
quindi la relazione (22.7) vale per ogni k. Passando allora in essa al limite per k → ∞, si ottiene,
per ogni ω ∈ E
lim Dn (ω) = lim sup Dn (ω) = 0,
n n

e il teorema è dimostrato.

125
R R
Sia p un intero positivo e mp (F ) = xp dF (x) (definito su Πp = {F : |x|p dF (x) < +∞}. Il
metodo dei momenti consiste nello stimare mp (F ) con
Z Pn
Xip (ω)
mp (Fn )(ω) = xp dFn (x, ω) = i=1
n

(ricordare che la legge Fn (·, ω) è la legge che assegna massa 1/n ai punti Xi (ω)). Più in generale
il metodo dei momenti stima una funzione f (m1 (F ), . . . , mp (F )) con f (m1 (Fn ), . . . , mp (Fn )). Per
esempio, la media m1 (F ) si stima con la media empirica (o media campionaria)
Pn
i=1 Xi
m1 (Fn ) = X = ,
n

la varianza m2 (F ) − m21 (F ) si stima con la varianza empirica


Pn µ Pn ¶2 Pn
Xi2 Xi i=1 (Xi − X)2
σ 2n = m2 (Fn ) − m21 (Fn ) = i=1
− i=1
= .
n n n

Questo stimatore somiglia alla varianza campionaria, che abbiamo già incontrato molte volte, e
cioè Pn
2 (Xi − X)2
S = i=1 .
n−1
S 2 ha il vantaggio di essere uno stimatore corretto di σ 2 , come abbiamo visto in (3.8).

Per terminare, diamo una semplice e utile applicazione del Teorema di Glivenko–Cantelli. Sia
(X1 , . . . , Xn ) un campione di legge µ. Siamo interessati a stimare la mediana mµ di µ. Per ogni
ω ∈ Ω sia µn (ω) la legge
n
1X
µn (ω) = δX (ω) ,
n i=1 i

e poniamo

1
(∗) mµn (ω) = inf{x : µn (ω)((−∞, x]) > }.
2
1
Dunque, se x < mµn (ω) , si ha µn ((−∞, x]) < 2 e di conseguenza

1 1
µn ([mµn (ω) , +∞)) = 1 − µn ((−∞, mµn (ω) )) = 1 − lim µn ((−∞, x]) > 1 − = .
x↑mµn (ω) 2 2

Pertanto mµn (ω) è una mediana per µn , secondo la definizione data a suo tempo.

Come abbiamo detto in precedenza, la f.d.r. di µn (ω) è la funzione di ripartizione empirica Fn (·, ω),
che per il Teorema di Glivenko–Cantelli converge alla funzione di ripartizione F di µ. È quindi

126
ragionevole chiedersi se mµn (ω) converga in qualche senso verso mµ (in modo da esserne un buon
stimatore).

(22.8) Teorema. (i) La funzione ω 7→ mµn (ω) è una variabile aleatoria.


(ii) Se mµ è l’unica mediana per µ,allora, P − q.c.

mµn (ω) → mµ , n → ∞.

Dimostrazione. (i) Segue facilmente dalla relazione (∗), che si può scrivere anche nella forma

1
mµn (ω) = inf{x : Fn (x, ω) > }.
2

(ii) Fissato ² > 0, per l’ipotesi fatta su F esiste δ > 0 tale che valgano entrambe le relazioni
½ 1
F (mµ − ²) < −δ
($) 2
1
F (mµ + ²) > 2 +δ

(cioè δ 6 { 12 − F (mµ − ²)} ∧ {F (mµ + ²) + 12 }). Per il Teorema di Glivenko–Cantelli, esiste A con
P (A) = 1 tale che per ogni ω ∈ A,

sup |Fn (x, ω) − F (x)| → 0.


x∈R n→∞

Fissato ω ∈ A, esiste dunque N (ω) tale che, per ogni n > N (ω), si abbia

(∗∗) sup |Fn (x, ω) − F (x)| < δ.


x∈R

Per n cosiffatto, si ha
(1)mµn (ω) > mµ − ² (se infatti fosse mµn (ω) 6 mµ − ², allora

1
F (mµ − ²) |{z}
> Fn (mµ − ², ω) − δ > − δ,
|{z} 2
(∗∗) def. di mµn

assurdo per la prima delle ($));


(2) mµn (ω) < mµ + ² (se infatti fosse mµn (ω) > mµ + ², allora

1
F (mµ + ²) |{z}
< Fn (mµ + ², ω) + δ 6 − δ,
|{z} 2
(∗∗) def. di mµn

assurdo per la seconda delle ($)).

127
Dalle relazioni (1) e (2) si conclude che, per n > N (ω), risulta
¯ ¯
¯mµ (ω) − mµ ¯ < ²,
n

e cioè che
lim mµn (ω) = mµ .
n→∞

Poiché questo accade per ogni ω ∈ A (che ha probabilità uguale a 1), si ha la tesi.

23. Il test del χ2

Sullo spazio (Ω, F, P ) sia (X1 , . . . , Xn ) un campione di variabili a valori in un insieme finito
{1, 2, . . . , k}. La legge di ciascuna delle v. a. P Xh è data dal vettore q = (q1 , . . . , qn ), dove
n
qi = P (Xh = i). Si ha ovviamente qi ≥ 0, ∀i e i=1 qi = 1. Il test del chi–quadro si usa per
verificare se la legge q coincide con una certa legge assegnata p (con l’ipotesi che pi > 0, ∀i).
L’ipotesi è H0 : q = p, l’alternativa H1 : q 6= p. Il test si basa sulla statistica
k
X n
X
(Ni − npi )2
T = , dove Ni = 1{Xj =i} .
i=1
npi j=1

Ovviamente la v. a. Ni indica il numero di osservazioni Xj che hanno dato valore i.

Ci serve un teorema (di Pearson) che dice cosa accade quando la taglia n del campione tende
all’infinito (nelle applicazioni questo significa che n è grande); dunque considereremo una succes-
sione infinita X1 , X2 , X3 , . . . di v. a. i.i.d. e porremo un indice n a Ni e a T , cioè scriveremo
n
X k
X (N n − npi )2
i
Nin = 1{Xj =i} , Tn = .
j=1 i=1
npi

(23.1) Teorema. (a) Se la legge comune delle Xn è diversa da p, allora Tn → +∞ P −q.c.


(b) Se la legge comune delle Xn coincide con p, allora Tn converge in legge ad una χ2 (k − 1).
Dimostrazione. (a) Per ipotesi esiste i0 ∈ {1, 2, . . . , k} tale che qi0 6= pi0 . Per la legge forte dei
Nin
grandi numeri, al tendere di n a ∞ si ha n
0
→ qi0 , P − q. c. ; quindi

Nin
(Nin0 − npi0 )2 ( n
0
− pi0 )2
=n· → +∞, P − q.c.
npi0 pi0

(b) Ci servono alcuni preliminari.


(23.2) Lemma. Sia Z una v. a. vettoriale k−dimensionale avente legge Nk (0, A), dove A = (ai,j )
√ √
è la matrice k × k con ai,j = δi,j − pi pj . Allora la v. a. ||Z||2 ha legge χ2 (k − 1).
Dimostrazione. Sia X un vettore aleatorio k−dimensionale avente legge Nk (0, Ik ), e sia E il
√ √ √
sottospazio di Rk generato dal versore p := ( p1 , . . . , pn ). Il teorema di Cochran dice che

128
(X − XE ) e XE sono indipendenti ed inoltre ||XE ||2 ha legge χ2 (1), ||X − XE ||2 ha legge χ2 (k − 1).
Dunque basterà vedere che Y = X − XE ha legge Nk (0, A). Si ha

√ √ ³X
k
√ ´√
Y = X − hX, pi · p=X− Xi pi p,
i=1

ed è facile vedere che hu, Y i è una v. a. gaussiana per ogni u ∈ Rk . Basta allora calcolare il vettore
delle medie e la matrice di covarianza. Per ogni i, j = 1, . . . , k si ha

³X
k
√ ´ √ ³X √ ´ √
k
E[Yj ] = E[Xj − Xi pi · pj ] = E[Xj ] − E[Xi ] pi · pj = 0;
i=1 i=1

" #
³ ³X
k
√ ´ √ ´ ³ ³X
k
√ ´ √ ´
E[Yi Yj ] = E Xi − Xh ph · pi · Xj − Xh ph · pj
h=1 h=1

√ √ √ √ √ √ ³X
k
£ ¤ ´
= E[Xi Xj ] − pi · pj E[Xj2 ] − pi · pj E[Xi2 ] + pi · pj · E Xh2 ph
h=1

√ √ √ √ √ √ ³X
k ´ √ √
= E [Xi Xj ] − pi · pj − pi · pj + pi · pj · ph = δi,j − pi · pj .
h=1

Richiamiamo il

(23.3) Teorema limite centrale vettoriale. Sia (Xn )n una successione di vettori aleatori
a valori in Rk , i.i.d con E[Xn ] = m(∈ Rk ) e matrice di covarianza Γ (Γ = (γi,j )i,j=1,...,k , γi,j =
Cov(Yi , Yj )). Allora la successione di vettori aleatori

. X1 + · · · + Xn − nm
Zn = √
n

converge in legge ad una Nk (0, Γ).

Infine

(23.4) Esercizio. Sia (Zn ) una successione di vettori aleatori convergente in legge ad una Nk (0, A).
Allora ||Zn ||2 converge in legge ad una χ2 (k − 1).

Passiamo finalmente alla dimostrazione del punto (b) del Teorema di Pearson.

Consideriamo i vettori aleatori k−dimensionali, indipendenti e identicamente distribuiti


µ ¶
. 1 1
Yi = √ 1{Xi =1} , . . . , √ 1{Xi =k} .
p1 pk

129
Si ha facilmente µ ¶
p1 pk √ √ √
E[Yi ] = √ ,..., √ = ( p1 , . . . , pk ) = p;
p1 pk
inoltre, per m, n = 1, . . . , k, con m 6= n,
· ¸
1 1
E[(Yi )m · (Yi )n ] = E √ 1{Xi =m} · √ 1{Xi =n} = 0,
pm pn

dato che {Xi = m} ∩ {Xi = n} = ∅; invece, per m = n


· ¸
2 1
E[(Yi )m ] = E 1{Xi =m} = 1.
pm
Ne segue che
½
1 − pm per m = n
Cov[(Yi )m · (Yi )n ] = E[(Yi )m · (Yi )n ] − E[(Yi )m ]E[(Yi )n ] = √ √ = am,n ,
− pm pn per m =
6 n
√ √ Pn
dove am,n = δm,n − pm pm , come nel Lemma (23.2). Dato che Njn = i=1 1{Xi =j} ha
µ n ¶
N1 Nkn
Y1 + · · · + Yn = √ , . . . , √ .
p1 pk

Per il TLC vettoriale, si ha allora che la successione


µ√ √ √
− n pk ¶ µ N n − np1 ¶
√ N1n Nn
p1 − n p1
√k
. Y1 + · · · + Yn − n p pk 1 Nkn − npk
Zn = √ = √ ,..., √ = √ ,..., √
n n n np1 npk

converge in legge ad una Nk (0, A), e di conseguenza, per l’esercizio precedente, ||Zn ||2 converge in
legge ad una χ2 (k − 1).

Torniamo al test del chi–quadro. Se l’ipotesi è falsa, allora la statistica T assumerà valori grandi,
per il Teorema di Pearson, dunque ci aspettiamo una regione critica del tipo {T > a}, con a da
determinare. Volendo un test di taglia uguale ad α, si deve imporre che sia

sup P (T > a) = α.
H0 vera

Ma, se H0 è vera, per il Teorema di Pearson T ha asintoticamente legge χ2 (k − 1), e quindi

P (T > a) ' 1 − Fk−1 (a) = α,

da cui a = χ21−α (k − 1).

(23.5) Osservazione. Se µ è una legge qualsiasi, per verificare se il campione ha legge µ si prende
φ : R → {1, . . . , k} e si verifica se il nuovo campione (φ(X1 ), . . . , φ(Xk )) ha legge φ(µ). Nella
pratica spesso si sceglie una partizione di R del tipo

(−∞ = a0 , a1 ], (a1 , a2 ], (a2 , a3 ], . . . , (an−2 , an−1 ], (an−1 , an = +∞)

130
Pn−1
e si pone φ(x) = k=0 k · 1(ak ,ak+1 ] (x) = indice dell’elemento della partizione a cui appartiene x.
In questo caso si ha allora, per ogni k = 0, 1, . . . , n − 1
¡ ¢
φ(µ)({k}) = µ φ−1 ({k}) = P (X ∈ φ−1 ({k})) = P (X ∈ (ak−1 , ak ]).

(23.6) Osservazione. la numerosità del campione dovrebbe essere tale che npi ≥ 5 ∀j.

Il test del chi–quadro può essere usato anche per valutare se il campione segue una legge apparte-
nente ad una famiglia parametrizzata pθ = (pθ1 , . . . , pθm ), dove Θ è un aperto di Rh , con h < m − 1.
Si devono fare le ipotesi seguenti:

(i) le funzioni θh 7→ pθi isono strettamente positive e di classe C 2 ;


∂ θ
(ii) la matrice ∂θ p è di rango massimo;
i j

(iii) esiste una successione consistente θ̂n di stimatori di massima verosimiglianza di θ.


Qn ¡ ¢N n ¡ ¢N n
Notiamo che L(θ; x1 , . . . , xn ) = i=1 pθxi = pθ1 1 · . . . · pθk k . Dunque, passando al logaritmo,
lo stimatore di massima verosimiglianza si trova cercando il
µ ¶
n θ n θ
max N1 log(p1 ) + · · · + Nk log(pk ) .
θ∈Θ

Sia
k
X (N n − npθ )2
i i
Tn (θ) = .
i=1
npθi

Si può dimostrare che, sotto le precedenti ipotesi, la successione Tn (θ̂n ) converge in legge verso una
χ2 (k − s − 1). (In altre parole, sostituendo ai parametri non noti θ = (θ1 , . . . θs ) i loro stimatori
di massima verosimiglianza, abbiamo stimato s parametri e questo fa diminuire di s il numero dei
gradi di libertà).

Questo suggerisce una regione critica della forma {T (θ̂) > a}, e poi si procede come nel caso base.

131