Sei sulla pagina 1di 11

Elementi di Teoria sugli Stimatori

Susanna Ragazzi Università degli Studi di Ferrara Centro per la Modellistica, il Calcolo e la Statistica Technical Report 01-2006

1.

La Teoria degli Stimatori

1.1

Premessa

L’inferenze statistica concerne lo studio

di

informazioni campionarie per prendere

decisioni riguardanti tutta la popolazione. Parte centrale dell’inferenza è la teoria che discute la determinazione numerica di un parametro θ, incognito ma fisso, caratter- izzante la popolazione X f (x; θ), anche

detta teoria degli stimatori. Si discutono al- cune importanti proprietà degli stimatori ed

Definizione Si definisce stima t n qualunque funzione T (.) nota e a valori reali definita sulla n-upla di numeri reali

x n ), cioè t n =T(x 1 , , x n ). La stima

(x

, di un parametro è dunque un numero reale.

1 ,

Definizione Si definisce stimatore T n una qualunque funzione T (.) nota e a val- ori reali definita sulla n-upla di variabili ca-

suali (X 1 ,

, Quindi lo stimatore è definito come una vari- abile casuale.

Una questione assai rilevante, sia per

X n ), cioè T n =T(X 1 , , X n ).

in

particolare della proprietà di sufficienza, e

la valutazione di una particolare procedura

di

come accertare quali requisiti conferiscono

di

stima che per il confronto di stima-

alla stima un giudizio di qualità ossia si dis-

tori alternativi, è la conoscenza della dis-

cute il problema della validità statistica di uno stimatore.

tribuzione campionaria dello stimatore T n. In generale per individuare lo stimatore T n per

1.2 Differenza tra Stimatore e Stima di un Parametro

Sostanzialmente la differenza tra stima- tore e stima di un parametro è che il primo è una statistica (=una qualunque a funzione

a valori reali del campione casuale da cui

proviene la popolazione) mentre il secondo è il corrispondente valore numerico calcolato sulla base del campione osservato. Sia considerata una variabile casuale X f (x; θ) la cui forma funzionale è nota a meno del vettore di parametri θ (θ), dove con (θ) si intende lo spazio paramet- rico.

, X n ) un campione ca-

suale estratto dalla variabile casuale x la

cui determinazione numerica fornisce il cam-

, x n ) è possibile

pione osservati x = (x 1 , enunciare le seguenti:

Sia X = (X 1 ,

un parametro θ si deve:

1. stabilire cosa si intende con "bontà di uno stimatore", enucleando gli aspetti ritenuti più sensibili della distribuzione

di

T n per la determinazione numerica

di

θ. Tale discussione risulta piuttosto

complessa poiché essendo θ un numero

eT n una variabile casuale esistono molti

modi per parlare di bontà, accuratezza,

affidabilità di uno stimatore.

2. individuare dei "metodi di costruzione degli stimatori", di stabilire quindi come si effettua la sintesi dei valori

, X n ) per giungere a T n =

, X n ) in modo tale da fornire

proprietà desiderabili allo stimatore per

di (X 1 ,

T(X 1 ,

stimare correttamente θ.

3. considerare che per natura lo stima- tore è un prodotto statistico per cui la

sua bontà dipende dalla validità degli assunti da rispettare, dalla correttezza delle derivazioni e dal rigore con cui viene usato nelle applicazioni.

1.3 Le proprietà degli Stimatori: La Sufficienza e le Proprietà Finite

La Sufficienza degli Stimatori Il con-

cetto di sufficienza nella teoria degli stima- tori sottostà ad un principio di riduzione

del campione osservato (x 1 ,

, x n ) in un sot-

tospazio di dimensione molto inferiore, per

la determinazione numerica del parametro

da stimare θ secondo il quale tra le infi-

nite possibili riduzioni di (x 1 ,

, x n ) la statis-

tica sufficiente dovrà preservare l’essenziale

riguardo θ. Sia X = (X 1 ,

, X n ) un campione ca-

suale generato dalla variabile casuale X

f (x; θ) dove θ (θ) è il parametro oggetto

di stima.

Si dice che T n è suffi-

ciente per θ se la distribuzione condizionata

, X n ) , assunto che T n abbia un val-

ore t 0 non dipende da θ; cioè T n è sufficiente

, X n |T n =t 0 ) non

dipende da θ. Se lo stimatore T n è sufficiente per θ al-

lora la distribuzione condizionata:

per θ se e solo se ϕ(X 1 ,

Definizione

di (X 1 ,

ϕ(X 1 , , X n

|

T n

=

t 0 )

h(x 1 , , x n ,T n =t 0 ;θ)

=

g(T n =t 0 ;θ) non dipende da θ; anche se la dis- tribuzione di ciascuna variabile X i dipende

da θ e la distribuzione multivariata del cam-

pione casuale f (x 1 ,

x n ;θ) = i=1 f(x i ;θ)

dipenda ancora da θ.

n

,

In questo modo tutte le informazioni circa il parametro θ vengono trasferite nello stimatore T n in modo integrale. E’ importante osservare che se uno sti- matore è sufficiente per un parametro θ di

una variabile casuale può non esserlo per quello di un’altra variabile casuale apparte- nente ad una famiglia diversa (Garthwaite et al. 1995, pp19-20). In sede applicativa la definizione formale

di stimatore sufficiente risulta piuttosto com-

plessa da verificare, a tal fine si introduce il teorema proposto da Fisher, noto come teo- rema di fattorizzazione nel quale si esplica le condizioni necessarie e sufficienti per verifi-

care se un dato stimatore T n è sufficiente per θ.

Teorema 1 (di Fattorizzazione di

Fisher) Sia (X 1 ,

suale generato da X f (x; θ) allora T n =

, X n ) un campione ca-

T(X 1 ,

se esistono due funzioni non negative g(.) e

h(.) tali che la funzione di verosimiglianza si

possa fattorizzzare nel modo seguente:

, X n ) è sufficiente per θ se e solo

L(θ;x)=g(T(x 1 ,

, dove g(.) dipende dalle osservazioni

campionarie solo attraverso la sintesi

x n ); θ)h(x 1 , , x n )

T(x 1 ,

mentre h(.) è funzione del campione e non dipende dal parametro θ.

, x n )ottenuta dallo stimatore T n ,

E’ possibile inoltre generalizzare la

definizione di stimatore sufficiente al caso

di un vettore θ di m > 1 parametri

nel modo seguente. Se θ è un vettore

di parametri della variabile casuale X

f (x; θ) dalla quale è generato un campione

, X n ) allora lo stimatore vet-

tore T n è congiuntamente sufficiente (=joint

sufficiente) per il vettore di parametri θ

se la distribuzione di ϕ(X 1 ,

t 0 ) non dipende da θ. In maniera

analoga si generalizza il teorema di fat- torizzazione: un vettore di stimatori T n

, X n | T n =

casuale (X 1 ,

è

congiuntamente sufficiente per il vettore

di

parametri θ se e solo è possibile scri-

vere L(θ;

x) = g(T(x 1 ,

,

x n ); θ)h(x 1 ,

,

x n )

dove θ e

T(x 1 ,

,

x n ) sono rispettivamente

vettori di parametri e numeri.

L’importanza della Sufficienza La pro- prietà di sufficienza di uno stimatore è molto importante perchè da un lato si consider- ano stimatori che non trascurano nessuna in- formazione campionaria rilevante dall’altro non includono informazioni ridondanti per la stima del parametro. L’importanza della sufficienza si può for- malizzare col seguente Teorema

Teorema 2 L’informazione di Fisher fornita da uno stimatore sufficiente T n coincide con quella fornita dall’intero

campione casuale (X 1 ,

Dimostrazione Grazie al teorema

di fattorizzazione, l’informazione di Fisher

sarà funzione del campione solo attraverso

perchè

, X n ).

θ log g(T (x); θ)

θ log h(x 1 ,

,

x n )=0.

Si ricorda che per informazione attesa di Fisher si intende:

I n (θ)

=

E θ log L(θ; X) 2

2

E 2 log L(θ; X)

θ

dove θ log L(θ; X) rappresenta la fun-

zione score; cioè la derivata della funzione log-verosimiglianza (=logaritmo della fun- zione di verosimiglianza).

con f (x) si denota la funzione di densità della variabile casuale., f (x) denota la fun- zione di densità della variabile casuale)

Si osserva che se T n è sufficiente per θ al- lora lo sarà anche per qualsiasi altra funzione biunivoca di T n , per questo tra le infinite funzioni di uno stimatore T n si deve individ- uare quella che realizza la massima riduzione possibile (conservando l’informazione campi- onaria utile per il parametro θ).

Definizione Si dice che T n è uno

stimatore sufficiente minimale per θ se per qualsiasi altro stimatore sufficiente T la statistica T n è una funzione di T n .

n

Si osserva che lo stimatore T n opera una partizione dello spazio campionario C n R n in funzione del valore t 0 assunto nel campi-

one; così , l’evento T n =t 0 è formato da tutte

, x n )=t 0 . Il

le n-uple di C n tali che T (x 1 ,

problema allora è quello di operare su C n la

= suddivisione più fine possibile, cioè con il mi- nor numero di insiemi possibili.

(di Lehmann e

, Y n ) da

due campioni X f (x; θ).

tizione dello spazio campionario C n tale che i due campioni appartengano ad essa se e

Si individui una par-

Teorema 3 Scheffé) Siano (X 1 ,

,

X n ) e (Y 1 ,

generati

casuali

Si ricorda che per valore atteso indicato con E(X) di una variabile casuale X si in- tende l’equivalente della media aritmetica nella statistica descrittiva, è definito come il momento (il momento semplice di ordine k di una variabile casuale X discreta è definito come la media della k-esima potenza dei val-

ori µ k = n

p i - con p i si denota la fun-

zione di massa di probabilità della variabile casuale X discreta- di una variabile casuale

X continua è definito come la media della k-

x k f (x)dx

esimapotenza di valori µ k =

i=1 x i

k

+

−∞

solo se L(θ; X)/L(θ;

Allora ogni stimatore corrispondente a tale partizione è sufficiente minimale.

Y ) non dipende da θ.

Il teorema di Lehmann e Scheffé del 1950 fornisce le condizioni necessarie e sufficienti per l’esistenza e la ricerca di statistiche suf-

ficienti minimali. Le proprietà di Ancillarità e Com- pletezza La proprietà di ancillarità di una statistica è insieme alla sufficienza collegata alla proprietà di completezza, introdotta da

Lehmann e Scheffé nel 1950, la ,propri- età di completezza in statistica è di im- portanza fondamentale poiché per famiglie complete alcune procedure inferenziali sono

Proprietà Finite di uno Stimatore Si fa ora riferimento a quei stimatori validi sola- mente per le dimensioni campionarie finite. Le proprietà finite di maggiore rilevanza

uniche (Cox e HinKley 1974, pp 30-31).

di

uno stimatore sono sostanzialmente due:

La proprietà di ancillarità di una statis-

la

proprietà di non distorsione e la proprietà

tica è connessa alle informazioni contenute in

di

efficienza.

un campione casuale (introdotta da Fisher).

Definizione Una statistica T n è an- cillare se la sua distribuzione di probabilità non dipende dal parametro θ. Dalla definizione di ancillarità si deduce che una statistica ancillare non contiene in- formazioni sul parametro θ ma se utilizzata assieme ad una statistica sufficiente mini- male allora può migliorare le informazioni su θ.

Definizione

Sia X f (x; θ) e T n

uno stimatore sufficiente per θ. Si dice che T n è uno stimatore completo se, per qualsiasi funzione q(T n ) tale che E [q(T n )] = 0, per ogni θ, sussiste l’identità q(T n )0.

In altri termini, uno stimatore T n è com-

pleto se l’unica funzione di T n il cui valor medio è 0 è la funzione identicamente nulla. E’ possibile individuare il legame tra suf- ficienza minimale, completezza ed ancillarità

nel teorema di Basu del 1955.

Teorema 4 (di Basu) Se T n è una statistica sufficente minimale, allora T n è in- dipendente da ogni statistica ancillare.

Osservazione L’utilità del teorema

di Basu (il cui viceversa è falso) affiora

quando è possibile dimostrare l’indipendenza

di due statistiche senza conoscerne la dis-

tribuzione congiunta.

Teorema 5 Una statistica suffi- ciente completa è sempre minimale. Dimostrazione Da Zacks (1971) sufficienza e completezza implicano suffi- cienza minimale, ma non è vero il viceversa.

La proprietà di non distorsione cos- tituisce uno degli elementi fondamentali circa il giudizio di bontà di uno stimatore poichè, come si vedrà in seguito, indica come baricentro dello stimatore T n proprio il parametro θ che si vuole stimare.

Definizione Un stimatore T n è non distorto (=unbiased) per il parametro θ se il valore atteso di T n è uguale a θ. Cioè E(T n )=θ.

Si osserva che la distorsione (=bias) di uno stimatore T n è definita in generale da:

b(T n )=E(T n ) θ; di conseguenza la distori- sione è positiva se E(T n ) > 0, se E(T n )< 0 è definita negativa. Uno stimatore non distorto presenta distorsione identicamente nulla.

Teorema 6 Se T n è uno stimatore sufficiente e completo per θ ed esiste una funzione ψ(T n ) tale che lo stimatore ψ(T n ) sia non distorto per θ, cioè E [ψ(T n )] = θ, allora ψ(T n ) è unico. Dimostrazione Si supponga che es- istano due funzioni di T n , siano ψ 1 (T n ) e ψ 2 (T n ) sufficienti, complete e non distorte per θ. Allora: E [ψ 1 (T n )ψ 2 (T n )] = 0; ma a causa della completezza, la relazione E[ψ 1 (T n )ψ 2 (T n )] = 0 implica ψ 1 (T n )ψ 2 (T n ) 0 per ogni θ, e quindi ψ 1 (T n ) ψ 2 (T n ).

La proprietà di non distorsione è di im- portanza fondamentale poiché indica come baricentro della distribuzione dello stimatore T n proprio il parametro θ da stimare; in- fatti il valore medio di una variabile casuale è

tanto più rappresentativo quanto più la var- ianza è piccola. Si ricorda che la varianza di uno stima- tore misura la dispersione dello stimatore at- torno al suo valor medio quindi se lo stima- tore è distorto, cioè se E(T n ) = θ, la varianza non può essere indicativa circa la bontà dello stesso. Conviene considerare la variabile casuale definita da (T n θ) per pervenire ad un cri- terio utile sia a stimatori distorti che non distorti, infatti se tale variabile è accentrata sullo zero allora lo stimatore assume valori campionari attorno al parametro θ, sarebbe inoltre auspicabile che la sua distribuzione fosse con alta probabilità addensata sullo zero. Il teorema di Markov assicura che per variabili casuali T n dotate di momento secondo, questa probabilità è tanto più ele- vata quanto più piccolo è il momento secondo della variabile casuale (T n θ). Un criterio valido per la bontà di uno stimatore consiste nel richiedere che la media dei quadrati della variabile casuale (T n θ) sia minima.

Definizione Si definisce er- rore quadratico medio (=Mean Square Error) di uno stimatore T n per il parametro θ il seguente valore medio:

MSE(T n )=E(T n θ) 2 . L’errore quadratico medio di uno sti- matore è uguale alla varianza dello stima- tore più la distorsione al quadrato, ossia MSE(T n ) = V ar(T n )+b 2 (T n ). Si osserva che l’errore quadratico medio di uno stima- tore non distorto coincide con la varianza dello stimatore. L’errore quadratico risulta importante poiché il confronto degli stimatori deve avvenire sempre confrontando i rispettivi MSE come criterio di vicinanza relativa rispetto al parametro θ preferendo quello con MSE inferiore. Questo concetto può essere formalizzato con il concetto di efficienza di

uno stimatore. Definizione Uno stimatore T 1n si dice più efficiente di uno stimatore T 2n per lo stesso parametro θ se MSE(T 1n ) < MSE(T 2n ). In generale per confrontare due stimatori per un dato parametro si utilizza i reciproci dei MSE e si misura l’efficienza relativa di T 1n rispetto a T 2n tramite il seguente indice:

eff (T 1n | T 2n ) =

MSE(T 2n )

MSE(T 1n ) .

1

MSE(T 1n )

=

1

MSE(T 2n )

preferisce

lo stimatore T 1n rispetto a T 2n ; se eff (T 1n | T 2n ) < 1 si preferisce lo stimatore T 2n

rispetto a T 1n infine se eff (T 1n |T 2n )=1 allora i due stimatori sono equivalenti in ter- mini di MSE Si osserva che se entrambi gli stimatori sono non distorti per θ, allora l’efficienza relativa di T 1n rispetto a T 2n equivale a:

eff (T 1n |T 2n )= V ar(T 2n )

Se eff (T 1n |T 2n ) > 1 allora si

V

ar(T 1n ) .

In altri termini l’efficienza relativa di uno stimatore rispetto ad un altro è il rapporto tra le rispettive numerosità occorrenti per ot- tenere lo stesso MSE e la stessa varianza nel caso di stimatori non distorti. Viene ora introdotta la disuguaglianza (o limite) di Cramér e Rao utile a risolvere il problema di trovare un limite inferiore per la variabilità di uno stimatore di un certo parametro.

Definizione Se esiste uno stima- tore T n non distorto per il parametro θ che, fra tutti gli stimatori non distorti è quello con varianza più piccola, cioè è il più effi- ciente, allora T n sarà detto stimatore non distorto con varianza minima (=UMVUE

Uniformly Minimun Variance Unbiased Es- timator).

Disuguaglianza di Cramér e Rao

Se (X 1 ,

erato da X f (x; θ) sotto le usuali con-

dizioni di regolarità sulla famiglia della vari- abile casuale X allora per ogni stimatore

T n non distorto

dove con I n (θ) si intende

l’informazione di Fisher.

Dimostrazione Sia per uno stima- tore generico T n l’eventuale distorsione in- dicata con b n (T n ; θ) = b(θ), mentre con b (θ) sia indicata la derivata della distor-

Allora si ha che:

E(T n ) = θ + b(θ), e che

θ E(T n ) = 1+

sione rispetto a θ.

, X n ) è un campione casuale gen-

per θ si ha: V ar(T n )

1

1

I n (θ) = nI(θ) ;

b (θ). D’altra parte se E(V n ) = 0 al- lora sarà anche che Cov(T n ,V n )=E(T n V per le condizioni di regolarità, vale la

seguente: E(T n V n )= T n (

θ log f)f dx =

n

)

T n ( f f )f dx = T n (

∂θ T n f

dx =

si indica la funzione di densità congiunta del campione e la sua derivata rispetto a θ; men-

dx n . Per la disuguaglianza di

Cauchy e Schwarz (=per due variabili casuali che possiedono il momento secondo vale sem-

tre dx = dx 1

θ E(T n )=1+b (θ), dove con f e f

θ f )dx =

pre Cov(X, Y ) V ar(X)V ar(Y )) sarà

[Cov(T n ,V n )] 2 V ar(T n )V ar(T n ) e quindi:

V ar(T n )

[Cov(T n V )] 2

n

V ar(V n )

[E(T n V n )] 2 = [1 + b (θ)] 2

V ar(V

n

)

I n (θ)

.

=

Se lo stimatore è non distorto b(θ) = b (θ) = 0, è così dimostrata la disug-

uaglianza.

Nel 1991 Pieraccini e Rizzi dimostrano il teorema seguente che afferma l’unicità di

uno stimatore non distorto che raggiunge il limite di Cramér e Rao.

Teorema 7 Se esiste uno stimatore T n non distorto per θ che raggiunge il limite di Cramér e Rao allora esso è unico. Dimostrazione Siano T 1n eT 2n due stimatori non distorti per θ con la stessa var- ianza: V ar(T 1n ) = V ar(T 2n ) = 1/I n (θ)=v, allora il nuovo stimatore T n definito come T n =(T 1n +T 2n )/2 sarà non distorto e pre- senterà varianza uguale a:

=

4 [V ar(T 1n ) + V ar(T 2n ) + 2Cov(T 1n ,T 2n )] =

V ar(T n )

1

1

2 v(1 + ρ);

avendo posto che ρ = Corr(T 1n ,T 2n ). Se

ρ < 1 allora V ar(T n ) < v, ma è impossibile perché v è il valore minimo per la varianza

di uno stimatore non distorto per θ. Allora

deve essere ρ = 1 che implica MT 2n =c 0 + c 1 T 1n . Tuttavia essendo non distorti per θ

sarà anche: θ = E(T 2n )=c 0 +c 1 E(T 1n )=

c 0 +c 1 θ, il che avviene solo se c 0 0,c 1 1. Ma questo significa che T 1n T 2n , cioè che

lo stimatore è unico.

Grazie alla disuguaglianza di Cramér e

Rao è possibile introdurre il concetto di effi- cienza assoluta o semplicemente efficienza. Definizione Uno stimatore T n non distorto si dice efficiente per un parametro

θ di una variabile casuale X f (x; θ), che

soddisfa le usuali condizioni di regolarità, se e solo se: V ar(T n )=[I n (θ)] 1 .

Si osserva quindi che se uno stimatore efficiente esiste ed è non distorto, è quello stimatore la cui varianza raggiunge il lim- ite inferiore della disuguaglianza di Cramér e Rao. Confrontando la varianza di uno stima- tore con la varianza di uno stimatore effi- ciente (se esso esiste) si misura l’efficienza

di uno stimatore, cioè si confronta la vari-

anza di ogni stimatore con il limite inferiore

di

Cramér e Rao.

Definizione

Si definisce efficienza

di uno stimatore T n la quantità:

eff (T n )

=

1

V ar(T n )

1

1/I n (θ)

=

[V ar(T n )I n (θ)] 1 . Dato che 0 eff (T n ) 1 uno stimatore è preferibile quanto più la sua efficienza è vicina ad 1, se T n è lo stimatore efficiente allora eff (T n )1.

1.4 Alcuni Commenti

L’efficienza determina dunque quanto la distribuzione di uno stimatore T n sia vic- ina ad un parametro θ, aggiungendo inoltre, nelle condizioni di regolarità di una famiglia parametrica, la valutazione di quanto tale vicinanza sia piccola o grande in rapporto a quella massima raggiungibile dallo stimatore efficiente. E’ importante sottolineare che:

L’efficienza di uno stimatore impone la conoscenza della variabile casuale perchè, dopo aver controllato le con- dizioni di regolarità, si devono cal- colare le derivate della funzione log- verosimiglianza ed i rispettivi valor medi.

La varianza di qualsiasi stima- tore non può superare il reciproco dell’informazione di Fisher, ma questo non significa che necessariamente esiste uno stimatore che raggiunga effettivamente quel limite.

Se lo stimatore T n presenta la distor- sione b(θ) la disuguaglianza di Cramér e Rao si generalizza come segue:

ar(T n ) [1 + b (θ)] 2

.

V

I n (θ) Tuttavia se gli stimatori sono non dis- torti, è più coerente esprimere la disug- uaglianza in termini di MSE cioè:

MSE(T n ) [1 + b (θ)] 2

+ [b(θ)] 2 .

n (θ)

I

Se ψ(θ) è una funzione che soddisfa le usuali condizioni di regolarità tale che ψ(T n ) sia il corrispondente stimatore non distorto per ψ(θ) allora:

V

ar(T n )(

θ ψ(θ)) 2

I n (θ) .

Molto importante è il teorema seguente poiché fornisce le risposte circa le condizioni sotto le quali la varianza di uno stimatore possa effettivamente raggiungere il limite in- feriore della disuguaglianza di Cramér e Rao.

Teorema 8 Condizione necessaria e

sufficiente affinché esista uno stimatore T n efficiente e non distorto per θ è che sia:

V

n =

θ log L(θ;

X) = I n (θ)(T n θ).

Dimostrazione La disuguaglianza [Cov(T n ,V n )] 2 V ar(T n )V ar(T n ) diventa

un’uguaglianza se e solo se esiste una re-

lazione lineare tra T n eV n , cioè se: V n =

c 0 +c 1 T n . Se si applica ad ambo i membri

il valor medio, ricordando che E(V n ) = 0, E(T n ) = θ si ha che:

0=c 0 +c 1 θc 0 =c 1 θ, il quale sostituito alla relazione V n =c 0 + c 1 T n , implica che:

V n =c 1 θ+c 1 T n =c 1 (T n θ). Se si moltiplica quest’ultima relazione per V n e si considera il valore medio di en- trambi i membri, ricordando che E(V n T n )= 1 si ha che:

E(V n ) 2 = c 1 E(V n T n )c 1 θE(V n ) = c 1 (1) c 1 θ(0) = c 1 , da cui si deduce che:

c 1 =E(V n ) 2 =I n (θ) ed infine:

V n =I n (θ)(T n θ). Osservazione Emulando la di- mostrazione per uno stimatore non distorto è possibile pervenire alla famiglia delle vari- abili casuali per la quale esiste uno stimatore efficiente, cioè la famiglia esponenziale. Osservazione L’efficienza può es- sere verificata solo se le condizioni di rego- larità sono valide, che non avviene sempre, come ad esempio per variabili casuali Uni- formi e per variabili casuali troncate. In questi casi il limite di Cramér e Rao può essere abbassato parlando così di super ef- ficienza. (Azzalini 1992 e Rizzi 1992a).

E’ possibile individuare i legami tra i concetti di sufficienza, non distorsione ed ef- ficienza trattai finora con il seguente teo- rema:

Teorema 9 (di Rao e Blackwell) Sia

(X 1 ,

X f (x; θ) e sia T 1n uno stimatore suffi- ciente per θ mentre T 2n è un qualsiasi sti- matore non distorto di θ. Allora posto T n = E(T 2n /T 1n ) si ha che:

, X n ) un campione casuale estratto da

i) T n è funzione esclusiva di T 1n ;

ii) E(T n ) è funzione esclusiva di

T 1n ;

iii) V ar(T n ) V ar(T 2n ).

Dimostrazione T 2n è uno stima- tore non distorto per θ, per le proprietà del valor medio si ha che:

E(T n )=E(E(T 2n |T 1n )) = E(T 2n )=θ. E’ noto che per ogni variabile casuale doppia (X, Y ) si ha:

X) +

V ar [E(Y | X)] V ar [E(Y | X)] ;

V ar(Y )

=

V ar(Y

|

segue che:

V ar(T 2n ) V ar(E(T 2n | T 1n )) =

V ar(T n ); la quale dimostra il punto iii) del Teo- rema. Si osservi infine che mentre la ii) e la iii) derivano da proprietà dei valori medi

condizionati per qualsiasi stimatore, è la suf- ficienza di T 1n che permette di ottenere lo stimatore T n =E(T 2n |T 1n ). Infatti per ef- fettuare tale calcolo si deve conoscere la fun- zione di densità (T 2n |T 1n = t), la quale non dipende da θ solo perché T 1n è uno stimatore sufficiente.

Il teorema di Rao e Blackwell fornisce

le indicazioni su come costruire uno stima-

tore più efficiente di uno stimatore non dis- torto utilizzando la conoscenza di uno sti- matore sufficiente. Tale teorema è impor- tante perché mostra che uno stimatore non distorto di θ con varianza minima deve essere funzione di una statistica sufficiente T n ; al- trimenti la media condizionata produrrebbe stimatori piùefficienti.

Se esiste uno stima-

tore UMV UE per θ e ψ(T n ) è non distorto per θ; dove T n è uno stimatore completo suf- ficiente (minimale), allora ψ(T n ) è uno sti- matore UMV UE.

Osservazione

Un requisito di semplicità per la formu- lazione analitica di uno stimatore è la linear- ità.

Definizione Uno stimatore si dice lineare se può essere espresso mediante una combinazione lineare di variabili casu- ali campèionarie, cioè se:

T n = n

i=1 a i X i ;

dove le costanti a i con i = 1,

quantità note.

, n sono

La linearità semplifica la derivazione dei momenti di uno stimatore e, in taluni casi, anche della sua distribuzione di probabilità. E’ possibile ora riassumere le proprietà

di uno stimatore derivato da un campione

casuale di numerosità finita:

La sufficienza è una proprietà essenziale per l’intera Inferenza statistica e la com- pletezza aggiunge la garanzia della unic-

ità per lo stimatore; insieme inducono sufficienza minimale.

Efficienza e non distorsione, in con- dizione di regolarità della famiglia di variabili casuali assicurano una vici- nanza tra i valori campionari ed il val- ore teorico del parametro perché garan- tiscono il massimo addensamento possi- bile della distribuzione dello stimatore attorno al parametro.

Quando la variabile casuale appartiene ad una famiglia per la quale la varianza dello stimatore raggiunge il limite della disuguaglianza di Cramér e Rao, allora esiste uno stimatore efficiente, non dis- torto, sufficiente e completo (quindi suf- ficiente minimale). Tale stimatore è uni- coi.

1.5 Proprietà Asintotiche di Uno Sti- matore

Premesssa Si sono finora discusse le pro- prietà statistiche degli stimatori quando la numerosità campionaria è finita, è ragionev- ole peraltro richiedere un miglioramento di tali proprietà quando la numerosità campi- onaria diverge con l’introduzione di ulteri- ori proprietà statistiche, in modo da rendere sempre più rappresentativo il campione per la popolazione ed in modo da utilizzare nella "direzione giusta" ogni nuovo dato disponi- bile. La Non Distorsione Asintotica, La Consistenza Definizione Uno stima- tore T n si dice asintoticamente non distorto per θ se:

lim

lim

n E(T n )=θn b(T n )=0. Quindi uno stimatore asintoticamente non distorto è uno stimatore eventualmente distorto per n finito, ma cui la distorsione tende a zero al crescere della numerosità campionaria.

Le proprietà connesse alla proprietà di consistenza (in media quadratica, in prob- abilità, quasi certa) sono di maggior rilievo nell’ambito delle proprietà asintotiche di uno stimatore.

Definizione Uno stimatore T n si dice consistente in media quadratica per θ se:

lim

lim

n MSE(T n ) = n E(T n

θ) 2 =0.

Uno stimatore è consistente in media quadratica se il suo MSE tende a zero al crescere della numerosità campionaria. Es- sendo il MSE di uno stimatore la somma di due quantità non negative (V ar(T n ) e [b(T n )] 2 ) la definizione sopra è equivalente alla verifica contemporanea delle seguenti condizioni:

- n lim V ar(T n )=0

- n lim [b n (T n )] 2 =0.

Se uno stimatore è non distorto (o as- intoticamente non distorto) allora è consis- tente in media quadratica se la varianza dello stimatore tende a zero al crescere della nu- merosità campionaria, e vale anche il vicev- ersa; di conseguenza è possibile affermare che la consistenza in media quadratica implica la distorsione asintotica.

Definizione Uno stimatore T n è

consistente in probabilità per θ se per ogni

> 0 fissato, si ha:

n lim Pr(|T n θ|< )=1.

Notazione Per indicare la consis- tenza in probabilità di uno stimatore si us- ano le seguenti notazioni: T n θ oppure

p lim(T n )=θ. La consistenza inm probabilità risulta particolarmente utile quando si conosce la

p

distribuzione di probabilità della variabile casuale X. Esiste un’analogia tra la convergenza quasi certa di una successione di varìiabili casuali ad una costante e la convergenza di uno stimatore: la si può definire come una forma più forte di consistenza. A tal fine sia data la seguente definizione.

Definizione Uno stimatore T n è consistente quasi certamente per θ se T n θ; ovvero se per ogni > 0 si ha che:

qc

n lim Pr(|T n θ|< ,mn)=1.

L’Efficienza Asintotica e Normal-

ità Asintotica Definizione Uno sti- matore T n non distorto per θ si dice asin- toticamente efficiente se:

lim

n V ar(T n )

1

I n (θ)

=

n lim eff(T n )=1. Quindi uno stimatore T n è asintotica- mente efficiente se, pur non raggiungendo il limite di Cramér e Rao per un n finito, lo raggiunge quando n diverge.

Uno stimatore T n per il

parametro θ si dice asintoticamente Normale se:

Definizione

n→∞ Pr( T n E(T n )

lim

V ar(T n )

t)=φ(t);

cioè al crescere della numerosità campi- onaria la funzione di ripartizione dello sti-

matore standardizzato tende alla funzione di ripartizione della variabile casuale Z N (0, 1).

Si osserva che l’uso della distribuzione Normale per approssimare la distribuzione di uno stimatore semplifica le elaborazioni numeriche, inoltre la convergenza alla Nor- malità delle variabili casuali T n consente di applicare allo stimatore tutte le proprietà notevoli di cui gode tale distribuzione, anche

se valgono solo quando la dimensione cam- pionaria diverge.

Osservazione Uno stimatore T n per il parametro θ viene definito stimatore BAN (=Best Asymptotically Normal), oppure CANE (=Consistent Asymptotically Nor- mal Efficient), se è asintoticamente Normale, consistente in media quadratica e possiede la varianza più piccola nella classe di tutti gli stimatori di θ consistenti ed asintoticamente Normali.

1.6 Principi Generali per la Stima di Un Parametro

Viene ora presentato un elenco dei prin- cipi generali per effettuare la stima di un parametro.

1.

La

stima di un parametro deve essere

espressa nella stessa unità di misura del parametro. Per controllare il rispetto

di

tale criterio ci si affida al valore

medio del campione per constatare che l’unità di misura rispetta quella attesa. Connesso a tale requisito vi è il prin- cipio dell’invarianza in base al quale l’inferenza non può essere modificata dalla particolare unità di misura utiliz- zata o dal particolare problema di cui si discute.

2.

Se

tutte le informazioni del campione

sono accurate allo stesso modo, nes-

suna sintesi dovrebbe privilegiare qual- cuna più di altre per cui il loro ordine

di

acquisizione dovrebbe essere irrile-

vante. Ciò implica che per la stima di

un

parametro occorre utilizzare funzioni

simmetriche di (x 1 ,

,

x n ) il che conduce

al concetto di scambiabilità.

3.

La

sintesi T n , per il parametro θ deve

essere coerente per θ nel senso che deve valutare θ e non ψ(θ).

4. Un principio differente di coerenza, de- nominato consistenza, afferma che se le unità campionarie sono repliche in- dipendenti e somiglianti della popo- lazione ciascuna di esse deve apportare delle informazioni aggiuntive per la de- terminazione di θ, cioè al crescere di n la distribuzione di T n deve essere uni- modale ma che occorre richiedere che la probabilità |T n θ| < per > 0 pic- colo tenda a crescere con n.

5. Un altro principio è quello di richiedere che uno stimatore T n possieda una probabilità elevata di assumere val- ori attorno a θ a parità di ampiezza dell’intervallo. Questo conduce al con- cetto di massima concentrazione di probabilità; infatti se T 1n eT 2n sono due stimatori per θ per i quali:

Pr(T 1n θ ± ∆) Pr(T 2n θ ± ∆),

per tutti i > 0; allora T 1n è uniforme- mente preferibile a T 2n .

6. Deve essere rispettato il principio di uti- lizzare al meglio le osservazioni campi- onarie nel senso di estrarre da un cam- pione tutto e solo ciò che riguarda il parametro da stimare. Questo conduce al principio di sufficienza di uno stima- tore che è prioritario e decisivo per tutta la discussione sulla scelta dello stima- tore.

7. Vi numerosi altri principi e a sec- onda dell’impostazione inferenziale si preferisce l’uno o l’altro, si cita, tra tutti, il principio di condizionamento secondo il quale la stima per θ deve es- sere ricavata condizionatamente al val- ore assunto dalle informazioni presenti nel campione.

1.7 Riferimenti Bibliografici

1) Azzalini, A. Inferenza Statis- tica. Una introduzione basata sul concetto di verosimiglianza, Berlin, Springer-Verlag (1992). pp 137-138. 2) Casella, G. e Berger, R.L. Statis- tical Inference, Belmont, CA, Duxbury Press (1990). pp 222, pp 316. 3) Lehmann, E.L. Theory of Point Estimation, New York, J. Wiley &Sons

(1983).

4) Pieraccini, L. (1976) Fondamenti di inferenza statistica, Torino, Giappichelli (1991). pp 210-211, 212-214, 260-268. 5) Piccolo, D. Statistica, Bologna, Il Mulino (1998). pp 534-577.Ricci, F. Sta- tistica ed elaborazione statistica delle infor- mazione, Bologna, Zanichelli (1975). 6) Rao, C.R. Linear Statistical In- ference and Its Applications, New York, J.Wiley &Sons, II Edizione (1973). 7) Ricci, F. Statistica ed elab- orazione statistica delle informazione, Bologna, Zanichelli (1975). 8) Rizzi, A: Inferenza Statistica, Torino, Utet-Libreria (1992a). pp 113-117.