Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Stima Parametrica PDF
Stima Parametrica PDF
Abbiamo visto come tramite gli strumenti della statistica induttiva sia possibile descrivere in
modo succinto l’informazione essenziale di una sequenza (o popolazione ) di N dati yi ,
ottenuti rilevando sperimentalmente il valore di una grandezza di interesse del prodotto di un
determinato processo di produzione di beni o servizi. Ciò si ottiene stimando i parametri della
distribuzione campionaria dei dati, a partire da un sottoinsieme di essi di dimensione n N .
Mediante opportuni test (test di ipotesi, intervalli di confidenza, tabelle ANOVA) è quindi possibile
valutare se il processo allo studio è conforme alle specifiche assegnate e se la qualità dei prodotti
raggiunge gli obiettivi prefissati.
Questo modo di procedere tuttavia permette di valutare il processo solo a valle della
produzione, e di ottenere dei prodotti che si distribuiscono uniformemente all’interno di un
intervallo ammissibile di degradazione della qualità rispetto al valore di riferimento (target). Questo
dipende sostanzialmente dal fatto che ci accorgiamo dell’incidenza delle cause di disturbo del
processo di produzione solo dopo che queste abbiano agito. Cercare di ridurre al massimo od
eliminare le cause di disturbo comporta normalmente dei costi elevati; una filosofia più efficiente e
redditizia consiste nel ridurre la sensibilità del processo rispetto ai disturbi.
Nasce quindi l’esigenza di dover descrivere il meccanismo secondo il quale un dato
processo trasforma le variabili indipendenti X (materie prime, energia, risorse,…) nelle grandezze
di misura Y (prodotto finito, beni, servizi, …), valutando l’incidenza su tale trasformazione delle
grandezze di disturbo d
X Y
Processo
Y L( X ; ) d
dove è un vettore di parametri che caratterizza la famiglia di modelli; il disturbo agisce in modo
additivo e viene normalmente descritto come una grandezza aleatoria che tiene conto sia degli errori
strumentali connessi alla misura sperimentale della Y , sia dell’errore di modello, cioè dell’errore
che si commette nel rappresentare il legame esatto tra X e Y con la funzione L() che ne cattura la
parte che noi riteniamo più significativa.
Definita quindi la famiglia di modelli ora si deve eseguire un esperimento per determinare il
valore dei parametri incogniti in modo da selezionare il modello più adatto a rappresentare il
processo in analisi. L’esperimento consiste nello scegliere un’opportuna sequenza di N dati delle
variabili indipendenti xi ed applicarla al processo; si rileva sperimentalmente quindi la
corrispondente sequenza yi di N dati della grandezza di misura. A questo punto si può stimare il
parametro incognito elaborando opportunamente i dati
(Y )
La funzione prende il nome di stimatore e viene detta stima del parametro . I metodi di
stima parametrica consistono nello scegliere opportunamente lo stimatore in modo che la stima
ottenuta goda di opportune proprietà. I metodi di stima parametrica si distinguono peraltro dalle
informazioni a priori disponibili sul disturbo additivo d e sull’incognita . In base a queste è infatti
possibile dedurre il cosiddetto modello statistico
p(Y ; )
ovvero la distribuzione dei dati come funzione del parametro incognito . I vari metodi di stima
fanno uso di tale modello statistico sia per dedurre la stima , sia per validare il modello L( X ; )
in base all’analisi del fit error
z Y L( X ; )
Polarizzazione
Il primo requisito che deve possedere una stima è quello di essere centrata (non polarizzata,
unbiased): questo consiste nel fatto che lo stimatore non commette errori sistematici nella
valutazione di , per cui
E (Y ) p(Y ; ) dY
cioè il valor medio della stima coincide con il valore effettivo dell’incognita. Il valor medio
dell’errore di stima e
b( ) E e E
prende il nome di polarizzazione o bias della stima. Per una stima non polarizzata il bias è nullo.
Efficienza
Tuttavia, sebbene l’errore di stima possa avere valor medio nullo, gli errori singolarmente
potrebbero essere molto grandi, sia con segno positivo che con segno negativo in modo da
compensarsi mediamente. Quindi il secondo requisito della stima consiste nel fatto che la
distribuzione dei valori di essa sia il più possibile addensata intorno al valore effettivo o,
equivalentemente che la distribuzione dell’errore di stima sia il più possibile addensata intorno allo
zero. Quindi si vuole che la matrice di correlazione dell’errore di stima
T
Qe E (Y ) (Y ) p(Y ; )dY
T
sia minima. Si noti che per una stima centrata la correlazione dell’errore di stima Qe coincide con la
covarianza Re . Nell’ipotesi che
p(Y ; ) T
1. p(Y ; ) ( gradiente di p(Y ; ) rispetto a ) esista quasi ovunque, cioè
escluso per un insieme di valori isolati di Y ;
2. E p(Y ; )
per la correlazione dell’errore di stima esiste un risultato di carattere generale che prende il nome di
limite inferiore di Cramer Rao
2
db( )
1
d
2
Qe E
d ln p(Y ; ) 2
d
Questa relazione dice che, una volta scelto il modello statistico p(Y ; ) si commette un errore di
stima che necessariamente ha una correlazione non inferiore al valore minimo indicato a secondo
membro. Una stima si dice efficiente se l’errore di stima ha una correlazione pari al valore minimo
possibile dato dal limite di Cramer Rao, cioè se la relazione precedente vale con il segno di
uguaglianza. Una condizione sufficiente affinché ciò si verifichi consiste nel poter esprimere
l’errore di stima nel seguente modo
M ( ) ln p(Y ; )
In tale caso si dimostra che la stima efficiente è anche centrata ed inoltre è una stima di massima
verosimiglianza
Purtroppo non vale il viceversa, cioè in generale non è vero che una stima di massima
verosimiglianza sia efficiente e centrata. Tuttavia sotto ipotesi piuttosto generali si può dimostrare
che la stima di massima verosimiglianza è asintoticamente centrata ed efficiente: cioè all’aumentare
del numero N di dati elaborati la stima di massima verosimiglianza tende ad acquisire le due
proprietà suddette.
Consistenza
Anche questa proprietà è di carattere asintotico, ovvero descrive come si comporta la stima
all’aumentare del numero N di dati elaborati. In particolare, indicando con N la stima ottenuta
dall’elaborazione di N campioni dell’uscita, si dice che la stima sia consistente se
lim N
N
quasi certamente; in altre parole la stima è consistente se con probabilità 1 tende al valore vero del
parametro al tendere di N all’infinito. Altre definizioni di consistenza possono far riferimento ai
momenti dell’errore di stima; quella più usuale è la seguente
2
lim E N 0
N
che, essendo il logaritmo una funzione monotona crescente, ammette la stessa soluzione del
precedente, ma risulta di più agevole soluzione. Infatti consideriamo il caso in cui il modello di
misura sia lineare in
Y L( X ) d
1 1
p(Y ; ) exp Q 1 Y L , Y L
2 N /2
det Q
1/ 2 2
1
ln p(Y ; ) ln 1 Q 1 Y L , Y L
2 N / 2 det Q 1 / 2 2
1
MLE arg min Q 1 Y L , Y L
2
Tutte e sole le soluzioni della precedente equazione saranno stime ottime di massima
verosimiglianza. Per verificare la convessità della funzione obbiettivo, dato che essendo quadratica
risulta essere di classe C 2 , si può verificare se l’hessiano risulti essere una matrice semidefinita
positiva
1 1
2 Q Y L , Y L 0
2
LT Q 1 L
che è subito visto essere una matrice simmetrica e semidefinita positiva. Per cui la funzione
obiettivo è convessa in un insieme convesso, e quindi l’equazione
1 1
Q Y L , Y L LT Q 1 Y L 0
2
1
MLE LT Q 1 L LT Q 1Y
Vediamo se la stima di massima verosimiglianza per un modello lineare con disturbo additivo
gaussiano gode di qualche proprietà. L’errore di stima risulta essere
1
MLE LT Q 1 L LT Q 1Y
dato che
LT Q1L
1
LT Q 1 L
si ottiene
LT Q1Y LT Q1L
1
MLE LT Q 1 L
1
LT Q 1 L LT Q 1 Y L
1
LT Q 1 L ln p(Y ; )
per cui risulta essere verificata la condizione sufficiente in base alla quale possiamo dire che la
stima ottenuta è efficiente; di conseguenza è anche centrata. Il limite inferiore di Cramer Rao è dato
da
1 1
E ln p Y ; ln p Y ; E LT Q 1 Y L Y L Q 1 L
T T
1 1
LT Q 1 E Y L Y L Q 1 L LT Q 1 E dd T Q 1 L
T
1 1
LT Q 1QQ 1 L LT Q 1 L
che è quindi costante ed indipendente da . Questo significa che qualunque altra operazione sui
1
dati produrrebbe un errore di stima con matrice di correlazione non inferiore a LT Q 1 L .
Se il modello fosse stato non lineare
Y L( ) d
con le stesse ipotesi per il disturbo d , la condizione necessaria per la stima di massima
verosimiglianza sarebbe stata
G ( )T Q 1 Y L( ) 0
con G ( ) L( ) / . Si otterrebbe quindi un’equazione non lineare da risolvere; diciamo che
quindi in questo caso si dovrebbe adottare un opportuno algoritmo di ottimizzazione che risolva
numericamente il problema di massima versosimiglianza
L L G
In questo modo il modello di misura approssimato diventerebbe
Y L G d
da cui ponendo Y Y L , si otterrebbe
Y G d
e quindi di nuovo un modello lineare con rumore additivo gaussiano; per questo la stima efficiente è
1
T T
MLE G Q 1G G Q 1Y
1
T 1
G Q G
che risulta essere funzione della stima iniziale . Per la stima di si ha quindi
'
MLE MLE
l’apice sta a ricordare che questa è una stima di che deriva dal modello linearizzato.
Stima dei minimi quadrati
Nel caso che sul disturbo additivo non si abbiano informazioni sufficienti per poterne
ipotizzare la distribuzione ma si possa solo ritenere che sia a media nulla, la stima del parametro
incognito può essere ottenuta minimizzando la norma al quadrato dell’errore di fitting
Come si nota si ottiene un problema analogo al caso precedente con Q pari all’identità. Per cui
sappiamo che se la matrice L ha rango pieno si ottiene un’unica soluzione ottima
1
LSE LT L LT Y
Dato che il disturbo additivo è a media nulla, si può facilmente stabilire che la stima dei minimi
quadrati (least square estimate) è centrata; infatti si ha
1 1
E LSE LT L LT E Y LT L LT L
Tuttavia nulla si può dire circa l’efficienza della stima, anche perché non si dispone di un modello
statistico dei dati.
Ricordando la definizione di prodotto interno euclideo, la funzione obbiettivo ha la seguente
forma
N
Y L , Y L yi li
2 2
Y L
i 1
dove li è la i-esima riga di L . Si vede come se qualche addendo è molto grande rispetto agli altri,
tenderà a polarizzare il valore della stima LSE , che di fatto dovendo minimizzare tutti questi
scarti al quadrato risente maggiormente di quegli scarti di valore maggiore. Per evitare questo
inconveniente si debbono equalizzare gli scarti al quadrato pesandoli opportunamente, ognuno con
un determinato peso, in modo da rendere tutti gli scarti tra loro confrontabili; in luogo della
precedente funzione obbiettivo si considera quindi la seguente
N
Y L P P Y L , Y L pi yi li
2 2
i 1
con P diag pi ed i pesi pi tutti positivi ovviamente. In questo caso la stima dei minimi
quadrati diventa
1
LSE LT PL LT PY
e viene chiamata usualmente stima dei minimi quadrati pesati.
Esempio.
Uno dei problemi più interessanti nell’analisi dei dati sia demografici che finanziari consiste
nella stima di opportuni andamenti in essi presenti; questi rappresentano dipendenze cosiddette
stagionali che denotano un comportamento tipico a lungo termine. Assegnata quindi una sequenza
yk di dati supponiamo il seguente modello di misura
yk mk nk
con
mk m0 m1 k
In definitiva stiamo descrivendo la sequenza di dati come composta da un andamento lineare nel
tempo mk ( è l’intervallo di campionamento ossia l’intervallo di tempo tra due istanti di misura
consecutivi) la cui misura viene corrotta istante per istante da un rumore additivo che possiamo
supporre bianco e a valor medio nullo; si ricorda che la bianchezza consiste nella proprietà per cui
tutti i campioni del rumore sono tra loro incorrelati.
m0
k ( ) yk mk yk [1 k ]
m1
yk [1 k ] yk lk
N
arg min yi li arg min Y L
2 2
i 1
dove si è posto
l1 1
y1 l 1 2
Y , L 2
y N
lN 1 N
Si può vedere facilmente che la matrice L per questo problema ha rango pieno pari a 2, per cui la
soluzione del problema dei minimi quadrati ha un'unica soluzione ottima.
mk m0 m1 k m2 (k ) 2 m p (k ) p
e di conseguenza
m0
m
1
k ( ) yk mk yk [1 k (k ) 2 (k ) ] m2
p
mp
yk [1 k (k ) 2 (k ) p ] yk lk
T
dove stavolta m0 m1 m2 m p . Ora non dobbiamo far altro che risolvere lo stesso
problema di prima, ma con
l1 1 2 p
y1 l 1 2
(2) 2 (2) p
Y ,
L 2
y N
lN 1 N ( N ) 2 ( N ) p
Di nuovo, è facile vedere che la matrice L ha rango pieno pari a p+1, e perciò si ha un’unica
soluzione ottima del problema di minimi quadrati.
y l
2
i i
i 1
dobbiamo fare in modo che, all’aumentare di N, nella sommatoria contino di più i termini più vicini
all’istante corrente k=N e via via si rendano trascurabili i termini lontani. Ciò può essere ottenuto
cambiando l’indice di costo nel seguente modo
y l ,
N i
(0, 1)
2
i i
i 1
Essendo 1 nella sommatoria i termini che corrispondono ad istanti i lontani dall’istante corrente
N sono moltiplicati per N i che diventa sempre più piccolo per i che via via si allontana da N. Tale
tecnica viene detta dei minimi quadrati con fattore di oblio, e permette di stimare il valore del
parametro incognito nell’intervallo immediatamente adiacente all’istante corrente; questo permette
quindi di inseguire le variazioni temporali del parametro incognito, nell’ipotesi che queste siano
piuttosto lente. Più piccolo è e più breve risulta l’intervallo adiacente all’istante corrente che
viene considerato.
Stima Bayesiana
che viene detta stima di massima verosimiglianza non condizionata. Infatti la funzione obbiettivo
cambia rispetto al caso di stima di massima verosimiglianza quando il parametro può assumere
indistintamente un qualunque valore di m : infatti la differenza consiste nel fatto che nel caso
bayesiano i valori di m non sono tutti equiprobabili ma sono assunti con probabilità determinata
dalla distribuzione p( ) . Questo fatto può essere esplicitato ricordando il teorema di Bayes, in base
al quale la distribuzione congiunta p(Y , ) può essere fattorizzata nel seguente modo
dove p(Y | ) è la distribuzione di Y condizionata a , ovvero è la distribuzione dei valori dei dati
Y quando si fissa un generico valore dell’incognita. L’espressione di tale funzione è facilmente
deducibile dal modello di misura
Y L X ; d
Infatti nell’usuale ipotesi che il disturbo additivo abbia distribuzione gaussiana con media nulla e
covarianza Q , fissando un generico valore di , la variabile Y diventa gaussiana con media
L( X ; ) e varianza Q .
Ricorrendo ancora alla trasformazione logaritmica si ottiene
Si vede che rispetto al caso di massima verosimiglianza nella funzione obbiettivo compare il
termine ln p( ) che dà un peso differente ai diversi valori di .
Vediamo l’espressione della stima ottima nel caso importante di modello lineare con rumore
additivo gaussiano, nelle ipotesi aggiuntive che anche l’incognita sia una gaussiana con valor medio
o e matrice di covarianza
1 1
p( ) exp 1 o , o
(2 ) m/2
(det )1/ 2 2
e che sia ovviamente indipendente dal disturbo. Quindi, trascurando i temini costanti, il problema di
stima diventa
1 1
MULE arg min Q 1 Y L , Y L 1 o , o
2 2
Effettuando la stessa analisi svolta nel caso di massima verosimiglianza si può ancora dimostrare
che la funzione obbiettivo risulta essere convessa; infatti l’hessiano è
LT Q 1 L 1
ed è quindi una matrice simmetrica e definita positiva; dall’annullamento del gradiente della
funzione obbiettivo si ottiene quindi la seguente condizione necessaria e sufficiente di ottimo
globale
LT Q 1 Y L 1 o 0
da cui
LT Q 1 L 1 LT Q 1Y 1o
Ora, dato che la matrice 1 è definita positiva, la matrice LT Q 1 L 1 è certamente non
singolare, indipendentemente dal fatto che L sia o meno a rango pieno. Per cui si ottiene l’unica
soluzione ottima
LT Q1Y 1o
1
MULE LT Q 1 L 1
Se il modello di misura è non lineare, sorgono gli stessi problemi visti nel caso della massima
verosimiglianza, per cui in generale è necessario ricorrere al calcolo numerico della soluzione
ottima. Anche in questo caso tuttavia si può ricorrere alla linearizzazione del modello ed ottenere
una soluzione approssimata.
z Y L( X ; )
Tenendo conto che tutti i modelli considerati presentavano il disturbo in forma additiva, si capisce
come il modello identificato L( X ; ) rappresenti bene i dati sperimentali Y se il residuo ha le
stesse caratteristiche ipotizzate per il disturbo additivo.
Come prima verifica potremmo quindi accertarci che il valor medio del residuo sia nullo; ciò
può essere fatto mediante un opportuno test di ipotesi valutando valor medio e deviazione standard
campionaria di z
1 N N
ˆ z
N i 1
( y i l i ( )), ˆ 1
z
N i 1
zi z
2
e ricordando che, per il teorema del limite centrale, se N è abbastanza grande la variabile
standardizzata
z z z
N
z z
può considerarsi una gaussiana standard N(0,1). Considerando quindi un livello di significatività del
test dell’ % si può testare l’ipotesi nulla che E ( z ) 0 se
ˆ z ˆ z
ˆ z
N N
con percentile di una N(0,1) all’ % . Se ˆ z dovesse essere fuori dell’intervallo di confidenza
ˆ z ˆ
N
, z
N
si deve rifiutare l’ipotesi nulla e ritenere quindi che il residuo non sia a
media nulla, denotando un difetto del modello scelto, che quindi andrebbe modificato.
Come seconda verifica si potrebbe testare che il residuo abbia la statistica ipotizzata per il
disturbo additivo: nell’ipotesi che il disturbo additivo sia una sequenza gaussiana con covarianza
Q , si potrebbe testare se anche il residuo possegga tali caratteristiche. Quindi la sequenza
z Q 1 Y Lˆ dovrebbe essere una sequenza gaussiana standard. Il test sul tipo di
distribuzione può essere eseguito con un test di Anderson-Darling.
1 N
( ) z z , 2, 5
N i 1 i i
1 N 2
(0) z
N i 1 i
Il test di bianchezza si basa sul risultato che, se la sequenza zi è bianca allora, per N abbastanza
grande, la grandezza
( )
( ) N
(0)
tende a distribuirsi come una gaussiana standard N(0,1); per cui si fa il solito test con livello % .