Stima Parametrica PDF

Stima Parametrica
Abbiamo visto come tramite gli strumenti della statistica induttiva sia possibile descrivere in
modo succinto l’informazione essenziale di una sequenza (o popolazione ) di N dati  yi  ,
ottenuti rilevando sperimentalmente il valore di una grandezza di interesse del prodotto di un
determinato processo di produzione di beni o servizi. Ciò si ottiene stimando i parametri della
distribuzione campionaria dei dati, a partire da un sottoinsieme di essi di dimensione n  N .
Mediante opportuni test (test di ipotesi, intervalli di confidenza, tabelle ANOVA) è quindi possibile
valutare se il processo allo studio è conforme alle specifiche assegnate e se la qualità dei prodotti
raggiunge gli obiettivi prefissati.
Questo modo di procedere tuttavia permette di valutare il processo solo a valle della
produzione, e di ottenere dei prodotti che si distribuiscono uniformemente all’interno di un
intervallo ammissibile di degradazione della qualità rispetto al valore di riferimento (target). Questo
dipende sostanzialmente dal fatto che ci accorgiamo dell’incidenza delle cause di disturbo del
processo di produzione solo dopo che queste abbiano agito. Cercare di ridurre al massimo od
eliminare le cause di disturbo comporta normalmente dei costi elevati; una filosofia più efficiente e
redditizia consiste nel ridurre la sensibilità del processo rispetto ai disturbi.
Nasce quindi l’esigenza di dover descrivere il meccanismo secondo il quale un dato
processo trasforma le variabili indipendenti X (materie prime, energia, risorse,…) nelle grandezze
di misura Y (prodotto finito, beni, servizi, …), valutando l’incidenza su tale trasformazione delle
grandezze di disturbo d
X Y
Processo
Si devono quindi stabilire le condizioni di funzionamento che assicurino che la grandezza di

misura sia il più possibile vicina al valore di target e che risenta il meno possibile dei disturbi.
Per raggiungere questo obbiettivo si deve definire un modello matematico che descriva il
legame tra le variabili indipendenti, di misura e di disturbo. Una classe piuttosto generale di modelli
è la seguente
Y  L( X ; )  d
dove  è un vettore di parametri che caratterizza la famiglia di modelli; il disturbo agisce in modo
additivo e viene normalmente descritto come una grandezza aleatoria che tiene conto sia degli errori
strumentali connessi alla misura sperimentale della Y , sia dell’errore di modello, cioè dell’errore
che si commette nel rappresentare il legame esatto tra X e Y con la funzione L() che ne cattura la
parte che noi riteniamo più significativa.
Definita quindi la famiglia di modelli ora si deve eseguire un esperimento per determinare il
valore dei parametri incogniti  in modo da selezionare il modello più adatto a rappresentare il
processo in analisi. L’esperimento consiste nello scegliere un’opportuna sequenza di N dati delle
variabili indipendenti  xi  ed applicarla al processo; si rileva sperimentalmente quindi la
corrispondente sequenza  yi  di N dati della grandezza di misura. A questo punto si può stimare il
parametro incognito elaborando opportunamente i dati
   (Y )
La funzione  prende il nome di stimatore e  viene detta stima del parametro  . I metodi di
stima parametrica consistono nello scegliere opportunamente lo stimatore in modo che la stima
ottenuta goda di opportune proprietà. I metodi di stima parametrica si distinguono peraltro dalle
informazioni a priori disponibili sul disturbo additivo d e sull’incognita  . In base a queste è infatti
possibile dedurre il cosiddetto modello statistico
p(Y ; )
ovvero la distribuzione dei dati come funzione del parametro incognito  . I vari metodi di stima
fanno uso di tale modello statistico sia per dedurre la stima  , sia per validare il modello L( X ; )
in base all’analisi del fit error
z  Y  L( X ; )
Proprietà della stima.
Polarizzazione
Il primo requisito che deve possedere una stima è quello di essere centrata (non polarizzata,
unbiased): questo consiste nel fatto che lo stimatore non commette errori sistematici nella
valutazione di  , per cui
E      (Y ) p(Y ; ) dY  
 
cioè il valor medio della stima coincide con il valore effettivo dell’incognita. Il valor medio
dell’errore di stima e    
b( )  E  e   E    
 
prende il nome di polarizzazione o bias della stima. Per una stima non polarizzata il bias è nullo.
Efficienza
Tuttavia, sebbene l’errore di stima possa avere valor medio nullo, gli errori singolarmente
potrebbero essere molto grandi, sia con segno positivo che con segno negativo in modo da
compensarsi mediamente. Quindi il secondo requisito della stima consiste nel fatto che la
distribuzione dei valori di essa sia il più possibile addensata intorno al valore effettivo  o,
equivalentemente che la distribuzione dell’errore di stima sia il più possibile addensata intorno allo
zero. Quindi si vuole che la matrice di correlazione dell’errore di stima

  
T
Qe  E            (Y )    (Y )    p(Y ; )dY
T
 
sia minima. Si noti che per una stima centrata la correlazione dell’errore di stima Qe coincide con la
covarianza Re . Nell’ipotesi che
 p(Y ; ) T
1.  p(Y ; )  ( gradiente di p(Y ; ) rispetto a  ) esista quasi ovunque, cioè

escluso per un insieme di valori isolati di Y ;
2. E   p(Y ; )   
per la correlazione dell’errore di stima esiste un risultato di carattere generale che prende il nome di
limite inferiore di Cramer Rao
Qe   I   b( )   ( )1  I   b( )  ,  ( )  E  ln p(Y ; )   T ln p(Y ; ) 

T
 
che nel caso scalare diventa
2
 db( ) 
 1
d 

 
2
Qe  E       
   d ln p(Y ; )  2
 d 
 
Questa relazione dice che, una volta scelto il modello statistico p(Y ; ) si commette un errore di
stima che necessariamente ha una correlazione non inferiore al valore minimo indicato a secondo
membro. Una stima si dice efficiente se l’errore di stima ha una correlazione pari al valore minimo
possibile dato dal limite di Cramer Rao, cioè se la relazione precedente vale con il segno di
uguaglianza. Una condizione sufficiente affinché ciò si verifichi consiste nel poter esprimere
l’errore di stima nel seguente modo
    M ( )  ln p(Y ; )
In tale caso si dimostra che la stima efficiente è anche centrata ed inoltre è una stima di massima
verosimiglianza
  arg max p(Y ; )
Purtroppo non vale il viceversa, cioè in generale non è vero che una stima di massima
verosimiglianza sia efficiente e centrata. Tuttavia sotto ipotesi piuttosto generali si può dimostrare
che la stima di massima verosimiglianza è asintoticamente centrata ed efficiente: cioè all’aumentare
del numero N di dati elaborati la stima di massima verosimiglianza tende ad acquisire le due
proprietà suddette.
Consistenza
Anche questa proprietà è di carattere asintotico, ovvero descrive come si comporta la stima
all’aumentare del numero N di dati elaborati. In particolare, indicando con  N la stima ottenuta
dall’elaborazione di N campioni dell’uscita, si dice che la stima sia consistente se
lim  N 
N 
quasi certamente; in altre parole la stima è consistente se con probabilità 1 tende al valore vero del
parametro al tendere di N all’infinito. Altre definizioni di consistenza possono far riferimento ai
momenti dell’errore di stima; quella più usuale è la seguente
  2
lim E  N    0
N   
in questo caso si dice che la stima è consistente in media quadratica.

Stima di massima verosimiglianza
La stima di massima verosimiglianza consiste nel determinare il valore del parametro  che
rende massima la distribuzione (verosimiglianza) dei dati
 MLE  arg max p(Y ; )
In luogo del problema precedente, conviene considerare il seguente
 MLE  arg max ln p(Y ; )
che, essendo il logaritmo una funzione monotona crescente, ammette la stessa soluzione del
precedente, ma risulta di più agevole soluzione. Infatti consideriamo il caso in cui il modello di
misura sia lineare in 
Y  L( X )  d
con Y   N ,    m , L   N  m e d   N ; per non appesantire la notazione da qui in poi non

riporteremo la dipendenza dei coefficienti del modello dai valori delle variabili di ingresso X , per
cui indicheremo sempre L( X ) con L , e L( X ; ) con L( ) .
Supponiamo che d  N (0, Q ) , cioè che il disturbo additivo sia una gaussiana a media nulla e con
matrice di covarianza Q . Allora l’uscita risulta essere una gaussiana con valor medio L e
covarianza Q , per cui
1  1 
p(Y ; )  exp   Q 1 Y  L  , Y  L   
 
 2  N /2
 det Q 
1/ 2  2 
Calcolando il logaritmo, si ottiene una funzione di  considerevolmente più semplice
 1 
ln p(Y ; )  ln    1 Q 1 Y  L  , Y  L  
  2  N / 2  det Q 1 / 2  2  
 
ed il problema di massima verosimiglianza diventa
1
 MLE  arg min Q 1 Y  L  , Y  L  
2 
La funzione obbiettivo è una funzione quadratica dell’incognita e l’esistenza dell’ottimo è di facile

deduzione. Dato che non abbiamo posto vincoli sui valori di  esso varierà in tutto  m che è un
insieme convesso; se la funzione obbiettivo risulta essere convessa, abbiamo una condizione
necessaria e sufficiente di minimo globale
1  1
 Q Y  L  , Y  L    0
2 
Tutte e sole le soluzioni della precedente equazione saranno stime ottime di massima
verosimiglianza. Per verificare la convessità della funzione obbiettivo, dato che essendo quadratica
risulta essere di classe C 2 , si può verificare se l’hessiano risulti essere una matrice semidefinita
positiva
1  1
2 Q Y  L  , Y  L    0
2 
Per la funzione obbiettivo in questione l’hessiano risulta essere
LT Q 1 L
che è subito visto essere una matrice simmetrica e semidefinita positiva. Per cui la funzione
obiettivo è convessa in un insieme convesso, e quindi l’equazione
1  1
 Q Y  L  , Y  L     LT Q 1 Y  L   0
2 
fornisce tutte e sole le soluzioni ottime del problema
 LT Q1 L  LT Q1Y

Se la matrice L ha rango pieno ( Lz  0  z  0 ), la matrice entro parentesi risulta essere non
singolare per cui si ottiene un'unica soluzione ottima
 
1
 MLE  LT Q 1 L LT Q 1Y
Vediamo se la stima di massima verosimiglianza per un modello lineare con disturbo additivo
gaussiano gode di qualche proprietà. L’errore di stima risulta essere
 
1
 MLE    LT Q 1 L LT Q 1Y  
dato che
   LT Q1L
1
  LT Q 1 L
si ottiene
   LT Q1Y  LT Q1L 
1
 MLE    LT Q 1 L
 
1
 LT Q 1 L LT Q 1 Y  L 
 
1
  LT Q 1 L  ln p(Y ; )
per cui risulta essere verificata la condizione sufficiente in base alla quale possiamo dire che la
stima ottenuta è efficiente; di conseguenza è anche centrata. Il limite inferiore di Cramer Rao è dato
da
1 1
E  ln p Y ;   ln p Y ;    E  LT Q 1 Y  L Y  L  Q 1 L 
T T
   
 
1 1
  LT Q 1 E Y  L Y  L   Q 1 L   LT Q 1 E  dd T  Q 1 L
T
 
    
   
1 1
 LT Q 1QQ 1 L  LT Q 1 L
che è quindi costante ed indipendente da  . Questo significa che qualunque altra operazione sui
 
1
dati produrrebbe un errore di stima con matrice di correlazione non inferiore a LT Q 1 L .
Se il modello fosse stato non lineare
Y  L( )  d
con le stesse ipotesi per il disturbo d , la condizione necessaria per la stima di massima
verosimiglianza sarebbe stata
 MLE  arg max ln p(Y ; )

1  1
 Q Y  L( )  , Y  L( )    0
2 
cioè
G ( )T Q 1 Y  L( )   0
con G ( )  L( ) /  . Si otterrebbe quindi un’equazione non lineare da risolvere; diciamo che
quindi in questo caso si dovrebbe adottare un opportuno algoritmo di ottimizzazione che risolva
numericamente il problema di massima versosimiglianza
 MLE  arg min Q 1 Y  L    , Y  L    

1
2 
Tuttavia è sempre possibile tentare di approssimare il problema originario linearizzando la funzione

L() nell’intorno di un valore  noto, che si possa ritenere una buona stima iniziale per 
   
L    L   G     
In questo modo il modello di misura approssimato diventerebbe
   
Y  L   G     d 
 
da cui ponendo Y  Y  L  ,      si otterrebbe
 
Y  G    d
e quindi di nuovo un modello lineare con rumore additivo gaussiano; per questo la stima efficiente è
1

   
 
T T
 MLE   G  Q 1G   G  Q 1Y
 
con limite di Cramer Rao pari a
1

  
 
T 1
G  Q G  
 
che risulta essere funzione della stima iniziale  . Per la stima di  si ha quindi
'
 MLE   MLE  
l’apice sta a ricordare che questa è una stima di  che deriva dal modello linearizzato.
Stima dei minimi quadrati
Nel caso che sul disturbo additivo non si abbiano informazioni sufficienti per poterne
ipotizzare la distribuzione ma si possa solo ritenere che sia a media nulla, la stima del parametro
incognito  può essere ottenuta minimizzando la norma al quadrato dell’errore di fitting
 LSE  arg min Y  L  arg min Y  L  , Y  L  

2
Come si nota si ottiene un problema analogo al caso precedente con Q pari all’identità. Per cui
sappiamo che se la matrice L ha rango pieno si ottiene un’unica soluzione ottima
 
1
 LSE  LT L LT Y
Dato che il disturbo additivo è a media nulla, si può facilmente stabilire che la stima dei minimi
quadrati (least square estimate) è centrata; infatti si ha
   
1 1
E  LSE   LT L LT E Y   LT L LT L  
 
Tuttavia nulla si può dire circa l’efficienza della stima, anche perché non si dispone di un modello
statistico dei dati.
Ricordando la definizione di prodotto interno euclideo, la funzione obbiettivo ha la seguente
forma
N
 Y  L  , Y  L      yi  li 
2 2
Y  L
i 1
dove li è la i-esima riga di L . Si vede come se qualche addendo è molto grande rispetto agli altri,
tenderà a polarizzare il valore della stima  LSE , che di fatto dovendo minimizzare tutti questi
scarti al quadrato risente maggiormente di quegli scarti di valore maggiore. Per evitare questo
inconveniente si debbono equalizzare gli scarti al quadrato pesandoli opportunamente, ognuno con
un determinato peso, in modo da rendere tutti gli scarti tra loro confrontabili; in luogo della
precedente funzione obbiettivo si considera quindi la seguente
N
Y  L P   P Y  L  , Y  L     pi  yi  li 
2 2
i 1
con P  diag  pi  ed i pesi pi tutti positivi ovviamente. In questo caso la stima dei minimi
quadrati diventa
 
1
 LSE  LT PL LT PY
e viene chiamata usualmente stima dei minimi quadrati pesati.
Esempio.
Uno dei problemi più interessanti nell’analisi dei dati sia demografici che finanziari consiste
nella stima di opportuni andamenti in essi presenti; questi rappresentano dipendenze cosiddette
stagionali che denotano un comportamento tipico a lungo termine. Assegnata quindi una sequenza
 yk  di dati supponiamo il seguente modello di misura
yk  mk  nk
con
mk  m0  m1 k 
In definitiva stiamo descrivendo la sequenza di dati come composta da un andamento lineare nel
tempo mk (  è l’intervallo di campionamento ossia l’intervallo di tempo tra due istanti di misura
consecutivi) la cui misura viene corrotta istante per istante da un rumore additivo che possiamo
supporre bianco e a valor medio nullo; si ricorda che la bianchezza consiste nella proprietà per cui
tutti i campioni del rumore sono tra loro incorrelati.
Quello che vogliamo fare è stimare i parametri m0 , m1 della legge di variazione

dell’andamento medio dei dati mk . Per far questo consideriamo per ogni istante, lo scarto  k ( ) tra
il dato sperimentale yk e il valor medio ipotizzato mk
 m0 
 k ( )  yk  mk  yk  [1 k  ]  
 m1 
 yk  [1 k  ]   yk  lk 
dove si è indicato con    m0 m1  il vettore dei parametri incogniti. Si può determinare 

T
mediante la stima dei minimi quadrati
N
  arg min   yi  li   arg min Y  L
2 2
i 1
dove si è posto
 l1  1  
 y1   l  1 2 
Y     , L 2 
     
 y N     
lN  1 N  
Si può vedere facilmente che la matrice L per questo problema ha rango pieno pari a 2, per cui la
soluzione del problema dei minimi quadrati ha un'unica soluzione ottima.
Se il valor medio ha un andamento più generale del precedente, possiamo pensare di

aumentare la complessità del modello di rappresentazione della dinamica del valor medio
ricordando che una qualunque funzione continua del tempo può approssimarsi con precisione
grande a piacere (su un intervallo finito di tempo) con un polinomio; pertanto si può porre
mk  m0  m1 k   m2 (k ) 2    m p (k ) p
e di conseguenza
 m0 
m 
 1
 k ( )  yk  mk  yk  [1 k  (k ) 2  (k ) ]  m2 
p
 
  
mp 
 
 yk  [1 k  (k ) 2  (k ) p ]   yk  lk 
T
dove stavolta    m0 m1 m2  m p  . Ora non dobbiamo far altro che risolvere lo stesso
problema di prima, ma con
 l1  1   2   p 
 y1   l  1 2 
(2) 2  (2) p 
Y     ,
 L  2 
 
     
 y N     
lN  1 N  ( N ) 2  ( N ) p 
Di nuovo, è facile vedere che la matrice L ha rango pieno pari a p+1, e perciò si ha un’unica
soluzione ottima del problema di minimi quadrati.
Una successiva generalizzazione rispetto al caso precedente consiste nel considerare la

situazione in cui i parametri che descrivono la dinamica del valor medio, siano variabili nel tempo
T
 (k )   m0 (k ) m1 (k ) m2 (k )  m p (k )  . Possiamo distinguere due casi differenti: nel primo si
suppone che la rapidità di variazione dei parametri sia piccola se confrontata a quella dei dati; nel
secondo caso invece si suppone che la dinamica di variazione dei parametri sia comparabile a quella
dei dati.
Quando i parametri variano lentamente rispetto alla dinamica dei dati, è possibile ancora
utilizzare il metodo di stima dei minimi quadrati, modificandolo opportunamente: in particolare se
consideriamo la somma degli scarti al quadrato
N
 y  l 
2
i i
i 1
dobbiamo fare in modo che, all’aumentare di N, nella sommatoria contino di più i termini più vicini
all’istante corrente k=N e via via si rendano trascurabili i termini lontani. Ciò può essere ottenuto
cambiando l’indice di costo nel seguente modo
   y  l  ,
N i
  (0, 1)
2
i i
i 1
Essendo   1 nella sommatoria i termini che corrispondono ad istanti i lontani dall’istante corrente
N sono moltiplicati per  N i che diventa sempre più piccolo per i che via via si allontana da N. Tale
tecnica viene detta dei minimi quadrati con fattore di oblio, e permette di stimare il valore del
parametro incognito nell’intervallo immediatamente adiacente all’istante corrente; questo permette
quindi di inseguire le variazioni temporali del parametro incognito, nell’ipotesi che queste siano
piuttosto lente. Più piccolo è  e più breve risulta l’intervallo adiacente all’istante corrente che
viene considerato.
Stima Bayesiana
Questo metodo di stima si deve adottare quando l’incognita  non è un parametro

deterministico, ma una grandezza aleatoria con distribuzione p( ) . In questo caso il modello
statistico è costituito dalla densità di probabilità congiunta dei dati e dell’incognita p(Y ,  ) . La
stima del valore di  può essere ottenuta al solito massimizzando la p(Y ,  )
 MULE  arg max p(Y ,  )
che viene detta stima di massima verosimiglianza non condizionata. Infatti la funzione obbiettivo
cambia rispetto al caso di stima di massima verosimiglianza quando il parametro  può assumere
indistintamente un qualunque valore di  m : infatti la differenza consiste nel fatto che nel caso
bayesiano i valori di  m non sono tutti equiprobabili ma sono assunti con probabilità determinata
dalla distribuzione p( ) . Questo fatto può essere esplicitato ricordando il teorema di Bayes, in base
al quale la distribuzione congiunta p(Y ,  ) può essere fattorizzata nel seguente modo
p(Y , )  p(Y |  ) p( )
dove p(Y |  ) è la distribuzione di Y condizionata a  , ovvero è la distribuzione dei valori dei dati
Y quando si fissa un generico valore  dell’incognita. L’espressione di tale funzione è facilmente
deducibile dal modello di misura
Y  L  X ;   d
Infatti nell’usuale ipotesi che il disturbo additivo abbia distribuzione gaussiana con media nulla e
covarianza Q , fissando un generico valore di  , la variabile Y diventa gaussiana con media
L( X ; ) e varianza Q .
Ricorrendo ancora alla trasformazione logaritmica si ottiene
 MULE  arg max ln p(Y ,  )  arg max  ln p(Y |  )  ln p( ) 
Si vede che rispetto al caso di massima verosimiglianza nella funzione obbiettivo compare il
termine ln p( ) che dà un peso differente ai diversi valori di  .
Vediamo l’espressione della stima ottima nel caso importante di modello lineare con rumore
additivo gaussiano, nelle ipotesi aggiuntive che anche l’incognita sia una gaussiana con valor medio
o e matrice di covarianza 
1  1 
p( )  exp     1   o  ,   o   
(2 ) m/2
(det  )1/ 2  2   
e che sia ovviamente indipendente dal disturbo. Quindi, trascurando i temini costanti, il problema di
stima diventa
1 1 
 MULE  arg min  Q 1 Y  L  , Y  L      1   o  ,   o   
2  2 
Effettuando la stessa analisi svolta nel caso di massima verosimiglianza si può ancora dimostrare
che la funzione obbiettivo risulta essere convessa; infatti l’hessiano è
LT Q 1 L   1
ed è quindi una matrice simmetrica e definita positiva; dall’annullamento del gradiente della
funzione obbiettivo si ottiene quindi la seguente condizione necessaria e sufficiente di ottimo
globale
 LT Q 1 Y  L    1   o   0
da cui
 LT Q 1 L   1   LT Q 1Y   1o
Ora, dato che la matrice  1 è definita positiva, la matrice LT Q 1 L   1 è certamente non
singolare, indipendentemente dal fatto che L sia o meno a rango pieno. Per cui si ottiene l’unica
soluzione ottima
   LT Q1Y   1o 
1
 MULE  LT Q 1 L   1
Se il modello di misura è non lineare, sorgono gli stessi problemi visti nel caso della massima
verosimiglianza, per cui in generale è necessario ricorrere al calcolo numerico della soluzione
ottima. Anche in questo caso tuttavia si può ricorrere alla linearizzazione del modello ed ottenere
una soluzione approssimata.
Validazione delle stime

A conclusione di questo capitolo riportiamo i test che vanno eseguiti per valicare la stima
ottenuta. Abbiamo visto come i vari tipi di stima effettuati si basino su differenti ipotesi di partenza.
Una volta stimato il parametro incognito  dovremo verificare se il modello stimato può costituire
una buona rappresentazione del processo cui si riferisce. Questo può essere fatto analizzando da un
punto di vista statistico la grandezza nota come fit error o residuo
z  Y  L( X ; )
Tenendo conto che tutti i modelli considerati presentavano il disturbo in forma additiva, si capisce
come il modello identificato L( X ; ) rappresenti bene i dati sperimentali Y se il residuo ha le
stesse caratteristiche ipotizzate per il disturbo additivo.
Come prima verifica potremmo quindi accertarci che il valor medio del residuo sia nullo; ciò
può essere fatto mediante un opportuno test di ipotesi valutando valor medio e deviazione standard
campionaria di z
1 N N
ˆ z  
N i 1
( y i  l i ( )), ˆ  1
z 
N i 1
 zi   z 
2
e ricordando che, per il teorema del limite centrale, se N è abbastanza grande la variabile
standardizzata
 
z  z z
N    
z z
può considerarsi una gaussiana standard N(0,1). Considerando quindi un livello di significatività del
test dell’  % si può testare l’ipotesi nulla che E ( z )  0 se
ˆ z ˆ z
   ˆ z  
N N
con  percentile di una N(0,1) all’  % . Se ˆ z dovesse essere fuori dell’intervallo di confidenza
 ˆ z ˆ 
   N
,  z
N 
si deve rifiutare l’ipotesi nulla e ritenere quindi che il residuo non sia a
media nulla, denotando un difetto del modello scelto, che quindi andrebbe modificato.
Come seconda verifica si potrebbe testare che il residuo abbia la statistica ipotizzata per il
disturbo additivo: nell’ipotesi che il disturbo additivo sia una sequenza gaussiana con covarianza
Q , si potrebbe testare se anche il residuo possegga tali caratteristiche. Quindi la sequenza
 
z  Q 1 Y  Lˆ dovrebbe essere una sequenza gaussiana standard. Il test sul tipo di
distribuzione può essere eseguito con un test di Anderson-Darling.
Da ultimo si può verificare la bianchezza della sequenza mediante il test di bianchezza di

Anderson: si calcolano le seguenti grandezze
1 N 
 ( )   z z ,    2, 5
N   i  1 i i 
1 N  2
 (0)   z
N   i 1 i
Il test di bianchezza si basa sul risultato che, se la sequenza  zi  è bianca allora, per N abbastanza
grande, la grandezza
 ( )
 ( )  N  
 (0)
tende a distribuirsi come una gaussiana standard N(0,1); per cui si fa il solito test con livello  % .

Stima Parametrica PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Stima Parametrica PDF

Caricato da

Copyright:

Formati disponibili

Stima Parametrica

Si devono quindi stabilire le condizioni di funzionamento che assicurino che la grandezza di

Proprietà della stima.

Qe   I   b( )   ( )1  I   b( )  ,  ( )  E  ln p(Y ; )   T ln p(Y ; ) 

che nel caso scalare diventa

  arg max p(Y ; )

in questo caso si dice che la stima è consistente in media quadratica.

 MLE  arg max p(Y ; )

In luogo del problema precedente, conviene considerare il seguente

 MLE  arg max ln p(Y ; )

con Y   N ,    m , L   N  m e d   N ; per non appesantire la notazione da qui in poi non

Calcolando il logaritmo, si ottiene una funzione di  considerevolmente più semplice

ed il problema di massima verosimiglianza diventa

La funzione obbiettivo è una funzione quadratica dell’incognita e l’esistenza dell’ottimo è di facile

Per la funzione obbiettivo in questione l’hessiano risulta essere

fornisce tutte e sole le soluzioni ottime del problema

 LT Q1 L  LT Q1Y

 MLE  arg max ln p(Y ; )

 MLE  arg min Q 1 Y  L    , Y  L    

Tuttavia è sempre possibile tentare di approssimare il problema originario linearizzando la funzione

con limite di Cramer Rao pari a

 LSE  arg min Y  L  arg min Y  L  , Y  L  

Quello che vogliamo fare è stimare i parametri m0 , m1 della legge di variazione

dove si è indicato con    m0 m1  il vettore dei parametri incogniti. Si può determinare 

mediante la stima dei minimi quadrati

Se il valor medio ha un andamento più generale del precedente, possiamo pensare di

Una successiva generalizzazione rispetto al caso precedente consiste nel considerare la

Questo metodo di stima si deve adottare quando l’incognita  non è un parametro

 MULE  arg max p(Y ,  )

p(Y , )  p(Y |  ) p( )

 MULE  arg max ln p(Y ,  )  arg max  ln p(Y |  )  ln p( ) 

Validazione delle stime

Da ultimo si può verificare la bianchezza della sequenza mediante il test di bianchezza di

Potrebbero piacerti anche