Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
MASSIMIZZAZIONE DELLA
VEROSIMIGLIANZA:
PROBLEMATICHE E METODI
Indice
3 Modelli
Regressione logistica
Iterative Reweighted Least Squares
Regressione extreme-value
Perché massimizzare la verosimiglianza?
I metodi line search
Modelli
Riferimenti bibliografici:
libro di riferimento del corso: [GH05];
verosimiglianza: [CB01];
ottimizzazione numerica: [NW99] e [FF09];
metodo del gradiente di Barzilai e Borwein: [Ray97];
iterative reweighted least squares: [Bjö96].
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli
La funzione di verosimiglianza
Definition
Sia fX (x; θ) la densitá congiunta del campione X = (X1 , ..., Xn ). Dato il
vettore di realizzazioni X = x, si dice funzione di verosimiglianza la
funzione di θ
L(θ; x) = fX (x; θ).
Q100 xi2
Nel caso precedente, L(θ; x) = L(σ; (x1 , ..., x100 )) = √ 1
i=1 2πσ 2 e e si
σ2
trova
Definizione
Si dice stima di massima verosimiglianza il valore θ̂(x) che massimizza la
funzione di verosimiglianza L(θ; x). θ̂(X) é detto stimatore di massima
verosimiglianza (MLE).
Alcune proprietá - 1
Proprietá di invarianza
Se θ̂ é lo stimatore di massima verosimiglianza di θ, per ogni funzione
τ (θ) (anche non invertibile!) τ (θ̂) é lo stimatore di massima
verosimiglianza di τ (θ).
Proprietá di consistenza
Sia X1 , ..., Xn un campione di v.a. i.i.d con densitá f (x; θ). Sotto
opportune condizioni di regolaritá per f (x; θ), ∀ > 0 e ∀θ ∈ Θ
Alcune proprietá - 2
Disuguaglianza di Cramér-Rao
Siano X = (X1 , ..., Xn ) un campione casuale con densitá f (x; θ) e θ̂(X)
uno stimatore non distorto di θ (E[θ̂(X); θ] = θ) a varianza finita che
soddisfa Z
d ∂
E[θ̂(X); θ] = [θ̂(X)f (x; θ)]dx.
dθ Ω ∂θ
Allora
Var [θ̂(X); θ] ≥ I−1 (θ),
con I matrice di informazione di Fisher di elementi
∂ ∂
Iij (θ) = E[ ∂θ i
log f (x; θ) ∂θ j
log f (x; θ)].
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli
Alcune proprietá - 3
Normalitá asintotica
Siano X1 , ..., Xn un campione di v.a. i.i.d con densitá f (x; θ), θ̂ lo
stimatore di massima verosimiglianza di θ e τ (θ) una funzione continua
di θ. Sotto opportune condizioni di regolaritá per f (x; θ), vale
√ L
→ N(0, I−1
n[τ (θ̂) − τ (θ)] − n (θ)),
Minimizzazione in Rd
u = argmin J (v) .
v∈Rd
Minimizzazione in Rd
u = argmin J (v) .
v∈Rd
Direzione di discesa
Ordine di convergenza
kuk+1 − uk
lim q ≤C .
k→∞ kuk − uk
kuk+1 − uk
lim = 0,
k→∞ kuk − uk
La scelta di αk
Tuttavia questa scelta risulta piuttosto onerosa. Infatti nei metodi di line
search ad ogni passo mi muovo su delle rette e non globalmente,
scegliamo quindi un approccio più semplice.
La scelta di αk deve essere tale che
1
La scelta di αk
Tuttavia questa scelta risulta piuttosto onerosa. Infatti nei metodi di line
search ad ogni passo mi muovo su delle rette e non globalmente,
scegliamo quindi un approccio più semplice.
La scelta di αk deve essere tale che
1
Proposizione:
Sia dk una direzione di discesa partendo dal punto uk per una funzione
differenziabile con continuità J . Assumiamo che la funzione
J (uk + αdk ) è limitata dal basso per ogni α.
Allora, se 0 < c1 < c2 < 1, esistono α2 > α1 > 0 tale che le condizioni di
Wolfe sono soddisfatte per ogni αk ∈ (α1 , α2 ).
Proposizione:
Sia dk una direzione di discesa partendo dal punto uk per una funzione
differenziabile con continuità J . Assumiamo che la funzione
J (uk + αdk ) è limitata dal basso per ogni α.
Allora, se 0 < c1 < c2 < 1, esistono α2 > α1 > 0 tale che le condizioni di
Wolfe sono soddisfatte per ogni αk ∈ (α1 , α2 ).
La scelta di αk
Consideriamo l’algoritmo di line search, in cui dk è una direzione di
discesa e αk soddisfa le condizioni di Wolfe. Assumiamo che J (u) ≥ β,
∀u ∈ L , per un certo β ∈ R e L = {u|J (u) ≤ J (u0 )}, e che esiste
L > 0 tale che
Considerazioni “pratiche”
Velocità di Convergenza
Supponiamo che J : Rn → R sia differenziabile con continuità due volte
e che la successione {uk } generata dal metodo del gradiente converga a
u∗ con ∇2 J (u∗ ) definita positiva. Allora
2
λn − λ1
J (uk+1 ) − J (u∗ ) 6 [J (uk ) − J (u∗ )]
λn + λ1
Metodo Barzilai-Borwein
r (u) = ∇Φ(u) = Au − b = 0.
2 uk+1 = uk + αk dk
3 r (uk+1 ) = r (uk ) + αk dk
r (u )T r (u )
4 βk+1 = rk+1 k+1
(uk )T r (uk )
5 dk+1 = −r (uk+1 ) + βk+1 dk
6 aggiornare k = k + 1
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton
PCG
(C −T AC −1 )û = C −T b
PCG
(C −T AC −1 )û = C −T b
Convergenza
Per avere garanzia che dk+1 sia direzione di discesa, deve valere
Convergenza Globale
Allora
lim inf k∇J (uk )k = 0
k→∞
Velocità di Convergenza
FR-CG vs PR-CG
Questo è dovuto al fatto che le direzioni che si ottengono con FR-CG non
sono sempre ben direzionate e c’è perciò il rischio di incorrere in
situazioni di ristagno.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton
Il metodo di Newton
∇J (uk ) + ∇2 J (uk ) (u − uk ) = 0 .
Il metodo di Newton
Questa relazione vale per variabili aleatorie, mentre nel caso campionario
è soddisfatta solo al limite. Tuttavia permette di ottenere una
approssimazione della hessiana di l, utilizzabile dal metodo di Newton.
Il metodo di Fisher scoring risulta
h T i−1
θ k+1 = θ k + ∇l θ k ∇l θ k ∇l θ k
.
I metodi quasi-Newton
Hk dk = −∇J (uk ) ,
lim
Hk − ∇2 J (uk )
= 0 .
k→∞
I metodi quasi-Newton
Supponiamo di avere, al passo k, i valori di uk , Bk e
uk+1 = uk − αk Bk ∇J (uk ), vogliamo calcolare una nuova Bk+1 . Per
farlo introduciamo un’approssimazione quadratica di J nell’intorno di
uk+1
1
mk+1 (s) = J (uk+1 ) + (∇J (uk+1 ) , s) + (s, Hk+1 s) ,
2
con s = uk+1 − uk . Imponiamo che il gradiente di mk+1 sia uguale al
gradiente di J in uk+1 e uk . La prima è automaticamente soddisfatta
per costruzione, dato che ∇mk+1 (0) = ∇J (uk+1 ). La seconda è
soddisfatta se poniamo
sk = uk+1 − uk , yk = ∇J (uk+1 ) − ∇J (uk ) ,
e richiediamo che
Hk+1 sk = yk , ovvero Bk+1 yk = sk . (2)
L’ultima condizione è detta equazione della secante, verificata se
(yk , sk ) > 0.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton
dove
1
ρk = , [yk ⊗ sk ]ij = [yk ]i [sk ]j .
(yk , sk )
Bk y k y T
k Bk sk sT
k
Bk+1 = Bk − + .
yT
k B k y k y Ts
k k
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton
Esiste una versione modificata del metodo BFGS adatta per problemi di
grande dimensione, che permette di gestire l’occupazione di memoria
molto elevata. Tale metodo viene detto L-BFGS.
(0)
Nei metodo quasi-Newton si sceglie solitamente αk = 1 per l’algoritmo
di backtracking.
Osservazioni computazionali suggeriscono di utilizzare un line search
poco accurato, solitamente si scelgono c1 = 10−4 e c2 = 0.9.
Una possibile scelta di B0 è porre B0 = γI, tuttavia un valore per γ
coerente risulta difficile da trovare. Una buona scelta è porre γ = 1 e
modificare la scelta di B1 prendendo
(y0 , s0 )
B1 = 2 I.
ky0 k
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value
Regressione logistica
Verosimiglianza:
n
Y
L(α, β; y) = π(xi )yi [1 − π(xi )]1−yi .
i=1
Log-verosimiglianza:
n
X
l(α, β; y) = log [L(α, β; y)] = [yi (α + βxi ) − log (1 + e α+βxi )]
i=1
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value
n
e α+βxi
∂l X
= yi −
∂α 1 + e α+βxi
i=1
n
e α+βxi
∂l X
= yi − xi
∂β 1 + e α+βxi
i=1
Forma Matriciale di ∇l
∇l(β) = Z (y − π) = 0
βk+1 = βk + (Z T Wk Z )−1 Z T (y − πk )
dove W = diag(π).
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value
Ponendo ek = Wk−1 (y − πk )
5 aggiornare βk+1 = βk + p
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value
Regressione extreme-value
1 y −µ −e y −µ
σ
fY (y ; µ, σ) = e σ .
σ
Verosimiglianza:
( n )
1 X yi − ν0 − ν1 xi yi − ν0 − ν1 xi
exp − exp
σn σ σ
i=1
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value
Åke Björck.
Numerical Method for Least Square Problems.
SIAM, 1996.
Marcos Raydan.
The Barzilai and Borwein gradient method for the large scale unconstrained
minimization problem.
SIAM J. Optim., 7(1):26–33, 1997.