264 Presentazione

Perché massimizzare la verosimiglianza?
I metodi line search

Modelli
MASSIMIZZAZIONE DELLA
VEROSIMIGLIANZA:
PROBLEMATICHE E METODI
Stefano Baraldo 754107

Alessio Fumagalli 738811
Alessandro Melani 753399
Presentazione per il corso di Metodi computazionali per la statistica.

Modelli
Indice
1 Perché massimizzare la verosimiglianza?

Qualche considerazione euristica
La funzione di verosimiglianza
2 I metodi line search

Metodo del Gradiente
Metodo del Gradiente Coniugato
Il metodo di Newton
I metodi quasi-Newton
3 Modelli
Regressione logistica
Iterative Reweighted Least Squares
Regressione extreme-value
Modelli
Riferimenti bibliografici:
libro di riferimento del corso: [GH05];
verosimiglianza: [CB01];
ottimizzazione numerica: [NW99] e [FF09];
metodo del gradiente di Barzilai e Borwein: [Ray97];
iterative reweighted least squares: [Bjö96].
Modelli

Sia X1 , ..., X100 un campione casuale di variabili aleatorie di i.i.d con legge
N(0, σ 2 ), con varianza ignota. Date le realizzazioni (x1 , ..., x100 ), qual é il
valore di σ 2 che adatta meglio la N(0, σ 2 ) ai dati?
Modelli
Definition
Sia fX (x; θ) la densitá congiunta del campione X = (X1 , ..., Xn ). Dato il
vettore di realizzazioni X = x, si dice funzione di verosimiglianza la
funzione di θ
L(θ; x) = fX (x; θ).
Q100 xi2
Nel caso precedente, L(θ; x) = L(σ; (x1 , ..., x100 )) = √ 1
i=1 2πσ 2 e e si
σ2
trova
log [L(2.5, x)] = −192.0724

log [L(0.8, x)] = −153.0703
log [L(1, x)] = −145.3280
Modelli
Se X é un vettore aleatorio discreto, L(θ; x) = Pθ (X = x). In tal caso il

confronto tra valori della verosimiglianza ha un significato ancora piú
chiaro:
Pθ1 (X = x) = L(θ1 ; x) > L(θ2 ; x) = Pθ2 (X = x)
significa che é piú probabile (o meglio, verosimile) che le realizzazioni x
siano state generate da una variabile aleatoria con legge di parametro
θ = θ1 .
Cercare il valore di θ che massimizza la verosimiglianza é quindi un
principio molto ragionevole per stimare i parametri di una distribuzione.
Modelli
Definizione
Si dice stima di massima verosimiglianza il valore θ̂(x) che massimizza la
funzione di verosimiglianza L(θ; x). θ̂(X) é detto stimatore di massima
verosimiglianza (MLE).
L’effettuazione di stime di massima verosimiglianza, per quanto

concettualmente chiara, presenta alcuni problemi pratici:
E’ necessario verificare che il massimo trovato sia un massimo
globale: potrebbero esserci piú massimi locali, oppure il massimo
potrebbe trovarsi sulla frontiera del dominio di L(θ; x).
La stima potrebbe essere molto sensibile ai dati.
Modelli
Alcune proprietá - 1
Proprietá di invarianza
Se θ̂ é lo stimatore di massima verosimiglianza di θ, per ogni funzione
τ (θ) (anche non invertibile!) τ (θ̂) é lo stimatore di massima
verosimiglianza di τ (θ).
Proprietá di consistenza
Sia X1 , ..., Xn un campione di v.a. i.i.d con densitá f (x; θ). Sotto
opportune condizioni di regolaritá per f (x; θ), ∀ > 0 e ∀θ ∈ Θ
lim Pθ (|τ (θ̂) − τ (θ)| ≥ ) = 0.

n→∞
Modelli
Disuguaglianza di Cramér-Rao
Siano X = (X1 , ..., Xn ) un campione casuale con densitá f (x; θ) e θ̂(X)
uno stimatore non distorto di θ (E[θ̂(X); θ] = θ) a varianza finita che
soddisfa Z
d ∂
E[θ̂(X); θ] = [θ̂(X)f (x; θ)]dx.
dθ Ω ∂θ
Allora
Var [θ̂(X); θ] ≥ I−1 (θ),
con I matrice di informazione di Fisher di elementi
∂ ∂
Iij (θ) = E[ ∂θ i
log f (x; θ) ∂θ j
log f (x; θ)].
Modelli
Normalitá asintotica
Siano X1 , ..., Xn un campione di v.a. i.i.d con densitá f (x; θ), θ̂ lo
stimatore di massima verosimiglianza di θ e τ (θ) una funzione continua
di θ. Sotto opportune condizioni di regolaritá per f (x; θ), vale
√ L
→ N(0, I−1
n[τ (θ̂) − τ (θ)] − n (θ)),
dove In (θ) é la matrice di informazione di Fisher.
Attenzione alla notazione impropria per la convergenza!

Il metodo di Newton
Modelli
Minimizzazione in Rd
Siamo interessati alla ricerca di minimi, possibilmente globali, u di una

funzione regolare J in Rd , ovvero
u = argmin J (v) .
v∈Rd
Tale ricerca risulta molto difficile da risolvere analiticamente per J

generica e, soprattutto, per d grande. Vengono quindi utilizzati degli
algoritmi numerici per approssimare i minimi.
Tratteremo una classe molto famosa di algoritmi di ricerca i line search
methods, che semplificano la ricerca dell’ottimo in Rd a una successione
di ricerche di minimi direzionali, o di loro approssimazioni, in R.
Il metodo di Newton
Modelli
Minimizzazione in Rd
Siamo interessati alla ricerca di minimi, possibilmente globali, u di una

funzione regolare J in Rd , ovvero
u = argmin J (v) .
v∈Rd
Tale ricerca risulta molto difficile da risolvere analiticamente per J

generica e, soprattutto, per d grande. Vengono quindi utilizzati degli
algoritmi numerici per approssimare i minimi.
Tratteremo una classe molto famosa di algoritmi di ricerca i line search
methods, che semplificano la ricerca dell’ottimo in Rd a una successione
di ricerche di minimi direzionali, o di loro approssimazioni, in R.
Il metodo di Newton
Modelli
Direzione di discesa
Dato un punto uk ∈ Rd una direzione dk ∈ Rd è di discesa se ∃δ > 0

tale che
J (uk + αdk ) < J (uk ) , ∀α ∈ (0, δ) .
Se J è differenziabile con continuità allora dk è di discesa, nel punto uk ,

se e solo se
(∇J (uk ) , dk ) < 0 ,
ovvero se la direzione di discesa dk risulta
dk = −Bk ∇J (uk ) , (1)
dove Bk ∈ Rd×d è una matrice simmetrica e definita positiva.

Il metodo di Newton
Modelli
L’algoritmo di line search
Dato un punto iniziale u0 ∈ Rd e due costanti positive u < J , per

k = 0, 1, . . .
1 determinare una direzione di discesa dk ;
2 determinare la lunghezza del passo αk ;
3 aggiornare uk+1 = uk + αk dk ;
4 verifica della convergenza dell’algoritmo, ovvero se
kuk+1 − uk k ≤ u , e k∇J (uk+1 )k ≤ J ,
allora l’algoritmo si ferma, altrimenti ritorna al punto 1.
Gli ingredienti principali per un algoritmo di line search sono quindi la

direzione di discesa dk , ovvero la matrice Bk , e l’ampiezza del passo αk .
Scelte diverse di Bk e di αk conducono a diversi algoritmi con diverse
proprietà.
Il metodo di Newton
Modelli
L’algoritmo di line search
Dato un punto iniziale u0 ∈ Rd e due costanti positive u < J , per

k = 0, 1, . . .
1 determinare una direzione di discesa dk ;
2 determinare la lunghezza del passo αk ;
3 aggiornare uk+1 = uk + αk dk ;
4 verifica della convergenza dell’algoritmo, ovvero se
kuk+1 − uk k ≤ u , e k∇J (uk+1 )k ≤ J ,
allora l’algoritmo si ferma, altrimenti ritorna al punto 1.
Gli ingredienti principali per un algoritmo di line search sono quindi la

direzione di discesa dk , ovvero la matrice Bk , e l’ampiezza del passo αk .
Scelte diverse di Bk e di αk conducono a diversi algoritmi con diverse
proprietà.
Il metodo di Newton
Modelli
Ordine di convergenza
Diremo che una successione {uk }N è convergente di ordine q ≥ 1 a u se
kuk+1 − uk
lim q ≤C .
k→∞ kuk − uk
Per p = 1 richiediamo inoltre che C < 1, inoltre se
kuk+1 − uk
lim = 0,
k→∞ kuk − uk
diremo che la convergenza è super-lineare.

Nel caso in considerazione la successione {uk }N è generata da un
algoritmo di line search.
Il metodo di Newton
Modelli
La scelta di αk
In principio la scelta di αk deve essere tale che
αk = argmin J (uk + αdk ) .

α∈R+
Tuttavia questa scelta risulta piuttosto onerosa. Infatti nei metodi di line
search ad ogni passo mi muovo su delle rette e non globalmente,
scegliamo quindi un approccio più semplice.
La scelta di αk deve essere tale che
1
J (uk+1 ) < J (uk ) ;
2 l’algoritmo di line search deve convergere ad una soluzione del

problema.
Il metodo di Newton
Modelli
La scelta di αk
In principio la scelta di αk deve essere tale che
αk = argmin J (uk + αdk ) .

α∈R+
Tuttavia questa scelta risulta piuttosto onerosa. Infatti nei metodi di line
search ad ogni passo mi muovo su delle rette e non globalmente,
scegliamo quindi un approccio più semplice.
La scelta di αk deve essere tale che
1
J (uk+1 ) < J (uk ) ;
2 l’algoritmo di line search deve convergere ad una soluzione del

problema.
Il metodo di Newton
Modelli
La scelta di αk , le condizioni di Wolfe
Vi sono alcune condizioni che garantiscono le richieste fatte per αk , in

particolare
1 Condizione di decrescita sufficiente o regola di Armijo:
J (uk + αk dk ) ≤ J (uk ) + c1 αk (∇J (uk ) , dk ) ,
per c1 ∈ (0, 1). Richiede una decrescita “sufficiente” del valore di J .

Essendo αk (∇J (uk ) , dk ) < 0, questa proprietà implica che
J (uk + αk dk ) deve stare sotto la linea
l(α) = J (uk ) + c1 α (∇J (uk ) , dk ) .

Il metodo di Newton
Modelli
Figura: Limitazione sulla scelta di αk dovuta alla condizione di decrescita

sufficiente.
Il metodo di Newton
Modelli

2 Condizione di curvatura:
(∇J (uk + αk dk ) , dk ) ≥ c2 (∇J (uk ) , dk ) , per c2 ∈ (c1 , 1) .
Figura: Limitazione sulla scelta di αk dovuta alla condizione di curvatura.

Il metodo di Newton
Modelli

Le due condizioni precedenti vengono dette condizioni di Wolfe (deboli).
Considerando le condizioni di Wolfe, per l’esempio grafico, gli intervalli in
cui è possibile la scelta di αk risultano
Figura: Limitazione sulla scelta di αk dovuta alle condizioni di Wolfe.

Il metodo di Newton
Modelli
Proposizione:
Sia dk una direzione di discesa partendo dal punto uk per una funzione
differenziabile con continuità J . Assumiamo che la funzione
J (uk + αdk ) è limitata dal basso per ogni α.
Allora, se 0 < c1 < c2 < 1, esistono α2 > α1 > 0 tale che le condizioni di
Wolfe sono soddisfatte per ogni αk ∈ (α1 , α2 ).
Esistono delle condizioni, dette di Goldstein, che non richiedono la

conoscenza del gradiente di J se non nel punto uk . Vengono ricavate
dalla condizione di curvatura approssimando ∇J (uk+1 ) con il rapporto
incrementale
J (uk + αk dk ) − J (uk )
∇J (uk+1 ) ≈ .
αk
Il metodo di Newton
Modelli
Proposizione:
Sia dk una direzione di discesa partendo dal punto uk per una funzione
differenziabile con continuità J . Assumiamo che la funzione
J (uk + αdk ) è limitata dal basso per ogni α.
Allora, se 0 < c1 < c2 < 1, esistono α2 > α1 > 0 tale che le condizioni di
Wolfe sono soddisfatte per ogni αk ∈ (α1 , α2 ).
Esistono delle condizioni, dette di Goldstein, che non richiedono la

conoscenza del gradiente di J se non nel punto uk . Vengono ricavate
dalla condizione di curvatura approssimando ∇J (uk+1 ) con il rapporto
incrementale
J (uk + αk dk ) − J (uk )
∇J (uk+1 ) ≈ .
αk
Il metodo di Newton
Modelli
La scelta di αk
Consideriamo l’algoritmo di line search, in cui dk è una direzione di
discesa e αk soddisfa le condizioni di Wolfe. Assumiamo che J (u) ≥ β,
∀u ∈ L , per un certo β ∈ R e L = {u|J (u) ≤ J (u0 )}, e che esiste
L > 0 tale che
k∇J (u) − ∇J (v)k ≤ L ku − vk , ∀u, v ∈ L ,
ovvero il gradiente di J è uniformemente Lipschitz continuo in L .

Assumiamo inoltre che l’angolo tra il gradiente di J e la direzione di
discesa dk è diverso da π/2, ovvero esiste δ > 0 tale che
− (∇J (uk ) , dk ) ≥ δ k∇J (uk )k kdk k .
Allora, l’algoritmo di line search converge ad un punto critico di J
lim k∇J (uk )k = 0 .

k→∞
Il metodo di Newton
Modelli
Considerazioni “pratiche”
Nella pratica, solitamente c1 viene scelto piuttosto piccolo (e.g.

c1 = 10−3 ), mentre c2 viene scelto tra 0.4 e 0.5. In ogni caso c1 < 0.5, in
modo da non escludere il minimizzante nel caso in cui J sia quadratico.
Per la direzione di discesa dk , della forma (1) e con Bk simmetrica e
definita positiva, la condizione sull’angolo richiesta nella slide precedente
è verificata se il numero di condizionamento di Bk è uniformemente
limitato.
La condizione sulla curvatura potrebbe essere piuttosto onerosa da
verificare in pratica, dato il calcolo del gradiente di J per ogni valore di
tentativo di α. Quindi si richiede solo il soddisfacimento della condizione
di Armijo o l’utilizzo delle condizioni di Goldstein.
Il metodo di Newton
Modelli
Algoritmo di backtracking per il calcolo di αk

L’algoritmo di backtracking serve per il calcolo del passo di avanzamento
(0)
αk . Parte da un valore di tentativo iniziale αk e, se non soddisfa la
(1) (0)
condizione di Armijo, si sceglie αk < αk , ripetendo la procedura
(i)
ricorsivamente fino a che non si trova un certo αk che soddisfa la regola
di Armijo.
La versione più semplice di tale algoritmo è scegliere
(k) (k−1)
αk = ραk per ρ ∈ (0, 1) .
(k)
Tuttavia ha senso richiedere che αk non diventi troppo piccolo o troppo
(k)
grande. Si introducono quindi 0 < β − ≤ β + < 1 e si seleziona αk come
segue
h i
(k) (k−1) (k−1)
αk ∈ β − αk , β + αk .
(0)
La scelta di αk dipende dalla scelta della matrice Bk , ovvero dal metodo
scelto.
Il metodo di Newton
Modelli
La direzione dell’antigradiente −∇J è la più ovvia scelta come direzione

di discesa.
Infatti, esplicitando la serie di Taylor di J :
J (u + p) = J (u) + pT ∇J (u) + o(kpk)
è chiaro che la direzione di −∇J è quella che realizza
arg min pT ∇J (u)

kpk=1
cioè quella di più ripida discesa.

Il metodo di Newton
Modelli
Proprietà del Metodo del Gradiente
Velocità di Convergenza
Supponiamo che J : Rn → R sia differenziabile con continuità due volte
e che la successione {uk } generata dal metodo del gradiente converga a
u∗ con ∇2 J (u∗ ) definita positiva. Allora
2
λn − λ1
J (uk+1 ) − J (u∗ ) 6 [J (uk ) − J (u∗ )]
λn + λ1
dove λ1 6 · · · 6 λn sono gli autovalori di ∇2 J (u∗ ).

Il metodo di Newton
Modelli
Metodo Barzilai-Borwein
Il metodo di Barzilai-Borwein è una variante del metodo del gradiente in

cui
(uk − uk−1 )T (∇J (uk ) − ∇J (uk−1 ))
αk =
(uk − uk−1 )T (uk − uk−1 )
e si applica una strategia di linesearch non monotona, cioè si accetta la
nuova iterata uk+1 se viene soddisfatta la condizione
J (uk+1 ) 6 max J (uk−j ) + γ∇J (uk )T (uk+1 − uk )

06i6M
con M intero non negativo e γ piccolo e positivo.
Questo metodo ha convergenza più veloce del metodo del gradiente e ha

un costo computazionale molto ridotto.
Il metodo di Newton
Modelli
Richiami sul Caso Quadratico
Consideriamo un problema di minimizzare una funzione quadratica, cioé

della forma:
1
Φ(u) = uT Au − b T u,
2
n×n
con A ∈ R definita positiva.
Notiamo che è equivalente a risolvere il sistema lineare
r (u) = ∇Φ(u) = Au − b = 0.
Si dice che un insieme di direzioni {d0 , . . . , dl } si dice A-coniugato se

vale la relazione
dTi Adj = 0 ∀i 6= j.
Il metodo di Newton
Modelli
Algoritmo del Gradiente Coniugato Lineare
Dato un punto iniziale u ∈ Rn e una costanti positiva :

1 calcolare r (u0 ) = Au0 − b
2 porre d0 = −r (u0 ) e k = 0
3 finchè kr (uk )k >
T
1 αk = r (udkk) Adr (u
k
k)
2 uk+1 = uk + αk dk
3 r (uk+1 ) = r (uk ) + αk dk
r (u )T r (u )
4 βk+1 = rk+1 k+1
(uk )T r (uk )
5 dk+1 = −r (uk+1 ) + βk+1 dk
6 aggiornare k = k + 1
Il metodo di Newton
Modelli
Il metodo del gradiente coniugato converge in al più n iterazioni a u∗ ,

minimo della funzione quadratica Φ e, per ogni iterata k = 0, 1 . . . , vale
p
∗ K (A) − 1
kuk+1 − u kA 6 p kuk − u∗ kA
K (A) + 1
Inoltre si può dimostrare che più gli autovalori sono clusterizzati,

maggiore è la velocità di convergenza
PCG
Si risolve cioè il problema equivalente
(C −T AC −1 )û = C −T b
dove û = C −T u e C ≈ A ed ha proprietà computazionali migliori.

Il metodo di Newton
Modelli
Il metodo del gradiente coniugato converge in al più n iterazioni a u∗ ,

minimo della funzione quadratica Φ e, per ogni iterata k = 0, 1 . . . , vale
p
∗ K (A) − 1
kuk+1 − u kA 6 p kuk − u∗ kA
K (A) + 1
Inoltre si può dimostrare che più gli autovalori sono clusterizzati,

maggiore è la velocità di convergenza
PCG
Si risolve cioè il problema equivalente
(C −T AC −1 )û = C −T b
dove û = C −T u e C ≈ A ed ha proprietà computazionali migliori.

Il metodo di Newton
Modelli
Gradiente Coniugato Non Lineare
Dato un punto iniziale u ∈ Rn e due costanti positive u e J :

1 porre d0 = −∇J (u0 ) e k = 0
2 finchè k∇J (uk )k > J e kuk − uk−1 k > u (per k > 0):
1 calcolare αk
2 uk+1 = uk + αk dk
3 calcolare βk+1
4 dk+1 = −∇J (uk+1 ) + βk+1 dk
5 aggiornare k = k + 1
In base alla scelta di βk+1 si ottengono metodi con caratteristiche diverse:
k∇J (uk+1 )k2
(
FR
βk+1 = k∇J (uk )k2 Fletcher-Reeves o FR-CG
βk+1 = ∇J (uk+1 )T (∇J (uk+1 )−∇J (uk ))
PR
βk+1 = k∇J (uk )k2 Polak-Ribière o PR-CG
Il metodo di Newton
Modelli
Convergenza
Per avere garanzia che dk+1 sia direzione di discesa, deve valere
∇J (uk+1 )T dk+1 = −∇J (uk+1 )T ∇J (uk+1 ) + βk+1 ∇J (uk+1 )T dk < 0
Bisogna porre attenzione sulla minimizzazione unidimensionale: se faccio

line-search esatta, ho sempre garanzia che dk+1 sia di discesa.
Invece facendo linesearch inesatta:

scegliendo αk che soddisfa le condizioni di Wolfe forti, si può
dimostrare il metodo FR-CG individua direzioni di discesa;
per il metodo PR-CG, non si può dimostrare nessun risultato
analogo;
vale un risultato simile (con condizioni di Wolfe opportunamente
PR+ PR
modificate), per la scelta βk+1 = max{0, βk+1 }.
Il metodo di Newton
Modelli
Convergenza Globale
Supponiamo di implementare il metodo FR-CG, usando un passo αk tale

da soddisfare le condizioni di Wolfe forti. Inoltre sia l’insieme di livello
L = {u : J (u) 6 J (u)} limitato e in L , il gradiente ∇J sia
Lipschitziano cioè ∃L > 0 tale che
kJ (u1 ) − J (u2 )k 6 Lku1 − u2 k, ∀u1 , u2 ∈ L .
Allora
lim inf k∇J (uk )k = 0
k→∞
Per il metodo PR-CG, non si può dimostrare nessun risultato analogo,

PR+ PR
mentre vale per la scelta βk+1 = max{0, βk+1 }.
Il metodo di Newton
Modelli
Velocità di Convergenza
Si può dimostrare che il metodo del gradiente coniugato, con una

strategia di linesearch esatta, ha velocità lineare (Crowder, Wolfe, 1972) ,
cioé che
kuk+1 − u∗ k = O(kuk − u∗ k).
Il metodo di Newton
Modelli
FR-CG vs PR-CG
Anche se FR-CG ha migliori proprietà teoriche di convergenza,

sperimentalmente si osserva che PR-CG ha prestazioni migliori.
Questo è dovuto al fatto che le direzioni che si ottengono con FR-CG non
sono sempre ben direzionate e c’è perciò il rischio di incorrere in
situazioni di ristagno.
Il metodo di Newton
Modelli
Il metodo di Newton
Consideriamo J di classe C 2 . Il metodo di Newton consiste nel porre la

matrice di iterazione Bk pari all’hessiana di J in uk e scegliere αk = 1.
Si ottiene quindi lo schema
uk+1 = uk − ∇2 J (uk ) ∇J (uk ) .
Tale metodo deriva dall’approssimare J mediante la serie di Taylor,

intorno a uk , troncata al secondo ordine
1
J (u) ≈ J (uk ) + ∇J (uk ) (u − uk ) + (u − uk ) ∇2 J (uk ) (u − uk ) ,
2
imponendo le condizioni di ottimalità per l’approssimante otteniamo
∇J (uk ) + ∇2 J (uk ) (u − uk ) = 0 .
Il metodo di Newton si trova ponendo uk+1 = u.

Il metodo di Newton
Modelli
Il metodo di Newton
Indichiamo con u un minimo locale di J (eventualmente globale).

Supponiamo che J di classe C 2 , ∇2 J (u) definita positiva e esiste L > 0
tale che
2
∇ J (u) − ∇2 J (v) ≤ L ku − vk , ∀u, v ∈ N (u) ,

con N (u) intorno di u. Allora per u0 sufficientemente vicino a u il

metodo di Newton ha convergenza quadratica a u, inoltre
lim k∇J (uk )k = 0 , quadraticamente.

k→∞
Il metodo di Newton
Modelli
Il metodo di Newton: vantaggi e svantaggi
Vantaggi del metodo di Newton

1 ordine di convergenza quadratico;
2 non necessita della ricerca di αk .
Svantaggi del metodo di Newton
1 a volte può essere difficile calcolare ∇2 J ;
2 se ∇2 J (uk ) è singolare il passo non è ben definito;
−1
3 se ∇2 J (uk ) non è definita positiva allora dk può non essere di
discesa;
4 anche se la direzione dk è di discesa, la condizione αk = 1 potrebbe
far aumentare il valore di J ;
5 può convergere verso massimi locali;
−1
6 il calcolo di ∇2 J (uk ) è molto dispendioso;
7 la convergenza è locale, ovvero solo se u0 è “vicino” a u.
Il metodo di Newton
Modelli
Il metodo di Fisher scoring

Il metodo di Fisher scoring è una variante del metodo di Newton,
particolarmente adatto per problemi di massima verosimiglianza. Infatti
unisce il metodo di Newton alla Fisher information matrix, cosı̀ definita
n o
T
= −E ∇2 l (θ) .

I (θ) = E ∇l (θ) ∇l (θ)
Questa relazione vale per variabili aleatorie, mentre nel caso campionario
è soddisfatta solo al limite. Tuttavia permette di ottenere una
approssimazione della hessiana di l, utilizzabile dal metodo di Newton.
Il metodo di Fisher scoring risulta
h T i−1
θ k+1 = θ k + ∇l θ k ∇l θ k ∇l θ k

.
Data l’approssimazione fatta tale metodo è del secondo ordine solo

asintoticamente. Solitamente, si utilizza il metodo di Fisher scoring nei
primi passi di avanzamento in modo da avvicinarsi rapidamente
all’ottimo, successivamente si utilizza il metodo di Newton classico per
ottenere una convergenza rapida all’ottimo.
Il metodo di Newton
Modelli
A causa delle numerosi svantaggi del metodo di Newton, principalmente

legati all’hessiana e alla convergenza locale, introduciamo i metodi
quasi-Newton in cui l’hessiana non viene calcolata ma approssimata.
Nei metodi quasi-Newton la direzione di discesa è calcolata risolvendo il
sistema lineare
Hk dk = −∇J (uk ) ,
per una certa Hk tale che
lim Hk − ∇2 J (uk ) = 0 .

k→∞
Vorremmo quindi determinare la matrice Bk , introdotta

precedentemente, tale che Bk = Hk−1 .
Il metodo di Newton
Modelli
Supponiamo di avere, al passo k, i valori di uk , Bk e
uk+1 = uk − αk Bk ∇J (uk ), vogliamo calcolare una nuova Bk+1 . Per
farlo introduciamo un’approssimazione quadratica di J nell’intorno di
uk+1
1
mk+1 (s) = J (uk+1 ) + (∇J (uk+1 ) , s) + (s, Hk+1 s) ,
2
con s = uk+1 − uk . Imponiamo che il gradiente di mk+1 sia uguale al
gradiente di J in uk+1 e uk . La prima è automaticamente soddisfatta
per costruzione, dato che ∇mk+1 (0) = ∇J (uk+1 ). La seconda è
soddisfatta se poniamo
sk = uk+1 − uk , yk = ∇J (uk+1 ) − ∇J (uk ) ,
e richiediamo che
Hk+1 sk = yk , ovvero Bk+1 yk = sk . (2)
L’ultima condizione è detta equazione della secante, verificata se
(yk , sk ) > 0.
Il metodo di Newton
Modelli
I metodi quasi-Newton: il metodo BFGS

L’equazione della secante (2) non identifica univocamente la nuova
matrice Bk+1 . L’idea che sta alla base del metodo BFGS è imporre che
Bk+1 risulti “vicino” a Bk . Per fare questo introduciamo il seguente
problema di minimizzazione vincolata

B = argmin kB − Bk kF ω ,
 k+1


B∈S
s.v. (3)


Bk+1 yk = sk ,

dove S è l’insieme delle matrici simmetriche e kBkF ω è la norma pesata

di Frobenius

kBkF ω = W1/2 BW1/2 ,

2
con W matrice generica simmetrica e definita positiva, inoltre l’inversa

verifica l’equazione della secante.
Il metodo di Newton
Modelli
Il problema di minimizzazione vincolata (3) ammette un’unica soluzione

indipendente dalla scelta di W
T
Bk+1 = (I − ρk yk ⊗ sk ) Bk (I − ρk yk ⊗ sk ) + ρk sk ⊗ sk ,
dove
1
ρk = , [yk ⊗ sk ]ij = [yk ]i [sk ]j .
(yk , sk )
Un modo alternativo di scrivere Bk+1 è il seguente
Bk y k y T
k Bk sk sT
k
Bk+1 = Bk − + .
yT
k B k y k y Ts
k k
Il metodo di Newton
Modelli
Sia J di classe C 2 , ed assumiamo che l’hessiana ∇2 J è Lipschitz

continua in un intorno N di un minimo semplice u. Sia u0 ∈ N e il
numero di condizionamento dell’hessiana uniformemente limitato in
L = {u|J (u) ≤ J (u0 )}. Allora la successione generata dall’algoritmo
BFGS, con αk che soddisfa le condizioni di Wolfe, converge a u
super-linearmente.
Il metodo di Newton
Modelli
I metodi quasi-Newton: considerazioni “pratiche”
Esiste una versione modificata del metodo BFGS adatta per problemi di
grande dimensione, che permette di gestire l’occupazione di memoria
molto elevata. Tale metodo viene detto L-BFGS.
(0)
Nei metodo quasi-Newton si sceglie solitamente αk = 1 per l’algoritmo
di backtracking.
Osservazioni computazionali suggeriscono di utilizzare un line search
poco accurato, solitamente si scelgono c1 = 10−4 e c2 = 0.9.
Una possibile scelta di B0 è porre B0 = γI, tuttavia un valore per γ
coerente risulta difficile da trovare. Una buona scelta è porre γ = 1 e
modificare la scelta di B1 prendendo
(y0 , s0 )
B1 = 2 I.
ky0 k
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value
Regressione logistica
Campione Y1 , ..., Yn , Yi ∼ Be(πi ) ∀i = 1, ..., n.

πi = π(xi ) = F (α + βxi ), con xi covariata (o vettore di covariate)
relativa all’i-esimo degli n soggetti.
e α+βx
Nel modello logistico, F (α + βx) = 1+e α+βx .
Verosimiglianza:
n
Y
L(α, β; y) = π(xi )yi [1 − π(xi )]1−yi .
i=1
Log-verosimiglianza:
n
X
l(α, β; y) = log [L(α, β; y)] = [yi (α + βxi ) − log (1 + e α+βxi )]
i=1
n
e α+βxi

∂l X
= yi −
∂α 1 + e α+βxi
i=1
n
e α+βxi

∂l X
= yi − xi
∂β 1 + e α+βxi
i=1
equazioni non lineari da risolvere!

la matrice hessiana non dipende da y
Forma Matriciale di ∇l
Notiamo che il sistema precedente può essere riscritto in forma matriciale:
∇l(β) = Z (y − π) = 0
dove β = (α, β1 , β2 )T , y = (y1 , . . . , yn )T , Z = [1, x1 , x2 ] e

π = (π1 , . . . , πn )T .
Possiamo pensare di applicare un metodo di Newton per trovare β,

ottenendo l’iterata
βk+1 = βk + (Z T Wk Z )−1 Z T (y − πk )
dove W = diag(π).
Iteratively Reweighted Least Squares
Ponendo ek = Wk−1 (y − πk )
pk = βk+1 − βk = (Z T Wk Z )−1 Z T (y − πk ) = (Z T Wk Z )−1 Z T Wk ek .
Notiamo che questo è il sistema delle equazioni normali associato al

problema ai minimi quadrati pesati
1/2
min kWk (Z pk − ek )k2
pk
Perciò trovare la stima di massima verosimiglianza equivale a risolvere

una successione di problemi ai minimi quadrati opportunamente pesati.
Iteratively Reweighted Least Squares: Algoritmo
Dato un punto iniziale β0 ∈ Rm e una costante positiva

1 Costruire la matrice Z = [1, x1 , . . . , xm ]
2 Finchè kpk k >
exp(Z βk )
1 calcolare πk = 1+exp(Z βk )
2 porre Wk = diag(πk )
3 calcolare ek
4 risolvere il problema ai minimi quadrati pesati
1/2
min kWk (Z p − ek )k2
p
5 aggiornare βk+1 = βk + p
Regressione extreme-value
Campione T1 , ..., Tn , Ti ∼ Weibull(α, λ) ∀i = 1, ..., n.

α
Densitá Weibull: fT (t; α, λ) = αλα t α−1 e −(λt) .
Con un cambio di variabili Yi = log (Ti ) e la riparametrizzazione
µ = −log (λ), σ = 1/α si trova
1 y −µ −e y −µ
σ
fY (y ; µ, σ) = e σ .
σ
La legge di Z = Y −µσ é nota come densitá Gumbel di tipo I (o legge dei

valori estremi). Imponendo un modello lineare µ(xi ) = ν0 + ν1 xi , dove xi
é una covariata relativa all’i-esimo di n soggetti, si trova il modello
seguente:
yi = ν0 + ν1 xi + σzi ∀i = 1, ..., n
Verosimiglianza:
( n )
1 X yi − ν0 − ν1 xi yi − ν0 − ν1 xi
exp − exp
σn σ σ
i=1
Åke Björck.
Numerical Method for Least Square Problems.
SIAM, 1996.
George Casella and Roger L. Berger.

Statistical Inference.
Duxburt Press, 2001.
Marco Fuhrman and Luca Formaggia.

Notes of the course on optimal control of pde, 2009.
Geof H. Givens and Jennifer A. Hoeting.

Computational Statistics.
John Wiley & Sons, 2005.
Jorge Nocedal and Stephen J. Wright.

Numerical Optimization.
Operations Research. Springer, 1999.
Marcos Raydan.
The Barzilai and Borwein gradient method for the large scale unconstrained
minimization problem.
SIAM J. Optim., 7(1):26–33, 1997.

264 Presentazione

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

264 Presentazione

Caricato da

Copyright:

Formati disponibili

Perché massimizzare la verosimiglianza?

I metodi line search

Stefano Baraldo 754107

Presentazione per il corso di Metodi computazionali per la statistica.

1 Perché massimizzare la verosimiglianza?

2 I metodi line search

Qualche considerazione euristica

log [L(2.5, x)] = −192.0724

Se X é un vettore aleatorio discreto, L(θ; x) = Pθ (X = x). In tal caso il

L’effettuazione di stime di massima verosimiglianza, per quanto

lim Pθ (|τ (θ̂) − τ (θ)| ≥ ) = 0.

dove In (θ) é la matrice di informazione di Fisher.

Attenzione alla notazione impropria per la convergenza!

Siamo interessati alla ricerca di minimi, possibilmente globali, u di una

Tale ricerca risulta molto difficile da risolvere analiticamente per J

Siamo interessati alla ricerca di minimi, possibilmente globali, u di una

Tale ricerca risulta molto difficile da risolvere analiticamente per J

Dato un punto uk ∈ Rd una direzione dk ∈ Rd è di discesa se ∃δ > 0

J (uk + αdk ) < J (uk ) , ∀α ∈ (0, δ) .

Se J è differenziabile con continuità allora dk è di discesa, nel punto uk ,

(∇J (uk ) , dk ) < 0 ,

ovvero se la direzione di discesa dk risulta

dk = −Bk ∇J (uk ) , (1)

dove Bk ∈ Rd×d è una matrice simmetrica e definita positiva.

L’algoritmo di line search

Dato un punto iniziale u0 ∈ Rd e due costanti positive u < J , per

kuk+1 − uk k ≤ u , e k∇J (uk+1 )k ≤ J ,

allora l’algoritmo si ferma, altrimenti ritorna al punto 1.

Gli ingredienti principali per un algoritmo di line search sono quindi la

L’algoritmo di line search

Dato un punto iniziale u0 ∈ Rd e due costanti positive u < J , per

kuk+1 − uk k ≤ u , e k∇J (uk+1 )k ≤ J ,

allora l’algoritmo si ferma, altrimenti ritorna al punto 1.

Gli ingredienti principali per un algoritmo di line search sono quindi la

Diremo che una successione {uk }N è convergente di ordine q ≥ 1 a u se

Per p = 1 richiediamo inoltre che C < 1, inoltre se

diremo che la convergenza è super-lineare.

In principio la scelta di αk deve essere tale che

αk = argmin J (uk + αdk ) .

J (uk+1 ) < J (uk ) ;

2 l’algoritmo di line search deve convergere ad una soluzione del

In principio la scelta di αk deve essere tale che

αk = argmin J (uk + αdk ) .

J (uk+1 ) < J (uk ) ;

2 l’algoritmo di line search deve convergere ad una soluzione del

La scelta di αk , le condizioni di Wolfe

Vi sono alcune condizioni che garantiscono le richieste fatte per αk , in

J (uk + αk dk ) ≤ J (uk ) + c1 αk (∇J (uk ) , dk ) ,

per c1 ∈ (0, 1). Richiede una decrescita “sufficiente” del valore di J .

l(α) = J (uk ) + c1 α (∇J (uk ) , dk ) .

La scelta di αk , le condizioni di Wolfe

Figura: Limitazione sulla scelta di αk dovuta alla condizione di decrescita

La scelta di αk , le condizioni di Wolfe

Figura: Limitazione sulla scelta di αk dovuta alla condizione di curvatura.

La scelta di αk , le condizioni di Wolfe

Figura: Limitazione sulla scelta di αk dovuta alle condizioni di Wolfe.

La scelta di αk , le condizioni di Wolfe

Esistono delle condizioni, dette di Goldstein, che non richiedono la

La scelta di αk , le condizioni di Wolfe

Esistono delle condizioni, dette di Goldstein, che non richiedono la

k∇J (u) − ∇J (v)k ≤ L ku − vk , ∀u, v ∈ L ,

ovvero il gradiente di J è uniformemente Lipschitz continuo in L .

− (∇J (uk ) , dk ) ≥ δ k∇J (uk )k kdk k .

lim Pθ (|τ (θ̂) − τ (θ)| ≥ ) = 0.

Dato un punto iniziale u0 ∈ Rd e due costanti positive u < J , per

kuk+1 − uk k ≤ u , e k∇J (uk+1 )k ≤ J ,

Dato un punto iniziale u0 ∈ Rd e due costanti positive u < J , per

kuk+1 − uk k ≤ u , e k∇J (uk+1 )k ≤ J ,

Dato un punto iniziale u ∈ Rn e una costanti positiva :

Dato un punto iniziale u ∈ Rn e due costanti positive u e J :