Sei sulla pagina 1di 57

Perché massimizzare la verosimiglianza?

I metodi line search


Modelli

MASSIMIZZAZIONE DELLA
VEROSIMIGLIANZA:
PROBLEMATICHE E METODI

Stefano Baraldo 754107


Alessio Fumagalli 738811
Alessandro Melani 753399

Presentazione per il corso di Metodi computazionali per la statistica.


Perché massimizzare la verosimiglianza?
I metodi line search
Modelli

Indice

1 Perché massimizzare la verosimiglianza?


Qualche considerazione euristica
La funzione di verosimiglianza

2 I metodi line search


Metodo del Gradiente
Metodo del Gradiente Coniugato
Il metodo di Newton
I metodi quasi-Newton

3 Modelli
Regressione logistica
Iterative Reweighted Least Squares
Regressione extreme-value
Perché massimizzare la verosimiglianza?
I metodi line search
Modelli

Riferimenti bibliografici:
libro di riferimento del corso: [GH05];
verosimiglianza: [CB01];
ottimizzazione numerica: [NW99] e [FF09];
metodo del gradiente di Barzilai e Borwein: [Ray97];
iterative reweighted least squares: [Bjö96].
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli

Qualche considerazione euristica


Sia X1 , ..., X100 un campione casuale di variabili aleatorie di i.i.d con legge
N(0, σ 2 ), con varianza ignota. Date le realizzazioni (x1 , ..., x100 ), qual é il
valore di σ 2 che adatta meglio la N(0, σ 2 ) ai dati?
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli

La funzione di verosimiglianza

Definition
Sia fX (x; θ) la densitá congiunta del campione X = (X1 , ..., Xn ). Dato il
vettore di realizzazioni X = x, si dice funzione di verosimiglianza la
funzione di θ
L(θ; x) = fX (x; θ).
Q100 xi2
Nel caso precedente, L(θ; x) = L(σ; (x1 , ..., x100 )) = √ 1
i=1 2πσ 2 e e si
σ2

trova

log [L(2.5, x)] = −192.0724


log [L(0.8, x)] = −153.0703
log [L(1, x)] = −145.3280
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli

Se X é un vettore aleatorio discreto, L(θ; x) = Pθ (X = x). In tal caso il


confronto tra valori della verosimiglianza ha un significato ancora piú
chiaro:
Pθ1 (X = x) = L(θ1 ; x) > L(θ2 ; x) = Pθ2 (X = x)
significa che é piú probabile (o meglio, verosimile) che le realizzazioni x
siano state generate da una variabile aleatoria con legge di parametro
θ = θ1 .
Cercare il valore di θ che massimizza la verosimiglianza é quindi un
principio molto ragionevole per stimare i parametri di una distribuzione.
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli

Definizione
Si dice stima di massima verosimiglianza il valore θ̂(x) che massimizza la
funzione di verosimiglianza L(θ; x). θ̂(X) é detto stimatore di massima
verosimiglianza (MLE).

L’effettuazione di stime di massima verosimiglianza, per quanto


concettualmente chiara, presenta alcuni problemi pratici:
E’ necessario verificare che il massimo trovato sia un massimo
globale: potrebbero esserci piú massimi locali, oppure il massimo
potrebbe trovarsi sulla frontiera del dominio di L(θ; x).
La stima potrebbe essere molto sensibile ai dati.
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli

Alcune proprietá - 1

Proprietá di invarianza
Se θ̂ é lo stimatore di massima verosimiglianza di θ, per ogni funzione
τ (θ) (anche non invertibile!) τ (θ̂) é lo stimatore di massima
verosimiglianza di τ (θ).

Proprietá di consistenza
Sia X1 , ..., Xn un campione di v.a. i.i.d con densitá f (x; θ). Sotto
opportune condizioni di regolaritá per f (x; θ), ∀ > 0 e ∀θ ∈ Θ

lim Pθ (|τ (θ̂) − τ (θ)| ≥ ) = 0.


n→∞
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli

Alcune proprietá - 2

Disuguaglianza di Cramér-Rao
Siano X = (X1 , ..., Xn ) un campione casuale con densitá f (x; θ) e θ̂(X)
uno stimatore non distorto di θ (E[θ̂(X); θ] = θ) a varianza finita che
soddisfa Z
d ∂
E[θ̂(X); θ] = [θ̂(X)f (x; θ)]dx.
dθ Ω ∂θ
Allora
Var [θ̂(X); θ] ≥ I−1 (θ),
con I matrice di informazione di Fisher di elementi
∂ ∂
Iij (θ) = E[ ∂θ i
log f (x; θ) ∂θ j
log f (x; θ)].
Perché massimizzare la verosimiglianza?
Qualche considerazione euristica
I metodi line search
La funzione di verosimiglianza
Modelli

Alcune proprietá - 3

Normalitá asintotica
Siano X1 , ..., Xn un campione di v.a. i.i.d con densitá f (x; θ), θ̂ lo
stimatore di massima verosimiglianza di θ e τ (θ) una funzione continua
di θ. Sotto opportune condizioni di regolaritá per f (x; θ), vale
√ L
→ N(0, I−1
n[τ (θ̂) − τ (θ)] − n (θ)),

dove In (θ) é la matrice di informazione di Fisher.

Attenzione alla notazione impropria per la convergenza!


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Minimizzazione in Rd

Siamo interessati alla ricerca di minimi, possibilmente globali, u di una


funzione regolare J in Rd , ovvero

u = argmin J (v) .
v∈Rd

Tale ricerca risulta molto difficile da risolvere analiticamente per J


generica e, soprattutto, per d grande. Vengono quindi utilizzati degli
algoritmi numerici per approssimare i minimi.
Tratteremo una classe molto famosa di algoritmi di ricerca i line search
methods, che semplificano la ricerca dell’ottimo in Rd a una successione
di ricerche di minimi direzionali, o di loro approssimazioni, in R.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Minimizzazione in Rd

Siamo interessati alla ricerca di minimi, possibilmente globali, u di una


funzione regolare J in Rd , ovvero

u = argmin J (v) .
v∈Rd

Tale ricerca risulta molto difficile da risolvere analiticamente per J


generica e, soprattutto, per d grande. Vengono quindi utilizzati degli
algoritmi numerici per approssimare i minimi.
Tratteremo una classe molto famosa di algoritmi di ricerca i line search
methods, che semplificano la ricerca dell’ottimo in Rd a una successione
di ricerche di minimi direzionali, o di loro approssimazioni, in R.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Direzione di discesa

Dato un punto uk ∈ Rd una direzione dk ∈ Rd è di discesa se ∃δ > 0


tale che

J (uk + αdk ) < J (uk ) , ∀α ∈ (0, δ) .

Se J è differenziabile con continuità allora dk è di discesa, nel punto uk ,


se e solo se

(∇J (uk ) , dk ) < 0 ,

ovvero se la direzione di discesa dk risulta

dk = −Bk ∇J (uk ) , (1)

dove Bk ∈ Rd×d è una matrice simmetrica e definita positiva.


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

L’algoritmo di line search

Dato un punto iniziale u0 ∈ Rd e due costanti positive u < J , per


k = 0, 1, . . .
1 determinare una direzione di discesa dk ;
2 determinare la lunghezza del passo αk ;
3 aggiornare uk+1 = uk + αk dk ;
4 verifica della convergenza dell’algoritmo, ovvero se

kuk+1 − uk k ≤ u , e k∇J (uk+1 )k ≤ J ,

allora l’algoritmo si ferma, altrimenti ritorna al punto 1.

Gli ingredienti principali per un algoritmo di line search sono quindi la


direzione di discesa dk , ovvero la matrice Bk , e l’ampiezza del passo αk .
Scelte diverse di Bk e di αk conducono a diversi algoritmi con diverse
proprietà.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

L’algoritmo di line search

Dato un punto iniziale u0 ∈ Rd e due costanti positive u < J , per


k = 0, 1, . . .
1 determinare una direzione di discesa dk ;
2 determinare la lunghezza del passo αk ;
3 aggiornare uk+1 = uk + αk dk ;
4 verifica della convergenza dell’algoritmo, ovvero se

kuk+1 − uk k ≤ u , e k∇J (uk+1 )k ≤ J ,

allora l’algoritmo si ferma, altrimenti ritorna al punto 1.

Gli ingredienti principali per un algoritmo di line search sono quindi la


direzione di discesa dk , ovvero la matrice Bk , e l’ampiezza del passo αk .
Scelte diverse di Bk e di αk conducono a diversi algoritmi con diverse
proprietà.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Ordine di convergenza

Diremo che una successione {uk }N è convergente di ordine q ≥ 1 a u se

kuk+1 − uk
lim q ≤C .
k→∞ kuk − uk

Per p = 1 richiediamo inoltre che C < 1, inoltre se

kuk+1 − uk
lim = 0,
k→∞ kuk − uk

diremo che la convergenza è super-lineare.


Nel caso in considerazione la successione {uk }N è generata da un
algoritmo di line search.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk

In principio la scelta di αk deve essere tale che

αk = argmin J (uk + αdk ) .


α∈R+

Tuttavia questa scelta risulta piuttosto onerosa. Infatti nei metodi di line
search ad ogni passo mi muovo su delle rette e non globalmente,
scegliamo quindi un approccio più semplice.
La scelta di αk deve essere tale che
1

J (uk+1 ) < J (uk ) ;

2 l’algoritmo di line search deve convergere ad una soluzione del


problema.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk

In principio la scelta di αk deve essere tale che

αk = argmin J (uk + αdk ) .


α∈R+

Tuttavia questa scelta risulta piuttosto onerosa. Infatti nei metodi di line
search ad ogni passo mi muovo su delle rette e non globalmente,
scegliamo quindi un approccio più semplice.
La scelta di αk deve essere tale che
1

J (uk+1 ) < J (uk ) ;

2 l’algoritmo di line search deve convergere ad una soluzione del


problema.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk , le condizioni di Wolfe

Vi sono alcune condizioni che garantiscono le richieste fatte per αk , in


particolare
1 Condizione di decrescita sufficiente o regola di Armijo:

J (uk + αk dk ) ≤ J (uk ) + c1 αk (∇J (uk ) , dk ) ,

per c1 ∈ (0, 1). Richiede una decrescita “sufficiente” del valore di J .


Essendo αk (∇J (uk ) , dk ) < 0, questa proprietà implica che
J (uk + αk dk ) deve stare sotto la linea

l(α) = J (uk ) + c1 α (∇J (uk ) , dk ) .


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk , le condizioni di Wolfe

Figura: Limitazione sulla scelta di αk dovuta alla condizione di decrescita


sufficiente.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk , le condizioni di Wolfe


2 Condizione di curvatura:
(∇J (uk + αk dk ) , dk ) ≥ c2 (∇J (uk ) , dk ) , per c2 ∈ (c1 , 1) .

Figura: Limitazione sulla scelta di αk dovuta alla condizione di curvatura.


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk , le condizioni di Wolfe


Le due condizioni precedenti vengono dette condizioni di Wolfe (deboli).
Considerando le condizioni di Wolfe, per l’esempio grafico, gli intervalli in
cui è possibile la scelta di αk risultano

Figura: Limitazione sulla scelta di αk dovuta alle condizioni di Wolfe.


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk , le condizioni di Wolfe

Proposizione:
Sia dk una direzione di discesa partendo dal punto uk per una funzione
differenziabile con continuità J . Assumiamo che la funzione
J (uk + αdk ) è limitata dal basso per ogni α.
Allora, se 0 < c1 < c2 < 1, esistono α2 > α1 > 0 tale che le condizioni di
Wolfe sono soddisfatte per ogni αk ∈ (α1 , α2 ).

Esistono delle condizioni, dette di Goldstein, che non richiedono la


conoscenza del gradiente di J se non nel punto uk . Vengono ricavate
dalla condizione di curvatura approssimando ∇J (uk+1 ) con il rapporto
incrementale
J (uk + αk dk ) − J (uk )
∇J (uk+1 ) ≈ .
αk
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk , le condizioni di Wolfe

Proposizione:
Sia dk una direzione di discesa partendo dal punto uk per una funzione
differenziabile con continuità J . Assumiamo che la funzione
J (uk + αdk ) è limitata dal basso per ogni α.
Allora, se 0 < c1 < c2 < 1, esistono α2 > α1 > 0 tale che le condizioni di
Wolfe sono soddisfatte per ogni αk ∈ (α1 , α2 ).

Esistono delle condizioni, dette di Goldstein, che non richiedono la


conoscenza del gradiente di J se non nel punto uk . Vengono ricavate
dalla condizione di curvatura approssimando ∇J (uk+1 ) con il rapporto
incrementale
J (uk + αk dk ) − J (uk )
∇J (uk+1 ) ≈ .
αk
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

La scelta di αk
Consideriamo l’algoritmo di line search, in cui dk è una direzione di
discesa e αk soddisfa le condizioni di Wolfe. Assumiamo che J (u) ≥ β,
∀u ∈ L , per un certo β ∈ R e L = {u|J (u) ≤ J (u0 )}, e che esiste
L > 0 tale che

k∇J (u) − ∇J (v)k ≤ L ku − vk , ∀u, v ∈ L ,

ovvero il gradiente di J è uniformemente Lipschitz continuo in L .


Assumiamo inoltre che l’angolo tra il gradiente di J e la direzione di
discesa dk è diverso da π/2, ovvero esiste δ > 0 tale che

− (∇J (uk ) , dk ) ≥ δ k∇J (uk )k kdk k .

Allora, l’algoritmo di line search converge ad un punto critico di J

lim k∇J (uk )k = 0 .


k→∞
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Considerazioni “pratiche”

Nella pratica, solitamente c1 viene scelto piuttosto piccolo (e.g.


c1 = 10−3 ), mentre c2 viene scelto tra 0.4 e 0.5. In ogni caso c1 < 0.5, in
modo da non escludere il minimizzante nel caso in cui J sia quadratico.
Per la direzione di discesa dk , della forma (1) e con Bk simmetrica e
definita positiva, la condizione sull’angolo richiesta nella slide precedente
è verificata se il numero di condizionamento di Bk è uniformemente
limitato.
La condizione sulla curvatura potrebbe essere piuttosto onerosa da
verificare in pratica, dato il calcolo del gradiente di J per ogni valore di
tentativo di α. Quindi si richiede solo il soddisfacimento della condizione
di Armijo o l’utilizzo delle condizioni di Goldstein.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Algoritmo di backtracking per il calcolo di αk


L’algoritmo di backtracking serve per il calcolo del passo di avanzamento
(0)
αk . Parte da un valore di tentativo iniziale αk e, se non soddisfa la
(1) (0)
condizione di Armijo, si sceglie αk < αk , ripetendo la procedura
(i)
ricorsivamente fino a che non si trova un certo αk che soddisfa la regola
di Armijo.
La versione più semplice di tale algoritmo è scegliere
(k) (k−1)
αk = ραk per ρ ∈ (0, 1) .
(k)
Tuttavia ha senso richiedere che αk non diventi troppo piccolo o troppo
(k)
grande. Si introducono quindi 0 < β − ≤ β + < 1 e si seleziona αk come
segue
h i
(k) (k−1) (k−1)
αk ∈ β − αk , β + αk .
(0)
La scelta di αk dipende dalla scelta della matrice Bk , ovvero dal metodo
scelto.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Metodo del Gradiente

La direzione dell’antigradiente −∇J è la più ovvia scelta come direzione


di discesa.

Infatti, esplicitando la serie di Taylor di J :

J (u + p) = J (u) + pT ∇J (u) + o(kpk)

è chiaro che la direzione di −∇J è quella che realizza

arg min pT ∇J (u)


kpk=1

cioè quella di più ripida discesa.


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Proprietà del Metodo del Gradiente

Velocità di Convergenza
Supponiamo che J : Rn → R sia differenziabile con continuità due volte
e che la successione {uk } generata dal metodo del gradiente converga a
u∗ con ∇2 J (u∗ ) definita positiva. Allora
 2
λn − λ1
J (uk+1 ) − J (u∗ ) 6 [J (uk ) − J (u∗ )]
λn + λ1

dove λ1 6 · · · 6 λn sono gli autovalori di ∇2 J (u∗ ).


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Metodo Barzilai-Borwein

Il metodo di Barzilai-Borwein è una variante del metodo del gradiente in


cui
(uk − uk−1 )T (∇J (uk ) − ∇J (uk−1 ))
αk =
(uk − uk−1 )T (uk − uk−1 )
e si applica una strategia di linesearch non monotona, cioè si accetta la
nuova iterata uk+1 se viene soddisfatta la condizione

J (uk+1 ) 6 max J (uk−j ) + γ∇J (uk )T (uk+1 − uk )


06i6M

con M intero non negativo e γ piccolo e positivo.

Questo metodo ha convergenza più veloce del metodo del gradiente e ha


un costo computazionale molto ridotto.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Richiami sul Caso Quadratico

Consideriamo un problema di minimizzare una funzione quadratica, cioé


della forma:
1
Φ(u) = uT Au − b T u,
2
n×n
con A ∈ R definita positiva.
Notiamo che è equivalente a risolvere il sistema lineare

r (u) = ∇Φ(u) = Au − b = 0.

Si dice che un insieme di direzioni {d0 , . . . , dl } si dice A-coniugato se


vale la relazione
dTi Adj = 0 ∀i 6= j.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Algoritmo del Gradiente Coniugato Lineare

Dato un punto iniziale u ∈ Rn e una costanti positiva :


1 calcolare r (u0 ) = Au0 − b
2 porre d0 = −r (u0 ) e k = 0
3 finchè kr (uk )k > 
T
1 αk = r (udkk) Adr (u
k
k)

2 uk+1 = uk + αk dk
3 r (uk+1 ) = r (uk ) + αk dk
r (u )T r (u )
4 βk+1 = rk+1 k+1
(uk )T r (uk )
5 dk+1 = −r (uk+1 ) + βk+1 dk
6 aggiornare k = k + 1
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Il metodo del gradiente coniugato converge in al più n iterazioni a u∗ ,


minimo della funzione quadratica Φ e, per ogni iterata k = 0, 1 . . . , vale
p
∗ K (A) − 1
kuk+1 − u kA 6 p kuk − u∗ kA
K (A) + 1

Inoltre si può dimostrare che più gli autovalori sono clusterizzati,


maggiore è la velocità di convergenza

PCG

Si risolve cioè il problema equivalente

(C −T AC −1 )û = C −T b

dove û = C −T u e C ≈ A ed ha proprietà computazionali migliori.


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Il metodo del gradiente coniugato converge in al più n iterazioni a u∗ ,


minimo della funzione quadratica Φ e, per ogni iterata k = 0, 1 . . . , vale
p
∗ K (A) − 1
kuk+1 − u kA 6 p kuk − u∗ kA
K (A) + 1

Inoltre si può dimostrare che più gli autovalori sono clusterizzati,


maggiore è la velocità di convergenza

PCG

Si risolve cioè il problema equivalente

(C −T AC −1 )û = C −T b

dove û = C −T u e C ≈ A ed ha proprietà computazionali migliori.


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Gradiente Coniugato Non Lineare

Dato un punto iniziale u ∈ Rn e due costanti positive u e J :


1 porre d0 = −∇J (u0 ) e k = 0
2 finchè k∇J (uk )k > J e kuk − uk−1 k > u (per k > 0):
1 calcolare αk
2 uk+1 = uk + αk dk
3 calcolare βk+1
4 dk+1 = −∇J (uk+1 ) + βk+1 dk
5 aggiornare k = k + 1
In base alla scelta di βk+1 si ottengono metodi con caratteristiche diverse:
k∇J (uk+1 )k2
(
FR
βk+1 = k∇J (uk )k2 Fletcher-Reeves o FR-CG
βk+1 = ∇J (uk+1 )T (∇J (uk+1 )−∇J (uk ))
PR
βk+1 = k∇J (uk )k2 Polak-Ribière o PR-CG
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Convergenza

Per avere garanzia che dk+1 sia direzione di discesa, deve valere

∇J (uk+1 )T dk+1 = −∇J (uk+1 )T ∇J (uk+1 ) + βk+1 ∇J (uk+1 )T dk < 0

Bisogna porre attenzione sulla minimizzazione unidimensionale: se faccio


line-search esatta, ho sempre garanzia che dk+1 sia di discesa.

Invece facendo linesearch inesatta:


scegliendo αk che soddisfa le condizioni di Wolfe forti, si può
dimostrare il metodo FR-CG individua direzioni di discesa;
per il metodo PR-CG, non si può dimostrare nessun risultato
analogo;
vale un risultato simile (con condizioni di Wolfe opportunamente
PR+ PR
modificate), per la scelta βk+1 = max{0, βk+1 }.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Convergenza Globale

Supponiamo di implementare il metodo FR-CG, usando un passo αk tale


da soddisfare le condizioni di Wolfe forti. Inoltre sia l’insieme di livello
L = {u : J (u) 6 J (u)} limitato e in L , il gradiente ∇J sia
Lipschitziano cioè ∃L > 0 tale che

kJ (u1 ) − J (u2 )k 6 Lku1 − u2 k, ∀u1 , u2 ∈ L .

Allora
lim inf k∇J (uk )k = 0
k→∞

Per il metodo PR-CG, non si può dimostrare nessun risultato analogo,


PR+ PR
mentre vale per la scelta βk+1 = max{0, βk+1 }.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Velocità di Convergenza

Si può dimostrare che il metodo del gradiente coniugato, con una


strategia di linesearch esatta, ha velocità lineare (Crowder, Wolfe, 1972) ,
cioé che
kuk+1 − u∗ k = O(kuk − u∗ k).
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

FR-CG vs PR-CG

Anche se FR-CG ha migliori proprietà teoriche di convergenza,


sperimentalmente si osserva che PR-CG ha prestazioni migliori.

Questo è dovuto al fatto che le direzioni che si ottengono con FR-CG non
sono sempre ben direzionate e c’è perciò il rischio di incorrere in
situazioni di ristagno.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Il metodo di Newton

Consideriamo J di classe C 2 . Il metodo di Newton consiste nel porre la


matrice di iterazione Bk pari all’hessiana di J in uk e scegliere αk = 1.
Si ottiene quindi lo schema

uk+1 = uk − ∇2 J (uk ) ∇J (uk ) .

Tale metodo deriva dall’approssimare J mediante la serie di Taylor,


intorno a uk , troncata al secondo ordine
1
J (u) ≈ J (uk ) + ∇J (uk ) (u − uk ) + (u − uk ) ∇2 J (uk ) (u − uk ) ,
2
imponendo le condizioni di ottimalità per l’approssimante otteniamo

∇J (uk ) + ∇2 J (uk ) (u − uk ) = 0 .

Il metodo di Newton si trova ponendo uk+1 = u.


Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Il metodo di Newton

Indichiamo con u un minimo locale di J (eventualmente globale).


Supponiamo che J di classe C 2 , ∇2 J (u) definita positiva e esiste L > 0
tale che
2
∇ J (u) − ∇2 J (v) ≤ L ku − vk , ∀u, v ∈ N (u) ,

con N (u) intorno di u. Allora per u0 sufficientemente vicino a u il


metodo di Newton ha convergenza quadratica a u, inoltre

lim k∇J (uk )k = 0 , quadraticamente.


k→∞
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Il metodo di Newton: vantaggi e svantaggi

Vantaggi del metodo di Newton


1 ordine di convergenza quadratico;
2 non necessita della ricerca di αk .
Svantaggi del metodo di Newton
1 a volte può essere difficile calcolare ∇2 J ;
2 se ∇2 J (uk ) è singolare il passo non è ben definito;
 −1
3 se ∇2 J (uk ) non è definita positiva allora dk può non essere di
discesa;
4 anche se la direzione dk è di discesa, la condizione αk = 1 potrebbe
far aumentare il valore di J ;
5 può convergere verso massimi locali;
 −1
6 il calcolo di ∇2 J (uk ) è molto dispendioso;
7 la convergenza è locale, ovvero solo se u0 è “vicino” a u.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

Il metodo di Fisher scoring


Il metodo di Fisher scoring è una variante del metodo di Newton,
particolarmente adatto per problemi di massima verosimiglianza. Infatti
unisce il metodo di Newton alla Fisher information matrix, cosı̀ definita
n o
T
= −E ∇2 l (θ) .

I (θ) = E ∇l (θ) ∇l (θ)

Questa relazione vale per variabili aleatorie, mentre nel caso campionario
è soddisfatta solo al limite. Tuttavia permette di ottenere una
approssimazione della hessiana di l, utilizzabile dal metodo di Newton.
Il metodo di Fisher scoring risulta
h T i−1
θ k+1 = θ k + ∇l θ k ∇l θ k ∇l θ k

.

Data l’approssimazione fatta tale metodo è del secondo ordine solo


asintoticamente. Solitamente, si utilizza il metodo di Fisher scoring nei
primi passi di avanzamento in modo da avvicinarsi rapidamente
all’ottimo, successivamente si utilizza il metodo di Newton classico per
ottenere una convergenza rapida all’ottimo.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

I metodi quasi-Newton

A causa delle numerosi svantaggi del metodo di Newton, principalmente


legati all’hessiana e alla convergenza locale, introduciamo i metodi
quasi-Newton in cui l’hessiana non viene calcolata ma approssimata.
Nei metodi quasi-Newton la direzione di discesa è calcolata risolvendo il
sistema lineare

Hk dk = −∇J (uk ) ,

per una certa Hk tale che

lim Hk − ∇2 J (uk ) = 0 .

k→∞

Vorremmo quindi determinare la matrice Bk , introdotta


precedentemente, tale che Bk = Hk−1 .
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

I metodi quasi-Newton
Supponiamo di avere, al passo k, i valori di uk , Bk e
uk+1 = uk − αk Bk ∇J (uk ), vogliamo calcolare una nuova Bk+1 . Per
farlo introduciamo un’approssimazione quadratica di J nell’intorno di
uk+1
1
mk+1 (s) = J (uk+1 ) + (∇J (uk+1 ) , s) + (s, Hk+1 s) ,
2
con s = uk+1 − uk . Imponiamo che il gradiente di mk+1 sia uguale al
gradiente di J in uk+1 e uk . La prima è automaticamente soddisfatta
per costruzione, dato che ∇mk+1 (0) = ∇J (uk+1 ). La seconda è
soddisfatta se poniamo
sk = uk+1 − uk , yk = ∇J (uk+1 ) − ∇J (uk ) ,
e richiediamo che
Hk+1 sk = yk , ovvero Bk+1 yk = sk . (2)
L’ultima condizione è detta equazione della secante, verificata se
(yk , sk ) > 0.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

I metodi quasi-Newton: il metodo BFGS


L’equazione della secante (2) non identifica univocamente la nuova
matrice Bk+1 . L’idea che sta alla base del metodo BFGS è imporre che
Bk+1 risulti “vicino” a Bk . Per fare questo introduciamo il seguente
problema di minimizzazione vincolata

B = argmin kB − Bk kF ω ,
 k+1


B∈S
s.v. (3)


Bk+1 yk = sk ,

dove S è l’insieme delle matrici simmetriche e kBkF ω è la norma pesata


di Frobenius

kBkF ω = W1/2 BW1/2 ,

2

con W matrice generica simmetrica e definita positiva, inoltre l’inversa


verifica l’equazione della secante.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

I metodi quasi-Newton: il metodo BFGS

Il problema di minimizzazione vincolata (3) ammette un’unica soluzione


indipendente dalla scelta di W
T
Bk+1 = (I − ρk yk ⊗ sk ) Bk (I − ρk yk ⊗ sk ) + ρk sk ⊗ sk ,

dove
1
ρk = , [yk ⊗ sk ]ij = [yk ]i [sk ]j .
(yk , sk )

Un modo alternativo di scrivere Bk+1 è il seguente

Bk y k y T
k Bk sk sT
k
Bk+1 = Bk − + .
yT
k B k y k y Ts
k k
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

I metodi quasi-Newton: il metodo BFGS

Sia J di classe C 2 , ed assumiamo che l’hessiana ∇2 J è Lipschitz


continua in un intorno N di un minimo semplice u. Sia u0 ∈ N e il
numero di condizionamento dell’hessiana uniformemente limitato in
L = {u|J (u) ≤ J (u0 )}. Allora la successione generata dall’algoritmo
BFGS, con αk che soddisfa le condizioni di Wolfe, converge a u
super-linearmente.
Metodo del Gradiente
Perché massimizzare la verosimiglianza?
Metodo del Gradiente Coniugato
I metodi line search
Il metodo di Newton
Modelli
I metodi quasi-Newton

I metodi quasi-Newton: considerazioni “pratiche”

Esiste una versione modificata del metodo BFGS adatta per problemi di
grande dimensione, che permette di gestire l’occupazione di memoria
molto elevata. Tale metodo viene detto L-BFGS.
(0)
Nei metodo quasi-Newton si sceglie solitamente αk = 1 per l’algoritmo
di backtracking.
Osservazioni computazionali suggeriscono di utilizzare un line search
poco accurato, solitamente si scelgono c1 = 10−4 e c2 = 0.9.
Una possibile scelta di B0 è porre B0 = γI, tuttavia un valore per γ
coerente risulta difficile da trovare. Una buona scelta è porre γ = 1 e
modificare la scelta di B1 prendendo

(y0 , s0 )
B1 = 2 I.
ky0 k
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value

Regressione logistica

Campione Y1 , ..., Yn , Yi ∼ Be(πi ) ∀i = 1, ..., n.


πi = π(xi ) = F (α + βxi ), con xi covariata (o vettore di covariate)
relativa all’i-esimo degli n soggetti.
e α+βx
Nel modello logistico, F (α + βx) = 1+e α+βx .

Verosimiglianza:
n
Y
L(α, β; y) = π(xi )yi [1 − π(xi )]1−yi .
i=1

Log-verosimiglianza:
n
X
l(α, β; y) = log [L(α, β; y)] = [yi (α + βxi ) − log (1 + e α+βxi )]
i=1
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value

n 
e α+βxi

∂l X
= yi −
∂α 1 + e α+βxi
i=1
n 
e α+βxi

∂l X
= yi − xi
∂β 1 + e α+βxi
i=1

equazioni non lineari da risolvere!


la matrice hessiana non dipende da y
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value

Forma Matriciale di ∇l

Notiamo che il sistema precedente può essere riscritto in forma matriciale:

∇l(β) = Z (y − π) = 0

dove β = (α, β1 , β2 )T , y = (y1 , . . . , yn )T , Z = [1, x1 , x2 ] e


π = (π1 , . . . , πn )T .

Possiamo pensare di applicare un metodo di Newton per trovare β,


ottenendo l’iterata

βk+1 = βk + (Z T Wk Z )−1 Z T (y − πk )

dove W = diag(π).
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value

Iteratively Reweighted Least Squares

Ponendo ek = Wk−1 (y − πk )

pk = βk+1 − βk = (Z T Wk Z )−1 Z T (y − πk ) = (Z T Wk Z )−1 Z T Wk ek .

Notiamo che questo è il sistema delle equazioni normali associato al


problema ai minimi quadrati pesati
1/2
min kWk (Z pk − ek )k2
pk

Perciò trovare la stima di massima verosimiglianza equivale a risolvere


una successione di problemi ai minimi quadrati opportunamente pesati.
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value

Iteratively Reweighted Least Squares: Algoritmo

Dato un punto iniziale β0 ∈ Rm e una costante positiva 


1 Costruire la matrice Z = [1, x1 , . . . , xm ]
2 Finchè kpk k > 
exp(Z βk )
1 calcolare πk = 1+exp(Z βk )
2 porre Wk = diag(πk )
3 calcolare ek
4 risolvere il problema ai minimi quadrati pesati
1/2
min kWk (Z p − ek )k2
p

5 aggiornare βk+1 = βk + p
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value

Regressione extreme-value

Campione T1 , ..., Tn , Ti ∼ Weibull(α, λ) ∀i = 1, ..., n.


α
Densitá Weibull: fT (t; α, λ) = αλα t α−1 e −(λt) .
Con un cambio di variabili Yi = log (Ti ) e la riparametrizzazione
µ = −log (λ), σ = 1/α si trova

1 y −µ −e y −µ
σ
fY (y ; µ, σ) = e σ .
σ

La legge di Z = Y −µσ é nota come densitá Gumbel di tipo I (o legge dei


valori estremi). Imponendo un modello lineare µ(xi ) = ν0 + ν1 xi , dove xi
é una covariata relativa all’i-esimo di n soggetti, si trova il modello
seguente:
yi = ν0 + ν1 xi + σzi ∀i = 1, ..., n
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value

Verosimiglianza:
( n   )
1 X yi − ν0 − ν1 xi yi − ν0 − ν1 xi
exp − exp
σn σ σ
i=1
Perché massimizzare la verosimiglianza? Regressione logistica
I metodi line search Iterative Reweighted Least Squares
Modelli Regressione extreme-value

Åke Björck.
Numerical Method for Least Square Problems.
SIAM, 1996.

George Casella and Roger L. Berger.


Statistical Inference.
Duxburt Press, 2001.

Marco Fuhrman and Luca Formaggia.


Notes of the course on optimal control of pde, 2009.

Geof H. Givens and Jennifer A. Hoeting.


Computational Statistics.
John Wiley & Sons, 2005.

Jorge Nocedal and Stephen J. Wright.


Numerical Optimization.
Operations Research. Springer, 1999.

Marcos Raydan.
The Barzilai and Borwein gradient method for the large scale unconstrained
minimization problem.
SIAM J. Optim., 7(1):26–33, 1997.