Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Metodo di Newton
5.1 Generalit
a
Il metodo di Newton e stato introdotto originariamente come un metodo di soluzione di
un sistema di equazioni non lineari
F (x) = 0;
in cui F : Rn ! Rn si assume continuamente dierenziabile. Indichiamo con J(x) la
matrice Jacobiana di F , ossia:
@Fi (x)
J(x) = ; i; j = 1; : : : ; n;
@xj
in cui Fi (x) sono le componenti del vettore F (x). Assegnato xk 2 Rn , si pu
o scrivere:
1
qk (s) = f (xk ) + rf (xk )0 s + s0 r2 f (xk )s
2
e determinare il punto successivo
xk+1 = xk + sk
se si suppone che r2 f (xk ) sia denita positiva, il punto di minimo di qk (s) sar
a dato da:
facile rendersi conto che, se si identica F (x) con il gradiente rf (x) di una funzione
E
f : Rn ! R, la matrice Jacobiana di F coincide con la matrice Hessiana di f e quindi la
(5.1) coincide con la (5.2).
Nel seguito riportiamo dapprima alcuni risultati fondamentali sulla convergenza locale
del metodo di Newton, riferendoci, per semplicit
a di notazioni, al caso di un sistema di
equazioni non lineari F (x) = 0. Successivamente, con riferimento ai problemi di mini-
mizzazione non vincolata, accenneremo ad alcuni dei metodi proposti per assicurare la
convergenza globale del metodo di Newton.
58
Proposizione 5.1 (Convergenza locale del metodo di Newton)
Sia F : Rn ! Rn continuamente dierenziabile su un insieme aperto D Rn .
Supponiamo inoltre che valgano le condizioni seguenti:
(iii) esiste una costante L > 0 tale che, per ogni x; y 2 D, si abbia
Allora esiste una sfera aperta B(x? ; ") D, tale che, se x0 2 B(x? ; "), la successione fxk g
generata dal metodo di Newton (5.1) rimane in B(x? ; ") e converge a x? con rapidit a di
convergenza quadratica.
Dim. Poiche J(x? ) e non singolare e J(x) e continua su D, e possibile trovare un "1 > 0
e un > 0 tali che B(x? ; "1 ) D e che, per ogni x 2 B(x? ; "1 ) risulti:
1
J(x) :
Sia ora
" < min ["1 ; 2=L]
e supponiamo che sia xk 2 B(x? ; ").
Essendo per ipotesi F (x? ) = 0, possiamo riscrivere la (5.1) nella forma:
da cui segue:
kxk+1 x? k J(xk )1 kJ(xk )(xk x? ) + F (xk ) F (x? )k
(5.3)
kJ(xk )(xk x? ) + F (xk ) F (x? )k :
59
e quindi, tenendo conto dell'ipotesi (iii) si ha:
Z 1 L
kxk+1 x? k L (1 )dkxk x? k2 = kxk x? k2 : (5.4)
0 2
Poiche si e assunto xk 2 B(x? ; ") e si e scelto " < 2=L, dalla (5.4) segue
L L"
kxk+1 x? k kxk x? k2 kxk x? k < kxk x? k: (5.5)
2 2
Cio implica xk+1 2 B(x? ; ") e di conseguenza, per induzione, si ha xk 2 B(x? ; ") per ogni
k. Applicando ripetutamente la (5.5) si ha anche:
k
? L"
kxk x k kx0 x? k;
2
da cui segue, essendo L"=2 < 1, che xk ! x? . La (5.4) implica allora che la rapidit
a di
convergenza e quadratica.
In particolare, si pu
o enunciare la proposizione seguente, che e una diretta conseguenza
dalla Proposizione 5.1
(iii) esiste una costante L > 0 tale che, per ogni x; y 2 D, si abbia
2
r f (x) r2 f (y) Lkx yk:
Allora esiste una sfera aperta B(x? ; ") D, tale che, se x0 2 B(x? ; "), la successione fxk g
generata dal metodo di Newton (5.2) rimane in B(x? ; ") e converge a x? con rapidit a di
convergenza quadratica.
Si pu
o osservare che il risultato precedente caratterizza la convergenza locale del metodo
di Newton nell'intorno di un qualsiasi punto stazionario in cui la matrice Hessiana sia non
singolare; si pu
o trattare quindi, in particolare, sia di un minimo che di un massimo locale.
60
5.3 Modiche globalmente convergenti
Nell'applicazione del metodo di Newton alla minimizzazione non vincolata occorre tener
conto dei problemi seguenti:
(i) la direzione di Newton puo non essere denita in xk (r2 f (xk ) e singolare);
(iii) si pu
o avere convergenza verso massimi locali.
Per superare tali dicolta si rende necessario modicare, con opportuni criteri, il metodo
di Newton. Le modiche devono tuttavia essere tali da non far perdere le caratteristiche
di rapidit
a di convergenza stabilite per il metodo di Newton nella sua forma \pura". Per
precisare meglio il problema introduciamo la seguente denizione.
xk+1 = xk + sk
e una modica globalmente convergente del metodo di Newton se valgono le seguenti pro-
priet
a:
Le modiche globalmente convergenti, note anche come metodi tipo-Newton (Newton type
methods) possono essere ricondotte, essenzialmente a tre classi di metodi.
(b) metodi di tipo ibrido, basati sulla combinazione del metodo di Newton con un metodo
globalmente convergente, come il metodo del gradiente
(c) metodi tipo trust region (regione di condenza), in cui il punto xk+1 viene gene-
rato risolvendo un sottoproblema vincolato consistente nella minimizzazione di una
approssimazione quadratica di f in un intorno sferico di xk .
61
Prima di illustrare alcuni esempi signicativi, premettiamo, senza dimostrazione, il seguente
risultato in cui si forniscono condizioni sotto cui il passo = 1 e accettabile in un algoritmo
tipo-Armijo lungo una direzione dk .
Allora, per ogni < 1=2 assegnato, esiste un indice k? , tale che, per ogni k k? si ha:
Lk s = rf (xk )
L0k dk = s:
62
Sono stati sviluppati procedimenti di fattorizazione in cui la determinazione di Lk viene
eettuata alterando il meno possibile la matrice Hessiana (ossia scegliendo gli elementi di
Dk abbastanza piccoli) e in modo da soddisfare anche le condizioni della Denizione 5.1.
Una descrizione semplicata di un procedimento di questo tipo e riportata nel seguito. Si
dimostra che se vale la (i), allora la direzione di Newton
For k=0,1,. . .
End for
facile vericare che le direzioni calcolate per mezzo dell'algoritmo precedente o coinci-
E
dono con l'antigradiente oppure soddisfano le condizioni
il che assicura che l'algoritmo di Armijo con k = 1 sia convergente e che siano soddisfatte
le condizioni di convergenza globale introdotte in precedenza.
Osservazione La scelta dk = sN eettuata al passo 4 se rf (xk )0 s > 0, e motivata
dal fatto che la direzione dk = sN , oltre a essere una direzione di discesa, e anche una
direzione a curvatura negativa. Infatti, e facile vericare che, nelle ipotesi poste:
63
notevole riduzione della funzione obiettivo. In alternativa, si potrebbe anche assumere
dk = rf (xk ) quando rf (xk )0 sN > 0.
Si pu
o dimostrare il risultato seguente.
L'algoritmo precedente e basato sull'uso della direzione dell'antigradiente nei punti in cui
la direzione di Newton non e denita o non soddisfa opportune condizioni.
Un diverso punto di vista nella denizione di modiche globalmente convergenti del metodo
di Newton e quello noto come metodo della \regione di condenza" (trust region) che e
stato oggetto di un'intensa attivita di ricerca. Esso si basa sulla determinazione della
direzione e dell'ampiezza dello spostamento da eettuare a partire da xk in modo da
minimizzare l'approssimazione quadratica di f in una regione sferica di centro xk . Si
parla percio anche di metodo a passo ristretto (restricted step).
Per illustrare le motivazioni di questa impostazione, ricordiamo che il metodo di New-
ton per la minimizzazione non vincolata pu o essere interpretato come una sequenza di
minimizzazioni dell'approssimazione quadratica qk (s) di f denita da:
1
qk (s) = f (xk ) + rf (xk )0 s + s0 r2 f (xk )s:
2
tuttavia evidente che, se r2 f (xk ) non e almeno semidenita positiva, la funzione qk (s)
E
non ammette minimo. In tal caso, invece di fornire un diverso criterio per il calcolo della
direzione, si puo pensare di eettuare la minimizzazione di qk (s) in un intorno limitato di
xk , ossia per ksk ak , assumendo:
xk+1 = xk + sk ;
min qk (s)
ksk ak :
Negli algoritmi nora proposti il raggio ak che denisce la regione sferica attorno a xk
viene determinato in modo da assicurare che sia f (xk+1 ) < f (xk ) e che la riduzione di
f sia prossima a quella che si dovrebbe ottenere se f (xk + s) fosse eettivamente una
funzione quadratica. Ci o quindi corrisponde a denire la regione attorno a xk come la
regione in cui si pu
o ritenere ragionevolmente valida l'approssimazione quadratica. Di qui
il nome di metodo della \regione di condenza".
64
Ci si pu
o chiedere tuttavia se tale propriet
a sia una caratteristica irrinunciabile e se non
comporti, in molti casi, delle conseguenze sfavorevoli sull'ecienza del processo di mini-
mizzazione.
In eetti, l'esperienza di calcolo mette in evidenza che il metodo di Newton, nella sua
versione originaria, e spesso notevolmente pi u eciente delle varie modiche globalmente
convergenti e l'analisi di tali casi rivela che la maggiore ecienza e legata al fatto che le
tecniche utilizzate per assicurare la convergenza globale comportano spesso una riduzione
del passo lungo la direzione di Newton, proprio per imporre una riduzione monotona
dell'obiettivo.
Un caso tipico e quello in cui la funzione presenta delle \valli ripide" ad andamento curvi-
lineo, per cui la riduzione monotona della funzione implica spostamenti di piccola entit a
lungo le direzioni di ricerca e quindi un elevato e spesso inaccettabile costo computazionale.
che presenta una valle lungo la parabola x2 = x21 , tanto pi u ripida, quanto pi
u elevato e
il coeciente c. Se si eettua la minimizzazione con un algoritmo standard globalmente
convergente (routine E04LBF della libreria NAG, che utilizza una tecnica di ricerca uni-
dimensionale) si trova, ad esempio, che a partire dal punto iniziale x1 = 1:2, x2 = 1 e
per c = 106 sono richieste 358 iterazioni e 536 valutazioni della funzione e del gradiente
per ottenere un'approssimazione dell'ottimo in cui f = :6 106 . Il metodo di Newton con
passo unitario richiede invece solo 5 iterazioni e fornisce una stima in cui f = :2 1027 .
65
Metodo di Armijo non monotono2
Passo 2. Se risulta
f (xk + dk ) Wk + rf (xk )0 dk
si assume k = . Stop.
66
5.5 Fattorizzazione di Cholesky modicata*
Una delle modiche pi
u note del metodo di Newton e la fattorizzazione di Cholesky mod-
icata proposta da Gill e Murray (1972). Accenniamo qui a una possibile realizzazione
algoritmica.
Come si e detto in precedenza, ci si propone di denire una matrice diagonale Dk in modo
tale che la matrice r2 f (xk )+Dk risulti denita positiva e sia quindi fattorizzabile secondo
Cholesky nella forma
r2 f (xk ) + Dk = Lk L0k :
Per semplicare le notazioni, poniamo A = r2 f (xk ):
Se A e denita positiva la fattorizzazione di Cholesky di A si puo calcolare a partire
dall'equazione A = LL0 : Possiamo costruire L per colonne, osservando che per i j
dall'equazione precedente si ottiene
j
X
aij = lik ljk ;
k=1
j1
X
aij lik ljk
k=1
lij = ljj ; i = j + 1; : : : ; n:
Se A non e denita positiva le formule precedenti non sono applicabili, in quanto potrebbe
essere richiesto calcolare la radice quadrata di un numero negativo oppure dividere per
un elemento nullo. Possiamo allora introdurre una perturbazione sulla diagonale di A in
modo da poter ancora eettuare la fattorizzazione, il che implica che la matrice perturbata
sara denita positiva.
A tale scopo introduciamo due scalari positivi 1 e 2 tali che 0 < 1 < 2 : Calcoliamo
allora la prima colonna di L ponendo
p
a11 se a11 > 1
l11 = p
2 altrimenti.
Successivamente poniamo:
ai1
li1 = ; i = 2; : : : ; n:
l11
Note le colonne 1; 2; : : : ; j 1 di L, possiamo calcolare la colonna jma ponendo:
8v
> u j1 j1
>
> u X X
<t ajj 2
ljk se ajj 2
ljk > 1
ljj =
>
> k=1 k=1
>
:p
2 altrimenti,
j1
X
aij ljk lik
k=1
lij = ljj ; i = j + 1; : : : ; n:
67
Per quanto riguarda la scelta dei parametri 1 e 2 uno de criteri proposti 3 pu
o essere
quello di calcolare la quantit
a
( )
@ 2 f (x ) @ 2 f (x )
k k
wk = max ;::: ;
(@x1 )2 (@xn )2
LL0 d = rf (xk ):
Cio pu
o essere ottenuto risolvendo prima (per eliminazione in avanti) il sistema triangolare
Ls = rf (xk );
L0 d = s:
@f (xk )=@x1
s1 = ;
l11
Pi1
@f (xk )=@xi + k=1 lik sk
si = ; i = 2; : : : ; n;
lii
e calcolando successivamente
sn
dn = ;
lnn
n
X
si lki dk
k=i+1
di = ; i = n 1; : : : ; 1:
lii
3
Cfr. D.P. Bertsekas Nonlinear Programming, Athena Scientic, 1995
68