Algott6 5

56
Metodo di Newton
5.1 Generalit
a
Il metodo di Newton e stato introdotto originariamente come un metodo di soluzione di
un sistema di equazioni non lineari
F (x) = 0;
in cui F : Rn ! Rn si assume continuamente dierenziabile. Indichiamo con J(x) la
matrice Jacobiana di F , ossia:

@Fi (x)
J(x) = ; i; j = 1; : : : ; n;
@xj
in cui Fi (x) sono le componenti del vettore F (x). Assegnato xk 2 Rn , si pu
o scrivere:
F (xk + s) = F (xk ) + J(xk )s + (xk ; s)
dove (xk ; s)=ksk ! 0 per s ! 0.

Il metodo di Newton consiste nel determinare xk+1 = xk + sk scegliendo sk in modo da
annullare l'approssimazione lineare di F (xk + s), ossia imponendo:
F (xk ) + J(xk )sk = 0:
Se J(xk ) e invertibile, si ottiene:
sk = [J(xk )]1 F (xk );
e quindi il metodo di Newton per la soluzione del sistema F (x) = 0 diviene:
xk+1 = xk [J(xk )]1 F (xk ): (5.1)
In un problema di minimizzazione non vincolata, il metodo di Newton si puo interpretare

come un algoritmo per la risoluzione del sistema di n equazioni in n incognite rf (x) = 0,
ottenute imponendo che il gradiente di f si annulli. Se f e convessa ci
o equivale a costruire
una successione di punti minimizzando a ogni passo un'approssimazione quadratica della
funzione.
Se xk e un punto assegnato, si puo scrivere:
1
f (xk + s) = f (xk ) + rf (xk )0 s + s0 r2 f (xk )s + (xk ; s);
2
57
in cui (xk ; s)=ksk2 ! 0 per s ! 0. Per valori sucientemente piccoli di ksk si pu
o allora
pensare di approssimare f (xk + s) con la funzione quadratica
1
qk (s) = f (xk ) + rf (xk )0 s + s0 r2 f (xk )s
2
e determinare il punto successivo
xk+1 = xk + sk
scegliendo sk in modo da minimizzare (ove possibile) la funzione qk (s) rispetto a s. Poiche
rqk (s) = rf (xk ) + r2 f (xk )s;
se si suppone che r2 f (xk ) sia denita positiva, il punto di minimo di qk (s) sar
a dato da:
sk = [r2 f (xk )]1 rf (xk ):
Il metodo di Newton e allora denito dall'iterazione
xk+1 = xk [r2 f (xk )]1 rf (xk ): (5.2)
facile rendersi conto che, se si identica F (x) con il gradiente rf (x) di una funzione
E
f : Rn ! R, la matrice Jacobiana di F coincide con la matrice Hessiana di f e quindi la
(5.1) coincide con la (5.2).
Nel seguito riportiamo dapprima alcuni risultati fondamentali sulla convergenza locale
del metodo di Newton, riferendoci, per semplicit
a di notazioni, al caso di un sistema di
equazioni non lineari F (x) = 0. Successivamente, con riferimento ai problemi di mini-
mizzazione non vincolata, accenneremo ad alcuni dei metodi proposti per assicurare la
convergenza globale del metodo di Newton.
5.2 Convergenza locale

Le propriet
a di convergenza locale del metodo di Newton per la soluzione di sistemi di
equazioni non lineari sono state oggetto di studi approfonditi.
In particolare, uno dei risultati pi
u importanti sull'argomento, noto anche come teorema di
1
Newton-Kantorovich, stabilisce condizioni sucienti che assicurano l'esistenza di soluzioni
dell'equazione F (x) = 0 su spazi di funzioni e fornisce una stima della regione di conver-
genza.
In quel che segue, tuttavia, ci limiteremo a caratterizzare le propriet a di convergenza
locale in Rn assumendo come ipotesi l'esistenza di soluzioni. Ci o consente di sempli-
care notevolmente lo studio della convergenza; d'altra parte l'esistenza di punti stazionari
nei problemi di minimizazione non vincolata viene usualmente dedotta sulla base delle
ipotesi che assicurano l'esistenza di un punto di minimo e delle condizioni di ottimalit a.
Stabiliamo, in particolare, il risultato seguente.
1
cfr. Kantorovich, L. and Akilov, G. Functional Analysis in Normed Spaces, Pergamon Press, Oxford,
1964.
58
Proposizione 5.1 (Convergenza locale del metodo di Newton)
Sia F : Rn ! Rn continuamente dierenziabile su un insieme aperto D Rn .
Supponiamo inoltre che valgano le condizioni seguenti:
(i) esiste un x? 2 D tale che F (x? ) = 0;
(ii) la matrice Jacobiana J(x? ) e non singolare;
(iii) esiste una costante L > 0 tale che, per ogni x; y 2 D, si abbia
kJ(x) J(y)k Lkx yk:
Allora esiste una sfera aperta B(x? ; ") D, tale che, se x0 2 B(x? ; "), la successione fxk g
generata dal metodo di Newton (5.1) rimane in B(x? ; ") e converge a x? con rapidit a di
convergenza quadratica.
Dim. Poiche J(x? ) e non singolare e J(x) e continua su D, e possibile trovare un "1 > 0
e un > 0 tali che B(x? ; "1 ) D e che, per ogni x 2 B(x? ; "1 ) risulti:

1
J(x) :
Sia ora
" < min ["1 ; 2=L]
e supponiamo che sia xk 2 B(x? ; ").
Essendo per ipotesi F (x? ) = 0, possiamo riscrivere la (5.1) nella forma:
xk+1 x? = J(xk )1 [ J(xk )(xk x? ) + F (xk ) F (x? )];
da cui segue:

kxk+1 x? k J(xk )1 kJ(xk )(xk x? ) + F (xk ) F (x? )k
(5.3)
kJ(xk )(xk x? ) + F (xk ) F (x? )k :
Poiche F e dierenziabile, si ha:

Z 1
F (xk ) F (x? ) = J(x? + (xk x? ))(xk x? )d;
0
e quindi, per la (5.3) si pu

o scrivere:
Z
1
kxk+1 x k
?
[J(x + (xk x )) J(xk )](xk x )d
? ?
:
?
0
Dalla diseguaglianza precedente si ottiene:

Z 1
?
kxk+1 x k kJ(x? + (xk x? )) J(xk )k d kxk x? k
0
59
e quindi, tenendo conto dell'ipotesi (iii) si ha:
Z 1 L
kxk+1 x? k L (1 )dkxk x? k2 = kxk x? k2 : (5.4)
0 2
Poiche si e assunto xk 2 B(x? ; ") e si e scelto " < 2=L, dalla (5.4) segue
L L"
kxk+1 x? k kxk x? k2 kxk x? k < kxk x? k: (5.5)
2 2
Cio implica xk+1 2 B(x? ; ") e di conseguenza, per induzione, si ha xk 2 B(x? ; ") per ogni
k. Applicando ripetutamente la (5.5) si ha anche:
k
? L"
kxk x k kx0 x? k;
2
da cui segue, essendo L"=2 < 1, che xk ! x? . La (5.4) implica allora che la rapidit
a di
convergenza e quadratica.
Il risultato espresso dalla proposizione precedente si pu

o facilmente riportare a un risultato
sulla convergenza del metodo di Newton nella minimizzazione di una funzione f : Rn ! R;
basta infatti tener presente che le ipotesi su F e J si traducono in ipotesi su rf e r2 f .
In particolare, si pu
o enunciare la proposizione seguente, che e una diretta conseguenza
dalla Proposizione 5.1
Proposizione 5.2 (Convergenza locale del metodo di Newton)

Sia f : Rn ! R una funzione due volte continuamente dierenziabile su un insieme aperto
D Rn . Supponiamo inoltre che valgano le condizioni seguenti:
(i) esiste un x? 2 D tale che rf (x? ) = 0;
(ii) la matrice Hessiana r2 f (x? ) e non singolare;
(iii) esiste una costante L > 0 tale che, per ogni x; y 2 D, si abbia

2
r f (x) r2 f (y) Lkx yk:
Allora esiste una sfera aperta B(x? ; ") D, tale che, se x0 2 B(x? ; "), la successione fxk g
generata dal metodo di Newton (5.2) rimane in B(x? ; ") e converge a x? con rapidit a di
convergenza quadratica.
Si pu
o osservare che il risultato precedente caratterizza la convergenza locale del metodo
di Newton nell'intorno di un qualsiasi punto stazionario in cui la matrice Hessiana sia non
singolare; si pu
o trattare quindi, in particolare, sia di un minimo che di un massimo locale.
60
5.3 Modiche globalmente convergenti
Nell'applicazione del metodo di Newton alla minimizzazione non vincolata occorre tener
conto dei problemi seguenti:
(i) la direzione di Newton puo non essere denita in xk (r2 f (xk ) e singolare);
(ii) la successione prodotta dal metodo di Newton pu

o non essere convergente;
(iii) si pu
o avere convergenza verso massimi locali.
Per superare tali dicolta si rende necessario modicare, con opportuni criteri, il metodo
di Newton. Le modiche devono tuttavia essere tali da non far perdere le caratteristiche
di rapidit
a di convergenza stabilite per il metodo di Newton nella sua forma \pura". Per
precisare meglio il problema introduciamo la seguente denizione.
Denizione 5.1 (Modica globalmente convergente del metodo di Newton)

Sia f : Rn ! R due volte continuamente dierenziabile e supponiamo che l'insieme di
livello
L0 = fx 2 Rn : f (x) f (x0 )g
sia compatto.
Diremo che l'algoritmo denito dall'iterazione:
xk+1 = xk + sk
e una modica globalmente convergente del metodo di Newton se valgono le seguenti pro-
priet
a:
(i) se fxk g e innita ogni punto di accumulazione di fxk g e un punto stazionario di f

appartenente a L0 ;
(ii) nessun punto di accumulazione di fxk g e un punto di massimo locale di f ;
(iii) se fxk g converge a un punto di minimo locale x? di f e r2 f (x) soddisfa le ipotesi

della Proposizione 5.2, esiste un k? tale che, per ogni k k ? la direzione sk coincide
con la direzione di Newton, ossia: sk = [r2 f (xk )]1 rf (xk ).
Le modiche globalmente convergenti, note anche come metodi tipo-Newton (Newton type
methods) possono essere ricondotte, essenzialmente a tre classi di metodi.
(a) metodi di ricerca unidimensionale applicati a una direzione di ricerca tipo-Newton,

ottenuta modicando la matrice Hessiana in modo da soddisfare opportuni requisiti
di discesa;
(b) metodi di tipo ibrido, basati sulla combinazione del metodo di Newton con un metodo
globalmente convergente, come il metodo del gradiente
(c) metodi tipo trust region (regione di condenza), in cui il punto xk+1 viene gene-
rato risolvendo un sottoproblema vincolato consistente nella minimizzazione di una
approssimazione quadratica di f in un intorno sferico di xk .
61
Prima di illustrare alcuni esempi signicativi, premettiamo, senza dimostrazione, il seguente
risultato in cui si forniscono condizioni sotto cui il passo = 1 e accettabile in un algoritmo
tipo-Armijo lungo una direzione dk .
Proposizione 5.3 Sia f : Rn ! R una funzione due volte continuamente dierenziabile

e siano fxk g e fdk g due successioni tali che valgano le condizioni seguenti:
(i) fxk g converge a un punto x? in cui rf (x? ) = 0 e r2 f (x? ) e denita positiva;
(ii) esistono un indice k^ e un numero > 0 tali che, per ogni k k,

^ risulti:
rf (xk )0 dk kdk k2 ; (5.6)
(iii) vale il limite:

kxk + dk x? k
lim = 0: (5.7)
k!1 kxk x? k
Allora, per ogni < 1=2 assegnato, esiste un indice k? , tale che, per ogni k k? si ha:
f (xk + dk ) f (xk ) + rf (xk )0 dk :
5.3.1 Modiche della matrice Hessiana e ricerche unidimensionali

Una modica globalmente convergente del metodo di Newton pu o essere ottenuta mo-
dicando la matrice Hessiana, in modo tale che la direzione di ricerca sia una direzione
di discesa opportuna, lungo cui pu
o essere eettuata una ricerca unidimensionale tipo-
Armijo.
Il criterio pi
u semplice pu
o essere quello di sommare alla matrice Hessiana un'opportuna
matrice denita positiva Dk in modo tale che la matrice r2 f (xk ) + Dk risulti \ su-
cientemente" denita positiva. In tal caso si puo assumere come direzione di ricerca una
direzione del tipo
h i1
dk = r2 f (xk ) + Dk rf (xk );
ed eettuare poi lungo dk una ricerca unidimensionale.
Un metodo conveniente per determinare Dk e quello di utilizzare un procedimento di
fattorizzazione di Cholesky modicata, mediante il quale vengono denite una matrice
diagonale Dk e una matrice triangolare inferiore Lk con elementi diagonali positivi lii , tali
che:
r2 f (xk ) + Dk = Lk L0k :
Cio assicura che la matrice r2 f (xk ) + Dk sia denita positiva. E da notare inoltre che,
0
disponendo della fattorizzazione Lk Lk e immediato risolvere il sistema lineare che fornisce
dk . Basta infatti determinare la soluzione s del sistema triangolare
Lk s = rf (xk )
e successivamente ricavare dk risolvendo il sistema (anch'esso triangolare)
L0k dk = s:
62
Sono stati sviluppati procedimenti di fattorizazione in cui la determinazione di Lk viene
eettuata alterando il meno possibile la matrice Hessiana (ossia scegliendo gli elementi di
Dk abbastanza piccoli) e in modo da soddisfare anche le condizioni della Denizione 5.1.
Una descrizione semplicata di un procedimento di questo tipo e riportata nel seguito. Si
dimostra che se vale la (i), allora la direzione di Newton
dk = [r2 f (xk )]1 rf (xk )
soddisfa le (ii) (iii) in un intorno di x ; di conseguenza la proposizione precedente assicura

che il Metodo di Armijo accetta il passo unitario alla prima iterazione.
Come esempio di modica globalmente convergente del metodo di Newton consideriamo
l'algoritmo seguente.
Metodo di Newton modicato (MNM)
Dati: q 3, p 2, c1 > 0, c2 > 0.
Inizializzazione: Si sceglie x0 2 Rn e si pone k = 0.
For k=0,1,. . .
1. Calcola rf (xk ); se rf (xk ) = 0 stop; altrimenti calcola r2 f (xk ).

2. Se il sistema: r2 f (xk )s = rf (xk ) non ha soluzioni poni
dk = rf (xk ) e vai al passo 5; altrimenti calcola una soluzione sN .
3. Se jrf (xk )0 sN j < c1 krf (xk )kq oppure ksN kp > c2 krf (xk )k poni
dk = rf (xk ) e vai al passo 5.
4. Se rf (xk )0 sN < 0 assumi dk = sN ; altrimenti assumi dk = sN .
5. Eettua una ricerca unidimensionale con il metodo di Armijo, con < 1=2
(assumendo come stima iniziale k = 1 se la direzione di Newton sN non e
stata modicata).
6. Poni xk+1 = xk + k dk , k = k + 1.
End for
facile vericare che le direzioni calcolate per mezzo dell'algoritmo precedente o coinci-
E
dono con l'antigradiente oppure soddisfano le condizioni
rf (xk )0 dk c1 krf (xk )kq ; kdk kp c2 krf (xk )k;
il che assicura che l'algoritmo di Armijo con k = 1 sia convergente e che siano soddisfatte
le condizioni di convergenza globale introdotte in precedenza.
Osservazione La scelta dk = sN eettuata al passo 4 se rf (xk )0 s > 0, e motivata
dal fatto che la direzione dk = sN , oltre a essere una direzione di discesa, e anche una
direzione a curvatura negativa. Infatti, e facile vericare che, nelle ipotesi poste:
d0k r2 f (xk )dk = rf (xk )0 [r2 f (xk )]1 rf (xk ) < 0:
Una direzione a curvatura negativa pu o essere particolarmente vantaggiosa in quanto e

presumibile che, riducendosi lungo di essa la derivata direzionale, si possa ottenere una
63
notevole riduzione della funzione obiettivo. In alternativa, si potrebbe anche assumere
dk = rf (xk ) quando rf (xk )0 sN > 0.
Si pu
o dimostrare il risultato seguente.
Proposizione 5.4 Sia f : Rn ! R due volte continuamente dierenziabile e si sup-

ponga che l'insieme di livello L0 sia compatto. Allora l'algoritmo (MNM) e una modica
globalmente convergente del metodo di Newton nel senso della denizione 5.1.
L'algoritmo precedente e basato sull'uso della direzione dell'antigradiente nei punti in cui
la direzione di Newton non e denita o non soddisfa opportune condizioni.
Un diverso punto di vista nella denizione di modiche globalmente convergenti del metodo
di Newton e quello noto come metodo della \regione di condenza" (trust region) che e
stato oggetto di un'intensa attivita di ricerca. Esso si basa sulla determinazione della
direzione e dell'ampiezza dello spostamento da eettuare a partire da xk in modo da
minimizzare l'approssimazione quadratica di f in una regione sferica di centro xk . Si
parla percio anche di metodo a passo ristretto (restricted step).
Per illustrare le motivazioni di questa impostazione, ricordiamo che il metodo di New-
ton per la minimizzazione non vincolata pu o essere interpretato come una sequenza di
minimizzazioni dell'approssimazione quadratica qk (s) di f denita da:
1
qk (s) = f (xk ) + rf (xk )0 s + s0 r2 f (xk )s:
2
tuttavia evidente che, se r2 f (xk ) non e almeno semidenita positiva, la funzione qk (s)
E
non ammette minimo. In tal caso, invece di fornire un diverso criterio per il calcolo della
direzione, si puo pensare di eettuare la minimizzazione di qk (s) in un intorno limitato di
xk , ossia per ksk ak , assumendo:
xk+1 = xk + sk ;
dove sk 2 Rn e la soluzione del problema
min qk (s)
ksk ak :
Negli algoritmi nora proposti il raggio ak che denisce la regione sferica attorno a xk
viene determinato in modo da assicurare che sia f (xk+1 ) < f (xk ) e che la riduzione di
f sia prossima a quella che si dovrebbe ottenere se f (xk + s) fosse eettivamente una
funzione quadratica. Ci o quindi corrisponde a denire la regione attorno a xk come la
regione in cui si pu
o ritenere ragionevolmente valida l'approssimazione quadratica. Di qui
il nome di metodo della \regione di condenza".
5.4 Metodi di stabilizzazione non monotoni

Tutte le modiche globalmente convergenti del metodo di Newton nora considerate si
basano, in modo essenziale, sulla generazione di una successione di punti a cui corrispon-
dono valori monotonamente decrescenti della funzione obiettivo.
64
Ci si pu
o chiedere tuttavia se tale propriet
a sia una caratteristica irrinunciabile e se non
comporti, in molti casi, delle conseguenze sfavorevoli sull'ecienza del processo di mini-
mizzazione.
In eetti, l'esperienza di calcolo mette in evidenza che il metodo di Newton, nella sua
versione originaria, e spesso notevolmente pi u eciente delle varie modiche globalmente
convergenti e l'analisi di tali casi rivela che la maggiore ecienza e legata al fatto che le
tecniche utilizzate per assicurare la convergenza globale comportano spesso una riduzione
del passo lungo la direzione di Newton, proprio per imporre una riduzione monotona
dell'obiettivo.
Un caso tipico e quello in cui la funzione presenta delle \valli ripide" ad andamento curvi-
lineo, per cui la riduzione monotona della funzione implica spostamenti di piccola entit a
lungo le direzioni di ricerca e quindi un elevato e spesso inaccettabile costo computazionale.
Si consideri, ad esempio, la funzione (nota come funzione di Rosenbrock), denita da:
f (x) = c (x2 x21 )2 + (1 x1 )2 ;
che presenta una valle lungo la parabola x2 = x21 , tanto pi u ripida, quanto pi
u elevato e
il coeciente c. Se si eettua la minimizzazione con un algoritmo standard globalmente
convergente (routine E04LBF della libreria NAG, che utilizza una tecnica di ricerca uni-
dimensionale) si trova, ad esempio, che a partire dal punto iniziale x1 = 1:2, x2 = 1 e
per c = 106 sono richieste 358 iterazioni e 536 valutazioni della funzione e del gradiente
per ottenere un'approssimazione dell'ottimo in cui f = :6 106 . Il metodo di Newton con
passo unitario richiede invece solo 5 iterazioni e fornisce una stima in cui f = :2 1027 .
Osservazioni analoghe si possono eettuare nella minimizzazione di molte altre funzioni

\dicili" che presentano zone a forte curvatura delle superci di livello. Funzioni di questo
tipo sono originate, tipicamente, dall'uso di tecniche di penalizzazione per la soluzione di
problemi vincolati.
Per superare tali dicolta si pu

o pensare di indebolire i requisiti imposti sulla riduzione
della funzione, pur continuando ad assicurare le proprieta di convergenza globale desider-
ate.
Tecniche di stabilizzazione di tipo non monotono si possono denire, ad esempio, ac-

cettando che la funzione possa aumentare durante un numero di passi pressato.
In particolare, in luogo del metodo di Armijo, si pu
o considerare l'algoritmo seguente,
che ne denisce una versione non monotona, in cui M e un intero pressato e si suppone
m(0) = 0 e m(k + 1) = minfm(k) + 1; M g.
65
Metodo di Armijo non monotono2
Dati: 2 (0; 1), 2 (0; 1=2), m(k) minfk; M g.
Passo 1. Si pone = 1 e si denisce il valore di riferimento:
Wk = max ff (xkj )g:

0jm(k)
Passo 2. Se risulta
f (xk + dk ) Wk + rf (xk )0 dk
si assume k = . Stop.
Passo 3. Si pone = e si ritorna al Passo 2.
Notiamo che, al Passo 2, in luogo di imporre la condizione di suciente riduzione usuale

ci si riferisce al valore Wk denito come massimo dei valori dell'obiettivo calcolati durante
(al piu) M iterazioni precedenti. Ci o consente quindi che f (xk+1 ) possa essere maggiore
di f (xk ), e, di conseguenza, che possa essere pi u facilmente accettato il passo unitario.
Si pu o dimostrare che utilizzando tale criterio, si puo ottenere una modica globalmente
convergente del metodo di Newton che non impone una riduzione monotona della funzione.
Un fatto notevole e che, pur ammettendo che la funzione possa aumentare da un'iterazione
all'altra, si puo continuare ad evitare la convergenza verso massimi locali.
possibile anche considerare criteri pi
E u generali di stabilizzazione in cui, sotto opportune
condizioni, non si eettuano controlli sul valore dell'obiettivo durante un numero pressato
di iterazioni. L'esperienza di calcolo sembra indicare che le versioni non monotone delle
modiche globalmente convergenti del metodo di Newton assicurano notevoli vantaggi
computazionali rispetto alle tecniche di tipo monotono, sia in termini di riduzione del
numero di valutazioni della funzione, sia in termini di riduzione del numero di iterazioni.
66
5.5 Fattorizzazione di Cholesky modicata*
Una delle modiche pi
u note del metodo di Newton e la fattorizzazione di Cholesky mod-
icata proposta da Gill e Murray (1972). Accenniamo qui a una possibile realizzazione
algoritmica.
Come si e detto in precedenza, ci si propone di denire una matrice diagonale Dk in modo
tale che la matrice r2 f (xk )+Dk risulti denita positiva e sia quindi fattorizzabile secondo
Cholesky nella forma
r2 f (xk ) + Dk = Lk L0k :
Per semplicare le notazioni, poniamo A = r2 f (xk ):
Se A e denita positiva la fattorizzazione di Cholesky di A si puo calcolare a partire
dall'equazione A = LL0 : Possiamo costruire L per colonne, osservando che per i j
dall'equazione precedente si ottiene
j
X
aij = lik ljk ;
k=1
da cui segue, per j = 1; : : : ; n:

v
u j1
u X
ljj = tajj 2
ljk ;
k=1
j1
X
aij lik ljk
k=1
lij = ljj ; i = j + 1; : : : ; n:
Se A non e denita positiva le formule precedenti non sono applicabili, in quanto potrebbe
essere richiesto calcolare la radice quadrata di un numero negativo oppure dividere per
un elemento nullo. Possiamo allora introdurre una perturbazione sulla diagonale di A in
modo da poter ancora eettuare la fattorizzazione, il che implica che la matrice perturbata
sara denita positiva.
A tale scopo introduciamo due scalari positivi 1 e 2 tali che 0 < 1 < 2 : Calcoliamo
allora la prima colonna di L ponendo
p
a11 se a11 > 1
l11 = p
2 altrimenti.
Successivamente poniamo:
ai1
li1 = ; i = 2; : : : ; n:
l11
Note le colonne 1; 2; : : : ; j 1 di L, possiamo calcolare la colonna jma ponendo:
8v
> u j1 j1
>
> u X X
<t ajj 2
ljk se ajj 2
ljk > 1
ljj =
>
> k=1 k=1
>
:p
2 altrimenti,
j1
X
aij ljk lik
k=1
lij = ljj ; i = j + 1; : : : ; n:
67
Per quanto riguarda la scelta dei parametri 1 e 2 uno de criteri proposti 3 pu
o essere
quello di calcolare la quantit
a
( )
@ 2 f (x ) @ 2 f (x )
k k
wk = max ;::: ;
(@x1 )2 (@xn )2
e assumere 1 = r1 wk ; 2 = r2 wk ; in cui r1 e r2 sono scelti inizialmente a valori molto

piccoli e possono essere modicati in base ai risultati dell'iterazione precedente.
da notare che valori eccessivamente piccoli di 2 tendono a rendere la matrice LL0 quasi
E
singolare e quindi possono far ottenere direzioni con kdk k molto grande. Il valore di 1 si
puo far dipendere dalla norma del gradiente, in modo da evitare che il metodo di Newton
sia alterato in prossimit
a di un punto di minimo. Si puo assumere, ad esempio,
r1 r minf1; krf (xk )kg
con r sucientemente piccolo, ad esempio r = 106 .

Una volta determinata la fattorizzazione di A = r2 f (xk ) si tratta di risolvere il sistema:
LL0 d = rf (xk ):
Cio pu
o essere ottenuto risolvendo prima (per eliminazione in avanti) il sistema triangolare
Ls = rf (xk );
e successivamente (per eliminazione all'indietro) il sistema triangolare
L0 d = s:
Le soluzioni dei due sistemi si ottengono assumendo:
@f (xk )=@x1
s1 = ;
l11
Pi1
@f (xk )=@xi + k=1 lik sk
si = ; i = 2; : : : ; n;
lii
e calcolando successivamente
sn
dn = ;
lnn
n
X
si lki dk
k=i+1
di = ; i = n 1; : : : ; 1:
lii
La direzione di ricerca ottenuta attraverso la fattorizzazione di Cholesky modicata sar

a
una direzione di discesa, lungo la quale e possibile eettuare, ad esempio, una ricerca
unidimensionale con il metodo di Armijo non monotono.
3
Cfr. D.P. Bertsekas Nonlinear Programming, Athena Scientic, 1995
68

Algott6 5

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Algott6 5

Caricato da

Copyright:

Formati disponibili

56

F (xk + s) = F (xk ) + J(xk )s + (xk ; s)

dove (xk ; s)=ksk ! 0 per s ! 0.

F (xk ) + J(xk )sk = 0:

Se J(xk ) e invertibile, si ottiene:

sk = [J(xk )]1 F (xk );

e quindi il metodo di Newton per la soluzione del sistema F (x) = 0 diviene:

xk+1 = xk [J(xk )]1 F (xk ): (5.1)

In un problema di minimizzazione non vincolata, il metodo di Newton si puo interpretare

scegliendo sk in modo da minimizzare (ove possibile) la funzione qk (s) rispetto a s. Poiche

rqk (s) = rf (xk ) + r2 f (xk )s;

sk = [r2 f (xk )]1 rf (xk ):

Il metodo di Newton e allora denito dall'iterazione

xk+1 = xk [r2 f (xk )]1 rf (xk ): (5.2)

5.2 Convergenza locale

(i) esiste un x? 2 D tale che F (x? ) = 0;

(ii) la matrice Jacobiana J(x? ) e non singolare;

kJ(x) J(y)k Lkx yk:

xk+1 x? = J(xk )1 [ J(xk )(xk x? ) + F (xk ) F (x? )];

Poiche F e dierenziabile, si ha:

e quindi, per la (5.3) si pu

Dalla diseguaglianza precedente si ottiene:

Il risultato espresso dalla proposizione precedente si pu

Proposizione 5.2 (Convergenza locale del metodo di Newton)

(i) esiste un x? 2 D tale che rf (x? ) = 0;

(ii) la matrice Hessiana r2 f (x? ) e non singolare;

(ii) la successione prodotta dal metodo di Newton pu

Denizione 5.1 (Modica globalmente convergente del metodo di Newton)

(i) se fxk g e innita ogni punto di accumulazione di fxk g e un punto stazionario di f

(ii) nessun punto di accumulazione di fxk g e un punto di massimo locale di f ;

(iii) se fxk g converge a un punto di minimo locale x? di f e r2 f (x) soddisfa le ipotesi

(a) metodi di ricerca unidimensionale applicati a una direzione di ricerca tipo-Newton,

Proposizione 5.3 Sia f : Rn ! R una funzione due volte continuamente dierenziabile

(i) fxk g converge a un punto x? in cui rf (x? ) = 0 e r2 f (x? ) e denita positiva;

(ii) esistono un indice k^ e un numero > 0 tali che, per ogni k k,

rf (xk )0 dk kdk k2 ; (5.6)

(iii) vale il limite:

f (xk + dk ) f (xk ) + rf (xk )0 dk :

5.3.1 Modiche della matrice Hessiana e ricerche unidimensionali

e successivamente ricavare dk risolvendo il sistema (anch'esso triangolare)

dk = [r2 f (xk )]1 rf (xk )

soddisfa le (ii) (iii) in un intorno di x ; di conseguenza la proposizione precedente assicura

Metodo di Newton modicato (MNM)

Dati: q 3, p 2, c1 > 0, c2 > 0.

Inizializzazione: Si sceglie x0 2 Rn e si pone k = 0.

1. Calcola rf (xk ); se rf (xk ) = 0 stop; altrimenti calcola r2 f (xk ).

rf (xk )0 dk c1 krf (xk )kq ; kdk kp c2 krf (xk )k;

d0k r2 f (xk )dk = rf (xk )0 [r2 f (xk )]1 rf (xk ) < 0:

Una direzione a curvatura negativa pu o essere particolarmente vantaggiosa in quanto e

Proposizione 5.4 Sia f : Rn ! R due volte continuamente dierenziabile e si sup-

dove sk 2 Rn e la soluzione del problema

5.4 Metodi di stabilizzazione non monotoni

Si consideri, ad esempio, la funzione (nota come funzione di Rosenbrock), denita da:

f (x) = c (x2 x21 )2 + (1 x1 )2 ;

Osservazioni analoghe si possono eettuare nella minimizzazione di molte altre funzioni

Per superare tali dicolta si pu

Tecniche di stabilizzazione di tipo non monotono si possono denire, ad esempio, ac-

Dati: 2 (0; 1), 2 (0; 1=2), m(k) minfk; M g.

Passo 1. Si pone = 1 e si denisce il valore di riferimento:

Wk = max ff (xkj )g:

Passo 3. Si pone = e si ritorna al Passo 2.

Notiamo che, al Passo 2, in luogo di imporre la condizione di suciente riduzione usuale

da cui segue, per j = 1; : : : ; n: