Metodi Ottimizzazione

Metodi di Ottimizzazione
Marco Sciandrone
Autore
Lorenzo Cioni
2 Luglio 2015
Indice
1 Parte prima 4
1.1 Insiemi convessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Esistenza di soluzione al problema di ottimizzazione . . . . . . . . . . . . 8
1.2.1 Funzioni continuamente differenziabili . . . . . . . . . . . . . . . 9
1.2.2 Trucchi per il calcolo di ∇f (x) e ∇2 f (x) . . . . . . . . . . . . . . 10
1.2.3 Funzione convessa a una variabile . . . . . . . . . . . . . . . . . . 10
1.3 Problema di regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Condizioni di ottimalità per ottimizzazione non vincolata . . . . . . . . . 12
1.4.1 Concetto di derivata direzionale . . . . . . . . . . . . . . . . . . . 13
1.4.2 Condizioni di discesa . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Condizioni di ottimalità del I ◦ ordine . . . . . . . . . . . . . . . . 14
1.4.4 Condizioni di ottimalità del II ◦ ordine . . . . . . . . . . . . . . . 14
Determinare una direzione di discesa . . . . . . . . . . . . . . . . 15
1.4.5 Condizioni di ottimalità nel caso quadratico . . . . . . . . . . . . 16
Problema dei minimi quadrati lineari . . . . . . . . . . . . . . . . 17
1.4.6 Determinare una direzione di discesa in Rn . . . . . . . . . . . . . 17
1.5 Algoritmi di ottimizzazione non vincolata . . . . . . . . . . . . . . . . . . 18
Schema generale . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Obiettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.1 Convergenza degli algoritmi . . . . . . . . . . . . . . . . . . . . . 19
1.5.2 Rapidità di convergenza degli algoritmi . . . . . . . . . . . . . . . 20
1.5.3 Classificazione degli algoritmi . . . . . . . . . . . . . . . . . . . . 20
1.5.4 Convergenza globale e locale degli algoritmi . . . . . . . . . . . . . 21
1.6 Metodi basati su ricerche unidimensionali . . . . . . . . . . . . . . . . . . 21
Analisi delle condizioni . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6.1 Ricerca del passo αk . . . . . . . . . . . . . . . . . . . . . . . . . 24
Il metodo di Armijo . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7 Metodo del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.7.1 Metodo del gradiente con passo costante . . . . . . . . . . . . . . 29
1.7.2 Metodo del gradiente nel caso di funzione quadratica strettamente
convessa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.7.3 Ruolo del metodo del gradiente nelle reti neurali . . . . . . . . . . 31
1.8 Metodo di Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.8.1 Il metodo di Newton . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.8.2 Modifiche globalmente convergenti del metodo di Newton . . . . . 36
1
2 Parte seconda 38
2.1 Metodi delle direzioni coniugate . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.1 Metodo delle direzioni coniugate . . . . . . . . . . . . . . . . . . . 39
2.1.2 Metodo del gradiente coniugato (funzione quadratica) . . . . . . . 41
Relazioni utili per determinare forme equivalenti di βk+1 . . . . . 41
Formalizzazione del metodo . . . . . . . . . . . . . . . . . . . . . 42
2.1.3 Metodo del gradiente coniugato (minimi quadrati lineari) . . . . . 43
2.1.4 Metodo del gradiente coniugato (caso generale) . . . . . . . . . . . 43
Schema generale . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.1.5 Condizioni di Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.2 Condizioni di ottimalità per problemi di ottimizzazione vincolata . . . . . 44
2.2.1 Condizioni di ottimalità di Fritz-John . . . . . . . . . . . . . . . . 45
2.2.2 Condizioni di qualificazione dei vincoli . . . . . . . . . . . . . . . 45
2.2.3 Condizioni di Karush-Kuhn-Tucker (KKT) . . . . . . . . . . . . . 47
2.2.4 Esempi di applicazione delle condizioni di ottimalità per problemi
di ottimizzazione vincolata . . . . . . . . . . . . . . . . . . . . . . 47
Problemi con vincoli di box . . . . . . . . . . . . . . . . . . . . . 47
Problemi con vincolo di simplesso . . . . . . . . . . . . . . . . . . 49
2.3 Metodi di Trust Region . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.1 Introduzione ai metodi Trust Region . . . . . . . . . . . . . . . . 49
2.3.2 Schema generale dei metodi Trust Region . . . . . . . . . . . . . . 50
2.3.3 Punti cruciali dello schema generale dei metodi Trust Region . . . 51
Definizione di sufficiente decremento del modello quadratico . . . 51
Calcolo della soluzione del sottoproblema in modo da ottenere suf-
ficiente decremento . . . . . . . . . . . . . . . . . . . . . 52
2.4 Metodi Quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.4.1 Interpretazione geometrica in una variabile . . . . . . . . . . . . . 57
2.4.2 I metodi Quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . 57
2.4.3 Conclusioni su BFGS . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5 Metodo del gradiente di Barzilai-Borwein . . . . . . . . . . . . . . . . . . 58
2.5.1 Caso quadratico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Interpretazione del metodo BB: metodo spettrale del gradiente . . 59
Interpretazione del metodo BB: metodo del gradiente con ritardo 60
2.5.2 Caso non quadratico . . . . . . . . . . . . . . . . . . . . . . . . . 61
Cenni sui metodi non monotoni . . . . . . . . . . . . . . . . . . . 61
2.6 Metodi per problemi di minimi quadrati . . . . . . . . . . . . . . . . . . 62
2.6.1 Problemi di minimi quadrati lineari . . . . . . . . . . . . . . . . . 62
Metodo incrementale (filtro di Kalman) . . . . . . . . . . . . . . . 63
2.6.2 Problemi di minimi quadrati non lineari . . . . . . . . . . . . . . 63
Metodo di Gauss-Newton . . . . . . . . . . . . . . . . . . . . . . 64
Metodo di Levenberg-Marquardt . . . . . . . . . . . . . . . . . . 65
2.7 Metodi per problemi a larga scala . . . . . . . . . . . . . . . . . . . . . . 65
2.8 Metodi senza derivate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.8.1 Metodi basati sulle approssimazioni alle differenze finite . . . . . . 66
2.8.2 Metodi di ricerca diretta . . . . . . . . . . . . . . . . . . . . . . . 67
Metodo di Nelder-Mead . . . . . . . . . . . . . . . . . . . . . . . 67
Metodi delle coordinate . . . . . . . . . . . . . . . . . . . . . . . 68
Metodo di Hook-Jeeves . . . . . . . . . . . . . . . . . . . . . . . . 70
2
2.9 Problemi di ottimizzazione vincolata . . . . . . . . . . . . . . . . . . . . 70
2.9.1 Insieme S definito mediante vincoli lineari . . . . . . . . . . . . . 72
2.9.2 Condizioni di ottimalità per problemi di vincoli di box . . . . . . . 73
2.9.3 Condizioni di ottimalità per problemi con vincolo di simplesso . . 74
2.10 Proiezione di punti su un insieme convesso . . . . . . . . . . . . . . . . . 75
2.10.1 Problemi con vincoli di box trattati mediante proiezioni . . . . . . 77
2.11 Metodo del gradiente proiettato . . . . . . . . . . . . . . . . . . . . . . . 77
2.11.1 Formalizzazione del metodo . . . . . . . . . . . . . . . . . . . . . 78
2.11.2 Criticità del metodo del gradiente proiettato . . . . . . . . . . . . 79
2.12 Metodo di Frank-Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.12.1 Formalizzazione del metodo . . . . . . . . . . . . . . . . . . . . . 79
3
Capitolo 1
Parte prima
Sia S ⊆ Rn insieme ammissibile, f : S → R funzione obiettivo (da minimizzare o

massimizzare), considero il problema:
min f (x)
x∈S
• Se S ⊂ {0, 1}n → ottimizzazione combinatoria.
• Se S ⊂ Zn → ottimizzazione intera.
• Se le variabili possono assumere valore continuo → ottimizzazione continua.
• Se le variabili possono assumere sia valori interi che continui → ottimizzazione mista
Nel corso ci occuperemo principalmente di ottimizzione continua.
min f (x)
x∈S⊆Rn
• Se S ≡ Rn ottimizzazione non vincolata.
• Se S ⊂ Rn ottimizzazione vincolata.
• Se f, gj , hi funzioni differenziabili → ottimizzazione differenziabile
gj (x) ≤ 0 j = 1, . . . , n
hi (x) = 0 i = 1, . . . , p
• Altrimenti ottimizzazione non differenziabile
Definizione 1 (Punto di minimo globale)
x∗ ∈ S : f (x∗ ) ≤ f (x) ∀x ∈ S
Definizione 2 (Punto di minimo locale)
x∗ ∈ S se ∃ una sfera aperta B(x∗ , c) tale che f (x∗ ) ≤ f (x) ∀x ∈ B(x∗ , c) ∩ S
4
Figura 1.1: Punti di minimo di una funzione
Osservazione: ogni punto di minimo globale è anche un punto di minimo locale.

Quando vale anche il viceversa ⇒ ipotesi di convessità.
Richiamo 1 (Norma di un vettore in Rn ) La norma di un vettore in Rn è una

funzione k k : Rn → R+ avente le seguenti proprietà:
1) kxk ≥ 0
2) kxk = 0 ⇒ x = 0
3) kxxk = kxkkxk
4) kx + yk ≤ kxk + kyk
Si definisco tre diverse norme:

v
u n
uX
• Euclidea: kxk2 = t( x2i )
i=1
n
X
• Norma 1 : kxk1 = |xi |
i=1
• Norma ∞: max |xi |

1≤i≤n
Una volta introdotta la funzione norma, si introduce il concetto di distanza. La distanza

tra due vettori x, y ∈ Rn è definita come
d(x, y) = kx − yk
Con il concetto di distanza si può indicare una sfera di centro x e raggio l l’insieme
B(x, l) = {x ∈ Rn : kx − xk < l}
5
1.1 Insiemi convessi
Definizione 3 (Insieme convesso) S è un insieme convesso se ∀x, y ∈ S il segmento
(1 − λ)x + λy ∈S ∀λ ∈ [0, 1]
Figura 1.2: Insieme convesso ed insieme non convesso
Proposizione 1 (La sfera B(x, l) insieme convesso) La sfera B(x, l) è un insieme

convesso:
∀w, z ∈ B(x, l) (1 − λ)w + λz ∈ B(x, l)
Dimostrazione
I due punti appartengono alla sfera, quindi per definizione kw − xk ≤ l kz − xk ≤ l.
Vogliamo dimostrare che il segmento che congiunge w e z è ancora contenuto nella
sfera, quindi che
k(1 − λ)w + λz − xk ≤ l ∀ λ ∈ [0, 1]
Allora:
k(1 − λ)w + λz − xk = k(1 − λ)w + λz − x + λx − λxk
= k[(1 − λ)w − (1 − λ)x] + [λz − λx]k
≤ k(1 − λ)(w − x)k + kλ(z − x)k
≤ |(1 − λ)|kw − xk + |λ|kz − xk
≤ (1 − λ)l + λl = l
Proprietà: l’intersezione di insiemi convessi è ancora un insieme convesso.
Definizione 4 (Funzione convessa su insieme convesso) Sia S insieme convesso e

f : S → R.
f è funzione convessa su S se:
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y) ∀x, y ∈ S
Figura 1.3: Funzione convessa
6
Proposizione 2 (Coincidenza tra minimi locali e globali nel caso di convessità)
Sia S ⊆ Rn un insieme convesso e f : Rn → R funzione convessa su S. Allora:
i) ogni punto di minimo locale è anche di minimo globale
ii) l’insieme dei punti di minimo è un insieme convesso
Dimostrazione
i) x∗ ∈ S è un punto di minimo locale. Dobbiamo far vedere che x∗ è anche un punto

di minimo globale.
∃ B(x∗ , l) : f (x∗ ) ≤ f (x) ∀ x ∈ B(x∗ , l) ∩ S
Devo dimostrare che ∀ x ∈ S risulta che f (x∗ ) ≤ f (x)
Per la convessità ho che z = (1 − λ)x∗ + λx λ ∈ [0, 1]
Quindi se λ = 0, z = x∗ ; λ = 1, z = x. Per λ sufficientemente piccolo ⇒ z ∈

B(x∗ , l) ∩ S. Allora:
f (x∗ ) ≤ f (z) = f ((1 − λ)x∗ + λx) ≤ (1 − λ)f (x∗ ) + λf (x)
per la convessità.
f (x∗ ) ≤ (1 − λ)f (x∗ ) + λf (x) ⇒ λf (x∗ ) ≤ λf (x) ⇒ f (x∗ ) ≤ f (x)
se λ sufficientemente piccolo.
ii) Sia X ∗ l’insieme dei punti di minimo e siano x∗ , y ∗ ∈ X ∗
f (x∗ ) = f (y ∗ ) ≤ f (x) ∀x∈S
Dobbiamo fare vedere che (1 − λ)x∗ + λy ∗ ∈ X ∗ ∀ λ ∈ [0, 1]
f ((1 − λ)x∗ + λy ∗ ) = f (x∗ ) = f (y ∗ )
f (x∗ ) ≤ f ((1 − λ)x∗ + λy ∗ ) ≤ (1 − λ)f (x∗ ) + λf (x∗ ) = f (x∗ )

per la convessità. Quindi:
f ((1 − λ)x∗ + λy ∗ ) = f (x∗ )
Osservazione: La convessità, quindi, ci indica la coincidenza tra minimi locali e

globali di una funzione.
Definizione 5 (Funzione strettamente convessa) Sia S un insieme convesso. f è

una funzione strettamente convessa se, ∀x, y ∈ S, x 6= y:
f ((1 − λ)x + λy) < f (1 − λ)f (x) + λf (y) ∀λ ∈ (0, 1)
7
1.2 Esistenza di soluzione al problema di ottimizzazio-
ne
I seguenti teoremi e le seguenti proposizioni trattano l’esistenza di soluzione a problemi
di ottimizzazione non vincolata del tipo
min f (x)
x∈S
Il problema di ottimizzazione può ammettere tre possibili conclusioni:
• Il problema non ammette soluzione (es. f (x) = e−x )
• La soluzione esiste ed è univoca (es. f (x) = x2 )
• Il problema ammette più di una soluzione
Proposizione 3 (Condizione sufficiente di unicità di soluzione) Sia S insieme

convesso e sia f : Rn → R funzione strettamente convessa su S. Allora se ∃ soluzione,
questa è unica.
Dimostrazione
Per assurdo considero l’esistenza di due soluzioni al problema. Siano x∗ , y ∗ ∈ X ∗ ⇒
f (x∗ ) = f (y ∗ ). Allora:
f (x∗ ) ≤ f (1 − λ)x∗ + λf (y ∗ ) < (1 − λ)f (x∗ ) + λf (y ∗ ) < f (x∗ )
Assurdo perché f (x∗ ) non può essere strettamente minore di sè stesso.
Teorema 4 (Weierstrass) Sia S un insieme compatto (chiuso e limitato) non vuoto.

Se f è continua su S ⇒ il problema ammette soluzione.
Dimostrazione
Poichè S è non vuoto ⇒ ∃ inf x∈S f (x) = f ∗ ≥ −∞.
Per definizione di estremo inferiore, ∃ una successione di punti {xk } ⊂ S tale che:
lim f (xk ) = f ∗ ≤ f (x) ∀x ∈ S (a)

k→∞
Poichè S compatto:
∃{xk }k : lim xk = x ∈ S
k∈K,k→∞
Dove {x }k è una sottosuccessione di {xk } e x è un punto di accumulazione. Dunque:

k
lim f (xk ) = f ∗ = f (x) (b)

k∈K,k→∞
Unendo insieme (a) e (b) si ottiene:
f (x) ≤ f (x) ∀x ∈ S ⇒ x è un punto di minimo globale
8
Richiamo 2 (Insieme di livello di funzione) Dato un numero α, definisco l’insieme
di livello della funzione f :
L(α) = {x ∈ Rn : f (x) ≤ α}
tale che l’insieme così definito sia non vuoto.
Proposizione 5 Sia f : Rn → R una funzione continua su Rn ed esista un insieme di

livello L(α) compatto. Allora:
Il problema minn f (x) ammette soluzione

x∈R
Dimostrazione
Il problema minx∈L(α) f (x) ammette soluzione per il teorema di Weiestrass. Allora:
∃ x∗ ∈ L(α) : f (x∗ ) ≤ f (x) ∀x ∈ L(α)
∀x ∈ L(α) f (x) > α ≥ f (x∗ ) ⇒ x∗ minimo globale su Rn
Proposizione 6 Sia f : Rn → R continua. Condizione sufficiente affinché tutti gli

insiemi di livello siano compatti è che f sia coerciva, cioè tale che:
∀{xk } : kxk k → ∞ ⇒ lim f (xk ) = +∞

k→∞
Da queste ultime due proposizioni si deduce che: condizione sufficiente affinché il

problema di ottimizzazione non vincolata minx∈Rn f (x) ammetta soluzione è che f sia
coerciva.
1.2.1 Funzioni continuamente differenziabili

Sia data una funzione f : Rn → R almeno continuamente differenziabile, si definisce il
vettore gradiente ∇f (x) ∈ Rn , come:
 δf (x) 
δx1
∇f (x) = 
 .. 
. 
δf (x)
δxn
Si definisce poi la matrice delle derivate seconde, o matrice Hessiana, ∇2 f (x) ∈ Rn∗n ,
come:
 2
δ 2 f (x)

δ f (x)
2 · · · δx1 xn
2
 δx. 1 . .. 
∇ f (x) =  ..
 .. .  
δ 2 f (x) δ 2 f (x)
δxn x1
··· δx2
n
9
1.2.2 Trucchi per il calcolo di ∇f (x) e ∇2 f (x)
In alcune condizioni il calcolo del vettore grandiente e della matrice Hessiana è quasi
immediato. Gli esempi che vengono riportati in seguito sono casi d’uso classici per la
semplificazione del calcolo.
• Caso di una variabile: f (x) = cT x
∇f (x) = c ∇2 f (x) = [0]n∗n
1
• Funzione quadratica: f (x) = xT Qx + cT x Q(n ∗ n) matrice simmetrica
2
∇f (x) = Qx + c ∇2 f (x) = Q
1 1
• Minimi quadrati lineari: f (x) = kAx − bk22 → (ax − b)2 f 0 = a(ax − b)
2 2
∇f (x) = AT (Ax − b) ∇2 f (x) = AT A
1.2.3 Funzione convessa a una variabile

Proposizione 7 (Condizione necessaria e sufficiente di convessità) Sia ∇f (x)
continua su Rn . f (x) convessa in Rn se e solo se:
f (y) ≥ f (x) + ∇f (x)T (y − x) ∀x, y ∈ Rn
Proposizione 8 (Condizione necessaria e sufficiente di convessità) Sia ∇2 f (x)

continua su Rn . f (x) convessa in Rn se e solo se ∇2 f (x) è semidefinita positiva ∀x ∈ Rn
Richiamo 3 (Matrici definite positive) Sia A una matrice n x n.

• A è definita positiva se xT Ax > 0 ∀x 6= 0
• A è semidefinita positiva se xT Ax ≥ 0 ∀x ∈ Rn
Se A è matrice simmetrica:
• A è definita positiva se gli autovalori sono > 0
• A è semidefinita positiva se gli autovalori sono ≥ 0

Valgono poi le seguenti disuguaglianze:
• xT Ax ≥ λ min(A)kxk2
• xT Ax ≤ λ max(A)kxk2
Richiamo 4 (Disuguaglianza di Cauchy-Schwarz) Siano a, b ∈ Rn . La disugua-

glianza
|aT b| ≤ kak2 kbk2
vale se e solo se a = λb.
10
Proposizione 9 (Condizione sufficiente di f strettamente convessa) Sia ∇2 f con-
tinua. Se ∇2 f (x) è definita positiva ∀x ∈ Rn ⇒ f strettamente convessa.
Osservazione: Sia f funzione quadratica. f è coerciva se e solo se A è definita po-

sitiva.
Dimostrazione
• f coerciva ⇒ A definita positiva
Per assurdo. Supponiamo che A non sia definita positiva. Allora ∃ y ∈ Rn :

y T Ay ≤ 0.
Senza perdita di generalità possiamo affermare che −cT y ≤ 0. Quindi:
{xk } = ky kxk → ∞ f (x∗ ) ≤ 0
Essendo minore di 0 non può tendere a +∞ ⇒ f non è coerciva. Assurdo per

ipotesi.
• A definita positiva ⇒ f coerciva

1 1
f (x) = xT Ax + cT x ≥ λ min(A)kxk2 − kck2 kxk2
2 2
1
≥ kxk[ λ min(A)kxk − kck] → ∞
2
Quindi ∀ xk , kxk k → ∞ lim f (xk ) = +∞
k→∞
Nel caso di minimi quadrati :
1
f (x) = kAx − bk2 A(nxn)
2
1 1 1
kxk2 = xT x kAx − bk2 = xT AT Ax − cT x + kbk2
2 2 2
Quindi condizione necessaria e sufficiente affinchè f sia coerciva è che A abbia
rango massimo, ovvero
Rango(A) = n
e che AT A sia definita positiva. Quindi:
– Se Rango(A) = n ⇒ f è coerciva ed esiste soluzione al problema

– Se Rango(A) < n ⇒ f non è lineare, ma il problema ammette comunque
soluzione
Quindi f è convessa poichè ∇2 f (x) = AT A.
11
1.3 Problema di regressione
u ∈ Rn → Modello matematico con un vettore di parametri x ∈ Rn → y(u, x)
Ad esempio un polinomio di 3◦ grado, con x i coefficienti
 
a0
 a1 
x =  ..
 

 . 
an
Sono quindi disponibili n osservazioni del fenomeno
(ui , xi ) i = 1, . . . , n
Definiamo dunque una funzione errore di valutazione
Ei (x) = y(ui , xi ) − y i i = 1, . . . , n
   
E1 (x) y(ui , x) − y 1
E(x) =  .. ..
=
   
. . 
n n
En (x) y(u , x) − y
Il problema di ottimizzazione diventa
min kE(x)k
x∈Rn
1.4 Condizioni di ottimalità per ottimizzazione non vin-

colata
Dato un problema di ottimizzazione del tipo:
min f (x)
x∈Rn
si introducono motivazioni teoriche e motivazioni algoritmiche per individuare condi-
zioni di ottimalità del problema stesso.
• Motivazioni teoriche
– Condizioni necessarie: individuano i candidati ad essere soluzione al problema.
– Condizioni sufficienti: costituiscono un certificato di ottimalità.
• Motivazioni algoritmiche: dallo studio delle condizioni di ottimalità spesso se
ne deducono idee algoritmiche per la risoluzione del problema (soprattutto nel caso
particolare).
Definizione 6 (Direzione di discesa per f in un punto x) Un vettore d ∈ Rn è

detto di discesa per f in un punto x se:
∃ t > 0 : f (x + td) < f (x) ∀ t ∈ (0, t]
Proposizione 10 (Condizione necessaria di ottimalità) Se x è un punto di minimo

locale allora non può esistere una direzione di discesa in x.
12
1.4.1 Concetto di derivata direzionale
Siano x, d ∈ Rn . Il limite:
f (x + td) − f (x)
lim+
t→0 t
se esiste è detto derivata direzionale. Supponiamo che ∇f (x) esista e sia continuo, allora:
f (x + td) − f (x)
lim+ = ∇f (x)T d
t→0 t
1.4.2 Condizioni di discesa

Proposizione 11 (Condizione sufficiente di discesa) Supponiamo ∇f (x) continuo.
Se ∇f (x)T d < 0 ⇒ d è di discesa.
Osservazione: in generale è non necessaria, cioè:

∃ ∇f (x)T d > 0 con d di discesa
Per essere anche necessaria ho bisogno dell’ipotesi di convessità di f .
Proposizione 12 (Condizione necessaria e sufficiente di discesa) Sia f funzione

convessa.
d ∈ Rn è di discesa ⇔ ∇f (x)T d < 0
Dimostrazione
Condizione sufficiente già dimostrata. Condizione necessaria: d è di discesa per ipotesi.
Poichè f è convessa e ∇f (x) esiste ed è continuo:
f (x) > f (x + td) ≥ f (x) + t∇f (x)T d
f (x) > f (x) + t∇f (x)T d ⇒ ∇f (x)T d < 0
Richiamo 5 (Coseno tra vettori in Rn ) Siano a, b ∈ Rn , a, b 6= 0. Il coseno θ tra i

due vettore è definito come
aT b
cos θ =
kakkbk
Interpretazione geometrica della condizione di discesa ∇f (x)T d < 0

Geometricamente ∇f (x)T d < 0 implica che, data una direzione d ∈ Rn , se d forma un
angolo ottuso con il gradiente ∇f (x) allora d è di discesa ⇒ il vettore antigradiente è
sempre una direzione di discesa.
In sintesi:
• Se ∇f (x)T d < 0 ⇒ d è di discesa.
• Se ∇f (x)T d = 0 non possiamo dire nulla.
• Se ∇f (x)T d > 0 ⇒ d è di salita.
13
1.4.3 Condizioni di ottimalità del I ◦ ordine
Proposizione 13 (Condizione necessaria di ottimalità del I ◦ ordine)
x∗ è un minimo locale ⇒ ∇f (x∗ ) = 0
Dimostrazione
Supponiamo per assurdo che ∇f (x∗ ) 6= 0. Prendo come d ∈ Rn d = −∇f (x∗ ) (direzione
antigradiente). Allora:
∇f (x∗ )d = ∇f (x∗ )(−∇f (x∗ )) = −k∇f (x∗ )k2 < 0

Ho trovato una direzione di discesa quindi x∗ non è un minimo. Assurdo per ipotesi.
Proposizione 14 (Condizione necessaria e sufficiente di ottimalità del I ◦ ordine)

Sia f convessa. Allora:
x∗ è un minimo globale ⇔ ∇f (x∗ ) = 0
Dimostrazione
Condizione necessaria già dimostrata. Dimostriamo la condizione sufficiente, ovvero che:
∇f (x∗ ) = 0 ⇒ x∗ è minimo locale

Dobbiamo far vedere che f (x∗ ) ≤ f (x) ∀x ∈ Rn . Poichè f è convessa:
∀x ∈ Rn f (x) ≥ f (x∗ ) + ∇f (x∗ )T (x − x∗ ) = f (x∗ )

Quindi x∗ è un punto di minimo globale.
1.4.4 Condizioni di ottimalità del II ◦ ordine

Richiamo 6 (Continua differenziabilità) Se ∇f esiste ed è continuo in Rn allora:
f (x + d) = f (x) + ∇f (x)T d + α(x, d)
α(x, d)
lim =0
kdk→0 kdk
Se ∇2 f esiste ed è continua su Rn allora:

1
∀ x ∈ Rn , f (x + d) = f (x) + ∇f (x)T d + ∇2 f (x)d + β(x, d)
2
β(x, d)
lim =0
kdk→0 kdk2
Definizione 7 (Direzione a curvatura negativa) Una direzione d ∈ Rn è detta a

curvatura negativa se
dT ∇2 f (x)d < 0
14
Proposizione 15 (Condizione sufficiente di discesa del II ◦ ordine) Supponiamo
che ∇2 f esista e sia continua. Se d ∈ Rn è una direzione a curvatura negativa tale che
∇f (x∗ )T d = 0 ⇒ d è direzione di discesa
Dimostrazione
Poichè f è differenziabile 2 volte
1
f (x∗ + td) = f (x∗ ) + t∇f (x∗ )T d + t2 dT ∇2 f (x∗ )d + β(x∗ , td)
2
f (x∗ + td) − f (x∗ ) 1 T 2 ∗ β(x∗ , td)
= d ∇ f (x )d + <0
t2 2 t2
f (x∗ + td) < f (x∗ ) per t sufficientemente piccolo ⇒ d è di discesa
Proposizione 16 (Condizione necessaria di ottimalità del II ◦ ordine) Sia x∗ un

punto di minimo locale. Allora:
i) ∇f (x∗ ) = 0
ii) ∇2 f (x∗ ) è semidefinita positiva.
Dimostrazione
i) Già dimostrata.
ii) Per assurdo.

Supponiamo che ∇2 f (x) non sia semidefinita positiva ⇒ ∃ d : dT ∇2 f (x∗ )d < 0.
∇f (x∗ ) = 0 ⇒ ∇f (x∗ )T d = 0
Quindi d è direzione di discesa in x∗ . Assurdo perchè x∗ è un minimo per ipotesi.
Determinare una direzione di discesa

Sia x∗ : ∇f (x∗ ) = 0 e supponiamo ∇2 f (x∗ ) non definita positiva. Supponiamo che ∃
almeno un autovalore λi < 0.
Sia ui l’autovettore corrispondente all’autovalore λi , quindi tale che
∇2 f (x∗ )ui = λi ui
per la definizione di autovettore. Allora
uTi ∇2 f (x∗ )ui = λi uTi ui = λi kui k2 < 0

Pongo d = ui direzione di discesa. Se ∇2 f (x∗ ) non è definita positiva e ∇f (x∗ ) è
uguale a 0 prendo l’autovettore corrispondente all’autovalore negativo.
15
Proposizione 17 (Condizione sufficiente di ottimalità del II ◦ ordine) Sia x∗ :
∇f (x∗ ) = 0. Supponiamo che ∇2 f (x∗ ) sia definita positiva (quindi è localmente stretta-
mente convessa) allora x∗ è un minimo locale.
Proposizione 18 (Condizione sufficiente di ottimalità del II ◦ ordine) Sia x∗ :

∇f (x∗ ) = 0. Supponiamo che ∃ B(x∗ , l) : ∇2 f (x) sia semidefinita positiva ∀x ∈ B(x∗ , l).
Allora x∗ è un minimo locale.
1.4.5 Condizioni di ottimalità nel caso quadratico

Il caso quadratico viene studiato e tenuto in particolare considerazione poichè è la funzione
non lineare più semplice.
Il problema di ottimizzazione nel caso quadratico si traduce in
1
min xT Qx − cT x
2
x∈Rn
con Q matrice simmetrica n x n. Come abbiamo già calcolato in precedenza
∇f (x) = Qx − c ∇2 f (x) = Q
Proposizione 19 (Condizioni di ottimalità caso quadratico)
i) Il problema ammette soluzione se e solo se Q è semidefinita positiva ed il sistema

Qx − c = 0 ammette soluzione.
ii) Se Q è semidefinita positiva, ogni soluzione nel sistema Qx − c = 0 è soluzione al

problema di ottimizzazione.
iii) La soluzione al problema di ottimizzazione è unica se e solo se Q è definita positiva.
Dimostrazione
i) Il problema ammette soluzione ⇒ ∃ x∗ minimo globale.

Per la condizione necessaria di secondo ordine abbiamo che
∇f (x∗ ) = 0 ∇2 f (x∗ ) semidefinita positiva
quindi Q è semidefinita positiva.

Poichè Q semidefinita positiva → f è convessa. Se il sistema Qx = c ammette
soluzione ⇒ ∃ x∗ : ∇f (x∗ ) = 0.
⇓
x∗ è un minimo globale ed è soluzione. Il problema ammette quindi soluzione.
ii) Se Q semidefinita positiva ogni soluzione del sistema Qx − c = 0 è soluzione al

problema. Poichè Q semidefinita positiva, f è convessa. Il sistema Qx − c = 0 è
uguale a ∇f (x) = 0.
⇓
x è minimo globale ⇒ ogni soluzione al sistema è soluzione.
16
iii) Supponiamo che la soluzione al problema sia unica ⇒ Q definita positiva.
Il sistema Qx − c = 0 deve ammettere un’unica soluzione.
Q non singolare (gli autovalori sono tutti 6= 0). Quindi:
λi 6= 0, λi ≥ 0 ⇒ λi > 0 ⇒ Q definita positiva
Se Q è definita positiva, f è convessa ed il sistema Qx − c = 0 ammette soluzione.

Quindi la soluzione al problema è unica.
Problema dei minimi quadrati lineari

Sia dato il problema di ottimizzazione
1
minn kAx − bk2
x∈R 2
1
f (x) = (Ax − b)T (Ax − b)
2
1 T T
= x A Ax − (AT b)T x
2
1 T
= x Qx − cT x
2
con Q = AT A e c = (AT b). Allora:
∇f (x) = Qx − c = AT (Ax − b) ∇2 f (x) = AT A
Utilizzando il risultato ottenuto in precedenza: il problema ammette soluzione se e solo

se:
• ∇2 f (x) = AT A semidefinita positiva
• AT Ax = AT b ammette soluzione?
– Se Rango(A) = n ⇒ AT A definita positiva ⇒ il problema ammette soluzione

– Se Rango(A) < n ⇒ AT A semidefinita positiva, ma il sistema ammette
comunque soluzione
AT (Ax − bR − bN ) = 0 AT (Ax − bR ) = 0
ammette soluzione.
1.4.6 Determinare una direzione di discesa in Rn

Sia D = {d1 , . . . , dn , −d1 , . . . , −dn } una base di Rn . Allora:
Se ∇f (x) 6= 0 ⇒ ∃ d ∈ D : ∇f (x)T d < 0

Dimostrazione
17
n
X X X
−∇f (x) = βi di = βi di + kβi k(−di )
i=1 i∈I + i∈I −
con I + = {i : βi > 0} e I − = {i : βi < 0}.

Allora abbiamo che:
X X
−∇f (x)T ∇f (x) = βi ∇f (x)T di + kβi k∇f (x)T (−di ) < 0
i∈I + i∈I −
∃ almeno un i ∈ I + , I − : ∇f (x)T di < 0 oppure ∇f (x)T (−di ) < 0
1.5 Algoritmi di ottimizzazione non vincolata

Sia considerato un problema di ottimizzazione non vincolata
min f (x)
x∈Rn
Se ∇f (x) esiste ed è continuo si parla di problemi di ottimizzazione smooth.

Consideriamo x0 ∈ Rn il punto iniziale. Assumiamo che l’insieme di livello L0 = {x ∈
Rn : f (x) ≤ f (xo )} sia compatto ⇒ la soluzione al problema esiste.
Posso così definire l’insieme dei punti stazionari, ovvero dei punti che soddisfano le
condizioni necessarie di ottimalità del primo ordine:
Λ = {x ∈ Rn : ∇f (x) = 0}
Schema generale
Dati: x0 ∈ Rn , k = 0 (k è il contatore delle iterazioni).
Algoritmo 1 Schema generale

while xk 6∈ Λ do
calcola uno spostamento sk ∈ Rn
poni xk+1 = xk + sk
k =k+1
end while
abbiamo quindi {xk } successione di punti, {f (xk )} la successione di valori della

funzione f e {∇f (xk )} è la successione del vettore gradiente.
Obiettivi
Gli obiettivi nella valutazione degli algoritmi sono:
• {xk } → esistenza di punti di accumulazione
• {f (xk )} → convergenza
• {∇f (xk )} → {k∇f (xk )k} dovrebbe tendere a 0.
18
Proposizione 20 Supponiamo L0 compatto (chiuso e limitato), f (xk+1 ) ≤ f (xk ). Allora:
i) {xk } ammette punti di accumulazione e ogni punto di accumulazione ∈ L0
ii) {f (xk )} converge
Dimostrazione
i) f (xk+1 ) ≤ f (xk ) ⇒ f (xk ) ≤ f (x0 ) ∀k = 0, . . . , ∞
Questo vuol dire che {xk } ⊂ L0 , che è compatto per ipotesi. Poichè L0 è limitato,
{xk } è una sequenza limitata, e quindi ammette punti di accumulazione.
Inoltre, poichè L0 è chiuso, ciascun punto di accumulazione appartiene ad L0 .
ii) Se f (xk+1 ) ≤ f (xk ) parliamo di una successione di valori monotonicamente decre-

scenti. Quindi:

k −∞
{f (x )} → f
> −∞
Ma poichè L0 è compatto, allora è limitato inferiormente, quindi {f (xk )} converge.
1.5.1 Convergenza degli algoritmi

• Convergenza finita
Si parla di convergenza finita se l’algoritmo termina (trova quindi un punto stazio-
nario) in un numero finito di iterazioni (ad esempio il caso quadratico). Quindi:
∃ k : ∇f (xk ) = 0
• Convergenza asintotica forte

Si parla di convergenza asintotica forte se la successione di punti {xk } ammette
punti di accumulazione ed ogni punto di accumulazione è un punto stazionario.
Quindi:
lim k∇f (xk )k = 0
k→∞
• Convergenza asintotica debole

Si parla di convergenza asintotica debole se la successione di punti {xk } ammette
punti di accumulazione ed esiste almeno un punto di accumulazione stazionario.
Quindi:
lim inf{k∇f (xk )k} = 0
k→∞
19
1.5.2 Rapidità di convergenza degli algoritmi
Supponiamo che {xk } → x∗ , con x∗ punto stazionario (∇f (x∗ ) = 0).
• Rapidità di convergenza lineare

Si parla di rapidità di convergenza lineare se:
∃ σ ∈ (0, 1) : kxk+1 − x∗ k ≤ σkxk − x∗ k
• Rapidità di convergenza superlineare

Si parla di rapidità di convergenza superlineare se:
kxk+1 − x∗ k
lim =0
k→∞ kxk − x∗ k
La rapidità superlineare implica la rapidità lineare.
• Rapidità di convergenza quadratica

Si parla di rapidità di convergenza quadratica se:
∃ c > 0 : kxk+1 − x∗ k ≤ ckxk − x∗ k2
La rapidità quadratica implica la rapidità superlineare.
1.5.3 Classificazione degli algoritmi

• Algoritmi che utilizzano f e ∇f
– Metodo del gradiente

– Metodo del gradiente coniugato
– Metodo quasi-Newton
• Algoritmi che utilizzano f , ∇f e ∇2 f
– Metodo tipo Newton
• Algoritmi che utilizzano solo f
– Metodi senza derivate
Per la classe specifica di problemi di minimi quadrati non lineari, quindi del tipo
m
X
minn Zi2 (x)
x∈R
i=1
con Zi funzioni non lineari, si utilizzano:
• Metodo di Gauss-Newton
• Metodo di Lelemberg-Mardvart
20
1.5.4 Convergenza globale e locale degli algoritmi
• Algoritmi localmente convergenti
Si parla di algoritmi localmente convergenti se:
Dato x∗ : ∇f (x∗ ) = 0 ∃ B(x∗ , l) se x0 ∈ B(x∗ , l) ⇒ {xk } → x∗
• Algoritmi globalmente convergenti

Si parla di algoritmi globalmente convergenti se:
∀ x0 ⇒ {xk } → x∗ : ∇f (x∗ )
Per progettare algoritmi globalmente convergenti posso usare diverse tecniche:
– Strategia basata su ricerche unidimensionali (Line Search)

– Strategia basata su regione di confidenza (Trust Region)
– Metodi di ricerca diretta (basati sulla valutazione di f )
1.6 Metodi basati su ricerche unidimensionali

Lo schema generale dei metodi basati su ricerche unidimensionali (Line Search) ha come
dati in ingresso x0 ∈ Rn punto iniziale e k = 0 il contatore di iterazioni.
Algoritmo 2 Metodi basati su ricerche unidimensionali

while xk 6∈ Λ do
calcola una direzione di ricerca dk ∈ Rn
calcola un passo αk ∈ Rn
xk+1 = xk + αk dk
k =k+1
end while
Il requisito minimo è che dk sia una direzione di discesa, quindi che ∇f (xk )T dk < 0.
Definizione 8 (Funzione di forzamento) Sia σ : R+ → R+ e presa una successione

{tk } ⊂ R+ , σ è una funzione di forzamento se
lim σ(tk ) = 0 ⇒ lim tk = 0

k→∞ k→∞
Un esempio di funzione di forzamento
σ(t) = ct c>0
Proposizione 21 (Condizioni di convergenza globale del metodo) Sia ∇f (x) con-

tinuo e L0 compatto ( ipotesi sul problema).
Siano verificate le seguenti condizioni ( condizioni sull’algoritmo):
• f (xk+1 ) ≤ f (xk )
21
|∇f (xk )T dk |
• ∃ σ funzione forzamento tale che ≥ σ(k∇f (xk )k) valga cioè la condi-
kdk k
zione d’angolo su dk
∇f (xk )T dk
• lim =0
k→∞ kdk k
Allora:
i) {xk } ammette punti di accumulazione ed ogni punto di accumulazione appartiene

ad L0 .
ii) {f (xk )} converge.
iii) lim k∇f (xk )k = 0

k→∞
iv) Ogni punto di accumulazione di {xk } è un punto stazionario.
Dimostrazione
i) Già dimostrata
ii) Già dimostrata
iii)
|∇f (xk )T dk |
≥ σ(k∇f (xk )k) ≥ 0 (1.1)
kdk k
|∇f (xk )T dk |
lim =0 (1.2)
k→∞ kdk k
Per (1.1) e (1.2) si ha che
lim σ(k∇f (xk )k) = 0
k→∞
⇓
k→∞
per la definizione di funzione di forzamento.
iv) Sia x un punto di accumulazione. Allora:
∃ K ⊆ {0, 1, . . . , ∞} : lim xk = x
k∈K,k→∞
per la definizione di punto di accumulazione. Quindi:
lim k∇f (xk )k = 0 = k∇f (x)k

k∈K,k→∞
per la continuità del gradiente.
22
Analisi delle condizioni
a) f (xk+1 ) ≤ f (xk ) la soddisfo con dk e αk .
|∇f (xk )T dk |
b) ≥ σ(k∇f (xk )k) la soddisfo con dk .
kdk k
∇f (xk )T dk
c) lim = 0 la soddisfo mediante la ricerca unidimensionale di αk ,
k→∞ kdk k
supponendo dk direzione di discesa.
Soddisfare la condizione (b) Prendo σ(t) = ct , c > 0 e una direzione dk di discesa,

quindi tale che ∇f (xK )T dk < 0. Allora:
∇f (xk )T dk ≤ −ck∇f (xk )kkdk k
condizione d’angolo, ovvero, considerato θ l’angolo tra il gradiente e la direzione dk , ho

che:
∇f (xk )T dk
cos θ = ≤ −c
k∇f (xk )T kkdk k
In pratica la direzione dell’ antigradiente, dk = −∇f (xk ), soddisfa la condizione d’an-
golo con c = 1.
Richiamo 7 (Teorema della media) Sia ∇f continuo.
f (x + d) = f (x) + ∇f (ξ)T d con ξ = x + θd, θ ∈ [0, 1)
Ponendo y = x + d:
f (y) = f (x) + ∇f (ξ)T (y − x)
con ξ = x + θ(y − x) e θ ∈ (0, 1).
Richiamo 8 (Teorema di Taylor) Se ∇2 f continuo

1
f (x + d) = f (x) + ∇f (x)T d + dT ∇2 f (ξ)d
2
con ξ = x + θ(y − x) e θ ∈ (0, 1). Ponendo y = x + d:
1
f (y) = f (x) + ∇f (x)T (y − x) + (y − x)T ∇2 f (ξ)(y − x)
2
Soddisfare la condizione (c) La direzione dk è ora assegnata. Il requisito minimo è

che ∇f (xk )T dk < 0, cioè che dk sia di discesa.
Definisco Φ(α) = f (xk + αdk ), una funzione a una variabile (α), poichè xk è fissato (è
il punto corrente dell’iterazione dell’algoritmo).
Φ̇(α) = ∇f (xk + αdk )T dk Φ̇(0) = ∇f (xk )dk < 0

La funzione Φ è quindi, a partire dal punto α = 0, almeno inizialmente descrescente,
poichè ∇f (xk )dk < 0.
23
1.6.1 Ricerca del passo αk
• Ricerca di linea esatta
Il metodo di ricerca di linea esatta determina un passo αk tale che Φ̇(αk ) = 0.
Se Φ(α) è convessa ⇒ αk : Φ̇(αk ) = 0 è un punto di minimo globale di Φ(α),
quindi il metodo è fattibile se la funzione f (x) è quadratica, ovvero del tipo f (x) =
1 T
2
x Qx − cT x e Q è una matrice n x n simmetrica e definita positiva.
Nel caso in cui f sia strettamente convessa anche Φ(α) = f (xk +αdk ) è strettamente
convessa. Quindi:
1 T
Φ(α) = f (xk ) + α∇f (xk )T dk + α2 dk Qdk
2
applicando il teorema di Taylor.
T
Φ̇(α) = ∇f (xk )T dk + αdk Qdk = 0
−∇f (xk )T dk
αk =
dk T Qdk
che rappresenta la formula analitica per il calcolo di αk .
• Ricerca di linea inesatta

Data una qualsiasi f continuamente differenziabile, con l’ipotesi che dk sia di discesa
(∇f (xk )T dk < 0). Si applica il Metodo di Armijo.
Il metodo di Armijo
La ricerca di linea esatta, ossia la determinazione di un αk che risolva il problema di
ottimizzazione è notevolmente dispendiosa, soprattutto per problemi in cui f è non
convessa.
D’altra parte, non esistono particolari vantaggi, dal punto di vista del funzionamento
complessivo dei metodi di minimizzazione, nel determinare il punto di minimo lungo dk .
Si preferisce quindi adottare criteri approssimati che siano più facilmente utilizzabili dal
punto di vista computazionale e garantiscano al tempo stesso opportune proprietà di
convergenza.
Viene tracciata una retta a partire dal punto Φ(xk ) con pendenza verso il basso.
f (xk ) + γα∇f (xk )T dk γ ∈ (0, 1)

Considero poi un passo di prova iniziale, ∆k . Se Φ(∆k ) ≥ f (xk ) + γ∆k ∇f (xk )T dk
(il valore della funzione calcolato in ∆k si trova al di sopra della retta tracciata) allora
riduco il passo di δ ∈ (0, 1) finchè Φ(δ∆k ) non si trova sotto la retta.
Condizione di Armijo La condizione di Armijo ci indica quale sia il sufficiente de-

cremento, ovvero quanto la funzione debba essere minore abbastanza rispetto alla f (xk ):
f (xk + αk dk ) ≤ f (xk ) + γαk ∇f (xk )T dk < f (xk )
24
Formalizzazione Sia xk il punto corrente e dk la direzione corrente di discesa, quindi
tale che ∇f (xk )T dk < 0.
Siano ∆k > 0 il passo iniziale, δ ∈ (0, 1) il fattore di contrazione e γ ∈ (0, 1) l’inclinazione
della retta.
Pongo α = ∆k , j = 0 (j contatore di iterazioni).
Algoritmo 3 Metodo di Armijo

while f (xk + αdk ) > f (xk ) + γα∇f (xk )T dk do
α = δα
j =j+1
end while
Alla fine del ciclo ho αk = α.
Dobbiamo ora dimostrare che il metodo:

• Sia ben definito (termini cioè in un numero finito di operazioni).
• Consenta di soddisfare la terza condizione di convergenza globale, cioè:
∇f (xk )T dk
lim =0
k→∞ kdk k
Proposizione 22 (Correttezza del metodo di Armijo)

i) Il metodo di Armijo termina in un numero finito di operazioni con un passo
αk tale che
f (xk + αk dk ) ≤ f (xk ) + γαk ∇f (xk )T dk
ii) Il passo αk è tale che una delle due seguenti condizioni è verificata:
a) αk = ∆k
b) αk ≤ δ∆k
k k k
cioè tale che f (xk + αδ dk ) > f (xk )+γ αδ ∇f (xk )T dk con αδ che rappresenta
il tentativo precedente dove non è soddisfatta la condizione di Armijo.
Quindi αk ≤ δ∆k significa cioè che ho fatto almeno un tentativo.
Dimostrazione
dk è una direzione di discesa per ipotesi. Supponiamo per assurdo che il metodo di
Armijo non termini, cioè che j → ∞. Allora:
f (xk + δ j ∆k dk ) > f (xk ) + γδ j ∆k ∇f (xk )T dk ∀ j = 0, 1, . . . , ∞
f (xk + δ j δ k dk ) − f (xk )
> γ∇f (xk )T dk
δ j ∆k
La prima parte della disequazione al limite tende a ∇f (xk )T dk . Quindi:
∇f (xk )T dk > γ∇f (xk )T dk ⇒ (1 − γ)∇f (xk )T dk > 0

assurdo perchè γ ∈ (0, 1) e ∇f (xk )T dk < 0 per ipotesi (dk è di discesa).
25
Condizione di Armijo e funzione quadratica Consideriamo ora il caso di
funzione quadratica. Quindi, per il risultato calcolato il precedenza, il passo ottimo
αk è calcolato con
−∇f (xk )T dk
αk =
dk T Qdk
Il passo ottimo soddisfa la condizione di Armijo se e solo se γ ∈ (0, 21 ].
Dimostrazione
1 T
f (xk + αk dk ) = f (xk ) + αk ∇f (xk )T dk + (αk )2 dk Qdk
2
1 T
= f (xk ) + αk [∇f (xk )T dk + αk dk Qdk ]
2
1
= f (xk ) + αk ∇f (xk )T dk
2
valido se e solo se γ ≤ 21 .
Proposizione 23 (Convergenza del metodo di Armijo) Sia ∇f continuo e

sia L0 compatto. Supponiamo che:
– ∇f (xk )T dk < 0 → dk direzione di discesa

k )T dk |
– ∆k ≥ 1
kdk k
σ( |∇f (x
kdk k
)
Allora:
a) f (xk+1 ) < f (xk )

∇f (xk )T dk
b) lim =0
k→∞ kdk k
Dimostrazione
a) Dalla condizione di Armijo segue che
f (xk+1 ) ≤ f (xk ) + γαk ∇f (xk )T dk < f (xk )
b) Da (a) segue che {xk } ⊂ L0 , con L0 compatto per ipotesi. Da Armijo segue
che
∇f (xk )T dk
f (xk ) − f (xk+1 ) ≥ −γαk ∇f (xk )T dk = −γαk kdk k ≥0
kdk k
{f (xk )} è monotona decrescente (poichè f (xk+1 ) < f (xk )) limitata inferior-

mente (per la compattezza di L0 ). Ne viene che
lim f (xk ) = f > −∞

k→∞
26
quindi
k k+1 k ∇f (xk )T dk
k
lim [f (x ) − f (x )] = 0 ⇒ lim γα kd k =0
k→∞ k→∞ kdk k
∇f (xk )T dk
lim αk kdk k =0 (1.3)
k→∞ kdk k
Supponiamo ora per assurdo che
∇f (xk )T dk
lim 6= 0
k→∞ kdk k
Allora:
– {xk } limitata perchè L0 compatto
k
– { kddk k } limitata perchè la norma vale 1
– k∇f (xk )k limitata
∇f (xk )T dk
Quindi { } è una sequenza limitata e dunque ammette punti di
kdk k
accumulazione, quindi:
∇f (xk )T dk
∃ K ⊆ {0, 1, . . .} : lim = −µ < 0 con µ > 0 (1.4)
k∈K,k→∞ kdk k
Mettendo insieme 1.3 e 1.4 si ottiene
lim αk kdk k = 0 (1.5)

k→∞
k dk
Ma {x } è limitata e { k } è limitata e ciò implica che
kd k
(
limk∈K1 ,k→∞ xk = x
∃ K1 ⊆ K : k
limk∈K1 ,k→∞ kddk k = d
Quindi, per la continuità di ∇f , ho che
∇f (xk )T dk
lim = ∇f (x)d = −µ < 0
k∈K1 ,k→∞ kdk k
- Caso αk = δk .
Supponiamo che ∃ K2 ⊆ K1 : αk = ∆k , ∀ k ∈ K2 . Dalle ipotesi ho che
1 |∇f (xk )T dk |
∆k ≥ σ( )
kdk k kdk k
da cui segue
k |∇f (xk )T dk |
k
∆ kd k ≥ σ( )
kdk k
|∇f (xk )T dk |
∀ k ∈ K2 αk kdk k ≥ σ( )≥0
kdk k
27
Dalla espressione precedente e dalla 1.5 si ottiene che
|∇f (xk )T dk |
lim =0
k∈K1,k→∞ kdk k
Assurdo, perchè quel limite vale −µ < 0.
- Caso αk ≤ δk .
Per k ∈ K1 e k sufficientemente grande abbiamo che

αk k αk
αk ≤ δ∆k ≤ f (xk + d ) > f (xk ) + γ ∇f (xk )T dk
δ δ
su questa applichiamo il teorema della media
αk k αk
f (xk + d ) = f (xk ) + ∇f (ξ k )T dk
δ δ
k
con ξ = xk + σ αδ dk e σ k ∈ (0, 1). Otteniamo dunque che
αk αk
f (xk ) + ∇f (ξ k )T dk > f (xk ) + γ ∇f (xk )T dk
δ δ
k T k k k
∇f (ξ ) d ∇f (x )d
k
>γ (1.6)
kd k kdk k
xk → x per k ∈ K1 , k → ∞ (1.7)
ξ k → x per k ∈ K1 , k → ∞ perchè αk kdk k → 0 (1.8)
Unendo i risultati ottenuti in 1.6, 1.7, 1.8 e la continuità di ∇f otteniamo che,
mandando k → ∞, k ∈ K1 :
∇f (x)T d ≥ γ∇f (x)T d
(1 − γ)∇f (x)T d ≥ 0
Assurdo poichè (1 − γ) > 0 e ∇f (x)T d = µ < 0.
1.7 Metodo del gradiente

Il metodo del gradiente è il metodo di ricerca più rapido, chiamato anche steppest descent
method.
In ingresso abbiamo x0 ∈ Rn , k = 0, con x0 punto iniziale e k il contatore delle
iterazioni.
Algoritmo 4 Metodo del gradiente
while ∇f (xk ) 6= 0 do
poni dk = −∇f (xk )
calcola αk con il metodo di Armijo
poni xk+1 = xk + αk dk
k =k+1
end while
Vogliamo vedere se il metodo converge globalmente. Le condizioni sufficienti di con-

vergenza globale sono:
28
1) f (xk+1 ) ≤ f (xk )
|∇f (xk )T dk |
2) ≥ σ(k∇f (xk )k)
kdk k
∇f (xk )T dk
3) lim =0
k→∞ kdk k
La numero (2) è verificata se prendo σ(t) = t, poichè:
dk = −∇f (xK ) k∇f (xk )k ≥ k∇f (xk )k
La (1) e la (3) sono soddisfatte da Armijo, quindi il metodo converge globalmente (è
il primo algoritmo a farlo).
1.7.1 Metodo del gradiente con passo costante

Il metodo del gradiente con passo costante introduce una costante µ > 0 che rappresenta
il passo dell’algoritmo, anzichè calcolarlo con il metodo di Armijo.
Algoritmo 5 Metodo del gradiente con passo costante

while ∇f (xk ) 6= 0 do
poni dk = −∇f (xk )
poni xk+1 = xk + µdk
k =k+1
end while
Si introduce poi una nuova ipotesi sul gradiente, ovvero che questo sia Lipschitz
continuo su Rn .
Richiamo 9 (Lipschitz continuità del gradiente) Il gradiente è Lipschitz continuo

su Rn se
∃ L > 0 : ∀ x, y ∈ Rn k∇f (y) − ∇f (x)k ≤ Lky − xk
Con queste ipotesi abbiamo che:
Proposizione 24
1
∀ d ∈ Rn f (x + d) ≤ f (x) + ∇f (x)T d + Lkdk2
2
con L costante di Lipschitz.
Proposizione 25 (Convergenza del metodo del gradiente con passo costante)

Sia ∇f Lipschitz continuo con costante di Lipschitz L e sia L0 compatto.
xk+1 = xk − µk ∇f (xk )
Il passo µk è tale che
2−ε
ε ≤ µk ≤
L
29
⇓
{xk } ammette punti di accumulazione ed ogni punto di accumulazione è un punto stazio-
nario.
→ in pratica però non è utilizzato perchè non si conosce L.
Dimostrazione
Dalla proposizione precedente, ponendo d = −µk ∇f (xk ) abbiamo che
1
f (xk − µk ∇f (xk )) ≤ f (xk ) − µk k∇f (xk )k2 + (µk )2 Lk∇f (xk )k2
2
k
Lµ
≤ f (xk ) − µk (1 − )k∇f (xk )k2
2
⇓
Lµk
f (xk ) − f (xk+1 ) ≥ µk (1 − )k∇f (xk )k2 ≥ 0
2
Lµk
se µk > 0 e 1 − > 0 (*). Quindi:
2
f (xk+1 ) ≤ f (xk ) poiché lim f (xk ) = f > −∞
k→∞
⇓
{xk } ⊂ L0 compatto ⇒ {xk } ammette punti di accumulazione.
2−ε
Se µk ≥ ε e µk ≤ L
le condizioni (*) sono verificate. (i)
Lµk
lim f (xk ) − f (xk+1 ) = 0 ⇒ lim µk (1 − )k∇f (xk )k2 = 0 (ii)
k→∞ k→∞ 2
Per (i) e (ii) abbiamo che

k→∞
cioè il gradiente converge.
1.7.2 Metodo del gradiente nel caso di funzione quadratica stret-

tamente convessa
Sia data una funzione quadratica
1
f (x) = xT Qx − cT x
2
con Q matrice nxn simmetrica e definita positiva. Poichè definita positiva gli autova-
lori sono tutti strettamente positivi: λ1 , λ2 , . . . , λn > 0.
1
xk+1 = xk − ∇f (xk ) k = 1, . . . , n
λk
Al più in n iterazioni il metodo converge al punto di minimo globale, quindi il metodo
converge finitamente.
30
Dimostrazione
1
xk+1 = xk − k
∇f (xk )
λ
Moltiplico per Q:
1
Qxk+1 = Qxk − Q∇f (xk )
λk
Sottraggo ora c:
1
Qxk+1 − c = Qxk − c − Q∇f (xk )
λk
1
∇f (xk+1 ) = ∇f (xk ) − Q∇f (xk )
λk
Q
)∇f (xk )
= (I −
λk
Ripetendo all’indietro il ragionamento ottengo:
k
k+1
Y Q
∇f (x )= (I − i )∇f (x1 )
i=1
λ
Siano u1 , . . . , un gli autovettori associati agli autovalori λ1 , . . . , λn .
n
X
1
∇f (x ) = βj uj
j=1
n k
k+1
X Y Q
∇f (x )= βj [ (I − )]uj
j=1 i=1
λi
n n
n+1
X Y λj uj
∇f (x )= βj [ (uj − )] = 0
j=1 i=1
λi
1.7.3 Ruolo del metodo del gradiente nelle reti neurali

Modello di neurone artificiale
Sia x ∈ Rn un vettore in ingresso, ω ∈ Rn un vettore di pesi sinaptici e θ ∈ R il valore
di soglia.
x0 w0
x1 w1 θ
x2 w2 y(x, ω, θ)
P
.. ..
. .
xn wn
Ingressi Pesi
31
L’uscita y ha valore binario:

0 se ω T x − θ ≥ 0
y(x, ω, θ) =
1 se ω T x − θ < 0
Se y = 1 il neurone è ON, se è 0 il neurone è OFF. Il neurone è quindi un separatore
lineare.
Sia dato dunque un training set:
T S = {(xp , dp ) : xp ∈ Rn , dp ∈ R, p = 1, . . . , P }
Algoritmo Perceptron: se i due insiemi sono linearmente separabili determina un
iperpiano di separazione in un numero finito di iterazioni.
Dato il training set si parla di:
• Classificazione se dp ∈ {0, 1}
• Approssimazione se dp ∈ R
L’incognita del problema è il vettore dei pesi sinaptici. Definisco così una funzione
errore:
P
X
E(ω) = Ep (ω) con Ep (ω) = (dp − y(xp , ω))2
p=1
Si introduce così il problema dell’addestramento della rete neurale
min E(ω)
ω
Al posto delle funzione gradino dei neuroni metto una sua approssimazione iperbolica
(funzione logistica). Il problema di ottimizzazione è non vincolato con funzione obiettivo
continuamente differenziabile.
Metodo della Back Propagation
ω k+1 = ω k − µ∇E(ω k )
con µ learning rate. Il metodo è il metodo del gradiente con passo costante.
1.8 Metodo di Newton

Dato un sistema di equazioni non lineari
F (x) = 0
con F : Rn → Rn , F continuamente differenziabile. Poichè F è differenziabile esiste
la matrice Jacobiana di F ed è continua:
 
∇F1T (x)
J(x) = 
 .. 
. 
T
∇Fn (x)
32
F (xk + s) = F (xk ) + J(xk )s + γ(xk , s)
γ(xk , s)
lim =0
ksk→0 ksk
Se xk è il punto corrente:
F (xk + s) ' F (xk ) + J(xk )s = 0

Se J(xk ) è invertibile ⇒ sk = −[J(xk )]−1 F (xk ). Quindi:
xk+1 = xk + sk = xk − [J(xk )]−1 F (xk )
- Caso n = 1
F (x) = 0 F :R→R
Vogliamo trovare uno zero della F :
F (xk )
F (xk ) + Ḟ (xk )s = 0 s=−
Ḟ (xk )
In una variabile è detto anche metodo della tangente.
- Caso generale, n equazioni, n incognite
Richiamo 10 (Funzioni vettoriali) Sia F : Rn → Rn .

Se F è continuamente differenziabile allora
Z 1
F (y) = F (x) + J(x + λ(y − x))(y − x)dλ
0
Proposizione 26 (Convergenza del metodo di Newton) Ipotesi:
• F continuamente differenziabile su Rn
• ∃ x∗ : F (x∗ ) = 0
• J(x∗ ) sia non singolare (invertibile)
Se valgono le ipotesi allora
∃ B(x∗ , ε) : se x0 ∈ B(x∗ , ε) allora {xk } ⊂ B(x∗ , ε) e xk → x∗
con rapidità di convergenza superlineare, cioè tale che
kxk+1 − x∗ k
lim =0
Se J(x) è Lipschitz continua su Rn
kJ(y) − J(x)k ≤ Lky − xk
33
allora la rapidità di convergenza è quadratica, cioè tale che
∃ c > 0 : kxk+1 − x∗ k ≤ ckxk − x∗ k
Dimostrazione
J(x∗ ) non singolare e continua per ipotesi allora
∃ B(x∗ , ε1 ) in cui J −1 (x∗ ) esiste ed è continuo ∀ x ∈ B(x∗ , ε1 )
∃ µ > 0 : kJ −1 (x)k ≤ µ ∀ x ∈ B(x∗ , ε1 )

Dalla continuità di J(x) segue che, preso un σ ∈ (0, 1)
σ
∃ ε ≤ ε1 : ∀ x, y ∈ B(x∗ , ε) kJ(y) − J(x)k ≤ (1.9)
µ
Se xk ∈ B(x∗ , ε) ⇒ xk+1 ∈ B(x∗ , ε). Riprendiamo adesso l’iterazione di Newton:
xk+1 = xk − [J(xk )]−1 F (xk )
E’ ben definita? Si, perchè xk ∈ B(x∗ , ε). Ricrodando che, per il richiamo precedente
Z 1
∗
k
F (x ) − F (x ) = J(x∗ + λ(xk − x∗ ))(xk − x∗ )dλ
0
posso procedere con
xk+1 − x∗ = xk − x∗ − [J(xk )]−1 F (xk )

= [J(xk )]−1 [J(xk )](xk − x∗ ) − [J(xk )]−1 F (xk )
= −[J(xk )]−1 [F (xk ) − J(xk )(xk − x∗ )]
= −[J(xk )]−1 [F (xk ) − F (x∗ ) − J(xk )(xk − x∗ )]
Z 1
k −1
= −[J(x )] [( J(x∗ + λ(xk − x∗ )) − J(xk ))(xk − x∗ )dλ]
0
Z 1
∗ −
kx k+1
− x k ≤ kJ 1(x )kk k
J(x∗ + λ(xk − x∗ )) − J(xk ))(xk − x∗ )dλk
0
Z 1
≤ µ kJ(x∗ + λ(xk − x∗ )) − J(xk )kkxk − x∗ kdλ
0
σ
≤ µ kxk − x∗ k
µ
per 1.9. Quindi:
kxk+1 − x∗ k ≤ σkxk − x∗ k (1.10)
con σ ∈ (0, 1) e xk+1 ∈ B(x∗ , ε).
Per induzione, se x0 ∈ B(x∗ , ε) ⇒ {xk } ⊂ B(x∗ , ε). Applicando ripetutamente 1.10:
kxk − x∗ k ≤ σkx0 − x∗ k
con σ ∈ (0, 1). Mandando k → ∞ abbiamo che xk → x∗ , quindi il metodo converge.
34
Devo ora dimostrare che la convergenza abbia rapidità superlineare.
Z 1
∗
kx k+1
−x k≤µ kJ(x∗ + λ(xk − x∗ )) − J(xk )kkxk − x∗ kdλ
0
Se xk 6= x∗ :
1
kxk+1 − x∗ k
Z
≤µ kJ(x∗ + λ(xk − x∗ )) − J(xk )kkxk − x∗ kdλ
kxk − x∗ k 0
⇓
kxk+1 − x∗ k
lim =0
quindi la rapidità di convergenza è superlineare.

Supponiamo ora J Lipschitz continua
kJ(x∗ + λ(xk − x∗ )) − J(xk )k ≤ Lkx∗ + λ(xk − x∗ ) − xk k = L(1 − λ)kxk − x∗ k
Z 1
k+1 ∗ k ∗ 2
kx − x k ≤ µLkx − x k (1 − λ)dλ
0
µL k
≤ kx − x∗ k2
2
cioè ha rapidità di convergenza quadratica
1.8.1 Il metodo di Newton

Dato un problema di ottimizzazione non vincolata
min f (x)
x∈Rn
con f : Rn → R e sia
Λ = {x ∈ Rn : ∇f (x) = 0}
l’insieme dei punti stazionari, il metodo di Newton per la minimizzazione di una funzione
f in n variabili diventa
xk+1 = xk − [∇2 f (xk )]−1 ∇f (xk )
Proposizione 27 (Convergenza locale del metodo) Se ∃ x∗ : ∇f (x∗ ) = 0 e sia

∇2 f (x∗ ) non singolare, allora:
∃ B(x∗ , ε) : se x0 ∈ B(x∗ , ε) ⇒ {xk } ⊂ B(x∗ , ε)
quindi:
xk → x∗ con rapidità superlineare
Se ∇2 è Lipschitz continua allora la rapidità di convergenza è quadratica.
35
1.8.2 Modifiche globalmente convergenti del metodo di Newton
min f (x)
x∈Rn
utilizzando il metodo di Newton otteniamo un risultato localmente convergente.

Possiamo riscrivere l’iterazione come xk+1 = xk + dk con
dk = −[∇2 f (xk )]−1 ∇f (xk ) direzione di Newton
Ci troviamo di fronte a tre possibili casi:
1) La direzione di Newton potrebbe non esistere perché ∇2 f (xk ) è singolare.
2) Supponiamo che la direzione esista, non è detto che ∇f (xk )T d < 0 (la direzione
potrebbe quindi non essere di discesa).
3) Supponiamo che la direzione esista e che sia di discesa, non è detto che dk soddisfi
la condizione d’angolo.
Apportando alcune modifiche al metodo di Newton si riesce però ad ottenere un

risultato globalmente convergente. Le modifiche che vengono esposte in seguito sono dei
metodi basati su ricerche unidimensionali:
• Metodi ibridi
• Metodi basati sulle modifiche della matrice Hessiana
Metodo ibrido Provo a calcolare la direzione di Newton con il sistema
[∇2 f (xk )]d = −∇f (xk )
Se 6 ∃ soluzione oppure la soluzione trovata non è di discesa, prendo dk = −∇f (xk ).
xk+1 = xk + αk dk
Supponiamo di aver trovato quindi una direzione di Newton dk , calcolo αk con il metodo
di Armijo, ponendo ∆k = 1 il passo iniziale. Il passo ∆k deve soddisfare la condizione
1 |∇f (xk )T dk |
∆k > σ( )
kdk k kdk k
Quindi
|∇f (xk )T dk |
kdk k ≥ σ( )
kdk k
Condizioni su dk
|∇f (xk )T dk |
1) ≥ σ(k∇f (xk )k) condizione d’angolo
kdk k
k T dk |
2) kdk k ≥ σ( |∇f (x )
kdk k
)
36
Vengono soddisfatte se

∇f (xk )T dk ≤ −c1 k∇f (xk )k2 con c1 > 0
kdk k ≤ c2 k∇f (xk )k con c2 > 0
Potrebbero però essere condizioni troppo restrittive se ∇2 f (xk ) è definita positiva e

∇f (xk ) = 0. In questo caso si modificano con

∇f (xk )T dk ≤ −c1 k∇f (xk )k2 Ψ(xk ) con c1 > 0
Ψ(xk )kdk k ≤ c2 k∇f (xk )k con c2 > 0
con Ψ(xk ) un fattore che rende le equazioni meno restrittive quando xk → x∗ .

In caso di punti stazionari del secondo ordine (∇f (xk ) = 0 e ∇2 f (x∗ ) semidefinita
positiva):
xk+1 = xk + (αk )2 sk + αk dk
con sk una direzione che serve a garantire la convergenza globale e dk la direzione che
consente di uscire di non convessità di f , cioè dai punti in cui ∇2 f (xk ) è indefinito
(questo valore è legato all’autovalore più piccolo, è l’autovettore corrispondente con il
segno opportuno).
37
Capitolo 2
Parte seconda
2.1 Metodi delle direzioni coniugate

I metodi delle direzioni coniugate sono metodi che utilizzano f e ∇f . Per lo studio dei
metodi è utile inizialmente partire dal caso quadratico per poi estendere i metodi al caso
non quadratico.
Sia dato quindi un problema di ottimizzazione di funzione quadratica
1
min xT Qx − cT x
2
con Q una matrice nxn simmetrica e definita positiva.
Si utilizza inoltre una notazione semplificata del vettore gradiente, indicandolo con
g:
gn = g(xn ) = ∇f (xn )
Definizione 9 (Direzioni mutuamente coniugate rispetto a Q) I vettori d1 , . . . , dm ∈

Rn sono mutuamente coniugati se
dTi Qdj = 0 ∀ i, j = 1, . . . , m i 6= j
Proposizione 28 (Indipendenza lineare di vettori mutuamente coniugati) Se

d0 , . . . , dm−1 ∈ Rn sono mutuamente coniugati allora sono linearmente indipendenti.
Dimostrazione
Dobbiamo far vedere che
m−1
X
α j dj = 0 ⇒ αj = 0 j = 0, . . . , m − 1
j=0
Sia i ∈ {0, 1, . . . , m − 1}.

m−1
X
αj dTi Qdj = 0
j=0
Per la mutua coniugatezza dTj Qdj = 0 per ogni i 6= j, quindi possiamo semplificare la
sommatoria in
αi dTi Qdi = 0 ⇒ αi = 0
38
poichè dTi Qdi > 0 perchè Q è definita positiva. Quindi la mutua coniugatezza implica
l’indipendenza lineare.
2.1.1 Metodo delle direzioni coniugate

Poichè Q è simmetrica e definita positiva
∃! x∗ soluzione al problema
⇓
∗
Qx = c ⇒ x∗ = Q−1 c
Sia d0 , . . . , dn−1 ∈ Rn una base di Rn (siano quindi linearmente indipendenti), allora
n−1
X
∗
x = α i di
i=0
dove però i coefficienti αi li conosco se e solo se conosco la soluzione x∗ .

Siano ora d0 , . . . , dn−1 mutuamente coniugati. Sappiamo dunque che, per la pro-
posizione precedente, sono linearmente indipendenti
n−1
X
x∗ = α i di
i=0
Moltiplico ora per Q

n−1
X
Qx∗ = αi Qdi
i=0
e ora per dTj

n−1
X
dTj Qx∗ = αi dTj Qdi = αj dTj Qdj
i=0
poichè mutuamente coniugati rimane solo il termine con indice j.

Ma Qx∗ = c, quindi:
dTj c
αj = T
dj Qdj
Ho quindi ricavato i coefficienti α in funzione dei dati del problema e non della soluzione.
n−1
X dTi c
x∗ = T
di
i=0
di Qd i
Noti dunque Q e c posso calcolare la soluzione x∗ come semplice combinazione lineare.

Dati n vettori d0 , . . . , dn−1 ∈ Rn mutuamente coniugati posso immaginare di determi-
nare x∗ attraverso un processo iterativo a partire dal punto iniziale x0 .
x∗ = x0 + α0 d0 + α1 d1 + . . . + αn−1 dn−1
Definisco ora il processo fino all’iterazione k:
xk = x0 + α0 d0 + α1 d1 + . . . + αk−1 dk−1
39
dTk Q(xk − x0 ) = 0
Quindi:
dTk Q(x∗ − x0 ) = αk dTk Qdk
⇓
dTk Q(x∗ − x0 ) dTk Q(x∗ − xk + xk − x0 ) dTk Q(x∗ − xk )
αk = = =
dTk Qdk dTk Qdk dTk Qdk
dT [Qx∗ − Qxk ] dT (c − Qxk ) −dT gk
= k T = k T = Tk
dk Qdk dk Qdk dk Qdk
poichè c − Qxk è l’antigradiente calcolato in xk . Dunque:
−gk dk
αk = (2.1)
dTk Qdk
è il passo ottimo lungo dk .
Proposizione 29 (Convergenza finita del metodo delle direzioni coniugate)

Siano d0 , . . . , dn−1 ∈ Rn mutuamente coniugati e sia
xk+1 = xk + αk dk
con αk passo ottimo
−gk dk
αk =
dTk Qdk
Allora:
i) gkT di = 0 i = 0, . . . , k − 1
ii) ∃ m ≤ n − 1 : gm+1 = 0
ovvero il metodo trova una soluzione in al più n iterazioni.
Dimostrazione
i) xk = xi + k−1
P
j=i αj dj i ∈ {0, . . . , k − 1}
k+1
X
Qxk = Qxi + αj Qdj
j=i
k+1
X
Qxk − c = Qxi − c + αj Qdj
j=i
k+1
X
gk = gi + αj Qdj
j=i
dTi gk = dTi gi + αi dTi Qdi

g T di T
= dTi gi − Ti d Qdi
di Qdi i
= 0
sostituendo αi con con il passo ottimo.
40
ii) Supponiamo di aver effettuato n iterazioni. Per la (i) abbiamo che
gnT di = 0 i = 0, . . . , n − 1
Ma d0 , . . . , dn−1 costituiscono una base di Rn :

 
dT0
Dgn = 0 D =  ... 
 
dTn−1
con D non singolare poichè linearmente indipendenti. Quindi gn = 0, ovvero il

metodo converge al più in n iterazioni.
2.1.2 Metodo del gradiente coniugato (funzione quadratica)

Pongo d0 = −g0 . In generale
xk+1 = xk + αk dk
con αk passo ottimo, ovvero
−gkT dk
αk =
dTk Qdk
dk+1 = −gk+1 + βk+1 dk
Voglio però che dk+1 e dk siano coniugati, quindi utilizzo βk+1
dTk+1 Qdk = −gk+1

T
Qdk + βk+1 dTk Qdk = 0
poichè per essere mutuamente coniugati deve essere nullo. Quindi:

T
−gk+1 Qdk
βk+1 = T
dk Qdk
Relazioni utili per determinare forme equivalenti di βk+1

xk+1 = xk + αk dk
Qxk+1 − c = Qxk − c + αk Qdk
⇓
gk+1 = gk + αk Qdk
1
Qdk = (gk+1 − gk ) (2.2)
αk
Utilizzando la 2.2:
T
gk+1 (gk+1 − gk )
βk+1 = T
dk (gk+1 − gk )
T
gk+1 dk = gkT dk + αk dTk Qdk = 0
sostituendo αk nell’ultimo passaggio.
T
gk+1 dk = 0 (2.3)
41
Utilizzando la 2.3:
T
gk+1 (gk+1 − gk )
βk+1 =
−dTk gk
dk = −gk + βk dk−1
Utilizzando la 2.3:
dTk gk = −kgk k2 + βk gkT dk−1
dTk gk = −kgk k2 (2.4)
Utilizzando la 2.4:
T
gk+1 (gk+1 − gk )
βk+1 =
kgk k2
Si può infine dimostrare che
T
gk+1 gk = 0 (2.5)
Utilizzando quindi la 2.5:
kgk+1 k2
βk+1 =
kgk k2
Formalizzazione del metodo

Dati x0 ∈ Rn , k = 0, d0 = −g0 .
Algoritmo 6 Metodo del gradiente coniugato (forma quadratica)

while gk 6= 0 do
kgk k2
calcola αk = T
dk Qdk
calcola gk+1 = gk + αk Qdk
kgk+1 k2
calcola βk+1 =
kgk k2
poni dk+1 = −gk+1 + βk+1 dk
k =k+1
end while
Il metodo del gradiente coniugato per la forma quadratica è un algoritmo che termina
in al massimo n iterazioni, è quindi a convergenza finita.
E’ un algoritmo iterativo per la risoluzione del sistema lineare Qx = c, con Q matrice
nxn simmetrica e definita positiva. Gli algoritmi di calcolo diretto della soluzione hanno
un costo computazionale elevato, o(n2 ). Il metodo del gradiente coniugato ha, nel caso
peggiore, costo o(n). Quindi la scelta del metodo migliore da implementare dipende dalla
dimensione del problema considerato.
Se Q è semidefinita positiva, il problema non è detto che ammetta soluzione. Se
ammette soluzione allora ammette infinite soluzioni. Nel caso in cui ammetta infinite so-
luzioni allora il metodo del gradiente coniugato determina una delle soluzioni al problema
in un numero finito di iterazioni.
42
2.1.3 Metodo del gradiente coniugato (minimi quadrati lineari)
Il problema di ottimizzazione
1
min kAx − bk2
2
è un problema quadratico convesso (in generale non strettamente convesso) che ammette
soluzione.
1
min xT AT Ax − (AT b)T x
2
Il problema ammette soluzione, quindi posso applicare il metodo del gradiente coniuga-
to. Prendendo come punto iniziale x0 = 0 il metodo determina la soluzione a minima
norma.
2.1.4 Metodo del gradiente coniugato (caso generale)

min f (x)
x∈Rn
con f continuamente differenziabile, f ∈ C 1 .
Schema generale
Dati x0 ∈ Rn , k = 0, d0 = −g0 .
Algoritmo 7 Metodo del gradiente coniugato

while gk 6= 0 do
calcola αk con una ricerca unidimensionale
poni dk+1 = −gk+1 + βk+1 dk
k =k+1
end while
Nel caso quadratico la scelta delle formule per il calcolo di βk+1 era indifferente, poichè
le formule erano del tutto equivalenti.
Nel caso non quadratico le formule di βk+1 non sono equivalenti e la diversa scelta di
una di queste nell’esecuzione dell’algoritmo dà origine a metodi con diverse denominazio-
ni.
T
gk+1 (gk+1 − gk )
• Metodo di Poliak-Ribiele: βk+1 =
kgk k2
kgk+1 k2
• Metodo di Fletcher-Reeved : βk+1 =
kgk k2
Per quanto riguarda invece il calcolo di αk si necessita ora di un tipo di ricerca

unidimensionale più complessa del metodo di Armijo.
Il requisito minimo è sempre, come nel metodo di Armijo, che dk+1 sia una direzione
di discesa:
T
gk+1 dk < 0
43
T
gk+1 dk+1 = −kgk+1 k2 + βk+1 gk+1
T
dk < 0
Poichè −kgk+1 k2 è sicuramente negativo, per far verificare la disequazione ho bisogno di
T
controllare βk+1 gk+1 dk . Il termine βk+1 nelle varie formule dipende da xk , αk e dk :
gk+1 = g(xk + αk dk )
T
gk+1 dk = g(xk + αk dk )T dk = Φ̇(αk )
con Φ(α) = f (xk + αdk ) e Φ̇(α) = ∇f (xk + αdk )T dk . La condizione di Armijo afferma
che
ovvero di sufficiente decremento della funzione.
Si rende più forte la condizione su αk utilizzando metodi di ricerca unidimensionale
basati sulle condizioni di Wolfe.
2.1.5 Condizioni di Wolfe

1
Sia 0 < γ ≤ 2
< σ < 1.
• Wolfe debole
∇f (xk + αk dk )T dk ≥ σ∇f (xk )T dk
• Wolfe forte
|∇f (xk + αk dk )T dk | ≤ σ|∇f (xk )T dk |
2.2 Condizioni di ottimalità per problemi di ottimizza-

zione vincolata
Sia f : Rn → R, g : Rn → Rm , h : Rn → Rp , e sia dato il problema di ottimizzazione
vincolata
min f (x)
gi (x) ≤ 0 i = 1, . . . , m
hj (x) = 0 j = 1, . . . , p
con gi (x) ≤ 0 e hj (x) = 0 detti vincoli di disuguaglianza e vincoli di uguaglianza.
Associamo ora ai vincoli i moltiplicatori di Lagrange:
λ0 → f (x) λi → gi (x) µj → hj (x)
possiamo così definire la funzione lagrangiana.
Definizione 10 (Funzione Lagrangiana)

m p
X X
L(x, λ0 , λ, µ) = λ0 f (x) + λi gi (x) + µj hj (x)
i=1 j=1
44
2.2.1 Condizioni di ottimalità di Fritz-John
Le condizioni di ottimalità di Fritz-John per problemi di ottimizzazione vincolata sono
condizioni necessarie di ottimalità.
Sia x∗ minimo locale. Allora ∃ λ∗0 , λ∗ ≥ 0; µ∗ :
1) (λ∗0 , λ∗ , µ∗ ) 6= (0, 0, 0)
m p
X X
2) λ∗0 ∇f (x∗ ) + λ∗i ∇gi (x∗ ) + µ∗i ∇hj (x∗ ) = 0
i=1 j=1
3) λ∗i gi (x∗ ) = 0 i = 1, . . . , m condizioni di complementarietà
4) g(x∗ ) ≤ 0 h(x∗ ) = 0 condizioni di ammissibilità
Le condizioni di complementarietà ci indicano che uno dei due fattori (λ∗i o gi (x∗ ) deve
essere nullo, mentre quelle di ammissibilità che la soluzione sia ammissibile per il problema
di ottimizzazione.
Posso riscrivere le condizioni in forma vettoriale tramite l’utilizzo della funzione la-
grangiana.
L(x, λ0 , λ, µ) = λ0 f (x) + λT g(x) + µT h(x)
Indico con
∇g = ∇g1 · · · ∇gm

∇h = ∇h1 · · · ∇hm
Allora, derivando la lagrangiana rispetto alla variabile x:
∇x L(x, λ0 , λ, µ) = λ0 ∇f (x) + ∇g(x)λ + ∇h(x)µ (2.6)
Unendo la condizione numero 2 di Fritz-John e 2.6 ottengo che
∇x L(x∗ , λ∗0 , λ∗ , µ∗ ) = 0
cioè ottengo che il gradiente della funzione lagrangiana si annulla rispetto a x. Le

condizioni di Fritz-John definiscono così condizioni di complementarietà e ammissibilità.
Condizioni di complementarietà Le condizioni di complementarietà espresse da

Fritz-John possono essere espresse come
λ∗ T g(x∗ ) = 0
perchè λi gi (x) sono tutti non positivi. Possiamo quindi esprimere queste condizioni sotto
forma di prodotto scalare.
2.2.2 Condizioni di qualificazione dei vincoli

Se λ∗0 = 0 nelle condizioni di Fritz-John non compare la funzione obiettivo. Questo
potrebbe renderle poco significative perdendo il legame tra funzione e vincoli del problema.
Siamo quindi interessati ai casi in cui λ∗0 > 0. Abbiamo bisogno di nuove condizioni sui
vincoli del problema, dette di qualificazione dei vincoli.
45
Definizione 11 (Vincoli attivi) Un vincolo di un problema di ottimizzazione non vin-
colata si dice attivo se
gi (x∗ ) = 0
Definiamo ora l’ insieme dei vincoli attivi come
I(x∗ ) = {i ∈ {1, . . . , m} : gi (x∗ ) = 0}
Si può assicurare che, sotto opportune ipotesi su g ed h, λ∗0 > 0.
1) Linearità: la condizione vale se g, h sono funzioni lineari.
2) Indipendenza lineare dei gradienti: la condizione vale se c’è indipendenza li-

neare dei gradienti dei vincoli di uguaglianza e dei gradienti dei vincoli attivi. Cioè
se
∇h1 (x∗ ) · · · ∇hp (x∗ )∇gi (x∗ ) i ∈ I(x∗ )

linearmente indipendenti.
Dimostrazione
Dalle condizioni di Fritz-John
m p
X X
λ∗0 ∇f (x∗ ) + λ∗i ∇gi (x∗ ) + µ∗j ∇hj (x∗ ) = 0
i=1 j=1
p
X X
λ∗0 ∇f (x∗ ) + λ∗i ∇gi (x∗ ) + µ∗j ∇hj (x∗ ) = 0
i∈I(x∗ ) j=1
per le condizioni di complementarietà, se i 6∈ I(x∗ ) ⇒ gi (x∗ ) < 0 ⇒ λ∗ = 0. Quindi,

supponiamo per assurdo che λ∗0 = 0. Sappiamo che (λ∗0 , λ∗ , µ∗ ) 6= (0, 0, 0), allora:
(λ∗ , µ∗ ) 6= (0, 0)
p
X X
λ∗i ∇gi (x∗ ) + µ∗j ∇hj (x∗ ) = 0
i∈I(x∗ ) j=1
ma, poichè linearmente indipendenti è assurdo.
3) Condizioni di Mangasarian-Fromowitz: la combinazione conica (combinazione

lineare a coefficienti non negativi) del gradiente dei vincoli di disuguaglianza attivi
in x∗ e del gradiente dei vincoli di uguaglianza non esiste.
4) Condizioni di Slater: se il problema è convesso, esiste un punto x in cui sono

soddisfatti i vincoli di uguaglianza e i vincoli di disuguaglianza attivi in x∗ sono
strettamente minori di zero.
46
2.2.3 Condizioni di Karush-Kuhn-Tucker (KKT)
Dalle condizioni di Fritz-John, unite alle condizioni di qualificazione dei vincoli (basta
che una di esse sia verificata) si arriva alla definizione delle condizioni di ottimalità di
Karush-Kuhn-Tucker o KKT.
Poichè almeno una condizione di qualificazione è verificata abbiamo che
λ∗0 > 0
Proposizione 30 (Condizioni di KKT) Sia x∗ minimo locale e valga una tra le

condizioni di qualificazione dei vincoli. Allora ∃ λ∗ ≥ 0, µ∗ :
m p
X X
∗
1) ∇f (x ) + λ∗i ∇gi (x∗ ) + µ∗j ∇hj (x∗ ) = 0
i=1 j=1
2) λ∗i gi (x∗ ) = 0 i = 1, . . . , m
3) g(x∗ ) ≤ 0 h(x∗ ) = 0
Osservazione: Se f è convessa e g, h lineari allora le condizioni di KKT sono neces-

sarie e sufficienti di minimo globale.
Esprimendole in forma vettoriale tramite la funzione lagrangiana
L(x, λ, µ) = f (x) + λT g(x) + µT h(x)
abbiamo quindi che
1) ∇x L(x∗ , λ∗ , µ∗ ) = 0
2) λ∗ T g(x∗ ) = 0
3) λ∗ ≥ 0
4) h(x∗ ) ≤ 0 h(x∗ ) = 0
2.2.4 Esempi di applicazione delle condizioni di ottimalità per

problemi di ottimizzazione vincolata
Problemi con vincoli di box
Sia dato il problema di ottimizzazione vincolata
min f (x)
l≤x≤u
con li ≤ xi ≤ ui i = 1, . . . , n. Poichè i vincoli di disuguaglianza sono lineari valgono le

condizioni di KKT. Possiamo riscrivere il problema come
min f (x)
47
xi − ui ≤ 0 i = 1, . . . , n
li − xi ≤ 0 i = 1, . . . , n
−
Associamo i moltiplicatori λ+
i e λi alle due disuguaglianze
n
X n
X
+ −
L(x, λ , λ ) = f (x) + λ+
i (xi − ui ) + λ−
j (lj − xj )
i=1 j=1
−
Per le condizioni di KKT, λ+
i , λi ≥ 0 i = 1, . . . , n.
δL δf (x) −
= + λ+
i − λi = 0 i = 1, . . . , n
δxi δxi
Per la complementarietà abbiamo che
−
λ+
i (xi − ui ) = 0 λi (li − xi ) = 0 i = 1, . . . , n
Per l’ammissibilità abbiamo che
li ≤ xi ≤ ui i = 1, . . . , n
Sia ora x∗ minimo locale.
a) Supponiamo che x∗i = li ⇒ x∗i < ui . Unendo questo risultato alle condizioni di
complementarietà otteniamo che
δf (x∗ )
λ+
i = 0 ⇒ = λ−
i ≥ 0
δxi
b) Supponiamo che x∗i = ui ⇒ x∗i > li . Unendo questo risultato alle condizioni di
complementarietà otteniamo che
δf (x∗ )
λ−
i = 0 ⇒ = −λ+
i ≤ 0
δxi
c) Supponiamo li ≤ xi ≤ ui :
x∗i < ui ⇒ λ+
i = 0
li < x∗i ⇒ λ−
i = 0
δf (x∗i
Quindi = 0.
δxi
Proposizione 31 (Condizione necessaria di ottimalità per problemi di ottimiz-

zazione con vincoli di box) Sia x∗ minimo locale. Allora:
1) l ≤ x∗ ≤ u

∗  ≥ 0 se x∗i = li
δf (x )
2) =0 se li < xi < ui
δxi 
≤0 se x∗i = ui
48
Problemi con vincolo di simplesso
Dato un problema di ottimizzazione vincolata
Pnmin f (x)
i=1 xi =1
con x ≥ 0, è detto con vincolo di simplesso.

Sia x∗ minimo locale. x∗ è ammissibile se
δf (x∗ ) δf (x∗ )
∀ j ∈ {1, . . . , n} : x∗j > 0 ⇒ ≤ i = 1, . . . , n
δxj δxi
2.3 Metodi di Trust Region

min f (x)
x∈Rn
introduciamo i metodi di Trust Region, o Regione di confidenza. Riprendendo il metodo

di Newton:
1
f (xk + s) ' f (xk ) + ∇f (xk )T s + sT ∇2 f (xk )s
2
Introduco il concetto di modello quadratico, definito come
1
m(s) = f (xk ) + ∇f (xk )T s + sT ∇2 f (xk )s
2
In base alla matrice Hessiana si possono distinguere due casi:
• Se ∇2 f (xk ) è definita positiva allora
min m(s)
s
skN = −[∇2 f (xk )]−1 ∇f (xk )
• Se ∇2 f (xk ) è indefinita allora il problema
min m(s)
s
non ammette soluzione.
2.3.1 Introduzione ai metodi Trust Region

Ad ogni iterazione k si costruisce un modello quadratico di f . Indichiamo con mk (s) il
modello al passo k definito come
1
mk (s) = f (xk ) + ∇f (xk )T s + sT Bk s
2
con Bk matrice nxn simmetrica.
Bk potrebbe quindi essere la matrice Hessiana o una sua approssimazione. Non
facciamo nessuna ipotesi che sia definita o meno.
49
Consideriamo ora il sottoproblema
min mk (s) ksk ≤ ∆k

s
con ∆k raggio della regione di confidenza. Così definito il sottoproblema è un problema

di ottimizzazione vincolato: ammette dunque sicuramente soluzione per il teorema di
Weierstrass e ∆k definisce la sfera (regione spaziale) in cui il modello quadratico è una
buona approssimazione di quello lineare.
Supponiamo di determinare una soluzione sk , eventualmente approssimata, del sot-
toproblema definito. La soluzione potrebbe essere approssimata poiché f potrebbe non
essere convessa. Dobbiamo decidere quindi se accettare o meno il punto xk + sk , ovvero
il prossimo punto dell’iterazione.
Consideriamo la variazione della funzione obiettivo
f (xk ) − f (xk+1 ) Q 0
e la variazione del modello quadratico
mk (0) − mk (sk ) > 0
Non abbiamo garanzie che, ottenuta una variazione nel modello quadratico, otterrem-
mo necessariamente anche una variazione nella funzione obiettivo.
Chiamiamo ora
f (xk ) − f (xk + sk )
ρk =
mk (0) − mk (xk )
ovvero il rapporto tra le variazioni della funzione obiettivo ed il modello quadratico.
Allora:
• Se ρk sufficientemente positivo (quindi sia il modello che la funzione sono diminuiti)
allora xk+1 = xk + sk .
Se molto positivo allora ∆k+1 ≥ ∆k , allargo cioè la regione di confidenza. Altrimenti
∆k+1 ≤ ∆k , la riduco.
• Se ρk < 0, oppure non sufficientemente positivo (la funzione è dunque aumentata),

xk+1 = xk e ∆k+1 < ∆k .
2.3.2 Schema generale dei metodi Trust Region

Dati x0 ∈ Rn , ∆0 > 0, k = 0, definiamo i parametri per la valutazione di ρk ed i parametri
per l’aggiornamento della regione di confidenza, rispettivamente:
0 < µ1 < µ2 < 1 0 < γ1 < γ2 < 1
• Passo 1: Costruzione del modello quadratico mk (s). In questo passo definisco

anche Bk .
• Passo 2: Calcolo della soluzione sk , eventualmente approssimata, del problema
min mk (s) ksk ≤ ∆k

s
che fornisca un sufficiente decremento del modello quadratico.
50
• Passo 3: Accettazione del nuovo punto. Calcolo
f (xk ) − f (xk+1 + sk )
ρk =
mk (0) − mk (xk )
Studio ora ρk :
– Se ρk ≥ µ1 ⇒ xk+1 = xk + sk
– Altrimenti ⇒ xk+1 = xk
• Passo 4: Aggiornamento del raggio di confidenza


 [∆k , ∞) se ρk ≥ µ2
∆k+1 ∈ [γ2 ∆k , ∆k ] se µ1 ≤ ρk ≤ µ2
[γ1 ∆k , γ2 ∆k ] se ρk < µ1

2.3.3 Punti cruciali dello schema generale dei metodi Trust Re-
gion
Definizione di sufficiente decremento del modello quadratico
1
min f (xk ) + ∇f (xk )T s + sT Bk s ksk ≤ ∆k
s 2
Per s = 0 ⇒ mk (0) = f (xk ). Per ottenere un sufficiente decremento calcolo il gradiente
∇mk (0) = ∇f (xk )
sk = 0 − τ ∇mk (0) = −τ ∇f (xk )

Arriviamo dunque ad un sottoproblema vincolato nella variabile τ .
1 ∆k
min f (xk ) = τ k∇f (xk )k2 + τ 2 ∇f (xk )T Bk ∇f (xk ) 0≤τ ≤
τ 2 k∇f (xk )k
Ottengo così due possibili casi:
• Se ∇f (xk )T Bk ∇f (xk ) ≤ 0 ⇒ è una funzione monotona decrescente
∆k
τ∗ =
k∇f (xk )k
• Se ∇f (xk )T Bk ∇f (xk ) > 0
∆k k∇2 f (xk )k2

τ ∗ = min{ , }
k∇f (xk )k ∇f (xk )T Bk ∇f (xk )
Definiamo dunque
sk = −τ ∗ ∇f (xk )
chiamato passo di Cauchy, che fornisce un sufficiente decremento del modello quadra-
tico. Il passo di Cauchy prende il ruolo che l’antigradiente aveva nel caso dei metodi di
ricerca lineare.
51
Calcolo della soluzione del sottoproblema in modo da ottenere sufficiente
decremento
Sia (*) il sottoproblema
1
min fk + gkT s + sT Bk s ksk ≤ ∆k
s 2
Il calcolo della soluzione può essere:
• Approssimata: ad esempio tramite il passo di Cauchy
• Esatta: anche se il sottoproblema è non convesso.

E’ dunque l’unico caso di problema non convesso in cui esistono condizioni necessarie e
sufficienti di minimo locale.
Proposizione 32 (Condizione necessaria di minimo locale) Sia s∗ minimo locale

per (*). Allora:
i) Bk s∗ + gk + λ∗ s = 0
ii) ks∗ k ≤ ∆k
iii) λ∗ (ks∗ k − ∆k ) = 0
iv) λ∗ ≥ 0
Dimostrazione
La funzione obiettivo è lineare. Trasformo i vincoli
1
min fk + gkT s + sT Bk s ksk2 − ∆2k ≤ 0
s 2
In questo modo anche i vincoli sono lineari, quindi ∈ C 1 .
Per applicare le condizioni di KKT dobbiamo verificare che sia soddisfatta almeno
una condizione di qualificazione dei vincoli. Verifichiamo se vale l’indipendenza lineare
dei gradienti dei vincoli attivi.
Supponiamo che in s∗ sia attivo il vincolo:
ksk2 − ∆2k = 0
2s∗ 6= 0 ⇒ il gradiente è linearmente indipendente

possiamo dunque procedere applicando le condizioni di KKT.
1
L(s, λ) = fk + gkT s + sT Bk s + λ(ksk2 − ∆2k )
2
i) ∇s L(s∗ , λ∗ ) = gk + Bk s∗ + 2λ∗ s∗ = 0
iii) λ∗ (ks∗ k2 − ∆2k ) = 0
iv) λ∗ ≥ 0
52
Proposizione 33 (Condizione necessaria e sufficiente di minimo globale) Un
punto s∗ è un punto di minimo globale se e solo se ∃ λ∗ :
i) Bk s∗ + gk + λ∗ s∗ = 0
iii) λ∗ (ks∗ k − ∆k ) = 0
iv) λ∗ ≥ 0
v) Bk + λ∗ I è semidefinita positiva
Dimostrazione
- Condizione necessaria
s∗ punto di minimo globale ⇒ s∗ minimo locale, quindi vale la proposizione precedente,

(i) - (iv) già dimostrate. Dobbiamo ora dimostrare la (v).
• Caso I : Supponiamo s∗ = 0 ⇒ gk = 0 dalla (i). Dalla (iii) abbiamo che λ∗ = 0.
Quindi il problema si riduce a:
1
min sT Bk s ks∗ k < ∆k
s 2
Dunque s∗ minimo non vincolato ⇒ la matrice Hessiana è semidefinita positiva ⇒

Bk è semidefinita positiva e vale la (v).
• Caso II : Supponiamo ora s∗ 6= 0.

Supponiamo per assurdo che Bk + λ∗ I sia indefinita. Allora:
∃ ẑ : ẑ T (Bk + λ∗ I) < 0
Possiamo individuare un vettore z:
z T (Bk + λ∗ I) < 0 (2.7)
z T s∗ 6= 0 (2.8)
se ẑ : ẑ T s 6= 0 ⇒ z = ẑ altrimenti z = ẑ + αs∗ . Quindi
z T s∗ = ẑ T s∗ + αks∗ k = αks∗ k2 6= 0
Se prendo α 6= 0 e sufficientemente piccolo
kz − ẑk = |α|ks∗ k
poichè devo soddisfare la 2.7. Dunque:
z T (Bk + λ∗ I)z < 0
Definisco ora un punto s = s∗ + µz. Faccio vedere che, scegliendo opportunamente

µ
ksk ≤ ∆k e mk (s) < mk (s∗ )
53
che sarebbe assurdo poichè avrei trovato un punto ammissibile strettamente minore.
ksk2 = sT s
= ksk2 + 2µs∗ T z + kzk2 µ2
= µ(2s∗ T z + µkzk2 + ksk2 )
−2s∗ T z
Prendo ora µ = . Quindi
kzk2
ksk2 ≤ ks∗ k2 ≤ ∆2k
ovvero ho soddisfatta la condizione di ammissibilità. Poichè mk (s) è una funzione

quadratica, tramite lo sviluppo di Taylor :
1
mk (s) = mk (s∗ ) + ∇mk (s∗ )T (s − s∗ ) + µ2 z T Bk z
2
con s − s∗ = µz.
∇mk (s∗ ) = Bk s∗ + gk = −λ∗ s∗
per la (i).
1
mk (s) = mk (s∗ ) + µ2 z T Bk z
2
1 1 1
= mk (s∗ ) + µ2 z T Bk z + µ2 λ∗ kzk2 − µ2 λ∗ kzk2
2 2 2
1 1
= mk (s∗ ) + µ2 z T (Bk + λ∗ I)z − µ2 λ∗ kzk2 − λ∗ µz T s
2 2
dove gli ultimi due termini sono nulli per come ho scelto µ.
1
mk (s) = mk (s∗ ) + µ2 z T (Bk − λ∗ I)z
2
< mk (s∗ )
poichè z T (Bk + λ∗ I)z < 0 ed è assurdo poichè s∗ è un punto di minimo globale.
- Condizione sufficiente
Valgono (i) - (v) ⇒ s∗ è punto di minimo globale del problema non vincolato
1
min sT (Bk + λ∗ I)s) + gkT s
s 2
Quindi
1 1
∀ s ∈ Rn ⇒ sT Bk s + gkT s ≥ s∗ T Bk s∗ + gkT s∗ + λ∗ [ks∗ k2 − ksk] (2.9)
2 2
54
– Supponiamo che s∗ < ∆k . Allora:
λ∗ per la complementarietà ⇒ λ∗ = 0
Quindi
1 T 1
∀ s ∈ Rn s Bk s + gkT ≥ s∗ T Bk s∗ + gkT s∗
2 2
∗
da cui ricaviamo che s è minimo globale di mk (s) su tutto Rn , quindi anche
all’interno della regione di confidenza.
– Supponiamo che s∗ = ∆k . Allora:
∀ s : ksk ≤ ∆k ⇒ ksk ≤ ks∗ k (2.10)
Quindi, unendo la 2.9 e la 2.10 otteniamo che

1 1
∀ s : ksk ≤ ∆k ⇒ sT Bk s + gkT s ≥ s∗ T Bk s∗ + gkT s∗
2 2
e s∗ è minimo globale nella regione di confidenza.
2.4 Metodi Quasi-Newton

Richiamo 11 (Metodo di Newton)
xk+1 = xk − [∇2 f (xk )]−1 ∇f (xk )
Definiamo lo schema dei metodi Quasi-Newton come:
xk+1 = xk − αk Bk−1 ∇f (xk )
con Bk che approssima ∇2 f (xk ).
Caso quadratico f (x) = 21 xT Qx − cT x
∇f (x) = Qx − c ∇2 f (x) = Q
Q−1 (∇f (y) − ∇f (x)) = y − x

Q(y − x) = ∇f (y) − ∇f (x)
Caso generale
xk+1 = xk − αk Bk−1 ∇f (xk )
sk = xk+1 − xk
yk = ∇f (xk+1 ) − ∇f (xk )
Voglio determinare Bk in modo tale che:
1) Bk+1 sk = yk
55
2) Bk+1 = Bk + ∆Bk con ∆Bk detta matrice delle correzioni.
Ragionando ora in termini di inversa, consideriamo

Hk+1 approssimazione di [∇2 f (xk )]−1
abbiamo che:
3) Hk+1 yk = sk
4) Hk+1 = Hk + ∆Hk con ∆Hk matrice delle correzioni.
Abbiamo che Bk+1 e Hk+1 sono matrici simmetriche.
I vari metodi Quasi-Newton differiscono tra loro nella scelta delle matrici di correzione
∆Bk e ∆Hk . Considerando che
• (1) e (3) sono formule di aggiornamento dirette
• (2) e (4) sono formule di aggiornamento inverse
Se lavoriamo con quelle dirette si ottiene che
−1
xk+2 = xk+1 − αk+1 Bk+1 ∇f (xk )
Se invece lavoriamo con quelle inverse
xk+2 = xk+1 − αk+1 Hk+1 ∇f (xk )
I metodi Quasi-Newton sono anche detti a matrice variabile (quello del gradiente era
detto a discesa più ripida). Sia Bk una matrice simmetrica e definita positiva. Considero
dunque la norma indotta di Bk
1
kxkBk = (xT Bk x) 2
Vogliamo ora
min ∇f (xk )T d kdkBk = 1
d
Per Weierstrass il problema ammette soluzione. Il problema è vincolato, vedo dunque se
posso applicare le condizioni di KKT. Se rinomino il vincolo come (elevando alla seconda):
dT Bk d − 1 = 0
con Bk d gradiente vincolato 6= 0.
⇓
Esiste dunque indipendenza lineare dei gradienti dei vincoli di uguaglianza come condi-
zione di qualificazione dei vincoli. Posso quindi applicare le condizioni di KKT. Valgono
però solo le condizioni necessarie poichè i vincoli non sono lineari.
L(α, µ)g T d + µ(dT Bk d − 1)
1) g + µBk d = 0 ⇒ d = − µ1 Bk−1
2) dT Bk d = 1 ⇒ µ1 g T Bk−1 g = ±1
q
µ= g T Bk−1
Si hanno quindi 2 soluzioni, quella che ci interessa è la positiva. La soluzione è dunque
Bk−1 gk
d=−
gkT Bk gk
56
2.4.1 Interpretazione geometrica in una variabile
Data una funzione in una variabile g : R → R un metodo Quasi-Newton è detto metodo
della secante. Ricaviamo l’equazione della retta secante
gk − gk+1
y = gk+1 + (x − xk+1 )
xk − xk+1
gk − gk+1
o = gk+1 + (xk+2 − xk+1 )
xk − xk+1
xk − xk+1
xk+2 = xk+1 − gk+1 = xk+1 − hk+1 gk+1
gk − gk+2
chiamando
xk − xk+1
hk+1 =
gk − gk+2
ho dunque
hk+1 (gk − gk+1 ) = xk − xk+1
e cioè della forma
Hk+1 (∇f (xk ) − ∇f (xk+1 )) = xk − xk+1
quindi si può dire che con n = 1 il metodo Quasi-Newton è detto metodo della secante.
2.4.2 I metodi Quasi-Newton

I metodi Quasi-Newton si dividono principalmente in base al rango delle formule di
aggiornamento.
Metodi basati su formule di aggiornamento di rango 1
Bk+1 = Bk + ϕk µk vkT
Il metodo più importante è quello di Brayden.
Metodi basati su formule di aggiornamento di rango 2
Hk+1 = Hk + ak uk uTk + bk vk vkT
Il metodo più usato è BFGS :
xk+1 = xk − αk Hk gk
dkN = −Hk gk di discesa ⇒ gkT dkN < 0

con Hk definita positiva.
Determino αk con una ricerca unidimensionale (tramite Armijo o le condizioni di
Wolfe). Poiché la direzione tiene memoria delle iterazioni precedenti non posso però
usare Armijo, sono obbligato ad usare le condizioni di Wolfe.
Hk definita positiva ⇒ Hk+1 definita positiva
Hk+1 yk = sk
57
per l’equazione di QN.
ykT Hk+1 yk = ykT sk > 0
(gk+1 − gk )T > 0
con αk che scompare poiché > 0.
g(xk + αk dk )dk > g(xk )dk
Sia Φ(α) = f (xk + αdk ), la sua derivata è Φ̇(α) = g(xk + αdk )T dk . Si ha dunque che
Φ̇(α) > Φ̇(0)
per cui αk deve soddisfare una condizione sulla pendenza.
2.4.3 Conclusioni su BFGS

• Converge globalmente sotto ipotesi di continuità di f .
• Ha rapidità di convergenza superlineare (come Newton).
2.5 Metodo del gradiente di Barzilai-Borwein

Il metodo del gradiente di Barzilai-Borwein (BB) è una più versione (datata 1988) del
metodo del gradiente che si è rivelata particolarmente efficiente nella soluzione di problemi
difficili e a grande dimensione. Studiamo inizialmente il metodo nel caso quadratico e
successivamente lo estendiamo al caso non quadratico.
2.5.1 Caso quadratico

Sia dato un problema di ottimizzazione non vincolata con funzione obiettivo quadratica
1
minn xT Qx − cT x
x∈R 2
con Q matrice simmetrica e definita positiva. Ricordiamo il metodo della discesa più
ripida
xk+1 = xk − αk ∇f (xk )
con αk passo ottimo lungo la direzione −∇f (xk )
k∇f (xk )k
αk =
∇f (xk )T Q∇f (xk )
Questo metodo converge globalmente all’unica soluzione del problema, ma è poco efficien-
te.
Consideriamo ora
1
xk+1 = xk − ∇f (xk )
µk
= xk − Bk−1 ∇f (xk )
= xk − Hk ∇f (xk )
1
con Bk = µk I e Hk = µk
I.
58
• Bk la posso considerare un’approssimazione della matrice Hessiana, Q.
• Hk la posso considerare un’approssimazione dell’inversa della matrice Hessiana,
Q−1 .
Dobbiamo ora formalizzare cosa intendiamo per approssimazione. Indichhiamo con
s = xk − xk−1
y = ∇f (xk ) − ∇f (xk−1 )
Qs = y Q−1 y = s
soddisfano cioè le equazioni Quasi-Newton.
Scelgo ora µk in modo tale da minimizzare l’errore nell’equazione Quasi-Newton
min kµIs − yk2 = min µ2 sT s − 2µsT y
µ µ
La soluzione costituisce la I a formula di Barzilai-Borwein:

(a) sT y
µk = (2.11)
sT s
Analogamente per l’inversa
1 2
min ks − yk
µ µ
1
β= min ks − βyk2 = min β 2 y T y − 2βsT y
µ β β
sT y
β=
yT y
La soluzione costituisce la II a formula di Barzilai-Borwein:
(b) yT y
µk = (2.12)
sT y
Il metodo di BB converge globalmente per qualsiasi dimensione del problema in caso
di funzione obiettivo quadratica e strettamente convessa (risultato del 1992).
Interpretazione del metodo BB: metodo spettrale del gradiente

Il metodo è anche detto metodo spettrale del gradiente, legato cioè agli autovalori della
matrice Q.
Definiamo il quoziente di Raileigh della matrice Q come
xT Qx
λmin (Q) ≤≤ λmax (Q)
kxk2
Possiamo far vedere che le due formule, 2.11 e 2.12, sono due quozienti di Raileigh.
• La 2.11 è un quoziente di Raileigh
(a) sT y
µk = y = ∇f (xk ) − ∇f (xk−1 ) = Qs
sT s
(a) sT Qs sT Qs
µk = = ⇒ è un quoziente di Raileigh
sT s ksk2
59
• La 2.12 è un quoziente di Raileigh
(b) yT y (b) yT y
µk = s = Q−1 y µk =
sT y y T Q−1 y
1 y T Q−1 y 1
≤ T
≤
λmax (Q) y y λmin (Q)
(b)
λmax (Q) ≤ µk ≤ λmin (Q)
Dunque entrambi i valori di µ appartengono allo spettro di Q.
Interpretazione del metodo BB: metodo del gradiente con ritardo

Riprendiamo ora il metodo del gradiente
1
xk+1 = xk − ∇f (xk )
µk
1
xk = xk−1 − ∇f (xk−1 )
µk−1
(a)
Consideriamo ora la prima formula di BB µk = µk :
sTk−1 yk−1
µk =
sTk−1 sk−1
Ricordando che sk−1 = xk − xk−1 e yk−1 = ∇f (xk ) − ∇f (xk−1 ). Moltiplico ora l’equazione
del gradiente per Q e sottraggo c da ambo le parti, ottenendo:
1
yk−1 = ∇f (xk ) − ∇f (xk−1 ) = − Q∇f (xk−1 )
µk−1
1
sTk−1 yk−1 = −( )2 ∇f (xk−1 )T Q∇f (xk−1 )
µk−1
1
sTk−1 sk−1 = ( )2 k∇f (xk−1 )k2
µk−1
1
xk+1 = xk − ∇f (xk )
µk
k∇f (xk−1 )k2
= xk − ∇f (xk )
∇f (xk−1 )T Q∇f (xk−1 )
con µ1k che rappresenta il passo ottimo relativo all’iterazione precedente. Questo dà luogo
ad un metodo del gradiente con ritardo.
60
2.5.2 Caso non quadratico
L’estensione del metodo del gradiente di Barzilai-Borwein al caso non quadratico risale
all’anno 1997.
Sia dato un problema di ottimizzazione non vincolata
min f (x)
x∈Rn
utilizziamo le due formule di BB ottenute nel caso quadratico
(a) sT y (b) yT y
µk = µk =
sT s sT y
1
xk+1 = xk − αk ∇f (xk )
µk
Osservazioni
• Nel caso quadratico µk era sicuramente positivo (essendo compreso nello spettro
della matrice Q, definita positiva). Nel caso non quadratico non ho limitazioni di
segno per µk , quindi è necessario effettuare un controllo
1
0 < ε ≤ µk ≤ ε ' 10−10
ε
• αk determinato con una ricerca unidimensionale, Armijo non monotono
Cenni sui metodi non monotoni

Riprendiamo il metodo di Newton
xk+1 = xk − [∇2 f (xk )]−1 ∇f (xk )
Se x0 ∈ B(x∗ , ε) ⇒ il metodo converge localmente con rapidità superlineare. Non è però

assicurato che f (xk+1 ) < f (xk ), cioè il metodo è generalmente non monotono. Nel caso
del metodo di Newton non posso quindi utilizzare Arminjo (è un metodo monotono) senza
stravolgimenti del metodo stesso. Esiste però una versione di Armijo non monotona:
• Armijo monotono
f (xk+1 ) ≤ f (xk ) + γαk ∇f (xk )T dk
• Armijo non monotono
f (xk+1 ) ≤ W k + γαk ∇f (xk )T dk W k = max {f (xk−j )}

0≤j≤M
con M intero finito. Può quindi accadere che si verifichi la condizione f (xk+1 ) >
f (xk ).
61
2.6 Metodi per problemi di minimi quadrati
Sia dato un problema di ottimizzazione non vincolata
m
X
minn ri2 (x)
x∈R
i=1
con r funzione dei residui.

ri (x) = aTi x − bi i = 1, . . . , m ⇒ minimi quadrati lineari
Se
altrimenti ⇒ minimi quadrati non lineari
2.6.1 Problemi di minimi quadrati lineari

1
minn kAx − bk2
x∈R 2
   
aT1 b1
A =  ...  b= .. 
  
. 
aTm bm
Vogliamo dimostrare che il problema ammette soluzione qualunque sia la matrice A. Devo
far vedere che il sistema
AT Ax = AT b
ammette soluzione, questo perchè
∇f (x) = AT Ax − AT b ∇2 f (x) = AT A
cioè ∃ x∗ : ∇f (x∗ ) = 0 ⇒ x∗ è soluzione poichè f è convessa. Vediamo ora un risultato
di geometria
b = bR + bN bR ∈ Range(A) bN ∈ Ker(AT )
AT Ax = AT (bR + bN )
= A T bR
Per dimostrare il risultato di geometria consideriamo il problema
min kb − yk2 AT y = 0
y
Il problema ammette soluzione perchè la funzione obiettivo è coerciva e l’insieme ammis-

sibile è chiuso e non vuoto. Poichè i vincoli sono lineari posso applicare le condizioni
KKT :
L(y, λ) = kb − yk2 + λT (AT y)
∇y L(y, λ) = −(b − y ∗ ) + Aλ∗ = 0
⇓
b = y + Aλ∗
∗
In questo caso le condizioni KKT sono condizioni necessarie e sufficienti poichè f convessa
ed i vincoli sono lineari.
bR = Aλ∗ ∈ Range(A)
bN = y ∗ ∈ Ker(A)
Per il calcolo della soluzione si può ricorrere a metodi diretti (ad esempio quello della
pseudoinversa) o metodi iterativi (gradiente coniugato).
62
Metodo incrementale (filtro di Kalman)
Data Ã(k, n) e b̃ ∈ Rn , abbiamo cioè k osservazioni precedenti

1
min kÃx − b̃k2
2
Indichiamo con x(k) la soluzione al problema precedente. A questo punto abbiamo la
nuova (k + 1)-esima osservazione e vogliamo esprimere x(k + 1) in funzione di x(k).
Indichiamo con
Ã b̃
A= b=
aTk+1 bk+1
Viene soddisfatta AT Ax(k + 1) = AT b poichè x(k + 1) annulla il gradiente della funzione
obiettivo.
ÃT Ãx(k) = ÃT b̃ (2.13)
all’iterazione precedente.

T T Ã
A A = (Ã ak+1 ) = ÃT Ã + ak+1 aTk+1
aTk+1

T T b̃
A b = (Ã ak+1 ) = ÃT b̃ + ak+1 bk+1
bk+1
Utilizzando la 2.13:
[ÃT Ã + ak+1 aTk+1 ]x(k + 1) = ÃT b̃ + ak+1 bk+1 = ÃT Ãx(k) + ak+1 bk+1
[ÃT Ã + ak+1 aTk+1 ]x(k + 1) = [ÃT Ã + ak+1 aTk+1 ]x(k) − ak+1 aTk+1 x(k) + bk+1 ak+1
Chiamo ora
Hk = [ÃT Ã + ak+1 aTk+1 ] Hk = ÃT Ã
Se Hk è invertibile ⇒ Hk+1 è invertibile, poichè definita positiva
−1
x(k + 1) = x(k) + Hk+1 ak+1 (bk+1 − aTk+1 x(k))
E’ una funzione di aggiornamenti che mi fornisce la nuova soluzione a partire dalla
soluzione precedente con
Hk+1 = Hk + ak+1 aTk+1
−1
Esistono formule che forniscono Hk+1 nota Hk−1 . E’ un metodo incrementale. Viene
utilizzato quando il numero dei dati dati e delle caratteristiche è molto elevato.
2.6.2 Problemi di minimi quadrati non lineari

Nel caso di problemi di minimi quadrati non lineari devo innanzitutto garantire l’esistenza
della soluzione (ad esempio con ipotesi di coercività). Per il calcolo della soluzione si può
poi ricorrere al metodo di Gauss-Newton oppure al metodo di Levembert-Marquardt.
Dato un problema di ottimizzazione non vincolata di minimi quadrati non lineari
m
1X 2 1
minn ri (x) = kri (x)k2
x∈R 2 i=1 2
63
con n ≥ m, r(x) : Rn → Rm .
 
∇riT (x)
J(x) = 
 .. 
. 
T
∇rm (x)
m
X
∇f (x) = ri (x)∇riT (x) = J T (x)r(x)
i=1
m
X m
X m
X
∇2 f (x) = ∇ri (x)∇riT (x) + ri (x)∇2 ri (x) = J T (x)J(x) + ri (x)∇2 ri (x)
i=1 i=1 i=1
Metodo di Gauss-Newton
Consideriamo il metodo di Newton
∇2 f (xk )d = −∇f (xk )
Se ri (x) hanno valori piccoli posso approssimare la matrice Hessiana con
∇2 f (xk ) ' J T (xk )J(xk )
trascurando cioè il termine composto unicamente dai residui. Con questa approssimazione
introduco il metodo di Gauss-Newton:
• Risolvi il sistema J T (xk )J(xk )d = −J T (xk )r(xk )
• Poni xk+1 = xk + dk
Il sistema ammette sempre soluzione poichè è un sistema di minimi quadrati lineari,

equivale cioè a risolvere
min kJ(xk )d + r(xk )k2
d
∗
La soluzione che otteniamo, d , è sempre una direzione di discesa. Il metodo di Gauss-
Newton ha convergenza locale con rapidità superlineare o quadratica, otteniamo cioè gli
stessi risultati di convergenza del metodo di Newton senza però l’utilizzo delle derivate
seconde. Il vincolo nell’applicazione del metodo è dato unicamente dalla trascurazione
dei residui e quindi dall’approssimazione della matrice Hessiana.
Una variante del metodo di Gauss-Newton, detta damped, introduce una ricerca
unidimensionale
xk+1 = xk + αk dk
Utilizziamo Armijo non monotono per determinare αk .
Proposizione 34 (Convergenza globale del metodo di Gauss-Newton) Se J T (xk )J(xk )

è uniformemente definita positiva, ovvero l’autovalore minimo al variare di k è maggiore
di un valore minimo, la convergenza del metodo di Gauss-Newton è globale.
64
Metodo di Levenberg-Marquardt
Sia
J T (xk )J(xk ) + Dk
con Dk definita positiva, detta matrice di perturbazione. Considero Dk = µk I
(J T (xk )J(xk ) + µk I)d = −J T (xk )r(xk )
Le varie versioni del metodo differiscono nella scelta di µk .

Una buona scelta potrebbe essere
µk = min{a, k∇f (xk )k}
ovvero perturbo sempre meno il metodo avvicinandomi ad un punto stazionario.
2.7 Metodi per problemi a larga scala

Sia dato un problema di ottimizzazione non vincolata il cui numero di variabili è elevato
min f (x)
x∈Rn
Possiamo utilizzare:
• Metodo di Barzalai-Borwein o gradiente coniugato (non richiedono la memorizza-

zione di matrici)
• Metodo di Newton troncato
∇2 f (xk )d = −∇f (xk )
Se ∇2 f (xk ) definita positiva

1
min dT ∇2 f (xk )d + ∇f (xk )T d
d 2
posso quindi risolvere il problema con il metodo del gradiente coniugato per funzioni
quadratiche
∇f (xk + εv) − ∇f (xk )
∇2 f (xk )v '
ε
Si chiama troncato poichè il metodo del gradiente coniugato è iterativo e potrebbe
essere sufficiente interrompere il processo per ottenere una buona approssimazione.
• Metodi Quasi-Newton a memoria limitata (L-BFGS)
Bk d = −∇f (xk )
65
2.8 Metodi senza derivate
Dato un problema di ottimizzazione non vincolata del tipo
min f (x)
x∈Rn
con f ∈ C 1 , funzione obiettivo di cui non conosciamo le derivate.
Si può procedere alla risoluzione del problema seguendo due approcci:

• Metodi basati sulle approssimazioni alle differenze finite
• Metodi di ricerca diretta
2.8.1 Metodi basati sulle approssimazioni alle differenze finite

Si procede fornendo un approssimazione delle derivate parziali alle differenze finite
δf (x) f (x + εli ) − f (x)
'
δxi ε
con ε > 0 sufficientemente piccolo, ε ' 10−7 . Indichiamo con ˆ (x) l’approssimazione
∇f
del gradiente della funzione obiettivo, ∇f (x).
 
0
 ..
 f (x+εl )−f (x) 
1
 .

ε 
ˆ (x) = 
∇f .. l =  1
  
 .  i
 .

f (x+εln )−f (x)  ..


ε
0
con li vettore con solo la (i)-esima componente unitaria. A questo punto applico un
ˆ (x) al posto
metodo di tipo gradiente (gradiente coniugato, Quasi-Newton) utilizzando ∇f
di ∇f (x).
Questi metodi possono però essere molto inefficaci in problemi in cui è presente un
rumore
66
δf (x) fˆ(x + εli ) − fˆ(x) |ρ(x + εli ) − ρ(x)|
| − | ≤ c1 ε +
δxi ε ε
Dalla formula precedente si nota che ε si trova sia a numeratore che a denominatore,
dovendo così trovare un compromesso nella scelta del valore finale.
2.8.2 Metodi di ricerca diretta

I metodi di ricerca diretta più rilevanti sono
• Metodo di Nelder-Mead
• Metodo delle coordinate
• Metodo di Hook-Jeeves
Ci sono poi varie estensioni dei metodi precedenti.
Metodo di Nelder-Mead
Il metodo di Nelder-Mead è anche detto metodo del simplesso, poichè si basa su (n + 1)
punti e viene utilizzato l’involucro convesso (detto simplesso) di questi punti. L’involucro
convesso è l’area delimitata dai punti dati.
Alla generica iterazione abbiamo S = {x1 , x2 , . . . , xn+1 }, li ordiniamo in modo tale
che
f (x1 ) ≤ f (x2 ) ≤ · · · ≤ f (xn+1 )
L’idea di questo metodo è di sostiuire il punto xn+1 (il peggiore nell’insieme dato di punti)
con un nuovo punto in modo da ottenere un miglioramento della funzione obiettivo.
Chiamo x̄ il baricentro degli n punti. Nel caso n = 2:
n
1X
x̄ = xi
n i=1
A partire dal punto peggiore (x3 ) traccio la linea che passa per il baricentro fino a xr ,
definito come
xr = x̄ + (x̄ − xn+1 )
67
Se xr è un buon punto (cioè tale che f (xr ) ≤ f (x1 )) provo a migliorare ancora nella stessa
direzione (ipotizzata essere di discesa) fino a calcolare xe = x̄ + 2(x̄ − xn+1 ). Nel caso in
cui f (xe ) > f (xr ) interrompo la ricerca ed inserisco xr al posto di xn+1 e riordino S.
• Se f (x1 ) ≤ f (x2 ) < f (xr ) ⇒ sostituisco xn+1 con xr .
• Se f (xr ) ≥ f (xn ) allora
– Se f (xr ) > f (xn+1 ) genero xci = x̄ − 12 (x̄ − xn−1 ), contrazione interna.

– Se f (xc i) > f (xn+1 ) procedo con un operazione di shrinking, contrazione del
simplesso, generando i punti xi = x1 + 21 (x̄ − x1 ).
– Se f (xr ) ≤ f (xn+1 ) genero xce = x̄+ 21 (x̄−xn+1 ), contrazione esterna e procedo
come nel caso precedente.
Caratteristiche
• Molto efficiente in pratica.
• Proprietà di convergenza globale (solo nel caso n = 1).
• Esistono contro esempi di non convergenza già nel caso n = 2.
• Esistono varie modifiche del metodo globalmente convergenti.
Metodi delle coordinate

In assenza di informazioni sulle derivate non sappiamo se una data direzione è di discesa.
Anzichè una singola direzione possiamo quindi pensare di operare con un insieme di
direzioni. La proprietà richiesta all’insieme di direzioni è che almeno una di esse sia di
discesa in xk punto corrente, anche non sapendo quale.
Considero quindi
D = {e1 , e2 , . . . , en , −e1 , −e2 , . . . , −en }
un insieme di 2n direzioni che gode della proprietà precedente, vedi sezione 1.4.6.
L’idea del metodo delle coordinate consiste nel ricercare un punto migliore procedendo
nelle direzioni di D di un passo αk .
Se ∃ i ∈ {1, . . . , n} : f (xk + αk ei ) < f (xk ) ⇒ xk+1 = xk + αk ei

Se ∃ i ∈ {1, . . . , n} : f (xk − αk ei ) < f (xk ) ⇒ xk+1 = xk − αk ei
Se la condizione precedente non è valida diminuisco αk .
αk = θαk θ ∈ (0, 1)
xk+1 = xk
68
Formalizzazione Dati x0 ∈ Rn , D = {e1 , e2 , . . . , en , −e1 , −e2 , . . . , −en }, θ ∈ (0, 1)
Algoritmo 8 Metodo delle coordinate

for k = 0, 1, . . . do
if ∃ i ∈ {1, . . . , n} : f (xk ± αk ei ) < f (xk ) then
xk+1 = xk ± αk ei
αk+1 = αk
else
xk+1 = xk
αk+1 = θαk
end if
end for
Assumiamo ora che L0 = {x ∈ Rn : f (x) ≤ f (x0 )} sia compatto.
Proposizione 35 Sia L0 compatto. Allora:
lim αk = 0
k→∞
Proposizione 36 (Convergenza del metodo delle coordinate) Sia f ∈ C 1 , L0

compatto. Allora:
• {xk } ammette punti di accumulazione
• ∃ almeno un punto di accumulazione stazionario.
Risultato debole di convergenza: possono esistere punti di accumulazione non stazionari.
Dimostrazione
• f (xk+1 ) ≤ f (xk ) ⇒ {xk } ⊂ L0 , compatto. Quindi {xk } ammette punti di accumu-

lazione.
•
lim αk = 0 ⇒ ∃ K1 ⊆ {0, 1, . . .} : αk+1 = θαk
k→∞
K1 è quindi l’insieme delle iterazioni in cui ho diminuito il passo αk . Considero ora

la sottosequenza di {xk }. Quindi:
∃ K2 ⊆ K1 : lim xk = x̄
k∈K2 ,k→∞
∀; k ∈ K2 : f (xk + αk ei ) ≥ f (xk ) f (xk − αk ei ) ≥ f (xk ) ∀ i = 1, . . . , n

Applico ora il teorema della media:
f (xk + αk ei ) = f (xk ) + αk ∇f (uik )T ei con uik = xk + tk αk ei tk ∈ (0, 1)
f (xk − αk ei ) = f (xk ) − αk ∇f (vki )T ei con vki = xk − zk αk ei zk ∈ (0, 1)
69
Quindi:
αk ∇f (uik )T ei ≥ 0 αk ∇f (vki )T ei ≤ 0
Ma per lim αk = 0 e lim xk = x̄ ho che
k→∞ k∈K2 ,k→∞
lim uik = x̄ lim vki = x̄

k∈K2 ,k→∞ k∈K2 ,k→∞
Mandiamo ora al limite per k ∈ K2 , k → ∞ (tenendo conto della continuità del

gradiente).
∇f (x̄)T ei ≥ 0 ∇f (x̄)T ei ≤ 0
δf (x̄) δf (x̄)
≥0 ≤0
δxi δxi
⇓
δf (x̄)
=0 i = 1, . . . , n
δxi
Quindi x̄ è un punto stazionario.
Metodo di Hook-Jeeves
Il metodo di Hook-Jeeves è una variante del metodo delle coordinate.
2.9 Problemi di ottimizzazione vincolata

Dato un problema di ottimizzazione vincolata
min f (x) S ⊂ Rn
x∈S
con S insieme ammissibile.
Definizione 12 (Direzione ammissibile in un punto) Un vettore d ∈ Rn , d 6= 0 è

detto direzione ammissibile nel punto x̄ se
x̄ + td ∈ S ∀ t ∈ [0, t̄]
Proposizione 37 (Condizione necessaria di minimo locale) Sia x̄ ∈ S un punto di

minimo locale. Allora non può esistere una direzione ammissibile di discesa
Dimostrazione
Ovvia, segue dalla definizioni di minimo locale e direzione di discesa.
Supponiamo f continuamente differenziabile.

minimo locale. Allora non esiste una direzione ammissibile d ∈ Rn tale che
∇f (x̄)T d < 0
70
Dimostrazione
Supponiamo per assurdo che esista d ∈ Rn tale che
∇f (x̄)T < 0
Allora d è una direzione ammissibile e di discesa, ma x̄ non sarebbe un minimo locale.

Assurdo.
Supponiamo ora f due volte continuamente differenziabile.

minimo locale. Allora non può esistere direzione ammissibile tale che
dT ∇2 f (x̄)d = 0 dT ∇2 f (x̄)d < 0
Dimostrazione
Come la dimostrazione della proposizione precedente.
Proposizione 40 (Direzione ammissibile in caso di convessità) Sia x̄ ∈ S. Co-

munque si prenda x ∈ S, con x 6= x̄ allora
d = x − x̄ è una direzione ammissibile in x̄
Dimostrazione
S convesso ⇒ (1 − λ)x̄ + λx ∈ S ∀ λ ∈ [0, 1].
x̄ + λ(x − x̄) ∈ S ∀ λ ∈ [0, 1]
x̄ + λd ∈ S ⇒ dè ammissibile
Proposizione 41 (Condizione necessaria minimo locale) Sia x̄ ∈ S minimo locale.

Allora:
1) Se f ∈ C 1 ⇒ ∇f (x̄)T (x − x̄) ≥ 0 ∀ x ∈ S
2) Se f ∈ C 2 ⇒ ∀ x ∈ S : ∇f (x̄)T (x − x̄) = 0 ⇒ (x − x̄)T ∇2 f (x̄)(x − x̄) ≥ 0

Dimostrazione
Sia x ∈ S con x 6= x̄. Per la proposizione precedente ho che
d = (x − x̄) è ammissibile
1) Poiché x̄ minimo locale, d non può essere di discesa quindi
∇f (x̄)T d = ∇f (x̄)T (x − x̄) ≥ 0
71
2) Dimostrazione analoga
Proposizione 42 (Condizione necessaria e sufficiente di minimo globale) Sia

f ∈ C 1 , convessa. x̄ è un punto di minimo globale se e solo se
∇f (x̄)T (x − x̄) ≥ 0 ∀x∈S
Dimostrazione
• Condizione necessaria già dimostrata.

• Condizione sufficiente
Per la convessità di f , ∀ x ∈ S:
f (x) ≥ f (x̄) + ∇f (x̄)T (x − x̄) ≥ f (x̄)
quindi x̄ è un punto di minimo globale.
Definizione 13 (Insieme dei punti critici) Dato un problema di ottimizzazione vin-

colata su insieme convesso S si definisce l’insieme dei punti critici (o stazionari), ovvero
quei punti che soddisfano le condizioni necessarie di ottimalità del primo ordine
Λ = {x̄ ∈ S : ∇f (x̄)T (x − x̄) ≥ 0 ∀ x ∈ S}
2.9.1 Insieme S definito mediante vincoli lineari

Dato un problema di ottimizzazione vincolata su insieme S sia
S = {x ∈ Rn : Ax ≤ b}
con A matrice (mxm) e b di dimensione m. L’area delimitata risulta essere quindi un

poliedro.
Sia x̄ ∈ S. Sia poi I(x̄) l’insieme degli indici dei vincoli attivi
I(x̄) = {i ∈ {1, . . . , m} : aTi x̄ = bi }
Dalla definizione, maggiore è la cardinalità di I, minore sarà la libertà di scelta delle

direzioni ammissibili in x̄.
Proposizione 43 (Direzione ammissibile in un punto) Sia x̄ ∈ S. Una direzione

d ∈ Rn , d 6= 0 è ammissibile in x̄ se e solo se
aTi d ≤ 0 ∀ i ∈ I(x̄)
Sia ora S = {x ∈ Rn : Ax ≤ b, ux = c}. Abbiamo quindi inserito nell’insieme S anche

i vincoli di uguaglianza. Quindi
I(x̄) = {i ∈ {1, . . . , m} : aTi x = bi }
72
d è direzione ammissibile in x̄ se e solo se aTi d ≤ 0 ∀ i ∈ I(x̄), ma devo tenere di conto
anche dei vincoli di uguaglianza. Esplicito i vincoli di uguaglianza in disuguaglianza
ux = c ⇒ uTi x ≤ ci − uTi x ≤ −ci
quindi aggiungo la condizione uTi d = 0 ∀ i ∈ I(x̄).
2.9.2 Condizioni di ottimalità per problemi di vincoli di box

Dato un problema di ottimizzazione con vincoli di box del tipo
min f (x)
li ≤xi ≤ui
per i = 1, . . . , n. Per studiarlo ho due approcci
• Approccio algebrico (usando le condizioni di KKT)
• Approccio geometrico
Utilizzando le condizioni di KKT avevamo ricavato che, dato x̄ minimo locale:


≥ 0 se x̄i = li
δf (x̄) 
= = 0 se li ≤ x̄i ≤ ui
δxi
≤ 0 se x̄i = ui

Questo tipo di approccio è di tipo algebrico.

A queste stesse conclusioni possiamo giungere utilizzando i risultati sulle direzioni
ammissibili e di discesa, approccio geometrico.
Sia x ∈ S minimo locale.
• Caso I: supponiamo x̄i = li .

La direzione d = ei (vettore con solo la i-esima componente unitaria) è ammissibile.
δf (x̄)
∇f (x̄)T d = ∇f (x̄)T ei = ≥0
δxi
• Caso II: supponiamo li ≤ x̄i ≤ ui .

Sia ei che −ei sono direzioni ammissibili in x̄. Dunque
(
δf (x̄)
∇f (x̄)T ei ≥ 0 δxi
≥0 δf (x̄)
T ⇒ δf (x̄) ⇒ =0
−∇f (x̄) ei ≥ 0 δxi
≤0 δxi
• Caso III: supponiamo x̄i = ui .

In questo caso solo −ei è direzione ammissibile in x̄.
δf (x̄)
−∇f (x̄)T ei ≥ 0 ⇒ ≤0
δxi
73
2.9.3 Condizioni di ottimalità per problemi con vincolo di sim-
plesso
Dato il problema di ottimizzazione vincolata
Pnmin f (x) x≥0

i=1 xi =1
possiamo anche in questo caso procedere per via alegebrica (usando le condizioni di KKT)
oppure in via geometrica.
Voglio dimostrare che, dato x̄ minimo locale
δf (x̄) δf (x̄)
x̄i > 0 ⇒ ≤ j = 1, . . . , n
δxi δxj
• Metodo algebrico
Utilizzo le condizioni di KKT, poichè i vincoli sono lineari.

Xn
L(x, λ, µ) = f (x) + µ( xi − 1) − λT x
i=1
Applico KKT
δL(x, λ, µ) δf (x̄)
= + µ̄ − λ̄i = 0
δxi δxi
λ̄i x̄i = 0 i = 1, . . . , n
λ̄ ≥ 0
Sia x̄i > 0 ⇒ λ̄i = 0 per la complementarietà
δf (x̄)
= −µ̄ (2.14)
δxi
con µ̄ che non dipende da i. In generale possiamo dire che
δf (x̄)
= λ̄i − µ̄ ≥ −µ̄ (2.15)
δxi
poichè λ̄i ≥ 0.
Da 2.14 e 2.15 segue che
δf (x̄) δf (x̄)
x̄i > 0 ⇒ ≤ j = 1, . . . , n
δxi δxj
• Metodo geometrico Riscrivo i vincoli
1T x = 1 aT x = b
x≥0 −x≤0
Sia quindi x̄ minimo locale, quindi ammissibile. La direzione d è ammissibile in x̄
se e solo se
74
a. 1T d = 0
b. di ≥ 0 ∀ i : x̄i = 0
considerando I(x̄) = {i : x̄i = 0}.
Consideriamo direzioni ammissibili con 2 componenti diverse da zero.

 
0
 .. 
 . 
 +1 
 
 . 
d=  .. 
 1T d = 0
 −1 
 
 . 
 .. 
0
il vincolo (a) è quindi soddisfatto.

Supponiamo ora che x̄i > 0, associo il −1 a quella componente. La componente uni-
taria la posso associare a qualsiasi altra componente. In questo modo anche la condizione
(b) è soddisfatta e d è ammissibile. Quindi:
∇f (x̄)T d ≥ 0
δf (x̄) δf (x̄)
− ≥0
δxj δxi
δf (x̄) δf (x̄)
≥ ∀ j = 1, . . . , n
δxj δxi
2.10 Proiezione di punti su un insieme convesso

Sia S ⊆ Rn insieme convesso, chiuso e non vuoto, x ∈ Rn . Vogliamo trovare
min kx − yk
y∈S
Definizione 14 (Proiezione) Sia S ⊂ Rn convesso, chiuso e non vuoto. Sia x ∈ Rn e

k · k norma euclidea. La proiezione p(x) di x su S è la soluzione del problema
min kx − yk
y∈S
ovvero p(x) ∈ S tale che
kx − p(x)k ≤ kx − yk ∀y∈S
Proposizione 44 Sia S ⊂ Rn convesso, chiuso e non vuoto. Sia x ∈ Rn e k · k norma

euclidea. Allora:
a. Il punto y ∗ ∈ S è la proiezione di x su S, ovvero y ∗ = p(x) se e solo se (x−y ∗ )T (y −

y∗) ≤ 0 ∀ y ∈ S
75
b. L’operazione di proiezione è continua e non espansiva, vale cioè kp(z) − p(x)k ≤
kz − xk ∀ x, y ∈ Rn
Dimostrazione
a. La proiezione p(x) è l’unica soluzione del problema
1
min kx − yk2
y∈S 2
dunque y ∗ = p(x) se e solo se

∇f (y ∗ )∗ (y − y ∗ ) ≥ 0 ∀y∈S
ossia
−(x − y ∗ )T (y − y ∗ ) ≥ 0 ∀y∈S
(x − y ∗ )T (y − y ∗ ) ≤ 0 ∀y∈S
b. Siano x, z ∈ Rn e si considerino le loro proiezioni p(x), p(z) ∈ S.

(x − p(x))T (y − p(x)) ≤ 0 ∀y∈S
(z − p(z))T (y − p(z)) ≤ 0 ∀y∈S
Sostituisco a y le due proiezioni (essendo contenute in S):
(x − p(x))T (p(z) − p(x)) ≤ 0 (z − p(z))T (p(x) − p(z)) ≤ 0
(x − p(x))T (p(z) − p(x)) + (z − p(z))T (p(x) − p(z)) ≤ 0
(x − p(x))T (p(z) − p(x)) − (z − p(z))T (p(z) − p(x)) ≤ 0
(x − p(x) − z + p(z))T (p(z) − p(x)) ≤ 0
kp(z) − p(x)k2 − (p(z) − p(x))T (z − x) ≤ 0
kp(z) − p(x)k2 ≤ (p(z) − p(x))T (z − x) ≤ kp(z) − p(x)kkz − xk
kp(z) − p(x)k ≤ kz − xk
Proposizione 45 (Punto critico) Si consideri il problema di ottimizzazione del tipo

min f (x), S ⊆ Rn convesso e sia x∗ ∈ S. Supponiamo che f ∈ C 1 in un intorno di x∗ .
x∈S
Allora:
x∗ è un punto critico per f su S ⇔ x∗ = p[x∗ − s∇f (x∗ )] s > 0
Dimostrazione
x∗ è la proiezione di x∗ − s∇f (x∗ ) su S se e solo se

(x∗ − s∇f (x∗ ) − x∗ )T (x − x∗ ) ≤ 0 ∀x∈S
ovvero
−s∇f (x∗ )T (x − x∗ ) ≤ 0
∇f (x∗ )T (x − x∗ ) ≥ 0 ∀x ∈ S
quindi x∗ è un punto critico.
76
2.10.1 Problemi con vincoli di box trattati mediante proiezioni
Si consideri un problema di ottimizzazione con vincoli di box del tipo
min f (x)
x∈S
con S = {x ∈ Rn : l ≤ x ≤ u l, u ∈ Rn }.
Sia x ∈ Rn , la proiezione y ∗ ∈ S di x su S è data da:


 li se xi < li
∗
yi = xi se li ≤ xi ≤ ui
ui se xi > ui

Quindi (x − y ∗ )T (x − y ∗ ) ≤ 0 ∀ y ∈ S.

 0 se li ≤ xi ≤ ui
xi − yi∗ = xi − li < 0 se xi < li
xi − u i > 0 se xi > ui

Dunque abbiamo che

X X
(x − y ∗ )T (x − y ∗ ) = (xi − li )T (xi − li ) + (xi − ui )T (xi − ui ) ≤ 0
i=xi <li i=ui <xi
2.11 Metodo del gradiente proiettato

Una diversa estensione del metodo del gradiente a problemi vincolati è il metodo del
gradiente proiettato, che è definito dall’iterazione
xk+1 = xk + αk (p[xk − sk ∇f (xk )] − xk )

con αk > 0 trovato con uno dei vari metodi di ricerca unidimensionale, sk > 0 e con
p[xk − sk ∇f (xk )] la proiezione del punto xk − sk ∇f (xk ).
Il metodo del gradiente proiettato può essere realizzato sia fissando sk a un valore
costante ed effettuando una ricerca unidimensionale tipo-Armijo per il calcolo di αk , sia
fissando αk a un valore costante ∈ (0, 1] ed effettuando una ricerca su sk (nel secondo
caso, al variare di sk si definisce un percorso curvilineo su S).
Verifichiamo ora che la direzione di ricerca sia una direzione di discesa, ovvero che
dk = p[xk − sk ∇f (xk )] − xk ∇f (xk )T dk < 0
Proposizione 46 Sia f ∈ C 1 su un insieme aperto contentent S e sia dk = p[xk −

sk ∇f (xk )] − xk con sk > 0 e con p[xk − sk ∇f (xk )] la proiezione del punto xk − sk ∇f (xk ).
Allora:
Se dk 6= 0 ⇒ ∇f (xk )T dk < 0
Dimostrazione
Sia x̂ = p[xk − sk ∇f (xk )]. Allora, per le proprietà di proiezione
(xk − sk ∇f (xk ) − x̂)T (x − x̂) ≤ 0 ∀x∈S
77
Ponendo x = x̂ (entrambi appartengono ad S)
−sk ∇f (xk )T (xk − x̂) + kxk − x̂k2 ≤ 0
sk ∇f (xk )T dk ≤ −kxk − x̂k2

1
∇f (xk )T dk ≤ − kxk − x̂k2 < 0
sk
2.11.1 Formalizzazione del metodo

Siano x0 ∈ S, s > 0.
Algoritmo 9 Metodo del gradiente proiettato

for k = 0, 1, . . . do
xˆk = p[xk − sk ∇f (xk )]
if xˆk = xk then
xk è un punto critico, STOP
else
dk = xˆk − xk
calcola αk con Armijo
xk+1 = xk + αk dk
end if
end for
Proposizione 47 (Convergenza globale del metodo del gradiente proiettato)

{xk } ammette punti di accumulazione ed ogni punto di accumulazione è un punto critico
Dimostrazione
{xk } ⊂ S compatto ⇒ {xk } ammette punti di accumulazione. Per Armijo abbiamo

che
lim ∇f (xk )T dk = 0 (2.16)
k→∞
Sia x un punto di accumulazione, cioè tale che ∃ K ⊂ {0, 1, . . .}:
lim xk = x (2.17)
k∈K,k→∞
Dalle proprietà precedenti ricaviamo che

1
∇f (xk )T dk ≤ − kxk − x̂k2 < 0 (2.18)
sk
L’operazione di proiezione è continua e non espansiva
kp(x) − p(z)k ≤ kx − zk (2.19)
Dai risultati di 2.16 e 2.17 otteniamo che
lim kxˆk − xk k = 0 (2.20)

k∈K,k→∞
78
Dai risultati di 2.18 e 2.19 otteniamo che
lim xˆk = x (2.21)

k∈K,k→∞
Ricordando che xˆk = p[xk − sk ∇f (xk )], per la continuità di f , abbiamo che x = p[x −
sk ∇f (x)] cioè che x è un punto critico.
2.11.2 Criticità del metodo del gradiente proiettato

Una delle difficoltà principali nell’applicazione del metodo del gradiente proiettato è quella
di poter effettuare in modo efficiente l’operazione di proiezione. Anche se i vincoli sono
lineari l’operazione di proiezione può essere laboriosa, in quanto si richiede di risolvere
un problema di programmazione quadratica. Quando la proiezione può essere effettuata
efficientemente, il metodo del gradiente proiettato ha rapidità di convergenza migliore del
metodo di Frank Wolfe.
Nel caso di vincoli semplici, alcune recenti versioni non monotone, in cui sk viene
scelto con le formule di Barzilai-Borwein e αk è calcolato con un metodo tipo-Armijo non
monotono appaiono particolarmente promettenti.
2.12 Metodo di Frank-Wolfe

Sia xk ∈ S. Procediamo con un linearizzazione della funzione obiettivo f come segue
f (x) ' f (xk ) + ∇f (xk )T (x − xk )
Questo equivale alla risoluzione di un problema di ottimizzazione del tipo
min ∇f (xk )T (x − xk )
x∈S
Poichè la funzione obiettivo è lineare ed S è compatto il problema per Weiestrass ammette

soluzione. Possiamo affermare che ∇f (xK )T (xˆk − xk ) ≤ 0.
2.12.1 Formalizzazione del metodo

Siano x0 ∈ S.
Algoritmo 10 Metodo di Frank-Wolfe

for k = 0, 1, . . . do
Calcola xˆk ∈ arg minx∈S ∇f (xk )T (x − xk )
if ∇f (xk )T (xˆk − xk ) = 0 then
xk è un punto critico, STOP
else
dk = xˆk − xk
calcola αk con Armijo
xk+1 = xk + αk dk
end if
end for
79
Proposizione 48 (Convergenza globale del metodo di Frank-Wolfe) {xk } am-
mette punti di accumulazione ed ogni punto di accumulazione è un punto critico
Dimostrazione
{xk } ⊂ S compatto ⇒ {xk } ammette punti di accumulazione. Sia x un punto di

accumulazione, cioè tale che ∃ K ⊂ {0, 1, . . .}:
lim xk = x
k∈K,k→∞
∀ iterazione k abbiamo che, per la definizione di xˆk
∇f (xk )T dk = ∇f (xk )T (xˆk − xk ) ≤ ∇f (xk )T (x − xk )
Preso ora un qualsiasi x ∈ S e mandando al limite per k ∈ K, k → ∞ otteniamo che
∇f (x)T (x − x) ≥ 0 ∀x∈S
Dunque x è un punto critico.
80

Metodi Ottimizzazione

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Metodi Ottimizzazione

Caricato da

Copyright:

Formati disponibili

Metodi di Ottimizzazione

Sia S ⊆ Rn insieme ammissibile, f : S → R funzione obiettivo (da minimizzare o

• Se S ⊂ {0, 1}n → ottimizzazione combinatoria.

• Se le variabili possono assumere valore continuo → ottimizzazione continua.

Nel corso ci occuperemo principalmente di ottimizzione continua.

• Se S ≡ Rn ottimizzazione non vincolata.

• Se f, gj , hi funzioni differenziabili → ottimizzazione differenziabile

• Altrimenti ottimizzazione non differenziabile

Definizione 1 (Punto di minimo globale)

Definizione 2 (Punto di minimo locale)

x∗ ∈ S se ∃ una sfera aperta B(x∗ , c) tale che f (x∗ ) ≤ f (x) ∀x ∈ B(x∗ , c) ∩ S

Osservazione: ogni punto di minimo globale è anche un punto di minimo locale.

Richiamo 1 (Norma di un vettore in Rn ) La norma di un vettore in Rn è una

Si definisco tre diverse norme:

• Norma ∞: max |xi |

Una volta introdotta la funzione norma, si introduce il concetto di distanza. La distanza

Figura 1.2: Insieme convesso ed insieme non convesso

Proposizione 1 (La sfera B(x, l) insieme convesso) La sfera B(x, l) è un insieme

Proprietà: l’intersezione di insiemi convessi è ancora un insieme convesso.

Definizione 4 (Funzione convessa su insieme convesso) Sia S insieme convesso e

Figura 1.3: Funzione convessa

i) ogni punto di minimo locale è anche di minimo globale

ii) l’insieme dei punti di minimo è un insieme convesso

i) x∗ ∈ S è un punto di minimo locale. Dobbiamo far vedere che x∗ è anche un punto

∃ B(x∗ , l) : f (x∗ ) ≤ f (x) ∀ x ∈ B(x∗ , l) ∩ S

Devo dimostrare che ∀ x ∈ S risulta che f (x∗ ) ≤ f (x)

Per la convessità ho che z = (1 − λ)x∗ + λx λ ∈ [0, 1]

Quindi se λ = 0, z = x∗ ; λ = 1, z = x. Per λ sufficientemente piccolo ⇒ z ∈

f (x∗ ) ≤ f (z) = f ((1 − λ)x∗ + λx) ≤ (1 − λ)f (x∗ ) + λf (x)

f (x∗ ) ≤ (1 − λ)f (x∗ ) + λf (x) ⇒ λf (x∗ ) ≤ λf (x) ⇒ f (x∗ ) ≤ f (x)

ii) Sia X ∗ l’insieme dei punti di minimo e siano x∗ , y ∗ ∈ X ∗

f (x∗ ) = f (y ∗ ) ≤ f (x) ∀x∈S

Dobbiamo fare vedere che (1 − λ)x∗ + λy ∗ ∈ X ∗ ∀ λ ∈ [0, 1]

f ((1 − λ)x∗ + λy ∗ ) = f (x∗ ) = f (y ∗ )

f (x∗ ) ≤ f ((1 − λ)x∗ + λy ∗ ) ≤ (1 − λ)f (x∗ ) + λf (x∗ ) = f (x∗ )

f ((1 − λ)x∗ + λy ∗ ) = f (x∗ )

Osservazione: La convessità, quindi, ci indica la coincidenza tra minimi locali e

Definizione 5 (Funzione strettamente convessa) Sia S un insieme convesso. f è

f ((1 − λ)x + λy) < f (1 − λ)f (x) + λf (y) ∀λ ∈ (0, 1)

Il problema di ottimizzazione può ammettere tre possibili conclusioni:

• Il problema non ammette soluzione (es. f (x) = e−x )

• La soluzione esiste ed è univoca (es. f (x) = x2 )

• Il problema ammette più di una soluzione

Proposizione 3 (Condizione sufficiente di unicità di soluzione) Sia S insieme

f (x∗ ) ≤ f (1 − λ)x∗ + λf (y ∗ ) < (1 − λ)f (x∗ ) + λf (y ∗ ) < f (x∗ )

Assurdo perché f (x∗ ) non può essere strettamente minore di sè stesso.

Teorema 4 (Weierstrass) Sia S un insieme compatto (chiuso e limitato) non vuoto.

lim f (xk ) = f ∗ ≤ f (x) ∀x ∈ S (a)

Dove {x }k è una sottosuccessione di {xk } e x è un punto di accumulazione. Dunque:

lim f (xk ) = f ∗ = f (x) (b)

Unendo insieme (a) e (b) si ottiene:

f (x) ≤ f (x) ∀x ∈ S ⇒ x è un punto di minimo globale

tale che l’insieme così definito sia non vuoto.

Proposizione 5 Sia f : Rn → R una funzione continua su Rn ed esista un insieme di

Il problema minn f (x) ammette soluzione

∃ x∗ ∈ L(α) : f (x∗ ) ≤ f (x) ∀x ∈ L(α)

∀x ∈ L(α) f (x) > α ≥ f (x∗ ) ⇒ x∗ minimo globale su Rn

Proposizione 6 Sia f : Rn → R continua. Condizione sufficiente affinché tutti gli

∀{xk } : kxk k → ∞ ⇒ lim f (xk ) = +∞

Da queste ultime due proposizioni si deduce che: condizione sufficiente affinché il

1.2.1 Funzioni continuamente differenziabili

• Caso di una variabile: f (x) = cT x

∇f (x) = c ∇2 f (x) = [0]n∗n

1.2.3 Funzione convessa a una variabile