Sei sulla pagina 1di 132

Lezioni di Ottimizzazione

Italo Capuzzo Dolcetta - Flavia Lanzara - Antonio Siconol

Dipartimento di Matematica Guido Castelnuovo


Sapienza Universit`
a di Roma

A.A. 2009-2010

Ultimo aggiornamento: 27 settembre 2009

1
Indice
1 Introduzione 4

2 Notazione e richiami 7

3 Esistenza di minimi 14
3.1 Il Teorema di Weierstrass . . . . . . . . . . . . . . . . . . . . 14
3.2 Applicazioni del teorema di Weierstrass . . . . . . . . . . . . . 17
3.2.1 Autovalori di matrici simmetriche . . . . . . . . . . . . 17
3.2.2 Programmazione quadratica . . . . . . . . . . . . . . . 19
3.2.3 Proiezione su un insieme e funzione distanza . . . . . . 25
3.3 Il Teorema di Weierstrass per funzioni
semicontinue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4 Ottimizzazione vincolata con vincoli di


uguaglianza 30

5 Funzioni convesse ed insiemi convessi 35


5.1 Convessit`a e unicit`a dei punti di minimo . . . . . . . . . . . . 38
5.1.1 La trasformata di Legendre-Fenchel . . . . . . . . . . . 40
5.2 Propriet`a di funzioni convesse dierenziabili . . . . . . . . . . 42
5.3 Caratterizzazione variazionale dei punti di minimo . . . . . . . 47
5.3.1 Formulazione debole della caratterizzazione variazionale:
il subdierenziale . . . . . . . . . . . . . . . . . . . . . 50
5.4 Separazione tra insiemi convessi . . . . . . . . . . . . . . . . . 52

6 Ottimizzazione convessa 56
6.1 Punti di minimo vincolato e punti di sella di Lagrangiane . . . 57
6.2 Il sistema di Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . 62
6.2.1 Esempio fondamentale . . . . . . . . . . . . . . . . . . 68
6.3 Applicazione: gestione di portafoglio . . . . . . . . . . . . . . 70
6.4 Lalgoritmo di Uzawa . . . . . . . . . . . . . . . . . . . . . . . 74
6.5 Il metodo di penalizzazione . . . . . . . . . . . . . . . . . . . 78
6.6 Dualit`a Lagrangiana . . . . . . . . . . . . . . . . . . . . . . . 83

7 Programmazione Lineare 88
7.1 Teoremi di Dualit`a . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2 Teorema di Equilibrio . . . . . . . . . . . . . . . . . . . . . . . 97
7.3 Esistenza di minimi in Programmazione Lineare . . . . . . . . 98

2
8 Ottimizzazione dinamica 107
8.1 Preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2 Dinamiche lineari controllate . . . . . . . . . . . . . . . . . . . 109
8.3 Controllabilit`a di sistemi lineari . . . . . . . . . . . . . . . . . 110
8.4 La matrice di controllabilit`a . . . . . . . . . . . . . . . . . . . 113
8.5 Completa controllabilit`a . . . . . . . . . . . . . . . . . . . . . 115
8.6 Principio dei controlli bangbang . . . . . . . . . . . . . . . . 117
8.7 Tempo minimo per dinamiche lineari . . . . . . . . . . . . . . 121
8.8 Il principio di massimo di Pontryagin per dinamiche lineari . . 125

3
1 Introduzione
Un problema di ottimizzazione si presenta nella seguente forma:
data f (x), denita e continua in A IRN , e dato un insieme A, 6= ,
determinare x0 :
f (x0 ) = min f (x). (1.1)
x

f `e la funzione obiettivo ; `e linsieme dei vincoli detto insieme ammissibile.


Nel seguito ci riferiremo principalmente a problemi di minimo. Infatti un
problema di massimo si pu`o sempre ricondurre ad un problema di minimo
cambiando il segno della funzione obiettivo:

max f = min(f )
x x

Introduciamo lo studio dei problemi di ottimizzazione con alcuni esempi.

Esempio 1.1 Collocazione ottimale di un sito


Supponiamo di volere collocare un magazzino centrale P = (x1 , x2 ) che deve
rifornire dei materiali necessari alla loro attivit`a produttiva n fabbriche situate in
una zona pianeggiante. Si vuole scegliere il sito per il magazzino in modo tale che
sia minima la distanza totale che separa il magazzino dalle fabbriche. Supponendo
che le n fabbriche siano visitate con identica frequenza, si costruisce il seguente
semplice problema di ottimizzazione non vincolata:
n p
X
min (x1 ai )2 + (x2 bi )2
xIR2
i=1

dove x = (x1 , x2 ) sono le coordinate (incognite) del magazzino, (ai , bi ) le coordinate


(note) delle n fabbriche.
Il caso n = 2 `e banale: P sar` a il punto medio del segmento che congiunge P1
e P2 .

Esempio 1.2 Modellizzazione lineare di dati sperimentali I risultati di una


serie di M esperimenti forniscono una tabella di dati
 
x1 x2 . . . xM
y1 y2 . . . yM

Supponiamo che un primo esame dei dati (che possono essere moltissimi) e/o
altre considerazioni (per esempio di tipo fisico o economico a seconda del tipo di
esperimento in questione) portino a pensare che ci possa essere una correlazione
di tipo lineare
f (x) = ax + b

4
tra i valori x1 , . . . , xM della quantit`a fisica input dellesperimento e quelli y1 , . . . , yM
misurati in output. Il problema `e quello di identificare i parametri del modello e
cio`e quello di determinare valori dei coefficienti a e b tali che la retta da essi individ-
uata passi il pi` u vicino possibile ai punti di coordinate (xi , yi ) per i = 1, . . . , M . Per
formulare correttamente il problema in termini di un problema di ottimizzazione
occorre naturalmente specificare che cosa si intende per il pi` u vicino possibile. Le
quantit` a rilevanti sono le deviazioni assolute locali:

|axi + bi yi | i = 1, . . . , M.

Si possono considerare allora vari criteri di vicinanza:

minimizzare la deviazione assoluta globale:


M
X
min |axi + bi yi |
(a,b)IR 2
i=1

minimizzare la massima deviazione assoluta:

min max |axi + bi yi |


(a,b)IR 2 i{1,...,M }

oppure utilizzare il

criterio dei minimi quadrati:


M
X
min (axi + bi yi )2 .
(a,b)IR 2
i=1

In tutti e tre i casi si ha a che fare con problemi di ottimizzazione senza


vincoli in IR2 . Nel primo e nel secondo caso, per` o , la funzione obbiettivo non `e
differenziabile dappertutto .
In molti casi un modello lineare non `e sensato (per esempio, quando la sequenza
dei valori yi non `e monotona); in tali casi potr`a essere magari opportuno cercare
un fitting quadratico
f (x) = ax2 + bx + c ; (1.2)
in altri casi esponenziale
f (x) = aex + b.
Le formulazioni dei vari problemi di ottimizzazione corrispondenti alle differenti
scelte dei criteri non cambiano significativamente in questi casi nonlineari; `e da
notare tuttavia che nel caso (1.2) i problemi si pongono in IR3 anzich`e in IR2 .

5
Esempio 1.3 Esempio tratto dalla meccanica classica
Sia F = (F1 (x), F2 (x)) una forza piana conservativa cio`e tale che esiste un
potenziale V (x) : F = D V = (Vx1 , Vx2 ). Supponiamo che il punto di applicazione
di F sia vincolato a stare su una curva di equazione f (x) = 0. Il problema `e di
determinare i punti di che minimizzano lenergia potenziale E = V cio`e i punti
di equilibrio stabile:

min(V (x)), = {x IR2 : f (x) = 0}.


x

In questo caso si ha un problema di ottimizzazione vincolata con i vincoli


espressi da uguaglianze.

Esempio 1.4 Un problema di pianificazione di produzione


Un falegname ha stipulato con un importante catena di vendita di mobili un
contratto che prevede la fornitura ogni settimana di almeno 4 tavoli e 2 librerie
che gli verranno pagate rispettivamente Euro 25 e Euro 30 al pezzo. Il falegname
stima di avere bisogno di 20 mq. di legno e 5 ore di lavoro per produrre un tavolo e
di 30 mq. di legno e 4 ore di lavoro per costruire una libreria; `e disposto a lavorare,
con i suoi operai, al pi`u 120 ore alla settimana e pu` o utilizzare per la produzione
al pi`u il legname, 690mq., che pu` o essere contenuto nel suo magazzino.
Il problema che si pone `e quello di stabilire un piano di produzione settimanale:
quanti tavoli e quante librerie produrre ogni settimana in modo da massimizzare
il suo incasso ?
Il modello matematico del problema del falegname consiste allora nella mas-
simizzazione della funzione obbiettivo

f (x1 , x2 ) = 25x1 + 30x2

che rappresenta il suo ricavo in corrispondenza di una produzione di x1 tavoli e di


x2 librerie. Naturalmente il modello deve prevedere alcune restrizioni alle variabili
di decisione x1 e x2 :

la quantit`
a totale di legname impiegato non pu`
o eccedere la scorta di cui
dispone il falegname:

20x1 + 30x2 690 scorta di legname

le ore totali di lavoro non possono superare lammontare massimo stabilito:

5x1 + 4x2 120 ore di lavoro

occorre rispettare i minimi contrattuali

x1 4 x2 2 vincoli contrattuali.

6
In definitiva si definisce linsieme ammissibile

= {x = (x1 , x2 ) : 20x1 + 30x2 600; 5x1 + 4x2 40 x1 4; x2 2}

e si considera il problema di ottimizzazione vincolato

min f (x).
x

Si ottiene un problema di programmazione lineare:

min cx
xIR2 :Axb

dove c = (25, 30), A `e la matrice 4 2 data da



20 30
5 4

1 0
0 1

e b = (600, 40, 4, 2).

2 Notazione e richiami
Tutti gli argomenti di questo paragrafo sono richiamati dai corsi di base di
analisi e di algebra lineare; consultare un qualunque manuale per approfondi-
menti e dimostrazioni.
Indicheremo con IRN lo spazio vettoriale di dimensione N su IR dotato
della base canonica {e1 , ..., eN } con ei = (0, ..., 1, ..., 0).
In IRN `e denito un ordinamento parziale: un vettore x = (x1 , ... , xN ) `e
maggiore o uguale di un vettore y = (y1 , ... , yN ) se xi yi per ogni i =
1, ... , N. Linsieme dei vettori maggiori o uguali al vettore nullo si indica con
IRN+.
Il prodotto scalare di due vettori x, y in IRN `e il numero reale
N
X
x y := xi yi
i=1

dove xi e yi sono le componenti di x e y rispetto alla base canonica.


La norma di x IRN `e il numero reale non negativo

|x| := x x .
Le propriet`a principali del prodotto scalare e della norma sono:
x y = y x , (x + z) y = x y + z y , x x 0

7
x x = 0 se e solo se x = 0 .
|x| 0 , |x| = | x| , |x| = |||x| , |x + y| |x| + |y| , ||x| |y|| |x + y| .
Norma e prodotto scalare sono legate dalla disuguaglianza

|x y| |x||y| (disuguaglianza di Cauchy Schwarz)

E importante ricordare lidentit`a

|x y|2 = |x|2 2x y + |y|2 .

La sfera aperta di centro x e raggio > 0 `e linsieme

B(x, ) = {y IRN : |y x| < }.

Un insieme E `e limitato se esiste R > 0 tale che E B(0, R).


Per quanto riguarda la convergenza di successioni ricordiamo il fondamentale
risultato di compattezza che si utilizzer`a successivamente nella dimostrazione
dellesistenza di minimi:

Teorema 2.1 . (Teorema di Bolzano - Weierstrass) Se {xk } `e una


successione limitata (ovvero, se esiste > 0 tale che |xk | < per ogni k),
allora {xk } ha una sottosuccessione convergente.
Siano E un insieme di IRN ed x un punto in IRN . Il punto x `e interno ad E
se x E ed inoltre esiste x > 0 tale che B(x, x ) E; x `e di frontiera per
E se per ogni > 0 si ha

B(x, ) E 6= , B(x, ) E c 6=

dove E c = IRN \ E `e il complementare di E.


Denotiamo rispettivamente con int E e con E gli insiemi dei punti interni
e di frontiera di E.
Un insieme `e aperto se = int , ovvero se tutti i suoi punti sono interni.
Un insieme C `e chiuso se C c `e aperto. Se C `e chiuso e {xk } `e una successione
convergente di punti di C, allora il suo limite x C.
Sia f una funzione a valori reali denita su un insieme E IRN .
Se x0 E `e di accumulazione per E, ovvero se per ogni > 0 esiste x
E B(x0 , ) con x 6= x0 , allora f `e continua in x0 se

> 0 > 0 : f (x) B(f (x0 ), ) , x E B(x0 , ).

8
Sia un aperto di IRN e x0 . Una funzione f : IR `e derivabile
in x0 se per ogni i = 1, ..., N esiste

f (x0 + tei ) f (x0 ) f 0


lim =: (x ).
t0 t xi
 
f 0 f 0
In questo caso il vettore Df (x0 ) = (x ), ..., (x ) `e il gradiente di
x1 xN
f in x0 .
La funzione f `e differenziabile in x0 se `e derivabile in x0 e

f (x0 + h) f (x0 ) = Df (x0 ) h + o(|h|) per h 0.

Se v IRN , |v| = 1, la derivata direzionale di f nella direzione v `e denita da

f (x0 + tv) f (x0 )


lim =: Dv f (x0 ).
t0 t
Ricordiamo che se f C 1 (), ovvero se f `e continua e derivabile in con
tutte le derivate parziali continue, allora f `e dierenziabile in (Teorema del
dierenziale totale) . Inoltre, in ogni punto x0 , f ha derivata direzionale
in ogni direzione v e si ha

Dv f (x0 ) = Df (x0 ) v.

Sia f : IRN IR con 6= .

Definizione 2.1 (Minimo relativo o locale) x0 `e un punto di mini-


mo relativo per f se esiste > 0 tale che

f (x0 ) f (x) x B(x0 , ) .

Definizione 2.2 (Minimo assoluto o globale) x0 `e un punto di


minimo assoluto per f nellinsieme se f (x) f (x0 ), x .
In generale non `e detto che esista la soluzione del problema (1.1) ma
sicuramente esiste
inf f (x)
x

eventualmente . Ricordiamo che

Definizione 2.3 Si definisce e = inf f (x) > se


x

1. f (x) e, x cio`e e `e un minorante per f ();

9
2. > 0 esiste x : f (x ) < e + cio`e e `e il pi`
u grande dei minoranti.
Si definisce inf f (x) = se IR esiste x tale che f (x ) < .
x

E ovvio che se esiste x0 soluzione del problema di minimo allora

min f (x) = inf f (x).


x x

Se x0 `e un punto di minimo globale allora `e anche un punto di minimo


locale. Nel caso in cui x0 sia un punto di minimo (locale o globale) interno
ad e la funzione f sia dierenziabile in x0 vale il

Teorema 2.2 (Teorema di Fermat) Sia x0 int un punto di minimo


(locale o globale) di f . Se f `e differenziabile in x0 , allora

Df (x0 ) = 0 (2.1)

Dimostrazione. Fissata una direzione v, la funzione di una variabile


F (t) = f (x0 + t v) ha in t = 0 un punto di minimo locale. Dato che F (t)
`e dierenziabile in t = 0 deve necessariamente essere F (0) = Dv f (x0 ) =
Df (x0 ) v = 0. Per larbitrariet`a di v segue che Df (x0 ) = 0.

I punti in cui il gradiente di una funzione f si annulla si dicono punti
critici o punti stazionari di f . Il teorema precedente aerma quindi che, per
cercare i punti di massimo o minimo relativo di una funzione regolare occorre
determinare tutti i suoi punti critici.

Osservazione 2.1 Lipotesi che x0 sia un punto interno `e essenziale per la


validit`a dellequazione (2.1); nei paragra successivi si considereranno va-
rianti del Teorema di Fermat utili a trattare il caso che il punto di minimo
appartenga alla frontiera di . Notiamo il fatto che se un punto x0 verica
il sistema di equazioni (2.1) non implica che esso sia un punto di minimo.

Esempio 2.1 Si cerchino gli eventuali punti di minimo locale di

f (x1 , x2 ) = x21 x22 .

Calcolando il gradiente si ha

D f (x1 , x2 ) = (2x1 , 2x2 )

il quale si annulla nel punto (0, 0) che rappresenta lunico punto critico della
funzione f . Il punto (0, 0) `e un punto di sella per f dato che

f (x1 , 0) > f (0, 0) = 0 x1 6= 0; f (0, x2 ) < f (0, 0) = 0 x2 6= 0

10
Esercizio 2.1 Dimostrare che il punto 0 `e di minimo globale
Pk per 2f1 (x)
P= |x|2 , di
N
2
massimo globale per f2 (x) = |x| e di sella per f3 (x) = j=1 xj j=k+1 x2j ,
ma ovviamente Dfi (0) = 0 per ogni i = 1, 2, 3.

Se A `e una matrice a M righe e N colonne si denota con Ax il vettore di


M
IR ottenuto con la moltiplicazione righe per colonne, ovvero
N
X
(Ax)i = aij xj .
j=1

Osserviamo che se x IRN , y IRM si ha Ax y = x At y dove At `e la


matrice trasposta di A. Osserviamo anche che vale la maggiorazione

|Ax| ||A|||x|

dove p
||A|| := |a1 |2 + ... + |aM |2
`e la norma della matrice A e ai denota la i-esima riga della matrice A.
Infatti, rappresentando il vettore Ax IRN come Ax = (a1 x, ... , aM x) e
applicando la disuguaglianza di Cauchy - Schwarz alle singole componenti si
ottiene
p p
|Ax| = (a1 x2 ) + ... + (aM x)2 |x|2 (|a1 |2 + ... + |aM |2 )
p
|x| |a1 |2 + ... + |aM |2 .
Per quanto riguarda il prodotto AB (righe per colonne) di due matrici A, B
si ha ||AB|| ||A||||B||.
Consideriamo una matrice Q = (qij )i,j=1,...,N con Q RN N , simmetrica
cio`e Q = QT . Alla matrice Q associamo la forma quadratica
1,N
X
Qx x = qij xi xj .
i,j

Definizione 2.4 Si dice che

Q `e definita positiva se Qx x > 0, x 6= 0;

Q `e definita negativa se Qx x < 0, x 6= 0;

Q `e semidefinita positiva se Qx x 0, x IRN ;

Q `e semidefinita negativa se Qx x 0, x IRN ;

11
Q `e indefinita se x: Qx x > 0 e x xx
e: Qe e < 0.

E noto il seguente teorema che d`a delle condizioni sucienti anch`e x0


int sia un punto di minimo o massimo locale.

Teorema 2.3 Sia f C 2 (), IRN e sia

2 f (x)
Hf (x) = ( ), i, j = 1, . . . , N
xi xj

la matrice Hessiana della f . Si ha Hf (x) = Hf (x)T (teorema di Schwarz).


Sia x0 int tale che D f (x0 ) = 0. Allora

se Hf (x0 ) `e definita positiva x0 `e un punto di minimo relativo;

se Hf (x0 ) `e definita negativa x0 `e un punto di massimo relativo;

se Hf (x0 ) `e indefinita x0 `e un punto di sella;

se Hf (x0 ) `e semidefinita non si pu`o concludere nulla.

Esempio 2.2 f (x1 , x2 ) = x41 + x42 ha in (0, 0) un punto di minimo relativo e


assoluto; f (x1 , x2 ) = x41 x42 ha in (0, 0) un punto di sella; f (x1 , x2 ) = x41 x42
ha in (0, 0) un punto di massimo relativo e assoluto. In tutti e tre i casi lorigine
`e un punto stazionario per f e Hf (0, 0) `e semidefinita.

Sussiste, per`o, la seguente condizione necessaria del secondo ordine:

Teorema 2.4 Sia f C 2 (), x0 int e D f (x0 ) = 0.


Se x0 `e un punto di minimo relativo Hf (x0 ) `e semidefinita positiva o
definita positiva.
Se x0 `e un punto di massimo relativo Hf (x0 ) `e semidefinita negativa
o definita negativa.
Come stabiliamo se una matrice Q = QT IRN IRN `e denita, semi-
denita o indenita?

Teorema 2.5 Test di Sylvester ( Riconoscimento del segno delle forme


quadratiche in N variabili). Sia Q = QT IRN IRN . Indichiamo con Qk
il minore princiale di ordine k N estratto da Q, composto dalle prime k
righe e k colonne di Q.

Q `e definita positiva se e solo se det Qk > 0, k = 1, . . . , N;

Q `e definita negativa se e solo se (1)k det Qk > 0, k = 1, . . . , N;

12
Q `e indefinita se esiste k : det Q2k < 0 oppure ha due diversi minori
principali di ordine dispari che sono discordi.
Per vericare se una matrice `e semidenita si deve applicare un criterio
ben pi`u laborioso! Infatti bisogna vericare il segno del determinante di tutti
i minori principali estratti da Q. E quindi preferibile ricorrere ad altri criteri.
Se Q = QT allora Q possiede N autovalori reali, soluzioni dellequazione
algebrica det(Q I) = 0. Lo studio delle matrici denite, semidenite o
indenite pu`o essere ricondotto allo studio del segno degli autovalori della
matrice Q. Sussiste infatti il seguente teorema, che verr`a dimostrato nel
paragrafo 3.2.1.
Teorema 2.6 (Test degli autovalori).
Sia Q = QT IRN IRN .
Q `e definita positiva se e solo se tutti i suoi autovalori sono > 0;
Q `e definita negativa se e solo se tutti i suoi autovalori sono < 0;
Q `e semidefinita positiva se e solo se tutti i suoi autovalori sono 0;
Q `e semidefinita negativa se e solo se tutti i suoi autovalori sono 0;
Q `e indefinita se e solo se ha almeno un autovalore > 0 e uno < 0.
Osservazione 2.2 Per stabilire se una matrice `e denita, semidenita o
indenita non serve conoscere gli autovalori, ma basta conoscere il loro seg-
no. Ricordate la regola dei segni di Cartesio? Sia p() = det(Q I) =
(1)N N + a1 N 1 + . . . + aN con Q = QT matrice a coecienti reali. Allora
p() ha solo radici reali e si ha:
il numero di radici > 0, contate con la loro molteplicit`a, `e uguale al
numero di cambiamenti di segno della successione (1)N , a1 , . . . , aN ,
omettendo i coecienti nulli.
Esempio 2.3 Lequazione p() = 4 32 2 = 0 ha solo radici reali. La
sequenza dei coefficienti 1, 3, 2 presenta una variazione che corrisponde ad una
radice > 0. I coefficienti dellequazione p() = 4 32 + 2 = 0 presentano
due variazioni che corrispondono a due radici < 0 dellequazione p() = 0. Per
il teorema fondamentale dellalgebra lequazione ha 4 radici contate con la loro
molteplicit`
a: una > 0, due < 0 e una nulla.

Esercizio 2.2 Verificare che la matrice



1 2 0
Q= 2 1 2
0 2 1
ha due autovalori positivi e uno negativo.

13
3 Esistenza di minimi
Dati un insieme non vuoto C IRN ed una funzione f : C IR, consideria-
mo il problema di ottimizzazione vincolata
x C, f (x ) = min f (x) (3.1)
xC
ovvero
x C, f (x ) f (x) x C.
Una successione minimizzante per il problema (3.1) `e una successione
{x(n) } tale che
x(n) C , lim f (x(n) ) = inf f (x).
n+ xC

Osserviamo che sotto la sola condizione C 6= esistono successioni minimiz-


zanti per (3.1). Infatti, se m := inf xC f (x) > , allora dalla denizione
di estremo inferiore segue che per ogni n N esiste y (n) f (C) tale che
m y (n) m + n1 . Ogni successione {x(n) } tale che

x(n) C , f (x(n) ) = y (n) n = 1, 2, 3, ...


`e dunque una successione minimizzante per (3.1).
Il caso che inf xC f (x) = si tratta in maniera completamente analoga.
Osserviamo che non `e detto che {x(n) } converga.

3.1 Il Teorema di Weierstrass


Il seguente generale risultato di esistenza di minimi verr`a usato pi`
u volte in
seguito.

Teorema 3.1 (Teorema di Weierstrass) Sia C IRN un insieme chiuso


non vuoto e f : C IR una funzione continua. Se C `e limitato oppure se C
non `e limitato e vale la seguente condizione di coercitivit`a
lim f (x) = + (3.2)
|x|+,xC

allora
x C, f (x ) = min f (x) .
xC

Dimostrazione. Sia {x(n) } una successione minimizzante per (3.1). Nel


primo caso, C `e chiuso e limitato e quindi per il teorema di Bolzano - Weier-
strass esiste una sottosuccessione {x(nk ) } convergente ad un x C per
k +. Per continuit`a si ha dunque
lim f (x(nk ) ) = f (x ) . (3.3)
k+

14
Daltra parte, per denizione di successione minimizzante, si ha anche

lim f (x(n) ) = inf f (x)


n+ xC

e si conclude dunque che

f (x ) = min f (x) .
xC

Supponiamo ora che C sia non limitato. Dalla condizione (3.2) segue che
ogni successione minimizzante per f `e limitata. Infatti, se esistesse {x(n) }
successione minimizzante tale che |x(n) | + si avrebbe lassurdo

inf f (x) = lim f (x(n) ) = +.


xC n+

Quindi {x(n) } `e limitata e si procede come nel caso C limitato.




Il teorema di Weierstrass `e una C.S. ma non C.N. anch`e esista il minimo.


Consideriamo f (x) = arctan(x), x C = [0, ). f non verica lipotesi
coercitiva, per`o si ha inf C f = 0 = f (0) che `e quindi un minimo.

Esercizio 3.1 Determinare eventuali punti di massimo e minimo relativo di

f (x1 , x2 ) = 9x21 + 6x1 x2 + 10x22 + 1 x1 + 2x2 2.

Esistono il massimo e minimo assoluto di f in IR2 ?

Esercizio 3.2 Determinare eventuali punti di massimo e minimo relativo di

f (x1 , x2 ) = x41 6x21 x22 + x42 .

Esistono il massimo e minimo assoluto di f in IR2 ?

Esercizio 3.3 Determinare eventuali punti di massimo e minimo relativo di

f (x1 , x2 ) = x41 + x21 x22 2x21 + 2x22 8.

Esistono il massimo e minimo assoluto di f in IR2 ?

Esercizio 3.4 Determinare eventuali punti di massimo e minimo relativo di

f (x1 , x2 ) = x21 + x22 log(x21 x22 ).

Esistono il massimo e minimo assoluto di f in IR2 {x1 x2 = 0}?

15
Esercizio 3.5 Determinare eventuali punti di massimo e minimo relativo di

f (x1 , x2 , x3 ) = 3x21 + 2x22 + x23 2x1 x3 + 2x1 + 2x2 + 1.

Esistono il massimo e minimo assoluto di f in IR3 ?

Esercizio 3.6 Siano C = {(x1 , x2 ) IR2 : x1 0, x2 0} e

f (x1 , x2 ) = x21 + 2x22 + 4x1 + 4x2 + 6x1 x2 .

Dimostrare che non esiste maxC f , esiste minC f e determinarlo.

Esercizio 3.7 Studiare lesistenza di massimi e minimi assoluti in IR2 di

f (x1 , x2 ) = x41 + x42 3x1 x2 2

ed eventualmente determinarli.

Esercizio 3.8 Calcolare il minimo globale su IR della funzione

f (x) = max{1 x; x 2; 2x 6}

Osservare che il punto di minimo `e un punto di non differenziabilit`


a per f .

Esercizio 3.9 Calcolare il minimo globale su [0, 1] [0, 1] delle seguenti funzioni:
3 1 1 1
(x1 )2 + (x2 )2 , 17x21 2x2 + x22 24x1 + 9 , (x1 )(x2 ).
2 2 2 2

Esercizio 3.10 La funzionef (x) = e|x| non verifica (3.2); osservare che il pro-
N = {x IRN : x 0} non ha soluzioni.
blema (3.1) con C = R+

Esercizio 3.11 Dimostrare che la funzione


s  
1 + esinh x (3x2 4)
f (x) = log
(sin |x 5|)+ + arctan(1 + x2 )

ha un punto di minimo globale sullintervallo [0, 1].

Esercizio 3.12 Considerare la funzione


(
1 |x|, |x| < 1
f (x) =
1 |x| = 1

Verificare che inf |x|1 f (x) = 0 e che f non ha punti di minimo globale su C =
B(0, 1). La funzione ha punti di minimo relativo su C?

16
Esercizio 3.13 Si consideri la funzione lineare f (x) = b x su C = R+ N . Deter-

minare condizioni sulle componenti di b in modo tale che f verifichi la condizione


di coercitivit`a (3.2).

Esercizio 3.14 Sia f : IRN IR una funzione limitata inferiormente. Per ogni y
fissato in IRN si considera la funzione

F (x) = f (x) + |x y|2 .

Dimostrare che F ha un minimo globale su IRN .

3.2 Applicazioni del teorema di Weierstrass


Illustriamo qui alcune importanti applicazioni del teorema di Weierstrass ri-
guardanti lesistenza di minimi per problemi di programmazione quadratica
denita e il teorema della proiezione. Una ulteriore importante conseguenza
riguardante lesistenza di iperpiani di separazione tra insiemi convessi sar`a
vista pi`u avanti.

3.2.1 Autovalori di matrici simmetriche


In questo paragrafo mostriamo come il calcolo di ogni autovettore ed auto-
valore di una matrice simmetrica Q di tipo N N possa essere visto come
un problema di ottimizzazione vincolata.
Consideriamo la funzione R, detta quoziente di Rayleigh della matrice Q,
denita su IRN \ {0} da
Qx x
R(x) = .
|x|2
Indicato con S 0 linsieme {x IRN : |x| = 1} , si ha

Proposizione 3.1 Esiste x0 S 0 tale che

R(x0 ) = min0 R(x) .


xS

Se Q `e simmetrica, allora x0 verifica

Qx0 = (Qx0 x0 ) x0

e cio`e x0 `e un autovettore di Q ed il numero 0 = Qx0 x0 `e il corrispondente


autovalore.

17
Dimostrazione. Dato che S 0 `e un insieme chiuso e limitato e R `e ovvia-
mente continua su S 0 , per il Teorema di Weierstrass esiste

x0 S 0 : R(x0 ) = min0 R(x) .


xS

Si osserva poi che la funzione di Rayleigh `e omogenea di grado 0, cio`e


Qx x Qx x
R(x) = 2
= = R(x)
|x| |x|2
x
per ogni . Ne segue in particolare che R( |x| ) = R(x) per ogni x 6= 0 da cui
`e facile dedurre che
min0 R(x) = min R(x) .
xS xIRN \{0}

Osserviamo poi che R C 1 (IRN \ {0}); dato che Q `e simmetrica si ha

|x|2 Qx (Qx x) x
DR(x) = 2 .
|x|4

Dato che IRN \ {0} `e aperto, per il Teorema di Fermat si ha necessariamente


DR(x0 ) = 0, ovvero

|x0 |2 Qx0 (Qx0 x0 ) x0


=0
|x0 |4
e quindi, essendo |x0 | = 1,

Qx0 = (Qx0 x0 ) x0 .

Per il calcolo di un secondo autovettore, si considerano il sottospazio


V 1 = {x IRN : x = tx0 , t IR}, il suo sottospazio ortogonale Vort
1
= {y
N 1 1 1
IR : y x = 0 x V } e linsieme S = {x Vort : |x| = 1} .
Come nella precedente Proposizione si dimostra che esiste x1 S 1 tale che

R(x1 ) = min1 R(x) = min


1 \{0}
R(x) .
xS xVort

Applicando ancora il Teorema di Fermat si deduce che

Qx1 = (Qx1 x1 ) x1 .

Osserviamo anche che per gli autovalori determinati in questo modo vale la
disuguaglianza 1 0 dato che essi sono ottenuti per minimizzazione di R

18
rispettivamente su S 1 e S 0 e che S 1 S 0 . Dopo avere osservato che x0 e x1
sono linearmente indipendenti si considera lo spazio V 2 da essi generato, il
2
suo ortogonale Vort e S 2 = {x Vort
2
: |x| = 1} .
Il procedimento continua considerando la minimizzazione di R su S 2 che gen-
era come nei passi precedenti un autovettore x2 ed il corrispondente autoval-
ore 2 = (Qx2 x2 ) 1 . Continuando con questa procedura si determinano
gli N autovettori di Q ed i corrispondenti autovalori 1 2 . . . N e si
ottiene
1 |x|2 Qx x N |x|2 , x IRN . (3.4)
Dalle disuguaglianze (3.4) si dimostra il Teorema 2.6.
 
0 1
Esercizio 3.15 Calcolare per minimizzazione gli autovalori della matrice
1 0

Esercizio 3.16 Dimostrare che la funzione


2x1 x3 + 2x2 x4
f (x1 , x2 , x3 , x4 ) = 2
x1 + x22 + x23 + x24
ammette massimo e minimo in IR4 .

3.2.2 Programmazione quadratica


Una semplice applicazione riguarda lesistenza di soluzioni per alcuni proble-
mi di Programmazione Quadratica , cio`e del tipo
1 1
x IRN , Qx x + b x + c = min Qx x + b x + c (3.5)
2 xIRN 2

dove Q `e una matrice N N, b IRN , c IR.


In generale non `e detto che (3.5) abbia soluzione. Per il teorema di
Weierstrass, se la funzione obiettivo `e coercitiva, allora il problema di minimo
ha soluzione.

Proposizione 3.2 La funzione f (x) = 1


2
Qx x + b x + c `e coercitiva in IRN
se e solo se Q `e definita positiva.
Dimostrazione. Sia Q denita positiva. Detto min il pi` u piccolo
2
autovalore di Q, si ha Qx x min |x| > 0, x 6= 0. Quindi
min 2
f (x)
|x| + b x + c.
2
La disuguaglianza di Cauchy-Schwarz implica immediatamente
min 2
f (x) |x| |b| |x| |c| , x IRN
2
19
e quindi  
min |b| |c|
f (x) |x| 2
2 , x IRN {0}
2 |x| |x|
da cui la coercitivit`a :
lim f (x) = +.
|x|

Viceversa sia f (x) coercitiva. Sia min il pi`


u piccolo autovalore di Q e
sia u, |u| = 1 il corrispondente autovettore cio`e Qu = min u che implica
Qu u = min |u|2 = min . Quindi IR,
1
f (u) = min 2 + b u + c.
2
Dimostriamo che deve essere min > 0. Supponiamo per assurdo che min =
0. Si ha
f (u) = b u + c
che `e una funzione lineare non coercitiva (vericare!).
Se invece min < 0 possiamo scrivere

1 |min | |b| |c|


f (u) min 2 + |||b| + |c| = 2 ( ).
2 2 || ||2

Per la quantit`a tra parentesi `e positiva e quindi f (u)


contraddicendo lipotesi di coercitivit`a .


Esercizio 3.17 Stabilire se le seguenti funzioni sono coercitive:

1. f (x1 , x2 ) = x21 + 5x22 + 4x1 x2 + x1 + 4x2 ;

2. f (x1 , x2 ) = 2x21 + 2x1 x2 3x22 ;

3. f (x1 , x2 , x3 ) = 2x21 + 3x22 + 4x23 + 2x1 x2 + 4x2 x3 ;

4. f (x1 , x2 , x3 , x4 ) = x21 + 2x22 + 3x23 + x24 + 2x2 x3 x1 + x2 .

Teorema 3.2 Se Q `e definita positiva allora il problema (3.5) ammette


soluzione, qualunque siano b e c.
Dimostrazione. Si comincia con losservare che la funzione f (x) =
1
2
Qx x + b x + c `e continua. Per ogni x0 ssato e per ogni y IRN si ha

Qx0 x0 Qy y = Qx0 y Qy y +Qx0 (x0 y) = (Qx0 Qy)y +Qx0 (x0 y)

20
e quindi, usando la disuguaglianza di Cauchy-Schwarz,

f (x0 ) f (y) |Q(x0 y)||y| + |Q(x0 )||x0 y| + |b||x0 y| .

Dunque,
|f (x0 ) f (y) ||Q|||x0 y||y| + ||Q|||x0 y||x0|
che implica, quando |x0 y| 0, la continuit`a di f in x0 . Per la Proposizione
3.2, f (x) verica la condizione di coercitivit`a nellenunciato del Teorema di
Weierstrass, da cui la tesi.


Collocazione ottimale di un sito (Esercizio 1.1) Consideriamo il pro-


blema di minimo
n
X
min
2
f (x1 , x2 ), f (x1 , x2 ) = [(x1 ai )2 + (x2 bi )2 ]. (3.6)
IR
i=1

Riscriviamo

f (x1 , x2 ) = Q x x 2 x1 N 2 x2 M + S

con   n n n
n 0 X X X
Q= ,N= ai , M = bi , S = (a2i + b2i ).
0 n
i=1 i=1 i=1

(3.6) `e un problema di programmazione quadratica con Q denita positiva.


Per il teorema 3.2 ammette soluzione x che si trova risolvendo il sistema
D f (x ) = 0 cio`e
n n
1X 1X
x1 = ai , x2 = bi .
n i=1 n i=1
Modellazione lineare di dati sperimentali (Esercizio 1.2) Conside-
riamo il problema di minimo
n
X
min 2 f (a, b), f (a, b) = (a xi + b yi)2 .
(a,b)IR
i=1

Anche in questo caso si ha un problema di programmazione quadratica dato


che        
a a a R
f (a, b) = Q 2 +T ;
b b b M
  Xn Xn n
X n
X
S N 2
Q= ,S= xi , N = xi , R = xi yi , M = yi .
N n
i=1 i=1 i=1 i=1

21
Dato che S > 0 (altrimenti i punti sarebbero allineati) e nS N 2 > 0 ( come
si pu`o vericare applicando la disuguaglianza di Cauchy-Schwarz ai vettori,
non paralleli, (1, . . . , 1) e (x1 , . . . , xn )) la matrice Q `e denita positiva e il
problema di minimo ammette soluzione. Cerchiamo il punto di minimo tra i
punti stazionari di f cio`e

a S +N b = R
a N +n b = M

Il sistema ha ununica soluzione data da


nR M N n S N2
a= , b= .
n S N2 n S N2

Osservazione 3.1 Q denita positiva `e una C.S. ma non C.N. anch`e il


problema di minimo abbia soluzione. Sussiste infatti il seguente risultato:

Proposizione 3.3 Sia f (x) = 21 Qx x + b x + c con Q = QT IRN N ,


b IRN , c IR. Se f `e limitata inferiormente cio`e

inf f (x) = >


IRN

allora f ammette minimo in IRN .


Dimostrazione. La dimostrazione si svolge in tre passi:

Osserviamo che, essendo f (x) , x IRn risulta


1
Qx x + b x + c 0.
2
Scrivendo questa condizione nel punto t x, t IR, si trova

t2
Qx x + t b x + c 0, t IR. (3.7)
2
x x < 0 si avrebbe
Se esistesse un x: Q

t2
x x + t b x + c 0, t IR
Q
2
e, per t , un assurdo. Deve quindi essere

Qx x 0, x IRN .

22
Consideriamo il sistema lineare

Qx = b (3.8)

Come ben noto, questo sistema ammetter`a soluzione se e solo se il ter-


mine noto b risulta ortogonale alle autosoluzioni del sistema trasposto,
ossia a tutti i vettori y tali che QT y = Qy = 0 (stiamo supponendo Q
simmetrica). Ma per un siatto y risulta Qy y = 0 e la (3.7) diventa

t b y + c 0, t IR.

Si deve quindi avere b y = 0. Abbiamo cos` mostrato che il sistema


(3.8) `e sempre compatibile.

Indichiamo con x una qualsiasi soluzione di (3.8) e consideriamo la


trasformazione lineare x = x + s, s IRn . Si ha
1
f (x) = f (x + s) = Q(x + s) (x + s) + b (x + s) + c =
2
Qs s Qs s
f (x ) + (Qx + b) s + = f (x ) + f (x ), x IRn
2 2
ovvero f assume il suo valore minimo nel punto x .


Esempio 3.1  
1 1 1
f (x1 , x2 ) = Qx x; Q= .
2 1 1
Q `e semidefinita positiva (ha un autovalore nullo e uno positivo) quindi, per la
proposizione 3.2, f non `e coercitiva. Per`
o

(x1 + x2 )2
f (x) = 0
2
`e limitata inferiormente e ammette minimo 0.

Consideriamo la programmazione quadratica vincolata


1 1
x C, Qx x + b x + c = min Qx x + b x + c (3.9)
2 xC 2

dove C `e un insieme chiuso non vuoto. Tipicamente nelle applicazioni C `e


denito da disuguaglianze lineari:

C = {x IRN : Ax q, x 0}

23
con A matrice M N e q IRM .
Si pu`o dimostrare in maniera analoga alla Proposizione 3.2 che se Q `e
denita positiva allora f (x) = 12 Qx x + b x + c `e coercitiva in C cio`e

lim f (x) = +. (3.10)


|x|,xC

Dal Teorema di Weierstrass segue immediatamente che

Teorema 3.3 Se Q `e definita positiva allora il problema (3.9) ammette


soluzione, qualunque siano b e c.

Osservazione 3.2 Attenzione! In generale non `e detto che se f `e coercitiva


in C = {x IRN : Ax q} allora Q `e denita positiva. Per esempio siano
f (x1 , x2 ) = x21 + x22 + 6x1 x2 e C = {(x1 , x2 ) IR2 : x1 0, x2 0}. Si ha

f (x1 , x2 ) x21 + x22 , x = (x1 , x2 ) C

quindi sussiste la (3.10) e, per il Teorema di Weierstrass, il problema di


programmazione quadratica (3.9) con f (x) = Qx x e
 
1 3
Q= .
3 1

Si noti per`o che Q non `e denita positiva dato che ha un autovalore


positivo = 4 e un autovalore negativo = 2.

Esempio 3.2 Unimpresa produce un unico bene che vende a due grandi catene
di distribuzione a prezzi diversi (si ha discriminazione dei prezzi). Siano x1 e x2
le quantit`a offerte dallimpresa ai due acquirenti. I primi acquirenti sono disposti
a pagare il prezzo 1 = 50 x1 e i secondi acquirenti sono disposti a pagare il
prezzo 2 = 100 3x2 .
Il costo di produzione dipende solo dalla quantit`a di prodotto finale x1 + x2 ed
`e C = 100 + 10(x1 + x2 ).
Il profitto (ricavi-costi) `e dato dalla seguente espressione:

f (x1 , x2 ) = x1 1 + x2 2 [100 + 10(x1 + x2 )] =


= (50 x1 )x1 + (100 3x2 )x2 100 10(x1 + x2 )
e deve essere massimizzato. Raggruppando e portando in forma standard di mini-
mizzazione, si ottiene il problema

min (x21 + 3 x22 40x1 90x2 100).


x1 0, x2 0

24
Si tratta di un problema di programmazione quadratica del tipo (3.9) con
 
2 0
Q= .
0 6

D f (x) = 0 x1 = 20, x2 = 15.


La matrice Hessiana Hf (x) = Q `e definita positiva quindi la soluzione trovata `e
un punto di minimo locale. Dal Teorema 3.3 segue che il punto di minimo locale
trovato `e anche punto di minimo globale.

Esempio 3.3 (Principio di Minimo per le funzioni lineari) Sia A un insieme aperto
e C = A A la sua chiusura e sia f (x) = b x con b IRN , b 6= 0 una funzione
lineare. Dimostriamo che, se x C `e un punto di minimo di f su C allora
x A.
Infatti, se x appartenesse ad A allora si avrebbe x b A per ogni > 0
sufficientemente piccolo. Si avrebbe quindi b x b (x b) = b x |b|2 e
di conseguenza |b|2 0. Dato che > 0 si conclude che b = 0 contro lipotesi
b 6= 0.

3.2.3 Proiezione su un insieme e funzione distanza


La terza applicazione considerata `e quella della proiezione di un punto su
insieme: dati un insieme C IRN e un punto x IRN si vuole determinare se
esiste un punto y C, che denoteremo con PC (x) e chiameremo la proiezione
di x su C, che tra tutti i punti di C abbia distanza minima da x.
Si tratta dunque del seguente problema di minimizzazione vincolata:

y C, |y x| = min |x y| (3.11)
yC

Teorema 3.4 (Teorema della Proiezione) Se C 6= `e un sottoinsieme


chiuso di IRN , allora per ogni x IRN esiste almeno una soluzione y =
PC (x) del problema (3.11).
Dimostrazione. Fissato x si considera la funzione continua f (y) = |x y|.
Se C `e limitato allora la prima parte della tesi segue dalla (i) del Teorema di
Weierstrass. Se invece C non `e limitato, si osserva che per |y| +, y C
si ha ovviamente
f (y) |y| |x| +
e quindi vale la condizione (3.2). L esistenza di una soluzione di (3.11) segue
allora dallasserzione (ii) del Teorema di Weierstrass.


25
Esempio 3.4 Sia C = {y IRN : 1 |y| 2} . Verificare che se x 6= 0, |x| < 1
x 2x
allora PC (x) = |x| , mentre PC (x) = |x| se |x| > 2. Osservare anche che se x = 0 la
sua proiezione non `e unica e pi`u precisamente si ha

PC (0) = {y IRN : |y| = 1} .

Se 0 < |x| < 1 si ha, y C



x

|y x| |y| |x| 1 |x| = x .
|x|
In conclusione

x x x

C: x = min |y x| PC (x) = .
|x| |x| yC |x|
Se |x| > 2 otteniamo che, y C

x
|y x| |x| |y| |x| 2 = 2 x
|x|
x
e quindi PC (x) = 2 |x| dato che

x x
2 C : 2 x = min |y x|.
|x| |x| yC

Se x = 0, dallessere minyC |y| = 1 segue che PC (0) = {y IRN : |y| = 1} .

Esercizio 3.18 Verificare che se C = IRN N


+ allora per ogni x IR si ha PC (x) =
+ + +
x dove (x )i = 0 se xi 0 mentre (x )i = xi se xi > 0.

Esercizio 3.19 Considerare il rettangolo aperto E = {y IR2 : 0 < y1 < a , , 0 <


y2 < b} ed il chiuso C = IR2 \ E. Determinare i punti x di E la cui proiezione su
C non `e unica.

Dato un insieme chiuso non vuoto C, per il Teorema della Proiezione `e


ben denita la funzione dC : IRN [0, +), distanza di x da C, denita da
dC (x) = min |x y| .
yC

In questo paragrafo evidenziamo qualche propriet`a di dC . Un primo, piut-


tosto intuitivo, risultato `e il Principio di Minimo:

Proposizione 3.4 Se x
/ C, il minimo nella definizione di dC `e assunto
sulla frontiera di C,

dC (x) = min |x y| = min |x y| .


yC yC

26
Dimostrazione. Sia y C tale che dC (x) = |x y |.
Si considerano i punti xt = x+t(y x) , t [0, 1] . E facile convincersi che
il segmento di retta formato dai punti xt deve intersecare C, cio`e esiste t tale
che xt C. Se fosse y intC, esisterebbe > 0 tale che B(y , ) intC
e quindi
|xt y | > 0 .
Osserviamo poi che
|y x| = |x xt | + |xt y |.
In conclusione,
xt C C : |y x| |x xt | + > |x xt |
contraddicendo lipotesi che y fosse un punto di minimo.


Il prossimo enunciato riguarda propriet`a di regolarit`a di dC .

Proposizione 3.5 La funzione dC `e Lipschitziana:


|dC (x) dC (x )| |x x | x, x IRN
e si ha inoltre
d2C (x + h) + d2C (x h) 2d2C (x) 2|h|2 x, h IRN .
Dimostrazione. Sia y C tale che dC (x ) = |x y | . Allora, per
denizione di distanza si ha
dC (x) dC (x ) |x y | |x y | |x x | .
Scambiando i ruoli di x e x si ottiene la prima disuguaglianza.
Per dimostrare la seconda, sia y C tale che dC (x) = |x y| . Ne segue che
d2C (x + h) |x + h y|2 , d2C (x h) |x h y|2
e quindi
d2C (x + h) + d2C (x h) 2d2C (x) |x + h y|2 + |x h y|2 2|x y|2 .
Sviluppando i quadrati si ottiene
|x + h y|2 + |x h y|2 2|x y|2 =
= |x+h|2 2(x+h)y +|y|2 +|xh|2 2(xh)y +|y|2 2|y|2 4y x2|x|2 =
= . . . = 2|h|2 .


27
Esempio 3.5 La funzione distanza e lequazione eiconale Ricordiamo che
il Teorema della Proiezione afferma che se C `e un sottoinsieme chiuso non vuoto di
IRN allora per ogni y IRN esiste almeno una soluzione x = x (y) del problema
di minimizzazione
x C , |x y| = min |x y| . (3.12)
xC

La funzione dC definita su IRN da

dC (y) = min |x y|
xC

viene detta funzione valore del problema di minimo parametrico (3.12). E interes-
sante studiare come varia dC (y) al variare di y IRN \ C (ovviamente, per y C
si ha dC (y) 0). A questo scopo, sia v un arbitrario versore; se t `e un numero
reale > 0 sufficientemente piccolo si ha y + tv IRN \ C. Per definizione di dC ,
esiste x (y + tv) C tale che

dC (y + tv) = |x (y + tv) (y + tv)|.

Dunque,

dC (y) dC (y + tv) |x (y + tv) y| |x (y + tv) (y + tv)|

|x (y + tv) y (x (y + tv) (y + tv))| = t|v| = t.


Di conseguenza,
dC (y) dC (y + tv)
1
t
per ogni t > 0 sufficientemente piccolo. Se dC `e differenziabile in y si deduce che
DdC (y) v 1 |v| = 1 e quindi

max DdC (y) v 1. (3.13)


v: |v|=1

x (y)y
Osserviamo poi che scegliendo la direzione speciale v = |x (y)y| si ha

dC (y) t + dC (y + tv ) per 0 < t < dC (y) = |x (y) y| (3.14)

Infatti, si verifica immediatamente che, per 0 < t < dC (y) = |x (y) y|,

dC (y + tv ) = |x (y + tv ) (y + tv )| |x (y) (y + tv )| =

t |x (y) y|
| (x (y) y)| = |x (y) y| t = dC (y) t
|x (y) y|
da cui consegue la (3.14). Dividendo questa disuguaglianza per t > 0 e facendo il
limite per t 0 si ottiene
DdC (y) v 1.

28
Combinando questa con la (3.13) e ricordando la formula di rappresentazione della
norma di un vettore p di IRN

|p| = max pv
vIRN , |v|=1

si conclude che in ogni punto di IRN \ C in cui la funzione dC `e differenziabile


questa verifica l equazione eiconale

|DdC (y)| = 1.

3.3 Il Teorema di Weierstrass per funzioni


semicontinue
Concludiamo questa sezione formulando il teorema di Weierstrass in ipotesi
pi`
u generali. Richiamiamo alcune denizioni:

Definizione 3.1 Data una successione {x(n) } IRN , si dice che x0 `e un


punto di compattezza per {x(n) } se esiste una sottosuccessione {x(nk ) }
{x(n) } convergente a x0 .
Ogni successione di IRN ha sempre almeno un punto di compattezza. Infatti
se {x(n) } `e illimitata inferiormente ( superiormente) allora (+) `e punto
di compattezza. Se {x(n) } `e limitata ci`o segue da Bolzano-Weierstrass.

Definizione 3.2 Sia Q linsieme dei punti di compattezza di {x(n) }. Si


definisce
l = lim x(n) = inf Q minimo limite della successione {x(n) };
n

l = lim x(n) = sup Q massimo limite della successione {x(n) }.


n

Per esempio la successione {(1)n } ha due punti di compattezza: 1, 1.


Si ha l = 1 e l = 1. La successione {sin n} ammette Q = [1, 1].
Dalla denizione `e evidente che l l e
lim x(n) = l Q = {l}.
n

Definizione 3.3 Sia f : C IRN . Diciamo che f `e semicontinua infe-


riormente (superiormente) in C se, per ogni x C e per ogni successione
{x(n) } C tale che x(n) x, si ha
lim f (x(n) ) f (x) ( lim f (x(n) ) f (x)).
n+ n+

29
Osservazione 3.3 f `e continua in x0 se e solo se `e semicontinua inferior-
mente e superiormente in x0 .

Esempio 3.6 La funzione

f (x) = |x| x 6= 0; f (0) = 1

`e continua inferiormente in IR, ma non `e continua.

Il Teorema di Weierstrass continua a valere se lipotesi di continuit`a di f


`e sostituita da quella pi`
u debole di semicontinuit`a inferiore.

Teorema 3.5 (Teorema di Weierstrass) Sia C IRN un insieme chiuso


non vuoto e f : C IR una funzione semicontinua inferiormente in C. Se
C `e limitato oppure se C non `e limitato e vale la condizione di coercitivit`a
(3.2) allora
x C, f (x ) = inf f (x) .
xC

Dimostrazione. Il punto in cui si usa la continuit`a di f `e nella (3.3) che


ora `e sostituita dalla condizione

lim f (x(nk ) ) f (x ) .
k+

Ma {f (x(nk ) )} {f (x(n) )} ha lo stesso limite della succcessione {f (x(n) )} e


si ottiene
inf f (x) = lim f (x(n) ) = lim f (x(nk ) ) f (x ).
C n k+

4 Ottimizzazione vincolata con vincoli di


uguaglianza
Consideriamo il problema di ottimizzazione (1.1). Cerchiamo le eventuali
soluzioni di (1.1) tra i punti di minimo relativo di f in . Se f C 1 , il
Teorema di Fermat fornisce una Condizione Necessaria anch`e x sia un
punto di minimo relativo interno a . Se `e chiuso occorre studiare la
funzione obiettivo f anche sulla frontiera = C.
Supponiamo che C = {x A : g(x) = 0} con g = (g1 , ...., gM ) : A
RM , g C 1 (A). Sorge il problema di studiare il il problema di ottimizzazione
con vincoli di uguaglianza

x C : f (x ) = min f (x) (4.1)


xC

30
Si assume che il numero di vincoli M sia minore del numero delle variabili
N cio`e M < N. Leventuale soluzione del problema (4.1) si cerca tra i punti
di minimo relativo di f nellinsieme C.

Definizione 4.1 (Funzione Lagrangiana) Si definisce funzione Lagran-


giana associata al problema (4.1) la seguente funzione scalare, definita per
ogni x A e y IRM ,
M
X
L(x, y) := f (x) yj gj (x) = f (x) y g(x).
j=1

Definizione 4.2 Si dice che x C `e un punto di regolarit`a per i vincoli


gi (x), i = 1, ..., M se gli M vettori Dgi(x ) sono linearmente indipendenti:
M
X
di D gi (x ) = 0 di = 0 i = 1, ..., M
i=1

o, equivalentemente, la matrice do ordine M N




D g 1 (x )
g (x ) ..
Jg(x ) = = .
x
D gM (x )

ha rango massimo M.

Teorema 4.1 (Metodo dei Moltiplicatori di Lagrange) Sia x C un punto


di regolarit`a per i vincoli. Condizione necessaria affinch`e x C sia un
punto di minimo relativo vincolato per f in C `e che la matrice di ordine
(M + 1) N:
D f (x )
(f, g) D g1 (x )

(x ) = ..
x .

D gM (x )
abbia rango M. In altre parole esiste un vettore y IRM tale che

Dx L(x , y ) = D f (x ) y D g(x ) = D f (x ) J t g(x )y = 0. (4.2)

Dimostrazione. Dato che rgJg(x ) = M , M vettori colonna sono


linearmente indipendenti. Supponiamo che siano le ultime M colonne e sia
x = (x1, , x2, ) IRN M IRM . Il teorema delle funzioni implicite (vedi un
qualunque testo di analisi due) aerma che esistono un intorno I di x , un

31
intorno U IRN M di x1, ed una e una sola funzione = {1 , . . . , M } di
classe C 1 in U tali che

{x I : g(x) = 0} = {x = (x1 , x2 ) I : x1 U, x2 = (x1 )}.

Si dice anche che l equazione g(x) = 0 definisce implicitamente la funzione


in un intorno di x .
Una conseguenza di questo teorema `e lesistenza di curve (t) C 1 (t
, t + ) contenute in I, tali che (t ) = x e il cui sostegno `e contenuto in
C ovvero
g((t)) = 0, t (t , t + ). (4.3)
Infatti se 1 (t) `e una arbitraria curva di classe C 1 contenuta in U IRN M
che verica la condizione 1 (t ) = x1, , una curva cercata `e data da

x = (t) = {1 (t), (1 (t))}, t (t , t + ).

Si ha, applicando la formula di derivazione delle funzioni composte alla (4.3),

Jg(x ) (t ) = 0. (4.4)

Il vettore = (t ), se diverso dal vettore nullo, rappresenta una direzione


tangente a C nel punto x . Sia (t) = f ((t)). Dato che f ha, nel punto
x , un punto di minimo relativo vincolato allora (t) ha in t un punto di
minimo relativo

0 = (t ) = Df (x ) (t ) = Df (x ) .

Il sistema di equazioni (4.2) ovvero il sistema

J t g(x )y = Df (x )

ha soluzione y IRM se e solo se il termine noto Df (x ) `e ortogonale alle


soluzioni del sistema omogeneo trasposto Jg(x ) = 0. Abbiamo visto che
questa condizione di compatibilit`a `e sempre vericata e quindi esiste y tale
che vale (4.2).


Interpretazione geometrica. Consideriamo il caso M = 1. Sia x un
punto regolare per il vincolo cio`e Dg(x ) 6= 0. Dato che il versore normale a
Dg(x)
C in x `e (x ) = , il teorema aerma che, se (x , y ) `e soluzione del
|Dg(x)|
sistema (4.2), allora Df (x ) = y |Dg(x )| (x ) e cio`e , se y 6= 0, Df (x ) `e
parallelo a (x ).
Consideriamo le curve di livello f (x) = costante. La curva di livello f (x) =

32
f (x ) passante per il punto x ha come retta tangente Df (x ) (x x ) = 0.
La retta Dg(x ) (x x ) = 0 `e tangente al vincolo g(x) = 0 nel punto x . Se
x `e soluzione del sistema (4.2) allora le due rette tangenti coincidono cio`e
nel punto x la linea di livello f (x) = f (x ) `e tangente al vincolo g(x) = 0.

Esempio 4.1 Fiano f (x1 , x2 ) = x1 x2 e g(x1 , x2 ) = x21 + x22 1. Le linee di


livello tangenti al vincolo sono le iperboli x1 x2 = 1/2 (vedi figura 1). I punti di
intersezione sono quattro: (1/2, 1/2), che sono anche i punti appartenenti al
vincolo, soluzione del sistema (4.2).

-3 -2 -1 1 2 3

-1

-2

-3

Figura 1: Le linee di livello x1 x2 = c e il vincolo x21 + x22 = 1.

Osservazione 4.1 La condizione necessaria di ottimalit`a (4.2) `e nota come


condizione di Lagrange; i numeri y vengono chiamati moltiplicatori di La-
grange. La condizione necessaria Dx L(x , y ) = 0 e quella di ammissibilit`a
g(x ) = 0 danno luogo ad un sistema di N + M equazioni nelle N + M
incognite (x, y):
 
Dx L(x , y ) = 0 Df (x ) = y Dg(x )
DL(x , y ) = 0
Dy L(x , y ) = 0 g(x ) = 0
(4.5)
che ha, tra le sue soluzioni, tutte le soluzioni locali regolari del problema
(4.1) e i corrispondenti moltiplicatori.

33
Rimane la questione di stabilire se i punti trovati con il metodo dei molti-
plicatori di Lagrange corrispondono eettivamente ad un minimo (o massi-
mo). In genere - prima di applicare il metodo - si cerca di stabilire a priori
lesistenza del minimo ( per esempio applicando il Teorema di Weierstress).
Se il metodo determina un unico punto ed i punti di C sono tutti regolari
allora siamo sicuri che il punto trovato `e soluzione del problema (4.1).

Osservazione 4.2 Non dimentichiamo i punti non regolari! Consideriamo


il problema di determinare x C = {x IR2 : x31 = x22 } che ha minima
distanza da P = (1, 0). Posto f (x) = (x1 + 1)2 + x22 , consideriamo il
problema di minimo (4.1). Osserviamo che f `e continua e coercitiva in C.
Per il Teorema di Weiertress esiste il minimo. Lo cerchiamo tra le soluzioni
del sistema (4.5):

2(x1 + 1) = 3x21 ; 2x2 = 2x2 ; x31 = x22 .

Questo sistema non ha soluzione! Dove trovo il minimo? Tra i punti di C


non di regolarit`a cio`e (0, 0).

Esercizio 4.1 Tra tutti i rettangoli di perimetro assegnato ne esiste uno di area
massima? Impostare la questione come un problema di massimo vincolato e
trovarne la soluzione.

Esercizio 4.2 Tra tutti i rettangoli di area fissata ne esiste uno di perimetro
minimo? Impostare la questione come un problema di minimo vincolato e trovarne
la soluzione.

Esercizio 4.3 Tra tutti i rettangoli di area assegnata ne esiste uno di diagonale
minima? Impostare la questione come un problema di minimo vincolato e trovarne
la soluzione.

Esercizio 4.4 Tra tutti i triangoli rettangoli aventi la somma dei cateti assegnata
ne esistono quelli di ipotenusa massima (minima)? Impostare la questione come
un problema di massimo (minimo) vincolato e trovarne la soluzione.

Esercizio 4.5 Quando `e massimo il prodotto di tre numeri non negativi la cui
somma `e costante?

Esercizio 4.6 Fissato x0 IRN , determinare i punti della sfera unitaria S = {x


IRN : |x| = 1} la cui distanza da x0 sia massima e sia minima.

Esercizio 4.7 Data Q IRN IRN , determinare il massimo e il minimo di Qx x


in S = {x IRN : |x| = 1}.

34
Esercizio 4.8 Siano v IRN {0} e f (x) = x v. Determinare il massimo e il
minimo di f in S = {x IRN : |x| = 1}.

Esercizio 4.9 Trovare il massimo e il minimo di f (x) = x21 . . . x2N sulla sfera
unitaria |x| = 1. Usare questo risultato per dimostrare che , dati b1 , . . . , bN > 0,
si ha
b1 + . . . + bN
(b1 . . . bN )1/N .
N
Esercizio 4.10 Minimizzare la somma di N numeri positivi il cui prodotto `e
costante.

5 Funzioni convesse ed insiemi convessi


Un insieme K IRN `e convesso se

x + (1 )y K, x, y K, [0, 1] .

Una funzione f : K IR `e convessa se

f (x + (1 )y) f (x) + (1 )f (y), x, y K, [0, 1] .

Sottoclassi importanti di funzioni convesse sono quelle delle funzioni stret-


tamente convesse, i.e.

f (x + (1 )y) < f (x) + (1 )f (y), x, y K, x 6= y (0, 1),

e di quelle fortemente convesse cio`e quelle per cui esiste > 0 tale che

f (x + (1 )y) f (x) + (1 )f (y) (1 )|x y|2 ,

x, y K, (0, 1).
L epigrafico di una funzione f : K IR `e linsieme

epif = {(x, r) K IR : r f (x)} .

E facile vericare che se K `e convesso e f `e convessa su K allora epi f `e un


sottoinsieme convesso di IRN IR.

Esempio 5.1 La funzione norma, f (x) = |x| `e convessa. Come conseguenza della
disuguaglianza triangolare si ha che ogni funzione composta del tipo f (x) = (|x|)
con : IR IR convessa e non decrescente, `e convessa.

35
Esempio 5.2 Le funzioni affini

f (x) = b x + c

sono ovviamente convesse, qualunque siano b IRN e c IR.

Esempio 5.3 Sia I un insieme arbitrario di indici e consideriamo una famiglia


f i (x) di funzioni convesse in IRN . Allora la funzione g(x) = supiI f i (x) `e convessa.
Infatti, fissati x, y, [0, 1], dalla definizione di estremo superiore segue che per
ogni > 0 esiste un indice i dipendente da x, y, tale che

g(x + (1 )y) = sup f i (x + (1 )y) fi (x + (1 )y) + .


iI

a di fi e dalla definizione di g si deduce che


Dalla convessit`

f i (x + (1 )y) + f i (x) + (1 )f i g(x) + (1 )g(y) +

e quindi

g(x + (1 )y) fi (x) + (1 )f i g(x) + (1 )g(y) +

e, per larbitrariet`a di , ci`


o mostra che g `e convessa.

Esercizio 5.1 Dimostrare che f (x) = max{x2 , ex , x+1} `e una funzione convessa
in IR.

Esempio 5.4 Le funzioni quadratiche f (x) = Qx x sono convesse se (e solo se)


la matrice Q IRN N `e semidefinita positiva, i.e. se per ogni x IRN si ha
Qx x 0. La disuguaglianza di convessit`a si riduce, fatti un p`
o di calcoli, a
verificare che

(1 )Qx x + (1 )Qy y (1 )Qx y (1 )Qy x 0

ovvero, essendo (1 ) 0, che

Qx x + Qy y Qx y Qy x 0

Il lato sinistro di questa disuguaglianza `e esattamente Q(x y) (x y) che `e


maggiore o uguale a 0 nellipotesi che Q sia semidefinita positiva.
In maniera analoga si pu` o controllare che se Q `e definita positiva (vedi Sezione 3),
allora f (x) = Qxx `e fortemente convessa. In particolare, f (x) = |x|2 `e fortemente
convessa.

Esempio 5.5 Se K `e un convesso chiuso non vuoto di IRN . La funzione distanza


di x da K definita su tutto IRN (grazie al Teorema della Proiezione) da

dK (x) = min |x y|
yK

36
`e convessa. Infatti, se dK (x1 ) = |x y 1 | , dK (x2 ) = |x2 y 2 | con y 1 , y 2 K, allora

dK (x1 + (1 )x2 ) |x1 + (1 )x2 y 1 (1 )y 2 |

|x1 y 1 | + (1 )|x2 y 2 | = dK (x1 ) + (1 )dK (x2 ), [0, 1] .

Esercizio 5.2 Una funzione g : IRN IR `e concava se la funzione g `e convessa.


Verificare che se g `e concava allora {x IRN : g(x) 0} `e un insieme convesso.
Provare anche che se gi : IRN IR , i = 1, . . . , M sono concave allora

{x IRN : gi (x) 0 i = 1, . . . , M }

`e convesso.

Esercizio 5.3 Verificare che se f e g sono convesse `e convessa anche ogni loro
combinazione convessa f + (1 )g , [0, 1].

Esercizio 5.4 Dimostrare che se f : IRN IR `e convessa e h : IR IR `e convessa


e non decrescente allora h f `e convessa.

Esercizio 5.5 Se f `e convessa allora f + (x) = max{f (x), 0} `e convessa.

Esiste un legame tra continuit`a e convessit`a , espresso dal seguente teo-


rema (vedi esercizio 5.6):

Teorema 5.1 Sia f : A IRN IR, A aperto. Se f `e convessa in A


allora f `e continua in A.

Esercizio 5.6 Sia f : IRN IR una funzione convessa, x0 IRN e > 0 tale che
m f (x) M per ogni x B(x0 , ) con 0 < m M . Siano x 6= x B(x0 , )
|x x|
e x = x + |xx x
x| ; usare la convessit` a di f con = +|x x| per dimostrare che

 
|x x|
f (x ) f (x) +|x
x| f (x ) + +|x x| 1 f (x).
M m
Dedurne che f (x ) f (x) |x x |. Osservare che ci`o implica che f `e
continua su IRN .

Esercizio 5.7 Verificare che se f `e convessa allora f (x) = f (x) + 2 |x|2 `e forte-
mente convessa per ogni > 0 e che f f per 0 puntualmente e uniforme-
mente su ogni insieme chiuso e limitato di IRN . Dedurne che se K `e chiuso e
limitato e
f (x ) = inf f (x)
xK

allora esiste una sottosuccessione {x } convergente per 0 ad uno dei punti


minimo di f su K.

37
5.1 Convessit`
a e unicit`
a dei punti di minimo
Siano f, g1 , . . . , gM C 1 (A), A RN aperto. Si consideri il problema di
ottimizzazione vincolata

x C : f (x ) = min f (x)
xC

dove C = {x A : g(x) 0} con g = (g1 , ...., gM ). In assenza di ipotesi


su f e gi , i = 1, . . . , M si parla di problema di programmazione non lineare.
Se f e gi , i = 1, . . . , M sono funzioni convesse in A convesso allora C `e un
insieme convesso (vedi esercizio 5.2). In tal caso si parla di problema di
programmazione convessa.
Una prima, semplice propriet`a delle funzioni convesse che mette in luce
il loro ruolo speciale in ottimizzazione `e descritta dalla seguente

Proposizione 5.1 Sia K IRN un insieme convesso e f : K IR una


funzione convessa. Allora

i) ogni punto di minimo locale di f su K `e anche di minimo globale;

ii) linsieme K = {x K : f (x ) = minxK f (x)} `e convesso (eventual-


mente K = );

iii) se f `e strettamente convessa allora , se K 6= , K consiste di un solo


punto.

Dimostrazione. Se x `e un punto di minimo locale allora esiste > 0 tale


che
f (x ) f (x) , x K B(x , ) .
Se x non fosse di minimo globale esisterebbe allora x K tale che f ( x) <
f (x ) . Si considerino i punti x := x + (1 )x .

Per ogni (0, min{1, |xx | ) si ha x K e |x x | < . Quindi

x) + (1 )f (x ) < f (x ) + (1 )f (x ) = f (x )
f (x ) f (

Ci`o contraddice lipotesi che x `e un punto di minimo locale per f e quindi


(i) `e dimostrata.
Se x1 e x2 sono in K si ha

min f (x) f (x1 + (1 )x2 ) f (x1 ) + (1 )f (x2 ) =


xK

= min f (x) + (1 ) min f (x) = min f (x)


xK xK xK

38
per ogni [0, 1] da cui segue che x1 + (1 )x2 K . Dunque, se f `e
strettamente convessa e x1 , x2 K con x1 6= x2 ne segue la contraddizione
 
x1 + x2 f (x1 ) f (x2 )
min f (x) f < + = min f (x) .
xK 2 2 2 xK


Osservazione 5.1 Non `e detto che una funzione convessa abbia minimo, e.g.
f (x) = x; non `e detto che una funzione strettamente convessa abbia minimo,
e.g. f (x) = ex . Una funzione convessa, ma non strettamente convessa,
potrebbe avere inniti punti di minimo, e.g. f (x) = c.
Esempio 5.6 Sia f (x) = 12 Qx x + b x + c con Q = QT e definita positiva. f ha
minimo in IRN (Teorema 3.2) e - dato che f `e strattamente convessa - il punto di
minimo `e unico, soluzione del sistema
D f (x) = 0 Qx = b x = Q1 b.
N
Esempio 5.7 Siano Q = QT definita positiva; PNb IR , c IR, j(x) continua,
convessa, a valori non negativi (e.g. j(x) = i=1 |i |xi ), C un insieme chiuso,
convesso, non vuoto di IRN . Dimostriamo che, posto
1
f (x) = Qx x b x + j(x)
2
0 0
!x C : f (x ) = minC f (x);
x0 C `e soluzione del problema di minimo se e solo se
(Qx0 b) (x x0 ) + j(x) j(x0 ) 0, x C. (5.1)

Il minimo esiste per il teorema di Weierstrass (o C `e limitato oppure f `e


coercitiva in C). Inoltre, dato che f `e strettamente convessa, il punto di minimo
`e unico.
Si ha
1
f (x) f (x0 ) = Q(x x0 ) (x x0 ) + (Qx0 b) (x x0 ) + j(x) j(x0 ).
2
Se vale (5.1) e x 6= x0 si deduce che
1
f (x) f (x0 ) Q(x x0 ) (x x0 ) > 0, x 6= x0 .
2
Sia x punto di minimo. Posto x = x0 + (1 )x1 si ha, usando la convessit`
0 a di
j,

0 f (x) f (x0 )
(1 )
(1 )[ Q(x0 x1 ) (x0 x1 ) + (Qx0 b) (x1 x0 ) + (j(x1 ) j(x0 ))]
2
Dividendo lultima espressione per 1 e per 1 si trova la (5.1).

39
5.1.1 La trasformata di Legendre-Fenchel
Consideriamo il problema di ottimizzazione

min ( f (x) p x) (5.2)


xIRN

dove f `e una funzione continua tale che


f (x)
lim = + (5.3)
|x|+ |x|

e p IRN `e un parametro.

Proposizione 5.2 Se f C(IRN ) e verifica (5.3) allora per ogni p IRN il


problema (5.2) ha almeno una soluzione x = x (p).
Dimostrazione. La dimostrazione si basa sulla disuguaglianza
 
f (x)
f (x) p x f (x) |p| |x| = |p| |x|
|x|
da cui segue
lim f (x) p x = +
|x|+

per ogni p IRN . Lesistenza di un punto di minimo x (p) segue dunque dal
Teorema di Weierstrass.

Grazie alla Proposizione 5.2 e dato che

max ( p x f (x)) = min (f (x) p x)


xIRN xIRN

`e ben denita su IRN la funzione

f (p) = max (p x f (x)) (5.4)


xIRN

che prende il nome di trasformata (o coniugata) di Legendre-Fenchel di f .


Notiamo che f in quanto max della famiglia di funzioni ani p pxf (x)
`e convessa (anche se f non lo `e ) e che si ha ovviamente

f (p) + f (x) p x p, x IRN .

Ne segue che
f (x) sup [p x f (p)] = (f ) (p).
xIRN

40
La funzione biconiugata (f ) `e convessa; si pu`o dimostrare, pi` u precisa-
mente, che `e la pi`
u grande funzione convessa minore o uguale di f e che se
f `e convessa allora (f ) f (Teorema di Fenchel-Moreau).
Nel caso che f C 1 (IRN ) sia convessa, allora per il teorema di Fermat i punti
di massimo x = x (p) in (5.4) sono caratterizzati da

Df (x ) = p .

Se Df `e invertibile si ha allora la seguente rappresentazione esplicita di f :



f (p) = p (Df )1 (p) f (Df )1 p) .

In particolare, se f (x) = 21 Qx x con Q matrice N N simmetrica e denita


positiva allora Df (x) = Qx e quindi Df 1 (p) = Q1 p. Dunque,
1 1
f (p) = p Q1 p Q1 p p = Q1 p p .
2 2
Esercizio 5.8 Sia f una funzione continua e limitata inferiormente su IRN ed
n IN un parametro positivo. Dimostrare che la funzione y f (y) + n2 |x y|2
ha minimo su IRN per ogni x ed n fissati. Considerare poi le funzioni
 n 
fn (x) = min f (y) + |x y|2
yIRN 2

(regolarizzazioni di Yosida-Moreau di f ) e dimostrare che fn (x) f (x).

Esercizio 5.9 Sia Q semidefinita positiva. Dimostrare che



1 + se p KerQ
sup [p x Qx x] = 1
xIRN 2 p x se p / KerQ
2
dove x `e un qualsiasi vettore tale che Qx = p [se p KerQ allora pnp 12 Qnpnp =
n|p|2 + per n +....] .

Esercizio 5.10 Verificare che se > 1 allora la trasformata di Legendre-Fenchel


della funzione f (t) = 1 t , t IR, `e f (s) = 1 s con 1 + 1 = 1.

Esercizio 5.11 Sia C un insieme convesso e


(
0 ,x C
C (x) =
+ , x
/C

la sua funzione indicatrice. Verificare che supxIRN [p x C (x)] = supxC p x .


La funzione C (x) = supxC p x si chiama funzione supporto di C.

41
5.2 Propriet`
a di funzioni convesse differenziabili
Se A `e un aperto di IRN denotiamo con C 1 (A) linsieme delle funzioni continue
su A e derivabili in A in tutte le direzioni coordinate con derivate parziali
continue. Ricordiamo che se f C 1 (A) allora f `e dierenziabile in A e
inoltre, per ogni v IRN con |v| = 1, f `e derivabile nella direzione v e si ha

Dv f (x) = Df (x) v (5.5)


 
f f
dove Df (x) = x 1
(x), ..., xN
(x) `e il gradiente di f in x.
Vale anche lo sviluppo di Taylor del primordine con resto in forma integrale
Z 1
f (x)f (y) = Df (y)(xy)+ (Df (x+t(y x))Df (y))(xy)dt (5.6)
0

Proposizione 5.3 Sia A un aperto convesso di IRN , f C 1 (A). Le seguenti


affermazioni sono equivalenti:

i) f convessa in A;

ii)
f (x) f (y) Df (y) (x y), x, y A; (5.7)

iii)
(Df (x) Df (y)) (x y) 0 x, y A. (5.8)

Dimostrazione. i) ii). Come immediata conseguenza della deni-


zione di convessit`a si ha, per ogni x, y A e [0, 1]
 
xy
f (y + (x y) f (y) f y + |x y| |xy|
f (y)
f (x) f (y) = |x y|
|x y|

Passando al limite per 0+ e tenendo conto di (5.5) si ottiene


xy
f (x) f (y) |x y|Dv f (y) = |x y|Df (y)
|x y|
xy
dove v = |xy| e quindi la (5.7).
ii) iii). Scambiando i ruoli di x e y nella (5.7), si ottiene ovviamente

f (y) f (x) Df (x) (y x) ,

da cui per sottrazione si deduce la (5.8).

42
iii) i). Sia
F () = f (x + (1 )y) f (x) (1 )f (y).
Si verica che F (0) = F (1) = 0 e
F () = Df ((x y) + y) (x y) f (x) + f (y).
Per il teorema del valor medio di Lagrange
F () = (Df ((x y) + y) Df ((x y) + y)) (x y)
con ssato in (0, 1). Quindi, per iii),
F ()( ) = (Df ((x y) + y) Df ((x y) + y)) (x y)( ) 0.
Se < 1: F () 0 da cui segue F () e F () F (1) = 0; se
0 : F () 0 da cui segue F () e F () F (0) = 0; da cui
segue che F () 0, [0, 1]. Per come `e stata denita F , `e proprio la
denizione di convessit`a .

Sussistono caratterizzazioni analoga per funzioni strettamente e forte-
mente convesse.

Proposizione 5.4 Sia A un aperto convesso di IRN , f C 1 (A). Le seguenti


affermazioni sono equivalenti:
i) f strettamente convessa in A;
ii)
f (x) f (y) > Df (y) (x y), x, y A, x 6= y; (5.9)
iii)
(Df (x) Df (y)) (x y) > 0 x, y A, x 6= y. (5.10)
Dimostrazione. i) iii). Per ogni , : 0 < < 1, scriviamo

x + (1 )y = (1 )y + (y + (x y))

e, per la convessit`a di f ,

f (x + (1 )y) (1 )f (y) + f (y + (x y)), x 6= y.

Ne segue che
f (y + (x y)) f (y) f (y + (x y)) f (y)
< f (x) f (y)

dove lultima disuguaglianza segue da i). Per 0+ si trova la ii). Le altre
implicazioni si dimostrano come nella Proposizione precedente.

43
Proposizione 5.5 Sia A un aperto convesso di IRN , f C 1 (A). Le seguenti
affermazioni sono equivalenti:
i) f fortemente convessa in A;

ii)

f (x) f (y) Df (y) (x y) + |x y|2 x, y A; (5.11)
2
iii)
(Df (x) Df (y)) (x y) |x y|2 x, y A. (5.12)

Dimostrazione.i) iii). Per dimostrare le asserzioni relative a funzioni


fortemente convesse, si usa la denizione di forte convessit`a con = 21 :
1 1 1 x+y
|x y|2 f (x) + f (y) f ( )=
4 2 2 2
   
1 x+y 1 x+y
= f (x) f ( + f (y) f ( )
2 2 2 2
Da (5.7) segue che
    
1 x+y 1 x+y
f (x) f Df (x) x ,
2 2 2 2
    
1 x+y 1 x+y
f (y) f Df (y) y
2 2 2 2
Dunque,
1 1 1 1
|xy|2 Df (x)(xy)+ Df (y)(yx) = (Df (x) Df (y))(xy)
4 4 4 4
e cio`e (5.12).
iii) ii). Per dimostrare (5.11) si usano (5.6) e la disuguaglianza (5.12):

f (x) f (y) =
Z 1
1
Df (y) (x y) + (Df (x + t(y x)) Df (y)) (x + t(y x) y)dt
0 1t
Z 1

Df (y) (x y) + (1 t)2 |x y|2 dt .
0 1 t
Quindi, calcolato lintegrale,

f (x) f (y) Df (y) (x y) + |x y|2 .
2
44
iii) i) Per la (5.6) possiamo scrivere
Z 1
f (x) f (y) = Df (y + t(x y)) (x y)dt
0

e Z 1
f (y) f (y + (x y)) = Df (y + t(x y)) (y x)dt.
0
Quindi
(f (x) f (y)) + f (y) f (y + (x y)) =
Z 1
(Df (y + t(x y)) Df (y + t(x y))) (x y)dt =
0
Z 1
dt
(Df (y + t(x y)) Df (y + t(x y))) (x y)t(1 ) .
0 t(1 )
Se applichiamo la disuguaglianza iii) e integriamo, troviamo proprio la i):

(f (x) f (y)) + f (y) f (y + (x y))


Z 1
dt
t2 (1 )2 |x y|2 = (1 ) |x y|2.
0 t(1 ) 2


Corollario 5.1 Se f C 1 (IRN ) `e fortemente convessa in IRN allora f `e


coercitiva.
Dimostrazione. Infatti, ssato y = 0 nella (5.11) si deduce
2
f (x) f (0) |D f (0)||x| + |x| +.
2


Utile per stabilire se una funzione f - dotata di derivate seconde continue


- `e convessa `e il seguente criterio:

Proposizione 5.6 Sia f C 2 (A), A IRN aperto convesso. Allora f `e


convessa in A se e solo se la matrice hessiana Hf (x) `e semidefinita positiva
in A.

45
Dimostrazione. Se Hf (x0 ) `e semidenita positiva dalla formula di Taylor
del primo ordine della f con espressione del resto di Lagrange segue, per la
Proposizione 5.3, la convessit`a di f . Infatti si ha

f (x) = f (x0 ) + Df (x0 ) (x x0 ) + 21 Hf (


x)(x x0 ) (x x0 )
f (x0 ) + Df (x0 ) (x x0 )

Viceversa, per la formula di Taylor di f di ordine due e per la convessit`a di


f:
1
f (x) = f (x0 ) + Df (x0 ) (x x0 ) + Hf (x0 )(x x0 ) (x x0 )+
2
o(|x x0 |2 ) f (x0 ) + Df (x0 ) (x x0 )
da cui segue
1
Hf (x0 )(x x0 ) (x x0 ) + o(|x x0 |2 ) 0, x, x0 A.
2
Sia v IRN : |v| = 1 e sia : x = x0 + v A. Quindi

2
Hf (x0 )v v + 2 o(1) 0
2
e, dividendo per 2 , e poi per 0+ si ottiene la semidenitezza di Hf (x0 ).


Si potrebbe pensare che una Proposizione analoga continui a valere se f


`e strettamente convessa e Hf (x) denita positiva. Si osservi che f (x) = x4
`e strettamente convessa dato che

(f (x)f (y)(xy) = 4(x3 y 3 )(xy) = 4(x2 +xy+y 2 )(xy)2 > 0, x 6= y,

ma si ha f (0) = 0; f (x1 , x2 ) = x41 +x42 `e strettamente convessa ma Hf (0) `e la


matrice nulla. Sussiste comunque il seguente risultato, la cui dimostrazione
`e lasciata per esercizio.

Proposizione 5.7 Sia f C 2 (A), A IRN aperto convesso.


Se f `e strettamente convessa in A allora la matrice hessiana Hf (x) `e
semidefinita positiva in A.
Se la matrice hessiana Hf (x) `e definita positiva in A allora f `e stretta-
mente convessa.

Esercizio 5.12 Determinare linsieme di convessit`


a delle seguenti funzioni:

46
1. f (x) = ex ;
2
2. f (x) = ex ;

3. f (x1 , x2 ) = ex1 sin(x2 );

4. f (x1 , x2 ) = (x1 + x2 )2 .

5.3 Caratterizzazione variazionale dei punti di minimo


Teorema 5.2 (C.N. di minimo relativo su un convesso) Sia f
C 1 (A) con A aperto di IRN e sia K A, K convesso. Sia x K punto di
minimo relativo per f in K. Allora si ha

x K , Df (x ) (x x ) 0 x K. (5.13)

Inoltre se x intK allora


Df (x ) = 0.
Dimostrazione. Sia > 0 tale che

f (x) f (x ), x K B(x , ).

Fissato arbitrariamente x K consideriamo

x = x + (x x ) .

Per la convessit`a di K i punti x sono in K per ogni [0, 1] e, assumendo


0 < < /|x x |, si ha x K B(x , ). Quindi
f (x + (x x )) f (x )
0 0 < < ].
|x x |
xx
Ponendo v = |xx |
si ottiene

f (x + |x x | v) f (x )
|x x | 0 0 < < ]
|x x | |x x |
e quindi, passando al limite per 0+ si conclude che
x x
0 |x x |Dv f (x ) = |x x | Df (x)
|x x |
e quindi le (5.13).
Se inoltre x int K, allora le (5.13) si riducono alle equazioni Df (x ) =
0 . In tal caso infatti ogni punto x del tipo x = x + tei `e in K per ogni

47
i = 1, ..., N e per ogni t con |t| sucientemente piccolo. Quindi per le (5.13)
appena dimostrate

Df (x ) tei 0 , t (, )

con sucientemente piccolo. Ne segue, dividendo prima per t e poi per t,


che
0 Df (x ) ei 0 , i = 1, ..., N.

Si ritrova dunque la ben nota condizione necessaria vericata da ogni
punto di minimo locale interno a K di una funzione di classe C 1 (Teorema
di Fermat).
Veniamo ora al risultato principale di questa sezione: se f `e convessa
allora le C.N. della Proposizione 5.2 diventano C.S. anch`e un punto sia di
minimo locale (e quindi, per quanto visto nella Proposizione 5.1, un minimo
globale).

Teorema 5.3 Sia f C 1 (A) con A aperto di IRN . Se f `e convessa su A e


K `e un sottoinsieme convesso di A allora

x K , f (x ) = min f (x) (5.14)


xK

se e solo se valgono le (5.13).


Dimostrazione. Per la caratterizzazione delle funzioni convesse ( Propo-
sizione 5.3) segue che

f (x) f (x ) Df (x ) (x x ) x K

Se vale (5.13) allora

f (x) f (x ) 0 x K

e quindi x verica (5.14). Il viceversa segue dal Teorema 5.2.




Osservazione 5.2 Il sistema di (innite) disequazioni (5.13) prende il nome


di disuguaglianze variazionali associata al problema di minimo (5.14).
Osserviamo che i Teoremi 5.2 e 5.3 implicano che se f `e convessa allora
ogni punto critico di f interno a K `e necessariamente un minimo globale.

48
Osservazione 5.3 Nel caso speciale in cui K = IRN + , f convessa, la con-
dizione necessaria e suciente di minimalit`a espressa da (5.13) pu`o essere
formulata in maniera equivalente come sistema di complementarit`a :
x 0 , Df (x ) 0 , x Df (x ) = 0 (5.15)
Per dimostrare ci`o supponiamo dapprima che valga (5.13). Scegliendo x =
x + ei , i = 1, ..., N, si trova
f
0 Df (x ) (x x ) = Df (x ) ei = (x )
xi
e quindi la seconda disuguaglianza in (5.15) `e vericata. Inoltre da (5.13) si
deduce che per ogni x 0
Df (x ) x Df (x ) x 0
da cui, prendendo x = 0 si trova la condizione di ortogonalit`a in (5.15) . Se
viceversa vale (5.15), allora Df (x ) x 0 per ogni x 0 e quindi, tenendo
conto della relazione di ortogonalit`a x Df (x ) = 0, si conclude
Df (x ) (x x ) = Df (x ) x Df (x ) x 0 .

Come conseguenza del teorema di Weierstrass e del Teorema 5.3 si ot-


tiene il seguente risultato di esistenza ed unicit`a per sistemi di N equazioni
nonlineari in N incognite di tipo gradiente.
Proposizione 5.8 Se f C 1 (IRN ) `e fortemente convessa, allora per ogni
q IRN esiste ed `e unica la soluzione del sistema
Df (x) = q .
Dimostrazione. Si considera la funzione F (x) = f (x) q x. E facile
vericare che F `e fortemente convessa e quindi, usando la (5.12) con y = 0,

F (x) f (0) + (Df (0) q) x + |x|2 f (0) |Df (0) q||x| + |x|2 .
2 2
Quindi F `e coercitiva e per il Teorema di Weierstrass ha un minimo x su
IRN . Per il Teorema 5.3 si ha DF (x ) = Df (x ) q = 0 e cio`e la tesi.

Esercizio 5.13 Un insieme convesso K `e un cono di vertice 0 se
x K , > 0 , x K .
Dimostrare che (5.13) `e equivalente in questo caso al sistema di complementarit`
a
generalizzato
x K , Df (x ) K , x Df (x ) = 0
dove K := {y IRN : y x 0 x K} `e il cono polare di K.

49
5.3.1 Formulazione debole della caratterizzazione variazionale: il
subdifferenziale
E frequente in problemi di ottimizzazione incontrare funzioni convesse che
non sono dierenziabili in uno o pi` u punti. Un esempio gi`a incontrato nel
paragrafo 3.2.3 `e quello della funzione f (y) = |y x| che non `e dierenziabile
in y = x. Una classe di funzioni convesse non ovunque dierenziabili, in
generale `e quella delle cosiddette funzioni marginali

f (x) := sup{f1 (x), . . . , fk (x)}

(vedi esempio 5.3).


Sia f : K IR una funzione convessa e x un punto di K. Un vettore
z IRN `e un subgradiente di f in x se

f (y) f (x) + z (y x) y IRN (5.16)

Il semplice signicato geometrico di questa disuguaglianza `e che il graco del-


la funzione ane h(y) = f (x) + z (y x) tocca dal di sotto il graco di f nel
punto (x, f (x)) e si trova interamente al di sotto di quello di f . (vedi gura 2).

0.8

0.6

0.4

0.2

-1 -0.5 0.5 1
-0.2

-0.4

Figura 2: La funzione convessa f (x) = |x| e una retta di appoggio nel punto
(0, 0) .

L insieme

f (x) = {z IRN : f (y) f (x) + z (y x) y IRN }

formato da tutti i subgradienti di f in x si chiama subdifferenziale di f in x.


L insieme f (x) `e non vuoto, chiuso e convesso (per qualche valore di x pu`o
ridursi ad un singolo elemento, nel qual caso la funzione f `e dierenziabile
in x.)

50
Esempio 5.8 Nel caso della norma euclidea f (x) = |x| si ha per esempio

f (0) = {z IRN : |y| z y y RN } .

Facciamo vedere che



B(0, 1) se x=0
f (x) =

|x|1 x se x 6= 0
Dimostriamo inizialmente che se f `e differenziabile in x int K allora f (x) =
D f (x). Per la caratterizzazione variazionale (5.7) delle funzioni convesse si ha
D f (x) f (x).
Sia z f (x):

f (y) f (x) + z (y x) y IRN .

Sia > 0 tale che B(x, ) intK. Assumendo y = x + t v con v IRN : |v| = 1 e
0 < t < si ha
f (x + t v) f (x)
zv
t
Per t 0+ si trova D f (x) v z v. Per larbitrariet`a di v si ottiene D f (x) = z .
Quindi, se x 6= 0, f (x) = |x|1 x.
Sia z IRN : |z| 1. Per la disuguaglianza di Cauchy-Schwarz

z y |z||y| |y|

che implica z f (0). Viceversa se z f (0) si ha, per definizione, |y| z y


y IRN . Assumendo y = z si trova |z|2 |z| da cui si deduce che |z| 1.

Usando la nozione di subdierenziale si ha il seguente risultato che va


visto come una versione non dierenziabile del precedente Teorema 5.3:

Proposizione 5.9 Sia K un sottoinsieme convesso di IRN e f una funzione


convessa su K. Allora

x C , f (x ) = min f (x) (5.17)


xC

se e solo se
x C , 0 f (x ) .
Dimostrazione. Se x verica (5.17) allora f (y) f (x ) per ogni y K
e quindi la disuguaglianza di subgradiente (5.16) `e vericata in particolare
da z = 0. Viceversa, se 0 f (x ) allora `e immediato dedurne che x `e un
punto di minimo di f su K.


51
5.4 Separazione tra insiemi convessi
Conseguenze importanti del Teorema 3.4 di esistenza della proiezione su
un insieme chiuso sono i Teoremi di Separazione tra insiemi convessi. Per
le dimostrazioni servono alcune informazioni supplementari sulla proiezione
fornite dalla seguente

Proposizione 5.10 Se K `e un convesso chiuso non vuoto allora per ogni


x IRN esiste un unico vettore PK (x) tale che
PK (x) K , |PK (x) x| = min |x y| . (5.18)
yK

Inoltre, PK (x) `e caratterizzata dalla propriet`a


PK (x) K , (PK (x) x) (y PK (x)) 0 y K (5.19)
e
|PK (x) PK (x )| |x x | . (5.20)
Dimostrazione. Lesistenza di PK (x) soluzione del problema (5.18) `e garan-
tita dal Teorema della Proiezione. Si osserva poi che PK (x) `e soluzione del
problema (5.18) se solo se verica
PK (x) K , |PK (x) x|2 = min |x y|2 .
yK

La funzione F (y) = |y x|2 `e fortemente ( e quindi strettamente) convessa


su K e dunque, per la Proposizione 5.1, il suo punto di minimo `e unico.
Dato che F C 1 (IRN ) si pu`o anche applicare la caratterizzazione variazionale
del punto di minimo (Teorema 5.3) ottenendo
DF (PK (x)) (y PK (x)) 0 y K .
Essendo DF (y) = 2(y x) ne segue la (5.19).
Per dimostrare lultima aermazione, si osserva che scegliendo y = PK (x )
in (5.19) e poi y = PK (x) nellanaloga caratterizzazione di PK (x ) si ottiene
(PK (x) x)(PK (x ) PK (x)) 0 (PK (x ) x )(PK (x ) PK (x)) 0 .
Sommando le due disuguaglianze si ha
(PK (x ) PK (x)) (PK (x) x PK (x ) + x ) 0
e quindi, usando la disuguaglianza di Cauchy-Schwarz
|PK (x ) PK (x)|2 (PK (x ) PK (x)) (x x) |PK (x ) PK (x)||x x | .

Un primo semplice risultato di separazione `e il seguente

52
Teorema 5.4 Sia K un convesso chiuso non vuoto di IRN . Per ogni b
/K
esiste v IRN tale che

v 6= 0 vy >vb y K .

Dimostrazione. Il vettore v = PK (b) b `e diverso da 0 perch`e b


/ K. Per
la Proposizione 5.10

0 v (y PK (b)) = v (y v b) = v y v b |v|2

e quindi
v y v b + |v|2 > v b .


Teorema 5.5 (Teorema di Separazione) Siano K1 e K2 sottoinsiemi


convessi di IRN . Se int K1 6= e int K1 K2 = , allora esiste

v IRN , v 6= 0 : v y v x x K1 , y K2 .

Dimostrazione. Per ogni x intK1 consideriamo linsieme

Zx := {z IRN : z = y x, y K2 } .

Dimostriamo che [
Z= Zx .
xintK1

`e un insieme convesso. Infatti, se z1 , z2 Z allora

z1 + (1 )z2 = y1 + (1 )y2 (x1 + (1 )x2 )

con y1 , y2 K2 , x1 , x2 intK1 . Dato che x1 + (1 )x2 intK1 (vericare


!) e y1 + (1 )y2 K2 per ogni [0, 1] ne segue che z1 + (1 )z2 Z .
Inoltre, 0 / Z perch`e se cosi non fosse si avrebbe 0 = y x con y K2 e x
intK1 , contro lipotesi che int K1 K2 = . Dato che IRN = Z Z (IRN \Z),
ci sono due possibilit`a riguardo la posizione del punto 0:

(a) 0 IRN \ Z oppure (b) 0 Z .

Nel caso (a) si pone


v = PZ 0 .
Chiaramente v 6= 0 perch`e 0 / Z. Il vettore v `e denito univocamente e
verica
v (z v) 0 , z Z

53
come segue dalla Proposizione 5.10. Si ha quindi

v z |v|2 > 0 , z Z . (5.21)

Ricordando la denizione di Z si trova che

v y > v x , y K2 , x intK1 .

Per ogni x K1 \ intK1 esiste una successione xn intK1 tale che xn x


per n +.
Quindi
v y > v xn , y K2 , n.
Passando al limite in questa disuguaglianza si conclude la validit`a della tesi
nel caso (a).
Nel caso (b) esiste una successione {zn } IRN \ Z tale che zk 0 .
Ne segue, in particolare, che zk 6= 0 per ogni k, ovvero che linsieme con-
vesso chiuso Z zk = { = z zk , z Z} non contiene 0. Applicando
la costruzione eettuata nella dimostrazione nel caso (a) (vedi (5.21)), si
determinano vettori vk 6= 0 tali che

vk y > 0 , y Z zk

ovvero
vk z > vk zk z Z .
vk
La successione vk = |vk |
verica ovviamente

vk vk
z > zk . (5.22)
|vk | |vk |

Essendo |vk | 1, per il Teorema di Bolzano - Weierstrass almeno una sotto-


successione vkj converger`a ad un v di norma 1.
Quindi, v 6= 0 e, passando al limite in (5.22) si conclude che

v z v 0 = 0 , z Z .

In particolare questa disuguaglianza vale per ogni z del tipo z = y x con


y K2 e x intK1 . Se x K1 , la disuguaglianza richiesta si ottiene per
continuit`a come nel caso precedente e quindi la dimostrazione del Teorema `e
completa.


54
Osservazione 5.4 Se d IR verica la condizione

sup {v y} d inf {v x}
yK1 xK2

allora liperpiano H = {x IRN : v x = d} separa K1 e K2 dato che il


semispazio {x IRN : v x d} contiene K2 mentre il semispazio {x IRN :
v x d} contiene K1 .

Una applicazione importante del Teorema di Separazione 5.5 che sar`a uti-
lizzata in seguito nella teoria di Karush-Kuhn-Tucker `e basata sulla seguente
costruzione.
Date una funzione convessa f : IRN IR , e M funzioni concave gi :
IR IR, i = 1, ..., M, deniamo linsieme convesso C := {x IRN :
N

g(x) 0} dove g(x) = (g1 (x), . . . , gM (x)) . Consideriamo il problema di


ottimizzazione convessa

x C : f (x ) = min f (x). (5.23)


xC

Per ogni ssato x IRN si considera l insieme

K(x) = {(z0 , z) IR IRM : z0 f (x) , z g(x)}

e si pone [
K= K(x).
N
xIR

Supponendo che il problema (5.23) abbia soluzione x C, si considera


linsieme
S = {(w0, w) IR IRM : w0 f (x ) , w 0}.

Corollario 5.2 Nelle ipotesi fatte esiste s IR IRM tale che

s 6= 0 , s (w0 , w) s (z0 , z) (w0 , w) S , (z0 , z) K .

Dimostrazione. Basta controllare che nella situazione descritta sono veri-


cate le ipotesi del precedente Teorema 5.5. Se (w0 , w) , (w0 , w ) sono in S
allora w0 + (1 )w0 e w + (1 )w vericano, rispettivamente,

w0 + (1 )w0 f (x ) + (1 )f (x ) = f (x )

w + (1 )w 0

55
per ogni [0, 1] e quindi S `e convesso. Daltra parte, se (z0 , z) , (z0 , z )
sono in K allora esistono x, x IRN tali che

z0 f (x) , z g(x) , z0 f (x) , z g(x ) .

Dunque, usando la convessit`a di f ,

z0 + (1 )z0 f (x) + (1 )f (x ) f (x + (1 )x )

z + (1 )z g(x) (1 )g(x ) g(x + (1 x )) .


Queste due disuguaglianze dicono che

(z0 , z) + (1 )(z0 , z ) K (x + (1 )x ) K

il che prova la convessit`a di K.


Resta da vericare che intS K = . E facile controllare che

intS = {(w0 , w) IR IRM : w0 < f (x ), w < 0} .

Se esistesse (w0 , w) intS K allora esisterebbe x IRN tale che

f (x) w0 < f (x ) , g(x) w < 0

e ci`o `e assurdo perch`e si avrebbe

x C, f (x) < f (x ) ,

in contraddizione con lipotesi che x `e punto di minimo di f su C.




6 Ottimizzazione convessa
Consideriamo il problema di ottimizzazione vincolata

x C , f (x ) = min f (x) (6.1)


xC

dove

C = {x IRN : g(x) 0} e g = (g1 , ..., gM ) : IRM IR.

Supponendo che f C 1 (IRN ) sia convessa e che gi C 1 (IRN ), i = 1, ..., M


siano funzioni concave, per i risultati nella Sezione 5.3 vale la caratteriz-
zazione dierenziale delle soluzioni del problema (6.1):

56
x `e soluzione di (6.1) se solo se x verica le disequazioni variazionali

g(x ) 0 , Df (x ) (x x ) 0, x IRN : g(x) 0 (6.2)

In questa sezione descriviamo lapproccio di Karush-Kuhn-Tucker al pro-


blema di ottimizzazione vincolata. Il risultato principale sar`a una dierente
caratterizzazione dierenziale delle soluzioni di (6.1): dimostreremo infatti
(vedi Teorema 6.2) che nelle ipotesi fatte precedentemente, x `e soluzione
di (6.1) ( e quindi, alla luce di quanto sopra, anche della disequazione va-
riazionale (6.2)) se e solo se esiste y IRM tale che (x , y ) IRN IRM
verica

Df (x ) J t g(x )y = 0 , y 0 , g(x ) 0 , y g(x ) = 0 (6.3)

dove J t g `e la trasposta della matrice Jacobiana di g.


La caratterizzazione (6.2) consiste in un sistema di innite disequazioni
nelle N incognite (x1 , ..., xN ) mentre le condizioni di Karush-Kuhn-Tucker
(6.3) formano un sistema di N + 1 equazioni e 2M disequazioni nelle N + M
incognite (x , y ).
Pi`
u avanti vedremo che il sistema (6.3) si pu`o scrivere in maniera equivalente
come
Df (x ) J t g(x )y = 0 y = PIRM
+
(y g(x )) (6.4)
un sistema di N + M equazioni nonlineari in N + M incognite. Nella sezione
6.4 descriveremo un algoritmo iterativo per la soluzione del sistema (6.4).

6.1 Punti di minimo vincolato e punti di sella di La-


grangiane
Consideriamo il problema di ottimizzazione vincolata

x C, f (x ) = min f (x) (6.5)


xC

con
C := {x IRN : g(x) 0}
dove g = (g1 , ..., gM ) : IRN IR . Con i dati del problema deniamo la
funzione L : IRN IRM + IR ponendo

L(x, y) = f (x) y g(x) . (6.6)

La funzione L `e la Lagrangiana associata al problema (6.5).

57
Definizione 6.1 Ogni punto (x , y ) IRN IRM
+ verificante

L(x , y) L(x , y ) L(x, y ) (x, y) RN IRM


+

o, equivalentemente,

L(x , y ) = min L(x, y ) = max L(x , y) (6.7)


xIRN yIRM
+

`e un punto di sella per L su IRN IRM


+.

In generale si ha sempre

max min L(x, y) min max L(x, y) (6.8)


yIRM
+ xIR
N
xIRN yIRM
+

Infatti si ha

min L(x, y) max L(x, y) x IRN , y IRM


+
xIRN yIRM
+

e, di conseguenza,

max min L(x, y) max L(x, y), x IRN .


yIRM
+ xIRN yIRM
+

Dato che questa relazione vale per ogni x IRN si ottiene la (6.8).

Proposizione 6.1 Se (x , y ) IRN IRM


+ `
e punto di sella allora si ha

L(x , y ) = min max L(x, y) = max min L(x, y)


xRN yIRM
+ yIRM
+
xRN

Dimostrazione. Sia (x , y ) IRN IRM


+ un punto di sella. Si ha

L(x , y ) = min L(x, y ) max min L(x, y)


xIRN yIRM+ xIRN
min max L(x, y) max L(x , y) = L(x , y )
xIRN yIRM
+ yIRM
+

che, insieme a (6.8), implica (6.1).

Definizione 6.2 y IRM+ ` e detto vettore di Kuhn-Tucker per il problema


(6.5) se
inf f (x) = inf L(x, y ) > .
xC xIRN

58
Limportanza del vettore di Kuhn-Tucker y `e che, se noto e se il problema
di minimo ha soluzione, il problema (6.5) si riconduce alla risoluzione di un
problema di minimo in IRN .
Il risultato principale di questa sezione aerma che le soluzioni ottimali e i
vettori di Kuhn-Tucker del problema (6.5) si possono caratterizzare mediante
i punti di sella della Lagrangiana, senza assumere che f, g C 1 . Sussiste
infatti il seguente

Teorema 6.1 Siano gi : IRN IR , i = 1, ..., M funzioni (continue) con-


cave, f : IRN IR una funzione convessa (continua). Supponiamo che

x : g(x) > 0 . (6.9)

Se x `e una soluzione di (6.5), allora esiste y IRM


+ tale che (x , y ) `
e

punto di sella per la Lagrangiana (6.6). Inoltre y `e vettore di Kuhn-Tucker
per il problema (6.5) e f (x ) = L(x , y ).
Viceversa, se (x , y ) IRN IRM
+ `e un punto di sella per la Lagrangiana
(6.6) allora x `e una soluzione di (6.5) e y `e vettore di Kuhn-Tucker.
Dimostrazione. Supponiamo che x sia una soluzione di (6.5) e consideria-
mo, per ogni ssato x IRN , l insieme

K(x) = {(z0 , z) IR IRM : z0 f (x) , z g(x)} .

Consideriamo poi [
K= K(x)
N
xIR
e
S = {(w0 , w) IR IRM : w0 f (x ) , w 0} .
Come conseguenza del Teorema di Separazione esiste s = (s0 , s) IR IRM
tale che

s 6= 0 , s (w0 , w) s (z0 , z) (w0 , w) S , (z0 , z) K (6.10)

(vedi Corollario 5.2). Osserviamo che s 0: infatti, se fosse s0 < 0,


scegliendo w = 0 e (z0 , z) = (f (0), g(0)) in (6.10) si otterrebbe

s0 w0 s0 f (0) s g(0) < + , w0 f (x ) .

Facendo tendere w0 a ne seguirebbe

+ s0 f (0) s g(0) < +

59
Quindi si ha s0 0. Analogamente, se per un i {1, ..., M} fosse si <
0, scegliendo (w0 , w) = (f (x ), tei ) e (z0 , z) = (f (0), g(0)) da (6.10)
seguirebbe
tsi s0 f (0) s g(0) s0 f (x )
e quindi, facendo tendere t a + una contraddizione. Dunque s = (s1 , . . . , sM )
0. Eettuando nella disuguaglianza (6.10) le scelte estremali

(z0 , z) = (f (x), g(x))

con x arbitrario in IRN e (w0 , w) = (f (x ), 0) si trova

s0 f (x) s g(x) s0 f (x ) x IRN . (6.11)

Da questa segue che s0 > 0. Infatti, se fosse s0 = 0, si avrebbe in particolare


s g(x) 0 x C. Daltra parte, g(x) 0 x C e si conclude
dunque, essendo s 0, che

s g(x) = 0 x C .

In particolare,
s g(x) = 0
per ogni x vericante la condizione (6.9). Dato che s 0 ci`o implica che
anche s = 0 in contraddizione con il fatto che s 6= 0.
Deniamo ora
1
y = s
s0
e verichiamo che (x , y ) `e punto di sella per la Lagrangiana (6.6) su IRN
IRM
+ . Tenendo conto del fatto che s0 > 0, dalla disuguaglianza (6.11) si
deduce che
f (x) y g(x) f (x ) x IRN .
In particolare, per x = x si trova

y g(x ) 0 ;

daltra parte vale anche la disuguaglianza opposta dato che x C e quindi

y g(x ) = 0 .

Osserviamo poi che ovviamente

y g(x ) 0 y IRM
+ .

60
Mettendo insieme tutte le informazioni dedotte da (6.10) si conclude che

f (x ) y g(x ) f (x ) y g(x ) f (x) y g(x)

per ogni x IRN e per ogni y IRM + . Ci`o prova che (x , y ) `e punto di sella
N M
per la Lagrangiana (6.6) su IR IR+ . E facile vericare se (x , y ) `e punto
di sella e x soluzione di (6.5) allora y `e vettore di Kuhn-Tucker dato che
sia ha

x C : min f (x) = f (x ) = L(x , y ) L(x, y ), x IRN


xC

da cui segue che

f (x ) = min f (x) = L(x , y ) = min L(x, y ).


xC xIRN

La dimostrazione dellasserzione inversa `e molto elementare. Sia dunque


(x , y ) un punto di sella per la Lagrangiana (6.6) su IRN IRM

+ , ovvero

f (x ) y g(x ) f (x ) y g(x ) f (x) y g(x) (6.12)

per ogni x IRN e per ogni y IRM


+ . La disuguaglianza di sinistra implica
immediatamente che

(y y ) g(x ) 0 y IRM
+

Scegliendo y = y + ei con i = 1, ..., M ne segue


g(x ) 0 (6.13)

ovvero x C Scegliendo poi y = 0 in (6.12) si ottiene, tenendo conto del


fatto che y 0, che y g(x ) 0 e quindi

y g(x ) = 0 (6.14)

La disuguaglianza di destra nella denizione di punto di sella porta, tenuto


conto di (6.14), a

f (x ) f (x) y g(x), x IRN f (x ) = min L(x, y )


xIRN

cio`e y `e vettore di Kuhn-Tucker. Ovviamente y g(x) 0 per ogni x C


e quindi si ottiene anche

f (x ) f (x) y g(x) f (x), x C

cio`e x `e soluzione del problema di minimo (6.5).




61
Osservazione 6.1 La condizione (6.9) `e detta condizione di qualificazione
dei vincoli di Slater. Come si vede dalla dimostrazione, l asserzione (x , y )
punto di sella per la Lagrangiana implica x soluzione del problema di minimo
resta valida anche senza le ipotesi di convessit`a di f , di concavit`a delle gi e
di qualicazione dei vincoli (6.9).
La condizione (6.9) `e stata utilizzata nella dimostrazione del Teorema 6.1
per vericare il punto cruciale che il moltiplicatore s0 fornito dal Teorema di
Separazione fosse non nullo. La condizione (6.9) `e essenziale per la validit`a
della prima asserzione del Teorema 6.1 come mostrato dal seguente esempio
unidimensionale. Per il (banale) problema di minimizzare f (x) = x con
il vincolo x2 0 `e ovvio che x = 0 `e un punto di minimo e tuttavia la
Lagrangiana L(x, y) = x + yx2 non ha punti di sella. Infatti, se esistesse
y 0 tale che (0, y ) `e punto di sella per L allora si avrebbe

x(xy 1) 0 , x IR.

Se y = 0 si trova x 0 x IR; se y > 0 assumendo x = 1/(2y ) si trova


la contraddizione 1/(4y ) 0.

Osservazione 6.2 Supponiamo che (6.5) abbia soluzione x . Indichiamo


con M linsieme dei vettori y IRM
e punto di sella per L.
+ tali che (x , y ) `
y M `e detto vettore moltiplicatore. La condizione di Slater assicura che
M= 6 . Se K `e linsieme dei vettori di Kuhn-Tucker associati al problema
(6.5), per il Teorema (6.1), M = K = 6 .

Osservazione 6.3 La condizione di qualicazione dei vincoli pu`o essere sos-


tituita da altre condizioni, ma non pu`o essere ignorata. Nel caso in cui i
vincoli siano lineari il Teorema 6.1 continua a valere se linsieme C = {x
IRN : A x b} = 6 .

6.2 Il sistema di Karush-Kuhn-Tucker


Segue dal Teorema 6.1 che risolvere il problema di minimo (6.5) - nellipote-
si di vincoli qualicati - equivale a cercare i punti di sella della funzione
Lagrangiana. Come troviamo i punti di sella?
Il prossimo risultato riguarda il caso in cui i dati del problema siano di
classe C 1 .

Teorema 6.2 Siano gi : IRN IR, i = 1, ..., M funzioni concave e f :


IRN IR funzione convessa. Supponiamo, inoltre, che f, gi C 1 (IRN ), i =

62
1, ..., M. Allora (x , y ) `e punto di sella per la Lagrangiana (6.6) su IRN IRM
+
se e solo se

Dx L(x , y ) = 0, Dy L(x , y ) 0 (6.15)


y 0, y Dy L(x , y ) = 0 (6.16)

o - equivalentemente -

Df (x ) J t g(x )y = 0 (6.17)
y 0 , g(x ) 0 , y g(x ) = 0 . (6.18)

Dimostrazione. Sia (x , y ) un punto di sella per la Lagrangiana su IRN


IRM
+ . Allora x minimizza su IR
N
la funzione x L(x , y ) mentre y mini-
mizza su IRM
+ la funzione y L(x , y). Per la caratterizzazione variazionale
dei punti di minimo, vedi Teorema 5.3, si ha dunque

Dx L(x , y ) = Df (x ) J t g(x )y = 0

cio`e l uguaglianza in (6.15) ed anche

Dy (L)(x , y ) (y y ) 0 y IRM
+ .

Assumendo y = 0 e poi y = 2y si trova luguaglianza in (6.16). Se, invece,


y = y + ei si deduce anche la disuguaglianza in (6.15).
Le condizioni (6.17), (6.18) sono anche sucienti a garantire che (x , y )
sia un punto di sella. Ci`o `e ancora conseguenza del Teorema 5.3, osservando
che L(, y ) `e convessa in IRN e L(x , ) `e convessa in IRM
+.


Il risultato appena visto `e nello spirito del classico metodo dei moltipli-
catori di Lagrange per problemi di minimizzazione con vincoli bilaterali del
tipo
x f (x ) = min f (x)
x

dove = {x IR : g(x) = 0} con g C 1 (IRN ) `e una funzione tale che


N

Dg(x) 6= 0 , x (vedi Teorema 4.1).

Osservazione 6.4 Notare che se x `e interno allinsieme ammissibile e cio`e


se g(x ) > 0, allora (6.18) implica y = 0 e dunque da (6.17) segue Df (x ) =
0. Si ritrova quindi il Teorema di Fermat.
Notiamo anche che la condizione (6.18) `e equivalente a

y 0 , (y (y g(x )) (y y ) 0 y 0

63
e che questa equivale al fatto che y `e la proiezione su IRM
+ di y g(x ), vedi
(5.19) . Quindi le condizioni (6.17), (6.18) si possono esprimere anche come
Df (x ) J t g(x )y = 0 (6.19)
y = PIRM
+
(y g(x )) (6.20)
Osservazione 6.5 Nel caso in cui linsieme dei vincoli del problema di ot-
timizzazione sia del tipo
C := {x IRN : x 0 , h(x) 0}
il sistema delle condizioni di Karush-Kuhn-Tucker prende la forma pi`
u sim-
metrica
x 0 , y 0 , Dx L(x , y ) 0 , Dy L(x , y ) 0 , (6.21)
x Dx L(x , y ) = 0 , y Dy L(x , y ) = 0 . (6.22)
Posto = (x , y ) IRN M
+ IR+ , DL( ) = (Dx L(x , y ), Dy L(x , y )) e
considerata la matrice simplettica
 
I 0
S=
0 I
i cui blocchi sono le matrici identit`a e nulla delle opportune dimensioni, le
condizioni (6.21), (6.22) si scrivono come il seguente sistema di complemen-
tarit`a simplettico
0 , SDL( ) 0 , SDL( ) = 0 .

I risultati ottenuti nei Teoremi 5.3, 6.1 6.2 si possono riassumere nel
seguente schema:

x C : y IRM+ :

(x , y ) `e punto di sella per
f (x ) = min f (x) (Teorema 6.1)
xC L(x, y) = f (x) y g(x)
~ ~
w w
 (Teorema 5.3)  (Teorema 6.2)

(x , y ) IRN IRM+
x C : `e soluzione di
Df (x ) (x x ) 0, Df (x ) J t g(x )y = 0,
x C y g(x ) = 0
y 0, g(x) 0

64
Esempio 6.1 Come applicazione delle condizioni di Karush-Kuhn-Tucker, calco-
liamo la distanza di un generico punto x = (x1 , x2 , . . . , xN ) di IRN dalla palla
unitaria B(0, 1) = {x IRN : |x|2 1}. Poniamo g(x) = 1 |x|2 e f (x) = |x x|2
e dunque la Lagrangiana L(x, y) = |x x|2 y(1 |x|2 ) , y [0, +).
Le condizioni di ottimalit`
a di Karush-Kuhn-Tucker per il problema sono
(
x x = y x , y (1 |x |2 ) = 0
(6.23)
y 0 , 1 |x |2 0

Per risolvere il sistema consideriamo dapprima il caso che |x| 1. In questo caso
la soluzione del sistema (6.23) `e x = x, y = 0 e quindi dB(0,1) = 0.
Nel caso in cui |x| > 1, dalle condizioni di complementarit` a in (6.23) segue che
devessere necessariamente y > 0 e quindi 1 |x |2 = 0. Ne segue che
(
(1 + y )x = x
|x |2 = 1

|x|
Si cerca quindi, dato che 1 + y > 0, un y = y (x) tale che 1 = (1+y )2 . Si trova
y = |x| 1 > 0, quindi
x x
x = =
1 + y |x|
e dunque dB(0,1) (x) = |x 1| .

Esempio 6.2 Siano

C = {P = (x1 , x2 ) IR2 : x1 + 2x2 3; x21 9},

P0 = (3, 3), f (P ) = |P P0 |2 .

1. Dimostrare che il problema di ottimizzazione

Pm C : f (Pm ) = min f (P ) (6.24)


C

ammette soluzione e che questa `e unica.

2. Rappresentare nel piano cartesiano (x1 , x2 ) linsieme ammissibile C e le curve


di livello della funzione obiettivo f e determinare graficamente il punto di
minimo globale (senza calcolare le coordinate di Pm ).

3. Scrivere le condizioni di Karush-Kuhn-Tucker relative al problema (6.24).

4. Individuare i punti che soddisfano le condizioni di Karush-Kuhn-Tucker e


determinare la soluzione del problema (6.24).

Soluzione.

65
1. Linsieme ammissibile C `e chiuso e illimitato; la funzione obiettivo f (x1 , x2 )
= (x1 3)2 + (x2 3)2 `e coercitiva in C (forma quadratica definita positiva).
Per il teorema di Weierstress il problema (6.24) ha soluzione. Lunicit`a segue
dalla stretta convessit`
a di f e dalla convessit`a di C.

2. Linsieme ammissibile `e la parte di piano compresa tra le rette x1 = 3


e x1 = 3 e al di sotto della retta x1 + 2x2 = 3. Le curve di livello sono
circonferenze concentriche di centro il punto P0 (vedi figura 2).

-2 2 4

-2

-4

3. Siano g1 (x1 , x2 ) = 3 x1 2x2 e g2 (x1 , x2 ) = 9 x21 . La Lagrangiana `e

L(x1 , x2 , y1 , y2 ) = (x1 3)2 + (x2 3)2 y1 (3 x1 2x2 ) y2 (9 x21 ).

66
Le condizioni di Karush - Kuhn-Tucker sono

Lx1 (x1 , x2 , y1 , y2 ) = 2(x1 3) + y1 + 2y2 x1 = 0 (6.25)


Lx2 (x1 , x2 , y1 , y2 ) = 2(x2 3) + 2y1 =0 (6.26)
g1 (x1 , x2 ) = 3 x1 2x2 0 (6.27)
g2 (x1 , x2 ) = 9 x21 0 (6.28)
y1 (3 x1 2x2 ) =0 (6.29)
y2 (9 x21 ) =0 (6.30)
y1 0 (6.31)
y2 0 (6.32)

4. Per risolvere il sistema consideriamo quattro casi.


Caso 1: Se g1 (x1 , x2 ) = g2 (x1 , x2 ) = 0 si trovano i due punti P1 = (3, 3)
e P2 = (3, 0). Sostituendo P1 nella (6.26) si trova y1 = 0 e dalla (6.26)
y2 = 2 < 0. Inaccettabile per la (6.31).
Sostituendo P2 nella (6.25) si trova y1 = 6 e dalla (6.26) 3 = x2 = 0. In
questo caso il sistema non ammette soluzione.
Caso 2: Se g1 (x1 , x2 ) = 0 e g2 (x1 , x2 ) > 0 dalla (6.30) segue che y2 = 0 e le
condizioni diventano

Lx1 (x1 , x2 , y1 , y2 ) = 2(x1 3) + y1 =0


Lx2 (x1 , x2 , y1 , y2 ) = 2(x2 3) + 2y1 = 0
g1 (x1 , x2 ) = 3 x1 2x2 =0
g2 (x1 , x2 ) = 9 x21 >0
y1 0

Segue

3 2x1 + x2 = 0, 3 x1 2x2 = 0

da cui x1 = 9/5 e x2 = 3/5. I corrispondenti moltiplicatori sono y1 = 12/5


e y2 = 0.
Caso 3: Se g1 (x1 , x2 ) > 0 e g2 (x1 , x2 ) = 0 dalla (6.29) segue che y1 = 0 e le
condizioni diventano

Lx1 (x1 , x2 , y1 , y2 ) = 2(x1 3) + 2y2 x1 = 0


Lx2 (x1 , x2 , y1 , y2 ) = 2(x2 3) =0
g1 (x1 , x2 ) = 3 x1 2x2 >0
g2 (x1 , x2 ) = 9 x21 =0
y2 0

67
Si trova P3 = (3, 3) ma g1 (P3 ) < 0. Oppure P4 = (3, 3) ma y2 = 2 < 0.
Anche in questo caso il sistema non ha soluzione.
Caso 4: Infine siano y1 = y2 = 0. Il sistema diventa

Lx1 (x1 , x2 , y1 , y2 ) = 2(x1 3) =0


Lx2 (x1 , x2 , y1 , y2 ) = 2(x2 3) =0
g1 (x1 , x2 ) = 3 x1 2x2 0
g2 (x1 , x2 ) = 9 x22 0

che non ha soluzione.


Lunica soluzione del sistema `e data da (x1 , x2 , y1 , y2 ) = (9/5, 3/5, 12/5, 0).
La condizione di qualificazione dei vincoli `e verificata (per esempio (0, 0)
int C), f `e convessa, g1 , g2 sono concave. Le condizioni di Karush-Kuhn--
Tucker sono condizioni necessarie e sufficienti di ottimo globale. Lunico
punto che verifica il sistema `e il punto Pm = (9/5, 3/5) e f (Pm ) = 36/5.

6.2.1 Esempio fondamentale


Consideriamo il seguente problema di ottimizzazione

max p(x), C = {x IRN : xi mi , i I ; xi Mi , i I + } (6.33)


xC

dove I e I + sono sottoinsiemi di 1, . . . , N e p C 1 (IRN ), concava.

Proposizione 6.2 x C `e soluzione di (6.33) se e solo se


0 se i I e xi = mi
p
(x) = 0 se i I + e xi = Mi
xi
=0 negli altri casi

Dimostrazione. Trasformiamo il problema (6.33) in un problema della


forma (6.1) ponendo f = p e g + = {xi + Mi }iI + e g = {xi mi }iI .
Per le condizioni KKT (6.17) e (6.18) x `e ottimale se e solo se esistono
+
y + IR|I | e y IR|I | tali che (x, y + , y ) `e soluzione del sistema
+

yi yi se i I + I

p yi+ se i I + \ I
(x) =
xi
yi se i I \ I +

0 se i / I+ I

68
g (x) 0; g + (x) 0, (x ammissibile) (6.34)
y + 0, y 0; y g (x) + y + g + (x) = 0. (6.35)
Possiamo riscrivere le condizioni (6.34) nella forma
mi xi , i I ; xi Mi , i I +
yi 0 e yi = 0 se xi > mi i I
yi+ 0 e yi+ = 0 se xi < Mi i I + .
I moltiplicatori scompaiono. Infatti se i I + \ I allora
p
(x) = yi+
xi
e, dalle condizioni su yi+ , otteniamo
p p
(x) 0 e (x) = 0 se xi < Mi .
xi xi
Analogamente se i I \ I + . Se i I + I allora, se mi < xi < Mi si ha
yi+ = yi = 0; se invece xi = mi < Mi ( xi = Mi > mi ) si ha yi+ = 0 (yi = 0).

Esercizio 6.1 Sia Q una matrice quadrata simmetrica e definita positiva. Usare
le condizioni di Karush-Kuhn-Tucker per verificare che lunico punto di minimo di
Q1 b
f (x) = 21 Qx x sullinsieme C = {x IRN : b x = 1} `e x = bQ 1 b .

Esercizio 6.2 Sia C = {y IR2 : 1 y12 y22 0} la sfera unitaria chiusa di


IR2 . Usare le condizioni di Karush-Kuhn-Tucker per trovare la proiezione di un
generico vettore x su C.

Esercizio 6.3 Siano f (x) = x1 + x2 e g(x) = 2 x21 x22 .


- Verificare che f `e convessa, g concava e i vincoli sono qualificati;
- Usare le condizioni di Karush-Kuhn-Tucker per determinare la soluzione del
problema (6.5).

Esercizio 6.4 Siano f (x) = (x1 2)2 + (x2 1)2 e C = {x IR2 : x21 x2
0; x1 + x2 2}.
- Disegnare C;
- Verificare le ipotesi del Teorema 6.1;
- Scrivere le condizioni di Karush-Kuhn-Tucker per il problema (6.5).

Esercizio 6.5 Siano f (x) = x1 + x2 e g(x) = 2 x21 x22 x23 .


- Verificare che f `e convessa, g concava e i vincoli sono qualificati;
- Usare le condizioni di Karush-Kuhn-Tucker per determinare la soluzione del
problema (6.5).

69
Esercizio 6.6 Siano f (x) = x2 + x3 , g1 (x) = 1 (x1 + x2 + x3 ), g2 (x) = 1 (x21 +
x22 + x23 ).
- Verificare le ipotesi del Teorema 6.1;
- Scrivere le condizioni di Karush-Kuhn-Tucker per il problema (6.5).

Esercizio 6.7 Siano

f (x) = x1 + x2 e C = {x IR2 : x1 x2 , x21 + x22 4}.

- Verificare che (6.5) `e un problema di ottimizzazione convessa e i vincoli sono


qualificati;
- scrivere le condizioni di Karush-Kuhn-Tucker relative a (6.5);
- determinare i punti che soddisfano le condizioni di Karush-Kuhn-Tucker;
- determinare, se esiste, la soluzione di (6.5) e il valore ottimo della funzione
obiettivo.

Esercizio 6.8 Siano

f (x) = x21 + x22 /2 e C = {x IR2 : x2 x1 1, x1 + x2 /2 1}.

- Dire se (6.5) `e un problema di ottimizzazione convessa;


- dire se il problema (6.5) ammette soluzione e se questa e unica;
- scrivere le condizioni di Karush-Kuhn-Tucker relative a (6.5);
- determinare la soluzione di (6.5) e il valore ottimo della funzione obiettivo.

Esercizio 6.9 Siano

f (x) = (x1 3)2 + (x2 2)2 + (x3 1)2


C = {x IR2 : x21 + x22 + x23 5, x1 + x2 x3 5}.

- Dire se (6.5) `e un problema di ottimizzazione convessa;


- dire se il problema (6.5) ammette soluzione e se questa e unica;
- scrivere le condizioni di Karush-Kuhn-Tucker relative a (6.5);
- determinare la soluzione di (6.5).

6.3 Applicazione: gestione di portafoglio


Consideriamo un investitore che desidera investire una somma di denaro W0
in N titoli di rendimenti aleatori R1 , ..., RN e in un attivit`a non rischiosa di
rendimento R0 .

Definizione 6.3 Un portafoglio `e un vettore x = (x1 , ..., xN ) IRN dove le


componentiPN xi indicano la frazione totale del portafoglio investita nellattivit`a
i, e 1 i=1 xi la porzione del valore totale del portafoglio investita nellat-
tivit`a senza rischio.

70
Per esempio, un portafoglio equipartito `e un portafoglio che suddivide in
parti uguali il capitale investito cio`e
1
xi = , i = 1, ..., N.
N +1
La ricchezza investita nel portafoglio x a ne periodo `e uguale a
N
X N
X
W = W0 ((1 xi )R0 + xi Ri ). (6.36)
i=1 i=1
La speranza di rendimento o valore atteso del portafoglio x `e dato da
N
X N
X
E[W ] = W0 ((1 xi )R0 + xi E[Ri ])
i=1 i=1

dove E[Ri ] il valore atteso della variabile aleatoria Ri .


Le preferenze dellinvestitore sono rappresentate da una funzione u
C 1 (IR) detta funzione dutilit`a o funzione di Von Neumann-Morgenstern.
La funzione E[u(W )] `e lutilit`a attesa di W . Consideriamo un investi-
tore che non ami il rischio: se W `e il reddito aleatorio dellinvestitore, egli
preferisce ottenere con certezza il valor medio E[W ] piuttosto che la me-
dia della cifra certa u(W ). Allora la funzione di utilit`a u deve vericare la
condizione
u(E[W ]) E[u(W )]. (6.37)
In particolare se P (W = w) = e P (W = w ) = 1 , [0, 1], allora
u(w + (1 )w) u(w) + (1 )u(w )
e questa `e proprio la denizione di u concava. Viceversa tutte le funzioni
concave vericano (6.37) (disuguaglianza di Jensen). Quindi la concavit`a
della funzione di utilit`a caratterizza lavversione al rischio dellinvestitore.
Supponiamo di porre dei vincoli sul portafoglio come, ad esempio, vietare
vendite allo scoperto ossia di vendere titoli che non si posseggono (xi 0).
In generale introduciamo i seguenti vincoli
mi xi per i I ; xi Mi per i I + (6.38)
dove I I + {1, ..., N}.

Definizione 6.4 Un portafoglio `e ottimale se `e soluzione del problema


N
X N
X
max E[u(W0 ((1 xi )R0 + xi Ri ))]
i=1 i=1
mi xi per i I ; xi Mi per i I+

71
La caratterizzazione di un portafoglio ottimale si ottiene applicando la
Proposizione 6.2, assumendo come funzione obiettivo
N
X N
X
p(x) = E[u(W0 ((1 xi )R0 + xi Ri ))].
i=1 i=1

Dalla concavit`a di u segue la concavit`a di p. Dato che


p
= W0 E[u (W ) (Ri R0 )]
xi
si deduce la seguente

Proposizione 6.3 Supponiamo che un portafoglio x verifichi i vincoli (6.38).


x `e ottimale se e solo se la ricchezza finale W in (6.36) verifica le condizioni:


0 se i I e xi = mi

E[u (W ) (Ri R0 )] 0 se i I + e xi = Mi

=0 altrimenti

Corollario 6.1 Se non esiste alcuna condizione sulla composizione del por-
tafoglio x, questo `e ottimale se e solo se

E[u (W ) (Ri R0 )] = 0, i = 1, ..., N. (6.39)

Condizioni di ottimalit` a approssimate. Ricordiamo che la cova-


rianza di due variabili aleatorie X e Y di quadrato integrabili `e data da

cov(X, Y ) = E[XY ] E[X] E[Y ].

Riscriviamo le condizioni (6.39)

cov(u(W ), Ri R0 ) + E[u (W )]E[Ri R0 ] = 0, i = 1, ..., N.

Utilizzando la notazione i = E[Ri R0 ], ed il fatto che cov(u (W ), i ) =


cov(u(W ), Ri ) (R0 `e costante) riscriviamo le condizioni (6.39) come segue
cov(u (W ), Ri )
i = , i = 1, ..., N. (6.40)
E[u (W )]

Supponiamo che il rischio del portafoglio sia piccolo e u C 2 . Utilizziamo


le approssimazioni del primo ordine di u intorno alla speranza di utilit`a
W = E[W ]:
u[W ] u (W ) + (W W )u(W
).

72
Si deduce che
)cov(W, Ri ), E[u (W )] u (W
cov(u (W ), Ri) u (W ).

Dunque i cov(W, Ri ), i = 1, ..., N dove


)
u (W
= )
u (W
`e lindice locale di avversione al rischio. Introduciamo la matrice di covari-
anza = {ij }, i, j = 1, ..., N con ij = cov(Ri , Rj ). Dato che
N
X N
X
cov(W, Rj ) = W0 ( xi cov(Ri , Rj )) = W0 ( xi ij )
i=1 i=1

le condizioni di ottimalit`a sono equivalenti a W0 x. Se `e invertibile,


si ottiene il portafoglio approssimato
1 1
x . (6.41)
W0
Funzioni dutilit` a quadratica Se la funzioni dutilit`a `e quadratica le
approssimazioni precedenti sono esatte. Sia u(W ) = W 2 W 2 . In tal caso
W)
= uu ((W
) = 1 W
e da (6.41) si trova

)
(1 W
x= 1 .
W0
Ora
N
X
= W0 (R0 +
W xi i ) = W0 (R0 + x)
i=1
), si trova
e, utilizzando la relazione W0 x = (1 W

W0 x = (1 W0 (R0 + x))

cio`e
W0 [ + t ]x = (1 W0 R0 ).
Se `e denita positiva, la matrice + t `e ancora denita positiva. Il
portafoglio ottimale `e allora dato da
1 W0 R0
x= ( + t )1 .
W0

73
6.4 Lalgoritmo di Uzawa
Descriviamo ora l algoritmo di Uzawa per il calcolo della soluzione del pro-
blema di minimo vincolato

x C, f (x ) = min f (x) (6.42)


xC

dove
C = {x IRN : g(x) 0}
e dove supponiamo vericate le ipotesi del Teorema 6.2. Lalgoritmo consiste
nel cercare per iterazione la soluzione del sistema di condizioni necessarie e
sucienti di Karush-Kuhn-Tucker nella forma (vedi osservazione 6.4)

Df (x ) J t g(x )y = 0

y = PIRM
+
(y g(x ))
La struttura dellalgoritmo `e la seguente :
Passo 1: si ssa un y 0 arbitrario in IRM+ e si risolve rispetto ad x il sistema

Df (x) J t g(x)y 0 = 0 .

Sia x0 la soluzione.
Passo 2: si denisce 
y 1 = PIRM
+
y 0 g(x0 )
dove `e un parametro positivo che sar`a scelto in seguito.
Iterando la procedura si deniscono due successioni {xk }, {y k }, k = 0, 1, ...
dove
Df (xk ) J t g(xk )y k = 0 (6.43)

y k+1 = PIRM
+
y k g(xk ) (6.44)

Si suppone, per semplicit`a , che linsieme C sia denito da vincoli lineari


e cio`e che
g(x) = Ax b (6.45)
con A matrice M N e b IRM . In questo caso le condizioni (6.19) e (6.20)
si riscrivono

Df (x ) = At y , y = PIRM
+
(y (Ax b)) .

Per la Proposizione 5.10 la seconda condizione scritta `e equivalente a

y 0 : (y (y (Ax b)) (y y ) 0, y 0

74
m
y 0 : (y (y (Ax b)) (y y ) 0, y 0, > 0
m
y = PIRM
+
(y (Ax b)) , > 0.
Vale il seguente risultato sulla convergenza dellalgoritmo di Uzawa.

Teorema 6.3 Si supponga (6.45), (6.9) e che f C 1 (IRN ) sia fortemente


convessa, cio`e che esista > 0 tale che

f (x + (1 )y) f (x) + (1 )f (y) (1 )|x y|2, [0, 1]

per ogni x, y IRN . Allora


i) per ogni k esiste un unica coppia xk , yk+1 verificante (6.43) e (6.44);
 
2
ii) se il parametro `e scelto nellintervallo 0, ||A|| 2 allora, qualunque sia
y 0 0, la successione xk converge per k + all unica soluzione x
del problema (6.42);

iii) se, inoltre, rkA = M allora, qualunque sia y 0, la successione y k converge


ad un y e la coppia (x , y ) `e punto di sella per la Lagrangiana del
problema (6.42).
Dimostrazione. Cominciamo con losservare che nelle ipotesi fatte il pro-
blema di minimo (6.42) ha una (e una sola) soluzione x . Infatti, essendo f
fortemente convessa si ha

f (x) f (0) + Df (0) x + |x|2 x IRN
2
(vedi Proposizione 5.5) e quindi

lim f (x) = + .
|x|+xC

Si pu`o applicare quindi il Teorema di Weierstrass. La soluzione `e unica


perch`e f `e in particolare strettamente convessa. Per i teoremi 6.1 e 6.2 esiste
y IRM
+ soluzione di (6.43) e (6.44).
Osserviamo poi che le successioni xk , y k sono ben denite; infatti il sistema

Df (xk ) At y k = 0

ha un unica soluzione xk per ogni ssato y k (vedi la Proposizione 5.8 ) e che


la convessit`a di IRM
+ garantisce lunicit`
a della proiezione in (6.44).

75
Passiamo ora a studiare la convergenza dellalgoritmo. Dalle equazioni si
deduce per sottrazione che

Df (xk ) Df (x ) = At (y k y ) (6.46)

y k+1 y = PIRM
+
y k
(Ax k
b) PIRM
+
(y (Ax b))
Allora, ricordando la (5.20) si deduce che

|y k+1 y | |y k A(xk b) y + A(x b)| = |y k y + A(x xk )|

Dunque,

|y k+1 y |2 |y k y |2 + 2(y k y ) A(x xk ) + 2 |A(x xk )|2 =

= |y k y |2 + 2At (y k y ) (x xk ) + 2 |A(x xk )|2


Usando (6.46) se ne deduce che

|y k+1 y |2 |y k y |2 + 2 Df (xk ) Df (x ) (x xk ) + 2 ||A||2|x xk |2

da cui, usando la propriet`a delle funzioni fortemente convesse nella Propo-


sizione 5.5, si ottiene

|y k+1 y |2 |y k y |2 2|x xk |2 + 2 ||A||2|x xk |2 .

Vale dunque la stima

|y k+1 y |2 |y k y |2 + (||A||2 2)|x xk |2 . (6.47)

Scegliendo come nellenunciato si ha (||A||2 2) < 0 e quindi

|y k+1 y |2 |y k y |2 .

La successione k := |y k y | `e dunque non crescente; essendo ovviamente


limitata inferiormente, converge allora ad un limite 0. Quindi,

lim |y k+1 y |2 |y k y |2 = 0
k+

Combinando con la stima (6.47) si ottiene pertanto


1 
lim |x xk |2 2
lim |y k+1 y |2 |y k y |2 = 0
k+ (2 ||A|| ) k+

Questo completa la dimostrazione della prima parte del teorema.

76
Per dimostrare la convergenza della successione {y k }, osserviamo che la
convergenza di k implica ovviamente la limitatezza di y k e quindi, per il
teorema di Bolzano - Weierstrass, lesistenza di una sua sottosuccessione y kj
convergente ad un limite y. Passando al limite per j + in (6.46) si
conclude, dato che Df `e continuo, che

At (
y y ) = 0

Lipotesi rkA = M equivale a kerAt = {0} e si conclude quindi che y = y e


che tutta la successione y k converge a y .


Esempio 6.3 Una classe di problemi ai quali si applica lalgoritmo di Uzawa sono
i problemi di Programmazione Quadratica:
1 1
x C Qx x b x + c = min Qx x b x + c
2 xC 2

con C = {x IRN : Ax d}. Se Q = QT `e definita positiva, C 6= sono verificate


le ipotesi dellalgoritmo di Uzawa e si ha = 1 (Q), dove 1 (Q) `e il minimo
autovalore di Q. La successione xk converge allunica soluzione del problema di
minimizzazione qualunque sia

1 (Q)
0<<2 .
||A||2

Si ha

xk = Q1 AT y k , y k+1 = PIRM (y k (Axk d)) = max(k (Axk d), 0)


+

Esercizio 6.10 Dato il problema di ottimizzazione

min 4x2 + 1, C = {x IR : 2x 1}
xC

i) verificare le ipotesi dellalgoritmo di Uzawa;

ii) calcolare alcune iterazioni dellalgoritmo di Uzawa con dato iniziale 1 = 1 e


= 1.

Esercizio 6.11 Calcolare alcune iterazioni dellalgoritmo di Uzawa con i seguenti


dati:  
2 1
M = 1, N = 2, Q = , A = (1, 1), y 0 = 1, (0, 1).
1 2

77
6.5 Il metodo di penalizzazione
Ogni problema di ottimizzazione vincolata

x C , f (x ) = min f (x) (6.48)


xC

pu`o essere visto in modo equivalente come il problema di ottimizzazione senza


vincoli
x IRN , f (x ) + C (x ) = min (f (x) + C (x))
xIRN

dove (
0 ,x C
C (x) =
+ , x
/C
Il metodo di penalizzazione `e una maniera di implementare in maniera pi` u
concreta questa osservazione. Il metodo consiste nellapprossimare il proble-
ma di minimizzazione vincolata (6.48) con una successione di problemi di
minimizzazione libera:

xk IRN , f (xk ) + k(xk ) = min (f (x) + k(x)) , k IN .


xIRN

La funzione ausiliaria di penalizzazione del vincolo viene scelta con le


seguenti propriet`a :

C(IRN ) (x) 0 , x C , (x) > 0 , x


/C (6.49)

Osserviamo che per ogni ssato x IRN si ha

lim k(x) = C (x) .


k+

Se C `e un convesso chiuso si pu`o prendere (x) = dC (x) = |x PC (x)|;


nel casoPche C = {x IRN : gi (x) P 0, i = 1 . . . , M} si pu`o scegliere
(x) = M i=1 (g i ) +
(x) oppure (x) = M + 2
i=1 ((gi ) ) (x).

Teorema 6.4 Sia C un convesso chiuso non vuoto di IRN e f : IRN IR


una funzione (continua) strettamente convessa tale che

lim f (x) = + (6.50)


|x|+,xC

e una funzione (continua) convessa verificante (6.49). Allora, per ogni


k IN, esiste un unico xk IRN tale che

f (xk ) + k(xk ) = min (f (x) + k(x)) (6.51)


xIRN

78
e la successione {xk } converge per k + allunica soluzione x del pro-
blema
x C , f (x ) = min f (x) . (6.52)
xC

Dimostrazione. Lesistenza e lunicit`a dei punti di minimo per il problema


iniziale (6.52) e per il problema penalizzato (6.51) segue dai risultati generali
delle sezioni 3 e 5.
Per quanto riguarda la convergenza della successione {xk }, osserviamo che
da (6.51) e dallipotesi (6.49) segue che

f (xk ) f (xk ) + k(xk ) f (x ) + k(x ) = f (x ) < + (6.53)

per ogni k. Questo implica che {xk } `e limitata; infatti se non lo fosse si
avrebbe una sottosuccessione xkn + e quindi per lipotesi di coercitivit`a
(6.50) si troverebbe una contraddizione con la (6.53).
Quindi esiste una sottosuccessione {xkj } convergente ad un limite x. Dalla
stima (6.53) segue anche che per ogni j

0 kj (xkj ) f (x ) f (xkj )

e quindi che denitivamente

0 kj (xkj ) f (x ) f (x) + 1 .

Dunque, esiste una costante C tale che


C
0 (xkj )
kj
denitivamente rispetto a j. Passando al limite per j + nellultima
disuguaglianza si conclude che (x) = 0 e ci`o signica, per lipotesi fatta su
, che x C.
La stima (6.53) dice in particolare che

f (xkj ) f (x )

e quindi, passando al limite per j +, si ottiene che

f (x) f (x ) .

Ricordando che x C se ne deduce che f (x) = f (x ) e quindi, per lunicit`a


del punto di minimo di (6.52), che x = x e che tutta la successione {xk }
converge a x .


79
Arontiamo adesso la questione di stimare lerrore del metodo di pena-
lizzazione |x xk | in funzione di k. Per semplicit`a consideriamo il problema
di ottimizzazione quadratica con ostacolo
1 1
x , Qx x b x = min Qx x b x (6.54)
2 x 2

dove e b sono dati in IRN e Q `e una matrice N N simmetrica e denita


positiva, i.e. esiste > 0 tale che Qx x |x|2 per ogni x IRN . Come
funzione di penalizzazione si prende
1
(x) = |(x )+ |2
2
dove y + `e la proiezione di y sul quadrante positivo IRN
+ denita da

yi se yi 0
yi+ =

0 se yi < 0

Osserviamo che, posto y = y + y si ha y 0 e y + y = 0. Osserviamo


anche (fare i relativi calcoli per esercizio) che

Qy + y = 0 per ogni y IRN (6.55)

e che
D(x) = (x )+ .
La teoria svolta garantisce, nelle ipotesi fatte, lesistenza e lunicit`a della
soluzione x del problema (6.54) e, per ogni k IN di quella xk del problema
penalizzato
 
N 1 1
xk IR , Qxk xk bxk +k(x ) = min Qxxbx+k(x) . (6.56)
2 xIRN 2

Le soluzioni x e xk sono caratterizzate, rispettivamente, dalla disequazione


variazionale

x , (Qx b) (y x ) 0 y (6.57)

e dallequazione

xk IRN , Qxk + k(xk )+ = b (6.58)

80
Teorema 6.5 Nelle ipotesi fatte si ha
 
1 ||Q||
|x xk | 1+ |b Q|
k+
Dimostrazione. Decomponiamo la dierenza x xk come

x xk = x (xk ) = x + (xk ) (xk )+ (6.59)

e cominciamo con lo stimare

rk = x + (xk )

A questo scopo, si moltiplica scalarmente lequazione (6.58) per rk e si sceglie


y = (xk )+ nella disequazione variazionale (6.57), ottenendo

Qxk rk + k(xk )+ rk b rk = 0

(Qx b) (xk ) x 0
Questa si pu`o riscrivere come

Qx rk + b rk 0

Per addizione dunque

Q(xk x ) rk + k(xk )+ rk 0

ovvero, ricordando la denizione di rk ,

Q(x xk ) rk k(xk )+ (x + (xk ) ) 0 (6.60)

Essendo x si ha

(xk )+ (xk ) = 0 , (xk )+ ( x ) 0

e quindi da (6.60) si deduce

0 Q(x xk ) rk = Q(rk (xk )+ rk

A questo punto si usa lipotesi che Q sia denita positiva e si ottiene che per
un > 0

|rk |2 Qrk rk Q(xk )+ rk ||Q|| |(xk )+ | |rk |

da cui
||Q||
|rk | |(xk )+ |

81
Ricordando la denizione di rk e la decomposizione (6.59) si ha pertanto
 
||Q||
|x xk | 1 + |(xk )+ | (6.61)

e per concludere la dimostrazione rimane da stimare |(xk )+ |. A questo


scopo si moltiplica scalarmente lequazione (6.58) per (xk )+ e si trova
ovviamente che

Qxk (xk )+ + k|(xk )+ |2 = b (xk )+

Dato che xk = (xk )+ (xk ) + si deduce da questa, usando la


propriet`a (6.55), che

Q(xk )+ (xk )+ + k|(xk )+ |2 = (b Q) (xk )+

e quindi

|(xk )+ |2 + k|(xk )+ |2 |b Q| |(xk )+ |

Questa disuguaglianza implica ovviamente

|b Q|
|(xk )+ |
+k

da cui, combinando con la stima (6.61), la tesi.




Esercizio 6.12 Scrivere il problema penalizzato (6.56) con i seguenti dati

f (x) = (x1 1)2 + 3(x2 + 2)2 , C = {x IR2 : x1 1, x2 1}.

- Determinare la soluzione xk di (6.58).


- Scrivere le condizioni di Karush-Kuhn-Tucker relative al problema di minimo
considerato e verificare che xk converge alla soluzione del problema di minimo.

Esercizio 6.13 Scrivere il problema penalizzato (6.56) con i seguenti dati

f (x) = (x1 1)2 + 2(x2 + 1)2 , C = {x IR2 : x1 1, x2 1}.

- Determinare la soluzione xk di (6.58).


- Scrivere le condizioni di Karush-Kuhn-Tucker relative al problema di minimo
considerato e verificare che xk converge alla soluzione del problema di minimo.

82
Esercizio 6.14 Scrivere il problema penalizzato (6.56) con i seguenti dati

f (x) = (x1 1)2 + 3(x2 2)2 , C = {x IR2 : x1 0, x2 0}.

- Determinare la soluzione xk di (6.58).


- Scrivere le condizioni di Karush-Kuhn-Tucker relative al problema di minimo
considerato e verificare che xk converge alla soluzione del problema di minimo.

Esercizio 6.15 Dimostrare che se C `e un convesso chiuso non vuoto qualsiasi


allora la funzione dC (x) = minyC |x y| verifica le ipotesi del Teorema 6.4.

Esercizio 6.16 Sia C = {x IRN : g(x) 0} dove g = (g1 , . . . , gM ) sono funzioni


continue e concave. Controllare se le seguenti funzioni verificano le ipotesi del
Teorema 6.4:
XM
(x) = max{gi (x) , 0}
i=1
M
X
(x) = (max{gi (x) , 0})2
i=1
PM
max{gi (x) , 0}
(x) = e i=1

Nel caso C = {x IRN : x 0 , Ax = b}, controllare che


N
X
(x) = max{xi , 0} + |Ax b|
i=1

verifica le ipotesi del Teorema 6.4.

6.6 Dualit`
a Lagrangiana
Se il problema (6.5) ha soluzione e vale la condizione di Slater allora il Teo-
rema 6.1 fornisce un metodo per calcolare il valore del minimo. Fissato
y IRM+ , deniamo
(y) = inf L(x, y) (6.62)
xRN

con la funzione L denita in (6.6). La funzione `e concava. Sia

= sup (y). (6.63)


yIRM
+

Allora, posto
= inf f (x), (6.64)
xC

83
dal Teorema 6.1 segue che = . Una possibile procedura per trovare x , un
punto nel quale il minimo `e assunto, `e quella di cercare tutte le soluzioni del-
lequazione f (x ) = e considerare solo quelle che soddisfano i vincoli. Que-
sto procedimento suggerisce che potrebbe essere utile considerare il seguente
problema, che chiamiamo problema duale di (6.5): determinare

y Y, (y ) = max (y); (6.65)


yY

Y = {y IRM
+ : (y) > }.

Osserviamo che nella formulazione del problema duale non si assume che
(6.5) abbia soluzione oppure valga la condizione di Slater. Linsieme Y `e
linsieme ammissibile del problema duale, e se Y 6= , allora il problema
duale `e detto consistente. Il problema originale (6.5) `e chiamato problema
primale. Il prossimo teorema indica il legame che esiste tra i due problemi,
primale e duale.

Teorema 6.6 (Teorema di Dualit`


a Lagrangiana)

(i) Se C 6= e Y 6= , allora per ogni x C e per ogni y Y :

(y) f (x). (6.66)

Inoltre e , definiti rispettivamente in (6.63) e (6.64), sono entrambi


finiti e si ha .

(ii) Sia Y 6= . Se (y) `e illimitato superiormente in Y , allora C = .

(iii) Sia C 6= . Se f (x) `e illimitato inferiormente in C, allora Y =

(iv) Se esistono y Y e x C tali che f (x ) = (y ) allora:

= (y ) = f (x ) = .

Quindi x `e soluzione di (6.5) e y `e soluzione di (6.65).


Dimostrazione. La chiave della dimostrazione `e osservare che, per y Y e
x C,
L(x, y) = f (x) y g(x) f (x). (6.67)
Nella (6.62) consideriamo lestremo inferiore per x IRN il quale `e minore o
uguale allestremo inferiore per ogni x C. Da queste osservazioni e dalla
(6.67) seguono la disuguaglianza (6.66) e . La (ii) segue da (6.66) dato
che, se C fosse non vuoto, allora (y) sarebbe limitata superiormente, il che

84
contraddice lipotesi. Anche (iii) segue da (6.66) ripetendo un ragionamento
simile. Laermazione (iv) segue dalla catena di disuguaglianze:

(y ) max (y) = = inf f (x) f (x ) = (y ).


yY xC


Quindi il problema duale fornisce informazioni sul problema primale e
viceversa. Infatti laermazione (i) mostra che un punto ammissibile per il
problema duale d`a una limitazione inferiore per il valore di una soluzione del
problema primale e, viceversa, un punto ammissibile per il problema primale
d`a una limitazione superiore al valore della soluzione del problema duale.
La (ii) fornisce un modo per controllare se C = , mentre nel caso (iii) il
problema duale non puo essere formulato.

Definizione 6.5 I problemi (6.5) e (6.65) manifestano una divario di


dualit`
a se < .
Il prossimo teorema fornisce una condizione suciente anch`e non si verichi
divario di dualit`a e lega il moltiplicatore y con le soluzioni del problema
duale.

Teorema 6.7 Supponiamo che valga la condizione di Slater e che il problema


primale abbia soluzione. Allora:
(i) Non c`e divario di dualit`a.

(ii) Se y `e un vettore moltiplicatore per il problema primale allora y `e


soluzione del problema duale.

(iii) Se y 0 `e soluzione del problema duale, allora y 0 `e un vettore moltiplica-


tore del problema primale.
Dimostrazione. Sia x soluzione del problema primale. Per il Teorema 6.1
esiste y tale che (x , y ) `e punto di sella per la Lagrangiana. Di conseguenza

L(x , y ) = f (x ) f (x) y g(x) = L(x, y ) x RN . (6.68)

Quindi, da (6.62) si ha che (y ) f (x ) mentre dal Teorema 6.6 (y )


f (x ). Di conseguenza (y ) = f (x ). La (i) e la (ii) adesso seguono dalla
(iv) del Teorema 6.6.
Sia y 0 soluzione del problema duale. Da (6.62) e dallassenza del divario
di dualit`a segue che

inf {f (x) y 0 g(x)} = (y 0 ) = f (x ).


IRN

85
Di conseguenza y 0 `e un vettore di Kuhn-Tucker e in base allosservazione
(6.2) `e anche un vettore moltiplicatore del problema primale.


Esempio 6.4 Consideriamo il problema di ottimizzazione convessa (verificare!)

min e(x1 +x2 ) , C = {x = (x1 , x2 ) IR2 : ex1 + ex2 20}.


xC

Quindi
L(x, y) = e(x1 +x2 ) y(20 ex1 ex2 ).
Per ogni y 0 definiamo
(y) = inf L(x, y).
xC

Il problema duale consiste nel massimizzare (y). E verificata la condizione di


Slater, inoltre il problema primale ha la soluzione x = (ln 10, ln 10), il corrispon-
dente valore del minimo `e 102 e il valore del moltiplicatore y = 103 (verificare!).
Andiamo a verificare che 102 `e il valore del massimo di (y) con y 0 = 103 . Per
prima cosa determiniamo . Per ogni y 0, la funzione L(, y) `e strettamente
convessa in x. Quindi condizione necessaria e sufficiente affinch`e L(, y) abbia un
unico punto di minimo in = (1 , 2 ) `e che DL(, y) = (0, 0). Si ottiene 1 = 2 =
e quindi
(y) = inf (, y) con (, y) = e2 + 2y(e 10). (6.69)
IR

Fissato y > 0, (, y) `e una funzione strettamente convessa di dato che (, y) >


0 (Proposizione 5.7). Condizione necessaria e sufficiente affinch`e (, y) abbia un
unico minimo nel punto 0 `e che
d 0 0 0
( , y) = 2e2 + 2ye = 0 e0 = y 1/3 .
d
Sostituendo questo nella (6.69) si ottiene

(y) = 3y 2/3 20y, y > 0.

Dato che (0) = 0 la formula precedente resta valida per ogni y 0. Un calcolo

elementare dimostra che `e massimizzata in un unico punto y 0 nel quale (y 0 ) = 0.
Si vede immediatamente che y 0 = 103 e il corrispondente valore di `e 102 .

Esempio 6.5 Consideriamo il problema di minimo

min x1 , C = {x IR2 : x2 0, x21 x2 0}.


xC

Lorigine `e lunico punto ammissibile e non `e verificata la condizione di Slater. La


soluzione del problema primale `e x = 0 e = 0. Il problema duale `e

max (y)
yY

86
dove

Y = {y IR2+ : (y) > } e (y) = inf (x1 + y1 x2 + y2 (x21 x2 )).


xIR2

Se scriviamo

x1 + y1 x2 + y2 (x21 x2 ) = x1 + y2 x21 + (y1 y2 )x2 ,

vediamo che se y1 6= y2 , allora (y) = . Per y1 = y2 e y2 6= 0 si ottiene

(y) = inf (x1 + y2 x21 ).


x1 IR

y2
La funzione x1 + y2 x21 raggiunge il minimo in x1 = 2 e
y2
(y) = . (6.70)
4
Per y = 0 si ha (0) = . Di conseguenza Y = {y = (y1 , y2 ) IR2 : y1 = y2 , y2 >
0}. Dato che y2 > 0, segue da (6.70) che supyY (y) = 0. Il problema duale non
ha soluzione, anche se non c`e un divario di dualit`
a. Quindi anche in assenza di
divario di dualit`
a pu`
o accadere che il problema primale abbia soluzione ma non il
problema duale.

Esempio 6.6 Consideriamo un esempio nel quale si presenta un divario di dualit`


a.
Consideriamo il problema primale
q
min ex2 , C = {x IR2 : x21 + x22 x1 0}.
xC

Il minimo `e raggiunto in ogni punto dellinsieme ammissibile e il valore di questo


minimo `e 1 (verificare!). Il problema duale consiste nel massimizzare in Y la
funzione q
(y) = inf {ex2 + y( x21 + x22 x1 )}.
xIR2

Sia q
L(x, y) = ex2 + y( x21 + x22 x1 ).

Allora L(x, y) 0 per ogni x IR2 . Dimostriamo che (y) = 0. Siano x1 > 0 e
x2 > 0. Allora

yx22 yx22
L(x, y) = ex2 + p = ex2 + q .
x21 + x22 + x1 x1 [ 1 + ( xx21 )2 + 1]

Se x1 = (x2 )3 , facendo tendere x2 otteniamo che L(x, y) 0 lungo questa


curva. Quindi (y) = 0 per ogni y 0 e maxy0 (y) = 0. Di conseguenza = 0,
e dato che = 1, otteniamo un divario di dualit`
a.

87
Il Teorema 6.7 aerma che se una soluzione del problema primale esiste,
allora la condizione di Slater `e una condizione suciente per lassenza del di-
vario di dualit`a e lesistenza di una soluzione del problema duale. Il prossimo
esempio mostra che la condizione di Slater non `e una condizione necessaria
per lassenza del divario di dualit`a e per lesistenza di una soluzione del
problema duale.

Esempio 6.7 Consideriamo il seguente problema di ottimizzazione convessa

min x1 , C = {x IR2 : (x1 + 1)2 + x22 1 0, x1 0}.


xC

Linsieme ammissibile contiene lorigine e non vale la condizione di Slater. La


soluzione del problema primale `e x = 0 e = 0. La funzione obiettivo del
problema duale `e data da:

(y) = inf (x1 + y1 [(x1 + 1)2 + x22 1] y2 x1 ), y 0.


xIR2

Se prendiamo y = y = (0, 1) si ha (y ) = 0. Allora dalla (iv) del Teorema 6.6


segue che non c`e divario di dualit`
a e che y `e una soluzione del problema duale.

Diamo ora una condizione necessaria e sucienti per lassenza del divario
di dualit`a e per lesistenza di una soluzione del problema duale.

Teorema 6.8 Supponiamo che (6.5) abbia soluzione x . Condizione neces-


saria e sufficiente per lassenza del divario di dualit`a e affinch`e y 0 sia
soluzione del problema duale `e che (x , y ) sia un punto di sella per L.
Dimostrazione. Se (x , y ) `e un punto di sella per L allora la (6.68) del
Teorema 6.7 `e vericata. Il fatto che non ci sia divario di dualit`a e y `e
soluzione del problema duale segue dalle dimostrazioni della (i) e (ii) del
Teorema 6.7.
Viceversa sia y soluzione del problema duale e supponiamo che non ci sia
divario di dualit`a. Allora, come nella dimostrazione della (iii) del Teorema
6.7 con y 0 = y otteniamo che y `e un vettore moltiplicatore per il problema
primale e (x , y ) `e un punto di sella per L.

7 Programmazione Lineare
Un problema di Programmazione Lineare `e un problema di ottimizzazione
in cui la funzione obiettivo `e una funzione lineare soggetta a vincoli lineari
(vedi esempio 1.4). I vincoli possono essere uguaglianze e/o disuguaglianze.

88
Consideriamo il problema della dieta, famoso nella letteratura perch`e fu
il primo problema economico risolto con lausilio della teoria della program-
mazione lineare.
Un dietologo deve stilare una dieta cio`e deve determinare la quantit`a di
cibo che una persona deve consumare giornalmente in modo da garantire
un suciente apporto di sostanze nutritive (vitamine, proteine, minerali,
calorie...).
I dati di cui dispone il dietologo sono:

C1 , . . . , CN cibi dierenti che il paziente pu`o assumere;

V1 , . . . , VM sostanze nutritive che il paziente deve assumere giornal-


mente;

aij quantit`a di sostanza nutritiva Vi contenuta nellunit`a di cibo Cj ;

bi quantit`a minima di sostanza nutritiva Vi che la dieta deve garantire;

cj costo dellunit`a di cibo Cj .

Il problema che si pone il dietologo `e determinare il numero xi di unit`a


cibo Ci , i = 1, .., N, che ogni persona deve consumare giornalmente, in modo
che la dieta soddis le richieste nutrizionali cio`e sia
N
X
aij xj bi , i = 1, . . . , M. (7.1)
j=1

Naturalmente non si pu`o assumere una quantit`a negativa di cibo e quindi si


hanno gli ulteriori vincoli

xj 0, j = 1, . . . , N. (7.2)

Una dieta x = (x1 , . . . , xN ) `e detta ammissibile se verica le condizioni


(7.1)-(7.2). Il costo della dieta giornaliera `e dato da
N
X
cj xj . (7.3)
j=1

Il dietologo deve scegliere - tra tutte le diete ammissibili - la pi`


u economica
ovvero fra tutte le diete che soddisfano le condizioni (7.1),(7.2) deve trovare
quella che minimizzi il costo totale (7.3).

89
Dati il vettore b = (b1 , . . . , bM ), il vettore dei costi c = (c1 , . . . , cN ) e la
matrice nutrizionale A = (aij ) IRM N , il modello matematico del problema
della dieta `e il seguente problema di programmazione lineare


x : c x = min

x
cx
(7.4)

= {x IRN : A x b}
+

Una soluzione del problema (7.4) `e detta ottimale.

Esempio 7.1 Il problema del trasporto


Una industria produce, in I stabilimenti S1 , . . . , SI , dellacciaio che poi invia
a J fabbriche F1 , . . . , FJ . Supponiamo che

ogni stabilimento Si conserva nel suo magazzino una quantit`a si di acciaio


(i = 1, . . . , I)

per contratto lindustria deve rifornire la fabbrica Fj almeno di una quantit`a


fj di acciaio (j = 1, . . . , J).

Sia bij il costo del trasporto per unit` a di merce dallo stabilimento Si alla
fabbrica Fj . Il problema che ci si pone `e di soddisfare le richieste delle fabbriche
minimizzando il costo totale del trasporto.
Sia xij la quantit`a di merce trasportata dallo stabilimento Si alla fabbrica Fj .
Il costo totale del trasporto `e
XI X J
xij bij . (7.5)
i=1 j=1
PJ
La quantit`
a di merce inviata dallo stabilimento Si `e j=1 xij e, dato che la
merce disponibile nel magazzino `e si , deve essere
J
X J
X
xij si (xij ) si i = 1, . . . , I (7.6)
j=1 j=1

PI
La quantit` a di merce inviata alla fabbrica Fj `e i=1 xij e, dato che la quantit`a
richiesta `e almeno fj , si deve avere
I
X
xij fj , j = 1, . . . , J. (7.7)
i=1

Si assume che non si pu`


o mandare una quantit`a negativa di merce da Fi a Sj
ovvero
xij 0, i = 1, . . . , I, j = 1, . . . , J. (7.8)

90
Il problema del trasporto consiste nel minimizzare il costo totale (7.5) rispettando
i vincoli (7.6),(7.7),(7.8).
Il numero di variabili `e N = IJ; il numero di vincoli `e M = I + J pi`u i vincoli
di non negativit`a delle variabili. Si ottiene quindi un problema di programmazione
lineare nella forma (7.4).

Ad ogni problema di programmazione lineare `e associato un altro proble-


ma di programmazione lineare detto problema duale.
Riprendiamo in considerazione il problema della dieta e introduciamo un
nuovo personaggio: un farmacista che pu`o fornire al dietologo i nutrienti di
cui ha bisogno in forma concentrata ovvero in pillole e capsule.
Supponiamo che il farmacista venda una unit`a di nutriente Vi al prezzo
yi . Il dietologo, il cui obiettivo `e minimizzare i costi, sostituir`a i cibi con le
pillole se questo cambio gli consentir`a un risparmio ovvero se il costo totale
delle sostanze nutritive contenute nellunit`a di cibo Cj (ma assunte tramite
pillole) `e minore o uguale del costo unitario del cibo Cj cio`e
M
X
yi aij cj , j = 1, . . . , N; yi 0, i = 1, . . . , M.
i=1

Poich`e una dieta ammissibile richiede almeno bi unit`a di sostanza Vi , il


prezzo giornaliero di una dieta ammissibile `e
M
X
bi yi . (7.9)
i=1

Lobiettivo del farmacista `e determinare i prezzi delle pillole in modo da


massimizzare il prezzo di vendita totale dato da (7.9). I prezzi yi dei nutrienti
sono quelli che permettono al farmacista di realizzare il massimo ricavo e -
allo stesso tempo - permettono al dietologo di risparmiare. E questa lidea
dei prezzi competitivi .
Si ottiene pertanto un altro problema di programmazione lineare

y d : b y = max

yd
by
(7.10)


d = {y IRM t
+ : A y c}

Il problema di massimo (7.10) `e detto il problema duale del problema (7.4).


In realt`a il dietologo non risparmia denaro rivolgendosi al farmacista perch`e,
come vedremo nel Teorema di Dualit`a, le funzioni obiettivo del problema
primale e del problema duale assumono lo stesso valore in corrispondenza
delle soluzioni ottimali.

91
7.1 Teoremi di Dualit`
a
Esistono importanti legami tra le soluzioni del problema primale (7.4) e del
problema duale (7.10). Un primo semplice risultato `e il seguente.

a Debole) Se x e y d allora
Teorema 7.1 (Teorema di Dualit`

b y c x. (7.11)

Dimostrazione. Si ha

b y A x y = x At y x c .

La prima disuguaglianza segue dallessere y 0 e Ax b; la seconda segue


dallessere x 0 e At y c.

Torniamo al problema della dieta. Per il dietologo sar`a sempre pi` u con-
veniente comprare pillole e capsule poich`e il costo di ciascun cibo `e maggiore
o uguale al costo delle sostanze nutritive che contiene.

Corollario 7.1 (Criterio di ottimalit` a) Se x `e una soluzione ammissi-


bile per il problema (7.4) e y `e una soluzione ammissibile per il problema
(7.10) tali che cx = by allora queste soluzioni sono ottimali per i rispettivi
problemi.
Dimostrazione. Supponiamo che esista x tale che c x < c x = b y .
Ma questa disuguaglianza contraddice la (7.11).


Se x `e soluzione ottimale del problema (7.4) e y d `e soluzione ot-


timale del problema (7.10) per il Teorema di Dualit`a Debole vale la relazione
b y c x . In realt`a vedremo che i due valori coincidono.
Il problema (7.4) `e un problema di ottimizzazione convessa quindi pos-
siamo applicare i risultati della Sezione 6. Il Teorema 6.1 continua a valere
se lipotesi di qualicazione dei vincoli `e sostituita dallipotesi che i vincoli
siano tutti lineari e 6= .
Siano y IRM N
+ e s IR+ i moltiplicatori di Lagrange relativi ai vincoli
Ax b e x 0, rispettivamente. La funzione Lagrangiana del problema
(7.4) `e data da

L(x, y, s) = c x y (A x b) s x.

92
Dai Teoremi 6.1 e 6.2 segue che x `e soluzione del problema (7.4) se e
solo se esistono due vettori y e s tali che (x , y , s ) `e soluzione del sistema
di Karush-Kuhn-Tucker, che in questo caso assume la forma
At y + s =c (7.12)
Ax b (7.13)
x, y, s 0 (7.14)
y (A x b) + s x =0 (7.15)
Riformuliamo il problema duale (7.10) come un problema di minimo

y d : b y = y
min b y
d
(7.16)

M t
d = {y IR+ : A y c}

Indicando con x IRN M


+ e IR+ i moltiplicatori di Lagrange relativi ai
t
vincoli c A y 0 e y 0, la funzione Lagrangiana del problema (7.16) `e
LD (y, x, ) = b y x (c At y) y.
e le condizioni di Karush-Kuhn-Tucker (6.17), (6.18) relative al problema
(7.16) si scrivono
Ax =b (7.17)
At y c (7.18)
y, x, 0 (7.19)
x (c At y) + y =0 (7.20)
Se deniamo s = c At y e lo sostituiamo nelle (7.17)-(7.20), ritroviamo
le (7.12)-(7.15) cio`e scopriamo che le condizioni di Karush-Kuhn-Tucker del
problema primale e del problema duale coincidono!

Teorema 7.2 (Teorema di Dualit`


a in Programmazione Lineare)
i) Se x `e soluzione ottimale del problema (7.4) allora esiste y soluzione
ottimale del problema (7.10). Viceversa se y `e soluzione ottimale del
problema (7.10) allora esiste x soluzione ottimale del problema (7.4).
In entrambi i casi si ha y b = x c.
ii) Se inf c x = allora il problema (7.10) non ha soluzioni ammissi-
x
bili cio`e d = . Se sup b y = + allora il problema (7.4) non ha
yd
soluzioni ammissibili cio`e = .

93
Dimostrazione. i) Sia x soluzione del problema (7.4). Esistono y e s
tali che (x , y , s ) `e soluzione del sistema (7.12)-(7.15). Se deniamo =
A x b dalle (7.12)-(7.15) ricaviamo che (y , x , ) verica le condizioni
(7.17)-(7.20). Quindi il moltiplicatore y del problema primale `e soluzione
ottimale del problema duale (7.10).
Combinando le condizioni (7.12) e (7.15) si trova
c x = y A x + s x = b y
Con argomento analogo si prova che se il problema duale ha soluzione otti-
male anche il problema primale ha soluzione ottimale, data dal moltiplicatore
di Lagrange ottimo.
ii) Supponiamo che inf x c x = . Se y d per (7.11) si otterrebbe
lassurdo
< y b inf c x = .
x

Deve quindi essere d 6= . In maniera analoga si prova laermazione nel


caso in cui sup b y = +.
yd

Esercizio 7.1 Posto
= {x = (x1 , x2 ) IR2+ : x1 + x2 6, 3 x1 x2 9}
si consideri il problema
x : x1 + x2 = min(x1 + x2 ). (7.21)

Disegnare .
Scrivere il problema duale del problema (7.21).
Scrivere le condizioni di Karush-Kuhn-Tucker relative a (7.21).
Dimostrare che x = (15/4, 9/4) `e soluzione ottimale di (7.21) e y = (1, 0)
`e soluzione ottimale del problema duale.

Esercizio 7.2 Consideriamo il problema di minimo


min(2x1 + x2 + x3 ) (7.22)

con IR3+ definito dalle disuguaglianze




2x1 + x2 + x3 2

x1 x2 + x3 4

2x2 + x3 6

x1 + x2 + x3 2

94
Scrivere il problema duale del problema di programmazione lineare (7.22).

Dimostrare che x = (0, 2/3, 14, 3) `e soluzione ottimale di (7.22) e y =


(1/3, 0, 2/3, 0) `e soluzione ottimale del problema duale.

Esempio 7.2 (Il duale del problema del trasporto) Riprendiamo in esame
il problema del trasporto. Supponiamo che una ditta di trasporti offra al titolare
dellindustria di comprare tutto lacciaio dagli stabilimenti e rivenderlo poi alle
fabbriche, facendosi carico del trasporto. La ditta di trasporti offre di comprare
lacciaio dello stabilimento Si , pagandolo i per ununit`a di acciaio, i = 1, . . . , I.
Successivamente lo trasporta alla fabbriche Fj e lo vende al prezzo j per ogni
unit`a di acciaio, j = 1, . . . , J.
Siano

i il prezzo che la ditta di trasporti paga agli stabilimenti Si , per ununit`a


di acciaio, i = 1, . . . , I;

j il prezzo a cui la ditta di trasporti rivende lacciaio alla fabbrica Fj , per


unit` a di acciaio, j = 1, . . . , J.

La natura del problema impone che siano

i 0, i = 1, . . . , I, j 0, j = 1, . . . , J (7.23)

In base allofferta della ditta di trasporti, lindustria pagherebbe j i il trasporto


per unit`
a di acciaio dallo stabilimento Si alla fabbrica Fj . Affinch`e lofferta risulti
essere conveniente per lindustria dovr`a essere

j i bij , i = 1, . . . , I; j = 1, . . . , J (7.24)

Lobiettivo della ditta di trasporti `e di determinare i prezzi i e j in modo da


massimizzare il guadagno dato da
J
X I
X
j fj i s i (7.25)
j=1 i=1

Il problema duale del problema del trasporto consiste nel massimizzare la funzione
obiettivo (7.25) rispettando i vincoli (7.23), (7.24).

Esempio 7.3 Supponiamo di avere due stabilimenti S1 , S2 e tre fabbriche F1 , F2


ed F3 .
Le riserve di S1 ed S2 sono rispettivamente s1 = 4 e s2 = 7. Inoltre le rispettive
domande delle fabbriche F1 , F2 ed F3 sono f1 = 2, f2 = 3, f3 = 5 rispettivamente.
Si supponga inoltre di conoscere i costi dei percorsi riassumibili con la seguente
matrice dei costi

95
F1 F2 F3
S1 1 2 3
S2 2 4 6

Cio`e al posto ij si avr`a il costo del trasporto di ununit`a di acciaio da Si a Fj .


Adesso dimostriamo che una soluzione del suddetto problema `e data da
x11 = 0 x12 = 0 x13 = 4
x21 = 2 x22 = 3 x23 = 1
ed il costo minimo `e dato da
0 1 + 0 2 + 4 3 + 2 2 + 3 4 + 1 6 = 12 + 4 + 12 + 6 = 34
Per provare che questo `e un minimo, consideriamo i seguenti prezzi ammissibili
per il problema duale:
1 = 3 2 = 0
1 = 2 2 = 4 3 = 6
a, dobbiamo controllare che j i non superi il valore
Per verificare lammissibilit`
dellijesimo posto nella matrice dei costi. La seguente tabella facilita questa
verifica:

1 = 2 2 = 4 3 = 6
1 = 3 1 2 3
2 = 0 2 4 6

Ogni elemento della matrice dei costi non `e minore della differenza tra numeri
della prima riga e quelli della prima colonna della tabella.
Infine vediamo come la soluzione del problema duale sia ottimale calcolando
3
X 2
X
j fj i si = 2 2 + 4 3 + 5 6 3 4 0 7 = 34
j=1 i=1

e poich`e il risultato `e lo stesso del costo del trasporto calcolato precedentemente


per il corollario 7.1 si ha la tesi.
La soluzione pu` o anche essere scritta sotto forma di tabella con una matrice dei
trasporti  
0 0 4
2 3 1
dove la ijesima posizione `e la quantit`a trasportata da Si a Fj . Comparando la
matrice dei trasporti con la matrice dei costi si nota che nella soluzione il percorso
pi`
u economico, cio`e quello da S1 a F1 , non `e usato, mentre `e usato il pi`u costoso
quello da S2 a F3 . Questo fatto, che forse pu` o sorprendere, sottolinea come non
sia facile indovinare la soluzione di un problema di trasporto in anticipo.

96
7.2 Teorema di Equilibrio

Una semplice - ma di notevole importanza economica - conseguenza del


Teorema di Dualit`a `e il seguente

Teorema 7.3 (Teorema di Equilibrio) Supponiamo che x e y d .


x e y sono soluzioni ottimali se e solo se

xj = 0 se (At y)j < cj (7.26)


yi = 0 se (Ax)i > bi (7.27)

Dimostrazione. Supponiamo che valgano le condizioni (7.26) e (7.27). Dato


che x , moltiplicando per y la disuguaglianza Ax b e tenendo presente
la (7.27) si trova
Ax y = b y.
Analogamente, dato che y d e moltiplicando per x la disuguaglianza
At y b, dalla (7.26) si arriva a At y x = c x. Per il Corollario 7.1 x e y
sono soluzioni ottimali.
Viceversa assumiamo che x e y siano ottimali. Per Teorema di Dualit`a si
ha
b y = Ax y = x At y = c x.
Dalla prima equazione si ha

(b Ax) y = 0

ma dato che x si ha (b Ax)i 0 e quindi per ogni indice i

yi(b Ax)i = 0

da cui segue (7.27). Un argomento analogo prova la (7.26).



Interpretiamo questo risultato dal punto di vista economico e giustichi-
amo la parola equilibrio.
Riprendiamo in esame il problema del trasporto. Ricordiamo che un piano
di trasporti `e ammissibile se soddisfa la domanda delle fabbriche senza su-
perare le riserve degli stabilimenti; inoltre un insieme ammissibile di variabili
duali `e costituito dai prezzi i che la ditta di trasporti ore agli stabilimenti
e dai prezzi j a cui la ditta di trasporti rivende lacciaio alle fabbriche tali
che la dierenza j i non superi il costo di trasporto bij dagli stabilimenti
alle fabbriche.
Le condizioni di equilibrio diventano:

97
(7.26) Se j i < bij si ha xij = 0 cio`e non c`e merce trasportata dallo
stabilimento Si alla fabbrica Fj . Lindustria perder`a denaro se le costa pi` u
il trasporto dallo stabilimento Si alla fabbrica Fj piuttosto ci`o che realizza
dalla vendita alla fabbrica. Tali percorsi infruttuosi non verrano adoperati.
(7.27) Se Pla quantit`a di merce trasportata `e minore della riserva della
fabbrica cio`e Jj=1 xij < si allora il prezzo della merce in eccesso deve essere
zero (i = 0). In altre parole una merce che `e fornita in quantit`a superiore
alla richiesta, anche quando si deve massimizzare il protto, deve diventare
merce gratuita ovvero diventa un bene libero.

Esempio 7.4 Una delle pi` u importanti applicazioni del teorema di equilibrio `e
nel calcolo numerico. Abbiamo visto che se sono date soluzioni ammissibili dei
problemi primali e duali, si pu`
o facilmente verificare se sono ottimali. Ora, usando
il Teorema di equilibrio si pu` o spesso trovare la soluzione del problema duale
quando `e data la soluzione del problema primale. A questo proposito riprendiamo
lesempio 7.3 del problema del Trasporto. La soluzione proposta `e data dalla
matrice dei trasporti  
0 0 4
2 3 1
Lobiettivo `e trovare i prezzi 1 , 2 e 1 , 2 , 3 . Notiamo che la riserva s2 di S2
`e 7, ma sono trasportate fuori da S2 solo 6 unit` a di acciaio. Secondo il Teorema
di equilibrio il prezzo 2 = 0. Allora, in corrispondenza alla posizione dei valori
diversi da zero della matrice dei trasporti si ottengono i corrispondenti vincoli cio`e
le equazioni del problema duale:

1 2 = 1 = 2

2 2 = 2 = 4
3 1 =3
3 2 = 3 = 6
dalle quali si ottengono 1 = 2, 2 = 4, 3 = 6 e 1 = 3 che sono le soluzioni date
nellesercizio 7.3.

7.3 Esistenza di minimi in Programmazione Lineare

In questo paragrafo vogliamo studiare sotto quali condizioni il problema (7.4)


(e quindi il problema (7.10)) ammette soluzione ottimale.

Definizione 7.1 Linsieme K IRN `e un cono se y K si ha y K,


> 0.

98
Lemma 7.1 Linsieme K = {y IRM : y = A x, x 0} `e un cono convesso
chiuso.
Dimostrazione. K `e un cono dato che se y K allora y K, > 0.
K `e un insieme convesso dato che se x, y K allora x + (1 )y K,
(0, 1). Dimostriamo che K `e chiuso. Se indichiamo con {ai }i=1,...,N , le
colonne della matrice A, riscriviamo
N
X
M
K = {y IR :y= ai xi , x 0}.
i=1

Supponiamo che i vettori {ai }i=1,...,N siano linearmente indipendenti. Sia


(k)
y una successione di punti di K cio`e della forma
N
X (k)
y (k) = ai xi , x(k) 0.
i=1

Se la successione converge a y si ha
N
X
(k) (k) (k)
y = lim y = ( lim xi ) ai lim xi = xi 0.
k k k
i=1

Quindi y K e K `e chiuso.
Supponiamo che i vettori {ai }i=1,...,N siano linearmente dipendenti. Sia,
per esempio,
N
X
a1 = ai i, i 0.
i=2

Ogni y K pu`o rappresentarsi nella forma


N
X N
X
1 i
y = a x1 + a xi = ai (xi + ix1 )
i=2 i=2

cio`e si ottiene che


N
X
M
K = {y IR :y= ai xi , x 0}.
i=2

Se i vettori a2 , . . . , aN sono linearmente indipendenti, K `e chiuso per la prima


parte della dimostrazione; altrimenti si va avanti ntanto che si esprime K
per mezzo di vettori linearmente indipendenti.


99
Teorema 7.4 (Teorema Fondamentale di Programmazione Lineare)
Se 6= e se la funzione obiettivo c x `e limitata inferiormente in cio`e

inf c x > (7.28)


x

allora il problema (7.4) ammette soluzione ottimale.


Dimostrazione. Introduciamo le variabili ausiliarie s IRM , i vettori =
(x, s) IRM +N , C = (c, 0) IRM +N e la matrice di ordine M (M + N)

A = (A , I) , I matrice identit`a di ordine M.

Il problema (7.4) si riscrive in maniera equivalente

new : C = min C

new = { IRM +N : A = b, 0}

Sia (k) una successione minimizzante per il problema (7.4) cio`e

(k) new , lim C (k) = inf C > .


k new

Sia B la matrice di ordine (M + 1) (M + N) cos denita


 
C
B= .
A

La successione y (k) := B (k) appartiene al cono chiuso convesso (lemma


precedente)
K = {y IRM +1 : y = B, 0}
ed `e una successione convergente, dato che

lim y (k) = lim B (k) = lim (C (k) , A (k) ) = ( inf C , b) K.


k k k new

Quindi esiste IRM +N , 0 tale che

B = lim B (k)
k

ovvero
C = inf C , A = b, 0.
new

Conseguenza del Teorema di Dualit`a Debole e del Teorema Fondamentale


di Programmazione Lineare `e il seguente

100
Corollario 7.2 Se 6= e d 6= allora il problema (7.4) ha soluzione
ottimale.
Dimostrazione. Se y d , dalla relazione (7.11) si ha
< b y inf c x
x

e, dal Teorema Fondamentale di Programmazione Lineare, la tesi.


In conclusione possiamo aermare che per il problema di Programmazione
Lineare (7.4) sussiste una e una sola delle seguenti possibilit`a :
i) linsieme ammissibile `e vuoto;
ii) il problema (7.4) `e illimitato inferiormente cio`e inf c x = ;
iii) il problema ammette soluzione ottimale.
Non `e sempre facile stabilire quando `e vericata la (7.28) e quindi il
problema (7.4) ha soluzione. Una utile condizione sar`a stabilita nel Teorema
7.6.
Osserviamo preliminarmente che se c 6= 0 una eventuale soluzione otti-
male x di (7.4) non pu`o cadere allinterno di . Se infatti fosse x int,
per il Teorema di Fermat, dovrebbe essere D (c x ) = c = 0, contro lipotesi
c 6= 0. Quindi leventuale soluzione ottimale cade sulla frontiera di .
Linsieme ammissibile = {x IRN : A x b, x 0} `e un poliedro
convesso, cio`e intersezione di un numero nito di semispazi chiusi.

Definizione 7.2 Si dice che x `e un vertice del poliedro convesso se non


esistono due punti distinti y, z e (0, 1) tali che x = y + (1 )z.
Un poliedro , non vuoto, ha vertici se e solo se non contiene rette. Se
contiene rette allora il problema di minimo risulta illimitato ad eccezione
del caso in cui le linee di livello c x = costante della funzione obiettivo
sono parallele alle rette che delimitano linsieme ammissibile. Se conside-
riamo i vincoli di non negativit`a delle variabili, assumiamo implicitamente
che non contenga rette e quindi abbia almeno un vertice. Osserviamo
che non `e restrittivo considerare le variabili x 0, dato che in ogni pro-
blema di programmazione lineare una variabile non vincolata in segno pu`o
essere sostituita da due variabili non negative per mezzo della trasformazione
xi = x+ +
i xi , xi , xi 0.
Dati v (1) , .., v (s) IRN , indichiamo con conv(v (1) , .., v (s) ) il pi`
u piccolo
insieme convesso contenente questi vettori (inviluppo convesso) ovvero
s
X s
X
(1) (s) N (i)
conv(v , .., v ) = {x IR : x = i v , i 0, i = 1}.
i=1 i=1

101
Se u(1) , . . . , u(r) IRN , indichiamo con cono(u(1) , . . . , u(r) ) il cono convesso
generato dai vettori u(1) , . . . , u(r) (inviluppo conico) ovvero
r
X
(1) (r) N
cono(u , . . . , u ) = {x IR : x = j u(j) , j 0, j = 1, . . . , r}.
j=1

Esempio 7.5 Se v (1) = (0, 0), v (2) = (1, 2), v (3) = (3, 4), v (4) = (2, 1) allora
conv(v (1) , v (2) , v (3) , v (4) ) `e il quadrilatero di figura 3.

0.5 1 1.5 2 2.5 3

Figura 3: conv((0, 0), (1, 2), (3, 4), (2, 1))

Se u(1) = (1, 2) e u(2) = (2, 1) allora cono(u(1) , u(2) ) `e il cono rappresentato in


figura 4.

Teorema 7.5 (Teorema di decomposizione di Motzkin) Un insieme


IRN `e un poliedro se e solo se si decompone nella somma

= conv(v (1) , .., v (s) ) + cono(u(1) , . . . , u(r) ).

Se `e un politopo sar`a semplicemente = conv(v (1) , .., v (s) ). In tal caso


si assume r = 0. Nel seguito rappresentiamo

= {x IRN (1) (s) (1) (r)


+ : A x b} = conv(v , .., v ) + cono(u , . . . , u ). (7.29)

E possibile assumere come (v (1) , .., v (s) ) tutti e soli i vertici di .

102
4

0.5 1 1.5 2

Figura 4: cono((1, 2), (2, 1))

Teorema 7.6 Sia 6= . Il problema (7.4) ha soluzione se e solo se

c u(j) 0, j = 1, . . . , r. (7.30)

Se il problema ammette soluzioni ottimali almeno una di queste cade in uno


dei vertici v (i) , i = 1, . . . , s.
Dimostrazione. Poniamo = (1 , . . . , s ), = (1 , . . . , r ) e
s r
!
X X
f (, ) = i v (i) + j u(j) c.
i=1 j=1

Per il Teorema 7.5, il problema (7.4) `e equivalente al seguente problema di


minimo

( , ) A : f ( , ) = min f (, )
A
(7.31)
s+r Ps
A = {(, ) IR : i=1 i = 1, 0, 0}
Supponiamo che il problema (7.4) (e quindi il problema (7.31)) abbia
soluzione e sia j0 tale che c u(j0 ) < 0. Risulta
s
X
j0
< f ( , ) f ( , t e ) = i v (i) c + t u(j0 ) c, t > 0.
i=1

103
Per t + si trova lassurdo

< f ( , ) .

Viceversa, siano vericate le condizioni (7.30). Si ha, (, ) A


s
X
f (, ) i v (i) c min v (i) c = v (i0 ) c = f ((i0 ) , 0),
i=1,...,r
i=1

i0
(i0 ) = (0, . . . , 1 , . . . , 0), che riscriviamo

c x c v (i0 ) , x .

Si deduce che il problema (7.4) ha soluzione e il minimo `e assunto almeno in


uno dei punti v (i) (cio`e v (i0 ) ).


Esempio 7.6 Sia = {x = (x1 , x2 ) IR2 : x1 0; x2 0}. Se rappresentiamo


= cono(e1 , e2 ), il Teorema 7.6 afferma che esiste la soluzione del problema (7.4)
se e solo se c = (c1 , c2 ) 0. La funzione f (x) = x1 + x2 ha minimo in ; la
funzione f (x) = x1 x2 non ha minimo in (come era semplice prevedere!).

Esempio 7.7 Consideriamo linsieme (vedi figura 5)

Figura 5: Linsieme denito in (7.32)

= {x IR2 : x1 + x2 1, x1 x2 1, x1 0, x2 0} (7.32)

104
Posto v (1) = (0, 1), v (2) = (1, 0), u(1) = (1, 0) e u(2) = (1, 1), una decomposizione
di `e data da
= conv(v (1) , v (2) ) + cono(u(1) , u(2) ).
La funzione f (x) = c x ha minimo in se e solo se

c u(1) = c1 0; c u(2) = c1 + c2 0.

Esempio 7.8 Consideriamo linsieme (vedi figura 6)

= {x IR2+ :
(7.33)
x1 + 2 x2 1, 2x1 x2 1, 4 x1 3x2 0, 3x1 + 4x2 0}

Posto u(1) = (3, 4), u(2) = (4, 3), v (1) = (1, 1) e v (2) = (2, 3/2),v (3) = (3/2, 2) una

Figura 6: Linsieme denito in (7.33)

decomposizione di `e data da

= conv(v (1) , v (2) , v (3) ) + cono(u(1) , u(2) ).

La funzione f (x) = c x ha minimo in se e solo se

c u(1) = 3c1 + 4c2 0; c u(2) = 4c1 + 3c2 0.

Esempio 7.9 Riprendiamo lesempio 1.4 dellintroduzione. Linsieme ammissibile


`e dato da (vedi figura 7)

= {x IR2+ : 2x1 + 3 x2 69, 5x1 + 4x2 120, x1 4, x2 2} (7.34)

`e un politopo e, posto v (1) = (4, 2) e v (2) = (12, 15),v (3) = (112/5, 2), v (4) =

105
y
30

25

20

15

10

x
5 10 15 20 25 30 35

Figura 7: Linsieme denito in (7.34)

(4, 61/3), si ha
= conv(v (1) , v (2) , v (3) , v (4) )
La funzione f (x) = 25x1 + 30x2 ha minimo in e

min 25x1 + 30x2 = min{f (v (1) ), f (v (2) ), f (v (3) ), f (v (4) )} = f (v (2) ) = 750.
x

Esempio 7.10 Posto

= {x IR2 : x1 0, x2 0, x1 + x2 2, 3 x1 + 2 x2 1} (7.35)

consideriamo il problema

x : x1 4x2 = min x1 4x2 .


x

Posto v (1) = (2, 0), v (2) = (1/3, 0), v (3) = (0, 1/2), u(1) = (0, 1), u(2) = (1, 1) si ha

= conv(v (1) , v (2) , v (3) ) + cono(u(1) + u(2) ).

Linsieme `e rappresentato in figura 8.


Dato che c = (1, 4), si ha c u(1) = 4 < 0 quindi, dato che 6= il problema
`e illimitato inferiormente.

Esercizio 7.3 Scrivete il problema duale del problema dellesercizio precedente.


Cosa si pu`
o dire sullesistenza della soluzione del problema duale?

106
4

1 2 3 4 5 6

-1

-2

Figura 8: Linsieme denito in (7.35)

8 Ottimizzazione dinamica
8.1 Preliminari
Per una qualsiasi matrice A indicheremo con rg A il suo rango. Denoteremo
con IMN lalgebra N 2 dimensionale delle matrici quadrate N N e con IN ,
o semplicemente con I, la matrice identit`a di IMN . Ad ogni A IMN `e
associato il polinomio caratteristico

PA () = det(A I).

Faremo uso nel seguito del seguente classico teorema di CayleyHamilton:

Teorema 8.1 Sia PA () il polimomio caratteristico di A. Allora PA (A) = 0.


Il teorema vuol dire che se A viene sostituita nel polinomio caratteristico
alla variabile complessa ed i calcoli eseguiti nellalgebra IMN allora si ottiene
la matrice nulla.
La matrice esponenziale di A `e denita da

X
A Ak
e = .
k!
k=0

Sono vericate le due propriet`a:

i. etA esA = e(t+s)A per ogni t , s

107
ii. e0 = I dove 0 indica la matrice nulla.

La matrice etA risulta conseguentemente invertibile per ogni t ed A, e


(e ) = etA . Inoltre la funzione a valori matriciali t 7 etA `e dierenziabile
tA 1

con
d tA
e = AetA . (8.36)
dt
Se si prende per A la norma spettrale denita da |A| = supv6=0 |Av||v|
, si ha la
maggiorazione
|eA | e|A| . (8.37)
Pm i
Dato un polinomio P () = i=0 ai a coecienti realiPai nel campo
m di
complesso, consideriamo loperatore dierenziale P dtd = i=0 ai dti , per
ogni funzione reale w : IR IR di classe C m si ha:
  X m
d di
P w(t) = ai i w(t),
dt i=0
dt
0
dove dtd 0 w `e uguale a w. Se pensiamo a w come ad una funzione incognita,
possiamo scrivere lequazione dierenziale lineare di ordine m a coecienti
costanti  
d
P w = 0. (8.38)
dt
Ricordiamo che un sistema di m soluzioni fondamentali di (8.38) si ottiene
esaminando gli zeri complessi del polinomio P con la loro molteplicit`a. Ad
uno zero reale di molteplicit`a h corrispondono le h soluzioni fondamentali

tj et , j = 0, , h 1,

ad una coppia di zeri complessi coniugati = a+ib, = aib di molteplicit`a


k le 2k soluzioni fondamentali

tj cos bt eat , tj sin bt eat , j = 0, , k 1.

Osservazione 8.1 Tenuto conto che le soluzioni di (8.38) sono combinazioni


lineari delle soluzioni fondamentali descritte dalle formule precedenti, si vede
che se le parti reali degli zeri di P sono non negative allora lunica soluzione
di (8.38) innitesima per t + `e quella costantemente nulla.
Si deduce subito dalla formula (8.36)
 
d
P eAt = P (A)eA t. (8.39)
dt

108
Una funzione denita in intervallo I di IR e a valori in IRM si dice mis-
urabile se 1 (A) `e misurabile (secondo Lebesgue) per ogni sottoinsieme aper-
to A IRM . Considereremo propriet`a di funzioni misurabili valide a meno di
insiemi di misura nulla, cio`e vericate in tutti il dominio di denizione, ec-
cettuato al pi` u un insieme di misura di Lebesgue nulla. Esprimeremo questo
fatto dicendo anche che la propriet`a `e vericata quasi ovunque o in forma
abbreviata q.o.
Una funzione denita in un intervallo I di IR e a valori in IR, si dice
assolutamente continua se ammette la rappresentazione integrale
Z t
(t) = + (s) ds per ogni t I,
a

con a I e R IR ssati, e localmente sommabile in I, cio`e misurabile e


soddisfacente J || ds < + per ogni intervallo J limitato contenuto in I.
Segue da questa formula che risulta continua e derivabile quasi ovunque, e
la sua derivata coincide con . La precedente nozione si estende, componente
per componente, a funzioni a valori vettoriali.

8.2 Dinamiche lineari controllate


Consideriamo in IRN il problema lineare

= A + Bu
(8.40)
(0) = x0

dove A e B sono rispettivamente una matrice N N e N M, e u `e un control-


lo. Con la dizione controllo ( talvolta per enfatizzare controllo ammissibile )
indicheremo le
u : [0, [ , misurabili,
dove `e lipercubo [1, 1]M .
In eetti la teoria esposta di seguito pu`o applicarsi con qualche modica
al caso di controlli che assumano valori in qualsiasi insieme convesso compat-
to di IRM . La compattezza esprime i vincoli tecnologici nellintervento del
controllore sul sistema.
Denoteremo con A linsieme dei controlli ammissibili, esso `e un sottoin-
sieme di L (0, +, IRM ), lo spazio delle funzioni da [0, +[ ad IRM misura-
bili e essenzialmente limitate, cio`e limitate a meno di un insieme di misura
nulla. In L (0, +, IRM ) indicheremo con | | la norma del sup.
La scelta di prendere controlli misurabili `e motivata dal fatto che saldando
due controlli ammissibili si ottiene ancora un controllo ammissibile e dalle
propriet`a di stabilit`a di questa classe. Si veda la dimostrazione del principio

109
dei controlli bangbang nella Sezione 8.6 e le propriet`a della multifunzione
F nella Sezione 8.7 per una illustrazione di questultimo punto.
Avranno un ruolo particolare nel seguito i controlli che assumono valori
solo nei vertici dellipercubo. Li chiameremo bangbang. Si ha quindi che u
`e bangbang se

|ui(t)| = 1 per ogni i = 1, , M, q.o t

Per soluzione di (8.40) intenderemo una funzione (t) assolutamente con-


tinua che verichi lequazione quasi dappertutto. Con questa denizione
viene che l unica soluzione di (8.40) `e data dalla formula
Z t
tA tA
(t) = e x0 + e esA Bu(s) ds (8.41)
0

per ogni t. In eetti tale funzione `e assolutamente continua, come si vede da


(8.41), e la sua derivata `e data per quasi tutti i t da
Z t
(t) = AetA x0 + AetA esA Bu(s) ds + Bu(t) = A(t) + Bu(t)
0

Quando vorremo indicare esplicitamente la dipendenza della traiettoria dal


controllo u e dal dato iniziale x0 , scriveremo (x0 , u, t) piuttosto che (t).

8.3 Controllabilit`
a di sistemi lineari
Dati due punti x0 , x1 , diremo che un x1 `e raggiungibile da x0 se x1 = (t) per
un certo t > 0, dove `e una traiettoria soluzione di (8.40) per un opportuno
controllo.
Denotiamo con C linsieme dei punti iniziali x0 per cui il punto 0, che
verra chiamato bersaglio, `e raggiunto in tempo nito. In modo pi` u formale:
x0 C se esiste t e u per cui
Z t
tA tA
0 = e x0 + e esA Bu(s) ds,
0

da cui tenendo conto che etA `e invertibile si ottiene che un punto appartiene
a C se e solo se si pu`o scrivere nella forma
Z t
esA Bu(s) ds (8.42)
0

per un opportuno controllo u e tempo t.

110
Nel seguito denoteremo con x(t, u) il punto di C dato da (8.42). In altri
termini C pu`o essere descritto usando come parametri t ed u, tale parametriz-
zazione non `e in generale univoca, nel senso che coppie diverse di (t, u) pos-
sono individuare lo stesso elemento di C. Osserviamo che x(t, u) dipende
linearmente dal controllo u.

Esempio 8.1 Un esempio cui torneremo per commentare i risultati teorici ot-
tenuti `e quello del razzo monodimensionale che si muove seguendo una traiettoria
in IR, diciamo (t) ed `e controllato variando la sua accelerazione in un intervallo
compatto, diciamo [1, 1].
Si `e interessati a raggiungere in tempo finito il bersaglio posto in 0 con velocit`a
nulla.
Il modello pu` o allora essere espresso da unequazione del tipo (8.40) in IR2 ,
dove la prima coordinata indica la posizione e la seconda la velocit`a, con
   
0 1 0
A= , B=
0 0 1

e = [1, 1]. Il bersaglio `e (0, 0).

Esempio 8.2 Un secondo esempio `e quello del pendolo lineare che viene anche
questo controllato variando la sua accelerazione in [1, 1]. Si vuole raggiungere in
tempo finito la posizione di equilibrio con velocit`a nulla. Lequazione `e:

= + u .

Il modello espresso con unequazione del tipo (8.40) in IR2 , con prima coordinata
la posizione e la seconda la velocit`a, ha questi dati:
   
0 1 0
A= , B=
1 0 1
= [1, 1] e bersaglio (0, 0).

Si far`a frequentemente uso del seguente principio di transitivit`a: se x0 C


`e raggiungibile da un punto x1 allora x1 C. La sua validit`a dipende dal
fatto gi`a osservato che due controlli ammissibili possono essere saldati co-
stituendo ancora un controllo ammissibile. Conseguentemente due soluzioni
dellequazione lineare che compare in (8.40) possono essere saldate costitu-
endo ancora una soluzione.
La formula (8.42) assieme alle propriet`a dellinsieme dei controlli d`a
per qualsiasi scelta delle matrici A, B:

Proposizione 8.1 Linsieme C `e convesso e simmetrico rispetto allo 0.

111
Simmetrico vuol dire che x0 C se e solo se x0 C.
Dimostrazione. Siano x(t1 , u1 ), x(t2 , u2) elementi di C per certi controlli
u1 , u2 e tempi t1 , t2 , [0, 1]. Non `e restrittivo supporre t1 = t2 =: t
prolungando in maniera costantemente nulla uno dei due controlli, vedi la
formula (8.42).
Il controllo u := u1 + (1 )u2 `e ammissibile per la convessit`a di . Per
la linearit`a di x(t, u) rispetto al controllo u, si ha
C x(t, u) = x(t, u1 ) + (1 )x(t, u2 )
Questo mostra che C `e convesso.
Se u `e ammissibile allora, dato che `e simmetrico, lo `e anche u. La
simmetria di C viene allora dalla relazione x(t, u) = x(t, u).

La propriet`a che C sia un insieme aperto `e particolarmente rilevante da un
punto di vista applicativo poich`e se non fosse vericata un errore per quanto
minimo nellapprossimare un punto iniziale appartenente a C potrebbe non
farci raggiungere il bersaglio. Osserviamo che in generale C potrebbe non
essere aperto a anche se la parte non controllata della dinamica espressa dalla
matrice A `e molto semplice, nel caso i controlli a disposizione siano troppo
pochi. Nellesempio seguente, per illustrare questa situazione, prendiamo
A = I.
Esempio 8.3 Si considera (8.40) in IR2 con
 
1
A=I , B=
1
e = IR. Facendo uso della formula (8.42) viene che un punto appartiene a C se
si pu`
o scrivere nella forma
Z t  
1
es u(s) ds
0 1
per opportuni u e t. Da qui si vede che C `e contenuto nella diagonale. Inoltre si
ottiene Z t
| es u(s) ds| 1 et
0
Quindi C `e contenuto nellintersezione della diagonale con la palla unitaria aperta
centrata in 0.
In realt`
a coincide con tale insieme e calcoli diretti mostrano che se x0 = (r, r)
ha coordinate negative allora il bersaglio `e raggiunto con controllo costantemente
uguale ad 1 in un tempo t = ln(1 + r). Se viceversa le coordinate di x0 = (r, r)
sono positive allora il controllo da applicare `e quello costantemente uguale a 1
ed il tempo in cui si raggiunge 0 `e t = ln(1 r).

112
Un primo risultato piuttosto semplice, ma rilevante soprattutto per la
sua estendibilit`a a dinamiche non lineari, che si ottiene per ogni A, B `e il
seguente:

Proposizione 8.2 Linsieme C `e aperto se e solo se 0 `e un suo punto


interno.

Dimostrazione. Se C `e aperto allora banalmente 0 `e un suo punto interno.


Viceversa, assumiamo che un intorno U di 0 `e contenuto in C, e consideriamo
il generico elemento x0 C. Si ha che x0 = x(t, u) per un certo controllo u e
tempo t. La funzione
Z t
tA tA
f (x) := e x + e esA Bu(s) ds
0

`e continua e quindi f (x) U per x in un opportuno intorno V di x0 , dato


che f (x0 ) = 0.
Da ogni punto x di V `e allora possibile raggiungere un qualche punto di
U applicando il controllo u per il tempo t. Dato che U C, si ha, per il
principio di transitivit`a, che tutti tali x sono contenuti in C, e quindi V C
e x0 `e interno a C. Per la genericit`a di x0 questo implica che C `e aperto.


8.4 La matrice di controllabilit`


a
In questa sezione caratterizzeremo, mediante condizioni sulle matrici A e B
che compaiono nella dinamica controllata, i sistemi per cui C `e aperto. Se tali
condizioni non valgono proveremo inoltre che C risulta privo di punti interni.
Ricordiamo che, in conseguenza del Teorema 8.1, le matrici

I , A , A2 , . . . AN

sono dipendenti come elementi dellalgebra IMN . Questo, a sua volta, implica:

Osservazione 8.2 Tenuto conto della formula che denisce lesponenziale


di una matrice si ha che etA appartiene allo spazio generato da

I , A , A2 , . . . , AN 1

per ogni t.

113
LOsservazione 8.2, insieme alla formula (8.42), ci fanno intuire limpor-
tanza per lo studio della controllabilit`a della matrice
R = {B , AB , A2 B , . . . , AN 1 B} (8.43)
R `e ottenuta aancando le matrici elencate, ha dunque tante righe quante
le matrici che la costituiscono, cio`e N e numero di colonne pari alla somma
delle colonne delle matrici costituenti, cio`e NM.
Il prossimo lemma precisa il legame che esiste tra la matrice R e etA B.
Si noti che un verso della dimostrazione `e puramente algebrica e sfrutta il
teorema di CayleyHamilton, mentre laltro `e analitico e fa uso della formula
(8.36) di derivazione dell esponenziale di una matrice.

Lemma 8.1 rg R < n se e solo se esiste y IRN per cui yetA B 0.

Dimostrazione. Se rg R < N allora yR = 0 per qualche y IRN e quindi,


per come `e denito R
yAk B = 0 per k = 0 , . . . , N 1
Per losservazione 8.2 si ha ancora
yetA B = 0 per ogni t (8.44)
Se viceversa vale (8.44) allora, tenendo conto della formula (8.36) e deriv-
ando N 1 volte in 0 viene:
yB = 0 , yAB = 0 , , yAN 1B = 0.
Da queste relazioni, e dalla denizione di R, si arriva a yR = 0.


Proposizione 8.3 Se rg R < N allora C non ha punti interni, ed anzi `e


contenuto in un iperpiano.

Dimostrazione. Se rg R < N allora per il Lemma precedente esiste y per


cui
yetA B = 0 per ogni t
Da questultima relazione si ottiene per ogni controllo u e tempo t
Z t
yx(t, u) = yesA Bu(s) ds = 0
0

Quindi C y non ha punti interni.




114
Proposizione 8.4 Se rg R = N allora C `e aperto.

Dimostrazione. La dimostrazione `e per contraddizione.


Se C non verica la tesi allora, per la Proposizione 8.2, 0 `e un suo punto
di bordo. Inoltre, dato che C `e convesso si ha yx(t, u) 0, per un opportuno
y IRN e ogni t, u, cio`e
Z t
yesA Bu(s) ds 0 (8.45)
0

per ogni controllo u e tempo t. Dato che, grazie al Lemma 8.1, yetA B 6 0,
si pu`o allora denire un controllo ammissibile u0 6 0 ponendo
(
yetA B
u0(t) = |ye tA B| se yetA B 6= 0
(8.46)
u0(t) = 0 se yetA B = 0

Discende da questa formula

yetA Bu0 (t) = |yetA B| per ogni t.

Possiamo allora ssare un t0 per cui


Z t0 Z t0
sA
ye Bu0 (s) ds = |yesAB| ds > 0,
0 0

il che `e in contrasto con (8.45).



La sintesi dei due ultimi risultati d`a

Teorema 8.2 Linsieme C `e aperto se e solo se rg R = N.

8.5 Completa controllabilit`


a
Si vogliono ora determinare delle condizioni su A e B che garantiscano
luguaglianza C = IRN . Esprimeremo questo fatto dicendo che il sistema
`e completamente controllabile.
Dei primi risultati possono essere facilmente dedotti nel caso, modellisti-
camente irrealistico a causa della presenza dei vincoli tecnologici, che i con-
trolli possano assumere valori in tutto IRM e non solo nellipercubo [1, 1]M .
IL primo enunciato discende direttamente dalla Proposizione 8.2.

Proposizione 8.5 Se i controlli ammissibili possono assumere valori in tut-


to IRM allora C = IRN se e solo se 0 `e un punto interno di C.

115
Dimostrazione. Un verso dellimplicazione `e banale. Sia x(t, u) un ele-
mento di C per un certo controllo u e tempo t. Data lipotesi sui controlli
allora u `e ammissibile per ogni > 0. Dal fatto che x(t, u) = x(t, u) e
un intorno di 0 `e contenuto in C viene la tesi.

Dalla precedente proposizione e dal Teorema 8.2 discende subito:

Proposizione 8.6 Assumiamo che i controlli ammissibili possano assumere


valori in tutto IRM . Allora C = IRN se e solo se rg R = N.
Tornando allipotesi abituale che i controlli assumano valori in , un
risultato di completa controllabilit`a pu`o essere ottenuto assumendo, oltre
alla solita ipotesi sul rango di R, che 0 sia globalmente asintoticamente stabile
per il sistema lineare (8.40) nel caso non controllato, cio`e con u 0. Questo
vuol dire che le soluzioni del sistema non controllato per ogni punto iniziale
convergono a 0 per t . Condizione necessaria e suciente per questo
`e che
Re < 0 per ogni autovalore di A.
In questa situazione si ha che ogni traiettoria di (8.40) con controllo nullo
raggiunge in tempo nito ogni pressato intorno di 0, quindi la completa
controllabilit`a risulta dal teorema 8.2 e dal principio di transitivit`a. Abbiamo
dunque provato il seguente enunciato:

Teorema 8.3 Se rgR = N e Re < 0, per ogni autovalore di A allora


C = IRN .
Si noti che, tuttavia, il precedente teorema non si applica n`e al modello
del razzo unidimensionale n`e a quello del pendolo controllato, per i quali le
parti reali degli autovalori di A sono solo non negative. Questosservazione
giustica la seguente generalizzazione:

Teorema 8.4 Se rg R = N e Re 0 per ogni autovalore di A allora


C = IRN .

Dimostrazione. Se, per assurdo, C fosse un sottinsieme proprio di IRN


allora esisterebbe x1 C e, quindi, per la convessit`a di C, y IRN tale che

yx1 yx0 per ogni x0 C,

conseguentemente, grazie a (8.42), la quantit`a


Z t
yesA Bu(s) ds
0

116
dovrebbe risultare limitata superiormente al variare dei tempi t e dei controlli
u. Dato che yetA B 6 0 per lipotesi rg R = N e il Lemma 8.1, si denisce,
analogamente a quanto `e stato fatto nella Proposizione 8.4, un controllo
u0 6 0 attraverso la formula


yetA B
u0 (t) = se yetA B 6= 0
|yetA B|



u0 (t) = 0 se yetA B = 0

Si ha allora Z Z
t t
sA
ye Bu0 (s) ds = |yesAB| ds.
0 0
Dato che questintegrale risulta limitato superiormente al variare di t in
[0, +[, si deve avere
Z +
|yesA B| ds < +, (8.47)
0

Denotiamo con P il polinomio caratteristico di A, e calcoliamo:


   
d tA d
P (ye B) = y(P etA )B = yP (A)etA B = 0,
dt dt

dove abbiamo sfruttato la formula (8.39) e la relazione P (A) = 0, data dal


Teorema di CayleyHamilton.
Poich`e gli zeri di P sono gli autovalori di A cambiati di segno, essi per
ipotesi hanno parte reale non negativa. Allora, in base allOsservazione 8.1,
le componenti
 di yetA B, che sono soluzioni scalari dellequazione dieren-
ziale P dtd w = 0, sono innitesime per t tendente a + se e solo se sono
costantemente nulle. Dato che yetA B 6 0 almeno una di tali componenti `e
non nulla. Conseguentemente |yetA B| non `e innitesimo per t tendente a
+, il che contrasta con (8.47).

Risulta quindi provato che i modelli del razzo unidimensionale e del
pendolo controllato sono completamente controllabili.

8.6 Principio dei controlli bangbang


In questa sezione proviamo il cosiddetto principio dei controlli bangbang.
Esso aerma che se da un punto iniziale x0 si raggiunge il bersaglio in un
tempo t tramite una traiettoria della dinamica controllata allora lo si pu`o

117
anche raggiungere nello stesso tempo con una traiettoria corrispondente ad
un controllo bangbang.
Deniamo, per ogni t 0

C(t) = { punti iniziali dai quali si raggiunge il bersaglio nel tempo t.}

Denotiamo con A(t) i controlli di A ristretti allintervallo [0, t], ssato x0


C(t), denotiamo ancora con Ax0 (t) i controlli ammissibili di A(t) le cui trai-
ettorie corrispondenti consentono di raggiungere 0 nel tempo t a partire da
x0 . Tenuto conto di (8.42), si ha
Z t
Ax0 (t) = {u A(t) : esA Bu ds = x0 .} (8.48)
0

Si prova, ragionando come nella Proposizione 8.1, che tale insieme `e convesso
e simmetrico.
Gli ingredienti per provare il Principio dei controlli bangbang sono la
scelta di unopportuna nozione di convergenza in L (0, t, IRM ), pi` u debole
di quella data da | | , e quindi di una topologia, per linsieme dei controlli
ammissibili, ed il Teorema di KreinMilman sui punti estremali di insiemi
convessi in spazi vettoriali dotati di unopportuna topologia.
Diremo che una successione un in L (0, t, IRM ) converge in senso debole
* se Z t Z t
(s) un(s) ds (s) u(s) ds
0 0
M
per ogni : [0, t] IR continua.
A questa nozione di convergenza corrisponde una topologia in L (0, t, IRM )
ancora denominata debole*. In questa topologia la nozione di insieme com-
patto (da ogni ricoprimento aperto si pu`o estrarre un sottoricoprimento ni-
to) `e equivalente a quella di insieme sequenzialmente compatto ( da ogni
successione si puo estrarre una sottosuccessione nita).
Lintroduzione della topologia e convergenza debole* `e giusticato dal
seguente classico teorema di compattezza che generalizza la propriet`a di
HeineBorel negli spazi IRN (gli insiemi compatti di IRN sono tutti e soli
quelli chiusi e limitati):

Teorema 8.5 (BanachAlaoglu) Un sottoinsieme di L (0, t, IRM ) `e com-


patto nella topologia debole* se e solo se `e chiuso nella stessa topologia e
limitato nella norma | | .
Da questo, sfruttando opportune propriet`a delle convergenze funzionali
legate alla misura di Lebesgue, si deduce:

118
Corollario 8.1 Linsieme A(t) L (0, t, IRM ) dei controlli ammissibili
definiti in [0, t] `e compatto nella topologia debole*.
Possiamo provare allora:

Corollario 8.2 Linsieme Ax0 (t) `e compatto nella topologia debole* per ogni
t.

Dimostrazione. Da una successione un di Ax0 (t) si pu`o estrarre una


sottosuccessione, ancora denotata con un , convergente in senso debole* ad
un elemento u di A(t) in base al Corollario 8.1. Si ha
Z t Z t
sA
x0 = e Bun ds esA Bu ds,
0 0

dato che vi `e convergenza di ogni componente per la continuit`a di s 7 esA B


e la denizione di convergenza debole*. Segue che
Z t
x0 = esA Bu ds,
0

e quindi u Ax0 (t) in base a (8.48). Questo prova la tesi.



Passiamo alla parte relativa a KreinMilman. Una denizione `e prelim-
inare.
Diremo che un elemento x0 di un insieme convesso K `e estremo o estremale
se non esistono x1 6= x0 6= x2 in K per cui x0 = x1 + (1 )x2 . Questa
nozione generalizza quella di spigolo nellipercubo [1, 1]M .

Teorema 8.6 (KreinMilman) Ogni sottoinsieme convesso compatto di uno


spazio vettoriale dotato di unopportuna topologia `e la chiusura dellinviluppo
convesso dei propri punti estremali.
Si ricorda che linviluppo convesso di un insieme, diciamo A, `e costituito
da tutte le combinazioni convesse di elementi di A. Si noti che un punto di
interesse del teorema `e che da unipotesi topologica, la compattezza, unita
ovviamente alla convessit`a, si deduce una conclusione puramente algebrica
sulla non esistenza di combinazioni convesse che assumono dati valori.
Il Teorema di KreinMilman si applica, in particolare, agli spazi IRN con
la topologia naturale, e a L (0, t, IRM ) con la topologia debole*. Da questo,
dal Corollario 8.1 e dal fatto che Ax0 (t) `e convesso per ogni t ricaviamo:

Corollario 8.3 Esiste un elemento estremale in Ax0 (t) per ogni t.

119
Mostreremo il principio dei controlli bangbang facendo vedere che ogni
elemento estremale di Ax0 (t) `e appunto bangbang. Per fare questo abbiamo
bisogno di alcuni lemmi preliminari.

Lemma 8.2 Sia F [0, t] un insieme misurabile di misura positiva, w


L (0, t, IRM ). Esiste una funzione in L (0, t, IR) con 6 0, || 1 tale
che Z
w ds = 0 , = 0 in [0, t] \ F
F

Dimostrazione. Consideriamo (M + 1) sottoinsiemi misurabili Fi , i =


1, , M + 1, di F a due a due disgiunti. Poniamo
Z
k
ai = wk ds i = 1, , M + 1 , k = 1, , M,
Fi

e deniamo un sistema di M vettori in IRM +1 mediante

Vk = (ak1 , ak2 , , akM +1 ) k = 1, , M.

Sia allora U = (U1 , UM +1 ) IRM +1 non nullo e ortogonale a tutti i vettori


del sistema e tale che |Ui | 1 per ogni i. Deniamo

Ui in Fi per i = 1, , M + 1
(t) =
0 in [0, 1] \ M +1
i=1 Fi

Viene direttamente dalla denizione che || 1. Inoltre per ogni indice k


compreso tra 1 ed M risulta
Z M
X +1 Z
wk ds = Ui aki = U Vk = 0.
F i=1 Fi

Questo prova la tesi.




Lemma 8.3 Sia L (0, t, IR) soddisfacente < 1 in un sottoinsieme


misurabile di misura positiva. Allora esiste > 0 e F [0, t], con |F | > 0,
per cui < 1 in F .

Teorema 8.7 Per ogni t linsieme Ax0 (t) contiene un controllo bangbang
a meno che non sia vuoto.

120
Dimostrazione. Se Ax0 (t) non `e vuoto, allora, per Corollario 8.3 del
Teorema di KreinMilman, esiste un elemento estremale in Ax0 (t), diciamo
u. Mostreremo che tale u `e bangbang.
In caso contrario esiste un indice i con |ui | < 1 in un insieme di misura
positiva contenuto in [0, 1], allora, per il Lemma 8.3, applicato alla funzione
misurabile |ui |, si ha |ui | < 1 in F [0, 1], per unopportuna costante
> 0 ed un insieme misurabile di misura positiva F .
Utilizziamo allora il Lemma 8.2 con w = esA Bi per aermare lesistenza
di una funzione misurabile non nulla , con || 1, per cui
Z
esA Bi ds = 0 , = 0 in [0, t] \ F (8.49)
F

Deniamo due controlli u+ , u di A(t) tramite le formule


 
+ uj per j 6= i + uj per j 6= i
uj = , uj =
ui + per j = i ui per j = i

Osserviamo che u+ 6= u 6= u dato che 6 0. Inoltre si ha, tenendo


conto che u Ax0 (t) e di (8.49)
Z t Z t Z Z t
sA + sA sA
e Bu ds = e Bu ds + e Bi ds = esA Bu ds = x0 ,
0 0 F 0

e una formula analoga si ottiene per u . Questo prova che u+ e u apparten-


gono a Ax0 (t).
Si raggiunge allora ad un assurdo poich`e u si pu`o esprimere come combi-
nazione convessa di tali controlli, precisamente u = 1/2u+ + u1 /2u , il che
e in contraddizione con la sua propriet`a di estremalit`a.


8.7 Tempo minimo per dinamiche lineari


In questa sezione mostreremo che per una dinamica controllata lineare del
tipo (8.40) ed un dato iniziale x0 C esiste un controllo tale che la traiettoria
ad esso associata minimizza il tempo per raggiungere il bersaglio 0. Tale
controllo/traiettoria sar`a chiamato ottimale.
Fissato x0 C, consideriamo la mappa multivoca, denotata con F , che as-
socia ad ogni t i punti raggiungibili, nel tempo t, con una qualsiasi traiettoria
della dinamica controllata partendo da x0 , in formule:

F (t) = {(x0 , u, t) , al variare di u in A(t)}

121
Si tratta di una mappa denita in [0, +[ per cui dimostriamo, sfruttando le
propriet`a di compattezza di A(t) nella topologia debole* e la linearit`a della
dinamica:

Proposizione 8.7 La mappa F ha valori convessi compatti.

Dimostrazione. La convessit`a dei valori di F viene dalluguaglianza

(x0 , u1 , t0 ) + (1 )(x0 , u2 , t0 ) = (x0 , u1 + (1 )u2 , t0 )

che vale per ogni scelta dei controlli ammissibili u1 , u2 , e di [0, 1], vedi
la dimostrazione della Proposizione 8.1.
Per provare la compattezza di F (t), per un generico t, osserviamo che
una qualsiasi successione di suoi elementi si scrive nella forma
Z t
tA tA
e x0 + e esA Bun (s) ds, (8.50)
0

per una scelta di un A(t). Per il Corollario 8.1, un converge debole*, a


meno di sottosuccessioni, ad un controllo u A(t). Conseguentemente la
successione denita in (8.50) converge, a meno di sottosuccessioni, a
Z t
tA tA
e x0 + e esA Bu(s) ds F (x0 , t0 ) (8.51)
0

che `e ancora un elemento di F (t).



Registriamo, per farne uso successivamente, una propriet`a di continuit`a
per F ed una sua conseguenza.

Proposizione 8.8 Dati T ed positivi, si ha

F (t1 ) (F (t2 ))l|t1 t2 |

per ogni t1 , t2 [0, T ] e per una opportuna costante l > 0, dove

(F (t2 )) = {x : d(x, (F (t2 ))) < }

Dimostrazione. Prendiamo u A(T ), e consideriamo yi := (ti , x0 , u)


F (ti ), i = 1, 2. Si ha
Z t1 Z t2
At1 As At2
|y1 y2 | = |e e Bu ds e eAs Bu ds|,
0 0

122
Rt
aggiungendo e togliendo la quantit`a eAt1 0 2 eAs Bu ds, e sfruttando propri-
et`a elementari delle norme, viene
Z t2 Z t2
At1 As At1 At2
|y1 y2 | |e | | |e Bu| ds| + |e e | |eAs Bu| ds
t1 0

Tenendo conto di (8.37), e del fatto che i controlli ammissibili prendono valori
nellipercubo che `e contenuto nell palla di centro lorigine e raggio 2, abbiamo
le disuguaglianze |eAt | e|A|T , |eAt Bu| 2e|A|T |B|, per ogni t [0, T ].
Inoltre la mappa t 7 eAt , risulta Lipschitziana in [0, T ], dato che `e
di classe C 1 , con costante di Lipschitzianit`a denotata da l. Ricaviamo in
denitiva

|y1 y2 | 2 e2|A|t |B| |t1 t2 | + l T 2 e|A|T |B| |t1 t2 |.

Lasserzione risulta quindi vericata ponendo l = 2 e|A|T |B| (e|A|T + l T ).




Corollario 8.4 Sia y0 interno a F (t0 ), per un certo t0 0, allora y0 F (t),


per t appartenente ad un opportuno intorno di t0 .

Dimostrazione. Supponiamo che la palla chiusa di centro y0 e raggio r,


per un certo r > 0, sia contenuta in F (t0 ).
Se la tesi non fosse vera allora esisterebbe tn t0 con y0 6 F (tn ).
Denotiamo con yn la proiezione di y0 su F (tn ). Tale proiezione `e unica
poich`e F (tn ) `e convesso, per ogni n, in virt`
u della Proposizione 8.7.
Consideriamo il segmento congiungente yn a y e prolunghiamolo, allon-
tanandoci da F (tn ), sino a intersecare il bordo della palla centrata in y0 con
raggio r in un punto denotato con zn . Per ipotesi zn F (t0 ), inoltre la
proiezione di zn su F (tn ) `e ancora yn e si ha

d(zn , F (tn )) = |zn yn | |zn y0 | = r.

Questa relazione `e per`o in contrasto con la Proposizione 8.8, che asserisce

F (t0 ) F (tn )l|tn t0 | per un opportuno l.


La convessit`a dei valori, e pi`u precisamente la propriet`a dellunicit`a della
proiezione, `e essenziale per la validit`a del corollario precedente. Consideriamo
infatti la mappa multivoca G(t) = B(0, 1) \ B(0, t) per t [0, 1[. Tale mappa
`e continua con G(0) = {0} ma 0 6 G(t) per t ]0, 1[.
Concludiamo la sezione con lannunciato teorema sull esistenza di con-
trolli/traiettorie ottimali.

123
Teorema 8.8 Sia x0 C. Allora esiste un controllo ottimale u tale che la
corrispondente traiettoria minimizza il tempo in cui si raggiunge da x0 il
bersaglio 0.

Dimostrazione. Poniamo

t = inf{t : 0 F (x0 , t), }

e osserviamo che tale quantit`a `e nita in quanto x0 C. Si tratta di di-


mostrare che t `e un minimo. Denotiamo con tn una successione minimiz-
zante, quindi tn > t , tn t e 0 F (x0 , tn ), cio`e
Z tn
x0 = esA Bun ds, (8.52)
0

per opportuni controlli un . Per la compattezza di A(t ) rispetto alla topologia


debole *, esiste u A(t ) per cui
Z t Z t
sA
e Bun ds esA Bu ds, (8.53)
0 0

a meno di sottosuccessioni. Inoltre, ricordando che tn > t , e ragionando


come nella Proposizione 8.8, otteniamo la stima
Z tn
| eAs Bu ds| 2 e2|A|t |B| (tn t ).
t

Dato che tn t , questo implica,


Z t
|eAs Bu| ds 0. (8.54)
tn

Mettendo insieme (8.52), (8.53), (8.54) otteniamo


Z tn Z t Z tn
sA sA
x0 = lim e Bun ds = lim e Bun ds + esA Bun ds =
n 0 n 0 t
Z t
= esA Bu ds,
0

e, conseguentemente, 0 F (t ). La tesi `e dimostrata.



Si noti che il principio dei controlli bangbang ci dice, a questo punto,
che esiste un controllo ottimale bangbang. I risultati della prossima sezione
consentiranno di migliorare notevolmente questo risultato.

124
8.8 Il principio di massimo di Pontryagin per dinami-
che lineari
Anche in questa sezione, come nella precedente ssiamo il punto iniziale
x0 C. Iniziamo con lintroduzione della nozione di controllo/traiettoria
estremale.

Definizione 8.1 Un controllo u (e la corrispondente traiettoria con (0) =


x0 ) si dice estremale in [0, T ] se

(t) F (t) per ogni t [0, T ]

Proposizione 8.9 Un coppia traiettoria/controllo (, u) `e estremale in un


certo intervallo [0, T ] se e solo (T ) F (T )

Dimostrazione. Un verso `e evidente. Per laltro mostreremo equivalen-


temente che se (t) `e allinterno di F (t), per un t < T , allora anche (T )
si deve trovare allinterno di F (T ). Faremo uso di un argomento analogo a
quello usato nella Proposizione 8.2.
Sia U un intorno di (t) contenuto in F (t), deniamo, per ogni x
Z T
(T t)A (T t)A
g(x) = e x+e esA Bu(s) ds.
t

Si ha che g((t)) = (T ), inoltre g `e una mappa ane invertibile, dato che


ogni matrice esponenziale `e tale, quindi risulta continua con inversa continua.
Per questa propriet`a trasforma U in un intorno di (T ). Tale intorno, per
come `e stato denito g, `e contenuto in F (T ).

La ragione del nostro interesse per i controlli estremali `e motivata dal
risultato seguente, per dimostrare i quale utilizziamo la Proposizione 8.9,
assieme al Corollario 8.4.

Proposizione 8.10 Sia t il tempo minimo di raggiungimento dello 0 da x0 .


Ogni controllo/traiettoria (u , ) ottimale `e estremale in [0, t ].

Dimostrazione. Per lottimalit`a 0 6 F (t), per t < t , allora, per il


Corollario 8.4, (t ) = 0 F (t ), da cui lasserita estremalit`a, in virt`
u della
Proposizione 8.9.

La struttura dei controlli estremali pu`o essere identicata in maniera
sorprendentemente semplice, a patto che la dinamica controllata soddis una
opportuna condizione.

125
Osserviamo preliminarmente che se y `e un vettore non nullo di IRN , e in
un dato istante s tutte le componenti yesABj (Bj indica la jsima colonna
di B) di yesAB sono non nulle, allora
M
X
yesABj sgn (yesABj ) yesA Bv per ogni v , (8.55)
j=1

dove sgn indica la funzione segno. Se la condizione di non nullit`a delle


componenti di yesA B sussiste in tutto un intervallo [0, T ], per un certo
T > 0, a meno di un insieme di misura nulla, e deniamo un controllo u
tramite le relazioni

uj (s) = sgn (yesABj ) per q.o. s [0, T ], j = 1, , M (8.56)

allora deduciamo da (8.55), dato che i controlli ammissibili assumono valori


nellipercubo Z T Z T
sA
ye Bu ds yesA Bu ds (8.57)
0 0
per ogni controllo ammissibile u.
Ricordiamo ora, per continuare il nostro ragionamento, alcune nozioni
fondamentali di analisi convessa.
Un iperpiano P si dice di supporto a C in x0 C P se C `e tutto
contenuto in uno dei due semispazi (chiusi) individuati da P . Un vettore
y 6= 0 ortogonale a P e che punta allesterno di C, quando applicato a x0 , `e
allora individuato dalla propriet`a

y (x x0 ) 0 per ogni x C,

un vettore di questo tipo si dice normale a C in x.


` un risultato importante lesistenza di iperpiani di supporto a C in ogni
E
punto di C, o, in altri termini, lesistenza di vettori normali non nulli a C
in ogni punto del bordo. Inoltre `e evidente che nei punti interni di C non
ci possono essere vettori normali non nulli, per cui lesistenza di tali vettori
caratterizza i punti di C.
Sia ora (u, ) una coppia controllo/traiettoria estremale in [0, T ], per un
certo T . Esiste allora z 6= 0 normale a F (T ) in (T ). Questo implica, per
denizione di vettore normale
Z T
TA TA
z (e x0 + e esA Bu(s) ds)
0
Z T
z (eT A x0 + eT A esA Bu(s) ds)
0

126
per ogni controllo ammissibile u. Da qui otteniamo, ponendo y = zeT A e
sfruttando la linearit`a dellintegrale
Z T
yesA B(u(s) u(s)) ds 0 (8.58)
0

Se ammettiamo che tutte le componenti yesA Bj del vettore Mdimensionale


yesA B siano non nulle, o almeno siano non nulle a meno di un insieme di
misura nulla in [0, T ], allora, tenuto conto di (8.57), viene che u deve essere
denito dalla formula (8.56).
E` chiaro, viceversa, che la formula (8.58) non d`a alcuna informazione su uj
nelle eventuali regioni di misura positiva in cui la corrispondente componente
di yesA B si annulli.
Dalla esigenza, quindi, di rendere fruibili le informazioni date da (8.58),
viene la ricerca di condizioni da imporre ai dati A e B anch`e gli zeri di
tutte le componenti di funzioni del tipo yesABj , j = 1, , m, per qualsiasi
scelta di y tra i vettori non nulli di IRN , siano di misura nulla.
E` cruciale per questo osservare che le funzione s 7 yesA Bj sono analiti-
che, cio`e sviluppabili in serie di Taylor, in IR per denizione di esponenziale
di una matrice. Questa regolarit`a implica delle drastiche condizioni sul-
linsieme degli zeri. Si ha precisamente che, se la funzione non si annulla
identicamente, allora i suoi zeri costituiscono un insieme numerabile privo di
punti di accumulazione, e quindi avente intersezione di cardinalit`a nita con
ogni intervallo compatto.
Basta allora trovare delle condizioni su A e B che garantiscano che per
ogni y 6= 0, le funzioni yesA Bj non siano identicamente nulle in IR. Si
coglie subito una certa analogia con lenunciato del Lemma 8.1. Questo
risultato, unito a quelli seguenti della Sezione 8.2, mostrava che anch`e la
funzione a valori vettoriali yesA B non fosse identicamente nulla, per una
qualsiasi scelta si y, occorreva e bastava la condizione rg R = N. Qui si
chiede qualcosa di pi` u, cio`e che tutte le componenti della predetta funzione
risultino non identicamente nulle. Mutando un minimo il ragionamento usato
nel Lemma 8.1, si dimostra:

Proposizione 8.11 Condizione necessaria e sufficiente affinch`e per ogni


y IRN e j = 1 , , M la funzione yesA Bj non sia identicamente nulla `e
che gli N vettori
Bj , ABj , , AN 1 Bj (8.59)
risultino, per ogni j, linearmente indipendenti.

Dimostrazione. Se, per qualche j, il sistema di vettori (8.59) `e dipendente


allora esiste y 6= 0 che ha prodotto scalare nullo con ognuno di tali vettori.

127
Allora per losservazione 8.2 si ha

yesA Bj = 0 per ogni s

Questo prova il verso dellequivalenza enunciata.


Se viceversa yesA Bj risulta identicamente nulla, per un certo j, allora
tenendo conto della formula di derivazione dellesponenziale di una matrice
e derivando N 1 volte in 0 viene:

yBj = 0 , yABj = 0 , , yAN 1 Bj = 0

che mostra la lineare dipendenza dei vettori (8.59).




Definizione 8.2 Una dinamica controllata lineare si dice normale se i vet-


tori
Bj , ABj , , AN 1 Bj
risultano linearmente indiendenti, per ogni j.
Dato che il sistema di vettori che compare nella precedente denizione,
`e costituito da N colonne della matrice R, la nozione di normalit`a per una
dimamica lineare `e pi`
u forte della condizione rg R = N che `e stata provata,
nella Sezione 8.2, equivalente alla propriet`a che C fosse aperto. Le due con-
dizioni sono equivalenti se il controllo `e monodimensionale, come nel caso del
pendolo e nel razzo. Il prossimo esempio presenta un caso in cui rg R = N
ma il sistema non `e normale.

Esempio 8.4 Consideriamo in IR2 la dinamica

= u

con controlli bidimensionali e = [1, 1]2 . si tratta quindi di una dinamica di


tipo lineare con A = 0 e B = I. Viene allora
 
1 0 0 0
R=
0 1 0 0

il che mostra rg R = 2, daltro canto

{B1 , AB1 } = {(1, 0) , (0, 1)} {B2 , AB2 } = {(0, 1) , (0, 1)}

e nessuna di queste due coppie di vettori `e linearmente indipendente. Quindi il


sistema non `e normale.

Il teorema che segue d`a lannunciata caratterizzazione dei controlli es-


tremali.

128
Teorema 8.9 (Principio del massimo di Pontriagyn) Supponiamo la dina-
mica normale e prendiamo (u, ) estremale per x0 in [0, T ], per un certo
istante T . Allora esiste y IRN tale che
uj (t) = sgn (yetA Bj ) (8.60)
per tutti i t [0, T ] al di fuori dellinsieme finito Zj dei tempi in cui yetA Bj
si annulla in [0, T ], e per j = 1 , , M. Conseguentemente, per tutti gli
t [0, T ] \ j Zj
M
X
tA
ye Bu(t) = |yetA Bj | = max yetA Bv (8.61)
v
j=1

Viceversa, se (u, ) verifica (8.60), allora verifica anche (8.61) ed `e es-


tremale in [0, T ].

Dimostrazione. Il ragionamento euristico svolto precedentemente, unito


alla condizione di normalit`a, prova che se (u, ) `e estremale allora soddisfa
(8.60), (8.61).
Viceversa, se u `e dato da (8.60), per un certo y e per ogni j, allora verica
(8.61) e, posto z = yeT A e denotato con u il generico controllo ammissibile,
si ha:
Z T
TA TA
z (T ) = z (e x0 + e esA Bu(s) ds) =
0
Z T Z T
sA
= y x0 + ye Bu(s) ds y x0 + yesA Bu(s) ds =
0 0
Z T
= z (eT A x0 + eT A esA Bu(s) ds)
0

questa disuguaglianza mostra che z `e normale a F (T ) in (T ), e quindi che


(T ) F (T ). Tenuto conto della Proposizione 8.9, viene che `e estremale
in [0, T ].


Osservazione 8.3 Viene come conseguenza del teorema precedente che i


controlli estremali sono bangbang e costanti a tratti, inoltre i switching
possono avvenire solo per t M
j=1 Zj , con Zj `
e denito come nellenunciato
del teorema.

Osservazione 8.4 Il controllo denito da (8.60) non cambia se variamo y


per una costante moltiplicativa positiva. Conseguentemente il parameto y
pu`o essere preso di norma unitaria senza perdere alcuna informazione.

129
Vale il seguente risultato di unicit`a:

Teorema 8.10 Sia la dinamica normale, e t il tempo minimo di raggiung-


imento del bersaglio da x0 . Esiste uno ed un solo controllo ottimale. Tale
controllo `e bangbang e costante a tratti in [0, t ].

Dimostrazione. La esistenza viene dal Teorema 8.8. Il carattere costante


a tratti e bangbang dei controlli estremali `e stato provata nel Teorema 8.9.
Queste propriet`a valgono anche per gli ottimali in forza della Proposizione
8.10. Resta lunicit`a.
Per questo basta osservare che se, per assurdo, esistessero due distinti con-
trolli ottimali allora una loro qualsiasi combinazione convessa sarebbe ancora
tale. Ma una combinazione convessa di due controlli bangbang distinti non
`e pi`
u bangbang.


Esempio 8.5 Studiamo, per il problema del razzo unidimensionale, la funzione

s 7 yesA B

al variare del parametro y = (y1 , y2 ) in IR2 \ {(0, 0)}. Ricordiamo che


   
0 1 0
A= , B=
0 0 1

e = [1, 1].
Dato che A `e nilpotente di ordine 2 viene

etA = I + tA per ogni t,

da cui
yetA B = y1 t + y2 .
Questa funzione pu` o avere al massimo uno zero. Conseguentemente, tenuto conto
della teoria sviluppata sopra, ricaviamo linformazione che il controllo ottimale, per
qualsiasi punto iniziale, anzi pi`
u in generale ogni controllo estremale, pu` o avere al
massimo un punto di switching.
Sono rilevanti gli insiemi

+ = {(x1 , x2 ) : x2 0 , x1 = (x2 )2 /2}


= {(x1 , x2 ) : x2 0 , x1 = (x2 )2 /2}

La curva + sconnette il piano in due regioni. Si vede che i punti appartenenti


alla inferiore raggiungono il bersaglio con un controllo bangbang del tipo 1/ 1,

130
quelli della regione superiore con un controllo 1/ + 1, i punti di e + hanno
come controllo ottimale il controllo costante 1 e +1, rispettivamente. La curva
:= + `e la curva di switching, nel senso che ogni traiettoria estremale ha
un switching solo nellistante in cui interseca .

Esempio 8.6 Applichiamo la teoria sviluppata in questa sezione al pendolo con-


trollato. Ricordiamo che in questo caso
   
0 1 0
A= , B=
1 0 1

= [1, 1]. La matrice esponenziale `e data da


 
At cos t sin t
e = ,
sin t cos t

conseguentemente viene

yeAt B = y1 sin t + y2 sin t. (8.62)

Prendendo y di norma unitaria, vedi lOsservazione 8.4, esiste un angolo [0, 2[


per cui y1 = cos , y2 = sin , otteniamo cos` da (8.62)

yeAt B = cos sin t + sin sin t = sin(t + ).

Dato che tale funzione si annulla con periodicit` a , ricaviamo linformazione ril-
evante che su ogni curva ottimale deve intercorrere esattamente un tempo tra
due switchig successivi.
Si vede che quando il controllo `e costantemente uguale a 1 ( rispettivamente a
1) le traiettorie corrispondenti della dinamica sono circonferenze centrate in (0, 1)
(rispettivamente (0, 1)) e percorse in senso orario. Quindi ogni curva ottimale `e
costituita da semicirconferenze alternativamente dei due tipi, o frazioni di esse se
il bersaglio venisse raggiunto prima di aver compiuto la met` a di un giro.
In questo caso la curva di swittching `e data dallunione delle semicirconferenze
di raggio unitario centrate in (0, 2k + 1), k IN, in cui i punti hanno ordinata
negativa e delle semicirconferenze di raggio unitario centrate in (0, (2k + 1)),
k IN, in cui i punti hanno ordinata positiva.

131
Riferimenti bibliografici
[1] L. D. Berkovitz, Convexity and Optimization in IRN , John Wiley
& Sons, 2002.

[2] P.G. Ciarlet, Introduzione allanalisi numerica matriciale e allot-


timizzazione. Masson 1989.

[3] G. Demange, J.C. Rochet, Methodes matematiques de la nance.


Ed. Economica, 1997.

[4] L.C. Evans, An introduction to mathematical optimal control theory,


http://math.berkeley.edu/evans

[5] D. Gale, The theory of linear economic models.McGraw-Hill, 1960.

[6] F.R. Giordano, M.D. Weir, W.P. Fox, A rst course in


mathematical modelling. Brooks/Cole 1997.

[7] J. Macki, A. Strauss, Introduction to optimal control theory,


SpringerVerlag, New York, 1982.

[8] T.S. Motzkin, Selected papers. Basel Birkhauser 1983.

[9] J. Nocedal, S.J.Wright, Numerical Optimization. Springer, 1999.

[10] T. R. Rockafellar, Convex Analysis. Princeton University Press,


1970.

132