Calcolo Differ RN 2

Potrebbero piacerti anche

Scarica in formato pdf o txt
Scarica in formato pdf o txt
Sei sulla pagina 1di 45

Versione 2.6.

(6 maggio 2024)

CALCOLO DIFFERENZIALE IN PIÙ VARIABILI

LIBOR VESELY

Sommario. [Avvertenza.] Questa dispensa non è un libro di testo. Si tratta di


appunti per le mie lezioni di Analisi matematica 2 per il corso di laurea triennale
in Matematica presso il Dipartimento di Matematica dell’Università degli Studi di
Milano. Questi appunti contengono solo la parte teorica del Calcolo differenziale
in più variabili contenuta nel programma del corso; mancano quasi del tutto
gli esempi pratici fatti a lezione ed esercizi. Per questo motivo, gli studenti
sono incoraggiati a seguire regolarmente le lezioni e le esercitazioni del corso e
consultare gli esempi contenuti nei libri di testo indicati per il corso.
In Analisi matematica 1 avete studiato il Calcolo differenziale per funzioni reali
di una variabile reale. Nel Calcolo differenziale in più variabili svilupperemo delle
nozioni e tecniche analoghe anche per funzioni (scalari e/o vettoriali) definite su
(sottoinsiemi di) spazi euclidei di qualsiasi dimensione finita.

Indice
1. Spazi euclidei 2
1.1. Norma euclidea, prodotto scalare 2
1.2. Altre norme su Rn 3
1.3. Applicazioni lineari tra spazi euclidei 6
2. Ripasso: limiti e funzioni continue 7
2.1. Il punto all’infinito. 9
2.2. Sull’uso delle coordinate polari nel calcolo di limiti 9
3. Derivate direzionali, derivate parziali, vettore gradiente 10
4. Differenziabilità 12
4.1. Differenziabilità di funzioni scalari 13
4.2. Differenziabilità di funzioni vettoriali 17
4.3. Differenziabilità di funzioni composte 18
4.4. Cenni ai diffeomorfismi 20
4.5. Stime dell’incremento e applicazioni 21
4.6. Un approfondimento (per gli studenti interessati) 26
5. Derivate parziali seconde, la matrice Hessiana 28
6. Derivate di ordine superiore, le classi C k e C ∞ 30
7. Sviluppi di Taylor 31
7.1. Differenziabilità di ordine successivo 31
7.2. Sviluppi con il resto secondo Lagrange 32
7.3. Sviluppi con il resto secondo Peano 34
7.4. Unicità dello sviluppo 36
8. Ottimizzazione libera 37
8.1. Punti stazionari, estremanti, punti di sella 37
8.2. Applicazioni della compattezza 38
8.3. Forme quadratiche e matrici simmetriche – cenni 40
8.4. Condizioni sufficienti per estremanti 43
1
2 LIBOR VESELY

1. Spazi euclidei
Sia n ≥ 1 un numero intero. Lo spazio euclideo (reale) di dimensione n è il
prodotto cartesiano
Rn := R
| × ·{z
· · × R}
n volte
di cui gli elementi (chiamati punti o vettori) sono le n-uple ordinate
x = (x1 , . . . , xn )
di numeri reali.

Bisogna tener presente che, nelle varie formule algebriche (coinvolgenti matrici), gli
elementi di Rn vanno considerati come dei vettori colonna
 
x1
 .. 
x =  . .
xn

Lo spazio Rn è uno spazio vettoriale di dimensione n, di cui una base algebrica


(detta base standard o base canonica) è composta dai vettori
ek := (0, . . . , 0, 1, 0, . . . , 0) dove 1 compare nella k-esima posizione (1 ≤ k ≤ n).
Notiamo che allora x = nk=1 xk ek per ogni x ∈ Rn .
P

1.1. Norma euclidea, prodotto scalare.


Definizione 1.1. Uno spazio vettoriale normato reale (o brevemente spazio norma-
to) è uno spazio vettoriale reale V sul quale è definita una funzione
∥ · ∥ : V → R,
detta norma, che soddisfi le seguenti proprietà:
(a) [non negatività]: ∥x∥ ≥ 0 per ogni x ∈ V ;
(b) [annullamento]: ∥x∥ = 0 se e solo se x = 0 (il vettore nullo);
(c) [assoluta omogeneità]: ∥αx∥ = |α| ∥x∥ per ogni x ∈ V e α ∈ R;
(d) [subadditività]: ∥x + y∥ ≤ ∥x∥ + ∥y∥ per ogni x, y ∈ V .
La proprietà di subadditività viene anche chiamata la disuguaglianza triangolare.

Osservazione 1.2. Ogni spazio normato V ha le seguenti proprietà.


(a) ∥x − y∥ ≤ ∥x∥ + ∥y∥.
(b) ∥x∥ − ∥y∥ ≤ ∥x − y∥.
(Infatti, ∥x∥ − ∥y∥ = ∥(x − y) + y∥ − ∥y∥ ≤ ∥x − y∥ + ∥y∥ − ∥y∥ = ∥x − y∥ e
analogamente ∥y∥ − ∥x∥ ≤ ∥x − y∥.)
(c) La formula d(x, y) := ∥x − y∥ definisce una metrica su V , detta la metrica
generata dalla norma. La proprietà (b) dice che, in questa metrica, la norma
∥ · ∥ è una funzione lipschitziana e quindi continua.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 3

Se non specificato altrimenti, considereremo su Rn la norma euclidea


∥x∥ ≡ ∥x∥2 := (x21 + · · · + x2n )1/2 .
Geometricamente, ∥x∥ è la distanza di x dall’origine. La metrica generata da questa
norma euclidea è la metrica euclidea
n
!1/2
X
d(x, y) = (xi − yi )2 .
i=1

I vettori v ∈ Rn con ∥v∥ = 1 vengono chiamati versori.


Il prodotto scalare (o prodotto interno) di due vettori x, y ∈ Rn è il numero reale
x • y := x1 y1 + · · · + xn yn .
Sono ben note le seguenti proprietà.
(a) x • y = y • x.
(b) Per ogni fissato y ∈ Rn , la funzione x 7→ x • y (x ∈ Rn ) è lineare.
(c) x • x = ∥x∥2 .
(d) |x • y| ≤ ∥x∥ ∥y∥ (la disuguaglianza di Cauchy-Schwarz).
Si tenga presente che la disuguaglianza di Cauchy-Schwarz, valida per la norma
euclidea, non vale per tutte le norme.
Se x, y ∈ Rn \ {0} allora l’angolo θ ∈ [0, π] tra i vettori x, y è determinato da
x•y
cos θ = .
∥x∥ ∥y∥
In particolare, x, y sono ortogonali (o perpendicolari) tra loro se e solo se x • y = 0.

Osservazione 1.3. Dato un vettore x ∈ Rn \ {0} si ha che


x
max (x • v) = x • v̄ = ∥x∥ e min (x • v) = x • (−v̄) = −∥x∥ dove v̄ := .
∥v∥=1 ∥v∥=1 ∥x∥
(La disuguaglianza di Cauchy-Schwarz implica che per ogni versore v si ha che x•v ≤
∥x∥. Per il versore v̄ abbiamo x • v̄ = ∥x∥−1 (x • x) = ∥x∥. Da qui la prima parte.
La seconda parte si ottiene in modo simmetrico.)

1.2. Altre norme su Rn .

Oltre alla norma euclidea ∥ · ∥ ≡ ∥ · ∥2 , vengono spesso utilizzate le seguenti norme.


• ∥x∥1 := |x1 | + · · · + |xn | e ∥x∥∞ := max1≤i≤n |xi |. È facile mostrare che esse
sono delle norme. Inoltre, ognuna delle norme ∥·∥2 , ∥·∥1 , ∥·∥∞ è maggiorata
da un multiplo positivo di ognuna delle altre due. Infatti,
(1) ∥x∥∞ ≤ ∥x∥2 ≤ ∥x∥1 ≤ n∥x∥∞
(dove la prima e la terza disuguaglianza sono molto facili, mentre la seconda
disuguaglianza si ottiene facilmente elevando al quadrato).
Dalle disuguaglianze (1) segue facilmente che una successione {xk }k ⊂ Rn
converge a x ∈ Rn in una qualsiasi delle tre norme in (1) se e solo se
xk − x → 0 in quella norma se e solo se xk → x per coordinate (cioè, per
k
ogni i = 1, . . . , n fissato, si ha (xk )i → xi ). [Dimostratelo!]
4 LIBOR VESELY

• Più in generale, per ogni 1 ≤ p < +∞ possiamo definire


1/p
∥x∥p := |x1 |p + · · · + |xn |p .
Anche questa è una norma su Rn , ma la dimostrazione della disuguaglianza
triangolare (chiamata disuguaglianza di Minkowski) richiede la conoscenza
della disuguaglianza di Hőlder (che vedrete in uno dei successivi corsi di
Analisi Matematica).
Commento. Per 0 < p < 1, ∥ · ∥p non è una norma su Rn con n > 1. Per questi
piccoli p, è però possibile dimostrare che la formula dp (x, y) = ∥x − y∥pp definisce
una metrica.

Esempio 1.4. Esempi di altre norme su R3 :


p
• |||(x, y, z)||| = 3|x| + 2 2
 2x + 5y ;
• |||(x, y, z)||| = max |x| + 4|y|, |z| ;
1/2
• |||(x, y, z)||| = x2 + (|y| + |z|)2

;
1/2
• |||(x, y, z)||| = (x + 2y) + 3(x − y)2
2

.

Un approfondimento.
A proposito delle disuguaglianze (1), in realtà vale il semplice ma importante
teorema generale, Teorema 1.5. Prima di enunciarlo introduciamo la nozione di
equivalenza di due norme. Diciamo che due norme | · | e ||| · ||| su uno spazio vettoriale
V sono equivalenti se esistono due costanti α, β > 0 tali che
α|x| ≤ |||x||| ≤ β|x| per ogni x ∈ V .
È facile vedere che se due norme sono equivalenti, allora le corrispondenti metriche
generano gli stessi insiemi aperti/chiusi e quindi anche le stesse successioni conver-
genti e di Cauchy. Quindi dal punto di vista dei limiti, di continuità e simili (le
cosiddette proprietà topologiche), è indifferente quale delle due norme utilizziamo.
Si vede facilmente che l’equivalenza di norme è davvero una relazione di equivalenza
sull’insieme di tutte le norme su V (cioè, è una relazione riflessiva, simmetrica e
transitiva). Dalla (1) quindi segue che le le norme ∥ · ∥1 , ∥ · ∥2 e ∥ · ∥∞ su Rn sono
tra loro equivalenti. Ecco il teorema generale promesso.

Teorema 1.5. Ogni due norme su Rn sono tra loro equivalenti.


Dimostrazione. Dimostriamo che una qualsiasi norma ||| · ||| è equivalente alla norma euclidea
∥ · ∥. Sia {e1 , . . . , en } ⊂ Rn la base canonica. Allora per ogni x ∈ Rn
n
X n
X
|||x||| = xi ei ≤ |xi | |||ei ||| ≤ c∥x∥1
i=1 i=1

dove c := max{|||e1 |||, . . . , |||en |||}. Dalla (1) otteniamo che


|||x||| ≤ cn∥x∥ per ogni x ∈ Rn .
Ora, dall’Osservazione 1.2 segue la disuguaglianza
|||x||| − |||y||| ≤ |||x − y||| ≤ cn∥x − y∥
che dimostra che la funzione ||| · ||| è continua (rispetto alla norma euclidea).
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 5

L’insieme S := {x ∈ Rn : ∥x∥ = 1}, la superficie sferica di raggio 1 (ovvero l’insieme dei


versori), è chiuso e limitato e quindi compatto; e su S la norma ||| · ||| ha valori non nulli. Per
il teorema di Weierstrass,
α := min |||x||| > 0.
x∈S
x
Per ogni x ∈ Rn \ {0}, abbiamo ∥x∥ ∈ S e quindi
x x
|||x||| = ∥x∥ · = ∥x∥ · ≥ ∥x∥ · α.
∥x∥ ∥x∥
Siccome la disuguaglianza |||x||| ≥ α∥x∥ è ovvia per x = 0, la dimostrazione è completa. □

Commento 1.6. In realtà, è noto il seguente risultato ancora più generale. Sia V uno
spazio vettoriale (reale o complesso). Se V ha dimensione finita, allora tutte le norme su V
sono tra loro equivalenti. Se invece V ha dimensione infinita, esistono su V due norme non
equivalenti tra loro.
Lo studente motivato può provare a dedurre il risultato generale finito-dimensionale dal
Teorema 1.5.

Esempio 1.7. Esempi di altri spazi normati:


• Lo spazio vettoriale B(E) delle funzioni (reali) limitate su un insieme E,
munito della norma
∥f ∥∞ := sup |f (x)| .
x∈E

• Lo spazio C[a, b] delle funzioni continue su un intervallo [a, b], con una delle
norme
Z b Z b 1/2
2
∥f ∥1 := |f (x)| dx , ∥f ∥2 := [f (x)] dx .
a a
(Lo studente motivato può provare a dimostrare che queste due norme non
sono tra loro equivalenti.)
• Lo
P spazio vettoriale ℓ2 delle successioni di numeri reali (xk )k tali che la serie
(x )2 converga, con la norma
k k

+∞
!1/2
X
(xk )k = (xk )2 .
k=1

Esercizio 1.8. Dimostrate la seguente proprietà che giustifica la notazione ∥ · ∥∞ .


Per ogni x ∈ Rn fissato,
lim ∥x∥p = ∥x∥∞ .
p→+∞
1/p
(Suggerimento. Osservate che ∥x∥∞ ≤ ∥x∥p ≤ p · ∥x∥p

.)

Osservazione 1.9. È utile osservare che, per ogni norma ||| · ||| su Rn , le seguenti
affermazioni sono equivalenti:
(i) xk → x in (Rn , ||| · |||);
(ii) xk − x → 0 in (Rn , ||| · |||);
(iii) |||xk − x||| → 0;
6 LIBOR VESELY

k
(iv) ∀i = 1, . . . , n (fissato), (xk )i −→ xi (in R) (cioè, i vettori xk convergono al
vettore x per coordinate).
Dimostrazione. Le equivalenze (i) ⇔ (ii) ⇔ (iii) sono ovvie. Grazie al Teorema 1.5,
la norma ||| · ||| è equivalente alla norma euclidea ∥ · ∥, perciò è sufficiente [perché?]
dimostrare il caso euclideo. L’implicazione (iv) ⇒ (iii) segue dalle proprietà generali
dei limiti. Per vedere l’implicazione (iii) ⇒ (iv), fissiamo 1 ≤ i ≤ n e osserviamo
che |(xk )i − xi | ≤ ∥xk − x∥∞ ≤ ∥xk − x∥ → 0. □

1.3. Applicazioni lineari tra spazi euclidei.


Il termine funzionale lineare denota un’applicazione lineare a valori scalari (nel
nostro caso, reali).
Dall’Algebra lineare sapete che ogni funzionale lineare ℓ : Rn → R può essere
rappresentato tramite un vettore a ∈ Rn :
(2) ℓx = x • a (x ∈ Rn ).
Più precisamente, la formula (2) definisce una corrispondenza lineare biunivoca tra lo
spazio vettoriale (Rn )′ dei funzionali lineari su Rn , detto il duale (algebrico) di Rn , e
lo spazio Rn stesso. Per tale rappresentazione, la disuguaglianza di Cauchy-Schwarz
implica che
|ℓx| ≤ ∥a∥ · ∥x∥ per ogni x ∈ Rn .
Mostriamo ora una disuguaglianza simile anche per le mappe (applicazioni) lineari
a valori vettoriali.
Siano n, m ∈ N. Dall’Algebra lineare sappiamo che vi è una corrispondenza biu-
nivoca tra le mappe lineari L : Rn → Rm e le matrici L del tipo m × n (m righe e n
colonne) in modo che
L(x) = Lx (x ∈ Rn ).
Ora, denotando con ai,j (i = 1, . . . , m, j = 1, . . . , n) i termini della matrice L e
definendo
ai := (ai,1 , . . . , ai,n ) (1 ≤ i ≤ m)
(che è il vettore della i-esima riga della matrice L), osserviamo che
Lx = a1 • x, . . . , am • x ∈ Rm (x ∈ Rn ).


Per ogni x ∈ Rn possiamo maggiorare


m
!1/2 m
!1/2 m
!1/2
X 2 X X
∥ai ∥2 ∥x∥2 ∥ai ∥2

∥Lx∥Rm = ai • x ≤ = · ∥x∥
i=1 i=1 i=1
 1/2
m X
n
X  2
= ai,j  · ∥x∥ .
i=1 j=1

Convenzione. D’ora in poi, non faremo distinzione grafica tra l’applicazione


lineare L e la matrice L che la rappresenta: denoteremo entrambe con lo stesso
simbolo L.
Abbiamo quindi dimostrato il seguente lemma.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 7

Lemma 1.10. Data una matrice L = (ai,j ) del tipo m × n (ovvero un’applicazione
lineare L : Rn → Rm ), sia
 1/2
m X
X n
∥L∥2 :=  a2i,j  ,
i=1 j=1

cioè, la norma euclidea della matrice L vista come un elemento di Rmn . Allora
(3) ∥Lx∥ ≤ ∥L∥2 ∥x∥ per ogni x ∈ Rn .

Corollario 1.11. Ogni applicazione lineare L : Rn → Rm è lipschitziana con la


costante di Lipchitz ∥L∥2 . (Infatti, ∥Lx − Ly∥ = ∥L(x − y)∥ ≤ ∥L∥2 ∥x − y∥.)

2. Ripasso: limiti e funzioni continue


Come già osservato, le disuguaglianze (1) facilmente implicano che la convergenza
di successioni in Rn coincide con la loro convergenza per coordinate, cioè, una suc-
cessione (xk )∞ n n
1 di elementi di R converge a a ∈ R (cioè, ∥xk − a∥ → 0) se e solo
se per ogni i = 1, . . . , n la successione (xk )i converge per k → +∞ a ai . (Avrete
indovinato che (xk )i denota la i-esima componente del vettore xk .)
L’equivalenza della convergenza in Rn con la convergenza per coordinate inoltre
implica che, per un insieme C ⊂ Rn , vale l’equivalenza
C è compatto ⇔ C è chiuso e limitato.
(Attenzione: questa equivalenza vale in Rn , ma non in generale. L’implicazione “⇒”
vale in ogni spazio metrico, mentre l’implicazione inversa è falsa, ad esempio, in:
(i) ogni spazio metrico discreto infinito; (ii) in ogni spazio normato di dimensione
infinita.)

Ripasso. Ricordiamo la definizione di limite e continuità. Siano: E ⊆ Rn un


insieme, a ∈ Rn un suo punto di accumulazione e F : E → Rm .
• Diciamo che
lim F (x) = y0 ∈ Rm
x→a
x∈E
se
 
∀ε > 0, ∃δ > 0, ∀x ∈ E, 0 < ∥x − a∥ < δ ⇒ ∥F (x) − y0 ∥ < ε .
Ciò equivale a dire che per ogni successione {xk }k contenuta in E \ {a} vale
l’implicazione
xk → a ⇒ F (xk ) → y0 .
• Supponiamo inoltre che a ∈ E (e quindi F è definita anche in a). Diciamo
che F è continua in a se
lim F (x) = F (a),
x→a
x∈E
cioè,
 
∀ε > 0, ∃δ > 0, ∀x ∈ E, ∥x − a∥ < δ ⇒ ∥F (x) − F (a)∥ < ε ,
8 LIBOR VESELY

o equivalentemente, per ogni successione (xk )∞


1 contenuta in E vale l’impli-
cazione
xk → a ⇒ F (xk ) → F (a).

Il seguente esempio-esercizio mostra che il limite/continuità per rette e il limi-


te/continuità in più variabili non sono la stessa cosa (anche se il secondo implica il
primo).

Esempio 2.1. Definiamo f : R2 → R con


( 2
x y
x4 +y 2
per (x, y) ̸= (0, 0),
f (x, y) =
0 per (x, y) = (0, 0).

Dimostrate che f è continua per rette nell’origine (cioè, per ogni versore (u, v) ∈ R2
la funzione R ∋ t 7→ f (tu, tv) è continua in 0), ma f non è continua in (0, 0) e
addirittura non ammete limite per (x, y) → (0, 0) (a tal fine, considerate il limite
lungo uno degli assi e lungo la parabola y = x2 ).

Commento 2.2 (A proposito di “o piccolo” e “asintotico”).


Siano: A ⊂ Rn un insieme aperto, F : A → Rm , g : A → R e a ∈ A. Allora
scriviamo che
F (x) = o(g(x)) per x → a
se vengono soddisfatte le seguenti condizioni:
(a) esiste r > 0 tale che Br (a) ⊂ A e g(x) ̸= 0 per ogni x ∈ Br (a) \ {a};
(b) limx→a Fg(x)
(x)
= 0.
Notiamo che, per x → a e sotto l’ipotesi (a), valgono le seguenti equivalenze: F (x) =
o(g(x)) se e solo se ∥F (x)∥ = o(g(x)) se e solo se ∥F (x)∥ = o(|g(x)|) se e solo se
F (x) = g(x)o(1).
p
Attenzione. L’affermazione sin x = p o( |x|) (vera in R per x → 0) non è più vera
in R2 per (x, y) → (0, 0), in quanto |x| non soddisfa la condizione (a) (si annulla
lungo l’asse delle y !). In questo caso, possiamo comunque scrivere

sin x = |x| · o(1) ∗ per (x, y) → (0, 0).


p

sin x
p
Infatti, sin x = |x|·ω(x, y) dove ω(x, y) := √ per x ̸= 0, e ω(0, y) := 0, e inoltre,
|x|
lim(x,y)→(0,0) ω(x, y) = 0 [perché?].
Analogamente, mentre log(1 + t) ∼ t per t → 0, la scrittura “ log(1 + x + y) ∼ x + y
per (x, y) → (0, 0) ” è problematica. Possiamo, però, scrivere:
log(1 + x + y) = (x + y)(1 + o(1)) per (x, y) → (0, 0).

∗Notiamo che il simbolo o(1) denota semplicemente qualche quantità che tende a zero.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 9

2.1. Il punto all’infinito. A volte vengono utilizzati anche dei limiti nel “punto
all’infinito” che è un punto aggiunto a Rn , e denotato con ∞, tale che d(x, ∞) = +∞
per ogni x ∈ Rn . Gli intorni (più precisamente, una base degli intorni) di ∞ sono
definiti come gli insiemi
Br (∞) := Rn \ Br (0) = {x ∈ Rn : ∥x∥ > r} con r > 0.
In questo modo,
lim f (x) = ℓ ∈ R
x→∞
significa che  
∀ε > 0, ∃r > 0, ∥x∥ > r ⇒ |f (x) − ℓ| < ε ,

il che può essere scritto anche come


lim f (x) = ℓ.
∥x∥→+∞

Lascio a voi il facile compito di formulare la definizione dei limiti


lim f (x) = +∞ e lim f (x) = −∞.
x→∞ x→∞

Per quanto riguarda successioni, una successione {xk }k ⊂ Rn tende a ∞ se e solo


se ∥xk ∥ → +∞. Inoltre, ciò è equivalente a ciascuna delle seguenti due affermazioni:
(a) per ogni a ∈ Rn , ∥xk − a∥ → +∞; (b) per qualche a ∈ Rn , ∥xk − a∥ → +∞.
(Dimostratelo come un piccolo esercizio!)
Attenzione. Nel caso di n = 1, cioè in R, bisogna fare una chiara distinzione tra i
due infiniti con segno ±∞ e l’unico punto all’infinito ∞ (non avente alcun segno).

Osservazione 2.3. Notiamo le seguenti proprietà, formulate qui per R2 .


(a) (xk , yk ) → (0, 0) in R2 ⇐⇒ xk → 0 e yk → 0 in R.
(b) (xk , yk ) → ∞ in R2 ̸=⇒ |xk | → +∞ e |yk | → +∞ in R. [Trovate un esempio!]
(c) (xk , yk ) → ∞ in R2 ̸=⇒ |xk | → +∞ oppure |yk | → +∞ in R. [Idem.]
(d) (xk , yk ) → ∞ in R2 ⇐⇒ max{|xk |, |yk |} → +∞ in R.

2.2. Sull’uso delle coordinate polari nel calcolo di limiti. Come già saprete,
ogni punto (x, y) ∈ Rn tale che (x, y) ̸= (0, 0) è univocamente determinato dalle sue
cosiddette coordinate polari (ρ, θ). Geometricamente, ρ > 0 è la distanza del punto
(x, y) dall’origine, mentre θ ∈ R è l’angolo orientato misurato in senso antiorario dal
semi-assep positivo delle x alla semiretta dall’origine passante per (x, y). In partico-
lare, ρ = x2 + y 2 . Inoltre, l’angolo θ ∈ R è unico soltanto a meno di multipli interi
di 2π. Per avere l’unicità di θ, dobbiamo limitarci a considerare gli angoli θ appar-
tenenti ad un intervallo semi-aperto di lunghezza 2π. Vi sono due scelte “standard”:
[0, 2π) oppure (−π, π].
Le coordinate polari sono date da:
(
x = ρ cos θ,
y = ρ sin θ.
def.
Nella teoria dei numeri complessi, x+iy = ρeiθ = ρ(cos θ +i sin θ) che sono la forma
esponenziale e trigonometrica del numero complesso x + iy ̸= 0.
10 LIBOR VESELY

Consideriamo ora il limite


(4) lim f (x, y) = ℓ ∈ R.
(x,y)→(0,0)

Siccome la definizione di limite dipende solo dalle distanze (e non dalle direzioni),
nelle coordinate polari dobbiamo assicurarci che il limite di f (ρ cos θ, ρ sin θ) per
ρ → 0+ sia uniforme rispetto a θ. (Non è sufficiente che tale limite sia ℓ per ogni θ
fissato!)
Dal punto di vista pratico, dimostrare che vale (4), equivale a trovare una funzione
φ = φ(ρ) ≥ 0 tale che
|f (ρ cos θ, ρ sin θ) − ℓ| ≤ φ(ρ) → 0 per ρ → 0+ e ogni θ.
Analogamente, dimostrare che
(5) lim f (x, y) = ℓ ∈ R,
(x,y)→∞

equivale a trovare una funzione φ = φ(ρ) ≥ 0 tale che


|f (ρ cos θ, ρ sin θ) − ℓ| ≤ φ(ρ) → 0 per ρ → +∞ e ogni θ.

3. Derivate direzionali, derivate parziali, vettore gradiente


In quanto segue, supponiamo che A ⊂ Rn sia un insieme aperto, a ∈ A un suo
punto e F : A → Rm una funzione. Dato un versore v ∈ Rn (cioè, ∥v∥ = 1), diciamo
che F è derivabile nel punto a lungo la direzione v se esiste (in Rm ) il limite
F (a + tv) − F (a)
(6) Dv F (a) := lim .
t→0 t
In tal caso, il vettore Dv F (a) viene detto la derivata direzionale di F in a lungo v.
Altre notazioni per Dv F (a) :
∂F
(a) , Fv (a) .
∂v
Sottolineiamo che, nel caso di funzioni a valori scalari, il limite (6) deve esistere
finito. Si noti che siccome A è un insieme aperto, il rapporto incrementale in (6) è
definito per ogni t ∈ R \ {0} sufficientemente piccolo.

Commento 3.1. In realtà, la definizione di Dv F (a) può essere estesa ad un qualsiasi


vettore v ∈ Rn , non necessariamente di norma uno. Come esercizio, dimostrate che
allora per ogni β ∈ R e ogni v ∈ Rn si ha che Dβv F (a) = βDv F (a).

Osservazione 3.2. Grazie al fatto che la convergenza in Rm coincide con la con-


vergenza per coordinate, la definizione delle derivate direzionali si riduce al caso di
funzioni scalari: se F è a valori in Rm e quindi F (x) = (F1 (x), . . . , Fm (x)) allora
Dv F (a) = Dv F1 (a), . . . , Dv Fm (a) .
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 11

Il significato di Dv f (a). Siano A e a come sopra, sia f : A → R una funzione


scalare e v un versore di Rn . Allora la derivata direzionale Dv f (a) esiste se e solo se
“la restrizione di f alla retta per a parallela a v è derivabile in a”, o più precisamente,
se e solo se la funzione φ(t) := f (a + tv) (definita per ogni sufficientemente piccolo
t ∈ R) è derivabile in 0. In tal caso, Dv f (a) = φ′ (0).

Esempio 3.3. La funzione f dell’Esempio 2.1 è derivabile nell’origine lungo ogni


versore, ma come abbiamo visto, essa non è continua nell’origine.
Questo è un primo segno dell’insufficienza delle derivate direzionali per questioni
indipendenti da direzioni.
Dimostrazione. Ricordiamo che
x2 y
(
x4 +y 2
per (x, y) ̸= (0, 0),
f (x, y) =
0 per (x, y) = (0, 0).
Sia v = (α, β) un versore di R2 , cioè, α2 + β 2 = 1. Allora
f (αt, βt) − 0 1 α2 βt3
Dv f (0, 0) = lim = lim .
t→0 t t→0 t α4 t4 + β 2 t2

Quindi: per β = 0, si ha chiaramente Dv f (0, 0) = 0; e per β ̸= 0, possiamo scrivere


2 3 2
Dv f (0, 0) = limt→0 1t αβ 2βt
t2
= αβ . □

Le derivate parziali. Siano A, F, a come sopra. Dato i ∈ {1, . . . , n}, la deriva-


ta parziale i-esima (o la derivata parziale rispetto alla variabile xi ) è la derivata
direzionale
Dei F (a)
dove ei è l’ i-esimo versore della base canonica di Rn . Essa viene denotata in uno dei
seguenti modi:
∂F
(a) , Dxi F (a) , Fxi (a) .
∂xi

Esempio 3.4. Sia f = f (x, y, z) una funzione a valori reali definita in un aperto
contenente il punto (x0 , y0 , z0 ). Allora
∂f f (x0 , y0 + t, z0 ) − f (x0 , y0 , z0 )
(x0 , y0 , z0 ) = lim
∂y t→0 t
f (x0 , y, z0 ) − f (x0 , y0 , z0 )
= lim
y→y0 y − y0
 ′
= f (x0 , ·, z0 ) (y0 ).
Quindi, derivare f rispetto a y significa “tenere fissi x, z (come se fossero dei para-
metri) e derivare la funzione di una sola variabile y”. Ad esempio, se
f (x, y, z) = xy 2 z 3 − log(1 + y 2 + x4 z 4 )
allora
2y
fy (x, y, z) = 2xyz 3 − .
1 + y 2 + x4 z 4
12 LIBOR VESELY

Il gradiente. Siano A, a come sopra e sia f : A → R una funzione derivabile in a


rispetto a tutte le n variabili. Il vettore gradiente (o il gradiente) di f in a è il vettore

∇f (a) = fx1 (a), . . . , fxn (a) ,
cioè, il “vettore delle derivate parziali”. (Il simbolo ∇ si legge nabla ed è una specie
di lettera greca ∆ (delta maiuscola) capovolta.) A volte, il gradiente di f in a viene
denotato con gradf (a).

4. Differenziabilità
Perché le derivate direzionali non sono sufficienti per un soddisfacente calcolo dif-
ferenziale? Il loro svantaggio consiste nel descrivere il comportamento locale della
funzione lungo ogni singola retta passante per il punto, senza descrivere il “compor-
tamento globale” nel punto. Esistono esempi in cui la derivabilità direzionale di due
funzioni non implica la derivabilità direzionale della loro composizione.
Come motivazione per la definizione della differenziabilità, ricordiamo che una
funzione reale φ di una sola variabile reale (definita in un intorno di a ∈ R) è
derivabile nel punto a se e solo se esiste un numero reale λ (che sarà poi la derivata
φ′ (a)) tale che
(7) φ(a + h) − φ(a) = λh + o(h) per h → 0.
Ovvero, l’incremento φ(a + h) − φ(a) coincide con l’applicazione lineare
ℓ : R → R, ℓ(h) = λh,
a meno di un errore trascurabile rispetto ad h quando h → 0. E questa è una
formulazione di derivabilità che può essere generalizzata anche al caso di funzioni di
più variabili.

Definizione 4.1. Siano: A ⊂ Rn un insieme aperto, a ∈ A, F : A → Rm . Diciamo


che F è differenziabile in a se esiste un’applicazione lineare L : Rn → Rm , detta
differenziale (più precisamente: il differenziale di F in a), tale che
(8) F (a + h) − F (a) = Lh + o(∥h∥) per h → 0 in Rn .

Osservazione 4.2. Consideriamo ora il caso particolare di n = m = 1. Siano


a ∈ I ⊂ R dove I è un intervalo aperto, e φ : I → R (come sopra). Allora φ è
differenziabile in a se e solo se φ è derivabile in a. In tal caso, il differenziale di f
in a è l’applicazione lineare ℓ : R → R, data da ℓ(h) = f ′ (a)h.
Si noti la differenza tra la derivata e il differenziale: la derivata è un numero reale,
mentre il differenziale è una funzione lineare.

Commento 4.3 (Sulla terminologia). Una funzione (o applicazione, o mappa) li-


neare L : Rn → Rm viene anche chiamata operatore lineare. Gli operatori lineari a
valori scalari vengono spesso chiamati funzionali lineari.

Allo scopo di rendere l’argomento più comprensibile, tratteremo prima il caso di


funzioni a valori scalari, per passare solo dopo al caso generale.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 13

4.1. Differenziabilità di funzioni scalari.


In quanto segue,
n

 A ⊂ R è un insieme aperto,

(9) a ∈ A è un suo punto,

 f : A → R è una funzione.

Quindi f è differenziabile in a se esiste un funzionale lineare ℓ : Rn → R tale che


f (a + h) − f (a) = ℓ(h) + o(∥h∥), h → 0.
Siccome il funzionale ℓ può essere rappresentato da un vettore λ ∈ Rn (in modo
che ℓ(x) = λ • x), possiamo anche dire che f è differenziabile in a se e solo se esiste
λ ∈ Rn tale che
(10) f (a + h) − f (a) = λ • h + o(∥h∥), h → 0.
Ponendo x = a + h, questa formula può essere riscritta come:
(11) f (x) − f (a) = λ • (x − a) + o(∥x − a∥), x → a.
È facile vedere che la (10) equivale alla formula
f (a + h) − f (a) − λ • h
lim = 0.
h→0 ∥h∥

Teorema 4.4 (Condizioni necessarie). Siano A, a, f come in (9) e supponiamo che


f sia differenziabile in a con il differenziale dato da un vettore λ ∈ Rn (cioè, che
valga (10)). Allora:
(a) f è continua in a;
(b) f è derivabile in a lungo tutte le direzioni e
Dv f (a) = λ • v per ogni versore v ∈ Rn ;
(c) λ = ∇f (a).
Dimostrazione. (a) Per h → 0 in Rn , la (10) implica che
|f (a + h) − f (a)| ≤ ∥λ∥ ∥h∥ + o(∥h∥) → 0.
(b) Applicando la (10) con h = tv (t ̸= 0), otteniamo
f (a + tv) − f (a) λ • (tv) + o(|t|)
= = λ • v + o(1) → λ • v per t → 0.
t t
(c) Per ogni i = 1, . . . , n, il punto precedente implica che
Dxi f (a) = λ • ei = λi .

Corollario 4.5 (Significato del gradiente). Sia f una funzione (scalare) differenzia-
bile in a. Allora:
(a) ∥∇f (a)∥ è il massimo valore di una derivata direzionale nel punto a;
∇f (a)
(b) e, se ∇f (a) ̸= 0, tale valore viene assunto per il versore v̄ = ∥∇f (a)∥ .
14 LIBOR VESELY

In parole povere, il vettore gradiente nel punto a determina la direzione della massima
crescita di f e la sua norma è “la velocità di crescita” in tale direzione.
Ciò segue direttamente dal Teorema 4.4(c) e dalla Osservazione 1.3.

Esempio 4.6. Il seguente esempio mostra che le condizioni necessarie (a)-(c) del
Teorema 4.4 non sono sufficienti per la differenziabilità:
( 3
x y
x 4 +y 2 per (x, y) ̸= (0, 0);
f (x, y) =
0 per (x, y) = (0, 0).
Ricordando la disuguaglianza† |αβ|
α2 +β 2
≤ 21 , possiamo maggiorare‡
x2 |y| 1
|f (x, y)| = x4 +y 2
|x| ≤ 2 |x| → 0 per (x, y) → (0, 0),
e quindi f è continua nell’origine.
Sia ora (u, v) un qualsiasi versore. Allora
f (tu, tv) − f (0, 0) t4 u3 v tu3 v
D(u,v) f (0, 0) = lim = lim 4 4 = lim .
t→0 t t→0 (t u + t2 v 2 )t t→0 t2 u4 + v 2

Per v = 0 otteniamo immediatamente che D(u,v) f (0, 0) = 0. Per v ̸= 0, abbiamo


tu3
D(u,v) f (0, 0) = lim = 0.
t→0 v
Abbiamo dimostrato che vale Teorema 4.4(b) per λ = (0, 0). Ne segue anche che
∇f (0, 0) = (0, 0) = λ.
Rimane da dimostrare che f non è differenziabile nell’origine. Se lo fosse, la
funzione
f (x, y) − f (0, 0) − ∇f (0, 0) • (x, y) x3 y
h(x, y) := = p
∥(x, y)∥ (x4 + y 2 ) x2 + y 2
tenderebbe a zero per (x, y) → (0, 0). Ma lungo la parabola y = x2 abiamo
x5 1 x
h(x, x2 ) =
√ ∼ ̸→ 0 per x → 0.
2x4 x2 + x4 2 |x|
Ciò dimostra la non differenziabilità di f in (0, 0).

Aggiungiamo un commento sulla terminologia. Se f soddisfa le condizioni (a)-(c) del


Teorema 4.4, essa viene a volte detta differenziabile secondo Gâteaux nel punto a; le funzioni
differenziabili in a nel senso definito da noi vengono invece chiamate differenziabili secondo
Fréchet. Quindi, secondo Teorema 4.4, la differenziabilità secondo Fréchet implica quella
secondo Gâteaux; e l’esempio qui sopra mostra che non vale il vice versa. Noi comunque
non utilizzeremo mai tale terminologia.
Commento 4.7 (Un approfondimento). Se f è lipschitziana in un intorno di a, allora la
sua Gâteaux-differenziabilità in a (cioè, le condizioni (a)-(c) del Teorema 4.4) è equivalente
alla differenziabilità di f in a. Gli studenti interessati possono trovare una dimostrazione
di questo fatto nella sottosezione 4.6 (l’ultima della presente sezione).
†È facile vedere che essa equivale alla disuguaglianza (|α| − |β|)2 ≥ 0.
‡A proposito della parola maggiorare. Data una quantità q, “maggiorare q” significa determinare
una quantità Q, magari più semplice o gestibile della q, tale che q ≤ Q. Analogamente, “minorare q”
vuol dire trovare una quantità γ tale che γ ≤ q. In altre parole: “maggiorare” = “stimare dall’alto”;
“minorare” = “stimare dal basso”.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 15

Iperpiano tangente. Siano A, a, f come in (9) e sia f differenziabile in a. Il grafico


di f è l’insieme
gr(f ) = {(x, y) ∈ Rn × R : x ∈ A, y = f (x)}.
Ad esempio, il grafico di una funzione continua reale su A ⊂ R2 è una superficie
bi-dimensionale nello spazio R3 , una specie di “paesaggio sopra l’insieme A”, dato
dall’equazione z = f (x, y), dove f (x, y) è “l’altitudine del punto nella posizione
(x, y) ∈ A”.
Ora possiamo definire l’iperpiano tangente al grafico di f nel punto (a, f (a)) come
l’iperpiano§ T ⊂ Rn × R dato dall’equazione
y = f (a) + ∇f (a) • (x − a).
In altre parole,
T = gr(h) dove h(x) = f (a) + ∇f (a) • (x − a) (con x ∈ Rn ).
La funzione h è una funzione affine, cioè, un funzionale lineare più una costante.
Dalla formula (11) abbiamo che la funzione affine h approssima f vicino al punto a
nel senso che
f (x) = h(x) + o(∥x − a∥), x → a.
Da qui segue che l’iperpiano T = gr(h) approssima il grafico di f nel senso che
dist(u, gr(f ))
(12) lim = 0.
u→(a,f (a)) ∥u − (a, f (a))∥
u∈T

Per dimostrare (12), scriviamo i punti u ∈ T nella forma (x, h(x)). Osserviamo che
(a, f (a)) = (a, h(a)) ∈ T e quindi: (x, h(x)) ̸= (a, f (a)) se e solo se x ̸= a; (x, h(x)) →
(a, f (a)) se e solo se x → a. Ora,
 
dist (x, h(x)), gr(f ) dist (x, h(x)), gr(f ) (x, h(x)) − (x, f (x))
0≤ ≤ ≤
(x, h(x)) − (a, f (a)) ∥x − a∥ ∥x − a∥
f (x) − h(x) f (x) − f (a) − ∇f (a) · (x − a)
= = →0 per x → a.
∥x − a∥ ∥x − a∥

Possiamo anche vedere l’iperpiano tangente al grafico di f nel punto (a, f (a))
(dove f è differenziabile in a) come l’iperpiano T ⊂ Rn × R composto dalle rette
tangenti al grafico delle restrizioni f |K nel punto (a, f (a)) al variare di tutte le rette
K ⊂ Rn passanti per il punto a. (Cioè, per ogni retta K contenente a, la retta
T ∩ (K × R) è la retta tangente al grafico di f |K nel punto di ascissa a.)

– – –

Dal punto di vista pratico, sarà importante conoscere delle condizioni sufficienti
per la differenziabilità di una funzione f in un punto a. Il Teorema del differen-
ziale totale (v. Corollario 4.9) afferma che se tutte le derivate parziali di f esistono
in un intorno di a e sono continue nel punto a, allora f è differenziabile in a.
§Ricordiamo che un iperpiano di uno spazio vettoriale V è un traslato di un sottospazio massimale
proprio di V , cioè, un traslato di un sottospazio di codimensione 1 in V . Ad esempio, ogni iperpiano
nello spazio euclideo Rd è della forma T = M + w dove M ⊂ Rd è un sottospazio di dimensione
d − 1 e w ∈ Rd .
16 LIBOR VESELY

Questo teorema seguirà direttamente dal seguente teorema più generale in cui è
sufficiente supporre che soltanto n − 1 delle n derivate parziali di f siano continue
in a (e la rimanente esista in a).

Teorema 4.8 (Condizione sufficiente, “Teorema generale del differenziale totale”).


Siano A, a, f come in (9) e sia k ∈ {1, . . . , n}. Supponiamo che:
∂f
(a) esista la derivata parziale ∂xk (a);
∂f
(b) le derivate parziali ∂xi
con i ̸= k esistano in tutti i punti di un intorno di a ed
esse siano continue nel punto a.
Allora f è differenziabile in a. ¶

Dimostrazione. Dimostriamo il caso di n = 2. Lo studente interessato può trovare


la dimostrazione generale appena dopo questa.
Abbiamo quindi un insieme aperto A ⊆ R2 , un punto (a, b) ∈ A e una funzione
f = f (x, y) definita in A tale che: esista fx (a, b), esista fy (x, y) per ogni (x, y) ∈
Bδ ((a, b)) ⊂ A e fy sia continua in (a, b).
Per Bδ ((0, 0)) ∋ (u, v) → (0, 0) possiamo scrivere:
   
f (a + u, b + v) − f (a, b) = f (a + u, b) − f (a, b) + f (a + u, b + v) − f (a + u, b)
   
= fx (a, b)u + u · o(1) + fy (a + u, b + θu v)v

per un opportuno 0 < θu < 1. Infatti, nella prima parentesi quadra della seconda
riga abbiamo usato soltanto la definizione della derivata (cfr. il testo prima della
Definizione 4.1), mentre nella seconda abbiamo applicato, con u fissato, il teorema
di Lagrange alla funzione t 7→ f (a+u, t) sull’intervallo [b, b+v]. [Come mai funziona
anche per v < 0?] Di conseguenza,

f (a + u, b + v) − f (a, b) = fx (a, b)u + fy (a, b)v


n   o
+ u · o(1) + fy (a + u, b + θu v) − fy (a, b) v .

Ora, siccome (a + u, b + θu v) → (a, b) [perché?], il termine tra le parentesi graffe è


della forma
u · o(1) + v · o(1) = o(∥(u, v)∥).

(Infatti, |u·o(1)+v·o(1)|
∥(u,v)∥ ≤ |u| |v|
∥(u,v)∥ ·o(1)+ ∥(u,v)∥ ·o(1) ≤ o(1)+o(1) = o(1).) Ciò completa
la dimostrazione. □

Dimostrazione del caso generale. La dimostrazione è completamente analoga al caso di due


variabili, con solo una maggiore complessità formale. A meno di cambiare l’ordine delle
variabili, possiamo supporre che k = 1. Per h → 0 in Rn , h = (h1 , . . . , hn ), abbiamo per

¶In parole povere, il teorema dice: se tutte le derivate parziali, tranne eventualmente una, sono
definite in un intorno di a e continue in a e se la rimanente derivata parziale esiste in a, allora f è
differenziabile in a.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 17

opportuni 0 < θh,j < 1 (j = 2, . . . , n) che


Pn
f (a + h) − f (a) = f (a + i=1 hi ei ) − f (a)
  Pn  Pj Pj−1 
= f (a + h1 e1 ) − f (a) + j=2 f (a + i=1 hi ei ) − f (a + i=1 hi ei )
  Pn Pj−1
= f (a)h1 + h1 o(1) + j=2 fxj (a + i=1 hi ei + θh,j hj ej ) hj
Pn
= j=1 fxj (a) hj
n Pn  Pj−1  o
+ h1 o(1) + j=2 fxj (a + i=1 hi ei + θh,j hj ej ) − fxj (a) hj
Pn
= j=1 fxj (a) hj + o(∥h∥) = ∇f (a) • h + o(∥h∥).

Corollario 4.9. Siano A ⊂ Rn un insieme aperto e f : A → R una funzione che


ammette tutte le derivate parziali in ogni punto di A.
(a) [Teorema del differenziale totale.] Se tute le derivate parziali di f sono continue
in un punto a ∈ A, allora f è differenziabile in a.
(b) Se f è di classe C 1 (A), cioè, se f ammette tutte le derivate parziali in ogni punto
di A e tali derivate parziali sono funzioni continue su A, allora f è differenziabile
in ogni punto di A.

4.2. Differenziabilità di funzioni vettoriali.


Consideriamo ora il caso di funzioni di n variabili a valori in Rm con m > 1. In
quanto segue,
 n
 A ⊂ R è un insieme aperto,

(13) a ∈ A è un suo punto,
 F : A → Rm è una funzione.

La funzione vettoriale F ha m componenti che sono delle funzioni scalari:



F (x) = F1 (x), . . . , Fm (x) , x ∈ A.
Ricordiamo che tale funzione F è differenziabile in a se esiste un’applicazione
lineare L : Rn → Rm tale che
(14) F (a + h) − F (a) = Lh + o(∥h∥) per h → 0.
Dall’Algebra Lineare sappiamo (si veda anche il primo capitolo) che L può essere
identificata con una matrice di dimensioni m × n; ciascuna delle sue m righe è un
vettore ai ∈ Rn (1 ≤ i ≤ m):  
a1
 .. 
L =  . .
am
Siccome la convergenza in Rm equivale alla convergenza per coordinate (v. l’inizio
del Capitolo 2), la definizione (14) equivale a
(15) Fi (a + h) − Fi (a) = ai • h + o(∥h∥) per h → 0, per ogni i = 1, . . . , m.
Da ciò che sappiamo sulla differenziabilità di funzioni scalari, otteniamo facilmente
il seguente teorema.
18 LIBOR VESELY

Teorema 4.10. Siano A, a, F come in (13). Allora, F è differenziabile in a se e


solo se ogni sua componente Fi (i = 1, . . . , m) è differenziabile in a.
Inoltre, in tal caso sono soddisfatte le seguenti condizioni necessarie.
(a) F è continua in a.
(b) Per ogni i = 1, . . . , m, ai = ∇Fi (a), e quindi la matrice L (v. sopra) coincide
con la matrice
 
∇F1 (a)  m, n
. ∂Fi
JF (a) = 
 .
. =

(a) ,
∂xj i=1, j=1
∇Fm (a)

detta la matrice jacobiana‖ di F in a.


(c) F è derivabile lungo tutte le direzioni e
Dv F (a) = JF (a) v per ogni versore v ∈ Rn .

Corollario 4.11. Siano A, a, F come in (13). Allora F è differenziabile in a se e


solo se esiste la matrice jacobiana JF (a) e soddisfa
F (a + h) − F (a) = JF (a) h + o(∥h∥) per h → 0.

Corollario 4.12 (Teorema del differenziale totale per funzioni vettoriali).


∂Fi
Siano A, a, F come in (13). Se tute le derivate parziali ∂x j
(x) (1 ≤ i ≤ m, 1 ≤ j ≤
n) esistono in un intorno di a ed esse sono continue in a, allora F è differenziabile
in a.

4.3. Differenziabilità di funzioni composte.


Uno degli strumenti più utili nel calcolo differenziale di funzioni di una variabile è
il teorema sulla derivabilità e derivata di funzioni composte. Esso ci dà la possibilità
di calcolare le derivate di svariate funzioni partendo dalle derivate di alcune funzioni
notevoli. È quindi naturale chiedersi se un risultato simile valga anche per le funzioni
di più variabili.
All’inizio del presente capitolo, abbiamo già menzionato il fatto che, per avere un
teorema sulle derivate parziali di funzioni composte, non basta la sola derivabilità
direzionale. Come vedremo, è la differenziabilità l’ipotesi “corretta” per un teorema
del genere.
Prima di enunciare il teorema, vogliamo ancora una volta (v. Commento 2.2) far
notare la problematicità di una scrittura come questa:
φ(u, v) = o(u + v 2 ) per (u, v) → (0, 0).
Il problema sta nel fatto che la funzione (u, v) 7→ u+v 2 si annulla non solo nell’origine
ma su tutta una parabola di equazione u = −v 2 . Corretto quindi sarebbe scrivere
φ(u, v) = o(u + v 2 ) per (u, v) → (0, 0), u + v 2 ̸= 0.

‖Carl Gustav Jacob Jacobi, 1804–1851, matematico tedesco. La pronuncia corretta del suo
cognome è [iacobi] (non alla inglese).
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 19

Nel caso in cui anche φ(−v 2 , v) ≡ 0, si potrebbe quindi scrivere


(
o(u + v 2 ) per (u, v) → (0, 0), u + v 2 ̸= 0,
φ(u, v) =
0 per u + v 2 = 0.
Questo problema formale, però, può essere facilmente risolto scrivendo semplicemen-
te
φ(u, v) = (u + v 2 ) o(1) per (u, v) → (0, 0).
Useremo tale accorgimento nella dimostrazione del seguente teorema.

Teorema 4.13. Siano n, m, p interi positivi, A ⊂ Rn e B ⊂ Rm insiemi aperti,


a ∈ A, b ∈ B. Siano
F : A → B, G : B → Rp .
Supponiamo che F sia differenziabile in a e G sia differenziabile in F (a). Allora la
funzione composta
H := G ◦ F : A → Rp , H(x) = G(F (x)),
è differenziabile in a e la sua matrice jacobiana in a soddisfa
(16) JH(a) = JG(F (a)) JF (a) .
(Il prodotto a destra è l’usuale prodotto di matrici “riga per colonna”.)
Dimostrazione.
Nella dimostrazione scriveremo, ad esempio, om (1) per denotare una funzione a valori
in Rm che tende a zero.
Essendo F differenziabile in a, essa è anche continua in a e quindi
F (a + h) − F (a) → 0 per h → 0.
Per h → 0 ora possiamo scrivere
H(a + h) − H(a) = G(F (a + h)) − G(F (a))
 
= JG(F (a)) F (a + h) − F (a) + F (a + h) − F (a) op (1)
 
= JG(F (a)) JF (a) h + ∥h∥ om (1) + JF (a) h + ∥h∥ om (1) op (1)

= JG(F (a)) JF (a) h + R(h),

dove R(h) = ∥h∥ JG(F (b)) om (1) + JF (a) h + ∥h∥ om (1) op (1). Usando la di-
suguaglianza triangolare e Lemma 1.10, possiamo maggiorare il “resto” R come
segue:
 
∥R(h)∥ ≤ ∥h∥ · ∥JG(F (b))∥2 ∥om (1)∥ + ∥JF (a)∥2 ∥op (1)∥ + ∥om (1)∥∥op (1)∥

= ∥h∥ o(1).
Abbiamo quindi dimostrato che
(17) H(a + h) − H(a) = JG(F (a)) JF (a) h + o(∥h∥) per h → 0.
Di conseguenza, H è differenziabile in a e, per Teorema 4.10, la matrice
JG(F (a)) JF (a) coincide con la matrice jacobiana JH(a). □
20 LIBOR VESELY

Commento 4.14. Si noti che per m = n = p = 1, oteniamo il teorema sulla


derivabilità di funzioni composte che è stato fatto in Analisi 1.
Infatti, in tal caso, la matrice jacobiana di F in a è una matrice del tipo 1 × 1:
JF (a) = F ′ (a) . Analogamente, JG(F (a)) = G′ (F (a)) .


Esempio 4.15. Siano: f = f (x1 , . . . , xn ) una funzione scalare di classe C 1 di n


variabili; e gi = gi (t) (i = 1, . . . , n) n funzioni scalari di classe C 1 di una variabile.
Allora per la funzione composta h(t) = f (g1 (t), . . . , gn (t)) vale la seguente formula
di derivazione:
n
X ∂f
h′ (t) = g1 (t), . . . , gn (t) · gi′ (t) .

∂xi
i=1
h′
In breve, = fx1 g1′+ . . . fxn gn′ .
Infatti, possiamo vedere la funzione h come la composizione h(t) = f (G(t)) do-
ve G(t) = g1 (t), . . . , gn (t) . Essendo f e G entrambe di classe C 1 , esse sono
differenziabili. Per il Teorema 4.13,
 ′ 
g1 (t) Xn
h′ (t) = Jh(t) = Jf (G(t)) JG(t) = ∇f (G(t))  . . .  = fxi (G(t)) gi′ (t) .

gn (t) i=1

Un esempio concreto. Se f = f (x, y) è di classe C 1 e h(t) = f (sin t, t cos t), allora


h′ (t) = fx (sin t, t cos t) · cos t + fy (sin t, t cos t) · (cos t − t sin t).

4.4. Cenni ai diffeomorfismi.


Teorema 4.13 facilmente implica il seguente corollario.

Corollario 4.16. Siano A ⊂ Rn e B ⊂ Rm insiemi aperti, a ∈ A. Sia F : A → B


una funzione biunivoca tale che F sia differenziabile in un punto a ∈ A e F −1 sia
differenziabile nel punto corrispondente b := F (a). Allora:
(a) m = n;
−1
(b) JF −1 (b) = JF (a) .


In particolare, le matrici JF (a) e JF −1 (b) sono quadrate e invertibili.


Dimostrazione. Denotiamo con In la mappa identità di Rn . Siccome
In = F −1 ◦ F e Im = F ◦ F −1 ,
il teorema sulla differenziabilità delle composizioni implica che
In = JIn (a) = JF −1 (b) JF (a) e Im = JIm (b) = JF (a) JF −1 (b).
Di conseguenza, le applicazioni lineari corrispondenti alle due matrici jacobiane sono
reciprocamente inverse, e quindi Rm e Rn sono (algebricamente) isomorfi. E le due
matrici sono una l’inversa dell’altra. □

Definizione 4.17. Siano A, B due spazi metrici e sia F : A → B una funzione


biunivoca.
(a) Diciamo che F è un omeomorfismo tra A e B se F e F −1 sono entrambe continue.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 21

(b) Nel caso particolare in cui A ⊂ Rn e B ⊂ Rm sono insiemi aperti, diciamo che
F è un diffeomorfismo se F e F −1 sono differenziabili rispettivamente in A e in
B.
Il corollario precedente quindi implica che se due aperti non vuoti in due spazi
euclidei sono diffeomorfi, allora i due spazi hanno la stessa dimensione. Inoltre, il
diffeomorfismo F : A → B soddisfa det JF (x) ̸= 0 per ogni x ∈ A.

Per gli interessati riportiamo qui due risultati noti. Il primo verrà dimostrato nei suc-
cessivi corsi di Analisi Matematica. Il secondo, semplicissimo da enunciare, è un teorema
molto profondo con una dimostrazione non banale.

Teorema 4.18. Siano A, B due insiemi aperti in due spazi euclidei e sia F : A → B
un’applicazione biunivoca.
1. Se F è di classe C 1 su A allora: F è un diffeomorfismo tra A e B se e solo se det JF (x) ̸=
0 per ogni x ∈ A. Inoltre, in tal caso anche F −1 è di classe C 1 su B e i due spazi euclidei
sono della stessa dimensione.
2. Se F è un omeomorfismo tra A e B, allora i due spazi euclidei sono della stessa dimen-
sione.

4.5. Stime dell’incremento e applicazioni.


I teoremi di incremento esprimono l’incremento di una funzione tra due punti,
oppure (nel caso vettoriale) stimano la sua grandezza, in termini delle derivate della
funzione. Alla base c’è il teorema di Lagrange per funzioni di una variabile:
Se f : [a, b] → R è continua su [a, b] e derivabile in (a, b), allora esiste x0 ∈ (a, b)
tale che
f (b) − f (a) = f ′ (x0 ) (b − a) .

Dati due punti distinti a, b ∈ Rn definiamo il segmento dato dai punti a, b come
l’insieme
[a, b] := {a + t(b − a) : 0 ≤ t ≤ 1} = {(1 − t)a + tb : 0 ≤ t ≤ 1}.
Denotiamo invece con (a, b) il segmento [a, b] privato dei punti estremi a, b, cioè,
(a, b) := [a, b] \ {a, b} = {a + t(b − a) : 0 < t < 1}.

Le ipotesi base saranno le seguenti:


A ⊂ Rn è un insieme aperto,
(
(18)
a, b ∈ A con a ̸= b e [a, b] ⊂ A.

Teorema 4.19 (Teorema di Lagrange in più variabili).


Supponiamo (18). Sia f : A → R una funzione continua su A e differenziabile in
ogni punto di (a, b). Allora esiste x0 ∈ (a, b) tale che
f (b) − f (a) = ∇f (x0 ) • (b − a) .
22 LIBOR VESELY

Dimostrazione. Consideriamo la funzione φ : [0, 1] → R, data da


φ(t) = f (a + t(b − a)) ,
e osserviamo che essa è continua su [0, 1]. Inoltre, possiamo vedere φ come la
composizione φ = f ◦ G dove
G : [0, 1] → Rn , G(t) = a + t(b − a).
Sia t ∈ (0, 1). Ricordando che per funzioni di una variabile la differenziabilità equiva-
le alla derivabilità, possiamo applicare il Teorema 4.13 per ottenere che φ è derivabile
in t con
 
b1 − a1
φ′ (t) = Jφ(t) = Jf (G(t)) JG(t) = ∇f a + t(b − a)  ... 
 
bn − an

= ∇f a + t(b − a) • (b − a).
Applicando il teorema di Lagrange (in una variabile) alla funzione φ, otteniamo:
f (b) − f (a) = φ(1) − φ(0) = φ′ (t0 ) (1 − 0) = ∇f a + t0 (b − a) • (b − a)


per un opportuno t0 ∈ (0, 1). Ora basta porre x0 = a + t0 (b − a). □

Come un corollario immediato otteniamo il seguente risultato, detto teorema


dell’incremento finito [giustificatene i particolari!].

Corollario 4.20 (Teorema dell’incremento finito – caso scalare). Supponiamo (18).


Sia f : A → R una funzione di classe C 1 (A). Allora
f (b) − f (a) ≤ max ∇f (x) · ∥b − a∥ .
x∈[a,b]

(Si noti che il massimo nella formula esiste per il teorema di Weierstrass.)

Esercizio 4.21. Dimostrate la seguente variante del teorema di Lagrange nella qua-
le supponiamo (al posto della differenziabilità) la sola derivabilità direzionale in
direzione della retta determinata dai punti a, b.
Supponiamo (18). Sia f : A → R tale che f sia continua su [a, b] e, ponendo v :=
b−a
∥b−a∥ , f sia derivabile lungo v in ogni punto di (a, b). Allora esiste x0 ∈ (a, b) tale
che
f (b) − f (a) = Dv f (x0 ) ∥b − a∥ .
(Suggerimento: considerate di nuovo la funzione φ definita nella dimostrazione del
Teorema 4.19.)

Esempio 4.22. Il teorema di Lagrange non vale per funzioni a valori vettoriali. Il
motivo è abbastanza semplice: anche se per ogni componente esiste un punto come
nel Teorema 4.19, non è detto che esista un tale punto che vada bene per tutte le
componenti contemporaneamente.
Ecco un semplice esempio. Sia
F : R → R2 , F (t) = (cos t, sin t).
F è di classe C1  differenziabile) dappertutto. Abbiamo F (2π) − F (0) =
(e quindi
(0, 0), ma F ′ (t) 2π − 0 = 2π(− sin t, cos t) ̸= (0, 0) per ogni t ∈ [0, 2π].
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 23

Per le funzioni vettoriali si ha comunque un teorema dell’incremento finito.

Teorema 4.23 (Teorema dell’incremento finito – caso vettoriale). Supponiamo (18).


Sia F : A → Rm una funzione continua su A e differenziabile in ogni punto di (a, b).
Allora esiste x0 ∈ (a, b) tale che
F (b) − F (a) ≤ ∥JF (x0 )∥2 ∥b − a∥ .
In particolare, se F è addirittura di classe C 1 su A allora
F (b) − F (a) ≤ max ∥JF (x)∥2 · ∥b − a∥ .
x∈[a,b]

Dimostrazione. Possiamo supporre che F (b) ̸= F (a). Poniamo


b−a F (b) − F (a)
v := e w := .
∥b − a∥ ∥F (b) − F (a)∥
Consideriamo la funzione (a valori scalari!)
φ(t) := F (a + t(b − a)) • w = F (a + t∥b − a∥v) • w , 0 ≤ t ≤ 1.
Essa è continua su [0, 1]. Inoltre, per ogni θ ∈ (0, 1) abbiamo
φ(θ + s) − φ(θ)
φ′ (θ) = lim
s→0
 s 
F (a + θ∥b − a∥v + s∥b − a∥v) − F (a + θ∥b − a∥v)
= lim ∥b − a∥ • w
s→0 s∥b − a∥
 
= Dv F (a + θ(b − a)) • w · ∥b − a∥
 
 
= JF (a + θ(b − a))v • w · ∥b − a∥ .

Per il teorema di Lagrange in una variabile, applicato alla funzione φ, esiste t0 ∈ (0, 1)
tale che
∥F (b) − F (a)∥ = F (b) − F (a) • w = φ(1) − φ(0) = φ′ (t0 ).


Ponendo per semplicità x0 := a + t0 (b − a) e usando la disuguaglianza di Cauchy–


Schwarz e la maggiorazione in Lemma 1.10, calcoliamo:
 
 
∥F (b) − F (a)∥ = JF (x0 )v • w · ∥b − a∥ ≤ JF (x0 )v ∥w∥ ∥b − a∥

≤ ∥JF (x0 )∥2 ∥v∥ ∥w∥ ∥b − a∥ = ∥JF (x0 )∥2 ∥b − a∥ ,


ottenendo la prima formula. La seconda parte è poi immediata (di nuovo, il massimo
esiste per il teorema di Weierstrass). □

Ora possiamo fornire due interessanti applicazioni.


Introduciamo ora alcune nozioni. Anche se la nozione di un insieme connesso può
essere definita per insiemi che non siano necessariamente aperti, qui ci limiteremo
solo al caso particolare di insiemi aperti che è più semplice da definire e per noi
sufficiente.

Definizione 4.24. Sia A ⊂ Rn un insieme aperto.


24 LIBOR VESELY

• A è detto un aperto connesso se esso non può essere scritto come unione
di due insiemi aperti disgiunti non vuoti. (Più formalmente, A è un aperto
connesso se vale l’implicazione: U, V aperti, A = U ∪ V , U ∩ V = ∅ ⇒
U = A o V = A.)
• A è detto connesso per poligonali se per ogni coppia di punti distinti a, b ∈ A
esistono un numero finito di punti x0 , x1 , . . . , xN (di A) tali che
x0 = a, xN = b e [xk−1 , xk ] ⊂ A per ogni k = 1, . . . , N .
(Cioè, esiste un percorso continuo da a a b, tutto contenuto in A e consistente
di un numero finito di segmenti.)
• A è detto conneso per curve se per ogni due punti distinti a, b ∈ A esistono
un intervallo [α, β] (con α < β) e una funzione continua γ : [α, β] → A (detta
curva) tale che γ(α) = a e γ(β) = b.
(Cioè, esiste un percorso continuo da a a b tutto contenuto in A.)

Ora vale il seguente teorema.

Teorema 4.25 (Caratterizzazione di aperti connessi). Per un insieme aperto A ⊂


Rn le seguenti affermazioni sono equivalenti:
(i) A è connesso per poligonali;
(ii) A è connesso per curve;
(iii) A è connesso.
Eccone una dimostrazione per lo studente interessato.
Dimostrazione.
(i) ⇒ (ii). Siano a ̸= b due punti di A e siano x0 , . . . , xN come nella definizione di
connessione per poligonali. Allora la funzione
γ : [0, N ] → A, γ(t) := xk−1 + (t − k)xk per t ∈ [k − 1, k], 1 ≤ k ≤ N ,
è una curva continua con γ(0) = a, γ(N ) = b.
(ii) ⇒ (iii). Supponiamo che A sia connesso per curve ma non connesso. Esistono quindi
due aperti non vuoti U, V tali che U ∩ V = ∅ e U ∪ V = A. Fissiamo due punti a ∈ U e
b ∈ V . Esiste una curva γ : [α, β] → A tale che γ(α) = a, γ(β) = b. Gli insiemi
U0 := γ −1 (U ), V0 := γ −1 (V )
sono aperti in [α, β] (cioè, nello spazio metrico [α, β]) e disgiunti, U0 ∪ V0 = [α, β], α ∈ U0 ,
β ∈ V0 . Consideriamo s := sup U0 ; esso non può appartenere a U0 perché U0 è aperto in
[α, β] e non contiene β; quindi deve essere s ∈ V0 . Ma s > α e quindi (essendo V0 aperto
in [α, β]) esiste ε > 0 tale che (s − ε, s] ⊂ V0 . Ciò è chiaramente in contraddizione con la
definizione di s.
(iii) ⇒ (i). Sia A connesso. Fissiamo arbitrariamente a ∈ A e definiamo l’insieme

U := x ∈ A : x, a possono essere connessi con una poligonale contenuta in A .
Denotiamo con Br (x) l’intorno sferico aperto centrato in x di raggio r. Chiaramente, a ∈ U .
Mostriamo che U è aperto. Sia x ∈ U . Esistono r > 0 tale che Br (x) ⊂ A e una
poligonale P ⊂ A tra a e x. Per ogni y ∈ Br (x), il segmento [x, y] è contenuto in A e
quindi aggiungendolo alla poligonale P otteniamo una poligonale collegante a e y. Quindi
U è aperto.
Supponiamo che l’insieme V := A \ U non sia aperto. Esiste quindi z ∈ V tale che
nessun suo intorno sia tutto contenuto in V . Sia r > 0 tale che Br (z) ⊂ A. Allora esiste
x ∈ U ∩ Br (z). Vi è dunque una poligonale tra a e x contenuta in A, ed essa può essere
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 25

prolungata con il segmento [x, z], ottenendo una poligonale in A collegante a e z. Perciò
z ∈ U ma questa è una contraddizione. Abbiamo quindi mostrato che V è aperto. Essendo
A connesso e U ̸= ∅, deve essere V = ∅ e quindi A = U . In altre parole, A è connesso per
poligonali. □

Teorema 4.26 (Caratterizzazione delle funzioni costanti). Siano A ⊂ Rn un insieme


aperto connesso e F : A → Rm una funzione differenziabile in A (ad es., di classe
C 1 in A). Allora F è costante se e solo se JF (·) = 0 (la matrice nulla) in A.
Dimostrazione. Se F è costante, per ogni x ∈ A e ogni versore abbiamo JF (x)v =
Dv F (x) = 0. Quindi la matrice JF (x) rappresenta la mappa lineare identicamente
nulla, il che implica che essa è la matrice nulla.
Sia ora JF (·) identicamente nulla in A. Per ogni due punti a ̸= b di A, conside-
riamo un numero finito di punti
x0 = a, x1 , . . . , xN = b
che definiscono una poligonale in A. Applicando il Teorema dell’incremento finito ai
singoli segmenti [xk−1 , xk ] (1 ≤ k ≤ N ), otteniamo che
F (a) = F (x0 ) = F (x1 ) = · · · = F (xN ) = F (b).
Dall’arbitrarietà dei punti a, b ∈ A segue che F è costante in A. □

Ricordiamo che un insieme E ⊂ Rn è convesso se per ogni due punti a ̸= b di E il


segmento [a, b] è tutto contenuto in E. Si noti che ogni aperto convesso è un aperto
connesso, ma non vale il viceversa (ad esempio, un cerchio aperto in R2 , privato del
suo centro, è un aperto connesso non convesso).
Una funzione F tra due spazi metrici è lipschitziana se esiste una costante L,
detta costante di Lipschitz, tale che d2 (F (x), F (y)) ≤ Ld1 (x, y) per ogni x, y. Per
specificare la costante di Lipschitz∗∗, diciamo anche che F è L-lipschitziana.

Teorema 4.27 (Caratterizzazione delle funzioni lipschitziane). Siano A ⊂ Rn un


insieme aperto convesso, m ≥ 2 intero, L ≥ 0.
1. [Funzioni scalari.] Se f : A → R è una funzione differenziabile in A allora
f è L-lipschitziana su A ⇔ ∀x ∈ A, ∥∇f (x)∥ ≤ L.
2. [Funzioni vettoriali.] Sia F : A → Rm una funzione differenziabile in A.
(a) Se ∥JF (x)∥2 ≤ L per ogni x ∈ A allora F è L-lipschitziana
√ su A.
(b) Se F è L-lipschitziana su A allora ∥JF (x)∥2 ≤ m L per ogni x ∈ A.
In particolare, F è lipschitziana in A se e solo se ∥JF (·)∥2 è limitata in A.
Dimostrazione. La parte 2.(a) e l’implicazione “⇐” in 1. seguono direttamente dal
Teorema 4.23 (si ricordi che, nel caso scalare, Jf (x) = ∇f (x)).
L’implicazione “⇒” in 1. Sia f L-lipschitziana e sia x ∈ A tale che ∇f (x) ̸= 0.
∇f (x)
Consideriamo il versore v := ∥∇f (x)∥ . Allora

|f (x + tv) − f (x)|
∥∇f (x)∥ = ∇f (x) • v = Dv f (x) = |Dv f (x)| = lim ≤L
t→0 |t|
in quanto |f (x + tv) − f (x)| ≤ L∥tv∥ = L|t|.
∗∗Rudolph O. S. Lipschitz (1832–1903) è stato un matematico tedesco.
26 LIBOR VESELY

La parte 2.(b). Sia F L-lipschitziana. Allora ogni sua componente Fi (i =


1, . . . , m) è L-lipschitziana, e quindi dal caso scalare otteniamo che per ogni x ∈ A
si ha che ∥∇Fi (x)∥ ≤ L per ogni i = 1, . . . , m. Siccome la matrice JF (x) ha come
righe i vettori ∇Fi (x), 1 ≤ i ≤ m, possiamo scrivere
v
um
uX √ √
∥JF (x)∥2 = t ∥∇Fi (x)∥2 ≤ mL2 = m L .
i=1

Corollario 4.28. Sia A ⊂ Rn un insieme aperto e sia F : A → Rm una funzione


di classe C 1 su A. Allora F è localmente lipschitziana in A, ovvero per ogni x ∈ A
esiste r > 0 tale che Br (x) ⊂ A e F è lipschitziana su Br (x).
Dimostrazione. Essendo la funzione ∥JF (·)∥2 continua, essa è localmente limitata.
Possiamo quindi applicare Teorema 4.27 (usando il fatto che gli intorni sferici Br (x)
sono convessi). □

Per lo studente interessato proponiamo il seguente esercizio di approfondimento.


Data una matrice M di dimensioni m × n (che rappresenta quindi un’applicazione lineare
M : Rn → Rm ), definiamo la quantità
∥M ∥op := max ∥M v∥ : v ∈ Rn , ∥v∥ = 1 .


(a) Dimostrate che ∥ · ∥op è una norma (detta norma operatoriale) sullo spazio vettoriale
delle matrici m × n.
(b) Mostrate che
∥M ∥op = max (M v) • w : v ∈ Rn , ∥v∥ = 1 w ∈ Rm , ∥w∥ = 1 .


(c) Mostrate che ∥M ∥op ≤ ∥M ∥2 e che la disuguaglianza può essere stretta se min{m, n} > 1
(suggerimento: nel caso m = n > 1 considerate la matrice identità). Mostrate che se
min{m, n} = 1 allora le due norme coincidono.
(d) Dimostrate che per una funzione differenziabile F : Rn ⊃ A → Rm su un insieme aperto
A si ha l’equivalenza:
F è L-lipschitziana su A ⇔ ∀x ∈ A, ∥JF (x)∥op ≤ L.

4.6. Un approfondimento (per gli studenti interessati).


Siano A ⊂ Rn , a ∈ A e f : A → R. Sappiamo già (v. Teorema 4.4) che se f è differenziabile
in a allora:
(G) f è continua in a, derivabile in a lungo tutte le direzioni e Dv f (a) = ∇f (a) • v per
ogni versore v ∈ Rn .
Inoltre, Esempio 4.6 mostra che, in generale, la condizione necessaria (G) non è sufficiente
per la differenziabilità in a.
In questa sottosezione di approfondimento (non richiesta per l’esame), mostreremo che
(G) diventa sufficiente sotto l’ipotesi aggiuntiva di lipschitzianità in un intorno del punto.
Ecco la formulazione del teorema.

Teorema 4.29. Sia, come sopra, f una funzione reale definita in un insieme aperto A ⊂ Rn
e sia a ∈ A. Supponiamo che f sia lipschitziana in un intorno di a e valga (G). Allora f è
differenziabile in a.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 27

Prima della dimostrazione vera e propria, facciamo la seguente semplice osservazione.


Denotiamo con S l’insieme dei versori di Rn , cioè,

S = {v ∈ Rn : ∥v∥ = 1}.

Per definizione, se f soddisfa (G) allora la sua differenziabilità in a equivale a


f (a + h) − f (a) − ∇f (a) • h
(19) lim = 0.
h→0 ∥h∥
Esprimendo (19) usando successioni, ciò equivale a dire che
f (a + hn ) − f (a) − ∇f (a) • hn
(20) ∀{hn }n con 0 < ∥hn ∥ → 0 , → 0.
∥hn ∥

Scrivendo hn nella forma hn = tn vn dove tn = ∥hn ∥ e vn = ∥hhnn ∥ ∈ S, possiamo riscrivere la


condizione (20) nella forma
(21)
f (a + tn vn ) − f (a) − tn ∇f (a) • vn
∀{vn }n ⊂ S, ∀{tn }n ⊂ (0, +∞) con tn → 0, → 0.
tn

Dimostrazione del Teorema 4.29.


Supponiamo che valga (G) e che r > 0 e L > 0 siano tali che Br (a) ⊂ A e f sia L-
lipschitziana in Br (a). Procedendo per assurdo, supponiamo che f non sia differenziabile
in a. Ciò significa che f non soddisfa (21) e quindi esistono successioni {vn }n ⊂ S e
{tn }n ⊂ (0, r) tali che tn → 0 e
f (a + tn vn ) − f (a)
− ∇f (a) • vn ̸→ 0 .
tn
Passando ad una sottosuccessione, possiamo supporre [perché?] che esista ε̄ > 0 tale che
f (a + tn vn ) − f (a)
(22) − ∇f (a) • vn ≥ ε̄ per ogni n.
tn
Grazie alla compattezza di S, possiamo supporre (passando ad un’ulteriore sottosuccessione)
che, inoltre, vn → v ∈ S. Dalla condizione (G),
f (a + tn v) − f (a)
→ Dv f (a) = ∇f (a) • v .
tn
Ora, usando la disuguaglianza triangolare e quella di Cauchy-Schwarz, otteniamo [giustificate
bene tutti i passaggi!] la contraddizione che completa la dimostrazione:
f (a + tn vn ) − f (a)
ε̄ ≤ − ∇f (a) • vn
tn
|f (a + tn vn ) − f (a + tn v)| f (a + tn v) − f (a)
≤ + − ∇f (a) • v + ∇f (a) • (vn − v)
tn tn
Ltn ∥vn − v∥
≤ + o(1) + ∥∇f (a)∥ · ∥vn − v∥ → 0 .
tn

28 LIBOR VESELY

5. Derivate parziali seconde, la matrice Hessiana


Nel Calcolo differenziale in una variabile risultano molto utili le derivate di ordine
superiore al primo. Tale definizione può essere facilmente estesa anche al caso di più
variabili. Ci limitiamo qui al caso di funzioni scalari.

Definizione 5.1 (Derivate parziali seconde). Siano A ⊂ Rn , f : A → R, i, j ∈


∂f
{1, . . . , n}, a ∈ A. Supponiamo che esista la derivata parziale ∂x i
(x) in un intorno
di a. Allora possiamo considerare la derivata parziale
∂f ∂f
∂x (a + tej ) − ∂xi (a)
 
∂ ∂f
(a) = lim i ,
∂xj ∂xi t→0 t
∂f
cioè, la derivata parziale j-esima in a della funzione x 7→ ∂xi (x).

Standard sono le seguenti notazioni.


 
∂f
• Caso di i ̸= j. La derivata parziale seconda ∂x∂ j ∂x i
(a) viene denotata
con
∂2f
(a) oppure Dx2i xj f (a) oppure fxi xj (a).
∂xj ∂xi
 
∂ ∂f
• Caso di i = j. La derivata parziale seconda ∂x i ∂xi (a) viene denotata
con
∂2f
(a) oppure Dx2i xi f (a) oppure fxi xi (a).
∂x2i

∂2f
Commento 5.2. Per essere precisi, per poter definire ∂xj ∂xi (a) sarebbe sufficiente
∂f
supporre che la derivata ∂xi (x)
fosse definita per ogni punto del tipo x = a + tej con
t sufficientemente piccolo, per poterla derivare.

Teorema 5.3 (Teorema di Schwarz††). Siano A ⊂ Rn un insieme aperto, a ∈ A,


i, j ∈ {1, . . . , n} con i ̸= j. Se le derivate parziali seconde miste fxi xj e fxj xi esistono
in un intorno Br (a) ⊂ A di a ed esse sono continue nel punto a, allora
fxi xj (a) = fxj xi (a).
In altre parole, sotto le ipotesi di sopra, l’ordine di derivazione è indifferente.
Dimostrazione. Dimostreremo il caso di n = 2; il caso generale segue, in realtà, da
questo caso particolare [perché?]. Inoltre, a meno di traslazioni, possiamo supporre
che a = (0, 0).
Le nostre ipotesi sono quindi che fxy e fyx esistono in qualche Br (0, 0) ⊂ A e sono
continue nell’origine. E vogliamo dimostrare che fxy (0, 0) = fyx (0, 0).
Consideriamo i punti (x, y) tali che x > 0, y > 0 e ∥(x, y)∥ < r. Per ogni tale
punto, il rettangolo di vertici (in senso antiorario)
(0, 0), (x, 0), (x, y), (0, y)
††Karl Hermann A. Schwarz, 1843–1921, matematico tedesco. Ha pubblicato la prima
dimostrazione rigorosa di questo teorema, ipotizzato precedentemente da molti.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 29

è contenuto in Br (0, 0) [fatevi un disegno!]. Definiamo ora g(x, y) come la somma


dei valori di f in tali punti, presi con segni alterni:
g(x, y) := f (0, 0) − f (x, 0) + f (x, y) − f (0, y).
Osserviamo che g(x, 0) = g(0, y) = 0. Possiamo ora scrivere g(x, y) in due modi
diversi e applicarvi due volte il teorema di Lagrange (in una variabile) come segue.
(a) Esistono ξ = ξx,y ∈ (0, x) e η = ηx,y ∈ (0, y) tali che
g(x, y) = g(x, y) − g(0, y) = gx (ξ, y) · x
 
= fx (ξ, y) − fx (ξ, 0) · x = fxy (ξ, η) · xy.

(b) Analogamente, esistono ξe = ξex,y ∈ (0, x) e ηe = ηex,y ∈ (0, y) tali che


g(x, y) = g(x, y) − g(x, 0) = gy (x, ηe) · y
 
= fy (x, ηe) − fy (0, ηe) · x = fyx (ξ,
e ηe) · xy.

Uguagliando i due risultati e semplificando xy, otteniamo

fyx (ξ, η) = fxy (ξ,


e ηe).

Passando al limite per (x, y) → (0, 0) con x, y > 0, otteniamo l’uguaglianza deside-
rata, visto che (ξ, η) → (0, 0), (ξ,
e ηe) → (0, 0) e le due derivate parziali seconde miste
sono continue in (0, 0). □

Esempio 5.4. Mostriamo ora un esempio di una funzione f = f (x, y) differen-


ziabile, per la quale le due derivate seconde miste non sono uguali nell’origine.
Definiamo
2 2
(
xy xx2 −y
+y 2
per (x, y) ̸= (0, 0),
f (x, y) =
0 per (x, y) = (0, 0).
La funzione f è di classe C ∞ su R2 \ {(0, 0)} e quindi, in particolare, differenziabile
su tale insieme.
Nell’origine, f è continua in quanto |f (x, y)| ≤ |x||y|. Le sue derivate parziali
sono
f (t, 0) − f (0, 0) f (0, t) − f (0, 0)
fx (0, 0) = lim = 0 e fy (0, 0) = lim = 0.
t→0 t t→0 t
Si calcola facilmente che nei punti (x, y) ̸= (0, 0) si ha:
x2 − y 2 4x2 y 3 x2 − y 2 4x3 y 2
fx (x, y) = y + , fy (x, y) = x − .
x2 + y 2 (x2 + y 2 )2 x2 + y 2 (x2 + y 2 )2
Siccome
4|x|2 |y|3 4∥(x, y)∥5
|fx (x, y)| ≤ |y| + ≤ |y| + → 0 per (x, y) → (0, 0),
(x2 + y 2 )2 ∥(x, y)∥4
la derivata parziale fx è continua nell’origine. In modo del tutto simile si ottiene che
anche fy è continua in (0, 0). Per il teorema del differenziale totale, f è differenziabile
in (0, 0).
30 LIBOR VESELY

Ora consideriamo le derivate seconde miste nell’origine:


fx (0, t) − fx (0, 0) −t
fxy (0, 0) = (fx )y (0, 0) = lim = lim = −1,
t→0 t t→0 t
fy (t, 0) − fy (0, 0) t
fyx (0, 0) = (fy )x (0, 0) = lim = lim = 1.
t→0 t t→0 t
Quindi, le derivate seconde miste di f nell’origine non sono uguali.

Esercizio 5.5 (di approfondimento). Sia f una funzione (scalare) definita in un aperto
A ⊂ Rn . Siano v, w ∈ Rn due versori.
2
(a) Formulate la definizione della derivata direzionale seconda Dv,w (prima lungo v, poi
lungo w).
(b) Dimostrate che anche per le derivate direzionali seconde vale un teorema analogo al
teorema di Schwarz.

Definizione 5.6 (Matrice hessiana). Sia f una funzione (scalare) definita in un


intorno di un punto a ∈ Rn e tale che essa ammetta tutte le derivate parziali seconde
in a. La matrice quadrata
 
fx1 x1 (a) fx1 x2 (a) . . . fx1 xn (a)
 2 n  fx x (a) fx x (a) . . . fx x (a) 
∂ f  2 1 2 2 2 n
(23) Hf (a) := (a) =

.. .. .. ..
∂xj ∂xi

i,j=1  . . . . 
fxn x1 (a) fxn x2 (a) . . . fxn xn (a)
viene detta la matrice hessiana‡‡ di f in a.

Corollario 5.7. Se tutte le derivate parziali seconde di una funzione f : Rn ⊃ A → R


esistono in un intorno di un punto a ∈ A e sono continue in a, allora la matrice
hessiana Hf (a) è una matrice (quadrata) simmetrica.

6. Derivate di ordine superiore, le classi C k e C ∞


Analogamente al caso delle derivate seconde, possiamo definire induttivamente
le derivate parziali di un qualsiasi ordine k ∈ N. Ad esempio, se f = f (x, y, z)
ammette tutte le derivate parziali del primo e del secondo ordine in un insieme
aperto A, possiamo considerare in ogni punto di A ad esempio le derivate parziali
∂3f ∂ ∂2f ∂3f ∂ ∂2f
   
= , = ,
∂y 3 ∂y ∂y 2  ∂x∂z 2 ∂x  ∂z 2 
∂3f ∂ ∂2f ∂3f ∂ ∂2f
= , = ,
∂z 2 ∂x ∂z ∂z∂x  ∂z∂x∂z ∂z ∂x∂z
∂3f ∂ ∂2f
= , ... .
∂x∂y∂z ∂x ∂y∂z

Definizione 6.1. Siano A ⊂ Rn un insieme aperto, k ∈ N.

‡‡Ludwig Otto Hesse, 1811-1882, matematico tedesco.


CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 31

• Diciamo che una funzione scalare f : A → R è di classe C k su A, e scriviamo


f ∈ C k (A), se f ammette in A tutte le derivate parziali di ogni ordine ≤ k
ed esse sono continue in A.
• Diciamo che una funzione vettoriale F : A → Rm è di classe C k su A, e
scriviamo F ∈ C k (A; Rm ), se ogni sua componente Fi (1 ≤ i ≤ m) è di
classe C 1 (A). In questa notazione, C k (A) = C k (A; R).
• Una funzione (scalare o vettoriale) è di classe C ∞ su A se essa è di classe
C k su A per ogni k ∈ N.

Osservazione 6.2. f ∈ C k (A) se e solo se tutte le sue derivate parziali di ordine


esattamente k esistono e sono continue in A [perché?].
In tal caso, inoltre, dal teorema di Schwarz segue che le derivate parziali di un qualsia-
si ordine m con 2 ≤ m ≤ k, non dipendono dall’ordine in cui si deriva. [Giustificate
i particolari.]

7. Sviluppi di Taylor
In questo capitolo cercheremo dei risultati simili agli sviluppi di Taylor noti per
funzioni di una variabile. Di tali sviluppi ricordiamo qui quelli di II ordine, con il
resto di Peano e quello di Lagrange.
Siano I ⊂ R un intervallo aperto, a ∈ I, f : I → R.
(a) [Resto di Peano.] Se f è due volte derivabile in a, allora
f (a + h) = f (a) + f ′ (a)h + 21 f ′′ (a)h2 + o(h2 ) per h → 0.
(b) [Resto di Lagrange.] Se f è tre volte derivabile in I allora per ogni h ∈ I esiste
θ ∈ (0, 1) tale che
1 1
f (a + h) = f (a) + f ′ (a)h + f ′′ (a)h2 + f ′′′ (a + θh)h3 .
2 3!
Notiamo la differenza sostanziale tra (a) e (b). Nella prima (Peano), il resto è espresso
in forma di limite, mentre il resto nella seconda (Lagrange) è espresso “punto per
punto”.

7.1. Differenziabilità di ordine successivo. In analogia ad una variabile, inten-


diamo la differenziabilità del II ordine come segue. Nel presente paragrafo, suppo-
niamo che valga (9), cioè che f sia una funzione scalare definita in un insieme aperto
A ⊂ Rn e a sia un punto di A.
Diciamo che f è due volte differenziabile in a se
• f è differenziabile in ogni punto di un intorno Br (a) ⊂ A di a, e
• la mappa gradiente ∇f (·) : Br (a) → Rn è differenziabile nel punto a.
Sappiamo che la seconda condizione equivale a dire che ogni componente di ∇f (·),
cioè ogni derivata parziale fxi (1 ≤ i ≤ n), è differenziabile in a. In tal caso, il
differenziale di ∇f in a è dato dalla matrice quadrata
 
∇fx1 (a)
J(∇f )(a) =  .. n
 = fxi xj i,j=1 = Hf (a)
 
.
∇fx1 (a)
32 LIBOR VESELY

che è la matrice hessiana di f in a.


Ora dovrebbe essere chiaro che la differenziabilità di un qualsiasi ordine k ≥ 2
può essere definita in modo equivalente e induttivamente come segue.
Definizione 7.1. Supponiamo (9) e sia k ≥ 2 un numero intero. Diciamo che f
è k volte differenziabile in a se f è k − 1 volte differenziabile in ogni punto di un
intorno Br (a) ⊂ A e tutte le derivate parziali di ordine k − 1 di f sono, a loro volta,
differenziabili in a.

Ora, il Teorema del differenziale totale (Teorema 4.8 e Corollario 4.9) ci fornisce
il seguente
Corollario 7.2. Se f è di classe C k (A), allora f è k volte differenziabile in ogni
punto di A.

7.2. Sviluppi con il resto secondo Lagrange.


Siano k ∈ N e f una funzione (scalare) k volte differenziabile in Bδ (a) ⊂ Rn .
Fissiamo h ∈ Rn con 0 < ∥h∥ < δ. Per il teorema sulla differenziabilità di funzioni
composte, la funzione
(24) φ(t) := f (a + th)
è definita e k volte derivabile su (un intervallo aperto contenente) [−1, 1]. Calcoliamo
le sue derivate (gli indici nelle sommatorie variano tra 1 e n).
X
φ′ (t) = fxi (a + th) hi = ∇f (a + th) • h ,
i
X
′′
φ (t) = fxi xj (a + th) hi hj = [Hf (a + th) h] • h ,
i,j
X
′′′
φ (t) = fxi xj xk (a + th) hi hj hk ,
i,j,k
..
.
X
φ(k) (t) = fxi1 ...xik (a + th) hxi1 . . . hxik .
i1 ,...,ik

Teorema 7.3 (Taylor, II ordine, resto di Lagrange). Supponiamo (9). Supponiamo


inoltre che f sia 3 volte differenziabile in un intorno Bδ (a) ⊂ A. Allora per ogni
h ∈ Bδ (a) esiste θ = θh ∈ (0, 1) tale che
 
1 1 X
f (a + h) = f (a) + ∇f (a) • h + [Hf (a) h] • h + fxi xj xk (a + θh) hi hj hk .
2 3!
i,j,k

(L’espressione tra le parentesi quadre grandi è un polinomio di grado ≤ 2 di variabili


h1 , . . . , hn , detto polinomio di Taylor del II ordine. Si noti che le ipotesi del teorema
saranno soddisfatte se f è di classe C 3 (Bδ (a)).)
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 33

Dimostrazione. Per h = 0, l’uguaglianza è trivialmente vera. Sia 0 < ∥h∥ < δ e


consideriamo lo sviluppo di Taylor di φ centrato in 0. Esiste θ ∈ (0, 1) tale che
1 1
f (a + h) = φ(1) = φ(0) + φ′ (0) · 1 + φ′′ (0) · 12 + φ′′′ (a + θh) · 13
2! 3!
1 1 X
= f (a) + ∇f (a) • h + [Hf (a) h] • h + fxi xj xk (a + θh) hi hj hk .
2 3!
i,j,k

Dovrebbe essere chiaro che questo teorema può essere generalizzato per ottenere
sviluppi di Taylor di qualsiasi ordine k ∈ N per funzioni k + 1 volte differenziabili in
un intorno di a. Il corrispondente polinomio di Taylor Pk avrebbe però una scrittura
un po’ complicata:
k
X 1 X
(25) Pk (h) = f (a) + fxi1 ...xis (a) hi1 . . . his .
s!
s=1 i1 ,...,is

Tale scrittura può essere notevolmente semplificata sotto l’ipotesi che f sia di classe
C k+1 in Bδ (a) in quanto, in tal caso, le derivate parziali di ordini superiori al primo
don dipendono dall’ordine in cui si deriva (Osservazione 6.2). In queste situazioni,
diventa comoda la seguente simbologia di multiindici.
Multiindici. Un multiindice (di n componenti) è ogni n-upla ordinata
α = (α1 , . . . , αn ) dove αi ∈ N ∪ {0} per ogni i.
Definiamo inoltre
(26) |α| := α1 + · · · + αn e α! := α1 ! . . . αn ! .
(Il numero intero non negativo |α| viene detto l’altezza del multiindice α.)
Ora, se |α| = k ≥ 2 e f è una funzione (di n variabili) di classe C k in un intorno di
a, sappiamo che le derivate parziali di ordine k di f in a non dipendono dall’ordine
in cui si deriva (Osservazione 6.2). In tal caso, denotiamo
∂kf
(27) Dα f (a) = (a),
∂xα1 1 . . . ∂xαnn
cioè, la derivata parziale k-esima in cui si deriva αi volte rispetto alla variabile xi
(i = 1, . . . , n).
Ad esempio, per una funzione f = f (x, y, z) di classe C 5 ,
∂5f
D(2,0,3) f = .
∂x2 ∂z 3
Sotto queste ipotesi, ogni derivata mista di ordine superiore al primo compare
più di una volta nella formula (25). Più precisamente, usando la nota formula per
il numero delle permutazioni con ripetizioni, la derivata Dα f compare esattamente
|α|!
α! volte in (25). Denotando
(28) hα := hα1 1 . . . hαnn (h ∈ Rn ),
possiamo quindi scrivere
X 1
Pk (h) = f (a) + Dα f (a) hα
α!
1≤|α|≤k
34 LIBOR VESELY

(dove si somma rispetto ai multiindici α), che è una formula decisamente simile a
quella ben nota per una sola variabile.
In tal caso, la versione generale del Teorema 7.3 diventa come segue.

Teorema 7.4 (Taylor, grado k, resto di Lagrange). Supponiamo (9). Se k ∈ N e f


è una funzione di classe C k+1 in un intorno Bδ (a) ⊂ A, allora per ogni h ∈ Bδ (0)
esiste θ ∈ (0, 1) tale che
X 1 X 1
f (a + h) = f (a) + Dα f (a) hα + Dα f (a + θh) hα .
α! α!
1≤|α|≤k |α|=k+1

7.3. Sviluppi con il resto secondo Peano.


Anche in questo caso ci concentreremo soprattutto sul caso di sviluppi del II
ordine, che dovrebbero essere (sotto opportune ipotesi) della forma
f (a + h) = P2 (h) + o(∥h∥2 ) per h → 0.
Questa volta, però, non è sufficiente applicare lo sviluppo di Taylor con il resto
secondo Peano alla funzione (24), perché in tal caso, il resto dipenderà dalla direzione
dell’incremento, cioè, sarà della forma ov (∥h∥2 ) (per ∥h∥ → 0) dove la funzione ov (·)
h
in generale dipende dal versore v = ∥h∥ . Noi invece vorremmo un resto “indipendente
da v”.
Un risultato di questo tipo, ma non il più generale, può essere facilmente dedotto
dal Teorema 7.3.

Corollario 7.5. Se f è di classe C 3 in un intorno Bδ (a) ⊂ A, allora


1
f (a + h) = f (a) + ∇f (a) • h + [Hf (a) h] • h + o(∥h∥2 ), h → 0.
2
Dimostrazione. Secondo il Teorema 7.3, il resto R(h) := f (a + h) − P2 (h) è della
forma
n
1 X
R(h) = fxi xj xk (a + θh) hi hj hk dove 0 < θ < 1.
3!
i,j,k=1
Per la continuità delle derivate parziali terze, esistono δ ′ ∈ (0, δ] e una costante
C > 0 tali che |fxi xj xk | ≤ C in Bδ′ (a) per ogni i, j, k ∈ {1, . . . , n}. Di conseguenza,
se h ∈ Bδ′ (0) allora per ogni i, j, k possiamo maggiorare
fxi xj xk (a + θh) hi hj hk ≤ C · ∥h∥3 .
1 3 3
Ne segue che |R(h)| ≤ 3! n C∥h∥ e quindi R(h) = o(∥h∥2 ) per h → 0. □

Anche se le ipotesi del corollario di sopra potrebbero essere indebolite un poco


(supponendo che f sia tre volte differenziabile in un intorno di a con tutte le derivate
parziali terze continue solo nel punto a), tali ipotesi sarebbero comunque molto più
forti rispetto al caso di una sola variabile.
Ora vedremo che il risutato vale sotto delle ipotesi “naturali”, ma la dimostrazione
sarà diversa, un po’ più complessa. Riportiamo tale dimostrazione per lo studente
interessato.
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 35

Teorema 7.6 (Taylor, II ordine, resto di Peano). Sotto le ipotesi base (9), suppo-
niamo che f sia due volte differenziabile nel punto a. Allora
1
f (a + h) = f (a) + ∇f (a) • h + [Hf (a) h] • h + o(∥h∥2 ), h → 0.
2
Dimostrazione. Consideriamo il resto (come funzione dell’incremento h = (h1 , . . . , hn ))
X 1X
R(h) := f (a + h) − P2 (h) = f (a + h) − f (a) − fxi (a)hi − fx x (a)hi hj
i
2 i,j i j

e osserviamo che R è due volte differenziabile in 0 (infatti, P2 è un polinomio e quindi di


classe C ∞ ). In particolare, R è (una volta) differenziabile in un intorno Bδ (0) tale che
Bδ (a) ⊂ A. Denotando con e1 , . . . , en i vettori della base canonica di Rn , il gradiente di R
in un qualsiasi h ∈ Bδ (0) è dato da
1X
∇R(h) = ∇f (a + h) − ∇f (a) − fx x (a)(hj ei + hi ej ) .
2 i,j i j

Per ogni h ∈ Bδ (0) possiamo applicare il teorema di Lagrange in più variabili (Teorema 4.19):
esiste 0 < θh < 1 tale che
L.
R(h) = R(h) − R(0) = ∇R(θh h) • h
1X
= ∇f (a + θh h) • h − ∇f (a) • h − fx x (a)(θh hj hi + θh hi hj )
2 i,j i j
X
= ∇f (a + θh h) • h − ∇f (a) • h − θh fxi xj (a)hi hj
i,j
X 
= fxi (a + θh h) − fxi (a) − ∇(fxi )(a) • (θh h) hi .
i

Ora, per h → 0 anche θh h → 0. Essendo ogni fxi (1 ≤ i ≤ n) differenziabile in a,


l’espressione tra le parentesi quadre è del tipo o(∥θh h∥) e quindi anche o(∥h∥) [perché?] per
h → 0. Di conseguenza, |R(h)| ≤ n∥h∥ · o(∥h∥) da cui R(h) = o(∥h∥2 ). □

Con una dimostrazione analoga, procedendo per induzione rispetto a k, si può


dimostrare che
f (a + h) = Pk (h) + o(∥h∥k ) per h → 0
sotto l’ipotesi che f sia k volte differenziabile nel punto a. Formuliamo esplicitamente
il risultato per funzioni di classe C k , usando la notazione con multiindici (si veda
(26)–(28)).

Teorema 7.7 (Taylor, resto di Peano). Sotto le ipotesi (9), sia k ∈ N e sia f di
classe C k in un intorno Bδ (a) ⊂ A. Allora
X 1
f (a + h) = f (a) + Dα f (a) hα + o(∥h∥k ) per h → 0.
α!
1≤|α|≤k
36 LIBOR VESELY

Esempio 7.8. Scriviamo esplicitamente la formula di Taylor di III grado (resto


secondo Peano) di una funzione di classe C 3 in un intorno di un punto (x0 , y0 ) ∈ R2 :
f (x, y) = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 )
1 1
+ fxx (x0 , y0 )(x − x0 )2 + fxy (x0 , y0 )(x − x0 )(y − y0 ) + fyy (x0 , y0 )(y − y0 )2
2 2
1 3 1 2
+ fxxx (x0 , y0 )(x − x0 ) + fxxy (x0 , y0 )(x − x0 ) (y − y0 )
3! 2
1 1
+ fxyy (x0 , y0 )(x − x0 )(y − y0 )2 + fyyy (x0 , y0 )(y − y0 )3
2 3!
+ o(∥(x − x0 , y − y0 )∥3 ) per (x, y) → (x0 , y0 ).
(Nella notazione dei nostri teoremi: a = (x0 , y0 ), h = (x − x0 , y − y0 ).)

7.4. Unicità dello sviluppo.


Una proprietà di grande importanza pratica è la proprietà dell’unicità dello svi-
luppo di Taylor. Ad esempio, data la funzione (di classe C ∞ (R2 ))
2 −y 3
f (x, y) = xy 2 log (1 + x2 ) e−x ,
usando gli sviluppi notevoli in una variabile fino al settimo ordine, per (x, y) → (0, 0)
abbiamo
 
2 2 1 4 1 6 7
f (x, y) = xy x − 2 x + 3 x + o(∥(x, y)∥ )
 
2 4 1 2 4 2 1 2 7 3 7
· 1 − x − y + 2 (x + y ) − 6 (x + y ) + o(∥(x, y)∥ ) .

Moltiplicando e raggruppando i termini otteniamo


f (x, y) = x3 y 2 − 23 x5 y 2 + o(∥(x, y)∥7 ).
Conoscendo l’unicità dello sviluppo possiamo concludere che il polinomio
P (x, y) = x3 y 2 − 23 x5 y 2
è il polinomio di Taylor di f di settimo grado, centrato nell’origine.
Il risultato sull’unicità degli sviluppi si basa sul seguente semplice lemma.

Lemma 7.9. Siano a ∈ Rn , k ∈ N ∪ {0} e P : Rn → R un polinomio (in n variabili)


di grado ≤ k. Se P (a + h) = o(∥h∥k ) per h → 0, allora P ≡ 0.
Dimostrazione. E’ facile vedere che anche Pe(h) := P (a + h) è un polinomio dello stesso
grado di P ([perché?]). Possiamo quindi supporre che a = 0.
Poi procediamo per induzione rispetto a k. Per k = 0 il risultato è ovvio (in quanto gli
unici polinomi di grado al più 0 sono quelli costanti). Supponiamo ora che s ∈ N sia tale che
il risutato valga per ogni k < s. Se P = o(∥ · ∥s ), allora i coefficienti di P dei monomi di ogni
grado < s sono tutti nulli. In altre parole, P contiene solo dei termini di grado esattamente
s. Ne segue che P è positivamente omogeneo di grado s, cioè,
P (th) = ts P (h) per ogni t > 0.
Consideriamo ora l’insieme compatto S = {v : ∥v∥ = 1} dei versori di Rn . Per il teorema di
Weierstrass, esiste v̄ ∈ S tale che
|P (v̄)| = max |P (v)| .
v∈S
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 37

Ora abbiamo che


P (tv̄)
0 = lim = P (v̄).
t→0+ ts
Quindi P si annulla in tutti punti di S. Ne segue [come?] che P ≡ 0. □

Teorema 7.10 (Unicità dello sviluppo). Sia k ∈ N. Sotto le ipotesi (9), sia f di
classe C k (A) (o almeno k volte differenziabile in a). Se P : Rn → R è un polinomio
di grado ≤ k tale che
f (a + h) = P (h) + o(∥h∥k ) per h → 0
allora P coincide con il polinomio di Taylor Pk di f di ordine k in a.
Dimostrazione. Sotto le nostre ipotesi abbiamo anche lo sviluppo di Taylor
f (a + h) = Pk (h) + o(∥h∥k ) per h → 0.
Essendo Q(h) := P (h) − Pk (h) un polinomio di grado ≤ k che sia o(∥h∥k ) per h → 0,
il resto segue dal precedente lemma. □

8. Ottimizzazione libera
L’espressione “ottimizzazione libera” si riferisce alla ricerca di estremanti di una
funzione a valori reali definita in un insieme aperto. (Esiste anche la “ottimizzazione
vincolata” che si svolge su insiemi dati da equazioni o sistemi di equazioni, come
superfici o curve. Incontrerete tale ottimizzazione nei corsi successivi di Analisi
Matematica.)
Le ipotesi base di questo capitolo saranno
(29) f : A → R dove A ⊂ Rn è un insieme aperto.

8.1. Punti stazionari, estremanti, punti di sella.


Definizione 8.1 (Estremanti). Sotto le ipotesi (29), un punto a ∈ A è un punto di:
• massimo assoluto [minimo assoluto] per f in A se
(30) f (a) ≥ f (x) [ f (a) ≤ f (x) ] per ogni x ∈ A.
• massimo relativo [minimo relativo] per f se esiste un intorno Bδ (a) ⊂ A tale
che
(31) f (a) ≥ f (x) [ f (a) ≤ f (x) ] per ogni x ∈ Bδ (a).
Tali punti vengono chiamati estremanti (assoluti o relativi).
In questo testo, la parola estremante significa “estremante relativo”.
Spesso viene utilizzata anche la seguente terminologia: gli estremanti assoluti
vengono chiamati estremanti globali, mentre gli estremanti relativi vengono chiamati
estremanti locali. Tale terminologia è standard in lingua inglese: ad esempio, “a
global maximum point”, “a point of local extremum” eccetera.
Nei casi in cui le disuguaglianze in (30) o (31) sono addirittura strette (tranne
che per x = a), parliamo di estremanti stretti (o, talvolta, forti). Ad esempio, a
è un punto di minimo relativo stretto se esiste un suo intorno Bδ (a) ⊂ A tale che
f (a) < f (x) per ogni x ∈ Bδ (a) \ {a}.
Si noti che gli estremanti assoluti sono anche relativi, ma non vice versa.
38 LIBOR VESELY

Lemma 8.2 (Lemma di Fermat). Supponiamo (29) e che un punto a ∈ A sia un


estremante per f . Se f è derivabile in una direzione v ∈ Rn , ∥v∥ = 1, allora
Dv f (a) = 0.
Dimostrazione. Segue facilmente dal lemma di Fermat in una variabile, applicato
alla funzione t 7→ f (a + tv). □

Corollario 8.3. Sia a ∈ A un estremante per f .


(a) Ogni derivata parziale fxi (a) che esiste è nulla.
(b) Se f ammette in a tutte le derivate parziali (del primo ordine) allora
(32) ∇f (a) = 0 .
I punti che soddisfano (32) vengono chiamati punti stazionari.

Quindi, sotto le ipotesi (29), l’insieme dei punti sospetti di essere estremanti di f
in A si riduce a:
• i punti stazionari in A;
• i punti di non derivabilità rispetto ad alcune delle variabili e aventi le
eventuali derivate parziali esistenti tutte nulle.
(Nel caso in cui A non fosse aperto si aggiungerebbero anche i punti della sua frontiera
appartenenti ad A.)

8.2. Applicazioni della compattezza.


Raccogliamo qui tre semplici (ma importanti) applicazioni della compattezza (dei
teoremi di Weierstrass e/o di Heine–Borel). La dimostrazione è lasciata allo studente
come un utile esercizio. (Una strategia possibile può essere quella di considerare
una “successione massimizzante/minimizzante” sul quale i valori di f convergano
a sup/inf di f , e mostrare che essa ammette una sottosuccessione convergente.)
Ovviamente, valgono anche le varianti riguardanti gli estremanti di natura opposta.
Sottolineiamo che negli ultimi due lemmi lo spazio euclideo Rn non può essere
sostituito con uno spazio metrico generico [perché?].
Lemma 8.4. Siano (X, d) uno spazio metrico, K ⊂ X un insieme compatto e
f : K → R una funzione continua. Supponiamo che:
• f = 0 in tutti punti di ∂K;
• f (x0 ) > 0 in qualche punto di K ◦ (l’interno di K).
Allora esiste max f (K) = max f (K ◦ ). (E quindi K ◦ contiene almeno un punto di
massimo.)
Dimostrazione. È un esercizio per voi. Questa dimostrazione potrebbe essere richiesta
in sede d’esame. □

Esempio 8.5. Cerchiamo gli estremanti della funzione



f (x, y) = 3 x · (x2 + y 2 − 1).
Notiamo che è facile determinare gli zeri e il segno di f , e lo studente è incoraggiato a
tracciarsi uno schema del segno di f nel piano. Dal disegno si vede immediatamente
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 39

che i punti dove f si annulla (cioè, i punti con x = 0 o x2 + y 2 = 1) non sono


estremanti. Inoltre, notiamo due insiemi compatti
K := {(x, y) : x ≥ 0, x2 + y 2 ≤ 1} e L := {(x, y) : x ≤ 0, x2 + y 2 ≤ 1}
tali che f = 0 in ∂K e in ∂L; f < 0 in K ◦ ; f > 0 in L◦ . Dal Lemma 8.4 segue che
K ◦ contiene almeno un punto di minimo (almeno relativo) e che L◦ contiene almeno
un punto di massimo (almeno relativo) per f .
Ora cerchiamo i punti stazionari nell’insieme aperto
A := {(x, y) ∈ R2 : x ̸= 0, x2 + y 2 ̸= 1}
nel quale la funzione f è di classe C ∞ . I punti stazionari sono dati dal sistema di
equazioni
7x4/3 y 2 − 1
fx (x, y) = + = 0 , fy (x, y) = 2x1/3 y = 0 .
3 3x2/3
Ricordando che (x, y) ∈ A, vediamo subito che deve √ essere y = 0. Sostituendo nella
prima equazione,si ottiene facilmente che x = ±1/  7. Quindi
 in A, vi sono due
punti stazionari ± √7 , 0 . Di conseguenza, il punto √7 , 0 ∈ K ◦ è un punto di
1 1
 
minimo relativo, e il punto − √13 , 0 ∈ L◦ è un punto di massimo relativo per f .
Inoltre, f non ha altri estremanti.
Infine, considerando f (x, 1) = x7/3 , deduciamo che sup f (R2 ) = +∞ e inf f (R2 ) =
−∞. I due estremanti trovati non sono assoluti ma solo relativi.

Lemma 8.6. Siano C ⊂ Rn un insieme chiuso illimitato e f : C → R una funzione


continua. Supponiamo che:
• f = 0 in tutti punti di ∂C;
• f (x) → 0 per C ∋ x → ∞;
• f (x0 ) > 0 in qualche punto di C ◦ .
Allora esiste max f (C) = max f (C ◦ ).
Dimostrazione. Esponiamo qui solo l’idea di una possibile dimostrazione. I dettagli
potrebbero essere richiesti in sede d’esame. Abbiamo che s := sup f (C) > 0. Esiste
una successione {xk }k ⊂ C tale che f (xk ) → s. Essa non può essere illimitata.
Essendo limitata, ammete una sottosuccessione {xkj }j convergente a qualche y ∈ Rn .
Deve essere y ∈ C e, siccome f (xkj ) → f (y), f (y) = s e y ∈ C ◦ . □

Lemma 8.7. Sia f : Rn → R una funzione continua tale che


• f (x) → +∞ per x → ∞.
Allora esiste min f (Rn ).
Dimostrazione. Anche qui, i dettagli della dimostrazione potrebbero essere richiesti
durante l’esame. Sia i := inf f (Rn ) e sia {xk }k ⊂ Rn tale che f (xk ) → i. Siccome
i < +∞, {xk }k non può essere illimitata. Esiste quindi una sottosuccessione {xkj }j
convergente a qualche y ∈ Rn . Ne segue che f (y) = i. □
40 LIBOR VESELY

8.3. Forme quadratiche e matrici simmetriche – cenni.


Alcune delle seguenti nozioni e i relativi risultati dovrebbero essere già noti dai
corsi di Geometria 1 e 2.
Una forma quadratica (reale) su Rn è un polinomio di grado 2 a coefficienti reali
contenete solo dei monomi quadratici. In altre parole, una forma quadratica è un
qualsiasi polinomio q : Rn → R del tipo
X n
X X
q(x) = cij xi xj = cii x2i + cij xi xj .
1≤i≤j≤n i=1 1≤i<j≤n

Per esempio, ogni forma quadratica su R3 è del tipo


(33) q(x, y, z) = ax2 + by 2 + cz 2 + pxy + qxz + ryz
dove i coefficienti a, b, c, p, q, r sono dei numeri reali.
Vi è una corrispondenza biunivoca tra l’insieme delle matrici quadrate simmetriche
H = (aij )ni,j=1 e l’insieme delle forme quadratiche su Rn . Tale corrispondenza è data
dall’applicazione H 7→ qH dove
n
X
(34) qH (x) = xT Hx = [Hx] • x = aij xi xj (x ∈ Rn ).
i,j=1

Si vede facilmente che aii = cii per ogni i, e aij = aji = 21 cij per i ̸= j.
Per esempio, la forma quadratica q(x, y, z) = x2 −z 2 +xy−6xz viene rappresentata
dalla matrice simmetrica
1 12 −3
 

H =  12 0 0  .
−3 0 −1

Per noi sarà importante il segno di una forma quadratica. Sia H una matrice
simmetrica n × n e qH la corrispondente forma quadratica. Diciamo che la matrice
H è:
• definita positiva [definita negativa] se qH (x) > 0 [qH (x) < 0] per ogni x ̸= 0;
• semidefinita positiva [semidefinita negativa] se qH (x) ≥ 0 [qH (x) ≤ 0] per
ogni x ̸= 0 ed esiste x̄ ̸= 0 con qH (x̄) = 0;
• indefinita se esistono x̄, ȳ tali che qH (x̄) < 0 < qH (ȳ).

Teorema 8.8. Sia S ⊂ Rn l’insieme dei versori di Rn , cioè, la superficie sferica di


raggio unitario centrata nell’origine.
Siano H = (aij )ni,j=1 una matrice simmetrica (reale) e qH la sua forma quadratica.
Sia σ(H) lo spettro di H, cioè,
σ(H) = {λ ∈ C : det(λI − H) = 0} .
(a) Ogni λ ∈ σ(H) è un numero reale che è un autovalore per H, cioè, esiste v ∈ S
tale che Hv = λv.
(b) qH ∈ C ∞ (Rn ) e ∇qH (x) = 2Hx per ogni x ∈ Rn .
(c) Esistono m := min qH e M := max qH .
S S
(d) σ(H) ⊂ [m, M ].
(e) m = min σ(H) e M = max σ(H).
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 41

Dimostrazione.
(a) Queste affermazioni dovrebbero esservi già note dai corsi di Geometria. (Si
dimostra che esiste una base ortonormale di Rn composta da n autovettori v1 , . . . , vn
di H, e rispetto a tale base, la mappa lineare data dalla matrice H è rappresentata
da una matrice diagonale reale avente sulla diagonale i corrispondenti autovalori.)
(b) qH è un polinomio (in n variabili) e quindi ∞ n
n
P P di classe C (R ).
ovviamente
Inoltre, per ogni x, y ∈ R si ha che [Hx]•y = i,j aij xj yi = i,j aji yi xj = [Hy]•x.
Siccome
[Hh] • h ≤ ∥Hh∥ ∥h∥ ≤ ∥H∥2 ∥h∥2 , h ∈ Rn ,
per ogni x ∈ Rn fissato possiamo scrivere
qH (x + h) − qH (x) = [Hx + Hh] • (x + h) − [Hx] • x
= [Hx] • h + [Hh] • x + [Hh] • h
= 2[Hx] • h + o(∥h∥), h → 0.
Ne segue che ∇qH (x) = 2Hx.
(c) segue dal teorema di Weierstrass in quanto S è compatto.
(d) Sia λ ∈ σ(H) e sia v ∈ S tale che Hv = λv. Allora qH (v) = (λv) • v = λ, e
quindi (c) implica che m ≤ λ ≤ M .
(e) Da (d) segue che basta dimostrare che m, M ∈ σ(H). Consideriamo la funzione
qH (x)
f : Rn \ {0}, f (x) := .
∥x∥2
Notiamo che f = qH su S e che
f (tx) = f (x) per ogni x ̸= 0, t > 0.
Ciò significa che f è costante su ogni semiretta dall’origine. Sia v̄ ∈ S tale che
m = qH (v̄) = f (v̄), e si noti che v̄ è un punto di minimo assoluto anche per f .
Per il lemma di Fermat, v̄ è un punto stazionario per f . Derivando il rapporto
e considerando che ∇(∥ · ∥2 )(x) = 2x per ogni x ∈ Rn e che ∥v̄∥ = 1, possiamo
calcolare:
∇qH (v̄) · ∥v̄∥2 − qH (v̄) · ∇(∥ · ∥2 )(v̄) 
0 = ∇f (v̄) = = 2H v̄ − m · 2v̄ = 2 H v̄ − mv̄ .
∥v̄∥4
Ciò dimostra che m è un autovalore per H. Il caso di M si dimostra allo stesso
modo. □

Corollario 8.9. Sia H una matrice simmetrica (reale) del tipo n × n e siano
m := min σ(H) , M := max σ(H) .
Allora valgono le seguenti equivalenze.
(a) H è definita positiva [definita negativa] se e solo se m > 0 [M < 0].
(b) H è semidefinita positiva [semidefinita negativa] se e solo se m = 0 [M = 0].
(c) H è indefinita se e solo se m < 0 < M .
Dimostrazione. La forma quadratica qH è omogenea di grado 2, e quindi per ogni
x ∈ Rn \ {0},    
x x
qH (x) = qH ∥x∥ · ∥x∥ = ∥x∥2 · qH ∥x∥ .
42 LIBOR VESELY

x
In altre parole, il segno di qH (x) è uguale al segno di qH (v) nel versore v := ∥x∥ . Il
resto segue facilmente dal Teorema 8.8. [Scrivete i dettagli!] □

Commento 8.10 (Un approfondimento). Dalla ben nota teoria delle matrici autoaggiunte
(tra le quali cadono tutte le matrici reali simmetriche) segue che che: se H è una matrice
simmetrica reale e u, v ∈ Rn sono due autovettori corrispondenti a due autovalori distinti
di H, allora u • v = 0 ovvero u, v sono ortogonali tra loro.

Dalla formula nella dimostrazione del Corollario 8.9 (insieme al Teorema 8.8)
otteniamo il seguente

Corollario 8.11. Sia H una matrice simmetrica (reale) del tipo n × n e siano

m := min σ(H) , M := max σ(H) .

Allora
m∥x∥2 ≤ qH (x) ≤ M ∥x∥2 per ogni x ∈ Rn .
In particolare valgono le seguenti affermazioni.
(a) |qH | ≤ C∥ · ∥2 dove C = max{|m|, |M |}.
(b) Se H è definita positiva allora m > 0 e qH ≥ m∥ · ∥2 .
(c) Se H è definita negativa allora M < 0 e qH ≤ M ∥ · ∥2 .

Aggiungiamo senza dimostrazione il seguente ben noto criterio.

Teorema 8.12 (Criterio di Sylvester). Sia H = (aij )ni,j=1 una matrice simmetrica
reale. Per ogni 1 ≤ k ≤ n consideriamo la sottomatrice

Hk = (aij )ki,j=1 , detta il minore nord-ovest k-esimo di H.

Allora:
(a) H è definita positiva se e solo se det Hk > 0 per ogni k = 1, . . . , n.
(b) H è definita negativa se e solo se (−1)k det Hk > 0 per ogni k = 1, . . . , n.

Esercizio 8.13 (Matrici 2 × 2.).


Sia H = (aij ) una matrice 2 × 2. Studiando il segno della forma quadratica qH =
qH (x, y), dimostrate le seguenti affermazioni.
(a) Se det H >0 e a11 > 0 allora H è definita positiva.
(b) Se det H >0 e a11 < 0 allora H è definita negativa.
(c) Se det H =0 allora H è semidefinita (positiva o negativa).
(d) Se det H <0 allora H è indefinita.

Attenzione: questo criterio vale solo per matrici 2 × 2 e non per quelle di dimensioni
maggiori!
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 43

8.4. Condizioni sufficienti per estremanti.


Ora siamo pronti per enunciare e dimostrare delle condizioni sufficienti affinché
un punto stazionario sia estremante. Per confronto, ricordiamo qui il corrispondente
teorema in una variabile.
Sia f una funzione definita in un intorno di a ∈ R, due volte derivabile in a. Se a è
un punto stazionario per f e f ′′ (a) > 0 [ f ′′ (x0 ) < 0 ] allora x0 è un punto di minimo
[di massimo] relativo per f . (Nel caso di f ′′ (a) = 0 il criterio non dà informazioni.)
Ecco la versione del criterio in più variabili.

Teorema 8.14 (Criterio del II ordine). Siano n ≥ 2 intero, A ⊂ Rn un insieme


aperto, a ∈ A, f : A → R una funzione di classe C 2 in un intorno Bδ (a) ⊂ A.
Supponiamo che
∇f (a) = 0 (cioè, che a sia un punto stazionario per f ).
Sia Hf (a) la matrice hessiana di f in a.
(a) Se Hf (a) è definita positiva, allora a è un punto di minimo relativo stretto per
la funzione f .
(b) Se Hf (a) è definita negativa, allora a è un punto di massimo relativo stretto per
la funzione f .
(c) Se Hf (a) è indefinita, allora a non è estremante per f .
Più precisamente, esistono due versori distinti v, w tali che il punto t = 0 è:
un punto di minimo relativo stretto per la funzione t 7→ f (a + tv); un punto di
massimo relativo stretto per la funzione t 7→ f (a + tw).
(Nei casi in cui Hf (a) è solo semidefinita (positiva o negativa), senza ulteriori
informazioni non è possibile stabilire se a sia un estremante o meno. Si veda
l’Esempio 8.16 a proposito.)
Dimostrazione. Si noti che secondo il teorema di Schwarz la matrice H := Hf (a) è
simmetrica. Consideriamo la corrispondente forma quadratica
qH (x) := [Hx] • x (x ∈ Rn ).
(a) Supponiamo che H sia definita positiva. Dal Corollario 8.11 abbiamo che qH (x) ≥
m∥ · ∥2 (x ∈ Rn ) dove m > 0. Secondo il Teorema 7.6, per Bδ (0) ∋ h → 0 abbiamo
f (a + h) − f (a) = qH (h) + o(∥h∥2 ) ≥ m∥h∥2 + o(∥h∥2 ) ∼ m∥h∥2 .
Siccome l’ultima quantità è strettamente positiva per h ̸= 0, esiste un δ ′ ∈ (0, δ) tale
che f (a + h) > f (a) per ogni h con 0 < ∥h∥ < δ ′ . Ciò dimostra (a). La parte (b) si
dimostra in modo del tutto analogo.
(c) Supponiamo ora che H sia indefinita. Per Teorema 8.8 e Corollario 8.9, Hf ha
due autovalori m < 0 < M . Siano v, w due autovettori di norma unitaria relativi,
nell’ordine, agli autovalori m, M . Ora per (−δ, δ) ∋ t → 0 lo sviluppo di Taylor di f
ci dà:
f (a + tv) − f (a) = qH (tv) + o(t2 ) = m (tv) • (tv) + o(t2 ) = mt2 + o(t2 ) ∼ mt2 .
Ragionando come sopra, otteniamo che f (a+tv) < f (a) per ogni sufficientemente pic-
colo t ̸= 0. Analogamente si dimostra che f (a + tw) > f (a) per ogni sufficientemente
piccolo t ̸= 0. □
44 LIBOR VESELY

Commento 8.15. Le ipotesi del Teorema 8.14 non sono le minime possibili. Po-
tremmo ad esempio supporre solo che f sia due volte differenziabile in un intorno di
a con le derivate parziali seconde continue in a.

Esempio 8.16. Nell’origine, entrambe le funzioni


f (x, y) = x2 + y 4 e g(x, y) = x2 − y 4
hanno la matrice hessiana semidefinita positiva, ma l’origine è chiaramente un punto
di minimo assoluto per f mentre non è estremante per g.

Commento 8.17 (Terminologia “punto di sella”). I punti stazionari a con la matrice


hessiana Hf (a) indefinita sono dei punti di sella. Infatti, nel caso di due variabili, il
grafico di f ha (vicino al punto a) la forma di una sella o di un passo di montagna.
La terminologia “punto di sella” però non è completamente standard. In alcuni testi
un “punto di sella” viene definito come un punto stazionario non estremante. In altri
testi, un “punto di sella” viene usato come sinonimo di “non estremante”.
A mio avviso personale, un “punto di sella” dovrebbe avere la forma di una sella,
e quindi dovrebbe essere definito come un punto stazionario in cui esistono due
direzioni (versori) v1 , v2 lungo le quali f ha in a un massimo per una e un minimo per
l’altra. Come abbiamo visto, ciò succede, ad es., quando l’hessiana in a è indefinita.
In questo testo non useremo comunque la terminologia “punto di sella”.

E se il criterio di sopra non può essere applicato? Che cosa possiamo fare se in
un punto stazionario a la matrice hessiana è solo semidefinita (positiva o negativa)?
In questo caso, se la funzione f è sufficientemente regolare, possiamo sviluppare f
in a fino a qualche ordine successivo che, se siamo fortunati, ci dà informazioni sul
segno dell’incremento f (a + h) − f (a).

Esempio 8.18. Al variare del parametro reale a, vogliamo stabilire se l’origine è un


estremante per la funzione
f (x, y) = log 1 + (x + y)2 − axy .


Osserviamo che f è definita in tutto il piano e vi è di classe C ∞ . Per (x, y) → (0, 0),
f (x, y) = (x + y)2 − 21 (x + y)4 + o(∥(x, y)∥4 ) − axy
= x2 + y 2 + (2 − a)xy − 12 (x + y)4 + o(∥(x, y)∥4 ).
Dallo sviluppo deduciamo che (0, 0) è un punto stazionario e che la matrice hessiana
Hf (0, 0) è la matrice simmetrica
 
2 2−a
H= .
2−a 2
Utilizzeremo il criterio dell’Esercizio 8.13. Siccome

< 0 se a < 0 o a > 4,

det H = −a(a − 4) > 0 se a ∈ (0, 4),

= 0 se a = 0 o a = 4,

otteniamo che:
• se a ∈ (−∞, 0) ∪ (4, +∞) l’origine non è estremante per f ;
• se a ∈ (0, 4) l’origine è un punto di minimo (almeno relativo).
CALCOLO DIFFERENZIALE IN PIÙ VARIABILI 45

Rimangono i due casi in cui la matrice H è solo semidefinita.


Sia a = 0. Allora f (x, y) = log(1 + (x + y)2 ) ed è ovvio che (0, 0) è un punto di
minimo assoluto.
Sia ora a = 4. In tal caso, l’incremento f (x, y) − f (0, 0) è della forma
f (x, y) − f (0, 0) = f (x, y) = (x − y)2 − 21 (x + y)4 + o(∥(x, y)∥4 ).
Osserviamo che, per x → 0, f (x, x) = −8x4 + o(x4 ) ∼ −8x4 e quindi f (x, x) < 0 per
0 < |x| < δ (con δ > 0 opportuno). D’altra parte, f (x, 0) = x2 − 21 x4 + o(x4 ) ∼ x2
da cui f (x, 0) > 0 per 0 < |x| < δ ′ (δ ′ > 0 opportuno). Ne segue che l’origine non è
estremante per a = 4.
Ci si potrebbe anche chiedere se, nei casi di a ∈ (0, 4), l’origine sia un punto di
minimo assoluto. Ma, in tal caso, f (x, x) = log(1 + 4x2 ) − ax2 → −∞ per x → +∞
e quindi tale estremo è solo relativo.

The End.

Potrebbero piacerti anche