Sei sulla pagina 1di 242

6 Determinante

• 1 INTRODUZIONE
Nel primo capitolo abbiamo già definito il determinante di matrici 2 x 2 e 3 x 3 a
coefficienti reali. Nel caso 2 x 2 il valore assoluto del determinante è l'area del paralle-
logramma generato dai vettori riga della matrice (il parallelogramma che ha un vertice
nell'origine e i cui lati uscenti dall'origine sono i vettori riga della matrice). Nel caso
3 x 3 il determinante è il prodotto misto dei vettori riga della matrice e, quindi, il suo
valore assoluto è il volume del parallelepipedo generato dai vettori riga della matrice
(il parallelepipedo che ha un vertice nell'origine e i cui spigoli uscenti dall'origine sono i
vettori riga della matrice) . In entrambi i casi il determinante è diverso da zero se e solo
se le righe della matrice sono linearmente indipendenti. È naturale chiedersi se si possa
trovare un numero con proprietà analoghe per matrici quadrate di ordine arbitrario:
intuitivamente ci aspettiamo che n vettori in !Rn siano linearmente indipendenti se
e solo se il parallelepipedo da essi generato ha volume diverso da zero (cioè non è
schiacciato in un sottospazio proprio di !Rn). La risposta è positiva: a ogni matrice
quadrata A si può associare un numero, det(A) , che dipende dalle righe di A come
dovrebbe dipendere il volume con segno del parallelepipedo generato dalle righe di
una matrice, con la proprietà fondamentale che det(A) i= O se e solo se le righe di
A sono linearmente indipendenti. Per arrivare a trovare una formula esplicita per il
determinante, occorre precisare le proprietà che il volume con segno del parallelepipedo
generato dalle righe di una matrice dovrebbe avere, e si mostra che esiste un 'unica
funzione con tali proprietà: faremo vedere che il determinante è l'unica funzione delle
righe della matrice che sia (a) multilineare, cioè lineare in ciascuna riga fissate le
altre, (b) alternante (il determinante cambia segno se si scambiano due righe), (c)
normalizzata in modo da valere 1 per la matrice identità (geometricamente, 1 è il
volume del cubo di lato unitario, che è il parallelepipedo generato dai vettori della
base canoµica).
In questo modo arriveremo a scrivere una formula esplicita per il determinante in
termini degli elementi della l!latrice e anche una formula di calcolo del determinante
per induzione (sviluppo di Laplace), che riconduce il calcolo del determinante di una
matrice n x n a una combinazione lineare di n determinanti di matrici n - 1 x n - 1.
Tuttavia queste formule hanno un costo computazionale altissimo anche per valori di
262 Capitolo 6. Determinante © 978-88-08-06401-1

n relativamente piccoli. Pertanto, l'interesse del determinante risiede prevalentemente


nelle sue applicazioni teoriche e l'attenzione del lettore dovrebbe rivolgersi più alle
proprietà che non ai metodi di calcolo. Un esempio da tener presente è l'elegante
formula di Cramer, secondo la quale le componenti della soluzione x = A - l b di un
sistema lineare Ax = b , con A quadrata non singolare, sono:
det(Ai)
Xi= det(A)

dove Ai è ottenuta sostituendo la colonna i di A col termine noto b. Questa formula


è tanto elegante quanto computazionalmente inutile per calcolare la soluzione: utiliz-
zando la formula di Cramer e gli sviluppi di Laplace per il calcolo del determinante
anche il computer più veloce impiegherebbe decine di anni per risolvere un sistema
con un numero relativamente piccolo di equazioni come 25, mentre col Meg (e altri
algoritmi) la soluzione si troverebbe in un batter d 'occhio. Se oggigiorno è possibile
risolvere sistemi lineari con centinaia di migliaia di incognite non è certo per merito
della formula di Cramer.
Per quel che riguarda questo libro, useremo il determinante principalmente per
ottenere informazioni sugli autovalori di una matrice. Da questo punto di vista, le
proprietà fondamentali che ci interessano sono che (a) il determinante è diverso da zero
se e solo se la matrice è non singolare, (b) il determinante è un polinomio omogeneo
di grado n (l 'ordine della matrice) negli elementi della matrice, (c) il determinante di
un prodotto di matrici è il prodotto dei determinanti: det(AB) = det(A) det(B) .
Questo capitolo contiene molti dettagli tecnici su cui il lettore non dovrebbe per-
dersi. Consiglio, pertanto, di saltare, almeno in prima lettura, tutte le dimostrazioni
e di concentrarsi sull'apprendimento delle proprietà del determinante, con l'eccezione
della prima metà della dimostrazione del teorema 4.5 sull'esistenza del determinante:
è interessante vedere come dalle proprietà astratte di multilinearità e alternanza si
possa ricavare la formula analitica del determinante.

• 2 DETERMINANTE E MOSSE DI GAUSS


Come abbiamo fatto per il rango , introduciamo il determinante facendo riferimento
al metodo di eliminazione di Gauss: a parte il segno, il determinante è il prodotto
dei pivots della matrice; mentre il segno dipende dal numero di scambi di righe che il
MEG richiede. Il risultato preciso, che dimostreremo nei paragrafi successivi, è:

TEOREMA 2.1 (Determinante e MEG)


Esiste un'unica funzione
det: Moc(n, n) -+ lK
con le seguenti proprietà:

a) Invarianza per scorrimento: se B è ottenuta da A sommando a una riga un


multiplo di un'altra riga, det(B) = det(A).

b) Alternanza: se B è ottenuta da A scambiando due righe, allora det(B) =


-det(A) .
© 978-88-08-06401-1 2 Determinante e mosse di Gauss 263

c) Normalizzazione: se U è una matrice triangolare alta, det(U) è il prodotto


degli elementi sulla diagonale principale di U:

(2.1) det
( ~1;2:::11 =
O O O
.

Pn
P1P2 · · ·Pn

L'unicità della funzione determinante segue dal fatto che le proprietà a), b) e c)
consentono il calcolo del determinante di una matrice A: col metodo di Gauss si riduce
la matrice a una matrice triangolare U; per le proprietà a) e b) il determinante di A è
± det(U); per la proprietà c) il determinante di U è il prodotto dei pivots. Il punto del
teorema è che non è affatto evidente che una funzione con le proprietà richieste esista:
scambiando le righe di A in modi diversi si ottengono matrice triangolari diverse, e
non è evidente che non cambi anche il prodotto dei pivots di tali matrici. Rimandiamo
la dimostrazione dell'esist enza della funzione determinante ai paragrafi successivi.
Il determinante di una matrice si indica anche sostituendo le parentesi della matrice
con delle barre verticali: per esempio

an ai2 ai3 ( [an


a21 a22 a23 = det a21
a31 a32 a33 a31

OssERVAZIONE Il determinante, quando lK = JR, va pensato come il volume con


segno del parallelepipedo che ha un vertice nell'origine e, come spigoli uscenti dall 'o -
rigine, i vettori riga della matrice. Spieghiamo questa affermazione nel caso di IR. 3 . In
questo caso, come già visto nel primo capitolo, il segno del determinante è positivo
se e solo se i vettori riga della matrice formano una base destrorsa. Esaminiamo le
tre proprietà dell'enunciato del teorema 2.1. La prima proprietà esprime l'invarianza
del volume di un parallelepipedo quando se ne lasciano fissi la base e l'altezza; per
vederlo, prendiamo come base del parallelepipedo il parallelogramma generato dalla
seconda e dalla terza riga della matrice. La prima riga è quindi lo spigolo del paral-
lelepipedo che esce dal piano della base; ora un multiplo della seconda o della terza
riga è un vettore parallelo alla base e aggiungendo un vettore parallelo alla base alla
prima riga non si modifica l'altezza del parallelogramma rispetto alla base; il volume
rimane perciò invariato. Per quanto riguarda la proprietà b), scambiare due spigoli
lascia invariato il parallelepipedo e, in particolare, non varia il volume ma trasforma
una terna destrorsa in sinistrorsa e viceversa, per cui il segno del determinante deve
cambiare. Consideriamo, infine, la proprietà c): supponiamo quindi che la matrice sia
triangolare alta:
an
A= O
[
o
264 Capitolo 6. Determinante © 978-88-08-06401-1

La terza riga è un vettore dell'asse z, la seconda un vettore del piano yz , la cui proie-
zione sull'asse y è a22· La base del parallelepipedo, che è il parallelogramma generato
dalla seconda e terza riga, è contenuta nel piano yz e ha la base lunga la33 I e altezza
lad. L'area di base è quindi la22a33I. L'altezza del parallelepipedo è il valore assoluto
della proiezione a 11 della prima riga sull'asse x. Perciò il volume del parallelepipedo è
il valore assoluto del prodotto degli elementi sulla diagonale principale. Dal punto di
vista geometrico, le operazioni di riga trasformano il parallelepipedo mantenendone
invariato il volume, in modo tale che alla fine del processo il calcolo del volume sia
immediato.

•i1§.ii@i
Calcoliamo il determinante della matrice

l 1 2 11
A= 113 2
1 2 3 -1
r
. 2 3 1 -1

Il determinante non cambia sommando a una riga un multiplo di un'altra riga:

1 1 2 1 1 1 2 1
1 1 3 2 oo 1 1
1 2 3 -1 o1 1 -2
2 3 1 -1 o 1 -3 -3

Scambiando la seconda e la terza riga il determinante cambia di segno:

1 1 2 1 1 1 2 1
oo 1 1 o1 1 -2
o1 1 -2 oo 1 1
o 1 -3 -3 o 1 -3 -3

Completando il processo di eliminazione otteniamo infine

1 1 2 1 1 1 2 1 1 1 2 1
o1 1 -2 o1 1 -2 o1 1 -2 = -3
det(A) =- OO 1 1
oo 1 1 oo1 1
o 1 -3 -3 o o -4 -1 ooo 3

Possiamo procedere in ordine diverso. Per esempio, possiamo prima scambiare la prima e la
terza riga:
1 1 2 1 1 2 3 -1
1 1 3 2 1 1 3 2
1 2 3 -1 11 2 1
2 3 1 -1 2 3 1 -1
e poi proseguire con l'elimina:iione:

1 2 3 -1 1 2 3 -1 1 2 3 -1 1 2 3 -1
1 1 3 2 o -1 o 3 o -1 o 3 o -1 o 3
1 1 2 1 o -1 -1 2 o o -1 -1 o o -1 -1 = - 3
2 3 1 -1 o -1 - 5 1 o o -5 -2 o o o 3
© 978-88-08-06401-1 2 Determinante e mosse di Gauss 265

Il teorema 2.1 garantisce che in qualunque modo si proceda nella riduzione a matrice trian-
golare si ottiene sempre lo stesso risultato -3 per il determinante di A .

Dal teorema 2.1 si deduce immediatamente la proprietà fondamentale del determinan-


te: il determinante di una matrice quadrata è diverso da zero se e solo se le righe della
matrice sono linearmente indipendenti. Intuitivamente questo è chiaro: le n righe sono
indipendenti se e solo se lo spazio che generano ha dimensione n e questo equivale a
dire che il volume del parallelepipedo generato dalle righe è diverso da zero: si pensi al
caso di JR. 3 , in cui un parallelepipedo è schiacciato in un piano se e solo se ha volume
nullo. Tenuto conto che le righe di una matrice n x n sono linearmente indipendenti
se e solo se la matrice ha rango n , la proprietà cruciale del determinante si esprime
come segue:

TEOREMA 2.2 (Matrici non singolari)


Per una matrice quadrata A di ordine n le seguenti affermazioni sono equiva-
lenti:

1) r(A) = n;
2) det(A) =/= O;

3) A è invertibile.

DIMOSTRAZIONE. Abbiamo già dimostrato che A è invertibile se e solo se ha rango massimo,


quindi basta mostrare che r(A) = n se e solo se det(A) i= O. Col MEG riduciamo A alla
matrice triangolare U. La matrice V ha lo stesso rango di A e, a meno del segno, lo stesso
determinante. Quindi basta dimostrare l'enunciato per U. Per finire osserviamo che il rango
di V è n se e solo se tutti gli elementi sulla diagonale principale di V sono non nulli; e questo
succede se e solo se il prodotto di tali elementi, che è il determinante di U, è diverso da
zero.

COROLLARIO 2.3 (Annullamento del determinante)
Il determinante di A è nullo in ciascuno dei seguenti casi:

1) una riga o una colonna è nulla;

2) due righe o due colonne sono uguali;

3) una riga è combinazione lineare delle altre righe (o una colonna è combina-
zione lineare delle altre colonne).

DIMOSTRAZIONE. In ciascuno dei casi le righe (o le colonne) di A sono linearmente dipen-


denti e quindi A non ha rango massimo . •
266 Capitolo 6. Determinante © 978-88-08-06401- 1

1414,,1g
Il determinante della matrice

[~ ~ ~i
3 24
è nullo perché la terza riga è la somma delle prime due.

O Calcolare il determinante delle matrici quadrate che nei capitoli precedenti sono state
ridotte a forma triangolare.
Suggerimento: il determinante è ± il prodotto dei pivots.

f) Mostrare che, se A è una matrice quadrata di ordine net è uno scalare, allora det(tA) =
tn det(A).
Suggerimento: moltiplicando A per t si moltiplica ogni pivot di A per t) . Se A ha ordine
3 e det(A) = -2 , quanto vale det(3A)?

O Se v è un vettore di ocn, il prodotto vvT è una matrice n x n di rango :::; 1 (esattamente


1 se v # O). Concludere che det(vvT) = O. Più in generale, se B è una matrice di tipo
(n,p) con p < n, mostrare che BBT è una matrice n x n di rango :::; p. Concludere che
det(BBT) = O. Verificare questa formula nel caso B t
= [ ~].

• 3 DETERMINANTE DI MATRICI DI PERMUTAZIONE


Questo paragrafo è dedicato a mostrare che la richiesta che scambiando due righe il
determinante cambi di segno non conduce a una contraddizione. Si tratta di un fatto
tecnico che il lettore dovrebbe dare per buono, almeno in prima battuta. Facciamo un
esempio. Sia P la matrice ottenuta dalla matrice identità 3 x 3 scambiando la prima
e la terza riga:
1oo] [o o1] =P
I= 010
001 [ ___, 010
100
La matrice P si può anche ottenere da I scambiando inizialmente le prime due righe,
poi la prima e la terza riga e, infine, la seconda e la terza riga

I= 1oo]
010 ___, [o100
1 o] ___, [o100
o1] ___, [o010
o1] =P
[ 001 001 010 100
Questo mostra che P si può ottenere da I con un solo scambio di righe, e anche
con tre scambi di righe. Siccome 1 e 3 sono entrambi dispari, in entrambi i casi la
nostra regola impone det(P) = -1 e non c'è problema. Però se P si potesse ottenere
da I con un numero pari di scambi di righe, la regola imporrebbe det(P) = 1, una
contraddizione. Quindi occorre escludere che una stessa matrice si possa ottenere da
I sia con un numero pari sia con un numero dispari di scambi di righe. Se il lettore è
disposto ad accettare questo fatto , può saltare il resto del paragrafo.
© 978-88-08-06401-1 3 Determinante di matrici di permutazione 267

La matrice P è un esempio di matrice di permutazione. Una permutazione dei nu-


meri da 1 a n è un ordinamento dell 'insieme {1, ... , n}. Per esempio, ci sono sei
permutazioni dei numeri da 1 a 3:

(1 , 2,3), (1 , 3, 2), (2 , 1, 3), (2 , 3,1), (3,1,2) , (3,2,1)

Possiamo pensare a una permutazione CJ = (CJ(l) , CJ(2), . . . , CJ(n)) anche come a una
funzione biiettiva CJ : {1 , 2, ... , n} ---+ {1 , 2, . .. , n }. Per la permutazione CJ = (2, 3, 1)
abbiamo CJ(l) = 2, <J(2) = 3 e CJ(3) = l. Il fatto che la funzione sia biiettiva significa
che ogni intero tra 1 e n compare una e una sola volta nella lista CJ(l), <J(2), ... , CJ(n) .
In generale, le permutazioni dei numeri da 1 a n sono n! (un numero enorme) perché
possiamo scegliere il primo intero in n modi diversi , poi il secondo in n-1 modi perché
il primo numero è stato fissato , il terzo in n - 2 modi perché i primi due numeri sono
stati fissati , eccetera; quindi il numero delle permutazioni, che corrisponde a tutte le
scelte possibili, è
n · (n - 1) · (n - 2) · · · 2 · 1 = n!
L'insieme di tutte le permutazioni di {1 , ... , n} si denota col simbolo Sn. Uno scambio
è una permutazione che scambia tra loro due numeri e lascia gli altri invariati. Fissati
1 ::; i < j ::; n, lo scambio E = [i, j] è la permutazione che scambia i e j. Quindi
E(i) = j , E(j) =i e E(k) = k per k =f. i,j, ovvero

E= (1, ... , i - l , j, i + 1, ... ,j - 1, i,j + 1, ... , n)

Per esempio, fissato n = 5, lo scambio [2, 3] è la permutazione (1, 3, 2, 4, 5) che scambia


tra loro 2 e 3, e lascia fissi 1, 4 e 5.
Data una coppia di permutazioni CJ e T in Sn, la permutazione prodotto CJT si
ottiene applicando prima T e poi. CJ (attenzione all 'ordine dei fattori ; altri autori usano
la convenzione opposta):

CJT(k) = CJ(T(k)) per ogni k = 1, ... , n

Se pensiamo a CJ e T come a funzioni { 1, 2, ... , n} ---+ {1 , 2, . .. , n} , il prodotto CJT non


è altro che la funzione composta. Per esempio, fissiamo n = 3 e calcoliamo il prodotto
dei due scambi CJ = [1 , 3] = (3, 2, 1) e T = [2, 3] = (1 , 3, 2): siccome d T(l)) = CJ(l) = 3,
d T(2)) = <J(3) = 1, CJ( T(3)) = CJ (2) = 2, la permutazione prodotto è
O'T = (3, 1, 2)

PROPOSIZIONE 3.1 (Parità di una permutazione)

a) Ogni permutazione CJ è il prodotto di un certo numero di scambi.

b) Se una permutazione CJ è il prodotto di un numero pari (rispettivamente


dispari di scambi) , allora ogni altra decomposizione di CJ come prodotto di
scambi ha un numero pari (rispettivamente dispari) di fattori.
268 Capitolo 6. Determinante © 978-88-08-06401-1

DIMOSTRAZIONE. Il fatto che a si possa ottenere come prodotto di scambi è evidente:


se a(l) f= 1, con lo scambio [1, a(l)) si mette a(l) come primo elemento, poi con un altro
scambio (se necessario) si mette a(2) al secondo posto e procedendo così con al massimo n- 1
scambi si trasforma l'ordinamento naturale nella permutazione a = (a(l), a(2) , ... , a(n)) .
Per esempio, per ottenere (2, 3, 1) dall'ordinamento naturale (1, 2, 3) , possiamo scambiare
prima 1 e 2 ottenendo (2, 1, 3), e poi 1 e 3.
Per mostrare il punto b), introduciamo la nozione di inversione di una permutazione:
data una permutazione a= (a(l), a(2), ... , a(n)) , una coppia di indici (i, j) compresi tra 1
e n è un'inversione di a se
• i < j
• a(i) > a(j)
Computazionalmente è lungo (oltre che per fortuna inutile) determinare quali o quante siano
le inversioni di una permutazione: occorre infatti controllare tutte le coppie (i, j) con 1 ::;
i < j ::; n e tali coppie sono (;) = ~n(n - 1). Per esempio, per trovare le inversioni della
permutazione (a(l), a(2) , a(3)) = (2 , 3, 1) occorre controllare le 3 coppie (1, 2), (1, 3) e (2 , 3).
La permutazione a manda queste tre coppie rispettivamente in (2 , 3), (2, 1) e (3, 1). Quindi
le inv.ersioni di a sono le due coppie (1, 3) e (2, 3).
Il punto cruciale e l'unica cosa che ci interessa, è che il prodotto di uno scambio E con
una permutazione a cambia la parità del numero di inversioni di a; questo significa:
se E è uno scambio e a ha un numero pari (rispettivamente dispari) di inversioni, allora w
ha un numero dispari (rispettivamente pari) di inversioni.
Da questa affermazione segue subito il punto b). Supponiamo infatti che una permutazione
a si scriva come un prodotto di d scambi. La permutazione identità (1 , 2, ... , n) ha zero
inversioni, quindi un numero pari di inversioni. Per ipotesi a si ottiene dalla permutazione
identità con d scambi; la parità del numero di inversioni viene cambiata d volte, e quindi
a ha un numero pari (rispettivamente dispari) di inversioni se e solo se d è pari (rispetti-
vamente dispari). Siccome il numero di inversioni dipende solo da a e non dal modo in cui
decomponiamo a in un prodotto di scambi, il punto b) è dimostrato.
Rimane da mostrare che il prodotto a sinistra per uno scambio E cambia la parità del
numero di inversioni di a. Poniamo T = Ea. Sia D 1 l'insieme delle coppie (i, j) che sono
inversioni di a ma non di T e sia D2 l'insieme delle coppie (i , j) che sono inversioni di T ma
non di a. Se d1 (rispettivamente d2) è il numero di elementi di Di (rispettivamente D2) ,
allora la differenza tra il numero di inversioni di a e il numero di inversioni di T è di - d2 .
Occorre quindi dimostrare che di - d2 è dispari. Siccome di - d2 = (di + d2) - 2d2 , basta
mostrare che di + d2 è dispari . Ora di + d2 è il numero di elementi di D = Di U D2 , cioè
delle coppie che sono inversioni per a or , ma non per entrambe.
A questo punto è semplice mostrare che D contiene un numero dispari di coppie. Lo
scambio E scambia due numeri a(a) e a(b) , con 1::; a< b::; n. Per una coppia (i,j) con i e j
entrambi distinti da a e da b si ha (a(i), a(j)) = ( r( i), r(j) ), quindi la coppia è un'inversione
per a se e solo se lo è per T e non appartiene D. Quindi le coppie in D hanno almeno un
elemento uguale ad a e b. Consideriamo tutte le possibilità.
1. Coppia del tipo (i, a) con i< a. Viene mandata da a in (a(i) , a(a)) e da T in (a(i) , a(b)).
Appartiene a D se e solo se a(i) è compreso tra a(a) e a(b).
2. Coppia del tipo (i , b) con i< a. Viene mandata da a in (a(i), a(b)) e da T in (a(i) , a(a)).
Appartiene a D se e solo se a(i) è compreso tra a(a) e a(b).
3. Coppia del tipo (a, i) con a < i < b. Viene mandata da a in (a( a) , a( i)) e da T in
(a(b),a(i)). Appartiene a D se e solo se a(i) è compreso tra a(a) e a(b).
4. Coppia del tipo (i, b) con a < i < b. Viene mandata da a in (a(i), a(b)) e da r in
(a(i),a(a)) . Appartiene a D se e solo se a(i) è compreso tra a(a) e a(b).
© 978-88-08-06401-1 3 Determinante di matrici di permutazione 269

5. Coppia del tipo (a, i) con i> b. Viene mandate da O' in (O'(a) , O'(i)) e da T in (O'(b), O'(i)) .
Appartiene a D se e solo se O'(i) è compreso tra O'(a) e O'(b) .
6. Coppia del tipo (b, i) con i> b. Viene mandate da O' in (O'(b), O'(i)) e da T in (O'(a), O'(i)).
Appartiene a D se e solo se O'(i) è compreso tra O'(a) e O'(b).
7. Coppia (a , b) . Viene mandata da O' in (O'(a) , O'(b)) e da T in (O'(b), O'(a)). Appartiene a D.

Osserviamo che una coppia (i, a) di tipo 1 appartiene a D se e solo se la coppia (i , b) di tipo
2 appartiene a D; quindi D contiene un numero pari di coppie di tipo 1 o 2; analogamente
D contiene un numero pari di coppie di t ipo 3 o 4, e un numero pari di coppie di tipo 5 o 6.
In più D contiene la singola coppia (a , b). Quindi D contiene un numero dispari di coppie, e
questo conclude la dimostrazione. •

DEFINIZIONE 3.2 (Permutazioni pari e dispari)


Una permutazione a si dice pari (rispettivamente dispari) se è il prodotto di
un numero pari (rispettivamente dispari) di scambi. Si pone (-1)(1 = 1 se a è
pari, ( -1 )(1 = -1 se a è dispari.

La proposizione precedente mostra che una permutazione non può essere pari e dispari
allo stesso tempo.

141§.,ld
La permutazione identità è pari. Uno scambio è una permutazione dispari. La permutazione

O'= (2, 3, ... , n, 1)

è pari se n è dispari e dispari se n è pari, perché

O' = [1, n-1) · · · [1 , 3][1 , 2)


è il prodotto di n-1 scambi.

A una permutazione a di {1 , 2, ... , n} associamo, come nel capitolo sull'algebra delle


matrici, la matrice di permutazione P (1: si tratta della matrice di tipo (n, n), ottenuta
dalla matrice identità permutando le righe come prescritto da a ; questo significa che
la riga i di P (1 è la riga a( i) della matrice identità. Quindi, se {e 1 , ... , en} è la base
canonica di ocn' la riga i di p (1 è e~(i) .
Per esempio
o1 o]
= oo1
p (2,3 ,l)
[1 o o
Le matrici P si dicono matrici di permutazione. Una matrice di permutazione P
(1 (1

ha esattamente un 1 su ogni riga e su ogni colonna e tutti gli altri elementi della
matrice sono nulli; l'elemento non nullo della riga i è quello con indice di colonna a(i).
Viceversa, ogni matrice che abbia esattamente un 1 su ogni riga e su ogni colonna e
tutti gli altri elementi nulli , è una matrice di permutazione P (1: la permutazione a
270 Capitolo 6. Determinante © 978-88-08-06401-1

si trova ponendo O'( i) uguale all'indice di colonna dell'unico 1 dell'i-esima riga. Per
esempio, la matrice

o1 o
o o]1
[o1 o

definisce O' = (1, 3, 2).


Se la permutazione O' si decompone come prodotto di d scambi, la matrice P a-
si ottiene dalla matrice identità con d scambi di righe e quindi per la proprietà di
alternanza b) del teorema 2.1 il determinante di P a- dev'essere ( -1 )d (il determinante
della matrice identità è 1 per la proprietà c) di normalizzazione). Per la proposizione
3.1 questo numero è ben definito e non dipende dalla decomposizione di O' come
prodotto di scambi: è uguale a 1 se O' è pari, a -1 se O' è dispari. Abbiamo così
calcolato il determinante per le matrici di p ermutazione:

PROPOSIZIONE 3.3 (Determinante di una matrice di permutazione)


Supponiamo che esista la funzione determinante con le proprietà richieste dal
teorema 2 .1. Allora il determinante della matrice di p ermutazione P a- è uguale
a 1 se O' è pari e a -1 se O' è dispari:

(3.1) det(P a-) = ( -1 t

l@§iiSI
O Stabilire se le seguenti permutazioni sono pari o dispari:

a1 = (5, 4, 3, 2, 1), a2 = (2 , 1, 4, 3, 5) , a3 = (2, 3, 1, 5, 4), a4 = (1 , 2, 3, 5, 4)

Scrivere le corrispondenti matrici di permutazione (sono matrici 5 x 5) e calcolarne il deter-


minante.

8 Calcolare il determinante della matrice

P= 0100
o o o 11
[o1 oo o1 oo
Scrivere la permutazione a tale che P = P" e dire se a è pari o dispari.

8 Mostrare che, se A = LU è una fattorizzazione LU (rispettivamente A= PLU con P


matrice di permutazione), allora det(A)=det(L) det(U )=det(U) (rispettivamente det(A)=
det(P) det(L) det(U)).

G Mostrare che ogni permutazione a ha un'inversa a - 1


definita dalla proprietà
© 978-88-08-06401-1 4 Formula esplicita per il determinante 271

Equivalentemente, l'inversa è l'unica permutazione u - 1 tale che il prodotto u- 1 u sia la


permutazione identità. Mostrare che (a) se E è uno scambio, E- 1 =E; (b) u - 1 è pari se e solo
se u è pari (se u è scritta come prodotto di scambi, u - 1 è il prodotto degli stessi scambi in
ordine inverso) ; (c) se P è la matrice di permutazione associata a u, allora p T è la matrice di
permutazione associata a u - 1 . Concludere che per ogni matrice di permutazione P valgono
le formule
det(PT) = det(P)

Data u = (5 , 4, 3, 2, 1) , scrivere u - 1 , la matrice P u e la sua inversa.

• 4 FORMULA ESPLICITA PER IL DETERMINANTE


In questo paragrafo dimostriamo la parte difficile del teorema 2.1 , cioè l'esistenza
della funzione determinante, ricavandone una formula esplicita, che ora anticipiamo.
Il lettore è però avvertito che, tranne che per i casi n = 2 e n = 3, si tratta di una
formula inutilizzabile per il calcolo effettivo del determinante; l'interesse della formula
è per le applicazioni teoriche. La formula è

DEFINIZIONE 4.1 (Formula analitica del determinante)


Sia A= [aij] una matrice n x n. Il determinante di A è lo scalare

(4.1) det(A) = L (-1)" ala(l)a2a (2) · · · ana(n)


a ES,.

Vedremo nella dimostrazione del teorema 4.5 quale sia l'origine di questa formula. Il
simbolo .Z:aES n significa che la sommatoria a secondo membro di (4.1) ha un addendo
per ogni permutazione O" di {1 , 2, ... , n} (il simbolo Sn denota l'insieme di tali per-
mutazioni). Ci sono quindi n! addendi in questa sommatoria, il che rende la formula
inutile in pratica se n non è molto piccolo. Esplicitiamo la formula per n = 2 e n = 3,
gli unici due casi in cui la si può utilizzare nei conti.
Quando n = 2, le permutazioni sono solo due , l'identità (1 , 2) che è pari, e lo
scambio (2, 1) che è dispari. Quindi la formula (4.1) diventa:

in accordo con la formula dei primi capitoli per il determinante delle matrici 2 x 2.
Quando n = 3, ci sono 3 permutazioni pari (1 , 2, 3), (2, 3, 1) e (3 , 1, 2), e 3 permu-
tazioni dispari (scambi) (3,2,1) , (1 , 3,2) e (2 , 1,3). La formula (4.1) è in questo caso
nota come regola di Sarrus:

(4.2)
272 Capitolo 6. Determinante © 978-88-08-06401-1

Anche questa formula coincide con quella introdotta nel primo capitolo per il deter-
minante di una matrice 3 x 3 e, quindi, in questo caso il determinante è il prodotto
misto dei vettori riga della matrice.
Per ricordare la regola di Sarrus si può procedere così si aggiungono alla matrice
una quarta e una quinta colonna uguali alla prima e alla seconda; nella formula del
determinante i termini col segno + si ottengono moltiplicando lungo le diagonali
dall'alto verso il basso:

mentre i termini col segno - si ottengono moltiplicando lungo le diagonali dal basso
verso l'alto:
au a12 a13 au a12
/ / /
a21 a22 a23 a21 a22
/ / /
a31 a32 a33 a31 a32

h@,,lat!I
Calcoliamo con la regola di Sarrus il determinante della matrice [12o 3]
2 1
3 2 4
:

1 2 3
2 0 1 = 1 X 0 X 4+ 2 X 1 X 3+ 3 X 2 X 2+
3 2 4
-3x0x3-2xlxl-4x2x2=
= 6 + 12 - 2 - 16 = o

Già per n = 4 la formula (4. 1) ha 4! = 24 termini e, per una matrice generica, è


inutilizzabile. Ciononostante la formula ha molte applicazioni teoriche. Cominciamo
qui con l'osservare che il determinante è un polinomio omogeneo di grado n negli
elementi della matrice. Più precisamente, a parte il segno (-l)a = ±1, ogni addendo
di (4.1) è un monomio
a1a(1)a2a(2) ... ana(n)

di grado n nelle variabili aij. Inoltre, in questo prodotto compare un unico fattore per
ogni riga e per ogni colonna: il fattore sulla riga i è aiai, il fattore sulla colonna j è
aa-1(j),j· In altre parole, il prodotto a 1a(l)a 2 a( 2 ) · · · ana(n) si ottiene scegliendo un ele-
mento aiai per ogni riga, avendo cura che gli elementi scelti stiano su colonne distinte,
e facendo poi il prodotto di tali elementi. Il determinante di [aij], in quanto somma
di monomi di grado n, è un polinomio omogeneo di grado n in aij. In particolare:

(4.3) det(tA) = tn det(A)


© 978-88-08-06401-1 4 Formula esplicita per il determinante 273

per ogni scalare t E lK: se moltiplichiamo tutti gli elementi della matrice per t, il
determinante viene moltiplicato per tn.
Per dimostrare il teorema 2.1 è opportuno considerare il determinante come una
funzione delle righe di una matrice; per questo scriviamo D(v 1, ... , vn) per denotare
il determinante della matrice che ha per righe i vettori v'f , ... 'v'f:. di ocn:

D(v,, . . . , v.) ~ det ( [ ;:J )


Le proprietà a) e b) del teorema 2.1 in queste nuove notazioni divengono:
a) Invarianza per scorrimento: il determinante non cambia se a una riga si
aggiunge un multiplo di un'altra riga:

per ogni j,k E {1, ... ,n} con j -=f- k.

b) Alternanza: il determinante cambia segno se si scambiano due righe:

(4.5) D(v 1' · · · ' v i,· · · · ' v J?· · · · ' v n ) = -D (v 1' · · · ' v )'· · · · ' v 'l"· · · · ' v n )

per ogni 1 :::; i < j :::; n.


Per ricavare la formula (4.1), cominciamo col mostrare che la funzione D è lineare
in ciascuna delle sue variabili vk ; si tratta di una delle proprietà fondamentali del
determinante, e merita un'apposita definizione.

DEFINIZIONE 4.2 (Funzione multilineare)


Sia V uno spazio vettoriale sul campo K Una funzione

D = D(v1, ... , Vn): V X ·· · X V____, lK

(cioè una funzione che a una n-upla di vettori di V associa uno scalare) si dice
multilineare se, fissate arbitrariamente tutte le variabili tranne una, D è una
funzione lineare della rimanente variabile:

D(v1, . .. , Vk-1, tv + uw, Vk+1 , ... , Vn) =


= tD(vi, ... , Vk-1 , V, Vk+1, .. . , Vn) + uD(v1, .. . , Vk-1, w, Vk+1, . .. , Vn)

OSSERVAZIONE Più in generale si può definire la nozione di multilinearità per una


funzione F(v 1 , ... , vn) in cui le variabili vk appartengano a spazi vettoriali Vk non
necessariamente coincidenti, e a valori in uno spazio vettoriale W , purché il campo
degli scalari lK sia lo stesso per tutti gli spazi vettoriali coinvolti. Quando n = 2, si
parla di funzione bilineare.
27 4 Capitolo 6. Determinante © 978-88-08-06401-1

Di norma i prodotti sono esempi di funzioni bilineari. Il prodotto scalare nello spazio euclideo
è un esempio di una funzione bilineare JR 3 x JR 3 ---+ R Il prodotto vettoriale in JR 3 è una
funzione bilineare JR 3 x JR 3 ---+ JR 3 a valori vettoriali; con il determinante ha in comune
l'alternanza: scambiando i due fattori, il prodotto vettoriale cambia di segno. Il prodotto
A 1 A2 ... A n di n matrici mx m è una funzione multilineare.

PROPOSIZIONE 4.3 (Il determinante è una funzione multilineare)


Supponiamo che esista la funzione determinante D(vi, ... , vn) del teorema 2.1.
Allora D(v 1 , . .. , vn) è multilineare.

DIMOSTRAZIONE. Basta dimostrare la linearità nella prima variabile; la linearità in una


variabile successiva k segue dalla proprietà di alternanza b) scambiando la variabile k con la
prima. Per dimostrare che una funzione è lineare, occorre mostrare che è additiva e omogenea.
Cominciamo col mostrare che il determinante è una funzione omogenea della prima riga:

(4.6)

Per questo osserviamo che, per il teorema 2.1, il determinante è il prodotto dei pivots della
matrice, e che, quando si moltiplica la prima riga per t, il pivot d ella prima riga viene
moltiplicato per t. Mostriamo ora che il determinante è una funzione additiva nella prima
riga:

(4.7) D(v + w , V2 , . . . , Vn) = D(v, V2, ... , Vn) + D(w, V2, ... , Vn)
Se v2 , . .. , Vn sono linearmente dipendenti, allora entrambi i membri di (4.7) sono nulli, e
quindi uguali, per la proprietà di annullamento del determinante. Possiamo quindi suppor-
re che l'insieme {v2 , ... , v n} sia linearmente indipendente. Possiamo allora aggiungere un
vettore v1 a questo insieme e ottenere una base di ocn
e scrivere v e w come combinazioni
lineari dei vettori della base:
n n
V= tv1 + l::tj Vj, w = UV1 + L UjVj
j=2 j=2
Allora
n
v +w = (t + u)v1 + L (tj + Uj)Vj.
j=2
Osserviamo che, usando la (4.4) e la (4.6) , otteniamo l'uguaglianza

D(v, V2 , ... , Vn) =D (tv1 + t


J=2
tjVj, V2 , .. . , Vn)=D(tv1, V2, ... , Vn) =tD(v1, v2 , ... , Vn)

Analogamente

D(w, v2 , ... , Vn) = uD(v1, v2 , . .. , Vn), D(v + w, v2 , ... , Vn) = (t + u)D(v1, v2 , ... , Vn)
Ora (4.7) segue dalla proprietà distributiva del campo lK:

(ti+ u1)D(v1, V2 , . .. , Vn) = t1D(v1, v2 , . .. , Vn) + u1D(v1, v 2, ... , Vn) •


© 978-88-08-06401-1 4 Formula esplicita per il determinante 275

Per ricavare la formula per il determinante, serve ancora una proprietà del determi-
nante: il determinante è nullo se due righe sono uguali. Abbiamo già mostrato che
questa proprietà di annullamento è vera se il determinante soddisfa le richieste del
teorema 2.1. Però per lo sviluppo logico della teoria occorre mostrare che questa pro-
prietà di annullamento è conseguenza delle sole proprietà di (1) multilinearità e (2)
alternanza:

LEMMA 4.4 (Annullamento)


Supponiamo che D(v 1 , . . . , v.,,.) sia una funzione multilineare e alternante. Se
due dei vettori v 1 , ... , Vn coincidono, cioè se esistono due indici i < j con
v i= Vj, allora

DIMOSTRAZIONE. Supponiamo che i< j e v ; = Vj. Per la proprietà di alterna nza

D(v1,··· , vi,·· · , v j,··· , v n) = -D(v1,··· , Vj ,··· , v i,··· , v n)

D 'altra parte, siccome v i= V j, vale anche l'uguaglianza

D(v1, · · · , V i,··· , Vj, · · · , V n) = D(v1, · · · , V j, · · · , V i,··· , V n)

Sommando le due uguaglianze troviamo

2D(v1,··· , v ;,··· , v j,··· , v n)= O

e quindi D(v1 , . . . , v n) =O.

Abbiamo ora a disposizione tutte le proprietà del determinante che servono per rica-

varne l'espressione esplicita in funzione degli elementi della matrice. Dal punto di vista
algebrico, la mult ilinearità è più semplice da utilizzare dell'invarianza per scorrimento.
Dimostriamo, quindi, prima una versione più algebrica (e standard) del teorema 2.1:
il determinante è l'unica funzione multilineare alternante che vale 1 per la matrice
identità.

TEOREMA 4.5 (Caratterizzazione algebrica del determinante)


Il determinante

(4.8) det( [aij]) = L (- 1)" a1<1(1)a2a(2) · · · ana (n)


aESn

è l'unica funzione Moc (n, n) ---t lK che

i) sia multilineare e alternante come funzione delle righe della matrice;

ii) valga 1 per la matrice identità (normalizzazione) .

DIMOSTRAZIONE. Scriviamo come prima det(A) = D(v 1, .. . , vn) dove v 1, .. . , Vn sono


le righe della matrice A . Nella prima parte della dimostrazione facciamo vedere che, se D
276 Capitolo 6. Determinante © 978-88-08-06401-1

è una funzione multilineare alternante che vale 1 sulla matrice identità, allora D è data
dalla formula (4.8). Nella seconda parte mostreremo che la funzione definita da (4.8) ha le
proprietà richieste.
Si noti che la normalizzazione richiesta in questo teorema è molto più debole di quella
richiesta dal teorema 2.1: basta che il determinante della matrice identità sia 1, in simboli

1 = det(I) = D(e1, ... , en)


dove {ei, ... , en} denota come al solito la base canonica di ocn. Questa richiesta, insieme
alla proprietà di alternanza, forza det P" = (-1)" come spiegato nel paragrafo precedente,
perché P" si ottiene dalla matrice identità con un numero pari o dispari di scambi di righe
a seconda che a sia pari o dispari.
Per ricavare la formula, scriviamo i vettori riga della matrice come combinazioni lineari
dei vettori della base canonica. Per la prima riga abbiamo
n
v1 = ane1 + ai2e2 + · · · + ainen = L aiii eii
Ji = l

Usiamo la notazione ji al posto di j perché poi avremo bisogno di un indice jz per la seconda
riga, di un indice j 3 per la terza fino ad arrivare a jn per l'ultima riga. Dalla linearità del
determinante nella prima riga segue:

(4.9) L aij 1 D(eii, v2, ... , vn)


i1=l

Ripetendo questo argomento per le righe successive troviamo


n n n
(4.10) D(v1,v2, ... , vn) = L L ·· · L aijia2i2 ···anjnD(e11 , ei2 , ···,ein )
ii =1 i2 = 1 in=l

Questa somma ha n x n x · · · x n = n n addendi. Per fortuna molti di questi addendi sono


nulli: per il lemma di annullamento D( eii , ej 2 , . .. , ein ) = O se due indici sono uguali; quindi
gli unici addendi non nulli sono quelli per cui gli indici jk sono tutti distinti e costituiscono
una permutazione a:

(4.11) (j1, .. . ,jn) = (a(l), .. . ,a(n))


Possiamo quindi limitare la somma agli addendi che corrispondono alle permutazioni a:

(4.12) D(v1, V2, · · ·, Vn) = L alu(l ) a2u(2) · · · anu(n)D(eu(l)> eu (2) >... , eu (n ))


aESn

La matrice di permutazione Pu ha come k-esima riga il vettore eu (k), quindi

(4.13)

Sostituendo in (4.12) troviamo la formula dell'enunciato

(4.14) det(A) = L (-1)" alu(l ) a2u (2) · · · anu(n)


aESn

Questo conclude la dimostrazione dell'unicità. Occorre dimostrare ancora che la funzione


det così definita è multilineare e alternante nelle righe della matrice, e vale 1 per la matrice
identità.
© 978-88-08-06401-1 4 Formula esplicita per il determinante 277

Cominciamo a mostrare det(I) = 1. Per la matrice identità, l'unico elemento non nullo sulla
riga i è quello con indice di colonna i , e a;; = 1. Quindi, nella formula del determinante l' unico
addendo non nullo è quello che corrisponde alla permutazione identità (<T(l) , ... , a(n)) =
(1, ... , n). Siccome la permutazione identità è pari e a;; = 1 per ogni i , la formula del
determinante assegna alla matrice identità il numero 1.
Supponiamo che la matrice B sia ottenuta da A scambiando la riga i con la riga j. Allora
bhk = ahk se h =I i , j, mentre b; k = ajk e bj k = a i k· Quindi fissata una permutazione a

aia ( l ) ... aia ( i ) . . . a j a (j) ... a n a (n) = b1a ( l ) ... bj a (i) ... bi a(j ) .. . bn a (n) =
= b1r ( l ) · · · biT (i) · · · bjr (j) · · · bnr (n)

dove T = O'E e E è la permutazione che scambia i e j in modo che T(i) = a(j) e T(j) = a(i).
Osserviamo che ( -1 = -( -1 r t
perché T è il prodotto di O' con uno scambio. Inoltre, al
variare di a in Sn la permutazione T = O'E assume una e una sola volta tutti i valori possibili:
la funzione Sn --+ Sn che a a associa T = O' E è biiettiva (l'inversa associa a T la permutazione
TE). Quindi

det(A) = L (-lt aia(l ) · · ·aia (i ) · · ·aja (j ) · · ·ana ( n) =


a ES n

= - L (-lr b1,. (1) · · · biT(i) · · · bj r (j) · · · bnr(n ) = -det(B)


r ES n

Questo mostra che la funzione det definita da (4.8) è alternante. Rimane da dimostrare la
multilinearità. Siccome la funzione è alternante, basta mostrare che è lineare nella prima
riga. Dalla formula è evidente che il determina nte è un polinomio omogeneo di primo grado
nelle componenti a1j della prima riga. Sappiamo che un polinomio omogeneo di primo grado
nelle componenti di un vettore di ocn
è lineare. Quindi il determinante è lineare nella prima
riga, e questo conclude la dimostrazione.

Possiamo finalmente dimostrare il teorema 2 .1:



DIMOSTRAZIONE (del teorema 2.1). Dobbiamo dimostrare che la funzione d et definita dalla
( 4.8) verifica le tre proprietà di invarianza per scorrimento, alternanza e normalizzazione (per
le matrici triangolari alte) del teorema 2.1, e che è l'unica funzione a verificarle . L'unicità,
come abbiamo già osservato, segue dal fatto che queste tre proprietà consentono di calcolare
il determinante mediante riduzione a scala della matrice. Rimane da mostrare che la funzione
det verifica le tre proprietà. Abbiamo già verificato l'alternanza nel teorema precedente. Per
quanto riguarda l'invarianza p er scorrimento, basta dimostrarla per la prima riga: l'invarianza
per un'altra riga segue scambiando tale riga con la prima e usando l'alternanza. Ora, se
aggiungiamo alla prima riga vf un multiplo tvj della riga j (con j > 1), il determinante
della matrice così ottenuta è:

D(v1 + tvj, ... , Vj, ... Vn) = (linearità nella prima riga)
D(v1, ... , Vj , . .. vn) + tD(vj, . . . , Vj , ... Vrt) = (annullamento)
= D(v1, . .. ,Vj, . .. vn)

Questo mostra la proprietà di invarianza per scorrimento ; si osservi che per la prima ugua-
glianza abbiamo usato la linearità del determinante nella prima riga, fatto che abbiamo
dimostrato nel teorema precedente; la seconda uguaglianza segue dal lemma di annulla-
mento 4.4, che possiamo usare perché sappiamo che la funzione det definita dalla (4.8) è
multilineare e alternante .
278 Capitolo 6. Determinante © 978-88-08-06401-1

Dobbiamo infine mostrare che il determinante di una matrice triangolare alta è il prodotto
degli elementi sulla diagonale principale. Una matrice triangolare alta [a;j J ha tutti gli ele-
menti sotto la diagonale principale nulli, cioè a;j =O per i> j; nella somma (4.8) affinché
un termine
a1u (1) a2,,. (2) ... ana (n )

sia non nullo occorre che i ::::; <J"(i) per ogni i = 1, 2, ... , n. Ma allora n ::::; a(n) , quindi
a(n) = n . Poi n - 1 ::::; a(n - 1) , quindi a(n - 1) può essere solo n - 1 oppure n; ma non può
essere n perché a(n) = n, quindi a(n - 1) = n - 1. Proseguendo così si vede a(i) = i per
ogni i: l'unica permutazione per cui il prodotto a 1 a ( l)a 2 a ( 2 ) · · · a n a (n ) può essere diverso da
zero è l'identità, per cui dalla formula (4.8) segue

det(A) = ana22 · · · ann


come volevasi dimostrare.

Come prima applicazione della formula per il determinante, mostriamo che il deter-
minante non cambia se trasponiamo la matrice:

PROPOSIZIONE 4.6 (Determinante della matrice trasposta)


P er ogni matrice quadrata A

det(AT) = det(A)

DIMOSTRAZIONE. Occorre osservare che la formula (4.8) è simmetrica rispetto alle righe e
alle colonne di A ; per questo ricordiamo che ogni permutazione a ha un'inversa a - 1 , con la
proprietà
a(i)=j ~ i=a - 1 (j)
L'inversa è anche l'unica permutazione tale che il prodotto a - 1 a sia la permutazione identità.
Se E è uno scambio, allora C 1 = E. Se a si decompone come prodotto di scambi

a= E1 ... Ed

a llora
- 1
a = td . . . t l
1
In particolare a e a - hanno la stessa parità:

(-1),,. = (-l)d = (-lt-1

Il generico termine della formula (4.8) si può allora riscrivere nella forma:

(si osservi che abbiamo permutato i fattori a secondo membro scrivendo per primo quello
sulla prima colonna: a,,.-1 ( l ) l = aa - 1( l ) a (u - 1 ( l) ) )· La funzione che a una permutazione a E Sn
associa la sua inversa T = a - 1 è biiettiva perché ogni permutazione TE Sn è l'inversa di una
e una sola permutazione a= T - 1 : quindi somm are al variare di a E Sn è la stessa cosa che
© 978-88-08-06401-1 4 Formula esplicita per il determinante 279

1
sommare al variare di a - E Sn, e

det(A) = L (-1)"" ala(l)a2a(2) · · · ana(n) =

= 2: (-1r - 1
a"-1c1i1aa-1c2i2 ... aa - l(n)n =
aESn

= L (-1r aT(1)1aT(2)2 · · · aT (n)n = det(AT)


TESn

dove l'ultimo passaggio è la formula del determinante applicata a A T, il cui elemento di


posto (i,j) è ai i·

Come conseguenza, t utto quanto visto per le righe vale anche per le colonne: in par-
t icolare il determinante di una matrice è una funzione multilineare alternante delle
colonne; il determinante si annulla se e solo se le colonne della matrice sono linear-
mente dipendenti; il determinante di una matrice triangolare bassa è il prodotto degli
elementi sulla diagonale principale.

•M§HSI
Data la matrice A = [3 1-3]
1 3 o , usare la regola di Sarrus per calcolare det(A)
1 2 -1
e det(AT)
e verificare che sono uguali. Calcolare anche i determinanti delle matrici A T A , A 2 e AA T
e verificare che sono t utti uguali a det(A) 2 (questo segue dalla formula di Binet det(AB) =
det(A) det(B) che dimostreremo più avanti).

«!) Verificare che det(P a) = ( - 1)" usando la formula (4.1) .


Sugg erimento: nella sommatoria solo un termine è diverso da zero .

Q Spiegare perché
3 27 4 3 1 4 3 o4
1 o 2 = 27 1 o 2 + 36 1 o 2
5 36 6 5 o6 5 1 6
e
3 27 4 3 27 4 3 27 4
1 o 2 100+2001
5 36 6 5 36 6 5 26 6
Suggerimento: il determinante è lineare nelle colonne e nelle righe della matrice.

f) Calcolare il determinante della matrice [=! } ~ ~i


6
1 3 -7 -2

Q Mostrare che, p er n 2'. 2, il determinante det(A) non è una funzione lineare di A: trovare
due matrici tali che det(A +B) f det(A) +det(B). Mostrare anche che det(tA) = tn det(A)
è in generale diverso da tdet(A).
280 Capitolo 6. Determinante © 978-88-08-06401-1

f,D Sia V uno spazio vettoriale su JR e sia B = B(v, w) : V x V--> JR una funzione bilineare.
Mostrare che B è alternante, cioè B(v, w) = -B(w, v ) per ogni v, w E V, se e solo se
B(u, u) =O per ogni u E V.
Suggerimento: siccome B è bilineare,

B(v + w, v + w) = B(v, v) + B(v, w) + B(w, v) + B(w, w)

• 5 SVILUPPI DI LAPLACE
Nel primo capitolo abbiamo introdotto il determinante di una matrice 3 x 3 mediante
la formula

(5 .1)

Dal punto di vista geometrico questo mostra che il determinante è il prodotto misto
dei tre vettori riga della matrice. Dal punto di vista algebrico, che è quello che ci
interessa ora, la formula consente di ridurre il calcolo del determinante di una matrice
3 x 3 al calcolo di una combinazione lineare di 3 determinanti di matrici 2 x 2. P er
una matrice n x n il determinante ammette ancora uno sviluppo di Laplace

perché il determinante è una funzione lineare degli elementi della prima riga; il coef-
ficiente C 11 si trova raccogliendo a 11 nella formula (4.8) del determinante, C 12 rac-
cogliendo a 1 2 e così via. A parte il segno, vedremo che C 11 è il determinante della
sottomatrice di A ottenuta cancellando la prima riga e la j-esima colonna. Per questo
diamo la seguente definizione:

DEFINIZIONE 5.1 (Complemento algebrico)


Sia A = [ai1] una matrice quadrata di ordine n. P er ogni coppia (i,j) con
1 :::; i, j :::; n , sia Aij la sottomatrice quadrata di A ottenuta cancellando la
riga i e la colonna j di A; il determinante

si dice complemento algebrico o cofattore dell'elemento aij·

Il segno (-l)i+j da anteporre a det(Aij) è alternativamente 1 e -1; lo si visualizza


con la matrice

+ - +
- + - ..
.. . ·i
+ - + ...
[ .. .. .. ..
. . . .
© 978-88-08-06401-1 5 Sviluppi di Lap/ace 281

IJ1§ .. !@I
Se A = [~~~ ~~~] è una matrice 2 x 2, la sottomatrice ottenuta cancellando la prima riga e
la prima colonna consiste dell'unico elemento a22, per cui Cn = a22 i cancellando la prima
riga e la seconda colonna si trova A12 = a21, per cui C12 = -a21. Osserviamo che

IJ1§iii@I
Per calcolare il complemento algebrico Cn di an in una matrice 3 x 3

an a12 a13]
A = a21 a22 a23
[
a31 a32 a33

occorre cancellare la prima riga e la prima colonna ottenendo la matrice

e poi calcolare il determinante di An:

Analogamente

e
C13 = det (A13) = a21 a22 I = a21a32 - a22a31
la31a32
La formula (5.1) si può quindi riscrivere nella forma

TEOREMA 5.2 (Sviluppi di Laplace)


Sia A una matrice quadrata di ordine n e sia Cij il complemento algebrico
dell'elemento aij· Allora
a) fissato un indice di riga i, vale la formula
n n
det(A) = l : aijcij = I:(-l)i+j% det(Aij)
j=l j=l

che si dice sviluppo di Laplace del determinante rispetto alla riga i;


282 Capitolo 6. Determinante © 978-88-08-06401-1

b) fissato un indice di colonna j, vale la formula


n n
det(A) =L aijCij = '2:(-l)i+j% det(Aij)
i=l i=l

che si dice sviluppo di Laplace del determinante rispetto alla colonna j .

DIMOSTRAZIONE. La prima riga della matrice è


n
vf = [au a12 a1n] = LaiJeJ
j=l '.

Per la linearità nella prima riga del determinante


n
(5 .2) det(A) = D(v1, v2 , ... , Vn) = L a1jD(ej, v2, .. . , Vn)
j=l

Ora calcoliamo D(e1, v2 , .. . , vn): per la proprietà di invarianza per scorrimento il deter-
minante non cambia se alla riga i sommiamo la prima riga moltiplicata per -a;1, per

l'uguaglianza a sinistra si ottiene calcolando il determinante delle due matrici con il metodo
di eliminazione di Gauss come prodotto dei pivots.
Per calcolare il secondo addendo di (5.2) osserviamo che

o 1 o 1 o o o

dove nell'ultimo passaggio abbiamo scambiato la prima e la seconda colonna, il che produce
un cambio di segno del determinante. Per quanto abbiamo app ena dimostrato
© 978-88-08-06401-1 5 Sviluppi di Laplace 283

Analogamente, per calcolare


o o 1 o

facciamo j-1 scambi di colonna per ottenere una matrice con le stesse colonne ma nell'ordine
(j, 1, 2, ... , j -1, j + 1, ... , n): per questo scambiamo la colonna j con la colonna j -1, poi la
nuova colonna j - 1 (la colonna j originale) con la colonna j - 2, e così via fino a scambiare
la colonna 2 (la colonna j originale) con la prima colonna. Quindi
1 o o o
D(ej,V2 , . . . ,vn) = (-l)j - l

Sostituendo nella (5 .2) troviamo lo sviluppo di Laplace rispetto alla prima riga
n
(5.3) det(A) = L aljC1j
j=l
Lo sviluppo di Laplace rispetto a un'altra riga i di A si riconduce a quello della prima riga
permutando opportunamente le righe di A: sia B la matrice che ha le stesse righe di A,
prese però nell'ordine
(i, 1, ... , i - 1, i+ 1, ... , n)
La prima riga di B è la riga i di A , le righe successive di B sono le righe di A dalla prima
all 'ultima saltando la riga i. La matrice B si ottiene da A con i -1 scambi di righe: si porta
la riga i nella prima riga scambiandola con la riga precedente e ripetendo il procedimento
i - 1 volte. La matrice B1j ottenuta da B cancellando la prima riga e la j-esima colonna
coincide con la matrice A;j. Possiamo ora dedurre lo sviluppo di Laplace del determinante
di A rispetto alla riga i:
n
det(A) = (-l)i- l det(B) = (-l) i-l L(-1) 1+ib1j det(B1j) =
j=l
n
= L(-l) i+ia;j det(A1j)
j=l
la prima uguaglianza vale perché A e B differiscono per i - 1 scambi di righe; la seconda è
lo sviluppo di Laplace di det(B) rispetto alla prima riga.
Infine lo sviluppo di Laplace di det(A) rispetto alla colonna j si ottiene sviluppando
det(AT) rispetto alla riga j e ricordano l'uguaglianza det(A) = det(A)r. •

'i1%hà
Lo sviluppo di Laplace è molto conveniente se fatto rispetto a una riga (o a una colonna) di
A che contenga molti zeri: Per esempio, sviluppando il seguente determinante rispetto alla
prima colonna, troviamo
284 Capitolo 6. Determinante © 978-88-08-06401-1

Analogamente

Per calcolare il seguente determinante conviene sviluppare rispetto alla seconda riga:

Sviluppando risp etto alla prima colonna si trova

an - 1 ,n

•11g;.1ua
Gli sviluppi di Laplace sono particolarmente utili quando il determinante da calcolare dipende
da un parametro, il che rende difficile l'uso del MEG. L'esempio più importante, che stu-
dieremo in dettaglio nel prossimo capitolo, è quello del polinomio caratteristico P(>..) di una
matrice quadrata A : per definizione, P(>..) è il determinant e della matrice ottenuta sottraendo
la variabile >.. degli elementi sulla diagonale principale:

a11 - À ai2 ain


a21 a22 - À a2n
P(>..) = det(A - >..I) =

Per esempio il polinomio caratteristico della matrice

9 2-2]
A=
[ o 2 2 O
-2 2

si calcola facilmente sviluppando rispetto alla terza colonna:

9 - >.. 2 -2
det(A - >..I) 2 2 - >.. o = -21 2 2 - ÀI + (2 - >..) 19 - >.. 2 I=
- 2 o 2 - >.. -2 o 2 2 - >..

= -4(2 - >..) + (2 - >..)(>.. 2 - 11>.. + 18 - 4) = (2 - >..)(>.. - 1)(>.. - 10)

Questo conto mostra che la matrice A - >..I è singolare, precisamente, per i valori del
parametro>..= 2, >.. = 1 e >.. = 10.
© 978-88-08-06401-1 5 Sviluppi di Laplace 285

Gli sviluppi di Laplace forniscono una formula esplicita per la matrice inversa di una
matrice non singolare; tale formula è così complessa dal punto di vista computazionale
da essere inutile per il calcolo dell'inversa, ma è interessante dal punto di vista teorico.

TEOREMA 5.3 {Formula di Laplace per la matrice inversa)


Sia A una matrice quadrata e sia A* la matrice che ha come elemento di posto
(j , i) il complemento algebrico C i J di A. Allora

AA* =A* A= det(A)I

In particolare, se det(A) =/=-O,

DIMOSTRAZIONE. Per definizione di prodotto di matrici


n n
(5 .4)
j=l j=l

Se i= k, troviamo
n
(AA *);; = L %Cii = det(A)
j=l

Quindi gli elementi sulla diagonale principale di AA* sono tutti uguali a det(A).
Se i i- k, sia A' la matrice ottenuta da A sostituendo la riga k con la riga i: nella matrice
A' le righe i e k sono entrambe uguali alla riga i di A, le altre righe di A' sono uguali a quelle
di A; in particolare le sottomatrici di A e A' ottenute rimuovendo la riga k e una colonna
j sono uguali, per cui i cofattori C~i sono uguali ai cofattori Cki di A. Il determinante di
A' è zero perché la matrice ha due righe uguali. D 'altra parte sviluppando il determinante
rispetto alla colonna k troviamo:
n n
O= det(A') = L(A')kjC~j =L %Ckj
j=l j= l

Confrontando con l'equazione (5.4) troviamo (AA*)ik =O per i i- k: gli elementi al di fuori
della diagonale principale in AA * sono nulli. La matrice AA * coincide quindi con la matrice
identità moltiplicata per lo scalare det(A).
La dimostrazione dell'uguaglianza A* A = det(A)I è identica se si sostituiscono gli
sviluppi rispetto alle righe con gli sviluppi rispetto alle colonne.
Se det(A) i- O, allora dividendo per det(A) si vede che det~A) A* è la matrice inversa
ili A. •

•41grnm
Nel caso di una matrice 2 x 2

A=[~~]
286 Capitolo 6. Determinante © 978-88-08-06401-1

la matrice A * è
A *= [d
-e a
-b]
Se ad - be=/= O, ritroviamo la formula per l'inversa

A- 1_ 1 [
- ad- be -e a
d -b]

COROLLARIO 5.4 (Formula di Cramer)


Un sistema quadrato Ax = b con det(A) i= O ammette l'unica soluzione v =
[x1, . . . , xnJT di componenti
det(Ai)
Xi = det(A)

dove Ai è ottenuta sostituendo la colonna 'i di A col termine noto b .

DIMOSTRAZIO NE. Poiché A ha determinante non nullo, il sistem a ammette un 'unica solu-
zione
1
V= A - 1b = -
- A *b
det(A)
Sviluppando il determinante di A i rispetto alla colonna i si t rova che det(A ;) è uguale al
prodotto della riga i di A * con b, quindi
·( ) _ det( A ;)
det(A )

Xi V -

Determinante di Vandermonde
Fissati d scalari x1, . .. , Xd, consideriamo la matrice, detta di Vandermonde
1 Xl xi d- 1
X1
1 X2 X~ d- 1
X2
(5.5) V(x1, ... , xd) =

d- 1
1 Xd X~ xd

Il determinante di questa matrice, detto determinante di Vandermonde, è il prodotto di tutte


le differenze Xj - x; con j >i:
1 X1 xi

1 X2 X~
(5.6) det(V(x1,. . .,xd )) =
1 Xd X~ X~-l
In part icolare, le righe della matrice di Vandermonde sono linearmente indipendenti se e solo
se gli scalari X1 , ... , Xd sono distinti. La formula (5.6) si può dimostrare p er induzione con
un calcolo brutale. I primi casi sono:
Caso d = 2
1
l Xli
X = X2 - X1
1 2
© 978-88-08-06401-1 5 Sviluppi di Lap/ace 287

Caso d = 3

1 XI Xf
1 X2 X~ (sottraggo la prima riga alle altre)
1 X3 x§

1 XI xf
0 X2 - XI X~ - Xf (Laplace rispetto alla prima colonna)
Q X3 - XI X~ - Xf

(sottraggo alla terza colonna la seconda moltiplicata per XI)

x 2 - XI x 2(x 2 - XI)I = (linearità nella seconda e terza riga)


lX3 - XI X3(X3 - XI)

(x2 - XI)(x3 - XI) I~ ~~1 = (x2 - XI)(x3 - XI)(x3 - x2)

Caso d = 4

1 XI xf xi
1 X2 X~ X~
(sottraggo la prima riga alle altre)
1 X3 X~ X~
1 X4 X~ X~

1 XI xf xi
o X2 - XI X~ - Xf X~ -xi
(Laplace rispetto alla prima colonna)
o X3 - XI X~ -xf X~ - xi
o X4 -XI X~ - Xf X~ - xi

X~ - Xf X~ - xi
3 3 (sottraggo alla quarta colonna la terza
x§ -xf
x~ - x§ =moltiplicata per XI)
X~ - Xf X4 - XI
X~ - Xf x~(x2 - XI)
_ (sottraggo alla terza colonna la seconda
X~ - Xf x§(x3 - XI)
- moltiplicata per XI)
X~ - Xf x~(x4 - XI)

X2 - XI x2(x2 - X1) x~(x2 - XI)


X3 - XI X3(X3 - X1) x§(x3 - xi) = (multilinearità nelle righe)
X4 - XI X4(X4 - Xi) x~(X4 - X1)
(x2 - xi)(x3 - XI)(x4 - XI) det(V(x2 , X3, X4)) =

(x2 - XI)(x3 - x1)(x4 - x2)(x3 - x2)(x4 - x2)(x4 - x3) = Il (xj - x;).


i$i<j$4

Caso generale: con passaggi analoghi si mostra


d d
det(V(x1 , ... ,xd)) = IT(xj-XI)det(V(x2 , ... ,xd )) = IT(xj - xi) (xj-Xi) = Il
j=2 j=2 2$i<j$d
288 Capitolo 6. Determinante © 978-88-08-06401-1

Si possono dare dimostrazioni più intelligenti. Per esempio, la formula ( 4.8) mostra che il
determinante di Vandermonde è un polinomio di grado a l massimo

nella variabili Xi. D 'altra parte il determinate è O se Xi = Xj con i < j perché in tal caso
la matrice ha due righe uguali . Per Ruffini il determinante è divisibile per Xj - Xi per ogni
coppia di indici con i < j, e quindi TI 1:;::i<j:;::d (xj - Xi) divide det(V(x1, ... ,xd)). Sicco-
me il grado del prodotto è proprio ~ d( d - 1), ne segue che esiste uno scalare cd tale che
det(V(x1 , .. . , Xd) =Cd I1l :;;i<i:;;d(Xj - Xi). A questo punto occorre mostrare che Cd= 1: per
questo si può sviluppare secondo Laplace rispetto all'ultima riga e controllare che il coeffi-
ciente di x~- 1 in det(V(x1, .. . , xd)) è det(V(x 1, ... , Xd-l ) . Confrontando col coefficiente di
x~-l in Cd I1 l<i<j:;;d(xi - Xi) si scopre Cd= Cd-1· Siccome c2 = 1, per induzione Cd= c2 e
la formula (5.6) è completamente dimostrata.

•!BBS'
~ Scrivere gli sviluppi di Laplace del determinante della matrice A = [ 12 -1 rispet-
W
n -g]
to a ciascuna delle righe e delle colonne (6 sviluppi in tutto, devono dare lo stesso risul-
tato).

G) Calcolare il determinante della matrice

A=
l o o 41
0201
3 o1 2
r1 o o 5
4D Calcolare il polinomio caratteristico det(A - .H) della matrice

1o 3]
A=
[3O o2 O1
Gi) Calcolare l'inversa della matrice [ ~ ~ ~ J dopo aver verificato che il determinante è non
nullo. Usare la formula del teorema 5.3 e poi ripetere l'esercizio usando il metodo di Gauss-
Jordan.

e Risolvere con la formula di Cramer il sistema lineare

3x +y- 3z = 6
X+ 3y = 8
{
X+ 2y- Z = 7

e Mostrare che esiste un'unica parabola di equazione y = Ax 2 +Ex+ C passante per i


punti (x1,y1), (x2,y2) e (x3,y3) a condizione che x1, x2, X3 siano distinti.
© 978-88-08-06401-1 6 Il teorema di Binet e il determinante di un 'applicazione lineare 289

• 6 .IL TEOREMA DI BINET E IL DETERMINANTE DI UN'APPLICAZIONE


LINEARE
Il determinante di un prodotto è il prodotto dei determinanti:

TEOREMA 6.1 (Teorema di Binet)


Se A e B sono matrici quadrate di ordine n, allora

det(AB) = det(A) det(B)

DIMOSTRAZIONE. La dimostrazione è una semplice applicazione del teorema 4.5 , ed è un


buon esempio di come un teorema astratto possa essere utile: è una pessima idea cercare
di dimostrare la formula di Binet direttamente dalla formula del determinante. Supponiamo
dapprima det(B) f O, e consideriamo la funzione D : Moc(n, n) --> lK definita da

(6.1) D(A) = det(AB)


det(B)

Basta mostrare che D(A) = det(A), perché, data questa uguaglianza, moltiplicando la (6.1)
per det(B) si ottiene la tesi. Per il teorema 4.5, per mostrare D(A) = det(A) è sufficiente far
vedere che D è una funzione multilineare e alternante delle righe di A che soddisfa D(I) = 1.
Quest'ultima uguaglianza è evidente:

D(I) = det(IB) = det(B) = l


det(B) det(B)

Per quanto riguarda l'alternanza, ricordiamo che la riga i della matrice prodotto AB è il
prodotto della riga i di A per la matrice B. Quindi, se si scambiano due righe di A, si
scambiano anche le medesime righe in AB e il determinante di AB cambia segno e perciò
cambia segno anche D(A) . Questo mostra l'alternanza. Visto che la funzione è alternante,
per mostrare la multilinearità è sufficiente mostrare la linearità nella prima riga. Per questo
scriviamo una matrice n X n nella forma A = [e l dove a è la prima riga e e è la matrice
formata dalle altre righe. Allora

det ( [t1a1 i; t2a2] B) = det ( [t1a1BC+;2a2B])


= t1 det ( [ ~=]) + t2 det ( [~=]) = t1 det ( [ ~] B) + t2 det ( [~] B)
Nel secondo passaggio abbiamo usato la linearità del determinante nella prima riga. Questa
formula mostra che la funzione det(AB) , e quindi anche D(A), è lineare nella prima riga di
A. La dimostrazione nel caso det(B) f O è così completa.
Per finire, supponiamo che det(B) =O. In questo caso B non ha rango massimo e quindi
il nucleo di B contiene un vettore non nullo v. Questo vettore appartiene anche al nucleo
di AB perché ABv = AO =O. Quindi AB non ha rango massimo e det(AB) =O . Questo
conclude la dimostrazione perché det(A) det(B) =O quando det(B) =O.
290 Capitolo 6. Determinante © 978-88-08-06401-1

COROLLARIO 6.2 (Determinante della matrice inversa)


Sia A una matrice quadrata invertibile. Allora

-1 1
det(A ) = det(A)

DIMOSTRAZIÒNE. Dall'uguaglianza I = A - l A segue


1 = det(I) = det(A - l A)
Per il teorema di Binet
1
det(A - l A)= det(A - ) det(A)
1 1
Quindi det(A - ) det(A) = 1, per cui il numero det(A - ) è l'inverso di det(A) . •

OSSERVAZIONE Si osservi che l'uguaglianza det(A- 1 ) det(A) = 1 mostra diretta-


mente che, se A è invertibile, allora det(A) i- O. Viceversa, se det(A) i- O, per il
1
teorema di Laplace 5.3 la matrice A è invertibile con inversa det(A) A*. Si ottiene
così una nuova dimostrazione del fatto fondamentale che una matrice A è invertibile
se e solo se det(A) i- O.

COROLLARIO 6.3 (Invarianza del determinante per similitudine)


Siano A e S due matrici quadrate di ordine n. Se S è invertibile, allora

det(s- 1 AS) = det(A)

DIMOSTRAZIONE. Usiamo il teorema di Binet e il fatto che il determinante di s- 1 è l'inverso


del determinante di S :
det(S- 1 AS) = det(S- 1 ) det(A) det(S) = det(S )- 1 det(S) det(A) = det(A)

Si osservi che nel secondo passaggio abbiamo potuto cambiare l'ordine dei fattori perché il
prodotto di scalari è commutativo. •

L'importante conseguenza del corollario precedente è che possiamo definire il deter-


minante di un'applicazione lineare. Più precisamente:

DEFINIZIONE 6.4 (Determinante di un'applicazione lineare)


Sia V uno spazio vettoriale di dimensione finita e sia .C : V --+ V un'applica-
zione lineare (o come si dice in algebra un endomorfismo, per indicare il fatto
che dominio e codominio coincidono). Data una base B di V, sia A la matrice
che rappresenta .C rispetto a B. Il determinante di .C è lo scalare

det(.C) = det(A)

Tale scalare dipende solo da.Ce non dalla base B utilizzata per rappresentare .C.
© 978-88-08-06401-1 6 Il teorema di Binet e il determinante di un 'applicazione lineare 291

Dobbiamo spiegare perché det(.r.) non dipende dalla base B. Supponiamo che A rap-
presenti ,r, rispetto a B e supponiamo che B rappresenti ,r, rispetto a un'altra base.
Se S è la matrice di passaggio dalla base B all'altra base, allora, per la proposizione
5.5 del capitolo sulle applicazioni lineari,

B = s- 1 AS
(si dice che A e B sono simili). Per il corollario precedente det(B) = det(A). Quindi
le matrici che rappresentano ,r, hanno tutte lo stesso determinante e questo numero
si dice determinante di .r..
Quando V= JR_n, il modulo del determinante di ,r, ha un chiaro significato geome-
trico: è il fattore di cambiamento di volume (di area per n = 2). Per vedere perché,
consideriamo in JR.n il parallelepipedo P che ha un vertice nell 'origine e, come spigoli
uscenti dall 'origine, i vettori v 1 , ... , Vn di JR.n. Sia M la matrice che ha come colonne
i vettori vk. Il volume Vol(P) è il modulo del determinante di M. Se ,r, : JR.n __.., JR.n è
lineare, l'immagine .r.(P) del parallelepipedo P è il parallelepipedo che ha un vertice
nell'origine e, come spigoli uscenti dall'origine , i vettori .r.(v 1 ) , .. . , .r.(vn)· Il volume
del parallelepipedo .r.(P) è quindi il modulo del determinante della matrice N che ha
come colonne i vettori .r.(vk)· Se A è la matrice che rappresenta ,r, rispetto alla base
canonica, .r.(vk) = Avk per cui N = AM. Quindi

Vol(.r.(P)) =I det(AM) I =I det(A)l l det(M)I =I det(.r.) IVol(P)

Questo mostra che, come anticipato, il modulo del determinante di ,r, è il rapporto tra
il volume dell'immagine .r.(P) e il volume di P. Approssimando una regione misurabile
n di JR_n con l'unione disgiunta di parallelepipedi si trova

Vol(.r.(D)) = r
J~(n)
dy =I det(.r.)I rdx= Idet(.r.)IVol(D)
Jn
Non è sorprendente allora che nella formula di cambiamento di variabili degli integrali
multipli il fattore di cambiamento dell'elemento infinitesimale di volume sia il modu-
lo del determinante della matrice Jacobiana: la versione infinitesimale della formula
precedente è

In forma integrale si ha

che vale , per esempio, se Dx è una regione misurabile di JR_n, y = y(x) è un cam-
biamento di variabili sufficientemente regolare, Dy è la stessa regione espressa però
rispetto alle coordinate y, mentre f (y) è una funzione integrabile in Dy. Questa
formula rappresenta una delle applicazioni principali del determinante.
292 Capitolo 6. Determinante © 978-88-08-06401-1

Sia ,C : JE. 2 -+ JE. 2 una rotazione. Chiaramente ,C preserva l'area, cioè l'area di .C(O) coincide
con l'area di n per ogni regione misurabile n del piano cartesiano. Perciò il determinante di
,C deve avere modulo 1. In effetti, rappresentando ,C rispetto alla base canonica, si trova

det(.C) = det ( [cos(B) - sin(B)]) =1


sm( B) cos( B)

IJ1§è$1
e Mostrare che, se A è una matrice quadrata, allora det(AP)
p ~O (anche per gli interi p negativi se A è invertibile).
= det(A)P per ogni intero

Q) Sia Q una matrice quadrata reale ortogonale, cioè tale che Q TQ = I. Mostrare che
det(Q) = 1 oppure det(Q) = -1.
Suggerimento: usando Binet mostrare che det(Q) 2 = 1.

• 7 DETERMINANTE E RANGO
In questo paragrafo mostriamo che è possibile calcolare il rango di una matrice arbitra-
ria M (anche rettangolare) esaminando i determinanti delle sottomatrici quadrate di
M ; una sottomatrice di M è una matrice ottenuta cancellando alcune righe o colonne
diM.

DEFINIZIONE 7.1 (Minori di una matrice)


Un m·inore di ordine p di una matrice M è il determinante di una sottomatrice
p x p di M . Un minore det(B) di ordine p + 1 orla un minore det(A) di ordine
p se A è una sottomatrice di B.

TEOREMA 7.2 (Teorema di Kronecker)


Sia M una matrice.
a) se A è una sottomatrice p x p di Me det(A) =!=O, le righe (rispettivamente
le colonne) di M che contengono le righe (rispettivamente le colonne) di A
sono linearmente indipendenti;
b) se M ha rango r, allora M ha almeno un minore di ordine r non nullo, e
tutti i minori di M di ordine p > r sono nulli;
c) il rango di M è r se e solo se M contiene una sottomatrice quadrata A
di ordine r con det(A) diverso da zero e ogni sottomatrice quadrata di M
di ordine r + 1 contenente A ha determinante uguale a zero. Brevemente:
r(M) = r se e solo se M ha un minore c5 di ordine r non nullo ed è nullo
ogni minore che orla c5.
© 978-88-08-06401-1 7 Determinante e rango 293

DIMOSTRAZIONE.

a) Supponiamo per assurdo che le p righe di M che contengono le p righe di A siano


linearmente dipendenti . La stessa relazione di dipendenza lineare che vale per queste
p righe di M vale anche per le p righe di A. Quindi le righe di A sono linearmente
dipendenti e det(A) =O, contraddicendo l'ipotesi, assurdo! Lo stesso ragionamento vale
anche per le colonne.
b) Supponiamo che M sia una matrice mx n. Siccome il rango di M è r , la matrice ha
r righe linearmente indipendenti ; cancellando le altre righe otteniamo una sottomatrice
Mi di tipo (r, n), che ha ancora rango r perché le righe di Mi sono per costruzione
indipendenti. Siccome il rango è anche il massimo numero di colonne linearmente in-
dipendenti, possiamo trovare r colonne di Mi linearmente indipendenti: cancellando le
altre colonne otteniamo una matrice M2 quadrata di ordine r. Il rango di M2 è ancora
r perché le colonne di M2 sono per costruzione indipendenti. Siccome M2 è quadrata di
rango massimo, il suo determinante è diverso da zero. Abbiamo così trovato un minore
di ordine r di M non nullo . Ogni minore di ordine p > r è invece nullo: altrimenti per a)
la matrice avrebbe p righe linearmente indipendenti e quindi il rango sarebbe almeno p,
il che è impossibile perché p > r .
c) Da b) segue che, se M ha rango r, allora esiste una sotto matrice quadrata A di ordine
r con determinante non nullo , e tutti i minori di ordine p > r sono nulli; in particolare,
sono nulli i minori di ordine r + 1.
Viceversa, supponiamo che M abbia una sottomatrice quadrata A di ordine p con de-
terminante non nullo e che tutte le sottomatrice B di ordine p + 1 che contengono A
abbiano determinante nullo . Dobbiamo mostrare che p = r(A). Per a) il rango di M è
2': p e le p righe di M che contengono le p righe di A sono linearmente indipendenti. Se
il rango di M fosse > p, potremmo aggiungere a queste p righe una riga di M ottenendo
un insieme linearmente indipendente di p + 1 righe di M. La sottomatrice Mi formata
da queste p + 1 righe contiene A e ha rango p + 1. Le p colonne di Mi che contengono
le colonne di A sono linearmente indipendenti (per a)); siccome lo spazio colonna di Mi
ha dimensione r(Mi) = p + 1, possiamo aggiungere a queste colonne di Mi un'ulteriore
colonna, ottenendo una sottomatrice quadrata B di ordine p + 1 di Mi . Per costruzione
B contiene A e ha rango p + 1, quindi det(B) f. O. Questo contraddice l'ipotesi, quindi
r(M) = p come volevasi dimostrare. •

Il teorema di Kronecker consente di calcolare il rango di M mediante la seguente


procedura:

• M è la matrice nulla se e solo se tutti i minori di ordine 1 sono nulli; in tal caso
r(M) =O.

• Altrimenti M ha un elemento (minore di ordine 1) b = aij diverso da zero. Se


tutti i determinanti delle sottomatrici quadrate di ordine due di M contenenti b
sono nulli, r(A) = 1.

• Altrimenti M contiene una sottomatrice quadrata B di ordine 2 con det(B)


non nullo. Se tutti i determinanti delle sottomatrici quadrate di ordine 3 di M
contenenti B sono nulli , r(M) = 2.

• Altrimenti M contiene una sottomatrice quadrata B di ordine 3 con det(B) non


nullo. E cosìvia.
294 Capitolo 6. Determinante © 978-88-08-06401-1

'!%.!Jd
12 5 3]
Sia A= [ - 21 o 1 3 . Si tratta di una matrice di tipo (3, 4) , quindi il rango di A è al massimo
6 13 3
3. La matrice ha minori di ordine 2 non nulli: per esempio, la sottomatrice B = [~ 5J ottenuta
cancellando la terza riga e la terza e quarta colonna ha determinante 1. Quindi il rango di
A è almeno 2. Per vedere se è 2 o 3, dobbiamo calcolare i determinanti delle sottomatrici
quadrate di ordine 3 di A che contengono B. Queste sono solo due: la sottomatrice C ottenuta
cancellando la terza colonna e la sottomatrice D ottenuta cancellando la quarta colonna (si
noti invece che A ha 4 sottomatrici quadrate di ordine 3). Ora

1 23]
det(C) = det
[-12 6O 33 = 1(0 - 18) - 2(6 + 3) + 3(12 +O) =O
e

det(D) = det
1 2 5
2 O 1
[ -1 6 13
l = 1(0 - 6) - 2(26 + 1) + 5(12 +O) = -6 - 54 + 60 =O

Quindi il rango di A è 2.

•!%114d

l
Vogliamo determinare, al variare di k E JR, il rango della matrice

k ok k
Ak = Ok 2 2k
[1 k k k

Il rango è almeno 2 perché (cancellando la riga 1 e le colonne 2 e 4)

e al massimo 3 perché A k ha 3 righe. Orliamo 02 aggiungendo prima riga e seconda colonna

kok
03 = ok 2 = k 3 - 3k 2 = k2(k - 3)
1 k k

Se k =f. O e k =f. 3, il rango è 3 perché 03 =f. O è un minore di ordine 3 non nullo.


Se k =O ,

Ao= 0020
o o o o]
[1 o o o
È evidente che il rango di Ao è 2, ma lo vogliamo verificare utilizzando il teorema di Kro-
necker. I minori che orlano 62 sono 63 = O e il minore o~ che si ottiene aggiungendo la quarta
colonna alla prima e alla terza:
ooo
o~= o 2 o =o
1 oo
I due minori di ordine 3 che orlano 02 sono nulli per cui r(Ao) = 2.
© 978-88-08-06401-1 8 Complementi 295

Infine se k = 3,
3 o 3 3]
A3 = O3 2 6
[1 3 3 3

In questo caso

3 3 3 1 1 1
b°~ = 0 2 6 =3X 2 0 1 3 = 6((3 - 9) + (3 - 1)) = -24 #- 0
133 133

e quindi r(A3) = 3.

IJ1§B$1
Siano v e w due vettori di JR 3 e sia A la matrice 3 x 2 che ha v e w come colonne.
Mostrare che le tre componenti del prodotto vettoriale v x w sono , a m eno del segno , i tre
minori di ordine 2 della matrice A. Concludere che i due vettori sono linearmente dip endenti
se e solo se il loro prodotto vettoriale è il vettore nullo (geometricamente, questo significa
che i due vettori sono paralleli). Se prendessimo due vettori di JR 4 , quanti minori avrebbe A?
(Risposta: 6; c'è un analogo del prodotto vettoriale anche per vettori di JR 4 , ma è un vettore
con 6 componenti) .

~ Determinare al variare di k il rango della matrice

[
-5
-3
o
k
-3
k+5 3
o1 5 k
-1-
3
l
• 8 COMPLEMENTI
Determinante di una matrice triangolare a blocchi
Una matrice quadrata si dice triangolare (alta) a blocchi se ha la forma

Ai B 12 B13
O A2 B23

(8.1) A= O O A3

o o
dove i blocchi Ak lungo la diagonale principale sono matrici quadrate e O denota una
matrice nulla. Quando i blocchi sulla diagonale principale hanno ordine uno si tratta
di una ordinaria matrice triangolare alta. Generalizzando il fatto che il determinante
di una matrice triangolare è il prodotto degli elementi sulla diagonale principale, il
determinante di una matrice triangolare a blocchi è il prodotto dei determinanti dei
blocchi sulla diagonale principale:
296 Capitolo 6. Determinante © 978-88-08-06401-1

PROPOSIZIONE 8.1 (Determinante di una matrice triangolare a bloc-


chi) Sia A una matrice triangolare a blocchi come nella (8.1). Allora

(8.2) det(A) = det(A 1 ) · · · det(Ad) = Il det(Ai)


i=l

DIMOSTRAZIONE. La dimostrazione è immediata: l'insieme dei pivots di A è l'unione degli


insiemi dei pivots dei blocchi A i e il determinante (a meno del segno) è il prodotto dei pivots.
Più precisamente: se det(Ai) = O, allora le colonne di Ai sono linearmente dipendenti; la
stessa relazione di dipendenza vale per le corrispondenti colonne di A e quindi det(A) =O.
Se invece det(Ai) # O, l'algoritmo di eliminazione di Gauss per le prime ni righe di A
coincide con quello per Ai , per cui il prodotto dei primi ni pivots di A (col segno appro-
priato se ci sono scambi di righe) è uguale a det(Ai). Procedendo per induzione si trova la
formula (8.2).

•i%rl!Jd
La matrice

A = [ ~; ~: ~: ~: 1
0 0 C3 C4
O O da d4
è triangolare a blocchi, i blocchi lungo la diagonale principale sono

Quindi

Per esempio
1234
4 3 2 7
o o 3 4 = (3 - 8)(15 - 12) = -15
oo3 5

Minori principali e pivots


Data una matrice A quadrata di ordine n, per ogni k = 1, 2, ... , n sia A(k) la sot-
tomatrice quadrata k x k ottenuta cancellando le ultime n-k righe e le ultime n-k
colonne di A. I minori 8k = det(Ak) si dicono minori principali di nord ovest di
A. Nel paragrafo sulla fattorizzazione LU abbiamo mostrato che, se A è invertibile,
l'algoritmo di eliminazione per la matrice A non richiede scambi di righe, o equiva-
lentemente A ammette la fattorizzazione LU, se e solo se il rango di A (k) è k, ovvero
bk = det(A(k)) -=f. O. Otteniamo così
© 978-88-08-06401-1 8 Complementi 297

PROPOSIZIONE 8.2 (Minori principali di nord ovest e pivots)


Supponiamo che A sia una matrice quadrata di ordine n invertibile. L'algoritmo
di eliminazione per la matrice A non richiede scambi di righe (cioè A ammette
la decomposizione LU) se e solo se 8k = det(A(k)) =I- O per ogni k = 1, 2, ... , n.
Se questo è il caso, 8k è il prodotto dei primi k pivots di A .

DIMOSTRAZIONE. Abbiamo già spiegato che l'algoritmo non richiede scambi righe se e solo
se Ok i= O per ogni k. Se questo è il caso, il processo di eliminazione per le prime k righe di
A consiste delle stesse operazioni dell'algoritmo di eliminazione per A(k ) , quindi i primi k
pivots di A sono i pivots di A (k) il cui prodotto è det(A{k)) = Ok . •

Derivata del determinante


La regola di Leibniz per la derivata di un prodotto di funzioni è la formula

d
-(f1(x)f2(x) · · · f n(x) =
dx
= f{ (x)f2(x) · · · f n(x) +li (x)f~(x) · · · f n(x) +···+li (x)f2(x) · · · f~ (x) =
n
= L li(x) · · · f{(x) · · · , fn(x)
i= l

Una formula simile è valida per la derivata del determinante di una matrice i cui ele-
menti siano funzioni derivabili aij (x) della variabile x . Il motivo è che il determinante
è una funzione multilineare delle sue righe, e come tale da molti punti di vista si
comporta come se fosse un prodotto delle righe; per mettere in risalto la dipendenza
dalle righe, scriviamo come in precedenza

det([%](x)) = D(v 1(x) , v2(x), . . . , vn(x))

dove vf (x) , vf(x) , ... , v~(x) sono le righe della matrice. Se queste funzioni vettoriali
sono derivabili, per la derivata del determinante vale un regola alla regola di Leibniz:

d~ D(v1 (x) , v2(x) , . . . , vn(x )) = D(v~ (x) , v2(x) , ... , vn(x)) +


+D(v1(x) , v~(x), . . . , vn(x)) + · · · + D(v1(x), v2(x), ... , v~(x)) =
n
= L D(v1(x), ... , v~ (x), . .. , vn(x ))
i=l

Riscrivendo la formula in termini di matrici otteniamo:

PROPOSIZIONE 8.3 (Regola di Leibniz per la derivata del determi-


nante) Supponiamo che le funzioni aij(x) siano derivabili in x (1 :S i , j :S n) .
Sia A(x) la matrice che ha come elementi aij(x) , e per ogni 1 :::; i:::; n sia B i(x)
la matrice ottenuta sostituendo la riga i di A(x) con la sua derivata.
298 Capitolo 6. Determinante © 978-88-08-06401-1

Allora la derivata del determinante det(A(x)) è la somma dei determinanti


delle matrici B i (x):

a11(x) ai2(x) ain(x)


a11(x) ai2(x) ain(x) n
d
(8.3)
dx =L i= l
a~ 1 (x) a~ 2 (x) a~n(x)
an1(x) an2(x) ann(x)
an1(x) an2(x) ann(x)

DIMOSTRAZIONE. Usiamo il fatto che la derivata di una somma è la somma delle derivate
(o meglio la linearità della derivata) e la regola di Leibniz per la derivata di un prodotto di
funzioni:

d~ det([aij(x)]) = d~ L (-1)" ai"(1)(x) · · · an<T (n)(x) =


uESn

= L(-1)" d~a1"(1) (x)···an<T(n) (x)=


uESn
n
= L (-1)" L alCT(l) (x) · · · a;CT(i)(x) · · · an<T(n)(x) =
uESn ì=l


Supponiamo che z1(x), ... , zn(x) siano n funzioni derivabili n volte in un intervallo I.
Come in Bramanti Pagani Salsa, Analisi Matematica 2, Zanichelli 2009 , Capitolo 14.2,
definiamo il determinante wronskiano W(z 1, . . . , zn) p er mezzo della formula:

z1(x)
z~ (x)
z2(x)
z~(x)
Zn(x)
z~(x)
1
Z1
(n-1) ( )
X Z2(n-1) ( X) z~n-~)(x)
Si tratta quindi del determinante della matrice, detta matrice wronskiana, che ha
come elementi della prima riga le funzioni date valutate in x, come elementi della
seconda riga le derivate prime di tali funzioni valutate in x e così via aumentando con
le righe l'ordine di derivazione.
Se per un certo valore Xo si ha W(x 0) i= O, le funzioni zi(x) sono linearmente
indipendenti: infatti quando le funzioni sono dipendenti, le loro derivate di ogni ordine
soddisfano la stessa relazione lineare, e quindi le colonne della matrice wronskiana sono
linearmente dipendenti per un qualunque x fissato, per cui W(x) =O per ogni x.
© 978-88-08-06401-1 8 Complementi 299

Quando zk(x) = e>.kx, la matrice wronskiana è


eÀ1X
)qeÀ1X eÀnx
ÀneÀnx 1
rÀ~-{eÀ1X À~-~eÀnx
per cui
W(x) --e2= ~ 1 >.;xV( A
' l,· · ., , )
/\n

Siccome il determinante di Vandermonde V(>. 1 , .. . , Àn) è diverso da O se gli scalari Àk


sono tutti distinti , ne concludiamo che le funzioni e>.kx sono linearmente indipendenti
se gli scalari Àk sono tutti distinti.
Dalla regola di Leibniz per la derivata del determinante si ottiene (tenendo conto che
il determinante è nullo se due righe sono uguali):

z2(x) Zn(x)
z~(x) z~(x )

W'(x) =
Zn(n-2) ( X )
z~n) (x)

Supponiamo ora che tutte le funzioni zi(x) siano soluzioni dell'equazione differenziale
lineare omogenea:

z(n)(x) + an-1(x)z(n-l)(x) + · · · + ai(x)z(x) + ao(x) =O

Possiamo allora ricavare zin) da questa espressione e sostituirlo nell'ultima riga del-
la formula precedente per W'(x) ; tenendo conto dell'invarianza per scorrimento del
determinante troviamo

Z1 (x) z2 (x) Zn(x)


z~ (x) z~(x) z~(x)

W'(x) =
(n-2) ( ) (n-2) ( )
Z1 X Z2 X Zn(n-2) ( X )
-an-1 (X) Z 1(n- 1)() ( ) (n-1)()
X -an-1 X Z2 X -an-1 ( X ) Zn(n-1)( X )

= -an-1(x)W(x)
Da questa equazione si ricava per ogni x 0 , x E I

W( x ) = W( x 0 ) e - J x an -1 (t) dt
xa

La conseguenza importante è che per mostrare che W (x) -/=- O per ogni x E I è
sufficiente mostrare che W(x 0) -/=- O per un solo x 0 E J. Per apprezzare la rilevanza del
risultato si veda il teorema l. 7 a pag. 24 del succitato volume di Bramanti, Pagani e
Salsa.
300 Capitolo 6. Determinante © 978-88-08-06401-1

e Trovare quattro matrici A , B , C e D quadrate di ordine 2 tali che

det ( [~ ~]) # det(A) det(D ) - det(B ) det(C)

Mostrare che non è possib ile prendere B = O o C = O , perché se B o C è la matrice nulla


l'uguaglianza vale certamente.
7 Autovalori e autovettori

• 1 INTRODUZIONE
In questo capitolo introduciamo le nozioni di autovettore (in inglese eigenvector) e di
autovalore (in inglese eigenvalue) che sono, certamente, tra gli strumenti di algebra
lineare più ricchi di applicazioni. Autovalori e autovettori servono, inoltre, a risolvere
questo problema: data un'applicazione lineare~ di uno spazio vettoriale V in se stes-
so, trovare la base di V che semplifichi il più possibile l'espressione in coordinate di
~, cioè la matrice che rappresenta ~; in altre parole il problema è quello di trovare le
coordinate che meglio si adattino a trattare la funzione~- Per esempio, se~ : JR 2 --+ JR 2
è la proiezione ortogonale su una retta r, la scelta naturale per le coordinate è di pren-
dere r come asse delle x, e una retta perpendicolare a r come asse delle y: ciascuna
di queste due rette ha la proprietà di essere lasciata invariata dall'applicazione ~, nel
senso che ~ manda un vettore di r in un altro vettore di r , mantenendone quindi
invariata la direzione. In generale, vedremo che la chiave è di scegliere una base B
i cui assi coordinati siano rette r che l'applicazione ~ lascia invariate nel senso che
~(r) ç r. Questo conduce alla nozione di autovettore: un autovettore è un vettore non
nullo v la cui direzione è lasciata invariata da ~- Le rette invarianti sono esattamente
quelle che sono generate da un autovettore. Purtroppo, non sempre ci sono direzioni
che un 'applicazione lascia invarianti: per esempio una rotazione di un angolo retto del
piano non lascia invariata alcuna direzione. Questo problema si risolve passando al
campo complesso, dove invece direzioni invarianti esistono sempre: è per questo che la
teoria degli autovettori richiede di lavorare nel campo complesso anche quando il pro-
blema di interesse richiede solo scalari reali. La nozione di autovettore è estremamente
interessante anche nel caso di spazi funzionali. Il fatto che la funzione esponenziale
sia un autovettore dell'operatore derivata, perché '.D(ex) =ex, è alla base del metodo
di soluzione delle equazioni lineari omogenee a coefficienti costanti.

• 2 AUTOVETTORI E AUTOVALORI DI UN'APPLICAZIONE LINEARE


Sia V uno spazio vettoriale e sia -l:! : V --+ V un'applicazione lineare. Ci poniamo
il problema di trovare una base B di V tale che la matrice B che rappresenta ~
rispetto a B sia la più semplice possibile. Cominciamo a vedere quale proprietà debba
302 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

avere la base B affinché la matrice rappresentativa B sia diagonale. Questo costituisce


una drastica semplificazione: se la base non è scelta in maniera oculata, la matrice
rappresentativa è una generica matrice quadrata di ordine n = dim V , che ha n 2
elementi; una matrice diagonale invece ha soltanto n elementi significativi, quelli sulla
diagonale principale, tutti gli altri sono nulli; è evidente che poter fare i conti con n
parametri anziché con n 2 costituisce una drastica semplificazione.
Come nel capitolo sulle matrici, denotiamo con il simbolo diag(>.. 1 , ... , Àn) la
matrice diagonale che ha Ài come elemento di posto (i, i):

À1 o o o
o À2o o
diag(>.. 1 , .. . , Àn) = O O À3 O

O O O Àn

Mostriamo ora come la ricerca di una base rispetto alla quale la matrice rappre-
sentativa di ~ sia diagonale conduca all'introduzione delle nozioni fondamentali di
autovettore e autovalore.

PROPOSIZIONE 2.1 Sia ~ :V --+ V un'applicazione lineare, e sia B =


{v 1 , . . . , vn} una base di V. La matrice che rappresenta ~ rispetto alla base B
è la matrice diagonale diag(Ài, ... , À,i) se e solo se

(2.1) per ogni k = 1, 2, .. . n

DIMOSTRAZIONE. Sia B la matrice che rappresenta~ rispetto alla base B. Per definizione
la prima colonna di B

[ ~~:]
bn1

è il vettore delle coordinate di ~(v1) rispetto alla base B. Questo significa che:

~(v1) = b11V1 + b21V2 + · · · + bn1Vn


Quindi la prima colonna di B è

se e solo se ~(v1) = .>..1 v1 .


Analogamente, l'uguaglianza ~(vk) = ÀkVk vale se e solo se la k-esima colonna di B coincide
con la k~esima colonna della matrice diagonale diag(.>.. 1, ... , Àn) per ogni k = 1, 2, .. . n . •

Per poter trovare una base rispetto alla quale la matrice di ~ sia diagonale occorre,
quindi, studiare i vettori v non nulli (altriment i non p ossono fare parte di una base)
© 978-88-08-06401-1 2 Autovettori e autovalori di un 'applicazione lineare 303

per i quali esiste uno scalare À per cui ..C(v) = Àv. Questi vettori si dicono autovettori
di ..C:

DEFINIZIONE 2.2 (Autovalori e autovettori di un'applicazione lineare)


Sia ..C : V --t V un'applicazione lineare. Un vettore v E V si dice autovettore
di ..C se:

a) v non è il vettore nullo;

b) esiste À E lK tale che ..C(v) = Àv.

Lo scalare À è univocamente determinato da v e si dice autovalore di ..C relativo


all'autovettore v.

Un autovalore di ..C è quindi uno scalare per cui esiste un vettore non nullo v tale che
l'equazione

(2.2) ..C(v) = Àv

sia soddisfatta. L'equazione (2.2) si dice equazione degli autovettori e autovalori del-
l'applicazione ..C. Una soluzione dell'equazione è una coppia (v , À) formata da un
autovettore e da un autovalore.
L'autovalore À è univocamente determinato dal corrispondente autovettore v: se
..C(v) = Àv ed ..C(v) = µv , allora À =µ.Infatti

Àv = µv =} (À - µ)v =O

da cui segue À - µ=O perché v -=f. O.


Qual è il significato geometrico di questa definizione? Un vettore non nullo v
genera una retta r = .C(v) , che è l'insieme dei vettori della forma tv , al variare dello
scalare t. Quindi v è un autovettore di ..C se e solo se ..C manda v in un vettore che
appartiene ancora alla retta r = .C(v) , in altre parole se e solo se ..C(v) è parallelo a
v. Se v è un autovettore di ..C relativo all'autovalore À , allora ogni vettore non nullo
dir= .C(v) è ancora un autovettore di ..C relativo a À poiché:

..C(tv) = t..C(v) = Àtv

Quindi ..C manda la retta r in se stessa, e la restrizione di ..C ai vettori della retta r è
la moltiplicazione per l'autovalore À: l'autovalore À è il numero (la matrice 1x1) che
rappresenta l'applicazione ..C : r --t r rispetto alla base {v} dir (e quindi rispetto a ogni
altra base, perché r ha dimensione 1). Geometricamente, la ricerca degli autovettori
di ..C coincide perciò con la ricerca delle rette (sottospazi di dimensione 1) mandate in
se stesse da ..C.

l!1§11!Q
Nell'esempio a pagina 245 abbiamo determinato l'espressione in coordinate della rifles-
sione ortogonale S del piano cartesiano che ha per asse la retta r generata dal vettore
[cos(a), sin(a)f. La riflessione lascia fisso ogni vettore della retta r : S(v) = v per ogni v E r .
304 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Questo significa che ogni vettore di r è un autovettore di S relativo all'autovalore 1. Inoltre,


S mappa ogni vettore w della retta r j_ ortogonale a r nel suo opposto: S(w) = -w per ogni
w E r j_. Ciò vuol dire che ogni vettore di r j_ è un autovettore di S relativo all'autovalore
-1. La base {b1 = (cos(a),sin(a)f, h2 = (-sin(a),cos(a)f} è formata da autovettori di
S perché b 1 appartiene a r e b2 appartiene a rj_ ; per la proposizione 2.1 la matrice che
rappresenta S rispetto a tale base è

B = diag(l , -1) = [~ -~J


Rispetto alla base canonica la matrice di S è (si veda pagina 245)

A= [cos(2a) sin(2a) ]
sin(2a) - cos(2a)

La matrice diagonale B è molto più semplice della matrice A che rappresenta la stessa
applicazione rispetto alla base canonica.

•w;;.1u
Se Z : JR 2 ---> JR 2 denota la rotazione di un angolo di 90°, Z non ha nessun autovettore
perché non lascia invariata alcuna direzione: nessun vettore viene mandato in un multiplo
di se stesso. Quindi non esiste alcuna base di JR 2 rispetto alla quale la rotazione possa essere
rappresentata da una matrice diagonale.

•41; ..1u
Sia I : V ---> V l'applicazione identica:

'I(v) = v per ogni v E V

Ogni vettore non nullo di V è un autovettore di I relativo all'autovalore 1. Per la proposi-


zione 2.1 la matrice che rappresenta I rispetto a una qualunque base B di V è la matrice
identità I.

l@§iiibij
Gli autovettori di Z relativi all'autovalore O sono i vettori non nulli del nucleo Ker(Z) perché:

Z(v) = Ov ~ Z(v) = Ov

•;1§ .. ibij
Sia V uno spazio vettoriale e sia {b1, ... , b n} una sua base. Consideriamo la proiezione sul
primo asse coordinato: P(x1 h1 + x2 b2 + · · · +xnb n) = x 1b 1. Il vettore h1 è un autovettore di
P relativo all'autovalore 1, i vettori b2 , ... , b n sono autovettori relativi all'autovalore nullo.
La matrice di P rispetto alla base {b1, .. . , b n} è quindi diag( 1, O, ... , O) .

Il fatto che il nucleo di .C sia formato dagli autovettori relativi all'autovalore nullo,
segue dalla semplice, ma fondamentale, osservazione che l'equazione degli autovettori e
autovalori .C(v) = Àv è lineare in v una volta fissato À (si osservi invece che l'equazione
© 978-88-08-06401-1 2 Autovettori e autovalori di un'applicazione lineare 305

non è lineare nel complesso (v, .\)delle sue incognite) . Per mettere in evidenza questo
fatto, riscriviamo l'equazione nella forma
..C(v) = Àv = .U(v)
dove I è l'applicazione identità. Il primo membro dell'equazione ha la stessa forma
del secondo: un'applicazione lineare applicata a v. Possiamo, quindi , portare a primo
membro .\I(v) e ottenere:
(2 .3) (..C- .U) (v) =O
Abbiamo così separato i ruoli delle incognite À e v. Il grosso vantaggio è che, fissato À ,
l'equazione (2.3) è un'equazione lineare omogenea in v: un vettore v è un autovettore
di ..C se e solo se è un vettore non nullo nel nucleo di ..C - .U.

DEFINIZIONE 2.3 (Autospazi di un'applicazione lineare)


Per ogni autovalore À ElK poniamo

V).= Ker(..C- .U) = {v E V: ..C(v) = .\v}

Il sottospazio V>. di V si dice autospaz·io di ..C relativo all'autovalore À. I suoi


elementi non nulli sono precisamente gli autovettori di ..C relativi all'autovalore
fissato À .

In questo esempio ricaviamo gli autospazi dell 'operatore derivata. Quindi ~ = '.D è la fun-
zione che associa a una funzione y(x) la sua derivata y'(x). L'equazione degli autovettori e
autovalori diviene
y'(x) = Ày(x) per ogni x E JR
Non è difficile mostrare (per esempio, dividendo per y(x) si ottiene che À è la derivata di
log ly(x )[) che le soluzioni di questa equazione differenziale, con À fissato, sono le funzioni
esponenziali
y(x) = Ce>-x
dove CE JR è una costante arbitraria. Quindi l'autospazio V.\ ha dimensione uno e ha come
base la funzione esponenziale e.\x.

1414,,19
Illustriamo ora come la conoscenza di autovettori e autovalori consenta di trovare soluzioni
di sistemi di equazioni differenziali lineari a coefficienti costanti. Questa è una delle principali
applicazioni degli autovettori e autovalori. Consideriamo il sistema di equazioni differenziali:
(2.4) x' = Ax
dove A è una matrice n x n e l'incognita x = x(t) è una n-upla di funzioni differenziabili:
x = [x1 (t), ... , Xtf. Per esempio, se A= [ ~ ~] ex= [x, y]T , il sistema (2.4) è

x'(t) = ax(t) + by(t)


{ y'(t) = cx(t) + dy(t)
306 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Si dice che un vettore w = [w1, ... ,wn]T E ocn è un autovettore della matrice A se w è
un autovettore dell'applicazione ZA, quindi se esiste,\ E IK tale che Aw = Àw. Ebbene, se
Aw = ,\w, allora la funzione vettoriale

è una soluzione del sistema (2.4). Per mostrare questo, basta ricordare come si deriva la
funzione esponenziale:

Quindi
u'(t) = e>.t,\w = e>.tAw = A(e>.tw) = Au(t)
Questo vale anche per ,\ e w complessi e vedremo tra breve perché questo è utile anche se si
è interessati solo a soluzioni reali.
Per un esempio specifico, consideriamo il sistema

(2.5)
x: = x+y
{ y =x+y

In questo caso la matrice del sistema è A = [i n


Il vettore W1 = [ _!l J è un autovettore
relativo a À1 = O, e il vettore w2 = [i] è un autovettore relativo a À2 = 2. Il sistema ha
perciò le due soluzioni

Si può mostrare che ogni altra soluzione è combinazione lineare di queste due soluzioni.
Per un altro esempio, consideriamo il sistema

(2.6)
x: = x+y
{ y = -x+y
In questo caso la matrice del sistema è A= [_i i]. Vedremo più avanti come determinare
gli autovettori di A: la matrice in questione non ha autovettori reali, ma ha l'autovettore
complesso w = [;] relativo all'autovalore ,\ = 1 +i perché:

1 1] [1] = [ 1 +i.] = (1 +i) [1]


[ -11 i - l+i i

Quindi il sistema ha la soluzione complessa

u(t) = e(l+i)t rn
Scomponiamo tale soluzione come somma di una parte reale e e di una parte immaginaria:

t) = (l +i)t [1] = t it [1] = t( (t) + .. (t)) [1] = [ et cos(t)] + . [et sin(t)]


ue e i e e i e cos ism i -etsin(t) i etcos(t)

Si mostra che la parte reale e la parte immaginaria

e
© 978-88-08-06401-1 3 Autovettori e autovalori di una matrice 307

sono due soluzioni reali del sistema (2.6) (il lettore verifichi!). E si può anche mostrare che
ogni soluzione del sistema è combinazione lineare di queste due e ha quindi la forma

c1et cos(t) + c2et sin(t) ]


[ -c1et sin(t) + c2et cos(t)

*i14HH
Determinare per quali valori di m il vettore [l , m]T è un autovettore della riflessione orto-
gonale i'. ([x, y]T) = [y, xf. P er tali valori, qual è l'autovalore corrispondente all'autovettore
[l , m]T?

Verificare che e3 = [O , O, l]T è un autovettore relativo all'autovalore 1 dell 'applicazione


i'. ([x , y , z]T ) = [-y, x, zf . Mostrare che l'autospazio di i'. relativo all'autovalore 1 è l'asse
z, e convincersi che i'. è la rotazione dello spazio attorno all'asse z di un angolo retto in
senso antiorario. Concludere che i'. non ha altri autovettori reali (non ci sono altre direzioni,
a parte l'asse, lasciate fisse dalla rotazione). Scrivere la matrice che rappresenta i'. rispetto
alla base canonica.

Mostrare che, se v è un autovettore di i'. relativo all'autovalore 3, allora è anche un


autovettore di .J:'. 2 relativo all'autovalore 9.
Suggerimento: .J:'. 2 (v) = .J:'.(.J:'.(v)).

Sia i'. : JR 3 ~ JR 3 l'applicazione lineare definita da

a) Determinare una base del nucleo di i'..


b) Determinare una base dell 'immagine di i'. .
c) Mostrare che i vettori non nulli del nucleo e dell 'immagine sono autovettori di i'..
d) Determinare una base di JR 3 formata da autovettori di i'. . Scrivere le matrici che rappre-
sentano i'. rispetto a tale base e rispetto alla base canonica.

• 3 AUTOVETTORI E AUTOVALORI DI UNA MATRICE


Per risolvere l'equazione degli autovettori e autovalori di un'applicazione lineare ~:
V-+ V , il primo passo da fare è fissare delle coordinate, cioè una base di V , in modo
da poter svolgere i conti sulla matrice A che rappresenta ~. La matrice A è quadrata
di ordine n = dim V. Supponiamo che ~(v) = Àv , cioè che v sia un autovettore di
~ relativo all'autovalore À. Se x è il vettore delle coordinate di v rispetto alla base
fissata, l'equazione ~(v) = Àv è equivalente ad Ax = Àx. Possiamo quindi riformulare
la definizione di autovettore e autovalore in termini di matrici e vettori colonna:
308 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

DEFINIZIONE 3.1 (Autovalori e autovettori di una matrice)


Sia A una matrice quadrata di ordine n (a elementi reali o complessi). Un
vettore non nullo x E C" si dice autovettore di A se esiste uno scalare >. E C
tale che

(3.1) Ax=Àx

Lo scalare >. è univocamente determinato da x e si dice autovalore di A relativo


all'autovettore x.

Un autovalore di A è quindi un numero complesso>. per cui esiste un vettore non nullo
x E C" tale che l'equazione (3.1) sia soddisfatta. L'equazione si dice equazione degli
autovettori e autovalori della matrice A . Una soluzione dell'equazione è una coppia
(v , >.)formata da un autovettore e da un autovalore. È utile considerare autovettori e
autovalori complessi anche nel caso di matrici reali, perché come vedremo negli esempi
esistono matrici reali che non hanno autovalori reali.
OSSERVAZIONE Il fatto che X E cn
sia un autovettore della matrice A relativo a À
è equivalente al fatto che x sia un autovettore relativo a >. dell'applicazione lineare
,.CA : Cn ----; Cn, dove ,.CA : Cn ----; Cn denota come al solito moltiplicazione a sinistra
per A: ..CA(x) = Ax. Quanto visto nel paragrafo precedente si applica quindi anche
al caso di autovettori e autovalori di una matrice.

Un vettore non nullo del nucleo di A è un autovettore di A relativo all'autovalore>.= O.

•MA"'!II
Il vettore v = [1, lf è un autovettore relativo all'autovalore)..= 3 della matrice A= [6 ~]
perché

rn ~J rn rn rn
=
3

Il vettore e2 = [O, lf non è un autovettore della matrice A perché

per ogni)..

Il vettore e 1 = [1, O]T è .u n autovettore della matrice A relativo all'autovalore ).. = 2 perché

Denotiamo con ek il k-esimo vettore della base canonica di ocn. Se A è una matrice quadrata
di ordine n, il prodotto Aek è la k-esima colonna di A. Da questo segue:
© 978-88-08-06401-1 3 Autovettori e autovalori di una matrice 309

a) se D è la matrice diagonale diag(..\1, ... , Àn), allora

quindi, ek è un autovettore di D relativo all'autovalore Àk.

b) Se U = [u;j] è triangolare alta, allora

quindi el è un autovettore di U relativo all'autovalore..\= u 11 .


c) Se L = [l;j] è triangolare bassa, allora

quindi e n è un autovettore di L relativo all'autovalore..\= lnn ·

In termini di matrici, il problema che ci siamo posti nel paragrafo precedente diviene:
data una matrice quadrata A di ordine n, trovare una base di lKn che semplifichi
il più possibile l'espressione in coordinate dell 'applicazione ,!;A· Ricordiamo che la
matrice A rappresenta l'applicazione ,!;A rispetto alla base canonica di lKn; nel capitolo
sulle applicazioni lineari (proposizione 5.5 e formula (5.13) a pagina 250) abbiamo
visto come cambi la matrice rappresentativa al variare della base: la matrice B che
rappresenta ,!;A rispetto a una nuova base B = {b 1 , ... , b n } di lKn è

(3.2) B = s- 1 AS
dove S è la matrice di passaggio dalla base canonica alla base B, le cui colonne sono
i vettori della nuova base:

Traduciamo quindi la proposizione 2.1 in termini di matrici

PROPOSIZIONE 3.2 Sia A una matrice quadrata di ordine n a elementi in


JK, e supponiamo che
S = [b1 b2 · · · bn]
sia una matrice invertibile in Moc(n , n). Allora

(3.3)

se e solo se

(3.4) per ogni k = 1, 2, ... n

DIMOSTRAZIONE. L'enunciato segue dalla proposizione 2.1 scegliendo ..C = ..CA e tenendo
conto che B rappresenta ..CA rispetto alla base B = {b 1 , ... , bn}. Ne diamo però una dimo-
strazione diretta. Poniamo D = diag( ..\ 1, ... , Àn) . L'uguaglianza s- 1 AS = D è equivalente a

AS=SD
310 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

La k-esima colonna di AS è il prodotto Abk di A per la k-esima colonna di S. Per concludere


basta osservare che la k-esima colonna di SD è Àkbk:

À1 o o o
o À2 o o
SD = [h1 h2 · · · bn] o o À3 o = [.X1h1 À2h2 · · · Ànbn]

o o o Àn

DEFINIZIONE 3.3 Una matrice quadrata reale A di ordine n si dice diago-
nalizzabile su JR se esiste una matrice quadrata reale e invertibile S di ordine
n tale che s- 1 AS sia una matrice diagonale. Una matrice quadrata reale o
complessa A di ordine n si dice diagonal'izzabile su C se esiste una matrice
quadrata complessa e invertibile S di ordine n tale che s- 1 AS sia una matrice
diagonale.

OSSERVAZIONE Per una matrice quadrata reale si ottengono così due diverse nozioni
di diagonalizzabilità. Poiché una matrice reale S è anche una matrice complessa, una
matrice diagonalizzabile su JR è anche diagonalizzabile su e, ma il viceversa non è
vero. Per esempio, come vedremo più avanti, la matrice

è diagonalizzabile su e, ma non su JR (il motivo è che la matrice rappresenta la


rotazione del piano di un angolo retto, che non lascia invariata alcuna retta e quindi
non ammette autovettori e autovalori reali).
La proposizione 3.2 fornisce il seguente criterio di diagonalizzabilità:

PROPOSIZIONE 3.4 (Primo criterio di diagonalizzabilità)


Una matrice quadrata A di ordine n è diagonalizzabile su IK se e solo se ocn ha
una base formata da autovettori di A.

DIMOSTRAZIONE. Nelle notazioni della proposizione 3.2, la matrice S è invertibile se e solo


se le sue colonne formano una base di ocn e s- 1 AS è diagonale se e solo se le colonne di S
sono autovettori di A. •

In altre parole, una matrice quadrata A di ordine n è diagonalizzabile su IK se e solo


se possiamo trovare n autovettori di A in ocn che siano linearmente indipendenti.
Discuteremo nel paragrafo seguen~e l'esistenza di tali autovettori.

1{1§.·'d
Una matrice diagonale è diagonalizzabile (prendere S =I); una base di ocn formata da
autovettori della matrice è la base canonica.
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 311

•i%.!!lt!i
Per quanto visto a pagina 251 la matrice

A = [cos(2a) sin(2a) ]
sin(2a) - cos(2a)

è diagonalizzabìle mediante la .matrice di passaggio

S = [cos(a) - sin( a)]


sin(a) cos(a)

Questo si può vedere anche osservando che le colonne b 1 e b2 di S sono autovettori di A


relativi agli autovalori .>..1 = 1 e .>..2 = -1, per cui

s - 1AS = [1o -1O]

1414;;s1
O Determinare per quali valori di m il vettore [1, mf è un autovettore della matrice [ ~ ~].
Per tali valori determinare l'autovalore corrispondente all'autovettore [1,mf .

O Determinare per quali valori di k il vettore [O, 1, l f (rispettivamente [O , 1, -l]T ) è un


autovettore della matrice

A= Ok O
1 oo]
[3 o1
Quali sono gli autovalori corrispondenti?

O Mostrare che, se v è un autovettore di A relativo all'autovalore 2, allora è anche un


autovettore di A 2 relativo all'autovalore 4.
Suggerimento: A 2 v = A(Av).

• 4 RICERCA DI AUTOVALORI E AUTOVETTORI


Per trovare gli autovettori e gli autovalori di un matrice A, occorre risolvere l'equa-
zione

(4.1) Ax = >.x
La difficoltà nel risolvere l'equazione degli autovettori e autovalori (4.1) è che a secondo
membro compaiono entrambe le incognite x e >. e che comunque l'equazione non è
lineare nel complesso delle sue incognite (x, >.). Il primo passo nella soluzione è di
disaccoppiare i ruoli di x e >.. Per questo riscriviamo il secondo membro nella stessa
forma del primo: matrice per vettore, moltiplicando il vettore x per la matrice identità:

Ax =>.Ix
312 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Ora portiamo tutto a primo membro , raccogliamo x e riscriviamo l'equazione nella


forma equivalente

(4.2) (A- ,\l)x =O

Abbiamo così disaccoppiato i ruoli di x e À : affinché À sia un autovalore è necessario


e sufficiente che esista una soluzione non nulla x del sistema lineare omogeneo (4.2).
Una soluzione non nulla esiste se e solo se il determinante della matrice A - ÀI è
nullo. In conclusione, abbiamo dimostrato:

PROPOSIZIONE 4.1 Uno scalare >. 0 E C è un autovalore di A se e solo se Ào


è una soluzione dell'equazione

(4.3) det(A - ,\I)= O

che si dice equazione caratteristica di A.

Si noti che abbiamo così ottenuto un 'equazione det(A - ,\I) =O per i soli autovalori.
La ricerca degli autovettori e autovalori di A si effettua quindi in due passi:

a) si trovano gli autovalori di A risolvendo l'equazione caratteristica det(A- >.I) = O.

b) per ogni autovalore Ào trovato nel primo passo si risolve il sistema omogeneo:

(A - Àol)x = O

Le soluzioni non nulle sono gli autovettori di A relativi all'autovalore ,\ 0 .

Polinomio caratteristico
Analizziamo ora l'equazione caratteristica (4.3) le cui soluzioni sono gli autovalori
della matrice. Faremo vedere che si tratta di un'equazione algebrica di grado n in >..
La conseguenza è che una matrice quadrata di ordine n ha esattamente n autovalori
complessi (se contati con l'opportuna molteplicità).

PROPOSIZIONE 4.2 (Polinomio caratteristico)


Sia A una matrice quadrata di ordine n. La funzione det (A- ,\I) è un polinomio
di grado n nella variabile À :
det(A - ÀI) = (-l)n Àn + C1Àn-l + · · · + Cn- 1À + Cn
che si dice polinomio caratteristico di A. Il secondo e l'ultimo coefficiente sono:
C1 = (-l)n-l tr(A)
c.,,, = det(A:)

OSSERVAZIONE Si ricordi che la traccia tr(A) è la somma degli elementi di A sulla


diagonale principale:
tr(A) = a11 + · · · + ann
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 313

Per la proposizione la traccia è, a meno del segno , il coefficiente di À n-l nel polinomio
caratteristico, mentre il determinante è il termine noto di tale polinomio.
In particolare, se A ha ordine due, il polinomio caratteristico di A è

det(A - >.I) = >. 2 - tr(A)>. + det(A)

mentre se A ha ordine tre, il polinomio caratteristico è

det(A - >.I) = - >. 3 + tr(A)>. 2 + c2 À + det(A )


Si può mostrare che il coefficiente ck di À n-k è, a meno del segno, la somma dei minori
principali di ordine k di A.

DIMOSTRAZIONE (della proposizione 4.2). Usiamo la formula per il determinante:

det(A ) = L (-l)°"a1u(l) · · ·anu (n)


uESn

Tale formula mostra che il determinante è una somma di monomi di grado n nelle variabili
a ;j. Il polinomio caratteristico si ottiene sostituendo a;; con a;; - À; perci6 un polinomio di
grado al più n in À .
Denotiamo con il simbolo a;j( À) gli elementi della matrice A - ÀI: a;;( À) = a;; - À e
a;i ( À) = a;i se i =I- j. Nel prodotto

À appare solo nei fattori in cui u (i) =i. Tale prodotto ha perci6 grado al massimo n - 2 in
À a meno che u (i) = i per almeno n - 1 indici. Ma se u soddisfa u( i) = i per n - 1 indici
i, allora O" deve fissare anche l'ultimo indice e quindi u è l'identità. Ne segue che i termini
di grado n e n - 1 del polinomio caratteristico coincidono coi termini di grado n e n - 1
dell 'addendo nella formula del determinante che corrisponde alla permutazione identità; tale
addendo è

(a11 - À) · · · (ann - À) =
au(À) · · · ann(>. ) =
= (-1r Àn + (-1r-l (a11 + ... + ann) Àn-l +termini di grado minore in>.=
= (-lt À n + (-1r- 1 tr(A )Àn- l +termini di grado minore in À

Quindi i primi due coefficienti del polinomio caratteristico sono (-lt e (- l) n-l tr(A). Per
calcolare il termine noto Cn del polinomio basta porre À = O:

Cn = det(A - OI) = det(A)

Richiamiamo ora alcune proprietà delle radici di un polinomio qualsiasi; ne ricaveremo



informazioni sugli autovalori di A , che sono le radici del polinomio caratteristico. Se
P (>. ) è un polinomio di grado n a coefficienti reali o complessi, un numero complesso
À 1 si dice radice di P (>. ) se P(>. 1 ) = O. Per esempio il polinomio reale >. + 1 non ha
2

radici reali , ma ha due radici complesse >. 1 =i e >. 2 =-i. Se >. 1 è una radice di P(>.) ,
allora per il teorema di Ruffini P( À ) è divisibile per ( À - >. 1 ), il che significa che esiste
un polinomio Q(>.) di grado n - 1 tale che

P(>.) = (>. - >.i)Q(>.)


314 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Il quoziente Q(>.) ha coefficienti reali se P(>.) ha coefficienti reali e >. 1 E JR, ma avrà
coefficienti complessi in generale: per esempio, se P(>.) ha coefficienti reali, ma >. 1 non
è reale , Q(>.) non ha tutti i coefficienti reali (per esempio, >. 2 + 1 = (>. - i)(>.+ i)) .
Se Q(>. 1) =J O, si dice che >. 1 è una radice semplice di P(>.). In ogni caso esiste un
unico intero m ::=:: 1 tale che

con Q(>. 1 ) =J O. Il numero m si dice molteplicità della radice >. 1: intuitivamente, À1 è


m volte radice di P(>.). Per esempio, il polinomio

ha la radice semplice >. 1 =O e la radice >. 2 = 1 di molteplicità 2 (radice doppia).


Il teorema fondamentale dell'algebra afferma che un polinomio a coefficienti com-
plessi si decompone completamente in C: questo significa che un polinomio P(>.) di
grado n si scompone nel prodotto di n fattori lineari:

P(>.) =ca(>. - À1) · · · (>. - Àn)


con c0 , >. 1 , ... , Àn E C (co è il coefficiente di >.n, che è non nullo perché P(>.) ha grado
n ed è irrilevante in questa discussione). In altre parole, un polinomio complesso di
grado n ha esattamente n radici >. 1 , >. 2, ... , Àn, che possono essere però ripetute: se >. 1
ha molteplicità m, di tali radici m saranno uguali a >. 1. Quindi il grado del polinomio
è uguale al numero delle radici complesse contate con la loro molteplicità.
Questo non è vero in JR perché un polinomio reale potrebbe avere radici non reali ,
ma comunque un polinomio a coefficienti reali si decompone completamente in C e
ha un numero di radici complesse pari al suo grado.
Tornando al caso del polinomio caratteristico di una matrice, sappiamo che le sue
radici sono gli autovalori della matrice. La molteplicità algebrica aÀo di un autovalore
>. 0 è la sua molteplicità come radice del polinomio caratteristico.

PROPOSIZIONE 4.3 Sia A una matrice quadrata reale o complessa di ordine


n. Allora A ha esattamente n autovalori complessi >. 1, >.2 , ... , Àn (ripetuti
secondo la loro molteplicità algebrica). Inoltre la traccia e il determinante di
A sono, rispettivamente, la somma e il prodotto degli autovalori:

tr(A) = À1 + À2 + · · · + Àn
det(A) = À1À2 · · · Àn

DIMOSTRAZIONE. Il polinomio caratteristico ha esattamente n radici complesse >.1, ... , Àn ,


quindi
det(A- >.I)= (-It(>.- >.1) · · · (>.- >.n)
Siccome gli autovalori sono le radici del polinomio caratteristico, >.1 , >.2, ... , Àn sono gli
autovalori, contati con la loro molteplicità algebrica. D'altra parte, abbiamo sviluppato il
polinomio caratteristico come

det(A - >.I) = (-1r >. n + (-ir- l tr(A)>.n-l + ... + Cn-1>. + det(A)


© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 315

Uguagliando i coefficienti di grado n - 1 e di grado O nelle due espressioni del polinomio


caratteristico troviamo che la traccia e il determinante di A sono , rispettivamente, la somma
e il prodotto degli autovalori.

hh§i.!Uij
Si considerino le tre matrici

A 2 = [1
o -1] O ' À3 = [~ ~]
I polinomi caratteristici delle tre matrici sono
2 2
det(A1 - ÀI) = À - 1, det(A2 - ÀI) = À2 + 1, det(A 3 - ÀI) = À

La matrice A1 ha, quindi, due autovalori r eali semplici (cioè di molteplicità algebrica 1)
À1 = 1 e À2 = -1. La matrice A2 ha due autovalori complessi semplici À1 = i e À2 = -i . La
matrice A 3 ha un unico autovalore doppio À = O.

141g;.19
Il determinante di una matrice triangolare è il prodotto degli elementi sulla diagonale
principale. Se T è triangolare, anche T - ÀI è triangolare, per cui:

Polinomio caratteristico di una matrice triangolare


= [aij] è:
Il polinomio caratteristico di una matrice triangolare T

det(T - ÀI) = (a11 - À)(a22 - À) · · · (ann - À) .

Gli autovalori di T sono pertanto gli elementi sulla diagonale principale.

In particolare, gli autovalori di una matrice diagonale diag(À1 , ... , Àn) sono proprio À1 ,
... , Àn .
Per esempio:
a) la matrice identità e la matrice nulla di ordine n hanno un unico autovalore di molteplicità
algebrica n; più in generale la matrice

al= diag(a, a, ... , a)

ha solo l'autovalore À = a con molteplicità algebrica n;


b) la matrice triangolare a lta

U=
[
1 2
03.J2
oo
7r

1
l
ha un autovalore doppio À1 =1e un autovalore semplice À2 = 3;
c) la matrice triangolare bassa

u = [~~~i
1 3 2
ha un unico autovalore À = 2 di molteplicità algebrica 3. In particolare, ha lo stesso
polinomio caratteristico della matrice I.
316 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

La matrice trasposta A T ha lo stesso polinomio caratteristico di A. Questo segue imme-


diatamente dal fatto che il determinante di una matrice coincide con il determinante della
trasposta e dall 'uguaglianza:
A r - .u =(A - .uf
Quindi, A e A T hanno gli stessi autovalori , con le stesse molteplicità algebriche.

Molteplicità geometrica di un autovalore


Abbiamo visto che una matrice è diagonalizzabile sul campo K se e solo se esiste una
base di Kn formata da autovettori di A , quindi se possiamo trovare n autovettori di
A che siano linearmente indipendenti. Cominciamo a chiederci quale sia il massimo
numero di autovettori linearmente indipendenti relativi a uno stesso autovalore fis-
sato. Poi faremo variare l'autovalore. Fissato un autovalore À di una matrice A , gli
autovettori di A relativi a À sono le soluzioni non nulle del sistema lineare omogeneo
(A - >.I)x = O: se aggiungiamo il vettore nullo, otteniamo un sottospazio di V:

DEFINIZIONE 4.4 Sia A una matrice quadrata di ordine n con elementi nel
campo K. Fissato un autovalore À E K di A, l' autospazio di A relativo a À è il
sottospazio di Kn:
V,\= Ker(A- >.I)= {v E Kn: Av = >.v}

L'autospazio V,\ consiste quindi degli autovettori di A relativi all'autovalore À , più il


vettore nullo. Si tratta di un sottospazio di Kn perché è il nucleo di una matrice: questo
naturalmente significa che, fissato À, la somma di autovettori relativi a À è ancora
un autovettore relativo a À oppure è il vettore nullo ; il prodotto di un autovettore
relativo a À per uno scalare non nullo t è ancora un autovettore relativo a À.
Proprio p er definizione di dimensione di uno spazio vettoriale, la dimensione di
V,\ è il massimo numero di autovettori linearmente indipendenti relativi a À che si
possano trovare. Tale numero si dice molteplicità geometrica di À:

DEFINIZIONE 4.5 La molteplicità geometrica g,\ di un autovalore À di A è la


dimensione dell'autospazio V,\:

g,\ = dim{v E Kn: Av = Àv}

Poiché V,\ = Ker( A - >.I), per il teorema di nullità più rango la molteplicità geometrica
di À si calcola in funzione del rango di A - >.I: se A ha ordine n, abbiamo

(4.4) g,\ = n - r(A - >.I)

OSSERVAZIONE Se A è una matrice reale e À è un autovalore reale, è possibile


considerare l'autospazio reale {v E JRn : Av = Àv} oppure quello complesso { v E
cn : A V = ÀV}. Questo non deve preoccupare il lettore. Infatti ciò che conta è la
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 317

molteplicità geometrica (cioè il massimo numero di autovettori indipendenti)

g;., = n - r(A - >.I)


che non dipende dalla scelta del campo degli scalari. La molteplicità geometrica è la
dimensione sia dell 'autospazio reale (come spazio vettoriale reale) sia dell'autospazio
complesso (come spazio vettoriale complesso). Relativamente a À, esistono g;., auto-
vettori reali che sono linearmente indipendenti tanto in JR quanto in C e che quindi
formano una base sia dell'autospazio reale sia di quello complesso. Nelle applicazioni
quello che occorre determinare è la molteplicità geometrica e, se necessario, una base
dell'autospazio costituita da autovettori reali.

h@riJ@i
Sia I la matrice identità. La molteplicità geometrica di .À = 1 come autovalore di I è

gi = n - r (I - I) = n

In effetti, i vettori della base canonica sono n autovettori indipendenti di I tutti relativi
all'autovalore 1.

Facciamo ora tre esempi che illustrano le tre possibili risposte alla questione della
diagonalizzabilità di una matrice reale: (1) la matrice è diagonalizzabile su JR; (2) la
matrice non è diagonalizzabile su JR perché non ha abbastanza autovalori reali, ma
è diagonalizzabile su C; (3) la matrice non è diagonalizzabile nemmeno su C, perché
non ha abbastanza autovettori da formare una base di cn.
l@§ .. 1@1
Consideriamo ancora una volta la matrice di una riflessione ortogonale (l'asse è la bisettrice
y = x), ma questa volta fingeremo di non saperlo: ricaveremo gli autovettori esclusivamente
per via algebrica. La matrice è A = [~ 6J, per cui

A_>-I [o1o1] _>- [1o 1o] 1>- 1]


= = [-
-.À

Si noti che, in generale, la matrice A - .ÀI si ottiene da A sottraendo .À agli elementi della
diagonale principale . Per la matrice in questione l'equazione caratteristica è

det (A - .>-I) = .À 2 - 1= O

quindi A ha due autovalori reali .À.1 = 1 e .À 2 = -1. Per trovare gli autovettori relativi a .À1 ,
occorre risolvere il sistema omogeneo

La matrice
-1 1 ]
A - >-11 =A - I = [ l - l
318 Capitolo 7. Autovalori e autovettori © 978-88-08-06401- 1

ha rango 1 e quindi la molteplicità geometrica g;.. 1 , ovvero la dimensione dell'autospazio V >. 1 ,


è 1. La seconda equazione del sistema da risolvere è un multiplo della prima, e il sistema è
equivalente alla singola equazione:
-x+y =O
Una base dell'autospazio V ;.. 1 è pertanto il vettore b 1 = [1, l]T. Conti analoghi mostrano che
l'autovalore -1 ha molteplicità geometrica 1, e una base del relativo autospazio è l'autovet-
tore b 2 = [1 , -lr. I due a utovettori b 1 e b 2 sono linearmente indipendenti e quindi formano
una base di IR2. La matrice A è diagonalizzabile perché esiste una base di IR2 formata da
autovettori di A. Più precisamente, posto S = [b1 b2], per la proposizione 3.2:

s- 1AS = diag(>.1, >.2) = diag(l , -1) = [~ ~l]

141;,,1a
Diamo ora un esempio di diagonalizzazione su <C di una matrice che non è diagonalizzabile su
R Consideriamo la matrice A = [ ~ (/ ]. Tale matrice rappresenta rispetto alla base canonica
la rotazione di un angolo retto in senso antiorario. Siccome la rotazione non lascia invariata
alcuna direzione, la matrice non può avere autovettori e autovalori reali. Verifichiamolo
algebricamente. La matrice A - >.I è:

->.
[ 1
-1]
->.
che ha determinante >. 2 + 1. Pertanto l'equazione caratteristica>. 2 +1 = O non ha r adici reali:
la matrice non ha autovalori reali, e quindi non è diagonalizzabile su JR. Non vi è p erò alcun
problema a trovare autovalori e autovettori complessi della matrice. Gli autovalori complessi
sono le radici >. 1 =i e À2 = -i dell'equazione caratteristica. Si noti che i= ei-rr/ 2: l'autovalore
complesso ricorda l'angolo di rotazione. Per trovare gli autovettori relativi a À1 = i, occorre
risolvere il sistema omogeneo

(A - il) [~] = rnJ


La matrice
A - il = [~i =!]
ha rango 1: la seconda riga si ottiene moltiplicando la prima per i. Il sistema d a risolvere è
quindi equ ivalente alla singola equazione:

-ix -y =O

Una base per l'autospazio relativo all'autovalore >. 1 = i è formata dall'autovettore b 1 =


[1 , -i]T. In maniera analoga si mostra che gli autovettori di A relativi all'autovalore -i
sono i multipli non nulli dell'autovettore b2 = [1 , i]T. Possiamo verificare quest'affermazione
mostrando che effettivamente Ab2 = -ib 2:

Infine i due autovettori b 1 e b 2 sono linearmente indipendenti , e quindi formano una base
di <C 2. Posto:
s = [- il_l] i
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 319

si ha perciò
g-1 AS = [io O·] -i

In conclusione abbiamo trovato un esempio di una matrice reale che è diagonalizzabile su IC,
ma non su JR.

n
Sia A = [ g Il polinomio caratteristico di A è >. 2 , per cui A ha un unico autovalore À = O,
con molteplicità algebrica 2. La molteplicità geometrica di À = O è:

go =2- r(A) =1
In questo caso esiste un unico autospazio V o, che ha dimensione go = 1. Quindi il massimo
numero di autovettori indipendenti della matrice A è 1 e la matrice non è diagonalizzabile,
nemmeno su IC: se fosse diagonalizzabile, vi sarebbe una base di IC 2 formata da autovettori
di A e A avrebbe perciò due autovettori linearmente indipendenti.

1414,,14
Diamo un esempio che aiuti a capire l'utilità della diagonalizzazione di una matrice: il fatto
che la matrice sia diagonalizzabile consente di calcolare tutte le potenze della matrice. Il
calcolo delle potenze di una matrice ha molte applicazioni (per esempio processi di Mar-
kov, sistemi dinamici discreti ecc.) come spiegato nell'introduzione al capitolo sull'algebra
delle matrici, da cui riprendiamo l'esempio della dinamica della popolazione delle classi di
Caronte e Mefistofele. Lo stato iniziale è descritto dal vettore x 0 = [eo, m 0 )T dove eo è la
percentuale degli studenti che hanno come docente Caronte, mo la percentuale degli studenti
di Mefistofele, per cui co + mo = 1. Dopo un intervallo di tempo il 403 degli studenti di
Caronte rimane nella sua aula, il resto si trasferisce nell'aula di Mefistofele; mentre il 503
degli studenti di Mefistofele rimane e il 503 cambia aula. La legge di evoluzione del sistema
è quindi
Xk = Axk--1 A= [2/ 5 1/ 2]
3/ 5 1/ 2
Il polinomio caratteristico di A è

det ( A - >.I)= À2 - -9À -


10
-1
10
= (.>. - 1) ( >. + -10
1)

1
per cui gli autovalori di A sono À1 = 1 e À2 = -
. Gli autovettori relativi a À1 = 1 sono
10
i multipli scalari non nulli del vettore [5 , 6f. Tra questi determiniamo quello che ha somma
delle componenti uguali a 1 e quindi descrive un possibile stato del sistema (percentuale
studenti di Caronte e percentuale studenti di Mefistofele):

1
e=ii[5, 6)
T= [5ll ' ll6]T =[ce, me)
T
Osserviamo che e è lo stato di equilibrio del sistema: poiché e è un autovettore relativo
all'autovalore 1, il sistema una volta che si trova nello stato e ci rimane perché:

Ae=e
320 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Un autovettore relativo a À2 =-{o è [-1, l ]r, per cui la matrice S = [~ 11 ] diagonalizza A:

Moltiplicando a sinistra per S e a destra per s- 1 otteniamo per A la decomposizione

A= sns- 1

dove D = diag (1, -{o). Sfruttiamo questa decomposizione per calcolare tutte le potenze
A n di A. Notiamo che le potenze della matrice diagonale si calcolano immediatamente:

= l O] n
= [l O]
Dn
[0 -1
10 O
(-1r
10n

Osserviamo poi che A n = snns- 1 poiché

Quindi

An =[
5

6
-li [lo
i
O
(-1r; 10n
l[1/ 11 1/ 111
-6/11 5/11J
e

n.!!~oo A - 6 1
. n - [5 -1] [l o] [
1/11 1/11] - [5 o] [
1/ 11 1/11] - [5/11 5/11]
O O -6/11 5/11 - 6 O -6/11 5/11 - 6/ 11 6/11

Possiamo ora dimostrare che, qualunque sia lo stato iniziale xo = [co, mo]T con co +mo = 1,
il sistema tende ad assumere lo stato di equilibrio:

lim A nxo = [5/11 5/11] [ co ] = [5(co + mo)/11] = [5/11] =e


n~+= 6/11 6/11 mo 6(co + mo)/11 6/11

Numero degli autovettori linearmente indipendenti


Una matrice quadrata di ordine n è diagonalizzabile su lK se possiamo trovare n auto-
vettori della matrice linearmente indipendenti. Occorre quindi determinare il massimo
numero di autovettori linearmente indipendenti della matrice. Sappiamo già che, fis-
sato un autovalore >. 0 , il massimo numero di autovettori linearmente indipendenti
relativi a >. 0 è uguale alla molteplicità geometrica dell'autovalore. Faremo ora vedere
che il massimo numero di autovettori indipendenti è la somma delle molteplicità geo-
metriche degli autovalori: questo significa che facendo l'unione delle basi di ciascun
autospazio della matrice si ottiene ancora un insieme linearmente indipendente. Il
principio fondamentale è:

PROPOSIZIONE 4.6 (Autovettori relativi ad autovalori distinti sono


linearmente indipendenti) Siano v 1 , ... , v 8 autovettori di A relativi agli
autovalori À1 , . .. , Às . Se gli autovalori >. 1 , ... , À 8 sono distinti, allora v 1 , ... , v s
sono linearmente indipendenti.
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 321

DIMOSTRAZIONE. Mostriamo per semplicità dapprima il caso s = 2 : supponiamo che ve


w siano autovettori di una matrice A e che i corrispondenti autovalori À e µ siano distinti.
Le ipotesi sono quindi: Av = Àv con v =I O, Aw = Àw con w =I O, e À =I µ. La tesi da
dimostrare è che v e w sono linearmente indipendenti. Supponiamo che ci sia una relazione
lineare tra v e w:
civ+ c2w =O
Moltiplicano entrambi membri dell'uguaglianza a sinistra per A troviamo una seconda
relazione:
c1Àv + c2µw = O
Ora moltiplichiamo la prima relazione per µ e sottraiamo il risultato dalla seconda. Ottenia-
mo:
c1(.>.. - µ)v=O
Siccome v =I O per ipotesi, dev 'essere nullo lo scalare c1(.>.. - µ). Ma per ipotesi À =Iµ, quindi
c1 = O. Sostituendo nella prima relazione troviamo c2w = O, e quindi anche c2 = O perché
w =I O. Abbiamo così mostrato che c1 = c2 =O, il che significa che v e w sono linearmente
indipendenti.
Generalizziamo ora il ragionamento a un numero qualsiasi di autovettori: supponiamo
che v 1, . . . , Vs siano autovettori di A relativi ad autovalori distinti À1 , . .. , .>. • . Vogliamo
mostrare che v1 , . .. , Vs sono linearment e indipendenti . Procediamo per induzione su s. Il
caso s = 1 è ovvio perché v1 è per definizione di autovettore non nullo, e quindi è linear-
mente indipendente. Possiamo allora assumere che s 2: 2 e v 1, . .. , Vs- 1 siano linearmente
indipendenti.
Supponiamo che ci sia una relazione lineare tra i vettori v1 ... , v s :

Moltiplicando entrambi i membri dell'uguaglianza a sinistra per A troviamo una seconda


relazione:
C1À1V1 + C2À2V2 + · · · + Cs À s V s = Q
Ora moltiplichiamo la prima relazione per Às e sottraiamo il risultato dalla seconda. Otte-
niamo:

Siccome v1 , . . . , Vs-1 sono linearmente indipendenti per ipotesi di induzione, abbiamo

Ma per ipotesi gli autovalori À1 , .. . , À 8 sono distinti , quindi devono essere nulli i coefficienti
c 1, ... , Cs- 1· Sostituendo nella prima relazione troviamo CsVs = O e quindi anche Cs = O
perché v s =I O.
Abbiamo così mostrato che c1 = c2 = · · · = c5 = O, il che significa che V1 , . .. , v s sono
linearmente indipendenti. •

Come conseguenza importante abbiamo:

TEOREMA 4. 7 (Condizione sufficiente di diagonalizzabilità)


Sia A una matrice quadrata di ordine n a elementi nel campo IK. Se A ha n
autovalori distinti in OC, allora A è diagonalizzabile su K
322 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

DIMOSTRAZIONE. Supponiamo che A abbia n autovalori distinti. Siano v1 , . .. , Vn E ocn


autovettori di A relativi a À1 , . . . , À n, rispettivamente. Abbiamo mostrato che v 1, .. . , V n
sono linearmente indipendenti, quindi formano una base di ocn. La matrice è diagonalizzabile
perché ocn ha una base formata da autovettori della matrice. •

OssERVAZIONE Se lK = C, una matrice quadrata A di ordine n ha esattamente n


autovalori, se questi sono contati con le loro molteplicità algebriche. L'ipotesi che A
abbia n autovalori distinti equivale quindi all 'ipotesi che tutti gli autovalori abbiano
molteplicità algebrica l. Se lK = JR, l'ipotesi è che A abbia tutti gli autovalori reali e
di molteplicità algebrica l.

1i1§1.14ij
La matrice A= [~~] ha polinomio caratteristico >. 2 - 1, quindi due autovalori reali distinti
À1 = 1 e À2 = -1. P er la proposizione precedente A è diagonalizzabile sul campo reale:
esiste una matrice invertibile reale S tale che

s-1AS = [1o -1o]


La matrice B = [~ [} ] ha polinomio caratteristico >. 2 + 1, quindi non ha autovalori reali e
non è diagonalizzabile sul campo reale. P erò ha due autovalori complessi distinti À1 = i e
À2 = -i. Per la proposizione preced ente B è diagonalizzabile sul campo complesso: esiste
una matrice invertibile complessa S tale che:

[i
s-1Bs = o - io]
Avevamo già ottenuto questi risultati calcolando S esplicitamente. La proposizione ci con-
sente di dire che la base di autovettori esiste senza bisogno di calcolare gli autovettori.

'i14·11U
Consideriamo la matrice
5 1
A= O -3
[1 o !]
Calcoliamo il polinomio caratteristico di A sviluppando il determinante secondo Laplace

l
rispetto alla prima colonna:

5- À o 1
det(A->.I)=det O -3->. O =(5->.)(-3->.)(5->.)+(3+>.)
[ 1 o 5-À

Raccogliamo il termine 3 + À:

2
det(A - >.I)= (3 + >.) (1 - (5 - >.) ) = (3 + >.)(1- 5 + >.)(l + 5 - >.) = (3 + >.)(>. - 4)(6 - >.)

La matrice A ha perciò i tre autovalori distinti >. 1 = -3 , À2 = 4, À3 = 6 ed è diagonalizzabile .


Controlliamo che la traccia della matrice sia uguale alla somma degli autovalori:

tr(A) = 5 - 3 + 5 = 7, À1 + À2 + À3 = -3 + 4 + 6 = 7
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 323

OSSERVAZIONE Si può mostrare che una matrice generica ha autovalori distinti e


quindi sul campo complesso è diagonalizzabile: intuitivamente, se p er caso il polinomio
caratteristico di una matrice ha radici multiple, cambiando di poco i coefficienti si
ottiene quasi certamente una matrice il cui polinomio caratteristico non ha radici
multiple. Quindi una matrice generica è diagonalizzabile sul campo complesso; per
questo il teorema precedente è importante e di vasta applicabilità.
Per chiarire questo punto, consideriamo un'arbitraria matrice 2 x 2:

A= [~ ~]
Il polinomio caratteristico di A è
det (A - >.I) = >. 2 - (a + d) >. + ad - be
La matrice ha autovalori distinti tranne nel caso
b.= (a+ d) 2 - 4(ad - be) =O
Una matrice generica ha coefficienti che non soddisfano questa equazione, e quindi ha
autovalori distinti.

Passiamo ora a occuparci del problema di determinare il massimo numero di autovet-


tori linearmente indipendenti di una matrice data, senza escludere il caso di autovalori
ripetuti. Abbiamo visto che, fissato un autovalore>., il massimo numero di autovettori
linearmente indipendenti relativi a >. è la molteplicità geometrica
9>-. =n- r(A - >.I)
dell'autovalore.

LEMMA 4.8 Siano À1, ... , À 8 gli autovalori distinti di A in JK, e siano 91, ... , 9s
le relative molteplicità geometriche. Il massimo numero N di autovettori linear-
mente indipendenti di A in ocn
è la somma delle molteplicità geometriche degli
autovalori:

DIMOSTRAZIONE. Sia V k l'autospazio relativo a Àk. Per definizione di molteplicità geo-


metrica V k ha dimensione 9k. In particolare, in ogni insieme S di autovettori indipendenti
ci sono al massimo 9k autovettori indipendenti relativi all'autovalore Àk , e quindi S ha al
massimo g 1 + · · · + g5 elementi. Questo mostra che N ~ g 1 + ···+g•. Per concludere, occorre
ora costruire un insieme linearmente indipendente S formato da g1 + · · · + 9s autovettori.
Per costruire tale insieme, per ogni k fissiamo una base Bk = {wik), ... , di V k, e Wb:)}
consideriamo l'insieme S costituito da tutti questi vettori al variare di k:

S = B1 u B2 u · · · u B, = {w~k) : 1 ~ k ~ s, 1 ~ i ~ gk}
Per costruzione l'insieme S è formato da g 1 +· · ·+g. autovettori. Rimane da mostrare che
questi vettori sono linearmente indipendenti. Supponiamo che ci sia una relazione lineare tra
i vettori di S:
8 9k

L L C;kW~k) =o
k=li=l
324 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Yk (k)
Occorre mostrare che tutti i coefficienti C;k sono nulli. Poniamo Vk = I:; C;k W ; per ogni
i=l
k = 1, ... , s, in modo tale che la precedente uguaglianza si riscriva nella forma

Il vettore Vk è combinazione lineare dei vettori w ik) , ... , Wb:) che formano una base dell'au-
tospazio V k, quindi appartiene a V k. Questo significa che Vk è un autovettore relativo a Àk ,
s
oppure è il vettore nullo. La relazione lineare , con coefficienti tutti uguali a uno, I:; Vk = O
k= l
mostra che gli eventuali Vk non nulli sono linearmente dipendenti. Ma questo è impossibile
perché autovettori relativi ad autovalori distinti sono indipendenti. Concludiamo che tutti i
V k sono nulli:
Yk
Vk = L C;kw;k) =O per ogni k = 1, 2, .. . , s
i=l

Siccome wik ), ... , Wb:) sono linearmente indipendenti, i coefficienti C;k sono nulli per ogni
i = 1, 2, . .. , 9k . Questo vale per ogni k, quindi tutti i coefficienti C;k sono nulli, come volevasi
dimostrare.

Dal lemma segue immediatamente che una matrice di ordine n è diagonalizzabile,


cioè esiste una base di ocn formata da autovettori della matrice, se e solo se la somma
delle molteplicità geometriche degli autovalori è uguale a n. Si può rendere più efficace
questo criterio di diagonalizzabilità mettendo a confronto la molteplicità geometrica
di un autovalore con la sua molteplicità algebrica. Il risultato di base è:

PROPOSIZIONE 4.9 (Confronto molteplicità geometrica e algebrica)


Sia >. un autovalore di una matrice A e siano 9>. e a>., rispettivamente, la
molteplicità geometrica e la molteplicità a.lgebrica di >.. Allora
1 :::; 9>. :::; a>.

DIMOSTRAZIONE. Se >.. è un autovalore, allora det(A - >..I) = O, per cui A - >..I non ha
rango n, cioè 9>. 2: 1. Rimandiamo la dimostrazione dell'altra disuguaglianza al paragrafo
sulla similitudine di matrici. •

IJ1§.ii@i
Sia A= (8 lJ]. Il polinomio caratteristico di A è >.. 2 , per cui A ha un unico autovalore>..= O,
con molteplicità algebrica 2. La molteplicità geometrica di >.. = O è:

go = 2 - r(A) = 1

L'esempio mostra che è possibile che un autovalore abbia molteplicità geometrica


strettamente minore di quella algebrica. Gli autovalori per cui questo non succede si
dicono regolari. Gli autovalori con molteplicità algebrica 1 si dicono semplici perché
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 325

sono radici semplici del polinomio caratteristico. Per la proposizione 4.9 un autovalore
semplice ha molteplicità geometrica 1 ed è quindi regolare. Riassumendo:

DEFINIZIONE 4.10 (Autovalori semplici. Autovalori regolari)

• Un autovalore si dice regolare se le sue molteplicità algebrica e geometrica


coincidono.

• Un autovalore si dice semplice se ha molteplicità algebrica 1.

Per la proposizione 4.9 un autovalore semplice è regolare.

TEOREMA 4.11 (Secondo criterio di diagonalizzabilità)


Una matrice quadrata A è diagonalizzabile su ][(se e solo se sono verificate le
seguenti condizioni:

a) il polinomio caratteristico di A ha tutte le sue radici in ][( (ipotesi automa-


ticamente soddisfatta se][( = C);

b) ogni autovalore À di A è regolare.

DIMOSTRA ZIO NE . Siano Ài, . .. , Às gli autovalori distinti di A nel campo lK e siano 9i, . .. , 9 s
le relative molteplicità geometriche . Per il primo criterio di diagonalizzabilità A è diagona-
lizzabile su lK se esiste in Kn un insieme di n autovettori linearmente indipendenti di A ; per
il lemma 4.8 il massimo numero di autovettori linearmente indipendenti di A in Kn è esat-
tamente la somma delle molteplicità geometriche 9i + · · · + 9s. Quindi A è diagonalizzabile
se e solo se
n = 9i + · · · + 9 s
Siano ora ai , ... , a. le molteplicità algebriche degli autovalori Ài , ... , Às . Allora il polinomio
caratteristico di A è divisibile per

Quindi la somma delle molteplicità algebriche è minore o uguale a n che è il grado del
polinomio caratteristico. Ma 9k :S ak per ogni k, per cui

9i + · · · + 9s :S ai + · · · + as :S n
Pertanto A è diagonalizzabile se e solo se:

n = 9i + · · · + 9s :S ai + · · · + a. :S n
Questo è possibile se e solo se:

9i + · · · + 9s = ai + · · · + as = n
il che accade se e solo se ai + · · · + a. = n e 9k = ak per ogni k . La prima condizione indica
che il polinomio caratteristico ha tutte le sue radici in JK, la seconda che gli autova lori sono
regolari. •
326 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

IJfotl!Ui
Per quali valori di a, b, e, d E JR la matrice

A=
1 abl
O ed
[o o 4

è diagonalizzabile? La matrice è triangolare, quindi i suoi autovalori sono À1 = 1, À2 = e e


>. 3 = 4. Se e =f. 1 e e =f. 4, gli autovalori sono distinti, e quindi la matrice è diagonalizzabile
suR
Supponiamo ora e = l. Allora la matrice ha un autovalore doppio À1 = À2 = 1 e un
autovalore semplice À3 = 4. L'autovalore semplice è regolare, per cui per il secondo criterio di
diagonalizzabilità A è diagonalizzabile se e solo se la molteplicità geometrica dell'autovalore

mnn
doppio è 2. Ora

g, ~ 3-r(A-I) ~r
Quindi g1 = 2 se e solo se a = O. Se e = 4, un ragionamento analogo mostra che la matrice
è diagonalizzabile se e solo se d = O.
In conclusione, la matrice è diagonalizzabile se e solo se e =f. 1 oppure e =f. 4 oppure e = 1 e
a = O oppure e = 4 e d = O.

1414mg
Consideriamo la matrice

A= [ ~ ~ ~7] (k E JR)
oo 2
Vogliamo stabilire per quali valori di k la matrice è diagonalizzabile (su JR) e per tali valori
determinare una base di JR 3 formata da autovettori di A . Il polinomio caratteristico di A è
(3->.) 2 (2-À) , quindi la matrice ha due autovalori reali, .). 1 = 3 con molteplicità algebrica 2, e
>. 2 = 2 con molteplicità algebrica l. L'autovalore À2 è semplice, quindi regolare, e la matrice
è diagonalizzabile se e solo se anche >. 1 è regolare. Calcoliamo la molteplicità geometrica
di À1:

9>, ~ 3 - r (A - 31) ~ 3- r ( [~ ~ !:] )~ {: se k =O


Concludiamo che la matrice è diagonalizzabile se e solo se k = O.
Se k =O, la matrice è A= [~ g4 ] . Calcoliamone gli autovettori. L'autospazio relativo
1

oo 2
a À 1 = 3 ha equazioni

(A-31) mm
Tutte e tre le equazioni di questo sistema sono equivalenti all'equazione z =O, quindi l'au-
tospazio relativo a À1 è il piano z = O. Come autovettori linearmente indipendenti relativi a
.). 1 possiamo scegliere i primi due vettori della base canonica e 1 e e2. L'autospazio relativo
a À2 = 2 ha equazioni
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 327

che sono equivalenti a


7z = 0
X -
{ y-4z =O
Scegliendo z = 1 troviamo l'autovettore v = [7, 4, lf. In conclusione { e1 , e 2, v} è una base
di R 3 formata da autovettori di A . Sia S è la matrice che ha per colonne gli autovettori

s= o1
1o 47]
[o o 1
Per la proposizione 3.2
s- 1 AS = diag(3, 3, 2)

Un 'importante classe di matrici non diagonalizzabili è fornita dai blocchi di Jordan:

DEFINIZIONE 4.12 (Blocco di Jordan)


Il blocco di Jordan J = Jn(a) di ordine n associato allo scalare a è la matrice
quadrata di ordine n
a 1O OO
Oa 1 OO

000 ... al
000 ... 0a
che ha gli elementi sulla diagonale principale uguali ad a, gli elementi sulla
diagonale immediatamente sopra alla diagonale principale uguali a 1 e tutti gli
altri elementi nulli.

Per esempio:

4 1
= o4 1 '
o] o7 71 o
1o01
J 3(4)
[o o 4
J 4 ( 7) = oo7 1
[
ooo7
Un blocco di Jordan è una matrice bidiagonale perché gli elementi non nulli si trovano
su due sole diagonali della matrice.

PROPOSIZIONE 4.13 (Autovalori e autovettori di un blocco di Jordan)


Il blocco di Jordan Jn(a) ha un unico autovalore >. = a. La molteplicità geo-
metrica di a è 1, quella algebrica è n. L'autospazio Va è la retta generata dal
primo vettore e 1 della base canonica. Se n > 1, il blocco di Jordan Jn(a) non
è diagonalizzabile.

DIMOSTRAZIONE. La dimostrazione è immediata: siccome J è una matrice triangolare,


a è l'unico autovalore e ha molteplicità algebrica pari all'ordine n di J . La molteplicità
geometrica è
9a = n - r(Jn(a) - al) = n - r(Jn(O)) = n - (n - 1) = 1
328 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Quindi l'autospazio V a ha dimensione 1 e una sua base è formata da un qualunque auto-


vettore della matrice. Siccome J e1 = a e1 , il primo vettore della base canonica e1 è un
autovettore di J e tutti gli altri autovettori sono multipli di e 1 . Se n > 1, l'autovalore a non
è regolare e, quindi, la matrice J non è diagonalizzabile.

•+uas•
O Stabilire se la matrice A = [i j J è diagonalizzabile su R Se lo è, trovare una base di JR 2
formata da autovettori di A .

f) Sia A una matrice quadrata con polinomio caratteristico - À 3 - À + 2. Qual è 1' ordine di
A ? Quanto valgono il determinante e la traccia di A? Mostrare che A ha un a utovalore reale
e due autovalori complessi e verificare che la somma degli autovalori è la traccia, mentre il
prodotto degli autovalori è il determinante.

G Sia A una matrice con polinomio caratteristico À 2 + 3À + 2. Qual è il polinomio caratte-


ristico di A+ 71? In generale, che relazione c'è tra il polinomio caratteristico di una matrice
A e quello di A + cl (e è uno scalare fissato)?

• Mostrare che la matrice A = [ ~ g] ha un solo autovalore e che tale autovalore non è


regolare. Determinare gli autovettori di A , e verificare che non esiste una base di lK2 formata
da autovettori di A (quindi A non è diagonalizzabile, né su JR né su iC).

f) Trovare una base di JR 2 formata da autovettori della matrice simmetrica A = [~ -~]


Verificare che i vettori di tale base sono tra loro perpendicolari.

G) Trovare il polinomio caratteristico, gli autovalori e gli autovettori della matrice

A=
3 oo]
1 1 O
[2 2 1

Spiegare perché A non è diagonalizzabile. Scrivere una matrice diagonalizzabile con lo stesso
polinomio caratteristico di A.

€D Mostrare che la matrice

oo o]
-1
1 o
ha un solo autovalore reale con molteplicità algebrica uguale a 1 (quindi è un autovalore
regolare). Perché A non è diagonalizzabile su JR? La matrice è diagonalizzabile su C? Quali
sono gli autovettori complessi di A ?

G) Data la matrice

A= [- ; -~ ~i
o
2 2
si trovino, se possibile, una matrice invertibile S e una matrice diagonale D tali che D =
s- 1 AS .
Suggerimento: gli autovalori della matrice sono 1 , 2 e 10.
© 978-88-08-06401-1 4 Ricerca di autovalori e autovettori 329

Per quali valori di a,b,d la matrice A = [~ ~] è diagonalizzabile?

Si determinino gli autovalori e gli autovettori della matrice A = [~j! ~j!] e si calcoli
il limite A 00
= n-++cx:i
lim An .

G!) Si consideri la matrice

A= [~k o~ 2~i
Per quali valori di k la matrice A è diagonalizzabile? Per tali valori si determini una base di
R 3 costituita da autovettori di A.

G) Sia A una matrice diagonalizzabile. Mostrare che Ker(A) n Col(A) = {O} e Col(A) +
Ker(A) = ocn. Mostrare anche che lo spazio colonna è generato dagli autovettori di A relativi
agli autovalori non nulli di A e che il rango di A coincide con il numero di autovalori non
nulli di A contati con la loro molteplicità.
Suggerimento: considerare prima il caso in cui A è diagonale.

Ci) Si consideri la matrice

A= [100 ~~i
o 6 4
Si determinino delle basi di Ker(A) e Col(A) formate da autovettori di A .

Q» Sia A una matrice diagonalizzabile. Mostrare che Ker(A) =Ker(A 2 ), Col( A) =Col( A 2 ).
Suggerimento: fare prima il caso in cui A è diagonale; osservare che, se A = sns- 1 ,
allora A 2 = SD 2 s- 1 .

e Sia A una matrice quadrata di ordine n e si supponga che esista un vettore V E Rn tale
che A v # O e A 2 v = O (questo significa che il nucleo di A 2 contiene propriamente il nucleo
di A). Mostrare che A non è diagonalizzabile.

e Per quali valori del parametro reale a la matrice

A=
10 2a
O 9 2
al
[ o 2 6
è diagonalizzabile? Per tali valori si determini, se possibile, una base di ffi. 3 formata da
autovettori di A di lunghezza 1 e a due a due perpendicolari.

G)
l
Per quali valori del parametro reale k la matrice

3-k -k 1
A= -l+k 2+k -1
[ 1+ k k 3

è diagonalizzabile? Per tali valori si determini una base di ffi. 3 formata da autovettori di A.
330 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

9 Sia A u·n a matrice quadrata. Si supponga che la somma dei coefficienti di ciascuna
colonna sia uguale a 18. Mostrare che 18 è un autovalore di A.
Suggerimento: per ipotesi [1, . .. , 1f è un autovettore di A T e A T ha lo stesso polinomio
caratteristico di A .

C,l) Si consideri il sistema di equazioni differenziali

x'(t) = -x(t) + 3y(t)


{ y'(t) = x(t) +y(t)

Trovare due soluzioni linearmente indipendenti della forma u(t) = e>. 1 w.

8 Data la matrice

A= [12 -11 2] -1

si calcoli il prodotto B = AA T e si trovino una matrice invertibile S e una matrice diagonale


D tali che s- 1 BS =D. Si ripeta l'esercizio con B = (AT)A.

e Sia>.. un autovalore di A. Nel testo si mostra che>.. è anche un autovalore di AT, con
la stessa molteplicità algebrica. Mostrare che anche la molteplicità geometrica di >.., come
autovalore di A T, coincide con la molteplicità geometrica di >.. come autovalore di A .

~ Si consideri la matrice

a) posto V l = Ker( A - I) e V -1 = Ker( A + I) , determinare una base di V 1 e una base di


V -1, e verificare che dim V l + dim V -1 = 4;
b) qual è il polinomio caratteristico di A?
Suggerimento: gli autovalori e le loro molteplicità sono determinati dal punto a).

Qi) Sia ~ : M(2, 2) --+ M(2, 2) l'applicazione lineare che a una matrice A associa la sua
trasposta. Determinare autovalori e autovettori di ~-
Suggerimento: (1) cos'è ~(A) per una matrice simmetrica (rispettivamente antisimme-
trica)? (2) in alternativa, scrivere la matrice rappresentativa di ~' che è una matrice 4 x 4 e
calcolarne gli autovalori e autovettori (naturalmente, il secondo metodo è sconsigliato).

ED Siano vettori di llr. Possiamo considerare i vettori vk come elementi di


v1, .. . , Vd
cn , perché un numero reale è anche un numero complesso. Mostrare che v 1 , ... , v d sono
linearmente indipendenti in ]Rn se e solo se sono linearmente indipendenti in cn.
Suggerimento: scrivere una combinazione lineare a coefficienti complessi come somma di
una parte reale e di una parte immaginaria.
© 978-88-08-06401-1 5 Matrici simili 331

• 5 MATRICI SIMILI
In questo paragrafo tutte le matrici sono quadrate di ordine n a coefficienti nel
campo JK.

DEFINIZIONE 5.1 (Matrici simili)


Una matrice B si dice simile a una matrice A se esiste una matrice invertibile
S tale che
B = s- 1 AS

La sostanza della definizione è che B è simile ad A se le due matrici rappresentano la


stessa applicazione lineare; infatti, se B = s- 1 AS, la matrice B rispetta l'applicazione
..CA rispetto alla base di ocn formata dalle colonne di s, e A rappresenta la stessa
applicazione rispetto alla base canonica. La similitudine tra matrici è una relazione
di equivalenza:

PROPOSIZIONE 5.2 La similitudine è una relazione di equivalenza sull'insie-


me delle matrici quadrate di ordine n. Questo significa che valgono le seguenti
proprietà:

a) proprietà riflessiva: una matrice A è simile a se stessa;

b) proprietà simmetrica: se B è simile A, allora A è simile a B. Ha senso


quindi dire che A e B sono simili;

e) proprietà transitiva: se B è simile ad A e C è simile a B , allora C è simile


ad A .

DIMOSTRAZIONE .

a) Una matrice A è simile a se stessa perché la matrice identità è invertibile e A= i- 1 AI.

b) Proprietà simmetrica: se B = s- 1 AS , allora A= T- 1 BT dove Tè la matrice invertibile


s-1.
c) Proprietà transitiva: supponiamo B = s- 1 AS e C = T- 1 BT. Il prodotto ST di due
matrici invertibili è invertibile ed (ST)- 1 = T - 1 s- 1 . Allora

C = T- 1 s- 1 AST,;,,, (ST)- 1 A(ST)

e quindi C è simile ad A come volevasi dimostrare.



La similitudine, come ogni relazione di equivalenza, ripartisce le matrici in classi di
similitudine a due a due disgiunte: due matrici sono nella stessa classe se e solo se sono
simili. Il problema di trovare la matrice più semplice che rappresenta un'applicazione
data diventa il problema di trovare la matrice più semplice all'interno di una classe
di similitudine.
332 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

La matrice identità è simile soltanto a se stessa perché per ogni matrice invertibile S

La classe di similitudine di I contiene solamente I. Lo stesso vale per la matrice nulla e più
in generale per le matrici del tipo .U. Le classi di similitudine delle altre matrici sono invece
più ampie e più interessanti.

1@§1.!Jij
Se A han autovalori distinti À1, .. . , Àn, allora A è simile alla matrice diagonale

diag(>.1 , ... , Àn)

Infatti, se S è la matrice che ha per colonne autovettori v 1, ... , V n relativi a À1, . .. , Àn


rispettivamente, allora per il teorema 4. 7 e la proposizione 3.2

s - 1AS = diag(>.1, ... , Àn)

•M§·i!S
Una matrice è diagonalizzabile se e solo se è simile a una matrice diagonale.

Due matrici simili, visto che rappresentano la stessa applicazione lineare rispetto a basi
distinte, hanno in comune tutte quelle proprietà che dipendono solo dall'applicazione
lineare; in particolare: gli stessi autovalori, a meno di un cambiamento di coordinate
gli stessi autovettori; tali proprietà si dicono invarianti perché sono lasciate invariate
da un cambiamento di coordinate.

PROPOSIZIONE 5 .3 (Principali invarianti per similitudine)


Supponiamo che le matrici A e B siano simili. Allora:

a) le due matrici hanno lo stesso polinomio caratteristico;

b) le due matrici hanno gli stessi autovalori con uguali molteplicità algebrica
e geometrica;

c) le due matrici hanno ugual rango, determinante e traccia.

DIMOSTRAZIO NE . L'ipotesi è che esista una matrice S invertibile tale che B = s - 1AS. Per
il teorema di Binet matrici simili hanno lo stesso determinante:

det(S - 1AS) = det( S - 1) det A det S = (det S) - 1 det A det S = det A

Ora osserviamo che per ogni À fissato

s - 1AS - >.I= s - 1AS - >.s - 1rs = s - 1AS - s - 1 (>.I)S = s- 1 (A - >.I)S


© 978-88-08-06401-1 5 Matrici simili 333

Quindi
det(S - 1AS - AI)= det(S - 1 (A - Àl)S) = det(A - ÀI)
Questo mostra che il polinomio caratteristico di B = s- 1AS coincide con quello di A .
Il polinomio caratteristico determina gli autovalori e le loro molteplicità algebriche, quindi A
e B hanno gli stessi autovalori con uguali molteplicità algebrica. Il polinomio caratteristico
ha tra i suoi coefficienti il determinante e la traccia, che quindi coincidono per le due matrici.
Mostriamo ora che anche le molteplicità geometriche degli autovalori coincidono. Sia À
un autovalore di A e sia v un autovettore di A relativo a À: Av = Àv. Allora s- 1 v è un
autovettore di B relativo a À perché:
BS- 1v = s- 1ASS - 1v = s- 1Av = s- 1Àv = ÀS - 1v

Questo significa che A e B hanno, a meno di un cambio di coordinate, gli stessi autovettori
relativi a À e, quindi, la molteplicità geometrica di À è la stessa per le due matrici. Più
formalmente, se denotiamo con il simbolo V>. l'autospazio di A relativo a À e con V~
l'autospazio di B relativo allo stesso À, allora:

V~= B(V>.)

dove B = Bs -1 : ocn ---> ocn è l'applicazione lineare invertibile rappresentata da s- 1. Siccome


B è un isomorfismo, gli autospazi V >. e V~ = B(V>.) hanno la stessa dimensione, cioè la
molteplicità geometrica di À come autovalore di A coincide con la molteplicità geometrica di
À come autovalore di B. Lo stesso argomento mostra che i ranghi delle due matrici coincidono:
il rango non cambia per moltiplicazione con una matrice invertibile. Più concettualmente,
il rango di un 'applicazione lineare (che è la dimensione dell'immagine) coincide con il rango
della matrice che la rappresenta rispetto a una base qualsiasi ; le due matrici rappresentano ,
rispetto a basi diverse, la stessa applicazione lineare BA , e, quindi , i loro ranghi coinci-
dono.

Possiamo stabilire quando due matrici diagonalizzabili sono simili:



PROPOSIZIONE 5.4 Supponiamo che A e B siano entrambe diagonalizzabili.
Allora A e B sono simili se e solo se hanno lo stesso polinomio caratteristico e
in tal caso sono entrambe simili alla matrice diagonale

diag(>.1 , . . . , Àn)

dove >. 1, . .. , Àn sono le radici del polinomio caratteristico ripetute con la loro
molteplicità (in un ordine qualsiasi).

DIMOSTRAZIONE. Abbiamo già visto che matrici simili hanno lo stesso polinomio caratte-
ristico (senza bisogno di supporre che siano diagonalizzabili). Supponiamo ora che A e B
siano entrambe diagonalizzabili e abbiano lo stesso polinomio caratteristico . Siano Àl, ... , Àn
le radici del polinomio caratteristico con la loro molteplicità.
Siccome A è diagonalizzabile, A è simile a una matrice diagonale D = s- 1 AS; in
particolare, A e D hanno lo stesso polinomio caratteristico e, quindi, D è la matrice diagonale
diag(À 1, .. . , Àn) a meno dell 'ordine in cui compaiono gli autovalori; per la proposizione 3.2 si
possono però riordinare gli autovalori come si preferisce permutando le colonne di S. Quindi
A è simile a diag(À1 , . . . , Àn) . Lo stesso argomento vale per B. Concludiamo che le due
matrici sono entrambe simili alla matrice diag( À1, ... , Àn), e perci6 sono simili tra loro. •
334 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Le matrici diag(l , O, 2, 2) e diag(2, 1, O, 2) sono simili. Le matrici diag(2, 3), diag(3, 2) e [ 6~]
sono simili. Le matrici diag(2 , 3) e diag(2, 4) non sono simili.

i#1§ii!4t!i
Due matrici diagonali diag(>.1 , . .. ,Àn) e diag(µ1, .. . ,µn) sono simili se e solo se gliele-
menti sulla diagonale principale coincidono a meno dell 'ordine, cioè (µ1 , ... , µn) sono una
permutazione di (>.1 , . .. , Àn) ·

Non è detto, però, che due matrici con lo stesso polinomio caratteristico siano simili, se non
si verifica l'ipotesi che le due matrici siano entrambe diagonalizzabili . Per esempio la matrice
nulla O = [gg] e la matrice A = [g6J hanno lo stesso polinomio caratteristico À 2 , ma non
sono simili, perché una matrice simile alla matrice nulla dev'essere la matrice nulla:

o anche perché la molteplicità geometrica di >. = O come autovalore della matrice nulla è
2, mentre come autovalore di A ha molteplicità geometrica 1. Si noti che in questo caso la
matrice nulla è diagonalizzabile, mentre la matrice A non lo è.
Non è nemmeno sufficiente che due matrici abbiano gli stessi autovalori con le stesse
molteplicità algebriche e geometriche perché siano simili. Si considerino per esempio le due
matrici

A=
o 1 o o]
0000 B= 0010
o 1 o o]
e
[o o
o o1
ooo [oo oo oo oo
Entrambe le matrici hanno polinomio caratteristico >. 4 , quindi un unico autovalore À = O
con molteplicità algebrica 4. La molteplicità geometrica di >. = O è 4 meno il rango della
matrice, quindi è 2 per entrambe le matrici. Tuttavia A e B non sono simili: un semplice
calcolo mostra che A 2 =O, mentre B 2 non è la matrice nulla (l'elemento di posto (1,3),
cioè il prodotto della prima riga di B con la terza colonna, è uguale a 1); se A e B fossero
simili, allora esisterebbe S invertibile tale che B = s- 1AS e si otterrebbe la contraddizione

Si può dimostrare che, per n = 2 e n = 3, due matrici che abbiano gli stessi autovalori con
le stesse molteplicità algebriche e geometriche sono simili, ma, come l'esempio precedente
mostra, questo è falso per matrici di ordine n 2:: 4.

Completiamo ora la dimostrazione della proposizione 4.9: dobbiamo dimostrare che


la molteplicità geometrica di un autovalore è minore o uguale di quella algebrica.
CONCLUSIONE DELLA DIMOSTRAZIONE della proposizione 4.9. Sia A una matrice qua-
drata di ordine ne siaµ un autovalore di A: usiamoµ al posto di >.per non far confusione
con la variabile >. del polinomio caratteristico. Dobbiamo dimostrare che la molteplicità geo-
metrica g = gµ dell'autovaloreµ è minore o uguale della sua molteplicità algebrica a= aµ .
Fissiamo una base {v1, v2,. . ., v 9} dell'autospazio Vµ relativo a µ. Possiamo aggiungere
© 978-88-08-06401-1 5 Matrici simili 335

n - g vettori a questo insieme in modo da ottenere una base B di ocn. Sia M la matrice che
rappresenta l'applicazione .CA(x) = Ax rispetto alla base B : si ricordi che la colonna k di
M è il vettore delle componenti di A Vk rispetto alla base B . Poiché:
per k = 1, 2, ... g
le prime g colonne della matrice M sono i primi g vettori della base canonica di ocn. Questo
significa che M ha la forma
M = [µ~g ~]
dove lg è la matrice identità di ordine g e O è la matrice nulla con n - g righe e g colonne.
Siccome il determinante di una matrice triangolare a blocchi è uguale al prodotto dei blocchi
sulla diagonale,
det(M - ÀI) = det(µlg - Àlg) det(C - Àln- g) = (µ - À) 9 det(C - Àln - g)
Quindi (À - µ) 9 divide il polinomio caratteristico di M. Ma M è simile ad A , perché le
due matrici rappresentano la stessa applicazione rispetto a basi distinte, per cui il polinomio
caratteristico di M coincide con quello di A. Concludiamo che (À - µ) 9 divide il polinomio
caratteristico di A e questo significa che la molteplicità algebrica di µ è almeno g , come
volevasi dimostrare. •

Autovettori e autovalori di polinomi di matrici


A partire da una matrice quadrata A , se ne possono costruire molte altre con questo
procedimento: per ogni polinomio P(x ) = adxd + · · · + a 1 x + a 0 , si ottiene una nuova
matrice quadrata P(A) sostituendo la variabile x con A:
P(A) = adAd + · · · + alA + aol
Il caso più semplice e importante è P(x) = xd: in questo caso P(A) è la potenza
Ad di A. Osserviamo che, se D è una matrice diagonale, P(D) è ancora una matrice
diagonale:
P (diag(À1, ... , Àn)) = diag(P (>.1), ... , P(Àn)).
Gli autovalori e autovettori di A e P(A) sono legati tra loro:

PROPOSIZIONE 5.5 Supponiamo che v sia un autovettore di A relativo


all'autovalore .À. Allora:

a) v è un autovettore di Am relativo all'autovalore Àm, per ogni m ~ 1;

b) se A è invertibile, allora À =f. O e v è un autovettore di A- 1 relativo


all'autovalore 1/ À;

e) se P(x) è un polinomio, allora v è un autovettore di P(A) relativo all'au-


tovalore P(>.) ; inoltre, se B = s- 1AS , allora

P(B) = s- 1 P(A)S
In particolare, se A e B sono simili, allora P(A) e P(B) sono simili; se A
è diagonalizzabile, allora P(A) è diagonalizzabile.
336 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

DIMOSTRAZIONE. Supponiamo Av = Àv. Mostriamo il punto a): per induzione possiamo


supporre che Am- lv = Àm- 1v, e poi calcolare
Amv = A(Am-l v) = A(Àm- lv) = Àm- 1Av = Àm-l(Àv) = Àmv
Mostriamo il punto b): se A è invertibile, il determinante di A è non nullo e quindi A non
ha un autovalore nullo: À i= O. Moltiplicando l'uguaglianza Av = Àv a sinistra per ±A - l
otteniamo
1 A-1
>:V= V
Questo mostra il punto b).
Il punto c) segue concettualmente dal fatto che B rappresenta ~A rispetto alla base di
Kn formata dalle colonne di S e che P(B) rappresenta P(~A) = ~P ( A ) rispetto alla stessa
base. P er una dimostrazione più concreta, osserviamo che
(S- 1Asr = s - 1ASS- 1AS · · · s - 1ASS - 1AS = s - 1A mg
Inoltre, per le proprietà del prodotto di matrici, l'operazione che manda A in s - 1AS è
lineare:
s- 1(t1A1 + t2A2)S = tiS - 1AlS + hS- 1A2S
Siccome un polinomio è una combinazione lineare di monomi xm , dalle due precedenti
uguaglianze segue che P(s - 1AS) = s - 1P(A)S per ogni polinomio P(x).

•+wma
Lo stesso argomento mostra che, se ~ : V --+ V è un'applicazione lineare e ~(v) = Àv,
allora P(~)(v) = P(À)v. Questa semplice osservazione ha un'applicazione spettacolare, che
trasforma le fondamentali equazioni differenziali lineari a coefficienti costanti in equazioni
algebriche. P er semplicità ci limitiamo al caso delle equazioni omogenee del secondo ordine:

(5 .1) ay"(t) + by'(t) + cy(t) =O

Il primo membro di questa equazione è il polinomio differenziale P(V) , dove

P(x) = ax 2 + bx + c
e V(y) = y' è l'operatore che a una funzione associa la sua derivata. Il punto è che, per ogni
À reale o complesso, la funzione esponenziale Y>.(t) = e>.t è un autovalore di V relativo a À
perché:
V(y>.) = ÀY>.
Quindi Y>.(t) è anche un autovettore di P(V) relativo all'autovalore P(À): questo esplicita-
mente significa
ay~(t) + by~(t) + CY>.(t) = P(À)Y>.(t)
La conseguenza importante è questa: se P(À) =O, allora la funzione Y>.(t) è soluzione dell'e-
quazione differenziale (5.1). Abbiamo così sostanzialmente ridotto l'equazione differenziale
all'equazione algebrica P(À) =O , che si dice equazione caratteristica di (5.1). Per un esempio
specifico, consideriamo l'equazione

(5.2) y"(t) - 4y(t) =o


2
che corrisponde al polinomio x - 4. L'equazione caratteristica P(À) = À2 - 4 = O ha due
radici Àl = 2 e À2 = -2. In corrispondenza troviamo due soluzioni dell'equazione differenziale
(5.2)
e
© 978-88-08-06401-1 5 Matrici simili 337

Siccome l'equazione è del secondo ordine, non è poi difficile mostrare che ogni soluzione di
(5 .2) è una combinazione lineare c1e 2t + c2e- 2t di y 1 e y2. Abbiamo così trovato tutte le
soluzioni dell'equazione differenziale.

Sia A una matrice simile alla matrice diagonale diag(l, 2, 3). Si tratta di una matrice
diagonalizzabile? Qual è il suo polinomio caratteristico? La matrice A 3 è diagonalizzabile?
Qual è il suo polinomio caratteristico?

Stabilire per quali valori del parametro reale k le due matrici

A= [~ ~] e

sono simili.

Stabilire per quali valori del parametro complesso t le due matrici

e B = [i
1
t ·]
-i

sono simili (come matrici complesse).

Stabilire per quali valori del parametro reale k le due matrici

A= [k :2 ~ ~j
o k- 1 2
e B=[~~~i
oo3
sono simili.

Stabilire per quali valori del parametro reale k la matrice

k-1 k-2 2-ki


A= O 1 O
[k-2 k-2 3-k

è diagonalizzabile . In corrispondenza a tali valori scrivere una matrice diagonale simile ad A


e la relativa matrice di passaggio.

Si consideri l'equazione matriciale B = x - 1AX, con

A= [~ ; o~i
1 -1
e B = [~3 ~ o~i
-1 -1

e X incognita. L'equazione ammette soluzioni? perché? La soluzione, se esiste, è unica? Si


determini, se possibile, una soluzione.

Supponiamo che A sia diagonalizzabile e che B non lo sia. Mostrare che A e B non
sono simili (il motivo è che la diagonalizzabilità dipende solo dall'applicazione lineare rap-
presentata dalla matrice, e non dalla particolare matrice usata per rappresentarla).
338 Ca pitolo 7. Autovalori e autovettori © 978-88-08-06401-1

G) P er quali valori di k le matrici

123] 1 4 o]
A=
[o o
Ok 4
5
e B = O5 O
[2 3 1

sono simili?
Suggerimento: per i valori di k plausibili che relazione c'è tra le colonne di A e quelle
di B ? come si esprime tale relazione in termini delle applicazioni rappresentate dalle due
matrici?

G) Sia A una matrice quadrata di ordine n e sia B = A 2 - 4A + I. Se v è un autovettore


di A relativo all'autovalore 5, allora v è un autovettore anche di B ? qual è l'autovalore
corrispondente?

(D Sia A una matrice quadrata. Mostrare che, se A 2 =O, allora I+ A è invertibile.


Suggerimento : la condizione A 2 = O determina gli autovalori di A.

(f) Come nel testo, poniamo V(y(t)) = y'(t) e Y>Jt) = e.>..t.


a) Mostrare per induzione che

b) Dedurre che per ogni polinomio P(x):

P(V)(ty;..,(t)) = P(>.)ty;..,(t) + P'(>.)y;..,(t)


c) Mostrare che ty;..,(t) risolve l'equazione differenziale

y" - 2>.y'(t) + >. 2 y(t) =o

G) Una matrice quadrata N si dice nilpotente se esiste un intero positivo m tale che Nm
sia la matrice nulla.
a) Sia N una matrice nilpotente . Si mostri che)..= O è l'unico autovalore di N.
b) Si mostri che un51 matrice simile a una matrice nilpotente è nilpotente.
c) Sia N una rr@_tri'~e nilpotente di ordine 2. Si mostri che N è simile a una matrice U della
forma

Si concluda che N 2 è la matrice nulla.


Suggerimento: si rappresenti l'applicazione lineare Nx rispetto a una base { v1 , v2} di JR 2
in cui v 1 appartiene al nucleo (cioè un autovettore di N) .
d) Sia U = [u;j] una matrice quadrata di ordine n . Si supponga che U sia triangolare
superiore con gli elementi sulla diagonale principale nulli:

Uij =O se i 2'. j

Si mostri che U è nilpotente.


e) Si dia un esempio di una matrice nilpotente 2 x 2 che non sia triangolare.
© 978-88-08-06401-1 6 Il problema della forma canonica 339

• 6 IL PROBLEMA DELLA FORMA CANONICA


La proposizione 5.4 fornisce, sotto l'ipotesi di diagonalizzabilità, la risposta ai due
problemi:

i) determinare condizioni necessarie e sufficienti affinché due matrici siano simili;

ii) all'interno di ogni classe di similitudine, individuare un rappresentante canonico,


che sia unicamente determinato ed esprima nel modo più semplice possibile le
proprietà della classe, in modo che si possa dire che due matrici sono simili se e
solo se hanno lo stesso rappresentante canonico.

La risposta per le matrici diagonalizzabili è:

i) due matrici diagonalizzabili sono simili se e solo se hanno lo stesso polinomio ca-
ratteristico (equivalentemente, gli stessi autovalori contati con la loro molteplicità
algebrica);

ii) la forma canonica di una matrice diagonalizzabile è la matrice diagonale che


ha sulla diagonale gli autovalori della matrici (ripetuti con la loro molteplicità
algebrica).

Una questione analoga si pone ogni qualvolta un insieme sia ripartito in classi di
equivalenza. A questo proposito, è utile tenere presente l'esempio dei numeri razio-
nali positivi, che sono definiti come classi di equivalenza di frazioni. Una frazione è
una coppia ordinata (a , b) di numeri interi positivi, che viene rappresentata con il
simbolo %; due frazioni % e ~ sono equivalenti e, quindi, definiscono lo stesso nu-
mero razionale, se ad - be = O; si verifica facilmente che si tratta di una relazione
di equivalenza, per la quale il punto i) è già dato per definizione , ma il punto ii)
è interessante: il rappresentante canonico è la frazione ridotta ai minimi termini , e
due frazioni definiscono lo stesso numero razionale se e solo se sono uguali una volta
ridotte ai minimi termini. Un altro esempio è fornito dai vettori liberi: nello spazio
euclideo, due vettori applicati si dicono equivalenti se uno si ottiene dall'altro per
traslazione e un vettore libero è una classe di equivalenza di vettori applicati; in
questo caso

i) due vettori applicati sono equivalenti se e solo se hanno ugual modulo, direzione
e verso;

ii) fissata un'origine O, il rappresentante canonico di un vettore libero v si ottiene


applicando v in O, e due vettori liberi sono equivalenti se e solo se, una volta
traslati nell'origine, coincidono.

In questo paragrafo illustriamo la soluzione di i) e ii) per la relazione di similitudine


tra matrici. Introduciamo subito la classe delle matrici di Jordan: vedremo poi che ogni
matrice A è simile, mediante di una matrice di passaggio complessa, a una matrice di
Jordan B; la matrice di Jordan B è determinata essenzialmente da A , e si dice forma
canonica di Jordan di A. Quando A è diagonalizzabile, la forma canonica di Jordan
di A è la matrice diagonale che ha gli autovalori di A come elementi della diagonale
principale.
340 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Ricordiamo la definizione di blocco di Jordan Jm(À):

À 1 o oo
oÀ 1 oo

ooo À 1
ooo oÀ
è la matrice m x m che ha gli elementi sulla diagonale principale uguali a À, e gli
elementi sulla diagonale sopra a quella principale uguali a l.

DEFINIZIONE 6.1 (Matrice di Jordan)


Una matrice quadrata C si dice matrice di Jordan o matrice a blocchi di Jordan
se è una matrice diagonale a blocchi

(6.1) C=

00
in cui ciascun blocco J h è un blocco di Jordan.

OSSERVAZIONE Una matrice di Jordan è bidiagonale, nel senso che tutti gli elementi
della matrice sono nulli tranne quelli che si trovano sulla diagonale principale o sulla
diagonale immediatamente sopra alla diagonale principale. In particolare, una matrice
di Jordan è triangolare alta, e quindi i suoi autovalori sono esattamente gli elementi
della diagonale principale. Gli elementi sulla diagonale sopra alla diagonale principale
sono quelli di posto (i, i+ 1) e sono uguali a O oppure a l.

•i%ii!ld
Le due matrici
01001
oooo o
o o1 o1 o01
Ci= OOO1 e C2 = OOOO
ro o o o ro o o o
sono matrici di Jordan, e hanno un unico autovalore À 1 =O con molteplicità algebrica 4. La
matrice C 1 ha due blocchi di Jordan di ordine due J2(0) = [8
6J, mentre la matrice C2 ha
un blocco di ordine tre J 3(0) = [8o 6o o~] e un blocco di ordine uno [O]= J1(0) .

La dimostrazione del fatto che ogni matrice è simile a una matrice di Jordan è piutto-
sto lunga, e richiede ragionamenti per induzione per i quali è necessario p ensare alle
matrici come applicazioni lineari. Cercheremo di evitare notazioni pesanti in questo
modo: il simbolo V denoterà uno spazio vettoriale complesso di dimensione finita, e
il simbolo T un'applicazione lineare V -->V; scriveremo Tv al posto di T(v) e Tm
© 978-88-08-06401-1 6 Il problema della forma canonica 341

per indicare il prodotto di composizione di m fattori uguali a T. Quindi

... '

Diremo anche che T è un operatore. In sostanza sostituiamo la notazione Z(v) , che


abbiamo fin qui usato per le applicazioni lineari, con la più snella Tv; quando V =
cn, l'operatore T si identifica con la matrice n X n che lo rappresenta rispetto alla
base canonica e Tv è proprio il prodotto della matrice T per il vettore colonna v.
Denoteremo con il simbolo I tanto l'operatore identità (definito da lv = v per ogni
v E V) quanto la matrice identità, che è la matrice rappresentativa dell 'operatore
identità rispetto a una base arbitraria.
Abbiamo visto che una matrice è diagonalizzabile su <C se e solo se esiste una base
di <Cn formata da autovettori della matrice. Per arrivare a dimostrare il teorema sulla
forma canonica di Jordan occorre introdurre la nozione di autovettore generalizzato:
mentre non è sempre possibile trovare una base di cn formata da autovettori, è invece
sempre possibile trovare una base di cn formata da autovettori generalizzati, e questa
base produce una matrice di Jordan simile alla matrice di partenza.

DEFINIZIONE 6.2 (Autovettore generalizzato)


Sia ,\ un autovalore di T. Un vettore non nullo v E V si dice autovettore
generalizzato relativo a ,\ se esiste un intero d ~ 1 tale che (T - ,\J)dv = O.
Il più piccolo intero d tale che (T - ,\J)dv = O si dice indice dell'autovettore
generalizzato.

Dalla definizione segue che v è un autovettore generalizzato relativo a ,\ di indice d


se (T - >.J)d-l v -/=O e (T - >.J)dv = O. In particolare, gli autovettori generalizzati di
indice 1 sono precisamente gli autovettori: quando d = 1, le condizioni precedenti di-
ventano v-/= O e Tv = Àv. Dato un autovettore generalizzato v di indice d, definiamo
induttivamente una successione di d autovettori generalizzati wk ponendo:

(6.2) p er k = 2, ... , d

Otteniamo così d vettori w 1 , ... , wd: l'ultimo è l'autovettore generalizzato v da cui


siamo partiti. Per definizione wk = (T - >.J)d-kv per k = 1, ... , d, quindi wk è un
autovettore generalizzato di indice k; in particolare w 1 è un autovettore di T. La
relazione Wk -1 = (T - >.I)wk che definisce Wk - l a partire da wk si può riscrivere
nella forma

(6.3) per k = 2, ... ,d

Si vede così che Wk-l dà una misura di quanto wk è lontano dall'essere un vero
autovettore. Per il vettore w 1 , che come abbiamo osservato è un vero autovettore,
vale invece l'equazione:

(6.4)
342 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

DEFINIZIONE 6.3 (Catena di autovettori generalizzati)


Una catena di autovettori generalizzati di lunghezza d 2: 1 relativa all'autova-
lore À di Tè una successione finita w 1 , ... , wd di vettori di V con la proprietà
che

(6.5) per k = 2, ... , d.

OssERVAZIONE La discussione· precedente si riassume così: se w1, ... , wd è una


catena di autovettori generalizzati, il primo vettore w 1 è un vero autovettore, mentre
per k 2 2 il vettore wk è un autovettore generalizzato di indice k, e la catena è
determinata dall'ultimo vettore wd perché Wk = (T - >.I)d-kw per k = 1, . . . , d.

1119 ..14
Consideriamo il blocco di Jordan T = [g~] , che è l'esempio più semplice di matrice non dia-
gonalizzabile. La matrice ha un unico autovalore À = O. Il primo vettore della base canonica
e 1 è un autovettore: Te1 = O = Oe1. D 'altra parte Te2 = Oe2 + e1. Questo mostra che e1, e2
è una catena di autovettori generalizzati di lunghezza 2 per la matrice T.
Dato un operatore T : V __, V, una base B di V si dice base di Jordan per T se
B è l'unione di un certo numero di catene di autovettori generalizzati a due a due
disgiunte. Quindi una base di Jordan è un base della forma

{wg,1, ... , Wf ,de : f_ = 1, ... , t}


dove, per ogni f_ fissato, wg ,1, .. . , Wf,de è una catena di autovettori generalizzati. Si
noti che l'indice dg dell'autovettore generalizzato Wf ,de dipende da l, in modo che la
lunghezza delle catene possa variare. La seguente proposizione generalizza il fatto che
una matrice quadrata è diagonalizzabile se e solo se esiste una base di autovettori:

PROPOSIZIONE 6.4 Sia T : V __, V un operatore lineare e sia B una base


di V. La matrice che rappresenta T rispetto a B è una matrice di Jordan se e
solo se B è una base di Jordan per T.

DIMOSTRAZIONE . Siano b1 , ... , bn i vettori della base B , e sia A la matrice che rappresenta
T rispetto alla base B. Questo significa che gli elementi a;1r, della colonna k di A sono le
componenti di Tb1r, rispetto a B:

(6.6)
Supponiamo che A sia una matrice di Jordan, composta da t blocchi di Jordan J i, ... , J t.
Sia >.; l'autovalore del blocco J; , e supponiamo che il primo elemento di J; si trovi sulla
colonna k;. Allora la colonna k; di A ha l'elemento sulla diagonale principale uguale a À;,
e tutti gli altri elementi nulli; mentre le altre colonne del blocco J; , che sono quelle di
indice k con k; < k < k;+1 , hanno l'elemento sulla diagonale principale uguale a À; , quello
immediatamente sopra uguale a 1, e gli° altri elementi nulli. Da (6.6) segue allora

(6.7)
© 978-88-08-06401-1 6 Il problema della forma canonica 343

Questo significa che b 11:,, b11:, +1, ... ,b1ci+ 1 _ 1 è una catena di Jordan relativa all'autovalore
À ;, e quindi B è una base di Jordan. L'argomento si può leggere al contrario: se B è una base
di Jordan, allora vale la (6.7) e la matrice A è di Jordan .

Introduciamo ora i sottospazi radicali che sono i sottospazi formati dagli autovettori
generalizzati relativi a uno stesso autovalore: questi sottospazi da un lato sono inte-
ressanti di per sé, e dall'altro sono utili nella dimostrazione dell'esistenza di una base
di Jordan.

DEFINIZIONE 6.5 (Sottospazio radicale)


Sia À un autovalore di T. L'insieme

RÀ(T) = {v E V: esiste d 2: 1 tale che (T - .XI)dv =O}

si dice sottospazio radicale di T relativo all'autovalore .X.

OSSERVAZIONE I vettori non nulli del sottospazio radicale RÀ sono gli autovettori
generalizzati relativi all'autovalore À. In particolare, il sottospazio radicale contiene
gli autovettori relativi a À e quindi l'autospazio V À· Come il nome suggerisce, si tratta
di un sottospazio vettoriale di V: questo si può verificare direttamente, ma è anche
una conseguenza della proposizione che segue.

PROPOSIZIONE 6.6 (Indice di un autovalore)


Sia V uno spazio vettoriale di dimensione finita, sia T : V ~ V un operatore
lineare, e sia À un autovalore di T. Esiste un unico intero e= eÀ 2: 1 tale che

Ker(T - .XI)d ~ Ker(T - .XI)d+l se O ::; d < e,

Ker(T - .XI)d = Ker(T - .XI)d+l se d 2: e.

In particolare, il sottospazio radicale RÀ coincide con Ker(T - .XI)e ed è un


sottospazio vettoriale di V. L'intero e = eÀ si dice 'indice dell'autovalore .X, ed
è minore o uguale a dim V.

DIMOSTRAZIONE . Il simbolo Ker(T - Àl) d ~ Ker(T - Àl) d+i significa che Ker(T - Àl)d è
contenuto in Ker(T - Àl)d+l e non è uguale a Ker(T - Àl)d+i.
Mostriamo che per ogni operatore lineare B : V ---+ V esiste un unico intero e 2 O, minore
o uguale a n = dim V , tale che
(6.8) Ker B d ~ Ker B d+l se O ::::; d < e, Ker Bd = Ker B d+l se d 2 e

Se d 2 1 e v appartiene al nucleo di Bd , allora

B d+ 1v = B(Bdv) =BO= O

Se d = O, allora B 0 = I e KerB 0 = {O} . Quindi il nucleo di B d è contenuto nel nucleo di


Bd+ l per ogni d 2 O, e possiamo considerare la catena di inclusioni
{O}= KerB 0 <:::; KerB ç KerB 2 ç · · · ç KerB n ç KerBn+l
344 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Le dimensioni di questi sottospazi formano una successione non decrescente di interi

O :S dimKerB :S dimKerB 2 :S · · · :S dimKerBn :S dimKerBn+ l


Ora dimKerBn+i :S dim V= n quindi questa successione non può essere strettamente cre-
scente, deve esistere cioè un intero d compreso tra O e n per cui dim KerBd = dim Ker Bd+ 1.
Sia e il più piccolo intero per cui ciò succede, in modo che

(6.9) dimKerBd < dimKerBd+ l se O :S d <e, dimKerB• = dimKerB•+ 1


Osserviamo che, se H1 ç H2 sono due sottospazi di V , allora H 1 = H2 è equivalente a
dimH 1 = dimH2. Quindi la (6.9) è equiva lente a

(6.10)
Per terminare la dimostrazione della (6 .8) dobbiamo ancora mostrare che Ker B d = Ker B d+ l
per ogni d :2: e + 1. Supponiamo quindi che d :2: e+ 1. Dato v E Ker B d+1, sia w = B d-ev.
A llora
O = B d+ lv = B e+ l B d-ev = B e+ l w
Questo significa che w appartiene al nucleo di B •+ 1 , che però coincide con il nucleo di Be .
Quindi:
O = B ew = B eB d-ev = Bdv
Questo mostra che v E KerBd per ogni v E Ker B d+ i , cioè che Ker B d+ l ç Ker B d. Abbiamo
già mostrato che l'inclusione opposta vale per ogni d, quindi Ker B d = Ker B d+l per ogni
d :2: e+ 1. La dimostrazione della (6 .8) è così completa.
Poniamo ora B = T - >..I: siccome ).. è un autovalore di T , il nucleo di T - >..I non
è ridotto al vettore nullo, per cui e d ev'essere almeno 1. Otteniamo così la (6 .8). Il sotto-
spazio radicale R .x consiste di quei vettori v per cui esiste d :2: 1 tale che v E K er(T -
>..I) d. Abbiamo appena mostrato ch e Ker(T - >..I)d ç Ker(T - >..I)e p er ogni d, quindi
R .x = K er(T - >..I)". •

OSSERVAZIONE L'indice e>. è quindi il massimo degli indici degli autovettori gene-
ralizzati relativi a >..
OSSERVAZIONE L'indice e>. di uri autovalore è 1, il minimo possibile, se e solo se
ogni autovettore generalizzato relativo a >. è un vero autovettore. Infatti l'indice è 1 se
e solo se il sottospazio radicale R>. coincide con l'autospazio V>. = Ker(T - >.I). Più
avanti mostreremo che la dimensione del sottospazio radicale è uguale alla molteplicità
algebrica di>. . Siccome la dimensione dell'autospazio V>. è la molteplicità geometrica,
ne segue che un autovalore ha indice 1 se e solo se è un autovalore regolare . Quindi
T è diagonalizzabile se e solo se ogni suo autovalore ha indice l.
Il prossimo lemma generalizza il fatto che autovettori relativi ad autovalori distinti
sono linearmente indipendent i.

LEMMA 6. 7 (Indipendenza degli autovettori generalizzati)


Supponiamo che >.1 , . . . , À 8 siano autovalori distinti di T e che vk E R>. k per
ogni k = 1, . . . , s. Se
V1 + · · · +vs =O
allora vk =O per ogni k .
© 978-88-08-06401-1 6 Il problema della forma canonica 345

DIMOSTRAZIONE. Supponiamo per assurdo v1 =/= O. Allora v1 è un autovettore generaliz-


zato . Sia d l'indice di v1, cioè l'intero d tale che (T - À11)d-lv =O e (T- À11)d-lv =/=O.
Allora w = (T- À1I)d-lv è un autovettore di T relativo a À1: w =/=O e Tw = À1w.
Per ogni k 2: 2 sia ek l'indice dell'autovalore Àk , di modo che R>.k = Ker(T - Àl)ek .
Consideriamo l'operatore

L'operatore B si decompone in fattori della forma (T- Àj I) , e questi commutano tra di loro:

Ne segue che possiamo permutare i fattori di B senza cambiare il loro prodotto B. In


particolare possiamo calcolare Bv2 scrivendo (T - À21)e2 come ultimo fattore di B:

Bv2 = (T- Àil)d- 1 (T- À3It 3 · · · (T- Àsl)e•(T- À2It 2 v2 =O

Nell'ultimo passaggio abbiamo usato il fatto che v 2 E R.>. 2 = Ker(T - À21)e2 . Nello stesso
modo si mostra che Bvk =O per ogni k 2: 2. Calcoliamo ora Bv 1:

Per costruzione w è un autovettore di T relativo all'autovalore À1; quindi (T - Àkl)w =


(À1 - À k)w e

Bv1 = (T - À21)e 2 · · · (T - Àsit• w = (À1 - À2)e 2 · · · (À1 - Às) e• w

Per ipotesi, gli autovalori Àk sono distinti, per cui (À 1 - À2)e 2 · · · (À 1 - À s)e• =/= O. Siccome
w è non nullo, dall'uguaglianza precedente deduciamo che Bv 1 =/=O .
Per concludere moltiplichiamo l'uguaglianza v 1 +· · ·+ v s =O per B . Otteniamo Bv 1 = O
perché Bvk = O per k 2: 2. Questo contraddice il fatto che Bv 1 =/= O che abbiamo dimostrato
prima a partire dall'ipotesi che v1 fosse non nullo. Quindi v 1 dev'essere nullo. Possiamo
infine scambiare Ài con Àk e dedurre che Vk =O per ogni k = 2, ... , s .

TEOREMA 6.8 (Esistenza base di Jordan)


Sia V un spazio vettoriale complesso cli dimensione finita, e sia T : V -+ V
un operatore lineare. Esiste una base di V che è una base di Jordan per T . In
particolare, esiste una base di V formata da autovettori generalizzati di T.

DIMOSTRAZIONE. La dimostrazione è per induzione su n = dim(V) . Il caso iniziale n = 1


è immediato. Supponiamo quindi n > 1. Siccome V è uno spazio complesso, l'operatore
T ha almeno un autovalore complesso À e un relativo autovettore w E Ker(T - ÀI). Per
semplificare le notazioni, possiamo supporre À = O: per questo basta osservare che una base
è di Jordan per T se e solo se lo è per T - ÀI e quindi sostituire T con T - ÀI. Allora il
nucleo Ker(T) ha dimensione almeno uno , e per il teorema di nullità più rango l'immagine
Im(T) ha dimensione strettamente minore di n . Allo spazio Im(T) possiamo quindi applicare
la nostra ipotesi di induzione: ogni operatore di Im(T) in se stesso ha una base di Jordan.
Come operatore usiamo ancora T: quando applichiamo T a un vettore Tv dell'immagine
otteniamo T(Tv) che è ancora un vettore dell'immagine, quindi Tè un operatore di Im(T)
in se stesso. Per l'ipotesi di induzione esiste una base di Jordan di Im(T): supponiamo che
questa base sia
{we,1 , ... 'we,de : 1, .. . ,m} e=
346 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Questa base consiste di r vettori, dove r è la dimensione di Im(T) cioè il rango di T. Possiamo
supporre, riordinando se necessario le catene che compongono la base, che le prime p catene
siano formate da autovettori generalizzati relativi all'autovalore nullo, e le altre m- p catene
siano invece relative ad autovalori non nulli. Le prime p catene sono quindi della forma

we,1, ... , we ,de : w e, k = Tde- kwl, de


Scegliamo altri p vettori u e in questo modo: per ogni 1 ::;: f. ::;: p, l'ultimo vettore della
catena w e,de è per costruzione un vettore dell'immagine Im(T). Quindi esiste u e tale che
Tue = w e, de. Si osservi che aggiungendo il vettore u e alla catena f. otteniamo una nuova
catena

(6.11) w e,1, ... , w e,de, u e

di autovettori generalizzati, di lunghezza maggiore di uno rispetto a quella di partenza; infatti


per costruzione:
w e, k = Tde- kwe, de = Tde+ l-kue
Per arrivare a ottenere una base di V dobbiamo aggiungere ancora un insieme di vettori:
per ogni 1 ::;: f. ::;: p , il primo vettore we,1 della catena f. è un autovettore relativo a À = O,
cioè è un vettore del nucleo. Questi vettori formano un insieme

che è linearmente indipendente in quanto parte di una base. Per il teorema del completamento
della base esistono dei vettori z1 , ... , Zq che aggiunti ai vettori { we,1 : 1 ::;: f. ::;: p} formano
una base di Ker(T) . Per il teorema di nullità più rango q = n - r - p: infatti abbiamo
costruito una base del nucleo formata da p + q vettori, quindi

p+q = dim Ker(T) = n - r


Riuniamo ora in . un unico insieme B i vettori we ,i che formano la base dell'immagine, i
vettori u e che completano le catene relative all'autovalore nullo e i vettori Z j . Come abbiamo
osservato i vettori w e,i sono r, i vettori u e sono p , e i vettori Zj sono n - r - p , quindi B
contiene esattamente n vettori, il numero giusto per una base di V . Inoltre l'insieme B è
formato da catene di autovettori generalizzati: le p catene (6.11) generate dai vettori ue, le
m - p catene relative agli autovalori diversi da zero, e le catene Zj che consistono di un unico
autovettore: i vettori Z j appartengono al nucleo, e quindi sono autovettori relativi a À = O,
e formano ciascuno una catena di lunghezza 1. Quindi, se B è una base di V, è anche una
base di Jordan per T, e il teorema è dimostrato.
Per mostrare che B è una base è sufficiente far vedere che è un insieme linearmente indi-
pendente perché B consiste di n = dim V vettori. Supponiamo dunque che una combinazione
lineare dei vettori di B sia il vettore nullo:
n- r-p p
de ) rn de
(6.12) L
j=l
ajzj+ L ( L be ,iw e,i + beu e
f=l
+ L L ce ,; w e,; =O
i =l f=p + l i= l

Il vettore

V1 = nf J= l
p ajZj + t (t
f= l t=l
be,iWt,i + beu e)
è una combinazione lineare di autovettori generalizzati relativo all'autovalore nullo, e appar-
m
tiene perciò al sottospazio radicale Ro. Il vettore w = I: ce,;W e,i è invece una combina-
f=p+l
zione lineare di autovettori generalizzati relativi agli altri autovalori di T; raggruppando gli
© 978-88-08-06401-1 6 Il problema della forma canonica 347

autovettori generalizzati relativi a uno stesso autovalore possiamo scrivere w = v2 + · · ·+ v s


con Vk E R>.k e Àk =/=O. La (6.12) in queste notazioni diviene

(6.13) V1 + V2 +···+Vs= 0

Dal lemma 6.7 segue v1 = v2 = · · · =Vs =O. In particolare


m de
L LCt ,iWt ,i = V2 + · · · +vs =O
l=p+l i=l

Per costruzione i vettori Wt,i sono linearmente indipendenti, e quindi i coefficienti Ct ,i sono
tutti nulli. Adesso analizziamo l'altro termine:

(6.14)

Moltiplichiamo questa equazione a sinistra per T. Siccome i vettori Zj e vettori Wt, 1


appartengono al nucleo di T , otteniamo

(6.15) 8 p (d e
~ bt,iTWt ,i + btTut
)
=0

Ora Tut = Wt ,de e Tw t,i = Wt ,i-1 per i= 2, . .. , dt, quindi:

(6.16) 8p (de
~ bt,iWl,i-1 + btWl,de
)
=0
Usando il fatto che i vettore Wt,i sono linearmente indipendenti deduciamo bt,i =O per ogni
2:: 2, e bt =O . Sostituendo in (6.17) otteniamo
R. e ogni i

n-r-p p
(6.17) L ajZj +L bt,1 Wt ,1 =O
j=l l=l

Per costruzione i vettori Zj e Wt ,1 formano una base del nucleo di T, e sono perciò linear-
mente indipendenti. Possiamo allora concludere che anche i coefficienti aj e bt,1 sono nulli.
Raccogliamo le fila: abbiamo mostrato che tutti i coefficienti a membro di sinistra di (6 .12)
sono nulli . Questo significa che B è un insieme linearmente indipendente, e la dimostrazione
è così completata. •
Dal teorema precedente dedurremo facilmente l'esistenza della forma canonica di Jor-
dan; per l'unicità della forma canonica avremo bisogno di conoscere i ranghi delle
potenze dei blocchi di Jordan.

LEMMA 6.9 Sia J = Jm(O) il blocco di Jordan di ordine m con autovalore


À = O. Il rango di Jd è m - d se O ~ d ~ m ed è O se d ;::::: m. In particolare:

sed=m
(6.18)
sed;::::led#m
348 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

DIMOSTRAZIONE. Sia T l'operatore lineare cm-> cm rappresentato da J. La base canonica


è una catena di autovettori generalizzati di T relativi all'autovalore nullo:

Te1 =O= Oe1, Tek= ek-1 per k = 2, .. . ,m.

L'immagine di T è generata dai vettori immagine dei vettori della base canonica e, quindi,
una base di Im(T) è { e1 , ... , em- 1}. Questo mostra che:

r(J) = r(T) = dimim(T) = m - 1

Calcoliamo ora l'effetto di T 2 sui vettori della base canonica:

Una base di Im(T 2) è quindi { e1 , . .. , em- 2}, e r(T 2) = m- 2. Proseguendo così si vede che,
per d < m , una base dell'immagine di Td è {e 1 , .. . , em- d} e quindi il rango di Td è m - d.
Per d 2: m si ottiene Tdek = O per ogni k , e quindi Td è l'operatore nullo e il suo rango è
zero. Siccome Jd è la matrice che rappresenta Td rispetto alla base canonica, il rango di Jd
coincide con quello di Td ed è perciò il massimo tra m - d e O, come volevasi dimostrare.
Si osservi che quanto abbiamo dimostrato si traduce così in termini di matrici: se d < m,
la matrice Jd ha gli elementi di posto (i, i+ d) uguali a 1, e tutti gli altri elementi di Jd sono
nulli; per d 2: m la matrice Jd è la matrice nulla. Per esempio , per m = 4, abbiamo:

oo o1 o1 oo] o o 1 o] o o o 1] o o o o]
J2 = ooo1 J3 = oooo J4 = oooo
J= 0001, oooo , oooo , oooo
ro o o o ro o o o ro o o o ro o o o
Rimane da mostrare la (6.18). Se 1 :::; d:::; m - 1, allora
r(Jd+l) - 2r(Jd) + r(Jd-l) = (m - d - 1) - 2(m - d) + (m - d + 1) =O

Se invece d 2: m + 1,

Se infine d = m ,
r(Jm+l) - 2r(Jm) + r(Jm- l) =O - O+ 1=1
Quindi la (6.18) è verificata, e la dimostrazione è completa. L'idea alla base della (6.18)
è questa: la differenza prima di una funzione r(d) è 8r(d) = r(d) - r(d - 1); la differenza
seconda è la differenza prima della differenza prima:

82 r(d) = 8(r(d) - r(d - 1)) = r(d) - 2r(d - 1) + r(d - 2)

Considerare la differenza seconda è l'analogo discreto di considerare la derivata seconda di


una funzione. La funzione che compare nella (6.18) è la differenza seconda di r(d) = r(Jd) ,
calcolata in d + 1. Siccome r(d) = m - d è lineare a sinistra di m, ed è costante a destra
di m, la sua differenza seconda si annulla tranne che nel punto di raccordo della funzione
lineare con quella costante .

Data una matrice A quadrata di ordine n con autovalori distinti .X 1 , ... , À 8 , definiamo
ora degli invarianti che consentono di calcolare a partire da A la sua forma canonica.
Poniamo
© 978-88-08-06401-1 6 Il problema della forma canonica 349

per ogni k = 1, ... , s e ogni d = 1, ... , n . I numeri rk ,d estendono le nozioni di


molteplicità geometrica e algebrica dell 'autovalore Àk: in effetti, per il teorema di
nullità più rango, g;,k = n - rk ,l, vedremo in seguito che a;, k = n - rk ,n; quindi
rk,l e rk ,n sono equivalenti alla molteplicità algebrica e alla molteplicità geometrica
dell'autovalore Àk . Siccome Ker(A- Àkl)d ç Ker(A- Àkl)d+ 1 , dal teorema di nullità
più rango si ottiene rk ,d 2: rk ,d+ 1 : questa disuguaglianza generalizza g;, ::::; a;,.

TEOREMA 6.10 (Criterio di similitudine e forma canonica)


Siano A e B matrici quadrate di ordine n.

i) Le matrici A e B sono simili sul campo dei numeri complessi se e solo se


hanno gli stessi autovalori distinti À 1 , .. . , À. 8 e

per ogni k = 1, ... , s e ogni d = 1, . .. , n.


ii) se A ha autovalori distinti >.. 1 , ... , À. 8 e invarianti rk ,d
allora A è simile alla matrice di Jordan:

(6 .19) C=
00 Il
i cui blocchi di Jordan sono del tipo Jm(Àk), e un blocco siffatto compare
esattamente 7'k ,m+l - 2rk ,m + Tk ,m-1 volte in c. La matrice e, che è unica
a meno di un riordinamento dei blocchi diagonali, si dice forma canonica
di Jordan di A.

DIMOSTRAZIONE . Si ricordi che le due matrici sono simili su IC se esiste una matrice inver-
tibile S a elementi complessi tale che s- 1 AS = B. Questo equivale a dire che l'operatore
lineare T = ZA è rappresentato da A rispetto alla base canonica di icn e da B rispetto
alla base formata dalle colonne di S . Da s- 1 AS = B segue s- 1 (A - Àkl)dS = (B - Àkl)d ,
quindi le due matrici (A - Àkl)d e (B - À k l)d sono simili e hanno perciò lo stesso rango
(intrinsecamente, le due matrici rappresentanto entrambe l'operatore (T - >-d)d e il loro
rango coincide con la dimensione dell'immagine di questo operatore) . Questo mostra che gli
invarianti rk ,d di A e B sono uguali se A e B simili , cioè il solo se del primo enunciato.
Mostriamo ora il secondo enunciato. Sia T = ZA : icn -+ cn
l'operatore lineare rap-
presentato dalla matrice A rispetto alla base canonica (questo significa semplicemente che
Tv = Av per ogni v E ICn ). Per il t eorema 6.8 esiste una base B di icn che è di Jordan per T,
e per la proposizione 6.4 la matrice C che rappresenta T rispetto alla base B è una matrice
di Jordan; C è simile ad A perché rappresentano entrambe l'operatore T; esplicitamente, se
S è la matrice che ha i vettori della base B come colonne, allora C = s- 1 AS.
Per quanto abbiamo già dimostrato, gli autovalori e gli invarianti Tk ,d di e sono uguali
a quelli di A. Vediamo ora come questi invarianti determinino i blocchi di Jordan di C.
Per questo osserviamo che il rango di una matrice diagonale a blocchi diag( J 1 , ... , J p) è la
350 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

somma dei ranghi dei suoi blocchi J h, e che per ogni d 2: O

(diag(J i, .. . , Jp))d = diag(Jt , ... , J~)


Da queste due osservazioni segue immediatamente che
p

rk ,d (A) = rk,d(C) = L rk,d(Jh)


h=l

e quindi, per ogni m 2: 1,


p

(6.20) Tk,m+1(A) - 2rk ,m(A) + rk,m-1(A) = L (rk,m+1(Jh) - 2rk ,m (Jh) + Tk ,m- 1(Jh))
h=l

Vogliamo ora determinare i blocchi di Jordan di C. Innanzitutto, se Jm(À) è uno dei blocchi
di C, dev'essere m '.S n perché C è n X n ; inoltre À dev'essere uno degli autovalori di C
perché e è triangolare alta e .\ è uno degli elementi della diagonale principale di C. Siccome
C ha gli stessi autovalori di A, ,\ è uno degli autovalori Àk di A. Per calcolare il numero di
blocchi di Jordan di C che sono uguali a Jm(Àk), determiniamo il contributo di ogni blocco
Jh di C nella (6.20). Fissato h, sia,\ l'autovalore del blocco Jh . Se ,\ =I= Àk, Àk non è un
autovalore di Jh, e quindi l~ matrice

è invertibile e ha perciò rango d, così come tutte le sue potenze. Quindi

e il contributo di Jh nella (6.20) è nullo. Se invece,\ = Àk e Jh ha ordine mh, la matrice


Jh -Àklmh è un blocco di Jordan Jm h(O) di ordine mh e autovalore nullo. Per il lemma 6.9
il contributo di Jh nella (6.20) è O se mh =/= m ed è 1 se mh = m . In conclusione, il contributo
di Jh nella (6.20) è 1 se Jh = Jm(Àk) ed è zero altrimenti. Quindi il numero di blocchi di
Jordan di C che sono uguali a Jm(Àk) è rk ,m+1(A) - 2rk ,m(A) + rk ,m- 1(A) come volevasi
dimostrare. Per quanto riguarda l'unicità, se C' è un'altra matrice di Jordan simile a A, per
quanto abbiamo appena dimostrato C' ha gli stessi blocchi di C.
Rimane da dimostrare che due matrici A e B con gli stessi autovalori e gli stessi invarianti
rk,d sono simili. Per ii) entrambe le matrici sono simili alla stessa matrice di Jordan C.
Siccome la similitudine è una relazione di equivalenza, A e B sono simili. •

OSSERVAZIONE In breve il teorema 6.10 dice che due matrici sono simili se e solo
se hanno la stessa forma canonica di J ordan, a meno dell'ordine dei blocchi J h . Una
matrice e di Jordan è bidiagonale e triangolare alta. Quindi ogni matrice è simile,
sul campo complesso, a una matrice bidiagonale triangolare alta.

OSSERVAZIONE Se gli autovalori di A sono tutti reali , la forma canonica di Jordan


C è reale, e anche la matrice di passaggio S può essere scelta a elementi reali: se gli
autovalori sono reali, nella dimostrazione si può sostituire C con JR.

Per un k fissato, gli invarianti rk,d estendono le nozioni di molteplicità algebrica e


geometrica dell'autovalore Àk:
© 978-88-08-06401-1 6 Il problema della forma canonica 351

COROLLARIO 6.11 Consideriamo una matrice quadrata A di ordine n , un


autovalore À di A, e l'indice e = eÀ dell'autovalore À. La successione rd =
r ((A - .XI)d) è strettamente decrescente tra d =O ed= e ed è poi costante:

(6.21) n = ro > r1 > · · · > re = r d per ogni d ~ e


La molteplicità geometrica di À è n - r 1 , la sua molteplicità algebrica è n - re.
L'indice e è il massimo ordine di un blocco di Jordan Jm(À) nella forma canonica
di Jordan di A.

DIMOSTRAZIONE. Abbiamo definito l'indice e dell'autovalore À nella proposizione 6.6 quan-


do abbiamo mostrato che:

(6.22) Ker(A - Àl) d ~ Ker(A - Àl) d+l se O::; d <e

Ker(A - Àl)d = Ker(A - Àl) d+l se d 2: e

Per il teorema di nullità più rango dimKer(A - Àl) d = n - Td, quindi la (6 .21) segue dalla
(6.22). La molteplicità geometrica è la dimensione dell'autospazio Ker(A - ,\I) e quindi è
uguale a n - Tl .
Sia C la forma canonica di Jordan di una matrice che rappresenta A. La molteplicità
algebrica a>- di À è uguale al numero di volte che À compare sulla diagonale principale di C .
Se qm è il numero di blocchi J m( À) che compaiono in C , il numero di elementi sulla diagonale
principale di C uguali a À è I;:;:,= 1 mqm. Per il teorema 6.10

n n
(6.23) L mqm = L
m=l m=l
m(Tm+l - 2Tm + Tm-1)

Fissiamo un intero d con 2 :S d :S n - 1. Nella somma (6.23) il termine Td compare con


coefficiente d - 1 quando m + 1 = d , con coefficiente -2d quando m = d, e con coefficiente
d + 1 quando m - 1 = d. La somma di questi coefficienti è zero. Il termine Tl compare solo
quando m = 1, con coefficiente - 2, e quando m - 1 = 1, con coefficiente 2. Quindi gli unici
termini che sopravvivono a secondo membro della (6.23) sono Tn+ 1, Tn e To , e calcolando i
loro coefficienti si ottiene

(6.24) a>- = nTn+1 - (n + l)Tn + To


Siccome e :S n , abbiamo Tn+1 = Tn = Te, e To = n perché per definizione (A - ÀI) 0 = I.
Sostituendo nella (6.24) troviamo

(6.25)

Infine mostriamo che e è il massimo ordine di un blocco di Jordan Jm(À) nella forma canonica
C . Se m > e, allora Tm+1 = Tm = Tm -1 =Te, e quindi per il teorema 6.10 la forma canonica
non ha blocchi della forma J m( À). Invece

(6.26) T e+ l - 2Te + T e-1 = Te-1 - Te > O

e quindi, sempre il teorema 6.10, e ha almeno un blocco della forma J e(À).



352 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

COROLLARIO 6.12 (Significato geometrico molteplicità algebrica)


Sia A una matrice quadrata e sia À un autovalore di A. La molteplicità algebrica
di À coincide con la dimensione del sottospazio radicale R À relativo a À . In
particolare, l'indice eÀ dell'autovalore À è minore o uguale alla molteplicità
algebrica.

DIMOSTRAZIO NE. Sia e l'indice dell 'autovalore À. Per la proposizione 6.6 il sottospazio
radicale R >. è uguale a Ker(A - Àl) e e, quindi, ha dimensione n - r ((A - Àr) e) = n - re.
Per il corollario 6 .11 n - re è la molteplicità algebrica dell'autovalore ed è maggiore o uguale
a e perché la successione n - r d è strettamente crescente tra d = O e d = e. •

OSSERVAZIONE Sia e una matrice di Jordan. La molteplicità geometrica di un


autovalore À è il numero di blocchi di Jordan relativi a À che compaiono in C. Nelle
notazioni della dimostrazione di 6.11 , questo numero è Lm qm, mentre la molteplicità
algebrica è L mmqm: un blocco di ordine m relativo a À contribuisce un autovettore
vero e m autovettori generalizzati a una base di Jordan.

Dal corollario 6 .11 segue che, se n = 2 on= 3, due matrici che abbiano gli stessi autovalori
con le stesse molteplicità algebriche e geometriche hanno tutti gli invarianti rk ,d uguali, e
quindi sono simili sul campo complesso.

Sia A una matrice 3 x 3 con due autovalori distinti À 1 e À 2 , e supponiamo che À1 abbia
molteplicità geometrica 1 e molteplicità algebrica 2. Allora la forma canonica di A è

Infatti dal corollario 6.11 segue che

r1 ,o = 3 > r1 ,1 = 3 - 9>. 1 = 2 > r1 ,2 = 3- a>, 1 = 1 = r1,d per ogni d 2: 2

Quindi C ha un unico blocco, di ordine m = 2, con autovalore À1 . L'altro blocco dev'essere


di ordine 1 relativo all 'altro autovalore.

•i1§11i!Jij
Se n 2: 4 non basta conoscere gli autovalori e le loro molteplicità geometriche e algebriche
per distinguere la classe di similitudine di una matrice. Per esempio consideriamo le due
matrici

A=
01001
0000 oo o
1 o 01
1 o
ooo1 e B= 0000
ro o o o ro o o o
© 978-88-08-06401-1 6 Il problema della forma canonica 353

Entrambe le matrici sono matrici di Jordan, e hanno un unico autovalore À 1 = O con mol-
teplicità algebrica 4. La molteplicità geometrica di .>- 1 =O è il numero di blocchi di Jordan,
che è 2 in entrambi i casi . Infatti, la matrice A ha due blocchi di Jordan di ordine due [ g6J,
mentre la matrice B ha un blocco di ordine tre [ g6~ J e un blocco di ordine uno [O]. Tuttavia
ooo
A e B non sono simili perché r1 /2(A) = r(A 2 ) =/= r(B 2 ) = r 1,2 (B); oppure perché i blocchi
di Jordan delle due matrici sono diversi.

i@§ iii ii
Una matrice quadrata A è sempre simile alla sua trasposta. Infatti A e AT hanno lo stesso
polinomio caratteristico, e quindi gli stessi autovalori distinti . Inoltre:

perché

Criteri di diagonalizzabilità
Possiamo ora riassumere i vari criteri che abbiamo a disposizione per stabilire se una
matrice è diagonalizzabile:

TEOREMA 6.13 (Criteri di diagonalizzabilità)


Per una matrice quadrata A le seguenti condizioni sono equivalenti:

1) A è diagonalizzabile su C;

2) la forma canonica di Jordan di A è una matrice diagonale;

3) gli autovalori di A hanno tutti indice l :

Ker ((A - ÀI)) = Ker ((A - À1) 2 ) per ogni autovalore À;

4) ogni autovalore di A è regolare;

5) ogni autovettore generalizzato di A è un vero autovettore.

DIMOSTRAZIONE. Se A è diagonalizzabile, è simile a una matrice diagonale D . Per l'unicità


della forma canonica, la matrice di Jordan D è la forma canonica di A . Quindi 1) implica
2). Per il corollario 6.11 la forma canonica è diagonale, cioè non ha blocchi di ordine m ~ 2,
se e solo se l'indice di ogni autovalore di A è 1. Quindi 2) è equivalente a 3). Sempre
per il corollario 6.11 , l'indice di un autovalore è 1 se e solo se le molteplicità algebrica e
geometrica dell'autovalore coincidono. Quindi 3) e 4) sono equivalenti. Se ogni autovalore
ha indice 1, il sottospazio radicale R.\ coincide con l'autospazio Ker(A - .>-I) per ogni À, e
questo significa che ogni autovettore generalizzato è un autovettore vero. Quindi 4) implica
5). Infine, supponiamo che ogni autovettore generalizzato sia un autovettore vero. Per il
teorema 6.8 possiamo trovare una base di cn formata da autovettori generalizzati, e quindi
354 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

di autovettori veri, di A ; la matrice è perciò diagonalizzabile. Questo mostra che 5) implica


1) e conclude la dimostrazione. •

Somme dirette
La nozione di somma diretta di sottospazi di V chiarifica parte di quanto abbiamo
dimostrato in questo paragrafo.

DEFINIZIONE 6.14 (Somma diretta di sottospazi)


Siano V 1, .. . , V 8 sottospazi di V. Si dice che V è la somma diretta dei sotto-
spazi V 1, .. . , Vs se ogni vettore v E V si scrive in uno e un solo modo nella
forma
V= V1 + ··· +vs
con vk E V k per ogni k = 1, ... , s. In tal caso si scrive:

Nel caso s = 2, V= V 1 EB V2 equivale alle due condizioni che V= V1 + V2 e che


V 1 n V 2 = {O} (cf. il capitolo sugli spazi vettoriali) . In generale si dimostra senza
difficoltà che:

PROPOSIZIONE 6.15 Uno spazio vettoriale V è somma diretta dei suoi sot-
tospazi V 1, .. . , Vs se e solo se le due seguenti condizioni sono soddisfatte:

a) per ogni vettore v E V esistono vettori vk E V k per k = 1, ... , s tali che


v=v 1 +···+vs;

b) se Vk E Vk per k = l, ... ,s e V1 + · ··+Vs= 0, allora Vk = 0 per ogni


k = 1, ... ,s.

OSSERVAZIONE La condizione a) nella proposizione 6.15 significa che V è la somma


dei suoi sottospazi Vk; la condizione b) è l'analogo per un insieme di sottospazi della
condizione di indipendenza lineare per un insieme di vettori.

OSSERVAZIONE Uno spazio finito dimensionale V è somma diretta dei suoi sottospazi
V 1, ... , V 8 se e solo se accostando basi di V 1, V 2, ... , Vs si ottiene una base di V:
fissate basi {b~ , . . . , b~k} di V k per ogni k, l'insieme

{b~ ) • • • ' b;, 1 ' bi ) · · · ) b~ 2 ) • • • ) bf ) • • • , b~s }

è una base di V . La dimostrazione di questo fatto è immediata e si trova nel capitolo


sugli spazi vettoriali nel caso s = 2; viene perciò lasciata al lettore. In particolare
s
dim (V i EB V 2 EB · · · EB Vs) = L dim V k
k=l
© 978-88-08-06401-1 6 Il problema della forma canonica 355

TEOREMA 6.16 (Decomposizione in sottospazi radicali)


Sia A una matrice quadrata di ordine n, e siano >. 1 , ... , À 8 gli autovalori distinti
di A. Allora rcn è somma diretta dei sottospazi radicali di A:

DIMOSTRAZIONE. Per il teorema 6.8 esiste una base di cn formata da autovettori genera-
lizzati di A. Perciò ogni vettore di cn è somma di _autovettori generalizzati. Raggruppando
gli autovettori generalizzati relativi a uno stesso autovalore si vede che cn è la somma dei
sottospazi radicali. La somma è diretta per il lemma 6.7. •

COROLLARIO 6.17 Una matrice quadrata A di ordine n è diagonalizzabile


su CC se e solo se rcn è somma diretta degli autospazi di A.

DIMOSTRAZIONE. Una matrice è diagonalizzabile se e solo se i suoi sottospazi radicali


coincidono con gli autospazi. •

TEOREMA 6.18 (Teorema di Hamilton-Cayley)


Ogni matrice quadrata A è radice del proprio polinomio caratteristico: se
P(>.) = det(A - >.I) , allora P(A) è la matrice nulla.

DIMOSTRAZIONE . Per il teorema 6 .16 ogni vettore v di Cn si scrive nella forma

(6.27) V = V1 + V2 + · · · + Vs
con Vk E R>.k. Sappiamo che R>.k = Ker(A - Àkl) ek dove ek = e>.k è l'indice dell'autovalore
Àk · Per il corollario 6.11 la molteplicità algebrica ak dell'autovalore Àk è maggiore o uguale
all'indice ek. Quindi (A - Àkl)akvk =O. Ma allora moltiplicando la (6.27) a sinistra per la
matrice

troviamo P(A)v =o. Siccome questo vale per ogni V E cn, P(A) è la matrice nulla. •

OSSERVAZIONE La dimostrazione precedente mostra anche che Q(A) =O se Q(>.) =


TI ~=l (>. - Questo risultato è più fine del teorema di Hamilton-Cayley perché
Àk)ek.
Q(>.) divide il polinomio caratteristico (questo perché l'indice ek è minore o ugua-
le alla molteplicità algebrica ak) · Il polinomio Q(>.) si dice polinomio minimo di A:
si può dimostrare che un polinomio P 1 ( À) soddisfa P1 (A) = O se e solo se Q(À)
divide P 1 (>.). Si osservi che una matrice è diagonalizzabile se e solo se il suo poli-
nomio minimo è un prodotto di fattori lineari distinti (cioè tutti gli indici ek sono
uguali a 1).
356 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

Matrici nilpotenti e decomposizione di Jordan

DEFINIZIONE 6.19 (Matrice nilpotente)


Una matrice quadrata N si dice nilpotente se esiste un intero d :2: 1 tale che
Nd è la matrice nulla.

Le matrici
Ni = [~ ~] e N2= [~ ~]
sono nilpotenti perché N i = N~ =O; la loro somma non è una matrice nilpotente.

PROPOSIZIONE 6.20 Una matrice quadrata N di ordine n è nilpotente se


e solo se è simile a una matrice triangolare alta che abbia tutti gli elementi
sulla diagonale principale uguali a zero. Se N è nilpotente, il suo polinomio
r
caratteristico è (-1 >. n e N n = O.

DIMOSTRAZIONE. Supponiamo che N sia nilpotente, e sia d 2 1 un intero tale che N d = O .


Se À è un autovalore di N , allora À d è un autovalore di N d = O , e quindi Àd =O. Perciò À =O:
una matrice nilpotente ha solo l'autovalore nullo. In particolare il polinomio caratteristico
di N è (- 1r Àn e per il teorema di Hamilton-Cayley N n =O. Siccome gli autovalori di N
sono tutti nulli , la forma canonica di Jordan Cdi N è una matrice triangolare alta con tutti
gli elementi sulla diagonale principale uguali a zero.
Viceversa, una matrice triangolare alta U con tutti gli elementi sulla diagonale principale
r
uguali a zero ha polinomio caratteristico ( - 1 >. n, e per il teorema di Hamilton-Cayley è
nilpotente: un= O . Se N = s - 1 u s è simile a U , allora N n = s - 1 uns =O, e quindi N è
nilpotente. •

In molte applicazioni, è utile osservare che la forma canonica di Jordan permette


di scrivere una matrice come somma di una matrice diagonalizzabile e di una nil-
potente che commutano tra loro (si può anche mostrare che tale decomposizione è
unica):

TEOREMA 6.21 (Decomposizione di Jordan)


Sia A una matrice quadrata. Allora A si può scrivere nella forma

A=B+N

dove B è diagonalizzabile, N è nilpotente, e BN = NB.

DIMOSTRAZIONE. La matrice A è simile alla sua forma canonica di Jordan C: esiste una
matrice invertibile complessa S tale che s- 1 cs =A. Scriviamo

C=D+U
© 978-88-08-06401-1 6 Il problema della forma canonica 357

dove D è la matrice diagonale con gli autovalori di C sulla diagonale principale: allora gli unici
elementi non nulli di U sono sulla diagonale immediatamente sopra alla diagonale principale,
e U è nilpotente per la proposizione 6.20. Inoltre De U commutano: basta verificare questo
nel caso C = J sia un blocco di Jordan; e in questo caso D = ÀI per cui DU = ..\U =UD .
Poniamo B = s- 1 DS e N = s- 1 us. Per costruzione B è diagonalizzabile, N è nilpotente, e


Diagonalizzazione simultanea di matrici che commutano
Vogliamo ora dimostrare un fatto che è importante in meccanica quantistica e in altre
applicazioni: se A e B sono due matrici diagonalizzabili che commutano, allora A
e B sono simultaneamente diagonalizzabili, cioè esiste una matrice invertibile S tale
che entrambe le matrici s- 1 AS e s- 1 BS siano diagonali. Per questo introduciamo
la nozione di sottospazio T-invariante, che generalizza ai sottospazi la nozione di
autovettore, e che è utile in altri contesti.

DEFINIZIONE 6.22 (Sottospazio invariante)


Sia T : V _, V un operatore lineare. Si dice che H e V è un sottospazio
T-invariante se H è un sottospazio e

Tv E H per ogni v E H

•t%iHWI
Per ogni operatore T, l'intero spazio V e il sottospazio nullo {O} sono T-invarianti. Sottospazi
T-invarianti più interessanti sono Ker(T) e Im(T).

if1§u!!lij
Supponiamo che v sia un autovettore di T relativo all'autovalore À. Sia

L = .C( V) = { u E V : esiste t E e tale che u = tv}

il sottospazio generato da v. Allora L è un sottospazio T-invariante di dimensione 1. Infatti


v è non nullo perché è un autovettore, e quindi genera un sottospazio di dimensione 1; inoltre
se u = tv EL , allora anche Tu EL perché

Tu= Ttv = tTv = (t..\)v E L

Viceversa, supponiamo che L sia un sottospazio T-invariante di dimensione 1 e che v sia


un generatore di L. Allora Tv E L perché L è T-invariante e, quindi, esiste À E C tale che
Tv = Àv perché L = .C(v). Questo mostra che v è un autovettore.
In conclusione, i sottospazi T -invarianti di dimensione 1 sono i sottospazi di V che sono
generati da un autovettore di T.
358 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

141§..!!JI
Sia À un autovalore di T. L'autospazio

V .x = Ker(T - ÀI) = {v E V : Tv = Àv}

è un sottospazio T-invariante. Infatti, per ogni v E V.x, Tv = Àv appartiene a V.x perché:

T(Tv) = T(>-v) = >-(Tv)


Anche il sottospazio radicale R.x è T-invariante.
Se H è un sottospazio T-invariante di V, possiamo considerare T come un ope-
ratore di H in se stesso, perché Tv E H per ogni v di H. Questo operatore si dice la
restrizione di T a H: agisce come T sui vettori di H, ha però H come dominio e co-
dominio al posto di V. Abbiamo già utilizzato questa nozione nella dimostrazione. del
teorema 6.8, quando abbiamo considerato la restrizione di Tal sottospazio invariante
Im(T).

LEMMA 6.23 Sia T : V -> V un operatore diagonalizzabile, e sia H un


sottospazio T-invariante. Allora la restrizione di T a H è diagonalizzabile.

DIMOSTRAZIONE . L'ipotesi è che esista un base di V formata da autovettori di T. La tesi


è che esista un base di H formata da autovettori di T. Questo non è banale perché la base
di V potrebbe non contenere alcun vettore di H. Sappiamo però che un operatore è diago-
nalizzabile se e solo se ogni autovettore generalizzato è un autovettore vero. Se questo è vero
per T, è vero banalmente anche per la sua restrizione a H .

PROPOSIZIONE 6.24 Siano A e B due matrici quadrate dello stesso ordine.


Se A e B sono diagonalizzabili e se AB = BA, allora A e B sono simulta-
neamente diagonalizzabili: esiste una matrice invertibile S tale che s- 1 AS e
s- 1 BS siano entrambe diagonali.

DIMOSTRAZIONE. Sia n l'ordine di A. P er ipotesi ICn è somma diretta degli autospazi


V.x(A) di A. Mostriamo che questi autospazi sono E-invarianti. Sia v un vettore di V.x(A):
questo significa che Av = Àv. Calcoliamo A(Ev):

A(Ev) = AEv = EAv = E(Àv) = ÀEv

Quindi anche Ev appartiene a V.x(A) , cioè V.x(A) è E-invariante. Per il lemma 6.23 la
restrizione di E a V .x (A) è diagonalizzabile: questo significa che esiste una base B.x di V .x (A)
formata da autovettori di E; i vettori della base B.x sono anche autovettori di A perché
appartengono all'autospazio V.x(A) . Facendo l'unione delle basi B.x al variare di À tra gli
autovalori di A troviamo una base B di icn , perché icn è la somma diretta degli autospazi di
A. Sia S la matrice che ha come colonne i vettori della base B. Per costruzione le colonne di
S sono autovettori sia di A sia di E, quindi S diagonalizza tanto A quanto E. •
© 978-88-08-06401-1 6 Il problema della forma canonica 359

•M§HH
(D Determinare la forma canonica di Jordan delle matrici

o o 1]
A= OOO
[o o o
e B = o o o]
OOO
[1 o o
Le due matrici sono simili?

e Quante possibilità ci sono per la forma canonica di Jordan di una matrice 3


tente? Descriverle tutte.
X 3 ni!po-

Suggerimento: in quanti modi si può scrivere 3 come somma di interi positivi? Le possi-
bilità sono 3 = 3, 3 = 2 + 1, 3 = 1+1+1.

O Mostrare che due matrici quadrate di ordine n = 2 (oppure n = 3) che abbiano gli stessi
autovalori con le stesse molteplicità algebriche e geometriche hanno necessariamente tutti gli
invarianti rk,d uguali, e quindi sono simili.
Suggerimento: fissato k, la molteplicità algebrica e geometrica di Àk determinano due
degli rk ,d, e non c'è spazio perché ci siano tre valori distinti di rk ,d ( visto che rk,1 < n); la
difficoltà è nel mostrare, nel caso n = 3, che, se rk,1 = rk ,2, allora rk ,2 = rk ,3 ·

CD Mostrare che le due matrici

o]
A=[~~!]
oo 5
e B =
1 4
O5 O
[2 3 1

sono simili, e determinare la loro forma canonica di Jordan.

al) Determinare la forma canonica di Jordan di tutte le matrici non diagonalizzabili di


questo capitolo .

CE) Mostrare che una matrice nilpotente non è invertibile. Mostrare che la traccia di una
matrice nilpotente è uguale a zero.

~ Mostrare che, se N è nilpotente e BN = NB, allora BN è nilpotente.

~ Mostrare che, se Nl e N 2 sono nilpotenti e N 1 N2 = N2N 1 , allora Nl +N2 è nilpotente.


Suggerimento: binomio di Newton.

f) Mostrare che, se N è nilpotente e diagonalizzabile, allora N è la matrice nulla.

e Mostrare che la restrizione di T - >-.I al sottospazio radicale R>. (T) è nilpotente.

e La decomposizione di Jordan è unica: si supponga che A= B + N, con B diagonaliz-


zabile, N nilpotente, e e NB = BN; mostrare che i sottospazi radicali di A coincidono con
gli autospazi di B. Perché questo determina B (e quindi anche N)?
Suggerimento : (B - >-.I)d = (A - )..I - N)d.

e Mostrare che, se A è invertibile e AB= BA, allora A- 1 B = BA - 1


.
360 Capitolo 7. Autovalori e autovettori © 978-88-08-06401-1

~ Sia N una matrice nilpotente. Mostrare che I + N è invertibile e dare una formula per
l'inversa. Mostrare poi che, se B è invertibile e N è nilpotente e BN = NB, allora B + N è
invertibile.
Suggerimento: per l'invertibilità basta far vedere che O non è un autovalore di I+ N ; la
formula per l'inversa si trova considerando l'identità (1 + x)(l - x + · · · ± xd- l) = 1 - xd.

8 Sia A una matrice tale che A 2 = I. Mostrare che A è diagonalizzabile. Suggerimento:


utilizzare la decomposizione di Jordan A= B + N , mostrare che B 2 =I e che N dev'essere
nulla usando l'esercizio precedente. Per i coraggiosi: dimostrare che, se Ad = I, allora A è
diagonalizzabile.

~ Mostrare che i seguenti sottospazi di V sono T-invarianti: il nucleo e l'immagine di T ,


gli autospazi e i sottospazi radicali di T.

~ Una difficoltà nella costruzione della forma canonica di Jordan è dovuta al seguente
fatto: se V1 CV è un sottospazio T-invariante, non è detto che V1 abbia un complemento
T-invariante, cioè che esista un sottospazio T-invariante V 2 tale che V = V 1EB V 2. Dimostare
che Im(T) ha un complemento T-invariante V2 se e solo se Ker(T) n Im(T) ={O} , e in tal
caso V2 = Ker(T).

@ Dati due polinomi qualsiasi P(x) e Q(x), mostrare che P(T)Q(T) Q(T)P(T). In
particolare, P(T) commuta con T.

$ Supponiamo T sia invertibile. Allora, dati due polinomi P(x , y) e Q(x, y) in due variabili,
gli operatori P(T , T - 1) e Q(T, T - 1) commutano.

~ Supponiamo B : V -->V sia un operatore che commuta con T. Mostrare che Ker(B)
e Im(B) sono T-invarianti. De.d urre che gli autospazi e i sottospazi radicali di T sono T-
invarianti.

~ Mostrare che il sottospazio generato dai vettori Tmv per m 2: 1 è un sottospazio T-


invariante, e che è contenuto in ogni sottospazio T-invariante che contenga v.

• Sia T : V --> V un operatore lineare. Mostrare che le seguenti proprietà sono equivalenti
per un intero e 2: O:
1. Ker(Te) = Ker(Tm) per ogni m 2: e;
2. Im(Te) = Im(Tm) per ogni m 2: e;
3. Ker(Te) n Im(Te) ={O};
4. V= Ker(Te) EB Im(Te).

~ Dimostrare che l'indice di un autovalore À è 1 se e solo se Ker(T->.I)nim(T->.I) = {O}.


Enunciare un nuovo criterio di diagonalizzabilità.

~ Supponiamo:
V=V1 EB V2 EB ··· EB V s
e che V ; CV è un sottospazio T-invariante, per ogni i= 1, 2, . .. , s. Fissate basi B1, B2, . . . , Bs
di V 1, V 2, ... , Vs rispettivamente, sia B la base di V ottenuta accostando i vettori di
B1, B2, ... , Bs. Mostrare che:
© 978-88-08-06401-1 6 Il problema della forma canonica 361

l. La matrice che rappresenta T rispetto a B è diagonale a blocchi, e i blocchi sulla diagonale


sono le matrici che rappresentano le restrizioni T; di T ai sottospazi V ; rispetto a B;;
2. il polinomio caratteristico di Tè il prodotto dei polinomi caratteristici delle restrizioni T ;.
Dare una nuova dimostrazione del fatto che la molteplicità algebrica di un autovalore è uguale
alla dimensione del sottospazio radicale.

(i) Sia A una matrice quadrata e sia P(>.) un polinomio. Mostrare che P(A) =O se e solo
se il polinomio minimo di A divide P(>.).
Suggerimento: scomporre P(>.) in fattori della forma(>. - À ;)d' e analizzare la dimostra-
zione del teorema di Hamilton-Cayley.

•. Mostrare che, se A e B sono similtuaneamente diagonalizzabili, allora AB = BA.


8 Spazi euclidei

• 1 INTRODUZIONE
In questo capitolo introduciamo in ]Rn il prodotto scalare di due vettori sul modello
di quanto visto nel primo capitolo per lo spazio cartesiano. Questo consente di de-
finire i concetti di norma (o modulo o lunghezza) di un vettore, di angolo formato
da due vettori e di distanza tra due vettori. La distanza di due vettori v e w è per
definizione la norma del vettore differenza w - v. Per capire questa definizione bi-
--t --t
sogna immaginare che v = OP e w = OQ siano i vettori posizione di due punti P
--t
e Q; il vettore differenza è allora w - v = PQ e, quindi, la distanza tra v e w è
la lunghezza del segmento PQ. L'introduzione della distanza permette di parlare di
approssimazioni e di limiti, insomma di fare dell'analisi matematica e questo apre la
porta a infinite applicazioni. È utile estendere tutto questo al contesto astratto, in
particolare per estendere le nozioni di distanza e approssimazione agli spazi di funzio-
ni. Il pioniere di questa generalizzazione è stato Fourier: nel suo studio delle funzioni
periodiche, Fourier ebbe l'idea di approssimare una funzione periodica qualsiasi con
un polinomio trigonometrico, che è una combinazioni lineare di semplici funzioni sinu-
soidali (armoniche fondamentali); si rese conto che il problema di trovare il polinomio
trigonometrico che meglio approssima una data funzione è perfettamente analogo al
problema di trovare la proiezione ortogonale di un vettore su un sottospazio di ]Rn.
Oggigiorno questo procedimento va sotto il nome di metodo dei minimi quadrati. Nel
capitolo descriviamo un'applicazione importante del metodo dei minimi quadrati ai
sistemi lineari sovradeterminati. A causa di errori sperimentali occorre spesso con-
siderare sistemi Ax = b che non ammettono soluzione: non esiste alcun x per cui
Ax = b. Ma si possono sempre determinare gli x che minimizzano l'errore Ax - b ,
cioè la distanza tra Ax e b; tali x si dicono soluzioni ai minimi quadrati del sistema
lineare. Nel capitolo descriviamo un esempio che viene dalla statistica: la determi-
nazione della retta di regressione lineare consiste nel risolvere ai minimi quadrati un
sistema lineare sovradeterminato.
Un'osservazione importante: quanto visto nei capitoli precedenti (escluso il primo)
rimane valido se al posto di JR si prende come campo degli scalari l'insieme Q dei
numeri razionali. Questo sostanzialmente perché la risoluzione di un sistema lineare
richiede soltanto le quattro operazioni: partendo da dati che sono numeri interi o
364 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

razionali, si ottengono soluzioni razionali. Ma nel momento in cui si vogliono misurare


le lunghezze e gli angoli, il che comporta algebricamente risolvere equazioni almeno
di secondo grado, diventa necessario introdurre un insieme numerico in cui si possano
estrarre le radici quadrate, per cui l'uso dei numeri reali diventa imperativo. Questo
era già stato osservato dagli antichi greci: la lunghezza della diagonale di un quadrato
di lato unitario è J2, e questo è un numero irrazionale: la diagonale del quadrato non
è commensurabile al lato.

• 2 SPAZI EUCLIDEI
Uno spazio euclideo è uno spazio vettoriale in cui è possibile misurare lunghezze
e angoli in modo analogo al caso dello spazio euclideo tridimensionale studiato nel
primo capitolo. Lo strumento tecnico fondamentale è il prodotto scalare di due vettori:

DEFINIZIONE 2.1 (Prodotto scalare - Spazio euclideo)


Sia V uno spazio vettoriale sul campo dei numeri reali JR. Un prodotto scalare
(o prodotto interno) in V è una funzione che a ogni coppia di vettori v e w di
V associa un numero reale < v , w > in modo che le seguenti proprietà siano
soddisfatte:

a) Commutatività:

< v ,w > = < w ,v > per ogni v , w E V

b) Linearità nel primo fattore:

< v 1 +v2 , w > = < v1 , w > + < v 2, w > per ogni v1 , v2 , w E V


< tv , w > = t < v , w > per ogni t E JR e ogni v, w E V

c) Positività:
< v, v > ;:::: O per ogni v E V
e l'uguaglianza vale se e solo se v = O.

Uno spazio euclideo è uno spazio vettoriale su JR dotato di un prodotto scalare.

Molte altre notazioni vengono utilizzate per un prodotto scalare, tra queste le più
comuni sono v · w e (v, w) .
OSSERVAZIONE Dalla commutatività e dalla linearità nel primo fattore, segue che un
prodotto scalare è lineare anche nel secondo fattore, cioè

<V, W1 + W2 >=<V, W1 >+<V, W2 > e < v , tw > = t < v, w >


Il prodotto scalare è quindi bilineare, cioè lineare in ciascuno dei suoi fattori. La
definizione può essere riformulata così: un prodotto scalare è una funzione bilineare
V x V ---+ JR che sia simmetrica (proprietà a)) e definita positiva (proprietà c)) .
© 978-88-08-06401-1 2 Spazi euclidei 365

Prodotto scalare standard in nr.


In Ilr il prodotto Scalare standard è denotato con il simbolo X · y ed è definito dalla formula

(2.1) X·y =XTY

X· Y = X1Y1 + · · · + XnYn

Se si pensa al primo vettore come a un vettore riga e al secondo come a un vettore colonna,
il prodotto scalare non è altro che il prodotto riga per colonna. È semplice dimostrare che
questo prodotto verifica le proprietà richieste dalla definizione di prodotto scalare. Mostriamo
per esempio la positività: se x = [x 1 , . .. , xn]T, allora

x ·x = xi + · · · + x?,
per cui x · x > O e l'uguaglianza vale se e solo se x = O. Si noti che stiamo utilizzando
il fatto che il quadrato di un numero reale è un numero 2: O: per questo per estendere la
definizione al caso complesso occorre apportare delle modifiche.

Tecnicamente, uno spazio euclideo è una coppia (V, < "· >) costituita da uno spazio
vettoriale reale V insieme a un prodotto scalare in V . D 'ora innanzi quando parleremo
di !Rn sottointenderemo che il prodotto scalare è quello standard. Il lettore che non
ama l'astrazione può concentrarsi su questo esempio. Vedremo che in un senso preciso
questo è l'unico esempio: uno spazio euclideo V di dimensione n con prodotto scalare
< ., · > può essere identificato, mediante la scelta di una base opportuna, con !Rn in
modo che il prodotto scalare astratto < ·, · > corrisponda al prodotto scalare standard
di !Rn. Come al solito, la nozione astratta ha il vantaggio di non dipendere dalla scelta
della base opportuna e di consentire, quindi, la scelta delle coordinate più convenienti
a posteriori.

l@§11!!l41
Prodotto scalare sui sottospazi.
Se V è uno spazio euclideo e H è un sottospazio vettoriale di V, anche H è evidentemente
uno spazio euclideo: il prodotto scalare di due vettori di H è definito come il loro prodotto
scalare in V .
Per esempio, consideriamo in R 3 il piano H di equazione x + y + z = O con la base
b = [1,-1,0f e c = [1,0,-l)r . Dati due vettori v = x1b+x2c = [x1 +x2,-x1,-x2f e
v2 = Y1 b + y2c = [Y1 + Y2 , -y1 , -y2f di H , il loro prodotto scalare è

Si noti che possiamo utilizzare questa formula per definire su R 2 un prodotto scalare diverso
da quello standard:
366 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

•ifo.!iJ
Lo spazio P2.
Diamo ora il più semplice esempio di uno spazio euclideo di dimensione infinita, sostituendo
i vettori con n componenti di JR.n con le successioni, che possiamo pensare come vettori con
un'infinità numerabile di componenti. Dobbiamo però limitarci all'insieme P2 delle successioni
s = {an}n ;:>:o di numeri reali che abbiano lunghezza finita nel senso seguente:
+oo
La~< +oo
n=O

Date due successioni s = {an}n;:>:o et = {bn}n;:>:o in P2, si può dimostrare (utilizzando la


disuguaglianza di Schwarz che discuteremo più avanti) che la serie

+oo
è convergente. Si può quindi porre s · t = L anbn e verificare che si ottiene così un prodotto
n=O
scalare in P2.

Possiamo pensare a una funzione f : [a, b] ->JR. come a un vettore con un'infinità di compo-
nenti: a ogni x di [a, b] corrisponde la componente f(x) del vettore f. Non si tratta più di
un'infinità numerabile e se vogliamo sommare le componenti occorre sostituire le sommatorie
con gli integrali. Ma per il resto le formule sono simili! Per essere precisi, sia V lo spazio
vettoriale delle funzioni f : [a, b] -> JR. che sono continue in [a, b) . In V possiamo definire
l'analogo del prodotto scalare standard di JR.n ponendo

<f,g>= 1bf(x)g(x)dx

Le proprietà richieste dalla definizione di prodotto scalare sono soddisfatte anche in questo
caso. L'unica cosa non completamente evidente è che < f, f > = O implica che f sia la
funzione nulla. Per vedere questo, osserviamo che se f(x) non è la funzione nulla, esistono
2
E > O e un punto xo E [a, b] tali che f(xo) > E. Per la continuità di f, esiste un intorno
(c,d) e [a,b] di xo tale che f(x) 2 >E per ogni x E (c,d), e quindi

2
< f, f > = 1b f(x) dx::'.'.'.1d f(x) 2 dx> 1d Edx = E(d - e)> O

Perciò da < f, f > =O segue f(x) =O per ogni x come volevasi dimostrare.

Prodotto scalare standard in MIR (m, n).


Lo spazio vettoriale MJR(m, n) delle matrici di tipo (m, n) si identifica con JR.mxn e, quindi,
possiede un prodotto scalare standard. La formula compatta per questo prodotto è:

(2.2) < A, B > = tr(ATB)


© 978-88-08-06401-1 2 Spazi euclidei 367

Il simbolo tr denota la traccia, che è la somma degli elementi sulla diagonale principale
di una matrice quadrata: tr([ck1]) = I: Ckk· Si osservi che ATB è una matrice quadrata di
ordine n. Per vedere perché questo prodotto coincide con quello standard di JE.mxn, scriviamo
A = [ajk] e B = [bjt] e calcoliamo

Possiamo introdurre in uno spazio euclideo qualsiasi la nozione di norma di un vettore:

DEFINIZIONE 2.2 (Norma di un vettore)


Sia V uno spazio euclideo con prodotto scalare < ·, · >. La norma (o lunghezza
o modulo) di un vettore v E V è il numero reale~ O:

llvll = ..,/< v,v >

1414,;1!4!1
Nel caso di JE.n con il prodotto scalare standard la norma di un vettore è

Questa formula generalizza la formula per la lunghezza di un vettore in coordinate cartesiane


nello spazio euclideo tridimensionale .
Nel caso del piano H di equazione x + y + z = O in JE. 3 , la norma del vettore [x1 +
X2, -x1, -x2]T = X1b + X2C è

Nel caso dello spazio delle funzioni continue su [a, b] con il prodotto scalare < f, g >=
J:f(x)g(x) dx, la norma di una funzione è

llfll = ( 1b
2
(f(x)) dx
) 1 /2

Questa norma si dice norma L 2 di f.


Due proprietà importanti della norma sono

• Omogeneità

(2.3) lltvll =!ti llvllper ogni t E JR e ogni v E V

• Annullamento:

(2.4) Ilvi I = O se e solo se v = O


368 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

L'omogeneità della norma si verifica in questo modo:

lltvll = v'< tv, tv > = Jt 2 < v , v > = ltl ll v ll


La proprietà di annullamento è una riformulazione dell 'assioma del prodotto scalare
secondo cui < v, v > = O se e solo se v =O. Vi è una terza proprietà fondamentale
della norma, la disuguaglianza triangolare, su cui torneremo più avanti.

DEFINIZIONE 2.3 (Versore)


Un versore è un vettore la cui norma è uguale a l. In simboli: e è un versore
se llell = l.

Dalla proprietà (3.11) di omogeneità della norma segue:


i) se e è un versore, il modulo di te è precisamente ltl;
ii) se v è un vettore non nullo, esistono due e soltanto due versori sulla retta !Rv
generata da v:
ed

Il versore e 1 (v) è ottenuto dividendo v per la sua norma. Siccome M1 >O, il versore
e 1 (v) ha lo stesso verso div , mentre e2(v) ha verso opposto.

Figura 2.1. I due versori della retta r .

1;14,,1m
Consideriamo il vettore v = [2, 3JT di IR. 2 . La norma div è

llvfl = V2 2 + 32 = M
I due versori della retta IR.v sono e1 = [2/M, 3/Mf ed e2 = [-2/M, -3/M]T.
Il prodotto scalare consente di definire anche la nozione di ortogonalità (o perpendi-
colarità):

DEFINIZIONE 2.4 (Ortogonalità)


Sia V uno spazio euclideo con prodotto scalare < ·, · >. I vettori v , w E V si
dicono ortogonali (o perpendicolari) e si scrive v 1- w, se

< v,w >=o


© 978-88-08-06401-1 2 Spazi euclidei 369

OSSERVAZIONE Dalla bilinearità del prodotto scalare segue che il prodotto scalare
del vettore nullo con un vettore qualsiasi w è nullo: il vettore nullo è perciò ortogonale
a ogni vettore.

•M%1!ld
In IE. 4 i vettori v = ~[1, 1, 1, l]T e w = ~[1 , 1, -1 , -l]T sono versori e sono perpendicolari
l'uno all'altro .

IJ1§,,!!1ij
Sia V lo spazio vettoriale delle funzioni continue f : [O , 2n] ---> JR, con il prodotto scalare
definito come prima per integrazione . Le funzioni cos(x) e sin(x) hanno norma fa e sono
ortogonali tra loro. Infatti
112.,,. (1 + cos(2x)) dx=
1
2 2.,,. 2
Il cos(x)l l = cos (x) dx= - 7r
o 2 o
Analogamente si verifica Il sin(x) ll2 = 7r. L'ortogonalità delle due funzioni segue dal fatto che

i:
la funzione prodotto cos(x) sin(x) è dispari, per cui

< cos(x) , sin(x) >=


2
1
.,,. cos(x) sin(x) dx= cos(x) sin(x) dx= O

(il valore dell'integrale su [O, 2n] e [-n , n] è uguale perché le due funzioni sono periodiche di
periodo 2n).

Determinare tutti i vettori di IE. 4 ortogonali al vettore n = (1, 2, 3, Of risolvendo un


opportuno sistema lineare . Trovare tutti i versori ortogonali a n .

Dato v = [1/3, -1/3 , 2/3], spiegare perché l l~ ll = 11 ~~ 11 • Qual è la norma div? E quella
di 3v? Quale conviene calcolare? Scrivere esplicitamente le coordinate di 11 ~ 11 •

Verificare che la formula

< [x1 , x2]T, [y1, y2]T >= 2X1Y1 + 2x2y2 + X1Y2 + X2Y1
2
definisce un prodotto scalare in JE. .

Siano À1 , ... , Àn dei numeri reali positivi. Dati x, y E IE.n , si definisca

< x, y >= ÀiX1Y1 + · · · + ÀnXnYn


Mostrare che < ., · > è un prodotto scalare in IE.n. Nel caso particolare n = 2, porre À1 = 2 e
À2 = 3 e determinare tutti i vettori ortogonali, rispetto a questo prodotto scalare, al vettore
[1, lf .

O Sia V lo spazio vettoriale delle funzioni continue in [O, 2n] con la norma L 2 . Mostrare
che le funzioni cos(kx) (per k 2 O) e sin(kx) (per k 2 1), sono a due a due ortogonali .
Mostrare che la norma L 2 di 1 = cos(Ox) è ../27r, mentre la norma L 2 di cos(kx) e sin(kx)
per k 2 1 è fa.
370 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

• 3 IL TEOREMA DI PITAGORA E LA DISUGUAGLIANZA DI SCHWARZ


Il legame tra norma e ortogonalità è espresso dalla versione astratta del teorema più
importante della geometria euclidea: il teorema di Pitagora.

PROPOSIZIONE 3.1
Sia V uno spazio euclideo e siano v 1 , v 2 vettori di V.

a) Teorema di Pitagora: se v 1 e v 2 sono ortogonali, allora

b) Teorema di Carnot: per due vettori arbitrari vale la formula

DIMOSTRAZIONE. La dimostrazione è un esercizio sull'uso delle proprietà del prodotto


scalare, perfettamente analogo allo sviluppo del quadrato in algebra elementare (solo la
terminologia cambia: a scuola si parla di proprietà distributiva anzichè di bilinearità del
prodotto).

llv1 + v2ll 2 =< V1 + v2, V1 + v2 >= (linearità rispetto primo fattore)


=< v1 , v1 + v2 > + < v2 , v1 + v2 >= (linearità rispetto secondo fattore)
=< v1, v1 > + < v1 , v2 > + < v2, v1 > + < v2 , v2 > = (commutatività)
= llv1ll 2 + llv2ll 2 + 2 < V1 , v2 >
Se V1 e v2 sono perpendicolari, il termine 2 < v 1, v 2 > è nullo.

OSSERVAZIONE Dal teorema di Carnot segue che il prodotto scalare è determinato
dalla funzione che a un vettore associa la sua norma:

(3.1)

La formula (3.1) è nota come formula di polarizzazione.

In geometria elementare il teorema di Carnot è noto come teorema del coseno. Per
spiegare il nesso con il teorema di Carnot astratto dobbiamo introdurre il coseno
dell'angolo tra due vettori di uno spazio euclideo. Il coseno è legato alla proiezione
ortogonale di un vettore nella direzione di una altro vettore. Cominciamo quindi con
il descrivere tale proiezione ortogonale. Definiamo la distanza di due vettori v e w
come la lunghezza 1lw ___,
- vi I della loro
___, differenza. Intuitivamente questa definizione si
giustifica così: se v = OP e w = OQ sono i vettori posizione
___, di due punti P e Q, la
distanza 1lw - vi I è la lunghezza del vettore w - v = PQ che congiunge P e Q, come
nello spazio cartesiano.
© 978-88-08-06401-1 3 Il teorema di Pitagora e la disuguaglianza di Schwarz 371

o
Figura 3.1. La distanza tra v e w è la norma di w - v .

PROPOSIZIONE 3.2 {Proiezione ortogonale su una retta)


Sia V uno spazio euclideo, sia b E V un vettore non nullo e sia L = ~b la
retta generata da b. Il vettore

<v, h>
(3.2) e= llbll 2 b
gode delle seguenti proprietà:
a) e appartiene a L;

b) v - e è ortogonale a b (e quindi a ogni vettore di L);


c) e è il vettore di L a distanza minima da v:

(3.3) llv-cjj < llv-wjj per ogni w EL, w =I e


Si dice che e è la proiezione ortogonale di v su L e si denota con il simbolo VL:
dipende solo dalla retta L e dal vettore v, non dipende dalla scelta del vettore
{b} di L.

DIMOSTRAZIONE . Spieghiamo dapprima come si arriva alla formula (3.2) per la proiezione.
Intuitivamente (identifichiamo i punti dello spazio coi loro vettori posizione) il vettore e di L
a distanza minima da v è il piede della perpendicolare tracciata da v a L ; questo significa che
ci aspettiamo che e - b sia perpendicolare ab, come nel punto b) dell'enunciato. Cerchiamo
quindi di determinare un vettore e di L tale che v-c sia perpendicolare a b. Siccome la retta
L consiste dei multipli scalari di b , il vettore e ha la forma xb per uno scalare x; dobbiamo
quindi cercare uno scalare x tale che v - xb sia perpendicolare a b . Ora

(3.4) <v- xb, h > = < v , b > - x < b , b >


Ne segue che v - xb è ortogonale ab se e solo sex= ~ì'bi~?. Definiamo quindi x mediante
questa formula, e poniamo e= xb. Per costruzione e verifica a) e b).
Dobbiamo ancora mostrare la proprietà di minimo. Per questo sia w un vettore di L ,
cioè un multiplo scalare di v . La differenza e - w è ancora un multiplo scalare di b. Per il
punto b) , il vettore v-c è ortogonale ab e quindi anche a c-w che è un multiplo di b .
La disuguaglianza (3.3) ora segue dal fatto che v-w è l'ipotenusa - si veda la figura 3.2 -
del triangolo rettangolo che ha per cateti v-c e c-w. Per essere rigorosi, per il teorema di
372 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

V
v- w
v -c

b e w L

Figura 3.2. La proiezione ortogonale e = i:b di v sulla retta generata da b.

Pitagora:
2 2 2 2
li v - w ll = ll(v - e )+ (e - w) ll =liv - cll +Il e - wll
Se w =J e , allora Il e - w ll > O, e quindi
2 2 2 2
li v - wl l = liv - cl l + Ile - wl l > ll v - ci1

che è equivalente alla (3.3) perché la norma è una funzione non negativa.
Infine si osservi che la (3.3) ci dice che e è l'unico vettore di L a distanza minima da
v ; pertanto e dipende solo da v e da L ed è univocamente determinato da lla disuguaglian-
za (3 .3). •

DEFINIZIONE 3.3 (Coefficienti di Fourier)


Dati due vettori v e b =f. O in uno spazio euclideo V , lo scalare

<v, h>
(3.5)
llbll 2
si dice coefficiente di Fourier di v rispetto a b .

•M§u!!G
Nel caso particolare in cui v = tb appartenga alla retta L generata da b, la proiezione
ortogonale div su L è v, e quindi t = ~ì'i::ir?: la coordinata t di v rispetto alla base b di L
è il coefficiente di Fourier di v risp etto a b.

OSSERVAZIONE Se si usa un versore q come base di L , la formula per la proiezione


ortogonale si semplifica perché IlqlI = 1:

(3.6) VL =< v, q > q

Questo è in accordo con quanto visto nel primo capitolo, quando il termine < v , q >
era interpretato come il prodotto della lunghezza div per il coseno dell'angolo formato
da v e q .
© 978-88-08-06401-1 3 Il teorema di Pitagora e la disuguaglianza di Schwarz 373

'ifo.!!lij
Supponiamo che V sia JRn con il prodotto interno standard vrb. Allora la formula per la
proiezione ortogonale sulla retta L = JRb è:

(3 .7)

Per un esempio specifico, consideriamo in JR 3 il vettore b = [1, 2, 3)r. Il coefficiente di Fourier


div= [x, y , z]T rispetto ab è

, vTb x + 2y + 3z X+ 2y + 3z
X = _b_T_b = -1-+~4_+_9_
14

l
e la proiezione ortogonale di v sulla retta L è perciò:

VL = xb =
l [X+ 2y +3z
2x + 4y + 6z
14
3x + 6y + 9z

•;u;ma l.

Supponiamo che V sia lo spazio vettoriale delle funzioni continue in [O, 27r) con la norma L 2 .
I classici coefficienti di Fourier ak e bk di una funzione f E V sono i coefficienti di Fourier di
j(x) rispetto alle funzioni cos(kx) e sin(kx). Un semplice calcolo mostra che per k :'.':: 1

2 f 2" 2 2
Il cos(kx)ll =lo cos (kx) dx= 7r = 11 sin(kx)ll

mentre la funzione costante 1 = cos(O x) ha norma $ . Perciò il coefficiente di Fourier di


f (x) rispetto alla funzione costante 1 è

2~ 12" f(x) dx

mentre per k :'.':: 1 i coefficienti di Fourier ak e bk di f (x) rispetto alle funzioni cos( kx) e
sin( kx) sono rispettivamente

ak
112.,,. f(x) cos(kx) dx
-
7r o
2
bk .!_ f " j(x)sin(kx)dx
7r lo
La disuguaglianza di Schwarz e l'angolo tra due vettori
Vogliamo ora introdurre l'angolo tra due vettori di uno spazio euclideo. Nel contesto
geometrico dello spazio cartesiano, il prodotto scalare è definito dalla formula

v ·w = JJv JJ JJwJJ cos(a)


dove a è l'angolo formato dai due vettori. Da questa uguaglianza possiamo ricavare
una definizione di cos(a) in termini di prodotto scalare e norma che è valida in ogni
spazio euclideo:
<v,w>
cos(a) = JJvJJ JJ w JJ
374 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

Perché questo abbia senso occorre accertarsi che il numero a secondo membro sia
compreso tra -1 e 1:

PROPOSIZIONE 3.4 (Disuguaglianza di Schwarz)


Sia V uno spazio euclideo. Allora

(3.8) I< v,w >I :S: llvll llwll per ogni v, w E V,

e l'uguaglianza vale se e solo se ve w sono linearmente dipendenti.

DIMOSTRAZIONE. Se w =O, entrambi i membri della disuguaglianza sono uguali a zero, e


ve w sono linearmente dipendenti, per cui l'enunciato è vero in questo caso.
Supponiamo ora che w -/= O. Sia i; = ~!,.;,~? il coefficiente di Fourier di v rispetto a w,
in modo che xw sia la proiezione ortogonale di v sulla retta !Rw. Allora xw e v - xw sono
ortogonali e per il teorema di Pitagora

Moltiplicando la (3.9) per llwll2 si ottiene la disuguaglianza di Schwarz (3.8). L'uguaglianza


vale nella (3 .8) e nella (3.9) se e solo se v = xw; questo significa che v appartiene alla retta
!Rw e, poiché w è diverso da O, equivale a dire che v e w sono linearmente dipendenti. •

OSSERVAZIONE La disuguaglianza di Schwarz è tra le disuguaglianze più celebri e


più ricche di applicazioni della matematica. Non deve perciò sorprendere che sia nota
anche in altro modo: in altri testi è detta disuguaglianza di Cauchy-Schwarz, in altri
ancora disuguaglianza di Buniakowski.

Nel caso del prodotto scalare standard di !Rn la disuguaglianza di Schwarz in termini delle
componenti è

•@§11!@1
Siano s = {an}n;=:o et= {bn}n;=:o due successioni in !!2: questo significa che

+oo +=
a= La;,< +oo e b= :Lb;, < +oo
n=O n=O

Per ogni N 2'. O, la disuguaglianza di Schwarz in IRN ci dice che


© 978-88-08-06401-1 3 Il teorema di Pitagora e la disuguaglianza di Schwarz 375

+oo
Questo mostra che la successione delle somme parziali della serie 2.::: lanbnl è limitata e,
n=O
+oo
quindi, che la serie 2.::: anbn converge assolutamente . Il prodotto scalare in R2 è quindi ben
n=O
definito.

'ifo.!!lU
Per la norma L 2 sullo spazio delle funzioni continue in [a, b] la disuguaglianza di Schwarz è

11b f(x)g(x) dxl::; 1b f(x) 2 dx 1b g(x)2 dx


Possiamo ora definire l'angolo tra due vettori non nulli:

DEFINIZIONE 3.5 (Angolo formato da due vettori)


Sia V uno spazio euclideo con prodotto scalare < ·, · >. Dati due vettori non
nulli v, w E V , l'angolo formato da v e w è

_ (<v,w>)
vw = arccos llvll llwll

l@§i.1$11
Due vettori non nulli di uno spazio euclideo sono ortogonali se e solo se l'angolo da essi
formato è~·

IJi§i.!$11
Dal teorema di Carnot si ricava immediatamente il teorema del coseno: se v e w sono due
vettori non nulli, allora

llv - wll 2 = llvll 2 + llwll 2 - 2llvll llwll cos(vw)

2
Ls 2
w B

Figura 3.3. Il teorema del coseno: BC = AB + AC2 - 2AB AC cos(B).


376 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

La disuguaglianza triangolare
--> -->
Nel piano cartesiano, due vettori v OP e w PQ insieme al vettore somma
-->
v + w = OQ costituiscono i tre lati del triangolo O PQ. La disuguaglianza triangolare
afferma che la lunghezza del lato v + w del triangolo è minore della somma delle
lunghezze degli altri due lati. Tale disuguaglianza è valida in generale ed è in effetti
equivalente alla disuguaglianza di Schwarz:

PROPOSIZIONE 3.6 (Proprietà della norma)


Sia V uno spazio euclideo. La funzione norma gode delle seguenti proprietà:
a) Disuguaglianza triangolare:

(3.10) liv+ wlJ :s; JJvJI + llwll per ogni v, w E V


e l'uguaglianza vale se e solo se v e w sono linearmente dipendenti e
< v , w > 2: O (intuitiv<dmente questo significa che i due vettori sono paralleli
e hanno lo stesso verso).

b) Omogeneità

(3.11) IJtvJJ = JtJ llvlJper ogni t E JR e ogni v, E V

c) Annullamento:

(3.12) JlvlJ = O se e solo se v = O

DIMOSTRAZIONE. La disuguaglianza triangolare segue dalla disuguaglianza di Schwarz:

liv+ wl l2 = llvl l2 + 2 < v, w > +llwl 2 :S:


2
= llvll + 2 llvll llwll + llwl 2 = (llvll + llwll) 2
Questi stessi conti mostrano che l'uguaglianza vale se e solo se

< V ; W >=I< v,w >I= llvll llwll


quindi se e solo se < v , w > 2'. O e vale l'uguaglianza in Schwarz, cioè v e w sono linear-
mente dipendenti. Abbiamo già dimostrato le proprietà di omogeneità e annullamento a
pagina 367.

OSSERVAZIONE Abbiamo definito la distanza di due vettori v e w come la lunghezza


Jl w -vi J della loro differenza. Avendo a disposizione la nozione di distanza, è possibile
definire il concetto di limite: si dice che

lim Vn =V
n->+=
se la distanza tra Vn e v tende a zero:

lim Jl v n - v ii= O
n->+=
© 978-88-08-06401-1 4 Basi ortonormali e matrici ortogonali 377

La disuguaglianza triangolare è quanto serve per l'algebra dei limiti: da essa segue
per esempio che il limite di una somma è la somma dei limiti. Diventa così possibile
fare dell'analisi in uno spazio euclideo anche di dimensione infinita.

'i14H$1
Sia v = [2, 3JT. Per quali valori di m il vettore w = [1, mf è ortogonale a v? Verificare
che liv+ wll2 = llvll + llwll2 solo per tali valori.
2

G Calcolare (il coseno del)l'angolo formato dai vettori [1, O, O, of e [2, 2, 2, 2]T (ripetere
per i vettori [O, O, O, 2f e [1, 1, 1, l]r).

In IR 4 trovare la proiezione ortogonale di v = [1, 2, 3, 4]T sulla retta L di IR 4 generata


da [1, 1, 1, l f , e scrivere v come somma di un vettore di L e di un vettore ortogonale a L.
Calcolare la distanza div da L.

Dimostrare che in uno spazio euclideo V vale la legg e del parallelogramma:


2 2 2 2
liv+ wl l +liv - wl l = 2l lv ll + 2llwll per ogni v,w E V

Fare un disegno e spiegare perché si chiama legge del parallelogramma.

Se llvll = llwl l = 1 e liv - wl l = v'3, qual è il coseno dell'angolo formato da v e w ?

È possibile che in uno spazio euclideo esistano due vettori ve w tali che llvll = ll wll = 1
e llv+wll = 3?

Sia V lo spazio vettoriale delle funzioni continue in [O, 27r] con la norma L 2 . Calcolare
la norma della funzione cos(x) +sin(x) e verificare il teorema di Pitagora per le due funzioni
cos(x) e sin(x), che sono tra loro ortogonali e hanno entrambe norma fo per un esercizio
precedente.

4 BASI ORTONORMALI E MATRICI ORTOGONALI


Avendo a disposizione le nozioni di lunghezza e ortogonalità, possiamo ora introdurre
sistemi di coordinate sul modello cartesiano, richiedendo che gli assi coordinati siano
tra loro ortogonali e che l'unità di misura sia la stessa su ciascun asse. Fissare un
sistema di coordinate in uno spazio vettoriale significa fissare una base: la richiesta
da fare è che i vettori della base siano dei versori a due a due perpendicolari: il fatto
che siano dei versori, cioè vettori di lunghezza uno, intuitivamente pari all 'unità di
misura, garantisce che su ogni asse ci sia la stessa unità di misura. Una base siffatta
si dice ortonormale ed è l'analogo della terna cartesiana i ,j , k. Più in generale è utile
considerare anche basi, dette ortogonali, in cui si richiede solamente l'ortogonalità,
senza insistere sul fatto che gli elementi della base siano dei versori: questo perché per
ottenere un versore da un vettore dato occorre dividere per la sua norma, il cui calcolo
richiede l'estrazione di una radice quadrata e può quindi creare delle complicazioni
non necessarie.
378 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

DEFINIZIONE 4.1 (Basi ortogonali e basi ortonormali)


Una base {b1, ... , bn} di uno spazio euclideo V si dice ortogonale se i suoi
elementi sono a due a due ortogonali:

per ogni i =f. j

Una base {qi ... , qn} di uno spazio euclideo V si dice ortonormale se è orto-
gonale e i suoi elementi sono versori; questo equivale a richiedere che

per ogni i, j = 1, . .. , n
dove 8ij è il simbolo di Kronecker, che vale 1 se i = j, e O se i =f. j.

OSSERVAZIONE Spieghiamo l'equivalenza delle due condizioni date per la definizione


di base ortonormale. La condizione < Qi, Qj > = 8ij, quando i = j, significa che Qi è
un versore:
2
llqill =< Qi, Qi >= 8ii = 1
Quando i =f. j , la condizione è
< qi' Qj > = 8ij =o
e significa che Qi e Qj sono ortogonali.

•iMOd
La base canonica { ei , . .. , en} di nr è una base ortonormale rispetto al prodotto scalare
standard.

'i%rld
Se i,j , k sono tre versori di IR 3 a due a due perpendicolari, l'insieme {i,j , k} è una base
ortonormale di !R3 .

OSSERVAZIONE Da ogni base ortogonale {b 1 , ... , bn} si può ottenere una base
ortonormale sostituendo ogni bi con il corrispondente versore
bi
(i=l,2, ... , n)
Qi = llbill

Dalla base ortogonale di IR 2 formata da b 1 [1, lf e b2 = [-1, l)T ricaviamo la base


ortonormale formata da

Qi = [ '/{] = [cos(~)l e Q2 =
- '/{]
=
[-sin(~)]
'/{ sin(~) [ '/{ cos(~)
© 978-88-08-06401-1 4 Basi ortonormali e matrici ortogonali 379

Il teorema di Pitagora si estende al caso della somma di un numero arbitrario di


vettori a due a due ortogonali; come conseguenza, un insieme di vettori non nulli che
siano a due a due ortogonali è automaticamente linearmente indipendente:

PROPOSIZIONE 4.2 (Teorema di Pitagora generalizzato)


Sia V uno spazio euclideo e siano v 1 , ... , vd vettori di V.

a) se i vettori vi, ... , vd sono a due a due ortogonali, allora

(4.1)

b) se i vettori v1 , . . . , v d sono non nulli e a due a due ortogonali, allora sono


linearmente indipendenti.

DIMOSTRAZIONE. Con un conto analogo a quello del teorema di Carnot si ottiene l'ugua-
glianza
llv1 + · · · + vdll 2= llv1l l2+ · · · + llvdll 2+ 2 L <vi, Vj >
l~i<j~d

Quando i vettori sono a due a due ortogonali, quest 'uguaglianza diviene la (4.1).
Mostriamo ora b): supponiamo che v 1 , . .. , Vd siano non nulli e a due a due ortogonali e
supponiamo ci sia tra di loro una relazione di dipendenza lineare

(4.2)

I vettori t1v1 , hv2, ... ,tdvd sono a due a due ortogonali perché v1, v2 , ... , vd lo sono. Quindi
per il punto a):

O= llOll 2= llt1v1 +hv2 + · · · +tdvdll 2


2
= llt1v11!2 + llt2v2ll + · · · lltdvdi!2 = ti llv1ll 2+t~ llv2ll 2+ · · ·t~ llvdll 2
Al membro di destra abbiamo una somma di numeri non negativi la cui somma è zero;
tutti gli addendi t% I lvk 11 2 devono perciò essere nulli. Siccome Vk per ipotesi è non nullo,
concludiamo che tk =O per ogni k = 1, 2, ... , d. Questo mostra che i vettori v1 , ... , Vd sono
linearmente indipendenti. •

OSSERVAZIONE Se V ha dimensione n e i vettori b 1 , . .. , bn sono a due a due orto-


gonali e non nulli (per esempio, dei versori), allora {b 1 , ... , bn} è una base ortogonale
di V . Infatti, per la proposizione 4.2, i vettori sono linearmente indipendenti e, quindi,
siccome sono n = dim(V) , formano una base. Per controllare che dei vettori formino
una base ortogonale occorre solo controllare che siano non nulli, a due a due ortogonali
e in numero pari alla dimensione dello spazio.

Il grande vantaggio di una base ortogonale rispetto a una base qualsiasi è che le coor-
dinate di un vettore possono essere ricavate facilmente in termini del prodotto scalare,
esattamente come nel caso dello spazio cartesiano (capitolo primo, proposizione 6.4);
è in accordo con l'intuizione geometrica che la componente di un vettore lungo un
asse coordinato sia la proiezione ortogonale del vettore sull'asse.
380 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

PROPOSIZIONE 4.3 (Coordinate di un vettore rispetto a una base


ortogonale) Sia B = {b 1 , b 2 , . .. , b n} una base ortogonale di uno spazio
euclideo V. Per ogni vettore v E V vale l'uguaglianza:

(4.3)

dove

(4.4) k= 1,2, . . . ,n

è il coefficiente di Fourier di v rispetto a b1,;. In altre parole, le coordinate di


v rispetto alla base B sono i coefficienti di Fomier :1: 1 , . . . , Xn e v è la somma
delle sue proiezioni ortogonali sugli assi coordinati JRbk.

DIMOSTRAZIONE. Siano x1, ... , Xn le coordinate div rispetto alla base B: questo significa
che v = x1b1 + · · · + xn b n = EZ:i x;b;. Per la linearità del prodotto scalare nel primo
fattore
n n
< v , bk > = < L x;b;, b k > = L x; < b ;, bk >
i= l i=l

Siccome b k è perpendicolare a b ; se i # k , nella sommatoria a secondo membro tutti gli


addendi sono nulli tranne quello che corrisponde a i= k. Quindi

Per ipotesi b k non è nullo , quindi la sua norma llbkll è diversa da zero, e possiamo perciò
< v,bk >
ricavare Xk = = Xk·
llbkll
2

IJ1§Ui@i
Consideriamo la base ortogonale {b1 = [1 , lf, b 2 = [-1, lf} di JR.2. I coefficienti di Fourier
del vettore v = [3, 2f rispetto ai vettori di questa base sono

5 1
2 2

Verifichiamo l'uguaglianza i1 b1 + i2 b2 = v :

~[1,l]T - ~[-1 , lf = ~[6,4]T = [3,2JT


© 978-88-08-06401-1 4 Basi ortonormali e matrici ortogonali 381

COROLLARIO 4.4 Sia B = {q 1 , q 2 , .. . , qn} una base ortonormale di uno


spazio euclideo V . Allora:

a) le coordinate di un vettore v rispetto alla base B sono i coefficienti di Fourier


Xk = < v , qk >per k = 1, 2, .. . n:

b) la norma di un vettore v è uguale alla norma IRn del vettore delle sue
coordinate:

c) dati due vettori v, w E V di coordinate {:h} e {:Ok}, il prodotto scalare di


v e w in V è uguale al prodotto scalare in IRn dei vettori delle coordinate:

< v, w > = X1Y1 + X2Y2 + ... + XnYn

DIMOSTRAZIONE. Il punto a) segue dalla proposizione precedente perché una base ortonor-
male è in particolare una base ortogonale. Il punto b) segue dal teorema di Pitagora perché
i vettori :hq k sono a due a due perpendicolari:

L'uguaglianza dei prodotti scalari segue dall'uguaglianza delle norme per la formula di po-
larizzazione (3.1). In alternativa, la si può dimostrare direttamente sfruttando la bilinearità
del prodotto scalare:

n n n n
< v,w > < L Xi Qi, LYjC}j > = L L XiYj < Q i, CI.i >=
i=l j=l i= l j=l
n n n
= LL X;yjb;j = LXiYi
i=l j=l i= l

OSSERVAZIONE Supponiamo che B = {q 1 , q 2 , ... , qn} sia una base ortonormale di
uno spazio euclideo V e consideriamo il corrispondente isomorfismo V ---> IRn che a un
vettore v E V associa il vettore v = x(v) E IRn delle sue coordinate rispetto alla base
B . Per la proposizione precedente questa identificazione di V e IRn preserva anche il
prodotto scalare, nel senso che

< v, w >v = VT W =< v, w >~"

Quindi una base ortonormale consente di identificare V con IRn non solo come spazio
vettoriale, ma anche come spazio euclideo.
382 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

1i1§rr!JUI
Consideriamo la base ortonormale {Q1 , q2} di JR 2 ottenuta ruotando la base canonica di 45°:

Le componenti del vettore v = [3, 2f rispetto a questa base sono

'
x1 =< v , q1 > = -5yl2
-
'
e x2 =< v , q2 > =
V2
2 2

Verifichiamo che la norma del vettore coincida con la norma del vettore delle coordinate:

2
Il [3, 2]T 11 = 9 + 4 = 13,

In questo esempio determiniamo una base ortonormale del piano H di equazione x+y+z =O
in JR 3 . Il vettore v1 = [1, -1 , Of appartiene ad H. Un vettore w = [a, b, c]T è ortogonale a
v 1 e appartiene ad H se e solo se

O = vr w = a - b e a + b+ e = O

Le soluzioni di questo sistema sono i vettori della forma [a, a, -2af. In particolare, v2
[l, 1, -2]T appartiene ad H ed è ortogonale a v 1 : i vettori v 1 e v 2 formano una base ortogonale
di H . Per ottenere una base ortonormale prendiamo i versori con la stessa direzione e verso
di v1 e v2:

I vettori q 1 e Q2 formano una base ortonormale di H. Questa base è comoda se è necessario


calcolare le lunghezze dei vettori di H: per il corollario 4.4.b si ha infatti

Matrici ortogonali
Introduciamo ora la classe delle matrici Q le cui colonne formano una base ortonor-
male di JRn .

PROPOSIZIONE 4.5 Sia Q una matrice quadrata di ordine n a coefficienti


reali. Le colonne di Q formano una base ortonormale di JRn se e solo se
© 978-88-08-06401-1 4 Basi ortonormali e matrici ortogonali 383

DIMOSTRAZIO NE. Siano q1 , ... , q n le colonne di Q . Calcoliamo il prodotto di QT e Q :

qf q1 qf q2

QT Q ~
n
:i Iq, q, . . . q. I
qf q1

q~q1
qf q2

q~q2

Gli elementi sulla diagonale principale di Q T Q sono le norme al quadrato q f q ; delle colonne
q ;, mentre gli elementi fuori dalla diagonale sono i prodotti scalari qf <li di due colonne
distinte . Quindi le colonne sono a due a due ortogonali e hanno norma uno se e solo se Q T Q
è la matrice identità. •

DEFINIZIONE 4.6 (Matrice ortogonale)


Una matrice quadrata Q di ordine n a coefficienti reali si dice ortogonale se
QT Q =I.

Quindi una matrice ortogonale è una matrice le cui colonne formano una base or-
tonormale di lRn; sarebbe più logico chiamare una tale matrice ortonormale, ma la
tradizione lo impedisce.

PROPOSIZIONE 4. 7

a) La matrice identità è ortogonale.

b) Il prodotto di due matrici ortogonali di ordine n è una matrice ortogonale.

c) Una matrice ortogonale Q è invertibile; la sua inversa è QT ed è anch'essa


ortogonale.

DIMOSTRAZIONE. La matrice identità è ortogonale perché IT I= I I= I; in particolare la


base canonica di ffi!n, che è costituita dalle colonne di I, è ortonormale.
Se Q 1 e Q 2 sono ortogonali, allora

e quindi anche la matrice prodotto Q 1 Q 2 è ortogonale.


Se Q è ortogonale, l'uguaglianza Q T Q = I mostra che Q è invertibile e Q - 1
= Q T.
Quindi
(QT) T QT =Q QT = Q Q -1 =I.
Questo mostra che, se Q è ortogonale, anche Q T è ortogonale.

OSSERVAZIONE Una conseguenza importante è che calcolare l'inversa di una matrice
ortogonale è immediato: basta trasporre la matrice. Si ricordi che in generale il calcolo
384 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

della matrice inversa è computazionalmente molto costoso. È notevole il fatto che, se


Q è ortogonale, anche QT è ortogonale, e può apparire miracoloso: se le colonne di
una matrice formano una base ortonormale di JRn, allora automaticamente anche le
colonne di QT , cioè le righe di Q, formano una base ortonormale.

OSSERVAZIONE Se Q è una matrice ortogonale, il suo determinante è ±1. Infatti,


ricordando che il determinante della trasposta di Q è uguale al determinante di Q e
che il determinante di un prodotto è il prodotto dei determinanti, otteniamo:

1 = det(I) = det(QT Q) = det(Q) 2

IJ1§..!d
Ogni matrice di permutazione P a è una matrice ortogonale: le colonne di P a sono, a meno
dell'ordine, i vettori della base canonica e formano perciò una base ortonormale di !Rn, il che
equivale a dire che P a è ortogonale. Questo mostra nuovamente che P; è l'inversa di Pa.
Per lo stesso motivo, se Q è una matrice ortogonale , ogni matrice ottenuta permutando le
colonne (o le righe) di Q è ancora ortogonale.

Matrici ortogonali di ordine 2


Supponiamo che Q sia una matrice ortogonale di ordine 2. La prima colonna [x, y]T di Q
è un versore di IR 2 , cioè x 2 + y 2 = 1; geometricamente, il punto di coordinate (x, y) appar-
tiene a lla circonferenza di raggio 1 con centro nell'origine. I punti di questa circonferenza
sono parametrizzati dall'angolo orientato 8 che il semiasse positivo delle ascisse forma con
il vettore [x,yf: esiste 8 tale che [x, yf = [cos(8),sin(8)]r. La seconda colonna di Q è
uno dei due versori della direzione perpendicolare alla prima colonna: questi versori sono
[-sin(8), cos(8)f e il suo opposto [sin(8) , - cos(8)] r. Quindi una matrice ortogonale è di
una delle due seguenti forme

Qi = [cos(8) - sin(8)] oppure Q 2 = [cos(8) sin(8) ]


sin( 8) cos( 8) sin(8) - cos(8)

Abbiamo già incontrato queste matrici più volte: Q 1 è la matrice che rappresenta la rotazione
del piano attorno all'origine di un angolo 8 in senso antiorario ; la matrice Q 2 rappresenta inve-
ce la riflessione ortogonale che ha per asse la retta r generata dal vettore [cos( 8/ 2) , sin( 8 j 2)]T
(cf. pagina 245). Quindi una matrice ortogonale di ordine 2 è la matrice di una rotazione
oppure di una riflessione ortogonale; i due casi sono distinti dal determinante: per le rotazioni
il determinante è 1, per le riflessioni il determinante è -1.

I #-1% iU1!i
Costruire esempi di matrici ortogonali di ordine 3 (cioè basi ortonormali di IR 3 ) è più com-
plesso; diventerà più semplice quando avremo a disposizione l'algoritmo di Gram-Schmidt.
Supponiamo per esempio di voler determinare una base ortonormale di JR 3 i cui primi due
elementi siano i vettori
V2 1 T
e q2 = llv2ll = v'6[l, 1' - 2]
© 978-88-08-06401-1 4 Basi ortonormali e matrici ortogonali 385

che, come abbiamo visto a pagina 382, formano una base ortonormale del piano H di equa-
zione x + y + z =O. Abbiamo bisogno di un versore q 3 perpendicolare a q1 e q2. Potremmo
prendere il prodotto vettoriale q 1 x q 2 : questo comporta sostanzialmente calcolare un deter-
minante 3 x 3. Ma conosciamo già l'equazione x + y + z =O del p iano che contiene q1 e q2 ,
e questo ci dice che il vettore [1, 1, l ]T è perpendicolare a q 1 e q2. Quindi definendo
1 T
q3 = v'3[1 , 1, l]

otteniamo la base ortonormale { q1 , q2, q 3} di JR 3 . La corrispondente matrice ortogonale è:


1 1 1
v'2 v'6 v'3
-1 1 1
Q=
v'2 v'6 v'3
-2 1
o
v'6 v'3
I vettori riga di questa matrice formano un'altra base ortonormale di JR 3 :
1 -1
o
v'2 v'2
1 1
-2
I I I
ql = q2 = q3 = v'6
v'6 v'6
1
1 1
v'3
v'3 v'3

l@§u!ii
La matrice

1
2
r 1~ -1~ -~1 -~11
-1 1 1 1
è un esempio d i una matrice ortogonale di ordine 4.

H•foiiii
Abbiamo osservato che, se una matrice Q è ortogonale, allora anche la matrice trasposta
Q T è ortogonale. È facile, invece, trovare matrici che abbiano le colonne tra loro ortogonali ,
ma la cui trasposta non abbia le colonne tra loro ortogonali (le righe della matrici non sono
ortogonali tra loro nonostante le colonne lo siano) . In tali esempi necessariamente le colonne
non sono versori. Un esempio è:
A= [11 -22]
Isometrie
Se pensiamo a una matrice quadrata A in modo dinamico, come all 'applicazione
lineare ZA : !Rn ---+ IR.n che manda x in Ax, le matrici ortogonali corrispondono alle
isometrie:
386 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

DEFINIZIONE 4.8 (Isometria)


Siano V 1 e V 2 due spazi euclidei. Si dice che una funzione F : V 1 ---+ V2 è
un'isometria se preserva le distanze:

llF(v) - F(w)llv2 =liv -wlJv, per ogni v, w E V1

Si dice che 'I': V 1 ---+ V2 è un'isometria lineare se è lineare ed è un'isometria.


Si osservi che un'applicazione lineare 'I': V 1 ---+ V 2 è un'isometria se e solo se
preserva la norma dei vettori:

ll'I'(v)llv2 = llvllv, per ogni v E V1

if1§11!!WJ
Le rototraslazioni del piano lR 2 (che sono i movimenti rigidi della geometria euclidea) sono
delle isometrie. Tra queste solo le rotazioni sono lineari.
OSSERVAZIONE Un 'isometria lineare preserva il prodotto scalare, nel senso che
(4.5) < 'I'(v), 'I'(w) >v 2 = < v, w >v, per ogni v , w E V 1
Questo segue dalla formula di polarizzazione (3.1), per la quale il prodotto scalare è
determinato dalla norma e dalla linearità di 'I". Viceversa, un 'applicazione lineare che
preserva il prodotto scalare, per cui cioè vale la (4.5), è un 'isometria: basta prendere
v = w nella (4.5).

OSSERVAZIONE Supponiamo che B = {q1 , .. . ,qn} sia una base ortonormale di V,


e sia 'I' : V ---+ JR.n l'applicazione che a un vettore v associa il vettore x(v) delle sue
coordinare rispetto a B. Dal corollario 4.4 segue che 'I' è un'isometria:

llvllv = llx(v)llRn

PROPOSIZIONE 4.9 (Matrici ortogonali rappresentano isometrie)


Per una matrice quadrata reale Q di ordine n le seguenti condizioni sono
equivalenti:

a) Q è ortogonale: QTQ =I;

b) Q preserva la norma dei vettori:

llQxlJ = JlxlJ per ogni x E JR.n

(in altri termini , Q rappresenta un'isometria di JR.n);

e) Q preserva il prodotto scalare:

< Qx, Qy > = < x, y > per ogni x, y E JR.n


© 978-88-08-06401-1 4 Basi ortonormali e matrici ortogonali 387

DIMOSTRAZIONE. Se Q è ortogonale, allora per ogni x E Rn

Siccome la norma è un numero 2 O, dall'uguaglianza dei quadrati segue llQxll = llxll- Questo
mostra che a) implica b).
Se Q preserva la norma, allora preserva anche il prodotto scalare per la formula di
polarizzazione (3.1). Quindi b) implica c).
Infine supponiamo che Q preservi il prodotto scalare. Sia qk la colonna k di Q: denotato
come al solito con ek il k-esimo vettore della base canonica, si ha qk = Qek e quindi

< q;, C}j > = < Qe; , Qej >=<e;, ei > = 8;j

Questo mostra che le colonne di Q formano una base ortonormale di nr e quindi Q è


ortogonale. Abbiamo così fatto vedere che c) implica a) , e questo conclude la dimostra-
~~-

IJ1§1.i!U!J
.
Dalla classificazione delle matrici ortogonali di ordine 2 (si veda pagina 384) segue che le
isometrie lineari del piano cartesiano sono le rotazioni e le riflessioni ortogonali. Siccome il
prodotto di due matrici ortogonali è ancora ortogonale (la funzione composta di due isometrie
è ancora un'isometria!), tenendo conto che le rotazioni hanno determinante 1 e le riflessioni
-1, vediamo che il prodotto di una rotazione e di una riflessione è una riflessione e che il
prodotto di due riflessioni è una rotazione.

COROLLARIO 4.10 Sia Q una matrice ortogonale e sia À un autovalore reale


di Q. Allora À = 1 oppure À = -1.

DIMOSTRAZIONE . Siccome Q è ortogonale, llxll llQxl l per ogni x E Rn . Se xè un


autovettore relativo a >. , allora

llxll = llQxll = 11>-xll = l>-1 llxll


Dividendo per llxll si trova l>-1 = l.

OSSERVAZIONE Dimostreremo più avanti che anche gli autovalori complessi di una
matrice ortogonale hanno modulo 1.

1414;;s•
m[x,yf
di
Dato b1 = (2, 3)T, trovare un vettore b2 di R 2 ortogonale a b1. Scrivere le componenti
rispetto alla base {b1, b2} .

~ Sotto quali condizioni su a, b, e la matrice Q = ~ [ ~ - ~] è ortogonale?

G) L'insieme delle matrici ortogonali è un sottospazio dello spazio vettoriale delle ma-
trici n X n?
388 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

e Si considerino i vettori ortogonali V1 = [1 , o, l f e v2 = [-1, 2, l]T:


a) Quante sono le matrici ortogonali di ordine 3 la cui prima colonna è un multiplo scalare
di v 1 e la cui seconda colonna è un multiplo di v2?
Suggerimento: ci sono due versori per ogni retta per l'origine; la direzione della terza
colonna è determinata dalla direzione delle prime due colonne.
b) Determinare una matrice ortogonale Q di ordine 3 la cui prima colonna è un multiplo
scalare di v 1 e la cui seconda colonna è un multiplo di v2. Le righe di Q formano una
base ortonormale di JR. 3 ?

e Dato un vettore non nullo w in lRn) si consideri la matrice n X n


2 T
Q=l---ww
wTw
Scrivere Q nel caso n = 3 e w è un vettore perpendicolare al sottospazio di equazione
x 1 + x 2 - X3 = O. In generale, mostrare che Q è una matrice n x n ortogonale e simmetrica;

Ql) Sia E una matrice antisimmetrica (E T = -E) tale che I+ E sia invertibile. Mostrare
che la matrice Q =(I+ E) - 1 (1 - E) è ortogonale.
Suggerimento: le matrici (I - E) e (I + E) commutano. Per esempio, da E = [ g-~] si
-1
ottiene la matrice Q = S [! -~]. E da E = [ ~ -~] cosa si ottiene?

fJ) Sia Q una matrice ortogonale di ordine n e sia B la base ortonormale di lRn formata
dalle colonne di Q. Mostrare che il vettore delle componenti di un vettore x E lRn rispetto a
Bè QTx
Suggerimento: Q è la matrice di passaggio dalla base canonica alla base B. Come si
confronta questa formula con quella data in termini di coefficienti di Fourier nel corollario 4.4?

t?!) Il prodotto di due riflessioni ortogonali del piano è una rotazione: calcolare l'angolo di
rotazione in funzione dei coefficienti angolari degli assi delle due riflessioni (fare il disegno).

Q Il prodotto di una rotazione e di una riflessione ortogonale del piano è una riflessione:
calcolare il coefficiente angolare dell'asse della riflessione in funzione dell'angolo di rotazione
e del coefficiente angolare della riflessione originale (fare il disegno).

e Sia 'I : V
per ogni v
V un 'isometria lineare di uno spazio euclideo V: 'I è lineare e I I 'I( V) 11 = I lv 11
-t

E V. Mostrare che 'I è iniettiva. Concludere che, se V ha dimensione finita,


un 'isometria lineare è un isomorfismo.

e Siano V e W due spazi euclidei di dimensione n e sia 'I : V --+ W un'applicazione


lineare. Mostrare che 'I è un'isometria se e solo se 'I manda una base ortonormale di V in
una base ortonormale di W.

G) Sia 'I: V-> V un'applicazione lineare di uno spazio euclideo V in se stesso, sia Buna
base ortonormale di V e sia Q la matrice che rappresenta 'I rispetto a B. Mostrare che 'I è
un'isometria se e solo se Q è ortogonale.

fa Sia F: JR.n --+ 1Rn un 'isometria: llF(v) -F(w) ll = llv -w ll per ogni v, w E JRn. Mostrare
che, se F preserva l'origine (F(O) = O), allora è lineare. Concludere che ogni isometria di
1Rn si può ottenere come prodotto di composizione di una traslazione e di una isometria
lineare. Se n = 2, ogni isometria è una rototraslazione oppure una traslazione seguita da una
riflessione ortogonale .
© 978-88-08-06401-1 5 Proiezioni ortogonali e algoritmo di Gram-Schmidt 389

5 PROIEZIONI ORTOGONALI E ALGORITMO DI GRAM-SCHMIDT


In questo paragrafo risolviamo due problemi fondamentali e ricchi di applicazioni:
il problema della proiezione ortogonale e il problema della costruzione di una base
ortonormale.

Problema della proiezione ortogonale Sia V uno spazio euclideo. Dati un vettore
v E V e un sottospazio H di v, trovare il vettore VH di H più vicino a v , nel senso
che
liv - VHll <liv - wl l per ogni w E H , w -f. vH
Non è ovvio che esista un vettore VH che minimizzi I lv - wl I al variare di w in H:
anzi, se H non ha dimensione finita, è possibile che non esista. Dimostreremo però che
la proiezione ortogonale esiste sempre se H ha dimensione finita (anche se lo spazio V
ha dimensione infinita). Per analogia con quanto visto per le rette, è lecito attendersi
che il problema sia equivalente a quello di decomporre v come somma di un vettore
VH di H e di un vettore v ..L ortogonale ad H.

Problema della costruzione di una base ortonormale Dato un sottospazio H di uno


spazio euclideo V, costruire una base ortonormale di H.
Già dall'esperienza dello spazio cartesiano tridimensionale possiamo intuire l'u-
tilità della costruzione: supponiamo per esempio di voler studiare nello spazio una
rotazione che abbia come asse la retta L; è naturale allora scegliere l'origine delle
coordinate sull'asse L e i versori fondamentali i ,j , k in modo che i sia diretto come
l'asse e quindi j e k appartengano al piano ortogonale all'asse. In questo modo trovia-
mo una base ortonormale di JR 3 il cui primo vettore è una base ortonormale dell'asse
L e gli altri due sono una base ortonormale del piano perpendicolare a L.
L'algoritmo di Gram-Schmidt risolve il problema della costruzione di una base
ortonormale, dopo di che è immediato risolvere il problema delle proiezioni ortogona-
li perché data una base ortonormale di H è possibile scrivere una formula analitica
per la proiezione ortogonale di un vettore su H. D 'altra parte le proiezioni ortogo-
nali entrano nell'algoritmo in modo naturale: per costruire una base ortonormale, si
parte da una base qualsiasi e si cerca, per così dire, di raddrizzarla mediante proie-
zioni ortogonali: per esempio se b e e formano una base qualsiasi di un piano W,
possiamo trovare una base ortogonale proiettando e nella direzione perpendicolare a
b. Quindi le soluzioni dei due problemi sono interconnesse tra loro. Per procedere
ordinatamente faremo così: prima tratteremo in dettaglio la nozione di proiezione or-
togonale, poi faremo vedere che data una base ortonormale di H esiste una formula
analitica esplicita per la proiezione ortogonale vH , infine per mezzo di questa formula
esplicita descriveremo l'algoritmo di Gram-Schmidt di costruzione delle basi ortonor-
mali.
Fissato un sottospazio H di uno spazio euclideo V, si dice che un vettore v è
ortogonale ad H se è ortogonale a ogni vettore di H. L'insieme dei vettori ortogonali
ad H si denota con il simbolo H ..l.:

H ..l. = {v E V : < v,w > =O per ogni w E H}


390 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

Supponiamo che V sia JRn con il prodotto scalare standard . Allora la condizione che un
vettore a = [a1, . . . , an]T sia ortogonale a x = [x1, .. . , xn]T è
(5.1) aT X= aix1 + · · · anXn =O
Il vettore a appartiene ad H.L se la (5.1) vale per ogni' x EH, cioè se la (5.1) è un'equazione
cartesiana di H . Quindi H .L consiste dei vettori dei coefficienti delle equazioni di H. Dalla
simmetria della (5.1) si intuisce che (H.L).L dev'essere H . Vedremo che questo è il cas9 per
ogni sottospazio H di dimensione finita in uno spazio euclideo arbitrario.

IJ1§ril@i
a) In JR 3, con il prodotto scalare standard, l'insieme dei vettori ortogonali all'asse z è il piano
xy; e l'insieme dei vettori ortogonali al piano xy è l'asse z. Più in generale, l'insieme dei
vettori ortogonali al piano generato da due vettori non paralleli v e w è la retta generata
da v x w (il prodotto vettoriale di ve w).
b) In JR 4, con il prodotto scalare standard, l'insieme dei vettori perpendicolari al primo asse
coordinato è l'iperpiano di equazione x1 =O. Infatti un vettore v = [x1,x2,X3,x4]T è
perpendicolare al primo vettore ei della base canonica se e solo se il prodotto scalare

è uguale a zero.
c) Sia V lo spazio vettoriale delle funzioni reali continue su [a, b], con il prodotto scalare
definito per integrazione. Allora una funzione è ortogonale alla funzione costante 1 se e
solo se ha media integrale nulla perché

< f, 1 > = 1b f(x ) dx

Quindi .C(l) .L è l'insieme delle funzioni con media integrale nulla.


d) In ogni spazio euclideo V , si ha y.L = {O} e o.L =V. Per mostrare la prima uguaglianza,
osserviamo che, se v E y .L, allora v è perpendicolare a se stesso, quindi
Q =<V, V>= llvll 2
e questo implica v = O per la proprietà di positività del prodotto scalare. Questo mostra
che y .L = {O}. L'uguaglianza o.L =V è un altro modo di scrivere che O è ortogonale a
ogni vettore.

PROPOSIZIONE 5.1
Sia V uno spazio euclideo e sia H un suo sottospazio. Allora:
a) l'insieme H..L è un sottospazio vettoriale di V;
b) se v è ortogonale a un insieme di generatori di H (in particolare, ai vettori
di una base di H), allora v E H ..L.
© 978-88-08-06401-1 5 Proiezioni ortogonali e algoritmo di Gram-Schmidt 391

DIMOSTRAZIONE. Il vettore nullo è ortogonale a ogni vettore e quindi appartiene ad H .L .


Supponiamo che v1 , v2 E H .L. Allora per ogni t 1, tz E JR:. e per ogni w E H:
< t1 V1 + tzv2 , w > = t1 < V1 , w > +tz < V2 , w >= o
Questo mostra che t1 v1 + tzv2 appartiene ad H.L, e quindi H.L è un sottospazio.
Per quando riguarda b), ricordiamo che v 1 , . . . , v d generano H se ogni vettore di H
è combinazione lineare di v1, ... , vd. Quindi dobbiamo mostrare che, se v è ortogonale a
v1 , ... , v d, allora v è ortogonale a ogni combinazione lineare w = t1 v1 + tz v2 + · · · tdv d di
tali vettori:

<v , w> = <v, t1v1+· · ·+tdvd>=


= t1 <V , V1 > + · · · + td <V, Vd > =
= t10 + · · ·tdO =O

i i1§ ..! !4!i
Per dimostrare che v è ortogonale ad H è quindi sufficiente mostrare che v è ortogonale a
una base {v1, . .. , vd} di H. Nel caso più semplice, un vettore è ortogonale alla retta lRv1
se e solo se è perpendicolare a v 1. Per un caso con d = 2, si consideri il piano xy in lR 3: un
vettore è ortogonale al piano xy se e solo se è perpendicolare ai primi due versori e 1 ed ez
della base canonica.
Dato un sottospazio H di V , ci chiediamo ora se è possibile decomporre un arbitrario
vettore v come somma di un vettore VH appartenente ad H e di un vettore v J_
perpendicolare ad H. Intuitivamente VH è la proiezione ortogonale di v su H, e
dovrebbe quindi essere il vettore di H a distanza minima da v .

PROPOSIZIONE 5.2 (Proprietà di minimo della proiezione ortogonale)


Sia H un sottospazio di uno spazio euclideo V. Supponiamo che un vettore
v E V si possa scrivere come somma

V= VH +VJ_

di un vettore VH appartenente ad H e di un vettore v J_ ortogonale ad H. Allora


VH è l'unico vettore di Ha distanza minima da v:

(5.2) llv-vHll < llv-wll per ogni w E H, w =f. VH


In particolare, VH è l'unico vettore di H tale che v - VH sia ortogonale ad H.
Si dice che VH è la proiezione ortogonale di v su H.

DIMOSTRAZIONE. La dimostrazione è la stessa che abbiamo già visto nel caso della proie-
zione su una retta. Sia w un vettore di H . La differenza Vtt - w è un vettore di H perché
H è un sottospa21io. Per ipotesi v-vH """ v .L E H .L , quindi v -VH è ortogonale a Vtt -w
che appartiene ad H. La disuguaglianza (5.2) ora segue dal fatto che v-w è l'ipotenusa - si
veda la figura 5.1 - del triangolo rettangolo che ha per cateti v-VH e Vtt-w . Infatti per il
teorema di Pitagora:
392 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

Figura 5.1. Il vettore v - VH è ortogonale a tutti i vettori di H.

Se w -j. VH, allora llvH - wll >O, e quindi


2 2 2 2
liv - w ll = liv - vHll + llvH - wll >liv - VHll

che è equivalente alla (5.2).



OSSERVAZIONE È importante osservare che, se VH è la proiezione ortogonale di v
su H , allora v J_ = v - VH è la proiezione di v su H J_ . Infatti v J_ E H J_ e VH = v - v J_
appartiene ad H e quindi è ortogonale ad H J_. In particolare, v J_ è il vettore di H J_
a distanza minima da v.

'414"'!4!1
Facciamo un esempio che è banale, ma che è bene aver presente. Se v appartiene ad H, allora
v è la proiezione ortogonale di v su H; in questo caso VH = v e v .L = O. Se invece v E H .L
è perpendicolare ad H , allora la proiezione ortogonale di v su H è il vettore nullo; in questo
caso VH = O e v .L = v .

141§1.i@i
Sia R2 lo spazio euclideo delle successioni a= {an } tali che I:~,::O a; < +oo . In R2 conside-
riamo il sottospazio H delle successioni finite: { an} E H se esiste N tale che an = O per ogni
n > N. Allora H .L = {O} e quindi le uniche successioni che si possono scrivere nella forma
a= aH + a .L con aH EH e a .L E H .L sono le successioni finite . In particolare, la successione
v = { n~l} non ha proiezione ortogonal: su H. Non esiste una successione di H a distanza
minima da questa successione: per ogni k sia Vk E H la successione che è uguale a v per
n :S: k e zero per t utti gli altri n . Allora

2 += 1
liv - vk ll = 2.:= (n + l) 2 ---+O per k---+ +oo
n=k+l

Se esistesse in H la proiezione ortogonale VH div, allora

implicherebbe I lv - VH 11 = O e quindi v = VH E H, il che è assurdo.


© 978-88-08-06401-i 5 Proiezioni ortogonali e algoritmo di Gram-Schmidt 393

OSSERVAZIONE La funzione che a v associa la proiezione ortogonale Vtt , quando


esiste, è lineare: se Vtt e Wtt sono le proiezioni ortogonali su H di v e w rispettiva-
mente, allora per ogni coppia di scalari ti e t 2 il vettore ti Vtt + t 2 wtt è la proiezione
ortogonale (ti v + tzw)H· Per vedere questo, basta osservare che

è perpendicolare ad H visto che v - Vtt e w - Wtt lo sono.


Mostriamo ora che la proiezione ortogonale vH esiste se H ha una base ortogonale.

PROPOSIZIONE 5.3 (Formula analitica della proiezione ortogonale)


Sia V uno spazio vettoriale euclideo e sia H un suo sottospazio. Supponiamo
che H abbia una base ortogonale {bi, b 2 , . .. , bd} · Allora per ogni vettore v di
V esiste la proiezione ortogonale Vtt di v su H, e vale la formula:

(5.3)
dove

(5.4) k = 1, 2, . .. ,d

è il coefficiente di Fourier di v rispetto a bk.

DIMOSTRAZIONE. Vogliamo mostrare che esiste un vettore di H , quindi una combinazione


lineare
d
VH = t1 b1 +h b2 + ... + td bd = L ti bi
i= l
tale che v-VH è perpendicolare ad H. Il vettore v-vH è perpendicolare a H se e solo se è
perpendicolare ai vettori b1 , b2, . . . , bd, perché questi vettori formano una base di H. Quindi
basta imporre che

per ogni k = 1, 2, ... , d


Ora
d d
< V-Lt; bi, bk > =<V bk >- < Lt; b;, bk >=
i =l i=l
d
= <V bk > - L t; < b; , bk >= <V bk > -tk < bk, bk >
i=l

dove nell 'ultimo passaggio abbiamo usato il fatto che b ; è ortogonale a bk se i =!= k. La
conclusione è che v-VH è perpendicolare a bk se e solo se

< v , bk > ~
tk = = Xk
< bk, bk >
Quindi prendendo h Xk per ogni k troviamo un vettore VH E H tale che v - VH è
perpendicolare a H.

394 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

OSSERVAZIONE La formula (5.3) ci dice che, data una base ortogonale {b 1 , ... , bd}
di H , la proiezione di un vettore v su H è la somma delle proiezioni di v sugli assi
!Rbi . Si faccia attenzione che questo è vero solo se la base è ortogonale.

Consideriamo il piano H di JR 4 di equazioni x 1 + x 2 = x3 + x 4 =O. Una base ortogonale di


H è formata dai due vettori b1 = [l, -1 , O, Of e b2 = [O , O, 1, -l]T . I coefficienti di Fourier
del vettore v = [x1 , x2, X3, X4 ]T sono

Quindi

VH = X1 -
2
X2 r~l] +
Q
0
X3 -
2
X4 r~ ] 1
-1
= !2 r~~ =~~1
X3 -
X4 -
X4
X3

In questo genere di esercizi, ci sono diversi modi di controllare di non avere commesso errori
nei conti. Innanzitutto la proiezione VH dev'essere un vettore di H ; nel caso di questo esempio
VH deve quindi soddisfare le equazioni X1 + x2 = X3 + X4 = O; quindi, la proiezione di un
vettore di H deve coincidere con il vettore stesso; basta controllare questo per i vettori della
base: la proiezione di b; dev'essere b;.

1419,,ua
Se V ha dimensione finita, trovare la proiezione ortogonale VH di un vettore v su H è
equivalente a trovare la proiezione v .L = v - VH div su H .L. Per calcolare le due proiezioni
conviene calcolare la proiezione sul più piccolo tra i due sottospazi H e H .L e ottenere l'altra
per differenza.
Per esempio, consideriamo il piano H di equazione x + y + z = O in JR 3 . In questo caso
H .L è la retta r generata dal vettore b = [l , 1, 1f . La proiezione ortogonale di un vettore
v = [x,y,zf su r è

-X
Vr - ~b - - X+ y +z [11] =
1 [x+y+zl
3 x+y+z
3 1 x+y + z
Quindi la proiezione ortogonale sul piano H è

=V = xl 1
3 [x+y+zl
X+ y + Z
VH - Vr
[yz - x+y + z

1419,uz
Se la base di H non è ortogonale, non è vero che la proiezione su H si ottiene come somma
delle proiezioni sulle rette generate dai vettori della base. Per esempio, consideriamo il piano
xy in JR 3 , ma con la base
{ h1 = [1 , o, of, h2 = [1, 1, of}
© 978-88-08-06401-1 5 Proiezioni ortogonali e algoritmo di Gram-Schmidt 395

La proiezione ortogonale di (x, y, z]T sull'asse !Rb 2 (che è la bisettrice di equazione x =y nel
piano xy) è, per la formula (5.3), il vettore

vTb2 b 2 = x+y[l 1 O]T


b'.f b2 2 , ,
= [x+y x+y
2 ' 2 ,
o]T
Quindi la somma delle due proiezioni sugli assi generati da bi e b2 è

[x , o' o]T + [x + Y x + Y o] T
2 ' 2 '
= [3x + Y 2 ,
x + Y o] T
2 ,

che non ha nulla a che vedere con la proiezione ortogonale [x, y, Of di [x, y, zf sul piano xy.

1114 .. 15
La proposizione 5.3 non richiede che V abbia dimensione finita. L 'applicazione più importan-
te è al caso delle serie di Fourier. Fu proprio Fourier ad avere l'intuizione che una funzione
periodica si potesse approssimare, con un errore piccolo a piacere, con una combinazione
lineare di funzioni sinusoidali elementari e che i coefficienti di tale combinazione lineare an-
dassero calcolati come nel caso delle proiezioni ortogonali di vettori. Per rendere preciso
questo discorso, consideriamo lo spazio euclideo V delle funzioni continue su [O, 27r] con la
norma L 2 . Un polinomio trigonometrico di grado :S n è una funzione della forma:
n n
P(x) =L Ck cos(kx) +L dk sin(kx)
k=O k=i
L'insieme Hn dei polinomi trigonometrici di grado :S n è, quindi, il sottospazio di V generato
dalle funzioni
1 = cos(Ox ), cos(x ), ... , cos(nx), sin(x ), ... , sin(nx)
È semplice verificare che tali funzioni sono a due a due ortogonali, e quindi formano una base
ortogonale di H n. Dalla proposizione 5.3 segue immediatamente che la proiezione ortogonale
Sn (!) di una funzione f E V sul sottospazio Hn è
n n
Sn(f)(x) = ;o + k=i
L ak cos(kx) + L bk
k=i
sin(kx)

dove
ak = ak(f) = -
112.,,. f(x) cos(kx) dx k =o, 1, 2, ...
7r o
e
bk = bk(f) = -
112rr
f(x) sin(kx) dx k = 1, 2, ...
7r o
Per la proprietà di minimo della proiezione ortogonale, Sn (!) è il polinomio trigonometrico
di grado :S n che meglio approssima f in norma L 2 . È interessante esplicitare il problema
di minimo che abbiamo così risolto. Per ogni scelta di (ao,ai, . .. , an , bi , ... ,bn) in IR 2 n+i
consideriamo il corrispondente polinomio trigonometrico:
n n
P(ao, ai , ... , bn)(x) = ;o + k=i
L ak cos(kx) + L bk
k=i
sin(kx)

La funzione da minimizzare è lo scarto quadratico medio da f(x):

2 ( 2" 2
F(ao, ai , ... , bn) = llf(x) - P(ao , ai , ... , bn)(x)ll = Jo (f(x) - P(ao , ai, ... , bn)(x)) dx
396 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

Il risultato è che lo scarto quadratico medio è minimo quando (ao , ai , ... , an , bi, ... , bn) sono
i coefficienti di Fourier di f(x):
2 2
llf(x) - P(ao , ai, · · · , bn)(x)l l ?'. ll f(x) - Sn(f)(x)ll

per ogni (ao,ai, ... ,an , bi, . . . ,bn) , con uguaglianza se e solo se (ao , ai , ... ,an , bi, ... , bn)
sono i coefficienti di Fourier di f(x) .
Si può dimostrare che facendo tendere n ----> +oo l'errore di approssimazione llf(x) -
Sn(f)(x)ll 2 tende a zero e di solito molto velocemente. Questo è importante perché consente
nelle applicazioni di sostituire una funzione periodica arbitraria con una funzione facilmente
maneggevole quale è un polinomio trigonometrico.

L'algoritmo di Gram-Schmidt
Descriviamo ora l'algoritmo di Gram-Schmidt che permette di ricavare una base orto-
gonale (e ortonormale se necessario) di H a partire da una base qualsiasi. In partico-
lare, questo dimostra che ogni sottospazio H di dimensione finita ammette una base
ortonormale e, quindi, per la proposizione 5.3, la proiezione ortogonale su H esiste
per ogni vettore v di V.

PROPOSIZIONE 5.4 (Algoritmo di Gram-Schmidt)


Dato un insieme v1, v2, . . . , vd ç V di vettori linearmente indipendenti, l'algo-
ritmo di Gram-Schmidt costruisce induttivamente i vettori b 1 , b2, . . . , bd con
la seguente procedura:

b1 = V1

b2 = V2 - X~ b1
h3 = v3 - (x~ h1 + x~ h2)

dove
j < Vk, bj >
xk = llb1ll2 per ogni 1::; k::; d, 1::; j::; k -1

è il coefficiente di Fourier di vk rispetto a b1 .


I vettori b1 sono a due a due ortogonali e, per ogni k ::; d, l'insieme {b 1 , ... , bk}
è una base ortogonale del sottospazio di V generato da v 1 , ... , vk .
In particolare, se v1, v2, ... , vd è una base di H, allora {b 1 , ... , bd} è una base
ortogonale di H.

DIMOSTRAZIONE. Sia Hk = .C(vi, . .. , vk) il sottospazio generato dai primi k dei vettori
assegnati. L'idea alla base dell'algoritmo è semplice e intuitiva, come mostra la figura 5.2: al
passo k dell'algoritmo, il vettore bk è la proiezione ortogonale di Yk sulla retta ortogonale ad
Hk-i in Hk; quindi Yk - bk è la proiezione ortogonale di Yk su Hk - i, e questo è il significato
della formula
© 978-88-08-06401-1 5 Proiezioni ortogonali e algoritmo di Gram-Schmidt 397

a) b)

Figura 5.2. a) Tre vettori linearmente indipendenti; b) nel piano H2 = .C(v1, v2), il vettore b2 è la
proiezione ortogonale di v2 sulla retta ortogona le a bi; e) in H3 = .C(v1, v2 , v3), il vettore b3 è la
proiezione ortogonale di v3 sulla retta ortogonale a b 1 e b2.

Illustriamo i dettagli. Dobbiamo mostrare che i vettori h1, h2, ... , bd sono due a due orto-
gonali e che
per ogni k = 1, 2, ... , d
Evidentemente
L.:(b1 , ... , h1<:) = L.:(v1, ... , V1<:) = H1<:
perché per costruzione il vettore hj è combinazione lineare dei vettori v1, .. . , Vf<:, e viceversa
Vj è combinazione lineare dei vettori b 1, .. . , bf<: . Possiamo supporre per induzione di aver
verificato che h1, .. . , h1<:-1 siano a due a due ortogonali e procedere a mostrare che b1ç è
ortogonale a h1, ... , hk-1· Siccome h1, . . . , h1<: - l è una base ortogonale di H1<:-1,
:i:k h1 + · · · + x~ - 1
h1<: - 1
è la proiezione ortogonale di V1<: su H1<:-1 , e quindi
bk = V1ç - (Xk b1 + · · · + X~ - l h1t-1)
è ortogonale a H1<: - 1, cioè ai vettori h1, . . . , hk-l·

OSSERVAZIONE Per trovare una base ortonormale anziché ortogonale, è sufficiente



normalizzare la base ortogonale {bk} ponendo:
bk
qk = llbkl l
OSSERVAZIONE L'algoritmo si può modificare in modo da poter essere applicato
anche se i vettori vi non sono linearmente indipendenti: produce ancora dei vettori
bi a due a due ortogonali con la proprietà che
per ogni k = 1, 2, . .. , d
La differenza è che in questo caso, se vk è combinazione lineare dei precedenti vi,
allora bk = O. Questo bk va scartato. Alla fine i bk non nulli formano una base
ortogonale del sottospazio generato dai vettori vi.

•;14,,1uu
Troviamo una base ortonormale dell'iperpiano H di equazione X1 + x2 + X3 + X4 = O in IR 4 .
Trattando x2, X3 e X4 come variabili libere, si trova una base di H formata dai tre vettori
398 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

Procediamo come prescritto dall'algoritmo di Gram-Schmidt: definiamo b 1 = v1 = [-1 , 1,


0,0]T e

l o
-l1
1
o
-
1 1
2 r-l1
o
o
-1/2
r-l/
o
1
1

2 3

l o
-l1
o
1
- ~
2 o
1
r-l1
o
- 1/2 -1/2
r-l/ 1
3/2 1
o
-1/3
r-l/ 1
-1/3
1

Ricapitolando abbiamo così trovato una base ortogonale di H costituita dai vettori:

o
1
l
-1/21
b2 = -1/2
l
-1/31
-1/3
b3 = -~/3

Possiamo rendere questa base ortonormale dividendo i vettori bk per la loro norma. Si noti
che è possibile e conveniente sostituire b2 con 2b2 prima di calcolare la norma per evitare
calcoli con le frazioni :

b2 2b2 1 T 1 T
q 2 = llb2 ll = ll2b2ll = v'l+1+4[-l,-l, 2, 0] = v'6[- l,- l, 2, 0l

Analogamente

b3 3b3 1 T 1 T
q 3 = llb3ll = ll3b3ll = v'l + 1+1+9 [-l, -l, -l, 3l = 2\1'3[-l, -l, -l, 3l

Una base ortonormale di H è quindi costituita dai vettori:

1 -11
-1
3 2\1'3 -;1
q =
l
1414..14
Sia V lo spazio delle funzioni continue su [-1, 1] con la norma L 2 • Applichiamo l'algoritmo
di Gram-Schmidt ai polinomi v1(x) = 1, v2(x) = x , v 3(x) = x 2 e v 4 (x) = x 3 (si tenga
© 978-88-08-06401-1 5 Proiezioni ortogonali e algoritmo di Gram-Schmidt 399

presente che l'integrale di una funzione dispari su [-1 , 1] è nullo):

llb2ll
2= j l 2dx= 3
- l X
2

= X
2
- 21 jl
-1 X
2
dx -
3
2 (Jl - 1 X
3
dx
)
X= X
2
- 31

I polinomi così ottenuti sono, a meno di una costante, i primi 4 polinomi di Legendre.
Verifichiamo per esempio che b 2 e b 4 sono ortogonali:

1 (3 3) [x5 x3] 1
< b2 , b 4 > =
1 - 1
X X - -X
5
dx = 2 - - -
5 5 o
=Q

La fattorizzazione QR
Applicando l'algoritmo di Gram-Schmidt alle colonne di una matrice invertibile A si
ottiene la cosiddetta fattorizzazione QR.

PROPOSIZIONE 5.5 (Fattorizzazione QR)


Sia A una matrice quadrata invertibile a coefficienti reali. Allora esiste una
fattorizzazione di A come prodotto:

(5.5) A=QR
dove Q è una matrice ortogonale ed R è una matrice triangolare alta con tutti
gli elementi sulla diagonale principale positivi.

DIMOSTRAZIO NE. Sia d l'ordine di A e siano v 1 , ... , v d E lRd le colonne di A . Siccome A


è invertibile, le sue colonne formano una base di lRd . L'algoritmo di Gram-Schmidt produce
una base ortogonale {b1 , ... , bd} di lRd tale che

V1 = b1
V2 = X~ b1
+ b2
v3 = x~ b1 + x5 b2 + b 3
400 Capitò/o 8. Spazi euclidei © 978-88-08-06401-1

In termini di matrici abbiamo:


-1 -1
1 X2 X3
O 1 x~
oo 1

oo o 1
oo o o
ovvero
xà-1 ff h1f l xà ff h1 fI
o xL1 ffb2f l x~ ffb2f f

o o
o o
Siccome i vettori b; sono a due a due ortogonali, il primo fattore a secondo membro dell'u-
guaglianza è una matrice ortogonale Q ed evidentemente il secondo fattore è una matrice
triangolare alta con tutti gli elementi sulla diagonale principale positivi.

OSSERVAZIONE Più in generale, se A è una matrice m x d le cui colonne sono


linearmente indipendenti , la dimostrazione precedente produce una fattorizzazione
QR, dove Q è uha matrice m x d con colonne a due a due ortogonali e di norma uno ,
ed R è una matrice d x d triangolare alta. Si osservi che QTQ = I (matrice identità
d x d) anche quando A non è quadrata (e quindi Q non è una matrice ortogonale
perché non è quadrata).

•!%11!6
Consideriamo la matrice

A=
-i -~ -~
o 1 o
ro o 1 11
le cui prime 3 colonne formano la base dell'iperpiano x 1 + x2 + X3 = O a cui abbiamo già
applicato l'algoritmo di Gram-Schmidt a pagina 397; la quarta colonna è ortogonale alle
prime 3, p er cui

-i -~ -~ iJ r-i =ij~ =ij~ i r~ i ij~ ~


1
1 2

o 1o 1 o 1 -1/3 1 o o 1 o
r o o 1 o o 1 110 0 o 1
1

-../2/2 -./6/6 -../3/6 1/2 r../2 ../2/2 ../2/2 0


../2/2 -./6/6 -../3/6 1/2 O ./6/2 ./6/6 O _ QR
o ./6/3 -../3/6 1/2 o o 2../3/3 o -
r o o ../3/2 1/2 o o 1 o 2 1
© 978-88-08-06401-1 5 Proiezioni ortogonali e algoritmo di Gram-Schmidt 401

OSSERVAZIONE Il caso più semplice dell 'algoritmo di Gram-Schmidt è in realtà fami-


liare al lettore fin da quando ha imparato a calcolare l'area di un parallelogramma con
la formula base per altezza. Supponiamo infatti che il parallelogramma sia generato
dai vettori v1 e v2. Se prendiamo b 1 = v 1 come base, allora la proiezione ortogonale
b 2 di v 2 nella direzione ortogonale alla base è l'altezza del parallelogramma. Quindi
l'area del parallelogramma è llb1ll llb2ll· Analogamente, si può definire il volume del
parallelepipedo generato dai vettori v 1, ... , v d mediante la formula base per altez-
za: per far questo, prendiamo come base il parallelepipedo generato dai primi d-1
vettori e come altezza il vettore bd ottenuto (come nell'algoritmo di Gram-Schmidt)
proiettando v d sulla retta ortogonale alla base nello spazio generato da v 1 , .. . , v d.
Per induzione si vede immediatamente che il volume del parallelepipedo è il prodotto
delle norme dei vettori bk costruiti con l'algoritmo di Gram-Schmidt. In termini della
fattorizzazione QR, il volume è quindi il determinante della matrice triangolare R.
Osserviamo poi che il determinante di Q è ±1 perché Q è ortogonale. Dal teorema
di Binet segue che il volume del parallelepipedo è uguale al modulo del determinan-
te della matrice A che ha per colonne i vettori vk . In conclusione, se definiamo il
volume di un parallelepipedo come volume della base per norma dell 'altezza, tale vo-
lume è il modulo del determinante della matrice che ha come colonne gli spigoli del
parallelepipedo uscenti dall'origine.

Riepilogo e complemento ortogonale


Riassumiamo nel seguente teorema quanto abbiamo visto p er le proiezioni ortogonali.

TEOREMA 5.6 (Esistenza e unicità proiezione ortogonale)


Sia H un sottospazio di dimensione finita di uno spazio euclideo V . Allora:

a) per ogni v E V esiste un unico vettore VH EH, detto proiezione ortogonale


div su H , tale che v-vH E H..L ;

b) la proiezione ortogonale VH è il vettore di H a distanza minima da v:

(5.6) liv - vHll <liv - wll per ogni w E H , w =/=- VH

c) se {b1 , b2, ... , bd} è una base ortogonale di H , allora

(5 .7)

DIMOSTRAZIONE. Per ipotesi H ha una base finita . Con l'algoritmo di Gram-Schmidt pos-
siamo produrre una base ortogonale di H. Quindi per la proposizione 5.3 la proiezione orto-
gonale esiste ed è data dalla formula (5.7). Abbiamo già dimost rato la proprietà di minimo
e l'unicità nella proposizione 5.3.

OSSERVAZIONE Si ricordi che, se V ha dimensione finita , ogni sottospazio H di


V ha dimensione finita e, quindi, soddisfa le ipotesi del teorema precedente. Quando
402 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

V = JR_n, il sottospazio H può essere individuato dalle sue equazioni cartesiane, oppure
da un insieme di generatori. In entrambi i casi, abbiamo visto nel paragrafo sugli spazi
vettoriali come costruire una base di H. Applicando l'algoritmo di Gram-Schmidt
siamo ora in grado di produrne una base ortogonale o addirittura ortonormale.

COROLLARIO 5.7 (Complemento ortogonale)


Sia V uno spazio euclideo di dimensione finita. Allora per ogni sottospazio H
di V valgono le uguaglianze:

(5.8) dim(H J_) = dim(V) - dim(H)

(5.9)

DIMOSTRAZIONE. Ogni vettore v E V si scrive come somma di un vettore VH di H e di


un vettore v -1. = v - VH E H -1. e in un unico modo per l'unicità della proiezione ortogonale.
Questo significa che V è la somma diretta di H e H-1. (equivalentemente, l'unione di una base
di H e di una base di H -1. .è una base di V): si veda il paragrafo sulla formula di Grassmann
nel capitolo sugli spazi vettoriali. In particolare, dim(H -1. ) = dim(V) - dim(H). Applicando
questo risultato ad H -1. si trova dim (H -1.) -1. = dim(H). Siccome un vettore di H è ortogonale
a ogni vettore di H -1., vale l'inclusione H ç (H-1. ) -1.; abbiamo però appena osservato che i
due spazi hanno la stessa dimensione, quindi devono coincidere. •

OSSERVAZIONE Sia {q 1 , ... , qn} una base ortonormale di V i cui primi d vettori
siano una base di H. Allora HJ_ ha come base {qd+i , ... , qn}· In coordinate rispetto
alla base {q1 , . . . ,qn}, il sottospazio H consiste dei vettori [x 1 , .. . ,xd,O, ... ,Of e
H J_ consiste dei vettori [O, . .. , O, xd+ 1 , ... , Xn]T.

Si dice che H J_ è il complemento ortogonale di H in V. Per il corollario precedente, se


V hq, dimensione finita, H è il complemento ortogonale di H J_. Da questo segue che
VH è la proiezione ortogonale di v su H se e solo se v - VH è la proiezione ortogonale
di V su HJ_.

•i1%1!A&
Nel caso di un sottospazio di nr otteniamo

dim(H-1.) =n - dim(H)

Per esempio in JR 3 il complemento ortogonale di un piano per l'origine è una retta e il com-
plemento ortogonale di una retta per l'origine è un piano. In JR4 il complemento ortogonale
di un sottospazio di dimensione due ha dimensione due.

OSSERVAZIONE Nel prossimo paragrafo determineremo il complemento ortogonale


degli spazi associati a una matrice (nucleo, spazio riga e colonna).
© 978-88-08-06401-1 5 Proiezioni ortogonali e algoritmo di Gram-Schmidt 403

OSSERVAZIONE Il fatto che (H 1-) 1- = H vale se H ha dimensione finita, senza


bisogno di assumere che V abbia dimensione finita.

DIMOSTRAZIONE. Poiché un vettore di H è ortogonale a ogni vettore di H.L, vale l'inclusione


H ç (H.L ) .L , senza utilizzare l'ipotesi che H abbia dimensione finita. Mostriamo l'inclusione
opposta (H.L) .L ç H. Supponiamo che v E (H.L) .L . Per l'ipotesi che H abbia dimensione
finita, esiste la proiezione ortogonale su H di vettore v E V: possiamo scrivere v = vH+w con
VH EH e w E H.L. Siccome v E (H.L ).L, < v , w >=O. Siccome w E H .L, < VH,W >=O.
Quindi
< W, W > = < V - VH, W > = < V , W > - < VH, W > = Q
Questo mostra che w = O e quindi v = VH E H. Perciò ogni vettore v E (H .L ) .L appartiene
ad H , come volevasi dimostrare. •

Consideriamo nuovamente lo spazio f2 delle successioni {an} tali che I:~~ a~ < +oo, e
il suo sottospazio H costituito dalle successioni finite. In questo caso H .L = {O} e quindi
(H.L ).L = f2. Ma H f f2 = .(H.L ).L, perché f2 contiene anche successioni infinite.

Costruzione di basi ortonormali


Supponiamo che H sia un sottospazio di dimensione d di uno spazio euclideo di
dimensione finita V e che il nostro problema richieda di trovare una base ortonormale
di V i cui primi d vettori appartengano ad H, e siano perciò una base ortonormale di
H . Il problema si può risolvere così: si costruiscono delle basi qualsiasi di H e di H 1-,
e poi con il procedimento di Gram-Schmidt le si trasforma in basi ortonormali di H
e di HJ_; l'unione delle due basi ortonormali di H e di HJ_ è una base ortonormale
di V con la proprietà richiesta. Un metodo alternativo è di costruire una base di H,
estenderla a una base di V e quindi applicare Gram-Schmidt.

Troviamo una base ortonormale di JR 4 i cui primi tre vettori appartengano all'iperpiano H di
equazione x 1 + x2 + X3 + x 4 = O in JR 4 . A pagina 397 abbiamo costruito la base ortonormale
di H costituita dai vettori

Per ottenere la base desiderata di JR4 basta ora aggiungere un versore q4 che sia una base
della retta H.L. Il vettore n = (1, 1, 1, lf dei coefficienti dell'equazione di H è un vettore di
H.L: in effetti l'equazione ci dice che un vettore [x1,x2,x3 , x4f appartiene ad H se e solo se
è ortogonale a n. Possiamo quindi prendere
Il 1 T
q4=n;rr=2(1,1, 1, 1]
404 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

e Sia H il piano di JR 3 di equazione 3x - y + z =o. Scrivere il vettore V= [1, 2, 3]T come


somma di un vettore di H e di un vettore perpendicolare ad H. Calcolare la distanza di v
da H.

~ Trovare una base ortogonale { q 1 , q2 , q 3} di JR 3 tale che il sottospazio generato da q1 e


q 2 coincida lo spazio colonna della matrice

A= [io ~i
-1

e Sia H il piano di JR 4 di equazioni X1 + X2 + X3 = X2 + X3 + X4 = o. Trovare una base


ortonormale di H e una base ortonormale di H J_. Determinare le proiezioni ortogonali del
vettore V= [3, 2, 1, of su H e su H J_ . Calcolare la distanza di Vda H e da H J_ .

Q Sia V lo spazio vettoriale delle funzioni continue [O, 1] ---> JR con la norma L 2 . Applicare
l'algoritmo di Gram-Schmidt all'insieme {1 , x, x 2 }.

O Sia V lo spazio delle funzioni continue su [-1,.1] con la norma L 2 . Sia H il sottospazio
di V generato dai polinomi (a due a due ortogonali) {1 , x, x 2 - ~ }. Trovare la proiezione
ortogonale di sin(7rx) su H e calcolare la distanza di sin(?Tx) da H. Quanto dista sin(x) da x?

G) In JR 3 si consideri il prodotto scalare < x , y > = x 1 y 1 + 2x2y2 + 3x3y3. Applicare


l'algoritmo di Gram-Schmidt ai vettori della base canonica per ottenere una base di JR 3
ortogonale rispetto a questo nuovo prodotto scalare.

• 6 EQUAZIONI NORMALI E IL METODO DEI MINIMI QUADRATI


Nelle applicazioni ci si imbatte spesso in sistemi lineari sovradeterminati. Il motivo è
presto spiegato: si supponga che si debba determinare un vettore x attraverso degli
esperimenti e che ciascun esperimento fornisca un'equazione lineare che il vettore x
deve soddisfare. A causa degli errori sperimentali, non ci si può aspettare che queste
equazioni siano soddisfatte esattamente, per cui per cercare di avere una stima ac-
curata del risultato si fanno in genere molti più esperimenti del numero di incognite.
Questo conduce a sistemi sovradeterminati con un grande numero di equazioni. In
questo caso la soluzione non c'è, ma è interessante trovare il vettore X: che minimizza
in un senso opportuno gli errori sperimentali. Per formalizzare questa situazione, ab-
biamo ora a disposizione la nozione di distanza Ilv - wll tra due vettori dello spazio
euclideo lRn e possiamo risolvere questo problema di minimo col metodo delle proie-
zioni ortogonali. Siccome liv - wll 2 è una somma di quadrati, si parla di metodo dei
minimi quadrati.

141gu1a
Facciamo subito l'esempio fondamentale della regressione lineare nel suo caso più semplice.
Il problema da risolvere è il seguente. Si supponga che una variabile y sia funzione di una
© 978-88-08-06401-1 6 Equazioni normali e il metodo dei minimi quadrati 405

variabile x e che la teoria preveda che, a meno di una costante, y dipenda linearmente da
X e quindi abbia la forma y = e+ Dx dove e e D sono delle costanti da determinare.
Per determinare C e D , si fanno degli esperimenti dando a x un certo numero dei valori
X1 , ... , XN e misurando il corrispondente valore Yi di y. Se le misure fossero esatte, si avrebbe
Yi = C + Dxi per ogni i e con sole due misurazioni si troverebbero i valori di C e D;
geometricamente, la retta y = C +Dx è determinata se ne conosciamo due punti (x1, y1)
e (x2 , y2). Ma nella realtà le misurazioni hanno sempre un errore. Facciamo l'ipotesi che
i valori x; assegnati alla variabile indipendente x siano esatti e che l'errore sia dovuto alla
misurazione del valore di y: è naturale allora cercare di trovare C e D in modo da minimizzare
l'errore tra il valore misurato Yi e il valore previsto dalla teoria che è C +Dx; ; se abbiamo N
misurazioni, vogliamo minimizzare la differenza tra il vettore delle misurazioni (y1, ... , YN ]T
e il vettore [e+ Dxi ) ... ) e+ Dx N lT ed è naturale quantificare questo errore con la distanza
in JRN. Quindi il problema diviene: trovare C e D che minimizzano l'errore e( C, D) dove
N
2 2
e(C, D) = 2_)Yi - C - Dxi )
i=l

L'interpretazione geometrica è che vogliamo determinare la retta y = C +Dx che passa più
vicina ai punti Pi = (xi, Yi ) nel senso seguente: denotato con Qi = (xi, C +Dxi) il punto
sulla retta che ha la stessa ascissa di P;, la retta desiderata è quella che minimizza la norma
euclidea del vettore degli errori y(Pi) -y( Q;). Tale retta si dice retta di regressione lineare ai
minimi quadrati per i punti assegnati. Riformuliamo il problema in termini di sistemi lineari:
se i punti (xi , Yi ) fossero allineati, il vettore (C, Df risolverebbe il sistema lineare

C + x1D = Y1
C + x2D = y2
(6.1) .. ..
{ . .
e+ xND = YN
Si tratta di un sistema di N equazioni nelle 2 incognite Ce D. Per scrivere il sistema come
d 'abitudine nella forma Ax = b dobbiamo porre

1 X2 Y2
(6.2) A= l
. X1 1 rY11
.. ... , b= . ..
r1 XN YN

In generale, per N > 2, il sistema non ha soluzioni. Quello che possiamo fare è cercare il
vettore x che minimizzi l'errore e(C, D) = llb-Axll· In altre parole, tra tutti i vettori della
forma Ax, cerchiamo quello più vicino a b:

ll Ax - bll : : : llAx - bll per ogni x E JR 2

Riconosciamo il legame con le proiezioni ortogonali: per la proprietà di minimo delle proie-
zioni, l'ultima disequazione mostra che Ax è la proiezione ortogonale di b sullo spazio dei
vettori della forma Ax, cioè sullo spazio colonna di A.
Motivati dall'esempio della regressione, affrontiamo il problema più in generale: sup-
poniamo di voler risolvere un sistema Ax = b di m equazioni in n incognite, vero-
similmente sovradeterminato. Il sistema ha soluzione se e solo se il termine noto b
appartiene allo spazio colonna H = Col(A). Altrimenti il sistema è impossibile, ma
possiamo sempre risolvere il sistema Ax = bH , dove bH è la proiezione ortogonale
406 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

di b sullo spazio colonna H. Rispetto alla distanza euclidea, questo è il meglio che
possiamo fare perché bH è il vettore della forma Ax, cioè dello spazio colonna, più
vicino al termine noto: se x risolve Ax = bH , allora

(6.3) llAx- bll ~ llAx- bll per ogni x E lRn

per la proprietà di minimo della proiezione ortogonale. Se non si può risolvere Ax = b,


si può almeno minimizzare l'errore IIAx - bi I· Questo motiva la definizione seguente:

DEFINIZIONE 6.1 (Soluzione ai minimi quadrati)


Sia Ax = b un sistema lineare di m equazioni a coefficienti reali in n incognite.
Si dice che x è una soluzione ai minimi quadrati di Ax = b se

(6.4)
dove bH è la proiezione ortogonale di B sullo spazio colonna H = Col( A).
Equivalentemente, x è una soluzione ai minimi quadrati se vale la (6.3), cioè x
minimizza la distanza euclidea (o scarto quadratico) di Ax da b.

Possiamo facilmente determinare il complemento ortogonale dello spazio colonna e


degli altri spazi naturalmente associati a una matrice.

PROPOSIZIONE 6.2 (Complemento ortogonale degli spazi associati a


una matrice) Per ogni matrice reale A, il nucleo Ker(A) è il complemento
ortogonale dello spazio riga di A:

(6.5) Ker(A) = Row(A)..L e Row(A) = Ker(A)..L

e il nucleo Ker( A T) della matrice trasposta è il complemento ortogonale dello


dello spazio colonna di A:

(6.6)

DIMOSTRAZIONE. Supponiamo che A sia una matrice mx ne che v 1 , .. . , Vm siano i vettori


riga della matrice: si tratta di vettori di llr. Il prodotto di A per un vettore x E !Rn è

Quindi Ax =O , cioè x è un vettore del nucleo Ker(A), se e solo se

vf x = · · · = v~x = O
cioè x è ortogonale alle righe di A . Siccome lo spazio riga di A è il sottospazio di !Rn
generato dai vettori riga, questo significa che un vettore appartiene al nucleo se e solo se è
ortogonale allo spazio riga. Quindi il nucleo è il complemento ortogonale dello spazio riga:
© 978-88-08-06401-1 6 Equazioni normali e il metodo dei minimi quadrati 407

Ker(A) = Row(A)1-. Per le proprietà del complemento ortogonale (corollario 5. 7) da questo


segue Row(A) = Ker(A) 1- . ·
Tenendo conto che lo spazio colonna di A coincide con lo spazio di riga di A T, per
quanto abbiamo appena dimostrato il complemento ortogonale dello spazio colonna è il nucleo
ili~. •

Le soluzioni ai minimi quadrati di un sistema Ax = b si possono trovare risolvendo


un sistema lineare associato, che si dice sistema delle equazioni normali:

PROPOSIZIONE 6.3 (Equazioni normali)


Un vettore x è una soluzione ai minimi quadrati di Ax = b se e solo se è una
soluzione del sistema delle equazioni normali:

(6.7) ATAx=ATb

DIMOSTRAZIONE. Supponiamo dapprima che x sia una soluzione ai minimi quadrati di


Ax = b , cioè che Ax = btt dove btt è la proiezione ortogonale di b sullo spazio colonna
H di A. Per definizione di proiezione ortogonale, la differenza b - btt appartiene a H 1-, il
complemento ortogonale dello spazio colonna, che per la proposizione 6.2 è il nucleo di A T:
questo significa che

Quindi
Ar Ax = Arbtt = Arb
Questo mostra che x soddisfa le equazioni normali (6.7).
Viceversa, supponiamo che A T Ax = A T b. Allora b - Ax appartiene al nucleo di A T.
Per la (6.6) il nucleo di AT è H 1-. Scriviamo

b = Ax + (b - Ax)

Il primo addendo Ax appartiene allo spazio colonna H e per quanto abbiamo appena osser-
vato il secondo addendo b - Ax appartiene ad H 1-. Quindi Ax è la proiezione ortogonale
btt di b su H: questo significa precisamente che x è una soluzione ai minimi quadrati di
Ax = b e la dimostrazione è completa. •

OSSERVAZIONE Abbiamo ora a disposizione un nuovo metodo per calcolare la proie-


zione ortogonale p = bH di un vettore b su H = Col(A) : data una soluzione ai
minimi quadrati x di Ax = b , trovata per esempio risolvendo il sistema delle equazioni
normali, possiamo ricavare p = Ax.

•i%U!ld
Consideriamo il sistema lineare

2x -y = 10
(6.8) 2x - 3y = -4
{
x+ y=3
408 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

La matrice dei coefficienti del sistema e la matrice completa sono rispettivamente

2-1 10]
A= [2-li
~ -~ [A Jb] =
[2 -3 -4
1 1 3

Un semplice calcolo mostra che det(AJb) i= O, quindi r(AJb) = 3, mentre r(A) = 2: il


sistema è sovradeterminato. Per scrivere il sistema delle equazioni normali, scriviamo

ATA=[g
-7 11
-7]
Risolvendo il sistema delle equazioni normali

9x - 7y = 15
(6.9)
{ -7x+lly=5

si trova l'unica soluzione ai minimi quadrati x = [4, 3f . La proiezione ortogonale p di b sul


piano generato dalle colonne di H è pertanto

Per verificare la correttezza di questi conti, possiamo controllare che b - p = [5, -3 , -4f
sia perpendicolare alle colonne v1 e v2 della matrice:

(b- p)T V'~ [5 -3 -4] m~ 0, (b- p)T v, ~ [5 -3 -4] [ =:] d


OSSERVAZIONE Si osservi che il sistema delle equazioni normali A T Ax = ATb è
sempre quadrato: se A è una matrice m x n , la matrice A T A è n x n. Inoltre A T A
non è una matrice qualsiasi, ma è semidefinita positiva (su questo punto importante
torneremo più avanti).
Inoltre, il sistema delle equazioni normali ha sempre soluzione, qualunque sia b ,
poiché è equivalente al sistema Ax = bH, che ha soluzioni perché bH appartiene allo
spazio colonna di A. Quindi, per ogni b, il termine noto A Tb del sistema delle èqua-
zioni normali deve appartenere allo spazio colonna di A T A: da questa osservazione
segue facilmente che gli spazi colonna di AT e AT A devono coincidere. In effetti:

PROP O SIZIONE 6.4 Per ogni matrice reale A valgono le uguaglianze:

Ker(A) = Ker(AT A),

In particolare, r(A) = r(AT A) .


© 978-88-08-06401-1 6 Equazioni normali e il metodo dei minimi quadrati 409

DIMOSTRAZIO NE. Osserviamo che

Ne segue che, se x appartiene al nucleo di A T A, allora JJAxll2 = O e quindi Ax = O,


cioè x appartiene al nucleo di A . Viceversa, se x appartiene al nucleo di A, evidentemente
x appartiene anche al nucleo di A T A. Quindi i due nuclei sono uguali. Dall'uguaglianza
dei nuclei, per il teorema di nullità più rango, segue l'uguaglianza dei ranghi. Per quanto
riguarda gli spazi colonna, si può ragionare così: Col(A r), che è lo spazio riga di A, è
il complemento ortogonale del nucleo Ker(A) . Ma Ker(A) coincide con Ker(AT A) , il cui
complemento ortogonale è lo spazio riga di A T A. Quindi Col(AT) coincide con lo spazio
riga di AT A. Ma AT A è una matrice simmetrica, per cui Col( A T) coincide anche con lo
spazio colonna di A T A . •

COROLLARIO 6.5 Il sistema Ax = b di m equazioni in n incognite ammette


una e una sola soluzione ai minilni quadrati se e solo se r(A) = n. Se questo è
il caso, la matrice A T A è invertibile, la soluzione ai minimi quadrati è

(6.10)

e la proiezione di b sullo spazio colonna di A è

(6.11)

DIMOSTRAZIONE . Il sistema delle equazioni normali A T Ax = A Tb è un sistema quadrato


di n equazioni in n incognite, che ammette sempre soluzioni . La soluzione è unica se il numero
di incognite n è uguale al rango r(AT A) della matrice dei coefficienti e questo rango coincide
con il rango di A per la proposizione precedente. Quindi , se r(A) = n, la matrice quadrata
A T A ha rango massimo ed è perciò invertibile. Per il teorema di Cramer l'unica soluzione
del sistema delle equazioni normali è x = (AT A) - 1 A rb . La proiezione bH si trova come
abbiamo osservato moltiplicando x a sinistra per A. •

OSSERVAZIONE Naturalmente le formule (6.10) e la (6.11) non devono essere usate


per trovare negli esercizi la soluzione ai minimi quadrati x e la proiezione ortogonale
btt: come sempre, il calcolo della matrice inversa è computazionalmente costoso e la
regola di Cramer non è conveniente per risolvere un sistema (in questo caso quello
delle equazioni normali). Conviene per esempio risolvere il sistema delle equazioni
normali con il metodo di Gauss (o con qualche altro efficace algoritmo di soluzione).

Regressione lineare
Risolviamo ora con il metodo dei minimi quadrati il problema della regressione lineare:
vogliamo determinare la soluzione ai minimi quadrati del sistema (6.1) . Per questo
410 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

calcoliamo

r, x, i
N

1] ~ x_2
N I:>
i =l
i

XN ; : N N
1 XN L:>i 2:xi
i=l i=l
N

x~] r:~i
LYi
i=l
N
LXiYi
i=l

per cui il sistema delle equazioni normali è


N N
N L Xi LYi
N
i=l
N [g] i=l
N

2: xi LXT LXiYi
i= l i= l i= l

che (a condizione che almeno due degli Xi siano distinti) ha un'unica soluzione calco-
labile con la formula di Cramer:

e= L i x; Li Yi - L i Xi Li XiYi
2
N L i x7 - (L i xi)
(6.12)
D = N L i XiYi .:_ L i Xi L i Yi
2
N Li x7 - (Li xi)

Supponiamo di voler _trovare la retta di regressione lineare ai minimi quadrati per i punti
P 1 = (-2 , 4) , P2 = (-1,3), P3 = (0,1) e ? 4 = (2,0) . Il sistema da risolvere ai minimi
quadrati è
C-2D = 4
C-D=3
{ C= 1
C+2D =O
Il corrispondente sistema di equazioni normali è

4C -D = 8
{ -C+9D = -11

che ha come soluzione [C, D] = [61/35, -36/35].


© 978-88-08-06401-1 6 Equazioni normali e il metodo dei minimi quadrati 411

•&BBS'
E!) Dato il sistema lineare
X+ 2y + Z = 6
X+ y- 2z = 2
{
X+ 3y + 4z = 4
calcolare il rango della matrice dei coefficienti A e della matrice completa [Alb] del sistema
e dedurre che il sistema non ammette soluzioni. Determinare quindi le soluzioni ai minimi
quadrati del sistema e la proiezione ortogonale p del termine noto b sullo spazio colonna di
A. Verificare infine che b - p è perpendicolare alle colonne di A.

G) Dati la matrice A = [ ~ -~ ] e il vettore b = (1, 3, -2f, si determini la proiezione


ortogonale di b sullo spazio colonna di A e si scomponga il vettore b nella forma b = v + w
con v appartenente a Col(A) e w appartenente al sottospazio ortogonale a Col(A).

G) Trovare la soluzione ai minimi quadrati del sistema Ax =b nel caso in cui A = [ -1~ i]
1

e b = [ J].
Determinare inoltre la proiezione p di b sullo spazio colonna di A e verificare
che b - p è perpendicolare alle colonne di A .

fD Si consideri il sistema
kx + y = k
x+ky=l
{
x+y=k
dove k è un parametro reale:
(a) determinare per quali valori del parametro k il sistema ammette soluzioni;
(b) in corrispondenza di tali valori del parametro determinare tutte le soluzioni del sistema;
(c) posto k = 2 determinare la soluzione ai minimi quadrati.

O Trovare la retta di regressione ai minimi quadrati per i punti(l, 3), (2, 4), (3, 7), (5, 8).

~ In questo esercizio si determina una parabola anziché la retta ai minimi quadrati . Dati
i punti (x1, y1) = (-1, 1) , (x2, y2) = (O, 1) , (x3, y3) = (1, 4) e (x4, y4) = (2, 7) , si determini la
parabola y(x) = ax 2 + bx +e che minimizza l'errore
4
2 2
llb - Axll = _2=(yk -y(xk))
k=l

Q) Spiegare perché, se Ax =b ammette soluzioni, queste ultime coincidono con le soluzioni


ai minimi quadrati.

G) Si supponga che A abbia n colonne e rango r. Mostrare che le soluzioni ai minimi


quadrati di Ax = b dipendono da n - r parametri.

~ Mostrare che, per ogni matrice reale A , valgono le uguaglianze Ker(AT) = Ker(AAT)
e Col(A) = Col(AAT). In particolare, r(AAT) = r(AT) = r(A). (Attenzione: AAT è
una matrice simmetrica e non è la trasposta di AT A , che è anch'essa simmetrica, e quindi
coincide con la propria trasposta.)
412 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

Sia A una matrice mx ne sia~= ~A : l!r --> ffi.m l'applicazione lineare rappresentata
da A: ~(x) = Ax. Il dominio di ~ si decompone come somma diretta ortogonale ffi.n =
Row(A) EEJ Ker(A) e il codominio come ffi.m =Col( A) EEJ Ker(A r) . Mostrare che la restrizione
di ~ alla spazio riga è un isomorfismo dello spazio riga sulla spazio colonna. Questo spiega
(nel caso reale) perché lo spazio riga e lo spazio colonna hanno la stessa dimensione.

• 7 MATRICI DI PROIEZIONI ORTOGONALI


Sia H un sottospazio di JRn. La funzione ]Rn ___, ]Rn che a un vettore v associa la
proiezione ortogonale VH è lineare. Quindi esiste una matrice P di tipo n x n che
rappresenta la proiezione:

Pv = vH per ogni v E JRn

Vediamo come determinare P . Supponiamo che b 1 , ... , b d sia una base di H e che
A sia la matrice che ha per colonne i vettori bk . Si tratta di una matrice n x d. Per
costruzione H è lo spazio colonna di A e l'equazione (6.11) del corollario 6.5:

per ogni v E JRn

mostra che

(7.1)
Questa formula è troppo complicata per molte applicazioni, ma si può semplificare se
invece di prendere una base arbitraria se ne sceglie una ortonormale. Il risultato è il
seguente:

PROPOSIZIONE 7.1 (Matrice di una proiezione ortogonale)


Sia H un sottospazio di JRn e sia {q 1 , ... , qd} una base ortonormale di H. Sia
A la matrice che ha per colonne i vettori qk . Allora

(7.2)
è la matrice che rappresenta la proiezione ortogonale di JRn sul sottospazio H.

DIMOSTRAZIONE. Si osservi che, se q è un vettore di ffi.n, la matrice qqT è quadrata di


ordine n , perché q è una matrice n x 1 e q T è una matrice 1 x n . Diamo tre dimostrazioni del-
l'importante formula (7.1). Le prime due dimostrazioni corrispondono ai due diversi metodi
che abbiamo a disposizione per calcolare le proiezioni ortogonali: il metodo delle equazioni
normali da una parte, e la formula per la proiezione in termini di una base ortogonale della
proposizione 5.3.

Prima dimostrazione Per il corollario 6.5

Per ipotesi le colonne q k di A sono d versori di ffi.n a due a due perpendicolari: questo significa

per ogni 1 :::; i, j :::; d


© 978-88-08-06401-1 7 Matrici di proiezioni ortogonali 413

Quindi A T A è la matrice identità dx de la formula per P si semplifica nella forma P = AA T.


Infine

Seconda dimostrazione Per la proposizione 5.3 la proiezione ortogonale VH div su H è

Ora osserviamo che per ogni coppia di vettori v, q di Rn

(7.4)

Sostituendo nella (7.3) si trova

(7.5)

che equivale alla (7.1).

Terza dimostrazione Estendiamo {q 1, . .. , qd} a una base ortonormale { q 1, ... , q n} di


Rn e sia Q la matrice ortogonale di ordine n corrispondente: quindi Q = [AIBJ dove B è
una matrice n x ( n - d) le cui colonne formano una base ortonormale di H J_ . Ora si osservi
che, se v E H , allora Pv = v perché la proiezione su H di un vettore di H è il vettore
stesso . Nel linguaggio degli autovettori e autovalori, questo significa che un vettore di H è
un autovettore di P relativo all'autovalore 1. Se invece v E H J_, allora Pv = O: perché la
proiezione su H di un vettore perpendicolare ad H è il vettore nullo. Quindi un vettore di
H J_ è un autovettore di P relativo all'autovalore O. Le colonne di Q formano perciò una
base di Rn costituita da autovettori di P , i primi d relativi all'autovalore 1, gli ultimi n - d
relativi all'autovalore O. Ne segue che

1
oro
Q - PQ = diag(l , . . . , 1, O, .. . , O) = [_!JQ_OI
00 ]

1
dove I denota la matrice identità dx d. Siccome Q è ortogonale, Q - = QT e

. ( 1, ... , 1, 0, ... , O)Q T = [AIBJ [Ioro


j Q] [A T]
BT = AA T

P = Qd1ag

OSSERVAZIONE Prendendo H di dimensione 1 nella proposizione precedente, si vede


che, se q è un versore, la matrice qqT è la matrice di rango 1 che rappresenta la
proiezione sulla retta generata da q . In generale, P è la somma delle matrici qkqf di
proiezione sugli assi !Rqk .

OSSERVAZIONE La terza dimostrazione mostra che la proiezione ortogonale su un


sottospazio H di dimensione d di !Rn è diagonalizzabile mediante una matrice ortogo-
nale. Gli autovalori sono .\ 1 = 1, che ha molteplicità algebrica e geometrica d, e À2 =O
che ha molteplicità algebrica e geometrica n - d. L'autospazio relativo all'autovalore
1 è H, l'autospazio relativo all'autovalore nullo è H J_.
414 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

Consideriamo in R 3 il vettore

Il versore q = :.:; forma una base ortonormale della retta generata da w. Perciò la matrice
11 11
della proiezione su questa retta è:

e, dato v ~ [~: l· prni~ione


la di v ,una rntta grnernta da w è

VH =- 1[l 23]
14
2 4 6
3 6 9

Se invece consideriamo in R 4 il vettore


W = [l , 1, 1, l]T

allora

p =
1
wTw ww
T
=4
111ll [l 11l] = 41ll11111
11111
l1 1111
' • dato v l,
~ ~J prni~ione
la di v 'una rntta gmrnta da w è

VH = ~ l~11~ 1~ 1~i l~:1 ~ l~; I+ ~~ I~: I+ ~:1


X4
=
X1 X2 + X3 X4

Possiamo infine caratterizzare le matrici di proiezioni, cioè elencare quelle proprietà


che identificano le matrici di proiezione tra tutte le matrici quadrate di ordine n:

PROPOSIZIONE 7.2 (Caratterizzazione delle matrici di proiezioni or-


togonali) Una matrice quadrata reale P di ordine n è la matrice della
proiezione ortogonale su un sottospazio H di .!Rn se e solo se:

a) P è idempotente: P 2 = P;
b) P è simmetrica: pT = P.
Se a) e b) sono verificate, allora H è lo spazio colonna di P e Hl. è il nucleo
di P.
© 978-88-08-06401-1 7 Matrici di proiezioni ortogonali 415

DIMOSTRAZIONE. Supponiamo che P rappresenti la proiezione ortogonale su un sottospazio


H. Per mostrare che P è idempotente, basta ricordare che la proiezione ortogonale di un
vettore di H è il vettore stesso, per cui per ogni v di Rn :
2
P v = P(Pv) = Pvtt = VH = Pv

Siccome questo vale per ogni v , concludiamo che P 2 = P . La simmetria di P segue dalla
proposizione precedente, per la quale esiste una matrice A tale che P = AAT. Infatti

Una dimostrazione più diretta della simmetria di P è la seguente. Per ogni v la proiezione
Pv = VH appartiene ad H , mentre la differenza v .i = v - VH è ortogonale ad H . Quindi
per l'additività del prodotto scalare

< Pv , w > = < VH, WH + w .i > = < VH , WH > = < VH + v .i, WH > = < v, Pw >
cioè
yTpT w = vTPw
per ogni ve w . Prendendo v =e; (!'i-esimo vettore della base canonica) e w = ej, si trova
P~ = P;i per ogni (i,j) , quindi P = Pr.
Viceversa, supponiamo che P sia simmetrica e idempotente. Poniamo H = Col(P) , e
dimostriamo che per ogni v E Rn il vettore Pv è la proiezione ortogonale di v su H. Siccome
Pv è la combinazione lineare delle colonne di P che ha per coefficienti le componenti di v , il
vettore Pv appartiene ad H. Dobbiamo ancora far vedere che il vettore v - Pv è perpendi-
colare ad H , cioè appartiene a Col(P) .l = Ker(PT) . Per ipotesi pT = P , quindi dobbiamo
far vedere che v - Pv E Ker(P). Usando l'ipotesi di idempotenza P 2 = P otteniamo:

P(v - Pv) = Pv - P 2 v = Pv - Pv =O

Quindi v - Pv E Ker(P) e questo conclude la dimostrazione.



OSSERVAZIONE Si osservino i due casi banali della matrice identità, che è la matrice
della proiezione su H = JR_n e della matrice nulla, che è la matrice della proiezione su
H = {O} . Si noti anche che, se P è la matrice della proiezione ortogonale su H, allora
I - P è la matrice della proiezione ortogonale su H J_ .

1@§1!$1
(!) Nel testo abbiamo calcolato la matrice P della proiezione di R 4 sulla retta generata dal
vettore [1, 1, 1, l]T:

l 1 1 11
P=~ 1 1 1 1
4 1111
r1 1 1 1
Spiegare perché I - P è la matrice della proiezione ortogonale di R 4 sull 'iperpiano H di
equazione x1 + x2 + X 3 + X4 . Calcolare la proiezione ortogonale VH di v = [x1, x2, x 3 , x4]T
su H . Verificare che VH = v se v EH e che VH =O se v EH.i.
416 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

G) Sia V uno spazio euclideo e sia i: : V --> V la proiezione ortogonale di V su un suo


sottospazio H. Mostrare che H = Im(J::) e H .L = Ker(J::). Inoltre ,!:: 2 = ,!:: ed i: è simmetrica
nel senso che
< J::(v), w > = < v , J::(w) > per ogni v , w E V
Viceversa, mostrare che, se i: : V --> V è simmetrica e idempotente, allora i: è la proiezione
ortogonale di V sull'immagine di i:.

G) Sia E una matrice quadrata di ordine n e si supponga che E sia idempotente: E 2 =


E. Mostrare che ogni vettore di !Rn si scrive in uno e un sol modo come somma di un
vettore di Col(E) e di un vettore di Ker(E), cioè !Rn = Col(E) EB Ker(E) . Mostrare inoltre
che Col(E) è l'autospazio di E relativo all'autovalore 1, mentre Ker(E) è l'autospazio di
E relativo all'autovalore O. Concludere che la matrice E è diagonalizzabile. Calcolare il
polinomio caratteristico di E (dipende dal rango di E).

(9 Trovare una matrice quadrata A di ordine 2 tale che Col( A) nKer(A) =/=- {O} e Col( A)+
Ker(A) =/=- !R 2 .
Suggerimento: cercare tra le matrici non diagonalizzabili.

al) Sia A una matrice quadrata di ordine n. Mostrare che, se A è diagonalizzabile, allora
Col(A) n Ker(A) ={O} e Col(A) + Ker(A) = !Rn.
Suggerimento: fare prima il caso in cui A è diagonale.

• 8 IL CASO COMPLESSO
I risultati dei paragrafi precedenti non si estendono in modo automatico a perché cn
il quadrato di un numero complesso non è in generale un numero positivo. La conse-
guenza è che non possiamo definire la norma di un vettore come la radice quadrata
dei quadrati delle componenti. Per esempio, per il vettore [z 1 , z2 ]T = [1, if E C 2
abbiamo
zi
+ z~ = 12 + i 2 = O
Ricordiamo le nozioni di base sui numeri complessi. Un numero complesso z si scrive
in uno e un solo modo nella forma z = x + iy, dove x e y sono numeri reali, che si
dicono rispettivamente la parte reale e la parte immaginaria di z . Quindi e è uno
spazio vettoriale reale di dimensione 2; una sua base su JR è formata dal numero 1 e
dall'unità immaginaria i; la parte reale e la parte immaginaria di un numero complesso
sono le sue coordinate rispetto alla base {1, i}. Il coniugato di un numero complesso
z = x + iy è il numero complesso z = x - iy che ha la stessa parte reale di z, e
parte immaginaria opposta. La parte reale e la parte immaginaria di z si esprimono
in termini di z e z mediante le formule
1 1
x=Re(z) = e y = Im(z) = i (z - z)
2(z+z) 2
Il modulo di z è il numero reale non negativo:

lzl = W= Jx 2 +y 2
Quindi lzl coincide con la norma del vettore [x, yf che rappresenta z nel piano di
Argand-Gauss e lzl =O se e solo se z =O.
© 978-88-08-06401-1 8 Il caso complesso 417

Passiamo a considerare vettori z = [z1, ... 'Znf E cn. La parte reale X e la parte
immaginaria y di z sono i vettori di JRn le cui componenti sono rispettivamente le parti
reali Xk e le parti immaginarie Yk delle componenti Zk = Xk + iyk di z . Il coniugato z
di z è il vettore che ha per componenti i coniugati delle componenti di z:
-Z = r-z1, . . . , -Zn ]T
Per esempio, per il vettore z = [l + 2i, 3 - 4i]I' abbiamo Re (z) [l,3]T, llll(z) =
[2, -4]I' , z = [l - 2i , 3 + 4i]T. Valgono le uguaglianze:
1 1
x = Re(z )= (z +z) e y = llll(z) = --:(z - z)
2 2i .
Date la parte reale e la parte immaginaria, possiamo ricostruire z come

z =x +iy

quindi la corrispondenza
z r--t z = [Re(z), llll(z) f
2
è biiettiva tra cn e JR n. Tale corrispondenza è anche lineare su JR e, quindi, identifica
cn e JR 2n come spazi vettoriali reali , generalizzando l'usuale identificazione di e con
il piano di Argand-Gauss. Definiamo la norma o lunghezza di z mediante la formula

È immediato verificare che la norma ll zl l coincide con la norma del corrispondente


vettore z in JR 2 n: se x = Re (z) e y = llll(z) , allora:

n
llzl l = I)x~ + YD = ll z ll IR2n
k=l

Un versore di cn è un vettore di norma l. Si faccia attenzione che, a differenza di


quanto succede nel caso reale, su una retta per l'origine (sottospazio di dimensione
1) in cn ci sono infiniti versori , parametrizzati dalla circonferenza lt l = 1 del piano
di Argand-Gauss (il luogo ltl = 1 è una circonferenza perché, scrivendo t = a + ib,
l'equazione ltl = 1 equivale ad a 2 + b2 = 1): se e è un versore , per ogni t E C di
modulo 1 il vettore te è un versore.
Introduciamo ora l'analogo del prodotto scalare standard di JRn .

DEFINIZIONE 8.1 (Prodotto herlllitiano standard)


Il prodotto hermitiano (o scalare o interno) di due vettori z , w E cn è il numero
complesso

Altre notazioni comuni per il prodotto hermitiano sono < z , w >, z · w e


(z, w).

Elenchiamo ora le principali proprietà del prodotto hermitiano lasciandone la semplice


dimostrazione al lettore.
418 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

PROPOSIZIONE 8.2 (Proprietà del prodotto hermitiano)


Il prodotto hermitiano standard di cn
gode delle seguenti proprietà:
a) è lineare nella prima variabile:

< Zt + Z2' w >=< Z1, w > +< Z2 , w > e < tz, w >= t < z, w >

per ogni Zi, z2 , w E cn e ogni t E C;


b) è sequilineare nella seconda variabile; questo significa:

< z , Wt + W2 >=< Z, Wt > +< z , W2 > e < Z, t W >= t < Z, W >

per ogni z, W1, W2 E cn e ogni t E C;


c) per ogni z, w E cn
< w, z >= < z, w >.
Da questo segue che< z , z >= < z , z > , quindi< z, z >è un numero
reale e ha pertanto senso chiedersi se è maggiore o minore di zero;

d) è definito positivo:

<z,z>2::0 per ogni z E Cn ,

con uguaglianza se e solo se z = O.

OSSERVAZIONE L'analogo complesso di uno spazio euclideo si dice spazio hermi-


tiano: si tratta di uno spazio vettoriale V sul campo dei numeri complessi insieme a
un prodotto hermitiano, cioè a una funzione < ·, · >: V x V __, C che soddisfi le
proprietà della proposizione precedente. Si osservi che le proprietà non sono indipen-
denti: la proprietà b) segue infatti da a) e c) . La proprietà d) consente di definire la
norma di un vettore in ogni spazio hermitiano:
llvll =,,/ <V, V>

DEFINIZIONE 8.3 (Ortogonalità)


Due vettori di cn si dicono ortogonali (o perpendicolari) se il loro prodotto
herrnitiano è nullo.

•MA·i!U
Se z e w hanno parte immaginaria nulla, cioè in sostanza sono due vettori di JRn , il loro
prodotto hermitiano in cn
coincide con il loro prodotto scalare in JRn, per cui i due vettori
sono perpendicolari in JRn se e solo se lo sono in cn.

Cerchiamo i vettori z = [z1, z2] di C 2 ortogonali a w = [l , i]T: si tratta dei vettori per cui
ZT W = Z1 - iz2 =0
© 978-88-08-06401-1 8 li caso complesso 419

cioè dei vettori della forma z = (it, t]T al variare di t in IC, o ancora della retta generata dal
vettore u = (1 , - i]T che corrisponde a t = - i (prendendo t = 1 si ottiene un altro generatore
V = [i, 1]).

l@§!,i@i
Sia V lo spazio delle funzioni continue f : (a, b] -+ IC. Si tratta di uno spazio vettoria-
le complesso . In V si introduce il prodotto hermitiano, detto prodotto L 2 , definito dalla
formu la:

< f,g > = 1b f(x)g(x) dx

Supponiamo per esempio [a, b] = (O, 2n] . Sia n un numero intero (non necessariamente
positivo) e consideriamo la funzione esponenziale

einx = cos(nx) + isin(nx)


Allora, dato che énx = e-mx,

Inoltre le funzioni einx sono a due a due ortogonali: infatti, se m f= n,

< eimx einx > = ( 2" e i mx e-inx dx = [ ei(m-n)x ] 2-rr = o


' }0 i(m - n) 0

Il teorema di Carnot e la formula di polarizzazione vanno modificati nel caso com-


plesso, anche se è ancora vero che il prodotto hermitiano è determinato dalla funzione
norma. Riassumiamo il risultato:

PROPOSIZIONE 8.4 (Teorema di Carnot e formula di polarizzazione)


In cn (e più in generale in uno spazio hermitiano) vale il Teorema di Carnot
nella forma:

(8.1) llz+wll 2 = llzll2 + llwll 2 +2Re(< z,w >)


per ogni z , w E cn.
Il prodotto hermitiano è determinato dalla funzione norma
grazie alla formula di polarizzazione

1
(8.2) Re(< z , w >) = 2 (llz+wll2- llzll 2 - llwll 2 )
e all'uguaglianza

(8.3) Im( < z , w >) = Re(< z , iw >)


420 Capitolo 8. Spazi euclidei © 978-88-08-06401- 1

DIMOSTRAZIONE . La differenza con il caso reale è che un prodotto hermitiano non è


commutativo, ma soddisfa< w , z >= < z , w >,per cui:
2
llz+wll = < z+w, z+w > =
= < z, z > + < z, w > + < w, z > + < w, w > =
2 2
llzll + < z , w > +< z, w > + llwll
2 2
= Jlzll + 2Re( < z, w >) + llw ll
la formula di polarizzazione si ottiene ricavando Re(< z , w >) dalla (8.1). Per mostrare la
(8.3), osserviamo che la parte immaginaria di un numero complesso t = a+ ib coincide con
la parte reale del numero complesso - it = b - ia. Prendendo t =< z , w > e ricordando che
-i < z , w > = < z , iw > otteniamo
Im( < z, w >) = Re( - i < z , w >) = Re(< z, iw >)
Il prodotto hermitiano è determinato dalla funzione norma: infatti, se conosciamo 1lzl I
per ogni z, dalla formula di polarizzazione (8 .2) ricaviamo la parte reale R e(< z, w >)
del prodotto hermitiano, e la parte reale determina anche la parte immaginaria mediante
la (8.3). •

OSSERVAZIONE Torniamo alla mappa cn --+ JR. 2n che a un vettore z = X+ iy di cn


associa il vettore z = [x, yjT E JR. 2 n, dove x e y sono rispettivamente la parte reale e
la parte immaginaria di z . Abbiamo già osservato che la norma di z in cn coincide
con la norma di z in JR. 2 n. Dalle formule di polarizzazione e dalla (8.3) segue che il
prodotto hermitiano in cn è legato al prodotto scalare in JR. 2 n dalla formula:
(8.4) < z , W >cn = < z,W >JR2n +i < z,iw > JR2n

La conseguenza è che la nozione di ortogonalità in cn è più forte di quella in JR. 2 n: il


vettore z è ortogonale a w in cn se e solo se z è ortogonale a w e a iw in 1R.2 n.
Se z = x + iy e w = a + ib sono le decomposizioni in parte reale e immaginaria
di z e w E cn, la (8.4) si riscrive nella forma
ZT w = XT a+ yTb +i (yT a - xTb)

Si noti che i due vettori w = [a, bjT e iw = [-b, a]T sono ortogonali in JR. 2n: due
vettori z e w ortogonali in cn definiscono quattro vettori z, ii , w, iw a due a due
ortogonali in JR. 2n . Per esempio, i due vettori

3 - 4i ] [3] . [-4]
z = [31 ++ 4i 3 + i . [2]
2i] = [1] 4 ' w = [-1 + 2i = -1 + i 2
sono ortogonali in C 2 perché
ZT W = (1 + 2i) (3 + 4i) + (3 + 4i) (-1 - 2i) = 0

A z e w corrispondono i vettori di JR. 4 :

che sono a due a due ortogonali.


© 978-88-08-06401-1 8 Il caso complesso 421

Basi ortonormali e matrici unitarie


Sostanzialmente tutto quanto abbiamo visto nel caso reale su basi ortonormali e pro-
iezioni ortogonali si estende al caso complesso. In uno spazio hermitiano ha senso
parlare di basi ortogonali (costituite da vettori a due a due ortogonali) e ortonormali
(costituite da versori a du~ a due ortogonali). L'algoritmo di Gram-Schmidt rima-
ne valido per vettori di uno spazio hermitiano e produce una base ortogonale di un
qualunque spazio hermitiano di dimensione finita. Anche i teoremi sulle proiezioni
continuano a valere: se H è un sottospazio finito dimensionale di uno spazio hermitia-
no V , ogni vettore v di V si scrive in uno e un sol modo come somma v = VH + v J_ di
un vettore VH EH e di un vettore v J_ E H J_; inoltre per la proiezione vale la formula
della proposizione 5.3:

(8.5)

dove

(8.6) k=l,2, ... ,d

è il coefficiente di Fourier di v rispetto a bk. L'unica differenza rispetto al caso reale


è che nelle formule < ·, · > denota ora il prodotto hermitiano.

1419,,1u
Supponiamo di voler determinare una base ortonormale {q1 , Q2} di IC 2 in cui Q1 sia un
multiplo scalare di v1 = [1, i]T. Possiamo estendere v1 a una base di IC 2 scegliendo v2
[1, Of. L'algoritmo di Gram-Schmidt dà h1 = [1, i]T e

b 2=V2- < V2, b1 >


llbill
b [ ]T 1 [ ·iT 1[
1=1,Q -21,i =21,-i
·iT
2

b1 vf2 . T
Ql llb1ll = 2 [ l,i]

b2 vf2 .T
q2 llb2ll = 2[l, -i]

Consideriamo nuovamente lo spazio V delle funzioni continue f : [O, 27r] ---t IC con il prodot-
to L 2 :
2
< f, g > = fo " f(x)g(x) dx

Per ogni intero positivo n sia H n il sottospazio vettoriale di V generato dalle funzioni eikx
al variare di k tra -n e n: una funzione di Hn ha quindi la forma
n
P(x) = L Ckeikx
k=-n

Queste funzioni si dicono polinomi trigonometrici complessi di grado_.::; n. Nelle applicazioni è


fondamentale approssimare, seguendo l'idea di Fourier, una funzione (periodica) qualsiasi con
422 Capitolo B. Spazi euclidei © 978-88-08-06401-1

un polinomio trigonometrico . La miglior approssimazione di una funzione f E V mediante


un polinomio P(x) E Hn rispetto alla norma L 2 è la proiezione ortogonale di f su Hn.
Abbiamo già osservato che i polinomi e i kx hanno tutti norma .J27r e sono a due a due
ortogonali, pertanto per la (8.5) tale proiezione è il polinomio di Fourier
n
Sn(f)(x) = L Ckei kx
k= -n

dove i numeri Ck sono i coefficienti di Fourier:

L'analogo di una matrice ortogonale è una matrice n x n complessa le cui colonne


formano una base ortonormale di cn. Per scrivere questa condizione in termini di
matrici introduciamo l'analogo complesso della matrice trasposta.

DEFINIZIONE 8.5 (Matrice trasposta coniugata (o aggiunta))


Sia A una matrice complessa. La matrice trasposta coniugata o aggiunta di A
è la matrice il cui elemento di posto (i,j) è il coniugato dell'elemento di posto
(j , i) di A. La si denota con il simbolo AH. Quindi AH = A T.

I 41§ ,,! 4t!i


Se A= [! _7], allora

A=[-~~] e

OSSERVAZIONE Se gli elementi di A sono tutti reali, allora AH = A T. Il prodotto


hermitiano standard di due vettori colonna z, w E cn è WH z . Infatti:

n
W H Z = [W1
- ·· · = "L...,,ZkWk
- = Z T -W
k=l

OSSERVAZIONE Il lettore può facilmente verificare le due proprietà fondamentali


della matrice trasposta coniugata, che sono analoghe a quelle della matrice trasposta:

(8.7) e

Il motivo per cui AH si dice anche matrice aggiunta è che vale l'uguaglianza:

(8.8) < Az, w > = < z, AH w >


Infatti
© 978-88-08-06401-1 8 Il caso complesso 423

DEFINIZIONE 8.6 (Matrice unitaria)


Una matrice quadrata Udi ordine n a coefficienti complessi si dice unitaria se
UHU=I.

Come nel caso reale si dimostra che una matrice è unitaria se e solo se le sue colonne
(o le sue righe) formano una base ortonormale di cn.
Si osservi che l'inversa di una
matrice unitaria U è la sua trasposta coniugata, da questo segue che U UH =I.

1;g.19
Si ricordi che, dato un numero reale f:), il numero complesso
e;e = cos(O) +isin(O)
ha modulo 1 (nel piano di Argand-Gauss corrisponde al raggio della circonferenza unitaria
che forma un angolo orientato f:) con il semiasse positivo delle x). Dati due numeri reali O! e
(3, i vettori [ei", O] e [O, eil3] formano una base ortonormale di IC 2. La corrispondente matrice
unitaria è
U-_ [eia O .,, ]
O e'"
Più in generale, una matrice n x n diagonale è unitaria se e solo se i suoi elementi sulla
diagonale principale sono numeri complessi di modulo 1, cioè della forma e;e.

1114,,19
A partire dalla base ortonormale di IC 2 formata dai vettori q 1
costruiamo la matrice unitaria:
= v; [1, ife q2 = v; [1, -if

u = v'2
2
[1 1]
i -i

Possiamo controllare che UH sia l'inversa di U:

1[1 - 1+ (-i)
= 2 1+i2
i
2

1 - i2
2
] = ~
2
[2o O]2 =I

1114,,19
Se {q 1 , ... , q n} è una base ortonormale di cn,
allora {<ii, iq 1 , ... , q;:;, iqn} è una base orto-
normale di IR 2 n per l'osservazione a pagina 420. Quindi a ogni matrice unitaria U di ordine
n corrisponde una matrice ortogonale di ordine 2n. Per esempio a

corrisponde la matrice ortogonale

2
r ~ ~1 o~ ~1
o
1
1
o -1
1
o
424 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

Le matrici unitarie rappresentano isometrie di cn:

PROPOSIZIONE 8. 7 (Matrici unitarie rappresentano isometrie)


Per una matrice quadrata complessa U di ordine n le seguenti condizioni sono
equivalenti:
a) U è unitaria: UHU =I;

b) U preserva la norma dei vettori:

llUzl l = llzll per ogni z E <Cn

(in altri termini, u rappresenta un isometria di cn);


c) U preserva il prodotto hermitiano:

< Uz, Uw > = < z, w > per ogni z, w E cn

DIMOSTRAZIONE. La dimostrazione è sostanzialmente identica a quella della proposi-


zione 4.9. •

COROLLARIO 8.8 (Autovalori di una matrice unitaria)


Sia U una matrice unitaria, e sia À un autovalore di U. Allora IÀI = 1. In
particolare, gli autovalori di una matrice ortogonale reale hanno modulo 1.

DIMOSTRAZIONE. Siccome U è unitaria, llzll = llUzll per ogni z E cn. Se z è un autovettore


relativo a À, allora
llzll = llUzll = 11>-zl l = l>-1 llz ll
Dividendo per Ilz lI si trova l>-1 = 1. Una matrice ortogonale è unitaria, per cui quanto appena
dimostrato vale per le matrici ortogonali. •

H@iii@i
Consideriamo la matrice ortogonale che rappresenta la rotazione d i un angolo () in senso
antiorario: Q = [ ~~:m -;,~~cW ).Il polinomio caratteristico di Q è

Gli autovalori di Q sono pertanto À1 = e - iO e À2 = e;e e hanno modulo 1 in accordo con il


corollario precedente. I vettori v1 = [1, if e v2 = [1, - i]T sono autovettori di Q relativi agli
autovalori À1 e À2:

v 2] = [cos( B) - sin( B)]


sin( B) cos( B)
[1 1]
i -i
cos( B) - i sin( B)
[sin( B) +i cos( B)
cos( B) +i sin( B)]
sin( B) - i cos( B)
=
e - iO e;e ] .
· - iO
[ ie
· iO
-ie
= [e - tOVl
© 978-88-08-06401-1 9 Complementi 425

Quindi le colonne di u = V: [; _; l formano una base ortonormale di C 2 costituita da


autovettori di Q . Quindi

Abbiamo così verificato che Q è unitariamente diagonalizzabile, cioè è diagonalizzabile me-


diante una matrice unitaria.

1i1§i4$1
~ Calcolare il prodotto scalare in C 2 dei due vettori z = [2 + i , 3if e w = [2, 4 - i]T.
Calcolare la norma dei due vettori. Scrivere i corrispondenti vettori z e w in IR 4 e calcolarne
il prodotto scalare reale. Verificare la formula (8.4) in questo caso.

·: Data la matrice A= [~-~~], calcolare AH , AH A e AAH.

Trovare una base ortonormale di C 2 il cui primo vettore sia un multiplo complesso di
[i, 2]T. Scrivere la corrispondente matrice unitaria di ordine 2, e verificare che AH A = I.

O Mostrare che il prodotto di due matrici unitarie è una matrice unitaria. Mostrare che
l'inversa di una matrice unitaria è unitaria.

Sia A una matrice quadrata complessa. Che relazione c'è tra il determinante di A e
quello di AH? E tra i polinomi caratteristici delle due matrici? E tra gli autovalori? Mostrare
che r(A) = r(A H) calcolando il rango con il teorema di Kronecker.

Mostrare che, se A è una matrice complessa m x n, il nucleo di A è il complemento


ortogonale in cn
dello spazio colonna di A H. Dedurre che r(A) = r(AH).

Una matrice hermitiana è una matrice complessa B tale che B H = B (l'analogo com-
plesso di una matrice simmetrica). Mostrare che, se A è una matrice complessa m x n, a llora
AH A è una matrice hermitiana n x n , e AA H è una matrice hermitiana m x m . Mostrare
che
r(A) = r(A H) = r(A HA) = r(AA H)

• 9 COMPLEMENTI
9.1 Il teorema di Eulero sulle rotazioni dello spazio
In geometria il teorema di Eulero afferma che nello spazio t ridimensionale ogni movi-
mento rigido che lasci fissa l'origine è una rotazione attorno a un asse di punti fissi.
Un movimento rigido è un 'isometria della spazio che preserva le terne destrorse. Non
è difficile mostrare che un 'isometria che lascia fissa l'origine è lineare, e quindi corri-
sponde a una matrice ortogonale. Quindi il teorema di Eulero è equivalente a dire che
ogni matrice ortogonale di ordine tre con determinante 1 rappresenta una rotazione
dello spazio attorno a un asse. Una conseguenza importante è che la composta di
due rotazioni, anche attorno ad assi distinti, è ancora una rotazione. La formulazione
originale di Eulero era più o meno questa: se si muove una sfera lasciando fisso il
suo centro, è sempre possibile trovare un diametro della sfera che è lasciato invariato
426 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

dal movimento. Tale diametro è un autovettore relativo all'autovalore À = 1 della


rotazione.

TEOREMA 9.1 (Teorema di Eulero)


Sia Q una matrice ortogonale reale di ordine 3 con determinante uguale a 1.
Allora l'applicazione che a un vettore x E JR 3 associa Qx è una rotazione attorno
a un asse. Più precisamente Q ha À = 1 come autovalore e, se Q -:f. I, l'asse di
rotazione è l'autospazio relativo all'autovalore 1; l'angolo a di rotazione si può
ricavare dalla formula
tr(Q) = 1+2cos(a)

DIMOSTRAZIONE. Il polinomio caratteristico di Q è un polinomio di terzo grado a coeffi-


cienti reali, per cui ha almeno una radice reale µ . Siccome Q è ortogonale, il modulo di µ è
1, quindiµ è +1 o -1.
Ci sono due casi possibili:

a) il polinomio caratteristico ha 3 radici reali: siccome le radici sono ±1 e il loro prodotto


è il determinante di Q , che per ipotesi vale 1, almeno una delle radici è +1.
b) il polinomio caratteristico ha 1 radice reale µ = ±1 e 2 radici complesse coniugate À e :\.
Allora
1 = det(Q) = µ>..:\
Siccome >..>.. è positivo , concludiamo che la radice reale è µ = +1.
Quindi in entrambi i casi +1 è un autovalore di Q e perciò esiste un versore v E JR 3 tale che
Qv = v. Possiamo scegliere altri due versori w e z in modo che w , z , v formino una base
ortonormale di JR 3 . Sia P la matrice che ha per colonne w, z e v . Per costruzione P è una
matrice ortogonale.
Sia M la matrice che rappresenta l'applicazione x f-+ Qx rispetto alla base {w,z,v} .
Siccome Qv = v , la matrice M è della forma

M=[~~~i
f e 1

D'altra parte,

è ortogonale in quanto prodotto di matrici ortogonali. In particolare, le colonne di M sono


ortogonali tra loro, per cui e = f = O. Ma allora anche la sotto matrice [ ~ ~] è ortogonale con
determinante uguale a 1.
Per la classificazione delle matrici ortogonali di ordine 2 possiamo concludere che esiste
un angolo a tale che:
cos(a) - sin( a) O]
M = sin(a) cos(a) O
[ o o 1
L'applicazione X f-+ MX è quindi una rotazione di un angolo a attorno all'asse zeta delle
coordinate X. Tale applicazione coincide con l'applicazione x f-+ Qx via il cambiamento
di coordinate x = PX. Siccome l'asse zeta delle coordinate X è la retta generata da v,
concludiamo che Q rappresenta una rotazione di un angolo a attorno alla retta generata
da V.
© 978-88-08-06401-1 9 Complementi 427

V
V - VH = V.L

Figura 9.1. La riflessione ortogonale Q di P rispetto al sottospazio H.

Per trovare l'angolo di rotazione, notiamo che la traccia della matrice M è

tr(M) = 1 + 2 cos(a)
Ma la traccia, che è un coefficiente del polinomio caratteristico, è invariante per similitudine,
per cui tr(Q) = tr(M), e quindi

tr(Q) = 1 + 2 cos(a)
In conclusione, per trovare l'asse e il coseno dell'angolo di rotazione, non occorre determinare
M, ma è sufficiente calcolare la traccia di Q e l'autovettore di Q relativo all'autovalore
~=1. •

9.2 Riflessioni ortogonali


Nel piano cartesiano, la riflessione ortogonale rispetto a una retta r, detta asse della
riflessione, è l'applicazione ~ così definita: a un punto P la riflessione ~ associa il
punto Q tale che la retta s per P e Q sia ortogonale a r e l'intersezione M di r ed s
sia il punto medio del segmento PQ . In altre parole, la retta PQ è ortogonale a r, i
due punti P e Q hanno la stessa distanza dar, ma giacciono da parti opposte rispetto
a r; si dice che r è l'asse del segmento PQ.
Per tradurre la costruzione in termini di vettori, fissiamo l'origine delle coordinate
----+
O sulla retta r. Se v = OP è il vettore posizione di P, la proiezione ortogonale di v
su r è il vettore posizione v r di M , che è il piede della perpendicolare a r che passa
per P: ----+ _____. _____.
OP=v=vr+vJ.. = OM +MP
Il vettore posizione di Q = ~(P) è
---+ -------t -------t -------t -------t
(9.1) OQ = OM +MQ =OM-MP=vr-VJ.. =v-2vJ..

Più in generale, in JRn (o in uno spazio euclideo finito dimensionale) possiamo consi-
derare la riflessione ortogonale rispetto a un qualsiasi sottospazio H: definiamo tale
riflessione come l'unica funzione 91 : JRn --+ ]Rn tale che, per ogni v E JRn ,
428 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

a) la proiezione ortogonale di 91(v) su H è uguale a quella div ;

b) la proiezione ortogonale di 91(v) su H .L è l'opposto di quella div.

Per vedere che esiste un 'unica funzione con queste proprietà, scriviamo v = Vtt + v .L
come somma delle sue proiezioni ortogonali su H e H .L. Da a) e da b) deduciamo

(9.2) 91( V) = VH - V J_ =V - 2v J_

Questo mostra l'esistenza e l'unicità di 91 e anche che 91 è un'applicazione lineare.


Un utile esercizio è verificare le seguenti proprietà di 91:

i) 91 è un'isometria;

ii) se H ha dimensione d, la riflessione 91 ha l'autovalore À = 1 con molteplicità


algebrica e geometrica uguali ad e l'autovalore À = -1 con molteplicità algebrica
e geometrica uguali a n - d;

iii) esiste una base ortonormale di JRn rispetto alla quale la matrice che rappresenta
91 è la matrice diagonale che ha sulla diagonale principale d elementi uguali a 1
ed n - d elementi uguali a - 1;

iv) la matrice che rappresenta 91 rispetto alla base canonica è

R=I-2P

dove P è la matrice della proiezione ortogonale su H .L . La matrice R è ortogonale


e simmetrica.

v) esiste una matrice ortogonale Q tale che

dove D è la matrice diagonale che ha sulla diagonale principale d elementi uguali


a 1 ed n - d elementi uguali a -1. In particolare, det(R) = ( -1 r-d.
DIMOSTRAZIONE. Per il teorema di Pitagora

quindi SJt è un isometria.


Se v E H , allora v .L = O e quindi SJt(v) = v. Questo significa che H è contenuto
nell'autospazio relativo all'autovalore 1. Se v E H .L, allora VH = O e quindi SJt(v) = -v.
Questo significa che H .L è contenuto nell'autospazio relativo all'autovalore -1. Esiste una
base ortonormale di JRn formata da vettori di H e di H .L . Questa è una base di JRn formata
da autovettori di SJt, e tra questi d sono relativi all'autovalore 1 ed n - d all'autovalore -1.
Questo mostra ii) e iii). Per il punto iv) osserviamo che

SJt(v) = v - 2v .L =lv - 2Pv = (I - 2P)v

Quest'uguaglianza ci dice che I - 2P è la matrice di SJt: Si tratta di una matrice ortogonale


perché SJt è un'isometria ed è simmetrica perché I e P sono simmetriche. •
© 978-88-08-06401-1 9 Complementi 429

•+H.141!1
Supponiamo che H sia un iperpiano di JRn, cioè abbia dimensione n-1, e che n sia un versore
ortogonale ad H. Allora nnT è la matrice della proiezione su H j_, per cui la matrice della
riflessione ortogonale rispetto ad H è

R= I-2nnT

Per esempio, se H è l'iperpiano di JR 4 di equazione x 1 +x2 +x3 +x4 =O, la direzione normale
al piano è quella di w = [1, 1, 1, l f , e

WWT
R = l - 2 11wll 2 =

1
r~ ~ ~ ~1 r-~
-1 - 1
ol o1 oo o01 1 1
-11
-1 -1
- oo1 o 2 1 1 1 1 2 -1 -1 1 -1
ro o o 1 1 1 1 1 -1 -1 -1 1

•+u;;s•
~ Si consideri la matrice

A=
o1 o]
[O1 oO o1
a) Si spieghi perché A è la matrice d i una rotazione di JR 3 . Si determinino l'asse e l'angolo
di rotazione.
b) Si determinino gli autovalori di A . La matrice è diagonalizzabile da una matrice com-
plessa? E da una matrice reale?
c) Si determini una matrice ortogonale reale Q tale che

cos(e) - sin( e) O]
Q T AQ = sin (8) cos(e) O
[ o o 1

~ In JR 2 il versore n = [-sin( a), cos(a)]T è ortogonale alla retta r che ha coefficiente


angolare tg(a). Concludere che la matrice della riflessione ortogonale rispetto alla retta r è

R =1_ 2 nnT = [cos(2a) sin(2a) ]


sm(2a) - cos(2a)

( cf. pagina 245) .

i
~ Mostrare che la matrice n x n

n-2 -2
-2 n-2 -2
- 2
R=~
n
-2 - 2 n~2
430 Capitolo 8. Spazi euclidei © 978-88-08-06401-1

è la matrice della riflessione ortogonale di llr rispetto all'iperpiano di equazione XI+· +xn =
O. Concludere che R è una matrice ortogonale, con un autovalore semplice À = -1 e un
autovalore regolare À = 1 di molteplicità n - 1. In particolare, il determinante di R è -1 e
il polinomio caratteristico di R è (-l)n(À + l)(..\- l)n- 1 . Per n = 2 si tratta della matrice

R= [O -1]o
-1

e per n = 3 della matrice

[ ~2
- 2 - 2
~2 =~]
1
Teoremi spettrali
9 e forme quadratiche

• 1 INTRODUZIONE
Una matrice quadrata A di ordine n si può diagonalizzare, e così semplificare drasti-
camente, se JRn o cn ammette una base formata da autovettori di A . Nel migliQre dei
casi è possibile scegliere una base ortonormale formata da autovettori della matrice;
in questo caso il cambiamento di variabili che diagonalizza la matrice è un'isometria,
preserva cioè distanze e angoli; la semplificazione del problema non comporta una
deformazione dello spazio ambiente. Il primo importante teorema di questo capitolo,
che è uno dei risultati più ricchi di applicazioni dell'algebra lineare, afferma che esiste
una base ortonormale formata da autovettori di A precisamente quando A è una
matrice simmetrica. Le matrici simmetriche rappresentano importanti applicazioni
lineari, per esempio le proiezioni ortogonali e le riflessioni ortogonali, ma il più delle
volte l'interesse per le matrici simmetriche nasce dal loro utilizzo per descrivere le
form e quadratiche. Una forma quadratica è un polinomio omogeneo di secondo grado;
per esempio una forma quadratica in due variabili x e y è un polinomio della forma

q(x , y) = ax
2
+ 2bxy + cy 2 = [x y] [~ ~] [~]
I coefficienti del polinomio sono gli elementi della matrice simmetrica A = [b ~ J . Ana-
logamente, una forma quadratica in n variabili x = [x 1 , ... , xnJT
si può scrivere nella
forma q(x) = xT Ax dove A è una matrice simmetrica di ordine n. Il più importante
esempio di forma quadratica è il differenziale secondo di una funzione j(x 1, ... , Xn);
in questo caso la matrice A è la matrice hessiana di f , i cui elementi sono le derivate
parziali seconde di J. Molte grandezze delle scienze naturali si esprimono mediante
forme quadratiche. Per esempio, per un corpo rigido in rotazione, il tensore di inerzia è
una forma quadratica nelle componenti della velocità angolare. Un altro esempio, che
discutiamo brevemente in questo capitolo, è fornito dalla geometria differenziale: la
prima e la seconda forma fondamentale di una superficie in JR 3 consentono di calcolare
lunghezze, angoli e curvature della superficie. Nel contesto delle forme quadratiche, il
teorema spettrale garantisce che è possibile trovare un'isometria x = QX che trasfor-
ma la forma generica in una forma in cui compaiono soltanto i quadrati delle variabili.
432 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Si vede così che gli assi del nuovo sistema di riferimento, sono assi di simmetria per gli
insiemi di livello q(x) = e della forma quadratica: il teorema spettrale garantisce che
tali assi sono a due a due ortogonali ed è perciò noto anche come teorema degli assi
principali. Nel caso di due variabili, le curve di livello q(x , y) = e sono delle coniche
a centro (ellissi o iperboli) e gli assi di una conica a centro sono perciò ortogonali
tra loro. Nel caso del tensore di inerzia di un corpo rigido , la superficie di livello 1 è
l'ellissoide d'inerzia, i cui assi di simmetria sono gli assi principali d 'inerzia del corpo
rigido: di nuovo , p er il teorema spettrale, tali assi sono a due a due ortogonali. Nelle
applicazioni è fondamentale determinare il segno di una forma quadratica e a que-
sto problema è dedicata gran parte del paragrafo sulle forme quadratiche; tra l'altro
dimostriamo i criteri di positività forniti dagli autovalori e dai minori principali di
nord-ovest della matrice. In particolare, studiamo le matrici definite positive di cui
ricaviamo la fattorizzazione di Cholesky (o equivalentemente la fattorizzazione LU
simmetrica).
Nel terzo paragrafo del capitolo descriviamo la decomposizione ai valori singolari di
una matrice qualsiasi; questa decomposizione fornisce un utile surrogato del teorema
spettrale per una matrice arbitraria e gioca un ruolo sempre più importante nelle
applicazioni dell'algebra lineare. Nel quarto paragrafo illustriamo il teorema spettrale
complesso, che caratterizza le matrici N per cui esiste una base ortonormale di cn
formata da autovettori di N. Tali matrici si dicono normali e costituiscono una classe
molto più ampia delle matrici simmetriche; per esempio le matrici ortogonali e le
matrici antisimmetriche sono normali. Questo ci permette, nel paragrafo successivo,
di fornire una forma canonica semplice, anche se non diagonale, per una matrice
normale reale. Infine, nell'ultimo paragrafo usiamo il teorema spettrale per ricavare
l'equazione canonica di una quadrica in IR.n. Una quadrica è un 'ipersuperficie definita
da una equazione di secondo grado; in particolare, ricaviamo le equazioni canoniche
di una conica del piano.

• 2 TEOREMA SPETTRALE
In questo paragrafo tutte le matrici sono a elementi reali; una matrice simmetrica A
è una matrice quadrata a elementi reali tale che A T = A; una matrice ortogonale Q
è una matrice quadrata a elementi reali tale che qr = q - 1 .

DEFINIZIONE 2.1 (Matrici ortogonalmente diagonalizzabili)


Sia A una matrice quadrata reale. Si dice che A è ortogonalmente diagonaliz-
zabile se esiste una matrice ortogonale Q tale che q- 1 AQ sia diagonale.

OSSERVAZIONE Una matrice A quadrata di ordine n è ortogonalmente diagonaliz-


zabile se e solo se esiste una base ortonormale di IR.n i cui elementi sono autovettori
di A . Supponiamo infatti che A e Q siano matrici n x n. La matrice Q è ortogo-
nale se e solo se le sue colonne q 1 , ... , qn formano una base ortonormale di IR.n. Se
D = diag(.\ 1 , . . . , Àn), allora l'uguaglianza D = q - 1 AQ equivale a

per k = 1, 2, ... , n
© 978-88-08-06401-1 2 Teorema spettrale 433

Quindi A è ortogonalmente diagonalizzabile se e solo se esiste una base ortonormale


{q 1 , ... , qn} di ffi.n i cui elementi sono autovettori di A.

OSSERVAZIONE L'inversa di una matrice ortogonale Q è la matrice trasposta QT,


per cui

Il risultato principale di questo paragrafo è il teorema spettrale secondo il quale una


matrice è ortogonalmente diagonalizzabile se e solo se è simmetrica. Un'implicazione
del teorema è semplice: se A è ortogonalmente diagonalizzabile, allora A è simmetrica.
Infatti, se esiste una matrice ortogonale Q tale che D = QT AQ sia diagonale, allora
A= QDQT e

Si osservi che nel penultimo passaggio abbiamo usato il fatto che una matrice diagonale
è simmetrica. La parte profonda del teorema spettrale è l'altra implicazione: se A è
simmetrica, allora A è ortogonalmente diagonalizzabile. Cominciamo col mostrare che
gli autovalori di una matrice simmetrica sono reali.

PROPOSIZIONE 2.2 Gli autovalori di una matrice simmetrica sono reali.

DIMOSTRAZIONE. Sia À un autovalore di A . A priori, À è un numero complesso; possiamo


comunque trovare un autovettore complesso relativo a À, cioè un vettore non nullo v E cn
tale che Av = >.v . Si ricordi che il prodotto hermitiano di due vettori di cn è definito dalla
formula
n
< z, w >= WH z = L Zk'iih
k=l

dove wH è il coniugato del vettore w T. Questo prodotto è lineare in z e sequilineare in w ;


in particolare

< tz,w > = t < z, w > e < z,tw > = t < z, w > per ogni t E C

L'idea è di calcolare i prodotti hermitiani < Av, v > e < v , Av > e di sfruttare la
simmetria di A per mostrare che sono uguali. Il primo di questi prodotti è

< Av , v >=< Àv, v >= À < v, v >= >.ilvll 2


Il secondo prodotto è
2
< v , Av >=< v, Àv >=X< v , v >= X11vl l
Siccome A è una matrice simmetrica reale, A è uguale alla sua matrice trasposta coniugata
AH , e i due prodotti hermitiani che stiamo considerando sono uguali:

< v, Av >= (Av)Hv = vH AHv = vH Av =< Av , v >

Perciò
434 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Siccome v è non nullo , la sua norma llvll è un numero diverso da zero; possiamo quindi
dividere l'uguaglianza precedente per llv ll2 ottenendo >. = >:. Questo mostra che la parte
immaginaria di >. è nulla e conclude, quindi, la dimostrazione. •

PROPOSIZIONE 2.3 (Ortogonalità degli autovettori di una matrice


simmetrica) Sia A una matrice simmetrica. Supponiamo che À e µ siano
autovalori distinti di A e che v e w siano autovettori di A relativi a À e µ
rispettivamente. Allora v e w sono ortogonali.

DIMOSTRAZIONE. Se n è l'ordine di A, gli autovettori appartengono a llr e dobbiamo


mostrare che il loro prodotto scalare < v , w >= vT w è nullo. Siccome A è simmetrica, i
prodotti scalari < A v , w > e < v , A w > sono uguali:

<Av , w>= (Av)Tw = vTATw = vTAw =<v,Aw>

Ora usiamo il fatto che v è un autovettore di A relativo a >., cioè A v = >. v :


<Av,w>=<>.v , w>= >. <v , w>

Analogamente, siccome A w = µ w

<v,Aw>=<v,µw>= µ <v , w>

Quindi>. < v, w > = µ < v , w > . Poiché per ipotesi>.-/=µ, dev'essere< v , w > = O. •

Supponiamo ora che A sia una matrice simmetrica di ordine n che abbia n autovalori
distinti .\ 1 , À2, ... , Àn· Per la proposizione 2.2 gli autovalori sono reali; per ogni auto-
valore Àk scegliamo un corrispondente autovettore vk E rn;n . Per la proposizione 2.3
gli autovettori v 1 , v 2 , ... , Vn sono a due a due ortogonali, e quindi formano una base
ortogonale di rn;n . Normalizziamo gli autovettori vk definendo

per ogni k = 1, 2, . . . , n

Per costruzione Qk è un versore ed è un autovettore di A relativo a Àk. Abbiamo


così costruito una base ortonormale {q 1 , . .. , qn} di rn;n formata da autovettori di A,
sotto le ipotesi che A sia simmetrica e abbia autovalori distinti. Quest'ultima ipotesi
in realtà non è necessaria:

TEOREMA 2.4 (Teorema spettrale o degli assi principali)


Una matrice simmetrica reale è ortogonalmente diagonalizzabile.

DIMOSTRAZIONE. Dimostriamo il teorema per induzione sull'ordine n della matrice. Il caso


iniziale n = 1 è ovvio: ogni matrice 1 x 1 è diagonale, ammette 1 come autovettore, e {1} è
una base ortonormale di JR.
Sia ora n 2: 2 e supponiamo che il teorema sia vero per matrici simmetriche di ordine
n - 1: dobbiamo dimostrarlo per una matrice simmetrica A di ordine n. Per il teorema
fondamentale dell'algebra il polinomio caratteristico det(A - >.I) = O ha una radice .\1 E C.
In quanto radice del polinomio caratteristico, il numero complesso .\ 1 è un autovalore di A;
© 978-88-08-06401-1 2 Teorema spettrale 435

dalla proposizione 2.2 segue che >. 1 è reale . Esiste perciò un autovettore Q1 E Rn relativo a
>. 1 e di norma 1. Possiamo trovare una base di Rn il cui primo elemento sia Q1 e poi applicare
l'algoritmo di Gram-Schmidt per ottenere una base ortonormale {q1 , b 2 . .. , b n} di Rn. Sia
P = [q 1 b2 · · · b n] la corrispondente matrice ortogonale. La matrice C = p - 1 AP = p T AP
rappresenta 1'applicazione lineare ~A rispetto alla base { q 1 , b 2 . .. , bn}; in particolare, la
prima colonna di C è il vettore delle coordinate di ~A(q 1 ) rispetto a tale base, cioè

D 'altra parte, ~A ( Q 1) = Aq1 = À1Q1. Confrontando queste due espressioni concludiamo che
cu = >.1 e Cjl = o per j = 2, .. . ) n. Osserviamo ora che la matrice e è simmetrica perché è
ortogonalmente simile alla matrice simmetrica A :

Quindi C1j = Cjl =o per j = 2, . .. ) n . La matrice e è p erciò della forma

C= [~1 f~]
dove O denota il vettore nullo di Rn-l, e A 1 è una matrice quadrata di ordine n-1. Siccome
C è simmetrica, anche A 1 è simmetrica. Per l'ipotesi di induzione A1 è ortogonalmente
diagonalizzabile: esiste una matrice ortogonale Q 1 di ordine n-1 tale che Q f A1 Q 1 = D1 è
diagonale. La matrice

R=[*]
è ortogonale perché Q 1 lo è, e

La matrice D è diagonale perché D 1 lo è. Infine sia Q = PR. La matrice Q è ortogonale


perché prodotto di matrici ortogonali, e

Siccome Q è ortogonale e D è diagonale, questo completa la dimostrazione.



COROLLARIO 2.5 (Autospazi di una matrice simmetrica)
Sia A una matrice simmetrica di ordine ne siano >. 1 , >. 2 , . .. , À s i suoi autovalori
distinti. Sia V j l'autospazio relativo all'autovalore >.j:
Vj={xElRn: Ax=Àjx}
e sia B j una base ortonormale di V j.
Allora
a) l'unione B1 U · · · U Bs è una base ortonormale di JRn ;
b) V1+V2+·· · +Vs=lRn;
e) gli autospazi Vi sono a due a due ortogonali.
436 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

DIMOSTRAZIONE. Per il teorema spettrale ogni matrice simmetrica è diagonalizzabile. Nel


capitolo sugli autovalori e autovettori abbiamo definito la molteplicità geometrica di Àj come
la dimensione di Vj e abbiamo mostrato che per ogni matrice diagonalizzabile di ordine n, la
somma delle molteplicità geometriche degli autovalori è n. Quindi l'unione B = B1 U · · · U Bs
consiste di n versori, e per mostrare che si tratta di una base ortonormale occorre solo far
vedere che tali versori sono a due a due ortogonali. Siano q e q' due versori in B. Se B1 U· · ·UBs
sono autovettori relativi allo stesso autovalore Àj, cioè appartengono entrambi a Bj, allora
sono ortogonali perché Bj è per ipotesi ortonormale. Se invece q e q' sono autovettori relativi
ad autovalori distinti, allora sono ortogonali per la proposizione 2.3 . Questo mostra il primo
punto . Il secondo punto è ora evidente . Il terzo punto significa che, se i i= j , v E V; e
w E Vj, allora v è ortogonale a w; e questo è vero per la proposizione 2.3. •

OSSERVAZIONE Per costruire una base ortonormale di !Rn formata da autovettori


di una matrice simmetrica A si procede come suggerito dal corollario precedente: per
ogni autovalore Àj di A, si costruisce una base di Vj = Ker(A - Àjl) risolvendo il
sistema (A - Àjl)x = O; dopodiché si trasforma tale base in una base ortonormale
con l'algoritmo di Gram-Schmidt, infine, si prende l'unione delle basi ortonormali dei
singoli autospazi .

OSSERVAZIONE Ogni base ortonormale di !Rn formata da autovettori di A è l'unione


di basi ortonormali dei singoli autospazi come nel corollario 2.5. Infatti, dato una
autovalore À, ogni base formata da autovettori contiene un numero di autovettori
relativi a À pari alla molteplicità geometrica di À; tali autovettori sono linearmente
indipendenti e formano una base dell'autospazio V,\·

OSSERVAZIONE Se si hanno a disposizione i risultati del paragrafo sulla forma ca-


nonica di Jordan, la dimostrazione del teorema spettrale si semplifica. Infatti, per
mostrare che la matrice A è diagonalizzabile basta dimostrare che ogni autovalore ha
indice 1, cioè Ker(A-ÀI) = Ker ((A- >.1) 2 ). Poniamo B =A- >.I. La matrice B è
simmetrica, quindi B = BT e B 2 = BTB. Come abbiamo dimostrato nel paragrafo
sui minimi quadrati, Ker(B) = Ker(BTB). Quindi ogni autovalore di A ha indice
1 e A è diagonalizzabile. Questa osservazione, insieme al fatto che gli autovalori di
A sono reali e che autovettori corrispondenti ad autovalori distinti sono ortogonali,
dimostra il teorema spettrale. Il corollario 2.5 segue poi dal fatto che, se una matrice
A è diagonalizzabile su JR, allora !Rn è la somma diretta degli autospazi di A.
Il corollario 2.5 si può riformulare in modo algebrico:

COROLLARIO 2.6 (Decomposizione spettrale)


Sia A una matrice simmetrica e siano >. 1 , >. 2 , ..• , Às i suoi autovalori distinti.
Sia Pj la matrice della proiezione ortogonale sull'autospazio Vi relativo a Àj·
Allora:

a) A= À1P1 + · · · + ÀsP si

b) l=P1+ .. ·+Ps;

c) le matrici Pj sono simmetriche, PJ = P 1, e PiPj =O se i f. j.


© 978-88-08-06401-1 2 Teorema spettrale 437

DIMOSTRAZIONE. Per il teorema spettrale esiste una matrice ortogonale Q tale che
QT AQ = diag(µ 1 , ... , µn) (scriviamo µ; e non Àj perché non è detto che gli autovalori
µ; siano distinti) . Detta Qk la colonna k di Q, valgono le uguaglianze:

1 = QQr = q1qf + q2qr + · · · + qnq;z:,


A = QDQT = µ1q1qf + µ2q2qI + · · · + µnqnq?:

Possiamo raggruppare i termini ·corrispondenti a uno stesso autovalore: se g(j) è la moltepli-


cità di Àj, allora esistono g(j) indici k1, ... , kg(j) tali che µki = À j, e { Qk 1 , ... , Qk 9 (j)} è una
base ortonormale di Vj Nel capitolo sugli spazi euclidei, proposizione 7.1, abbiamo mostrato
che la matrice che rappresenta la proiezione ortogonale di IE.n sul sottospazio Vj è la matrice
simmetrica

Otteniamo così:

I= P1+P2+···+Ps,
A = À1P1 + >..2P2 + · · · + >.. .P s

Per terminare la dimostrazione fissiamo un vettore x E !Rn e un indice j e poniamo p =


Pj(x) E Vj. Allora Pi(P) = p perché Pj rappresenta la proiezione su Vj, mentre, se i =I= j,
P;p =O perché p E Vj ç Vf . Quindi PJx = Pjx e PiPjx =O. Siccome x è arbitrario, ne
segue che PJ = Pj, e PiPj =O se i =I= j.

L'insieme degli autovalori di A si dice lo spettro di A e la decomposizione

(2.1)

si dice decomposizione spettrale di A, da cui il nome del teorema.

OSSERVAZIONE La decomposizione spettrale ha importanti conseguenze. Per esem-


pio, dalla (2.1) segue che per ogni intero positivo p

(2.2)

Questa formula vale anche per p negativi se A è invertibile, cioè se ogni autovalore è
diverso da zero. In particolare

(2.3)

Possiamo spingerci oltre: per ogni funzione f(x) il cui dominio contenga gli autovalori
di A, possiamo definire la matrice f (A) mediante la formula

(2.4) f (A) = f (À1) P1 + · · · + f (Às) P s


Per esempio, prendendo f (x) = fi, possiamo definire VA a condizione che gli
autovalori di A siano maggiori o uguali a zero:

(2.5)

Lasciamo al lettore il compito di verificare che VA è l'unica matrice simmetrica con


autovalori ~ O il cui quadrato sia A.
438 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Consideriamo la matrice

A= [-~-:~i
o o 1
Il polinomio caratteristico di A è -(À - 1)2(>, - 9). Gli autovalori distinti di A sono À1 = 1,
che ha molteplicità 2 e À2 = 9, che è semplice. L'autospazio V 1 relativo a À1 = 1 è il piano
di equazione X1 - x2 = O, una cui base ortonormale è formata dai vettori

L'autospazio V2 relativo a À2 = 9 è la retta di equazioni X1 + x2 = X3 = O, una cui


base ortonormale è formata dal versore q3 = ~ [1, -1, O]T. Una matrice ortogonale che
diagonalizza A è quindi

La matrice diagonale a cui A è ortogonalmente simile è

D = QT AQ = diag(l , 1, 9)
Per scrivere la decomposizione spettrale di A calcoliamo le matrici delle proiezioni sugli
autospazi:
1 1

~l ~] ~]
-2 2
1 1
P2 = q3q§ = -2 e P1 = I-P2 = 2
[ o [! o
La decomposizione spettrale di A è perciò:
1 1

-i ~]
2 -2
o] [
A= P1 +9P2 =
[!
1
2
o
~ +9
1 1
-2
o
Da questo segue per esempio che

Il lettore dovrebbe verificare che ( VA) 2 = A e che gli autovalori di VA sono .\ 1 1 e


À2 = 3.

1{1§Ui!4!i
Matrici ortogonali simmetriche
In questo esempio mostriamo che le matrici ortogonali simmetriche sono precisamente le
matrici delle riflessioni ortogonali (che abbiamo già studiato nei complementi del capitolo
sugli spazi euclidei). Supponiamo che una matrice reale R sia ortogonale e simmetrica. Gli
© 978-88-08-06401-1 2 Teorema spettrale 439

autovalori di R sono reali perché R è simmetrica, e hanno modulo 1 perché R è ortogonale.


Pertanto una matrice ortogonale simmetrica ha solo gli autovalori >. 1 = 1 e À2 = -1. La
decomposizione spettrale di R è quindi:

Si noti che P1 è la proiezione ortogonale sull'autospazio V i relativo a À1 = 1; questo au-


tospazio è l'asse della riflessione, cioè il luogo dei punti lasciati fissi dalla riflessione. Invece
P2 è la proiezione sull'autospazio V2 relativo a À2 = -1 , che è il complemento ortogonale
di V 1 e consiste dei vettori che sono mandati nel proprio opposto dalla riflessione. Il caso
più comune nelle applicazioni è quello in cui V 1 sia un iperpiano; in tal caso V 2 è la retta
normale a V 1 e una sua base ortonormale non è altro che un versore n normale a V 1 ; la
matrice della riflessione in questo caso è R =I - 2nnr.

O La matrice identità e la matrice nulla sono simmetriche? Sono matrici di proiezione?


Su quale sottospazio ? Una matrice diagonale è simmetrica? Quali matrici diagonali sono
matrici di proiezione ? Qual è la decomposizione spettrale di una matrice diagonale?

O Siano A e B due matrici simmetriche di ordine n. Mostrare che, se AB = BA, a llora


AB è simmetrica. L'ipotesi AB= BA è necessaria?

O Per ciascuna delle seguenti matrici simmetriche A

1 2] [2 2] [cos( B) sin( B) ]
[ 2 1 ' 2 - 2 ' sin( B) - cos( B) '
[~ ~ ~i
0 2 2

si trovi una matrice ortogonale Q che diagonalizza A, e si scriva la decomposizione spettrale


di A. Si scriva poi la decomposizione spettrale di A 3 e di A - l.

O Si trovi una base ortonormale di JR 3 formata da autovettori della matrice A= [-i3-10]


~g.
Si scriva la decomposizione spettrale di A e si calcoli VA.. Si verifichi che VA è simmetrica
con autovalori 2: O e che ( VA) 2 = A.

O Si consideri la matrice

A=[;~~i
-2 o 2
Per quali valori di k la matrice è ortogonalmente diagonalizzabile? Per tali valori di k si
trovino una matrice ortogonale Q e una matrice diagonale D tali che D = Q T AQ e si scriva
il polinomio caratteristico di A 3 .

O Sia { e 1 , e2 , e3} la base canonica di JR 3 . Sia ,C : JR 3 ----> JR 3 l'applicazione lineare tale che

Trovare la matrice A che rappresenta ,C rispetto alla base canonica. Trovare, se esiste, una
matrice ortogonale Q tale che Q - 1 AQ sia diagonale. La matrice A 4 ha una base ortonormale
di autovettori?
440 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

O Si consideri la matrice

i i -i -ii
-1 1 1 1
r 1 -1 1 1

Posto V 1 = Ker( A - I) e V - 1 = Ker( A+ I), determinare una base di V 1 e una base di V - 1,


e verificare che dim V 1 + dim V -1 = 4. Qual è il polinomio caratteristico di A? Determinare
se possibile una matrice ortogonale Q e una matrice diagonale D tali che QT AQ =D.

O Mostrare che, se w è un vettore non nullo di JRn , la matrice

2 T
Q=l---ww
wTw

è una matrice n x n ortogonale e simmetrica; scrivere tale matrice quando n = 3 e w è un


vettore perpendicolare al sottospazio di equazione x 1 + x2 - X3 = O.

O Calcolare gli autovalori di

A= [
-2 1
~~-~i5
e dedurre che A è uguale a 6P dove P è una matrice di proiezione ortogonale. Trovare una
base ortonormale di JR 3 formata da autovettori di A .

«!) Per quali valori del parametro reale a la matrice

A=
10
O 9 2
2a al
[ o 2 6

è diagonalizzabile? Per tali valori si determini, se possibile, una base ortonormale di JR 3


formata da autovettori di A .

• Sia 1.J3 : JRn -> R n la proiezione ortogonale su un sottospazio H di dimensione d. Qual è


il polinomio caratteristico di l.J3 ?

e Un autovettore di una matrice simmetrica è necessariamente un versore? Quali matrici


simmetriche hanno due autovettori linearmente indipendenti, ma non ortogonali tra loro?

(!) Sia A una matrice diagonalizzabile e sia À un autovalore di A. Mostrare che >. 2 è un
autovalore di A 2 e che l'autospazio di A 2 relativo a >. 2 coincide con l'autospazio di A relativo
a À. Mostrare che questo non è necessariamente vero per una matrice non diagonalizzabile.

fD Sia A una matrice simmetrica con autovalori 2: O. Mostrare che esiste un'unica matrice
simmetrica B con autovalori 2: O tale che B 2 = A .
© 978-88-08-06401-1 3 Forme quadratiche 441

• 3 FORME QUADRATICHE
Questo paragrafo è dedicato allo studio delle forme quadratiche reali e del loro se-
gno. Si tratta di un argomento ricco di applicazioni, in primo luogo ai problemi di
ottimizzazione per le funzioni di più variabili.
Il termine forma significa polinomio omogeneo, cioè un polinomio i cui monomi
hanno tutti lo stesso grado. Una forma si dice lineare se i suoi monomi hanno grado
1: una forma lineare reale nelle variabili x 1 , x 2 , ... , Xn è quindi una funzione del tipo

,C(x) = a1X1 + a2X2 + · · · anXn


dove i coefficienti ak sono numeri reali e x = [x 1 , . .. , xnV.
In altri termini, una forma
lineare reale non è altro che un'applicazione lineare ,C : JRn ---+ JR e come sappiamo è
rappresentata dal vettore riga aT = [a 1 ,a 2 , ... ,an]·
Una forma si dice quadratica se i suoi monomi hanno grado 2 e si dice reale se i
coefficienti dei monomi sono reali. Una forma quadratica reale nelle variabili x 1 , ... , Xn
è quindi una combinazione lineare, a coefficienti reali, dei quadrati x;
delle variabili
e dei prodotti XiXj di due variabili distinte (possiamo supporre i < j perché XiXj è
uguale a XjXi) · Per scrivere una forma quadratica q(x), denotiamo il coefficiente di
x; col simbolo aii e il coefficiente di XiXj col simbolo 2aij (il fattore 2 è comodo per
motivi che diverranno chiari tra poco), in modo che:
n
(3.1) q(x) =L aii xt + L 2aij XiXj.
i=l

La seconda somma ha tanti addendi quanti sono i prodotti XiXj di 2 variabili distinte,
cioè ~n(n - 1), e i coefficienti di una forma quadratica in tutto sono
1 1
n + 2n(n - 1) = 2n(n + 1)

h@iii!U!i
Nel caso n = 2 di due variabili, la generica forma quadratica ha 3 termini:
q(x1, x2) = au xi + 2a12 x1x2 + a22 x~
La forma quadratica qi (x1, x2) = xi - x~ ha coefficienti au = 1, a22 = -1, ai2 = O. La
forma quadratica q2(x1,x2) = X1X2 ha coefficienti au = a22 =O e ai2 = 1/2. Il più delle
volte scriveremo x e y al posto di X1 e x2, e a, b, e e al posto di au, ai2 e a22:
2 2
q(x, y) = ax + 2bxy + cy

i§@u!!$J
Nel caso n = 3 di tre variabili, la generica forma quadratica ha 6 termini:
= au xi+ a22 x~ + a33 x5 + 2a12 x1x2 + 2a13 x1x3 + 2a23 x2x3.
q(x1, x2, x3)
La forma quadratica q( X1, x2, X3) = xi + x~ + x~ ha coefficienti au = a22 = a33 = 1 e ai2 =
a 1 3 = a23 =O. I coefficienti non nulli della forma quadratica q(x1 , x2,x3) = X1X2 - 6x2x3
sono ai2 = 1/2 e a23 = 3.
442 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

1414,,14
La norma al quadrato di un vettore di Rn (rispetto al prodotto scalare standard) è
n
2
JJxJJ =xTx = LXI
i=l

Si tratta di una forma quadratica. I coefficienti in questo caso sono a;; = 1 e a;1 = O se i < j.
Possiamo rappresentare la forma quadratica (3.1) mediante una matrice simmetrica
A di ordine n nel modo seguente. Per i ::::; j, gli elementi aij di A sono i coefficienti
che compaiono nell'equazione (3.1); gli altri elementi sono definiti per simmetria:
aij = aji se i > j. In altri termini, gli elementi aii sulla diagonale principale di A
sono i coefficienti dei quadrati xt
nella forma quadratica; mentre per i -:/=- j gli elementi
aij sono i coefficienti di XiXj divisi per due. Con questa definizione vale l'uguaglianza
fondamentale

(3.2) q(x) = xT Ax per ogni x E JRn

Infatti

n n
L aij XiXj =L aii x; + L 2aij XiXj
i,j=l i=l l~i <j~n

Nell'ultimo passaggio abbiamo separato i termini coi quadrati delle variabili dai
termini coi prodotti di due variabili distinte e usato il fatto che per i < j

Si dice che A rappresenta la forma quadratica q(x) e che q(x) = xT Ax è la forma


quadratica associata alla matrice simmetrica A.

Nel caso di due variabili, la matrice associata alla forma quadratica q(x, y) = ax 2 + 2bxy +
cy 2 è

La matrice A = [~ 6J ha un unico elemento significativo non nullo b = 1, e la forma quadratica


associata è perciò q(x, y) = 2xy. Possiamo ricavare questa espressione con più fatica dalla
(3.2):

q(x,y)= [x y] [~ ~] [~] = [x y] [;] =xy+yx=2xy


© 978-88-08-06401-1 3 Forme quadratiche 443

•ifo.!!IU
La matrice che rappresenta la forma quadratica q(x1 , x2, x3)

o 1/2 o
1/2 o - 3
[ o -3 o
l = X1X2 - 6x2x3 è

•!1§11!41!1
La matrice che rappresenta una forma quadratica q(x) è diagonale se e solo se nell'espressione
di q(x) compaiono solo i monomi coi quadrati delle variabili:
q(x) = an xi+ a22 x~ + · · · annX~
Per esempio, la matrice che rappresenta Ilxll2 = xT x è la matrice identità.

L'esempio più importante di forma quadratica è il differenziale secondo di una funzione, cioè
il termine di secondo grado nello sviluppo di Taylor. Per fissare le idee, supponiamo che f(x)
sia una funzione reale di classe C 2 (derivate parziali seconde continue) in un intorno U di
O in nr. Il gradiente V f (O) di f in O è il vettore riga che ha come componenti le derivate
parziali if,(o), e la matrice hessiana H1(0) di fin O è la matrice simmetrica che ha come
elemento di posto (i,j) la derivata parziale seconda 8~ ! . (O). La funzione f(x) ammette lo
2

' J
sviluppo di Taylor

f (x) = f (O) +V f (O)x + ~xTHJ (O)x + o(l lxl 12 )


dove il simbolo o(llxll2) denota un'infinitesimo di ordine superiore a llxll2 per x --> O. Il
differenziale secondo di f(x) in O è la forma quadratica x T H1(0)x associata alla matrice
hessiana.
Supponiamo ora di voler determinare se O è un punto di massimo (rispettivamente di
minimo) locale della funzione, cioè se il segno di f (x) - f (O) è sempre S: O (rispettivamente
:'.'.'. O) in un intorno dell'origine. Il termine lineare V f(O)x, se non è nullo, cambia di segno
in un intorno dell'origine. Perciò (teorema di Fermat) il gradiente è nullo se O è un punto
di massimo o di minimo . Lo sviluppo di Taylor ci dice allora che l'incremento della fun-
zione
1 T 2
f(x) - f(O) = 2x H1(0)x + o(jlxll )
è, a meno di infinitesimi di ordine superiore, il differenziale secondo xTH1(0)x , e quindi il
fatto che O sia o meno un punto di massimo o di minimo dipende dal segno del differenziale
secondo.
Motivati dall'esempio precedente, affrontiamo lo studio del segno di una forma qua-
dratica. Facciamo un'osservazione preliminare:

PROPOSIZIONE 3.1 Sia q(x) = xT Ax una forma quadratica in n variabili.


Allora:

a) q(O) =O;
444 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

b) q(tx) = t 2 q(x) per ogni t E R

In particolare, fissato un vettore x 0 E lRn \ O, la forma ha segno costante sulla


retta 1R(x0) generata da xo: se q è positiva (rispettivamente negativa) in xo ,
allora q è positiva (rispettivamente negativa) in ogni punto della retta, con
l'eccezione di O, in cui si annulla; se invece q(x0 ) =O, allora q si annulla in ogni
punto della retta.

DIMOSTRAZIONE. Questo è evidente, perché q(x) è un polinomio omogeneo di secondo


grado nelle variabili x ; . •

DEFINIZIONE 3.2 (Segno di una forma quadratica)


Si dice che una forma quadratica q(x) in n variabili è:

a) definita positiva se q(x) > O per ogni x E lRn \{O};


b) semidefinita positiva se q(x) ~ O per ogni x E lRn ed esiste x -:f. O tale che
q(x) =O;
c) semidefin'ita negativa se q(x) :::; O per ogni x E lRn ed esiste x -:f. O tale che
q(x) =O;
d) definita negativa se q(x) < O per ogni x E lRn \{O};

e) indefinita se esistono x1 e x 2 in lRn tali che q(x 1) < O < q(x2).

Una matrice simmetrica A si dice (semi)definita positiva o (semi)definita ne-


gativa o indefinita a seconda che la forma quadratica xT Ax sia (semi)definita
positiva o (semi)definita negativa o indefinita.

OSSERVAZIONE Tranne che per la forma quadratica nulla, che secondo la nostra
definizione è sia semidefinita positiva sia semi definita negativa, le condizioni a) - e)
sono mutuamente esclusive ed esauriscono tutte le possibilità. La prima condizione
equivale a richiedere che x = O sia un punto di minimo (assoluto) forte di q(x); la
seconda che sia un punto di minimo , ma non l'unico punto di minimo; la terza che
sia un punto di massimo, ma non l'unico; la quarta che sia un punto di minimo forte;
l'ultima che non sia né un punto di massimo (locale) né un punto di minimo.
Altri autori preferiscono includere le forme definite tra quelle semidefinite e non
richiedono quindi che una forma semidefinita si annulli in un x -:f. O. In questo libro
scriviamo che una forma quadratica (o una matrice) è (semi)definita positiva se è
definita o semidefinita positiva. Molti scrivono A > O (rispettivamente A ~ O) per
indicare una matrice definita (rispettivamente (semi)definita) positiva.

Diamo un esempio per ogni possibilità nel caso di due variabili x 1 e x 2 :


a) la forma quadratica xf + x~ è definita positiva;
© 978-88-08-06401-1 3 Forme quadratiche 445

b) la forma quadratica xi è semidefinita positiva (si annulla in [O, l]T);


c) la forma quadratica -xi è semidefinita negativa;
d) la forma quadratica -xi - x~ è definita negativa;
e) le forme quadratiche xi - x~ e X1X2 sono indefinite.

iif4§ .. !!lij
Prodotti scalari e matrici definite positive
Si ricordi che un prodotto scalare < x , y > in JRn è una funzione bilineare simmetrica
( < x, y > = < y , x >) e definita positiva ( < x, x > > O se x f. O). Possiamo associare a un
dato prodotto scalare la matrice B il cui elemento di posto (i , j) è il valore del prodotto dei
vettori e; ed ej della base canonica:

Dalla bilinearità del prodotto scalare segue


n n n n
< x, y > = < L x ;e;, L Yiei > = L L x ;yj < e; , e j >=
i=l j=l i= l j =l

Quindi < x, y >= xTBy per ogni x, y E JRn e la matrice B determina così il prodotto
scalare; si dice che B rappresenta il prodotto scalare. Dalla commutatività e dalla positività
del prodotto scalare segue che B è una matrice simmetrica definita positiva.
Viceversa, supponiamo che B sia una matrice simmetrica definita positiva. Definiamo

< x, y >= xTBy per ogni x , y E lRn


È semplice verificare che la funzione < x , y > è un prodotto scalare in JRn . Infatti x T By è
lineare in x, il prodotto è commutativo perché xTBy è uno scalare e B è simmetrica:

infine la proprietà di positività è verificata perché B è definita positiva:

< x,x > = xTBx >O per ogni x f. O

In conclusione, i prodotti scalari in JRn sono in corrispondenza biunivoca con le matrici


simmetriche definite positive. Il prodotto scalare standard xT y corrisponde alla matrice
identità. Si osservi che, se < x , y >= xTBy, la forma quadratica q(x) = xTBx associata a
B non è altro che la norma al quadrato.

Per studiare il segno di un forma quadratica q(x) , la cosa naturale da fare è cercare
delle nuove coordinate X rispetto alle quali l'espressione di q(x) contenga solo i t ermini
coi quadrati delle variabili:

(3 .3)
Diventa così immediato studiare il segno di q(x). Per esempio q(x) è definita positiva
se e solo se tutti i coefficienti dk sono positivi. Si dice che un tale cambiamento di
446 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

variabili diagonalizza la forma quadratica perché la matrice associata a q(x) rispetto


alle variabili X è la matrice diagonale diag(d 1 , . .. , dn)-
Per procedere sistematicamente, cominciamo col determinare come cambia la ma-
trice di una forma quadratica al variare delle coordinate. Supponiamo che A sia una
matrice simmetrica di ordine n e sia q(x) = xT Ax la forma quadratica rappresenta-
ta da A. Fissiamo una nuova base in JRn e sia S la matrice invertibile che ha come
colonne i vettori della nuova base. Sia X il vettore delle coordinate di x rispetto alla
nuova base, in maniera tale che x = SX. Allora sr AS è simmetrica e rappresenta la
forma quadratica q nelle nuove coordinate X perché

(3.4)

DEFINIZIONE 3.3 (Matrici congruenti)


Una matrice B si dice congruente a una matrice simmetrica A se esiste una
matrice invertibile S tale che B = ST AS .

OSSERVAZIONE Se B è congruente alla matrice simmetrica A , allora B è anch'essa


simmetrica. La relazione di congruenza è una relazione di equivalenza sull'insieme delle
matrici simmetriche; in particolare, B è congruente ad A se e solo se A è congruente
a B e possiamo perciò dire semplicemente che A e B sono congruenti. Per la formula
(3.4) due matrici sono congruenti se rappresentano la stessa forma quadratica rispetto
a coordinate distinte.

OSSERVAZIONE La forma quadratica q(x) = xT Ax si può diagonalizzare, cioè scri-


vere come in (3.3), se e solo se A è congruente a una matrice diagonale. Vedremo
che ogni forma quadratica si può diagonalizzare, anzi ci sono svariati modi di dia-
gonalizzare una forma quadratica. Ci sono due metodi di diagonalizzare una forma
quadratica che sono particolarmente importanti e che illustriamo in questo paragrafo.
Il primo metodo utilizza il teorema spettrale, per il quale data una matrice simme-
trica A esiste una matrice ortogonale Q tale che QT AQ = diag(>. 1 , ... , Àn), dove
gli elementi Àk sono gli autovalori di A. Questo significa che A è congruente alla
matrice diagonale che ha gli autovalori di A sulla diagonale principale. Il secondo me-
todo si basa sulla fattorizzazione A = LDLT fornita dall 'algoritmo di Gauss: questa
fattorizzazione non è possibile per tutte le matrici simmetriche, ma esiste per quelle
(semi)definite ed è nota come fattorizzazione di Cholesky. In questa fattorizzazione
L è una matrice triangolare bassa con gli elementi sulla diagonale principale uguali
a 1 e D è la matrice diagonale che ha i pivots di A sulla diagonale principale; quin-
di A è congruente alla matrice diagonale che ha i pivots di A sulla diagonale prin-
cipale.

OSSERVAZIONE Il problema della diagonalizzazione di una forma quadratica non va


confuso col problema della diagonalizzazione di una matrice. Diagonalizzare una forma
quadratica significa trovare una matrice diagonale congruente alla matrice rappresen-
tativa della forma quadratica, mentre diagonalizzare una matrice significa trovare una
matrice diagonale simile alla matrice data. La relazione di congruenza B = sr AS
non va confusa con la relazione di similitidine B = s- 1 AS , che identifica due matrici
© 978-88-08-06401-1 3 Forme quadratiche 447

che rappresentano la stessa applicazione lineare di !Rn in se stesso. Due matrici con-
gruenti in generale non hanno gli stessi autovalori. Al contrario di quanto avviene per
la similitudine, è piuttosto semplice stabilire se due matrici sono congruenti, come
vedremo più avanti con la legge di inerzia di Sylvester.
Se Q però è una matrice ortogonale, allora QT = Q - 1 e quindi la matrice

B = QT AQ = Q- 1 AQ
è al tempo stesso congruente e simile alla matrice A. Il teorema spettrale mostra che
una matrice simmetrica A è al tempo stesso congruente e simile alla matrice diagonale
che ha gli autovalori di A sulla diagonale principale.

OSSERVAZIONE Supponiamo che A e B siano matrici congruenti. Allora A è definita


positiva se e solo se B è definita positiva. Infatti

(dove X = s- 1 x)
per cui xT Ax > O per ogni x non nullo equivale a xrBx > O per ogni X non
nullo. Naturalmente lo stesso vale per la proprietà di essere (semi)definita positiva,
indefinita o (semi)definita negativa.

Segno di una forma quadratica e autovalori


Sia A la matrice che rappresenta la forma quadratica q(x). Per il teorema spettrale
esiste una matrice ortogonale Q tale che QT AQ = diag(À 1 , ... , Àn)· Il cambiamento
di variabili X = QT x diagonalizza la forma quadratica q(x) e il segno della forma
quadratica è determinato dagli autovalori della matrice. Più precisamente, siccome Q
è ortogonale e quindi il cambiamento di variabili preserva la norma, vale il seguen-
te risultato che confronta i valori di una forma quadratica arbitraria con la norma
euclidea al quadrato JJxJ 2 = xT x.
1

PROPOSIZIONE 3.4 Sia A una matrice simmetrica di ordine n sia q(x)


xT Ax e sia JJxJJ la norma euclidea di un vettore di !Rn.

a) Se Av = Àv, allora q(v) = À JJvJJ 2 .

b) Se Àmin e Àmax sono il minimo e il massimo degli autovalori di A , allora:

2
(3.5) Àmin JJxJJ S q(x) S Àmax JJxll2

DIMOSTRAZIONE. Il punto a) è immediato: se Av = >.v , allora


q(v) = vT Av = vT(>.v) = >.[[v[[ 2
Per il teorema spettrale possiamo decomporre la matrice nella forma A = QDQT , dove Q
è una matrice ortogonale e D è la matrice diagonale che ha sulla diagonale principale gli
autovalori Àk di A . La forma quadratica si scrive
448 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Posto X= QT x, tenendo conto del fatto che D = diag(.>- 1 , ... , Àn) otteniamo

q(x) = XTDX = À1Xf + À2Xi + · · · + ÀnX~

Ora, siccome À; ::; Àma.x per ogni i proprio per definizione di Àmax, concludiamo che

q(x) = >-1Xf + >-2Xi + ···+ >-n X~ ::; Àmax Xf + Àmax Xi + · · · +>-max X~ = >-max I !Xl 12
Ma Q è ortogonale, quindi il cambiamento di variabili X = QT x che abbiamo fatto è
un'isometria:

Sostituendo nella precedente disuguaglianza troviamo

q(x) :=; Àmax Ilxll2


Questo dimostra la disuguaglianza di destra nella (3.5); la dimostrazione della disuguaglianza
di sinistra è perfettamente analoga. •

COROLLARIO 3.5 (Segno di una forma quadratica e autovalori)


Sia q(x) = xT Ax la forma quadratica in n variabili associata alla matrice
simmetrica A. Allora:

a) q(x) è definita positiva (rispettivamente negativa) se e solo se tutti gli


autovalori di A sono strettamente maggiori (rispettivamente minori) di zero;

b) q(x) è semidefinita positiva (rispettivamente negativa) se e solo se gli auto-


valori di A sono maggiori (rispettivamente minori) o uguali a zero, e almeno
uno di essi è nullo;

c) q(x) è indefinita se e solo se A ha almeno un autovalore positivo e almeno


un autovalore negativo.

DIMOSTRAZIONE. Il corollario segue immediatamente dalla proposizione 3.4. Mostriamo


per esempio che q(x) è definita positiva se e solo se gli autovalori sono > O. Se gli autovalori
sono strettamente maggiori di zero, allora per ogni x E nr diverso da zero

q(x) ::'.: Àmin llxll 2 > O

perché Àmin è un autovalore e quindi, per ipotesi, positivo. Questo mostra che q(x) è definita
positiva. Viceversa, se q(x) è definita positiva, sia v un autovettore relativo all'autovalore À.
Possiamo supporre che v sia un versore. Allora per il punto a) della proposizione 3.4

À = q(v) >O

perché q(x) è definita positiva e v f= O. Quindi ogni autovalore À di A è positivo. •

Il corollario 3.5 in pratica è di difficile applicazione perché è computazionalmente


costoso calcolare gli autovalori (o anche solo il polinomio caratteristico). Per questo è
importante trovare criteri alternativi per determinare il segno di una forma quadratica.
Nel caso di due variabili la situazione è molto semplice:
© 978-88-08-06401-1 3 Forme quadratiche 449

PROPOSIZIONE 3.6 (Segno di una forma quadratica in due variabili)


. smrme
L a mat nce . t·
nca b e e [ab],
a) definita positiva se a > O e ac - b2 > O;

b) semidefinita positiva se a ~ O e ac - b2 = O;
c) semidefinita negativa se a :=:; O e ac - b2 = O;

d) definita negativa se a< O e ac - b2 > O;

e) indefinita se ac - b2 < O.

DIMOSTRAZIONE. La m atrice ha due autovalori reali >. 1 e À 2 il cui prodotto è il determinante


ac - b2 e la cui somma è la traccia a+ c. Se ac - b2 = .). 1 >. 2 < O, i due autovalori hanno segno
opposto e quinçli la matrice è indefinita.
Supponiamo ora che il determinante ac - b2 sia positivo: allora i due autovalori sono
concordi e il loro segno coincide col segno della loro somma a+ e; siccome ac - b2 > O, a e
e sono concordi, e quindi il segno degli autovalori coincide col segno di a. Quindi , se a > O,
i due autovalori sono positivi e la matrice è definita positiva, se invece a < O la matrice è
definita negativa.
Infine, supponiamo che il determinante sia nullo. Allora uno degli autovalori è nullo e
l'altro è p ositivo, negativo o nullo a seconda che a sia positivo, negativo, o nullo. Quindi, se
a 2: O ,la matrice è semidefinita positiva se a ::::; O, la matrice è semidefinita negativa.

Quoziente di Rayleigh. Massimo e minimo di q(x) sulla sfera unitaria.


Il rapporto
q(x)
llxll 2 llxll2
si dice quoziente di Rayleigh: esso confronta la forma quadratica q(x) con la forma
quadratica Ilxi 1
2
. L'enunciato della proposizione 3.4 si può riformulare così:
l'autovalore minimo À min di A è il minimo del quoziente di Rayleigh al variare dix
nel suo insieme di definizione Rn \ {O}:

x TA x
(3.6) Àmin = Min { TxiT2 :
infatti, se dividiamo la disuguaglianza di sinistra nella (3.5) per Ilxll2, otteniamo:

Questo mostra che À min è un estremo inferiore per i valori del quoziente di Rayleigh.
D 'altra parte, se v è un autovettore relativo a À min, allora per la proposizione 3.4.a
vTAv
Àm in = llvll2
450 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

quindi Àmin è il valore minimo del quoziente di Rayleigh. Analogamente si mostra che
xTAx
(3.7) Àmax=Max { ~:

è il valore massimo del quoziente di Rayleigh.


Possiamo restringere queste considerazioni ai versori di JRn, cioè ai punti della sfera
unitaria
3n-1 = {x E lRn: llxll = l}
Se x è un versore, il quoziente di Rayleigh in x coincide con la forma quadratica:
xTAx
~ = xTAx

Si vede così che Àmin e Àmax sono il minimo valore e il massimo valore assunti dalla
forma quadratica sulla sfera sn- 1 :

Àmin = Min { XT Ax: X E sn- l}

Àmax = Max { XT Ax : X E sn-l}

Questa formula ha un risvolto applicativo importante. In generale, è computazional-


mente costoso calcolare gli autovalori come radici del polinomio caratteristico. Nel
caso delle matrici simmetriche, possiamo determinare Àmin e Àmax trovando il minimo
e il massimo della forma quadratica xT Ax sulla sfera; questo metodo si può estendere
anche alla ricerca degli altri autovalori di una matrice simmetrica e va sotto il nome
di minimax principle.
Dal punto di vista teorico, queste osservazioni conducono a una nuova dimostra-
zione del teorema spettrale che non fa uso dei numeri complessi. Data una matrice
simmetrica A , la funzione q(x) = XT Ax è continua sulla sfera sn-l _Per il teorema
di Weierstrass, dato che sn- 1 è chiuso e limitato, la funzione q(x) assume un valore
minimo Àm su sn-l _Sia V E sn-l un punto in cui la funzione assume il suo valore
minimo: q(v) = Àm . Per il teorema di Fermat sugli estremi vincolati, il gradiente di
q(x) in V dev'essere perpendicolare al vincolo 3n-l , cioè dev'essere diretto come il
raggio v: deve quindi esistere t E JR tale che 'Vq(v) = tv. D'altra parte, un semplice
conto mostra che
'Vq(v) = Av
Quindi Av = tv; si noti che t = Àm perché da Av = tv segue q(v) = t. Questo
mostra che Àm è un autovalore di A relativo all'autovettore v. La dimostrazione ora
si conclude esattamente come nella dimostrazione del teorema 2.4. La differenza tra le
due dimostrazioni è che per mostrare l'esistenza di un autovalore reale abbiamo usato
qui il teorema di Weierstrass sull'esistenza dei massimi e minimi, mentre nel paragrafo
precedente abbiamo usato il teorema fondamentale dell'algebra sull'esistenza delle
radici (complesse) di un polinomio.

Matrici definite positive e minori di nord-ovest


Nel caso di più di due variabili, la proposizione 3.6 si generalizza in un criterio che
consente di riconoscere le forme definite positive, e che conduce alla fattorizzazione
© 978-88-08-06401-1 3 Forme quadratiche 451

di Cholesky. Per questo occorre introdurre le sottomatrici principali di nord-ovest


A (k) di una matrice A di ordine n. Per definizione A (k) è la matrice k x k ottenuta
cancellando le ultime n-k righe e le ultime n-k colonne di A (per ogni k = 1, 2, ... , n).
I determinanti 6k = det(A (k)) si dicono minori principali di nord-ovest di A . Nel caso
della matrice [ ~ ~] i minori principali di nord-ovest sono 61 = a e 62 = ac - b2 ;
la proposizione 3.6 mostra che il segno di una forma quadratica in due variabili è
determinato dal segno dei minori principali di nord-ovest. Nel caso n 2'. 3 i minori
principali di nord-ovest sono sufficienti a determinare se la matrice è definita positiva:

TEOREMA 3. 7 (Matrici definite positive)


Per una matrice simmetrica A le seguenti condizioni sono equivalenti:

a) A è definita positiva;

b) i minori pincipali di nord-ovest di A sono positivi;

c) A= LDLT dove L è triangolare bassa con elementi sulla diagonale princi-


pale uguali a 1 e D = diag(p 1 , . . . ,pn) con Pk >O per ogni k.

DIMOSTRAZIONE. Supponiamo che A sia definita positiva. Dato un arbitrario vettore non
nullo y di !Rk, sia x il vettore di !Rn che ha le prime k componenti uguali a quelle di y e le
ultime n - k componenti nulle. Allora

TA
Y (k)Y = x T Ax > O
perché A è definita positiva. Questo mostra che anche A (k) è definita positiva. Quindi i
suoi autovalori sono positivi, e il suo determinante Ò1ç è positivo perché è il prodotto degli
autovalori. Questo mostra che a) implica b) .
Supponiamo che tutti i minori principali di nord-ovest siano positivi. In particolare an =
61 > O. Possiamo isolare i termini in q(x) = xT Ax che contengono x1, e completare il
quadrato:

Posto X 1 = x1 + ~x2 + · · · + ~Xn e X1ç = x1ç per k > 1, nelle nuove variabili la forma
quadratica è
452 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Conviene riscrivere il tutto in termini di matrici. Per questo scriviamo la matrice A e la


matrice R del cambiamento di variabili X = Rx in forma a blocchi:

Si noti che C è simmetrica. L'effetto del cambiamento di variabili X Rx sulla forma


quadratica si traduce nella fattorizzazione

La matrice B è

dove A1 denota la matrice simmetrica e - -1-bbT . Procediamo per induzione sull'ordine


an
di A. Per questo occorre mostrare che i minori di nord-ovest 01t(Ai) della matrice A1 sono

l
positivi; osserviamo che la decomposizione A = RT (BR) corrisponde alle prime n - 1
operazioni del MEG: la matrice

all bT
BR=
[ 1
o C- - -bbT
an
è ottenuta da A sommando a ciascuna delle righe successive alla prima un opportuno mul-
tiplo della prima. Questa operazione non cambia i minori principali di nord-ovest . Quin-
di i minori 01t(BR) sono positivi. Lo sviluppo di Laplace lungo la prima colonna mostra
01t(B) = 01t(BR) > O. Infine il minore di nord-ovest 01t(A 1) di A 1 è uguale al rapporto
01<+i(B) / an , e quindi è anch'esso positivo. Questo mostra che i minori di nord ovest di A1
sono positivi. Procedendo per induzione possiamo supporre che A 1 = L 1D1Lf, dove L1 è
triangolare bassa con elementi sulla diagonale principale uguali a 1, e D1 = diag(p2, ... ,pn)
con Pk > O per ogni k. La matrice

è allora triangolare bassa con gli elementi sulla diagonale principale uguali a 1 e A= LDLT
dove D = diag(an,p2, . . . ,pn) ha tutti gli elementi sulla diagonale principale positivi. Quindi
b) implica c) (Si osservi che si tratta della fattorizzazione LU di A, con U = DLT . In
particolare, an,p2, ... ,pn sono i pivots di A).
© 978-88-08-06401-1 3 Forme quadratiche 453

Infine supponiamo che A= LDLT con D = diag(p 1 , ... ,pn) e Pk >O per ogni k. Allora D
è definita positiva perché ha tutti gli autovalori positivi, e quindi anche A, che è congruente
a D, è definita positiva. Questo mostra che c) implica a) e conclude la dimostrazione. •

OSSERVAZIONE La positività dei minori di nord-ovest è più veloce da verificare


della positività degli autovalori. Per verificare che una matrice simmetrica A = [aij]
di ordine 3 sia definita positiva basta verificare che 81 = a11, 82 = a11 az2 - ai 2 e
83 = det(A) siano positivi.

OSSERVAZIONE Una matrice A è definita negativa se e solo se -A è definita positiva.


Dal teorema 3.7 si deduce quindi che i segni dei minori di nord-ovest 8k di una matrice
definita negativa sono negativi se k è dispari e positivi se k è pari. Inoltre una matrice
definita negativa ammette la fattorizzazione A= LDLT dove D è diagonale con gli
elementi sulla diagonale principale negativi.

Fattorizzazione di Cholesky
Nel paragrafo sulla fattorizzazione LU del capitolo sulle matrici abbiamo definito una
matrice definita positiva come una matrice simmetrica che ammette una fattorizza-
zione LDLT con D = diag(p 1 , ... ,pn) e Pk >O. Per il teorema 3.7 quella definizione
è equivalente a quella data in questo capitolo. La fattorizzazione LDLT si riscrive di
solito in questo modo: si pone C = L.JD dove JD = diag(y'Pl, ... , ffn). Allora C
è una matrice triangolare bassa con gli elementi sulla diagonale principale positivi, e

(3.8) A=CCT

La (3.8) è nota come fattorizzazione di Cholesky della matrice definita positiva A.


Ci sono altri modi di dedurre l'esistenza della fattorizzazione di Choleski, e voglia-
mo citarne qui uno. Innanzitutto ogni matrice (semi)definita positiva si può scrivere
nella forma BTB e in molti modi. Per vedere questo, osserviamo che per il teorema
spettrale una matrice semidefinita positiva A ha una radice quadrata (semi)definita
positiva VA: se A = :Z::::i ÀiP i è la decomposizione spettrale di A, gli autovalori Ài
sono maggiori o uguali a zero, e VA = :Z::::i ~pi è l'unica radice quadrata (se-
mi)definita positiva di A. Posto E = VA, troviamo A = E 2 = ETE perché E è
simmetrica. Possiamo ora trovare tante decomposizione del tipo A = BTB: se Q è
una matrice ortogonale, da A = E 2 con E simmetrica segue

Nel caso di una matrice definita positiva A si può così ottenere la fattorizzazione
di Cholesky: siccome tutti gli autovalori di A sono positivi, anche quelli di E sono
positivi; in particolare E è invertibile, e può essere decomposta come prodotto E =
QR con Q ortogonale e R triangolare alta con tutti gli elementi sulla diagonale
principale positivi. Quindi

dove e= RT.
454 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Matrici semidefinite positive e minori principali


Con un ulteriore sforzo si può estendere il teorema alle matrici (semi)definite positive.
Il principale guadagno è di ottenere una fattorizzazione di Cholesky anche per le
matrici semidefinite positive. Il principale svantaggio è che non basta più considerare
i minori di nord-ovest, ma occorre prendere in considerazione tutti i minori principali.
Una sottomatrice principale di una matrice quadrata A è una sottomatrice quadrata
B di A che è simmetrica rispetto alla diagonale principale; questo significa che esistono
1 :::; h 1 < h2 < · · · < hk :::; n tali che gli elementi di B sono gli elementi di posto
(i,j) con i,j E {h 1, .. . , hk} (le sottomatrici principali di nord-ovest sono quelle per
cui { h 1, ... , hk} = {1, ... , k}). Un minore principale di A è il determinante di una
sottomatrice principale. Per esempio, i minori principali di ordine 1 di A sono gli
elementi ahh della diagonale principale.

TEOREMA 3.8 Matrici (semi)definite positive


Per una matrice simmetrica A le seguenti condizioni sono equivalenti:

a) A è (semi)definita positiva;

b) i minori principali di A sono maggiori o uguali a zero;

c) A= LDLT dove L è triangolare bassa con elementi sulla diagonale princi-


pale uguali a 1, e D = diag(p1, . .. ,pn) con Pk ;:::: O per ogni k.

DIMOSTRAZIONE. La dimostrazione è analoga a quella del teorema 3. 7 , con una difficoltà


in più che ora illustriamo. Il problema è nel mostrare che, se tutti i minori principali sono
non negativi, allora A ammette la fattorizzazione A = LDLT del punto c). Se a 11 > O la
dimostrazione procede sostanzialmente come nel teorema 3.7. Se a 11 =O, consideriamo per
ogni j :'.'.'. 2, il minore principale di ordine 2

Siccome i minori principali sono non negativi, questo implica a 1i = O per ogni j :'.'.'. 1. La
matrice A ha quindi la forma

e di nuovo si può procedere per induzione. Si noti che la fattorizzazione LDLT = LU che
si ottiene così non coincide col MEG perché la matrice U ha la prima riga nulla; il MEG ,
almeno per come l'abbiamo definito in questo libro, imporrebbe a questo punto uno scambio
ili~ . •

Analogamente, una matrice simmetrica è (semi)definita negativa se e solo se i suoi


minori principali di ordine k sono nulli o hanno segno (-l)k e in tal caso la matrice
ammette la fattorizzazione A= LDLT con D diagonale a elementi :::; O.
© 978-88-08-06401-1 3 Forme quadratiche 455

•i1§11!4ij
Non è invece vero che una matrice simmetrica indefinita abbia sempre una fattorizzazione
LDLT con D diagonale. L'esempio più semplice di una matrice simmetrica che non ha tale
fattorizzazione è

A= [~ ~]
In effetti, se una matrice 2 x 2 ha la fattorizzazione LDLT, allora è del tipo

1 o] o]
[d [1 a]
[a 1 O e O 1 = [d o] a] = [add
[1
ad e O 1
ad J
a 2 d +e

'ifoii&
I minori principali di nord-ovest della matrice

3-2 1]
Ah=
[ -2
1
2 O
oh

sono 61 = 3, 62 = _32
I
-212 = 2 e
03 = det(A) = -2 O
2
li +h I
_ 3 -2 = -2 + 2h
2 21
= 2(h - 1)
1

Quindi Ah è definita positiva se e solo se h > 1. I minori principali di A di ordine 1, oltre a


61 , sono 2 eh, mentre quelli di ordine 2, oltre a 62 , sono

Quindi la matrice è semidefinita positiva se e solo se h = 1.

La legge di inerzia di Sylvester


Affrontiamo la questione di determinare quando due matrici A e B sono congruenti.
Si ricordi che questo equivale a determinare quando le forme quadratiche xT Ax e
XTBX coincidono a meno di una cambiamento di variabili x = SX.

•;14,,1a
Sia A una matrice definita positiva. Allora A ammette la fattorizzazione di Cholesky A =
ccT, dove e è una matrice triangolare bassa invertibile. Quindi A è congruente alla matrice
identità I . Siccome la congruenza è una relazione di equivalenza, due matrici definite positive
sono tra loro congruenti.
456 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

L'esempio delle matrici definite positive si generalizza così:

TEOREMA 3.9 (Legge di inerzia di Sylvester)


a) Due matrici simmetriche di ordine n sono congruenti se e solo se hanno lo
stesso numero di autovalori positivi e lo stesso numero di autovalori negativi
(e quindi anche lo stesso numero di autovalori nulli).
b) Sia A una matrice simmetrica di ordine n con s autovalori positivi e t
autovalori negativi. Allora A è congruente alla matrice diagonale che ha s
autovalori uguali a 1, t autovalori uguali a -1, e n - s - t autovalori nulli.
Quindi esiste un cambiamento di coordinate x = SX tale che

(3.9) xT Ax = xf + ... + x; - x;+i - .. . - x;+t.

DIMOSTRAZIONE. Il punto b) segue immediatamente dal punto a). Fissiamo una matrice
simmetrica A e la forma quadratica q(x) = xT Ax. Sia p il massimo della dimensione di un
sottospazio H di JRn su cui q è definita positiva:

q(x) = xT Ax > O per ogni x EH

Mostreremo che p è il numero degli autovalori positivi di A . Per definizione, il numero p


dipende solo dalla forma quadratica q e non dalla matrice A che la rappresenta. Quindi p è
anche il numero di autovalori positivi di ogni altra matrice congruente ad A. Analogamente,
il numero di autovalori negativi di ogni matrice congruente ad A è uguale al massimo delle
dimensioni dei sottospazi su cui q è definita negativa. Questo dimostra il punto a) . per
completare la dimostrazione dobbiamo quindi far vedere che p è uguale al numero s di
autovalori positivi di A . Per ii teorema spettrale esistono coordinate X = QT x tali che:

dove ,\ 1 , ... , Àn sono gli autovaiori di A. Possiamo assumere che gli a utovalori positivi di A
siano À 1 , ... , >. •. Sia H . il sottospazio di llr definito dalle equazioni Xs+i = X.+2 = · · · =
Xn =O . La forma quadratica q(x) su Hs è definita positiva perché À1 , ... , Às sono positivi.
Quindi
s = dimH. ~ p
Per finire occorre mostrare che p ~ s: questo significa che, se H è un sottospazio di JRn di
dimensione > s, allora q(x) non è definita positiva su H. Sia quindi H un sottospazio di
dimensione d > s. Sia~: H---> H. la proiezione che a un vettore [X1 , ... , Xn]T di H associa
of
il vettore [X1 , ... , X. , O, ... , di H •. Per ipotesi dimH > dimH. e, quindi, per il teorema
di nullità più rango esiste un vettore non nullo v E H tale che ~(v) =O: questo significa che
X1(v) = X2(v) = · · · = X.(v) =O. Ma allora:

q(v) = À1X1(v) 2 + · · · ÀnXn(v) 2 = Às+1Xs+1(v) 2 + · · · ÀnXn(v) 2


Per ogni k 2: s + 1 gli autovalori Àk sono minori o uguali a zero, quindi q(v) ~ O. Siccome
v è un vettore non nullo di H, questo mostra che la forma quadratica q(x) non è definita
positiva su H. La dimostrazione è così la completa. •
© 978-88-08-06401-1 3 Forme quadratiche 457

OSSERVAZIONE Dalla legge di inerzia segue che, se una forma quadratica si può
esprimere in forma diagonale rispetto sia alle variabili X sia alle variabili Y:

q(x) = >.1Xf + · · · ÀnX; = µ1Y12 + · · · µnY;


allora il numero di Àk positivi (rispettivamente negativi, rispettivamente nulli) coinci-
de col numero di µk positivi (rispettivamente negativi, rispettivamente nulli). Infatti
i Àk (rispettivamente i µk) sono gli autovalori della matrice diagonale che rappresenta
la forma quadratica rispetto alle coordinate X (rispettivamente Y).

OSSERVAZIONE La legge di inerzia classifica le forme quadratiche reali: ogni forma


quadratica in n variabili coincide, a meno di un cambiamento di variabili, con una e
una sola delle forme quadratiche del tipo

(3.10) X12 + ... + x2s - x2s+ i - ... - x2s+ t

al variare di s e t nell'insieme O :::; s, t :::; n , s + t :::; n. Le forme definite positive sono


quelle per cui s = ri e quindi t = O. Quelle (semi)definite positive sono le forme per
cui t =O. Quelle indefinite sono le forme per cui s e t sono entrambi positivi.
La terna di numeri (s , t, n - s - t), cioè il numero di autovalori positivi, negativi
e nulli, si dice segnatura (di una matrice simmetrica o della forma quadratica rappre-
sentata dalla matrice). La legge di inerzia afferma che due matrici sono congruenti se
e solo se hanno la stessa segnatura. In questo senso i numeri s , t e n - s - t sono un
insieme completo di invarianti per le classi di congruenza delle matrici simmetriche.

'ifoii!lij
Supponiamo che la matrice simmetrica A si possa fattorizzare nella forma A = LDLT con D
diagonale e L invertibile. Allora A è congruente a D. Gli elementi sulla diagonale principale
di D sono gli autovalori di D perché D è diagonale, e dalla legge di inerzia segue che gli
autovalori positivi (rispettivamente negativi) di A sono tanti quanti gli elementi positivi
(rispettivamente negativi) sulla diagonale principale di D. In particolare, se A ammette la
fattorizzazione LU, il segno degli autovalori di A coincide col segno dei pivots di A .

l@§ .. !!lij
In generale, non è unico il sottospazio di dimensione massima s su cui una forma quadratica
è definita positiva. Per esempio la forma quadratica q(x, y) = x 2 - y 2 , che ha s = 1 et= 1,
è definita positiva su ogni retta di equazione y =mx con Imi < 1; la forma si annulla sulle
due bisettrici y = ± x, ed è definita negativa sulle rette y = mx con Imi > 1 e sull'asse y .
La forma q(x, y) = x 2 , che ha s = 1 e t = O, è definita positiva su ogni retta di equazione
y =mx, ma è nulla sull'asse y.

Diagonalizzazione simultanea di forme quadratiche


Illustriamo ora una versione più generale del teorema spettrale ottenuta sostituendo
il prodotto scalare standard di lRn con un prodotto scalare arbitrario. Come abbiamo
visto, ogni prodotto scalare su JRn è del tipo

< x, y >B= xTBy


458 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

dove B è una matrice definita positiva. Data una forma quadratica q(x) = xT Ax, ci
poniamo ora il problema di trovare il massimo e il minimo del quoziente di Rayleigh

(3.11) R(x) = q(x) = xT Ax


llxll~ xTBx
per x =f. O. Questa volta è necessario diagonalizzare simultaneamente le due forme
quadratiche q0 (x) = xTBx = llxll~ e q(x) = xT Ax. Anche questo si può fare utiliz-
zando il teorema spettrale; allo stesso tempo si risolve l'equazione generalizzata degli
autovalori e autovettori:

(3.12) Ax= >.Bx

che si ottiene dall 'equazione standard

(3 .13) Ax = Àx = >.Ix

degli autovalori e autovalori sostituendo la matrice identità con la matrice definita


positiva B . Si osservi che la (3.13) equivale all'equazione degli autovalori e autovalori
B- 1 Ax = Àx per la matrice B - 1 A. Il teorema spettrale fornisce una base di JRn
formata da autovettori di B- 1 A che è ortonormale rispetto al prodotto scalare definito
da B:

TEOREMA 3.10 (Diagonalizzazione simultanea di forme quadratiche)


Supponiamo che A e B siano due matrici simmetriche di ordine n, con B defini-
ta positiva. Siano q(x) = xT Ax e qo(x) = xTBx. Allora esiste un cambiamento
di variabili x = PX tale che

q(x) = À1Xf + · · · + ÀnX;


qo(x) = x;
+ .. . + x;
Le colonne vk di P formano una base ortonormale di JRn rispetto al prodotto
scalare definito da B e le coppie (vk, Àk) risolvono l'equazione generalizzata
degli autovalori e autovettori Ax = >.Bx:

(3.14) Avk = ÀkBvk per ogni k = 1, ... , n

DIMOSTRAZIONE. Siccome B è definita positiva, B è congruente alla matrice identità: esiste


una matrice invertibile S tale che STBS = I. Poiché la matrice A è simmetrica, la matrice
N = sT AS è simmetrica, quindi esiste una matrice ortogonale Q tale che

dove i numeri .À; sono gli autovalori di N. Poniamo P = SQ, allora:

Questo mostra che il cambiamento di variabili X = p- 1 x diagonalizza q(x) e qo(x) come


nell'enunciato. L'uguaglianza PTBP = I mostra che le colonne vk = Pek di P formano
© 978-88-08-06401-1 3 Forme quadratiche 459

una base ortonormale di JR:n rispetto al prodotto scalare definito da B (qui ek denota come
sempre la colonna k della matrice identità):

< Vh , Vk >s= ehPTBPek = er lek = 8hk

Infine, da pTBP =I segue pT = p - 1 B- 1 , da cui ricaviamo

Quest'ultima uguaglianza mostra che, per ogni k, la colonna Vk della matrice P è un


autovettore di B- 1A relativo a Àk. Questo equivale alla (3.14) e conclude la dimostrazione. •

OSSERVAZIONE La matrice B- 1 A non è necessariamente simmetrica (il prodot-


to di due matrici simmetriche non è in generale simmetrico), però è diagonaliz-
zabile con autovalori reali, perché è simile alla matrice simmetrica N = sr AS della
dimostrazione:

Gli autovalori Àk di B- 1 A sono precisamente le radici del polinomio det(A - >..B)


perché

det(A - >..B) = det(B(B- 1 A - >..I)) = det(B) det(B- 1 A - >..I)

COROLLARIO 3.11 (Massimo e minimo del quoziente di Rayleigh)


Siano A e B due matrici simmetriche, con B definita positiva, e siano q e qo le
forme quadratiche rappresentate da A e B rispettivamente. Siano Àmin e Àmax
il minimo e il massimo autovalore di B- 1 A. Allora Àmin e Àmax sono il minimo
e il massimo del quoziente di Rayleigh R(x) = q(x)/q0 (x) al variare dix in
IR.n \{O}.
Esplicitamente:

per ogni x E !Rn \{O}

inoltre esistono v e w tali che:

R(v) = Àmin e R(w) = Àmax


Se Àmin # Àmax , i vettori v e w sono ortogonali rispetto al prodotto scalare
definito da B: vTBw = O.

DIMOSTRAZIONE. Usiamo le notazione del teorema precedente: facciamo il cambiamento di


variabili x = PX. Nelle nuove coordinate le forme quadratiche sono

qo(X) =Xi + · · · +X~ e

e la tesi è a questo punto evidente. Come v e w si prendano le colonne di P corrispondenti


agli autovalori Àmin e Àmax· •
460 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Curvatura di una superficie


Illustriamo ora brevemente l'esempio classico della prima e della seconda forma fondamentali
di una superficie introdotte da Gauss. Localmente una superficie regolare S in JR 3 è l'im-
magine di una funzione iniettiva r(u,v) = [x(u,v),y(u,v),z(u,v)]T dove [u,v]T varia in un
intorno U di [u 0 , v 0 f in JR 2 ; si richiede che le funzioni x( u, v), y( u, v) e z( u, v) siano di classe
C 2 e che i vettori tangenti alle linee coordinate

ru(u , v) = [xu(u,v),Yu(u,v),zu(u ,v)f e rv(u,v) = [xv(u,v) , yv(u , v),zv(u,v)f


siano linearmente indipendenti per ogni (u,v). Poniamo P = r(uo,vo), v1 = ru(uo,vo) ,
v 2 = rv(uo,vo). Il piano tangente TpS a Sin p è il piano di JR 3 generato da V1 e v2 . Il
vettore
I l = V1 X V2

è quindi normale al piano tangente. Il piano tangente TpS ha il prodotto scalare ottenuto
per restrizione dal prodotto scalare standard di JR 3 . Per un vettore x 1v1 + x2v2 del piano
tangente abbiamo
2
llx1v1 + x2v2ll = Exi + 2Fx1x2 + Gx~
dove, utilizzando le notazioni di Gauss , abbiamo posto E = Ilvi 112 = vf v1, F = vf v2, e
G = llv2ll2 = vfv2. La forma quadratica I(x1,x2) = Exi + 2Fx1x2 + Gx~ si dice prima
forma fondamentale della superficie; la matrice che la rappresenta è

La prima forma fondamentale, in quanto restrizione a TpS del prodotto scalare standard di
JR 3 , è un prodotto scalare su TpS e quindi la matrice B è definita positiva. La seconda forma
fondamentale è
II(x1, x2) = exi + 2fx1x2 + gx~
dove e= nTruu(uo,vo), f = nTruv(uo,vo) , g = nTrvv(uo,vo). La matrice che rappresenta
la seconda forma fondamentale è
A= [; ~]
La seconda forma fondamentale misura la curvatura della superficie in P: più precisamente,
se v = x 1v 1 + x2v2 è un vettore tangente alla superficie in P e Hv è il piano normale alla
superficie generato da ne da v, allora il quoziente di Rayleigh

è la curvatura in P della sezione S n Hv. Un famoso teorema di Eulero afferma che la


curvatura R(v) di S n Hv, quando non è costante, assume un valore minimo ki = R(v1)
e un valore massimo k2 = R(v2) in due direzioni perpendicolari: v 1 e v2 sono ortogonali
tra loro in JR 3 . I valori ki e k2 si dicono curvature principali della superficie in P e le rette
generate da v 1 e v2 si dicono direzioni principali di curvatura. Il teorema di Eulero è una
conseguenza immediata del corollario 3.11: k1 ::; k2 sono gli autovalori di B- 1 A; quando
k1 # k2, cioè R(v) non è costante, gli autovettori relativi a k 1 e k2 sono ortogonali rispetto
al prodotto scalare definito da B, cioè sono ortogonali in JR 3 . La curvatura Gaussiana K e la
curvatura media H della superficie in P sono definite come il prodotto e la media aritmetica
delle curvature principali:
© 978-88-08-06401-1 3 Forme quadratiche 461

Ne segue che K è il prodotto degli autovalori di B - 1 A, quindi

K = det(B -1 A) = det(A) = eg - !2
det(B) EG - p2
La curvatura media H è invece la media aritmetica degli autovalori, quindi la metà della
traccia della matrice:
H = !t (B-1 A) = ! eG - 2f F + gE
2 r 2 EG - F 2
Una volta calcolate H e K , possiamo ricavare le curvature principali:

k1 ,2 =H ± VH 2 - K

li1§i!SI
6) Calcolare tutti i minori principali della matrice

12 21 o3]
[3 o 4
Quali sono i minori principali di nord ovest della matrice? Qual è il segno della forma
quadratica associata?

G) Sia A una matrice qualsiasi. Mostrare che AT A è (semi)definita positiva. Quando è


definita positiva?

e Scrivere la matrice che rappresenta la forma quadratica

q(x, y) = 3x 2 + 2xy + y 2
e stabilire il segno della forma quadratica.

G'!) Scrivere la matrice che rappresenta la forma quadratica

q(x, y) = 3x 2 + 2xy + y 2
e stabilire il segno della forma quadratica. Determinare un cambiamento di variabili che
diagonalizza la forma quadratica.

G) Stabilire il segno della forma quadratica

q(x, y , z) = x 2 + 8xy + 7y 2 - 2xz + 8yz + 5z2

Ci) Sia A una matrice simmetrica. Mostrare che A 2 è simmetrica e (semi)definita positiva.

Q Per ciascuna delle matrici simmetriche degli esercizi del paragrafo precedente si scriva
la forma quadratica associata, e si determini se è (semi)definita positiva/ negativa oppure
indefinita. Si calcolino i minori principali di nord-ovest di tali matrici e, quindi, si verifichi il
criterio di positività (negatività) della forma in termini di tali minori.
462 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

8 La funzione
q(x , y, z) = 2x 2 - 4xy + 9y 2 + 4yz + 2z 2
ha nell'origine (O, O, O) un punto di massimo o di minimo assoluto?

G) Si determinino il valore massimo e minimo assoluto della funzione

_ 10x 2 + 9y 2 + 4yz + 6z 2
R( x, y , z ) - 2 2 2
X +y +z
al variare di (x,y,z) in JR 3 \ {(0,0,0)}.

(D Si determinino il valore massimo e minimo assoluto della funzione

R(x z) = 9x 2 + 4xy + 2
2y - 8xz + 8z
2
, y, x2+y2+4z2

al variare di (x, y , z) in JR 3 \{(O, O, O)}.

e Mostrare che gli elementi sulla diagonale principale di una matrice definita positiva sono
positivi.

Q'i)Si mostri che il quoziente di Rayleigh è costante sulle rette uscenti dall'origine, e che è
invariante per trasformazioni di coordinate x = QX con Q ortogonale.

9 Trovare una formula per la curvatura Gaussiana della superficie z = f(x , y) (il grafico
della funzione f (x, y)) .

G) Calcolare le curvature principali di una sfera e di un cilindro.

• 4 LA DECOMPOSIZIONE Al VALORI SINGOLARI


Per una matrice simmetrica A, il teorema spettrale fornisce la decomposizione

(4.1) A=QDQT

dove Q è una matrice ortogonale e D è una matrice diagonale. L'interpretazione geo-


metrica è che il cambiamento di coordinate X= Qx, che è un'isometria, trasforma la
matrice rappresentativa dell'applicazione lineare ,CA in una matrice diagonale. Questa
decomposizione è possibile solo per le matrid simmetriche perché dalla (4.1) segue che
A è simmetrica. In questo paragrafo descriviamo la decomposizione ai valori singolari
di una matrice, che è un utile surrogato della (4.1) per una matrice qualsiasi. In in-
glese tale decomposizione è detta singular value decomposition o in forma abbreviata
SVD.
Consideriamo un'arbitraria matrice reale A di tipo (m, n). A partire da A si
possono costruire le due matrici simmetriche A T A e A A T. Si osservi che lo spazio
riga e lo spazio colonna di una matrice simmetrica sono uguali; in particolare

Row(AT A) = Col(AT A) e
© 978-88-08-06401-1 4 La decomposizione ai valori singolari 463

Nel paragrafo sul metodo dei minimi quadrati abbiamo già considerato la matrice
A T A, e abbiamo dimostrato che ha lo stesso nucleo, e quindi lo stesso rango, di A.
Sostituendo A con A T, si vede che il rango di A A T è uguale al rango di A T, che
coincide anch'esso col rango di A . In conclusione:

Le quattro matrici A , A T, A T A e A A T hanno lo stesso rango.

Mostriamo ora che le matrici A T A e A A T hanno anche gli stessi autovalori non nulli.
Questo implica nuovamente che hanno lo stesso rango, perché il rango di una matrice
diagonalizzabile è il numero dei suoi autovalori non nulli.

LEMMA 4.1 Sia A una matrice reale di tipo (m, n). Allora le due matrici sim-
metriche AT A e A AT sono (semi)definite positive e hanno gli stessi autovalori
non nulli con uguali molteplicità.

DIMOSTRAZIONE. La matrice A T A è (semi)definita positiva perché

Prendendo AT al posto di A si ottiene che A AT è (semi)definita positiva. Sia À un auto-


valore non nullo di AT A e sia v E llr un autovettore di A T A relativo a>.: AT Av = >.v.
Moltiplicando questa uguaglianza a sinistra per A otteniamo

(4.2)

Osserviamo che A v =/= O: altrimenti avremmo

il che è impossibile perché À =/= O e v =/= O. Quindi A v =/= O, e dalla ( 4.2) segue allora che
A v è un autovettore di A A T relativo a >.. Questo mostra che À è un .autovalore anche di
A A T . Per mostrare l'uguaglianza delle molteplicità dobbiamo approfondire il ragionamento
fatto. Siccome la matrice A T A è simmetrica, i suoi autovalori sono regolari, per cui la mol-
teplicità algebrica di À coincide con la sua molteplicità geometrica, e quindi è la dimensione
dell'autospazio
V.>-={v ElRn: A TAv=Àv}
Per lo stesso motivo, la molteplicità di À come autovalore di A AT è la dimensione dell'auto-
spazio
W.>-={wE lRm: AATw=>.w}
Abbiamo appena mostrato che, se v appartiene a V.>- , allora Av appartiene a W.>-, e che,
se v E V>- è non nullo, anche Av =/= O. Quindi l'applicazione lineare .C : V>- ---> W >-
che manda v in A v ha nel nucleo solo il vettore nullo, per cui è inietti va. In particola-
re dim(V >-) :'.:: dim(W >-) Scambiando i ruoli di A e A T, lo stesso argomento mostra che
dim(W >-) :'.:: dim(V >-). Quindi dim(W >-) = dim(V >-), il che conclude la dimostrazione.
Si può riassumere la dimostrazione in questo modo: se À =/= O, la moltiplicazione a sinistra
p er A mappa l'autospazio di À come autovalore di AT A nell'autospazio di À come autovalore
di A A T; tale applicazione lineare è un isomorfismo (esercizio: l'applicazione inversa è la
moltiplicazione a sinistra per A>-r ). •
464 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Siccome AT A è (semi)definita positiva, i suoi autovalori non nulli sono positivi.

DEFINIZIONE 4.2 (Valori singolari di una matrice)


Sia A una matrice qualsiasi. I valori singolari di A sono le radici quadrate po-
sitive degli autovalori non nulli di A T A, contati con la loro molteplicità come
autovalori di AT A.

OSSERVAZIONE Sia r il rango di A. Siccome AT A è simmetrica e quindi diago-


nalizzabile, il numero dei suoi autovalori non nulli coincide col rango di AT A, che
è anch'esso uguale a r: per questo i valori singolari sono r. Di solito si ordinano in
senso decrescente e li si denota col simbolo ()k; si scrive che i valori singolari di A sono
()1 :::'.: ()2 :::'.: · · · :::'.: (Jr > O. Per definizione, ()k = ..;>:k, dove .X. 1 :::'.: À2 :::'.: · · · :::'.: Àr > O sono
gli autovalori non nulli di A T A in ordine decrescente; ogni autovalore (e quindi ogni
valore singolare) si ripete un numero di volte uguale alla sua molteplicità algebrica.

•M§liiS
Se A è una matrice simmetrica, i valori singolari di A sono i valori assoluti degli autovalori
non nulli di A. Infatti, se A è simmetrica e i suoi autovalori sono Ài, . . . , Àn , allora AT A= A 2
ha autovalori >.i, ... , À~ (si osservi che la molteplicità di À~ come autovalore di A 2 coincide
con la molteplicità di Àk come autovalore di A perché A è diagonalizzabile). I valori singolari
di A sono perciò ~ = i>.kl per i k per cui Àk 1= O. Per esempio, i valori singolari di
A=[~ 6], che ha autovalori Ài = 1 e À2 = -1, sono ai= a2 = 1.
In particolare, i valori singolari di una matrice diagonale sono i valori assoluti degli
elementi non nulli della matrice.

Dati due numeri reali a e b, consideriamo la matrice

A=[OaO]
b oo
I valori singolari di A sono gli autovalori non nulli di A T A , che è una matrice 3 x 3, o anche
di A A T, che è una matrice 2 x 2. Conviene calcolare la matrice di ordine minore:

AA
r
=
[ob aO o]O [o~ ~bl = [aO bo2J
2

Gli autovalori di A A T sono a 2 e b2 (quelli di A T A sono perciò O, a 2 e b2: spiegare e


verificare). Se assumiamo che a e b siano diversi da zero, cioè che A abbia rango 2, allora i
valori singolari di A sono lai e lbl. Per esempio i valori singolari di

A=[
-2
010]
oo
sono ai = 2 e a2 = 1. I valori singolari di

A= [ O -3 O]
-3 o o
sono ai = a2 = 3.
© 978-88-08-06401-1 4 La decomposizione ai valori singolari 465

Nella decomposizione ai valori singolari di una matrice A di tipo (m, n) , i valori


singolari si dispongono in una matrice :E di tipo (m, n) in questo modo:

a1 o o o ... o
o a2 o o ... o
o ... o
(4.3) :E= o o ar o ... o
o o o o ... o

o o oo o

DEFINIZIONE 4.3 Una matrice :E = [bij] si dice pseudodiagonale se bij =O


per ogni (i,j) con i f j.

Si osservi che una matrice pseudodiagonale quadrata è una matrice diagonale; una
matrice pseudodiagonale però non è necessariamente quadrata. Per esempio le matrici

2
~l = [o 3
ooo] '
sono pseudodiagonali, ma non sono diagonali.
OSSERVAZIONE Il rango di una matrice pseudodiagonale coincide col numero dei
suoi elementi diversi da zero.

TEOREMA 4.4 (Decomposizione ai valori singolari)


Sia A una matrice reale di tipo (m, n) e di rango r. Allora esistono una matrice
pseudodiagonale :E di tipo (m, n) come nella (4.3) con a 1 ?:'. a2 ?:'. · · · ?:'. ar >O,
una matrice ortogonale U di tipo (m, m) e una matrice ortogonale V di tipo
(n , n) tali che

(4.4)
Tale decomposizione si dice decomposizione ai valori singolari di A; non è unica,
ma in ogni decomposizione siffatta gli elementi non nulli ak di :E sono i valori
singolari di A.

DIMOSTRAZIONE. Verifichiamo prima che gli elementi non nulli di l: sono i valori singolari
della matrice. Supponiamo che A = Ul:VT come nell'enunciato. Allora dall'ortogonalità di
U segue
AT A = Vl:TUTUl:VT = Vl:Tl:VT
Siccome l: è pseudodiagonale, la matrice D = l:Tl: è una matrice diagonale n x n; inoltre per
k = 1, 2, . . . , r l'elemento Àk di posto (k , k) in D è il quadrato del corrispondente elemento
Ch in l: . Per ipotesi O"k > O, quindi O"k = .;>:;;. D'altra parte

D = l:Tl: = yT AT AV = y - lAT AV
466 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Questo mostra che gli elementi >..k sulla diagonale principale di D sono gli autovalori di AT A,
e che la colonna k di V è un autovettore di A T A relativo a >..k (per k > r si ha >..k = O e le
corrispondenti colonne sono vettori del nucleo di A T A).
Queste considerazioni mostrano come costruire la decomposizione. Siano >..1, >..2, . .. , Àn
gli autovalori di AT A, ordinati in modo che l>..11 ?'. l>..21 ?'. · · · ?'. l>..nl· Siccome r(AT A) =
r(A) = r, gli ultimi n - r autovalori sono nulli. Per il teorema spettrale, esiste una matrice
ortogonale V tale che
yT AT AV = diag(>..1, ... , Àn)

La k-esima colonna v 1c di V è un autovettore di A T A relativo all'autovalore Àk. Le n colonne


di V formano una base ortonormale di JRn e le ultime n - r appartengono a Ker( A T A), che
coinciqe con Ker(A) come abbiamo già osservato. Definiamo

per k = 1, 2, ... , r

Per costruzione i vettori Uk appartengono allo spazio colonna Col(A): vogliamo mostrare
che ne formano una base ortonormale. Siccome lo spazio colonna ha dimensione r(A) =re
i vettori Uk sono esattamente r, basta mostrare che sono dei versori a due a due ortogonali.
I vettori Uk sono dei versori perché

Nel penultimo passaggio abbiamo utilizzato l'uguaglianza >..k = oL


nell'ultimo il fatto che
Vk è un versore in quanto colonna di una matrice ortogonale. I vettori uk sono a due a due
ortogonali perché, se h =fa k, allora

T 1 T T Àh T
u1cuh = - - vkA Avh = - - vkvh =O
ahak ahak

Nell'ultimo passaggio abbiamo usato il fatto che le colonne di V sono a due a due ortogonali.
Abbiamo così dimostrato che { u1, ... , Ur} è una base ortonormale di Col(A) . Sia ora
{ur+l, . . . , um} una base ortonormale d i Ker(Ar), che è il complemento ortogonale dello
spazio colonna in JRm, e sia U la matrice ortogonale che ha per colonne i vettori Uj per
j = 1, 2, ... , m. Per costruzione

(4.5) Av1c=a1cu1c perk=l,2 , .. . ,r e Av1c=O perk>r

Quindi

[u1 ... UrlUr+l . . . um]


[
a0:.1 O :r
V
001 =U:E

Moltiplicando a destra per vr otteniamo la decomposizione A = UEVT .


(Alternativamente, la (4.5) mostra che E è la matrice che rappresenta l'applicazione
lineare x ,_. Ax rispetto alla base di JRn formata dalle colonne di V e alla base di ]Rm
formata dalle colonne di U. Per la formula del cambiamento della matrice rappresentativa
:E= u- 1AV = ur AV , per cui A= UEVr). •
© 978-88-08-06401-1 4 La decomposizione ai valori singolari 467

OSSERVAZIONE Ripercorrendo con attenzione la dimostrazione si vede che nella


decomposizione A = U:EVT:

a) le colonne di V sono autovettori di AT A ; le prime r formano una base ortonormale


dello spazio riga Row(A); le altre n-r formano una base ortonormale di Ker(A);

b) le colonne di U sono autovettori di A A T; le prime r formano una base ortonormale


dello spazio colonna Col(A); le altre m - r formano una base ortonormale di
Ker(AT).

OSSERVAZIONE Dal punto di vista geometrico, otteniamo una fattorizzazione di


un'arbitraria applicazione lineare x r---+ Ax come prodotto dell'isometria x r---+ X =
vr x , seguita dalla mappa X r---+ Y = :EX che, nel caso m = n, consiste semplicemente
nel riscalare gli assi coordinati, seguita dall'isometria Y r---+ y = UY.

IJfoi!U
Se A è una matrice simmetrica, gli autovettori di A T A = A 2 coincidono con gli autovettori
di A e :E è la matrice diagonale che ha sulla diagonale principale i valori assoluti O"k = l>-k I
degli autovalori di A ; inoltre:

1 Àk
Uk = -Avk = -vk = ±vk per k = 1, 2, ... , r
O'k O'k

dove± è il segno di Àk . Se tutti gli a utovalori di A sono nonnegativi (cioè se A è (semi)definita


positiva), e scegliamo Uk = Vk per ogni k 2: r + 1, allora U = V e la decomposizione SVD di
A coincide con la decomposizione A = Q:EQT del teorema spettrale. Se però la matrice ha
degli a utovalori negativi, le due decomposizioni sono diverse. Per esempio, la decomposizione
A = Q:EQT della matrice A = [ ~ 6J è

[o1 o1] - [V:V: - V:V:] [1o o J [ V:


-1 -V{
V:]
V:
mentre la decomposizione SVD è

[o1 o1] = [V:


v'2
2
v'2
-2
V:] [1o o]1 [ V:v'2 V:]
-2
v'2
2

IJ1§,,!!$i
Calcoliamo una SVD della matrice A = [ 66J. Il prodotto A T A è la matrice [ ~ ~] che
ha un unico autovalore non nullo À = 2; l'autospazio relativo è la rett a x1 = x2. Perciò
:E= diag( v'2, O) e possiamo scegliere V= ~ [i -i] . Allora

1 T
u 1 = v'2Av1=[l,O]
468 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Scegliendo u2 =[O , lf come base di uf, otteniamo U =I. Una decomposizione SVD di A
è perciò:
1 1] _ [v'2
[o o - o
o] [-1/1/ v'2
o
v'2 1/ v'2l
1/ v'2J

1#1§1.l!U!i
Consideriamo la matrice A = [~ -g] . Per costruire una SVD di A , calcoliamo

Un autovettore di norma uno relativo all'autovalore 2 di AT A è il secondo vettore della base


canonica di ffi.2 e un autovettore di norma uno relativo all'autovalore 1 è il primo vettore
della base canonica. Quindi in questo caso:

Per costruire la matrice U calcoliamo:


1 T 1 T
u1 =-Avi= [-1,0,0] e u2 = -Av2=[O,1 , 0]
0"1 0"2

La terza colonna U3 di U dev'essere un versore ortogonale a u 1 e u2 , per esempio u 3


[O, O, 1]T. La SVD di A è perciò:

[~-~i [-1o oo o] [2o oo] [o 1]


010
1
01 10

•41g,,1u
Se A = UI::VT è una SVD di A , allora A T = v~rur è una SVD di A T. Per esempio,
_g g]
dall'esempio precedente deduciamo che la matrice A = [ 6 ha la decomposizione

[-2o 1o] = [o 1] [2 o o] [- ~ ~ ~i
oo 1 o o1 o oo1

•+M.!!Wi
Calcoliamo una SVD della matrice B = [~è]. Siccome BTB = [in gli autovalori di BTB
sono >..1 = 3 e >..2 = 1. I valori singolari di B sono perciò a 1 = J3 e a 2 = 1. L'autospazio di
BTB relativo a )q = 3 è la retta generata da (1 , lf , mentre quello relativo a >..2 = 1 è la
retta generata da [-1 , l]r . Possiamo perciò prendere

V=[~ -~] vl2 vl2


© 978-88-08-06401-1 4 La decomposizione ai valori singolari 469

Passiamo al calcolo della matrice U. La prima colonna è

mentre la seconda colonna è:

Un versore U3 perpendicolare a u1 e u2 è )J[l, -1, lf . Quindi

u= r;. 1
~ 1
v'6 - V2

Posto I; = [ ~ ~ g] T, una SVD di B è UI;VT.

Decomposizione polare
La seguente proposizione fornisce per le matrici quadrate una decomposizione analoga
alla decomposizione polare di un numero complesso.

PROPOSIZIONE 4.5 (Decomposizione polare)


Sia A una matrice quadrata reale. Allora esistono una matrice (semi)definita
positiva H e una matrice ortogonale Q tali che

A=HQ

Se A è invertibile, allora H è definita positiva e la decomposizione è unica.

DIMOSTRAZIONE . Sia A = UI;VT una SVD di A . Siccome A è quadrata, le matrici U ,


I; e V sono tutte quadrate dello stesso ordine e possiamo riscrivere la decomposizione nella
forma

Poniamo H = UI;UT e Q = UVT . Allora H è (semi)definita positiva perché i suoi autovalori


sono gli elementi sulla diagonale principale di I;, che sono non negativi; e Q è ortogonale
perché U e V lo sono.
Se A è invertibile, anche H lo è, e quindi H è definita positiva. Per quel che riguarda
l'unicità, se A = H1 Q 1 con H1 definita positiva e Q 1 ortogonale, allora A A T = Hi, e
quindi

Da questa uguaglianza segue Q1 = H - 1 A= Q il che prova l'unicità.

OSSERVAZIONE Analogamente è possibile decomporre una matrice quadrata reale



A nella forma
A=PK
dove P è ortogonale e K = .JAT A è (semi)definita positiva.
470 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

La matrice

~;;=
o
[1 o
-1]
soddisfa l'equazione J 2 = -1. Questo suggerisce di costruire una copia di IC all'interno
dell'insieme delle matrici reali 2 x 2: a ogni numero complesso z = a + ib associamo la
matrice reale M(z)

M( z) =al+bJ= [ ab -b]a
Si verifica facilmente che M(z + w) = M(z) + M(w) e M( zw) = M(z)M(w). L'operazione
di coniugio in IC corrisponde alla trasposizione di matrici: M(z) = M( z)T . Si osservi che
det(M( z)) = a 2 + b2 = lzl 2 , quindi M(z) è invertibile se z -f:. O e in tal caso M(z)- 1 =
M(z - 1 ). Chiaramente M(z) è simmetrica se e solo se b =O cioè z è reale , e M(z) è definita
positiva se e solo se z è reale positivo (a> O e b =O). Infine

M(z) T M(z) _
= M(zz) = [a 2
+b
0
2
Q ]
a2 + b2

quindi M(z) è ortogonale se e solo se z = eie è un numero complesso di modulo uno. Fissiamo
z -f:. O, e calcoliamo la decomposizione polare M(z) = HQ di M(z):

Q = M(z) H- 1 = M(z)M(l zl-


1
) =M ( l~I) = .../a;+b2
~
[ V a2+b2
- Ja:+b2] =
~
[cos(O) -sin(O)]
sin(O) cos(O)
V a2+b2
Quindi la decomposizione polare HQ di M(z) corrisponde esattamente alla decomposizione
polare
z ·e
z = lzl- = pe'
lzl
del numero complesso z nel prodotto del suo modulo lzl = p per il numero complesso unitario
z ,e
r;T =e

La matrice pseudoinversa di Moore-Penrose


Sia A una matrice reale mx n. Moltiplicazione a sinistra per A induce un'applicazione
lineare invertibile 9J1 : Row(A) ---> Col(A) dallo spazio riga di A allo spazio colonna
di A. A partire dall'applicazione inversa !JJt- 1 : Col(A) ---> Row(A) si costruisce una
matrice A + di tipo n x m che è il miglior surrogato possibile della matrice inversa
di A.
© 978-88-08-06401-1 4 La decomposizione ai va lori singolari 471

PROPOSIZIONE 4.6 (Matrice pseudoinversa)


Sia A una matrice reale di tipo (m, n) . Esiste un'unica matrice reale A+ di
tipo (n, m), detta matrice pseudoinversa o inversa di Moore-Penrose di A, tale
che
a) A+ Ax+ = x+ per ogni x+ E Row(A),
b) A+yo =O per ogni Yo E Col(A).L.
Valgono le uguaglianze:

Row(A +) =Col( A) , Col( A+)= Row(A), Ker(A +) = Col(A).L

La matrice A è la pseudo inversa di A+: A = (A+)+. In particolare


c) AA +p = p per ogni p E Col( A).

DIMOSTRAZIONE. Consideriamo l'applicazione lineare ~A : Rn ---> Rm associata alla matrice


A , cioè l'applicazione x >-+ Ax. Il nucleo e lo spazio riga di A sono sottospazi del dominio
Rn, e sono uno il complemento ortogonale dell'altro. Lo spazio colonna Col(A) coincide con
l'immagine di ~A ed è un sottospazio del codominio Rm. Mostriamo più precisamente che
ogni vettore p dello spazio colonna Col( A) è della forma Ax+ per un unico vettore x + dello
spazio riga Row(A). Infatti , se p appartiene allo spazio colonna di A , allora esiste x E Rn
tale che p = Ax. Ora x E Rn si decompone come somma x = x + + xo di un vettore
x + E Row(A) e di un vettore xo E Row(A) _j_ = Ker(A) , quindi

p = Ax = Ax + + Axo = Ax +

Il vettore x + dello spazio riga è univocamente determinato: se p = Ax 1 con x1 appartenente


allo spazio riga, allora

x + - x1 E Row(A) n Ker(A) = Row(A) n Row(A)_j_ ={O}

e quindi x1 = x +. In breve, abbiamo dimostrato che l'applicazione x + >-+ Ax+ dallo spazio
riga allo spazio colonna di A è biiettiva.
Mostriamo l'unicità di A + . Il prodotto A +p è determinato da a) per ogni vettore p
della forma Ax+ con x + E Row(A) ; per quanto abbiamo appena visto, tali vettori p sono i
vettori dello spazio colonna Col(A). Per il punto b) il prodotto A + y 0 è determinato anche
per ogni vettore Yo ortogonale a Col(A). Siccome ogni vettore y E Rm si scrive nella forma
y = p + Yo con p E Col(A) e Yo E Col(A)_j_, il prodotto A + y è determinato da a) e b) per
ogni y E Rm, e quindi la matrice A + è determinata da a) e b).
Mostriamo l'esistenza di A +. Definiamo un'applicazione~ + : Rm ---> Rn in questo modo:
dato y E Rn, scriviamo y = p+yo con p E Col( A) e y 0 E Col(A)_1_. Sappiamo che p = Ax+
per un unico x+ E Row(A). Poniamo ~+( p) = x + e ~+(y 0 ) = O, e quindi ~+(y) = x + .
Si verifica che~+ è lineare; quindi esiste una matrice A + tale che ~+(y) =A +y per ogni
y E Rm. Per costruzione A + soddisfa a) e b). Questo mostra l'esistenza.
Dall'uguaglianza
A + y =A +P +A +Yo =A+ Ax+ = x +
segue che l'immagine di di ~ +, cioè lo spazio colonna di A+ , è lo spazio riga di A . Inoltre
A +y = O se e solo se p = Ax+ = O, cioè y = yo appartiene al complemento ortogonale
472 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

dello spazio colonna di A . Quindi il nucleo di A+ è Col(A)1- . Da questo segue che lo spazio
riga di A+, che è il complemento ortogonale del nucleo, è lo spazio colonna di A. .
Infine per verificare che A = (A+)+, occorre mostrare a) e b) coi ruoli di A e A+
scambiati, cioè AA +p = p per ogni p E Row(A + ) e Ax = O per ogni x E Col(A +)1-.
Abbiamo appena mostrato che Col( A + ) è lo spazio riga di A, quindi Col( A + )1- è il nucleo
di A, per cui Ax = O per ogni x E Col( A + )1-. Infine, se p E Row(A +) = Col( A), allora
p = Ax+ per un unico x+ E Row(A), e


OssERVAZIONE Si osservi che il nucleo, lo spazio riga e lo spazio colonna della
matrice pseudoinversa e della matrice trasposta coincidono. Il rango di A+ coincide
col rango di A e col rango di A T.

Calcoliamo la pseudoinversa della matrice A= [/) 6J. Il vettore v = [1, l]T genera lo spazio
riga di A, che è la bisettrice del primo quadrante di JR 2. Il vettore e1 = [1 , o]T genera lo
spazio colonna di A , che è l'asse delle ascisse .C([l , Of). Siccome Av = 2e 1 , dal punto a)
della 4.6 segue A +e1 = ~v. D'altra parte A +e2 = O perché e 2 è ortogonale allo spazio
colonna. Ma A+ e1 e A + e2 sono le due colonne di A+ , quindi

A+ =~ [1 oO]
2 1

lii§u!d
Se D = diag(À1, ... ,Àr,O, .. . ,O) e À1ç #-O per k = 1, ... ,r, allora
n + = diag(X[ 1 , ... , >.;1, o, ... , O).
Analogamente, se ~ è pseudodiagonale di tipo (m, n) , la matrice ~+ è di tipo (n, m) e si
ottiene da ~T sostituendo gli elementi non nulli 0"1ç con 0"/; 1. Per esempio:

~=[200]
o3 o

•;w.1a
Supponiamo che P sia la matrice della proiezione ortogonale di JRn su un suo sottospazio H.
Allora p + = P. Infatti P è simmetrica, e il suo spazio riga e il suo spazio colonna coincidono
con H; evidentemente PPx+ = x+ per ogni x+ E H e Py 0 =O per ogni y 0 E H 1- . Quindi
p+ =P.
© 978-88-08-06401-1 4 La decomposizione ai valori singolari 473

•MA"'4D
Più in generale, sia A una matrice simmetrica con decomposizione spettrale

dove Àl , ... , Àt sono gli autovalori distinti non nulli di A. Allora


1
A + = À1 P1 + · · · + À;- 1Pt
In altri termini, se A= QDQT con Q ortogonale e D diagonale, allora A + = QD+ Qr.

L'esempio precedente è un caso particolare della proposizione seguente, secondo la


quale le isometrie lineari, o in altri termini i cambiamenti di variabile della forma
x = QX con Q ortogonale, preservano la matrice pseudoinversa:

PROPOSIZIONE 4.7 Sia B una matrice reale di tipo (m,n) . Siano Q 1 e


Q 2 due matrici ortogonali di ordine n e m rispettivamente. Allora la matrice
pseudoinversa di A = Q2BQf è

(4.6)

DIMOSTRAZIONE. Poniamo C = QlB + Qr_ Dobbiamo dimostrare CAx+ = x+ p er ogni


x+ appartenente allo spazio riga di A, e Cy 0 =O p er ogni yo ortogonale allo spazio colonna.
Dall'uguaglianza A T = QlBTQf segue che ogni vettore x + di Row(A) = Col(A T) è
della forma x + = QlX+ per un unico x + E Row(B) = Col(BT). Quindi

CAx+ = CAQ1X+ = QlB+ QIQ2BQfQ1X+ = QlB+Bx+ = Qlx+ = x +

Da A T = QlBT Qf segue anche che ogni vettore Yo E Ker(A T) = Col( A).i è della forma
Q2 Yo per un unico Yo E Ker(BT). Quindi


OSSERVAZIONE La dimostrazione precedente diventa immediata se si è disposti a
lavorare intrinsecamente (senza aver scelto delle coordinate a priori) . Data un'appli-
cazione lineare ,.C : W 1 ___, W 2 tra spazi euclidei di dimensione finita, si definisce
l'applicazione pseudoinversa ,.e+ come l'unica applicazione lineare W2 ___, W 1 con le
proprietà che ,.C+o,.C(x+) = x + per ogni x + appartenente a Ker(,.C) J_ e ,.e+(y 0 ) =O per
ogni y 0 appartenente a Im(,.C) J_. Se A è la matrice che rappresenta ,.C rispetto a due
basi ortonormali di W 1 e di W 2 , allora A+ rappresenta ,.e+ rispetto a tali basi. La
proposizione 4.7 segue immediatamente dalla formula di cambiamento della matrice
rappresentativa al variare delle basi.

141§"'4U
Occorre fare attenzione: se A = sns - 1, ma S , non è ortogonale, allora non c'è motivo
per cui A + sia uguale a sn+ s- 1. Un controesempio specifico è questo: la pseudoinversa di
474 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

A = [ 66J è A+ = ~ [ ~ g] come abbiamo visto a pagina 4 72. La matrice A ha autovalori


1
À1 = 1 e À2 =O , quindi A= SDS- è simile a D = diag(l , O) . Ma A+ ha l'autovalore ~ e
quindi non è simile alla matrice n + = diag(l , O) , cioè non è della forma sn+s - 1 .
Dalla proposizione 4. 7 ricaviamo una una formula per la pseudoinversa di una matrice
arbitraria in termini di una sua SVD.

COROLLARIO 4.8 (Decomposizione ai valori singolari della pseu-


doinversa) Se A = U~VT è una decomposizione ai valori singolari di A,
allora
(4.7)
è una decomposizione ai valori singolari di A+. In particolare, i valori singolari
di A+ sono gli inversi dei valori singolari di A.

DIMOSTRAZIONE. La tesi segue dalla proposizione 4. 7 perché in una SVD le matrici U e V


sono ortogonali. Come abbiamo visto negli esempi, la matrice :E+ è la matrice pseudodiago-
nale i cui elementi non nulli sono gli inversi dei valori singolari di A.

1§4§.11®1
A pagina 467 abbiamo calcolato una SVD della matrice A = [66J:
1 l] _ [v'2 o] [ 1/ v'2 1/ v'2]
[o o - o o -1/\1'2 1/v'2J
La matrice pseudoinversa è perciò:

A+= V:E+I = [1 / v'2 -1/ v'2] [1/ \1'2 o] = ~ [1 o]


1/\1'2 1/\1'2 J o o 2 1o
in accordo con quanto trovato a pagina 472.

'11%'®1
Abbiamo calcolato in precedenza la SVD della matrice A o -2]
= [6 g:

A= [-1~ o~ o]~ [2~ o]~ [~ ~]


Quindi

A+ = [o 1] [1/2 o o] [- ~ ~ ~i = [ o 1 o]
1o o 1o oo1 -1/2 o o
Il lettore dovrebbe controllare che A + A = 12, mentre AA + è la matrice della proiezione
ortogonale sul piano di equazione X3 = O, che è lo spazio colonna di A.
© 978-88-08-06401-1 4 La decomposizione ai valori singolari 475

PROPOSIZIONE 4.9 (Proprietà della matrice pseudoinversa)


Sia A una matrice di tipo (m, n), e sia A+ la sua matrice pseudoinversa. Allora
a) la matrice A+ A rappresenta la proiezione ortogonale di !Rn su Row(A);
b) la matrice AA + rappresenta la proiezione ortogonale di !Rm su Col(A);
c) per ogni y E !Rm, x+ = A +y è l'unica soluzione ai minimi quadrati di
Ax = y che appartenga allo spazio riga di A;
d) se A ha rango n, allora A+ = (AT A)- 1 AT è un'inversa sinistra di A;
e) se A ha rango m, allora A+= AT(AAT)- 1 è un'inversa destra di A;
f) se A è quadrata e invertibile, allora A+ = A - 1 .

DIMOSTRAZIONE. Per definizione, per ogni vettore x+ E Row(A)


A +Ax+ =x+

mentre per ogni vettore xo E Ker(A)


A + Ax 0 = A +o= O
Questo mostra che A+ A è la matrice che rappresenta la proiezione ortogonale di Jlr su
Row(A). D'altra parte, se p = Ax+ appartiene allo spazio colonna
AA+p = Ax+ = p
mentre, se Yo appartiene al complemento ortogonale dello spazio colonna, cioè a Ker(A +),
allora
AA+ yo = AO =O
Questo mostra che AA + è la matrice che rappresenta la proiezione ortogonale di lRm su
Col( A).
Mostriamo c): fissato y E lRn, sia p la proiezione ortogonale di y sullo spazio colonna e
sia x + = A +y. Allora Ax+ = p , cioè x + è una soluzione ai minimi quadrati di Ax = y.
Siccome l'applicazione x+ >-> Ax+ è iniettiva sullo spazio riga, si tratta dell'unica soluzione
ai minimi quadrati che appartenga allo spazio riga.
Se r(A) = n, allora Row(A) = 1Rn, e quindi a) implica A + A= In, cioè A + è un'inversa
sinistra di A . La matrice A T A è quadrata di ordine n e ha rango
r(AT A)= r(A) = n
Perciò A T A è invertibile, e possiamo considerare la matrice B = (AT A )- 1 A T. Evidente-
mente anche B è un'inversa sinistra di A : BA= In. Questo implica che
BAx+ =x+
per ogni x + appartenente allo spazio riga di A . D'altra parte, se yo è ortogonale allo spazio
colonna di A , allora Yo E Ker(AT) e quindi
Byo =0
Quindi B =A+ per l'unicità della matrice pseudoinversa. Analogamente si mostra e), ed f)
segue da d) . •
476 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

OSSERVAZIONE Quando r(A) < n, le soluzioni ai minimi quadrati di Ax = b sono


infinite, e precisamente sono i vettori x della forma
x =A +b + x 0 al variare di x 0 in Ker(A)
Tra tutte queste la soluzione x+ = A +b è quella che ha norma minima: infatti x+
appartiene allo spazio riga, ed è quindi ortogonale ai vettori x 0 del nucleo; per il
teorema di Pitagora
2 2
llxll = llx+112 + llxoll2 2: llx+ll
In altri termini, x+ è tra le soluzioni ai minimi quadrati di Ax = y quella a distanza
minima dall'origine. Per questo a volte si dice che x+ è la soluzione ottima ai minimi
quadrati di Ax = b.

OSSERVAZIONE Le due matrici A+ A e AA +sono simmetriche e idempotenti, come


ogni matrice di una proiezione ortogonale.

•i14H$1
e Sia w = [a, b, c]T un vettore arbitrario di JR3 . Si scrivano le matrici WT w e WWT e se
ne calcolino gli autovalori. Quali sono i valori singolari di A = w? Mostrare che, se w =F O,
+ 1 T
allora w = llwll 2 w .

El!) Si consideri la matrice


A= [-2 2 1]
1 -1 2
Per determinare i valori singolari di A conviene calcolare AT A o A AT? Si determinino i
valori singolari, una SVD e la matrice pseudoinversa di A .

eBA
e
Sia A una matrice di tipo (m, n) e sia B una matrice di tipo (n, m). Mostrare che AB
hanno gli stessi autovalori non nulli . Dato un autovalore non nullo À di AB, siano V À
e W À gli autospazi relativi a À delle matrici AB e BA. Mostrare che l'applicazione lineare

v >-> Bv da V À a W À è invertibile e che la sua inversa è l'applicazione w >-> AÀw .

E) Si calcoli la matrice pseudoinversa della matrice

5-2 1]
A=
[-2
1
2 2
2 5

Per ogni b E JR 3 qual è la soluzione ottimale ai minimi quadrati di Ax = b?


G) Si definisca la norma di una matrice A di tipo (m , n) nel modo seguente:

llAll = Sup {llAxll : XE lRn , llxll = 1} = Sup { lll~Ìill : ~E lRn, X=/= O}


Mostrare che llAll = 0-1: la norma di una matrice (non nulla) coincide col massimo dei suoi
valori singolari. Mostrare anche che l'estremo superiore che definisce la norma è un massimo,
cioè che esiste un versore x tale che llAxll = llAll- Dimostrare la disuguaglianza triangolare
llA + Bll '.S llAll + llBll·
© 978-88-08-06401-1 5 Il caso complesso 477

ED Il numero di condizionamento di una matrice quadrata invertibile A è

Questo numero è di fondamentale importanza nelle applicazioni numeriche perché controlla


la propagazione degli errori dai dati alla soluzione di un sistema lineare. Mostrare che e è
uguale al rapporto tra il massimo e il minimo valore singolare di A.

• 5 IL CASO COMPLESSO
In questo paragrafo qimostriamo la versione complessa del teorema spettrale. Si ricordi
che, data una matrice complessa A, la matrice AH è la matrice trasposta coniugata
di A, e che l'analogo complesso di una matrice ortogonale è una matrice unitaria, cioè
una matrice invertibile u tale che uH = u- 1 . Una matrice è unitaria se e solo se
le sue colonne formano una base ortonormale di cn. Ci domandiamo quali siano le
matrici complesse che siano unitariamente diagonalizzabili o, equivalentemente, quali
siano le matrici complesse per le quali esiste una base ortonormale di cn formata da
autovettori della matrice. La risposta è che le matrici unitariamente diagonalizzabili
sono le matrici N che commutano con là propria trasposta coniugata: NHN = NNH .
Tali matrici si dicono normali e formano una classe molto più ampia delle matrici
simmetriche: per esempio, le matrici ortogonali reali e le matrici antisimmetriche reali
sono normali, e il teorema spettrale complesso ha applicazioni anche allo studio di
queste importanti matrici.
Dedurremo il teorema spettrale complesso da un teorema noto come Lemma di
Schur, che è un risultato importante di per sé.

TEOREMA 5.1 (Lemma di Schur)


Sia A una matrice quadrata complessa. Allora A è unitariamente simile a una
matrice triangolare alta. Questo significa che esiste una matrice unitaria U tale
che T =UH AU è una matrice triangolare alta.

OSSERVAZIONE Si noti che, se u è unitaria, allora uH = u- 1e quindi T = uH AU


è effettivamente simile ad A. Nel Lemma di Schur non ci sono ipotesi su A : ogni
matrice quadrata complessa è simile a una matrice triangolare. Il teorema si applica
anche a matrici quadrate A reali (i cui elementi cioè sono numeri reali), perché una
matrice reale è un caso particolare di una matrice complessa; però, anche se A è
reale, in generale U e T sono complesse. Con una ipotesi importante in più si può
dimostrare una versione reale del Lemma di Schur: se A è una matrice reale e tutti
gli autovalori di A sono reali, allora esiste una matrice reale ortogonale Q tale che
T = QT AQ è triangolare (in questo caso anche la matrice T è reale, perché A e Q
sono reali) .

DIMOSTRAZIONE DEL LEMMA DI SCHUR. La dimostrazione è del tutto simile a quella del
teorema spettrale e procede per induzione sull'ordine n della matrice. Il caso iniziale n = 1
è ovvio.
Sia ora n;:::: 2 e supponiamo che il teorema sia vero per matrici quadrate di ordine n - 1:
dobbia:rpo dimostrarlo per una matrice quadrata A di ordine n. Il polinomio caratteristico
478 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

det(A - ÀI) = O ha una radice Ài E C. Il numero complesso Ài è un autovalore di A, ed


esiste perciò un autovettore vi E cn relativo a Ài. Il vettore ui = II:~ II è anch'esso un
autovettore di A relativo a Ài e ha norma l. Possiamo trovare una base di cn che abbia ui
come primo elemento; mediante l'algoritmo di Gram-Schmidt trasformiamo tale base in una
base ortonormale { ui' b2 .. . ' bn} di cn. Sia p = [qi b2 . .. bn] la corrispondente matrice
unitaria. La matrice C = p - l AP = pH AP rappresenta l'applicazione lineare .CA rispetto
alla base { U1 , b2 .. . , bn}; in particolare, la prima colonna di C è il vettore delle coordinate
di .CA(ui) rispetto a tale base, cioè

D 'altra parte, .CA(ui) = Aui = Àiui. Confrontando queste due espressioni concludiamo che
C11 = Ài e Cj i =o per j = 2, . . . ' n. La matrice e è quindi della forma

C=[*]
dove w è un vettore di cn- i che non ci interessa specificare, o denota il vettore nullo di cn- i '
e Ai è una matrice quadrata di ordine n-1. Per l'ipotesi di induzione Ai è unitariamente
simile a una matrice triangolare alta: esiste una matrice unitaria U i di ordine n -1 tale che
U {'"Ai U i = Ti è triangolare alta. La matrice

R=[~]
è unitaria perché U i lo è, e

La matrice T è triangolare alta perché Ti lo è. Infine sia U = PR. La matrice U è unitaria


perché prodotto di matrici unitarie, e

uH AU = RHPH APR= RHCR= T

Siccome U è unitaria e T è triangolare alta, questo completa la dimostrazione.



DEFINIZIONE 5.2 (Matrice normale)
Una matrice quadrata complessa N si dice normale se commuta con la sua
trasposta coniugata:
NHN=NNH

•41g,,1aa
Una matrice simmetrica (rispettivamente antisimmetrica, rispettivamente ortogonale) reale
A è normale. Infatti in questo caso AH = AT = A (rispettivamente AH = AT = -A,
rispettivamente AH= AT =A- i) e quindi AH commuta con A. Una matrice unitaria è
normale perché UH = u - i commuta con U . Una matrice diagonale (anche se a coefficienti
complessi) è normale.
© 978-88-08-06401-1 5 Il caso complesso 479

TEOREMA 5.3 (Teorema spettrale complesso)


Una matrice quadrata N è normale se e solo se è unitariamente diagonalizzabile,
cioè esiste una matrice unitaria U tale che D = UHNU sia diagonale.

DIMOSTRAZIONE. Cominciamo col mostrare che: una matrice unitariamente simile a una
matrice normale è normale. Supponiamo infatti che A sia unitariamente simile a una matrice
normale N: questo significa che esiste una matrice unitaria U tale che

N = u - 1 Au = u r Au
Allora A= UNUH, e quindi:

AH A= (UNUH)H(UNUH) = (UH)HNHUHUNUH = UNHNUH


AAH = (UNUH)(UNUH)H = UNUHUNHUH = UNNHUH

Ma NHN = NNH perché N è normale, e quindi AH A= AAH , cioè A è normale .


Supponiamo ora che A sia unitariamente diagonalizzabile: questo significa che A è uni-
tariamente simile alla matrice diagonale D . Siccome una matrice diagonale è normale, anche
A è normale per quanto abbiamo appena mostrato.
Viceversa, supponiamo che N sia una matrice normale. Per il Lemma di Schur N è unita-
riamente simile a una matrice triangolare alta T . Basta ora mostrare che T è diagonale.
Siccome N è normale, anche T è normale. La tesi ora segue dal fatto che:

Sia T una matrice triangolare alta che sia anche normale. Allora T è diagonale.
Dimostriamo questa affermazione per induzione sull'ordine di T . Se la matrice è 1 x ! l'enun-
ciato è ovvio. Supponiamo che l'enunciato sia vero per matrici di ordine n-1 , e dimostriamolo
p er matrici di ordine n . Sia quindi T una matrice triangolare a lta di ordine n che sia anche
normale. Scriviamo T nella forma a blocchi:

(5.1)

dove a è uno scalare, w è un vettore di cn-1 , O è il vettore nullo di cn- i , e Ti è una matrice
triangolare alta di ordine n-1.
Osserviamo che, siccome T è normale,

Applichiamo questa uguaglianza a v = ei, il primo vettore d ella base canonica. Allora Tei
è la prima colonna di T , mentre THei è il coniugato della prima riga di T , quindi

Questo mostra che la norma di w è zero, e perciò w =O. È ora immediato verificare che Ti
dev'essere normale. Dall'ipotesi di induzione segue che Ti è diagonale. Siccome w = O, la
(5.1) mostra ora che T è diagonale e questo conclude la d imostrazione. •

COROLLARIO 5.4 Autovettori di una matrice normale relativi ad autovalori


distinti sono ortogonali.
480 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

DIMOSTRAZIONE. Supponiamo che N sia una matrice normale di ordine n , e che w, z E cn


siano autovettori di N relativi ad autovalori distinti À e µ. Per il teorema spettrale esiste
una base ortonormale B di cn formata da autovettori di N. Siano 9>. e 9µ le molteplicità
geometriche di À e µ rispettivamente, cioè il massimo numero di autovettori indipendenti
relativi a À e aµ . La base B, come ogni base formata da autovettori , contiene 9>. autovettori
u 1 , . . . , Un relativi a À, e 9µ autovettori v1, ... , v 9 ,, relativi a µ. L'autovettore w relativo
a À è combinazione lineare degli autovettori Uj , l'autovettore z relativo aµ è combinazione
lineare degli autovettori Vk . Siccome la base B è ortonormale, i vettori U j sono ortogonali a
tutti i vettori vk, e quindi w è ortogonale a z.

L'analogo complesso di una matrice simmetrica è una matrice hermitiana:



DEFINIZIONE 5.5 (Matrice hermitiana. Matrice antihermitiana)
Una matrice quadrata A si dice hermitiana o autoaggiunta se coincide con
la sua coniugata trasposta (o aggiunta): AH = A. Una matrice A si dice
antihermitiana se AH= -A.

OssERVAZIONE Una matrice a coefficienti reali è (anti)hermitiana se e solo se è


(anti)simmetrica. Una matrice (anti)hermitiana è evidentemente normale. Le matrici
hermitiane (o autoaggiunte) giocano un ruolo fondamentale nella formulazione mate-
matica della meccanica quantistica. Anche lo studio delle matrici antisimmetriche ha
le sue radici in fisica, in particolare nella meccanica classica.

OSSERVAZIONE Un matrice A è antihermitiana se e solo se iA è hermitiana, poiché

Ogni matrice quadrata è somma (in un unico modo) di una matrice hermitiana e di
una matrice antihermitiana:

La matrice A è normale se e solo se la sua parte hermitiana A+ A H


2
e la sua. parte
antihermitiana A - 2A H commutano.

COROLLARIO 5.6 (Autovalori di matrici hermitiane e antihermitiane)


Sia A una matrice quadrata di ordine n. Allora A è hermitiana (rispettivamente
antihermitiana) se e solo se esiste una matrice unitaria U tale che

UH AU = diag(.Ài, ... , .Àn)

dove .À1 , ... , Àn sono numeri reali (rispettivamente immaginari puri). In parti-
colare, gli autovalori di una matrice hermitiana sono reali, e gli autovalori di
una matrice antihermitiana (a fortiori, di una matrice antisimmetrica reale)
sono immaginari puri.
© 978-88-08-06401-1 5 Il caso complesso 481

DIMOSTRAZIONE. Sia A una matrice hermitiana. Allora A è normale, e quindi per il


teorema spettrale esiste una matrice unitaria U tale che UH AU = D sia diagonale. Allora

Ma per una matrice diagonale

DH = (diag(>.1 , . .. , >.n))H = diag(>.1, ... , >.n)


Quindi da DH =D segue
>.1 = >.1, ... , Àn = Àn
cioè gli autovalori >.k sono numeri reali. Viceversa, se i >.k sono reali, allora DH = D e quindi
A= UDUH è hermitiana.
Il caso antihermitiano segue da quello hermitiano, perché A è antihermitiana se e solo
se iA è hermitiana. •

La matrice A = [ -~ ~ J è hermitiana. Il suo polinomio caratteristico è >. 2 - 1, e i suoi


autovalori sono >.1 = 1 e >.2 = -1. Un autovettore relativo a >. 1 = 1 è v 1 = [ _\ J, un
autovettore relativo a >.2 = -1 è v2 = (! ]. I due autovalori sono reali, e i due autovettori
corrispondenti sono perpendicolari in C 2:

•i%iiii
Moltiplicando per i la matrice hermitiana dell'esempio precedente si ottiene la matrice
antisimmetrica reale

E= [~ -~J
Il suo polinomio caratteristico è >. 2 + 1, e i suoi autovalori >. 1 = i e >.2 = -i sono numeri
immaginari puri.

e Sia A una matrice quadrata complessa. Mostrare che A+ AH e AH A sono hermitiane.

O Mostrare che una matrice quadrata A è normale se e solo se la sua parte hermitiana
8
A+ A
2 e la sua parte antihermitiana A - AH
2 commutano.

~ Sia Q la matrice di una rotazione del piano. Si trovi una matrice unitaria che diagona-
lizza Q.

El!) Si trovi una matrice unitaria che diagonalizza la matrice E = [-~ ~] .


482 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

~ Si mostri che una matrice 2 x 2

A= [~ ~]
è hermitiana se e solo se a e d sono reali e e = b. Se questo è il caso, trovare gli autovalori di
A e verificare che sono reali.

(ID Mostrare che una matrice quadrata N di ordine n è normale se e solo se IIN vi I = IINH vi I
per ogni v E cn. Dedurre che, se N è normale e v è un autovettore di N relativo all'autovalore
À, allora v è un autovettore di NH relativo all'autovalore :\.

& Dimostrare senza usare il teorema spettrale che autovettori relativi ad autovalori distinti
di una matrice normale sono ortogonali.

$ Dare un'altra dimostrazione del teorema spettrale complesso facendo vedere che tutti
gli autovalori di una matrice normale sono regolari, e mostrando che autovettori relativi ad
autovalori distinti sono ortogonali in cn.
Suggerimento: se N è normale, allora anche N - .ÀI è normale. Per mostrare che gli autovalori
sono regolari, cioè hanno indice uno, basta allora mostrare che Ker(B) n Col(B) = {O} per
ogni matrice normale B . Per questo si usi il trucco seguente: se v E Ker(B) e B è normale,
allora v appartiene anche a Ker(BH) . Invece se v E Col(B), allora v è ortogonale a ogni
vettore in Ker(BH) (questo è vero anche se B non è normale).

• 6 MATRICI NORMALI REALI


Sia A una matrice quadrata reale di ordine n. Il polinomio caratteristico di A è un
polinomio P(>..) a coefficienti reali di grado n . Siccome i coefficienti di P(>..) sono reali,

P(X) = P(>..) per ogni À E C

Quindi, se Ào E C è un autovalore di A, cioè P(>.. 0 ) =O, allora anche >.. 0 è un autovalore


di A. Se Ào = Ào, allora Ào è un numero reale; altrimenti Ào i- Ào, e abbiamo così una
coppia di autovalori distinti non reali. Inoltre Ào e Ào hanno la stessa molteplicità come
radici di P(>..). Quindi gli autovalori di A si possono suddividere in s coppie di numeri
complessi non reali À.1 , À1 , ... , À 8 , À 8 , e in un gruppo di autovalori reali µ 1 , . .. , µt, e
n = 2s + t perché un polinomio di grado n ha esattamente n radici complesse. Per
esempio, il polinomio

ha le due radici complesse non reali >.. 1 = ~ +i 1 e >.. 2 = ~ - iv;, e una radice reale
µ1 = -1.

TEOREMA 6.1 (Forma canonica di una matrice normale reale)


Sia N una matrice normale reale. Siano

(k=l,2, .. . , s)
© 978-88-08-06401-1 6 Matrici normali reali 483

i 2s autovalori di N con parte immaginaria non nulla, e siano µ 1 , . .. , µt gli


autovalori reali di N . Allora esiste una matrice ortogonale Q tale che B =
QTNQ è la matrice diagonale a blocchi

(6.1)

dove

(6.2)

DIMOSTRAZIONE . Il punto fondamentale della dimostrazione è il seguente

Fatto 1 Sia >.. = a - ib un autovalore non reale di N e sia v = x + iy la decomposizione


in parte reale e immaginaria di un autovettore v relativo a ).. . Allora x e y hanno la stessa
norma e sono ortogonali tra loro. Inoltre

(6.3) Nx = ax+by , Ny = -bx+ay

Dimostriamo questa affermazione: fissiamo un autovalore ).. = a - ib con b =!= O (il segno meno
non è un errore di stampa) , e un autovettore v E cn
relativo a>..: v è non nullo e Nv = >..v.
Prendendo i coniugati troviamo
Nv ="Xv
D 'altra parte, siccome N è reale,
Nv=Nv=Nv
Quindi v è un autovalore di N relativo all'autovalore ">:. Siccome >.. non è reale, >.. =/= >:
e perciò v e v sono ortogonali in quanto autovettori relativi ad autovalori distinti di una
matrice normale.
Il prodotto hermitiano di v e v è

= (x + iyf (x + iy) =
2 2
VHV XT X - Y T y +i (YT X+ XT y) = llxll - llY ll + 2ixT y

Siccome ve v sono ortogonali, il loro prodotto hermitiano è nullo, quindi llxll 2 = llY ll 2 e
xT y = O. Questo mostra che x e y hanno la stessa norma e sono ortogonali tra loro .
Siccome N è reale, la parte reale e la parte immaginaria di Nv sono Nx e Ny rispetti-
vamente . D 'altra parte

>..v = (a - ib)(x + iy) = ax +by+ i(-bx + ay)

Quindi Nx = ax +by e Ny = -bx + ay, e questo conclude la dimostrazione del fatto 1.

Fatto 2 Siano v e w due vettori di cn tali che v e v siano entrambi ortogonali a w. Allora
la parte reale e la parte immaginaria di v sono ortogonali sia alla parte reale sia alla parte
immaginaria di w.
Dimostriamo questo fatto. Siano v = x + iy e w = p + iq le decomposizioni in parte reale e
immaginaria div e w. Per ipotesi il prodotto hermitiano div e w è nullo:

O= W H V = ( p - tq · ) = p T X+ q T y + t· ( p T y - q T X)
· )T( X + ty
484 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Quindi

(6.4)
Per ipotesi anche il prodotto hermitiano di ve w è nullo, e quindi

(6.5)

Mettendo a sistema le equazioni (6.4) e (6.5) otteniamo

(6.6)
Questo mostra che la parte reale e la parte immaginaria di v sono ortogonali sia alla parte
reale sia alla parte immaginaria di w.

Costruzione di Q Gli autovalori non reali di N sono ak ± ibk per k = 1, ... , s. Ponia-
mo Àk = ak - ibk. Per il teorema spettrale esiste una base ortonormale di cn formata da
autovettori di N . In particolare, possiamo trovare autovettori v 1 , . .. , Vs relativi agli autova-
lori >.. 1, ... , Às, e autovettori reali w1 , . . . , Wt relativi agli autovalori reali µ 1, ... , µt tali che
l'insieme
{v1, ... ' V s, W1, ... ' Wt}
sia ortonormale: i suoi elementi sono versori a due a due ortogonali in cn.
Come abbiamo visto nella dimostrazione del fatto 1, i vettori v 1 , . . . , Vs sono autovettori
di N relativi agli autovalori À.1, . . . , Às; inoltre sono versori, perché I lvk 11 = I lvk 11 = 1, e sono
a due a due ortogonali perché

v;HVj=vfvj=O=O sei=f=j

Infine i Vk sono ortogonali a ciascun v ; e a ciascun W j perché autovettori di una matrice


normale relativi ad autovalori distinti sono ortogonali. Quindi

è una base ortonormale di cn. Sia ora Vk = Xk + iyk la decomposizione in parte reale e
immaginaria di Vk per k = 1, ... , s. Per il fatto 2 gli n vettori

{x1, Y1, · · · , X s, Ys , W1, ... , Wt}


sono a due a due ortogonali in IRn. Per costruzione i vettori wk sono versori, mentre per il
fatto 1 i vettori Xk e Yk hanno la stessa norma. Ora:

Quindi:
B = {hx1, hy1 , ... , hx. , hy. , w1, . .. , Wt}
è una base ortonormale di IRn. Sia Q la matrice ortogonale che ha come colonne i vettori
della base B. Dal fatto 1 segue che:

N(hxk) = ak(hxk) + bk(hyk) ,


(6.7)
per ogni k = 1, ... , s.
D 'altra parte

(6.8) per ogni h = 1, ... , t

Questo dimostra il teorema perché le uguaglianze (6.7) e (6.8) equivalgono a NQ = QB . •


© 978-88-08-06401-1 6 Matrici normali reali 485

OSSERVAZIONE La matrice B=diag(D 1 , ... , D 8 , µ 1 , ... , µt) del teorema ha l'aspetto

(6.9) B=

COROLLARIO 6.2 (Forma canonica di una matrice ortogonale)


Sia P una matrice ortogonale. Esistono f)i, ... , () 5 E [O, 2rr) e una matrice
ortogonale Q tale che B = QTPQ è la matrice diagonale a blocchi

(6.10) B = diag(D1, ... , Ds , µi, ... , J.ht)

dove

(6.11)

DIMOSTRAZIONE. Gli autovalori di una matrice ortogonale hanno modulo 1. Quelli non
reali sono della forma e;e = cos( O) + i sin( O) con sin( O) i= O, quelli reali possono solo essere
1 o -1. La tesi segue ora dal teorema 6.1. •

COROLLARIO 6.3 (Forma canonica di una matrice antisimmetrica


reale) Sia E una matrice antisimmetrica reale. Esistono numeri reali posi-
tivi bi, ... , b8 e una matrice ortogonale Q tale che B = QTEQ è la matrice
diagonale a blocchi

(6.12} B = diag(D1 , ... , D 8 , O, ... , O)

dove

(6.13)

In particolare, il rango di E è pari.

DIMOSTRAZIONE. Gli autovalori di una matrice antisimmetrica sono immaginari puri, quin-
di o sono nulli o sono della forma ±b1çi con b,. > O. L'esistenza di Q e B segue dal teore-
ma 6.1. Il rango di E è uguale al rango di B perché le due matrici sono simili, e il rango di B
è 2s . •
486 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

'*BliS'
e Si consideri la matrice

A= O O 1
o1 o]
[1 o o
Si spieghi perché A è la matrice di una rotazione di JR 3 . Si determinino l'asse e l'angolo di
rotazione. Si determinino gli autovalori di A . La matrice è diagonalizzabile da una matrice
complessa? E da una matrice reale? Si determini una matrice ortogonale reale Q tale che

cos( B) - sin( B) O]
QT AQ = sin(B) cos(B) O
[ o o 1

G) Si mostri che ogni isometria lineare di lRn è il prodotto di composizione di isometrie


di questo tipo : una rotazione di un piano H ç lRn che lascia fisso H 1-, una riflessione
ortogonale con asse un iperpiano. Se l'isometria ha determinante 1, non c'è bisogno delle
riflessioni; d'altra parte, mostrare che ogni rotazione è il prodotto di due riflessioni, quindi
ogni isomet ria lineare è un prodotto di riflessioni ortogonali.

• 7 QUADRICHE
In questo paragrafo pensiamo gli elementi di !Rn come punti. Intuitivamente, identifi-
chiamo un punto col vettore x delle sue coordinate; il sistema di riferimento è fissato:
l'origine è il punto che corrisponde a x = O, e gli assi coordinati sono le rette generate
dai versori della base canonica. Una quadrica in !Rn è il luogo dei punti di !Rn che
soddisfano un'equazione di secondo grado in x 1 , . . . , Xn:
n n
(7.1)

I coefficienti aij, bi e e dell'equazione sono numeri reali. Perché l'equazione sia di


secondo grado occorre richiedere che almeno uno dei coefficienti aij sia diverso da
zero. Quando n = 2 si parla di conica anziché di quadrica; se si usano x e y al posto
di x 1 e x2 come coordinate nel piano, l'equazione di una conica ha la forma

(7.2) q(x , y) = a11 x


2 + a22Y 2 + 2a12 xy + 2b1 x + 2b2 y + e= O
L'equazione di una conica dipende da 6 coefficienti. L'equazione di una quadrica in
IR3 dipende 10 coefficienti: nelle coordinate x, y, z ha la forma

Per riscrivere il polinomio q(x) in una forma compatta e maneggevole, introduciamo


la matrice simmetrica A= [aij] e il vettore riga bT =[bi]· Allora

(7.3) q(x) = xT Ax + 2bT x +c


© 978-88-08-06401-1 7 Quadriche 487

Abbiamo così messo in evidenza il fatto che il polinomio di secondo grado q(x) è
somma della forma quadratica xT Ax, della forma lineare 2bT x e e della costante c.
Il nostro scopo in questo paragrafo è di trovare un cambiamento di coordinate
che consenta di semplificare la (7.1) in modo da poter riconoscere la quadrica geome-
tricamente. Per esempio, nel caso delle coniche, ci aspettiamo che l'equazione (7.2)
definisca un'ellisse o un'iperbole o una parabola (eventualmente degeneri); per provare
questo, troveremo una rototraslazione del piano che trasforma l'equazione (7.2) in
un 'equazione canonica, ovvero del tipo:

x2 y2
(7.4) a2 ± b2 = 1 per ellissi e iperbole, x2 + 2py = O per una parabola

Prima di cominciare, occorre fare una digressione per descrivere i cambiamenti di


coordinate e il loro effetto sull'equazione di una quadrica.

Cambiamenti di coordinate e rototraslazioni


Finora abbiamo considerato solo cambiamenti di coordinate lineari, cioè della forma
x = SX, dove S è una matrice invertibile. Nello studio delle quadriche è però neces-
sario poter cambiare anche l'origine: se la quadrica ha un centro di simmetria, come
succede per esempio per un'ellisse o un 'iperbole o una sfera, l'equazione della quadrica
si semplifica se si prende come origine delle coordinate il centro di simmetria.

DEFINIZIONE 7.1 (Affinità)


Una funzione x = F(X) : !Rn --t !Rn si dice trasformazione di coordinate affine
o afffinità se esistono una matrice n x n invertibile S e un vettore v E !Rn tali
che F(X) = SX + v.

OSSERVAZIONE Un'applicazione lineare invertibile x = SX è un 'affinità: basta pren-


dere v = O; una traslazione x = X+ v è un'affinità: basta prendere S = I. Un'affinità
arbitraria F(X) = SX + v è la funzione composta F =Ho G dell 'applicazione linea-
re G(X) = SX con la traslazione H(Y) = Y + v: un'affinità consiste quindi di un
cambiamento lineare di coordinate seguito da una traslazione. L'affinità si può anche
descrivere come una traslazione seguita da un cambiamento lineare di coordinate;
infatti l'uguaglianza

F(X) = SX+v = S(X + w) .dove w = s- 1 v


mostra che F= GoH1 è uguale alla traslazione H 1 (X) = X+w seguita da G(Y) = SY.

PROPOSIZIONE 7 .2 (Le affinità formano un gruppo)


L'insieme delle affinità F : !Rn --t !Rn soddisfa le seguenti proprietà:

a) la funzione identità F(X) = X è un'affinità;


488 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

b) un'affinità è una funzione invertibile e l'inversa di un'affinità è un'affinità;


più precisamente, l'inversa di x = F(X) = SX + v è

c) il prodotto di composizione di due affinità è un'affinità; più precisamente,


se F(X) = SX +ve G(Y) = TY + w, allora:

Go F(X) = TSX + (Tv +w)

DIMOSTRAZIONE. La dimostrazione è semplice ed è lasciata come esercizio.


Suggerimento:


OSSERVAZIONE Sex= SX + v, l'origine delle coordinate x, cioè il punto che ha le
coordinate x tutte nulle, ha coordinate X uguali a -s- 1 v. L'origine delle coordinate
X ha invece coordinate x uguali a v.

OSSERVAZIONE Iterando il punto c) della proposizione 7.2 si vede che componendo in


ordine qualsiasi un numero arbitrario di traslazioni e di applicazioni lineari invertibili
si ottiene comunque un'affinità, cioè un'applicazione lineare invertibile seguita da una
traslazione.

DEFINIZIONE 7 .3 (Rototraslazione)
Un'applicazione lineare invertibile x = QX si dice rotazione se Q è una matrice
ortogonale con determinante uguale a 1. Un'affinità F(X) = QX + v si dice
rototraslazione se x = QX è una rotazione.

OSSERVAZIONE Cerchiamo di giustificare la terminologia. Se n = 2, una matrice


ortogonale con determinante uguale a 1 rappresenta la rotazione del piano di un
e
angolo attorno all'origine. Se n = 3, per il teorema di Eulero una matrice ortogonale
con determinante uguale a 1 rappresenta una rotazione dello spazio attorno a un asse
passante per l'origine. In lRn, il teorema di classificazione delle matrici ortogonali
garantisce che una matrice ortogonale con determinante uguale a 1 è il prodotto
di applicazioni che ruotano un piano bidimensionale H lasciando fisso Hl.. Questo
giustifica la definizione di rotazione di lRn. Una rototraslazione è per definizione una
rotazione seguita da una traslazione.

OSSERVAZIONE Anche per le rototraslazioni valgono le proprietà della proposizio-


ne . 7.2: l'applicazione identità è una rototraslazione, l'inversa di una rototraslazione
è una rototraslazione, e la composta di due rototraslazioni è una rototraslazione. In
particolare, componendo un numero arbitrario di traslazioni e di rotazioni in qualsiasi
ordine si ottiene ancora una rototraslazione.
© 978-88-08-06401-1 7 Quadriche 489

Vediamo ora quale sia l'effetto di un'affinità sull'equazione di una quadrica.

PROPOSIZIONE 7.4 (Trasformazione dell'equazione di una quadrica)


Sia

(7.5) q(x) = xT Ax + 2bT x +e


un polinomio di secondo grado nelle variabili x, e sia x = SX + v un'affinità.
Allora q(X) = q(SX + v) è il polinomio di secondo grado nelle variabili X:

(7.6)
determinato da

DIMOSTRAZIONE. Sostituendo x = SX + v nella (7.5) si ottiene

(7.8) q(X) = xTsT ASX + +vT ASX + xTsT Av + VT Av + 2bTsx + 2bT V+ e

Considerando i termini di secondo grado si ottiene A = gT AS, mentre il termine costante


è e = VT Av + 2bT V+ c. Il termine lineare in X contiene xTsT Av che è uno scalare e
pertanto coincide col suo trasposto:

(7.9)

dove nell'ultimo passaggio abbiamo usato il fatto che A T = A perché A è simmetrica. Il


termine lineare in q(X) è perciò

(7.10)

il che mostra b = ST(Av+ b).



Vi è un modo ancora più compatto di scrivere un polinomio di secondo grado q(x) =
xT Ax + 2bT x +e: per questo introduciamo la matrice simmetrica di ordine n + 1

(7.11) B=[~]
Allora

(7 .12) q(x) = [xT I 1] B ~ = zT B z


dove z è il vettore di JRn+l ottenuto aggiungendo a x un'ultima componente uguale
a 1:

(7.13)
490 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Diremo che B è la matrice associata al polinomio q(x). La matrice B contiene tutti i


coefficienti del polinomio, e assegnare B è equivalente ad assegnare q(x).

1414,,15
Consideriamo il polinomio in due variabili

q(x , y) = x 2 + 8xy + 7y 2 - 2x +By+ 5

La matrice B associata a q(x, y) è

14-1]
B =
[ 4 7
-1 4
4
5

Il lettore dovrebbe verificare la (7.12) in questo caso:

q(x, y)= [x y 1)
[ 14-li
4 7
-1 4
4
5

Analogamente, a un'affinità x = SX + v possiamo associare la matrice quadrata di


ordine n + 1

(7.14) F = [ffeh-]
Allora

(7.15)

Con queste notazioni la (7.7) diventa:

(7.16)

Siccome l'inversa di una rototraslazione è una rototraslazione e il prodotto di due


rototraslazioni è una rototraslazione , possiamo definire una relazione di equivalenza
sull'insieme dei polinomi dichiarando equivalenti due polinomi che differiscono per
una rototraslazione: diciamo che due polinomi q(x) e q(x) sono m etricamente equi-
valenti se esiste una rototraslazione x = QX + v tale che q(X) = q(QX + v). In
questo caso la rototraslazione porta la quadrica di equazione q = O nella quadrica di
equazione q =O. Il termine m etricamente è giustificato dal fatto che le rototraslazioni
sono delle isometrie e quindi preservano le proprietà m etriche delle quadriche (per
esempio, la lunghezza dei semiassi di un'ellisse o l'angolo formato dagli asintoti di
un'iperbole).
© 978-88-08-06401-1 7 Quadriche 491

TEOREMA 7.5 (Forma canonica di un polinomio di secondo grado)


Sia
q(x) = zTBz = xT Ax + 2br x +e
un polinomio di secondo grado nelle variabili x 1 , ... , Xn. Allora gli autovalori
di A, il rango di A, il rango e il determinante di B sono invarianti per roto-
traslazioni. Sia r il rango di A e siano )'l, ... , Àr gli autovalori non nulli di A.
Allora r ::; r(B) ::; r + 2 e il polinomio q(x) è metricamente equivalente a

a) q(X) = À1Xf + · · · ÀrX'; se r(B) = r;

b) q(X) = >-1Xf + · · · >-rX'; +e, con e -=f. O, se r(B) = r + 1;


c) q(X) = À1Xf + · · · ÀrX'; + 2pXr+1, con p -=f. O, se r(B) = r + 2.

DIMOSTRAZIQNE. La rototraslazione x = QX + v trasforma A in A = QT AQ . Siccome Q


è ortogonale, A e A sono simili e quindi hanno gli stessi autovalori e lo stesso rango; il rango
r coincide col numero di autovalori non nulli >. 1, . .. , Àr di A. La matrice B si trasforma
in B = FTBF per la (7.16). Occorre stare attenti al fatto che F non è necessariamente
ortogonale , quindi gli autovalori di B e B possono non coincidere. La matrice F è comunque
invertibile con determinante uguale a 1:

det(F) = det ( [~I~]) = det(Q) = 1

Perciò B e B hanno lo stesso rango e, per il teorema di Binet, lo stesso determinante.


Vediamo ora come portare q(x) in forma canonica. Per questo usiamo la proposizione 7.4:
è sufficiente ricordare che una traslazione x = X + v lascia A invariata e trasforma b in
Av+b, mentre una rotazione x = QX trasforma A in QT AQ e b in QTb . Cerchiamo prima
di eliminare b, cioè il termine lineare di q(x), mediante una traslazione: questo è possibile
se e solo se r(A) = r([Alb]).

Caso 1 Supponiamo r(A) = r([Alb]).


Allora esiste w tale che Aw =b. Facciamo la traslazione x = Y - w. Il polinomio q1(Y) =
q(Y - w) non ha più termini di primo grado perché A(-w) + b =O, mentre i termini di
secondo grado sono rimasti invariati:

q1(Y) = yT AY + C1

Ora usiamo il teorema spettrale per diagonalizzare la forma quadratica yT A Y : esiste una
matrice ortogonale Q tale che
- T .
A= Q AQ = d1ag(>.1, . .. , Àr, O, .. . , O)

Si ricordi che il determinante di una matrice ortogonale è ±1. Possiamo supporre, cambiando
se necessario segno alla prima colonna di Q, che det(Q) = 1. La rotazione Y = QX trasforma
A in QT AQ e non reintroduce termini lineari perché QTO =O. Quindi
492 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

Per distinguere i due casi e i= O e e = O, osserviamo che la matrice

B=[~]
ha rango uguale a quello di A più 1 se e i= O e uguale a quello di A se e = O. Siccome
r(B) = r(B) e r(A) = r(A) = r, questo dimostra i punti a) e b) sotto l'ipotesi aggiuntiva
che r = r([Alb]) .

Caso 2 Supponiamo r(A) i= r((Alb]).


In questo caso il vettore b non appartiene allo spazio colonna di A. Siccome A è simmetrica,
lo spazio colonna di A coincide con lo spazio riga di A, e quindi il complemento ortogonale
dello spazio colonna è il nucleo di A. Possiamo quindi scrivere b =ho+ h1 con ho E Col( A)
e h1 E Ker(A). La proiezione h1 di b su Ker(A) è non nulla perché b non appartiene allo
spazio colonna. Siccome ho appartiene allo spazio colonna, esiste w tale che Aw = ho.
Come nel primo caso facciamo la traslazione x = Y - w. Questa volta però A(-w) + b =
-bo+ b = h1 i= O, e
q1(Y) = yT AY + 2bfY + C1
Quello che abbiamo guadagnato è che h1 E Ker(A) . Ora usiamo di nuovo il teorema spet-
trale: la matrice simmetrica A ammette una base ortonormale di autovettori, che si ottiene
scegliendo una base ortonormale per ogni autospazio; una tale base consiste quindi di r auto-
vettori v 1, ... , v r, corrispondenti agli autovalori non nulli, e di n - r autovettori che formano
una base di Ker(A) (il nucleo è l'autospazio relativo all'autovalore À =O) . Con l'algoritmo di
Gram-Schmidt possiamo costruire una base ortonormale Vr+ 1, ... , Vn di Ker(A) il cui primo
versore Vr+1 è
1
Vr+l = b1TibJf
Sia Q la matrice ortogonale che ha come colonne i vettori v1, .. . , Vn . Come nel primo caso
possiamo supporre che det Q = 1. Per costruzione
- T .
A=Q AQ=d1ag(À1, . .. ,Àr,O, . .. ,O)
Inoltre QT Vr+i è la colonna r + 1 della matrice QT Q =I, quindi è il vettore

er+1 = [0, ... ,0, 1,0 ... ,O]T ( 1 nella posizione r + 1)

della hase canonica. Allora

La rotazione Y = QX perciò trasforma q1 (Y) in

q(X) = XTAX + 2llb1ll e~+1X +e= À1X~ + . . . ÀrX?. + 2pXr+1 +e


dove abbiamo posto p = llb1ll · Possiamo supporre e= O: altrimenti facciamo la traslazione
che porta Xr+i in Xr+1 + fi:;
e lascia fisse tutte le altre coordinate. Abbiamo così mostrato
che q(x) è metricamente equivalente al polinomio del punto c) dell'enunciato. La matrice B
ha la forma (a parte eventuali righe e colonne nulle che comunque non influiscono sul rango)

À1 oo

B= Àr O O
o o op
o o po
© 978-88-08-06401-1 7 Quadriche 493

e quindi r(B) = r+2 perché p =/=O. In conclusione, se r(A) =/= r([Alb)) , allora r(B) = r+2 e il
polinomio q(x) è metricamente equivalente a un polinomio come nel punto c) dell'enunciato.

Conclusione Siccome B si ottiene aggiungendo una riga ad [Alb], e [Alb] si ottiene aggiun-
gendo una colonna ad A , il rango di B è almeno r = r(A) e al massimo r+2. Se r([Alb]) = r,
allora r(B) :::; r + 1. Se invece r([Alb]) = r + 1, abbiamo fatto vedere che r(B) = r + 2:
non si può verificare il caso r(B) = r([Alb]) = r + 1. Quindi i tre casi possibili sono
r(B) = r([Alb)) = r, che corrisponde al punto a) dell'enunciato, r(B) = r((Alb)) + 1 = r+ 1,
che corrisponde al punto b) dell'enunciato, e r(B) = r([Alb)) + 1 = r + 2, che corrisponde
al punto c) dell'enunciato. •

IJ1§!.ld
Consideriamo nuovamente il polinomio in due variabili

q(x , y) = x2 + 8xy + 7y 2 - 2x + 8y + 5

La matrice B associata a q(x , y) è

B=
[ 14-li
4 7
-1 4
4
5

che ha determinante -100 =/= O, quindi rango 3. La matrice A = [à ~] ha rango due, quindi
siamo nel caso b) del teorema e il polinomio ha la forma canonica

I coefficienti >.1 e >.2 sono gli autovalori di A, che sono 9 e -1, mentre

e= det(B)/ det(A) = -100/ - 9 = 100/9

La forma canonica di q(x, y) è quindi

ij(X, Y) = 9X 2 - Y
2
+ 100/9
Questo ci dice che esiste una rototraslazione del piano che porta la conica di equazione
q(x, y) =O nella conica di equazione

9X
2
- Y
2
+ 100/9 = O
In particolare, la conica è un'iperbole.

Una quadrica q(x) = O si dice quadrica a centro se la sua equazione ha la forma cano-
nica del punto a) o del punto b) del teorema, cioè se r(A) = r([Alb]). In questo caso,
la quadrica è simmetrica rispetto all'origine delle coordinate X: infatti il punto sim-
metrico del punto X rispetto all'origine è -X, e, se X appartiene alla quadrica, allora
anche -X appartiene alla quadrica perché q(X) = q(-X). Se r < n , il centro non
è unico: ogni punto del sottospazio Xr+l = . .. = Xn = O è un centro di simmetria.
Il primo passo della riduzione a forma canonica dell'equazione della quadrica, cioè la
traslazione x = Y - w, consiste nel prendere come origine delle coordinate un centro
di simmetria della quadrica (che ha coordinate w nel sistema di riferimento iniziale).
494 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

La rotazione successiva X = QY fa sì che i nuovi assi coordinati siano paralleli agli


autovettori di A. Geometricamente, si tratta di assi di simmetria della quadrica. Ve-
diamo perché per il primo asse coordinato. La simmetria ortogonale rispetto al primo
asse coordinato manda il punto P = [X1 , X2 ... ,Xn] in R = [X1 ,-X2 ... ,-Xn]; le
coordinate di P soddisfano l'equazione q(X) se e solo se le coordinate di R la sod-
disfano , quindi la quadrica è simmetrica rispetto al primo asse coordinato. Analogo
discorso vale per gli altri assi. In conclusione, le rette passanti per il centro della qua-
drica e dirette come gli autovettori di A sono assi di simmetrica della quadrica. Il
teorema spettrale mostra dunque che una quadrica a centro ha n assi di simmetria a
due a due ortogonali; per questo il teorema spettrale è noto anche come teorema degli
assi principali .
OSSERVAZIONE Si dice che due quadriche q 1 (x) =O e q 2 (x) =O di !Rn sono con-
gruenti se esiste una costante k =f. O tale che q 1 e kq2 siano metricamente equivalenti
(si osservi che moltiplicare l'equazione di una quadrica per uno scalare non nullo non
modifica l'insieme dei punti della quadrica) . Intuitivamente, questo significa che esiste
una rototraslazione che porta una quadrica nell'altra. Per dirla con Euclide, due qua-
driche sono congruenti se esiste un movimento rigido di !Rn che porta l'una nell 'altra.

IJ1§,,!ii
Classificazione delle coniche Vogliamo determinare le classi di congruenza delle coniche.
Una conica ha un'equazione del tipo
2
(7.17) q(x, y) = an x + a22 y 2 + 2a12 xy + 2b1x + 2b2y + c =O
Poniamo come sopra

I classici invarianti ortogonali dell'equazione della conica sono

Qui .À.1 e .À.2 denotano gli autovalori di A. Si parla di invarianti perché, per il teorema 7.5,
sono lasciati invariati da una rototraslazione. L'invariante Ii si dice invariante lineare perché
h(kq) = kh(q) : se moltiplichiamo l'equazione per lo scalare k , l'invariante Ii viene molti-
plicato per k . L'invariante h si dice quadratico perché h(kq) = k 2 h(q), eh cubico perché
h(kq) = k 3 h(q). Si osservi che moltiplicando l'equazione della conica per uno scalare non
nullo non si modifica il fatto che Ii, h e h siano o non siano nulli, e non si modifica il segno
di h né quello di lih
I casi possibili sono:
a) r(A) = r(B) = 1 (in questo caso h = h = O).
In questo caso la forma canonica di q(x , y) è .À.1X 2 =O. Dividendo per .X. 1 vediamo che la
conica è congruente alla conica di equazione X 2 = O: si dice che la conica è la retta X = O
contata due volte (convincersi che q(x,y) è .X. 1 per il quadrato di una forma lineare).
© 978-88-08-06401-1 7 Quadriche 495

b) r(A) = 1, r(B) = 2 (anche in questo caso h = 13 =O) .


In questo caso la forma canonica di q(x , y) è >. 1X 2+c con e =I= O. Dividendo per À1 vediamo
che la conica è congruente alla conica di equazione X 2 + d = O dove d = e/ À1 . Se d < O
la conica è l'unione delle due rette parallele di equazione X = Re X = -R. Se
d > O, la conica non ha punti reali; nel piano complesso consiste delle due rette disgiunte
X = iVd e X = -iVd.
c) r(A) = 2, r(B) = 2 (questo equivale ah =I= O eh= O).
In questo caso la forma canonica di q(x, y) è >. 1X 2 +>.2Y 2 dove >. 1 e À2 sono gli autovalori
di A. Dividendo per >. 1 vediamo che la conica è congruente alla conica di equazione
X 2 + dY 2 = O dove d = >.2/ >. 1 =I= O. Se 12 = >. 1>. 2 < O, gli autovalori sono discordi e d è
negativo: la conica è allora l'unione delle due rette incidenti X= HY e X= -v'dY.
Se invece h >O, cioè d >O, la conica ha solo un punto reale (l'origine, cioè il suo centro) ;
nel piano complesso consiste delle due rette X= iVdY e X= -iVdY .
d) r(A) = 1, r(B) = 3 (questo equivale ah = O eh =I= O).
In questo caso la forma canonica di q(x , y) è >. 1X 2 + 2pY =O dove >. 1 è l'autovalore non
nullo di A. Dividendo per >. 1 vediamo che la conica è congruente alla conica di equazione
X 2 + 2aY =O con a= p/ >. 1 =/:O. Si tratta perciò di una parabola.
d) r(A) = 2, r(B) = 3 (questo equivale ah =I= O eh =I= O).
In questo caso la forma canonica di q(x, y) è >. 1X 2 + >. 2Y 2 +e= O e e =I= O. Si osservi che
h = det(B) = À1À2c = det(A)c = hc (per scrivere la forma canonica dell'equazione è
pertanto sufficiente calcolare gli autovalori di A e il determinante di B).Dividendo per
-e= -h/ h vediamo che la conica è congruente alla conica di equazione
eX
2
+ fY 2 = 1
dove e= -À1l2 / h e f = -À2h / h. Distinguiamo i seguenti sottocasi:
1. h > O e Iih < O
In questo caso gli autovalori >. 1 e À2 sono concordi perché h = À1À2 > O, e hanno
segno opposto a h perché Ii = >. 1 + À2 ha segno opposto a h. Quindi e ed f sono
positivi: posto a= l/ Fe e b = l/..;=] l'equazione della conica diviene
x2 y2
~+b2=1
Si tratta perciò di un'ellisse.
2. h > O e Iih > O
In questo caso e e f sono negativi. Ragionando come sopra si porta l'equazione nella
forma
x2 y2
-+-=-1
a2 b2
Non ci sono soluzioni [X, Yf E IR 2 di questa equazione . Si dice che la conica è un'ellisse
immaginaria.
3. h <o
In questo caso gli autovalori sono discordi, e l'equazione si può portare (ruotando
l'asse X nell'asse Y se necessario) nella forma
x2 y2
- --=l
a2 b2
La conica è perciò un'iperbole. Si noti che l'iperbole è equilatera quando a = b, e
questo equivale a Ii = À1 + À2 = O.
496 Capitolo 9. Teoremi spettrali e forme quadratiche © 978-88-08-06401-1

1;mm1
(9 Riconoscere la conica di equazione
2
x + y 2 + 4x - 2y - 6 =O
al) Riconoscere la conica di equazione

x
2
+ 6xy - 2x - 8y =O
G) Riconoscere la conica di equazione
2
x + y2 - 2xy + 2x - 4y =O
G'l) Riconoscere la conica di equazione
4xy + y 2 + 4y -
2
x - - 2x 1
e trovarne (se esistono) il centro e gli assi di simmetrica.

(li) Ridurre a forma canonica la quadrica di equazione

2x
2
+ 2y2 + 2z 2 + 2xy + 4x z + 2yz + 2x + 4y + 2z + 1 = O
~ Ridurre a forma canonica la quadrica di equazione

2x
2
+ 3z 2 - 4xy + 3yz - x + 2y = O
• Ridurre a forma canonica la quadrica di equazione

x
2
- 3y
2
+ z2 - 2xy + 2x + 2z - 1 =O
~ Ridurre a forma canonica la quadrica di equazione

4yz + 18x - 8y + c = O
2 2 2
9x - 5y - 4z -

al variare di e E R.

e Mostrare che ogni retta di Rn che non sia contenuta nella quadratica q(x) =O interseca
la quadrica in al più due punti distinti.

~ Mostrare che le quadriche di equazione x 2 - y 2 = 1 - z 2 (iperboloide iperbolico) e


x 2 - y 2 = z (paraboloide iperbolico) contengono infinite rette.

e In Rn si consideri la quadrica Q di equazione:

xi + .. . + x~ - 1 - x~ =o
Mostrare che Q è un cono con vertice nell'origine: questo significa che, se un punto P ap-
partiene alla quadrica, allora l'intera retta che congiunge P all'origine è contenuta nella
quadrica.

e Mostrare che, se B è definita positiva, la quadrica di equazione zTBz = O non ha punti


reali .

8 Dedurre dalla (7. 7) che la segnatura di B , cioè il numero di autovalori positivi, negativi
e nulli di B , è invariante per rototraslazioni. Mostrare con un esempio che gli autovalori di
B possono invece variare.
Indice analitico

A autovettori
- catena di autovettori generalizzati,
affinità, 487 342
algoritmo - di una matrice simmetrica, 434
- di eliminazione di Gauss, 94 - indipendenti se relativi ad autovalori
- di Gauss-Jordan, 138 distinti, 320
- di Gram-Schmidt, 396
alternante, 261
angolo, 30, 363 B
- in uno spazio euclideo, 375
applicazione baricentro , 53
- duale, 259 base, 23, 27, 153, 173
- identità, 235 - canonica, 79
- lineare, 217, 221 - di Jordan, 342
- - invertibile, 236 - duale, 253
approssimazione lineare, 218 - esistena di una, 180
area, 42 - ortogonale, 378
ascissa, 32 - ortonormale, 32, 378
assi coordinati, 23, 27 biiettiva, 228
assioma delle parallele, 6 bilineare, 364
autospazio, 305, 316 blocco di Jordan, 327
autovalore, 301- 303, 308
- regolare, 325
- semplice, 325
autovalori e
- di una matrice antihermitiana, 480
- di una matrice antisimmetrica, 480 cambiamento della matrice rappresen-
- di una matrice hermitiana, 480 tatitiva, 250
- di una matrice ortogonale, 387, 424 campo, 72
- di una matrice simmetrica, 433 codominio, 227
- di una matrice unitaria, 424 coefficiente
autovalori e autovettori - angolare, 51
- di un blocco di Jordan, 327 - di un'equazione lineare, 71
- di una matrice di proiezione, 413 - di Fourier, 372
autovettore, 70, 103, 301- 303, 308 cofattore, 280
- generalizzato, 341 combinazione lineare, 24, 28, 78, 163
498 Indice analitico © 978-88-08-06401-1

complemento - di matrici che commutano, 358


- algebrico, 280 differenza di vettori, 17
- ortogonale, 389, 402 differenziale
- - degli spazi associati a una matrice, - secondo, 443
406 dimensione, 180
componenti, 24, 28, 173 dipendenza lineare, 168
conica, 486 direzione, 4, 6, 10
coniugato distanza, 363, 370
- di un vettore complesso, 416 disuguaglianza
coordinate, 23, 27, 173, 184 - di Schwarz, 39, 374, 376 39
- rispetto a una base ortogonale, 380 - triangolare , 39
coseni direttori , 48 dominio, 227
criterio
- di inettività, 230
- di isomorfismo, 237 E

Elementi di Euclide, 1
D elemento neutro, 16
endomorfismo, 233, 290
decomposizione equazione
- ai valori singolari, 432, 465 - autovettori e autovalori , 303, 308
- di Jordan, 356 - caratteristica, 312
- polare, 469 - lineare, 70
- spettrale, 437 - - omogenea, 71
derivata - omogenea associata, 71
- del determinante, 297 equazioni
determinante, 41 - cartesiane, 160
- è il prodotto degli autovalori , 314 - normali, 407
- della matrice trasposta, 278 - parametriche di una retta, 46
- di un 'applicazione lineare, 290 espressione in coordinate cartesiane
- di una matrice di permutazione, 270 - del prodotto scalare, 36
- di una matrice ortogonale, 292 - del prodotto vettoriale, 41
- di una matrice triangolare a blocchi,
295
- di Vandermonde, 286 F
- e matrici non singolari, 265
- e operazioni elementari di riga, 262 fascio di piani, 66
- esistenza, 275 fattorizzazione
- formula analitica, 271 - di Cholesky, 446, 450, 453
diagonale principale, 93 - QR, 399
diagonalizzabilità fattorizzazione di Choleski, 146
- condizione sufficiente, 321 fibra, 227
- criteri, 353 forma
- primo criterio, 310 - bilineare
- secondo criterio, 325 - - definita positiva, 364
diagonalizzazione simultanea - canonica
- di forme quadratiche, 458 - - di Jordan, 349
500 Indice analitico © 978-88-08-06401-1

- quadrata, 93 - di una matrice, 476


- rappresentativa di un'applicazione li- - proprietà, 376
neare, 219, 242 normale, 9
- semidefinita positiva, 408 nucleo, 160
- simmetrica, 134, 161 - di un'applicazione lineare, 228
- trasposta, 133 - di una matrice, 85
- - coniugata, 422 nullità, 196
- triangolare, 93, 141 numero di condizionamento, 477
- - a blocchi, 295
- unitaria, 423
- - come isometria, 424 o
- unitariamente
- - diagonalizzabile, 425, 477 omomorfismo, 232
- - simile, 4 77 operazioni elementari sulle righe , 90
matrici ordinata, 32
- congruenti, 446 origine, 7, 22, 27
- simili, 331
MEG ; 94
metodo p
- dei minimi quadrati, 406
- soluzione ottima, 476 parallelepipedo, 43
metodo di eliminazione di Gauss , 70 parallelogramma, 40
metricamente equivalenti, 490 parametri direttori, 47
minimax principle, 450 parte
minore, 292 - immaginaria di un vettore complesso,
- principale, 454 416
- - nord ovest, 296 - reale di un vettore complesso, 416
minori permutazione, 147, 267
- di nord-ovest, 451 - pari o dispari , 269
modulo , 10 piano iperbolico, 9
molteplicità pivot, 91
- algebfica, 314 pivoting, 94
- - è dimensione sottospazio radicale, polinomio
352 - caratteristico, 284, 312
- - e geometrica, confronto, 324 - di Fourier complesso, 422
- di una radice, 314 - di Legendre, 399
- geometrica, 316, 436 - differenziale, 233
- - di un autovalore, 316 - minimo, 355
multilineare, 261, 273 - omogeneo di primo grado, 219
posizione reciproca di due rette, 48
potenze
N - di una matrice, 126
principio di sovrapposizione, 116
nilpotent, 162 prodotto
norma, 10, 363, 367 - cartesiano, 212
- L 2 , 367 - di composizione di due funzioni, 232
- di un vettore complesso, 417 - di matrici, 122
© 978-88-08-06401-1 Indice analitico 501

- - diagonali, 126 R
- hermitiano, 418
- - standard, 417 radice, 313
- interno, 364 rango, 70, 96
- riga per colonna, 81 - per colonne, 193
- scalare, 364 - per righe, 193
- - complesso, 417 regola
- - standard, 365 - del parallelogramma, 14
prodotto - di Sarrus, 271
- - interno, 34 relazione
- - misto o triplo, 42 - di equivalenza, 6, 331
- - per uno scalare, 19 - lineare, 169
- - scalare, 33, 34 restrizione
- - vettoriale, 40 - di un operatore a un sottospazio in-
proiezione variante, 358
- ortogonale, 389, 391 retta, 165
- - esistenza e unicità, 401 - di regressione lineare, 405
- - formula analitica, 393 rette
- complanari, 5
- - matrice di, 412, 414
- incidenti, 5
- - minimizza distanza, 391
- ortogonali, 7
- - su una retta, 371
- parallele, 5
proiezione
- sghembe, 5
- ortogonale, 33, 34
riflessione
- - su un piano, 39
- ortogonale, 427, 438
proprietà rotazione, 488
- associativa, 15 rototraslazione, 488
- commutativa, 15
pseudodiagonale, 465
punto s
- di applicazione, 10
- medio, 52 scalare, 18
scambio, 267
Schur
- lemma di, 4 77
Q segmento, 52
segnatura, 457, 496
quadrica, 486 sequilineare, 418
- a centro, 493 sfera, 59
- assi di simmetria, 494 - unitaria, 450
quadriche similitudine, 331 , 339
- congruenti, 494 - criterio per matrici diagonalizzabili,
quota, 32 333
quoziente - invarianti, 332
- di Rayleigh, 449 sistema
- di riferimento, 7, 22, 27
- - cartesiano, 31
502 Indice analitico © 978-88-08-06401-1

- lineare, 69 - di Binet, 289


- - (sovra/sotto)determinato, 103 - di Carnot, 370, 419
- - equivalente, 90 - di Cramer, 97
- - omogeneo associato , 84 - di Eulero , 426
soluzione - di Hamilton-Cayley, 355
- ai minimi quadrati, 406 - di Kronecker , 292
somma - di nullità più rango , 196, 255
- diretta, 212, 354 - di Pitagora, 31 , 370, 379
- di vettori, 13 - di rappresentazione di un'applicazio-
sostituzione all'indietro, 74 ne lineare, 242
sottospazio - di Rouché-Capelli, 99
- complementare, 214 - di Sylvester sul segno di una forma
- generato da un insieme di vettori, 165 quadratica, 456
- intersezione, 205 - rango per righe coincide col rango per
- invariante, 357 colonne, 198
- radicale, 343 - spettrale, 434
- somma, 206 - spettrale complesso, 479
- vettoriale, 159 termine noto di un'equazione lineare,
spazi isomorfi, 237 71
spazio terna destrorsa, 32
- colonna di una matrice, 192 traccia, 225, 257, 312
- duale , 238, 253 - è la somma degli autovalori, 314
- euclideo, 364 traslazione, 13
- funzionale , 157
- hermitiano, 418
- nullo, 85 V
- riga di una matrice, 192
- vettoriale, 4, 78, 153, 154 valori singolari, 464
- - di dimensione finita, 153, 179 variabili libere, 101
spettro, 437 verso , 10
successione finita, 239 versore, 30, 47, 368, 417
suriettiva, 227 vettore
sviluppo di Laplace, 280, 281 - applicato , 10
- colonna, 77
- direzione, 47
T - libero, 12
- nullo, 16, 71
tensore d 'inerzia, 431 - posizione, 13
teorema vettori
- degli assi principali, 432 , 494 - linearmente (in)dipendenti, 168
- del completamento della base, 182 - ortogonali, 31 , 368
- della funzione implicita, 219 - - inCn,418 '
- della funzione inversa, 218 volume, 43, 401

1111111 m11m111111111111111111
TBL00056567
UNA SCOMMESSA DI CIVILTÀ
La nuova legge italiana sulle fotocopie è chiara.
È possibile fotocopiare una parte di un libro (fino al 15%)
pagando, tramite la SIAE, all'autore e all'editore un prezzo
proporzionato alla parte riprodotta.
In questo modo, chi ha bisogno di leggere alcuni capitoli può
evitare di acquistare l'opera intera.
Ma la fotocopia di tutto o di gran parte di un libro è illecita:
induce al mancato acquisto, rendendo così vano il lavoro di chi
il libro lo ha scritto, redatto, composto, impaginato e illustrato.
La legge si propone lo scopo di tenere vivo l'interesse a scrivere
libri.
Se questo interesse venisse a mancare, ben pochi libri nuovi
sarebbero pubblicati: saremmo tutti costretti a leggere fotocopie,
ormai illeggibili, di libri vecchi e non aggiornati.
Fotocopiare tutto un libro è un po' come lasciare un'auto
in seconda fila : i più non lo fanno, non solo per paura della multa,
ma soprattutto perché si rendono conto che, se tutti
si comportassero così, ne deriverebbe un danno generale.
Sta quindi ai lettori far sì che la legge funzioni e produca effetti
positivi.
È una scommessa di civiltà: se la si vince, il premio non andrà
solo ad autori ed editori, ma a tutto il sistema culturale
e scientifico italiano.
• Nel sito www.zanichelli.it/f_info_fotocopie.html la normativa.
Nello stesso sito si darà comunicazione del giorno in cui la nuova normativa
acquisterà piena efficacia.
La piena efficacia della nuova normati va infatti è subordinata alla stipulazione
di accordi fra le categorie interessate.

L'editore mette a disposizione degli studenti non vedenti o con


particolaii problemi di apprendimento una copia dei file, solitamente
in formato pdf, in cui sono memorizzate le pagine di questo libro.
Il formato dei file permette l'ingrandimento dei caratteri del testo.
I docenti o i responsabili educativi possono richiedere i file scrivendo a:
Zanicbelli - Direzione Generale - Via Imerio 34 - 40126 Bologna

r----.

BfBLIOTt::1.,A COMUNAL~
TORRE BOLDONE

I R.E. ... S. ç?....S.. ~::-:t-. .....


Enrico Schlesinger

Algebra lineare e geometria


L'autore
Enrico Schlesinger è professore associato di Analisi matematica presso il Dipartimento
di Matematica del Politecnico di Milano.

L'opera
Le applicazioni dell'algebra lineare, e della matematica in generale, all 'ingegneria e alle
altre scienze si stanno moltiplicando col crescere delle capacità computazionali dei
calcolatori, che rendono possibile la soluzione di sistemi lineari con centinaia di migliaia
di incognite in tempi economicamente accettabili . All 'ingegnere e allo scienziato dei
nostri giorni è dunque richiesta una conoscenza sempre più approfondita di questa
materia.
Algebra lineare e geometria che, insieme ai volumi Analisi Matematica 1 e 2 di Bramanti ,
Pagani e Salsa (Zanichelli , 2008 e 2009) costituisce un corso di matematica di base
per le facoltà scientifiche, è nato con un duplice scopo: essere un libro di testo di facile
lettura per gli studenti del primo anno di università, ricco di esempi ed esercizi che
motivino lo svolgimento della teoria e ne illustrino le applicazioni, ma anche un libro
completo e rigoroso dal punto di vista matematico, che possa servire come testo di
riferimento per l'algebra lineare anche nei successivi anni di studio.
Per questo il libro contiene alcuni argomenti che solitamente non sono trattati in un corso
del primo anno, quali la forma canonica di Jordan, le fattorizzazioni LU e di Cholesky, la
forma canonica di una matrice normale reale, la decomposizione SVD.
Nella trattazione non si è cercato di seguire il percorso logico più breve possibile. Si è
privilegiata invece un 'esposizione degli argomenti che consente una transizione graduale
dal concreto all 'astratto, cercando così di owiare a quella percezione di eccessiva
astrazione che sembra essere la principale difficoltà degli studenti nell'affrontare lo
studio dell 'algebra lineare. Per questo, un capitolo sulla geometria di rette e piani nellò'
spazio e sull 'algebra dei vettori geometrici e un capitolo sui sistemi lineari e il metodo di
eliminazione di Gauss precedono nel testo l'introduzione delle nozioni fondamentali di
spazio vettoriale e applicazione lineare.

SCHLESINGER"ALGEBRA LINEARE GEOM


ISBN 978-88-08-06401-1

I 111111
9 788808 064011
2 3 4 5 6 7 8 9 o (609) Al pubblico€ 39,00 .. •