Sei sulla pagina 1di 9

g

FACOLTÁ DI INGEGNERIA

Corso di Laurea Magistrale in Ingegneria delle


Comunicazioni

SEMINARIO di ALGEBRA :

MIGLIORE APPROSSIMAZIONE AD UNA SOLUZIONE DI UN


SISTEMA INCOMPATIBILE

Cristiano De Lellis

Docente:
Stefano Capparelli

Anno Accademico 2009-2010


Definizione del problema
Sappiamo che un sistema di equazioni lineari può risultare non risolubile;
comunque esistono sempre le “migliori approssimazioni ad una soluzione”.
Il metodo dei minimi quadrati che ci apprestiamo ad illustrare, serve proprio a
questo scopo ed è dovuto a Gauss che lo utilizzò per calcolare l’orbita
dell’asteroide Cerere scoperto nel 1801.

Metodo dei minimi quadrati (retta)


Supponiamo di avere tre punti (1,2), (2,2), (3,4) ottenuti per esempio da un
ipotetico esperimento. Supponiamo di aver motivo di credere che i valori x ed y
siano legati da una relazione lineare, cioè ci aspettiamo una relazione del tipo

y=a+bx

con a e b da determinarsi. Avremmo allora

2=𝑎+𝑏∗1
2=𝑎+𝑏∗2
4=𝑎+𝑏∗3

Si ottiene un sistema lineare incompatibile. Tuttavia, se esaminiamo la


situazione, riusciamo a intuire che il problema di trovare una retta che “passi
vicino il più possibile” ai punti può avere una soluzione, come illustrato qui
sotto:
5

0
0 1 2 3 4
In forma matriciale abbiamo invece il sistema rappresentato nella forma:

AX=B

essendo

1 𝑥1 𝑦1
1 𝑥2 𝑎 𝑦2
𝐴 𝑋 =𝐵 ⋮
⋮ ⋮ 𝑏
1 𝑥𝑛 𝑦𝑛

Il sistema risulta non essere compatibile, quindi è privo di soluzioni ovvero, per
ogni scelta del vettore X ∈ R2 si ha che B-AX≠0.
Definiamo allora gli errori ϵ1 ,ϵ2 ,ϵ3 in corrispondenza dei tre punti, dove
ϵ1 =2-(a+2b), ϵ2=2-(a+2b), ϵ3=4-(a+3b), e consideriamo il vettore errore

𝜖1
e = 𝜖2
𝜖3

Vogliamo quindi riuscire a minimizzare, in un certo senso, gli “errori legati alla
posizione” di una retta di equazione y=a+bx, rispetto ai punti assegnati,

ovvero vogliamo minimizzare 𝒆 =√ (ϵ12+ ϵ22+ ϵ32)

In generale, supponiamo di avere n punti (x1,y1),…,(xn,yn) ed una retta y=a+bx.


Il vettore di errore è
𝜖1
𝜖2
e= ⋮
𝜖𝑛

dove ϵi=yi -(a+bxi). La retta y=a+bx che minimizza 𝒆 =√ (ϵ12+ ϵ22+ ϵ32) si
dice retta ai minimi quadrati.
Ci si pone di risolvere il sistema

𝑎 + 𝑏𝑥1 = 𝑦1
𝑎 + 𝑏𝑥2 = 𝑦2

𝑎 + 𝑏𝑥𝑛 = 𝑦𝑛

ovvero

1 𝑥1 𝑦1
1 𝑥2 𝑎 𝑦2
𝐴 𝑋 =𝐵 ⋮
⋮ ⋮ 𝑏
1 𝑥𝑛 𝑦𝑛

cioè AX=B. Il vettore B-AX= e è quello che vogliamo minimizzare.

DEFINIZIONE: chiamiamo una soluzione ai minimi quadrati del sistema


AX=B il vettore X ∈ Rn tale che:

|| B-AX || ≤ || B-AX || ∀ 𝑋 ∈ Rn mm

Allo scopo di trovare il vettore X e quindi la retta ai minimi quadrati, indichiamo


con W il sottospazio di dimensione 2 di Rn, generato dai vettori colonna di A
ossia:

W= <(1, 1, … ,1) , (x1,x2, … ,xn)>

Come visto prima B-AX ≠0 e dunque B ∉ W, da cui B-AX ∉ W, ∀ 𝑋 ∈ R2;


quindi il sottospazio Rn che contiene i vettori B e AX, al variare di x, ha
dimensione 3.
Si tratta dunque di determinare un vettore X ∈ R2 tale che B-AX risulti
ortogonale a W, ovvero che AX sia la proiezione ortogonale del vettore B sul
sottospazio W .
Utilizzando il prodotto scalare standard in Rn :

𝑎
< ( A X )T , ( B – A X )T > = 0 ∀𝑋 = (♣)
𝑏

o equivalentemente sotto forma di matrice:

𝑎
( A X )T (B - A X ) = 0 ∀𝑋 =
𝑏

allora si ha:

(A X )T ( B - A X ) = 0 ⟺
⟺ (XT AT) ( B – AX ) = 0 ⟺
⟺ XT (AT B - ( AT A ) X ) = 0

dunque la (♣) può essere riscritta nella forma:

AT B - ( AT A ) X = 0

ossia

( AT A ) X ) = AT B

questo nuovo sistema di equazione si dice sistema di equazioni normali per X .


Per enunciare il Teorema dei Minimi Quadrati avremo di un lemma:

Lemma. Sia A una matrice m x n. Il rango A è uguale al rango della


matrice AT A.
DIM. Osserviamo AT A è una matrice quadrata n x n.
Il Teorema di Rouché-Capelli, ci dice che n = rg(A) + dim KerA, ma anche
n = rg(AT A) + dim Ker AT A. I ranghi delle due matrici saranno si sicuramente
uguali se dimostriamo che i due nuclei sono uguali.
Per far ciò, supponiamo che x ∈ KerA. Allora AX = 0 e quindi AT AX = AT 0 = 0
cioè x ∈ KerAT A. Viceversa: se AT AX = 0 allora XTAT AX = 0 ma questo è il
prodotto scalare di AX per se stesso e quindi è zero se e solo se AX = 0.

Corollario. La matrice AT A è invertibile se e solo se le colonne di A sono


linearmente indipendenti.
DIM. Le colonne di A sono linearmente indipendenti questo vuol dire che il
rango di A è n. Per il lemma, questo significa che anche AT A ha rango n, cioè
invertibile.

Abbiamo quindi il seguente teorema:

Teorema dei Minimi Quadrati (retta ai minimi quadrati):


a) X è una soluzione ai minimi quadrati di AX = B se e solo se X è una soluzione
del sistema di equazioni normali

( AT A ) X = AT B

b) Se A ha colonne linearmente indipendenti la soluzione ai minimi quadrati è


unica ed è data da:

X = ( AT A )-1 AT B
Con riferimento alla condizione b) del Teorema ai Minimi Quadrati e
ricordando che se A è una matrice m x n, allora AT A è invertibile se e solo se A
ha colonne indipendenti ( o equivalentemente, se rankA = n, o AX = 0 ammette
X = 0 come unica soluzione); abbiamo quindi in tal caso il sistema AX = B
ammette un’unica soluzione approssimata.
La fattorizzazione QR risulta essere di grande aiuto nel cercare le soluzioni
approssimate di un sistema lineare AX = B. Sia A = QR la fattorizzazione QR
della matrice dei coefficienti A. Il sistema lineare di equazioni normali
(AT A)Y = AT B si scrive allora

( Q R )T ( Q R) Y = ( Q R )T B

Essendo QT Q = I, otteniamo

( RT R) Y = RT QT B

La matrice R è ottenuta dalla matrice R0 della fattorizzazione QR non


normalizzata, cancellando alcune righe; essendo R0 invertibile, le sue righe sono
linearmente indipendenti e quindi, in particolare, tali sono le righe di R.
Ricordando di nuovo che se A è una matrice m x n, allora AT A è invertibile,
allora RRT è invertibile; poniamo U = ( R RT )-1. Sia Z una soluzione del sistema
( RT R) Y = RT QT B moltiplicando ambo i lati per la matrice UR otteniamo:

( U R RT R ) Z = ( U R RT QT ) B

e quindi

R Z = QT B

Viceversa se RZ = QTB, allora moltiplicando ambo i lati per la matrice RT


abbiamo ( R RT ) Z = ( RT QT ) B, ovvero Z è soluzione del sistema lineare di
Abbiamo così dimostrato il seguente teorema:
Teorema. Sia A una matrice m x n, e B una colonna in Rm; considerando la
fattorizzazione A = QR. Le soluzioni del sistema di equazioni

R Y = QT B

sono esattamente le soluzioni approssimate del sistema lineare AX = B

Avendo osservato in precedenza che AX = pro𝑗𝑊 (B) e che X = ( AT A )-1 AT B,


nel caso in cui le colonne sono linearmente indipendenti, avremmo allora che:

( AT A )-1 AT B = pro𝑗𝑊 (B)

in altre parole

( AT A )-1 AT

è la matrice della trasformazione lineare

pro𝑗𝑊 (B): Rm → Rm

che proietta ortogonalmente Rm sul sottospazio W generato dalle colonne di A.

Da notare che la matrice ( AT A )-1 AT si dice pseudo-inversa di A. Possiamo


allora dire che la soluzione ai minimi quadrati è semplicemente

X = A+ B

e che la matrice proiezione ortogonale è AA+, questo evidenzia il parallelismo di


A+ con la matrice A-1 in quanto permette di risolvere un sistema di equazioni
lineari (“Regola di Cramer”) e il prodotto di A per la sua pseudo-inversa è
“quasi” l’identità, pensando ad una proiezione ortogonale come una identità
“parziale”.
Metodo dei minimi quadrati (polinomio di grado n)
La situazione generale è del tutto analoga. Supponiamo di aver raccolto n coppie
di dati x e y:

(x1 , y1) , (x2 , y2) , … , (xn , yn)

Il metodo utilizzato precedentemente ci permetteva di trovare la retta y=a0 + a1x


che meglio approssimava questi dati. In maniera del tutto identica possiamo in
realtà trovare un polinomio:

Teorema dei Minimi Quadrati (polinomio ai minimi quadrati):


Date n coppie di dati (x1,y1), (x2 ,y2) , …, (xn ,yn), poniamo:

𝑦1 1 𝑥1 𝑥12 … 𝑥1𝑚
𝑦2 𝑥22 𝑥2𝑚
Y= ⋮ M = 1 𝑥2 …
⋮ ⋮ ⋮ ⋮ ⋮
𝑦n 1 𝑥𝑛 𝑥𝑛2 … 𝑥𝑛𝑚

Un polinomio approssimante ai minimi quadrati di grado m è

y = a 0 + a1 x + a 2 x 2 + … + a m x m

dove Z = (a0, a1,…, am)T è una qualunque soluzione approssimata del sistema
lineare MX = Y, ovvero, se M = QR è la fattorizzazione QR della matrice M, Z è
una soluzione esatta del sistema lineare

RX = QTY
Inoltre se almeno m+1 degli xi sono distinti, allora Z è unica e quindi unico è il
polinomio ai minimi quadrati (in tal caso infatti la matrice R è invertibile e
quindi Z = (R)-1QTY ).