Sei sulla pagina 1di 5

118 CAPITOLO 9.

STIMA DEI PARAMETRI METODO DEI MINIMI QUADRATI

9.3 Il metodo dei minimi quadrati in formalismo matriciale


Nel caso si debba applicare il metodo minimi quadrati con molti parametri risulta vantaggioso
utilizzare il formalismo matriciale. Oltre alla compattezza della notazione questo formalismo
permette una maggiore comprensione teorica del metodo. Per introdurre questo formalismo
riprendiamo in esame il caso dell’applicazione del metodo dei minimi quadrati quando è
prevista una dipendenza funzionale lineare tra le grandezze in esame X e Y del tipo caso
già trattato nel paragrafo 9.2.
Y = —0 + —1 X
dove —0 e —1 sono i parametri da determinare8 . Per quanto ci siamo limitati a due parametri
per un paragone con i calcoli del paragrafo 9.2, le formule in forma matriciale a cui arriveremo
sono valide per un generico numero k di parametri, in altre parole si applicano anche a
dipendenze di Y da X del tipo polinomiale: Y = —0 + —1 X + —2 X 2 + . . . + —k X k .
Siano x1 , x2 , . . . , xn i valori di X in corrispondenza dei quali sono state misurate le
grandezze y1 , y2 , . . . , yn . Le grandezze xi hanno incertezze trascurabili e supponiamo che le
yi siano tra loro indipendenti e che abbiano incertezze pari a ‡i . Definiamo inoltre il peso
wi = 1/‡i2 di ogni valore yi . Per ognuna delle N misurazioni possiamo scrivere:
y1 = —0 + —1 x1 + e1
y2 = —0 + —1 x2 + e2 (9.16)
...
yN = —0 + —1 xN + eN
nelle (9.16) è stato introdotto l’errore ei (detto anche residuo) che tiene conto delle fluttua-
zioni delle grandezze yi . Gli errori ei hanno le seguenti proprietà:
E[ei ] = 0, Var[ei ] = Var[yi ] = ‡i2 .
Introduciamo le matrici: Y matrice (n ◊ 1) delle osservazioni, X matrice (n ◊ 2) dei
valori delle X, — matrice (2 ◊ 1) dei parametri9 , la matrice e (n ◊ 1) degli errori e la matrice
W dei pesi.
S T S T S T S T
y1 1 x1 C D e1 w1 0 . . . 0
W y2 X W 1 x2 X —1 W e2 X W 0 w2 . . . 0 X
W X W X W X W X
Y =W X, X = W X, — = , e=W X,W = W X
U ... V U ... ... V —2 U ... V U ... ... ... ... V
yN 1 xN eN 0 0 . . . wn
Usando queste matrici le N equazioni (9.16) si scrivono in forma compatta come:
Y = X— + e (9.17)
Il metodo dei minimi quadrati pesato afferma che il valore migliore dei parametri è quello
che minimizza la somma dei residui (ei ) al quadrato pesati, che in notazione matriciale si
scrive: S TS T
w1 0 . . . 0 e1
ÿN W 0 w ... 0 X W X
2 X W e2 X
wi ei 2 = [e1 e2 . . . eN ] W
W
XW X © eT W e
U ... ... ... ... VU ... V
i=1
0 0 . . . wN eN
8
La corrispondenza con la notazione usata nel paragrafo 9.2 è: a = —0 , b = —1 . Utilizzare questa
definizione dei parametri risulta utile per l’applicazione del formalismo matriciale.
9
Nel caso di un modello polinomiale di grado k la matrice — avrà dimensioni (k ◊ 1).
9.3. IL METODO DEI MINIMI QUADRATI IN FORMALISMO MATRICIALE 119

Usando la (9.17) otteniamo l’espressione da minimizzare:

(Y ≠ X—)T W (Y ≠ X—)

Prima di differenziare rispetto a — sviluppiamo questa espressione. Si ha:

(Y ≠ X—)T W (Y ≠ X—) = Y T W Y ≠ — T X T W Y ≠ Y T W X— + — T X T W X—
= Y T W Y ≠ 2— T X T W Y + — T X T W X—

dove si è usata la proprietà che dice che la matrice trasposta di un prodotto di matrici è
uguale al prodotto delle singole matrici trasposte ma in ordine inverso e che il trasposto di
uno scalare è lo scalare stesso Derivando rispetto a — e uguagliando a zero si ha (si ricordi
che questa espressione è uno scalare):
ˆ ÿ
wi e2i = ≠2X T W Y + 2X T W X— = 0
ˆ—
da cui otteniamo la seguente equazione per determinare i parametri —, detta “equazione
normale”:
X T W X— = X T W Y (9.18)
ˆ dei parametri — sono dati dalla soluzione dell’equazione
In formalismo matriciale le stime —
(9.18):
—ˆ = (X T W X)≠1 X T W Y (9.19)
La (9.19) non è nulla di nuovo rispetto a quanto visto nel paragrafo 9.2. Per conferma
ed esercizio calcoliamo espressamente le matrici che compaiono nella (9.19) nel caso già
esaminato del fit ad una retta:
C q q D C q q D
w wi xi 1 w x2 ≠ wi xi
X WX = q i
T q 2 , (X W X) =
T ≠1 qi i q ,
wi xi wi xi ≠ wi xi wi
C q D
wy
X WY = q i i
T
(9.20)
wi xi yi
q q q
dove = wi wi x2i ≠ ( wi xi )2 . In conclusione nel caso di due parametri si ottiene la
soluzione: C D C q q q q D
ˆ© —0 1 wi x2i wi yi ≠ wi xi wi xi yi
— = q q q q =
—1 wi wi xi yi ≠ wi xi wi yi
che sono esattamente uguali alle soluzioni precedente trovate. Vedi le (9.7).

9.3.1 Matrice di covarianza dei parametri


La forma matriciale del calcolo dei parametri dati dalla (9.19) permette di arrivare rapi-
damente all’espressione della cosiddetta matrice di covarianza dei parametri stimati con il
metodo dei minimi quadrati. In generale date N variabili aleatorie x = {x1 , x2 , . . . , xN }, si
definisce matrice di covarianza e alle volte indicata con , la matrice:
S T S T
Cov[x1 , x1 ] Cov[x1 , x2 ] . . . Cov[x1 , xN ] ‡12 fl12 ‡1 ‡2 . . . fl1N ‡1 ‡N
W
W Cov[x2 , x1 ] Cov[x2 , x2 ] . . . Cov[x2 , xN ] X W
X W fl21 ‡2 ‡1 ‡22 . . . fl2N ‡2 ‡N X
X
W X=W X
U ... ... ... ... V U ... ... ... ... V
Cov[xN , x1 Cov[x2 , x2 ] . . . Cov[x2 , xN ] flN 1 ‡1 ‡2 fl12 ‡1 ‡2 ... ‡N2
120 CAPITOLO 9. STIMA DEI PARAMETRI METODO DEI MINIMI QUADRATI

dove nell’ultima matrice sono state introdotte le varianze e i coefficienti di correlazione


delle variabili xi . La matrice di covarianza è simmetrica e i suoi elementi diagonali sono le
varianze delle variabili. Se le N variabili xi sono indipendenti tra loro la matrice di covarianza
è diagonale (flij = 0, i ”= j).
Si noti che — ˆ può essere interpretata come variabile aleatoria poiché, come indica la
(9.19), è una funzione della variabile aleatoria y e quindi possiamo calcolarne la matrice di
covarianza. Per definizione la matrice di covarianza di — ˆ è:

E[(—ˆ ≠ E[—])(
ˆ — ˆ ≠ E[—])
ˆ T] (9.21)
ˆ = —, dalle (9.19) e (9.17) otteniamo:
Dimostriamo che E[—]
ˆ = (X T W X)≠1 X T W Y = (X T W X)≠1 X T W (X— + e) = — + (X T W X)≠1 X T W e

(9.22)
Prendendo i valori attesi dei due membri:
ˆ = E[— + (X T W X)≠1 X T W e] = E[—] + (X T W X)≠1 X T W E[e] = —
E[—]
ˆ = —, dalla (9.22) sostituendo — con E[—],
dove si è usato E[e] = 0. Poiché E[—] ˆ ricaviamo:

ˆ ≠ E[—]
— ˆ = (X T W X)≠1 X T W e

inseriamo infine questo risultato nella (9.21):


Ë È Ë È
ˆ © E[(—
— ˆ ≠ E[—])(
ˆ — ˆ ≠ E[—])
ˆ T ] = E [(X T W X)≠1 X T W e][(X T W X)≠1 X T W e]T
Ë È
= E (X T W X)≠1 X T W eeT W X(X T W X)≠1
= (X T W X)≠1 X T W E[eeT ]W X(X T W X)≠1
(9.23)

La matrice eeT ha elementi ei ej , (i, j = 1, N ) e considerando che E[ei ej ] = ‡i2 ”ij , in quanto
per ipotesi le grandezze yi sono indipendenti, il valore atteso E[eeT ] è una matrice diagonale
N ◊ N di elementi ‡i2 . Ricordando che W è una matrice diagonale di elementi wi = 1/‡i2 , si
ha: E[eeT ]W = I dove I è la matrice identità. Con queste osservazione la (9.23) diviene:

(X T W X)≠1 X T W X(X T W X)≠1


Ë È
Infine possiamo scrivere a matrice di covarianza ˆ dei parametri —i :

Ë È
ˆ = (X T W X)≠1
— (9.24)

Come esercizio di calcolo, applichiamo questa relazione al caso del fit lineare. Usando le
matrici (9.20) precedentemente trovate otteniamo con facili calcoli:
S T S q q T
Var[b0 ] Cov[b0 , b1 ] 1 U wi x2i ≠ wi xi
U V= V
q q
Cov[b1 , b0 ] Var[b1 ] ≠ wi xi wi

Come era prevedibile, le varianze sui parametri, coincidenti con i termini diagonali della
matrice, sono uguali a quelle ottenute con la formula di propagazione delle incertezze date
dalle (9.11). Inoltre il formalismo matriciale ha permesso di ottenere facilmente la covarianza
dei parametri.
9.3. IL METODO DEI MINIMI QUADRATI IN FORMALISMO MATRICIALE 121

5
Y
4

0
20 40 60 80 100 120 140 160 180
X

Figura 9.4: Tabelle dei dati, grafico dei punti sperimentali con le relative incertezze e fit parabolico ai dati
ottenuto con il metodo dei minimi quadrati come indicato nel testo.

Minimi Quadrati parabolico. Come esempio pratico, applichiamo il metodo descritto


nel paragrafo precedente per ottenere un fit parabolico a dati che si ipotizza abbiano un
andamento di potenza di ordine 2. I dati sui quali si vuole adattare una parabola sono
riportati nella tabella inserita nella figura 9.4. La curva che si vuole adattare all’andamento
sperimentale è:
y = —0 + —1 x + —2 x2
Definendo ora la matrice X e la matrice — come:
S T
1 x1 x21 S T
—0
W
W 1 x2 x22 X
X W X
X=W X , — = U —1 V ,
U ... ... ... V
—2
1 xN x2N
e usando per le le matrici Y e W le definizioni già date, possiamo esplicitare la ??? in
questo caso come
q S q q T S q T
wi wx wi x2i wi yi
W q q i 2i q X W q X
X WX = U
T
wx wx w x3 V , X T W Y = U wxy V
q i 2i q i i3 q i i4 q i 2i i
wi xi wi xi wi xi wi xi yi
Il sistema lineare da risolvere per trovare la stima dei parametri con i minimi quadrati è:
(X T W X)— = X T W Y (9.25)
Il calcolo algebrico della matrice (X T W X)≠1 porta ad espressioni troppo complesse per
cui passeremo alla valutazione numerica delle matrici. Con i dati della tabella infigura 9.4
otteniamo:
S T S T
7.1595 ◊ 103 7.4308 ◊ 105 8.6813 ◊ 107 1.065 ◊ 104
W X W X
X T W X = U 7.4308 ◊ 105 8.6813 ◊ 107 1.0821 ◊ 1010 V , X T W Y = U 8.729 ◊ 105 V
8.6813 ◊ 107 1.0821 ◊ 1010 1.3994 ◊ 1012 9.244 ◊ 107
(9.26)
122 CAPITOLO 9. STIMA DEI PARAMETRI METODO DEI MINIMI QUADRATI
S T
7.5476 ◊ 10≠3 ≠1.7258 ◊ 10≠4 8.6626 ◊ 10≠7
W X
(X T W X)≠1 = U ≠1.7258 ◊ 10≠4 4.2646 ◊ 10≠6 ≠2.2271 ◊ 10≠8 V , (9.27)
8.6626 ◊ 10≠7 ≠2.2271 ◊ 10≠8 1.1919 ◊ 10≠10
I parametri che minimizzano la somma dei residui quadrati sono:
S T
9.8518
W X
= (X T W X)≠1 X T W Y = U ≠0.174910 V (9.28)
8.0737 ◊ 10≠4

Con i valori dei parametri ottenuti in questo modo possiamo scrivere la funzione che meglio
si adatta ai dati sperimentali secondo il metodo dei minimi quadrati:

y(x) = —0 + —1 x + —2 x2 (9.29)

L’andamento della parabola (9.29) è mostrato, assieme ai punti sperimentali nella figura 9.4.
Ricordando che la (9.27) è la matrice di covarianza dei parametri —i otteniamo i parametri
con la loro incertezza standard:

—0 = 9.852 ± 0.087, —1 = ≠0.1749 ± 0.0021, —2 = (8.07 ± 0.11) · 10≠4

Non si deve tuttavia dimenticare che i valori di questi parametri sono correlati poiché i termini
non diagonali della matrice di covarianza sono diversi da zero. E’ utile per comprendere
l’entità della correlazione calcolare la matrice di correlazione fl i cui elementi si ottengono
da quella di covarianza tramite la relazione flij = covij /‡i ‡j :
S T
1 ≠0.962 0.913
W X
fl=U 1 ≠0.988 V , (9.30)
1

Si noti la forte correlazione tra i tre parametri che indica come questi valori siano strettamente
legati tra loro. Ad esempio se —0 avesse una fluttuazione positiva —1 avrebbe con alta
probabilità una fluttuazione negativa e —2 positiva.