Sei sulla pagina 1di 7

Capitolo 11: IL METODO DEI MINIMI QUADRATI

11.1 La miglior retta


Nel Capitolo precedente ci siamo posti il problema di determinare la miglior retta che passa per
certi punti sperimentali, ed abbiamo discusso un metodo gra co. Anche se in pratica il metodo funziona
abbastanza bene, non abbiamo alcuna giusti cazione teorica corretta della procedura descritta.
Vediamo di a rontare il problema in modo piu preciso. Consideriamo N coppie di misure (x1 , y1 ),
(x2, y2 ), : : :, (xN , yN ) di due grandezze x ed y fra le quali sappiamo, o supponiamo, che esista una relazione
lineare. Supponiamo altres , per semplicita, che l'errore su una delle variabili (per esempio la x, per ssare le
idee) sia trascurabile rispetto a quello dell'altra. Non e immediato stabilire se questa condizione e veri cata:
non ha senso confrontare gli errori assoluti in quanto i valori numerici dipendono dalle unita di misura e comunque non sono confrontabili quantita siche di erenti in generale non e detto che sia corretto confrontare
gli errori relativi, anche se questo e spesso ragionevole. Vedremo in seguito esattamente come fare questo
confronto, e vedremo inoltre che e sempre possibile riportarsi al caso di avere l'errore solo sulle yi . Per ora
ragioniamo come se l'errore su x fosse praticamente nullo.
La relazione lineare fra x ed y sia:
y = ax + b
(11:1:1)
Ci proponiamo di determinare i miglior valori di a e b che corrispondono ai dati sperimentali misurati. In
corrispondenza ad ogni xi indichiamo con yit il valore teorico di y, ossia quello dato dalla relazione:
yit = axi + b

(11:1:2)

yi sara, in genere, di erente da yit a causa degli errori di misura: talvolta risultera maggiore talvolta minore.

La quantita:

= yi ; yit

(11:1:3)

rappresenta quindi lo scarto di un generico yi dal corrispondente valore teorico yit , e varra:
i

= yi ; (axi + b) = yi ; axi ; b

(11:1:4)

Al variare dei parametri a e b, la retta y = ax + b cambiera pendenza o traslera verso l'alto o verso il basso
rispettivamente e gli scarti assumeranno valori di erenti da prima. Alcuni i diventeranno piu grandi, altri
piu piccoli, altri ancora cambieranno segno e cos via.
Si puo ancora osservare che un grande valore di un certo i non ha, di per se, un grande signi cato.
Cio che conta e il valore (assoluto) dello scarto rispetto all'errore da cui e a etto yi . Se l'errore su yi e
grande (ricordare il signi cato probabilistico di errore), lo scarto potra essere piu grande che non nel caso di
una misura a etta da un errore piccolo. Al tendere a zero dell'errore, cioe se la misura fosse in nitamente
precisa, la retta dovrebbe passare esattamente per il punto yi e quindi lo scarto dovrebbe essere nullo.
La \miglior retta" deve rendere il piu possibile piccoli i valori assoluti degli scarti divisi per i rispettivi
errori. E chiaro che rendere piccolo uno scarto implica renderne grandi altri, quindi occorre un compromesso.
11.1

Si potrebbe, per esempio, pensare che la miglior retta e quella che rende minima la somma dei valori assoluti
degli scarti divisi per gli errori. In realta da un principio generale, detto di massima verosimiglianza, di
cui si parlera in seguito, si ricava che la miglior retta e quella che rende minima la somma dei quadrati degli
scarti (divisi per gli errori). Tale valore minimo sara ovviamente un numero positivo ed in generale di erente
da zero visto che e nullo solo se tutte le 2i sono uguali a zero. Il metodo descritto e quello che prende il
nome di metodo dei minimi quadrati.
Possiamo quindi concludere che la miglior retta corrisponde ai valori dei parametri a e b che rendono
minima la quantita:
N
N 2
X
X
(yi ; axi ; b)2
i =
(11:1:5)
z =
2
2
i

i=1

i=1

dove i e l'errore sulla misura yi . E facile convincersi che z , al variare di a e di b, assume un valore minimo
ed uno solo. Infatti i minimi e massimi della funzione
z = z (a b)

(11:1:6)

si avranno in corrispondenza dei valori a b per cui si annullano le derivate parziali rispetto appunto ad a e b.
Dovranno allora sussistere le condizioni:
N
X
xi(yi ; axi ; b)
@z
=
;
2
= 0
2
@a
i
i=1

(11:1:7)

N
X
(yi ; axi ; b) = 0
@z
=
;
2
2
@b
i
i=1

(11:1:8)

Possiamo riscrivere le due equazioni in questo modo:


N
X
xiyi
2

i=1

N
X
yi
i=1

N 2
X
xi
2
i=1 i

;a
;a

;b

N
X

xi

i=1

N
X

xi

N
X

i=1

i=1

2 ; b

= 0

(11:1:9)

1 = 0
2

(11:1:10)

Questo e un sistema di due equazioni lineari in due incognite, che ammette una sola soluzione. Poiche
evidentemente z (a b) ! +1 quando a ! 1 oppure b ! 1, la coppia a b trovata corrisponde al
minimo di z .
Per sempli care le formule poniamo:
Sxy =
Sx =

Il sistema puo cos essere riscritto:

N
X
i=1

xi

N
X
xiyi
i=1

Sy =

Sxx =
N
X
yi
i=1

N 2
X
xi
i=1

S0 =

(11:1:11)

N
X

i=1

(11:1:12)

Sxy ; a Sxx ; b Sx = 0

(11:1:13)

Sy ; a Sx ; b S0 = 0

(11:1:14)

11.2

Risolvendo il sistema precedente si ottengono i valori di a e di b:


a =

Sxy S0 ; Sx Sy
Sxx S0 ; Sx2

(11:1:15)

b =

Sy Sxx ; Sx Sxy
Sxx S0 ; Sx2

(11:1:16)

Nel caso che l'errore sia lo stesso per tutti i punti, le equazioni precedenti si sempli cano in quanto:
Sxy =

Sempli cando fattori

N
X

i=1

(11:1:17)

xiyi ecc:

che compaiono ovunque ricaviamo:


N
X

a =

i=1
N
X

N
N
X

b =

i=1

x2i
N

N
X

xiyi ;

i=1
N
X
i=1
N
X
i=1

x2i ;
yi ;

N
X

xi

i=1
i=1
!2
N
X
i=1

N
X
i=1

x2i ;

i=1

(11:1:18)

xi

N
X

xi

N
X

yi

i=1
!2

xiyi

(11:1:19)

xi

ovvero, dividendo ogni termine per N 2 e ricordando come si calcola il valor medio di una grandezza:
xy ; x y
x2 ; x2

(11:1:20)

x2 y ; x xy
x2 ; x2

(11:1:21)

a =
b =

Si puo facilmente vedere che la miglior retta cos determinata passa attraverso il punto di coordinate:
N
X

x =

N
X
yi

xi

i=1 i
N
X
1
i=1

y =

i=1 i
N
X
1
i=1

(11:1:22)

che puo esser considerato, con un'analogia meccanica, il baricentro dei punti di coordinate (x1, y1 ), (x2, y2 ),
: : :, (xN , yN ), nei quali siano concentrate masse pari a: 112 , 122 , : : : , 1N2 .
I parametri a e b risultano ovviamente a etti da errore poiche lo sono i valori yi . Le equazioni suddette
permettono di calcolare immediatamente l'errore su a e su b ( a e b, dato che si tratta di errori statistici!).
Il punto di partenza e:

(a) =

N ;
X
@a 2
i=1

@yi

11.3

(b) =

N ;
X
i=1

@b
@yi

(11:1:23)

Esplicitando i termini contenenti gli yi , si puo scrivere


a =
b =

PN xi yi
i=1 i2
Sxx S0

; Sx PNi=1 yii2
; Sx2

S0

PN yi
i=1 i2

Si ricava allora

(11:1:24)

PN xi yi
i=1 i2

Sxx ; Sx
Sxx S0 ; Sx2

(11:1:25)

S0 xi2i ; Sx 1i2
@a
= S S ; S2
@yi
xx
0
x

(11:1:26)

Sxx 1i2 ; Sx xi2i


@b
= S S ; S2
@yi
xx
0
x
Introducendo le espressioni di (@a=@yi ) e di (@b=@yi ) nelle espressioni di

noiosi ma banali passaggi) i risultati nali:

(11:1:27)
2

(a) e 2 (b) si ottengono (con

(a) = S SS0 ; S 2
0
xx
x

(11:1:28)

(b) = S SSxx; S 2
0
xx
x
Nel caso particolare di errori tutti uguali, per cui cioe valga:

(11:1:29)

si ricava facilmente che:

= ::: =
N

N
X
i=1

x2i ;
N
X

N
X
i=1

i=1

x2i ;

N
X
i=1

!2

!2

xi

x2i
N
X
i=1

xi

(11:1:30)

y
2

N (x2 ; x2)

yx

2 2

N (x2 ; x2)

(11:1:31)

(11:1:32)

Abbiamo cos determinato la miglior linea retta che approssima un certo insieme di punti sperimentali,
rendendo minima la somma dei quadrati delle distanze, misurate nella direzione dell'asse y, dei punti dalla
retta. La retta cos determinata si dice retta di regressione di y su x. Avremmo pero anche potuto, con
lo stesso diritto, minimizzare la somma dei quadrati delle distanze misurate nella direzione dell'asse x. In
altre parole scritta la retta come:
x = ay + b
(11:1:33)
minimizzare la quantita

N
X
i=1

(xi ; ayi ; b)2


11.4

(11:1:34)

La retta che cos si determina si chiama retta di regressione di x su y. In generale le due rette non
coincidono. Quanto piu la distribuzione dei punti e prossima ad essere rettilinea, tanto piu le due rette
di regressione sono coincidenti fra loro. Una terza possibilita in ne sarebbe quella di rendere minima la
somma dei quadrati delle distanze misurate ortogonalmente dai punti alla retta stessa. La retta che cos
sarebbe determinata si chiama retta di regressione ortogonale. Queste considerazioni mostrano che la
risposta al problema fornita dal metodo dei minimi quadrati puo variare a seconda della grandezza che si
vuole minimizzare. In pratica e pur vero che, se la distribuzione dei punti sperimentali corrisponde bene ad
una distribuzione rettilinea, le varie rette di regressione stanno dentro l'indeterminazione con cui ciascuna
di esse e determinata.

11.2 Generalizzazione del metodo dei minimi quadrati


Il metodo dei minimi quadrati, introdotto supponendo una relazione lineare fra x ed y, puo essere
applicato in modo molto piu generale. Consideriamo per semplicita sempre il caso di due variabili x ed
y. Si siano misurate N coppie di dati (x1,y1 ), (x2,y2 ), : : : , (xN ,yN ) ancora per semplicita, supponiamo
trascurabile l'errore su x e quindi l'unico errore sia quello sulla variabile dipendente y, che indichiamo con
yi = i . Si sappia, o si supponga, che la relazione fra x ed y sia espressa dalla funzione:
y = f (x c1 c2 : : : cp )

(11:2:1)

e si vogliano determinare i valori dei parametri c1, c2, : : : , cp in corrispondenza dei quali la curva meglio
approssima i punti sperimentali. Il metodo dei minimi quadrati permette di determinare tali valori essi sono
tali da render minima la quantita:
z =

N
X

yi ; f (x c1 c2 : : : cp ) ]2

i=1

(11:2:2)

I valori dei parametri si ottengono risolvendo il sistema di equazioni:


@z
@z
@z
=
=
::: =
= 0
@c1
@c2
@cp

(11:2:3)

In pratica la soluzione di tale sistema di equazioni puo essere assai laboriosa a seconda della particolare
forma della funzione. Di cilmente si impiegano metodi analitici di norma il minimo di z viene determinato
numericamente su calcolatore utilizzando appositi programmi basati su varie strategie (per esempio ricavare
il gradiente di z e muoversi a passi verso valori sempre piu piccoli).
Cosa cambia se anche le variabili indipendenti sono a ette da errore? Consideriamo sempre il caso di due
sole variabili x ed y come visto precedentemente. Siano state misurate N coppie di dati sperimentali (x1 ,y1),
(x2,y2 ), : : : , (xN ,yN ). Indichiamo con xi e yi gli errori statistici su x e su y. Si puo dimostrare come
applicando il metodo della massima verosimiglianza che i migliori valori dei parametri ci corrispondono
a minimizzare l'espressione
N
X
yi ; f (x c1 c2 : : : cp ) ]2
(11:2:4)
z =
2
i

i=1

11.5

avendo posto
=

yi

df
+ dx

x=xi

xi

(11:2:5)

dove singoli i dipendono essi pure, in generale, dai parametri ci .


Possiamo osservare
che i2 e la varianza dello scarto i. Infatti i = yi ; f (xi ) da cui si ricava
; @f 2
2 ( ) = 2 (y ) +
2 (x ).
i
i
i
@x
In altre parole tutto avviene come se non ci fossero errori sulla variabile indipendente x (ipotesi che
abbiamo sempre fatto nora) a patto di sostituire all'errore yi , l'errore e cace i , che come abbiamo
visto ha il signi cato di errore sullo scarto i . Per inciso si vede che se xi tende a zero, i si riduce proprio
a yi . Nel caso poi che la relazione y = f (x c1 c2 : : : cp ) sia lineare
y = ax + b

l'errore e cace

vale semplicemente:
i

(11:2:6)

( yi )2 + a2 ( xi )2

(11:2:7)

(yi ; axi ; b)2


2
2 2
yi + a xi
i=1

(11:2:8)

e quindi dobbiamo minimizzare la quantita:


S =

N
X

Comparendo il parametro a anche a denominatore le formule date precedentemente per calcolare i valori di
a e di b diventano molto piu complicate.
In genere in questi casi si usa per la derivata di f (x c1 ) (cioe a se la funzione e lineare) un valore
approssimato, per esempio determinato gra camente, oppure ricavato da una prima provvisoria stima dei
parametri eseguita senza tenere conto delle (xi ).

11.3 Combinazione di piu misure


Quando di una stessa grandezza sica esistono piu misure, ognuna a etta da una indeterminazione
statistica, si presenta il problema di stimare il miglior valore della grandezza. Un tipico caso del genere si
presenta quando le misure sono state eseguite in laboratori diversi, con apparati e strumenti diversi. Quale
applicazione del metodo dei minimi quadrati vediamo ora come ricavare la miglior stima del valore della
grandezza.
Supponiamo (per pura semplicita) di conoscere due stime del valore della stessa grandezza, provenienti
da due esperimenti di erenti. Siano esse:
x1

x2

(11:3:1)

Se 1
2 signi ca che il primo esperimento e molto piu preciso del secondo e saremmo tentati di credere
ad esso ed in tal caso prendere x1 come miglior stima del vero valore della grandezza. Se 1 2 faremmo
ovviamente il contrario. E chiaro comunque che, tenuto conto dei rispettivi errori, i risultati devono essere
11.6

compatibili, altrimenti si puo legittimamente sospettare che uno dei due esperimenti, e non si puo a priori
dire quale, ha ottenuto un risultato sbagliato oppure ha sottostimato l'errore sperimentale.
Se pero 1 e 2 hanno valori paragonabili non e a priori evidente che cosa occorre fare in base alle
considerazioni precedenti ci aspettiamo che la miglior stima, che chiameremo x , sia compresa fra x1 e x2.
La piu semplice possibilita e che:
x = x1 + (1 ; )x2

0< <1

(11:3:2)

Allorche 1
1 e x ' x1 mentre allorche 1 2,
0 e x ' x2.
2,
Il metodo per determinare x e quello dei minimi quadrati: la miglior stima di x sara quella che rende
minima la somma dei quadrati degli scarti di x1 e x2 da x , divisi per i rispettivi errori, ossia:
z =

; x1

;x

;
+ x2 ; x

(11:3:3)

Dobbiamo al solito porre la derivata di z rispetto ad x uguale a zero:


dz
= 2( x1 ; x )(; 1 ) + 2( x2 ; x )(; 1 ) = 0
dx

Si veri ca facilmente che la derivata si annulla quando:


x1
x2
2 +
2
2
x = 11
+ 1
2
1

(11:3:4)

(11:3:5)

2
2

La derivata seconda e positiva, quindi il valore trovato corrisponde ad un minimo. Risulta pertanto:
1
1
2
2
1; = 1 2 1
(11:3:6)
= 1 11
2 + 2
2 + 2
1

L'applicazione del metodo dei minimi quadrati ci dice quindi che la miglior stima del valore della
grandezza, combinando i risultati disponibili, risulta una media pesata i cui pesi sono gli inversi dei quadrati
degli errori.
Propagando gli errori 1 e 2 si ricava cioe l'errore su x .
2

cioe
o anche
Scrivendo

= ( @x
)2
@x
1

2
1

+ ( @x
)2
@x
2

= 1 1 1
2 +
2
1

2
1

(11:3:7)
(11:3:8)

2 2
1 2

2
2

1 = 1 + 1
2
2
2
1

2
2

(11:3:9)
(11:3:10)

si vede allora che l'inverso di 2 e maggiore dell'inverso di 12 e dell'inverso di 22, quindi l'errore sulla
combinazione delle misure e minore di ciascuno degli errori di partenza. Ne consegue che una nuova misura,
anche se di qualita inferiore a quella gia esistente, consente comunque di migliorare la determinazione del
valore di una grandezza sica.
11.7