Sei sulla pagina 1di 55

Introduzione alla tecnica dei Minimi Quadrati per

l’identificazione parametrica e la stima dello stato


Giovanni Indiveri

Università del Salento - DII,


Dipartimento di Ingegneria dell’Innovazione,
Via Monteroni,
73100 Lecce, Italia

giovanni.indiveri@unisalento.it

26 maggio 2016

Indice
1 L’identificazione del modello tramite i minimi quadrati 2
1.1 Massima Verosimiglianza e Minimi Quadrati . . . . . . . . . . . . . . . . 4
1.2 Richiami di algebra matriciale. . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Richiami sulla derivazione di funzioni vettoriali . . . . . . . . . . . . . . 8
1.4 Modelli lineari nei parametri ed equazioni normali dei minimi quadrati . 9
1.4.1 La matrice di covarianza dei parametri . . . . . . . . . . . . . . . 12
1.4.2 Ulteriori considerazioni sulla identificabilità parametrica . . . . . 15
1.4.3 La stima ai minimi quadrati pesati con l’inversa della matrice di
covarianza del rumore di misura è BLUE . . . . . . . . . . . . . 17
1.5 Minimi quadrati ordinari, pesati e generalizzati . . . . . . . . . . . . . . 19
1.6 Integrazione di informazione a priori e stima MAP . . . . . . . . . . . . 20
1.7 - DA COMPLETARE - Natura BLUE dello stimatore MAP . . . . . . 22
1.8 Stimatore a minimo errore quadratico medio (MEQM) . . . . . . . . . . 22
1.8.1 Stimatore MMSE (o MEQM) per variabili gaussiane . . . . . . . 23
1.9 Minimi quadrati (pesati) in forma ricorsiva. . . . . . . . . . . . . . . . . 23
1.10 Minimi quadrati (pesati) a memoria finita . . . . . . . . . . . . . . . . . 26
1.10.1 Formulazione ricorsiva dei Minimi Quadrati Pesati a Memoria
Finita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.11 Regressione Lineare Ricorsiva. . . . . . . . . . . . . . . . . . . . . . . . 28

2 Stima ai Minimi Quadrati per l’Osservazione dello Stato 31


2.1 Il filtro di Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2 Evoluzione di P (k + 1|k): l’equazione di Riccati . . . . . . . . . . . . . . 38
2.3 Equazioni del filtro di Kalman . . . . . . . . . . . . . . . . . . . . . . . 39
Giovanni Indiveri, Università del Salento. VERSIONE 7 2

3 Stima dello stato da minimizzazione di funzioni di costo non lineari 40


3.1 Introduzione: stima di uno stato stazionario . . . . . . . . . . . . . . . . 40
3.2 Stima ricorsiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4 Altre applicazioni della tecnica Minimi Quadrati 42


4.1 I filtri di Savitzky - Golay . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 I filtri derivatori di Savitzky - Golay . . . . . . . . . . . . . . . . . . . . 44
4.3 Identificazione di modelli lineari . . . . . . . . . . . . . . . . . . . . . . . 45

APPENDIX: the Singular Value Decomposition and Least Squares 47

Riferimenti bibliografici 55

Sommario
Si prega di non distribuire, riprodurre o copiare queste note senza il consenso
dell’autore. Si ringrazia anticipatamente per le segnalazioni di eventuali errori la
cui assenza non è in alcun modo garantita.

1 L’identificazione del modello tramite i minimi quadrati


Nell’aprire queste note, sebbene forse non sia una prassi del tutto ortodossa nell’ambito
della letteratura scientifica, vorrei esprimere brevemente il mio parere personale sul
valore culturale e sull’utilità pratica del metodo dei minimi quadrati. In sintesi, ritengo
che il metodo dei minimi quadrati sia una delle scoperte scientifiche più significative
della matematica: nella loro semplicità, i minimi quadrati hanno permesso di risolvere
problemi di stima nei più disparati ambiti della scienza. Moltissime tecniche moderne
nell’ambito dell’elaborazione dei segnali, della visione artificiale, dell’econometria, della
statistica, dell’automazione e della scienza dei sistemi poggiano su varianti più o meno
elaborate dei minimi quadrati. Il filtro di Kalman, la decomposizione ai valori singolari,
l’identificazione parametrica dei modelli sono solo alcune tecniche interpretabili alla luce
del metodo dei minimi quadrati.
La storia della scoperta del metodo dei minimi quadrati (Least Squares in inglese,
abbreviato a volte come LS nel seguito) è di suo molto interessante, ma non verrà
descritta qui in dettaglio. Basti sapere che i padri del metodo sono stati scienziati della
statura di Adrien-Marie Legendre, Pierre-Simon Laplace e, in particolare, Carl Friedrich
Gauss. Tra la fine del settecento ed i primi anni dell’ottocento, non senza polemiche
in merito alla paternità del metodo, questi scienziati hanno messo a punto la tecnica
oggi nota come dei minimi quadrati. Gauss è oggi riconosciuto come il maggiore fautore
del metodo a cui giunse studiando il problema della determinazione delle orbite di corpi
celesti. È significativo sottolineare come l’introduzione della distribuzione di probabilità
normale (o gaussiana, per la quale oggi Gauss è forse maggiormente noto) sia stato un
sotto-prodotto dello studio di Gauss sui minimi quadrati e non il viceversa.
Per entrare nel merito del metodo e della sua utilità, vediamo subito a cosa possa
servire. Molti problemi scientifici e tecnologici richiedono che sia noto il modello mate-
matico del sistema oggetto di studio: i problemi di controllo, ad esempio, sono spesso
formulati assumendo che il modello ingresso uscita nel dominio del tempo sia assegnato
e noto. In particolare questi modelli contengono delle costanti (parametri) assunte note.
Come si può procedere se queste costanti non fossero note? Se il sistema di interesse
Giovanni Indiveri, Università del Salento. VERSIONE 7 3

fosse, per esempio, un sistema massa - molla con attrito, esso sarebbe descritto da una
equazione del tipo M ÿ = −b ẏ − k y + f (t) dove M è la massa, k la costante elastica
della molla e b il coefficiente di attrito ed f (t) un ingresso esogeno (forzante). In questo
caso M, k e b sarebbero i parametri del sistema i cui valori determinano l’andamento
di y(t) una volta fissati i valori iniziali y(t0 ), ẏ(t0 ) e la forzante f (t). Il problema del-
la identificazione parametrica di questo modello consiste nel cercare di determinare il
valore dei parametri M, k e b dalla conoscenza di y(t), ẏ(t) ed f (t). Questo problema
ha una grande rilevanza pratica poiché molto spesso è nota la struttura matematica
delle equazioni che governano un dato sistema, ma non i suoi parametri. In termini più
astratti, possiamo formulare il problema cosı̀:
Dato un modello y(t) = S(θ, u(t)) con y(t) ∈ R uscita, u(t) ∈ R ingresso e θ ∈ Rn×1
vettore dei parametri, il problema della identificazione parametrica consiste nel determi-
nare θ dalla misura di y(t) ed u(t). Questa operazione viene detta di stima parametrica
ed in senso lato consiste nell’invertire il modello S. Come per tutte le operazioni di
inversione, anche quella di stima parametrica è delicata e può essere compiuta solo sot-
to opportune ipotesi di esistenza e regolarità del modello stesso per i dati segnali di
ingresso u(t) ed uscita y(t). Il risultato della stima di θ viene convenzionalmente in-
dicato con un cappello θ̂ per distinguere esplicitamente il valore vero (ed incognito)
di θ da quello stimato θ̂. La stima, infatti, viene realizzata usando misure discrete
yk = y(kT ), uk = u(kT ) di y(t) ed u(t) soggette a rumore ed incertezza sperimentale
per cui è naturale aspettarsi che, in generale, sia θ̂ − θ 6= 0. Poiché il segnale di ingresso
u(kT ) è impostato dallo sperimentatore, molto spesso l’incertezza su questo segnale è
trascurabile e quindi trascurata rispetto quella sull’uscita y(kT ). In questo senso θ̂ può
essere pensata come funzione della sola y(kT ). Il problema della stima, quindi, consi-
sterà nella individuazione di un algoritmo Ω(·) tale per cui θ̂ = Ω(yk , S) per k in un
dato intervallo. Indicando con ZN = {y(kT ) : k = 0, 1, 2, . . . , N − 1} l’insieme delle N
misure disponibili di y(t), possiamo distinguere due possibili scenari: quello Bayesiano
in cui θ sia una variabile stocastica e quello non Bayesiano in cui θ sia una variabile de-
terministica. Nel primo caso esisterà una densità di probabilità (pdf, probability density
function) a priori di θ, p(θ) mentre nel secondo no. Gli algoritmi di stima parametrica
associati ai due scenari corrispondono ai seguenti schemi:

Approccio Bayesiano:
p(ZN |θ) p(θ)
θ̂ M AP = arg max p(θ|ZN ) = arg max (1)
θ θ p(ZN )

Approccio non Bayesiano:


θ̂ M L = arg max p(ZN |θ). (2)
θ

Si noti che in entrambi i casi, il risultato della stima θ̂ è una variabile stocastica in
quanto funzione delle misure y(kT ) che sono quantità stocastiche. I due approcci cor-
rispondono a filosofie distinte ed hanno domini di applicazioni diversi. Una dettagliata
analisi delle loro proprietà e legami esula dagli scopi qui perseguiti. Si noti solo che nel-
l’ambito dell’approccio Bayesiano la stima di θ è la moda della probabilità a posteriori di
θ date le misure sperimentali, p(θ|ZN ). Di qui l’acronimo M AP , maximum a posteriori.
La probabilità a posteriori di θ dato ZN può essere calcolata dalla regola di Bayes in
funzione delle probabilità a priori di θ e ZN e quella a posteriori di ZN dato θ come in
equazione (1). Nella stima M AP è strutturalmente presente una fusione dell’informa-
Giovanni Indiveri, Università del Salento. VERSIONE 7 4

zione a priori su θ data dalla presenza del termine p(θ) nella equazione (1). La funzione
p(ZN |θ) è la probabilità a posteriori delle misure dato il vettore dei parametri e nella
letteratura in lingua inglese è nota come likelihood (verosimiglianza). Questo termine
dipende dallo specifico modello S del sistema e dalle proprietà stocastiche dell’errore su
y(kT ). L’approccio non Bayesiano, o deterministico, corrisponde quindi a quello noto
come Maximum Likelihood ovvero della Massima Verosimiglianza e corrisponde a stima-
re θ̂ come il vettore dei parametri che massimizzi l’evidenza sperimentale delle misure
y(kT ) dato un modello S. Nel seguito ci soffermeremo solo su questo approccio che è
il più naturale quando i parametri da stimare siano costanti fisiche deterministiche di
sistemi statici o dinamici.

1.1 Massima Verosimiglianza e Minimi Quadrati


Per calcolare la stima θ̂ M L in equazione (2) bisogna determinare la funzione di likelihood
p(ZN |θ) dato il modello y(t) = S(θ, u(t)). Se ipotizziamo che l’errore di misura su y(kT )
sia ε(kT ) e che sia distribuito gaussianamente con media nulla, ossia se:

y(kT ) = S(θ, u(kT )) + ε(kT ) (3)


ε ∼ N (0, σy ) (4)

segue che
[y(kT )−S(θ,u(kT ))] 2
1 − 2 (kT )
p(y(kT )|θ) = √ e 2σy
(5)
2π σy (kT )

dove si evidenzia esplicitamente che il rumore su ciascuna misura y(kT ) ha deviazione


standard σy (kT ). Nell’ipotesi che le singole misure y(kT ) siano tra loro indipendenti, la
densità di probabilità p(ZN |θ) è calcolabile come il prodotto delle singole gaussiane (5):
PN −1 [y(kT )−S(θ,u(kT ))]2 PN −1 h S(θ,u(kT )) 2
i
1 − k=0 2 (kT ) 1 −1 y(kT )
− σ (kT )
p(ZN |θ) = e 2σy
= e 2 k=0 σy (kT ) y (6)
C C
dove C è la costante di normalizzazione. La stima M L di θ data dalla equazione (2)
corrisponderà dunque al massimo della equazione (6) ovvero equivalentemente al minimo
di:
N −1 
S(θ, u(kT )) 2

1 X y(kT )
JW LS = − . (7)
2 σy (kT ) σy (kT )
k=0

La stima
N −1 
S(θ, u(kT )) 2

1 X y(kT )
θ̂ W LS = arg min − (8)
θ 2 σy (kT ) σy (kT )
k=0

ottenuta minimizzando la funzione di costo (7) è detta dei minimi quadrati pesati
(weighted least squares, da cui l’acronimo WLS) e, come appena dimostrato, essa coin-
cide con la stima di massima verosimiglianza θ̂ M L nelle ipotesi che le misure siano
indipendenti e distribuite gaussianamente e che i pesi nel funzionale di costo (7) siano le
deviazioni standard delle misure. Al di là di questa equivalenza che ne giustifica l’impor-
tanza nell’ambito di un approccio probabilistico, la stima ai minimi quadrati ha una sua
valenza intrinseca che risiede nel significato geometrico di minimizzare il funzionale di
Giovanni Indiveri, Università del Salento. VERSIONE 7 5

costo quadratico (7). Supponendo che le varianze σ 2 (kT ) in JW LS (7) siano tutte uguali
ad una setssa costante, la quantità JW LS (7) sarebbe proporzionale all’errore quadratico
medio di interpolazione. Quando le varianze delle singole misure differiscono tra loro,
significa che ciascuna misura y(kT ) viene pesata proporzionalmente alla sua incertezza.
Nel caso in cui il modello S(θ, u(t)) sia lineare in θ il vettore θ̂ W LS dato dalla (8) può
essere calcolato analiticamente e questo giustifica la grandissima diffusione del metodo
dei minimi quadrati per modelli lineari nei parametri. Al fine di dedurre una forma
chiusa per θ̂ W LS quando S(θ, u(t)) è lineare in θ sono necessari alcuni richiami sulla
differenziazione di funzioni vettoriali e su alcune proprietà delle matrici.

1.2 Richiami di algebra matriciale.


Data una funzione V (x) a valori scalari di variabile vettoriale
V : Rn×1 −→ R (9)
essa si dice essere
definita positiva se V (x) > 0 ∀ x ∈ Rn×1 6= 0 (10)
n×1
definita negativa se V (x) < 0 ∀ x∈R 6= 0 (11)
n×1
semi-definita positiva se V (x) ≥ 0 ∀ x∈R 6= 0 (12)
n×1
semi-definita negativa se V (x) ≤ 0 ∀ x∈R 6= 0. (13)
Di particolare interesse è la funzione scalare di variabile vettoriale
1
VP (x) = x> P x : x ∈ Rn×1 , P ∈ Rn×n (14)
2
detta forma quadratica. Se la matrice quadrata P è diagonalizzabile, il che è sicuramente
vero se P è simmetrica, allora il carattere (semi) definito positivo o negativo di VP è
legato univocamente al segno degli autovalori di P . In particolare detti λi : i = 1, 2, . . . n
gli n autovalori della matrice P ,
1
VP = x> P x : P diagonalizzabile con autovalori λi : i ∈ [1, n] (15)
2
VP è definita positiva ⇐⇒ λi > 0 ∀ i ∈ [1, n] (16)
VP è definita negativa ⇐⇒ λi < 0 ∀ i ∈ [1, n] (17)
VP è semi-definita positiva ⇐⇒ λi ≥ 0 ∀ i ∈ [1, n] (18)
VP è semi-definita negativa ⇐⇒ λi ≤ 0 ∀ i ∈ [1, n]. (19)
La dimostrazione segue dall’osservazione che per una P diagonale avente elementi
Pij = pi δij
essendo δij la delta di Kronecker

1 se i = j
δij = (20)
0 se i 6= j
la forma quadratica VP vale
n n n
1 XX 1X
VP = Pij xi xj = pi x2i .
2 2
i=1 j=1 i=1
Giovanni Indiveri, Università del Salento. VERSIONE 7 6

Considerata la grande utilità delle funzioni quadratiche, è frequente associare un segno


alle matrici quadrate in base alla natura (semi) definita positiva o negativa della forma
quadratica a loro associata. Ossia con un leggero abuso di notazione, data la matrice
quadrata P ∈ Rn×n , si indica
1 >
P >0 se x Px è definita positiva (21)
2
1 >
P <0 se x Px è definita negativa (22)
2
1 >
P ≥0 se x Px è semi-definita positiva (23)
2
1 >
P ≤0 se x Px è semi-definita negativa. (24)
2
Si noti che una matrice quadrata potrebbe non appartenere ad alcuna delle categorie
elencate, ossia non è assolutamente detto che ogni matrice abbia segno definito. Per
esempio  
1 0
P =
0 −1
non ha segno definito. Si noti inoltre che ogni matrice simmetrica di segno definito
(positivo o negativo) è invertibile, mentre ogni matrice simmetrica con segno solo semi-
definito è sicuramente sempre non invertibile.
Le matrici quadrate usate nel definire una forma quadratica come in equazione (14)
sono solitamente simmetriche: questo perché ogni matrice può essere sempre scompo-
sta nella somma di una simmetrica ed una anti-simmetrica ed il contributo alla forma
quadratica del termine anti-simmetrico è sempre identicamente nullo. Infatti

A ∈ Rn×n =⇒ A = As + Aa dove
A + A>
As = : As = A>
s termine simmetrico
2
A − A>
Aa = : Aa = −A>a termine anti-simmetrico
2
e risulta che
 >  
1 > 1 > 1 >
x Aa x ∈ R =⇒ x Aa x = x Aa x ma anche
2 2 2
 >
1 > 1 1 >
x Aa x = x> A>a x = − x Aa x = 0
2 2 2

poiché il trasposto di uno scalare è se stesso e l’unico numero reale uguale al suo opposto
è lo zero. Dunque l’unico termine che può dare contributo non nullo ad una forma
quadratica viene dalla parte simmetrica della matrice ad essa associata da cui segue
che ai fini del calcolo di una forma quadratica è sufficiente considerare solo matrici
simmetriche. Data una matrice quadrata A, se l’inversa A−1 esiste, allora è unica. Da
questa osservazione segue che le operazioni di inversione e trasposizione commutano.
Ossia:  −1 >
A> = A−1 . (25)
Giovanni Indiveri, Università del Salento. VERSIONE 7 7

Infatti
>
A−1 A = I =⇒ A−1 A = I > = I =⇒
>
A> A−1 = I

ma vale anche che  −1


A> A> =I

ed in virtù della unicità dell’inversa di A> , segue la tesi (25).


Dati due vettori x, y ∈ Rn×1 il loro prodotto scalare è x> y ∈ R che si può pensare co-
me il prodotto righe per colonne. È utile considerare anche il prodotto x y> ∈ Rn×n de-
finito ancora in base alla regola righe per colonne. Nel caso di due vettori bidimensionali
x = (x1 x2 )> , y = (y1 , y2 )> si avrebbe
   
> x1 x1 y1 x1 y2
xy = (y1 y2 ) = .
x2 x2 y1 x2 y2

Si noti che per ogni x ∈ Rn×1 la matrice x x> ∈ Rn×n è simmetrica.


In merito al legame tra invertibilità di matrici simmetriche e la definitezza del loro
segno, è utile osservare quanto segue.

Proposizione P1
Si considerino due matrici H ∈ Rn×m ed R−1 ∈ Rn×n . Sia R−1 simmetrica e definitiva
positiva (e dunque invertibile), allora la matrice simmetrica H > R−1 H ∈ Rm×m è inverti-
bile se e solo se H ha rango pari ad m, ossia rank(H) = m. Inoltre, se rank(H) = m allora
H > R−1 H è definita positiva mentre se rank(H) < m allora H > R−1 H è semi-definita
positiva.

Dimostrazione. La dimostrazione segue per calcolo diretto. Se H ha rango stretta-


mente minore di m, il suo nucleo non è vuoto: ma poiché un qualunque elemento del
nucleo di H è anche elemento del nucleo di H > R−1 H, segue che se rank(H) < m allora
H > R−1 H non è invertibile (non ha nucleo vuoto).
Supponiamo al contrario che H abbia rango m: allora ∀ x ∈ Rm×1 : x 6= 0 si ha
y = Hx 6= 0. Ne segue che ∀ x 6= 0 vale x> H > R−1 Hx = y> R−1 y > 0 : y 6= 0 poiché
R−1 è definita positiva per ipotesi. Questo dimostra che se H ha rango m la forma
quadratica associata a H > R−1 H è definita positiva e dunque H > R−1 H è invertibile.
Infine se rank(H) < m, la forma quadratica x> H > R−1 Hx varrà

> > −1 0 se x : Hx = 0
x H R Hx = > −1
y R y > 0 altrimenti

dove y = Hx 6= 0 e la seconda condizione vale in quanto R−1 è definita positiva per


ipotesi. Dunque se H ha rango strettamente minore di m (rank(H) < m) segue che
x> H > R−1 Hx ≥ 0.

Proposizione P2
Siano date H ∈ Rn×m , R−1 ∈ Rn×n e P −1 ∈ Rm×m con R−1 e P −1 simmetriche e
definite positive. Allora la matrice simmetrica
 
H > R−1 H + P −1
Giovanni Indiveri, Università del Salento. VERSIONE 7 8

è definita positiva ed invertibile qualunque sia il rango di H.

Dimostrazione. La dimostrazione segue dall’osservazione che la somma di una matri-


ce definita positiva (P −1 ) e di una definita o semi-definita positiva (H > R−1 H) è sempre
definita positiva ed, in quanto tale, invertibile.

1.3 Richiami sulla derivazione di funzioni vettoriali


Sia
f : Rn×1 −→ R
il vettore colonna  >
∂ ∂ ∂ ∂
∇x ≡ , , ,...
∂x1 ∂x2 ∂x3 ∂xn
è l’operatore gradiente tale per cui il vettore
 >
∂f (x) ∂f (x) ∂f (x) ∂f (x)
∇x f (x) = , , ,... ∈ Rn×1
∂x1 ∂x2 ∂x3 ∂xn

rappresenta il gradiente di f , ovvero è un vettore che punta nella direzione di massima


variazione (locale) di f . Il gradiente di una funzione scalare di variabile vettoriale
rappresenta l’equivalente della derivata di una funzione scalare di argomento scalare. In
particolare se lo sviluppo in serie di Taylor di una funzione di argomento scalare f (s) è
dato da:

X 1 (n)
f (s) = f |s0 (s − s0 )n =
n!
n=0
1 d2 f

df
= f |s0 + (s − s0 ) + (s − s0 )2 + O((s − s0 )3 )
ds s0 2 ds2 s0

l’equivalente sviluppo per una funzione scalare di argomento vettoriale è:


1
f (x) = f |x0 + [∇x f ]> (x − x0 ) + (x − x0 )> He [f (x0 )](x − x0 ) + O(kx − x0 k3 )

x0 2

dove il termine [∇x f ]> è lo Jacobiano di f in x0 ed He [f (x0 )] è la matrice Hessiana

x0
(o l’hessiano) di f in x0
∂2f ∂2f ∂2f
 
∂x1 ∂x1 , ∂x1 ∂x2 , ..., ∂x1 ∂xn
∂2f ∂2f ∂2f
∂x2 ∂x1 , ∂x2 ∂x2 , ...,
 
∂x2 ∂xn  = ∇x [∇x f (x)]>
 
He [f (x)] =  .. .. .. ..
.
 
 . . . 
∂2f ∂2f ∂2f
∂xn ∂x1 , ∂xn ∂x2 , ..., ∂xn ∂xn

che è l’analogo della derivata seconda per funzioni ad argomento vettoriale. Si noti che
per funzioni vettoriali di argomento vettoriale come

f : Rn×1 −→ Rm×1
Giovanni Indiveri, Università del Salento. VERSIONE 7 9

lo jacobiano è una matrice di dimensione m × n definita come


 ∂f ∂f1 ∂f1

1
∂x1 , ∂x2 , . . . , ∂xn
∂f2 ∂f2 ∂f2 

>
>  ∂x1 , ∂x2 , . . . , ∂xn 
∇x f = .
 .. .. ..  (26)
 . . . . . 

∂fm ∂fm ∂fm
∂x1 , ∂x2 , . . . , ∂xn

e l’hessiano è un tensore. Una particolare funzione scalare di argomento vettoriale è la


forma quadratica
n X
X m
f (x, y) = x> Ay = xi Aij yj : A ∈ Rn×m , x ∈ Rn×1 , y ∈ Rm×1 .
i=1 j=1

Per calcolo diretto segue che:


 
∇x x> Ay = Ay (27)
 
∇y x> Ay = A> x (28)

1.4 Modelli lineari nei parametri ed equazioni normali dei minimi


quadrati
Nel caso in cui il modello S(θ, u(t)) sia lineare in θ, la soluzione θ̂ W LS della equazione
(8) può essere calcolata in forma chiusa; la linearità nei parametri significa che ad ogni
istante t il modello è
y(t) = S(θ, u(t)) = H[u(t)]θ (29)
che può benissimo essere non lineare in t e/o u(t). Per esempio,
 
a
y(t) = a sin u1 (t) + b cos u2 (t) + ct2 = [sin u1 (t) cos u2 (t) t2 ]  b  (30)
c

è lineare in θ = (a, b, c)> , non lineare in (u1 (t), u2 (t))> e non lineare in t. Il modello
differenziale massa, molla, ammortizzatore:
mÿ(t) = −ky − bẏ + f (t) =⇒ (31)
 
m/k
m b 1
y = − ÿ − ẏ + f (t) = [−ÿ − ẏ f (t)]  b/k  (32)
k k k
1/k
è lineare nei parametri. Il modello statico
y(t) = a sin(ωt) (33)
è lineare in a, ma non in ω. La matrice H in (29) è detta matrice di regressione e
tipicamente dipende dall’ingresso al sistema. Per esempio la matrice di regressione del
modello (30) è
sin u1 (t0 ) cos u2 (t0 ) t20
 
 sin u1 (t1 ) cos u2 (t0 ) t2 
1 
H= (34)

.. .. .. 
 . . . 
sin u1 (tn ) cos u2 (tn ) t2n
Giovanni Indiveri, Università del Salento. VERSIONE 7 10

essendo n le misure sperimentali disponibili. Data la matrice di regressione risulta che:

sin u1 (t0 ) cos u2 (t0 ) t20  


   
y(t0 )
 y(t1 )   sin u1 (t1 ) cos u2 (t0 ) t2  a
1 
 ..  =  ..   b  (35)
  
.. ..
 .   . . .  c
y(tn ) sin u1 (tn ) cos u2 (tn ) t2n

che suggerisce di definire il vettore delle misure come

y ≡ [y(t0 ), y(t1 ), . . . , y(tn )]> ∈ Rn×1 . (36)

Con questa notazione, un generico modello lineare nei parametri verrà rappresentato
come:

y = Hθ : H ∈ Rn×m regressore, y ∈ Rn×1 misure, θ ∈ Rm×1 parametro. (37)

Volendo scrivere il funzionale di costo (7) in forma matriciale, per tenere in giusta
−1
considerazione i pesi σ(kT ) sulle misure, possiamo definire gli elementi Rij della matrice
diagonale R ∈ R n×n come:

−1 δij
Rij = : σy (h) > 0 ∀ h (38)
σy2 (i)

e quindi il costo JW LS (7) come:


1
JW LS = (y − Hθ)> R−1 (y − Hθ) (39)
2
che corrisponde esattamente alla equazione (7). Si noti che la matrice R, definita positiva
per costruzione, corrisponde alla matrice di covarianza dell’errore di misura ε in (4),
ovvero
R = cov(ε) ≡ E[ε ε> ]. (40)
Si noti che negli sviluppi successivi, a meno che non sia indicato esplicitamente il contra-
rio, in generale la matrice di covarianza R in equazione (40) non sarà necessariamente
diagonale. In altri termini, le dimostrazioni dei risultati successivi in generale non ne-
cessiteranno dell’ipotesi di diagonalità di R che, quindi, può essere arbitraria purché
simmetrica e definita positiva. Si presti dunque attenzione alle ipotesi necessarie per
dimostrare i vari risultati che seguiranno.
La stima θ̂ W LS del vettore θ associato al modello è per definizione un estremo di
JW LS (39) e dunque ne rende nullo il gradiente rispetto a θ. In sostanza:

∇θ JW LS |θ̂W LS = 0 =⇒
 
∇θ y> R−1 y − y> R−1 Hθ − θ > H > R−1 y + θ > H > R−1 Hθ |θ̂W LS = 0 =⇒
(−2H > R−1 y + 2H > R−1 Hθ)|θ̂W LS = 0 =⇒
(H > R−1 H) θ̂ W LS = H > R−1 y. (41)

Questa ultima equazione è nota come equazione normale dei minimi quadrati. Qualora
H > R−1 H sia invertibile la soluzione della equazione normale è unica ed è data da:

θ̂ W LS = (H > R−1 H)−1 H > R−1 y, (42)


Giovanni Indiveri, Università del Salento. VERSIONE 7 11

inoltre che il costo JW LS abbia un minimo e non un massimo in θ̂ W LS , segue dall’osser-


vazione che la matrice Hessiana di JW LS è :

He [JW LS ] = H > R−1 H (43)

che, in virtù dell’ipotesi R > 0, è definita positiva quando è invertibile e semi-definita


positiva altrimenti. L’invertibilità di H > R−1 H è condizione necessaria e sufficiente per
poter calcolare θ̂ W LS secondo l’equazione (42) e dunque si dice che θ sia identificabile
con il metodo dei minimi quadrati se e solo se det(H > R−1 H) 6= 0. Si noti però che

se R > 0 allora det(H > R−1 H) 6= 0 ⇐⇒ det(H > H) 6= 0 (44)

da cui segue che quando R > 0 la condizione di identificabilità riguarda di fatto il


determinante di H > H. Inoltre la matrice H dipende dagli ingressi al sistema e dunque
anche la condizione det(H > R−1 H) 6= 0 dipende attraverso H dai particolari ingressi con
cui si sollecita il sistema per misurarne l’uscita y. Per esempio, la matrice H data in
(34) relativa all’esempio (30) rende H > H non invertibile qualora si scegliesse u1 (t) = ωt
e u2 (t) = ωt + π/2 in quanto le prime due colonne di H sarebbero uguali. Per questa
scelta di u1 (t) e u2 (t) si avrebbe infatti

sin u1 (t) = cos u2 (t) = sin ωt

e dalla definizione (30) del modello si vede che esso si riduce a

y(t) = (a + b) sin ωt + c t2

dal quale si potrà al più identificare (a + b) e c, ma non i singoli valori di a e b. In


altri termini, esistono ingressi che non eccitano a sufficienza il sistema per consentire
l’identificazione di tutti i parametri. In generale esiste una classe di ingressi che consente
l’invertibilità di H > R−1 H e quindi l’identificabilità di θ ed una seconda classe per cui
det(H > R−1 H) = 0. Gli ingressi u(t) tali per cui:

u(t) : det(H > H) 6= 0 (45)

si dicono persistentemente eccitanti e sono gli unici a grantire la identificabilità di tutti


parametri.
In sintesi dato un modello lineare nei parametri y = H[u(t)]θ, per stimare il vettor
dei parametri si può procedere con i seguenti passi: i) eccitare il sistema con una se-
quenza di ingresso u(t) persistentemente eccitante, ossia che garantisca det(H > H) 6= 0;
ii) misurare l’uscita y(t) relativa all’ingresso persistentemente eccitante; iii) calcolare
la stima di θ in base all’equazione (42), ossia θ̂ W LS = (H > R−1 H)−1 H > R−1 y essendo
R una matrice definita positiva. Se R è la matrice diagonale delle varianze del rumore
gaussiano e a media nulla di misura, allora per quanto fin qui esaminato, θ̂ W LS può
essere interpretato alternativamente in senso probabilistico come la stima di massima
verosimiglianza o in senso deterministico come il minimo della funzione di costo JW LS
(7). In particolare l’interpretazione deterministica della stima dei minimi quadrati in-
clude il frequente caso in cui si assegni ad ogni misura y lo stesso peso, ossia il caso in
cui si ponga semplicemente R = In×n , matrice identica di dimensione n × n.
Giovanni Indiveri, Università del Salento. VERSIONE 7 12

1.4.1 La matrice di covarianza dei parametri


Esaminiamo ancora il caso in cui la matrice R nel costo (39) sia la matrice di covarianza
del rumore di misura ε, ovvero come in equazione (40) sia

R := cov(ε) ≡ E[ε ε> ] = R> > 0 (46)

dove, si noti, non è necessario che R sia anche diagonale R = diag(σ12 , σ22 , . . . , σn2 ) come in
equazione (38), ma solo che sia definita positiva (quindi invertibile) e pari alla covarianza
dell’errore di misura. L’eventuale caso di R diagonale corrisponderebbe ad assumere gli
errori sulle singole misure indipendenti tra loro ((cov(ε))ij = E[εi εj ] = 0 ∀ i 6= j)
ed è un caso particolare di quello più generale associato all’equazione (46). Ipotizziamo
inoltre che il rumore di misura abbia media nulla: in questa ipotesi si può dimostrare
che la stima ai minimi quadrati pesati θ̂ W LS di θ sia non polarizzata (unbiased nella
letteratura inglese), ossia che il valore atteso della stima θ̂ W LS coincida con il valore
vero θ. Vale:

E[θ̂ W LS ] = E[(H > R−1 H)−1 H > R−1 y] = (H > R−1 H)−1 H > R−1 E[y] =
= (H > R−1 H)−1 H > R−1 E[Hθ + ε] =
 
= (H > R−1 H)−1 (H > R−1 H)θ + E[ε] = θ

essendo E[ε] = 0 per ipotesi. Un’altra quantità utile da considerare è l’errore di stima:

θ̃ ≡ θ − θ̂ W LS

che ci si aspetta essere proporzionale a quello di misura ε. Indubbiamente vale

θ̃ = θ − θ̂ W LS = θ − (H > R−1 H)−1 H > R−1 y =


= θ − (H > R−1 H)−1 H > R−1 (Hθ + ε) = −(H > R−1 H)−1 H > R−1 ε.

Con questi ingredienti possiamo calcolare la matrice di covarianza P ≡ cov(θ̂ W LS ) del


vettore θ̂ W LS :
  > 
P = E θ̂ W LS − E[θ̂ W LS ] θ̂ W LS − E[θ̂ W LS ] =
  >  h >i
= E θ̂ W LS − θ θ̂ W LS − θ = E θ̃ θ̃ =
  > 
> −1 −1 > −1 > −1 −1 > −1
= E (H R H) H R ε (H R H) H R ε =
>
= (H > R−1 H)−1 H > R−1 E[ε ε> ] R−1 H (H > R−1 H)−1 =
= (H > R−1 H)−1 H > R−1 R R−1 H(H > R−1 H)−1 = (H > R−1 H)−1 (47)

dove nell’ultima riga si è sfruttata l’equazione (46). Ancora una volta si noti che ai fini
del risultato in equazione (47) non è stato necessario ipotizzare che R fosse diagonale:
è infatti sufficiente che valga R = E[ε ε> ] = R> ed E[ε] = 0 ossia che il rumore di
misura sia a media nulla e con covarianza pari ad R. L’equazione (47) mette in evi-
denza come l’incertezza sulla stima di θ dipenda sia dal rumore di misura, sia dalla
natura degli ingressi usati per eccitare il sistema. Questo risultato è particolarmente
Giovanni Indiveri, Università del Salento. VERSIONE 7 13

interessante in considerazione del concetto di identificabilità discusso nel paragrafo pre-


cedente. La eventuale non identificabilità di θ associata alla scelta di ingressi tali per cui
det(H > H) = 0 può essere interpretata come una situazione in cui la stima di θ abbia
covarianza infinita. Inoltre l’equazione (47) ha anche una interessante interpretazione
geometrica: l’inversa della covarianza di θ̂ W LS coincide con la matrice hessiana (43)
del funzionale di costo JW LS (39). Intuitivamente significa che tanto più gli ingressi
che compongono il regressore H garantiscono un funzionale di costo ripido, tanto più
il minimo di questo costo è rappresentativo del valore vero del vettore dei parametri.
Se paradossalmente la matrice H fosse identicamente nulla, qualunque valore arbitrario
di θ̂ W LS sarebbe un minimo del costo JW LS , ma l’incertezza associata a questa sti-
ma sarebbe infinita, ovvero la sua rappresentatività sarebbe nulla. Alla luce di queste
considerazioni si noti che evidentemente non tutti i segnali persistentemente eccitanti
garantiscono stime di θ ugualmente precise. Per esempio come già osservato il vettore
dei parametri θ = (a, b, c)> del sistema descritto in equazione (30) avente matrice H
data dalla (34) non è identificabile se u2 (t) = u1 (t) + k π/2 per ogni k intero non nullo;
al contrario qualunque scelta degli ingressi del tipo u2 (t) = u1 (t) + φ : φ 6= k π/2
con k intero non nullo garantisce la identificabilità di θ, ma le covarianza delle stime di
θ associate alle diverse possibili scelte di φ saranno diverse ed in particolari le varianze
delle stime dei parametri saranno tanto maggiori quanto più φ si avvicina ad un multiplo
intero non nullo di π/2. A titolo esemplificativo si riporta il seguente esempio numerico
(in MATLAB):

t = linspace(0,60,1200)’; % vettore tempo in [s], campionamento a 20Hz


% f = omega/(2.*pi); f = 1 Hz =⇒
omega = 2.*pi; % pulsazione segnali di ingresso
phi = 0; % phi = 0.75, 1.5, pi/2 valori usati per φ
a = 1.3; % valore vero del parametro a
b = 2.1; % valore vero del parametro b
c = 1./10000; % valore vero del parametro c
u1 = omega.*t;
u2 = u1 + phi; % segnali di ingresso
noise = randn(size(t)); % rumore di misura gaussiano a media nulla, varianza 1
y = a.*sin(u1) + b.*cos(u2) + c.*t.*t;
yn = y + noise; % uscita misurata

H = [sin(u1) cos(u2) t. ∗ t];


sigma2 = 1;
R−1 = diag(ones(size(t))./sigma2); % matrice dei pesi

covthetaLS = inv(H’*R−1 *H) % covarianza di θ̂ W LS


thetaLS = covthetaLS*H’*R−1 *yn % θ̂ W LS

I risultati numerici di questa simulazione per i valori φ = 0, 0.75, 1.5 e π/2 radianti
sono:

φ = 0 =⇒
Giovanni Indiveri, Università del Salento. VERSIONE 7 14

covthetaLS =
0.0016682 −1.8852e − 008 6.0824e − 009
−1.8852e − 008 0.0016653 −9.9532e − 010
6.0824e − 009 −9.9532e − 010 3.2112e − 010
thetaLS =
1.2924
2.075
0.0001019

φ = 0.75 =⇒
covthetaLS =
0.0031134 0.0021202 5.1552e − 009
0.0021202 0.0031105 −1.3603e − 009
5.1552e − 009 −1.3603e − 009 3.2112e − 010
thetaLS =
1.2977
2.123
0.00011598

φ = 1.5 =⇒
covthetaLS =
0.33281 0.33197 −7.953e − 009
0.33197 0.33281 −1.4071e − 008
−7.953e − 009 −1.4071e − 008 3.2112e − 010
thetaLS =
1.1069
1.9932
0.00012417

φ = π/2 =⇒
Warning: Matrix is close to singular or badly scaled.
Results may be inaccurate. RCOND = 1.825231e-023.
covthetaLS =
8.7961e + 012 8.7961e + 012 0
8.7961e + 012 8.7961e + 012 −6.1035e − 005
−3.7711e − 007 −3.8319e − 007 3.2112e − 010
thetaLS =
0.4797
−20.442
0.00011212
Sulla diagonale delle matrici di covarianza si trovano le varianze delle componenti di
θ̂ W LS . Dunque indicando come errore sulla stima di ciscun parametro la deviazione
standard associata alla stima, i risultati di cui sopra si possono riassumere come:
Giovanni Indiveri, Università del Salento. VERSIONE 7 15

φ [rad] a±δa b±δb c±δc


0 (1.29 ± 0.04) (2.08 ± 0.04) (1.0 ± 0.2)10−4
0.75 (1.30 ± 0.06) (2.12 ± 0.06) (1.0 ± 0.2)10−4
1.5 (1.1 ± 0.6) (2.0 ± 0.6) (1.0 ± 0.2)10−4
π/2 0.5 ± 3 106 −20 ± 3 106 (1.0 ± 0.2)10−4

essendo a = 1.3, b = 2.1 e c = 10−4 i valori veri dei parametri. Si noti come la
deviazione standard sulla stima dei parametri a e b aumenti mano a mano che φ tenda
a π/2, valore per il quale si perde la identificabilità di a e b. Nonostante per φ = π/2 la
matrice H > R−1 H non ammetta teoricamente inversa, l’algoritmo fornisce comunque un
risultato finito a causa di inevitabili arrotondamenti numerici: ciò nonostante la estrema
vicinanza ad una situazione di singolarità numerica è rilevata e segnalata all’utente.
Ricordando che una combinazione lineare di variabili gaussiane indipendenti è a
sua volta una variable gaussiana, segue che se il rumore sulle misure y è indipendente
e gaussiano anche il vettore θ̂ W LS ha distribuzione gaussiana. Ecco perché ha senso
indicare come errore sulla stima dei parametri un multiplo della deviazione standard
calcolata come radice quadrata degli elementi diagonali della matrice di covarianza.
Nella tabella di cui sopra si è indicata la deviazione standard stessa (multiplo unitario),
ma più spesso si usa indicare come errore la deviazione standard moltiplicata per tre
(errore 3σ).

1.4.2 Ulteriori considerazioni sulla identificabilità parametrica

y y-y*

y*

S(col(H))

Figura 1: Principio di ortogonalità.

Una importante osservazione circa la identificabilità di un dato modello riguarda il


minimo numero di misure dell’uscita necessarie per l’inversione di H > R−1 H. È intuibile
che in generale saranno necessarie almeno tanti dati (dimensione di y) quanti sono i
parametri (numero di componenti di θ). La identificazione è infatti una operazione di
interpolazione delle n misure y ∈ Rn×1 con un modello lineare H θ : H ∈ Rn×m , θ ∈
Rm×1 : in presenza di più parametri che misure, i.e. m > n, il sistema lineare y = Hθ
nell’incognita θ è sottodimensionato, ossia in generale ammette infinite soluzioni. Nel
caso semplice di interpolazione di una retta yi = axi + b : θ ≡ (a, b)> nel piano
cartesiano (x, y), avere più parametri che misure significherebbe tentare di interpolare
un singolo punto (x∗ , y ∗ ) con una retta: esistono infinite rette passanti per un punto.
Più in generale l’algebra lineare indica che una matrice n × m ha rango minore o uguale
Giovanni Indiveri, Università del Salento. VERSIONE 7 16

di p ≡ min{n, m} dunque se R ∈ Rn×n ha rango pieno (in generale R è diagonale,


definita positiva ed invertibile), la matrice H > R−1 H : H ∈ Rn×m ha anche essa rango
minore o uguale di p = min{n, m}. Poiché H > R−1 H ∈ Rm×m essa è invertibile se e
solo se il rango di H è rank(H) = p = m. Di conseguenza possiamo affermare che una
condizione necessaria, ma non sufficiente, per la identificabilità di θ è che n ≥ m, ossia
per identificare m parametri c’è bisogno di almeno m dati sperimentali. Tornando al
semplice esempio della retta yi = axi + b, per trovare sia a che b bisogna conoscere (i.e.
misurare) almeno due punti diversi.
Una seconda osservazione circa il metodo dei minimi quadrati riguarda ancora la sua
interpretazione geometrica: il metodo consiste nel tentare di riprodurre nel miglior modo
possibile, i.e. interpolare, una quantità misurata y ∈ Rn×1 con un modello lineare Hθ.
Al variare di ogni possibile scelta di θ i vettori Hθ sono tutte le possibili combinazioni
lineari delle colonne della matrice H o, in altri termini, il generico vettore y∗ = Hθ ∗
appartiene allo span delle colonne di H indicato con S(col(H)). In questo quadro la
riproduzione nel miglior modo possibile può essere formalmente definita, per esempio,
come l’individuazione di un θ ∗ tale che Hθ ∗ = y∗ e l’errore di interpolazione y − y∗
pesato secondo R abbia norma euclidea minima. L’errore di interpolazione y−y∗ pesato
secondo R−1 è
R−1 (y − y∗ )
e dalla interpretazione geometrica dello span di H esemplificata in figura (1) segue che
esso avrà norma minima se ortogonale allo span di H, ovvero se
H > R−1 (y − y∗ ) = 0 (48)
da cui
H > R−1 y = H > R−1 y∗ = H > R−1 Hθ ∗
che è proprio l’equazione normale dei minimi quadrati. L’equazione (48) può essere
pensata essa stessa come la definizione della stima parametrica secondo il metodo dei
minimi quadrati. Essa mostra che scegliendo come criterio di ottimo per l’approssima-
zione delle misure y quello della minima norma euclidea per il vettore d’errore pesato
R−1 (y − y∗ ), esso debba essere normale allo span del regressore: questa proprietà è nota
in letteratura come principio di ortogonalità. Tale principio può essere formulato nei
termini del seguente lemma [3]:

Lemma della Proiezione Ortogonale


Sia X uno spazio vettoriale in Rn ed Y un suo sottospazio. Allora
x̂ = arg min kx − αk2 ⇐⇒ (x − x̂)> α = 0 ∀ α ∈ Y.
α∈Y

Premesso che un simile risultato vale anche per spazi normati infinito dimensionali, la
dimostrazione per il caso enunciato segue per calcolo diretto. In particolare, si supponga
che (x − x̂)> α = 0 : ∀ α 6= 0, α ∈ Y vale
kx − x̂ + αk2 = (x − x̂ + α)> (x − x̂ + α) =
= kx − x̂k2 + 2(x − x̂)> α + kαk2 > kx − x̂k2 .
Al contrario, si supponga adesso che ∃ α 6= 0, α ∈ Y : (x − x̂)> α = β 6= 0 allora per
ogni λ ∈ R vale:
kx − x̂ + λ αk2 = kx − x̂k2 + 2λ β + λ2 kαk2 ,
Giovanni Indiveri, Università del Salento. VERSIONE 7 17

da cui, scegliendo
β
λ=−
kαk2
segue
kx − x̂ + λ αk2 = kx − x̂k2 + 2λ β + λ2 kαk2 =
2β 2 β2
= kx − x̂k2 − + < kx − x̂k2
kαk2 kαk2
il ché violerebbe l’ipotesi che x̂ = arg minα∈Y kx − αk2 .
La dimostrazione per il caso di spazi normati infinito dimensionali può essere ricavata
analogamente utilizzando l’opportuno prodotto scalare e la relativa norma indotta.
Il lemma della proiezione ortogonale ha una notevole rilevanza (anche storica) nel-
l’ambito della teoria della identificazione parametrica, del filtraggio e della stima dello
stato in quanto le formule risolutive dei minimi quadrati e della stima ottima (compreso
il filtro di Kalman) possono essere dedotte sulla sua base.

1.4.3 La stima ai minimi quadrati pesati con l’inversa della matrice di


covarianza del rumore di misura è BLUE
Come osservato, la stima ai minimi quadrati pesati con l’inversa della covarianza del-
l’errore di misura coincide con la stima a massima verosimiglianza se gli errori sulle
misure sono tra loro indipendenti e distribuiti gaussianamente con media nulla. In que-
sto caso lo stimatore WLS (a media pesata con l’inversa della covarianza dell’errore di
misura, detto anche stimatore di Markov) è non polarizzato (unbiased) e lineare nelle
misure y. Indubbiamente, la coincidenza tra lo stimatore a massima versomiglianza e
quello di Markov, nelle ipotesi citate, giustifica l’uso della stima WLS (o di Markov).
In molte applicazioni, però, l’ipotesi di gaussianità del rumore di misura potrebbe non
essere vera o, comunque, non valutabile. Ciò nonostante l’uso di uno stimatore lineare
nei dati potrebbe essere auspicabile per le sue proprietà numeriche ed implementative.
È allora interessante chiedersi se tra i possibili stimatori non polarizzati lineari nelle
misure (eventualmente pesate), sia possibile individuarne uno con proprità migliori di
quello WLS. In particolare è leggittimo chiedersi se, date delle misure y affette da ru-
more ε a media nulla, sia possibile individuare uno stimatore non polarizzato, lineare in
y (eventualmente pesate), a cui sia associata una covarianza minore di quella associata
allo stimatore WLS. Come vedremo, la risposta è negativa: ovvero, lo stimatore WLS,
con matrice dei pesi pari all’inversa della matrice di covarianza del rumore di misura,
in presenza di rumore a media nulla risulta essere lo stimatore non polarizzato lineare
nelle misure con la minima covarianza associata alla stima possibile. Nella letteratura
anglosassone, tale proprietà si riassume nell’acronimo BLUE: Best Lineare Unbiased
Estimator.
Sia dato il modello
y = Hθ vero + ε (49)
con y ∈ Rn×1 , H ∈ Rn×m , n ≥ m, ε ∈ Rn×1 con E[ε] = 0 e rango di H pari ad m. Sia
R := E[εε> ]
la matrice di covarianza del rumore a media nulla ε (in generale non gaussiano) con R
reale di dimensione n × n simmetrica e definita positiva. La stima θ̂ W LS è data da
θ̂ W LS = (H > R−1 H)−1 H > R−1 y (50)
Giovanni Indiveri, Università del Salento. VERSIONE 7 18

con h i
E θ̂ W LS = θ vero (51)
e  
cov θ̂ W LS = (H > R−1 H)−1 . (52)

Si vuole dimostrare che un qualunque stimatore di θ non polarizzato


 e lineare in y ha
covarianza associata alla stima maggiore o uguale a cov θ̂ W LS . Sia dunque

θ̂ C := C y. (53)

Se tale stima non è polarizzata, deve valere che


h i
E θ̂ C = E [C (Hθ vero + ε)] = C Hθ vero + C E [ε] = θ vero (54)

che implica la necessità che


C H = Im×m . (55)
L’errore di stima θ̃ sarà dato da θ̃ := θ vero − θ̂ C tale per cui la matrice di covarianza
della stima θ̂ C è:
   h i  h i>  h >i
cov θ̂ C := E θ̂ C − E θ̂ C θ̂ C − E θ̂ C = E θ̃ θ̃ =
h i
= E (Cy − θ vero ) (Cy − θ vero )> =
h i
= E (C(Hθ vero + ε) − θ vero ) (C(Hθ vero + ε) − θ vero )> =
h i
= C E εε> C > = C R C > . (56)

Infine si noti che date due qualunque matrici R ∈ Rn×n simmetrica definita positiva e
D ∈ Rm×n , la matrice DRD> è sicuramente semi-definita positiva, i.e. DRD> ≥ 0. Sia
dunque
 −1
D := C − H > R−1 H H > R−1 . (57)

Per calcolo diretto segue:


  −1    −1 >
> > −1 > −1 > −1 > −1
DRD = C− H R H H R R C− H R H H R =
 −1  −1
= C R C > − CH H > R−1 H − H > R−1 H H >C > +
 −1   −1  −1
+ H > R−1 H H > R−1 H H > R−1 H = C R C > − H > R−1 H =
   
= cov θ̂ C − cov θ̂ W LS ≥ 0 (58)

da cui la tesi che lo stimatore WLS (con pesi uguali alla covarianza del rumore di misura,
non necessariamente gaussiano, ma a media nulla) sia BLUE.
Giovanni Indiveri, Università del Salento. VERSIONE 7 19

1.5 Minimi quadrati ordinari, pesati e generalizzati


Si noti che in tutte le derivazioni precedenti, ad eccezione del passaggio dall’equazio-
ne (7) alla (8), non è mai stata necessaria (nei calcoli sviluppati e nelle dimostrazioni
riportate) l’ipotesi che R fosse diagonale. La diagonalità di R (sempre comunque sim-
metrica e definita positiva) corrisponde ad ipotizzare rumore di misura indipendente.
In questo caso la scelta R = diag(σ12 , σ22 , . . . , σN
2 ) corrisponde a pesare, nel costo dei

minimi quadrati, ciascun residuo con la covarianza della misura ad esso associata. Ta-
le scelta conduce alla definizione dei minimi quadrati pesati o WLS - Weighted Least
Squares la cui soluzione è data dall’equazione (42). Nel caso R non sia diagonale, ma
R := E[εε> ] = R> > 0 il costo (39) conserva la stessa identica espressione cosı̀ come il
suo minimo (42). Si noti che il problema di stima associato al costo
 
θ̂ = arg min (y − Hθ)> R−1 (y − Hθ) : R = E[εε> ] = R> > 0
θ

con R non necessariamente diagonale generalizza il caso di R diagonale e, come tale, è


detto in letteratura Generalized Least Squares - GLS ovvero Minimi Quadrati Genera-
lizzati. In sintesi, tutti i risultati formali dimostrati senza usare l’ipotesi di diagonalità
della matrice di covarianza R possono essere pensati come più generali del caso WLS e
si potrebbero classificare come relativi ai Minimi Quadrati Generalizzati (GLS).
D’altra parte, se valesse
R = σ 2 In×n (59)
ovvero se gli errori sulle misure y(k) fossero indipendenti e con la stessa deviazione
standard, i pesi sul costo (39) sarebbero ininfluenti sul valore della stima di θ (attenzione,
non sulla covarianza della stima). Infatti si avrebbe
1
JW LS = (y − Hθ)> R−1 (y − Hθ) =
2  
1  >
 1 1 >
= (y − Hθ) (y − Hθ) = 2 (y − Hθ) (y − Hθ) =
2σ 2 σ 2
1
= JOLS (60)
σ2
avendo definito il costo JOLS dei minimi quadrati ordinari (Ordinary Least Squares -
OLS) come
1
JOLS = (y − Hθ)> (y − Hθ). (61)
2
La soluzione dei minimi quadrati ordinari è definita come
   −1
1
θ̂ OLS = arg min (y − Hθ) (y − Hθ) = H > H
>
H > y. (62)
θ 2

Si noti che la fomulazione del problema OLS come minimizzazione del costo (61) è
del tutto deterministica, ovvero prescinde dall’eventuale presenza del rumore gaussiano
N (0, σ) su ciascuna misura di y (con medesima σ). In quest’ottica deterministica del
problema anche la stima θ̂ OLS avrebbe natura deterministica e non avrebbe quindi senso
pensare alla sua covarianza, ma, al più, all’hessiano del costo OLS dato da (H > H).
Al contrario, il problema WLS con matrice dei pesi data dall’equazione (59) è ancora
Giovanni Indiveri, Università del Salento. VERSIONE 7 20

probabilistico e, sebbene con R = σ 2 In×n risulti θ̂ W LS = θ̂ OLS con θ̂ OLS data dalla
(62), si avrebbe
   −1
cov θ̂ W LS = σ 2 H > H . (63)
Dunque la stima WLS può essere pensata come un caso particolare della stima
GLS ed una generalizzazione di quella OLS. Si invita il lettore a notare, anche nel
seguito di queste note, come i risultati esplicitamente ricavati nel contesto WLS possano
eventualmente essere estesi al caso GLS e come si relazionino al caso speciale OLS.

1.6 Integrazione di informazione a priori e stima MAP


Come descritto precedentemente, la stima Maximum a Posteriori (MAP) è una tecnica
applicabile al caso in cui il vettore dei parametri incogniti sia una grandezza stocastica
per la quale, quindi, sia definibile una funzione di densità di probabilità p(θ). Suppo-
niamo che una stima a priori θ ∗ di θ sia assegnata indipendentemente dalle misure ZN
effettuabili sul sistema. Se si ipotizza inoltre che la p(θ) a priori sia gaussiana con media
θ ∗ e covarianza P := E[(θ − θ ∗ )(θ − θ ∗ )> ], si avrebbe:
1 − 1 (θ−θ∗ )> P −1 (θ−θ∗ )
p(θ) = e 2 . (64)
C1
La stima MAP di θ risulterebbe essere data da:
p(ZN |θ)p(θ)
θ̂ M AP = arg max p(θ|ZN ) = arg max =
θ θ p(ZN )
= arg max p(ZN |θ)p(θ) (65)
θ

visto che p(ZN ) non dipende da θ. Se il vettore  ∈ Rn×1 delle incertezze di misura
nel modello y = H θ +  è distribuito gaussianamente con media nulla e covarianza
R := E[ > ] (ora non necessariamente diagonale), si avrebbe
1 − 1 (y−H θ)> R−1 (y−H θ)
p(ZN |θ) = e 2 (66)
C2
da cui
>
1
R−1 (y−H θ)+ 12 (θ−θ ∗ )> P −1 (θ−θ ∗ )]
θ̂ M AP = arg max e−[ 2 (y−H θ) = (67)
θ
= arg min JM AP : (68)
θ
1 1
JM AP = (y − H θ)> R−1 (y − H θ) + (θ − θ ∗ )> P −1 (θ − θ ∗ ) . (69)
2 2
Si noti che rispetto la stima WLS, il presente funzionale di costo JM AP è la somma di
due funzioni quadratiche distinte. Per determinare il minimo di JM AP è necessario porre
∇θ JM AP = 0 =⇒
H > R−1 H θ − H > R−1 y + P −1 θ − P −1 θ ∗ = 0 =⇒
 
H > R−1 H + P −1 θ = H > R−1 y + P −1 θ ∗ + H > R−1 H θ ∗ − H > R−1 H θ ∗
   
H > R−1 H + P −1 θ = H > R−1 H + P −1 θ ∗ + H > R−1 (y − H θ ∗ ) =⇒
θ̂ M AP θ ∗ + K (y − H θ ∗ )
= (70)
 −1
K := H > R−1 H + P −1 H > R−1 (71)
Giovanni Indiveri, Università del Salento. VERSIONE 7 21

dove in virtù delle proposizioni P1 e P2 del paragrafo 1.2 si è ipotizzato che la matrice
(H > R−1 H + P −1 ) sia invertibile. Si noti come la stima MAP data dalla equazione (70)
sia pari alla somma della stima a priori θ ∗ e di un termine correttivo proporzionale,
tramite una matrice di guadagno K, all’errore tra quanto previsto dal modello se θ
fosse esattamente θ ∗ (stima a priori) e quanto misurato y. Il vettore y − Hθ ∗ viene a
volte chiamato innovazione in quanto rappresenta il contenuto informativo innovativo
apportato dalle misure y rispetto quanto non fosse già previsto a priori dal modello
Hθ ∗ .
Dalle ipotesi di lavoro correnti circa la natura gaussiana delle incertezze di misura
 e dell’informazioni a priori su θ risulta che anche p(θ|ZN ) sia gaussiana. Indubbia-
mente l’argomento dell’esponenziale nell’equazione (67) è una forma quadratica in θ. Di
conseguenza, nelle citate ipotesi di gaussianità sull’informazioni a priori e sugli errori di
misura, la stima θ̂ M AP rappresenta proprio il valore atteso di θ condizionato alle misure
ZN , ovvero
θ̂ M AP = E [θ|ZN ] .
Sulla base di questa osservazione, è possibile calcolare anche la covarianza associata a
θ̂ M AP . In particolare, cosı̀ come nel caso dei minimi quadrati pesati il termine H > R−1 H
rappresenta sia l’Hessiano del funzionale di costo quadratico JW LS , sia l’inversa della
matrice di covarianza della stima θ̂ W LS , anche nel presente caso della stima MAP si può
dimostrare che l’Hessiano di JM AP dato da (H > R−1 H + P −1 ) rappresenti, nell’ipotesi
che le misure y e la stima a priori θ ∗ siano tra loro indipendenti, l’inversa della matrice
di covarianza della stima θ̂ M AP . Indicando con

L−1 := (H > R−1 H + P −1 ) (72)


> −1
K = LH R (73)

la dimostrazioni si può ottenere per calcolo diretto:


h > i
E[(θ − θ̂ M AP )(θ − θ̂ M AP )> ] = E (θ − θ ∗ − K (y − H θ ∗ )) 00 =
h i h i
= E ((θ − θ ∗ ) − KH(θ − θ ∗ ) − K) (00 )> = E ((I − KH)(θ − θ ∗ ) − K) (00 )> =
h i h i
= (I − KH)E (θ − θ ∗ )(θ − θ ∗ )> (I − KH)> + KE  > K >
= (I − KH) P (I − KH)> + K R K > (74)

dove il simbolo (00 ) indica un vettore analogo al precedente e dove si è utilizzata la


relazione y = Hθ +  (tra la prima le la seconda riga) e la indipendenza delle incertezze
di misura  dall’incertezza a priori (tra la seconda e la terza riga):
h i
E (θ − θ ∗ ) > = 0. (75)

Moltiplicando la equazione (72) per L da sinistra e per P da destra, con l’uso della
equazione (73) si ottiene che:

L−1 = H > R−1 H + P −1 =⇒


L L−1 P = L H > R−1 H P + L P −1 P =⇒
L = (I − KH) P (76)
Giovanni Indiveri, Università del Salento. VERSIONE 7 22

che sostituita nella equazione (74) implica

E[(θ − θ̂ M AP )(θ − θ̂ M AP )> ] = L (I − KH)> + K R K > =


= L − L H > K > + L H > R−1 R K > = L. (77)

In aggiunta alla già citata interpretazione geometrica in base alla quale l’inversa della
covarianza della stima MAP sia l’Hessiano (rispetto θ) del funzionale quadratico JM AP ,
ovvero che la significatività o l’affidabilità della stima MAP sia direttamente propor-
zionale alla ripidità del funzionale JM AP in un intorno del suo minimo, è interessante
analizzare il significato stocastico delle equazioni (72) e (77). Considerato che H > R−1 H
è l’inversa della covarianza della stima di θ associata alle misure y e che P −1 è l’in-
versa della covarianza della stima a priori θ ∗ , l’equazione (72) significa che, nell’ipotesi
fondamentale che le misure e la stima a priori siano indipendenti, l’operazione di misu-
ra migliora sempre (o meglio non peggiora mai) la incertezza sulla stima complessiva.
Come a dire che l’acquisizione di nuove (in quanto indipendenti dalla stima a priori)
misure, migliora sempre la stima MAP risultante anche se la loro incertezza fosse molto
grande. Si noti quindi che anche misure y indipendenti dalla stima a priori θ ∗ a cui fosse
associata innovazione nulla, ossia per le quali y − Hθ ∗ = 0 costituiscono una impor-
tante sorgente di informazione in quanto pur non modificando il valore di θ̂ M AP = θ ∗
contribuiscono a diminuirne la covarianza, ossia ne avvalorano l’affidabilità.
Infine una importante osservazione in merito alla stima MAP riguarda la identifica-
bilità di θ: alla luce delle proposizioni P1 e P2 del paragrafo 1.2, segue che se le matrici
R−1 e P −1 nell’equazione (71) sono definite positive la matrice (H > R−1 H + P −1 ) è
sempre invertibile qualunque sia il rango di H. Questo significa che la stima MAP è
ben posta anche quando (H > R−1 H) non è invertibile, ossia anche quando gli ingressi
che definiscono le colonne di H non sono persistentemente eccitanti. Dal punto di vista
del contenuto informativo delle misure y relative al modello y = Hθ questo importante
risultato non dovrebbe sorprendere: in sostanza significa che anche quando le misure y
non sono sufficienti a determinare θ, la stima MAP è ben posta perché può comunque
sfruttare l’informazione a priori data da θ ∗ . Nell’ipotesi estrema in cui H sia la matrice
nulla, il guadagno K nell’equazione (71) è comunque calcolabile come

K = P H > R−1 = 0

da cui θ̂ M AP = θ ∗ .

1.7 - DA COMPLETARE - Natura BLUE dello stimatore MAP


1.8 Stimatore a minimo errore quadratico medio (MEQM)
Come osservato nei paragrafi precedenti, la stima ai minimi quadrati per una quantità
deterministica può essere interpretata in termini di stima a massima verosimiglianza
nell’ipotesi di errori additivi gaussiani ed indipendenti, ma conserva anche una sua va-
lenza assoluta in termini di minimizzazione del funzionale quadratico JW LS . La stima a
minimo errore quadratico medio (o MMSE - minimum mean square error [5] nella lette-
ratura anglosassone ) rappresenta l’equivalente della stima LS per variabili stocastiche.
Sia, dunque, x una variabile stocastica e ZN l’insieme di N misure, allora lo stimatore
x̂M M SE è definito come
h i
x̂M M SE := arg min E (x̂ − x)> (x̂ − x) ZN (78)


Giovanni Indiveri, Università del Salento. VERSIONE 7 23

che ha soluzione Z
x̂M M SE = E [ x| ZN ] = x p(x|ZN )dx. (79)

La dimostrazione del risultato in equazione (79) segue per calcolo diretto imponendo
che il gradiente rispetto a x̂ dell’equazione (78) sia nullo, ossia:
h i
∇x̂ E (x̂ − x)> (x̂ − x) ZN = 2 (x̂ − E[x|ZN ]) = 0.

Si noti che il calcolo dell’integrale in equazione (79) richiede di conoscere esplicita-


mente la distribuzione condizionata p(x|ZN ) che in molti casi pratici potrebbe essere
sconosciuta.

1.8.1 Stimatore MMSE (o MEQM) per variabili gaussiane


Lo stimatore MMSE in equazione (79) può essere calcolato in forma chiusa nell’ipotesi
che i vettori x e z (vettore delle N misure) siano congiuntamente gaussiani. Si definisca
in particolare il vettore  
x
y= (80)
z
e si ipotizzi y ∼ N (ȳ, Pyy ) dove
   
E[x] x̄
ȳ = = (81)
E[z] z̄
e  
Pxx Pxz
Pyy = (82)
Pzx Pzz
essendo
Pxx := E[(x − x̄)(x − x̄)> ] (83)
e
Pxz := E[(x − x̄)(z − z̄)> ] = Pzx
>
. (84)
In queste ipotesi risulta:
−1
E[x|z] = x̂M M SE = x̄ + Pxz Pzz (z − z̄) (85)

e

Pxx|z = cov(x̂M M SE |z) = E[ (x − x̂M M SE )(x − x̂M M SE )> z] = Pxx −Pxz Pzz
−1
Pzx . (86)

La dimostrazione dei risultati in equazione (85) e (86) segue per calcolo diretto (BAR
SHALOM pag. 53).

1.9 Minimi quadrati (pesati) in forma ricorsiva.


La formulazione del metodo dei minimi quadrati appena esaminata è detta batch nella
letteratura inglese. Significa che l’algoritmo è strutturato in modo aggregato, ossia date
n misure di y la stima di θ ∈ Rm×1 è data dall’equazione (42); in presenza di una even-
tuale nuova misura, la (n + 1)esima, bisognerà definire un nuovo regressore H avente
una riga in più rispetto al precedente, e ricalcolare la stima in base alla (42). In altri
Giovanni Indiveri, Università del Salento. VERSIONE 7 24

termini, le n misure a disposizione che costituiscono l’informazione complessiva acquisita


vengono processate sempre in modo aggregato. Questa struttura presenta alcuni incon-
venienti sia computazionali che concettuali. Ad ogni nuova misura bisogna ricalcolare
l’inversa di H > R−1 H e non è immediatamente chiaro come le nuove misure influenzino
il valore di θ̂ W LS calcolato al passo precedente. Sarebbe dunque utile disporre di un
equivalente algoritmo in forma ricorsiva, strutturato cioè in modo che la stima di θ a
ciascun passo sia funzione di quella al passo precedente.
Si immagini di aver acquisito N misure y(1), y(2), . . . y(N ) e si indichi con yN il
vettore colonna yN := (y(1), y(2), . . . , y(N ))> . Il vettore dei parametri abbia dimensione
m ≤ N e si indichi con H il regressore relativo alle prime N misure, ossia
 
h11 h12 . . . h1m
 h21 h22 . . . h2m 
H= . ..  , (87)
 
..
 .. . ... . 
hN 1 hN 2 . . . hN m

indicando con h> un vettore riga di dimensione m, il regressore all’istante N +1, indicato
come HN +1 , è dato da  
H
HN +1 = . (88)
h>
Ipotizzando che ogni misura y(i) sia indipendente da tutte le altre, la matrice di cova-
rianza del vettore yN delle prime N misure sarebbe diagonale e pari ad

R = diag(σ12 , σ22 , . . . , σN
2
). (89)

Indicando con r la varianza della (N + 1)-esima misura il costo JW LS relativo alle N + 1


misure può essere scritto come
1
JW LS = (yN − H θ)> R−1 (yN − H θ) +
2
1 >  
+ y(N + 1) − h> θ r−1 y(N + 1) − h> θ . (90)
2
Per determinare il minimo di questo costo si impone la condizione necessaria ∇θ JW LS =
0 da cui si evince:
 
H > R−1 H + h r−1 h> θ = H > R−1 yN + h r−1 y(N + 1). (91)

Sommando al secondo membro della precedente equazione le quantità (a somma nulla)

+ H > R−1 H θ̂ N + h r−1 h> θ̂ N − H > R−1 H θ̂ N − h r−1 h> θ̂ N (92)

dove
θ̂ N := (H > R−1 H)−1 H > R−1 yN (93)
è la stima WLS (o a massima verosimiglianza ML, nelle ipotesi correnti) relativa al passo
N , la equazione (91) comporta:
   
H > R−1 H + h r−1 h> θ = H > R−1 H + h r−1 h> θ̂ N +
   
+h r−1 y(N + 1) − h> θ̂ N + H > R−1 yN − H θ̂ N . (94)
Giovanni Indiveri, Università del Salento. VERSIONE 7 25

Dalla equazione (93) segue che l’ultimo termine della equazione (94) sia identicamente
nullo (si ricordi il principio di ortogonalità prima discusso). Ne segue che la stima del
vettore dei parametri al passo N + 1 sia calcolabile come:
 
θ̂ N +1 = θ̂ N + KW LS (N + 1) y(N + 1) − h> θ̂ N (95)
 −1
KW LS (N + 1) := H > R−1 H + h r−1 h> h r−1 . (96)

Si noti che l’equazione (96) può risultare di scarsa utilità pratica in quanto richiede che
ad ogni passo sia calcolata una matrice inversa di dimensione m × m (m dimesnione del
vettore di parametri θ). Nel caso che m sia grande e che le misure vengano acquisite
ad alta frequenza, questo potrebbe richiedere un onere computazionale eccessivo. Un
possibile rimedio è ottenibile sfruttando il seguente Lemma.

Lemma dell’inversione matriciale


Date le matrici F, G, Q, W di dimensioni opportune, nell’ipotesi che tutte le inverse
necessarie esistano, vale la seguente relazione:
−1
(F + GQW )−1 = F −1 − F −1 G Q−1 + W F −1 G W F −1 (97)

che si può verificare per calcolo diretto.

Indicando con SN +1 la seguente matrice

SN +1 := H > R−1 H + h r−1 h> (98)

vale evidentemente
SN +1 = SN + h r−1 h> (99)
essendo ancora h> il vettore riga che compone l’ultima riga del regressore relativo a
N + 1 misure (vedi equazione (88)) ed r la varianza dell’ultima misura (la N + 1-esima).
Applicando il Lemma dell’inversione matriciale al caso: F = SN , G = h, Q = r−1 , W =
h> si ha:
 −1
−1 −1 −1 > −1 −1
SN +1 = S N − S N h r + h SN h h> S N
−1 1 −1 −1
= SN − S h h> SN dove (100)
ρN N
 
−1
ρN := r + h> SN h è uno scalare. (101)

Indicando quindi con


−1
VN +1 := SN +1 (102)
si ha il seguente algoritmo ricorsivo dei minimi quadrati pesati (o RLS per recursive
least squares nella letteratura anglo sassone):

ρN= r + h> VN h (103)


1  
VN +1 = VN − VN h h> VN (104)
ρN
KW LS (N + 1) = VN +1 h r−1 (105)
 
θ̂ N +1 = θ̂ N + KW LS (N + 1) y(N + 1) − h> θ̂ N (106)
Giovanni Indiveri, Università del Salento. VERSIONE 7 26

che va opportunamente inizializzato dopo aver acquisito almeno m misure. Si noti che
per costruzione VN +1 deve essere una matrice simmetrica e definita positiva. Indubbia-
mente da un punto di vista formale l’equazione ricorsiva (104) conserva la simmetria di
VN +1 da un passo al successivo, ma potrebbero insorgere difficoltà operative associate
alla sua implementazione numerica. Per limitare gli effetti di arrotondamenti e tron-
camenti numerici nella equazione (104) che potrebbero compromettere la simmetria e
la positività di VN +1 si può fattorizzare VN +1 e procedere al calcolo ricorsivo dei sin-
goli fattori che vengono poi utilizzati per ricomporre la VN +1 stessa. In alternativa, e
più semplicemente, successivamente al calcolo di VN +1 dall’equazione (104) si può for-
zatamente ripristinare la simmetria di VN +1 eventualmente persa per arrotondamenti
numerici imponendo
1 
VN +1 + VN>+1 7→ VN +1 .
2
Da ultimo si noti che VN +1 rappresenta la matrice di covarianza della stima θ̂ al
passo N + 1-esimo.

1.10 Minimi quadrati (pesati) a memoria finita


Tutte le formulazioni fin qui esaminate dell’algoritmo dei minimi quadrati tengono in
considerazione tutte le misure acquisite, se pure eventualmente pesandole con la varianza
dell’errore di misura. Quando la stima dei parametri è realizzata ricorsivamente in linea
può essere a volte utile dimenticare le misure più vecchie e dare maggior peso a quelle
più recenti per tentare di seguire eventuali lente variazioni dei parametri. Attribuire un
peso alle misure indipendente dall’istante temporale in cui sono state acquisite significa
conservare una memoria infinita delle misure del processo: se ad un certo punto della
evoluzione del sistema i parametri del modello dovessero avere lente variazioni a causa,
per esempio, di usura o variazioni ambientali non esplicitamente modellate, l’algoritmo
di stima con memoria illimitata avrebbe una inerzia a seguire l’evoluzione dei parametri
proporzionale al numero dei dati acquisiti, ossia alla durata complessiva del processo di
stima. Per ovviare a questa situazione è possibile modificare leggermente gli algoritmi fin
qui esaminati introducendo una dipendenza dal tempo del peso relativo di ogni misura.
Si parla allora di algoritmi a memoria finita. La tecnica più comune per attribuire
memoria finita alla stima θ̂ W LS consiste nel modificare la matrice dei pesi (38) come:

−1 ∗ −1 δij β N −i
Rij 7−→ Rij = : 0<β≤1 (107)
σy2 (i)

dove β è il coefficiente di oblio (forgetting factor in inglese) che attribuisce peso unitario
alla ultima misura acquisita (la N −esima) e peso esponenzialmente decrescente alle
misure precedenti. Si noti che la matrice diagonale dei pesi ∗R−1 relativa al caso di
memoria finita sia tempo variante e valga:
−1
β (∗RN
 
∗ −1 ) 0
R(N +1) = 2 ∈ R(N +1)×(N +1) (108)
0 1/σN +1

Che i pesi cosı̀ ottenuti siano esponenzialmente decrescenti può essere meglio visto
osservando che si può sempre pensare il coefficiente di oblio come

β = e−a : a ≥ 0
β N −i = e−(N −i)a .
Giovanni Indiveri, Università del Salento. VERSIONE 7 27

In questa ottica possiamo stimare che il numero di campioni m significativi nel realizzare
la stima a ciascun passo siano quelli corrispondenti alla costante di tempo dell’esponen-
ziale, ovvero:

β m := e−1
m log β = −1 e se β ≈ 1 sviluppando in serie di Taylor log β =⇒
log β ≈ β − 1 se β ≈ 1

1  m = 20 se β = 0.95
m ≈ =⇒ m = 50 se β = 0.98
1−β
m = 100 se β = 0.99

Si noti che qualora i parametri stimati non avessero sicuramente lente derive nel tempo,
la rigidità associata all’algoritmo classico con memoria infinita sarebbe una caratte-
ristica del tutto positiva essendo una manifestazione della sua robustezza e della sua
caratteristica tendenza a fondere tutte le informazioni acquisite. Come spesso accade,
la scelta di utilizzare stime a memoria finita o infinita dipende dunque dalla specifica
applicazione. Qualora si opti per una stima a memoria finita bisogna prestare partico-
lare cura alla scelta del coefficiente di oblio cercando un compromesso tra l’esigneza di
usare quanti più dati possibili per minimizzare l’effetto dell’errore di misura sulla qualità
della stima e l’esigenza di usare una quantità sufficientemente bassa di misure per non
irrigidire troppo l’algoritmo e permettere quindi un pronto inseguimento delle variazioni
parametriche.

1.10.1 Formulazione ricorsiva dei Minimi Quadrati Pesati a Memoria Fini-


ta.
Utilizzando la notazione introdotta nei paragrafi precedenti, l’uso della matrice diagonale
dei pesi ∗R−1 in equazione (107) implica che, in analagia a quanto riportato in equazione
(90), il costo ∗JW LS da minimizzare al passo N + 1-esimo sia:
 
∗ 1 > ∗ −1
JW LS (N + 1) = β (yN − H θ) RN (yN − H θ) +
2
1 >  
+ y(N + 1) − h> θ r−1 y(N + 1) − h> θ . (109)
2
Imponendo la condizione necessaria ∇ ∗JW LS = 0 con passaggi del tutto analoghi a
quelli del caso di memoria infinita, si ottiene
 
θ̂ N +1 = θ̂ N + ∗KW LS (N + 1) y(N + 1) − h> θ̂ N (110)
 −1
∗ −1
KW LS (N + 1) := β H > ∗RN H + h r−1 h> h r−1 . (111)

Indicando con
−1
SN +1 = β H > ∗ RN H + h r−1 h> (112)
vale ora
SN +1 = β SN + h r−1 h> . (113)
Giovanni Indiveri, Università del Salento. VERSIONE 7 28

Applicando nuovamente il Lemma dell’inversione matriciale con F = β SN , G = h, Q =


r−1 , W = h> si ha:
 −1
−1 −1 −1 −1 −1 > −1 −1 −1
SN +1 = β SN − β S N h r + h β S N h h> β −1 SN
 
1 −1 1 −1 > −1
= SN − S h h SN dove (114)
β ρN N
 
−1
ρN := β r + h> SN h è uno scalare. (115)

Indicando quindi con


−1
VN +1 := SN +1 (116)
si ha il seguente algoritmo ricorsivo dei minimi quadrati pesati a memoria finita:

ρN = β r + h> V N h (117)
 
1 1  >
VN +1 = VN − VN h h VN (118)
β ρN

KW LS (N + 1) = VN +1 h r−1 (119)
 
θ̂ N +1 = θ̂ N + ∗KW LS (N + 1) y(N + 1) − h> θ̂ N (120)

essendo

β ∈ (0, 1] coefficiente di oblio


r > 0 varianza dell’ultima misura (la N + 1-esima)
h> ultima (la N + 1-esima) riga del regressore.

A rigore l’inizializzazione di questo algoritmo può avvenire dall’istante N = m essendo m


il numero dei parametri. In particolare indicando con Hm il regressore relativo alle prime
m misure ym ed Rm −1 la relativa matrice diagonale dei pesi, nell’ipotesi che H > R−1 H
m m m
sia invertibile vale
 −1
> −1
VN = Hm Rm Hm (121)
θ̂ N = VN H > R−1 ym . (122)

Questa inizializzazione darebbe luogo, nel caso di memoria infinita β = 1, a risultati


identici a quelli degli algoritmi a minimi quadrati in forma aggregata. In alternativa si
può inizializzare la procedura con soluzioni del tipo
1
VN = Im×m . (123)

Se gli ingressi al sistema sono eccitanti anche questa inizializzazione genera una stima
convergente, dopo un transitorio, al valore che si sarebbe ottenuto con analoghi algoritmi
in forma aggregata.

1.11 Regressione Lineare Ricorsiva.


Gli algoritmi ricorsivi, a memoria finita ed infinita, di stima parametrica presentati nei
paragrafi precedenti (1.9, 1.10.1) si riferiscono al caso in cui le singole misure scalari
Giovanni Indiveri, Università del Salento. VERSIONE 7 29

y(i) siano tra loro indipendenti e vengono integrate una per volta. L’indipendenza delle
singole misure implica che la matrice di covarianza R sia diagonale come in equazione
(89). In alcune applicazioni può accadere che le singole misure scalari y(i) non siano
tutte indipendenti tra loro, ma possano essere raccolte in vettori tra loro indipendenti
ȳl le cui matrici di covarianza non siano diagonali. Indicando con l il rumore additivo
di ȳl e con yN il vettore di dimensione N contenente le prime N misure y(i) si ipotizza
che
t
X
dim (ȳh ) = N : yN = (ȳ1> , ȳ2> , . . . , ȳt> )> (124)
h=1
E[l ] = 0 ∀ l = 1, 2, . . . , t (125)
E[l >
l ] = R̄l non necessariamente diagonale (126)
E[k >j ]=0 ∀ k 6= j. (127)

La matrice di covarianza R relative alle prime N misure sarà dunque diagonale a blocchi
avendo la struttura seguente:
 
R̄1 0 . . . . . .
 0 R̄2 0 . . . 
R= .  ∈ RN ×N . (128)
 
.. . .
 .. . . ... 
0 0 . . . R̄t
Gli algoritmi di identificazione parametrica ricavati nell’ipotesi di singole misure scalari
tra loro indipendenti possono essere generalizzati al presente contesto dove le quantità
indipendenti sono i vettori ȳk . La formulazione del problema, infatti, è analoga. Con
riferimento al paragrafo (1.9), si indichino con H ed Hnew rispettivamente i regressori
ai passi t e t + 1:  
H
Hnew = ∈ RNnew ×m (129)
H̄t+1
dove H ∈ RN ×m è il regressore relativo ad yN ed H̄t+1 ∈ Rnt+1 ×m è il regressore relativo
al vettore di misura ȳt+1 ∈ Rnt+1 ×1 ossia tale che Nnew = N + nt+1 e

ȳt+1 = H̄t+1 θ + t+1 (130)

dove

E[t+1 ] = 0 (131)
E[t+1 >
t+1 ] = R̄t+1 (132)
>
E[j t+1 ] = 0 ∀ j < t + 1. (133)

In analogia con il caso dei minimi quadrati pesati, il funzionale di costo da minimizzare
per ottenere la stima di massima verosimiglianza (se j ∼ N (0, R̄j ) ∀ j) è dato da:
1
JLR = (yN − H θ)> R−1 (yN − H θ) +
2
1 > −1 
+ ȳt+1 − H̄t+1 θ R̄t+1 ȳt+1 − H̄t+1 θ (134)
2
dove R è la matrice di covarianza delle prime N misure scalari data in equazione (128).
Si noti che le lettere LR nella definizione del costo JLR in equazione (134) si riferiscono
Giovanni Indiveri, Università del Salento. VERSIONE 7 30

al termine Linear Regression (o regressione lineare, in Italiano) con cui si denota in


letteratura [1] questa estensione dei minimi quadrati. Procedendo al calcolo del gradiente
e dell’hessiano di JLR rispetto θ in analogia a quanto sviluppato nel caso dei minimi
quadrati pesati si ottiene:
 
−1 −1
∇θ JLR = H > R−1 H + H̄t+1
>
R̄t+1 H̄t+1 θ − H > R−1 yN − H̄t+1
>
R̄t+1 ȳt+1 (135)
 
−1
He [JLR ] = H > R−1 H + H̄t+1
>
R̄t+1 H̄t+1 . (136)

Indicando ora con θ̂ old la stima di θ al passo t − 1, ossia quella ottenuta filtrando yN e
tale per cui  
H > R−1 yN − H θ̂ old = 0, (137)

imponendo che il gradiente ∇θ JLR in equazione (135) sia nullo si ha per la nuova stima
θ̂ new di θ:
 
θ̂ new = θ̂ old + KLR (t + 1) ȳt+1 − H̄t+1 θ̂ old (138)
 −1
−1 −1
KLR (t + 1) = H > R−1 H + H̄t+1 >
R̄t+1 H̄t+1 >
H̄t+1 R̄t+1 (139)
   −1
cov θ̂ new = (He [JLR ])−1 = H > R−1 H + H̄t+1 > −1
R̄t+1 H̄t+1 . (140)

Come per il caso dei minimi quadrati (pesati) ricorsivi, anche in questo caso l’implemen-
tazione diretta dell’equazione (139) per il calcolo in linea del guadagno KLR del filtro
potrebbe essere numericamente impegnativa in quanto implica il calcolo ad ogni passo
di una nuova matrice di dimensione m × m. Per ovviare a questa difficoltà è possibile
ricavare un’espressione ricorsiva per il calcolare il guadagno KLR sfruttando il Lemma
dell’inversione matriciale riportato nel paragrafo 1.9. In particolare, con riferimento al
citato enunciato del Lemma dell’inversione matriciale, si ponga G = H̄t+1 > , Q = R̄−1 ,
> −1
W = H̄t+1 e F = Sold = H R H essendo
 
−1
Snew = H > R−1 H + H̄t+1 >
R̄t+1 H̄t+1 . (141)

Dall’applicazione del Lemma segue che:


> −1
(Sold + H̄t+1 R̄t+1 H̄t+1 )−1 = Snew
−1
=
 −1
−1 −1 > −1 > −1
= Sold − Sold H̄t+1 R̄t+1 + H̄t+1 Sold H̄t+1 H̄t+1 Sold (142)

e introducendo infine le variabili


−1 −1
Vold := Sold e Vnew := Snew (143)

si ottiene la ricorsione
 −1
> >
Vnew = Vold − Vold H̄t+1 R̄t+1 + H̄t+1 Vold H̄t+1 H̄t+1 Vold (144)

essendo rispettivamente Vold e Vnew le covarianze di θ̂ al passo t (vecchio) e t + 1 (nuovo)


cosı̀ come Sold ed Snew sono le matrici hessiane del costo JLR al passo t (vecchio) e t + 1
(nuovo). Si noti che per l’implementazione della equazione (144) è sufficiente calcolare
Giovanni Indiveri, Università del Salento. VERSIONE 7 31

l’inversa di una matrice nt+1 × nt+1 essendo nt+1 la dimensione dell’ultima misura ȳt+1 .
Sulla base del risultato in equazione (144) il filtro può essere formulato come segue:
 −1
> >
Vnew = Vold − Vold H̄t+1 R̄t+1 + H̄t+1 Vold H̄t+1 H̄t+1 Vold (145)
> −1
KLR (t + 1) = Vnew H̄t+1 R̄t+1 (146)
 
cov θ̂ new = Vnew (147)
 
θ̂ new = θ̂ old + KLR (t + 1) ȳt+1 − H̄t+1 θ̂ old (148)

avendo inizializzato Vold al valore della covarianza di una prima stima di θ ottenuta per
regressione lineare sui primi dati utili a disposizione.
Si noti che l’equazione (146) per il calcolo del guadagno KLR richiede, a differenza
−1
della ricorsione (145) per la covarianza della stima, che sia nota l’inversa R̄t+1 della
matrice di covarianza R̄t+1 delle misure al passo (t + 1). Nel caso in cui R̄t+1 sia
mal condizionata, l’implementazione dell’equazione (146) potrebbe comportare difficoltà
numeriche. Per ovviare a questo inconveniente, è possibile derivare una espressione
alternativa per KLR in cui compaia solo R̄t+1 e non la sua inversa. In particolare, tale
espressione è descritta in [1] dove viene derivata sulla base della definizione di KLR e
del Lemma di Inversione Matriciale ottenendo:
 −1
> >
KLR (t + 1) = Vold H̄t+1 R̄t+1 + H̄t+1 Vold H̄t+1 . (149)

2 Stima ai Minimi Quadrati per l’Osservazione dello Stato


La tecnica di stima parametrica ai minimi quadrati e le sue varianti esaminate nei
precedenti paragrafi possono essere applicate al problema della stima dello stato in
sistemi lineari. In particolare, si consideri un sistema lineare tempo invariante (LTI)
descritto dal seguente modello:

x(k + 1) = A x(k) + B u(k) + ω(k) (150)


y(k) = C x(k) + D u(k) + ε(k) (151)

essendo x ∈ Rn×1 il vettore di stato, A ∈ Rn×n e B ∈ Rn×m le matrici di stato e di


ingresso, rispettivamente, u ∈ Rm×1 e y ∈ Rq×1 i vettori di ingresso e uscita, C ∈ Rq×n
e D ∈ Rq×m le matrici di uscita e, infine, ω ∈ Rn×1 e ε ∈ Rq×1 i disturbi sullo stato e
l’uscita ipotizzati come variabili distribuite gaussianamente con medie nulle

E [ω(k)] = 0 (152)
E [ε(k)] = 0 (153)

e covarianze
h i
cov(ω(k)) = E ω(k) ω(k)> = Q(k) (154)
h i
cov(ε(k)) = E ε(k) ε(k)> = R(k). (155)

Inoltre, i rumori ω(k) e ε(k) sono ipotizzati indipendenti, ossia


h i
E ε(k) ω(k)> = 0q×n (156)
Giovanni Indiveri, Università del Salento. VERSIONE 7 32

e h i h i
E ω(j) ω(i)> = 0n×n , E ε(k) ε(l)> = 0q×q ∀ i 6= j, k 6= l. (157)

Per calcolo diretto, avviando la dinamica dello stato al passo 1 nel valore x(1), la
soluzione esplicita delle equazioni (150 - 151) risulta essere ∀ k ≥ 1:
k−1
X k−1
X
k−1 k−1−l
x(k) = A x(1) + A Bu(l) + Ak−1−j ω(j) (158)
l=1 j=1
k−1
X
y(k) = CAk−1 x(1) + CAk−1−l Bu(l) + Du(k) + δ(k) (159)
l=1
k−1
X
δ(k) := CAk−1−j ω(j) + ε(k) (160)
j=1

dove le sommatorie corrispondenti ad un estremo superiore minore di quello inferiore (ad


esempio per k = 1) sono da considerarsi identicamente nulle. A tal proposito si noti che
l’equazione (158) valutata per k = 1 restituisca, correttamente, l’identità x(1) = x(1)
che è la condizione iniziale di evoluzione dello stato. Indubbiamente il rumore di stato
ω(i) interessa l’aggiornamento dello stato e non il suo valore iniziale.
Il problema dell’osservazione dello stato consiste nel calcolare una stima dello stato ad
un passo N −esimo a partire dalla conoscenza dell’uscita y(j), dell’ingresso u(j) per ogni
1 ≤ j ≤ N e delle matrici A, B, C e D. L’equazione (158) suggerisce di adottare come
stimatore di x(N ) il suo valore atteso teoricamente calcolabile (grazie alla equazione
152) come
N
X −1
N −1
E[x(N )] = A x(1) + AN −1−l Bu(l). (161)
l=1

In pratica, però, l’equazione (161) non è utilizzabile per la mancata conoscenza della
condizione iniziale dello stato, ovvero di x(1). Indubbiamente, come noto nell’ambito
della Teoria dei Sistemi, il problema della stima dello stato per il modello in esame cor-
risponde al problema di calcolare il valore iniziale dello stato. Al fine di calcolare una
stima del valore iniziale dello stato x(1) può essere sfruttata l’equazione (159) ricondu-
cendo il problema a quello di stima parametrica essendo x(1) un vettore costante. In
particolare, con riferimento all’equazione (159), si noti che
k−1
X
yf (k) := CAk−1−l Bu(l) + Du(k) (162)
l=1

è la risposta forzata dell’uscita che è nota essendo noti, per ipotesi, tutti i termini nel
membro di destra. L’equazione (159) può dunque essere riformulata come

ȳ(k) = CAk−1 x(1) + δ(k) (163)

essendo ȳ(k) una pseudo-misura (segnale noto) definita come


k−1
X
ȳ(k) := y(k) − yf (k) = y(k) − CAk−1−l Bu(l) − Du(k). (164)
l=1
Giovanni Indiveri, Università del Salento. VERSIONE 7 33

Il modello descritto dall’equazione (163) è un modello lineare nel parametro incognito


x(1) del tutto analogo al modello in equazione (29) per il quale sono stati derivati i
metodi ai minimi quadrati (aggregati, ricorsivi, a memoria finita e non). L’equazione
(163) relativamente alle prime N+1 misure risulta avere la seguente struttura:
     
ȳ(1) C δ(1)

 ȳ(2)   CA 
  

 δ(2) 

 .. 
=
 .. 
x(1) +
 .. 
(165)
 .   .   . 
 ȳ(N )   CAN −1 
     
 δ(N ) 
ȳ(N + 1) CAN δ(N + 1)

da cui si evince come la condizione di osservabilità dello stato (massimo rango della ma-
trice di osseravilità) corrisponda esattamente alla condizione di identificabilità espressa
dall’equazione (45). Inoltre, il regressore nell’equazione (165) può essere interpretato
come in equazione (129) (o (88) nel caso di misure scalari) ovvero come costituito da
un termine H relativo alle prime N (pseudo-)misure ȳ(1), ȳ(2), . . . , ȳ(N ) ed un ter-
mine H̄t+1 7→ CAN (h> 7→ CAN nel caso di misure scalari) corrispondente all’ultima
(pseudo-)misura ȳ(N + 1). Sulla base di questa osservazione, il parametro incognito
x(1) può essere stimato con l’algoritmo della regressione lineare ricorsiva (LR), ovvero
il WLS ricorsivo nel caso di misure scalari. A tal proposito si noti che in virtù della
natura gaussiana di ε e ω, anche δ è un disturbo gaussiano a media nulla. Ne segue che
la stima LR (o WLS) di x(1) corrisponderà alla stima a massima verosimiglianza ML
purché i pesi della soluzione LR (o WLS) siano scelti come l’inverso della covarianza di
δ(k). Dalla definizione di δ in equazione (160) segue che:

E [δ(j)] = 0 ∀ j (166)

h i
cov(δ(N + 1)) = cov(ȳ(N + 1)) = E δ(N + 1)δ(N + 1)> =
  !
N N
X X N −l >
= E  CAN −j ω(j) + ε(N + 1) ω(l)> A> C + ε(N + 1)>  =
j=1 l=1
N
X N −j
= CAN −j Q(j) A> C > + R(N + 1). (167)
j=1

L’equazione (167) può essere implementata in forma ricorsiva come segue:

γ(1) = 0n×n (168)


>
r(k) = cov(δ(k)) = C γ(k) C + R(k) (169)
>
γ(k + 1) = A γ(k) A + Q(k) ∀ k > 0. (170)

Applicando ora l’algoritmo della regressione lineare ricorsiva (paragrafo 1.11) alla
stima di x(1) si ottiene quanto segue:

x̂(1|N + 1) = x̂(1|N ) + KLR (N + 1) ȳ(N + 1) − CAN x̂(1|N )



(171)

dove si è indicato con x̂(j|k) la stima del vettore di stato al passo j avendo integrato
tutte le misure dal passo 1 al passo k.
Giovanni Indiveri, Università del Salento. VERSIONE 7 34

L’equazione (171) permette di calcolare, in forma ricorsiva, la stima dello stato


iniziale x(1) nell’ipotesi che il regressore in equazione (165) abbia rango pieno (condizione
di completa osservabilità del modello di stato). La disponibilità di una stima x̂(1|k) dello
stato iniziale al passo k permetterebbe di calcolare, quindi, una stima dello stato x̂(k|k)
per integrazione dell’equazione dinamica del modello di stato (150). Ovvero utilizzando
x̂(1|k) per x(1) nell’equazione (158) si otterrebbe
 
k−1
X k−1
X
x̂(k|k) = E Ak−1 x̂(1|k) + Ak−1−l Bu(l) + Ak−1−j ω(j) =
l=1 j=1
k−1
X
= Ak−1 x̂(1|k) + Ak−1−l Bu(l). (172)
l=1

L’errore di stima x̃(k) associato alla soluzione (172) è dato da:


k−1
X
x̃(k) = x(k) − x̂(k|k) = Ak−1 (x(1) − x̂(1|k)) + Ak−1−j ω(j) (173)
j=1

avente valor atteso


E[x̃(k)] = E[x(k)] − E[x̂(k|k)] = Ak−1 (x(1) − x̂(1|k)) . (174)
Segue che la matrice di covarianza L associata ad x̃(k) sia
h i k−1
>
X k−1−j
L = E (x̃(k) − E[x̃(k)]) (x̃(k) − E[x̃(k)]) = Ak−1−j Q(j) A> . (175)
j=1

Si noti che tale covarianza tende a divergere in presenza di autovalori di A maggiori di


1 in modulo. Questa situazione non deve stupire poiché corrisponde semplicemente a
calcolare lo stato per integrazione in avanti dell’equazione dinamica (150). Indubbia-
mente anche nel caso limite di perfetta conoscenza della condizione iniziale x(1) (ovvero
x̂(1|k) = x(1)), la presenza del segnale stocastico ω(·) nell’equazione di stato (150) im-
plica una ineluttabile incertezza (eventualmente crescente nel tempo ed asintoticamente
divergente) associata all’integrazione dell’equazione di stato che, nelle ipotesi di lavoro
correnti, è soggetta ad incertezza.
Da un punto di vista qualitativo, la situazione appena descritta può essere inter-
pretata notando come tutta l’informazione disponibile (le misure e l’equazione di stato)
venga usata per determinare x(1) e non il generico x(k). Dunque per quanto precisa-
mente si stimi x(1), la sua conoscenza (eventualmente anche perfetta) non è sufficiente
a ridurre l’intrinseca incertezza nel calcolo di x(k) (per integrazione in avanti) dovuta
alla presenza del rumore di stato ω(k).
Una alternativa al problema della stima dello stato al passo k è data dall’implemen-
tazione di una soluzione di tipo MAP ricorsiva che integri, ad ogni passo, la misura
e la predizione ad un passo derivante dal’equazione di stato. Questo è l’approccio del
celebrato filtro di Kalman per l’osservazione dello stato.

2.1 Il filtro di Kalman


Si consideri il modello di stato e di uscita dato dalle equazioni (150, 151) con le relative
ipotesi e condizioni (152 - 155) sui disturbi ε(·) e ω(·). Supponiamo quindi che al passo k
Giovanni Indiveri, Università del Salento. VERSIONE 7 35

sia nota la stima x̂(k|k), il cui errore di stima ha valor atteso nullo (i.e. E[x(k)−x̂(k|k)] =
0) e covarianza P (k|k), avendo utilizzato la solita notazione (j|k) indicante l’argomento
della quantità in oggetto al passo j avendo integrato tutte le misure dal passo 1 al passo
k. La conoscenza di x̂(k|k) permette di calcolare la predizione della stima al passo k + 1
attraverso l’equazione di stato (150), ovvero:

x̂(k + 1|k) = E [A x̂(k|k) + B u(k) + ω(k)]


= A x̂(k|k) + B u(k). (176)

L’errore associato a questa predizione dello stato è dato da

x̃(k + 1|k) = x(k + 1) − x̂(k + 1|k) =


= A x(k) + B u(k) + ω(k) − A x̂(k|k) − B u(k) =
= A (x(k) − x̂(k|k)) + ω(k) =
= A x̃(k|k) + ω(k). (177)

Il valore atteso dell’errore di predizione ad un passo è nullo, infatti:

E[x̃(k + 1|k)] = A E[x̃(k|k)] + E[ω(k)] = 0 (178)

essendo nulli entrambi gli addendi nel membro di destra. La covarianza della predizione
dello stato ad un passo vale quindi
h i
P (k + 1|k) = E (x̃(k + 1|k) − E[x̃(k + 1|k)]) (x̃(k + 1|k) − E[x̃(k + 1|k)])> =
h i
= E x̃(k + 1|k) x̃(k + 1|k)> =
h i
= E (A x̃(k|k) + ω(k)) (A x̃(k|k) + ω(k))> =
= A P (k|k) A> + Q(k) (179)

avendo sfruttato l’indipendenza di ω da x̃.


Nelle ipotesi correnti sulla normalità ed indipendenza di ε(k) e ω(k) e considerata
la linearità dell’equazione di stato, segue che x(k + 1) abbia una distribuzione di pro-
babilità (a priori) gaussiana con valor medio x̂(k + 1|k) e covarianza P (k + 1|k) dati
rispettivamente dalle equazioni (176) e (179). Quando al passo k + 1 viene acquisita la
misura y(k + 1) con valor atteso pari a C x(k + 1) + D u(k + 1) e covarianza R(k + 1)
(dall’equazione (151)), si potrà calcolare la stima MAP (paragrafo 1.6) al passo k + 1
come

x̂(k + 1|k + 1) = arg min JK (k + 1) (180)


x
1 
JK (k + 1) = (x − x̂(k + 1|k))> P (k + 1|k)−1 (x − x̂(k + 1|k)) +
2
1 
+ e(k + 1)> R(k + 1)−1 e(k + 1) (181)
2
e(k + 1) = y(k + 1) − Cx − Du(k + 1) (182)

dove, per non appesantire la notazione, si è posto x = x(k + 1). Come già osservato
nel paragrafo (1.6), il criterio di stima espresso dalle equazioni (180 - 182) corrisponde a
quello della massima verosimiglianza nelle ipotesi correnti di normalità ed indipendenza
Giovanni Indiveri, Università del Salento. VERSIONE 7 36

delle incertezze associate alle equazioni di stato ed uscita. La stima MAP permette di
integrare in forma ottima due sorgenti di informazione indipendenti. L’ottimalità del
criterio è legata alla equivalenza con la massima verosimiglianza nel caso di disturbi
normali.
Al fine di calcolare la stima di cui in equazione (180) si cercano i valori di x che
annullino il gradiente del costo in equazione (181), ovvero

∇x JK (k + 1) = 0 =⇒
−1
P (k + 1|k) (x − x̂(k + 1|k)) − C > R(k + 1)−1 ỹ(k + 1) = 0 =⇒
−1
P (k + 1|k) (x − x̂(k + 1|k)) + (183)
> −1
−C R(k + 1) (y(k + 1) − Cx − Du(k + 1)) =
−1
P (k + 1|k) (x − x̂(k + 1|k)) +
−C R(k + 1)−1 (y(k + 1) − Cx − Du(k + 1) + C x̂(k + 1|k) − C x̂(k + 1|k)) =
>
 
P (k + 1|k)−1 + C > R(k + 1)−1 C (x − x̂(k + 1|k)) +
−C > R(k + 1)−1 (y(k + 1) − Du(k + 1) − C x̂(k + 1|k)) =
 
P (k + 1|k)−1 + C > R(k + 1)−1 C (x − x̂(k + 1|k)) − C > R(k + 1)−1 ỹ(k + 1) = 0

avendo indicato con ỹ l’errore tra la misura y e la sua stima ŷ, ovvero:

ỹ(k + 1) = y(k + 1) − ŷ(k + 1) (184)


ŷ(k + 1) = C x̂(k + 1|k) + Du(k + 1). (185)

La derivazione dell’equazione (183) rivela che l’hessiano di JK al passo k + 1 è


 
He [JK (k + 1)] = P (k + 1|k)−1 + C > R(k + 1)−1 C (186)

che corrisponde all’inversa della matrice di covarianza di x̂(k + 1|k + 1), ovvero
 −1
P (k + 1|k + 1) = P (k + 1|k)−1 + C > R(k + 1)−1 C = (187)
 −1
= P (k + 1|k) − P (k + 1|k)C > R(k + 1) + CP (k + 1|k)C > CP (k + 1|k) (188)

dove si è applicato il Lemma dell’inversione matriciale (1.9) al membro di destra in


equazione (187) ottenendo l’espressione in equazione (188) per l’aggiornamento della
covarianza della stima. Risolvendo l’equazione (183) per x si ottiene:
 
x̂(k + 1|k + 1) = x̂(k + 1|k) + K y(k + 1) − C x̂(k + 1|k) − Du(k + 1) (189)
 −1
K = P (k + 1|k)−1 + C > R(k + 1)−1 C C > R(k + 1)−1 =
= P (k + 1|k + 1) C > R(k + 1)−1 . (190)

che inseime alle (176), (179) e (187 - 188) rappresentano le equazioni del filtro di Kalman.
Giovanni Indiveri, Università del Salento. VERSIONE 7 37

Dalle equazioni (176) e (189) (valutata al passo k piuttosto che k + 1) segue che
l’errore di stima (predizione ad un passo) x̃(k+1) := x(k+1)−x̂(k+1|k) ha un’evoluzione

x̃(k + 1) = x(k + 1) − x̂(k + 1|k) = Ax(k) + Bu(k) + ω(k) − Ax̂(k|k) − Bu(k) =


= Ax(k) + ω(k) − Ax̂(k|k − 1) − AK (y(k) − C x̂(k|k − 1) − Du(k)) =
= Ax̃(k) + ω(k) − AK (Cx(k) + Du(k) + ε(k) − C x̂(k|k − 1) − Du(k)) =
= Ax̃(k) + ω(k) − (AK) (C x̃(k) + ε(k)) =
 
= A − (AK)C x̃(k) + ω(k) − AK ε(k) (191)

che nelle ipotesi in equazioni (152 - 153) secondo cui ω(k) e ε(k) siano a media nulla
implica che  
E[x̃(k + 1)] = A − (AK)C E[x̃(k)]. (192)

L’equazione (192) descrivere la dinamica dell’errore di predizione ad un passo del filtro


di Kalman: la stabilità della dinamica dell’errore di predizione è dunque univocamen-
te determinata dalla struttura della matrice tempo variante (A − (AK)C): ulteriori
considerazioni sulla stabilità della matrice (A − (AK)C) saranno descritte nel seguito.
Si noti che molto spesso la matrice di guadagno K del filtro di Kalman in equazione
(190) può essere più efficientemente calcolata sfruttando l’equazione (188) per il termine
P (k +1|k +1) invece della (187) in quanto le matrici da invertire nelle espressioni (187) e
(188) hanno dimensioni rispettivamente di n × n e q × q essendo in generale q < n, ossia
la dimensione del vettore delle uscite è inferiore alla dimensione del vettore di stato. Si
noti che il filtro di Kalman è un sistema lineare tempo variante pur essendo il modello
di stato (A, B, C, D) tempo invariante. Inoltre, si noti che la derivazione di tutte le
equazioni del filtro sarebbe stata del tutto analoga anche nel caso di modello di stato
tempo variante, ossia assumendo che le matrici A, B, C e D fossero state dipendenti
dal passo k. Indubbiamente, in questo caso basterebbe indicare in tutte le equazioni
descritte la dipendenza di A, B, C e D dallo specifico passo.
Un’altra osservazione importante circa l’espressione (190) per il guadagno di Kal-
man è la sua dipendenza dal termine R(k + 1)−1 : nelle ipotesi avanzate circa i rumori di
processo e di misura, la matrice R(k) rappresenta la covarianza del rumore di misura ε
(155). In assenza di rumore di misura R(k) dovrebbe essere la matrice nulla e dunque la
sua inversa non sarebbe definita. Sebbene l’ipotesi di totale assenza di rumore di misura
sia poco plausibile nella pratica, si possono presentare situazioni dove alcune compo-
nenti (se non tutte) del vettore di misura possono essere modellate come perfettamente
note. In questo caso R(k) sarebbe semi-definita positiva invece che definita positiva e,
comunque, non invertibile. In questo caso, la non invertibilità di R(k + 1) inciderebbe
anche sull’equazione (187) per il calcolo di P (k + 1|k + 1). Questo è un secondo motivo
(in aggiunta all’osservazione precedente sulle dimensioni delle matrici da invertire) per
preferire l’espressione (188) alla (187): indubbiamente la eventuale non invertibilità di
R non pregiudica, in generale, il calcolo di P (k + 1|k + 1) in equazione (188) poiché il
termine CP (k + 1|k)C > che si somma ad R è definito positivo (a meno di situazioni del
tutto patologiche quali avere C oppure A e Q nulle). Tornando dunque all’espressione
(190) per il guadagno di Kalman e alla sua dipendenza da R(k + 1)−1 , si noti che sosti-
tuendo a P (k + 1|k + 1) in equazione (190) la sua espressione (188) si può derivare una
Giovanni Indiveri, Università del Salento. VERSIONE 7 38

relazione alternativa per K che risulta indipendente dall’inversa di R. In particolare:



> −1
K = P (k + 1|k + 1)C R(k + 1) = P (k + 1|k) In×n +
 −1 
> >
−C R(k + 1) + CP (k + 1|k)C CP (k + 1|k) C > R(k + 1)−1 =

= P (k + 1|k) C > R(k + 1)−1 +
 −1 
> > > −1
− C R(k + 1) + CP (k + 1|k)C CP (k + 1|k)C R(k + 1) =
  −1
= P (k + 1|k) C > R(k + 1)−1 − C > R(k + 1) + CP (k + 1|k)C >
n  o
> −1
CP (k + 1|k)C + R(k + 1) R(k + 1) − Iq×q =
 −1
= P (k + 1|k) C > CP (k + 1|k)C > + R(k + 1) . (193)

Come anticipato, l’equazione (193) per il guadagno K non dipende da R(k + 1)−1 né
direttamente né indirettamente.

2.2 Evoluzione di P (k + 1|k): l’equazione di Riccati


Le equazioni (187 - 188) valutate all’istante k implicano
 −1
P (k|k) = P (k|k − 1) − P (k|k − 1)C > R(k) + CP (k|k − 1)C > CP (k|k − 1) (194)

che sostituita nell’equazione (179) comporta

P (k + 1|k) = A P (k|k − 1) A> +


 −1
−A P (k|k − 1)C > R(k) + CP (k|k − 1)C > CP (k|k − 1) A> + Q(k). (195)

L’equazione (195) è una equazione ricorsiva matriciale nota come equazione di Riccati a
tempo discreto (in inglese DRE, Discrete Riccati Equation). Si tratta di una equazione
ricorsiva e non lineare nell’incognita matriciale P . Si noti, però, che tale equazione non
dipende dai dati y e dunque in linea di principio può essere risolta a priori anche prima
(ossia off-line) del processo di misura e di stima.
Sotto opportune ipotesi sulla struttura del modello di stato in esame si può dimo-
strare che l’equazione matriciale ricorsiva di Riccati (195) tende ad una soluzione finita
e stazionaria. Questo risultato è di fondamentale importanza perché rivela che eventual-
mente anche il guadagno K del filtro di Kalman tende asintoticamente ad una costante.
In particolare si consideri il sistema lineare tempo invariante

x(k + 1) = A x(k) + B u(k) + G ω(k) (196)


y(k) = C x(k) + D u(k) + ε(k) (197)
h i
E ω(j) ω(k)> = Q δjk (198)
h i
E ε(j) ε(k)> = R δjk (199)
G = G1 G>
1 (200)
Giovanni Indiveri, Università del Salento. VERSIONE 7 39

a cui corrisponde l’equazione di Riccati

P (k + 1|k) = A P (k|k − 1) A> +


 −1
−A P (k|k − 1)C > R + CP (k|k − 1)C > CP (k|k − 1) A> + GQG> . (201)

Vale il seguente fondamentale risultato (pag. 77 [6]):

Se

1) A è stabile, ovvero se tutti i suoi autovalori hanno norma minore di 1

oppure se

2) la coppia (A, C) è completamente rilevabile1 e contestualmente la coppia (A, GG1 )


è completamente stabilizzabile2 , pur non essendo eventualmente A stabile,

allora vale che:


lim P (k + 1|k) = P̄ (202)
k→∞

essendo P̄ finita ed indipendente dall’inizializzazione P (1|0) di (201) con P̄ soluzione


dell’equazione algebrica di Riccati (DARE, Discrete Algebraic Riccati Equation):
 −1
> > >
P̄ = A P̄ A − A P̄ C R + C P̄ C C P̄ A> + GQG> . (203)

Inoltre, il guadagno di Kalman K tende asintoticamente al valore K̄


 −1
lim K = K̄ = P̄ C > C P̄ C > + R (204)
k→∞

tale che il valore asintotico della matrice (A − (AK)C) in equazione (192)



A − (AK̄)C (205)

è stabile, ovvero ha tutti gli autovalori di norma minore di 1 (stabilità del filtro). La
dimostrazione di questo importante risultato ed ulteriori elementi di analisi delle pro-
prietà asintotiche dell’equazione di Riccati e del filtro di Kalman (ivi inclusa l’analisi
dell’unicità della soluzione dell’equazione DARE (203)) sono riportate in [6].

2.3 Equazioni del filtro di Kalman


Alla luce della teoria esposta nei paragrafi precedenti possiamo riassumere le equazioni
del filtro di Kalman per la stima dello stato. Sia dato il sistema lineare tempo invariante
a tempo discreto descritto dalle equazioni (150 - 157). Il filtro di Kalman è allora definito
1
Rilevabile (detectable in Inglese) significa che la eventuale parte non osservabile è stabile
2
Stabilizzabile significa che la eventuale parte non raggiungibile è stabile
Giovanni Indiveri, Università del Salento. VERSIONE 7 40

dalle seguenti relazioni ricorsive

x̂(k + 1|k) = A x̂(k|k) + B u(k) (206)


>
P (k + 1|k) = A P (k|k) A + Q(k) (207)
 −1
P (k + 1|k + 1) = P (k + 1|k)−1 + C > R(k + 1)−1 C = (208)
 −1
= P (k + 1|k) − P (k + 1|k)C > R(k + 1) + CP (k + 1|k)C > CP (k + 1|k) (209)
Kk+1 = P (k + 1|k + 1)C > R(k + 1)−1 = (210)
 −1
= P (k + 1|k) C > CP (k + 1|k)C > + R(k + 1) (211)
 
x̂(k + 1|k + 1) = x̂(k + 1|k) + Kk+1 y(k + 1) − C x̂(k + 1|k) − Du(k + 1) (212)

dove P (k+1|k+1) è la matrice di covarianza della stima x̂(k+1|k+1) e può essere calco-
lata tramite l’equazione (208) o (209) a seconda delle circostanze e del condizionamento
della covarianza del rumore di misura R(k). In genere l’espressione (209) è preferibile
come già osservato in precedenza. Analogamente il guadagno del filtro al passo k + 1
può essere calcolato tramite l’equazione (210) o (211) a seconda delle circostanze. Per
l’implementazione del filtro è comunque necessario conoscere (in aggiunta alle misure
y ed alla forzante u) le matrici di covarianza R e Q, le matrici del modello A, B, C, D
e le inizializzazioni x̂(0|0) e P (0|0). Le matrici di covarianza della stima ad un passo
P (k+1|k) possono, in alternativa, anche essere calcolate tutte fuori linea a priori tramite
l’equazione di Riccati (195).
Nell’ipotesi che il sistema dinamico e le matrici di covarianza R e Q siano tempo
invarianti, se valgono le ipotesi di stabilizzabilità e rilevabilità discusse nel paragrafo
2.2, allora il filtro converge ad un sistema stazionario le cui equazioni possono essere
riassunte come segue:
 −1
P̄ = A P̄ A> − A P̄ C > R + C P̄ C > C P̄ A> + Q> (213)
 −1
K̄ = P̄ C > C P̄ C > + R (214)
x̂(k + 1|k) = A x̂(k|k) + B u(k) (215)
 
x̂(k + 1|k + 1) = x̂(k + 1|k) + K̄ y(k + 1) − C x̂(k + 1|k) − Du(k + 1) (216)

3 Stima dello stato da minimizzazione di funzioni di costo


non lineari
3.1 Introduzione: stima di uno stato stazionario
In analogia con quanto sviluppato nel caso lineare, la stima MAP associata ad una
funzione di costo non lineare può essere calcolata come segue: sia dato il costo Ja (x),
essendo Ja (·) una funzione da Rn×1 in R sufficientemente regolare da ammettere sviluppo
in Taylor al second’ordine, ovvero seguendo la notazione introdotta nel paragrafo 1.3
1
Ja (x) = Ja (x0 ) + ∇x Ja (x)|>
x=x0 (x − x0 ) + (x − x0 )> He [Ja (x)]|x=x0 (x − x0 ) +
  2
3
+ O kx − x0 k . (217)
Giovanni Indiveri, Università del Salento. VERSIONE 7 41

Al fine di rende tale espressione più compatta, nel seguito il gradiente e l’hessiano
calcolati in un dato punto x0 verranno indicati come

∇x Ja (x)|x=x0 = ∇x Ja (x0 ) (218)


He [Ja (x)]|x=x0 = He [Ja (x0 )] . (219)

Data una stima a priori di x indicata con x̄ si consideri il costo non lineare
1
Jnl (x) = (x − x̄)> P −1 (x − x̄) + Ja (x) (220)
2
approssimabile in un intorno di x0 come
1
Jnl (x) ≈ (x − x̄)> P −1 (x − x̄) + Ja (x0 ) + ∇x Ja (x0 )> (x − x0 ) +
2
1
+ (x − x0 )> He [Ja (x0 )] (x − x0 ) . (221)
2
La matrice P ∈ Rn×n è simmetrica definita positiva e ponendo il gradiente dell’espres-
sione (221) uguale a zero si ottiene

∇x Jnl (x) = 0 =⇒
−1
P (x − x̄) + ∇x Ja (x0 ) + He [Ja (x0 )] (x − x0 ) = 0
P + He [Ja (x0 )] x = P −1 x̄ + He [Ja (x0 )] x0 − ∇x Ja (x0 ) +
−1


+ He [Ja (x0 )] x̄ − He [Ja (x0 )] x̄


−1
+ He [Ja (x0 )] x = P −1 + He [Ja (x0 )] x̄ + He [Ja (x0 )] (x0 − x̄) − ∇x Ja (x0 ).
 
P
(222)

Si noti che il termine P −1 + He [Ja (x0 )] è l’hessiano del costo Jnl , ovvero


He [Jnl (x)]|x=x0 = P −1 + He [Ja (x0 )]



(223)

che è sempre invertibile. Ipotizzando che sia anche semi-definito positivo, il minimo
locale x∗ di Jnl sarà dato da
−1
x∗ = x̄ + Knl (x0 ) (x0 − x̄) − P −1 + He [Ja (x0 )] ∇x Ja (x0 ) (224)
−1
−1
Knl (x0 ) := P + He [Ja (x0 )] He [Ja (x0 )] . (225)

Si noti che nel limite P −1 → 0n×n il costo Jnl in equazione (220) si riduce al solo termine
Ja (x) mentre il guadagno Knl in equazione (225) tende all’identica n × n e l’espressione
in equazione (224) si riduce semplicemente all’algoritmo di Newton - Raphson

x∗ = x0 − (He [Ja (x0 )])−1 ∇x Ja (x0 ) (226)

per la minimizzazione di Ja (x). Dunque con un leggero abuso di notazione possia-


mo identificare l’espressione in equazione (224) con una generalizzazione del ben noto
metodo di Newton - Raphson.
Giovanni Indiveri, Università del Salento. VERSIONE 7 42

3.2 Stima ricorsiva


Con riferimento all’impostazione descritta nel paragrafo precedente, si ipotizzi che il
vettore x sia soggetto ad una dinamica

xk+1 = f (xk , uk ) + ω k (227)

essendo ω k un disturbo esogeno e uk l’ingresso manipolabile. La stima descritta nelle


equazioni (224 - 225) si ottiene con le mappature seguenti:

x∗ 7→ x̂(k + 1|k + 1) (228)


x̄ 7→ x̂(k + 1|k) (229)
x0 7→ x̂(k|k) (230)
−1 −1
P 7→ P (k + 1|k) (231)
−1

P + He [Ja (x0 )] → 7 He [Jnl (x)]|x=x̂(k|k) (232)

ovvero la stima a priori x̄ è la predizione ad un passo

x̂(k + 1|k) = f (x̂(k|k), uk ) + E[ω k ] (233)

mentre lo sviluppo in Taylor del costo Ja (x) viene centrato ad ogni passo nella stima
del passo precedente (x0 7→ x̂(k|k)). In analogia con quanto avviene nel caso del filtro
di Kalman, la matrice peso dell’informazione a priori P (k + 1|k)−1 può (eventualmente)
essere interpretata come l’inversa della matrice di covarianza della predizione dello stato
ad un passo. Dall’equazione (232) segue che l’aggiornamento P (k + 1|k + 1) sarà dato
dal valore della matrice hessiana el costo Jnl al passo k + 1, ovvero
 −1
P (k + 1|k + 1) = P (k + 1|k)−1 + He [Ja (x)]|x=x̂(k|k) . (234)

Riassumendo, ipotizzando che E[ω k ] = 0, la stima di x al passo k + 1 risulterà essere

x̂(k + 1|k) =
f (x̂(k|k), uk ) (235)
∂f (x) >
   
∂f (x)
P (k + 1|k) = P (k|k) + Q(k) (236)
∂x x=x̂(k|k) ∂x x=x̂(k|k)
−1
P (k + 1|k + 1) = P (k + 1|k)−1 + He [Ja (x̂(k|k))] (237)
 
x̂(k + 1|k + 1) = x̂(k + 1|k) + Knl (k|k) x̂(k|k) − x̂(k + 1|k) +
 −1
− P (k + 1|k)−1 + He [Ja (x̂(k|k))] ∇x Ja (x̂(k|k)) (238)
 −1
Knl (k|k) := P (k + 1|k)−1 + He [Ja (x̂(k|k))] He [Ja (x̂(k|k))] . (239)

L’equazione (236) corrisponde all’equazione (179) del filtro di Kalman nelle ipotesi che
Q(k) sia la covarianza del rumore a media nulla ω(k) ipotizzato essere indipendente da
x.

4 Altre applicazioni della tecnica Minimi Quadrati


La tecnica dei minimi quadrati è applicabile in numerosi e diversi contesti. Uno par-
ticolarmente interessante è quello della sintesi di filtri FIR (Finite Impulse Response)
Giovanni Indiveri, Università del Salento. VERSIONE 7 43

digitali a tempo discreto per la riduzione del rumore in segnali campionati o per la sti-
ma delle loro derivate. La sintesi dei filtri FIR digitali è realizzata il più delle volte nel
dominio delle frequenze sebbene anche tecniche di sintesi nel domino del tempo abbiano
una certa rilevanza. Una tecnica di sintesi eventualmente meno conosciuta, ma dalle
grandi potenzialità, è quella nota come di Savitzky - Golay, dal nome degli autori del
lavoro [8] dove fu descritta per la prima volta.

4.1 I filtri di Savitzky - Golay


Si abbia una sequenza discreta di dati yi affetti da rumore εi : ipotizzando che misure
contigue abbiano una certa regolarità locale, è possibile approssimare un certo numero
di misure contigue con un polinomio di ordine minore (o uguale) al numero di misure
considerate. In particolare si consideri una ”finestra” di indici interi, crescenti, dal valore
−nL al valore nR : ossia il vettore

h = (−nL , (−nL + 1), . . . , 0, 1, . . . , (nR − 1), nR )> ∈ R(nL +nR +1)×1 . (240)

Con la locuzione di ”centrare” la finestra h sul dato yi∗ intenderemo il considerare gli
nL + nR + 1 dati (yi∗ −nL , yi∗ −nL +1 , . . . , yi∗ , yi∗ +1 , . . . , yi∗ +nR ) che raccogliamo nel vettore
yi∗
yi∗ = (yi∗ −nL , yi∗ −nL +1 , . . . , yi∗ , yi∗ +1 , . . . , yi∗ +nR )> (241)
dove evidentemente per costruzione

(yi∗ )nL +1 = yi∗ .

Indicando con µ il grado di un polinomio interpolante delle componenti di yi∗ , dovrà


evidentemente valere µ ≤ nL + nR . Si noti che nel caso limite di µ = nL + nR l’in-
terpolazione sarebbe esatta, ovvero il polinomio passerebbe esattamente per tutti i dati
considerati. L’idea di base del filtraggio alla Savitzky - Golay è di sostituire ai dati costi-
tuenti le componenti di yi∗ il corrispondente valore della sua interpolazione polinomiale
locale sulla finestra h. In generale, il filtraggio si calcola sul solo punto centrale della
finestra che, al passo successivo, viene traslata in avanti. Ovvero, ad ogni passo per il
dato yi∗ (valore centrale della finestra) viene calcolata la sua interpolazione polinomiale
che individua il valore filtrato per quello specifico dato. Avendo osservato, però, che
ponendo µ = nL + nR l’interpolazione sarebbe esatta, risulta che con tale scelta non si
avrebbe alcun filtraggio in quanto l’interpolazione polinomiale coinciderebbe con il dato
di partenza. Nella pratica, dunque, sarà necessario imporre

0 ≤ µ < nL + nR . (242)

In particolare, tanto minore sarà µ, tanto maggiore sarà l’effetto ”filtrante” perchè tanto
minore sarà il grado del polinomio interpolante sulla finestra locale.
Con la notazione introdotta, i coefficienti θ SG del polinomio di ordine µ appros-
simanti i dati nel vettore yi∗ sono calcolabili con la tecnica dei minimi quadrati sul
Giovanni Indiveri, Università del Salento. VERSIONE 7 44

regressore

(−nL )2 (−nL )µ
 
1 −nL ...
 1 −nL + 1 (−nL + 1)2 . . . (−nL + 1)µ 
.. .. .. .. ..
 
 

 . . . . . 

 1 0 0 ... 0 
 ∈ R(nL +nR +1)×(µ+1)
 
H=
 1 1 1 ... 1  (243)

 1 2 4 ... 2µ 

 .. .. .. .. .. 

 . . . . . 

 1 (nR − 1) (nR − 1)2 ... (nR − 1)µ 
1 nR n2R ... nµR
come
θ SG = (H > H)−1 H > yi∗ . (244)
I punti del polinomio interpolante saranno quindi determinati dalla relazione

HSG := H (H > H)−1 H > (245)


ŷi∗ = HSG yi∗ . (246)

Dall’equazione (246) segue, in particoalre, che il valore filtrato di yi∗ sia


>
c := row(nL +1) (HSG ) (247)
>
ŷi∗ = c yi∗ (248)

dove c è appunto un vettore (colonna) avente come componenti gli elementi della riga
nL + 1 della matrice HSG . Il filtraggio si ottiene dunque con una operazione di prodotto
scalare tra un vettore c ed una ”finestra mobile” di dati di ampiezza nL + nR + 1. Tale
operazione corrisponde a tutti gli effetti ad una convoluzione tra un vettore definito dal
filtro ed un insieme dei dati come è tipico nel filtraggio FIR. L’aspetto forse più notevole
dell’algoritmo individuato è che il vettore c sia costante e del tutto indipendente dai dati:
dalla sua definizione nelle equazioni (245) e (247) segue che c sia calcolabile a priori una
volta definiti i parametri nL , nR e µ. Naturalmente, come per tutti i filtri causali, anche
quello appena descritto introduce un ritardo nel filtraggio: ovvero, per calcolare il valore
filtrato di indice i∗ servono sia nL dati precedenti che nR dati successivi.

4.2 I filtri derivatori di Savitzky - Golay


Indicando con [h]n il vettore avente per componenti le potenze di ordine n delle com-
ponenti h, il regressore in equazione (243) può essere espresso in forma compatta
come
H = [h]0 [h]1 [h]2 . . . [h]µ .

(249)
Se immaginiamo che che la variabile indipendente rispetto cui si misurano i dati y sia
t (per esempio il tempo), la discretizzazione modellata dal vettore h sarebbe data da
T h essendo T il passo di discretizzazione (o campionamento). Seguendo l’impostazione
descritta per il filtraggio alla Savitzky - Golay, la derivata rispetto a t delle misure y
risulta stimabile come la derivata del polinomio interpolante. In particolare, per calcolo
Giovanni Indiveri, Università del Salento. VERSIONE 7 45

diretto della derivata di un polinomio, ed utilizzando la notazione già introdotta, si ha


 
L1 = 0 [h]0 2[h]1 3[h]2 . . . µ[h](µ−1) ∈ R(nL +nR +1)×(µ+1) (250)
dŷi∗ 1 1
= L1 θ SG = L1 (H > H)−1 H > yi∗ (251)
dt T T
ed in particolare la stima della derivata del segnale in i∗ è individuata da
  >
1 > −1 >
c1 := row(nL +1) L1 (H H) H (252)
T
dŷi∗
= c> 1 yi∗ (253)
dt
dove c1 non dipende dai dati, ma può essere calcolato a priori (fuori linea) una volta
fissati nL , nR e µ. In sintesi, l’equazione (253) individua un filtro derivatore lineare che
permette di stimare la derivata di un segnale come combinazione lineare dei sui campioni
su una finestra finita e mobile.
La procedura descritta può naturalmente essere estesa modificando opportunamente
L1 per la stima delle derivate di ordine superiore fino all’ordine µ − 1 (la derivata di
ordine µ sarà costante per tutti i punti e le derivate di ordine superiore a µ saranno
tutte identicamente nulle). Per la derivata seconda, ad esempio, sarà
 
L2 = 0 0 2[h]0 6[h]1 . . . µ (µ − 1)[h](µ−2) ∈ R(nL +nR +1)×(µ+1)
d2 ŷi∗ 1
2
= 2 L2 (H > H)−1 H > yi∗
dt T
  >
1 > −1 >
c2 := row(nL +1) L2 (H H) H
T2
d2 ŷi∗
= c>
2 yi ∗ .
dt2
La scelta delle larghezza della finestra nL + nR + 1 e dell’ordine µ del polinomio interpo-
lante dipende dalle applicazioni. Si noti che nL + nR rappresenta l’ordine del filtro FIR
risultante, ovvero la dimensione della ”memoria” del filtro. Come ordine di grandezza,
per applicazioni di filtraggio standard o calcolo delle derivate prima e seconda, valori
ragionevoli dei parametri sono nL = nR ∈ [3, 10] e µ ∈ [2, 5]. Ulteriori dettagli circa la
scelta dei parametri dei filtri di Savitzky - Golay sono discussi, per esempio, in [9] e nei
riferimenti ivi citati.

4.3 Identificazione di modelli lineari


Tra le molte possibili applicazioni del metodo dei minimi quadrati, si vuole qui richiama-
re l’attenzione alla possibilità di stimare, dai dati, una matrice che lega vettori in ingresso
con vettori in uscita. Si tratta di un problema riconducibile a quello, già discusso, della
identificazione parametrica ed è di potenziale interesse nelle applicazioni dell’apprendi-
mento automatico (o Machine Learning in letteratura). L’obiettivo di questa analisi è
solo di illustrare il principio senza entrare nel merito di dettagli fini.
Si consideri la situazione in cui un vettore di misure y ∈ Rn×1 sia legato ad un
vettore di ingressi x ∈ Rq×1 da un legame matriciale

y = Mx + ε (254)
Giovanni Indiveri, Università del Salento. VERSIONE 7 46

essendo M ∈ Rn×q e ε un vettore di rumore (a media nulla) di dimensione pari a y. Ci


si pone la domanda di come identificare sperimentalmente M sulla base di un insieme di
coppie (sperimentali) (y, x). Indichiamo con l’indice k i vettori y e x disponibili, ovvero
con (y(k), x(k)) la generica coppia di dati. Per fissare le idee supponiamo che sia n = 3
ed q = 4 tale che per la generica coppia (y(k), x(k)) valga
 
    x1 (k)
y1 (k) M11 M12 M13 M14 
 y2 (k)  =  M21 M22 M23 M24   x2 (k)  =

 x3 (k) 
y3 (k) M31 M32 M33 M34
x4 (k)
       
M11 M12 M13 M14
= x1 (k)  M21  + x2 (k)  M22  + x3 (k)  M23  + x4 (k)  M24  =
M31 M32 M33 M34
 
M11
 M21 
 
 M31 
 
 M 
 12 
 M 

x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k) 0 0  22 

 M 
=  0 x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k) 0   32  (255)
 M13 
0 0 x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k) 
 M23 

 
 M33 
 
 M14 
 
 M24 
M34

da cui segue che la identificazione sperimentale degli elementi della matrice M può
essere eseguita con le tecniche dei minimi quadrati (pesati, ricorsivi, a memoria finita e
quant’altro) utilizzando i dati sperimentali x(k) per costruire una matrice di regressione
H come

H= (256)
 x1 (1) 0 0 x2 (1) 0 0 x3 (1) 0 0 x4 (1) 0 0

0 x1 (1) 0 0 x2 (1) 0 0 x3 (1) 0 0 x4 (1) 0
 0 0 x1 (1) 0 0 x2 (1) 0 0 x3 (1) 0 0 x4 (1) 
 x1 (2) 0 0 x2 (2) 0 0 x3 (2) 0 0 x4 (2) 0 0 
 0 x1 (2) 0 0 x2 (2) 0 0 x3 (2) 0 0 x4 (2) 0 
= 0 0 x1 (2) 0 0 x2 (2) 0 0 x3 (2) 0 0 x4 (2) .
 . . . . . . . . . . . . 
. . . . . . . . . . . .
. . . . . . . . . . . .
 
x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k) 0 0
 
0 x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k) 0
0 0 x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k)

Il problema della regressione è ancora una volta posto nella forma di equazione (37)
dove la matrice di regressione è data dalla equazione (256), il vettore dei parametri θ è
costituito dalle colonne della matrice M poste in colonna come in equazione (255) ed il
vettore delle misure y è dato dall’incolonnamento delle misure y(k).
Giovanni Indiveri, Università del Salento. VERSIONE 7 47

Matrix shape M is full rank M is rank deficient


 
∗ ∗
 ∗ 1 if y ∈ range(M ) ∞n−r if y ∈ range(M )
∗  m>n
0 if y ∈
/ range(M ) 0 if y ∈
/ range(M )
∗ ∗

∞n−r if y ∈ range(M )
 
∗ ∗
m=n 1
∗ ∗ 0 if y ∈
/ range(M )

∞n−r if y ∈ range(M )
 
∗ ∗ ∗
m<n ∞n−m
∗ ∗ ∗ 0 if y ∈
/ range(M )

Tabella 1: Number of solutions to the inverse of y = M x

APPENDIX: the Singular Value Decomposition and Least


Squares
Linear model inversion and the Singular Value Decomposition
The issue of inverting a finite dimensional linear model

y = Mx

can be addressed with the tools of linear algebra and it basically depends on the dimen-
sion of M and on its rank. In order to summarize the situation relative to the existence
of solutions to the inverse of a linear algebraic equation, consider the model

M ∈ Rm×n , y ∈ Rm×1 , x ∈ Rn×1 (257)


y = Mx (258)
rank(M ) = dim (range(M )) = r ≤ min{n, m} (259)

where M is said to be full rank if r = min{n, m} in equation (259) and is said to be rank
deficient if r < min{n, m}. The dimension of the kernel and the rank r of M ∈ Rm×n
satisfy
dim(ker(M )) + r = n. (260)
The number of solutions of the inverse of equation (258), i.e. the number of possible x
vectors satisfying equation (258) for a given y is summarized in table 1. When more
than one solution is present there are actually infinite solutions: in this case, solving
the inverse of y = M x consists in selecting one specific solution among the infinite. In
particular, one can define an optimization criteria allowing to select an optimal solution
among all the possible ones. When there is no solution one can define an optimization
criteria allowing to determine an approximate solution optimizing the criteria. In order
to build a general solution valid for all cases listed in table 1 a suitable optimization
criteria needs to be chosen such that it applies to the case of no solution, infinite solutions
and one solution. In the case of a single solution (square full rank M ), in particular,
Giovanni Indiveri, Università del Salento. VERSIONE 7 48

the method needs to lead to x = M −1 y. The general solution to the inverse problem
consists in computing the least norm x that minimizes the least squares error ky−M xk2 ,
namely

x̂ = arg min kxk2 (261)


x∈X
n o
X = x ∈ Rn×1 : x∗ = arg min ky − M xk2 .

(262)
x

In order to compute the solution x̂ of equation (261), consider first the very special case
where

M = D = diag{σ1 , σ2 , . . . , σr , 0, . . . , 0} ∈ Rm×n (263)


σ1 ≥ σ2 ≥ . . . σr > 0 : r ≤ min{m, n} (264)

All entries of matrix D are null except the first r elements on its principal diagonal. In
such case the least squares cost is
m n
!2
X X
ky − Dxk2 = yl − δl,k σk xk (265)
l=1 k=1

where δi,j is the Kronecker delta. The x value minimizing the least squares cost (265)
is obtained by setting its gradient to zero. In particular
m n
!2
d X d X
ky − Dxk2 = yl − δl,k σk xk =
dxh dxh
l=1 k=1
m n n
" ! !#
X X d X
=2 yl − δl,k σk xk yl − δl,k σk xk =
dxh
l=1 k=1 k=1
m n
" ! n !#
X X X
= −2 yl − δl,k σk xk δl,k σk δk,h =
l=1 k=1 k=1
m
X
= −2 [(yl − σl xl ) σl δl,h ] = −2(yh − σh xh )σh = 0. (266)
l=1

The solution of equation (266) is given by



yh /σh if σh 6= 0
xh = . (267)
arbitrary if σh = 0

The freedom in choosing the h components of x corresponding to σh = 0 accounts for


the infinite possible solutions to the inverse of y = M x listed in table 1. Given that the
norm of a vector is monotonic with respect to its components, it follows that the least
norm x satisfying equation (267) is the one where all arbitrary components are fixed to
zero. It follows that the solution to problem (261) when (263) and (264) hold is given
by

x̂ = D# y (268)
 
1 1 1
D# = diag , , . . . , , 0, . . . , 0 ∈ Rn×m (269)
σ1 σ2 σr
Giovanni Indiveri, Università del Salento. VERSIONE 7 49

that reduces to D# = D−1 for a square and full rank D.


The above solution in equations (268 - 269) can be generalized for a linear model as
in equations (257 - 258) through the singular value decomposition (SVD) [7] approach:
Theorem 1 (SVD) For any M ∈ Rm×n there exist orthonormal matrices U and V ,
U = [u1 , u2 , . . . , um ] ∈ Rm×m and V = [v1 , v2 , . . . , vn ] ∈ Rn×n where vi ∈ Rn×1 ∀ i ∈
[1, n] and uj ∈ Rm×1 ∀ j ∈ [1, m], such that U > M V = D = diag(σ1 , σ2 , . . . , σr , 0, . . . , 0) ∈
Rm×n with σ1 ≥ σ2 ≥ . . . ≥ σr > 0 being r ≤ min{m, n}. The matrices U and V are
not unique, while D is. The σl values on the principal diagonal of D are the singular
values of M .
The main SVD properties can be summarized as follows:

U U > = U > U = Im×m


V V > = V > V = In×n
M = U DV >
 
MV = UD M vi = σi ui
=⇒ ∀ i ∈ [1, r] : r ≤ min{m, n} (270)
M > U = V D> M > ui = σi vi
and
M vi = 0 : r < i ≤ n ( that occurs only if m < n). (271)
Hence:

rank(M ) = r (272)
ker(M ) = span{vr+1 , . . . , vn } (273)
range(M ) = span{u1 , . . . , ur }. (274)

In the light of property (272) the so called condition number κ of a matrix M is defined
as
σ1
κ=
σr
and it may be used as a measure of how far M is from being singular. The condition
number is of crucial importance in numerical analysis. The squared singular values are
eigenvalues of M > M :

U >M V = D =⇒ M = U DV > =⇒
> > >
M M = V D DV =⇒ (275)
> >
M MV = V D D (276)

showing that the columns of V are the eigenvectors of M > M . Equivalently it can be also
concluded that the columns of U are the eigenvectors of M M > having as eigenvalues
the diagonal elements of the matrix DD> .
In the light of the solution in equations (268 - 269) and of the SVD Theorem 1, the
solution to the problem in equations (257 - 259), (261) is given by

x̂ = V D# U > y (277)

the proof being left as excersize. The matrix V D# U > in equation (277) is called the
pseudo - inverse of M = U DV > and it will denoted by M # , i.e.

M # = V D# U > . (278)
Giovanni Indiveri, Università del Salento. VERSIONE 7 50

Notice that when r < n and the kernel of M is not empty, a least squares solution to
y = M x is given by

x̂LS = M # y + xker ∀ xker : M xker = 0. (279)

that will not be minimum norm unless xker = 0.

Least Squares based pseudo - inverse


The described SVD approach to the solution of inverse linear models is indeed appealing
for its generality and formal elegance, but it has the potential practical drawback of
being computationally expensive. In many real time applications where the matrix
to (pseudo-)invert has large dimensions and/or is time varying, the SVD computation
might be practically unfeasible. When M has full rank, the pseudo inverse may be
computed without needing explicitly its singular value decomposition. Indeed, with
reference to table 1 consider the M is full rank column: the case m > n corresponds to
a situation where the set X in equation (262) has one element only, namely
 −1
x∗ = M > M M > y. (280)

This can be proven by direct calculation by setting equal to zero the gradient of ky −
M xk2 :
 
∇x ky − M xk2 = ∇x y> y − 2x> M > y + x> M > M x

 
= −2 M > y − M > M x = 0 (281)

known as the normal equation of Least Squares (LS). In the current hypothesis M ∈
Rm×n with n < m and rank(M ) = n hence the n × n square matrix M > M has full
rank n (this follows observing that due to its full rank, M x 6= 0 for any x 6= 0 and
by the property of the vector norms kM xk2 = x> M > M x = 0 if and only if x = 0.
This not only proofs that M > M has full rank n, but also that the hessian 2 M > M of
ky − M xk2 is positive definite and hence that the value where the gradient is null is a
minimum). As a consequence the square matrix M > M is invertible and equation (281)
admits a unique solution given by equation (280) that will also be the unique solution
to the problem (261), i.e. x∗ = x̂. Notice that if M should have rank lower than n, also
M > M would and equation (281) could not be solved by simply inverting M > M (indeed
in this case the SVD approach should be used). Finally also notice that the solution in
equation (280) is a perfect one if y ∈ range(M ) and it would correspond to M −1 y if
m = n and M had rank n.
Summarizing, it was shown that if M ∈ Rm×n with n ≤ m and rank(M ) = n the
solution to problem (261) can be computed as
( −1 >
M >M M y if n < m, rank(M ) = n
x̂ = (282)
M −1 y if n = m, rank(M ) = n

that is computationally less demanding then the SVD.


Also in the case that m < n and M has full rank (m), the solution to problem (261)
can be computed without needing to explicitly perform the singular value decomposition.
Giovanni Indiveri, Università del Salento. VERSIONE 7 51

Indeed, if m < n and M has rank m, then y is certainly in the range of M . The solution
to problem (261) can thus be sought for by searching for the least norm x satisfying the
constraint y = M x. The constrained optimization problem can be formulated through
the Lagrange multiplier technique, namely

x̂ = arg minx kxk2



=⇒ (283)
subject to the constraint y = M x

C = kxk2 + λ> (y − M x) : λ Lagrange multiplier (284)


x̂ = arg min C (285)
x
1
∇x C = 2x − M > λ = 0 =⇒ x = M > λ (286)
2
1
y = M M > λ. (287)
2
In the working hypothesis that m < n and M has rank m (i.e. full), the symmetric
and positive definite full rank matrix M M > is invertible and equation (287) admits the
unique solution
λ = 2 (M M > )−1 y (288)
and replacing equation (288) in (286) the overall solution is found to be

x̂ = M > (M M > )−1 y if m < n, rank(M ) = m. (289)

Notice that equation (287) could not have been solved as in (288) in case of a rank
deficient M : in such case, the SVD approach would be needed. As expected, equation
(289) reduces to x̂ = M −1 y if m = n and rank(M ) = m.
The matrices in equations (280) and (289) associated to a full rank M are also known
as left and right pseudo - inverses respectively. In particular if M ∈ Rm×n , denoting
with

ML† = (M > M )−1 M > if n < m, rank(M ) = n (290)


MR† >
= M (M M ) > −1
if n > m, rank(M ) = m (291)
ML† , MR† ∈ Rn×m (292)

it follows that

ML† M = In×n (293)


M MR† = Im×m (294)

illustrating the reason for the names of left and right pseudo - inverses. Again, notice
that if m = n and rank(M ) = n = m then ML† = MR† = M −1 . By direct calculation it
follows that the SVD based pseudo inverse M # in equation (278) generalizes the the left
and right pseudo - inverses in equations (290) and (291) in the case of rank deficiency of
M . In particular, if r =rank(M ) ≤ min{m, n} the properties of the SVD allow to proof
(by direct calculation) that
 
# Ir×r 0r×(n−r)
M M= (295)
0(n−r)×r 0(n−r)×(n−r)
Giovanni Indiveri, Università del Salento. VERSIONE 7 52

and  
# Ir×r 0r×(m−r)
MM = . (296)
0(m−r)×r 0(m−r)×(m−r)

The right pseudo - inverse MR† in equation (291) can be exploited to compute a projector
operator in the kernel of M . Indeed consider the idempotent matrix Pker defined as

Pker = (In×n − MR† M ) ∈ Rn×n (297)

then it follows that


M Pker x0 = 0m×1 ∀ x0 ∈ Rn×1 (298)
showing that the ∞n−m solutions to the inverse of y = M x when m < n and M has
full rank (m) can be written as

x = MR† y + Pker x0 (299)

for some x0 ∈ Rn×1 . Of course, according to the previously derived formulation, the least
norm solution x̂ is obtained by selecting x0 = 0. The general solution in equation (299)
is equivalent to the SVD based version in equation (279) except for the (fundamental)
difference that equation (299) makes only sense for a full rank M with m < n, while the
full rank requirement is not necessary for equation (279).

Damped Least Squares pseudo - inverses


As already mentioned, the interest in the pseudo - inverse solutions in equations (290)
and (291) as opposed to the SVD based M # in (278) is related to the lower computational
effort needed to compute them. Unfortunately, when M is rank deficient ML† in equation
(290) (if n < m) or MR† in equation (291) (if m < n) are not defined. In these cases the
exact solution to problem (261) can be only computed through the SVD based pseudo
- inverse M # in (278). Nevertheless, for rank deficient M matrices approximate left
(if n < m) or right (if m < n) pseudo - inverses can be computed without explicitly
resorting to the singular value decomposition.
Consider first the case the n < m case (tall and thin M ) of table 1 when rank(M ) =
r < n. Equation (281) reveals that ML† fails to be properly defined because the normal
equation of LS
M >y = M >M x
could be solved by an infinite norm x. To prevent the minimization of ky − M xk2 from
leading to an unbounded norm of x, the LS cost function is modified by adding a penalty
term on the norm of x. The modified cost function is known as damped least squares
(DLS) cost and results in

CDLS = ky − M xk2 + δkxk2 : δ > 0. (300)

The minimization of CDLS results in


 
∇x CDLS = 2 −M > y + (M > M + δIn×n ) x = 0 =⇒ (301)
xDLS = (M > M + δIn×n )−1 M > y (302)
Giovanni Indiveri, Università del Salento. VERSIONE 7 53

where it should be noticed that (M > M + δIn×n ) ∈ Rn×n has rank n, and is thus
invertible, for any δ > 0 regardless of the rank of M (the proof is left as exercise). The
damped least squares left pseudo - inverse thus results in

ML−DLS := (M > M + δIn×n )−1 M > (303)

δ > 0 if rank(M ) = r < n
where . (304)
δ ≥ 0 if rank(M ) = r = n

In the full rank case above, the choice δ = 0 leads to ML−DLS = ML† . The damped LS
solution in equation (303) has the advantage of being always well defined regardless of
the rank of M , but it will not generally allow to determine the optimal (in the sense

of problem (261)) solution to the inverse of y = M x. In particular ML−DLS is an
# # †
approximation of M that coincides with M (and with ML ) only when rank(M ) = n
and δ = 0. In order to comprehend the nature of the approximation when δ > 0,

consider ML−DLS in terms of the singular value decomposition of M . In particular

M = U DV > (SVD of M ) (305)


† > −1 >
ML−DLS := (M M + δIn×n ) M =
 −1
= V D> U > U DV > + δIn×n V D> U > =
 −1
= V [D> D + δIn×n ]V > V D> U > =
 −1
= V D> D + δIn×n D> U > =
= V D̃# U > (306)
 −1
D̃# := D> D + δIn×n D> . (307)

The matrix D̃# approximates D# in equation (269) as follows


  n 
X −1   
D̃# = D> D + δIn×n D> =
ij il lj
l=1
n
X
(σi2 + δ)−1 δil σl δlj =

=
l=1
σi
= δij . (308)
σi2+δ

In the light of equation (308), it follows that D# in equation (269) is approximated as


 
 σ σ2 σr 
# 1
D̃ = diag , ,..., 2 , 0, . . . , 0 ∈ Rn×m (309)
 σ12 + δ σ22 + δ σr + δ 
| {z }
n

revealing that δ should be possibly chosen to be negligible with respect to the largest
singular values and of the order of the smallest non null (numerically) acceptable singular

value. The robustness of the damped LS solution ML−DLS is related to the fact that if
Giovanni Indiveri, Università del Salento. VERSIONE 7 54


σr (or more singular values of M ) should go to zero, equation (309) reveals that ML−DLS
computed as in (303) remains well defined.
Finally, consider the case m < n (fewer lines than columns) and rank(M ) = r < m:
in such case, the right pseudo - inverse in equation (291) will be ill defined because the
symmetric matrix M M > ∈ Rm×m will have rank r < m and it will not be invertible.
From a geometrical point of view, this occurs because for a rank deficient M , the con-
straint equation y = M x might admit no solution as y may not belong to the image
of M . As a consequence, the optimization problem in equation (283) is not guaranteed
to admit a solution: hence the numerical divergence of the explicit solution in equation
(289) that was derived in the hypothesis that at least one x satisfying the constrained
y = M x existed. Interestingly, a possible technical method to overcome this difficulty

is exactly equal to the one used to derive the damped LS left pseudo - inverse ML−DLS .
Namely, given that for a rank deficient M the constrain y = M x may not admit an
exact solution (if y ∈
/ range(M )), the constrained cost function C in equation (284) may
be modified replacing the hard constrain term λ> (y − M x) with a soft penalty term as
ky − M xk2 to be weighted with respect to the other penalty term kxk2 . As a result,
one would obtain a new cost function
Cnew = ky − M xk2 + δkxk2 : δ > 0. (310)
that is exactly identical to the damped LS cost CDLS in equation (300). The weighting
term δ > 0 should now be interpreted as adjustable tuning gain that better promotes
solutions approximating the satisfaction of the constrain y = M x the smaller it is. Of
course, the optimal xopt value minimizing Cnew is given by

xopt = xDLS = (M > M + δIn×n )−1 M > y = ML−DLS y. (311)
Yet notice that having now assumed m < n, the inverse (M > M + δIn×n )−1 to be

computed in the ML−DLS is of larger dimension than M M > ∈ Rm×m that appears in
the right pseudo - inverse MR† (291) when M has (full) rank m. This means that in
the given hypothesis m < n and rank(M ) = r < m < n, the damped (or regularized)
solution xopt (311) to the inversion of y = M x would require the inversion of a larger
matrix than necessary when m < n and rank(M ) = r = m < n, i.e. MR† in equation
(291). Interestingly, it can be proven that this is not the case: in particular, exploiting
the same SVD approach exploited to derive D̃# in equation (307), it can be proven (by
exercise) that
(M > M + δIn×n )−1 M > = M > (M M > + δIm×m )−1 . (312)
In the light of the above, the right hand side M > (M M > + δIm×m )−1 can be thought of
as a right damped LS pseudo - inverse indicated as

MR−DLS := M > (M M > + δIm×m )−1 . (313)
† †
where of course MR−DLS = ML−DLS . Given that in practice it is always more convenient
to invert the smallest possible matrix, the damped LS pseudo - inverse can be finally
defined as
M > (M M > + δIm×m )−1 if rank(M ) = r < m < n


MDLS = (314)
(M > M + δIn×n )−1 M > if rank(M ) = r < n < m
† † †
where δ > 0 and MDLS = ML−DLS = MR−DLS are defined in equations (303) and (313)
respectively.
Giovanni Indiveri, Università del Salento. VERSIONE 7 55

Riferimenti bibliografici
[1] Samuel L. Fagin, Recursive linear regression theory, optimal filter theory, and error
analyses of optimal systems, 1964 IEEE International-Conv. Rec., vol.12, pt. i., pp.
216 - 240

[2] Arthur Earl Bryson and Yu-Chi Ho, Applied optimal control: optimization,
estimation, and control, Taylor & Francis, 1975, ISBN 0891162283.

[3] Andrew H. Jazwinski, Stochastic Processes and Filtering Theory, Dover Publica-
tions, Inc. New York, USA, 2007, ISBN-13: 978-0-486-46274-5 (unabridged re-
publication of the work originally published by Academic Press, Inc. New York,
1970).

[4] Thomas Kailath, Ali H. Sayed and Babak Hassibi, Linear estimation, Prentice Hall,
2000, ISBN 0130224642.

[5] Yaakov Bar-Shalom, Xiao-Rong Li and Thiagalingam Kirubarajan, Estimation with


applications to tracking and navigation, John Wiley & Sons, 2001, ISBN 978-0-471-
41655-5

[6] Brian D. O. Anderson and John B. Moore, Optimal Filtering, Prentice Hall, 1979

[7] Gene H. Golub and Charles F. Van Loan, Matrix Computations, Johns Hop-
kins Studies in the Mathematical Sciences, Johns Hopkins University Press, ISBN:
9780801854149, 1996

[8] Abraham Savitzky and Marcel J. E. Golay, Smoothing and Differentiation of Data
by Simplified Least Squares Procedures, Anal. Chem., 1964, vol. 36, num. 8, pp
1627 – 1639 DOI: 10.1021/ac60214a047

[9] William H. Press, Saul A. Teukolsky, William T. Vetterling, and Brian P. Flannery,
Numerical recipes in C, Second Edition, Cambridge University Press, 1992

Potrebbero piacerti anche