Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
giovanni.indiveri@unisalento.it
26 maggio 2016
Indice
1 L’identificazione del modello tramite i minimi quadrati 2
1.1 Massima Verosimiglianza e Minimi Quadrati . . . . . . . . . . . . . . . . 4
1.2 Richiami di algebra matriciale. . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Richiami sulla derivazione di funzioni vettoriali . . . . . . . . . . . . . . 8
1.4 Modelli lineari nei parametri ed equazioni normali dei minimi quadrati . 9
1.4.1 La matrice di covarianza dei parametri . . . . . . . . . . . . . . . 12
1.4.2 Ulteriori considerazioni sulla identificabilità parametrica . . . . . 15
1.4.3 La stima ai minimi quadrati pesati con l’inversa della matrice di
covarianza del rumore di misura è BLUE . . . . . . . . . . . . . 17
1.5 Minimi quadrati ordinari, pesati e generalizzati . . . . . . . . . . . . . . 19
1.6 Integrazione di informazione a priori e stima MAP . . . . . . . . . . . . 20
1.7 - DA COMPLETARE - Natura BLUE dello stimatore MAP . . . . . . 22
1.8 Stimatore a minimo errore quadratico medio (MEQM) . . . . . . . . . . 22
1.8.1 Stimatore MMSE (o MEQM) per variabili gaussiane . . . . . . . 23
1.9 Minimi quadrati (pesati) in forma ricorsiva. . . . . . . . . . . . . . . . . 23
1.10 Minimi quadrati (pesati) a memoria finita . . . . . . . . . . . . . . . . . 26
1.10.1 Formulazione ricorsiva dei Minimi Quadrati Pesati a Memoria
Finita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.11 Regressione Lineare Ricorsiva. . . . . . . . . . . . . . . . . . . . . . . . 28
Riferimenti bibliografici 55
Sommario
Si prega di non distribuire, riprodurre o copiare queste note senza il consenso
dell’autore. Si ringrazia anticipatamente per le segnalazioni di eventuali errori la
cui assenza non è in alcun modo garantita.
fosse, per esempio, un sistema massa - molla con attrito, esso sarebbe descritto da una
equazione del tipo M ÿ = −b ẏ − k y + f (t) dove M è la massa, k la costante elastica
della molla e b il coefficiente di attrito ed f (t) un ingresso esogeno (forzante). In questo
caso M, k e b sarebbero i parametri del sistema i cui valori determinano l’andamento
di y(t) una volta fissati i valori iniziali y(t0 ), ẏ(t0 ) e la forzante f (t). Il problema del-
la identificazione parametrica di questo modello consiste nel cercare di determinare il
valore dei parametri M, k e b dalla conoscenza di y(t), ẏ(t) ed f (t). Questo problema
ha una grande rilevanza pratica poiché molto spesso è nota la struttura matematica
delle equazioni che governano un dato sistema, ma non i suoi parametri. In termini più
astratti, possiamo formulare il problema cosı̀:
Dato un modello y(t) = S(θ, u(t)) con y(t) ∈ R uscita, u(t) ∈ R ingresso e θ ∈ Rn×1
vettore dei parametri, il problema della identificazione parametrica consiste nel determi-
nare θ dalla misura di y(t) ed u(t). Questa operazione viene detta di stima parametrica
ed in senso lato consiste nell’invertire il modello S. Come per tutte le operazioni di
inversione, anche quella di stima parametrica è delicata e può essere compiuta solo sot-
to opportune ipotesi di esistenza e regolarità del modello stesso per i dati segnali di
ingresso u(t) ed uscita y(t). Il risultato della stima di θ viene convenzionalmente in-
dicato con un cappello θ̂ per distinguere esplicitamente il valore vero (ed incognito)
di θ da quello stimato θ̂. La stima, infatti, viene realizzata usando misure discrete
yk = y(kT ), uk = u(kT ) di y(t) ed u(t) soggette a rumore ed incertezza sperimentale
per cui è naturale aspettarsi che, in generale, sia θ̂ − θ 6= 0. Poiché il segnale di ingresso
u(kT ) è impostato dallo sperimentatore, molto spesso l’incertezza su questo segnale è
trascurabile e quindi trascurata rispetto quella sull’uscita y(kT ). In questo senso θ̂ può
essere pensata come funzione della sola y(kT ). Il problema della stima, quindi, consi-
sterà nella individuazione di un algoritmo Ω(·) tale per cui θ̂ = Ω(yk , S) per k in un
dato intervallo. Indicando con ZN = {y(kT ) : k = 0, 1, 2, . . . , N − 1} l’insieme delle N
misure disponibili di y(t), possiamo distinguere due possibili scenari: quello Bayesiano
in cui θ sia una variabile stocastica e quello non Bayesiano in cui θ sia una variabile de-
terministica. Nel primo caso esisterà una densità di probabilità (pdf, probability density
function) a priori di θ, p(θ) mentre nel secondo no. Gli algoritmi di stima parametrica
associati ai due scenari corrispondono ai seguenti schemi:
Approccio Bayesiano:
p(ZN |θ) p(θ)
θ̂ M AP = arg max p(θ|ZN ) = arg max (1)
θ θ p(ZN )
Si noti che in entrambi i casi, il risultato della stima θ̂ è una variabile stocastica in
quanto funzione delle misure y(kT ) che sono quantità stocastiche. I due approcci cor-
rispondono a filosofie distinte ed hanno domini di applicazioni diversi. Una dettagliata
analisi delle loro proprietà e legami esula dagli scopi qui perseguiti. Si noti solo che nel-
l’ambito dell’approccio Bayesiano la stima di θ è la moda della probabilità a posteriori di
θ date le misure sperimentali, p(θ|ZN ). Di qui l’acronimo M AP , maximum a posteriori.
La probabilità a posteriori di θ dato ZN può essere calcolata dalla regola di Bayes in
funzione delle probabilità a priori di θ e ZN e quella a posteriori di ZN dato θ come in
equazione (1). Nella stima M AP è strutturalmente presente una fusione dell’informa-
Giovanni Indiveri, Università del Salento. VERSIONE 7 4
zione a priori su θ data dalla presenza del termine p(θ) nella equazione (1). La funzione
p(ZN |θ) è la probabilità a posteriori delle misure dato il vettore dei parametri e nella
letteratura in lingua inglese è nota come likelihood (verosimiglianza). Questo termine
dipende dallo specifico modello S del sistema e dalle proprietà stocastiche dell’errore su
y(kT ). L’approccio non Bayesiano, o deterministico, corrisponde quindi a quello noto
come Maximum Likelihood ovvero della Massima Verosimiglianza e corrisponde a stima-
re θ̂ come il vettore dei parametri che massimizzi l’evidenza sperimentale delle misure
y(kT ) dato un modello S. Nel seguito ci soffermeremo solo su questo approccio che è
il più naturale quando i parametri da stimare siano costanti fisiche deterministiche di
sistemi statici o dinamici.
segue che
[y(kT )−S(θ,u(kT ))] 2
1 − 2 (kT )
p(y(kT )|θ) = √ e 2σy
(5)
2π σy (kT )
La stima
N −1
S(θ, u(kT )) 2
1 X y(kT )
θ̂ W LS = arg min − (8)
θ 2 σy (kT ) σy (kT )
k=0
ottenuta minimizzando la funzione di costo (7) è detta dei minimi quadrati pesati
(weighted least squares, da cui l’acronimo WLS) e, come appena dimostrato, essa coin-
cide con la stima di massima verosimiglianza θ̂ M L nelle ipotesi che le misure siano
indipendenti e distribuite gaussianamente e che i pesi nel funzionale di costo (7) siano le
deviazioni standard delle misure. Al di là di questa equivalenza che ne giustifica l’impor-
tanza nell’ambito di un approccio probabilistico, la stima ai minimi quadrati ha una sua
valenza intrinseca che risiede nel significato geometrico di minimizzare il funzionale di
Giovanni Indiveri, Università del Salento. VERSIONE 7 5
costo quadratico (7). Supponendo che le varianze σ 2 (kT ) in JW LS (7) siano tutte uguali
ad una setssa costante, la quantità JW LS (7) sarebbe proporzionale all’errore quadratico
medio di interpolazione. Quando le varianze delle singole misure differiscono tra loro,
significa che ciascuna misura y(kT ) viene pesata proporzionalmente alla sua incertezza.
Nel caso in cui il modello S(θ, u(t)) sia lineare in θ il vettore θ̂ W LS dato dalla (8) può
essere calcolato analiticamente e questo giustifica la grandissima diffusione del metodo
dei minimi quadrati per modelli lineari nei parametri. Al fine di dedurre una forma
chiusa per θ̂ W LS quando S(θ, u(t)) è lineare in θ sono necessari alcuni richiami sulla
differenziazione di funzioni vettoriali e su alcune proprietà delle matrici.
A ∈ Rn×n =⇒ A = As + Aa dove
A + A>
As = : As = A>
s termine simmetrico
2
A − A>
Aa = : Aa = −A>a termine anti-simmetrico
2
e risulta che
>
1 > 1 > 1 >
x Aa x ∈ R =⇒ x Aa x = x Aa x ma anche
2 2 2
>
1 > 1 1 >
x Aa x = x> A>a x = − x Aa x = 0
2 2 2
poiché il trasposto di uno scalare è se stesso e l’unico numero reale uguale al suo opposto
è lo zero. Dunque l’unico termine che può dare contributo non nullo ad una forma
quadratica viene dalla parte simmetrica della matrice ad essa associata da cui segue
che ai fini del calcolo di una forma quadratica è sufficiente considerare solo matrici
simmetriche. Data una matrice quadrata A, se l’inversa A−1 esiste, allora è unica. Da
questa osservazione segue che le operazioni di inversione e trasposizione commutano.
Ossia: −1 >
A> = A−1 . (25)
Giovanni Indiveri, Università del Salento. VERSIONE 7 7
Infatti
>
A−1 A = I =⇒ A−1 A = I > = I =⇒
>
A> A−1 = I
Proposizione P1
Si considerino due matrici H ∈ Rn×m ed R−1 ∈ Rn×n . Sia R−1 simmetrica e definitiva
positiva (e dunque invertibile), allora la matrice simmetrica H > R−1 H ∈ Rm×m è inverti-
bile se e solo se H ha rango pari ad m, ossia rank(H) = m. Inoltre, se rank(H) = m allora
H > R−1 H è definita positiva mentre se rank(H) < m allora H > R−1 H è semi-definita
positiva.
Proposizione P2
Siano date H ∈ Rn×m , R−1 ∈ Rn×n e P −1 ∈ Rm×m con R−1 e P −1 simmetriche e
definite positive. Allora la matrice simmetrica
H > R−1 H + P −1
Giovanni Indiveri, Università del Salento. VERSIONE 7 8
che è l’analogo della derivata seconda per funzioni ad argomento vettoriale. Si noti che
per funzioni vettoriali di argomento vettoriale come
f : Rn×1 −→ Rm×1
Giovanni Indiveri, Università del Salento. VERSIONE 7 9
è lineare in θ = (a, b, c)> , non lineare in (u1 (t), u2 (t))> e non lineare in t. Il modello
differenziale massa, molla, ammortizzatore:
mÿ(t) = −ky − bẏ + f (t) =⇒ (31)
m/k
m b 1
y = − ÿ − ẏ + f (t) = [−ÿ − ẏ f (t)] b/k (32)
k k k
1/k
è lineare nei parametri. Il modello statico
y(t) = a sin(ωt) (33)
è lineare in a, ma non in ω. La matrice H in (29) è detta matrice di regressione e
tipicamente dipende dall’ingresso al sistema. Per esempio la matrice di regressione del
modello (30) è
sin u1 (t0 ) cos u2 (t0 ) t20
sin u1 (t1 ) cos u2 (t0 ) t2
1
H= (34)
.. .. ..
. . .
sin u1 (tn ) cos u2 (tn ) t2n
Giovanni Indiveri, Università del Salento. VERSIONE 7 10
Con questa notazione, un generico modello lineare nei parametri verrà rappresentato
come:
Volendo scrivere il funzionale di costo (7) in forma matriciale, per tenere in giusta
−1
considerazione i pesi σ(kT ) sulle misure, possiamo definire gli elementi Rij della matrice
diagonale R ∈ R n×n come:
−1 δij
Rij = : σy (h) > 0 ∀ h (38)
σy2 (i)
∇θ JW LS |θ̂W LS = 0 =⇒
∇θ y> R−1 y − y> R−1 Hθ − θ > H > R−1 y + θ > H > R−1 Hθ |θ̂W LS = 0 =⇒
(−2H > R−1 y + 2H > R−1 Hθ)|θ̂W LS = 0 =⇒
(H > R−1 H) θ̂ W LS = H > R−1 y. (41)
Questa ultima equazione è nota come equazione normale dei minimi quadrati. Qualora
H > R−1 H sia invertibile la soluzione della equazione normale è unica ed è data da:
y(t) = (a + b) sin ωt + c t2
dove, si noti, non è necessario che R sia anche diagonale R = diag(σ12 , σ22 , . . . , σn2 ) come in
equazione (38), ma solo che sia definita positiva (quindi invertibile) e pari alla covarianza
dell’errore di misura. L’eventuale caso di R diagonale corrisponderebbe ad assumere gli
errori sulle singole misure indipendenti tra loro ((cov(ε))ij = E[εi εj ] = 0 ∀ i 6= j)
ed è un caso particolare di quello più generale associato all’equazione (46). Ipotizziamo
inoltre che il rumore di misura abbia media nulla: in questa ipotesi si può dimostrare
che la stima ai minimi quadrati pesati θ̂ W LS di θ sia non polarizzata (unbiased nella
letteratura inglese), ossia che il valore atteso della stima θ̂ W LS coincida con il valore
vero θ. Vale:
E[θ̂ W LS ] = E[(H > R−1 H)−1 H > R−1 y] = (H > R−1 H)−1 H > R−1 E[y] =
= (H > R−1 H)−1 H > R−1 E[Hθ + ε] =
= (H > R−1 H)−1 (H > R−1 H)θ + E[ε] = θ
essendo E[ε] = 0 per ipotesi. Un’altra quantità utile da considerare è l’errore di stima:
θ̃ ≡ θ − θ̂ W LS
dove nell’ultima riga si è sfruttata l’equazione (46). Ancora una volta si noti che ai fini
del risultato in equazione (47) non è stato necessario ipotizzare che R fosse diagonale:
è infatti sufficiente che valga R = E[ε ε> ] = R> ed E[ε] = 0 ossia che il rumore di
misura sia a media nulla e con covarianza pari ad R. L’equazione (47) mette in evi-
denza come l’incertezza sulla stima di θ dipenda sia dal rumore di misura, sia dalla
natura degli ingressi usati per eccitare il sistema. Questo risultato è particolarmente
Giovanni Indiveri, Università del Salento. VERSIONE 7 13
I risultati numerici di questa simulazione per i valori φ = 0, 0.75, 1.5 e π/2 radianti
sono:
φ = 0 =⇒
Giovanni Indiveri, Università del Salento. VERSIONE 7 14
covthetaLS =
0.0016682 −1.8852e − 008 6.0824e − 009
−1.8852e − 008 0.0016653 −9.9532e − 010
6.0824e − 009 −9.9532e − 010 3.2112e − 010
thetaLS =
1.2924
2.075
0.0001019
φ = 0.75 =⇒
covthetaLS =
0.0031134 0.0021202 5.1552e − 009
0.0021202 0.0031105 −1.3603e − 009
5.1552e − 009 −1.3603e − 009 3.2112e − 010
thetaLS =
1.2977
2.123
0.00011598
φ = 1.5 =⇒
covthetaLS =
0.33281 0.33197 −7.953e − 009
0.33197 0.33281 −1.4071e − 008
−7.953e − 009 −1.4071e − 008 3.2112e − 010
thetaLS =
1.1069
1.9932
0.00012417
φ = π/2 =⇒
Warning: Matrix is close to singular or badly scaled.
Results may be inaccurate. RCOND = 1.825231e-023.
covthetaLS =
8.7961e + 012 8.7961e + 012 0
8.7961e + 012 8.7961e + 012 −6.1035e − 005
−3.7711e − 007 −3.8319e − 007 3.2112e − 010
thetaLS =
0.4797
−20.442
0.00011212
Sulla diagonale delle matrici di covarianza si trovano le varianze delle componenti di
θ̂ W LS . Dunque indicando come errore sulla stima di ciscun parametro la deviazione
standard associata alla stima, i risultati di cui sopra si possono riassumere come:
Giovanni Indiveri, Università del Salento. VERSIONE 7 15
essendo a = 1.3, b = 2.1 e c = 10−4 i valori veri dei parametri. Si noti come la
deviazione standard sulla stima dei parametri a e b aumenti mano a mano che φ tenda
a π/2, valore per il quale si perde la identificabilità di a e b. Nonostante per φ = π/2 la
matrice H > R−1 H non ammetta teoricamente inversa, l’algoritmo fornisce comunque un
risultato finito a causa di inevitabili arrotondamenti numerici: ciò nonostante la estrema
vicinanza ad una situazione di singolarità numerica è rilevata e segnalata all’utente.
Ricordando che una combinazione lineare di variabili gaussiane indipendenti è a
sua volta una variable gaussiana, segue che se il rumore sulle misure y è indipendente
e gaussiano anche il vettore θ̂ W LS ha distribuzione gaussiana. Ecco perché ha senso
indicare come errore sulla stima dei parametri un multiplo della deviazione standard
calcolata come radice quadrata degli elementi diagonali della matrice di covarianza.
Nella tabella di cui sopra si è indicata la deviazione standard stessa (multiplo unitario),
ma più spesso si usa indicare come errore la deviazione standard moltiplicata per tre
(errore 3σ).
y y-y*
y*
S(col(H))
Premesso che un simile risultato vale anche per spazi normati infinito dimensionali, la
dimostrazione per il caso enunciato segue per calcolo diretto. In particolare, si supponga
che (x − x̂)> α = 0 : ∀ α 6= 0, α ∈ Y vale
kx − x̂ + αk2 = (x − x̂ + α)> (x − x̂ + α) =
= kx − x̂k2 + 2(x − x̂)> α + kαk2 > kx − x̂k2 .
Al contrario, si supponga adesso che ∃ α 6= 0, α ∈ Y : (x − x̂)> α = β 6= 0 allora per
ogni λ ∈ R vale:
kx − x̂ + λ αk2 = kx − x̂k2 + 2λ β + λ2 kαk2 ,
Giovanni Indiveri, Università del Salento. VERSIONE 7 17
da cui, scegliendo
β
λ=−
kαk2
segue
kx − x̂ + λ αk2 = kx − x̂k2 + 2λ β + λ2 kαk2 =
2β 2 β2
= kx − x̂k2 − + < kx − x̂k2
kαk2 kαk2
il ché violerebbe l’ipotesi che x̂ = arg minα∈Y kx − αk2 .
La dimostrazione per il caso di spazi normati infinito dimensionali può essere ricavata
analogamente utilizzando l’opportuno prodotto scalare e la relativa norma indotta.
Il lemma della proiezione ortogonale ha una notevole rilevanza (anche storica) nel-
l’ambito della teoria della identificazione parametrica, del filtraggio e della stima dello
stato in quanto le formule risolutive dei minimi quadrati e della stima ottima (compreso
il filtro di Kalman) possono essere dedotte sulla sua base.
con h i
E θ̂ W LS = θ vero (51)
e
cov θ̂ W LS = (H > R−1 H)−1 . (52)
θ̂ C := C y. (53)
Infine si noti che date due qualunque matrici R ∈ Rn×n simmetrica definita positiva e
D ∈ Rm×n , la matrice DRD> è sicuramente semi-definita positiva, i.e. DRD> ≥ 0. Sia
dunque
−1
D := C − H > R−1 H H > R−1 . (57)
da cui la tesi che lo stimatore WLS (con pesi uguali alla covarianza del rumore di misura,
non necessariamente gaussiano, ma a media nulla) sia BLUE.
Giovanni Indiveri, Università del Salento. VERSIONE 7 19
minimi quadrati, ciascun residuo con la covarianza della misura ad esso associata. Ta-
le scelta conduce alla definizione dei minimi quadrati pesati o WLS - Weighted Least
Squares la cui soluzione è data dall’equazione (42). Nel caso R non sia diagonale, ma
R := E[εε> ] = R> > 0 il costo (39) conserva la stessa identica espressione cosı̀ come il
suo minimo (42). Si noti che il problema di stima associato al costo
θ̂ = arg min (y − Hθ)> R−1 (y − Hθ) : R = E[εε> ] = R> > 0
θ
Si noti che la fomulazione del problema OLS come minimizzazione del costo (61) è
del tutto deterministica, ovvero prescinde dall’eventuale presenza del rumore gaussiano
N (0, σ) su ciascuna misura di y (con medesima σ). In quest’ottica deterministica del
problema anche la stima θ̂ OLS avrebbe natura deterministica e non avrebbe quindi senso
pensare alla sua covarianza, ma, al più, all’hessiano del costo OLS dato da (H > H).
Al contrario, il problema WLS con matrice dei pesi data dall’equazione (59) è ancora
Giovanni Indiveri, Università del Salento. VERSIONE 7 20
probabilistico e, sebbene con R = σ 2 In×n risulti θ̂ W LS = θ̂ OLS con θ̂ OLS data dalla
(62), si avrebbe
−1
cov θ̂ W LS = σ 2 H > H . (63)
Dunque la stima WLS può essere pensata come un caso particolare della stima
GLS ed una generalizzazione di quella OLS. Si invita il lettore a notare, anche nel
seguito di queste note, come i risultati esplicitamente ricavati nel contesto WLS possano
eventualmente essere estesi al caso GLS e come si relazionino al caso speciale OLS.
visto che p(ZN ) non dipende da θ. Se il vettore ∈ Rn×1 delle incertezze di misura
nel modello y = H θ + è distribuito gaussianamente con media nulla e covarianza
R := E[ > ] (ora non necessariamente diagonale), si avrebbe
1 − 1 (y−H θ)> R−1 (y−H θ)
p(ZN |θ) = e 2 (66)
C2
da cui
>
1
R−1 (y−H θ)+ 12 (θ−θ ∗ )> P −1 (θ−θ ∗ )]
θ̂ M AP = arg max e−[ 2 (y−H θ) = (67)
θ
= arg min JM AP : (68)
θ
1 1
JM AP = (y − H θ)> R−1 (y − H θ) + (θ − θ ∗ )> P −1 (θ − θ ∗ ) . (69)
2 2
Si noti che rispetto la stima WLS, il presente funzionale di costo JM AP è la somma di
due funzioni quadratiche distinte. Per determinare il minimo di JM AP è necessario porre
∇θ JM AP = 0 =⇒
H > R−1 H θ − H > R−1 y + P −1 θ − P −1 θ ∗ = 0 =⇒
H > R−1 H + P −1 θ = H > R−1 y + P −1 θ ∗ + H > R−1 H θ ∗ − H > R−1 H θ ∗
H > R−1 H + P −1 θ = H > R−1 H + P −1 θ ∗ + H > R−1 (y − H θ ∗ ) =⇒
θ̂ M AP θ ∗ + K (y − H θ ∗ )
= (70)
−1
K := H > R−1 H + P −1 H > R−1 (71)
Giovanni Indiveri, Università del Salento. VERSIONE 7 21
dove in virtù delle proposizioni P1 e P2 del paragrafo 1.2 si è ipotizzato che la matrice
(H > R−1 H + P −1 ) sia invertibile. Si noti come la stima MAP data dalla equazione (70)
sia pari alla somma della stima a priori θ ∗ e di un termine correttivo proporzionale,
tramite una matrice di guadagno K, all’errore tra quanto previsto dal modello se θ
fosse esattamente θ ∗ (stima a priori) e quanto misurato y. Il vettore y − Hθ ∗ viene a
volte chiamato innovazione in quanto rappresenta il contenuto informativo innovativo
apportato dalle misure y rispetto quanto non fosse già previsto a priori dal modello
Hθ ∗ .
Dalle ipotesi di lavoro correnti circa la natura gaussiana delle incertezze di misura
e dell’informazioni a priori su θ risulta che anche p(θ|ZN ) sia gaussiana. Indubbia-
mente l’argomento dell’esponenziale nell’equazione (67) è una forma quadratica in θ. Di
conseguenza, nelle citate ipotesi di gaussianità sull’informazioni a priori e sugli errori di
misura, la stima θ̂ M AP rappresenta proprio il valore atteso di θ condizionato alle misure
ZN , ovvero
θ̂ M AP = E [θ|ZN ] .
Sulla base di questa osservazione, è possibile calcolare anche la covarianza associata a
θ̂ M AP . In particolare, cosı̀ come nel caso dei minimi quadrati pesati il termine H > R−1 H
rappresenta sia l’Hessiano del funzionale di costo quadratico JW LS , sia l’inversa della
matrice di covarianza della stima θ̂ W LS , anche nel presente caso della stima MAP si può
dimostrare che l’Hessiano di JM AP dato da (H > R−1 H + P −1 ) rappresenti, nell’ipotesi
che le misure y e la stima a priori θ ∗ siano tra loro indipendenti, l’inversa della matrice
di covarianza della stima θ̂ M AP . Indicando con
Moltiplicando la equazione (72) per L da sinistra e per P da destra, con l’uso della
equazione (73) si ottiene che:
In aggiunta alla già citata interpretazione geometrica in base alla quale l’inversa della
covarianza della stima MAP sia l’Hessiano (rispetto θ) del funzionale quadratico JM AP ,
ovvero che la significatività o l’affidabilità della stima MAP sia direttamente propor-
zionale alla ripidità del funzionale JM AP in un intorno del suo minimo, è interessante
analizzare il significato stocastico delle equazioni (72) e (77). Considerato che H > R−1 H
è l’inversa della covarianza della stima di θ associata alle misure y e che P −1 è l’in-
versa della covarianza della stima a priori θ ∗ , l’equazione (72) significa che, nell’ipotesi
fondamentale che le misure e la stima a priori siano indipendenti, l’operazione di misu-
ra migliora sempre (o meglio non peggiora mai) la incertezza sulla stima complessiva.
Come a dire che l’acquisizione di nuove (in quanto indipendenti dalla stima a priori)
misure, migliora sempre la stima MAP risultante anche se la loro incertezza fosse molto
grande. Si noti quindi che anche misure y indipendenti dalla stima a priori θ ∗ a cui fosse
associata innovazione nulla, ossia per le quali y − Hθ ∗ = 0 costituiscono una impor-
tante sorgente di informazione in quanto pur non modificando il valore di θ̂ M AP = θ ∗
contribuiscono a diminuirne la covarianza, ossia ne avvalorano l’affidabilità.
Infine una importante osservazione in merito alla stima MAP riguarda la identifica-
bilità di θ: alla luce delle proposizioni P1 e P2 del paragrafo 1.2, segue che se le matrici
R−1 e P −1 nell’equazione (71) sono definite positive la matrice (H > R−1 H + P −1 ) è
sempre invertibile qualunque sia il rango di H. Questo significa che la stima MAP è
ben posta anche quando (H > R−1 H) non è invertibile, ossia anche quando gli ingressi
che definiscono le colonne di H non sono persistentemente eccitanti. Dal punto di vista
del contenuto informativo delle misure y relative al modello y = Hθ questo importante
risultato non dovrebbe sorprendere: in sostanza significa che anche quando le misure y
non sono sufficienti a determinare θ, la stima MAP è ben posta perché può comunque
sfruttare l’informazione a priori data da θ ∗ . Nell’ipotesi estrema in cui H sia la matrice
nulla, il guadagno K nell’equazione (71) è comunque calcolabile come
K = P H > R−1 = 0
da cui θ̂ M AP = θ ∗ .
che ha soluzione Z
x̂M M SE = E [ x| ZN ] = x p(x|ZN )dx. (79)
La dimostrazione del risultato in equazione (79) segue per calcolo diretto imponendo
che il gradiente rispetto a x̂ dell’equazione (78) sia nullo, ossia:
h i
∇x̂ E (x̂ − x)> (x̂ − x) ZN = 2 (x̂ − E[x|ZN ]) = 0.
e
Pxx|z = cov(x̂M M SE |z) = E[ (x − x̂M M SE )(x − x̂M M SE )> z] = Pxx −Pxz Pzz
−1
Pzx . (86)
La dimostrazione dei risultati in equazione (85) e (86) segue per calcolo diretto (BAR
SHALOM pag. 53).
indicando con h> un vettore riga di dimensione m, il regressore all’istante N +1, indicato
come HN +1 , è dato da
H
HN +1 = . (88)
h>
Ipotizzando che ogni misura y(i) sia indipendente da tutte le altre, la matrice di cova-
rianza del vettore yN delle prime N misure sarebbe diagonale e pari ad
R = diag(σ12 , σ22 , . . . , σN
2
). (89)
dove
θ̂ N := (H > R−1 H)−1 H > R−1 yN (93)
è la stima WLS (o a massima verosimiglianza ML, nelle ipotesi correnti) relativa al passo
N , la equazione (91) comporta:
H > R−1 H + h r−1 h> θ = H > R−1 H + h r−1 h> θ̂ N +
+h r−1 y(N + 1) − h> θ̂ N + H > R−1 yN − H θ̂ N . (94)
Giovanni Indiveri, Università del Salento. VERSIONE 7 25
Dalla equazione (93) segue che l’ultimo termine della equazione (94) sia identicamente
nullo (si ricordi il principio di ortogonalità prima discusso). Ne segue che la stima del
vettore dei parametri al passo N + 1 sia calcolabile come:
θ̂ N +1 = θ̂ N + KW LS (N + 1) y(N + 1) − h> θ̂ N (95)
−1
KW LS (N + 1) := H > R−1 H + h r−1 h> h r−1 . (96)
Si noti che l’equazione (96) può risultare di scarsa utilità pratica in quanto richiede che
ad ogni passo sia calcolata una matrice inversa di dimensione m × m (m dimesnione del
vettore di parametri θ). Nel caso che m sia grande e che le misure vengano acquisite
ad alta frequenza, questo potrebbe richiedere un onere computazionale eccessivo. Un
possibile rimedio è ottenibile sfruttando il seguente Lemma.
vale evidentemente
SN +1 = SN + h r−1 h> (99)
essendo ancora h> il vettore riga che compone l’ultima riga del regressore relativo a
N + 1 misure (vedi equazione (88)) ed r la varianza dell’ultima misura (la N + 1-esima).
Applicando il Lemma dell’inversione matriciale al caso: F = SN , G = h, Q = r−1 , W =
h> si ha:
−1
−1 −1 −1 > −1 −1
SN +1 = S N − S N h r + h SN h h> S N
−1 1 −1 −1
= SN − S h h> SN dove (100)
ρN N
−1
ρN := r + h> SN h è uno scalare. (101)
che va opportunamente inizializzato dopo aver acquisito almeno m misure. Si noti che
per costruzione VN +1 deve essere una matrice simmetrica e definita positiva. Indubbia-
mente da un punto di vista formale l’equazione ricorsiva (104) conserva la simmetria di
VN +1 da un passo al successivo, ma potrebbero insorgere difficoltà operative associate
alla sua implementazione numerica. Per limitare gli effetti di arrotondamenti e tron-
camenti numerici nella equazione (104) che potrebbero compromettere la simmetria e
la positività di VN +1 si può fattorizzare VN +1 e procedere al calcolo ricorsivo dei sin-
goli fattori che vengono poi utilizzati per ricomporre la VN +1 stessa. In alternativa, e
più semplicemente, successivamente al calcolo di VN +1 dall’equazione (104) si può for-
zatamente ripristinare la simmetria di VN +1 eventualmente persa per arrotondamenti
numerici imponendo
1
VN +1 + VN>+1 7→ VN +1 .
2
Da ultimo si noti che VN +1 rappresenta la matrice di covarianza della stima θ̂ al
passo N + 1-esimo.
−1 ∗ −1 δij β N −i
Rij 7−→ Rij = : 0<β≤1 (107)
σy2 (i)
dove β è il coefficiente di oblio (forgetting factor in inglese) che attribuisce peso unitario
alla ultima misura acquisita (la N −esima) e peso esponenzialmente decrescente alle
misure precedenti. Si noti che la matrice diagonale dei pesi ∗R−1 relativa al caso di
memoria finita sia tempo variante e valga:
−1
β (∗RN
∗ −1 ) 0
R(N +1) = 2 ∈ R(N +1)×(N +1) (108)
0 1/σN +1
Che i pesi cosı̀ ottenuti siano esponenzialmente decrescenti può essere meglio visto
osservando che si può sempre pensare il coefficiente di oblio come
β = e−a : a ≥ 0
β N −i = e−(N −i)a .
Giovanni Indiveri, Università del Salento. VERSIONE 7 27
In questa ottica possiamo stimare che il numero di campioni m significativi nel realizzare
la stima a ciascun passo siano quelli corrispondenti alla costante di tempo dell’esponen-
ziale, ovvero:
β m := e−1
m log β = −1 e se β ≈ 1 sviluppando in serie di Taylor log β =⇒
log β ≈ β − 1 se β ≈ 1
1 m = 20 se β = 0.95
m ≈ =⇒ m = 50 se β = 0.98
1−β
m = 100 se β = 0.99
Si noti che qualora i parametri stimati non avessero sicuramente lente derive nel tempo,
la rigidità associata all’algoritmo classico con memoria infinita sarebbe una caratte-
ristica del tutto positiva essendo una manifestazione della sua robustezza e della sua
caratteristica tendenza a fondere tutte le informazioni acquisite. Come spesso accade,
la scelta di utilizzare stime a memoria finita o infinita dipende dunque dalla specifica
applicazione. Qualora si opti per una stima a memoria finita bisogna prestare partico-
lare cura alla scelta del coefficiente di oblio cercando un compromesso tra l’esigneza di
usare quanti più dati possibili per minimizzare l’effetto dell’errore di misura sulla qualità
della stima e l’esigenza di usare una quantità sufficientemente bassa di misure per non
irrigidire troppo l’algoritmo e permettere quindi un pronto inseguimento delle variazioni
parametriche.
Indicando con
−1
SN +1 = β H > ∗ RN H + h r−1 h> (112)
vale ora
SN +1 = β SN + h r−1 h> . (113)
Giovanni Indiveri, Università del Salento. VERSIONE 7 28
ρN = β r + h> V N h (117)
1 1 >
VN +1 = VN − VN h h VN (118)
β ρN
∗
KW LS (N + 1) = VN +1 h r−1 (119)
θ̂ N +1 = θ̂ N + ∗KW LS (N + 1) y(N + 1) − h> θ̂ N (120)
essendo
y(i) siano tra loro indipendenti e vengono integrate una per volta. L’indipendenza delle
singole misure implica che la matrice di covarianza R sia diagonale come in equazione
(89). In alcune applicazioni può accadere che le singole misure scalari y(i) non siano
tutte indipendenti tra loro, ma possano essere raccolte in vettori tra loro indipendenti
ȳl le cui matrici di covarianza non siano diagonali. Indicando con l il rumore additivo
di ȳl e con yN il vettore di dimensione N contenente le prime N misure y(i) si ipotizza
che
t
X
dim (ȳh ) = N : yN = (ȳ1> , ȳ2> , . . . , ȳt> )> (124)
h=1
E[l ] = 0 ∀ l = 1, 2, . . . , t (125)
E[l >
l ] = R̄l non necessariamente diagonale (126)
E[k >j ]=0 ∀ k 6= j. (127)
La matrice di covarianza R relative alle prime N misure sarà dunque diagonale a blocchi
avendo la struttura seguente:
R̄1 0 . . . . . .
0 R̄2 0 . . .
R= . ∈ RN ×N . (128)
.. . .
.. . . ...
0 0 . . . R̄t
Gli algoritmi di identificazione parametrica ricavati nell’ipotesi di singole misure scalari
tra loro indipendenti possono essere generalizzati al presente contesto dove le quantità
indipendenti sono i vettori ȳk . La formulazione del problema, infatti, è analoga. Con
riferimento al paragrafo (1.9), si indichino con H ed Hnew rispettivamente i regressori
ai passi t e t + 1:
H
Hnew = ∈ RNnew ×m (129)
H̄t+1
dove H ∈ RN ×m è il regressore relativo ad yN ed H̄t+1 ∈ Rnt+1 ×m è il regressore relativo
al vettore di misura ȳt+1 ∈ Rnt+1 ×1 ossia tale che Nnew = N + nt+1 e
dove
E[t+1 ] = 0 (131)
E[t+1 >
t+1 ] = R̄t+1 (132)
>
E[j t+1 ] = 0 ∀ j < t + 1. (133)
In analogia con il caso dei minimi quadrati pesati, il funzionale di costo da minimizzare
per ottenere la stima di massima verosimiglianza (se j ∼ N (0, R̄j ) ∀ j) è dato da:
1
JLR = (yN − H θ)> R−1 (yN − H θ) +
2
1 > −1
+ ȳt+1 − H̄t+1 θ R̄t+1 ȳt+1 − H̄t+1 θ (134)
2
dove R è la matrice di covarianza delle prime N misure scalari data in equazione (128).
Si noti che le lettere LR nella definizione del costo JLR in equazione (134) si riferiscono
Giovanni Indiveri, Università del Salento. VERSIONE 7 30
Indicando ora con θ̂ old la stima di θ al passo t − 1, ossia quella ottenuta filtrando yN e
tale per cui
H > R−1 yN − H θ̂ old = 0, (137)
imponendo che il gradiente ∇θ JLR in equazione (135) sia nullo si ha per la nuova stima
θ̂ new di θ:
θ̂ new = θ̂ old + KLR (t + 1) ȳt+1 − H̄t+1 θ̂ old (138)
−1
−1 −1
KLR (t + 1) = H > R−1 H + H̄t+1 >
R̄t+1 H̄t+1 >
H̄t+1 R̄t+1 (139)
−1
cov θ̂ new = (He [JLR ])−1 = H > R−1 H + H̄t+1 > −1
R̄t+1 H̄t+1 . (140)
Come per il caso dei minimi quadrati (pesati) ricorsivi, anche in questo caso l’implemen-
tazione diretta dell’equazione (139) per il calcolo in linea del guadagno KLR del filtro
potrebbe essere numericamente impegnativa in quanto implica il calcolo ad ogni passo
di una nuova matrice di dimensione m × m. Per ovviare a questa difficoltà è possibile
ricavare un’espressione ricorsiva per il calcolare il guadagno KLR sfruttando il Lemma
dell’inversione matriciale riportato nel paragrafo 1.9. In particolare, con riferimento al
citato enunciato del Lemma dell’inversione matriciale, si ponga G = H̄t+1 > , Q = R̄−1 ,
> −1
W = H̄t+1 e F = Sold = H R H essendo
−1
Snew = H > R−1 H + H̄t+1 >
R̄t+1 H̄t+1 . (141)
si ottiene la ricorsione
−1
> >
Vnew = Vold − Vold H̄t+1 R̄t+1 + H̄t+1 Vold H̄t+1 H̄t+1 Vold (144)
l’inversa di una matrice nt+1 × nt+1 essendo nt+1 la dimensione dell’ultima misura ȳt+1 .
Sulla base del risultato in equazione (144) il filtro può essere formulato come segue:
−1
> >
Vnew = Vold − Vold H̄t+1 R̄t+1 + H̄t+1 Vold H̄t+1 H̄t+1 Vold (145)
> −1
KLR (t + 1) = Vnew H̄t+1 R̄t+1 (146)
cov θ̂ new = Vnew (147)
θ̂ new = θ̂ old + KLR (t + 1) ȳt+1 − H̄t+1 θ̂ old (148)
avendo inizializzato Vold al valore della covarianza di una prima stima di θ ottenuta per
regressione lineare sui primi dati utili a disposizione.
Si noti che l’equazione (146) per il calcolo del guadagno KLR richiede, a differenza
−1
della ricorsione (145) per la covarianza della stima, che sia nota l’inversa R̄t+1 della
matrice di covarianza R̄t+1 delle misure al passo (t + 1). Nel caso in cui R̄t+1 sia
mal condizionata, l’implementazione dell’equazione (146) potrebbe comportare difficoltà
numeriche. Per ovviare a questo inconveniente, è possibile derivare una espressione
alternativa per KLR in cui compaia solo R̄t+1 e non la sua inversa. In particolare, tale
espressione è descritta in [1] dove viene derivata sulla base della definizione di KLR e
del Lemma di Inversione Matriciale ottenendo:
−1
> >
KLR (t + 1) = Vold H̄t+1 R̄t+1 + H̄t+1 Vold H̄t+1 . (149)
E [ω(k)] = 0 (152)
E [ε(k)] = 0 (153)
e covarianze
h i
cov(ω(k)) = E ω(k) ω(k)> = Q(k) (154)
h i
cov(ε(k)) = E ε(k) ε(k)> = R(k). (155)
e h i h i
E ω(j) ω(i)> = 0n×n , E ε(k) ε(l)> = 0q×q ∀ i 6= j, k 6= l. (157)
Per calcolo diretto, avviando la dinamica dello stato al passo 1 nel valore x(1), la
soluzione esplicita delle equazioni (150 - 151) risulta essere ∀ k ≥ 1:
k−1
X k−1
X
k−1 k−1−l
x(k) = A x(1) + A Bu(l) + Ak−1−j ω(j) (158)
l=1 j=1
k−1
X
y(k) = CAk−1 x(1) + CAk−1−l Bu(l) + Du(k) + δ(k) (159)
l=1
k−1
X
δ(k) := CAk−1−j ω(j) + ε(k) (160)
j=1
In pratica, però, l’equazione (161) non è utilizzabile per la mancata conoscenza della
condizione iniziale dello stato, ovvero di x(1). Indubbiamente, come noto nell’ambito
della Teoria dei Sistemi, il problema della stima dello stato per il modello in esame cor-
risponde al problema di calcolare il valore iniziale dello stato. Al fine di calcolare una
stima del valore iniziale dello stato x(1) può essere sfruttata l’equazione (159) ricondu-
cendo il problema a quello di stima parametrica essendo x(1) un vettore costante. In
particolare, con riferimento all’equazione (159), si noti che
k−1
X
yf (k) := CAk−1−l Bu(l) + Du(k) (162)
l=1
è la risposta forzata dell’uscita che è nota essendo noti, per ipotesi, tutti i termini nel
membro di destra. L’equazione (159) può dunque essere riformulata come
da cui si evince come la condizione di osservabilità dello stato (massimo rango della ma-
trice di osseravilità) corrisponda esattamente alla condizione di identificabilità espressa
dall’equazione (45). Inoltre, il regressore nell’equazione (165) può essere interpretato
come in equazione (129) (o (88) nel caso di misure scalari) ovvero come costituito da
un termine H relativo alle prime N (pseudo-)misure ȳ(1), ȳ(2), . . . , ȳ(N ) ed un ter-
mine H̄t+1 7→ CAN (h> 7→ CAN nel caso di misure scalari) corrispondente all’ultima
(pseudo-)misura ȳ(N + 1). Sulla base di questa osservazione, il parametro incognito
x(1) può essere stimato con l’algoritmo della regressione lineare ricorsiva (LR), ovvero
il WLS ricorsivo nel caso di misure scalari. A tal proposito si noti che in virtù della
natura gaussiana di ε e ω, anche δ è un disturbo gaussiano a media nulla. Ne segue che
la stima LR (o WLS) di x(1) corrisponderà alla stima a massima verosimiglianza ML
purché i pesi della soluzione LR (o WLS) siano scelti come l’inverso della covarianza di
δ(k). Dalla definizione di δ in equazione (160) segue che:
E [δ(j)] = 0 ∀ j (166)
h i
cov(δ(N + 1)) = cov(ȳ(N + 1)) = E δ(N + 1)δ(N + 1)> =
!
N N
X X N −l >
= E CAN −j ω(j) + ε(N + 1) ω(l)> A> C + ε(N + 1)> =
j=1 l=1
N
X N −j
= CAN −j Q(j) A> C > + R(N + 1). (167)
j=1
Applicando ora l’algoritmo della regressione lineare ricorsiva (paragrafo 1.11) alla
stima di x(1) si ottiene quanto segue:
dove si è indicato con x̂(j|k) la stima del vettore di stato al passo j avendo integrato
tutte le misure dal passo 1 al passo k.
Giovanni Indiveri, Università del Salento. VERSIONE 7 34
sia nota la stima x̂(k|k), il cui errore di stima ha valor atteso nullo (i.e. E[x(k)−x̂(k|k)] =
0) e covarianza P (k|k), avendo utilizzato la solita notazione (j|k) indicante l’argomento
della quantità in oggetto al passo j avendo integrato tutte le misure dal passo 1 al passo
k. La conoscenza di x̂(k|k) permette di calcolare la predizione della stima al passo k + 1
attraverso l’equazione di stato (150), ovvero:
essendo nulli entrambi gli addendi nel membro di destra. La covarianza della predizione
dello stato ad un passo vale quindi
h i
P (k + 1|k) = E (x̃(k + 1|k) − E[x̃(k + 1|k)]) (x̃(k + 1|k) − E[x̃(k + 1|k)])> =
h i
= E x̃(k + 1|k) x̃(k + 1|k)> =
h i
= E (A x̃(k|k) + ω(k)) (A x̃(k|k) + ω(k))> =
= A P (k|k) A> + Q(k) (179)
dove, per non appesantire la notazione, si è posto x = x(k + 1). Come già osservato
nel paragrafo (1.6), il criterio di stima espresso dalle equazioni (180 - 182) corrisponde a
quello della massima verosimiglianza nelle ipotesi correnti di normalità ed indipendenza
Giovanni Indiveri, Università del Salento. VERSIONE 7 36
delle incertezze associate alle equazioni di stato ed uscita. La stima MAP permette di
integrare in forma ottima due sorgenti di informazione indipendenti. L’ottimalità del
criterio è legata alla equivalenza con la massima verosimiglianza nel caso di disturbi
normali.
Al fine di calcolare la stima di cui in equazione (180) si cercano i valori di x che
annullino il gradiente del costo in equazione (181), ovvero
∇x JK (k + 1) = 0 =⇒
−1
P (k + 1|k) (x − x̂(k + 1|k)) − C > R(k + 1)−1 ỹ(k + 1) = 0 =⇒
−1
P (k + 1|k) (x − x̂(k + 1|k)) + (183)
> −1
−C R(k + 1) (y(k + 1) − Cx − Du(k + 1)) =
−1
P (k + 1|k) (x − x̂(k + 1|k)) +
−C R(k + 1)−1 (y(k + 1) − Cx − Du(k + 1) + C x̂(k + 1|k) − C x̂(k + 1|k)) =
>
P (k + 1|k)−1 + C > R(k + 1)−1 C (x − x̂(k + 1|k)) +
−C > R(k + 1)−1 (y(k + 1) − Du(k + 1) − C x̂(k + 1|k)) =
P (k + 1|k)−1 + C > R(k + 1)−1 C (x − x̂(k + 1|k)) − C > R(k + 1)−1 ỹ(k + 1) = 0
avendo indicato con ỹ l’errore tra la misura y e la sua stima ŷ, ovvero:
che corrisponde all’inversa della matrice di covarianza di x̂(k + 1|k + 1), ovvero
−1
P (k + 1|k + 1) = P (k + 1|k)−1 + C > R(k + 1)−1 C = (187)
−1
= P (k + 1|k) − P (k + 1|k)C > R(k + 1) + CP (k + 1|k)C > CP (k + 1|k) (188)
che inseime alle (176), (179) e (187 - 188) rappresentano le equazioni del filtro di Kalman.
Giovanni Indiveri, Università del Salento. VERSIONE 7 37
Dalle equazioni (176) e (189) (valutata al passo k piuttosto che k + 1) segue che
l’errore di stima (predizione ad un passo) x̃(k+1) := x(k+1)−x̂(k+1|k) ha un’evoluzione
che nelle ipotesi in equazioni (152 - 153) secondo cui ω(k) e ε(k) siano a media nulla
implica che
E[x̃(k + 1)] = A − (AK)C E[x̃(k)]. (192)
Come anticipato, l’equazione (193) per il guadagno K non dipende da R(k + 1)−1 né
direttamente né indirettamente.
L’equazione (195) è una equazione ricorsiva matriciale nota come equazione di Riccati a
tempo discreto (in inglese DRE, Discrete Riccati Equation). Si tratta di una equazione
ricorsiva e non lineare nell’incognita matriciale P . Si noti, però, che tale equazione non
dipende dai dati y e dunque in linea di principio può essere risolta a priori anche prima
(ossia off-line) del processo di misura e di stima.
Sotto opportune ipotesi sulla struttura del modello di stato in esame si può dimo-
strare che l’equazione matriciale ricorsiva di Riccati (195) tende ad una soluzione finita
e stazionaria. Questo risultato è di fondamentale importanza perché rivela che eventual-
mente anche il guadagno K del filtro di Kalman tende asintoticamente ad una costante.
In particolare si consideri il sistema lineare tempo invariante
Se
oppure se
è stabile, ovvero ha tutti gli autovalori di norma minore di 1 (stabilità del filtro). La
dimostrazione di questo importante risultato ed ulteriori elementi di analisi delle pro-
prietà asintotiche dell’equazione di Riccati e del filtro di Kalman (ivi inclusa l’analisi
dell’unicità della soluzione dell’equazione DARE (203)) sono riportate in [6].
dove P (k+1|k+1) è la matrice di covarianza della stima x̂(k+1|k+1) e può essere calco-
lata tramite l’equazione (208) o (209) a seconda delle circostanze e del condizionamento
della covarianza del rumore di misura R(k). In genere l’espressione (209) è preferibile
come già osservato in precedenza. Analogamente il guadagno del filtro al passo k + 1
può essere calcolato tramite l’equazione (210) o (211) a seconda delle circostanze. Per
l’implementazione del filtro è comunque necessario conoscere (in aggiunta alle misure
y ed alla forzante u) le matrici di covarianza R e Q, le matrici del modello A, B, C, D
e le inizializzazioni x̂(0|0) e P (0|0). Le matrici di covarianza della stima ad un passo
P (k+1|k) possono, in alternativa, anche essere calcolate tutte fuori linea a priori tramite
l’equazione di Riccati (195).
Nell’ipotesi che il sistema dinamico e le matrici di covarianza R e Q siano tempo
invarianti, se valgono le ipotesi di stabilizzabilità e rilevabilità discusse nel paragrafo
2.2, allora il filtro converge ad un sistema stazionario le cui equazioni possono essere
riassunte come segue:
−1
P̄ = A P̄ A> − A P̄ C > R + C P̄ C > C P̄ A> + Q> (213)
−1
K̄ = P̄ C > C P̄ C > + R (214)
x̂(k + 1|k) = A x̂(k|k) + B u(k) (215)
x̂(k + 1|k + 1) = x̂(k + 1|k) + K̄ y(k + 1) − C x̂(k + 1|k) − Du(k + 1) (216)
Al fine di rende tale espressione più compatta, nel seguito il gradiente e l’hessiano
calcolati in un dato punto x0 verranno indicati come
Data una stima a priori di x indicata con x̄ si consideri il costo non lineare
1
Jnl (x) = (x − x̄)> P −1 (x − x̄) + Ja (x) (220)
2
approssimabile in un intorno di x0 come
1
Jnl (x) ≈ (x − x̄)> P −1 (x − x̄) + Ja (x0 ) + ∇x Ja (x0 )> (x − x0 ) +
2
1
+ (x − x0 )> He [Ja (x0 )] (x − x0 ) . (221)
2
La matrice P ∈ Rn×n è simmetrica definita positiva e ponendo il gradiente dell’espres-
sione (221) uguale a zero si ottiene
∇x Jnl (x) = 0 =⇒
−1
P (x − x̄) + ∇x Ja (x0 ) + He [Ja (x0 )] (x − x0 ) = 0
P + He [Ja (x0 )] x = P −1 x̄ + He [Ja (x0 )] x0 − ∇x Ja (x0 ) +
−1
Si noti che il termine P −1 + He [Ja (x0 )] è l’hessiano del costo Jnl , ovvero
che è sempre invertibile. Ipotizzando che sia anche semi-definito positivo, il minimo
locale x∗ di Jnl sarà dato da
−1
x∗ = x̄ + Knl (x0 ) (x0 − x̄) − P −1 + He [Ja (x0 )] ∇x Ja (x0 ) (224)
−1
−1
Knl (x0 ) := P + He [Ja (x0 )] He [Ja (x0 )] . (225)
Si noti che nel limite P −1 → 0n×n il costo Jnl in equazione (220) si riduce al solo termine
Ja (x) mentre il guadagno Knl in equazione (225) tende all’identica n × n e l’espressione
in equazione (224) si riduce semplicemente all’algoritmo di Newton - Raphson
mentre lo sviluppo in Taylor del costo Ja (x) viene centrato ad ogni passo nella stima
del passo precedente (x0 7→ x̂(k|k)). In analogia con quanto avviene nel caso del filtro
di Kalman, la matrice peso dell’informazione a priori P (k + 1|k)−1 può (eventualmente)
essere interpretata come l’inversa della matrice di covarianza della predizione dello stato
ad un passo. Dall’equazione (232) segue che l’aggiornamento P (k + 1|k + 1) sarà dato
dal valore della matrice hessiana el costo Jnl al passo k + 1, ovvero
−1
P (k + 1|k + 1) = P (k + 1|k)−1 + He [Ja (x)]|x=x̂(k|k) . (234)
x̂(k + 1|k) =
f (x̂(k|k), uk ) (235)
∂f (x) >
∂f (x)
P (k + 1|k) = P (k|k) + Q(k) (236)
∂x x=x̂(k|k) ∂x x=x̂(k|k)
−1
P (k + 1|k + 1) = P (k + 1|k)−1 + He [Ja (x̂(k|k))] (237)
x̂(k + 1|k + 1) = x̂(k + 1|k) + Knl (k|k) x̂(k|k) − x̂(k + 1|k) +
−1
− P (k + 1|k)−1 + He [Ja (x̂(k|k))] ∇x Ja (x̂(k|k)) (238)
−1
Knl (k|k) := P (k + 1|k)−1 + He [Ja (x̂(k|k))] He [Ja (x̂(k|k))] . (239)
L’equazione (236) corrisponde all’equazione (179) del filtro di Kalman nelle ipotesi che
Q(k) sia la covarianza del rumore a media nulla ω(k) ipotizzato essere indipendente da
x.
digitali a tempo discreto per la riduzione del rumore in segnali campionati o per la sti-
ma delle loro derivate. La sintesi dei filtri FIR digitali è realizzata il più delle volte nel
dominio delle frequenze sebbene anche tecniche di sintesi nel domino del tempo abbiano
una certa rilevanza. Una tecnica di sintesi eventualmente meno conosciuta, ma dalle
grandi potenzialità, è quella nota come di Savitzky - Golay, dal nome degli autori del
lavoro [8] dove fu descritta per la prima volta.
h = (−nL , (−nL + 1), . . . , 0, 1, . . . , (nR − 1), nR )> ∈ R(nL +nR +1)×1 . (240)
Con la locuzione di ”centrare” la finestra h sul dato yi∗ intenderemo il considerare gli
nL + nR + 1 dati (yi∗ −nL , yi∗ −nL +1 , . . . , yi∗ , yi∗ +1 , . . . , yi∗ +nR ) che raccogliamo nel vettore
yi∗
yi∗ = (yi∗ −nL , yi∗ −nL +1 , . . . , yi∗ , yi∗ +1 , . . . , yi∗ +nR )> (241)
dove evidentemente per costruzione
0 ≤ µ < nL + nR . (242)
In particolare, tanto minore sarà µ, tanto maggiore sarà l’effetto ”filtrante” perchè tanto
minore sarà il grado del polinomio interpolante sulla finestra locale.
Con la notazione introdotta, i coefficienti θ SG del polinomio di ordine µ appros-
simanti i dati nel vettore yi∗ sono calcolabili con la tecnica dei minimi quadrati sul
Giovanni Indiveri, Università del Salento. VERSIONE 7 44
regressore
(−nL )2 (−nL )µ
1 −nL ...
1 −nL + 1 (−nL + 1)2 . . . (−nL + 1)µ
.. .. .. .. ..
. . . . .
1 0 0 ... 0
∈ R(nL +nR +1)×(µ+1)
H=
1 1 1 ... 1 (243)
1 2 4 ... 2µ
.. .. .. .. ..
. . . . .
1 (nR − 1) (nR − 1)2 ... (nR − 1)µ
1 nR n2R ... nµR
come
θ SG = (H > H)−1 H > yi∗ . (244)
I punti del polinomio interpolante saranno quindi determinati dalla relazione
dove c è appunto un vettore (colonna) avente come componenti gli elementi della riga
nL + 1 della matrice HSG . Il filtraggio si ottiene dunque con una operazione di prodotto
scalare tra un vettore c ed una ”finestra mobile” di dati di ampiezza nL + nR + 1. Tale
operazione corrisponde a tutti gli effetti ad una convoluzione tra un vettore definito dal
filtro ed un insieme dei dati come è tipico nel filtraggio FIR. L’aspetto forse più notevole
dell’algoritmo individuato è che il vettore c sia costante e del tutto indipendente dai dati:
dalla sua definizione nelle equazioni (245) e (247) segue che c sia calcolabile a priori una
volta definiti i parametri nL , nR e µ. Naturalmente, come per tutti i filtri causali, anche
quello appena descritto introduce un ritardo nel filtraggio: ovvero, per calcolare il valore
filtrato di indice i∗ servono sia nL dati precedenti che nR dati successivi.
y = Mx + ε (254)
Giovanni Indiveri, Università del Salento. VERSIONE 7 46
da cui segue che la identificazione sperimentale degli elementi della matrice M può
essere eseguita con le tecniche dei minimi quadrati (pesati, ricorsivi, a memoria finita e
quant’altro) utilizzando i dati sperimentali x(k) per costruire una matrice di regressione
H come
H= (256)
x1 (1) 0 0 x2 (1) 0 0 x3 (1) 0 0 x4 (1) 0 0
0 x1 (1) 0 0 x2 (1) 0 0 x3 (1) 0 0 x4 (1) 0
0 0 x1 (1) 0 0 x2 (1) 0 0 x3 (1) 0 0 x4 (1)
x1 (2) 0 0 x2 (2) 0 0 x3 (2) 0 0 x4 (2) 0 0
0 x1 (2) 0 0 x2 (2) 0 0 x3 (2) 0 0 x4 (2) 0
= 0 0 x1 (2) 0 0 x2 (2) 0 0 x3 (2) 0 0 x4 (2) .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k) 0 0
0 x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k) 0
0 0 x1 (k) 0 0 x2 (k) 0 0 x3 (k) 0 0 x4 (k)
Il problema della regressione è ancora una volta posto nella forma di equazione (37)
dove la matrice di regressione è data dalla equazione (256), il vettore dei parametri θ è
costituito dalle colonne della matrice M poste in colonna come in equazione (255) ed il
vettore delle misure y è dato dall’incolonnamento delle misure y(k).
Giovanni Indiveri, Università del Salento. VERSIONE 7 47
∞n−r if y ∈ range(M )
∗ ∗
m=n 1
∗ ∗ 0 if y ∈
/ range(M )
∞n−r if y ∈ range(M )
∗ ∗ ∗
m<n ∞n−m
∗ ∗ ∗ 0 if y ∈
/ range(M )
y = Mx
can be addressed with the tools of linear algebra and it basically depends on the dimen-
sion of M and on its rank. In order to summarize the situation relative to the existence
of solutions to the inverse of a linear algebraic equation, consider the model
where M is said to be full rank if r = min{n, m} in equation (259) and is said to be rank
deficient if r < min{n, m}. The dimension of the kernel and the rank r of M ∈ Rm×n
satisfy
dim(ker(M )) + r = n. (260)
The number of solutions of the inverse of equation (258), i.e. the number of possible x
vectors satisfying equation (258) for a given y is summarized in table 1. When more
than one solution is present there are actually infinite solutions: in this case, solving
the inverse of y = M x consists in selecting one specific solution among the infinite. In
particular, one can define an optimization criteria allowing to select an optimal solution
among all the possible ones. When there is no solution one can define an optimization
criteria allowing to determine an approximate solution optimizing the criteria. In order
to build a general solution valid for all cases listed in table 1 a suitable optimization
criteria needs to be chosen such that it applies to the case of no solution, infinite solutions
and one solution. In the case of a single solution (square full rank M ), in particular,
Giovanni Indiveri, Università del Salento. VERSIONE 7 48
the method needs to lead to x = M −1 y. The general solution to the inverse problem
consists in computing the least norm x that minimizes the least squares error ky−M xk2 ,
namely
In order to compute the solution x̂ of equation (261), consider first the very special case
where
All entries of matrix D are null except the first r elements on its principal diagonal. In
such case the least squares cost is
m n
!2
X X
ky − Dxk2 = yl − δl,k σk xk (265)
l=1 k=1
where δi,j is the Kronecker delta. The x value minimizing the least squares cost (265)
is obtained by setting its gradient to zero. In particular
m n
!2
d X d X
ky − Dxk2 = yl − δl,k σk xk =
dxh dxh
l=1 k=1
m n n
" ! !#
X X d X
=2 yl − δl,k σk xk yl − δl,k σk xk =
dxh
l=1 k=1 k=1
m n
" ! n !#
X X X
= −2 yl − δl,k σk xk δl,k σk δk,h =
l=1 k=1 k=1
m
X
= −2 [(yl − σl xl ) σl δl,h ] = −2(yh − σh xh )σh = 0. (266)
l=1
x̂ = D# y (268)
1 1 1
D# = diag , , . . . , , 0, . . . , 0 ∈ Rn×m (269)
σ1 σ2 σr
Giovanni Indiveri, Università del Salento. VERSIONE 7 49
rank(M ) = r (272)
ker(M ) = span{vr+1 , . . . , vn } (273)
range(M ) = span{u1 , . . . , ur }. (274)
In the light of property (272) the so called condition number κ of a matrix M is defined
as
σ1
κ=
σr
and it may be used as a measure of how far M is from being singular. The condition
number is of crucial importance in numerical analysis. The squared singular values are
eigenvalues of M > M :
U >M V = D =⇒ M = U DV > =⇒
> > >
M M = V D DV =⇒ (275)
> >
M MV = V D D (276)
showing that the columns of V are the eigenvectors of M > M . Equivalently it can be also
concluded that the columns of U are the eigenvectors of M M > having as eigenvalues
the diagonal elements of the matrix DD> .
In the light of the solution in equations (268 - 269) and of the SVD Theorem 1, the
solution to the problem in equations (257 - 259), (261) is given by
x̂ = V D# U > y (277)
the proof being left as excersize. The matrix V D# U > in equation (277) is called the
pseudo - inverse of M = U DV > and it will denoted by M # , i.e.
M # = V D# U > . (278)
Giovanni Indiveri, Università del Salento. VERSIONE 7 50
Notice that when r < n and the kernel of M is not empty, a least squares solution to
y = M x is given by
This can be proven by direct calculation by setting equal to zero the gradient of ky −
M xk2 :
∇x ky − M xk2 = ∇x y> y − 2x> M > y + x> M > M x
= −2 M > y − M > M x = 0 (281)
known as the normal equation of Least Squares (LS). In the current hypothesis M ∈
Rm×n with n < m and rank(M ) = n hence the n × n square matrix M > M has full
rank n (this follows observing that due to its full rank, M x 6= 0 for any x 6= 0 and
by the property of the vector norms kM xk2 = x> M > M x = 0 if and only if x = 0.
This not only proofs that M > M has full rank n, but also that the hessian 2 M > M of
ky − M xk2 is positive definite and hence that the value where the gradient is null is a
minimum). As a consequence the square matrix M > M is invertible and equation (281)
admits a unique solution given by equation (280) that will also be the unique solution
to the problem (261), i.e. x∗ = x̂. Notice that if M should have rank lower than n, also
M > M would and equation (281) could not be solved by simply inverting M > M (indeed
in this case the SVD approach should be used). Finally also notice that the solution in
equation (280) is a perfect one if y ∈ range(M ) and it would correspond to M −1 y if
m = n and M had rank n.
Summarizing, it was shown that if M ∈ Rm×n with n ≤ m and rank(M ) = n the
solution to problem (261) can be computed as
( −1 >
M >M M y if n < m, rank(M ) = n
x̂ = (282)
M −1 y if n = m, rank(M ) = n
Indeed, if m < n and M has rank m, then y is certainly in the range of M . The solution
to problem (261) can thus be sought for by searching for the least norm x satisfying the
constraint y = M x. The constrained optimization problem can be formulated through
the Lagrange multiplier technique, namely
Notice that equation (287) could not have been solved as in (288) in case of a rank
deficient M : in such case, the SVD approach would be needed. As expected, equation
(289) reduces to x̂ = M −1 y if m = n and rank(M ) = m.
The matrices in equations (280) and (289) associated to a full rank M are also known
as left and right pseudo - inverses respectively. In particular if M ∈ Rm×n , denoting
with
it follows that
illustrating the reason for the names of left and right pseudo - inverses. Again, notice
that if m = n and rank(M ) = n = m then ML† = MR† = M −1 . By direct calculation it
follows that the SVD based pseudo inverse M # in equation (278) generalizes the the left
and right pseudo - inverses in equations (290) and (291) in the case of rank deficiency of
M . In particular, if r =rank(M ) ≤ min{m, n} the properties of the SVD allow to proof
(by direct calculation) that
# Ir×r 0r×(n−r)
M M= (295)
0(n−r)×r 0(n−r)×(n−r)
Giovanni Indiveri, Università del Salento. VERSIONE 7 52
and
# Ir×r 0r×(m−r)
MM = . (296)
0(m−r)×r 0(m−r)×(m−r)
The right pseudo - inverse MR† in equation (291) can be exploited to compute a projector
operator in the kernel of M . Indeed consider the idempotent matrix Pker defined as
for some x0 ∈ Rn×1 . Of course, according to the previously derived formulation, the least
norm solution x̂ is obtained by selecting x0 = 0. The general solution in equation (299)
is equivalent to the SVD based version in equation (279) except for the (fundamental)
difference that equation (299) makes only sense for a full rank M with m < n, while the
full rank requirement is not necessary for equation (279).
where it should be noticed that (M > M + δIn×n ) ∈ Rn×n has rank n, and is thus
invertible, for any δ > 0 regardless of the rank of M (the proof is left as exercise). The
damped least squares left pseudo - inverse thus results in
†
ML−DLS := (M > M + δIn×n )−1 M > (303)
δ > 0 if rank(M ) = r < n
where . (304)
δ ≥ 0 if rank(M ) = r = n
†
In the full rank case above, the choice δ = 0 leads to ML−DLS = ML† . The damped LS
solution in equation (303) has the advantage of being always well defined regardless of
the rank of M , but it will not generally allow to determine the optimal (in the sense
†
of problem (261)) solution to the inverse of y = M x. In particular ML−DLS is an
# # †
approximation of M that coincides with M (and with ML ) only when rank(M ) = n
and δ = 0. In order to comprehend the nature of the approximation when δ > 0,
†
consider ML−DLS in terms of the singular value decomposition of M . In particular
revealing that δ should be possibly chosen to be negligible with respect to the largest
singular values and of the order of the smallest non null (numerically) acceptable singular
†
value. The robustness of the damped LS solution ML−DLS is related to the fact that if
Giovanni Indiveri, Università del Salento. VERSIONE 7 54
†
σr (or more singular values of M ) should go to zero, equation (309) reveals that ML−DLS
computed as in (303) remains well defined.
Finally, consider the case m < n (fewer lines than columns) and rank(M ) = r < m:
in such case, the right pseudo - inverse in equation (291) will be ill defined because the
symmetric matrix M M > ∈ Rm×m will have rank r < m and it will not be invertible.
From a geometrical point of view, this occurs because for a rank deficient M , the con-
straint equation y = M x might admit no solution as y may not belong to the image
of M . As a consequence, the optimization problem in equation (283) is not guaranteed
to admit a solution: hence the numerical divergence of the explicit solution in equation
(289) that was derived in the hypothesis that at least one x satisfying the constrained
y = M x existed. Interestingly, a possible technical method to overcome this difficulty
†
is exactly equal to the one used to derive the damped LS left pseudo - inverse ML−DLS .
Namely, given that for a rank deficient M the constrain y = M x may not admit an
exact solution (if y ∈
/ range(M )), the constrained cost function C in equation (284) may
be modified replacing the hard constrain term λ> (y − M x) with a soft penalty term as
ky − M xk2 to be weighted with respect to the other penalty term kxk2 . As a result,
one would obtain a new cost function
Cnew = ky − M xk2 + δkxk2 : δ > 0. (310)
that is exactly identical to the damped LS cost CDLS in equation (300). The weighting
term δ > 0 should now be interpreted as adjustable tuning gain that better promotes
solutions approximating the satisfaction of the constrain y = M x the smaller it is. Of
course, the optimal xopt value minimizing Cnew is given by
†
xopt = xDLS = (M > M + δIn×n )−1 M > y = ML−DLS y. (311)
Yet notice that having now assumed m < n, the inverse (M > M + δIn×n )−1 to be
†
computed in the ML−DLS is of larger dimension than M M > ∈ Rm×m that appears in
the right pseudo - inverse MR† (291) when M has (full) rank m. This means that in
the given hypothesis m < n and rank(M ) = r < m < n, the damped (or regularized)
solution xopt (311) to the inversion of y = M x would require the inversion of a larger
matrix than necessary when m < n and rank(M ) = r = m < n, i.e. MR† in equation
(291). Interestingly, it can be proven that this is not the case: in particular, exploiting
the same SVD approach exploited to derive D̃# in equation (307), it can be proven (by
exercise) that
(M > M + δIn×n )−1 M > = M > (M M > + δIm×m )−1 . (312)
In the light of the above, the right hand side M > (M M > + δIm×m )−1 can be thought of
as a right damped LS pseudo - inverse indicated as
†
MR−DLS := M > (M M > + δIm×m )−1 . (313)
† †
where of course MR−DLS = ML−DLS . Given that in practice it is always more convenient
to invert the smallest possible matrix, the damped LS pseudo - inverse can be finally
defined as
M > (M M > + δIm×m )−1 if rank(M ) = r < m < n
†
MDLS = (314)
(M > M + δIn×n )−1 M > if rank(M ) = r < n < m
† † †
where δ > 0 and MDLS = ML−DLS = MR−DLS are defined in equations (303) and (313)
respectively.
Giovanni Indiveri, Università del Salento. VERSIONE 7 55
Riferimenti bibliografici
[1] Samuel L. Fagin, Recursive linear regression theory, optimal filter theory, and error
analyses of optimal systems, 1964 IEEE International-Conv. Rec., vol.12, pt. i., pp.
216 - 240
[2] Arthur Earl Bryson and Yu-Chi Ho, Applied optimal control: optimization,
estimation, and control, Taylor & Francis, 1975, ISBN 0891162283.
[3] Andrew H. Jazwinski, Stochastic Processes and Filtering Theory, Dover Publica-
tions, Inc. New York, USA, 2007, ISBN-13: 978-0-486-46274-5 (unabridged re-
publication of the work originally published by Academic Press, Inc. New York,
1970).
[4] Thomas Kailath, Ali H. Sayed and Babak Hassibi, Linear estimation, Prentice Hall,
2000, ISBN 0130224642.
[6] Brian D. O. Anderson and John B. Moore, Optimal Filtering, Prentice Hall, 1979
[7] Gene H. Golub and Charles F. Van Loan, Matrix Computations, Johns Hop-
kins Studies in the Mathematical Sciences, Johns Hopkins University Press, ISBN:
9780801854149, 1996
[8] Abraham Savitzky and Marcel J. E. Golay, Smoothing and Differentiation of Data
by Simplified Least Squares Procedures, Anal. Chem., 1964, vol. 36, num. 8, pp
1627 – 1639 DOI: 10.1021/ac60214a047
[9] William H. Press, Saul A. Teukolsky, William T. Vetterling, and Brian P. Flannery,
Numerical recipes in C, Second Edition, Cambridge University Press, 1992