Sei sulla pagina 1di 55

Introduzione alla tecnica dei Minimi Quadrati per l’identificazione parametrica e la stima dello stato

Giovanni Indiveri

Universit`a del Salento - DII, Dipartimento di Ingegneria dell’Innovazione, Via Monteroni, 73100 Lecce, Italia

giovanni.indiveri@unisalento.it

26 maggio 2016

Indice

1 L’identificazione del modello tramite i minimi quadrati

 

2

1.1 Massima Verosimiglianza e Minimi Quadrati .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

4

1.2 Richiami di algebra matriciale.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

1.3 Richiami sulla derivazione di funzioni vettoriali

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

1.4 Modelli lineari nei parametri ed equazioni normali dei minimi quadrati .

9

1.4.1 La matrice di covarianza dei parametri .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

12

1.4.2 Ulteriori considerazioni sulla identificabilit`a parametrica

 

15

1.4.3 La stima ai minimi quadrati pesati con l’inversa della matrice di

 
 

covarianza del rumore di misura `e BLUE

 

.

.

.

.

.

.

.

.

.

.

.

.

.

17

1.5 Minimi quadrati ordinari, pesati e generalizzati

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

19

1.6 Integrazione di informazione a priori e stima MAP

.

.

.

.

.

.

.

.

.

.

.

.

20

1.7 - DA COMPLETARE - Natura BLUE dello stimatore MAP

.

.

.

.

.

.

22

1.8 Stimatore a minimo errore quadratico medio (MEQM)

.

.

.

.

.

.

.

.

.

.

22

1.8.1

Stimatore MMSE (o MEQM) per variabili gaussiane

.

.

.

.

.

.

.

23

1.9 Minimi quadrati (pesati) in forma ricorsiva.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

23

1.10 Minimi quadrati (pesati) a memoria finita

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

26

1.10.1

Formulazione ricorsiva dei Minimi Quadrati Pesati a Memoria .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

27

1.11 Regressione Lineare Ricorsiva.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

28

2 Stima ai Minimi Quadrati per l’Osservazione dello Stato

 

31

2.1 Il filtro di Kalman

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

34

2.2 Evoluzione di P (k + 1|k): l’equazione di Riccati .

.

.

.

.

.

.

.

.

.

.

.

.

.

38

2.3 Equazioni del filtro di Kalman

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

39

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

2

3

Stima dello stato da minimizzazione di funzioni di costo non lineari

 

40

3.1 Introduzione: stima di uno stato stazionario .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

40

3.2 Stima ricorsiva

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

42

4

Altre applicazioni della tecnica Minimi Quadrati

 

42

4.1 I filtri di Savitzky - Golay

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

43

4.2 I filtri derivatori di Savitzky - Golay

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

44

4.3 Identificazione di modelli lineari .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

45

APPENDIX: the Singular Value Decomposition and Least Squares

 

47

Riferimenti bibliografici

 

55

Sommario

Si prega di non distribuire, riprodurre o copiare queste note senza il consenso dell’autore. Si ringrazia anticipatamente per le segnalazioni di eventuali errori la cui assenza non `e in alcun modo garantita.

1 L’identificazione del modello tramite i minimi quadrati

Nell’aprire queste note, sebbene forse non sia una prassi del tutto ortodossa nell’ambito della letteratura scientifica, vorrei esprimere brevemente il mio parere personale sul valore culturale e sull’utilit`a pratica del metodo dei minimi quadrati. In sintesi, ritengo che il metodo dei minimi quadrati sia una delle scoperte scientifiche pi`u significative della matematica: nella loro semplicit`a, i minimi quadrati hanno permesso di risolvere problemi di stima nei pi`u disparati ambiti della scienza. Moltissime tecniche moderne nell’ambito dell’elaborazione dei segnali, della visione artificiale, dell’econometria, della statistica, dell’automazione e della scienza dei sistemi poggiano su varianti pi`u o meno elaborate dei minimi quadrati. Il filtro di Kalman, la decomposizione ai valori singolari, l’identificazione parametrica dei modelli sono solo alcune tecniche interpretabili alla luce del metodo dei minimi quadrati. La storia della scoperta del metodo dei minimi quadrati (Least Squares in inglese, abbreviato a volte come LS nel seguito) `e di suo molto interessante, ma non verr`a descritta qui in dettaglio. Basti sapere che i padri del metodo sono stati scienziati della statura di Adrien-Marie Legendre, Pierre-Simon Laplace e, in particolare, Carl Friedrich Gauss. Tra la fine del settecento ed i primi anni dell’ottocento, non senza polemiche in merito alla paternit`a del metodo, questi scienziati hanno messo a punto la tecnica oggi nota come dei minimi quadrati. Gauss `e oggi riconosciuto come il maggiore fautore del metodo a cui giunse studiando il problema della determinazione delle orbite di corpi

celesti.

E significativo sottolineare come l’introduzione della distribuzione di probabilit`a

normale (o gaussiana, per la quale oggi Gauss `e forse maggiormente noto) sia stato un sotto-prodotto dello studio di Gauss sui minimi quadrati e non il viceversa. Per entrare nel merito del metodo e della sua utilit`a, vediamo subito a cosa possa servire. Molti problemi scientifici e tecnologici richiedono che sia noto il modello mate- matico del sistema oggetto di studio: i problemi di controllo, ad esempio, sono spesso formulati assumendo che il modello ingresso uscita nel dominio del tempo sia assegnato e noto. In particolare questi modelli contengono delle costanti (parametri) assunte note. Come si pu`o procedere se queste costanti non fossero note? Se il sistema di interesse

`

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

3

fosse, per esempio, un sistema massa - molla con attrito, esso sarebbe descritto da una equazione del tipo M y¨ = b y˙ k y + f (t) dove M `e la massa, k la costante elastica della molla e b il coefficiente di attrito ed f (t) un ingresso esogeno (forzante). In questo caso M, k e b sarebbero i parametri del sistema i cui valori determinano l’andamento

di

y(t) una volta fissati i valori iniziali y(t 0 ), y˙(t 0 ) e la forzante f (t). Il problema del-

la

identificazione parametrica di questo modello consiste nel cercare di determinare il

valore dei parametri M, k e b dalla conoscenza di y(t), y˙(t) ed f (t). Questo problema ha una grande rilevanza pratica poich´e molto spesso `e nota la struttura matematica delle equazioni che governano un dato sistema, ma non i suoi parametri. In termini pi`u astratti, possiamo formulare il problema cos`ı:

Dato un modello y(t) = S(θ, u(t)) con y(t) R uscita, u(t) R ingresso e θ R n×1 vettore dei parametri, il problema della identificazione parametrica consiste nel determi- nare θ dalla misura di y(t) ed u(t). Questa operazione viene detta di stima parametrica ed in senso lato consiste nell’invertire il modello S. Come per tutte le operazioni di

inversione, anche quella di stima parametrica `e delicata e pu`o essere compiuta solo sot-

to opportune ipotesi di esistenza e regolarit`a del modello stesso per i dati segnali di

ingresso u(t) ed uscita y(t).

Il risultato della stima di θ viene convenzionalmente in-

 

ˆ

dicato con un cappello

θ per distinguere esplicitamente il valore vero (ed incognito)

ˆ

di

θ da quello stimato

θ.

La stima, infatti, viene realizzata usando misure discrete

y k = y(kT ), u k = u(kT ) di y(t) ed u(t) soggette a rumore ed incertezza sperimentale

ˆ

per cui `e naturale aspettarsi che, in generale, sia θ θ

u(kT ) `e impostato dallo sperimentatore, molto spesso l’incertezza su questo segnale `e

= 0. Poich´e il segnale di ingresso

ˆ

trascurabile e quindi trascurata rispetto quella sull’uscita y(kT ). In questo senso θ pu`o

essere pensata come funzione della sola y(kT ). Il problema della stima, quindi, consi-

ster`a nella individuazione di un algoritmo Ω(·) tale per cui dato intervallo. Indicando con Z N = {y(kT ) : k = 0, 1, 2,

misure disponibili di y(t), possiamo distinguere due possibili scenari: quello Bayesiano

in cui θ sia una variabile stocastica e quello non Bayesiano in cui θ sia una variabile de-

terministica. Nel primo caso esister`a una densit`a di probabilit`a (pdf, probability density

function) a priori di θ, p(θ) mentre nel secondo no. Gli algoritmi di stima parametrica associati ai due scenari corrispondono ai seguenti schemi:

θ = Ω(y k , S) per k in un , N 1} l’insieme delle N

ˆ

Approccio Bayesiano:

ˆ

θ MAP = arg max p(θ|Z N ) = arg max

θ

θ

p(Z N |θ) p(θ)

p(Z N )

Approccio non Bayesiano:

ˆ

θ ML = arg max p(Z N |θ).

θ

ˆ

(1)

(2)

θ `e una variabile stocastica in

quanto funzione delle misure y(kT ) che sono quantit`a stocastiche. I due approcci cor- rispondono a filosofie distinte ed hanno domini di applicazioni diversi. Una dettagliata analisi delle loro propriet`a e legami esula dagli scopi qui perseguiti. Si noti solo che nel-

l’ambito dell’approccio Bayesiano la stima di θ `e la moda della probabilit`a a posteriori di θ date le misure sperimentali, p(θ|Z N ). Di qui l’acronimo MAP , maximum a posteriori. La probabilit`a a posteriori di θ dato Z N pu`o essere calcolata dalla regola di Bayes in funzione delle probabilit`a a priori di θ e Z N e quella a posteriori di Z N dato θ come in equazione (1). Nella stima MAP `e strutturalmente presente una fusione dell’informa-

Si noti che in entrambi i casi, il risultato della stima

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

4

zione a priori su θ data dalla presenza del termine p(θ) nella equazione (1). La funzione p(Z N |θ) `e la probabilit`a a posteriori delle misure dato il vettore dei parametri e nella letteratura in lingua inglese `e nota come likelihood (verosimiglianza). Questo termine dipende dallo specifico modello S del sistema e dalle propriet`a stocastiche dell’errore su y(kT ). L’approccio non Bayesiano, o deterministico, corrisponde quindi a quello noto come Maximum Likelihood ovvero della Massima Verosimiglianza e corrisponde a stima-

re

θ come il vettore dei parametri che massimizzi l’evidenza sperimentale delle misure

y(kT ) dato un modello S. Nel seguito ci soffermeremo solo su questo approccio che `e il pi`u naturale quando i parametri da stimare siano costanti fisiche deterministiche di sistemi statici o dinamici.

ˆ

1.1 Massima Verosimiglianza e Minimi Quadrati

ˆ

Per calcolare la stima θ ML in equazione (2) bisogna determinare la funzione di likelihood p(Z N |θ) dato il modello y(t) = S(θ, u(t)). Se ipotizziamo che l’errore di misura su y(kT ) sia ε(kT ) e che sia distribuito gaussianamente con media nulla, ossia se:

segue che

y(kT )

 

ε

p(y(kT )|θ)

=

=

S(θ, u(kT )) + ε(kT ) N (0, σ y )

1

2π σ y (kT ) e

[y(kT )S(θ,u(kT ))] 2

2

2σ y (kT )

(3)

(4)

(5)

dove si evidenzia esplicitamente che il rumore su ciascuna misura y(kT ) ha deviazione standard σ y (kT ). Nell’ipotesi che le singole misure y(kT ) siano tra loro indipendenti, la densit`a di probabilit`a p(Z N |θ) `e calcolabile come il prodotto delle singole gaussiane (5):

p(Z N |θ)

=

1

C e

N1

k=0

[y(kT )S(θ,u(kT ))] 2

2

2σ y (kT )

=

1

C e

2 1 N1

k=0

y(kT ) ) S(θ,u(kT ))

σ y (kT

σ y (kT )

2

(6)

dove C `e la costante di normalizzazione. La stima ML di θ data dalla equazione (2) corrisponder`a dunque al massimo della equazione (6) ovvero equivalentemente al minimo di:

La stima

J W LS

=

1

2

N1

k=0

y(kT ) ) S(θ, u(kT ))

σ y (kT

σ y (kT )

2

.

ˆ

θ W LS = arg min

θ

1

2

N1

k=0

y(kT ) ) S(θ, u(kT ))

σ y (kT

σ y (kT )

2

(7)

(8)

ottenuta minimizzando la funzione di costo (7) `e detta dei minimi quadrati pesati

(weighted least squares, da cui l’acronimo WLS) e, come appena dimostrato, essa coin-

ˆ

θ ML nelle ipotesi che le misure siano

indipendenti e distribuite gaussianamente e che i pesi nel funzionale di costo (7) siano le deviazioni standard delle misure. Al di l`a di questa equivalenza che ne giustifica l’impor- tanza nell’ambito di un approccio probabilistico, la stima ai minimi quadrati ha una sua valenza intrinseca che risiede nel significato geometrico di minimizzare il funzionale di

cide con la stima di massima verosimiglianza

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

5

costo quadratico (7). Supponendo che le varianze σ 2 (kT ) in J W LS (7) siano tutte uguali

ad una setssa costante, la quantit`a J W LS (7) sarebbe proporzionale all’errore quadratico

medio di interpolazione. Quando le varianze delle singole misure differiscono tra loro,

significa che ciascuna misura y(kT ) viene pesata proporzionalmente alla sua incertezza.

ˆ

Nel caso in cui il modello S(θ, u(t)) sia lineare in θ il vettore θ W LS dato dalla (8) pu`o

essere calcolato analiticamente e questo giustifica la grandissima diffusione del metodo

dei minimi quadrati per modelli lineari nei parametri.

chiusa per

differenziazione di funzioni vettoriali e su alcune propriet`a delle matrici.

θ W LS quando S(θ, u(t)) `e lineare in θ sono necessari alcuni richiami sulla

Al fine di dedurre una forma

ˆ

1.2 Richiami di algebra matriciale.

Data una funzione V (x) a valori scalari di variabile vettoriale

 

V : R n×1 −→ R

 

(9)

essa si dice essere

 

definita positiva se

V (x) > 0

x R n×1 = 0

(10)

definita negativa se

V (x) < 0

x R n×1 = 0

(11)

semi-definita positiva se

V (x) 0

x R n×1 = 0

(12)

semi-definita negativa se

V (x) 0

x R n×1 = 0.

(13)

Di

particolare interesse `e la funzione scalare di variabile vettoriale

 

V P (x) =

1

2 x Px

: x R n×1 , P R n×n

(14)

detta forma quadratica. Se la matrice quadrata P `e diagonalizzabile, il che `e sicuramente vero se P `e simmetrica, allora il carattere (semi) definito positivo o negativo di V P `e

n

legato univocamente al segno degli autovalori di P . In particolare detti λ i : i = 1, 2,

gli

n autovalori della matrice P ,

 
 

V P =

1

2 x P x

:

P diagonalizzabile con autovalori λ i : i [1, n]

V P

`e definita positiva ⇐⇒ λ i > 0

i [1, n]

V P

`e definita negativa ⇐⇒ λ i < 0

i [1, n]

V P

`e semi-definita positiva ⇐⇒ λ i 0

i [1, n]

V P

`e semi-definita negativa ⇐⇒ λ i 0

i [1, n].

La

dimostrazione segue dall’osservazione che per una P diagonale avente elementi

P ij = p i δ ij

essendo δ ij la delta di Kronecker

la forma quadratica V P vale

V P = 1

2

δ ij =

n

n

i=1

j=1

1

0

se

se

i = j

i

= j

P ij x i x j = 1

2

n

i=1

p i x

2

i .

(15)

(16)

(17)

(18)

(19)

(20)

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

6

Considerata la grande utilit`a delle funzioni quadratiche, `e frequente associare un segno alle matrici quadrate in base alla natura (semi) definita positiva o negativa della forma quadratica a loro associata. Ossia con un leggero abuso di notazione, data la matrice quadrata P R n×n , si indica

P

> 0

se

P

< 0

se

P

0

se

P

0

se

1 2 x P x

2 1 x P x

1 x P x

2

2 1 x P x

`e definita positiva

(21)

`e definita negativa

(22)

`e semi-definita positiva

(23)

`e semi-definita negativa.

(24)

Si noti che una matrice quadrata potrebbe non appartenere ad alcuna delle categorie

elencate, ossia non `e assolutamente detto che ogni matrice abbia segno definito. esempio

1

0

non ha segno definito. Si noti inoltre che ogni matrice simmetrica di segno definito (positivo o negativo) `e invertibile, mentre ogni matrice simmetrica con segno solo semi- definito `e sicuramente sempre non invertibile. Le matrici quadrate usate nel definire una forma quadratica come in equazione (14) sono solitamente simmetriche: questo perch´e ogni matrice pu`o essere sempre scompo- sta nella somma di una simmetrica ed una anti-simmetrica ed il contributo alla forma quadratica del termine anti-simmetrico `e sempre identicamente nullo. Infatti

Per

P =

1

0

e risulta che

 

A

=

R n×n =A + A

:

A s

 

2

 

A A

A a =

 

:

2

1

2 x A a x R

=

A = A s + A a

dove

A s = A

s

termine simmetrico

A a = A

a

termine anti-simmetrico

2 x A a x = 2 x A a x

1

1

ma anche

1 2 x A a x = 1 x A

2 x = 2 x A a x = 0

a

1

poich´e il trasposto di uno scalare `e se stesso e l’unico numero reale uguale al suo opposto

`e lo zero. Dunque l’unico termine che pu`o dare contributo non nullo ad una forma

quadratica viene dalla parte simmetrica della matrice ad essa associata da cui segue che ai fini del calcolo di una forma quadratica `e sufficiente considerare solo matrici simmetriche. Data una matrice quadrata A, se l’inversa A 1 esiste, allora `e unica. Da questa osservazione segue che le operazioni di inversione e trasposizione commutano. Ossia:

(25)

A 1 = A 1 .

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

7

Infatti

A 1 A = I = A 1 A = I = I =

A A 1 = I

ma vale anche che

A A 1 = I

ed in virt`u della unicit`a dell’inversa di A , segue la tesi (25).

Dati due vettori x, y R n×1 il loro prodotto scalare `e x y R che si pu`o pensare co-

me il prodotto righe per colonne.

finito ancora in base alla regola righe per colonne. Nel caso di due vettori bidimensionali

x = (x 1 x 2 ) , y

E ` utile considerare anche il prodotto x y R n×n de-

= (y 1 , y 2 ) si avrebbe

xy = x x

1

2

(y 1 y 2 ) =

x

x

y

1

2 y 1

1

x

x

y

1

2 y 2

2

.

Si noti che per ogni x R n×1 la matrice x x R n×n `e simmetrica. In merito al legame tra invertibilit`a di matrici simmetriche e la definitezza del loro segno, `e utile osservare quanto segue.

Proposizione P1 Si considerino due matrici H R n×m ed R 1 R n×n . Sia R 1 simmetrica e definitiva positiva (e dunque invertibile), allora la matrice simmetrica H R 1 H R m×m `e inverti- bile se e solo se H ha rango pari ad m, ossia rank(H) = m. Inoltre, se rank(H) = m allora H R 1 H `e definita positiva mentre se rank(H) < m allora H R 1 H `e semi-definita positiva.

Dimostrazione. La dimostrazione segue per calcolo diretto. Se H ha rango stretta- mente minore di m, il suo nucleo non `e vuoto: ma poich´e un qualunque elemento del

nucleo di H `e anche elemento del nucleo di H R 1 H, segue che se rank(H) < m allora H R 1 H non `e invertibile (non ha nucleo vuoto).

Supponiamo al contrario che H abbia rango m: allora x R m×1 : x

= 0 si ha

y = Hx

R 1 `e definita positiva per ipotesi. Questo dimostra che se H ha rango m la forma quadratica associata a H R 1 H `e definita positiva e dunque H R 1 H `e invertibile.

= 0 vale x H R 1 Hx = y R 1 y > 0 : y = 0 poich´e

= 0.

Ne segue che x

Infine se rank(H) < m, la forma quadratica x H R 1 Hx varr`a

x H R 1 Hx =

0 se x : Hx = 0

y R 1 y > 0 altrimenti

dove y = Hx

ipotesi. Dunque se H ha rango strettamente minore di m (rank(H) < m) segue che

x H R 1 Hx 0.

= 0 e la seconda condizione vale in quanto R 1 `e definita positiva per

Proposizione P2 Siano date H R n×m , R 1 R n×n e P 1 R m×m con R 1 e P 1 simmetriche e definite positive. Allora la matrice simmetrica

H R 1 H + P 1

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

8

`e definita positiva ed invertibile qualunque sia il rango di H.

Dimostrazione. La dimostrazione segue dall’osservazione che la somma di una matri- ce definita positiva (P 1 ) e di una definita o semi-definita positiva (H R 1 H) `e sempre definita positiva ed, in quanto tale, invertibile.

1.3 Richiami sulla derivazione di funzioni vettoriali

Sia

il vettore colonna

f : R n×1 −→ R

x

∂x 1 , ∂x 2 , x 3 ,

∂x n

`e l’operatore gradiente tale per cui il vettore

x f(x) = f(x) ∂x 1

, ∂f(x) , ∂f(x)

∂x 2

∂x 3

,

∂f(x)

∂x n

R n×1

rappresenta il gradiente di f , ovvero `e un vettore che punta nella direzione di massima variazione (locale) di f . Il gradiente di una funzione scalare di variabile vettoriale rappresenta l’equivalente della derivata di una funzione scalare di argomento scalare. In particolare se lo sviluppo in serie di Taylor di una funzione di argomento scalare f (s) `e dato da:

f(s)

=

n=0

1

n! f (n) | s 0 (s s 0 ) n =

= f| s 0 +

df

ds

s 0

(s s 0 ) +

1 2 (s s 0 ) 2 + O((s s 0 ) 3 )

ds 2

d 2 f

s 0

l’equivalente sviluppo per una funzione scalare di argomento vettoriale `e:

f(x)

=

f| x 0 + [x f] x 0 (x x 0 ) + 1

2 (x x 0 ) H e [f(x 0 )](x x 0 ) + O( x x 0 3 )

dove il termine [x f] x 0 `e lo Jacobiano di f in x 0 ed H e [f(x 0 )] `e la matrice Hessiana

(o l’hessiano) di f in x 0

H e [f (x)] =

2 f ∂x 1 , 2 f

∂x

1

∂x 2 ∂x 1 ,

.

.

.

2 f

∂x n ∂x 1 ,

2 f x 2 , 2 f

∂x

1

x 2 x 2 ,

.

.

.

2 f

x n x 2 ,

.

.

.

.

.

.

.

.

.

.

.

.

,

,

,

2 f

∂x n

∂x

1

2 f

∂x 2 ∂x n

.

2 f

∂x n ∂x n

=

x

[x f (x)]

che `e l’analogo della derivata seconda per funzioni ad argomento vettoriale. Si noti che per funzioni vettoriali di argomento vettoriale come

f : R n×1 −→ R m×1

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

9

lo jacobiano `e una matrice di dimensione m × n definita come

x f =

∂f

∂x

∂f 2 ∂x 1 ,

.

.

.

1 ,

1

∂f m , ∂x 1

∂f

∂x

∂f 2 x 2 ,

.

2 ,

1

∂f m

∂x 2

,

.

.

.

.

.

.

.

.

.

.

,

,

,

∂f 1

∂x

∂f 2

∂x n

.

n

f m

∂x n

(26)

e l’hessiano `e un tensore. Una particolare funzione scalare di argomento vettoriale `e la forma quadratica

f(x, y) = x Ay =

n

m

i=1

j=1

Per calcolo diretto segue che:

x i A ij y j :

A R n×m , x R n×1 , y R m×1 .

x

y

x Ay

=

Ay

(27)

x Ay

=

A x

(28)

1.4

Modelli lineari nei parametri ed equazioni normali dei minimi quadrati

ˆ

Nel caso in cui il modello S(θ, u(t)) sia lineare in θ, la soluzione θ W LS della equazione (8) pu`o essere calcolata in forma chiusa; la linearit`a nei parametri significa che ad ogni istante t il modello `e

(29)

y(t) = S(θ, u(t)) = H[u(t)]θ

che pu`o benissimo essere non lineare in t e/o u(t). Per esempio,

y(t)

=

a sin u 1 (t) + b cos u 2 (t) + ct 2 = [sin u 1 (t)

cos u 2 (t)

t 2 ]

a

b

c

(30)

`e lineare in θ = (a, b, c) , non lineare in (u 1 (t), u 2 (t)) e non lineare in t. Il modello differenziale massa, molla, ammortizzatore:

(31)

(32)

my¨(t)

y

=

=

ky by˙ + f (t) =

m y¨

k

1

f (t)]

m/k

b/k

1/k

b

k y˙ + k f (t) = [y¨

y˙

`e lineare nei parametri. Il modello statico

(33)

La matrice H in (29) `e detta matrice di regressione e

tipicamente dipende dall’ingresso al sistema. Per esempio la matrice di regressione del

`e

y(t) = a sin(ωt)

lineare in a,

ma non in ω.

modello (30) `e

H =

sin

sin

sin

u 1 (t 0 )

u 1 (t 1 )

.

.

.

u 1 (t n )

cos

cos

cos

u 2 (t 0 ) u 2 (t 0 )

.

u 2 (t n )

t

t

t

2

0

2

1

.

2

n

(34)

Giovanni Indiveri, Universit`a del Salento. VERSIONE 7

10

essendo n le misure sperimentali disponibili. Data la matrice di regressione risulta che:

y(t 0 )

y(t 1 )

y(t n )

.

.

.

=

sin

sin u 1 (t 1 )

.

.

.

)

u

1 (t

0

sin u 1 (t n )

(t 0 )

cos u 2 (t 0 )

.

cos u 2 (t n )

cos

u

2

2

t

0

t 2

1

t

.

2

n

a

b

c

(35)

che suggerisce di definire il vettore delle misure come

y

[y(t 0 ), y(t 1 ),

,

y(t n )] R n×1 .

(36)

Con questa notazione, un generico modello lineare nei parametri verr`a rappresentato come:

y = Hθ

: H R n×m regressore, y R n×1 misure, θ R m×1 parametro.

(37)

Volendo scrivere il funzionale di costo (7) in forma matriciale, per tenere in giusta

considerazione i pesi σ