Sei sulla pagina 1di 119

c Prof. Davide Mattera.

08/12/2011
Indice
Prefazione iii
Elaborazione dei Segnali v
1 Sistemi lineari e tempo invarianti sicamente realizzabili 1
1.1 Inquadramento storico e culturale della disciplina . . . . . . . . . . . 1
1.2 Confronto tra lelaborazione numerica e quella analogica . . . . . . . 3
1.3 La struttura generale di un elaboratore dei segnali . . . . . . . . . . 4
1.4 Struttura di un elaboratore lineare . . . . . . . . . . . . . . . . . . . 6
1.5 Propriet`a della zeta trasformata . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Conseguenze per lo studio del sistema (1.1) nel dominio zeta 8
1.6 Dettagli di implementazione . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Denizione di trasformata zeta razionale . . . . . . . . . . . . . . . . 13
1.7.1 Antitrasformazione nel dominio del tempo . . . . . . . . . . . 15
1.7.2 Sistemi distinguibili nel dominio zeta solo per la ROC . . . . 17
1.8 I ltri lineari non ricorsivi . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Progetto mediante utilizzazione di dati sperimentali 25
2.1 Il primo approccio: caratterizzazione statistica disponibile ovvero
ltro di Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1 Metodi di stima delle statistiche richieste . . . . . . . . . . . 33
2.1.2 Generazione di funzioni membro di processi aleatori a cam-
pioni indipendenti . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.3 Generazione di un processo aleatorio colorato . . . . . . . . . 36
2.2 Il ltro di Wiener senza il vincolo della risposta impulsiva di durata
nita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3 Variazioni dellalgoritmo per il caso della decisione . . . . . . . . . . 38
3 Progetto adattativo del ltro lineare 41
3.1 Ottimizzazione iterativa di una funzione di costo ssata . . . . . . . 41
3.2 Lalgoritmo steepest-descent e lanalisi della sua convergenza . . . . 42
3.3 Adattemento del ltro lineare in accordo al gradiente stocastico:
algoritmo LMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 Approccio alternativo basato sui dati: il metodo ricorsivo ai minimi
quadrati (RLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
c Prof. Davide Mattera. 08/12/2011
ii CONTENTS
4 La predizione lineare ottima secondo il criterio MMSE 53
4.1 Eetti spettrali nel tempo discreto della modica della frequenza di
campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Predizione di un passo in avanti . . . . . . . . . . . . . . . . . . . . . 59
4.3 Predizione di un passo indietro . . . . . . . . . . . . . . . . . . . . . 60
4.4 Relazione tra il ltro forward e backward . . . . . . . . . . . . . . 62
4.5 La relazione ricorsiva di Levinson e Durbin . . . . . . . . . . . . . . 63
4.6 Alcune propriet` a del ltro predittore ottimo MMSE . . . . . . . . . 68
4.7 La relazione inversa di Levinson e Durbin . . . . . . . . . . . . . . . 74
4.8 Il test di Schur-Cohn . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.9 Filtro predittore come ltro sbiancante . . . . . . . . . . . . . . . . . 78
4.10 La formula di Burg . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.11 Il ltro predittore come strumento per realizzare il ltro di Wiener . 82
4.12 Il cancellatore deco come applicazione del ltro di Wiener . . . . . . 85
5 Realizzazione di un ltro FIR 89
5.1 Realizzazione in forma diretta . . . . . . . . . . . . . . . . . . . . . . 90
5.2 Struttura a cascata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.3 Struttura con campionamento in frequenza . . . . . . . . . . . . . . 95
5.4 Struttura a traliccio . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5 Struttura basata su DFT . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5.1 Convoluzione lineare . . . . . . . . . . . . . . . . . . . . . . . 102
5.5.2 Convoluzione circolare . . . . . . . . . . . . . . . . . . . . . . 103
5.5.3 Strutture veloci per il calcolo della DFT . . . . . . . . . . . . 105
5.5.4 Le due strutture overlap . . . . . . . . . . . . . . . . . . . . . 108
c Prof. Davide Mattera. 08/12/2011
Prefazione iii
Prefazione
Il testo raccoglie una trattazione degli argomenti del corso di Elaborazione dei
Segnali, che sto tenendo presso la Facolt` a di Ingegneria della Universit`a degli
Studi di Napoli Federico II. La presente versione `e ancora una bozza transitoria ma
`e abbastanza matura da diventare un utile riferimento per lo studente.
I diversi capitoli sono dedicati alla trattazione teorica degli argomenti. Essa `e
stata corredata da una parte del corso (fornita in software sullo stesso sito) in cui si
`e mostrato - in maniera esemplicativa con riferimento alla teoria considerata - come
trasformare agevolmente le formule teoriche trattate in teoria in un potente stru-
mento tecnologico, cercando soprattutto di consentire allo studente lacquisizione
della forma mentis necessaria a procedere in autonomia, conformemente ad una
specializzazione della teoria generale ad un particolare contesto applicativo.
Agli studenti che leggeranno questo testo chiedo la cortesia di segnalarmi tutti i
tipi di svista (dal pi` u piccolo al pi` u grande) che non ho trovato nelle mie riletture
del testo inviandomi una e-mail allindirizzo mattera@unina.it.
Il programma del corso `e proprio lindice del presente testo a cui si deve ag-
giungere la capacit`a di scrivere routine Matlab del tipo fornito a breve sul sito nel
le software.zip. Tale capacit`a va acquisita attraverso lesercizio autonomamente
compiuto a scrivere routine simili dopo averne compreso dagli esempi il modo di
operare.
Prof. Davide Mattera
Facolt` a di Ingegneria della Universit` a degli Studi di Napoli Federico II
Dicembre 2011
c Prof. Davide Mattera. 08/12/2011
iv Prefazione
c Prof. Davide Mattera. 08/12/2011
Lezioni di Elaborazione dei Segnali v
Lezioni di Elaborazione dei Segnali
Esiste una tendenza fondamentale nellingegneria moderna; essa `e costituita
dallo spazio sempre maggiore concesso alla componente programmabile introdotta
allinterno del prodotto ingegneristico, componente che incorpora capacit`a di ela-
borazione sempre maggiore e che nisce per congurare quello che in ambito inter-
nazionale vengono deniti gli intelligent systems. Lo spazio sempre maggiore con-
cesso alla componente software signica compressione degli spazi riservati alla com-
ponente hardware che sempre pi` u si specializza in pochi prodotti general-purpose
cio`e diversicabili nel funzionamento nale in base alla componente programmabile.
Saper contribuire alla realizzazione della parte programmabile `e particolarmente
importante per un giovane studente italiano di ingegneria. Infatti, levoluzione
dellingegneria moderna sembra individuare due compiti, uno `e quello di realizzare
lhardware dei vari dispositivi mentre laltro `e quello di denirne il software che ne
determina uno specico comportamento. Siccome il nostro Paese sembra tagliato
fuori dalla possibilit`a di ambire ad una posizione di rilievo nel primo campo,
soprattutto in conseguenza della sua concentrazione in poche (e lontane dal nostro
Paese) strutture industriali che proprio dalle enormi dimensioni della produzione
immessa sul mercato mondiale derivano la capacit`a di generare delle economie di
scala che costituiscono a tutti gli eetti delle barriere di accesso per produttori
alternativi in condizioni di competizione di mercato. Inoltre, i grandi raggiungimenti
ottenuti in questo primo ambito negli ultimi decenni fanno presumere che possano
esistere dei fenomeni di saturazione dellinnovazione tecnologica i quali lasciano
presumere una ulteriore dicolt` a di inserimento da parte di eventuali produttori
alternativi.
Nel secondo campo, invece, esistono moltissimi ambiti ingegneristici in cui si
pu` o presumere che, risolta la dicolt` a di denirne matematicamente la struttura
astratta di funzionamento, risulti abbastanza diretta la scrittura di un software
che abilita lhardware sottostante a costituire un dispositivo innovativo. Esistono
cos tanti ambiti nei quali si possono presumere sviluppi a breve e medio termine su
base mondiale, che si evita qui di introdurne una descrizione; tali ambiti sono carat-
terizzati da una relativa semplicit`a delle strutture attualmente disponibili quando
confrontate con quelle che si possono concepire come potenzialmente possibili sulla
base delle attuali conoscenze tecnologiche.
In questo ambito di innovazione tecnologica il nostro Paese potrebbe trovare
la possibilit`a di inserirsi proprio in virt` u della esistenza di pre-condizioni che ne
possono consentire lo sviluppo. In particolare, questa evoluzione dellingegneria
c Prof. Davide Mattera. 08/12/2011
vi Lezioni di Elaborazione dei Segnali
moderna `e perfettamente coerente con lidea di societ`a della conoscenza che si va
sempre pi` u aermando nella civilt` a planetaria e che aerma il valore essenziale della
conoscenza, valore in senso astratto che diventa valore economico concreto in quanto
abilita la produzione ingegneristica innovativa. In eetti, le pre-condizioni favorevoli
nel nostro Paese sono proprio costituite dalla diusione, relativamente elevata, di
giovani dotati di conoscenze ingegneristiche adeguate per guidare la progettazione
di questi sistemi innovativi. Inoltre, tale linea di sviluppo tecnologico, che viene
denita di industria leggera in quanto incide minimamente sullambiente circostante,
`e perfettamente coerente con la preservazione del patrimonio architettonico e
quindi appare una strada quasi obbligata per mantenere una apprezzabile presenza
industriale nel nostro Paese che sia coerente con la importanza economica delle
attivit`a turistiche.
I concetti fondamentali riguardanti la costruzione di un elaboratore lineare, in-
trodotti in queste lezioni, si trovano certamente allinterno del nucleo essenziale di
conoscenze di base su cui `e inevitabile doversi fondare qualora si voglia perseguire
una strategia volta ad incrementare il valore aggiunto dalla produzione indus-
triale del nostro Paese e su cui `e inevitabile per un Ingegnere delle Tecnologie
dellInformazione dover dimostrare competenza qualora si proponga di entrare nel
mercato del lavoro in un contesto industriale che si caratterizza per un elevato
valore aggiunto.
Tali concetti si riferiscono alla componente programmabile ma non nel senso
che costituiscono concetti fondamentali di programmazione dei calcolatori; questi
ultimi, studiati in altri corsi, costituiscono solo lo strumento di base da utilizzare
per realizzare procedure elaborative dei segnali che si vanno distinguendo dagli
altri software proprio per lelevata base di conoscenza che la loro concezione
necessariamente richiede. Ed il corso `e dedicato a trasferire allo studente questa
base di conoscenza delle metodologie di Elaborazione dei Segnali e la capacit`a
di realizzare un software che trasformi in uno strumento concreto la relazione
matematica astratta che viene concepita. Questa seconda fase si concentra su
un software molto semplice e generale come il linguaggio utilizzato dal diuso
software Matlab proprio perch`e intende dedicarsi alla dicolt` a di trasferire il sistema
matematico in un software e non sulle problematiche, peraltro inuenti ma studiate
in altri corsi, del linguaggio di programmazione.
c Prof. Davide Mattera. 08/12/2011
1 Sistemi lineari e tempo invarianti sicamente
realizzabili
In questo capitolo si descrive dapprima linquadramento culturale della disciplina
nel paragrafo 1.1, la struttura generale di un elaboratore numerico dei segnali nel
paragrafo 1.3, la struttura generale di un elaboratore lineare dei segnali, gli eetti
di una struttura ricorsiva sulla stabilit`a del sistema.
1.1 Inquadramento storico e culturale della disciplina
La disciplina rappresenta un completamento ed unestensione della Teoria dei Se-
gnali, la quale si limita ad una osservazione e ad una analisi quantitativa della
realt` a e quindi si mantiene molto pi` u nel piano delle scienze che delle tecnologie.
Lelaborazione numerica dei segnali si presenta come una tecnologia volta a rea-
lizzare strumenti reali che possono essere progettati correttamente solo quando i
concetti della Teoria dei Segnali siano stati ben compresi.
Nella parte iniziale della lezione si discutono le prospettive future - alla luce della
loro evoluzione storica - dei sistemi che incorporano al proprio interno una scheda
di elaborazione numerica del segnale.
La Teoria dei Segnali aonda le sue radici nel concetto di modello; daltronde,
trovare un modello adeguato alla descrizione delle leggi di evoluzione dei segnali sici
costituisce il cuore della attivit`a scientica e pertanto levoluzione della disciplina
`e strettamente connessa con lo sviluppo fondamentale delle scienze moderne. Un
concetto fondamentale, quello di modello, denito dapprima in ambito losoco,
che segna in eetti la nascita della ricerca scientica; la maturit` a scientica `e
segnata dallancoraggio del concetto di modello al concetto di numero in una
opportuna visione dello stesso, che non si limita semplicemente a concepire una
visione analogica oppure discreta del concetto di numero ma che si riferisce in
maniera essenziale allo strumento di elaborazione del numero concepito; daltronde,
`e una banalit`a che il concetto di numero non abbia utilit`a quando concepito in
astratto ma in relazione alle operazioni che con esso si possono compiere ovvero
in relazione ai modelli quantitativi che esso consente di costruire. La conseguenza
immediata della introduzione dei modelli numerici `e il salto epocale, dalla tecnologia
pre-scientica alla tecnologia scientica.
Dal punto di vista dellevoluzione storica, occorre distinguere una prima fase in
c Prof. Davide Mattera. 08/12/2011
2 Sistemi lineari
cui il concepimento di un modello quantitativo della realt` a sica avviene nellambito
di una visione analogica del concetto di numero e delle sue evoluzioni. In particolare,
sono da ricordare luso della riga e del compasso come strumenti di elaborazione
quantitativa nellambito di una visione geometrica del concetto di numero e, alla
ripresa scientica in et`a moderna, luso dellanalisi matematica - ed in particolare
del concetto di derivata
1
- come elemento essenziale della costruzione di modelli
quantitativi, accompagnato dallo sviluppo di un solido contesto teorico a cui
ancorare una nuova concezione del numero che Dedekind e Waierstrass portano
a compimento nella seconda met`a dellOttocento.
Il successivo utilizzo tecnologico di tali modelli, che dalla seconda met`a dellOtto-
cento segna in maniera netta la separazione tra la tecnologia pre-scientica e la
tecnologia scientica su cui si regge gran parte dello sviluppo tecnico esistente, si
arena di fronte alla incapacit`a di integrare certi tipi di funzioni, che si incontrano
in molti ambiti della sica matematica, segnando il punto di compimento di un
appproccio che aveva ampiamente dispiegato le sue potenzialit` a a partire dalla sua
introduzione da parte di G. Torricelli. Ci`o motiva lanalisi dei sistemi mediante
lemulazione di un sistema sico con un altro sistema sico retto dallo stesso
modello (in via approssimativa) e riferito ad un diversa grandezza sica, tipicamente
elettrica, che ne rende pi` u semplice la costruzione. Modicando a piacere il sistema
che viene considerato per emulare il sistema originario e dotandosi di un opportuno
trasduttore diretto ed inverso, si giunge in questo modo alla elaborazione analogica
dei segnali.
Questa linea di aggiramento del problema posto dai limiti del metodo di Torri-
celli, cio`e attraverso lemulazione analogica che poi genera lelaborazione analogica
dei segnali, si riveler`a di pi` u rapida concretizzazione ma meno comoda di una linea
di aggiramento alternativa che discende direttamente dallidea che si possa svol-
gere lintegrazione in base alla denizione del limite dellarea dei plurirettangoli.
Ci`o sollecita lo sviluppo di una macchina di calcolo, il calcolatore elettronico, nec-
essaria allo svolgimento delle numerose operazioni che questo approccio comporta
di svolgere. Quando lo sviluppo di tale macchina `e giunto ad un punto suciente-
mente avanzato, si `e completato il problema dellanalisi dellevoluzione dei modelli
matematici retti da equazioni dierenziali non elementarmente integrabili; cio`e si `e
raggiunto lobiettivo originario e si `e creato un nuovo metodo analisi mediante si-
mulazione al calcolatore che domina no ad oggi incontrastato nel modo di operare
di moltissimi settori scientico-tecnologici ma anche ormai `e abbastanza diretta-
mente evidente il passo successivo: quello di creare un sistema sico la cui relazione
ingresso-uscita sia programmabile in software e venga poi realizzata mediante una
1. Si ricordi laermazione di A. Einstein in Come io vedo il mondo (per esempio, a pag. 66
nella edizione dei Grandi Tascabili Economici Newton): Per dare una forma matematica
al suo sistema, Newton doveva necessariamente ricorrere allidea delle derivate e stabilire
le leggi del movimento sotto forma di equazioni dierenziali totali; `e questo forse il pi` u
gran passo in avanti che mai sia stato consentito di fare ad un uomo nel dominio del
pensiero.
c Prof. Davide Mattera. 08/12/2011
1.2 Confronto tra lelaborazione numerica e quella analogica 3
elaborazione al calcolatore dei numeri che rappresentano i valori delle grandezze
siche in ingresso al sistema, opportunamente rappresentati in formato numerico
attraverso appositi dispositivi di conversione analogico/digitale. Una volta compiuto
il percorso delineato, si nisce per disporre di una tecnica di elaborazione dei se-
gnali superiore per diversi punti di vista alla precedente tecnica analogica che aveva
dominato i precedenti cinquanta anni (allincirca dagli anni Venti agli anni Sessanta
del Novecento), che viene denita numerica per denirne la diversit`a rispetto alla
tecnica precedente, che sollecita uno sviluppo della tecnologia sottostante per poter
godere - con riferimento a segnali di ingresso da elaborare aventi una banda sempre
maggiore
2
- dei vantaggi che una realizzazione in tecnica numerica comporta e che,
inne, contribuisce in maniera essenziale alla denizione del concetto di numero che
caratterizza lepoca contemporanea.
Detto in altri termini, esaurita la spinta innovativa pi` u diretta con lanalisi dei
modelli pi` u semplici, la dicolt` a di prevedere a priori levoluzione del modello
spinge a creare dei sistemi che emulino il modello; quando tale raggiungimento `e
conseguito, non solo i metodi di analisi si sono enormemente potenziati ma ormai si
`e implicitamente fatto un importante passo avanti: si `e creato un dispositivo il cui
comportamento pu` o essere sintetizzato a piacimento (immediatamente vericato
e contestualmente implementato), il che fornisce un potenziamento notevole alla
tecnologia scientica. Realizzati trasduttori idonei, lestensione non riguarda pi` u
solo lingegneria dellinformazione ma tutta lingegneria, nei limiti in cui si riesce
a progettare un opportuno metodo di elaborazione. Lingegneria biomedica `e solo
una direzione in cui avanza questa onda di innovazione che promana dal cuore
stesso della Ingegneria dellInformazione, quello in cui si individuarono i metodi
per la concreta realizzazione della macchina astratta generalizzata di Von Neumann
attraverso strumenti alternativi alla tradizionale elaborazione analogica dei segnali,
dominante in tutta la prima met`a del Novecento.
1.2 Confronto tra lelaborazione numerica e quella analogica
Tradizionalmente i testi di elaborazione numerica dei segnali si aprono con la de-
scrizione dei vantaggi che ladozione di un approccio numerico comporta rispetto
ad una tecnica analogica. Si capisce che tali considerazioni sono tanto pi` u essen-
ziali quanto pi` u `e ancora marginalmente diuso lapproccio analogico e sono sempre
meno importanti oggi che non sussistono alternative concrete allutilizzo di un elab-
oratore in tecnologia numerica essendo da tempo divenuto marginale lapproccio
analogico. Anzi oggi svolgere questo confronto comporta il dover preventivamente
descrivere lapproccio analogico in modo da poter illustrare i suoi svantaggi che
2. Vedremo infatti gi`a in questo capitolo che sussiste una relazione tra la velocit`a di calcolo
dellhardware sottostante e la banda dei segnali che possono essere elaborati dai sistemi
costruiti con tecnologia di elaborazione numerica.
c Prof. Davide Mattera. 08/12/2011
4 Sistemi lineari
oggi non si presentano con un approccio numerico, il che signica ricadere in una
discussione di storia dellelaborazione dei segnali a cui abbiamo devoluto il para-
grafo precedente. Pertanto tale discussione tradizionale non viene qui introdotta e
viene lasciata la questione agli interessi di uno studente particolarmente interes-
sato alla questione, lasciando abbastanza superciale la descrizione di cosa fosse
lelaborazione analogica dei segnali, in passato ben chiara a tutti quelli a cui si
rivolgeva chi volesse convincerli della superiorit`a dellapproccio numerico.
1.3 La struttura generale di un elaboratore dei segnali
Un moderno elaboratore di segnali con singolo ingresso e singola uscita `e provvisto
di cinque stadi: il primo stadio realizza la trasduzione in formato elettrico della
grandezza sica in ingresso allelaboratore, il secondo stadio realizza la conversione
A/D del segnale elettrico, il terzo stadio realizza lelaborazione numerica del se-
gnale, il quarto stadio realizza la conversione D/A del segnale ed il quinto stadio
realizza la trasduzione nel formato originario. Pertanto si `e in questo modo realiz-
zato un sistema che, dal punto di vista ingresso/uscita, appartiene potenzialmente
ad altro campo dellingegneria (determinato dalla natura sica della grandezza orig-
inaria) e che presenta un comportamento ingresso/uscita determinabile liberamente
modicando il software che descrive il terzo stadio.
Non sempre tutti gli stadi sono necessari; per esempio, il trasduttore iniziale e/o
quello nale non sono necessari se la grandezza sica originaria o quella nale `e di
tipo elettrico; inoltre, il secondo e/o il quarto stadio non sono necessari se il segnale
`e gi`a disponibile in formato numerico o deve essere fornito in uscita in formato
numerico. Il progetto del primo e del secondo stadio avvengono secondo requisiti
congiunti, in particolare la frequenza di campionamento del secondo stadio inuenza
il progetto del primo stadio che deve garantire la trasduzione nella opportuna banda;
analogo discorso riguarda laccoppiamento tra il quarto ed il quinto stadio.
Il sistema complessivo funziona in modo da trasdurre lingresso del primo stadio
in un formato elettrico adatto alla elaborazione nel terzo stadio, il quale rappresenta
un meccanismo di elaborazione programmabile che pu` o assumere una ampia variet` a
di comportamenti. Il legame funzionale ingresso/uscita del sistema complessivo
corrisponde direttamente ad un legame ingresso/uscita del terzo stadio; tale legame
lega luscita allistante n allingresso allistante n ed in altri istanti. Il terzo stadio
nel breve periodo di tempo dedicato alla fornitura delluscita allistante n realizza
le operazioni contemplate nel modello ingresso/uscita realizzando in tal modo
un sistema in cui luscita `e legata allingresso dal legame funzionale specicato.
Quando il processore non `e in grado di svolgere le operazioni necessarie nel breve
tempo necessario prima di passare al campione di uscita successiva si dice che
non `e soddisfatto il vincolo di tempo reale e dunque si pu` o procedere solo ad
una elaborazione in batch che non consente la costruzione di un autentico sistema
reale. La capacit`a di soddisfare il vincolo di tempo reale dipende sia dal tipo di
elaborazione da compiere sia dal tempo a disposizione, che si riduce al crescere
c Prof. Davide Mattera. 08/12/2011
1.3 La struttura generale di un elaboratore dei segnali 5
della banda del segnale di ingresso, sia dalla velocit` a dellhardware di elaborazione
sia dalla struttura centralizzata o distribuita dellelaboratore.
La questione fondamentale riguarda le limitazioni alla realizzazione di uno stru-
mento di elaborazione che sia in grado di ottenere un qualsiasi sistema, cio`e una
qualsiasi realizzazione ingresso/uscita; esse sono elencate nel seguito:
a) La banda dei segnali di ingresso e di uscita per cui il sistema garantisce il
comportamento desiderato; tale limitazione coinvolge tutti e cinque gli stadi. Spesso
il collo di bottiglia (cio`e lo stadio del sistema complessiva che garantisce la minima
banda passante) `e costituito dal terzo stadio; in caso di segnali elettrici passabanda
con frequenza portante molto elevata, la limitazione si pu` o anche trovare nel secondo
stadio siccome in tali casi le elaborazioni da compiere nel terzo stadio possono essere
anche trascurabili rispetto al problema di realizzare un convertitore A/D avente
banda adeguata.
b) La capacit`a di progettare il terzo stadio quando lo strumento si riferisce ad altro
ramo dellingegneria o addirittura ad un settore in cui lingegneria non ancora fatto
il suo ingresso. In tali casi, pu` o succedere che il comportamento ingresso/uscita
desiderato si riesce ad esprimerlo solamente in forma qualitativa ma non lo si
riesce a porre in forma quantitativa. Pertanto, anche in questo caso si tratta
di una limitazione che coinvolge il terzo stadio. Tuttavia, mentre la limitazione
precedente era una limitazione riferibile alla capacit`a computazionale del terzo
stadio (una problema riferibile ad una limitazione hardware, talvolta dipendente da
una concezione inadeguata della elaborazione), ora ci si riferisce ad una limitazione
dei meccanismi di progetto del terzo stadio. Un esempio tipico in cui si incontra
questo tipo di limitazioni `e quello in cui il comportamento ingresso/uscita `e descritto
mediante richiamo ad altro sistema gi`a esistente e di cui non sia possibile studiare il
funzionamento interno secondo il modello della scatola nera (cio`e in cui il requisito
di progetto `e il seguente Desidero un sistema che sia identico, dal punto di vista
ingresso/uscita, a quel tale sistema gi`a esistente; dellaltro sistema gi`a esistente si
pu` o osservare il comportamento ingresso/uscita ma non si pu` o osservare - se non
in misura limitatissima - il funzionamento interno.).
Qualunque sia il tipo di sistema da imitare, il problema considerato `e dato dal fatto
che non `e possibile fornire una descrizione matematica ingresso/uscita del compor-
tamento del sistema da realizzare, il che rappresenta un impedimento fondamentale
in un approccio che pu` o trasformare una qualsiasi realizzazione matematica in-
gresso/uscita in un sistema concreto. Al superamento di tali dicolt` a `e devoluto
il corso di Elaborazione dei Segnali ma mentre i pi` u semplici casi possono essere
aggirati ricorrendo ad elaborazioni lineari, quelli pi` u dicili richiedono di ricorrere
ad elaborazioni non lineari. I sei crediti formativi del presente corso sono appena
sucienti a trattare le elaborazioni lineari dei segnali.
c) La rappresentazione numerica dei segnali e dei sistemi pu` o dar luogo ad approssi-
mazioni nella realizzazione del sistema desiderato. Generalmente gli eetti relativi
possono essere tenuti ridotti pur di utilizzare un numero sucientemente elevato
di bit per la rappresentazione dei segnali e dei sistemi. Tuttavia questo comporta
c Prof. Davide Mattera. 08/12/2011
6 Sistemi lineari

rit

rit

rit

rit


rit

rit

rit

b0 b1 b2 b3
bM2 bM1
a1 a2
aN1 aN
x(n) x(n1) x(n2) x(n 3) x(n (M 2)) x(n (M 1))
y(n)
y(n1) y(n 2) y(n(N1)) y(n N)
Figure 1.1 Schema logico dellelaboratore lineare considerato.
spesso di dover ricorrere ad una elaborazione in virgola mobile. Siccome questa `e
pi` u costosa capita spesso che si ricorra ad una elaborazione in virgola ssa cercando
di fronteggiare gli eetti negativi degli arrotondamenti pi` u grossolani.
In presenza di un numero superiore di ingressi e di uscite, `e necessario un
trasduttore diretto ed un convertitore A/D (primo e secondo stadio nel sistema
a singolo ingresso) per ciascuno dei segnali di ingresso ed un convertitore D/A ed
un trasduttore inverso (quarto e quinto stadio nel sistema a singola uscita) per
ciascuno dei segnali di uscita.
1.4 Struttura di un elaboratore lineare
Si consideri il sistema mostrato nella gura 1.1 in cui i blocchi denotati con rit
denotato lunit`a di ritardo nel tempo discreto e la freccia lungo la linea indica
loperazione di moltiplicazione per il coeciente a
i
o b
i
riportato a anco.
Il sistema considerato pu` o essere considerato un modello molto generale per la
costruzione di una elaborazione lineare. Esso pu` o essere descritto dalla seguente
procedura di calcolo:
y(n)
M1

k=0
b
k
x(n k)
N

k=1
a
k
y(n k) (1.1)
dove x(n) ed y(n) rappresentano i segnali di ingresso e di uscita del sistema. La
freccia a sinistra indica il fatto che y(n) `e determinato attraverso lespressione di
c Prof. Davide Mattera. 08/12/2011
1.4 Struttura di un elaboratore lineare 7
calcolo riportata, che trascrive in termini matematici il comportamento del sistema
a sinistra.
Il sistema (1.1) non `e equivalente ad una qualsiasi struttura descritta dalla
seguente relazione di uguaglianza:
y(n) =
M1

k=0
b
k
x(n k)
N

k=1
a
k
y(n k) (1.2)
Infatti la (1.2) consente di generare diversi sistemi di cui quello nella (1.1) `e solo
uno di questi.
Per approfondire la questione, si consideri che la relazione di uguaglianza (1.2)
consente di trovare luscita y(n) corrispondente allingresso x(n); daltronde anche
la relazione (1.1) consente di calcolare una uscita y(n) corrispondente ad un ingresso
x(n). Come si pu` o spiegare allora il fatto che esse non sono equivalenti?
La spiegazione risiede nel fatto che esistono molte y(n) che risolvono lequazione
(1.2) per un ssato segnale x(n) mentre esiste una sola y(n) che corrisponde ad una
ssata x(n) secondo la relazione (1.1).
Infatti, detto y
o
(n) un segnale che soddisfa la relazione seguente (che rappresenta
la (1.2) per x(n) = 0):
y
o
(n) =
N

k=1
a
k
y
o
(n k) (1.3)
e detto y
r
(n) una qualsiasi soluzione della relazione (1.2), allora y(n) = y
r
(n)+y
o
(n)
rappresenta anche una soluzione della (1.2). Infatti,
y(n) = y
r
(n) +y
o
(n)
=
M1

k=0
b
k
x(n +r k)
N

k=1
a
k
y
r
(n k)
N

k=1
a
k
y
o
(n k)
=
M1

k=0
b
k
x(n +r k)
N

k=1
a
k
(y
o
(n k) +y
r
(n k))
=
M1

k=0
b
k
x(n +r k)
N

k=1
a
k
y(n k) (1.4)
Pertanto la relazione (1.2) non ammette una sola soluzione nella misura in cui la
(1.3) non ammette
3
solo la soluzione y
o
(n) 0.
Daltronde, siccome la y
o
(n) non dipende dallingresso x(n), la presenza di
3. Per trovare alcune soluzioni della (1.3), si consideri ad esempio una sequenza yo(n) =
a
n
; in tal caso, la condizione diventa c
n
=

N
k=1
a
k
c
nk
ovvero 1 +

N
k=1
a
k
c
nk
= 0
e quindi il segnale c
n
rappresenta un segnale yo(n) purch`e c rappresenti la soluzione
dellequazione sopra riportata. Altre ipotesi parametriche su yo(n) conducono ad ulteriori
condizioni sui parametri. Combinazioni lineari di segnali yo(n) restano soluzioni della (1.3)
e quindi generano altri segnali yo(n).
c Prof. Davide Mattera. 08/12/2011
8 Sistemi lineari
una soluzione y
o
(n) 0 lede la natura lineare e tempo-invariante del sistema
potenzialmente realizzato, a meno che non si tratti di un sistema non ricorsivo
(N = 0). Daltronde il sistema considerato (1.1) intende essere denito in modo da
realizzare un sistema lineare e tempo-invariante; di conseguenza, ammettiamo che
il nostro sistema denito in gura sia tale da corrispondere alla soluzione y
o
(n) 0
della omogenea (1.3).
Questo non signica comunque individuare ununica soluzione della (1.2) ma
almeno garantirsi che il nostro sistema sia LTI e pertanto poterlo studiare nel
dominio della zeta trasformata.
1.5 Propriet`a della zeta trasformata
La trasformata zeta che qui si considera `e denita come segue:
X(z) =
+

n=
x(n)z
n
(1.5)
La si usa denire bilatera per distinguerla da quella monolatera, denita invece
come

+
n=0
x(n)z
n
.
Le due principali propriet` a della trasformata zeta sono il teorema del ritardo e
quello della convoluzione, che qui non vengono dimostrati.
Il primo teorema aerma che la zeta trasformata di x(nn
o
) vale X(z)z
no
dove
X(z) `e la zeta trasformata di x(n) ed i due segnali hanno la stessa ROC.
Il secondo teorema aerma che la zeta trasformata della convoluzione lineare tra
x(n) ed h(n) vale H(z)X(z) dove X(z) `e la zeta trasformata di x(n) ed H(z) `e
la zeta trasformata di h(n) e la ROC della convoluzione `e data dallintersezione
delle ROC di x(n) e di h(n). Siccome la convoluzione descrive la relazione ingresso
uscita dei sistemi LTI, allora si capisce la possibilit`a di utilizzare tale teorema con
riferimento alla relazione ingresso/uscita dei sistemi LTI. Il teorema aerma che
Y (z) = X(z)H(z) nella ROC intersezione o, in altri termini, il rapporto tra luscita
e lingresso del sistema LTI Y (z)/X(z) risulta indipendente da X(z) e da Y (z) e
quindi rappresenta una caratteristica specica del sistema, e che `e la trasformata
zeta della risposta impulsiva del sistema.
1.5.1 Conseguenze per lo studio del sistema (1.1) nel dominio zeta
Aver assunto che il nostro sistema rappresenta una soluzione del sistema (1.2)
corrispondente alla scelta y
o
(n) 0 consente di considerare LTI il nostro sistema e
quindi di studiarlo nel dominio della zeta trasformata.
Per prima cosa occorre notare che il sistema rit `e denito dalla relazione
y(n) = x(n 1); siccome esso `e LTI, si pu` o trasformare nel dominio zeta: si ottiene
Y (z) = X(z)z
1
da cui discende che Y (z)/X(z) = z
1
. Pertanto la risposta del
sistema nel dominio zeta `e data da z
1
e pertanto il blocco ritardatore sar`a indicata
c Prof. Davide Mattera. 08/12/2011
1.6 Dettagli di implementazione 9
con la sua risposta in frequenza. La risposta impulsiva vale (n1) e lo si pu` o vedere
direttamente con riferimento al sistema sia antitrasformando la zeta trasformata
del sistema. La ROC della trasformata zeta `e data da tutto il piano complesso con
leccezione dellorigine dove si trova un polo semplice.
Quando si considera la relazione ricorsiva (1.2) e si assume LTI la relazione
ingresso/uscita in conseguenza della assunzione che y
o
(n) 0, allora `e lecito passare
al dominio zeta e scrivere pertanto
Y (z) =
M1

k=0
b
k
X(z)z
k

k=1
a
k
Y (z)z
k
(1.6)
da cui discende che
Y (z)
X(z)
=
M1

k=0
b
k
z
k
1 +
N

k=1
a
k
z
k
(1.7)
Siccome il sistema `e LTI, allora il rapporto Y (z)/X(z) rappresenta la zeta trasfor-
mata della risposta impulsiva H(z) del sistema considerato:
H(z) =
M1

k=0
b
k
z
k
1 +
N

k=1
a
k
z
k
(1.8)
Prima di occuparci della questione di progettare un sistema LTI (ovvero di
denirne i parametri M ed N nonch`e i coecienti {a
k
, b
k
}, occorre introdurre una
digressione importante sulla questione di come venga realizzato in pratica un tale
sistema LTI. Tale discussione ci spinger`a a non escludere dalle nostre prospettive
di progetto i sistemi non causali.
1.6 Dettagli di implementazione
Quando si procede a realizzare il sistema considerato, occorre distinguere il caso in
cui il sistema lo si voglia realizzare in tempo reale oppure no. Nel primo caso occorre
rispettare il vincolo di tempo reale: detto T
c
il tempo di campionamento del segnale
di ingresso, ovvero il tempo analogico che trascorre tra due campioni relativi a
successivi istanti di tempo discreto, tale tempo costituisce il tempo entro cui devono
concludersi tutte le operazioni necessarie a fornire il corrispondente campione di
uscita y(n). In tal caso, il campione di ingresso x(n) viene ricevuto allistante
nT
c
mentre il campione di uscita y(n) viene fornito allistante nT
c
+ dove
T
c
rappresenta il ritardo di realizzazione del sistema considerato. Pertanto,
c Prof. Davide Mattera. 08/12/2011
10 Sistemi lineari
y(n) viene considerata luscita istantaneamente ottenuta rispetto allingresso nello
stesso istante x(n); tuttavia, ci`o `e ottenuto usando un asse temporale a tempo
discreto virtuale e sfalsato rispetto a quello eettivo. Nel nostro caso tra lasse
temporale eettivo e quello virtuale, cio`e tra gli istanti in cui i campioni di uscita
del sistema sono eettivamente disponibili e quelli in cui dovrebbero teoricamente
essere disponibili, sussiste una traslazione temporale pari al tempo analogico
(spesso T
c
). Tale tempo viene denito ritardo di realizzazione e rappresenta
un parametro di qualit`a importante di una realizzazione di un sistema numerico.
In caso contrario ( > T
c
), non concludere tutte le operazioni in tali termini
comporterebbe iniziare in ritardo le operazioni relative al calcolo del campione di
uscita nellintervallo successivo e quindi di conseguenza incrementare il ritardo con
cui viene fornito il successivo campione di uscita. Tra lasse temporale eettivo e
quello virtuale in questo caso non sussiste una semplice traslazione temporale ma
una relazione pi` u complicata. Infatti, i ritardi tra il momento eettivo in cui `e
disponibile il campione di uscita e quello in cui avrebbe dovuto essere disponibile
cresce linearmente nel tempo. In ultima analisi, non `e pi` u possibile immaginare un
ritardo nito che diventa una imperfezione del meccanismo di realizzazione in
tempo reale e va riguardato come un meccanismo di realizzazione alternativo detto
in batch. Non sussiste in questo caso alcuna garanzia riguardante il fatto che si `e
trovato un sistema che pu` o essere incorporato (embedded) in un sistema reale ma
si `e realizzato un sistema che pu` o essere utile solo laddove i tempi di ritardo con
cui esso viene implementato sono tollerabili (ci` o accade spesso in applicazioni di
ingegneria biomedica).
Lo schema realizzativo prima delineato conduce alla realizzazione per singolo
campione. Uno schema pi` u sosticato di realizzazione conduce alla realizzazione
per singolo blocco. In questo caso tutto un blocco di N
x
campioni di ingresso viene
raccolto e viene poi elaborato in modo da produrre in un sol colpo il blocco di
uscita corrispondente. Il blocco di uscita pu` o avere la stessa estensione del blocco
di ingresso ma pu` o anche essere pi` u limitato, ottenendosi le uscite corrispondenti
alla parte nale di un blocco al momento di elaborare il blocco successivo. Ci`o che `e
rilevante `e che il numero di campioni di uscita sia sempre costante, diciamo N
y
tale
numero (con leccezione del primo o dellultimo blocco che forniscono un numero
diverso di campioni).
Per una elaborazione a blocchi, durante il tempo N
y
T
c
necessario a raccogliere
gli N
y
campioni di ingresso che completano il blocco degli N
x
> N
y
elementi del
blocco di ingresso da elaborare (gli altri N
x
N
y
campioni nella parte iniziale
del blocco sono gli ultimi N
x
campioni del precedente blocco di ingresso), occorre
procedere a svolgere tutte le operazioni necessarie a produrre il blocco di uscita
a partire dal precedente blocco di ingresso. Detto
Ny
tale tempo, il vincolo
di tempo reale impone la condizione
Ny
N
y
T
c
. Quando tale condizione sia
soddisfatta resta comunque un ritardo diverso a cui va incontro ciascun campione
del blocco. Il campione pi` u fortunato, lultimo ad entrare nel blocco e che vede
luscita corrispondente immediatamente calcolata, vede limitato il suo ritardo alla
quantit` a
Ny
+(N
x
N
y
)T
c
. Viceversa quello pi` u sfortunato `e il primo ad entrare
c Prof. Davide Mattera. 08/12/2011
1.6 Dettagli di implementazione 11
nel blocco di lunghezza N
y
che viene acquisito in ingresso; infatti al ritardo
precedente occorre sommare il ritardo (N
y
1)T
c
corrispondente allacquisizione
dei successivi N
y
1 elementi del blocco di ingresso; pertanto il ritardo di tale
campione vale
Ny
+ (N
x
N
y
)T
c
+ (N
y
1)T
c
= (N
x
1)T
c
+
Ny
. Va anche
considerato il fatto che il primo elemento del blocchetto di lunghezza N
x
N
y
che viene acquisito subito ma non riceve luscita corrispondente prima del blocco
successivo, si ritrova ad arontare un ritardo pari a (N
x
N
y
1)T
c
per completare
lacquizione dei successivi N
x
N
y
1 campioni del blocco di campioni di ingresso
di lunghezza N
y
e quindi gli ultimi del blocchetto di lunghezza N
x
N
y
per i quali
le uscite sono fornite durante il blocchetto successivo. A tale tempo va sommato
tutto un intervallo di lunghezza N
y
T
c
dove si raccolgono i campioni del successivo
blocco di elaborazione ed in cui esso `e collocato nella parte iniziale (ne ricever`a
quindi luscita solo allora) ma si elabora il blocco successivo ed inne il tempo di
elaborazione
Ny
del blocchetto che lo riguarda. Complessivamente il ritardo vale:
(N
x
N
y
1)T
c
+N
y
T
c
+
Ny
= (N
x
1T
c
+
Ny
. Pertanto il valore massimo del
ritardo per gli istanti pi` u sfortunati vale circa (N
x
+N
y
1)T
c
siccome
Ny
N
y
T
c
e quindi, nel caso pi`ovvio in cui N
x
= N
y
, il ritardo vale allincirca 2N
y
T
c
. Nel
caso pi` u fortunato, viceversa, il ritardo minimo vale
Ny
+ (N
x
N
y
)T
c
N
x
Tc
(siccome
Ny
simeqN
y
T
c
) e pertanto `e pari a circa la met`a di quello massimo
quando N
x
= N
y
. Entrambi i valori, quello massimo e quello minimo, sono in ogni
caso proporzionali ad N
y
, il che ci fa capire che questo parametro delle prestazioni
si deteriora proporzionalmente alla dimensione N
y
del blocco di elaborazione.
Un altro importante parametro di elaborazione `e la massima banda ammissibile
per il segnale in ingresso al sistema che sia compatibile con il vincolo di tempo
reale per una ssata complessit`a dellhardware. Si ricorda che dal teorema del
campionamento tale banda non pu` o superare la frequenza di ripiegamento 1/(2T
c
).
In una struttura a singolo processore occorre considerare la quantit` a (N
y
) che `e il
numero di operazioni necessarie ad elaborare ciascun blocco di ingresso ed il tempo
necessario al singolo processore ad eettuare ogni singola operazione. Pertanto il
vincolo di tempo reale diventa:
(N
y
) N
y
T
c
(1.9)
Se si considera la condizione imposto dal teorema del campionamento
B 1/(2T
c
) T
c
1/(2B) (1.10)
e quindi la relazione precedente diventa
(N
y
)
N
y
2B
(1.11)
o equivalentemente
B f

N
y
2(N
y
)
(1.12)
c Prof. Davide Mattera. 08/12/2011
12 Sistemi lineari
dove si `e denito f

= 1/ il numero di operazioni che il processore pu` o realizzare


in un secondo e che rappresenta un parametro che misura la qualit`a dellhardware
disponibile. La relazione ottenuta mostra che, a parit` a di hardware disponibile, la
massima banda elaborabile dal segnale di ingresso aumenta con N
y
purch`e la quan-
tit` a (N
y
) cresca meno che linearmente, come `e spesso il caso. Infatti, la crescita
lineare della complessit`a di calcolo `e la situazione peggiore che possa occorrere e
corrisponde al caso in cui ciascun campione del blocco di uscita viene valutato in-
dipendentemente da quelli precedenti e seguenti senza portare in conto della natura
block-wise della procedura di elaborazione. Quindi, tipicamente lelaborazione a
blocchi tende a guadagnare in termini di banda del segnale che pu`o essere elabo-
rato e paga questo vantaggio in termini di ritardo di realizzazione che deve essere
tollerato.
Si consideri ora la realizzazione di un sistema lineare anticausale. Esso richiede
di accumulare un blocco di ingresso e far partire una ricorsione allindietro che
parta dalla ne del blocco. Tuttavia, per far partire correttamente questa ricorsione
occorre conoscere i valori delle uscite future che non sono note. Accettare un
errore su tale dato, per esempio mettendo erroneamente a zero le uscite future,
introduce un errore sulla uscita calcolata che tende a diventare sempre pi` u piccola,
man mano che la ricorsione ritorna allindietro e la velocit` a con cui tale errore
decresce `e legato direttamente alla lunghezza della risposta impulsiva del ltro. Tale
termine corrisponde in pratica al termine y
o
(n) di evoluzione libera e rappresenta
un termine che determina le caratteristiche di non linearit`a e di tempo varianza
del sistema realizzato (infatti solo la scelta y
o
(n) 0 consente di ottenere la
linearit`a e la tempo invarianza del sistema complessivo nel senso denito al corso di
Teoria dei Segnali); per i sistemi causali si pu` o imporre il suo annullarsi perch`e le
caratteristiche causali del ltro ed il fatto che il segnale di ingresso diventi diverso
da zero a partire da un certo istante implicano che le uscite precedenti siano nulle
e quindi il sistema pu` o essere fatto evolvere da tali condizioni nulle ottenendo una
realizzazione lineare e tempo-invariante di un sistema causale. Allo stesso modo
posso ripetere levoluzione a ritroso a partire da condizioni nulle solo quando il
segnale di ingresso sia diventato denitivamente nullo; a partire da tale istante le
uscite precedenti diventeranno esattamente nulle per un sistema anticausale e quindi
otterr`o la realizzazione esattamente lineare e tempo-invariante. Diversamente dal
caso causale, nel caso anticausale non posso per`o procedere ad iniziare la ricorsione
no al momento in cui il segnale di ingresso sia diventato denitivamente nullo. In
questo modo il ritardo di implementazione raggiunge valori estremamente elevati e
spesso inaccettabili.
In pratica, si pu` o procedere ad una elaborazione a blocchi, aspettando non gi`a
la ne del segnale ma solo la ne del blocco ed immaginando erroneamente che le
uscite future dopo la ne del blocco siano nulle. Nella ricorsione allindietro che
ne consegue, possono essere scartati i termini che corrispondono ad un intervento
molto pesante del termine additivo corrispondente allevoluzione libera a partire da
condizioni iniziale erroneamente poste a zero; se si aspetta un numero di passi nella
ricorsione allindietro proporzionale alla lunghezza della risposta impulsiva del ltro,
c Prof. Davide Mattera. 08/12/2011
1.7 Denizione di trasformata zeta razionale 13
si ottengono valori minimamente inuenzati da questa risposta libera additiva. I
campioni da scartare, che sono i primi ad essere calcolati nella ricorsione allindietro,
sono gli ultimi del blocco di uscita; essi verranno pertanto scartati in quanto
corrotti dal termine di disturbo risultante dalla mancata conoscenza delle uscite
future ma verranno conservati come corretti i termini calcolati successivamente
con la ricorsione allindietro. In questo modo potremo anche calcolare gli ultimi
N
x
N
y
campioni del blocco precedente che avevamo dovuto scartare per gli
stessi motivi nellelaborare il blocco precedente. In questo modo risulter`a realizzare
in maniera approssimata anche sistemi teoricamente anticausali ed il prezzo con
cui bisogna pagare tale capacit`a `e un aumento del ritardo di realizzazione del
sistema. Infatti ora occorre prima aspettare che si riempia un blocco e poi aspettare
lesito della ricorsione allindietro. Tale attesa sar`a inutile per gli ultimi elementi
del blocco che vedranno calcolata luscita corrispondente solo quando andremo ad
elaborare il blocco successivo. Ancora una volta si otterr`a per`o un vantaggio in
termini di banda massima del segnale da elaborare, che risulter`a essere crescente
con N
y
e quindi meno stringente sar`a la limitazione sulla banda del segnale
quanto piu grande `e stato lincremento del ritardo di implementazione che si `e
tollerato accettando blocchi di ingresso di lunghezza sempre maggiore. Inoltre,
laumento delle dimensioni del blocco di ingresso migliora la qualit`a media della
implementazione perch`e tende a ridurre sui campioni iniziali del blocco (gli ultimi
calcolati con la ricorsione allindietro) leetto della evoluzione libera conseguente
agli ingressi futuri non disponibili. Ritardi minori tendono dunque a produrre
realizzazioni pi` u fedeli del ltro con segnali di ingresso di banda sempre maggiore.
Tutti questi discorsi verranno approfonditi discutendo della implementazione
dei ltri lineari e tempo invarianti ma ci servono a concepire n dora come
opportuno imporre il vincolo di stabilit`a al ltro risultante dalle operazioni di
progetto riservandoci di evitare di imporre il vincolo di causalit`a, accettando in
fase di realizzazione una realizzazione di un ltro anticausale che comporti un
incremento del ritardo di implementazione. In questo si `e semplicato il problema
del progetto del ltro perch`e si `e eliminato un vincolo da imporre in fase di progetto.
1.7 Denizione di trasformata zeta razionale
Consideriamo la seguente funzione razionale
H(z) = z
r
M

k=0
b
k
z
k
N

k=0
a
k
z
k
(1.13)
c Prof. Davide Mattera. 08/12/2011
14 Sistemi lineari
dove r `e un intero relativo. Si assuma che a
0
e b
0
siano non nulli; ci`o non lede alla
generalit`a della trattazione
4
.
Per tale sistema la relazione (1.13) si pu` o riscrivere riguardando numeratore e
denominatore come polinomi in una variabile s = z
1
, fattorizzando tali polinomi
rispetto agli zeri di s e risostituendo ad s la variabile z
1
. Si ottiene in tal modo
H(z) = z
r
G
M

k=1
(1 z
k
z
1
)
N

k=1
(1 p
k
z
1
)
(1.14)
dove G =
b0
a0
, z
k
e p
k
diversi da zero.
Dim.
M

k=0
b
k
z
k
N

k=0
a
k
z
k
=
M

k=0
b
k
s
k
N

k=0
a
k
s
k
(1.15)
=
b
M
M

k=1
(s s
z,k
)
a
M
N

k=1
(s s
p,k
)
=
b
M
M

k=1
(z
1
s
z,k
)
a
M
N

k=1
(z
1
s
p,k
)
4. Se b0 fosse nullo, la (1.13) si potrebbe riscrivere mettendo in evidenza il fattore z
1
; r
diventerebbe r 1, M diventerebbe M 1 il nuovo b
k
per k = 0, . . . , M 1 sarebbe
pari al vecchio b
k+1
: H(z) = z
r
M

k=0
b
k
z
k
N

k=0
a
k
z
k
= z
r
M

k=1
b
k
z
k
N

k=0
a
k
z
k
= z
r1
M

k=1
b
k
z
(k1)
N

k=0
a
k
z
k
=
z
r1
M1

k=0
b
k+1
z
k
N

k=0
a
k
z
k
; in modo analogo si itera se anche il nuovo b0 `e nullo e si procede
allo stesso modo nel caso a0 = 0; risulta, pertanto, sempre possibile scrivere la H(z) nella
forma (1.13) per opportune scelte di b
k
, a
k
, M, N ed r.
c Prof. Davide Mattera. 08/12/2011
1.7 Denizione di trasformata zeta razionale 15
=
b
M
M

k=1
(s
z,k
)
a
M
N

k=1
(s
z,k
)
M

k=1
(1
1
s
z,k
z
1
)
N

k=1
(1
1
s
p,k
z
1
)
(1.16)
= G
M

k=1
(1 z
k
z
1
)
N

k=1
(1 p
k
z
1
)
dove G =
b0
a0
, s
z,k
sono gli zeri del polinomio in s al numeratore, s
p,k
sono gli zeri
del polinomio in s al denominatore, z
k

= s
1
z,k
e p
k

= s
1
p,k
. Lespressione di G `e
determinata facendo tendere z ad innito o, equivalentemente, s = z
1
a zero. Si
noti che dalla denizione risulta che zeri e poli siano non nulli. Il caso in cui s
z,k
oppure s
p,k
siano nulli va escluso poich`e questo accade solo se il termine noto dei
polinomi in s e cio`e a
0
e b
0
siano nulli; ci`o `e stato escluso dal rimaneggiamento
iniziale dei termini in (1.13) n dal principio.
Gli zeri di una funzione razionale sono tutti i punti z per cui la H(z) si annulla;
i poli di H(z) sono tutti i punti z per cui H(z) tende allinnito. La fattorizzazione
(1.14) ci consente di capire che z
k
sono zeri di H(z) e p
k
sono poli di H(z); ci
permette anche di capire che un polo ed uno zero nello stesso punto si cancellano
(cancellazione poli-zeri).
Es. 1 H(z) = 1 az
1
(r = 0, M = 1, N = 0, b
0
= 1 , b
1
= a, a
0
= 1,
G = 1, z
1
= a).
Es. 2 H(z) = 1 az
La sua espressione nella forma (1.13) si trova come H(z) = 1 az = z(a + z
1
)
(r = 1, M = 1, N = 0, b
0
= a , b
1
= 1, a
0
= 1).
La sua espressione nella forma (1.14) si trova come H(z) = 1az = z(a)(1
1
a
z
1
)
(G = a, z
1
=
1
a
).
Es. 3 H(z) =
1az
1bz
La sua espressione nella forma (1.13) si trova come H(z) =
1az
1bz
=
a+z
1
b+z
1
(r = 0,
M = 1, N = 1, b
0
= a , b
1
= 1, a
0
= b, a
1
= 1).
La sua espressione nella forma (1.14) si trova come H(z) =
1az
1bz
=
a
b
1
a
z
1
b
z
=
a
b
1
a
z
1
1
1
b
z
1
1
=
a
b
1
1
a
z
1
1
1
b
z
1
( G =
a
b
, z
1
=
1
a
, p
1
=
1
b
).
1.7.1 Antitrasformazione nel dominio del tempo
In questo paragrafo facciamo riferimento alla H(z) in (1.13) limitatamente al caso
r = 0. Mediante utilizzazione della sostituzione s = z
1
, si pu` o decomporre in fratti
semplici lespressione (1.14) assumendo che non siano presenti poli a molteplicit` a
c Prof. Davide Mattera. 08/12/2011
16 Sistemi lineari
maggiore di uno e poi sostituire s con z
1
; si ottiene
H(z) =
N

k=1
A
k
1 p
k
z
1
+
_
MN

k=0
c
k
z
k
_
u(M N) (1.17)
dove
A
k
= lim
zp
k
(1 p
k
z
1
)H(z) = G
M

i=1
(1 z
i
p
1
k
)
N

i=1,i=k
(1 p
i
p
1
k
)
(1.18)
dove u(n) `e la funzione gradino (cio`e u(n) = 1 se n 0 e u(n) = 0 se n < 0).
Consideriamo ora la trasformazione delle due seguenti sequenze
h(n) = p
n
u(n) H(z) =
1
1 pz
1
|z| > |p| (1.19)
h(n) = p
n
u(n 1) H(z) =
1
1 pz
1
|z| < |p|
(1.20)
Dim. Nel primo caso, purch`e |z| > |p|,
+

n=0
p
n
z
n
=
1
1 pz
1
Nel secondo caso, purch`e |z| < |p|,

n=
p
n
z
n
=
+

n=1
(
z
p
)
n
=
+

n=0
(
z
p
)
(n+1)
=
z
p
+

n=0
(
z
p
)
n
=
z
p
1
1
z
p
=
z
p z
=
1
1 pz
1
Le due condizioni su z, imposte dalla convergenza delle due serie geometriche,
mostrano che una espressione analitica come la H(z) in (1.13) non specica chiara-
mente una antitrasformata se non si specica anche linsieme dei valori di z (ROC)
da utilizzarsi per la antitrasformazione. La antitrasformata di una generica coppia
(H(z), ROC) pu` o essere considerata come la risposta impulsiva di un sistema LTI;
in tal caso, le propriet` a della antitrasformata corrispondono a propriet` a del sistema,
come gi`a visto nello studio della Teoria dei Segnali (ad esempio, la sommabilit` a della
antitrasformata corrisponde alla stabilit`a del sistema, la causalit`a e la anticausalit`a
della antitrasformata alla causalit`a e la anticausalit`a del sistema). Nel seguito ci
riferiremo indierentemente a queste propriet` a della antitrasformata e del segnale;
per esempio, diremo che H(z) con una certa ROC `e stabile, intendendo dire che `e
stabile il sistema con risposta impulsiva pari allantitrasformata di (H(z), ROC).
Con riferimento alla espressione (1.17), poich`e compaiono N termini del tipo
1
1p
k
z
1
, avendo ordinato in modo crescente nel modulo i vari poli p
k
ci ritroviamo
c Prof. Davide Mattera. 08/12/2011
1.7 Denizione di trasformata zeta razionale 17
con N + 1 possibili scelte per la ROC:
(a)
{|z| > max
k
|p
k
|} h(n) =
N

k=1
A
k
p
n
k
u(n) +
_
MN

k=0
c
k
(n k)
_
u(M N)
(b)
{|z| < min
k
|p
k
|} h(n) =
N

k=1
A
k
p
n
k
u(n1)+
_
MN

k=0
c
k
(n k)
_
u(MN)
(c)
{|p

| < |z| < |p


+1
|} h(n) =

k=1
A
k
p
n
k
u(n)
N

k=+1
A
k
p
n
k
u(n1)+
_
MN

k=0
c
k
(n k)
_
u(MN)
Si noti che il termine p
n
k
u(n), ovviamente causuale, `e sommabile se e solo se
|p
k
| < 1; inoltre, il termine p
n
k
u(n 1), ovviamente anticausale, `e sommabile se e
solo se |p
k
| > 1. Si noti, inoltre, che la somma di diversi termini `e sommabile solo
se tutti i termini lo sono, `e causale solo se tutti i termini lo sono, `e anticausale solo
se tutti i termini lo sono, `e non causale se alcuni termini sono causali ed altri sono
anticausali. Si possono pertanto, svolgere le seguenti osservazioni:
La presenza di poli sul cerchio unitario `e incompatibile con la stabilit`a del sistema.
La scelta (a) ci da certamente una h(n) causale; essa, per`o, risulta non sommabile
(e quindi il corrispondente sistema LTI instabile) se esiste anche un solo polo a
modulo maggiore di uno cio`e esterno al cerchio unitario.
La scelta (b) ci da un primo termine anticausale nella h(n) (e, quindi, ci da
una h(n) anticausale se M < N); essa, per`o, risulta non sommabile (e quindi il
corrispondente sistema LTI instabile) se esiste anche un solo polo a modulo minore
di uno cio`e interno al cerchio unitario.
La scelta (c) ci da certamente una h(n) non causale. Essa ci da una h(n)
sommabile (e quindi un corrispondente sistema LTI stabile) purch`e si sia scelto
quel valore di per cui |p

| < 1 e |p
+1
| > 1 (la ROC contiene il cerchio unitario).
La scelta che ci interessa `e ovviamente quella che garantisce un sistema LTI
stabile. Essa `e anche causale se tutti i poli sono interni al cerchio unitario ed `e
anche anticausale se tutti i poli sono esterni al cerchio unitario con N > M. In
generale, per`o, essa `e non causale.
1.7.2 Sistemi distinguibili nel dominio zeta solo per la ROC
Vediamo ora come si realizza un sistema descritto dalla relazione ricorsiva (1.1)
che implica una trasformata zeta nella forma (1.13) o, equivalentemente, (1.14).
Ancora limitiamo la nostra attenzione al caso r = 0; conviene dapprima derivare
c Prof. Davide Mattera. 08/12/2011
18 Sistemi lineari
dalla relazione (1.1) il seguente insieme di sistemi LTI coerenti con esso:
y(n i)
M

k=0
b
k
a
i
x(n k)
N

k=0,k=i
a
k
a
i
y(n k) i = 0, . . . , N (1.21)
o, equivalentemente, per le propriet` a di tempo invarianza, sostituendo n con n +i,
y(n)
M

k=0
b
k
a
i
x(n +i k)
N

k=0,k=i
a
k
a
i
y(n +i k) i = 0, . . . , N (1.22)
Tale relazione pu` o essere utilizzata per realizzare un sistema nei casi estremi i = 0
ed i = N. Nel primo caso si ottiene luscita allistante n mediante utilizzazione
delle uscite gi`a ottenute negli istanti precedenti e nel secondo caso si ottiene
luscita allistante n N mediante utilizzazione delle uscite negli istanti successivi
procedendo a ritroso nel tempo, dopo aver accumulato una certo insieme di campioni
del segnale di ingresso. La scelta i = 0 corrisponde ad una risposta allimpulso del
tipo (a) e realizza il sistema (a) che `e stabile solo se tutti i poli sono interni al
cerchio unitario mentre la scelta i = N fornisce una risposta allimpulso del tipo
(b) e realizza il sistema (b) che `e stabile solo se tutti i poli sono esterni al cerchio.
Per comprendere meglio la questione qui considerata, consideriamo per esempio
la semplice relazione ricorsiva:
y(n) = bx(n) +ay(n 1) (1.23)
a cui corrispondono i seguenti due sistemi LTI:
y(n) bx(n) +ay(n 1) n n
c
x(n) = y(n) = 0 n < n
c
(1.24)
y(n 1)
b
a
x(n) +
1
a
y(n) n n
a
x(n) = y(n) = 0 n > n
a
(1.25)
dove n
c
`e un istante a partire dal quale si attiva il segnale di ingresso e no a
quellistante la nostra relazione ci garantisce che y(n) valga zero ed, analogamente,
n
a
`e un istante in seguito al quale si annulla il segnale di ingresso e la relazione
costitutiva del nostro sistema ci garantisce che y(n) valga zero dopo tale istante n
a
.
Abbiamo visto che tali due sistemi corrispondono alla stessa equazione alle
dierenze ma sono due sistemi LTI diversi e che corrispondono a due ROC diverse.
Dei due sistemi uno solo `e stabile: il primo sistema (1.24) se a < 1 e il secondo
sistema (1.25) se a > 1 e nessuno dei due se a = 1.
1.8 I ltri lineari non ricorsivi
La realizzazione di un sistema lineare ricorsivo considerato nel capitolo precedente
richiede di tenere sotto controllo la stabilit`a del sistema. Ci`o richiede di monitorare
la posizione dei suoi poli rispetto al cerchio di raggio unitario, decomporre in
c Prof. Davide Mattera. 08/12/2011
1.8 I ltri lineari non ricorsivi 19

z
1
z
1
z
1
z
1


b0 b1 b2 b3
bM2 bM1
x(n) x(n1) x(n2) x(n 3) x(n (M 2)) x(n (M 1))
y(n)
Figure 1.2 Schema logico dellelaboratore lineare non ricorsivo.
una una struttura seriale o parallela il sistema complessivo in modo che ciascun
sottosistema costituente sia strettamente causale oppure strettamente anticausale
e procedere alla realizzazione di ciascun sottosistema facendo correre la ricorsione
nella direzione che garantisce la stabilit`a del sistema realizzato (ci` o procedendo
in avanti per il caso in cui i poli sia tutti interni al cerchio di raggio unitario e
procedendo a ritroso quando essi siano tutti esterni).
Tale operazione `e sempre possibile da realizzare anche se `e esposta al rischio di
uno spostamento dallinterno allesterno del cerchio di raggio unitario di ciascun
polo che al cerchio considerato si avvicini. E viene eettivamente realizzata quando
si voglia cogliere il vantaggio che ne deriva rispetto ad un approccio pi` u semplice
dal punto di vista realizzativo.
Lalternativa alla struttura considerata nel capitolo precedente `e un suo caso
specico, quello in cui N = 0, cio`e in cui non sia presente alcuna ricorsione delle
uscite precedenti nella struttura di calcolo. Lo schema generale considerato nel
capitolo precedente si riduce allo schema considerato nella gura 1.2.
Esso `e descritto dalla relazione
y(n)
M1

k=0
b
k
x(n k) (1.26)
che si trova in corrispondenza uno ad uno con la relazione matematica
y(n) =
M1

k=0
b
k
x(n k) (1.27)
siccome essa ammette ununica soluzione y(n) per ogni ssato ingresso x(n).
`
E
ovvio vericare che esso `e LTI e la zeta trasformata della sua risposta impulsiva
c Prof. Davide Mattera. 08/12/2011
20 Sistemi lineari
vale
H(z) =
M1

k=0
b
k
z
k
(1.28)
e la sua risposta impulsiva vale
h(n) =
M1

k=0
b
k
(n k) (1.29)
ed `e quindi di durata nita. Per tale motivo il sistema lineare non ricorsivo qui
considerato `e chiamato ltro FIR (FIR, nite impulse response), cio`e ltro con
risposta impulsiva a durata nita. Di converso, quelli ricorsivi vengono denotati
come ltri IIR (IIR, innite impulse response) cio`e ltri con risposta impulsiva a
durata innita.
Il confronto tra lespressione (1.28) e lespressione (1.17) del sistema pi` u generale
considerato nel capitolo 1 indica con chiarezza che leetto della mancata inclusione
della retroazione delle uscite nello schema realizzativo `e quello di limitare la zeta
trasformata della risposta impulsiva ad essere una funzione polinomiale di z
1
invece che una funzione razionale di z
1
. Occorre quindi considerare la relazione
tra i due insiemi di funzioni, quello S
1
delle funzioni polinomiali e quello S
2
delle
funzioni razionali che possono essere scritte come rapporto di funzioni polinomiali.
`
E
evidente che S
1
`e un sottoinsieme di S
2
ma per comprendere leetto della rinuncia
allinsieme S
2
a favore dellinsieme S
1
occorre considerare cosa signica dover
ricorrere ad un elemento dellinsieme S
1
per approssimare un qualsiasi elemento
dellinsieme S
2
. Il rapporto tra i due insiemi `e praticamente equivalente a quello
che sussiste tra linsieme dei numeri razionali e quello dei numeri razionali con un
numero nito di cifre decimali: se non viene posto un limite allordine delle funzioni
polinomiali in S
1
i due insiemi risultano equivalenti, se invece si pone un limite M
allinsieme delle funzioni polinomiali in S
1
`e possibile approssimare una qualsiasi
funzione in S
2
pur di scegliere un ordine M sucientemente elevato.
Come esempio si consideri il numero razionale 10/3 e si considerino le sue ap-
prossimazioni ottenute con un numero nito di cifre decimali {3, 3.3, 3.33, 3.333, 3.3333}.
`
E chiaro che quanto maggiore `e il limite superiore posto al numero di cifre decimali
utilizzate tanto maggiore `e la qualit`a dellapprossimazione ottenuta.
Come esempio di sistema lineare si consideri quello descritto dalla relazione (1.24)
con a < 1 ssato. Esso `e stabile e la zeta trasformata della sua risposta impulsiva
vale
H(z) =
b
1 az
1
(1.30)
con ROC esterna al cerchio di raggio a; la sua risposta impulsiva vale dunque
h(n) = ba
n
u(n) (1.31)
ed `e pertanto di durata innita. Ricorrere alla struttura FIR signica approssimare
c Prof. Davide Mattera. 08/12/2011
1.8 I ltri lineari non ricorsivi 21
tale risposta impulsiva con una risposta impulsiva di durata nita usando la libert` a
di scegliere i coecienti {b
k
}. Si pu` o scegliere b
k
= ba
k
per k {0, . . . , M 1} ed
in questo modo coprire la parte pi` u rilevante della risposta impulsiva 1.31. La dif-
ferenza tra le due risposte impulsiva, quella esatta in (1.31) e quella approssimante
considerata, vale ba
n
per n > M e zero altrimenti. Lenergia della dierenza vale
dunque
+

n=M
ba
n
=
+

n=0
ba
n

M1

n=0
ba
n
=
b
1 a
b
1 a
M
1 a
=
ba
M
1 a
(1.32)
La qualit`a dellapprossimazione ottenuta `e tanto maggiore quanto minore `e lenergia
in (1.32) della dierenza tra la risposta impulsiva vera e quella approssimante. Si
nota che lapprossimazione `e tanto migliore quanto maggiore `e M. Per un ssato
M, lenergia cresce e lapprossimazione quindi peggiora quando a < 1 si avvicina
ad 1. Se a `e piccolo pu` o bastare un piccolo valore di M ad ottenere una buona
approssimazione mentre occorre un valore di M sempre pi` u elevato per conservare
la stessa qualit`a di approssimazione al crescere di M.
Si noti che il sistema ricorsivo originario (1.24) richiede due moltiplicazioni ed
un addizione per ogni campione di uscita da calcolare mentre il sistema FIR
approssimante richiede M moltiplicazioni ed M 1 addizioni con due addendi.
Pertanto, la complessit`a computazionale del sistema approssimante pu` o diventare
molto elevata quando a si avvicina ad uno.
In conseguenza dei rapporti che sussistono tra i due insiemi S
1
ed S
2
, il ricorso
allo schema di gura 1.2 consente di realizzare in maniera approssimata un qualsiasi
sistema di gura 1.1 pur di scegliere un ordine sucientemente elevato per la strut-
tura non ricorsiva. Siccome tale ordine `e inevitabilmente legato alla sua complessit`a
computazionale cio`e, come si `e anticipato nellesempio precedente e come si vedr` a
meglio in seguito, al numero di operazioni (N
y
) che occorre compiere per calcolare
luscita di un blocco di dimensione N
y
, risulta limitata la banda dei segnali che pos-
sono essere elaborati con lo schema considerato se entrambe le strutture ricorrono
ad una realizzazione a singolo processore.
Il ricorso ad una struttura di realizzazione del sistema basato sulla disponibilit`a
di M moltiplicatori che operano in parallelo consente di ridurre i tempi per calcolare
luscita secondo la denizione (1.26) data e rende sostanzialmente indipendente da
M tali tempi; in tal modo si nisce per evitare la limitazione imposta alla banda dei
segnali elaborabili dalla struttura FIR ed ottenere praticamente la stessa limitazione
alla banda dei segnali; questo argomento verr`a approfondito in fase di studio delle
strutture realizzative dei sistemi FIR.
Lo svantaggio fondamentale della struttura FIR, qui considerato, ne ha pertanto
parzialmente limitato la diusione, almeno no a quando (a) il ricorso ad una
struttura realizzativa basata sulla disponibilit`a di strutture elaborative in parallelo
e (b) la disponibilit`a di strutture hardware a singolo processore pi` u veloci (cio`e
caratterizzate da valori pi` u elevati del parametro f

) non hanno reso impercettibile


leetto di tale svantaggio.
c Prof. Davide Mattera. 08/12/2011
22 Sistemi lineari
Un ulteriore svantaggio della soluzione IIR `e dato dalleetto non lineare che
introduce la rappresentazione approssimata dei numeri reali con un numero nito
di bit; ci`o introduce eetti non lineari che nella struttura (1.1) si inseriscono sul ciclo
di retroazione ed introducono maggiori disturbi rispetto al comportamento ideale
desiderato, che verranno considerati trattando la questione della realizzazione di tali
strutture. Tale svantaggio risulta molto pi` u inuente in uno schema di elaborazione
a virgola ssa (pi` u economico e quindi pi` u diuso nei dispositivi a larga diusione)
che non in uno a virgola mobile.
Il vantaggio fondamentale della struttura FIR appare evidente dallosservazione
della sua H(z) in (1.28): z
M
H(z) `e un polinomio in z che ha solo zeri e non
ha poli ovvero lunico polo di H(z) si trova nellorigine ed ha molteplicit` a M;
la convergenza della zeta trasformata sul cerchio di raggio unitario si ottiene
qualunque siano i coecienti {b
k
}; pertanto, la stabilit`a della struttura realizzativa
in gura 1.2 `e garantita qualunque siano i valori dei suoi coecienti. Viceversa,
la struttura realizzativa in gura 1.1 richiede di vericare che non ci siano poli
sul cerchio di raggio unitario e richiede di scegliere la direzione in cui avviene la
ricorsione conformemente alla posizionamento dei poli (ovvero di ripartire il sistema
complessivo in sottosistemi causali ed anticausali). Quando si progetti un ltro in
maniera statica, tali operazioni possono anche essere compiute, oggi diremo pure
agevolmente. Quando invece si consideri un ltro adattativo, cio`e che modichi
ad ogni istante del tempo discreto (oppure con una cadenza pi` u ridotta) i valori
dei suoi coecienti (per inseguire un comportamento ideale a cui un opportuno
algoritmo adattativo lo faccia convergere), allora poter evitare di vericare ad ogni
passo di iterazione la stabilit`a del sistema (ovvero il posizionamento esterno ed
interno dei suoi poli per poter procedere ad una elaborazione adattativa a blocchi)
costituisce una notevole semplicazione del meccanismo di adattamento del ltro ai
dati disponibili. Pertanto, anche se ci sono stati tentativi di congegnare meccanismi
di ltro IIR adattativo, proprio dalla macchinosit`a dei meccanismi cos ottenuti,
da diversi decenni `e abbastanza chiaro il vantaggio di operare con una struttura
FIR della cui stabilit`a `e possibile non occuparsi in fase di progetto del meccanismo
adattativo; rimuovere un vincolo come questo in fase di progetto, da vericare con
una certa cadenza, ovviamente semplica il problema di progettare il meccanismo
che regola la modica adattativa dei coecienti del ltro. Il vantaggio `e ancora pi` u
netto se si confrontano i sistemi FIR ed IIR in un contesto nel quale ladattamento
dei coecienti avviene ad ogni istante di tempo discreto.
Solo oggi quando si comincia a parlare dei consumi energetici dei sistemi di ela-
borazione, che essendosi diusi, arrivano a percentuali non trascurabili del consumo
energetico complessivo delle societ`a tecnologicamente avanzate, lo svantaggio cor-
relato al ricorso a strutture di elaborazione in parallelo, e cio`e il maggiore consumo
energetico di tali dispositivi che operano in parallelo, appare non pi` u facilmente ac-
cettabile e potrebbe precludere ad una maggiore attenzione alle strutture ricorsive
in una elaborazione adattativa a blocchi. Tale prospettiva potrebbe essere raorzata
dalla tendenza a costruire strutture di elaborazione che si occupano di elaborare
in contemporanea un numero elevato di segnali di ingresso, in cui pertanto un ap-
c Prof. Davide Mattera. 08/12/2011
1.8 I ltri lineari non ricorsivi 23
proccio parallelo alla elaborazione nisce per incrementare il consumo energetico.
Dal punto di vista della progettazione dei ltri, la scelta di progettare n
dallinizio il ltro nella forma IIR, ancorche evidentemente pi` u complicata, rap-
presenterebbe la via maestra in quanto consentirebbe di apprezzare la qualit`a di
una sua approssimazione con un ltro FIR, ovvero di dimensionare opportunamente
lordine M del ltro FIR in modo da poter ottenere una qualit`a praticamente equi-
valente a quella ottenibile con il ltro IIR. Una volta dimensionato, il ltro potrebbe
essere riprogrammato ottimizzando conseguentemente i suoi parametri oppure, in
maniera semplicata, il ltro FIR lo si potrebbe ottenere come troncamento del
ltro IIR congurando quindi la denizione dei parametri della struttura FIR come
una semplice questione di realizzazione approssimata del ltro IIR determinato.
c Prof. Davide Mattera. 08/12/2011
24 Sistemi lineari
c Prof. Davide Mattera. 08/12/2011
2 Progetto mediante utilizzazione di dati
sperimentali
Un primo criterio di progetto dei parametri di una struttura lineare `e quella
che si basa sulla disponibilit`a di due segnali x(n) e d(n) per un certo intervallo
n {1, M + 1}. Con riferimento al presente capitolo faremo riferimento alla
sola struttura 1.2 per la maggiore semplicit`a di applicazione di questo criterio a tale
struttura e per la ampia diusione della opzione in favore di tale struttura.
Il passo fondamentale `e quello di assumere che il segnale di ingresso e quello di
uscita siano due processi aleatori congiuntamente stazionari. Conseguentemente, si
individua una funzione di costo che misura lo scostamento delluscita realmente
ottenuta dal ltro determinato (processo aleatorio in quanto elaborazione lineare
del processo aleatorio di ingresso) e quello desiderato d(n) caratterizzato come
processo aleatorio. Lo scostamento dipende dal ltro; il ltro ottimo sar`a quello che
minimizza tale funzione di costo. Esso dipender`a dalla caratterizzazione statistica
marginale e congiunta dei segnali dati x(n) e d(n).
A questo punto si distungono due approcci fondamentali. Nel primo approccio
si presume anche di possedee la caratterizzazione statistica congiunta dei segnali
aleatori x(n) e d(n). Una volta individuata lespressione del ltro ottimo in funzione
delle caratterizzazioni statistiche sintetiche necessarie a determinare il ltro ottimo,
si utilizzano le serie temporali disponibili per stimare tali caratterizzazioni sintetiche
sulla base dellassunzione di ergodicit` a dei segnali coinvolti e si usano tali stime in
luogo dei valori esatti nella relazione matematica che esprima il ltro ottimo in
funzione di questi valori.
Nel secondo approccio, invece, si non si presume di possedere una caratteriz-
zazione statistica dei segnali aleatori, si individua una nuova funzione che dipende
solo dai dati disponibili e si vericano le condizioni che garantiscono che lottimo di
tale funzione converga al ltro ottimo che minimizza la vera funzione di costo (che
non pu` o essere maneggiata siccome non si conoscono le caratteristiche statistiche
dei segnali x(n) e d(n)).
Il primo approccio `e pi` u ovvio e semplice nel caso lineare e solo nel caso di
elaborazioni non lineari mostra i suoi limiti eettivi e quindi la sua inferiorit` a
rispetto al secondo approccio. In ogni caso anche in ambito lineare la discussione
mostrer`a alcuni limiti del primo approccio.
c Prof. Davide Mattera. 08/12/2011
26 Progetto mediante utilizzazione di dati sperimentali
2.1 Il primo approccio: caratterizzazione statistica disponibile ovvero ltro di
Wiener
Luscita del ltro descritto nella schema di gura 1.2 pu` o essere scritta nel modo
seguente:
y(n) = b
0
x(n) +b
1
x(n1) +b
2
x(n2) +. . . +b
M1
x(n(M1)) =
M

k=0
b
k
x(nk)
(2.1)
dove x(n) rappresenta lingresso del ltro visto come segnale a valore reale ed y(n)
rappresenta luscita del ltro quando il coecienti del ltro sono ssati ai generici
valori reali {b
k
}. Se si denisce il vettore x(n)

= [x(n) x(n1) x(n2) . . . x(n
(M 1))]
T
ed il vettore b

= [b
0
b
1
b
2
. . . b
M1
]
T
, la relazione precedente pu` o
essere scritta nella seguente forma compatta:
y(n) = b
T
x(n) (2.2)
Progettare il ltro FIR signica determinare il vettore b siccome esso contiene tutti
i coecienti liberi del ltro. Sia y(n) sia d(n) ad un generico ma ssato istante di
tempo n sono variabili aleatorie; la variabile aleatoria y(n) dipende da b e si vuole
scegliere il vettore b in modo tale che le due variabili aleatorie y(n) e d(n) siano
quanto pi` u possibili simili tra loro.
Linsieme delle variabili aleatorie `e uno spazio vettoriale dotato di prodotto
scalare
1
; date due variabili aleatorie A e B, il loro prodotto scalare `e denito
come E[AB

], di conseguenza la norma di una variabile aleatoria A `e E[|A|


2
] e la
distanza tra due variabili aleatorie `e la norma della dierenza E[|AB|
2
]. Un primo
semplice e diretto approccio alla soluzione di questo problema consiste nel misurare
lo scostamento tra le due variabili aleatorie y(n) e d(n) attraverso la loro distanza
nello spazio vettoriale considerato e quindi cercare di minimizzare al variare di b la
quantit` a E[|y(n) d(n)|
2
]. Siccome la quantit` a y(n) d(n) rappresenta lerrore cio`e
lo scostamento tra il valore ottenuto ed il valore desiderato, allora la quantit` a da
minimizzare viene chiamata lerrore quadratico medio (MSE, mean square error).
Prima di procedere con la derivazione del ltro conseguente, `e opportuno richia-
mare un aspetto su cui in seguito andremo a discutere. Noi abbiamo assunto di
conoscere la caratterizzazione statistica completa di d(n) e facendo uso di tale carat-
terizzazione potremmo denire una funzione di costo in maniera pi` u opportuna.
Tuttavia, abbiamo richiamato n dallinizio che il primo approccio qui considerato
si limita dapprima a assumere tutto noto per capire che cosa alla ne occorre stimare
dai dati. Pertanto, con la scelta fatta non abbiamo assunto noto ancora nulla men-
tre se usiamo la conoscenza della caratterizzazione statistica di d(n), troveremmo
1. Per dimostrare ci`o, occorre vericare che la media del prodotto E[AB

] tra due variabili


aleatorie A e B soddis tutte le propriet`a che deniscono un prodotto scalare.
c Prof. Davide Mattera. 08/12/2011
2.1 Il primo approccio: caratterizzazione statistica disponibile ovvero ltro di Wiener 27
una soluzione dipendente dalla funzione di costo adottata che dipende dalla carat-
terizzazione statistica che, a sua volta, deve essere stimata dai dati. Per tale motivo
lidea di non utilizzare la eventuale conoscenza della caratterizzazione statistica di
d(n) consente di semplicare la procedura. Quando venga scartata lidea di utiliz-
zare la caratterizzazione statistica di d(n) per denire la funzione di costo, resta
la questione di come motivare la scelta fatta. In primo luogo, anticipiamo che la
soluzione adottata `e quella che semplica al massimo il problema di ottimizzazione
rispetto a b che dovr` a essere risolto. E questo `e una motivazione storicamente molto
importante; anche oggi potremmo dire che una funzione di costo non convessa com-
plicherebbe di molto il problema della ottimizzazione ma quando `e stato derivato
questo metodo da Wiener (con notazione relativa alla elaborazione analogica allora
in voga negli anni Trenta del Novecento) anche la dierenza tra lottimizzazione
quadratica che risulter`a dalla scelta fatta e la generica ottimizzazione convessa era
sicuramente molto importante. Inoltre, una funzione di costo oppure unaltra non
sempre produce una qualit`a apprezzabilmente diversa in molte applicazioni e questo
spinge ad adottare quella che semplica la derivazione del ltro ottimo. Inne, ri-
porto le parole con cui Wiener se la cava parlando delle basi e dei risultati del
suo lavoro nel suo libro autobiograco [3]: For the actual distribution of curves
which we wanted to predict, or let us say for the actual distribution of airplanes
that we wanted to shoot down, we might seek a prediction making some quantity
a minimum; and the most natural quantity to choose at the start, if we should be
guided by easy computation, if not military signicance, was the mean square er-
ror of prediction. In altri termini, specica che la semplicit`a di calcolo `e stata una
guida e che probabilmente poteva anche trovare qualche ulteriore giusticazione con
riferimento alla specica applicazione militare. Esistono tuttavia tante applicazioni
nelle quali produce una progettazione migliore cercare di stimare e poi utilizzare
nozioni riguardanti la caratterizzazione statistica di d(n), il che impone il dover
ritornare sulla questione per cercare di capire sia come stimare la caratterizzazione
statistica di d(n) sia come utilizzare tale informazione per minimizzare la funzione
di costo sia come minimizzare la funzione di costo conseguente. Ma come primo
caso di progetto del ltro, `e certamente istruttivo seguire no in fondo il metodo di
base introdotto da Wiener prima di andare a descriverne sviluppi evolutivi.
La funzione di costo introdotta pu` o essere riscritta come segue:
E[y(n) d(n)|
2
] = E[b
T
x(n) d(n)|
2
]
= E
_
[b
T
x(n) d(n)][b
T
x(n) d(n)]
_
= E
_
[b
T
x(n) d(n)][bx
T
(n) d(n)]
_
= E
_
[b
T
x(n) d(n)][x
T
(n)b d(n)]
_
= E
_
b
T
x(n)x
T
(n)b b
T
x(n)d(n) d(n)x
T
(n)b +d
2
(n)
_
= E[b
T
x(n)x
T
(n)b] E[b
T
x(n)d(n)] E[d(n)x
T
(n)b] +E(d
2
(n))
dove si `e usata la linearit`a della media e la seguente a
T
b = b
T
a per due vettori a
c Prof. Davide Mattera. 08/12/2011
28 Progetto mediante utilizzazione di dati sperimentali
e b.
Il primo addendo dellespressione trovata risulta
2
uguale a E[b
T
x(n)x
T
(n)b] =
b
T
E[x(n)x
T
(n)]b secondo una procedura che applicheremo diverse volte nel corso
delle lezioni e pertanto pu` o essere riscritta come b
T
Rb dove R

= E[x(n)x
T
(n)]
Analogamente, E[b
T
x(n)d(n)] = b
T
E[x(n)d(n)] e pertanto pu` o essere scritta come
b
H
p dove si `e denito il vettore p

= E[x(n)d(n)] Inoltre, E[d(n)x
T
(n)b] = p
T
b =
b
T
p e E[d
2
(n)] = r
d
(0) `e lautocorrelazione del segnale d(n) nellorigine.
Pertanto, possiamo scrivere che la nostra funzione di costo vale
b
T
Rb 2p
T
b +r
d
(0) (2.3)
Per studiare la forma quadratica osserviamo dapprima che la matrice R della
forma quadratica `e semidenita positiva ed `e denita positiva con leccezione dei
casi in cui il processo aleatorio x(n) sia degenere, tale cio`e da connare il supporto
della densit` a di probabilit` a del vettore x(n) ad un sottospazio. Infatti, ssato un
qualsiasi vettore w si ha che la forma quadratica conseguente `e non negativa:
w
T
Rw = w
T
E[x(n)x
T
(n)]w
= E[w
T
(x(n)x
T
(n))w]
= E[(w
T
(x(n))(x
T
(n)w)]
= E[(w
T
x(n))(w
T
x
T
(n))]
= E[(w
T
x(n))
2
] 0 (2.4)
in quanto la media di una variabile aleatoria non negativa `e essa stessa non negativa.
Inoltre, la forma quadratica `e strettamente positiva - a meno di casi degeneri
3
- per
2. La dimostrazione `e ovvia e segue direttamente dalla linearit`a della media:
E[(b
T
x(n))(x
T
(n)b)] = E[b
T
(x(n)x
T
(n))b] = E[b
T
Mb]
dove M

= x(n)x
T
(n). Lelemento (i, j) della matrice M vale Mi,j = xi(n)xj(n) dove
xi(n) denota la i-esima componente del vettore x(n). Conseguentemente,
E[b
T
Mb] = E
_

i,j
bibjMi,j
_
=

i,j
bibjE[Mi,j] =

i,j
bibjri,j
dove
ri,j

= E[Mi,j] = E[xi(n)xj(n)]
`e pari alla componente (i, j) della matrice R

= E[x(n)x
T
(n)] da cui segue che

i,j
bibjri,j = b
T
Rb.
3. Il caso degenere `e quello in cui il vettore x(n) giaccia in un sottospazio con probabilit`a
uno. Si ricordi che x(n) `e un vettore aleatorio che ammette diverse realizzazioni; se x(n)
fosse un vettore ssato, sarebbe ovvio trovare un vettore w non nullo che annulli il prodotto
scalare w
T
x(n). Siccome x(n) `e un vettore aleatorio, anch`e la potenza E[(w
T
x(n))
2
]
del prodotto scalare tra un vettore deterministico w ed il vettore aleatorio x(n) sia nulla
c Prof. Davide Mattera. 08/12/2011
2.1 Il primo approccio: caratterizzazione statistica disponibile ovvero ltro di Wiener 29
ogni vettore w che non sia identicamente nullo.
Siccome la matrice R della forma quadratica (2.3) `e denita positiva, a meno di
casi degeneri, il minimo della forma quadratica pu` o essere ottenuto annullandone
il gradiente. Il gradiente di una forma quadratica b
T
Ab vale
4
(A + A
T
)b, che
per una matrice simmetria (A = A
T
) implica che la seguente espressione: 2Ab.
`
E abbastanza ovvio vericare che il gradiente (rispetto al vettore b) della forma
lineare p
T
b `e pari proprio al vettore p. Di conseguenza il gradiente della forma
quadratica considerata `e pari proprio a 2Rb 2p e pertanto la condizione che
porta ad annullare il gradiente `e la seguente:
R

b
rmMMSE
= p (2.6)
dove si `e denotato con

b
MMSE
il vettore ottimo secondo il criterio adottato. Il ltro
trovato viene usualmente chiamato il ltro di Wiener in omaggio a chi lo introdusse
e la condizione (2.6) viene usualmente chiamata la condizione di Wiener.
`
E opportuno anche considerare il caso di segnali x(n) e d(n) a valori complessi
e seguire un altro metodo pi` u sintetico di derivazione del ltro ottimo di Wiener.
In questo caso, la distanza tra le due variabili aleatorie d(n) e y(n), viste come
elementi di uno spazio vettoriale dotato di prodotto scalare, viene minimizzata
guardando alla scelta della variabile aleatoria y(n) che, in base alla dezione (2.1),
`e un elemento dello spazio vettoriale ottenuto come combinazione lineare delle
variabili aleatorie {x(n), x(n 1), ldots, x(n (M 1))}; al variare del vettore b
si ottengono tutti gli elementi di questo sottospazio vettoriale. Il vettore d(n) avr` a
`e necessario che abbia probabilit`a nulla levento che w
T
x(n) = 0 o, equivalentemente, che
abbia probabilit`a nulla levento secondo cui il vettore x(n) esca dal sottospazio costituito
dai vettori ortogonali a w.
4. La k-esima componente del gradiente della funzione b
T
Ab =

i,j
bibjAi,j `e pari alla
derivata della funzione rispetto alla variabile b
k
che vale
d
db
k
_

i,j
bibjAi,j
_
=
_

i,j
Ai,j
d
db
k
(bibj)
_
=

i,j
Ai,j(bi(j k) +bj(i k))
=

i,j
Ai,jbi(j k) +

i,j
Ai,jbj(i k)
=

i
A
i,k
bi +

j
A
k,j
bj
= [A
T
b]
k
+ [Ab]
k
= [A
T
b +Ab]
k
= [(A+A
T
)b]
k
(2.5)
dove si `e denotato con [Ab]
k
la k-esima componente del vettore Ab. Se la k-esima
componente del gradiente `e pari alla k-esima componente del vettore (A + A
T
)b allora
ci`o signica che il gradiente `e pari al vettore (A+A
T
)b.
c Prof. Davide Mattera. 08/12/2011
30 Progetto mediante utilizzazione di dati sperimentali
una componente nel sottospazio ed una componente ortogonale a tale sottospazio. Il
teorema di Pitagora negli spazi vettoriali ci assicura che la distanza al quadrato tra
i due vettori `e pari alla distanza al quadrato tra le due componenti nel sottospazio
sommata alla norma al quadrato della componente di d(n) ortogonale al sottospazio.
Siccome tale secondo addendo non dipende dal variabile y(n), tale distanza pu` o
essere minimizzata annullando il primo addendo, cio`e rendendo y(n) pari alla
proiezione ortogonale di d(n) nel sottospazio, ovvero rendendo la dierenza tra
d(n) ed y(n) ortogonale al sottospazio:
E[(w
T
x(n))(d(n)

b
H
MMSE
x(n))

] = 0 w
Tale principio viene detto principio di ortogonalit`a. Essa pu` o essere riscritta nel
modo seguente:
w
T
E[(x(n))(d(n)

b
H
MMSE
x(n))

] = 0 w
e pu` o essere soddisfatta per ogni vettore w solo se
E[(x(n))(d(n)

b
H
MMSE
x(n))

] = 0
o equivalentemente
E[(x(n))(d

(n) x
H
(n)

b
MMSE
)] = 0
o equivalentemente
E[x(n)d

(n)] = E[x(n)x
H
(n)

b
MMSE
]
che risulta equivalente alla (2.6) purch`e si denisca in senso esteso al caso complesso
la matrice
R

= E[x(n)x
H
(n)] (2.7)
ed il vettore
p

= E[x(n)d

(n)] (2.8)
in modo coerente con il caso precedente che si limitava ai vettori reali e si tenga
conto - seguendo la falsariga della dimostrazione nella nota 2 di questo capitolo -
che
E[x(n)x
H
(n)

b
MMSE
] = E[x(n)x
H
(n)]

b
MMSE
= R

b
MMSE
(2.9)
Un ulteriore modo per dimostrare lo stesso risultato consiste nel considerare la
funzione di costo (2.3) nel punto R
1
p+v, dove si `e assunta la matrice Rinvertibile,
e di vericare che la funzione del vettore v che cos si ottiene si minimizza in
corrispondenza del vettore v = 0. Tornando al caso di segnali reali, la funzione di
c Prof. Davide Mattera. 08/12/2011
2.1 Il primo approccio: caratterizzazione statistica disponibile ovvero ltro di Wiener 31
v risulta pari a
b
T
Rb 2b
T
p +r
d
(0) = (R
1
p +v)
T
R(R
1
p +v) 2(R
1
p +v)
T
p +r
d
(0)
= (p
T
R
1
+v
T
)R(R
1
p +v) 2(p
T
R
1
+v
T
)p +r
d
(0)
= p
T
R
1
RR
1
p +p
T
R
1
Rv +v
T
RR
1
p +v
T
Rv
2p
T
R
1
p 2v
T
p +r
d
(0)
= p
T
R
1
p +p
T
v +v
T
p +v
T
Rv
2p
T
R
1
p 2v
T
p +r
d
(0)
= r
d
(0) p
T
R
1
p +v
T
Rv
= r
d
(0) p
T

b
MMSE
+v
T
Rv (2.10)
dove si `e tenuto conto che la matrice R
1
`e simmetrica e che p
T
v = v
T
p. siccome
lo `e R. Lespressione ottenuta mostra chiaramente che il minimo rispetto a v si
ottiene per v = 0, il che dimostra che R
1
p, rappresenta la soluzione ottima,
siccome R `e denita positiva (salvo casi degeneri). Inoltre, ci consente di ricavare
che il minimo valore del MSE, quello che viene detto MMSE (minimum MSE), vale
r
d
(0) p
T
b
MMSE
. Inne la relazione ottenuta ci consente di apprezzare leetto
di uno scostamento dalla soluzione ottima. Infatti, decomposta la matrice R in
autovettori ed autovalori:
R =
M

i=1

i
u
i
u
T
i
= QQ
T
(2.11)
dove la matrice Q

= [u
1
u
2
. . . u
M
] e la matrice `e denita come una matrice
diagonale avente
i
come elemento i-esimo sulla diagonale. Il termine v
T
Rv che
rappresenta leetto di incremento dellMSE in corrispondenza di uno scostamento
v dal punto di ottimo si pu` o scrivere nel modo seguente
v
T
Rv = v
T
(QQ
T
]v
= (v
T
Q)(Q
T
v)
= v
T
Q
v
Q
=
M

i=1

i
|v
Q,i
|
2
(2.12)
dove v
Q

= Q
T
v la cui i-esima componente rappresenta il prodotto scalare tra
il vettore v e li-esimo autovettore u
i
e dunque la componte del vettore v lungo
lautovettore u
i
. Pertanto, lespressione trovata ci dice che, parit` a di scostamento
lungo la direzione individuata da ogni autovettore, lincremento di MSE `e pesato
dallautovalore
i
e dunque risulta molto maggiore nella direzione degli autovalori
maggiori. Pertanto se si sbaglia nella direzione dellautovettore a cui compete
lautovalore massimo si ha il massimo scostamento dellMSE e dunque `e pi` u facile
notare lo scostamento in una certa direzione poich`e produce un forte eetto in
termini di MSE. Viceversa, se ci si muove nella direzione dellautovettore minimo
leetto sullMSE `e meno marcato, `e pi` u dicile ricavare piccoli scostamenti in
c Prof. Davide Mattera. 08/12/2011
32 Progetto mediante utilizzazione di dati sperimentali
tale direzione poich`e producono eetti pi` u ridotti in termini di MSE. Tuttavia,
un eventuale scostamento lungo lautovettore minimo risulta meno rilevante in
quanto produce un minimo incremento in termini di MSE.
La trattazione svolta ci ha rivelato che il progetto del ltro FIR secondo il criterio
considerato prevede la soluzione del sistema di equazioni lineari (2.6) nel vettore
incognito

b
MMSE
. Abbiamo pure presupposto di conoscere la caratterizzazione
statistica completa congiunta dei segnali aleatori x(n) e d(n) al ne di comprendere
quali caratterizzazioni sintetiche fossero necessarie a trovare la soluzione e procedere
poi quindi alla loro stima sulla base dellassunzione ergodica. Adesso abbiamo la
risposta, sono necessarie le caratterizzazioni sintetiche che consentono di costruire la
matrice Red il vettore p. Vediamo perci`o quali sono tali caratterizzazioni sintetiche.
Lelemento (i, j) della matrice R `e dato dalla quantit` a r
i,j

= E[x
i
(n)x

j
(n)] dove
x
i
(n) denota li-esima componente del vettore x(n) e quindi `e pari a x(n (i 1))
per i {1, 2, . . . , M}. Di conseguenza,
r
i,j
= E[x(n (i 1))x

(n (j 1))] = r
x
(j i)
dove si `e tenuto conto che il processo aleatorio x(n) `e stato assunto essere stazionario
e si `e denotato con r
x
() lautocorrelazione del processo x(n). Pertanto, la prima
riga della matrice R vale
[r
x
(0) r
x
(1) r
x
(2) . . . r
x
(M 2) r
x
(M 1)]
mentre la prima colonna
5
vale
[r
x
(0) r
x
(1) r
x
(2) . . . r
x
((M 2)) r
x
((M 1))]
T
e pu` o essere riscritta come segue
[r
x
(0) r

x
(1) r

x
(2) . . . r

x
(M 2) r

x
(M 1)]
T
tenendo conto che r
x
(m) = r

x
(m) per le note propriet` a dellautocorrelazione.
Inoltre si pu` o vedere che tutti gli elementi della diagonale principale valgono r
x
(0),
tutti gli elementi della diagonale minore a destra della principale valgono r
x
(1)
mentre quelli della diagonale minore appena a sinistra della principale valgono
r

x
(1); analoga propriet` a di avere tutti gli elementi uguali valgono per le altre
diagonali minori. In sintesi si pu` o aermare che la matrice R `e di tipo Toeplitz
e che per costruire tale matrice sono necessari i valori della autocorrelazione r
x
(m)
per m {0, 1, 2, . . . , M 1}.
Consideriamo, inoltre, il vettore p che contiene le caratterizzazioni statistiche
congiunte. Si consideri li-esima componente del vettore p; essa si pu` o scrivere come
E[x
i
(n)d

(n)] e che vale quindi E[x(n (i 1))d

(n)] = r
xd
((i 1)) = r

dx
(i 1)
5. Si noti che la trasposizione rende una colonna quanto scritto come riga per motivi di
occupazione dello spazio sul foglio.
c Prof. Davide Mattera. 08/12/2011
2.1 Il primo approccio: caratterizzazione statistica disponibile ovvero ltro di Wiener 33
per i {1, 2, . . . , M}. Pertanto il vettore colonna p si pu` o scrivere come segue:
[r

dx
(0) r

dx
(1) r

dx
(2) . . . r

dx
(M 2) r

dx
(M 1)]
T
Pertanto per costruire il vettore p `e necessario conoscere la mutua correlazione
r
dx
(i) per i {0, 1, . . . , M 1}.
2.1.1 Metodi di stima delle statistiche richieste
Finora ci siamo occupati di come determinare il ltro ottimo note le statis-
tiche; adesso ci dobbiamo occupare di come trovare lautocorrelazione marginale
e congiunta sulla base delle serie temporali disponibili. A questo scopo si ricorre
allassunzione ergodica e si sostituisce la media statistica con la media temporale.
Al ne di stimare lautocorrelazione r
x
(i) (con i 0) a partire dalle misurazioni
di una serie temporale x(n) per n {1, . . . , N
x
}, si pu` o considerare la seguente
stima campionaria:
r
x
(i)

=
1
N
x
i
Nx

n=i+1
x(n)x

(n i) (2.13)
e lautocorrelazione r
xd
(i) (con i 0) a partire dalle misurazioni di due serie
temporali x(n) e d(n) per n {1, . . . , N
x
}, si pu` o considerare la seguente stima
campionaria:
r
dx
(i)

=
1
N
x
i
Nx

n=i+1
d(n)x

(n i) (2.14)
Gli stimatori appena considerati ammettono diverse varianti migliorative delle
prestazioni. Lassunzione di segnale ergodico equivale a dimostrare che, al crescere
del numero di campioni N
x
disponibili, si ottiene la convergenza delle variabili
aleatorie r
x
(i) e r
dx
(i) alle quantit` a deterministiche vere r
x
(i) e r
dx
(i).
Nel prossimo sottoparagrafo si discute pi` u in dettaglio con riferimento ai concetti
sottostanti lassunzione di ergodicit` a siccome essa `e cruciale per il corretto fun-
zionamento degli algoritmi di elaborazione dei segnali. In particolare, si illustrano
i metodi per generare la realizzazione di un segnale aleatorio che presenti determi-
nate caratteristiche. La generazione di un processo aleatorio non `e stata studiata
in teoria ma risulta utile per poter generare le sequenze temporali da sottoporre ad
elaborazione con i metodi che andiamo a studiare. Inoltre, la capacit`a di generare
una realizzazione di un processo aleatorio ci consente di modellare in maniera ap-
propriata la generica serie temporale misurata ed assunta essere la realizzazione di
un processo aleatorio.
c Prof. Davide Mattera. 08/12/2011
34 Progetto mediante utilizzazione di dati sperimentali
2.1.2 Generazione di funzioni membro di processi aleatori a campioni
indipendenti
In primo luogo, si consideri il problema di generare una serie temporale di N
campioni che sia una realizzazione di un processo aleatorio a tempo discreto
costituito da una sequenza di variabili aleatorie indipendenti tra loro e distribuite
tutte allo stesso modo secondo una variabile uniforme nellintervallo (0, 1).
Questo problema `e stato studiato sin dai primi tempi di sviluppo dei calcolatori
elettronici. Esistono diversi algoritmi ricorsivi che, partendo da un valore iniziale
x(0), generano una sequenza x(n) = f(x(n 1)) attraverso una funzione f() ap-
positamente ssata. Molti contributi in letteratura sono volti a denire la funzione
f() pi` u opportuna che approssimi (nel modo pi` u appropriato al contesto di elabo-
razione caratterizzato da una rappresentazione nita dei numeri) la funzione ideale
f
U
() che garantisca luniformit`a della distribuzione risultante. La funzione f
U
()
ideale `e quella che garantisca la seguente propriet` a: data la variabile aleatoria X
avente densit` a di probabilit` a pari ad una uniforme in (0, 1), la funzione f
U
deve
garantire che la variabile aleatoria f
U
(X) conservi la stessa pdf uniforme. Inoltre,
deve garantire che la sequenza generata dalla relazione ricorsiva x(n) = f
U
(x(n1))
a partire da un qualsiasi valore iniziale x(0) ricada nel generico intervallo I, sot-
tinsieme dellintervallo (0, 1), con una cadenza pari proprio alla probabilit` a che
una variabile uniforme in (0, 1) cada proprio nellintervallo I (che `e pari proprio
alla larghezza dellintervallo I) dove la cadenza `e la frazione di valori della serie
temporale che ricade nellintervallo I. Scritto in formule, si deve cio`e garantire che
la media statistica di una qualsiasi elaborazione non lineare senza memoria della
sequenza X(n)
E[g(X(n))] =
_
1
0
g(x)dx (2.15)
si possa scrivere come media temporale su un intervallo innito, cio`e come il limite
per N che tende a della media temporale su N campioni
1
N
N

n=1
g(x(n)) (2.16)
Si noti che la funzione g() pu` o essere lindicatore dellintervallo I, cio`e che vale uno
su tale intervallo e zero altrimenti. In tal caso, la (2.15) diventa pari alla larghezza
dellintervallo I e la (2.16) diventa pari alla cadenza con cui la sequenza ricade
nellintervallo I.
Si noti che la sequenza di variabili aleatorie X(n) = f
U
(X(n1)) a partire dalla
variabile aleatoria X(0) genera tanti diversi processi aleatori a seconda della scelta
della densit` a della variabile di partenza X(0). In particolare, esister`a il processo che
parte dalla variabile aleatoria uniforme in (0, 1); per quanto detto, questo processo
sar`a stazionario, cio`e avr` a una densit` a che non dipende da n. Gli altri processi non
saranno stazionari.
c Prof. Davide Mattera. 08/12/2011
2.1 Il primo approccio: caratterizzazione statistica disponibile ovvero ltro di Wiener 35
Luguaglianza di (2.15) e (2.16) implica che solo quando si considera il processo
che parte da X(0) uniforme mi ritrovo con un processo ergodico. Tutti gli altri pro-
cessi mancano della propriet` a di ergodicit` a; in questo caso, mancando la staziona-
riet`a, la quantit` a al primo membro della (2.15) dipende ulteriormente da n e non
si pu` o proprio attendere che essa possa uguagliarsi alla media temporale (2.16),
che non dipende da n. Detto in altri termini, presa una qualsiasi serie temporale
generata ricorsivamente a partire da un qualsiasi valore iniziale, le medie temporali
che vengono realizzate saranno uguali asintoticamente alle medie statistiche che si
riferiscono al processo stazionario. Sar` a quindi la funzione f
U
() usata per denire
la regola ricorsiva a denire la stessa densit` a dei dati e non quella che uso per
generare il punto di partenza, detto seme, della sequenza temporale ottenuta.
Molte variazioni sono presenti in letteratura al riguardo di come approssimare in
pratica la funzione f
U
(); alcune approssimazioni consentiranno di avere approssi-
mazioni migliori su un certo intervallo mentre altre funzioneranno meglio su altri
intervalli; il tutto dipende dalla approssimazione numerica usata per la rappresen-
tazione dei numeri.
Dal punto di vista di Matlab, la generazione avviene usando il comando rand
(N,1) che genera un vettore colonna di N elementi che contiene N elementi della
serie temporale considerata, che pu` o essere vista come funzione membro del processo
aleatorio considerato.
Quando la sequenza da generare fosse la realizzazione di un processo aleatorio a
campioni indipendenti come prima ma non uniforme, allora esistono diverse regole
di trasformazione non lineare delle variabili aleatorie che, partendo da variabili
gi`a generate, provvedono a generare quelle mancanti. Gran parte delle variabili
aleatorie vengono generate per trasformazione di quelle uniformi. Detta U una
variabile uniforme in (0, 1), allora la CDF della variabile aleatoria Y = g(U)
P
Y
(x)

= Prob[Y y] = Prob[g(U) y] = Prob[U g
(1)
(y)] = g
(1)
(y) (2.17)
dove si `e assunto che la funzione g() ha per dominio e codominio linsieme (0, 1) e
sia anche invertibile; si `e denotato con g
(1)
() linversa della funzione g(). In tal
modo anche la sua inversa `e invertibile ed `e pari alla CDF di Y . Pertanto, ssata una
CDF di Y desiderata e monotona crescente, la sua inversa (che soddisfa le propriet` a
di essere in (0, 1) come dominio e codominio ed `e ora monotona crescente) ci fornisce
la funzione g() da usare per elaborare la variabile U per ottenere una sequenza di
realizzazioni della variabile aleatoria con CDF desiderata.
Questo metodo non `e semplice da impiegare per le densit` a che hanno una
CDF che non pu` o essere scritta e quindi invertita con semplicit`a, tra cui la
molto importante densit` a gaussiana. Per giungere a generare queste variabili, si
eettuano trasformazioni di variabili ottenibili col metodo appena delineato al ne
di completare linsieme di pdf che pu` o essere generato. In particolare, la generazione
di una realizzazione di un processo gaussiano a campioni indipendenti in Matlab
avviene con il comando randn (N,1) che genera un vettore colonna di N elementi.
c Prof. Davide Mattera. 08/12/2011
36 Progetto mediante utilizzazione di dati sperimentali
2.1.3 Generazione di un processo aleatorio colorato
I processi considerati nel paragrafo precedente sono a campioni indipendenti. La
funzione di autocorrelazione di tali processi `e impulsiva:
r
x
(m) = P
x
(m) (2.18)
dove P
x
= r
x
(0) `e la potenza del processo x(n) mentre la funzione (n) denota la
delta di Kronecker. La densit` a spettrale S
x
(F) di tale processo vale
S
x
(F) = P
x
(2.19)
che `e quindi costantemente pari a P
x
. Un processo di questo tipo viene detto
bianco, in quanto il colore della luce che luomo avverte come bianco corrisponde
ad un andamento costante della densit` a spettrale di potenza nella banda ottica.
Per analogia, si dice colorato un processo che non `e bianco.
Quando si vuole imporre alla autocorrelazione una certa forma, si parte da un
processo bianco generato come visto al paragrafo precedente e lo si trasforma
attraverso un ltro lineare. In questa operazione si perdono le propriet` a statistiche
imposte al processo al paragrafo precedente, a meno che questo non sia un processo
gaussiano. Infatti, `e peculiare di un processo gaussiano la propriet` a secondo cui
alluscita di un ltro si trova un processo gaussiano se al suo ingresso si trova
un processo gaussiano. Per gli altri processi la densit` a del processo `e mutata dal
ltraggio.
In pratica, ai processi che vengono generati viene imposta la densit` a come visto al
paragrafo precedente, oppure viene imposta lautocorrelazione dando per scontato
che sia un processo gaussiano. In tal caso, quando un processo gaussiano a variabili
indipendenti con autocorrelazione r
x
(m) = P
x
(m) viene posto in ingresso ad
un ltro LTI con risposta in frequenza pari a H(F), alla sua uscita il processo
y(n) avr` a densit` a spettrale pari a S
y
(F) = S
x
(F)|H(F)|
2
= P
x
|H(F)|
2
. Pertanto,
variando il ltro H(F) varia la densit` a spettrale di potenza del processo ottenuto.
La procedura che consente di determinare la risposta impulsiva del ltro sulla base
della densit` a spettrale di potenza che si vuole imporre a S
y
(F) non viene qui trattata
ed `e notevolmente complicata. In questo breve paragrafo si `e voluto solo ricordare
che esiste la possibilit`a di colorare un processo gaussiano bianco facendolo passare
attraverso un ltro lineare.
2.2 Il ltro di Wiener senza il vincolo della risposta impulsiva di durata nita
Se si considera la condizione (2.6), tenendo conto del fatto che la componente (k, m)
della matrice R vale r
x
(mk), la k-esima riga del vettore Rb
MMSE
vale
M1

m=0
r
x
(mk)b
m
k {0, 1, . . . , M 1} (2.20)
c Prof. Davide Mattera. 08/12/2011
2.2 Il ltro di Wiener senza il vincolo della risposta impulsiva di durata nita 37
dove si `e denotato con b
m
la m-esima componente del vettore b
MMSE

=
[b
0
b
1
. . . b
M1
]
T
. Pertanto, tenendo conto la k-esima componente del vettore p
vale r

dx
(k); pertanto la condizione (2.6) pu` o riscritta nel modo seguente:
M1

m=0
r
x
(mk)b
m
= r

dx
(k) k {0, 1, . . . , M 1} (2.21)
Siccome luscita del ltro di Wiener si scrive come
b
MMSE
x(n) = [b

0
b

1
. . . b

M1
]x(n)
= b

0
x(n) +b

1
x(n 1) +. . . +b

M1
x(n (M 1))
=
M1

m=0
b

m
x(n m)
=
M1

m=0
b
w
(m)x(n m) (2.22)
dove si `e indicato con b
w
(n) = b

m
- e nulla al di fuori dellintervallo {0, 1, . . . , M1}
- la risposta impulsiva del ltro di Wiener. Pertanto, la (2.21) si pu` o riscrivere come
segue:
M1

m=0
r
x
(mk)b

w
(m) = r

dx
(k) k {0, 1, . . . , M 1}
o equivalentemente, tenendo conto che r
x
(m) = r

x
(m),
M1

m=0
r

x
(k m)b

w
(m) = r

dx
(k) k {0, 1, . . . , M 1}
M1

m=0
r
x
(k m)b
w
(m) = r
dx
(k) k {0, 1, . . . , M 1} (2.23)
Tale relazione tiene conto del fatto che il ltro approssimante era un ltro FIR;
facendo tendere M ad innito, si giunge a vericare che la risposta impulsiva b
w
(n)
causale di durata innita soddisfa pertanto la seguente relazione:
+

m=0
r
x
(k m)b
w
(m) = r
dx
(k) k 0 (2.24)
Se si rimuove il vincolo di causalit`a del ltro considerato, si pu` o dimostrare
agevolmente (anche se noi qui non possiamo dire di averlo esattamente fatto) -
e si pu` o accettare se non altro per analogia col passaggio dalla (2.2) alla (2.24) -
che la condizione di Wiener diviene:
+

m=
r
x
(k m)b
w
(m) = r
dx
(k) k (2.25)
c Prof. Davide Mattera. 08/12/2011
38 Progetto mediante utilizzazione di dati sperimentali
o equivalentemente
r
x
() b
w
() = r
dx
() (2.26)
La relazione consente di determinare agevolmente il ltro di Wiener ricorrendo alle
rispettive trasformate zeta (o anche trasformate di Fourier) dove il prodotto di
convoluzione corrisponde al semplice prodotto:
S
x
(z)B
w
(z) = S
dx
(z)
Pertanto, il ltro di Wiener non causale `e ottenuto dalla seguente relazione:
B
w
(z) =
S
dx
(z)
S
x
(z)
(2.27)
dove le due quantit` a al numeratore e al denominatore sono denite come segue:
S
dx
(z)

=
+

k=
r
dx
(k)z
k
(2.28)
S
x
(z)

=
+

k=
r
x
(k)z
k
(2.29)
Non `e agevole trasformare le stime di r
x
(k) ed r
dx
in stime di S
dx
(z) e S
x
(z) che
possano agevolmente inserirsi nella (2.27); pertanto, il risultato nel dominio zeta
senza il vincolo di causalit`a e di ordine nito non verr`a utilizzato nei capitoli dedicati
alla concreta realizzazione ma `e stato introdotto nella trattazione sia per illustrare
quale sia il risultato asintotico a cui tendono i ltri FIR di ordine ssato sia perch`e
secondo alcuni autori il termine ltro di Wiener va limitato a questo specico caso
perch`e il vincolo FIR era escluso dalla originaria trattazione di Norbert Wiener.
2.3 Variazioni dellalgoritmo per il caso della decisione
Quando il segnale desiderato d(n) {1, 1}, allora una funzione di costo pi` u
ragionevole di quella basato sul rischio quadratico, pu` o essere la seguente:
E
_

_c
b
_
d(n)
_
b
H
(n)x(n)
_
_
_

_ (2.30)
dove la funzione c
b
() vale 1 quando < 0 e zero altrimenti. Infatti, in tal caso la
funzione di costo (2.30) rappresenta il numero medio di errore di decisione commessi
dal nostro ltro. La decisione `e presa guardando al segno dellapprossimazione
ottenuta b
H
(n)x(n); pertanto un errore di decisione rappresenta leventualit`a che
d(n) e b
H
(n)x(n) abbiano segno discorde e cio`e d(n)
_
b
H
(n)x(n)
_
< 0. Perci`o se
c Prof. Davide Mattera. 08/12/2011
2.3 Variazioni dellalgoritmo per il caso della decisione 39
largomento `e negativo c
b
vale uno (altrimenti vale zero) e la media di c
b
rappresenta
il numero medio di decisioni errate, che adottando la funzione di costo (2.30) ci
proponiamo di minimizzare.
Procedere con questa funzione di costo come fatto nel caso precedente con la
funzione quadratica prevede nuovi problemi. I problemi di ottimizzazione che si
generano non sono convessi. Di conseguenza, i metodi iterativi basati sugli sviluppi
in serie di Taylor niscono bloccati nei minimi locali, cos` come lannullare il
gradiente garantisce solo il fatto di essere in un minimo locale ma non in un minimo
globale.
Inoltre, la funzione di costo non `e facile da gestire analiticamente. Per gestirla
analiticamente si pu` o usare una funzione sigmoidale che vale 0.5 nellorigine e si
avvicina asintoticamente a 0 quando la variabile indipendente tende a + e tende
asintoticamente a 1 quando la variabile indipendente tende a . Si pu` o introdurre
un parametro che ne controlli la velocit` a di convergenza e conseguentemente il
grado di somiglianza alla funzione di costo c
b
(). La scelta di questa funzione
rende analiticamente pi` u facile da gestire il problema ma non consente di superare
il problema dei minimi locali nei meccanismi iterativi collegato alla natura non
convessa del problema complessivo.
Un modo di superare il problema `e quella di approssimare la funzione c
b
() con
una funzione che conservi la convessit`a del problema complessivo. Una delle migliori
approssimazioni convesse di c
b
() `e quella della funzione che vale 1 x per x 1
e zero per x > 1. Questa soluzione `e spesso migliore della soluzione quadratica
trattata in questo capitolo; anche se non `e migliore della soluzione ideale c
b
() non
`e soggetta al problema dei minimi locali ammettendo ununica soluzione globale.
A partire dalla soluzione trovata in questo modo si pu` o usare lalgoritmo derivante
dallapprossimazione di c
b
() con la funzione sigmoidale e trovare il minimo locale
pi` u vicino al punto determinato dalla approssimazione convessa, migliorandone cos`
il risultato ottenuto.
c Prof. Davide Mattera. 08/12/2011
40 Progetto mediante utilizzazione di dati sperimentali
c Prof. Davide Mattera. 08/12/2011
3 Progetto adattativo del ltro lineare
La soluzione del sistema lineare (2.6) a cui si riduce la condizione di Wiener `e troppo
dicile da risolvere (la complessit`a `e di un sistema di ordine M `e dellordine di M
3
)
e questo motiva un approccio alternativo di tipo iterativo a minore complessit`a.
A questi metodi `e dedicato il presente capitolo. Nel capitolo successivo torneremo
sulla questione e mostreremo il contributo di Levinson che consente di calcolare la
soluzione del sistema dequazioni (2.6) con una complessit`a dellordine di M
2
.
Mentre si sviluppava lalgoritmo adattativo, si andava anche sviluppando un
metodo basato sullapproccio deterministico che punta a minimizzare la somma dei
quadrati dello scostamento tra luscita del ltro e luscita desiderata. Tale soluzione
viene determinata andando a minimizzare i minimi quadrati, la soluzione LS (least
squares), cio`e la soluzione ai minimi quadrati).
Una volta individuata la quantit` a da minimizzare, si pu` o determinare il ltro
a cui compete il minimo. Dapprima in maniera statica e poi in maniera adattiva,
individuando un algoritmo pi` u ecace in un contesto adattativo, che comporta
una complessit`a computazione dellordine di M
2
ad ogni passo di iterazione. La
derivazione dellalgoritmo RLS a complessit`a lineare `e troppo complicata per poter
essere studiata in questo corso.
3.1 Ottimizzazione iterativa di una funzione di costo ssata
Si introduce dapprima il concetto di meccanismo iterativo volto ad individuare il
minimo di una funzione. Si aggiunge che esso si basa su due passi: il primo `e la
individuazione della direzione di spostamento e il secondo `e la ricerca lungo la linea
individuata. Per svolgere il primo passo si sviluppa la funzione di costo in serie di
Taylor del primo ordine nel punto corrente
f(x) f(x
k
) +g(x
k
)(x x
k
) (3.1)
dove g(x denota il gradiente della funzione f() e si individua conseguentemente
come direzione migliore quella opposta al grandiente. Alternativamente, si sviluppa
la funzione in serie di Taylor del secondo ordine
f(x) f(x
k
) +g
T
(x
k
)(x x
k
) +
1
2
(x x
k
)
T
H(x
k
)(x x
k
) (3.2)
c Prof. Davide Mattera. 08/12/2011
42 Progetto adattativo del ltro lineare
dove H() denota la matrice Hessiana della funzione f() e si individua come
direzione migliore quella pari ad H
1
g dove H `e la matrice hessiana nel punto
corrente e g `e il gradiente nel punto corrente:
x
k
+ 1 = x
k
+H
1
(x
k
)g(x
k
) (3.3)
Esiste anche una soluzione semplice: individuare ad ogni passo ciclicamente una
direzione diversa o generarla a caso.
Tra le soluzioni per la ricerca lungo la linea, c`e quella di ottimizzare esausti-
vamente la funzione monodimensionale (la funzione multidimensionale considerata
lungo la linea) o quella di scalare g o R
1
g di un coeciente costante piccolo
a piacere o ancora - quando possibile - di risolvere per via analitica il problema
monodimensionale risultante. Siccome i metodi nora considerati individuano la
direzione di miglioramento usando uno sviluppo in serie valido intorno al punto
corrente, essi sono inevitabilmente attratti da minimi locali che non sono globali.
Tale problema non si pone in fase di progetto del ltro lineare ottimo a minimo
errore quadratico medio.
3.2 Lalgoritmo steepest-descent e lanalisi della sua convergenza
Per il progetto del ltro lineare si considera lassetto del problema che conduce alla
funzione di costo del caso del ltro di Wiener e si sceglie di usare il gradiente e
di scalarlo con un coeciente sso e molto piccolo . Si ottiene che il gradiente
coniugato rispetto a w vale:
grad[w
H
Rw p
H
w w
H
p +r
yd
(0)] = Rw p (3.4)
e quindi la regola adattativa vale
b
k+1
= b
k
(Rb
k
p) (3.5)
Lalgoritmo cos` ottenuto viene detto steepest descent (discesa pi` u veloce).
Lanalisi della convergenza della procedura (3.5) intende dimostrare che la dif-
ferenza tra il vettore corrente w
k
ed il vettore ottimo R
1
p:
b
k
= b
k

b
MMSE
= b
k
R
1
p (3.6)
c Prof. Davide Mattera. 08/12/2011
3.2 Lalgoritmo steepest-descent e lanalisi della sua convergenza 43
converga verso il vettore nullo. Vediamo la legge che ne regola levoluzione
b
k+1
= b
k+1
R
1
p
= b
k
(Rb
k
p) R
1
p
= b
k
(Rb
k
RR
1
p) R
1
p
= (b
k
R
1
p) R(b
k
R
1
p)
= b
k
Rb
k
= (I R)b
k
= (I QQ
H
)b
k
= (QQ
H
QQ
H
)b
k
= Q(I )Q
H
b
k
(3.7)
dove si `e tenuto conto che la matrice R = QQ
H
secondo la (2.11).
Si denisca il vettore b
(Q)
k

= Q
H
b
k
e si noti che la i-esima componente
di questo vettore costituisce la proiezione del nostro vettore dierenza b
k
sulli-
esimo autovettore della matrice R. Pertanto, annullare il vettore b
k
equivale ad
annullare le proiezioni su tutti gli autovettori, ovvero annullare il vettore b
(Q)
k
.
Dalla relazione precedente segue che
b
(Q)
k+1

= Q
H
b
k
= (I )Q
H
b
k
= (I )b
(Q)
k
(3.8)
da cui segue che, essendo diagonale la matrice (I ) con i-esimo elemento sulla
diagonale pari a 1
i
, segue che la i-esima componente
i
(k + 1) del vettore
b
(Q)
k+1
soddisfa la relazione

i
(k + 1) = (1
i
)
i
(k) (3.9)
da cui segue che, usando la stesse relazione ricorsivamente, si ottiene

i
(k + 1) = (1
i
)
k+1
(3.10)
Pertanto il vettore b
(Q)
k+1
converge a zero se convergono a zero tutte le sue
componenti e cio`e se e solo se sono soddisfatte tutte le seguenti condizioni:
|1
i
| < 1 i {1, . . . , M} (3.11)
ovvero, tenendo conto che
i
> 0 siccome la matrice R `e semidenita positiva,
1 < 1
i
< 1 i
ovvero
0 < <
2

i
i (3.12)
c Prof. Davide Mattera. 08/12/2011
44 Progetto adattativo del ltro lineare
o, equivalentemente,
0 < <
2

max
i (3.13)
La rapidit`a di convergenza `e massima quando
1
i
. Siccome i diversi autovalori
sono diversi, non `e possibile soddisfare questa condizione per ogni i. Se anche
ssiamo
2
max
, potrebbe accadere che
1
min
e quindi far convergere molto
lentamente a zero le componenti del vettore dierenza b
k
lungo lautovettore
minimo e massimo siccome per nessuno dei due possiamo soddisfare la condizione

1
i
. Di conseguenza, se vale la condizione
min

max
ovvero se il numero
di condizionamento della matrice R
max
min
1 ovvero se la matrice R `e mal
condizionata, allora la convergenza dellalgoritmo steepest descent `e molto lenta.
In ogni caso, la sua convergenza richiede che il parametro sia limitato.
3.3 Adattemento del ltro lineare in accordo al gradiente stocastico: algoritmo
LMS
Dalla relazione (3.5) segue che
w(n + 1) = w(n) (E[u(n)u
H
(n)]w(n) E[u(n)d

(n)]) (3.14)
da cui
w(n + 1) = w(n) (E(u(n)y

(n)) E[u(n) d

(n)]) (3.15)
w(n + 1) = w(n) E[u(n)(y

(n) d

(n))] (3.16)
w(n + 1) = w(n) E[u(n)e

(n)] (3.17)
dove d(n) `e luscita desiderata allistante n, y(n) = w
H
(n)u(n) `e luscita del ltro
allistante n se in tale istante il vettore dei coecienti vale w(n) (si assume che ad
ogni nuovo dato avvenga un aggiornamento del vettore w) e e(n) = y(n) d(n).
Tale relazione in condizioni di ergodicit` a povrebbe essere calcolata nel modo
seguente:
w(n + 1) = w(n)
1
N
o
No1

k=0
u(n k)e

(n k) (3.18)
Infatti negli istanti futuri non sono noti n`e il segnale n`e lerrore. Resta la complessit`a
di calcolo per realizzare la (3.18) e la necessit`a di memoria per i dati che cresce con
N
o
che dovrebbe essere incrementato no al massimo consentito dai dati disponibili
in condizioni di stazionariet` a. Riduzioni di N
o
determinano errori nella stima del
gradiente ma semplicano lalgoritmo. Storicamente si `e preferito ssare N
o
= 1
c Prof. Davide Mattera. 08/12/2011
3.4 Approccio alternativo basato sui dati: il metodo ricorsivo ai minimi quadrati (RLS) 45
ottenendo lalgoritmo LMS:
w(n + 1) = w(n) u(n)e

(n) (3.19)
Tale algoritmo derivato in ambiente stazionario per barattare complessit`a e
prestazioni si `e poi rivelato particolarmente adatto in ambiente non stazionario
quando non aver mediato negli istanti precedenti ha costituito un vantaggio dal
punto di vista della capacit`a di stima della direzione del gradiente. Si `e poi di-
mostrato una ottimalit`a dellalgoritmo LMS rispetto ad una funzione di costo che
fosse robusta rispetto ad un ambiente particolarmente poco conosciuto. Tuttavia
la grande diusione dellalgoritmo `e stata essenzialmente dovuta alla sua capacit`a
di adattarsi ad un ambiente iniziale in cui la disponibilit`a di memoria e di potenza
di calcolo era molto limitata.
Un aspetto particolarmente importante `e costituito dallesistenza di un excess
noise power, cio`e dal fatto che la potenza media dellerrore ottenuto a regime
dallLMS `e superiore a quella del ltro di Wiener corrispondente per una quan-
tit` a che viene detta potenza in eccesso del rumore e che `e dovuta allincapacit`a
dellalgoritmo LMS di stimare con la dovuta precisione il gradiente quando esso
`e in prossimit`a della soluzione. Si pu` o notare sperimentalmente che la potenza in
eccesso decresce al decrescere di (si `e anche tentato di dare una spiegazione in-
tuitiva della propriet` a a lezione); tuttavia al descerere di si allunga il transitorio
dellalgoritmo LMS per giungere al valore di regime della potenza. Pertanto spesso
si suole decrescere il valore di nel tempo con legge pressata, privilegiando i valori
pi` u elevati di in fase iniziale per velocizzare la convergenza e riducendo il valore
di in fase nale per ridurre la potenza in eccesso. Lalgoritmo non pu` o migliorare
gli svantaggi dello steepest descent; non pu` o avere convergenza quando supera
certi limiti dettati dal suo autovalore massimo e conserva la propriet` a sgradevole
della lentezza di convergenza dello steepest descent in presenza di una matrice di
correlazione mal condizionata.
3.4 Approccio alternativo basato sui dati: il metodo ricorsivo ai minimi quadrati
(RLS)
Quando non siano note le caratterizzazione statistiche dei segnali x(n) e d(n), non
`e possibile calcolare la quantit` a
E[|y(n) d(n)|
2
] = E[b
H
x(n) d(n)|
2
]
Il criterio di minimizzazione del rischio empirico propone di considerare le coppie
ingresso-uscita (x(i), d(i)) per i {1, . . . , } che possono essere costruite sulla base
delle serie temporali disponibili. Queste coppie vengono chiamate esempi e vengono
costruite prendendo il campione di ingresso in un certo istante e i campioni di
ingresso negli M 1 istanti precedenti, ed in questo modo si forma il vettore di
ingresso. Si prende anche il corrispondente valore di uscita nello stesso istante e si
c Prof. Davide Mattera. 08/12/2011
46 Progetto adattativo del ltro lineare
forma in tal modo la relazione ingresso-uscita corrispondente.
Sarebbe desiderabile che il ltro trovato b sia tale che, quando applicato al vettore
x(i), si ottenga una quantit` a b
H
x(i) che sia molto simile a d(i). Pertanto, si denisce
il rischio empirico nel modo seguente:

i=1
|b
H
x(i) d(i)|
2
(3.20)
Il criterio di minimizzazione del rischio empirico impone di minimizzare la funzione
di costo (3.20) per trovare il vettore ottimo b. Lanalisi della convergenza di questo
criterio fornisce come risultato che la condizione M `e una condizione necessaria
e suciente alla convergenza del criterio considerato. Quando la condizione non `e
soddisfatta, diversi approcci alternativi convergono nel denire un criterio alter-
nativo in cui al rischio empirico si somma un termine aggiuntivo che ha il senso
di termine di regolarizzazione e che pu` o essere quanticato nella forma seguente
b
H
M
r
b dove M
r
`e una matrice di regolarizzazione, denita positiva, che spesso `e
presa pari alla matrice identica.
Conseguentemente, la funzione di costo diviene

i=1
|b
H
x(i) d(i)|
2
+b
H
M
r
b (3.21)
dove > 0 `e un termine molto ridotto che quantica il peso del termine di
regolarizzazione rispetto a quello del rischio empirico.
Una volta denita la matrice A

= [x(1) x(2) . . . x()]
H
ed un vettore
d

= [d(1) d(2) . . . d()]
H
, la funzione di costo (3.21) pu` o essere riscritta
1
come
segue
Ab d
2
+b
H
M
r
b (3.22)
Manipolando la funzione di costo, essa pu` o essere riscritta (almeno per il caso di
segnali reali in maniera agevole)
[Ab d]
T
[Ab d] +b
H
M
r
b = b
T
R

b 2b
T
p

+d
2
(3.23)
dove R


= A
T
A+ M
r
e p

= A
T
d. Calcolando il gradiente di questa funzione
di costo analogamente a quanto gi`a calcolato con riferimento alla (2.3), si ottiene
che esso `e annullato dalla condizione
R

b
LS
= p

(3.24)
1. Si noti che, con queste denizioni, la i-esima componente di Ab vale x
H
(i)b = (b
H
x(i))

e la i-esima componente di d vale d

(i); pertanto la i-esima componente di Ab d vale


(b
H
x(i))

(i) = (b
H
x(i) d(i))

e il quadrato della sua norma vale la sommatoria


nella (3.21).
c Prof. Davide Mattera. 08/12/2011
3.4 Approccio alternativo basato sui dati: il metodo ricorsivo ai minimi quadrati (RLS) 47
e la matrice Hessiana vale R

ed `e denita positiva, come si pu` o agevolmente


dimostrare
2
. Lanalogia con la funzione (2.3) ci consente di concludere che
lespressione trovata vale anche nel caso di segnali a valori complessi pur di sos-
tituire il trasporto con il trasposto hermitiano. La soluzione (3.24) `e detta LS
(least squares), cio`e la soluzione ai minimi quadrati; pi` u correttamente, dovrebbe
essere detta ai minimi quadrati regolarizzati siccome quella esattamente ai minimi
quadrati viene ottenuta per = 0. In tal caso lespressione (3.24) si pu` o semplicare
nella forma seguente nella ipotesi, non necessariamene vericata sulla base delle
ipotesi fatte, che A
T
A sia denitiva positiva e quindi invertibile (e che > M)

b
LS
= A
+
p

(3.25)
dove A
+

= (A
T
A)
1
A
T
`e detta la pseudo-inversa destra della matrice A. Tale
nome deriva dalla propriet` a A
+
A = I, nonch`e dalla (3.25), che la fa assomigliare
alla matrice inversa (che non esiste) della matrice A.
La funzione di costo

i=1
(b
T
x(i) d(i))
2
+b
H
M
r
b (3.26)
pu` o essere leggermente modicata nel modo seguente

i=1

i
(b
T
x(i) d(i))
2
+

b
H
M
r
b (3.27)
dove 0 < 1, detto il fattore di dimenticanza, modella il fatto che gli esempi
meno recenti vengono pesati di meno quando < 1 e ci`o consente di adattare il
nostro modello stazionario ad uno scenario lentamente tempo-variante usando un
appropriato valore di .
Inoltre, la modica al termine di regolarizzazine tiene conto del fatto che, al
crescere di , la condizione > M `e soddisfatta sempre meglio e ci`o consente di
pesare sempre meno il termine di regolarizzazione, tendendo a sfumare il criterio
utilizzato verso il criterio di minimizzazione del rischio empirico.
La funzione di costo precedente pu` o essere riscritta nel modo seguente:

i=1
(b
T
x

(i) d

(i))
2
+

b
H
M
r
b (3.28)
x

(i)

=

i
x(i), d

(i)

=

i
d(i) e

; si pu` o notare che la i-esima


riga della matrice A

`e pari alla i-esima riga della matrice A moltiplicata per

i
ed analogamente per d

rispetto a d.
2. La forma quadratica w
T
R

w = w
T
(A
T
A+ Mr)w = (w
T
A
T
Aw) + w
T
Mrw =
(Aw)
T
(Aw) +w
T
Mrw = Aw
2
+w
T
Mrw. La dimostrazione segue dallassunzione
che Mr `e denita positiva e > 0, anche se molto piccolo.
c Prof. Davide Mattera. 08/12/2011
48 Progetto adattativo del ltro lineare
La soluzione (3.24) pu` o pertanto essere scritta nella stessa forma, quasi identica
che denota esplicitamente la dipendenza della soluzione dal numero di esempi ,
R

()

b
LS
() = p

() (3.29)
dove per`o ora la nuova matrice R

() ed il nuovo vettore p

sono deniti sulla


base della nuova matrice A

(invece di A) e del nuovo vettore p

(invece di p):
R

() = A
H
A

M
r
e p

() = A
H
d

. Conseguentemente,
R

() =

i=1

i
x(i)x
H
(i) +

M
r
(3.30)
e
p

() =

i=1

i
x(i)d

(i) (3.31)
Notiamo ora che la matrice R

() ammette una semplice espressione in funzione


di R

(1), dove con tale espressione intendiamo la matrice R

costruita sulla base


della stessa matrice A

usando solo i primi 1 esempi:


R

( 1) =
1

i=1

(1)i
x(i)x
H
(i) +
1
M
r
(3.32)
Infatti,
R

() =

i=1

i
x(i)x
H
(i) +

M
r
= [
i
x(i)x
H
(i)]
i=
+
1

i=1

i
x(i)x
H
(i) +

M
r
= x()x
H
() +
1

i=1

i
x(i)x
H
(i) +

M
r
= x()x
H
() +
_
1

i=1

i1
x(i)x
H
(i) +
1
M
r
_
= x()x
H
() +R

( 1) (3.33)
c Prof. Davide Mattera. 08/12/2011
3.4 Approccio alternativo basato sui dati: il metodo ricorsivo ai minimi quadrati (RLS) 49
p

() =

i=1

i
x(i)d

(i)
= [
i
x(i)d

(i)]
i=
+
1

i=1

i
x(i)d

(i)
= x()d

() +
1

i=1

i
x(i)d

(i)
= x()d

() +
_
1

i=1

i1
x(i)d

(i)
_
= x()d

() +p

( 1) (3.34)
Usando le propriet` a (3.33) e (3.34) si pu` o individuare una relazione ricorsiva che
lega b
LS
() a b
LS
( 1) partendo dalla relazione (3.29). Infatti,
b
LS
() = R
1
()p

()
=
_
R
1
()

_
p

()

_
=
_
x()x
H
() +R

( 1)

1
[x()d

() +p

( 1)]
=
_
R

( 1) +
x()x
H
()

_
1
_
p

( 1) +
x()d

()

_
(3.35)
dove si `e tenuto conto del fatto che dividere per allinterno della matrice da
invertire equivale a moltiplicare per lespressione. A questo occorre fare uso del
lemma di inversione matriciale
3
_
A+
cc
T
d
_
1
= A
1

A
1
cc
T
A
1
d +c
T
A
1
c
(3.36)
3. La sua dimostrazione `e abbastanza diretta; occorre vericare che il prodotto delle due
matrici ci fornisca la matrice identica
_
A+
cc
T
d
_

_
A
1

A
1
cc
T
A
1
d +c
T
A
1
c
_
= AA
1
+
cc
T
d
A
1
A
A
1
cc
T
A
1
d +c
T
A
1
c

cc
T
d
A
1
cc
T
A
1
d +c
T
A
1
c
= I +
cc
T
d
A
1

cc
T
A
1
d +c
T
A
1
c

[cc
T
]A
1
[cc
T
]A
1
d(d +c
T
A
1
c)
= I +
cc
T
d
A
1

cc
T
A
1
d +c
T
A
1
c

c[c
T
A
1
c]c
T
A
1
d(d +c
T
A
1
c)
= I +cc
T
A
1
_
1
d

1
d +c
T
A
1
c

c
T
A
1
c
d(d +c
T
A
1
c)
_
= I +cc
T
A
1
_
1
d

1
d +d0

d0
d(d +d0)
_
= I +cc
T
A
1
(d +d0) d d0
d(d +d0)
= I
dove si `e denito nel modo seguente la quantit` a scalare d0

= c
T
A
1
c. Analogamente,
c Prof. Davide Mattera. 08/12/2011
50 Progetto adattativo del ltro lineare
che vale purch`e le due matrici A e A+
cc
T
d
siano invertibili. Usando la (3.36) nella
(3.35) si ottiene:
b
LS
() =
_
R
1
( 1)
R
1
( 1)x()x
H
()R
1
( 1)
+x
H
()R
1
( 1)x()
_ _
p

( 1) +
x()d

()

_
=
_
R
1
()

_
p

()

_
=
_
R
1
( 1)
R
1
( 1)x()x
H
()R
1
( 1)
+x
H
()R
1
( 1)x()
_
p

( 1) +
_
R
1
()

x()d

()

=
_
R
1
( 1) k()x
H
()R
1
( 1)

( 1) +
_
R
1
()

x()d

()

(3.37)
dove si `e denotato con
k()

=
R
1
( 1)x()
+x
H
()R
1
( 1)x()
(3.38)
e si `e tenuto conto che, usando la (3.36) e tenendo conto della denizione (3.38), si
`e appena vericato che
R
1
() = R
1
( 1) k()x
H
()R
1
( 1) (3.39)
Dalla (3.38) segue che
k() +k()x
H
()R
1
( 1)x() = R
1
( 1)x() (3.40)
invertendo lordine dei fattori, il prodotto non cambia:
_
A
1

A
1
cc
T
A
1
d +c
T
A
1
c
_

_
A+
cc
T
d
_
= A
1
A
A
1
cc
T
A
1
d +c
T
A
1
c
A+A
1
cc
T
d

A
1
cc
T
A
1
d +c
T
A
1
c
cc
T
d
= I
A
1
cc
T
d +c
T
A
1
c
+A
1
cc
T
d

A
1
[cc
T
]A
1
[cc
T
]
d(d +c
T
A
1
c)
= I
A
1
cc
T
d +c
T
A
1
c
+A
1
cc
T
d

A
1
c[c
T
A
1
c]c
T
d(d +c
T
A
1
c)
= I A
1
cc
T
_
1
d +c
T
A
1
c

1
d
+
c
T
A
1
c
d(d +c
T
A
1
c)
_
= I A
1
cc
T
_
1
d +d0

1
d
+
d0
d(d +d0)
_
= I A
1
cc
T
_
d
d(d +d0)

d +d0
d(d +d0)
+
d0
d(d +d0)
_
= I
c Prof. Davide Mattera. 08/12/2011
3.4 Approccio alternativo basato sui dati: il metodo ricorsivo ai minimi quadrati (RLS) 51
da cui segue che
k() = R
1
( 1)x() k()x
H
()R
1
( 1)x()
=
_
R
1
( 1) k()x
H
()R
1
( 1)

x()
= R
1
()x() (3.41)
dove nellultimo passaggio si `e tenuto conto della (3.39).
Usando la relazione (3.41) nella (3.37) si ottiene
b
LS
() =
_
R
1
( 1) k()x
H
()R
1
( 1)

( 1) +k()d

()
= R
1
( 1)p

( 1) k()
_
x
H
()R
1
( 1)p

( 1) d

()
_
= b
LS
( 1) k()
_
x
H
()b
LS
( 1) d

()
_
= b
LS
( 1) k()
_
(b
H
LS
( 1)x())

()
_
= b
LS
( 1) k()
_
b
H
LS
( 1)x() d()
_

= b
LS
( 1) +k()
_
d() b
H
LS
( 1)x()
_

= b
LS
( 1) +k()e

() (3.42)
dove si `e tenuto conto che R
1
( 1)p

( 1) = b
LS
( 1) per la stessa relazione
(3.29) che vale per generico e quindi anche per 1. Inoltre, si `e denito
e()

= d() b
H
LS
( 1)x() (3.43)
In sintesi ad ogni passo di iterazione posso enucleare il seguente algoritmo, detto
RLS (recursive LS), ottenuto estraendo dai passaggi precedenti le relazioni (3.43),
(3.38), (3.42) e (3.39).
_

_
e() = d() b
H
LS
( 1)x()
k() =
P(1)x()
+x
H
()P(1)x()
b
LS
() = b
LS
( 1) +k()e

()
P() =
1

_
P( 1) k()x
H
()P( 1)

(3.44)
dove si `e denotato con P()

= R
1
().
Per svolgere le quattro operazioni precedenti, la parte computazionalmente pi` u
complicata `e data dalla quarta relazione che pu` o anche essere riscritta in questo
modo:
P() =
1

_
I k()x
H
()

P( 1) (3.45)
Per aggiornare la matrice inversa P( 1), che `e di dimensione M, occorrono
un numero di operazione proporzionali ad M
2
cos` come risulta proporzionale
c Prof. Davide Mattera. 08/12/2011
52 Progetto adattativo del ltro lineare
ad M
2
loperazione di aggiornamento del vettore k(). Siccome, a causa degli
arrotondamenti, si pu` o perdere la simmetria hermitiana di P(), la si pu` o imporre
attraverso loperazione P()
P()+P
H
()
2
, eventualmente svolta con una certa
cadenza.
Per determinare il valore iniziale P(0) occorre considerare che dalla (3.30) segue
che R(0) = M
r
e pertanto la matrice P(0) va inizializzata come
1

M
1
r
; siccome
M
r
non interviene direttamente nellalgoritmo, `e possibile denire direttamente la
matrice M
1
r
, come la matrice che inizializza la matrice P(0), in modo da evitare
linversione.
c Prof. Davide Mattera. 08/12/2011
4 La predizione lineare ottima secondo il
criterio MMSE
In questo capitolo ci occuperemo di una importante applicazione del ltraggio
lineare ottimo introdotta nel capitolo precedente, la predizione lineare.
Il problema `e quello di eettuare una predizione del valore del segnale x(t)
allistante t
o
sulla base della conoscenza de segnale x(t) nellintervallo (t
1
, t
2
)
con t
o
/ (t
1
, t
2
). Il problema si dice di predizione forward quando t
o
> t
2
e si
dice di predizione backward quando t
o
< t
1
. Detta B la banda del segnale x(t),
`e possibile rappresentare in maniera equivalente il segnale nellintervallo (t
1
, t
2
)
attraverso i suoi campioni ottenuti con periodo di campionamento T
c

1
2B
.
Supponiamo pertanto di disporre di N campioni del segnale x(n) ottenuti dal
segnale analogico x
a
(t) ad un passo opportuno T
c
; a partire da tali campioni
x(n) per n = 1, . . . , N, si supponga che si desidera il valore allistante (N + 1)T
c
.
Denotiamo con x(N+1) = f(x(N)) la predizione di tale valore a partire dal vettore
x(N) denito come nel paragrafo precedente come il vettore
x(n)

= [x(N) x(N 1) . . . x(N (M 2)) x(N (M 1))]
T
La predizione lineare si ottiene vincolando la funzione f() ad essere una funzione
lineare. Al ne di apprendere la funzione f() occorre utilizzare tutti i valori
disponibili del segnale x(n).
Quando invece di desiderare la predizione riguardante listante N + 2 invece
che listante N + 1, si pu` o procedere ad apprendere direttamente una diversa
funzione f
2
() che applicata allo stesso vettore x(N) fornisca una stima di x(N+2):
x(N + 2) = f
2
(x(N).
`
E per`o anche possibile eettuare la predizione per listante
N + 1 con la funzione considerata prima e poi usare la predizione ottenuta per
stimare il vettore x(N +1 ed applicare su questo vettore la stessa funzione f() per
trovare la stima desiderata:
_

_
x(N + 1) = [f(x(N)) x(N) x(N 1) . . . x(N (M 2))]
T
x(N + 2) = f( x(N + 1))
Analogamente, se lobiettivo `e quello di avere la predizione del valore x(N +4), si
possono avere diverse possibilit`a. Si pu` o trovare in un sol colpo la stima di x(N +4)
attraverso una apposita funzione f
4
() da apprendere (come f
2
() e f()) a partire
c Prof. Davide Mattera. 08/12/2011
54 Predizione lineare
dagli N campioni disponibili del segnale x(n). Esiste per`o lalternativa di usare la
funzione f
2
() nel modo seguente:
_

_
x(N + 2) = [f
2
(x(N)) f
2
(x(N 1)) x(N) x(N 1) . . . x(N (M 3))]
T
x(N + 4) = f( x(N + 2))
Esiste inoltre anche la possibilit`a di usare la sola funzione f():
_

_
x(N + 1) = [f(x(N)) x(N) x(N 1) . . . x(N (M 2))]
T
x(N + 2) = [f( x(N + 1)) f(x(N)) x(N) . . . x(N (M 3))]
T
x(N + 3) = [f( x(N + 2)) f( x(N + 1)) f(x(N)) x(N) . . . x(N (M 4))]
T
x(N + 4) = f( x(N + 3))
e di combinare luso delle due funzioni f() e f
2
(). Mentre quando si considera una
generica funzione non lineare il problema della scelta di come impostare il problema
`e rilevante, nel caso lineare il problema non si pone poich`e se f() `e lineare, saranno
equivalente ad una funzione lineare luso iterativo della funzione f() invece della
sola funzione f
2
() e cos` via. Per questo motivo quando trattiamo della predizione
lineare ha senso considerare il solo problema della predizione nella pi` u semplice
forma della predizione ad un passo in avanti.
Una delle pi` classiche applicazioni della predizione lineare `e nel campo della
compressione di un segnale analogico. Invece di sottoporre a quantizzazione il
campione del segnale x(n) si procede a quantizzare lerrore di predizione e(n),
ottenendo il valore e
q
(n). A questo punto si invia il campione e
q
(n) e dal lato
opposto si utilizzano i valori precedentemente ottenuti x(n1), x(n2), . . . , x(n
(M1)) per ottenere una stima di x(n), diciamola x(n), a questo valore di aggiunge
il valore ricevuto e
q
(n) e si ottiene la ricostruzione del valore del segnale nellistante
n: x(n)

= x(n) + e
q
(n). A partire dal valore ottenuto x(n) si pu` o ottenere una
stima x(n + 1) del campione successivo a cui sommare e
q
(n + 1) per ottenere la
ricostruzione x(n + 1) del campione allistante successivo.
Si noti la dierenza tra ci`o che `e possibile in trasmissione (ovvero in compressione)
operando direttamente sui valori precedenti veri x(n 1), x(n 2), . . . e quello che
`e possibile in ricezione dove `e necessario operare sui valori precedenti cos` come
risultano ricostruiti x(n 1), x(n 2), . . .. Per questo motivo risulta opportuno
operare sui valori ricostruiti anche in fase di trasmissione in modo da svolgere una
operazione che poi sar`a replicabile in ricezione. In questo modo lunica operazione
irreversibile sar`a quella di quantizzazione svolta sul segnale e(n).
Per quale motivo risulta opportuno operare la quantizzazione sul segnale e(n)
invece che sul segnale x(n)? La potenza dellerrore granulare, a parit` a di probabilit` a
c Prof. Davide Mattera. 08/12/2011
Predizione lineare 55
di sovraccarico, dipende dalla ampiezza dellintervallo di quantizzazione; in
particolare, usando lassunzione di rumore granulare uniforme in (

2
,

2
), la
potenza dellerrore granulare vale
2
/12. Infatti,
_
/2
/2
e
2
_
1

_
de =
1

_
e
3
3
_
/2
/2
= 2
1

(/2)
3
3
=

2
12
(4.1)
Inoltre, detta I la larghezza dellintervallo al di fuori del quale il segnale ricade
con una probabilit` a pari a quella ssata di sovraccarico, risulta che
=
I
2
b
(4.2)
dove b `e il numero di bit utilizzati per rappresentare ciascun campione mediante
quantizzazione uniforme.
Supposto lintervallo di larghezza I centrata nellorigine, si ha che tale intervallo
`e denito dalla relazione
Prob[|x(n)| >
I
2
] P
c
(4.3)
dove P
c
`e la probabilit` a di sovraccarico. Pertanto, se si riesce a ridurre la larghezza
dellintervallo che soddisfa la relazione (4.3), allora di conseguenza si riduce e
quindi la potenza dellerrore granulare a parit` a di b ovvero si pu` o ridurre b a parit` a
di e quindi di potenza dellerrore granulare. Ridurre b a parit` a di potenza dei
due tipi di errore signica realizzare compressione.
Al ne di facilitare loperazione di quantizzazione si pu` o spingere questo concetto
al punto estremo in cui lintervallo I si `e ridotto al punto di poter acconsentire la
scelta b = 1. Tale scelta consente di semplicare molto la struttura hardware del
quantizzatore che si riduce ad essere un semplice comparatore. Tuttavia, richiede di
ridurre di molto la larghezza I dellintervallo; a questo scopo, pi` u che migliorando la
qualit`a del predittore, la soluzione pi` u semplice `e quella di aumentare la frequenza di
campionamento del segnale analogico. In tal modo, usando semplicemente il valore
precedente, si riesce ad ottenere una notevole qualit`a della predizione, una ridotta
potenza dellerrore di predizione e quindi la possibilit`a di connarlo con elevata
probabilit` a in un intervallo molto ristretto (cio`e ridurre il valore di I che serve a
soddisfare la (4.3)).
Loperazione di sovracampionamento `e molto pi` u semplice da ottenere tecnologi-
camente rispetto alla costruzione di un quantizzatore, che `e comunque un dispositivo
che deve lavorare in elettronica analogica in ingresso. Loperazione di sovracampi-
onamento consente anche di semplicare il ltro analogico antialiasing.
c Prof. Davide Mattera. 08/12/2011
56 Predizione lineare
4.1 Eetti spettrali nel tempo discreto della modica della frequenza di campionamento
Si consideri il segnale analogico x
a
(t) avente trasformata di Fourier X
a
(f). Si
consideri il segnale
comb
T
x
a
(t)

=
+

n=
x
a
(nT)(t nT) (4.4)
La sua trasformata di Fourier vale
1
T
rep 1
T
X
a
(f)

=
1
T
+

n=
X
a
(f n/T) (4.5)
La trasformata di Fourier daltronde si pu` o anche scrivere come
_
+

n=
x
a
(nT)(t nT)e
j2ft
dt =
+

n=
x
a
(nT)e
j2fTn
(4.6)
Si consideri ora il processo x(n) = x
a
(nT
c
). La sua trasformata di Fourier X(F)
vale
X(F) =
+

n=
x
a
(nT)e
j2Fn
(4.7)
Dal confronto delle ultime due espressioni, risulta pertanto che lultima quantit` a
X
1
(F) in (4.7) vale la quantit` a in (4.6) purch`e fT = F e siccome lespressione in
(4.6) `e uguale a quella in (4.5) si ha che
X(F) =
1
T
+

n=
X
a
(F/T n/T) =
1
T
+

n=
X
a
_
F n
T
_
(4.8)
La formula ci dice che per passare dalla trasformata di Fourier del tempo continuo
a quello del tempo discreto occorre scalare lasse delle frequenze in modo che la
frequenza di ripiegamento 1/(2T) diventi pari a quella 1/2 e poi occorre sommare
le repliche opportunamente traslate di passo uno nella frequenza discreta F; inne
bisogna scalare per 1/T.
Supponiamo ora di avere due segnali a tempo discreto campionati con due
periodi di campionamenti diversi T
1
e T
2
= pT
1
con p intero: x
1
(n) = x
a
(nT
1
)
e x
2
(n) = x
a
(nT
2
). Cerchiamo la relazione tra gli spettri X
1
(F) ed X
2
(F). Da
quanto appena calcolato sappiamo che
X
1
(F) =
1
T
1
+

n=
X
a
_
F n
T
1
_
(4.9)
c Prof. Davide Mattera. 08/12/2011
4.1 Eetti spettrali nel tempo discreto della modica della frequenza di campionamento 57
X
2
(F) =
1
T
2
+

n=
X
a
_
F n
T
2
_
=
1
T
2
+

n=
X
a
_
F n
pT
1
_
=
1
T
2
p1

i=0
+

n=
X
a
_
F np i
pT
1
_
(4.10)
X
2
(Fp) =
1
T
2
p1

i=0
+

n=
X
a
_
Fp np i
pT
1
_
=
1
pT
1
p1

i=0
+

n=
X
a
_
F n
T
1

i
pT
1
_
=
1
p
1
T
1
p1

i=0
+

n=
X
a
_
(F
i
p
) n
T
1
_
=
1
p
p1

i=0
X
1
_
F
i
p
_
=
1
p
rep1
p
X
1
(p) (4.11)
o equivalentemente
X
2
(F) =
1
p
p1

i=0
X
1
_
F
p

i
p
_
=
1
p
p1

i=0
X
1
_
F i
p
_
(4.12)
Quindi la relazione precedente ci chiarisce leetto nel dominio della frequenza
delloperazione di decimazione. In base alla denizione x
2
(n) = x
1
(np) `e la versione
decimata della sequenza x
1
(n); si supponga che x
1
(n) `e stata ottenuta con la
frequenza di campionamento molto elevata, intorno alla frequenza di ripiegamento
usata per la conversione dallanalogico, il segnale utile non presenta delle code che
potrebbero ripiegare in maniera signicativa allinterno della banda convertita e
per questo motivo si pu` o usare un ltro antialiasing semplicato.
Poi se procedo in numerico a decimare il segnale x
1
(n) ottengo il segnale x
2
(n).
In frequenza, leetto della decimazione `e la divisione per p dellargomento che
equivale a scalare per p lasse delle frequenze. Per esempio, se p = 5 ed X
1
(F) `e
diverso da zero tra (0.1, 0.1) allora la divisione per p al secondo membro della
(4.12) implica un cambiamento di scala. In particolare, quello che accade ad X
2
(F)
alla frequenza F = 0.5 `e quello che accade ad X
1
(F) alla frequenza F = 0.1. Con
questo cambiamento di scala, si sarebbe persa la periodicit` a di periodo 1 che viene
ottenuta per`o con la replicazione di passo 1 (per p traslazioni consecutive) della
funzione risultante dal cambiamento di scala; inne devo dividere per p.
La replicazione di passo 1 produce aliasing; nellesempio considerato, le frequenze
tra 0.1 e 0.5 si riportano tra 0 e 0.1 (che poi per il cambiamento di scala sta occu-
pando tutta la banda numerica). Per questo motivo occorre far precedere la deci-
mazione con un ltraggio numerico volto ad ripulire la banda tra il punto ultimo
occupato dal segnale utile e la frequenza numerica pari a 0.5. In particolare, il ltro
numerico antialiasing deve ripulire la frequenza numerica che si trova 1/(2p) e 0.5.
Inne occorre ricordare che la decimazione di una sequenza sovracampionata non
c Prof. Davide Mattera. 08/12/2011
58 Predizione lineare
deve in ogni caso condurre ad un segnale numerico caratterizzato da una frequenza
di campionamento inferiore alla frequenza di Nyquist del segnale analogico da cam-
pionare; in caso contrario, si vanno a cancellare con ltraggio antialiasing numerico
frequenze numeriche che dovrebbero essere conservate nel segnale numerico.
Viceversa, consideriamo il problema di tornare indietro quando si voglia innalzare
in numerico la frequenza di campionamento, cio`e si voglia ottenere x
2
(n) a partire
da x
1
(n). Per prima cosa, si genera la sequenza x
3
(n) = x
2
(n/p) dove x
3
(n) vale
zero quando n/p non `e intero. Signica sostanzialmente inserire p 1 zeri al posto
dei campioni sovracampionati che non sono presenti nella sequenza decimata.
La trasformata di Fourier
X
3
(F) =
+

n=
x
3
(n)e
j2Fn
=
+

n=
x
2
(n/p)e
j2Fn
=
+

n=
x
2
(n)e
j2Fpn
= X
2
(Fp)
(4.13)
La funzione X
3
(F) `e periodica di periodo 1/p siccome X
2
(F) `e periodica di
periodo 1; per esempio, la trasformata X
3
(F) alla frequenza F = 1/p presenta la
replica presente per F = 1 in X
2
(F).
Usando lespressione (4.12), si ottiene poi che
X
3
(F) = X
2
(Fp) =
1
p
p1

i=0
X
1
_
Fp i
p
_
=
1
p
p1

i=0
X
1
_
F
i
p
_
(4.14)
Pertanto, occorre selezionare la funzione X
1
(F) che occupa come componente
spettrale signicativa lo spettro tra (
1
2p
,
1
2p
), usando il fatto che X
1
_
F
i
p
_
per
i = 0 non `e sovrapposta in frequenza ad X
1
(F) come componenti signicative. Per-
tanto, un ltro che seleziona la banda tra (
1
2p
,
1
2p
) seleziona solo la sequenza X
1
(F)
(a meno del fattore costante p per cui bisogna moltiplicare luscita del ltro). Si noti
che la sequenza ottenuta presenta nella banda di frequenze (
1
2p
,
1
2p
) il contenuto
originale e fuori da questa banda, nella banda (
1
2p
, 0.5) presenta un valore nullo
imposto dal ltraggio e non il valore che avrebbe avuto se avessi convertito diretta-
mente dal segnale analogico con tale frequenza pi` u elevata. Pertanto, linnalzamento
in numerico della frequenza di campionamento non pu` o avere leetto di far com-
parire nel segnale numerico frequenze pi` u elevate gi`a denitivamente eliminate me-
diante il ltraggio antialiasing prima della conversione al segnale numerico.
Finora abbiamo considerato i due casi in cui si voglia modicare in numerico la
frequenza di campionamento di un fattore intero: decimare di passo p la frequenza
di campionamento (il fattore 1/p signica passaggio da x
1
(n) ad x
2
(n)) oppure
innalzare in numerico di un fattore intero la frequenza di campionamento (il fattore
p signica passaggio da x
2
(n) ad x
1
(n)). Quando si voglia modicare la frequenza
di campionamento di un fattore razionale p
1
/p
2
, occorre procedere in primo luogo
ad innalzare di un fattore p
1
la frequenza di campionamento e poi sulla sequenza
ottenuta decimarla di un fattore p
2
.
`
E importante lordine, occorre prima innalzare
e poi decimare, poich`e nella decimazione il ltraggio antialiasing rappresenta una
operazione non reversibile.
c Prof. Davide Mattera. 08/12/2011
4.2 Predizione di un passo in avanti 59
4.2 Predizione di un passo in avanti
Consideriamo il problema della predizione di un passo in avanti (forward ) ottima
secondo il criterio MMSE di un segnale u(n) assunto stazionario in senso lato.
Questo problema pu` o essere vista come un applicazione del metodo di Wiener
quando il segnale di ingresso al ltro `e x(n) u(n1) e quello di uscita d(n) u(n).
In tal caso, il vettore x(n)

= [x(n) x(n1) . . . x(n(M1))]
T
[u(n1) u(n
2) . . . u(nM)]
T
. Denito il vettore u
M
(n)

= [u(n) u(n1) . . . u(n(M1))]
T
,
luscita del ltro predittore pu` o essere scritto come segue:
u(n) = b
f,M
u
M
(n 1) (4.15)
Il ltro ottimo si ottiene particolarizzando la condizione di Wiener (2.6) ottenendo
R

b
(MMSE)
f,M
= p

(4.16)
dove
R


= E[x(n)x
H
(n)] = E[u
M
(n 1)u
H
M
(n 1)] (4.17)
e
p


= E[x(n)d

(n)] = E[u
M
(n 1)u

(n)] (4.18)
Lelemento (i, j) della matrice R

vale E[x
i
(n)x

j
(n)] E[u(ni)u(nj)] = r
u
(j
i). Pertanto, la prima riga della matrice R

si scrive come r
u
(0) r
u
(1) . . . r
u
(M1)]
e la prima colonna si scrive r
u
(0) r

u
(1) . . . r

u
(M 1)]
T
ed ha una struttua di tipo
Toeplitz. Essa coincide quindi con la matrice R del ltro di Wiener riferita per`o
al segnale u(n). La chiamiamo R
M
per denotare la dipendenza dallordine su cui
discuteremo in seguito.
La i-esima componente del vettore p vale E[x
i
(n)d

(n)] = E[u(n i)u

(n)] =
r
u
(i) = r

u
(i) e pertanto esso vale [r

u
(1) r

u
(2) . . . r

u
(M)]. Lo denotiamo con r
M
.
Pertanto, la relazione (4.16) si riscrive come
R
M
b
f,M
= r
M
(4.19)
dove non abbiamo denotato - per allegerire la notazione - che la soluzione del sistema
`e la soluzione ottima secondo il criterio MMSE.
Inoltre, la potenza P dellerrore di predizione - usando la relazione (2.10) per
v = 0 - si pu` o scrivere come segue
P
M
= r
d
(0) p
H
b
f,M
= r
u
(0) r
H
M
b
f,M
(4.20)
dove si `e denotato anche la dipendenza di tale potenza dallordine M del predittore.
Le due relazioni (4.19) e (4.20) si possono riscrivere in forma compatta come
c Prof. Davide Mattera. 08/12/2011
60 Predizione lineare
segue:
_

_
r
u
(0) r
H
M
r
M
R
M
_

_
_

_
1
b
f,M
_

_
=
_

_
P
M
0
_

_
(4.21)
dove la prima riga esprime la condizione (4.20) e le altre righe esprimono la
condizione (4.19). Ricordando la struttura della matrice R
M
e del vettore r
M
appena ottenute, si pu` o notare che la matrice nella relazione (4.21) `e proprio la
matrice R
M+1
. Pertanto la relazione (4.21) pu` o essere riscritta pi` u sinteticamente
come
R
M+1
a
M
=
_

_
P
M
0
_

_
(4.22)
dove si `e denotato con a
M
il vettore
a
M

=
_

_
1
b
f,M
_

_
(4.23)
Lerrore di predizione del ltro forward si scrive come segue usando la (4.15):
e
f,M
(n)

= u(n) u(n) = u(n) b
H
f,M
u
M
(n 1) (4.24)
ed usando la relazione (4.23) si pu` o anche scrivere come
e
f,M
(n) = [1 b
H
f,M
]
_

_
u(n)
u
M
(n 1)
_

_
= a
H
M
u
M+1
(n) (4.25)
Pertanto, il vettore a
M
`e il vettore di M +1 componenti che applicato al vettore
u
M+1
(n) ci fornisce il segnale di errore forward e
f,m
(n).
4.3 Predizione di un passo indietro
Consideriamo il problema della predizione di un passo indietro (backward ) ottima
secondo il criterio MMSE di un segnale u(n) assunto stazionario in senso lato.
Questo problema pu` o essere vista come un applicazione del metodo di Wiener
quando il segnale di ingresso al ltro `e x(n) u(n) e quello di uscita d(n)
u(n M). In tal caso, il vettore x(n)

= [x(n) x(n 1) . . . x(n (M 1))]
T

[u(n) u(n 1) . . . u(n (M 1))]


T
. Denito il vettore u
M
(n)

= [u(n) u(n
c Prof. Davide Mattera. 08/12/2011
4.3 Predizione di un passo indietro 61
1) . . . u(n (M 1))]
T
, luscita del ltro predittore pu` o essere scritto come segue:
u(n M) = b
b,M
u
M
(n) (4.26)
Il ltro ottimo si ottiene particolarizzando la condizione di Wiener (2.6) ottenendo
R

b
(MMSE)
b,M
= p

(4.27)
dove
R


= E[x(n)x
H
(n)] = E[u
M
(n)u
H
M
(n)] (4.28)
e
p


= E[x(n)d

(n)] = E[u
M
(n)u

(n M)] (4.29)
Lelemento (i, j) della matrice R

vale E[x
i
(n)x

j
(n)] E[u(n (i 1))u(n
(j 1))] = r
u
(j i). Pertanto, la prima riga della matrice R

si scrive come
r
u
(0) r
u
(1) . . . r
u
(M 1)] e la prima colonna si scrive r
u
(0) r

u
(1) . . . r

u
(M 1)]
T
ed ha una struttua di tipo Toeplitz. Essa coincide quindi con la matrice R del ltro
di Wiener riferita per`o al segnale u(n) che abbiamo gi`a chiamato R
M
.
La i-esima componente del vettore p vale E[x
i
(n)d

(n)] = E[u(n(i 1))u

(n
M)] = r
u
(Mi+1) = r

u
(Mi+1) e pertanto esso vale [r

u
(M) r

u
(M1) . . . r

u
(1)].
Si noti che tale vettore `e stato ricavato invertendo lordine delle componenti del
vettore r
M
e coniugando tutte le componenti; il vettore cos` ottenuto viene detto
vettore di backward e lo denotiamo pertanto con r
B
M
. Pertanto, la relazione (4.27)
si riscrive come
R
M
b
b,M
= r
B
M
(4.30)
dove, di nuovo, non abbiamo denotato - per allegerire la notazione - che la soluzione
del sistema `e la soluzione ottima secondo il criterio MMSE.
Inoltre, la potenza P

dellerrore di predizione - usando come prima la relazione


(2.10) per v = 0 - si pu` o scrivere come segue
P

M
= r
d
(0) p
H
b
b,M
= r
u
(0) (r
B
M
)
H
b
b,M
(4.31)
dove, come prima, si `e denotato anche la dipendenza di tale potenza dallordine M
del predittore.
Le due relazioni (4.30) e (4.31) si possono riscrivere in forma compatta come
segue:
_

_
R
M
r
B
M
r
BH
M
r
u
(0)
_

_
_

_
b
b,M
1
_

_
=
_

_
0
P

M
_

_
(4.32)
dove la prima riga esprime la condizione (4.20) e le altre righe esprimono la
condizione (4.19). Ricordando la struttura della matrice R
M
e del vettore r
M
c Prof. Davide Mattera. 08/12/2011
62 Predizione lineare
appena ottenute, si pu` o notare che la matrice nella relazione (4.21) `e proprio la
matrice R
M+1
. Pertanto la relazione (4.21) pu` o essere riscritta pi` u sinteticamente
come
R
M+1
b
M
=
_

_
0
P
M
_

_
(4.33)
dove si `e denotato con b
M
il vettore
b
M

=
_

_
b
b,M
1
_

_
(4.34)
Lerrore di predizione del ltro backward si scrive come segue usando la (4.15):
e
b,M
(n)

= u(n M) u(n M) = u(n M) b
H
b,M
u
M
(n) (4.35)
ed usando la relazione (4.34) si pu` o anche scrivere come
e
b,M
(n) = [b
H
b,M
1]
_

_
u
M
(n)
u(n M)
_

_
= b
H
M
u
M+1
(n) (4.36)
Pertanto, il vettore b
M
`e il vettore di M +1 componenti che applicato al vettore
u
M+1
(n) ci fornisce il segnale di errore backward e
b,M
(n).
4.4 Relazione tra il ltro forward e backward
Il ltro forward b
f,M
e quello backward b
b,M
sono legati tra loro da una semplice
relazione. Si consideri la relazione (4.30): si inverta lordine delle righe della matrice
R
M
e, per non alterare luguaglianza, anche del vettore r
M
; inoltre si inverta
lordine delle colonne e, per non alterare luguaglianza, anche del vettore b
b,M
;
inne si coniughino entrambi i membri delluguaglianza. In questo modo la matrice
`e tornata alla sua forma originaria r
M
mentre i due vettori sono diventati la loro
versione backward ottenendo cos`
R
M
b
B
b,M
= r
M
(4.37)
Dal confronto tra (4.37) e (4.19) segue che b
B
b,M
= b
f.M
o equivalentemente
b
b,M
= b
B
f,M
(4.38)
c Prof. Davide Mattera. 08/12/2011
4.5 La relazione ricorsiva di Levinson e Durbin 63
Dalle (4.38), (4.23) e (4.34) segue che loperazione backward su b
M
ci fornisce a
M
e viceversa:
b
M
= a
B
M
(4.39)
Dalla (4.38) segue che
(r
B
M
)
H
b
b,M
= (r
B
M
)
H
b
B
f,M
= (r
H
M
b
f,M
)

(4.40)
Infatti, dati due vettori a e b, si ha che a
BH
b
B
= a
H
b; infatti, loperazione backward
nisce per linvertire lordine del prodotto delle componenti omologhe, non la loro
somma, eccetto per la coniugazione a cui sottopone ogni addendo nella denizione
del prodotto.
Dalla (4.31) e (4.40) segue che
P

M
= r
u
(0) (r
H
M
b
f,M
)

(4.41)
Dalla (4.41) e dal fatto che P
M
ed r
u
(0) sono quantit` a reali - siccome sono pari
alla media statistica del modulo quadro di variabili aleatorie - segue che anche
(r
H
M
b
f,M
)

`e una quantit` a reale. Da ci`o segue che la (4.41) si pu` o scrivere come
segue
P

M
= r
u
(0) r
H
M
b
f,M
(4.42)
da cui, tendendo conto della (4.20), segue che P

M
= P
M
. Pertanto, gli errori di
predizione forward e backward hanno la stessa potenza. In tutte le formule del
paragrafo precedente la quantit` a P

M
pu` o essere sostituita da P
M
.
4.5 La relazione ricorsiva di Levinson e Durbin
Si consideri il vettore b
f,M
di M componenti e si consideri il vettore b
f,M,p
di
M 1 componenti estratto da b
f,M
eliminando lultima componente e si consideri
lo scalare b
f,M,u
pari allultima componente di b
f,M
:
b
f,M

=
_
b
f,M,p
b
f,M,u
_
(4.43)
Si pu` o dimostrare che
b
f,M,p
= b
f,M1
b
f,M,u
b
b,M1
(4.44)
Esso pu` o anche essere scritta nel modo seguente
b
f,M,p
= b
f,M1
+k
M
b
b,M1
(4.45)
dove k
M
= b
f,M,u
`e lopposto dellultima componente del vettore b
f,M
c Prof. Davide Mattera. 08/12/2011
64 Predizione lineare
Prima di andare a dimostrare luguaglianza si consideri che da essa discende che
_

_
1
_
b
f,M,p
b
f,M,u
_
_

_
=
_

_
1
_
b
f,M1
0
_
_

_
+k
M
_

_
_
0
b
b,M1
_
1
_

_
(4.46)
Infatti si noti che la prima condizione `e banale e lultima `e una conseguenza della
denizione di k
M
mentre tutte le righe intermedie esprimono la condizione (4.45).
Da essa discende che
_
1
b
f,M
_
=
_

_
_
1
b
f,M1
_
0
_

_
+k
M
_

_
0
_
b
b,M1
1
_
_

_
(4.47)
dove si sono diversamente accoppiate le varie componenti al secondo membro e si `e
tenuto conto della (4.43). Tenendo conto della (4.23) e della (4.34), la (4.47) si pu` o
riscrivere nel modo seguente:
a
M
=
_
a
M1
0
_
+ k
M
_
0
b
M1
_
(4.48)
A tale relazione viene usualmente dato il nome di relazione ricorsiva di Levinson e
Durbin. Di essa faremo uso nei prossimi paragra.
Prima di chiudere questo paragrafo, passiamo per`o a fornire la promessa di-
c Prof. Davide Mattera. 08/12/2011
4.5 La relazione ricorsiva di Levinson e Durbin 65
mostrazione della (4.45). Dalla relazione (4.19) segue che
b
f,M
= R
1
M
r
M
=
_
R
M1
r
B
M1
r
BH
M1
r
u
(0)
_
1
_
r
M1
r

u
(M)
_
=
_

_
R
1
M1
+
R
1
M1
r
B
M1
r
BH
M1
R
1
M1

R
1
M1
r
B
M1

r
BH
M1
R
1
M1
1

_
_

_
r
M1
r

u
(M)
_

_
=
_

_
R
1
M1
r
M1
+
R
1
M1
r
B
M1
r
BH
M1
R
1
M1
rM1

R
1
M1
r
B
M1
r

u
(M)

r
BH
M1
R
1
M1
r
M1
+
1

u
(M)
_

_
=
_

_
b
f,M1
+
b
b,M1
r
BH
M1
b
f,M1

b
b,M1
r

u
(M)

r
BH
M1
b
f,M1
+
1

u
(M)
_

_
=
_

_
b
f,M1
+b
b,M1
_
r
BH
M1
b
f,M1

u
(M)

r
BH
M1
b
f,M1
+
r

u
(M)

_
=
_

_
b
f,M1
+k
M
b
b,M1
k
M
_

_
(4.49)
dove si sono denite
= r
u
(0) r
BH
M1
R
M1
r
B
M1
= r
u
(0) r
BH
M1
b
b,M1
= P

M1
= P
M1
(4.50)
k
M

=
r
BH
M1
b
f,M1

u
(M)

=
_
r
u
(M)
r
B
M1
_
H
_
1
b
f,M1
_
P
M1
=
r
BH
M
a
M1
P
M1
(4.51)
o equivalentemente
k
M
=

M1
P
M1

M1

= r
BH
M
a
M1
(4.52)
Nella primo dei passaggi che hanno condotto alla (4.49) si `e tenuto conto della
c Prof. Davide Mattera. 08/12/2011
66 Predizione lineare
condizione di Wiener (4.19) mentre nel secondo passaggio si `e decomposto la
matrice R
M
usando la matrice R
M1
ed il vettore r
B
M1
in base alla struttura della
matrice (che `e stata ricavata nella discussione tra le formule (4.18) ed (4.19)). Nel
terzo passaggio si `e usata la formula seguente riguardante linversione della matrice
partizionata a blocchi: assumendo che la matrice A e la matrice partizionata siano
invertibili, allora linversa della matrice partizionata si pu` o scrivere come segue
_
A B
C D
_
1
=
_
A
1
+A
1
BE
1
CA
1
A
1
BE
1
E
1
CA
1
D
1
_
(4.53)
dove E

= D CA
1
B, che `e ovvio vericare direttamente mostrando che il
prodotto (con entrambi gli ordini dei due fattori) del primo e del secondo membro
della (4.53) produce la matrice identica I.
`
E banale vericare che il blocco (1, 1)
valga la matrice identica: infatti esso `e uguale a
A
_
A
1
+A
1
BE
1
CA
1

+B(E
1
CA
1
) = I (4.54)
Analogamente, si dimostra (ricordando la denizione data di E) che lelemento
(2, 1) sia nullo. Infatti,
C
_
A
1
+A
1
BE
1
CA
1

+D
_
E
1
CA
1

=
= CA
1
+CA
1
BE
1
CA
1
DE
1
CA
1
=
= CA
1
+
_
CA
1
B D
_
E
1
CA
1
=
= CA
1
+ (E) E
1
CA
1
= CA
1
CA
1
= 0
Gli altri passaggi per la denizione della (4.49) sono abbastanza diretti quando
si tengano presente la (4.19) e (4.30) riferite allordine M1. La stessa propriet` a `e
anche usata per dimostrare il primo passaggio nella (4.50); per il secondo passaggio
si `e usata la (4.31) ed inne la dimostrata uguaglianza tra P

M
e P
M
. Inne per
dimostrare nella (4.51) si `e tenuto conto della forma di r
M
e quindi della sua
versione backward nonch`e della denizione (4.23).
Abbiamo in tal modo dimostrato la (4.45) e quindi di conseguenza la (4.48).
Usando questultima relazione, possiamo ricavare la relazione che sussiste le potenze
P
M
e P
M1
. In particolare, consideriamo la (4.48), qui riscritta per comodit` a
a
M
=
_
a
M1
0
_
+ k
M
_
0
b
M1
_
e moltiplichiamo ambo i membri da sinistra per R
M
, usando al secondo membro
c Prof. Davide Mattera. 08/12/2011
4.5 La relazione ricorsiva di Levinson e Durbin 67
ciascuna delle due seguenti forme partizionate della matrice R
M
:
R
M
=
_
R
M
r
B
M
r
BH
M
r
u
(0)
_
=
_
r
u
(0) r
H
M
r
M
R
M
_
(4.55)
Risulta di conseguenza che
R
M
a
M
=
_
R
M
r
B
M
r
BH
M
r
u
(0)
__
a
M1
0
_
+k
M
_
r
u
(0) r
H
M
r
M
R
M
_ _
0
b
M1
_
(4.56)
Da tale relazione, usando la (4.22) segue che
_
P
M
0
_
=
_
R
M
a
M1
r
BH
M
a
M1
_
+k
M
_
r
H
M
b
M1
R
M
b
M1
_
(4.57)
Si noti che
r
H
M
b
M1
= (r
BH
M
b
B
M1
)

= (r
BH
M
a
M1
)

M1
(4.58)
dove si `e tenuto conto della (4.38), della (4.52) e del fatto, gi`a usato in precedenza,
che loperazione di backward sui due fattori del prodotto nisce per coniugare il
risultato.
Usando le (4.58, (4.22), (4.52) e (4.33) nella (4.57) si ottiene che
_
P
M
0
_
=
_

_
_
P
M1
0
_

M1
_

_
+k
M
_

M1
_
0
P
M1
_
_

_
(4.59)
Siccome nella (4.59), solo la prima e lultima componente rappresentano una
uguaglianza non banale, conviene estrarre le due condizioni corrisponenti a tali
componenti:
_
P
M
= P
M1
+k
M

M1
0 =
M1
+k
M
P
M1
(4.60)
da cui segue sia la conferma della (4.52) che, sostituendo la (4.52) nella prima
condizione, la relazione cercata tra P
M
e P
M1
:
P
M
= P
M1
+k
M
(k
M
P
M1
)

= P
M1
(1 |k
M
|
2
) (4.61)
La condizione (4.61) ed il fatto che P
M
e P
M1
siano quantit` a reali e positive (in
quanto medie statistiche di un modulo quadro di una variabile aleatoria) implica
che
|k
M
| < 1 (4.62)
Inoltre, il caso |k
M
| = 1, che non `e impossibile ma certamente anomalo, implica che
P
M
= 0 e quindi implica che si `e portato a compimento il processo di predizione
c Prof. Davide Mattera. 08/12/2011
68 Predizione lineare
ottenendo un errore di predizione a potenza nulla; quindi, non si pu` o porre la
questione di migliorare con un ltro di ordine maggiore il meccanismo di predizione.
Si noti che in questo modo siamo in grado di compiere il passo avanti dallordine
M1 allordine M. Supponiamo di aver completato il progetto allordine M1 e che
quindi si disponga
1
di b
f,M1
. b
b,M1
, P
M1
, nonch`e delle quantit` a gi`a utilizzate
per giungere a questo progetto {r
u
(0), r
u
(1), . . . , r
u
(M1)}. Supponiamo a questo
punto di disporre ulteriormente della quantit` a r
u
(M) che non `e necessaria per
calcolare i predittori di ordine M 1 ma `e cruciale per calcolare quelli di ordine
M. Il punto chiave `e la capacit`a di calcolare k
M
che consente i ltri di ordine M
tramite la (4.45) - equivalentemente tramite la (4.48) - e P
M
tramite la (4.61). Si pu` o
direttamente notare dalla (4.52) che per calcolare k
M
sono necessari i ltri di ordine
M 1 ammessi disponibili ed il vettore r
M
, disponibile in base allassunzione di
disporre delle quantit` a {r
u
(0), r
u
(1), . . . , r
u
(M)}. Non si dimentichi poi che i valori
della funzione di autocorrelazione r
u
(m) vanno stimati sulla base dei dati disponibili
sulla base dellassunzione ergodica a riguardo del segnale u(n).
Un approccio alternativo `e basato su una formula che consente di ottenere
direttamente k
M
a partire dai segnali di errore forward e backward di ordine
inferiore ma questa formula verr`a introdotta nel seguito. Nel prossimo paragrafo
saranno prima dimostrate alcune propriet` a del ltro predittore ottimo ottenuto
nora.
4.6 Alcune propriet`a del ltro predittore ottimo MMSE
Si consideri il vettore a
M
che descrive la relazione ingresso/uscita (4.25). Esso
contiene i valori diversi da zero della risposta impulsiva di un ltro FIR che opera
sul segnale di ingresso u(n) per generare un segnale di uscita e
f,M
(n). Scrivendo
per esteso la relazione (4.25) si ottiene la seguente espressione:
e
f,M
(n) = a
H
M
u
M+1
(n) =
_

_
a
M,0
a
M,1
. . .
a
M,M
_

_
H_

_
u(n)
u(n 1)
. . .
u(n M)
_

_
=
M

i=0
a

M,i
u(ni)=
+

i=
h
a,M
(i)u(ni)
(4.63)
dove si `e denotato con a
M,i
la i-esima componente del vettore a
M
per i =
0, 1, . . . , M e con
h
a,M
(i)

=
_
a

M,i
i {0, 1, . . . , M}
0 i / {0, 1, . . . , M}
(4.64)
1. O che equivalentemente si disponga di aM1, bM1 e PM1.
c Prof. Davide Mattera. 08/12/2011
4.6 Alcune propriet`a del ltro predittore ottimo MMSE 69
Pertanto, h
a,M
() rappresenta la risposta impulsiva di tale ltro LTI; il vettore a
M
contiene i valori diversi da zero della risposta impulsiva, che sono quelli riferiti
allintervallo {0, . . . , M}. I valori non presenti nel vettore a
M
sono quelli che non
ricadono nellintervallo {0, . . . , M} e sono quindi tutti nulli.
Tale corrispondenza tra un vettore ed una risposta impulsiva `e generale. Si
considerino tre vettori colonna delle stesse dimensioni a, b e c a cui corrispondono
rispettivamente tre risposte impulsive h
a
(n), h
b
(n) e h
c
(n); se vale a = b+c allora
`e ovvio che anche h
a
(n) = h
b
(n) +h
c
(n) e viceversa.
Pertanto, applicando tale risultato alla relazione (4.48), che qui riscriviamo per
comodit` a
a
M
=
_
a
M1
0
_
+
_
0
k
M
b
M1
_
si pu` o scrivere la relazione seguente tra le tre risposte impulsive corrisponenti:
h
a,M
(n) = h
a,M1
(n) +k

M
h
b,M1
(n 1) (4.65)
Infatti, lo zero in ultima posizione non altera la risposta impulsiva che si ottiene
dal vettore mentre lo zero in prima posiziona corrisponde ad un ritardo unitario
nella risposta impulsiva. La risposta impulsiva h
a,M1
(n) `e quindi quella del ltro
che ha in ingresso il segnale u(n) ed in uscita lerrore forward e
f,M1
(n) di ordine
M 1 mentre la risposta impulsiva h
b,M1
(n) `e quindi quella del ltro che ha in
ingresso il segnale u(n) ed in uscita lerrore backward e
b,M1
(n) di ordine M 1.
Dalla (4.65) segue che
H
a,M
(z) = H
a,M1
(z) +k

M
z
1
H
b,M1
(z) (4.66)
Daltronde, dalla (4.64) segue che
H
a,M
(z) =
M

i=0
a

M,i
z
i
(4.67)
Le relazioni (4.65) e (4.66) sono perfettamente equivalente alla relazione (4.48)
in quanto consentono di determinare il ltro forward ottimo di ordine M a partire
da quelli forward e backward di ordine M 1 e dal coeciente di riessione k
M
.
Si consideri la trasformata zeta del ltro backward di ordine M e si denoti con
c Prof. Davide Mattera. 08/12/2011
70 Predizione lineare
b
M,i
la i-esima componente del vettore b
M
:
H
b,M
(z) =
M

i=0
b

M,i
z
i
=
M

i=0
a
M,Mi
z
i
=
_
M

i=0
a

M,Mi
(z

)
i
_

=
_
M

=0
a

M,
(z

)
(M)
_


= M i
= z
M
_
M

=0
a

M,
(z

=
_
z
M
M

=0
a

M,
_
1
z

= z
M
H

a,M
_
1
z

_
(4.68)
Dalla (4.68) segue che
H
b,M
(e
j
) =
_
e
j
_
M
H

a,M
_
1
e
j
_
=
_
e
j
_
M
H

a,M
_
e
j
_
(4.69)
e da questa segue che
|H
b,M
(z)| = |H
a,M
(z)| z : |z| = 1 (4.70)
Applichiamo il teorema
2
di Rouch`e alla relazione (4.66) mediante la scelta
2. Il teorema di Rouch`e aerma che, date due funzioni F(z) e G(z) entrambe olomorfe in
un dominio C

= CUc (dove c `e la frontiera di C) limitato e regolare, qualora valga la
condizione |F(z)| > |G(z)| sulla frontiera dello stesso dominio C, allora F(z) e F(z)+G(z)
hanno lo stesso numero di zeri in C. La dimostrazione `e qui fornita solo per dare la
possibilit`a allo studente di collegarsi con quanto studiato nellinsegnamento di Metodi
matematici per lingegneria e non sar`a oggetto di verica in sede di esame; essa richiede
di considerare la formula dellindicatore logaritmico per la funzione F(z) +G(z)
N
F+G
() =
1
2j
_
c
F

(z) +G

(z)
F(z) +G(z)
dz [0, 1]
Si ricorda che il teorema dellindicatore logaritmico aerma che lintegrale al secondo
membro rappresenta la dierenza tra il numero degli zeri di F(z) + G(z), contati
sommando gli ordini di molteplicit` a di ciascuno zero, ed il numero dei poli, contati allo
stesso modo. Il fatto che F(z) e G(z) siano olomorfe in C implica che lintegrale rappresenti
solo il numero degli zeri perch`e F(z) + G(z) non presenta poli in C. Se lo studente ha
dicolt` a gi`a a comprendere questo punto `e opportuno che si rivolga al docente in modo
c Prof. Davide Mattera. 08/12/2011
4.6 Alcune propriet`a del ltro predittore ottimo MMSE 71
F(z) H
a,M1
(z), G(z) k

M
z
1
H
b,M1
(z), e il dominio C scelto `e |z| 1.
Con le scelte eettuate, le condizioni (4.62) e (4.70) garantiscono la condizione
|F(z)| > |G(z)| sulla frontiera |z| = 1 del dominio C scelto. Il teorema ci garantisce
pertanto che F(z) H
a,M1
(z) e F(z) + G(z) H
a,M
(z) hanno lo stesso numero
di zeri. Ora allordine zero H
a,0
(z) = 1 (infatti allordine zero non si pu` o realizzare
predizione, quindi u(n) = 0, e
f,0
(n)

= u(n) u(n) = u(n); pertanto il legame
tra u(n) ed e
f,0
(n) `e quello di un sistema identico, la cui risposta impulsiva ha
una zeta trasformata `e costantemente pari a 1 per ogni z complesso e quindi non
ammette zeri in C). Conseguentemente, per il teorema neppure H
a,1
(z) ammette
zeri in C; ci`o implica, per lo stesso teorema, che H
a,2
(z) neppure ammette zeri in
C. Siccome H
a,1
(z) `e un ltro FIR di ordine 1 e quindi `e un polinomio FIR di
ordine 1, esso ammetter` a uno zero, che - per quanto gi`a dedotto - deve essere
necessariamente interno. Analogamente, H
a,2
(z) non avr` a zeri in C e quindi i
suoi due poli saranno entrambi interni.
`
E possibile ripetere in questo modo il
ragionamento e concludere che H
a,M
(z) non ammette zeri esterni qualunque sia
lordine M considerato. Pertanto, H
a,M
(z) ha tutti zeri interni al cerchio di raggio
unitario o, come si dice sinteticamente, `e a fase minima. Ci`o signica che il ltro
inverso H
1
a,M
(z) `e un ltro stabile e casuale. Se |k
M
| = 1, il ltro di ordine M avr` a
uno zero in pi` u di H
a,M1
(z) e questo zero ulteriore sar`a proprio sul cerchio di
raggio unitario; per cui la condizione k
M
< 1 `e equivalente a dire che H
a,M
(z) `e
fase minima.
A questo pare opportuno che lo studente si fermi e si chieda il perch`e si sia svolto
che il raccordo con linsegnamento propedeutico venga meglio rinito.
Il denominatore della funzione integranda non si annulla sulla linea di integrazione c
in virt` u del fatto che F(z) + G(z) = 0 per z c implicherebbe |F(z)| = |G(z)| che,
essendo [0, 1], implicherebbe |F(z)| |G(z)|, contro lipotesi del teorema. Se si ssa
F(z) e G(z), la funzione integranda (intesa come funzione della variabile ) `e continua nella
variabile perch`e `e rapporto di polinomi di primo grado. La funzione integranda, del resto,
`e anche continua come funzione di z perch`e rapporto di funzioni continue, avendo appena
dimostrato che F(z) +G(z) = 0 [0, 1] z c. Quindi essa `e una funzione continua
delle variabili e z. Quando si scrive la rappresentazione parametrica di c in funzione della
variabile reale t si ottiene una funzione integranda continua di e t denita nellintervallo
base della rappresentazione parametrica (siamo passati alle rappresentazioni parametriche
perch`e il teorema di passaggio al limite sotto il segno di integrale si usa dimostrarlo per le
funzioni reali ed anche per le funzioni complesse - basta considerare una alla volta la parte
reale e quella immaginaria). Quindi `e possibile passare al limite sotto il segno di integrale
(limite rispetto alla variabile ) e dalla continuit`a rispetto a della funzione integranda,
segue la continuit`a di N
F+G
() in [0, 1] che a sua volta implica che essa non dipenda
da poich`e essa assume solo valori interi siccome conta il numero degli zeri. Se N()
passasse da 1 a 2 si creerebbe una discontinuit`a; questo vale per ogni funzione che assuma
valori interi in un intervallo. Segue pertanto che N(0) = N(1), ovvero che la funzione
F(z) + G(z) assume lo stesso numero di zeri in C sia per = 0 che per = 1, ovvero
F(z) e F(z) +G(z) assumono lo stesso numero di zeri in C. Passando a F(z) +G(z) resta
inalterata la somma degli ordini di molteplicit` a degli zeri della F(z). Pu`o essere che due
zeri semplici della F(z) conuiscano in un solo zero di F(z) +G(z) di molteplicit` a doppia.
c Prof. Davide Mattera. 08/12/2011
72 Predizione lineare
la dimostrazione con riferimento al dominio z 1. Cosa ci ha impedito di selezione
linsieme |z| 1 e di ripetere analogamente la dimostrazione con riferimento al
tentativo di dimostare che tutti gli zeri sono esterni al cerchio di raggio unitario?
La risposta `e lasciata come esercizio agli studenti.
Dalla relazione (4.68) segue che z
b
=
1
z

a
dove z
b
`e uno zero di H
b,M
(z) ed z
a
`e uno
zero di H
a,M
(z). Pertanto, |z
a
| < 1 |z
b
| > 1 e quindi il ltro backward H
b,M
(z)
ha tutti zeri esterni al cerchio di raggio unitario o, come si dice sinteticamente, `e a
fase massima.
Facendo il backward dei due membri della (4.48) e tenendo conto della (4.39) si
ottiene la formula seguente:
b
M
=
_
0
b
M1
_
+k

M
_
a
M1
0
_
(4.71)
Passando alla relazione analoga in termini di zeta trasformata, seguendo una
procedura analoga a quella seguita per trasformare la (4.48) nella relazione nel
dominio zeta, si ottiene:
H
b,M
(z) = z
1
H
b,M1
(z) +k

M
H
a,M1
(z) (4.72)
Si noti che (4.72) `e equivalente alla (4.71) cos` come la (4.66) `e equivalente alla
(4.48).
La coppia di relazioni ricorsive (4.66) e (4.72) pu` o essere anche equivalentemene
rappresentato dallo schema di gura (4.1): una volta realizzati i due ltri H
a,M1
(z)
e H
b,M1
(z) che producono in uscita gli errori forward and backward e
f,M1
(n)
ed e
b.M1
, basta combinarne le uscite come mostrato dalle relazioni (4.66) e (4.72)
per ottenere la realizzazione dei ltri H
a,M
(z) e H
b,M
(z) che producono in uscita
gli errori di ordine superiore e
f,M
(n) e e
b,M
(n). Si noti la opportunit`a di costruire
anche il ltro backward ad un certo ordine perch`e la uscita `e necessaria per costruire
il ltro forward allordine superiore.
Daltronde `e possibile usare le stesse relazioni anche per realizzare i ltri
H
a,M1
(z) e H
b,M1
(z) immaginando di aver gi`a realizzato i ltri di ordine in-
feriore H
a,M2
(z) e H
b,M2
(z). Iterando molte volte questa propriet` a e ricordando
che H
a,0
(z) H
b,0
(z) `e il sistema identico siccome allordine zero non si realizza
alcuna predizione e, pertanto, u(n) 0, e e
f,0
(n)

= u(n) u(n) = u(n) cos` come
e
b,0
(n) = u(n M)|
M=0
u(n M)|
M=0
= u(n). Quindi, allordine zero, le uscite
e
f,0
(n) ed e
b,0
(n) coincidono con lingresso u(n) ovvero in altri termini, H
a,0
(z) e
H
b,0
(z) sono il ltro identico. Pertanto, si pu` o costruire il ltro di ordine 1 usando
u(n); poi si pu` o costruire quello di ordine 2 usando quello di ordine 1 e cos` via
sempre usando ad ogni passo le relazioni ricorsive (4.66) e (4.72). Lo schema che ne
risulta `e rappresentato in gura (4.3) e viene detta a traliccio (lattice). Lo schema
riportato in gura (4.3 `e quello di ordine 2 e pu` o essere trasformato nella strut-
tura di ordine generico mediante laggiunta in cascata di un opportuno numero di
ulteriori stadi della forma rappresentato in gura (4.2).
Si noti la modularit`a della struttura e la possibilit`a di incrementare lordine (per
c Prof. Davide Mattera. 08/12/2011
4.6 Alcune propriet`a del ltro predittore ottimo MMSE 73

z
1
+
+

Ha,M1(z)
H
b,M1
(z)
u(n)
e
f,M
(n) e
f,M1
(n)
e
b,M
(n)
e
b,M1
(n)
k

M
kM
Figure 4.1 Schema realizzativo equivalente alla coppia di relazioni (4.66) e (4.72).

z
1
+
+

k
Figure 4.2 Il singolo stadio della struttura modulare a traliccio (4.3).
ridurre la potenza dellerrore di predizione) senza modicare la parte gi`a esistente
della struttura ma semplicemente aggiungendo un nuovo stadio.
Siccome abbiamo dimostrato che il ltro H
a,M
(z) `e a fase minima ed ammette
inversa stabile e causale, pu` o essere necessario realizzare il ltro inverso. Per
realizzare il ltro inverso occorre invertire la direzione dei ussi nella struttura di
gura (4.3) facendo in modo che il segnale e
f,M
(n) rappresenti il usso di ingresso e
quello corrispondente ad u(n) diventi il usso di uscita. Per fare ci`o occorre notare
che la seguente equivalenza:
A+B = C A = C B (4.73)
viene rappresentata negli schemi a blocchi dalla relazione di equivalenza mostrata
in gura (4.4). Applicando tale equivalenza sullo schema di gura (4.3) possiamo
cos` ottenere lo schema complessivo della struttura che corrisponde ad H
1
a,M
(z)
c Prof. Davide Mattera. 08/12/2011
74 Predizione lineare

z
1
+
+

1
k1

z
1
+
+

u(n)
e
f,2
(n) e
f,1
(n)
e
b,2
(n) e
b,1
(n)
k

2
k2
. . .
. . .
Figure 4.3 Schema realizzativo conseguente allutilizzo ricorsivo della coppia di
relazioni (4.66) e (4.72).
riportato in gura (4.5). Si noti che luscita della struttura inversa `e stata denotata
con u(n) invece che con u(n) per mettere in evidenza come la sua uscita possa essere
diversa in pratica da u(n) per il fatto che lerrore e
f,M
(n) immesso in ingresso alla
struttura inversa possa essere diverso da quello in uscita alla struttura diretta,
non fosse altro che per leetto della quantizzazione a cui viene inevitabilmente
sottoposto il segnale di uscita di ogni sistema di elaborazione numerica, ma anche
per le imprecisioni di realizzazione sia della strutture diretta sia di quella inversa.
La struttura di gura (4.5), in quanto inversa del ltro H
a,M
(z), che `e un ltro
FIR e quindi avente solo M zeri, possiede M poli interni al cerchio di raggio unitario
e pertanto viene realizzato da una struttura ricorsiva stabile e causale. Si noti come
la struttura ottenuta in gura (4.5 sia una struttura ricorsiva in quanto luscita u(n)
dipende dai valori precedenti delluscita attraverso il usso sul ramo inferiore del
traliccio che riporta nei calcoli che determinano luscita u(n) quantit` a che dipendono
dai valori precedenti della stessa uscita.
4.7 La relazione inversa di Levinson e Durbin
La relazione vettoriale (4.48) pu` o essere riscritta in forma scalare se si denotano
le componenti del vettore a
M
nel modo seguente a
M

= [a
M,0
a
M,1
. . . a
M,M
]
T
e
conseguentemente le componenti del vettore a
M1
nel modo seguente a
M1

=
[a
M1,0
a
M1,1
. . . a
M1,M1
]
T
. Di conseguenza, il vettore b
M1
diventa pari a
b
M1
= [a

M1,M1
a

M1,M2
. . . a

M1,0
]
T
. Pertanto la k-esima componente (per
k {0, 1, . . . , M) del vettore a
M
`e pari a a
M,k
; la k-esima componente (per k
{0, 1, . . . , M 1) del vettore a
M1
`e pari a a
M1,k
mentre la k-esima componente
(per k {0, 1, . . . , M 1) del vettore b
M1
`e pari a a

M1,M1k
; di conseguenza,
la k-esima componente del vettore che compare come secondo addendo al secondo
c Prof. Davide Mattera. 08/12/2011
4.7 La relazione inversa di Levinson e Durbin 75
+

A C
B
+

A C
B
Figure 4.4 Modiche sullo schema conseguenti alla inversione dellingresso e
delluscita.

z
1
+
+

1
k1

z
1
+
+

u(n)
e
f,2
(n) e
f,1
(n)
e
b,2
(n) e
b,1
(n)
k

2
k2
. . .
. . .
Figure 4.5 Schema realizzativo del ltro predittore inverso dove ur(n) denota il
segnale ricostruito sulla base del segnale di errore forward.
c Prof. Davide Mattera. 08/12/2011
76 Predizione lineare
membro della (4.48) `e pari a

M1,Mk
per k = 1, . . . , M mentre `e nulla per
k = 0. Pertanto, le componenti per k {1, . . . , M 1} della (4.48) si possono
equivalentemente scrivere nel modo seguente
a
M,k
= a
M1,k
+k
M
a

M1,Mk
(4.74)
Inoltre, quando si adotti la convenzione di assumere a
M,k

= 0 quando k /
{0, 1, . . . , M}, la stessa relazione viene a valere anche per la prima
3
e per lultima
4
componente della relazione (4.48); pertanto, la 4.74) vale per ogni k {0, 1, . . . , M}.
Coniugando ambo i membri della (4.74) e sostituendo M con M k si pu` o
equivalentemente scrivere la seguente relazione:
a

M,Mk
= a

M1,Mk
+k

M
a
M1,k
(4.75)
Le due relazioni (4.74) e (4.75) si possono scrivere in forma compatta nel modo
seguente:
_
a
M,k
a

M,Mk
_
=
_
1 k
M
k

M
1
__
a
M1,k
a

M1,Mk
_
(4.76)
da cui segue che
_
a
M1,k
a

M1,Mk
_
=
_
1 k
M
k

M
1
_
1 |k
M
|
2
_
a
M,k
a

M,Mk
_
=
_
a
M,k
k
M
a

M,Mk
k

M
a
M,k
+a

M,Mk
_
1 |k
M
|
2
(4.77)
da cui, estraendo la sola prima componente e tenendo conto che k
M
`e proprio
lultima componente del vettore a
M
, segue che
a
M1,k
=
a
M,k
a
M,M
a

M,Mk
1 |a
M,M
|
2
k {0, 1, . . . , M 1} (4.78)
e viene detta la relazione inversa di Levinson e Durbin siccome essa consente di
calcolare il ltro ottimo a
M1
una volta noto il ltro ottimo a
M
.
4.8 Il test di Schur-Cohn
La relazione (4.78) `e equivalente alla (4.48), la quale `e a sua volta equivalente alla
coppia di relazioni (4.66) e (4.72), le quali sono a loro volta equivalenti allo schema
3. Per k = 0, infatti, il secondo addendo al secondo membro della (4.74) vale zero e la
relazione esprime luguaglianza ad uno di entrambe le prime componenti dei vettori aM e
aM1
4. Per k = M, infatti, il primo addendo al secondo membro della (4.74) vale zero e la
relazione esprime luguaglianza a kM dellultima componente del vettor e aM: aM,M = kM
c Prof. Davide Mattera. 08/12/2011
4.8 Il test di Schur-Cohn 77
realizzativo mostrato in gura (4.3).
Si noti per`o che un ltro a traliccio `e comunque un ltro FIR; ogni ltro FIR
pu` o essere realizzato con una struttura a traliccio. Infatti, dato un qualsiasi ltro
FIR causale di memoria M
H(z) = h(0) +h(1)z
1
+. . . +h(M)z
M
(4.79)
dopo aver normalizzato ad uno il suo primo coeciente:
H
M
(z)

=
H(z)
h(0)
= 1+
h(1)
h(0)
z
1
+. . .+
h(M)
h(0)
z
M

= h
M,0
+h
M,1
z
1
+. . .+h
M,M
z
M
(4.80)
`e possibile trovare una sequenza di ltri FIR, H
M1
(z), H
M2
(z), . . . , H
1
(z), 1, che
si appoggiano luno sullaltro nella struttura a traliccio, in modo tale che lM-
esimo ltro nella struttura a traliccio sia proprio quello considerato H
M
(z). Tutti
questi ltri della sequenza si trovano uno alla volta a partire da H
M
(z) applicando
la relazione inversa di Levinson e Durbin (4.78). Usando la relazione k
i
= h
i,i
(i {1, . . . , M}) si ottengono i valori del coeciente di riessione in tutti gli stadi
e quindi si ottiene la struttura a traliccio che realizza il ltro considerato H
M
(z).
Ovviamente non `e detto che i coecienti di riessione rispettino la condizione
k
i
< i i {1, 2, . . . , M}. Se la rispettano, `e possibile ripetere pari pari la
dimostrazione fatta nel paragrafo 4.6 e concludere quindi che il ltro H
M
(z) sia a
fase minima. Se invece almeno un coeciente k
i
> 1 allora il ltro non `e a fase
minima cio`e esso ha almeno uno zero esterno al cerchio unitario. Pertanto, si pu` o
anche procedere a calcolare tutti di ltri H
i
(z) allo scopo di trovarne i coecienti
di riessione k
i
che vengono ricercati al solo scopo di vericare il fatto che essi siano
oppure no maggiori di uno, ovvero al solo scopo di vericare se H
M
(z) sia oppure
no a fase minima. Tale procedura prende il nome di test di Schur-Cohn.
Se la zeta trasformata H
M
(z) rappresenta il denominatore di una zeta trasfor-
mata di un sistema lineare ricorsivo, allora il test di fase minima di H
M
(z) diventa
un test di stabilit`a della versione causale del sistema lineare ricorsivo in considera-
zione.
Dato il ltro predittore di ordine M e data la sequenza di ltri individuati dalla
struttura a traliccio m = 0, . . . , M 1 mediante la formula (4.78), non sarebbe
detto in generale che il ltro per m = M1 della struttura a traliccio coincida con
il predittore ottimo di ordine M 1. Che i due ltri coincidano `e il risultato della
dimostrazione di Levinson e Durbin; ci`o `e anche equivalente, daltra parte, al fatto
che, quando si cerca di incrementare di ordine il predittore, non si devono cercare i
nuovi valori dei coecienti di riessione gi`a ssati negli stadi gi`a costruiti ma basta
limitarsi ad individuare (per esempio usando la formula di Burg) il coeciente
di riessione del nuovo stadio da aggiungere in cascata alla struttura esistente,
lasciando inalterati quelli dei moduli gi`a inseriti.
4.9 Filtro predittore come ltro sbiancante
c Prof. Davide Mattera. 08/12/2011
78 Predizione lineare
Se il segnale u(n) `e bianco, allora la matrice R
M
`e diagonale mentre il vettore r
M
`e nullo. Di conseguenza, dalla (4.19) segue che b
f,M
= 0; di conseguenza, in questo
caso, u(n) = b
f,M
u
M
(n1) 0 e pertanto, e
f,M
(n) u(n). Pertanto il predittore
ottimo H
a,M
(z) secondo MMSE lascia inalterato il segnale u(n). Anch`e dunque un
ltro lineare abbia fatto il massimo possibile mediante elaborazione lineare, lerrore
di predizione deve essere bianco.
In pratica, lerrore di predizione non `e bianco e quindi incrementando lordine
del predittore si migliora, riducendo la potenza dellerrore di predizione. In eetti,
il massimo che si pu` o fare corrisponde al limite asintotico quando lordine del ltro
tende ad innito. In tal caso, lerrore di predizione tende ad un segnale bianco che
rappresenta la componente del segnale impredicibile mediante elaborazione lineare.
Questo signica che il ltro H
a,M
(z) quando lordine M `e sucientemente elevato
tende ad approssimare il ltro sbiancante; lordine opportuno dipende dal fatto
che si sta approssimando mediante un ltro FIR un ltro che potenzialmente ha
lunghezza innita. Lordine opportuno `e quello che consente di coprire mediante il
ltro FIR gran parte della energia della risposta impulsiva di lunghezza innita e
quindi dipende in pratica dalle caratteristiche del segnale da sbiancare.
Consideriamo, in particolare, la questione di approssimare un ltro causale di
lunghezza innita h
IIR
(n) con un ltro di lunghezza nita h
FIR
(n) che copra
lintervallo [0, M 1]. Se si denota con
y
IIR
(n)

=
+

n=0
h
IIR
(m)x(n m) (4.81)
y
FIR
(n)

=
M1

n=0
h
FIR
(m)x(n m) (4.82)
e(n)

= y
IIR
(n) y
FIR
(n)
=
M1

n=0
(h
IIR
(m) h
FIR
(m))x(n m) +
+

n=M
h
IIR
(m)x(n m) (4.83)
un parametro che fornisce una misura attendibile della qualit`a della approssi-
mazione `e il rapporto tra la potenza dellerrore e(n) di approssimazione delluscita
y
IIR
(n) e la potenza del segnale utile y
IIR
(n):
E[|e(n)|
2
]
E[|y
IIR
(n)|
2
]
(4.84)
Se si assume che il segnale considerato di ingresso x(n) sia bianco, la potenza di
e(n) si scrive nel modo seguente:
E[|e(n)|
2
= P
x
_
M1

n=0
|h
IIR
(m) h
FIR
(m)|
2
+
+

n=M
|h
IIR
(m)|
2
_
(4.85)
c Prof. Davide Mattera. 08/12/2011
4.9 Filtro predittore come ltro sbiancante 79
mentre quella del segnale y
IIR
(n) vale
E[|y
IIR
(n)|
2
] = P
x
+

n=0
|h
IIR
(m)|
2
(4.86)
Di conseguenza, il rapporto in (4.84) diventa
E[|e(n)|
2
]
E[|y
IIR
(n)|
2
]
=
M1

n=0
|h
IIR
(m) h
FIR
(m)|
2
+
+

n=M
|h
IIR
(m)|
2
+

n=0
|h
IIR
(m)|
2
(4.87)
La scelta del ltro h
FIR
(m) che minimizza il rapporto (4.87) `e quella che sceglie
il ltro FIR come troncamento del ltro IIR:
h
FIR
(m) = h
IIR
(m) m {0, . . . , M 1} (4.88)
Con tale scelta, il rapporto (4.87) diventa pari a
E[|e(n)|
2
]
E[|y
IIR
(n)|
2
]
=
+

n=M
|h
IIR
(m)|
2
+

n=0
|h
IIR
(m)|
2
=

M

(4.89)
dove denota lenergia della risposta impulsiva h
IIR
(n) da approssimare mentre
M
denota lenergia della risposta impulsiva a partire dallistante M. In altri termini,
la qualit`a dellapprossimazione migliore ottenuta troncando la risposta di durata
innita `e proporzionale alla frazione di energia intercettata mediante il troncamento.
Potrebbe sembrare paradossale che si valuti la qualit`a di approssimare un ltro
sbiancante con risposta impulsiva di durata innita con un ltro FIR assumendo
che il segnale di ingresso sia bianco. Si `e fatto ci`o per semplicare la derivazione
della scelta ottima ed ottenere in forma chiusa la dipendenza, espressa nella (4.89),
della qualit`a ottenuta dallordine M del ltro FIR approssimante considerato.
Quando il segnale non `e bianco, la derivazione del ltro ottimo si complica dal
punto di vista matematico (il ltro approssimante andr` a confrontato con il ltro
da approssimare nel dominio della frequenza e la dierenza andr` a pesata tenendo
conto della distribuzione nel dominio della frequenza della potenza del segnale di
ingresso x(n) - se x(n) non `e bianco la sua potenza `e concentrata in alcune zone
della frequenza e diradata in altre ed `e in quelle zone in cui la potenza del segnale
di ingresso `e concentrata che lapprossimazione tra le risposte in frequenza `e pi` u
rilevante). Tuttavia, la derivazione del ltro FIR ottimo la abbiamo gi`a ottenuta
nei paragra precedenti; qui ci interessa la questione qualitativa di legare lordine
scelto per il ltro FIR alle potenzialit` a che possono essere conseguite.
`
E chiaro
che il massimo `e conseguito con il limite asintotico ma il calcolo in questa sezione
`e volto a comprendere con quale legge possiamo attendere la convergenza delle
c Prof. Davide Mattera. 08/12/2011
80 Predizione lineare
prestazioni del ltro FIR a quelle del ltro ideale di lunghezza innita. Per questi
scopi lassunzione di segnale x(n) bianco `e adeguata.
4.10 La formula di Burg
Dal punto di vista della realizzazione del ltro predittore la formula di Burg `e molto
utile poich`e essa lega la quanit`a
M1
al numeratore della (4.52) ad un parametro
statistico ottenuto elaborando gli errori di predizione forward e backward. Pi` u
specicamente, si pu` o dimostrare che
E[e
b,M1
(n 1)e

f,M1
(n)] =
M1
(4.90)
Prima della dimostrazione, si tenga conto che la (4.90) e la (4.52) implicano che si
possono usare le uscite e
f,M1
(n) e e
b,M1
(n) dello stadio precedente, per stimare,
assumendo lipotesi ergodica, il coeciente riessione k
M
rendendo in tal modo
possibile realizzare lo stadio successivo. Passiamo a dimostare la (4.90):
E[e
b,M1
(n 1)e

f,M1
(n)] = E[(b
H
M1
u
M
(n 1))(a
H
M1
u
M
(n))

]
= E[(b
H
M1
u
M
(n 1))(u
H
M
(n)a
M1
)]
= b
H
M1
E[u
M
(n 1)u
H
M
(n)]a
M1
=
_

_E[u
M
(n)u
H
M
(n 1)]b
M1
_

_
H
a
M1
(4.91)
Cominciamo a rimaneggiare la matrice E[u
M
(n)u
H
M
(n 1)].
E[u
M
(n)u
H
M
(n 1)] = E
_
_
_
u(n)
u
M1
(n 1)
__
u
M1
(n 1)
u(n M)
_
H
_
_
=
_
E[u(n)u
H
M1
(n 1)] E[u(n)u

(n M)]
E[u
M1
(n 1)u
H
M1
(n 1)] E[u
M1
(n 1)u

(n M)]
_
=
_
r
H
M1
r
u
(M)
R
M1
r
B
M1
_
(4.92)
Infatti, tenendo conto delle denizioni di u
M
)(n) e di r
M
, si pu` o scrivere il
termine in alto a sinistra del penultimo passaggio nei passaggi appena concluso nel
modo seguente
E[u(n)u
H
M1
(n 1)] = E[u(n)[u

(n 1) . . . u

(n 1 (M 2))]]
= E[u(n)[u

(n 1) . . . u

(n M + 1)]]
= [r
u
(1) . . . r
u
(M 1)]

= r
H
M1
(4.93)
c Prof. Davide Mattera. 08/12/2011
4.10 La formula di Burg 81
ed il termine in basso a destra come segue
E[u
M1
(n 1)u

(n M)] = E[[u(n 1) . . . u(n 1 (M 2)]


T
u

(n M)]
= E[[u(n 1) . . . u(n M + 1)]
T
u

(n M)]
= [r
u
(M 1) . . . r
u
(1)]
T

= r
B
M1
(4.94)
Inne la matrice in basso a sinistra `e pari a E[u
M1
(n 1)u
H
M1
(n 1)] =
E[u
M1
(n)u
H
M1
(n)] = R
M1
dove si `e tenuto conto della stazionariet` a del segnale
u(n).
Usando la (4.92) e la (4.34) si pu` o riscrivere la quantit` a E[u
M
(n)u
H
M
(n1)]b
M1
come segue:
E[u
M
(n)u
H
M
(n 1)]b
M1
=
_
r
H
M1
r
u
(M)
R
M1
r
B
M1
__
b
b,M1
1
_
=
_
r
H
M1
b
b,M1
+r
u
(M)
R
M1
b
b,M1
+r
B
M1
_
=
_

_
_
r
M1
r

u
(M)
_
H
_
b
b,M1
1
_
0
_

_
=
_
r
H
M
b
M1
0
_
=
_
(r
BH
M
a
M1
)

0
_
=
_

M1
0
_
(4.95)
Nel quartultimo passaggio si `e tenuto conto della (4.30) e nellultimo passag-
gio della (4.52), dopo aver notato che luguaglianza r
H
M1
b
b,M1
+ r
u
(M) =
(r
BH
M1
b
f,M1
+r

u
(M))

.
Usando la (4.95) nella (4.91) si ottiene inne:
E[e
b,M1
(n 1)e

f,M1
(n)] =
_

M1
0
_
H
a
M1
=
_

M1
0
_
H
_
1
b
f,M1
_
=
M1
(4.96)
c Prof. Davide Mattera. 08/12/2011
82 Predizione lineare
4.11 Il ltro predittore come strumento per realizzare il ltro di Wiener
Si consideri lo schema di relazione ingresso-uscita mostrato in gura (4.6) dove il
segnale di ingresso viene sottoposto al ltro predittore e successivamente il segnale
di uscita viene ottenuto come combinazione lineare con coecienti h
i
dei vari segnali
di errore backward ai diversi ordini:
y(n) = h

0
e
b,0
(n) +h

1
e
b,1
(n) +. . . +h

M1
e
b,M1
(n) = h
H
e
b
(n) (4.97)
dove si `e denotato con h

= [h
0
h
1
. . . h
M1
]
T
e con e
b
(n)

= [e
b,0
(n) e
b,1
(n) . . . e
b,M1
(n)]
T
.
Fissato il criterio E[|y(n) d(n)|
2
], sulla base di quanto studiato nel capitolo
dedicato al ltro di Wiener in relazione alla combinazione lineare ottima del vettore
x(n) in modo da approssimare il segnale desiderato d(n), si ottiene che il vettore
ottimo h soddisfa la relazione:
E[e
b
(n)e
H
b
(n)]h = E[e
b
(n)d

(n)] (4.98)
Notiamo che la matrice E[e
b
(n)e
H
b
(n)] `e diagonale. Fissati due indici m
1
e m
2
con
m
1
> m
2
, si consideri lelemento (m
1
, m
2
) della matrice:
E[e
b,m1
(n)e

b,m2
(n)] = E
_
e
b,m1
(n)
_
m2

k=0
b

m2,k
x(n k)
_

_
=
m2

k=0
b

m2,k
E[e
b,m1
(n)x

(nk)]
(4.99)
dove si `e tenuto conto che il ltro predittore ora lavora sul segnale x(n). Il ltro
predittore di ordine m
1
fornisce una stima di x(n m
1
) ottima secondo il criterio
MMSE sulla base dei valori precedenti x(n), x(n1), x(n2), . . . , x(n(m
1
1)).
Pertanto, in base al principio di ortogonalit`a, lerrore che ne consegue `e ortogonale
ai dati su cui si basa lelaborazione:
E[e
b,m1
(n)x

(n k)] = 0 k {0, 1, . . . , m
1
1} (4.100)
Siccome m
1
> m
2
, allora dalla relazione precedente segue che
E[e
b,m1
(n)x

(n k)] = 0 k {0, 1, . . . , m
2
} (4.101)
Da (4.101) e da (4.99) segue che E[e
b,m1
(n)e

b,m2
(n)] = 0 quando m
1
> m
2
. Si
consideri inoltre la quantit` a E[e
b,m1
(n)e

b,m2
(n)] quando m
1
< m
2
; tenendo conto
che E[e
b,m1
(n)e

b,m2
(n)] =
_
E[e
b,m2
(n)e

b,m1
(n)]
_

e che E[e
b,m2
(n)e

b,m1
(n)] = 0
(siccome m
2
> m
1
), allora E[e
b,m1
(n)e

b,m2
(n)] anche quando m
1
< m
2
. Pertanto
la matrice E[e
b
(n)e
H
b
(n)] `e diagonale e gli elementi sulla diagonale E[|e
b,i
(n)|
2
] = P
i
per i {0, 1, . . . , M 1}.
La soluzione del sistema (4.98) `e molto semplicata dalla struttura diagonale
della matrice. La soluzione `e data dalla seguente relazione:
h
i
=
E[e
b,i
(n)d

(n)]
P
i
(4.102)
c Prof. Davide Mattera. 08/12/2011
4.11 Il ltro predittore come strumento per realizzare il ltro di Wiener 83
Pertanto basta stimare il parametro statistico al numeratore della (4.102) per
ottenere facilmente i coecienti h
i
.
Vogliamo vericare che la struttura cos` ottenuta `e equivalente al ltro di Wiener
e pertanto lapproccio pu` o essere considerato un metodo semplice ed ecace di
costruire il ltro di Wiener. Si noti che
e
b,i
(n) =
i

k=0
b
i,k
x(n k) i {0, 1, . . . , M 1} (4.103)
che pu` o essere scritta in forma equivalente:
e
b
(n) = Lx(n) (4.104)
Si noti che la prima componente di e
b
(n) e cio`e e
b,0
(n) dipende solo da x(n), la
seconda componente dipende solo da x(n) e da x(n 1), eccetera. Pertanto la
matrice L `e diagonale inferiore; inoltre, sulla diagonale ci sono i coecienti b
i,i
che
`e pari ad uno per ogni i. Pertanto, la matrice `e anche invertibile perch`e `e una
matrice quadrata con determinante pari ad uno (il prodotto degli elementi sulla
diagonale). Siccome L `e invertibile, vale la seguente relazione
x(n) = L
1
e
b
(n) (4.105)
Dimostriamo ora lequivalenza della struttura considerata con il ltro di Wiener.
c Prof. Davide Mattera. 08/12/2011
84 Predizione lineare
Si consideri luscita della struttura considerata:
y(n) = h
H
e
b
(n)
=
_

_
_
E
_
e
b
(n)e
H
b
(n)
_
_
1
E[e
b
(n)d

(n)]
_

_
H
e
b
(n)
=
_

_
_
E
_
_
Lx(n)
_ _
Lx(n)
_
H
_
_
1
E
_
_
Lx(n)
_
d

(n)
_
_

_
H
_
Lx(n)
_
=
_

_
_
E
_
Lx(n)x
H
(n) L
H
_
_
1
LE
_
x(n)d

(n)
_
_

_
H
Lx(n)
=
_

_
_
LE
_
x(n)x
H
(n)
_
L
H
_
1
Lp
_

_
H
Lx(n)
=
_

_
_
LR L
H
_
1
Lp
_

_
H
Lx(n)
=
_

_
_
L
H
R
1
L
1
_
Lp
_

_
H
Lx(n)
=
_

_ L
H
R
1
_
L
1
L

p
_

_
H
Lx(n)
=
_

_ L
H
R
1
p
_

_
H
Lx(n)
=
_

_ L
H
b
_

_
H
Lx(n)
=
_
b
H
L
1
_
Lx(n)
= b
H
_
L
1
L

x(n)
= b
H
x(n) (4.106)
Pertanto, luscita della struttura (4.6) coincide con luscita b
H
x(n) del ltro di
Wiener. La struttura `e pi` u semplice da progettare in quanto non richiede linversione
di una matrice.
c Prof. Davide Mattera. 08/12/2011
4.12 Il cancellatore deco come applicazione del ltro di Wiener 85

z
1
+
+

1
k1

z
1
+
+

x(n)
e
f,2
(n) e
f,1
(n)
e
b,2
(n) e
b,1
(n)
k

2
k2
. . .
. . .
y(n)

+

Figure 4.6 Schema realizzativo del ltro di Wiener attraverso luso del ltro
predittore. I puntini indicano che lordine pu` o essere incrementato e luscita `e presa
in corrispondenza della somma di tutti gli errori di predizioni backward considerati.
4.12 Il cancellatore deco come applicazione del ltro di Wiener
Si consideri il caso in cui il segnale desiderato u(n) non `e disponibile direttamente
in base al procedimento di misura; in particolare, si assume che sia disponibile un
segnale m
2
(n) = u(n) + h
2
(n) i(n) dove h
2
(n) denota la risposta impulsiva che
modella la presenza nel segnale misurato di un segnale interferente i(n) indipendente
da - o quanto meno incoerente con - il segnale utile u(n). Si assume inoltre che sia
disponibile il segnale m
1
= h
1
(n) i(n) che misura il solo segnale interferente
attraverso un ulteriore ltro h
1
(n).
A partire dai due segnali disponibili m
1
(n) ed m
2
(n) si cerca un ltro h(n) al
cui ingresso operi il segnale m
1
(n) e che punti a stimare il segnale m
2
(n). Si tratta
quindi del classico problema del ltro di Wiener che cerca di minimizzare la potenza
dellerrore e(n)
e(n)

= m
2
(n) h(n) m
1
(n) (4.107)
Sulla base delle assunzioni fatte il segnale e(n) si pu` o riscrivere come
e(n) = [h
2
(n)i(n)+u(n)]h(n)[h
1
(n)i(n)] = u(n)+[h
2
(n)h(n)h
1
(n)]i(n)
(4.108)
Si noti che esiste un ltro che annulla il secondo addendo al secondo membro della
(4.108); esso `e tale che h
2
(n) h(n) h
1
(n) 0 o equivalentemente - denite con
c Prof. Davide Mattera. 08/12/2011
86 Predizione lineare
la solita notazione le loro trasformate zeta -
H(z) = H
id
(z)

=
H
2
(z)
H
1
(z)
(4.109)
Si noti che, quando H
1
(z) presenta degli zeri, H
id
(z) presenter` a dei poli e quindi
la risposta impulsiva h
id
(n) avr` a una durata innita ed esso potr` a essere solo
approssimato da un ltro FIR, anche se lapprossimazione sar`a tanto migliore
quanto maggiore sar`a lordine del ltro FIR. Quanto pi` u vicino sar`a al cerchio
unitario il polo di H
1
(z) tanto maggiore sar`a lordine richiesto al ltro FIR per
ottenere una certa qualit`a dellapprossimazione al ltro ideale h
id
(n).
Se si cerca il ltro H(z) in modo da soddisfare la condizione e(n) u(n), si ottiene
che la soluzione `e H(z) = H
id
(z). Se si cerca il ltro H(z) in modo da minimizzare
la potenza di e(n), si trova la stessa soluzione: H(z) = H
id
(z). Infatti, lipotesi di
incoerenza di u(n) ed i(n) implica che la potenza di e(n) si scrive come somma
della potenza del primo e del secondo addendo. La potenza del primo addendo non
dipende H(z). Pertanto, minimizzare la potenza di e(n) equivale a minimizzare la
potenza del secondo addendo; la potenza del secondo addendo `e poi minimizzata
annullando proprio il secondo addendo della (4.108) mediante la condizione (4.109).
Pertanto, se si sta cercando di ottenere il segnale u(n), basta cercare di minimiz-
zare la potenza di e(n) e questo equivale a cercare il ltro di Wiener che opera sul
segnale di ingresso m
1
(n) e assume come segnale desiderato m
2
(n). In tal modo
si otterr`a anche di soddisfare la condizione e(n) u(n) e quindi il segnale di er-
rore e(n) rappresenter` a una stima del segnale desiderato u(n). Tale condizione `e
approssimata sempre meglio quando lordine del ltro si incrementa e copre una
frazione sempre maggiore della energia della risposta impulsiva di h
id
(n).
Si noti che in questo caso il ltro di Wiener lo si introduce non perch`e si sia
interessati al segnale in uscita dal ltro di Wiener ma perch`e lerrore commesso
dal ltro di Wiener nellapprossimare m
2
(n) con una versione ltrata di m
1
(n)
rappresenta proprio una approssimazione del segnale desiderato u(n).
Si noti inne che abbiamo omesso di considerare la potenza del rumore di fondo -
sempre inevitabilmente presente - sui due segnali di misura. Assumendo incoerenti
i due segnali di disturbo di fondo, la potenza del rumore su m
2
(n) `e come se
fosse incorporato in u(n) ed andr` a poi arontato separatamente in modo da poter
completare lelaborazione. Lelaborazione in questione `e solo volta ad eliminare
leetto del segnale interferente ed il segnale di rumore di fondo su m
2
(n) non
rappresenta un ostacolo al raggiungimento di questo obiettivo. Il rumore di fondo
su m
1
(n) nisce invece per ostacolare il meccanismo di stima del ltro di Wiener
(si `e studiato gi`a, trattando il ltro di Wiener in presenza di misure rumorose,
come sia dannoso la presenza di rumore sullingresso). Pertanto, per semplicare la
realizzazione del cancellatore deco e migliorare la qualit`a del risultato ottenuto `e
cruciale il modo in cui il segnale m
1
(n) stima linterferente i(n); si dovr` a cercare di
ottenere un segnale poco distorto (quindi zeri lontani dal cerchio di raggio unitario
che implicano una possibilit`a di approssimare h
id
(n) con un ltro FIR pi` u corto a
parit` a di qualit`a dellapprossimazione) e caratterizzato da elevati valori di rapporto
c Prof. Davide Mattera. 08/12/2011
4.12 Il cancellatore deco come applicazione del ltro di Wiener 87
segnale/rumore di fondo.
c Prof. Davide Mattera. 08/12/2011
88 Predizione lineare
c Prof. Davide Mattera. 08/12/2011
5 Realizzazione di un ltro FIR
In questa lezione si descrive come `e possibile realizzare concretamente un sistema
che eettui una elaborazione di un segnale numerico che sia lineare ed invariante
nel tempo (LTI) con risposta impulsiva di durata nita (ltro FIR).
Esistono diverse strutture per implementare un ltro lineare FIR. Esse dif-
feriscono per i diversi tipi di calcoli da eseguirsi al ne di determinare luscita a
partire dallingresso. Le strutture quindi rappresentano algoritmi diversi (dal punto
di vista del tipo di calcoli che essi prevedono) ma equivalenti (dal punto di vista
del comportamento ingresso/uscita). Si pensi quindi al legame tra la denizione
di sistema in termini di ingresso-uscita e quella in termini di ingresso-stato-uscita;
nel primo caso si tratta di strutture realizzative alternative dello stesso sistema
astratto, nel secondo caso si tratta di sistemi diversi da accorpare allinterno di una
classe di equivalenza.
Esse possono dierire inoltre in termini di frequenza di campionamento a cui
opera lelaborazione a parit` a di hardware disponibile (inteso sia come spazio di
memoria richiesto sia come numero di operazioni in virgola ssa o virgola mobile
(oating point operations, ops) al secondo realizzabile da ciascun elaboratore, sia
come ricchezza dei calcoli che ciascun elaboratore pu` o realizzare, sia come numero
di elaboratori disponibili). La frequenza di campionamento che esse consentono
di raggiungere rappresenta il pi` u importante parametro di qualit`a della struttura
realizzata poich`e la stabilit`a `e garantita ovviamente dalla natura FIR del ltro da
realizzare, cio`e dal fatto che la struttura non presenti poli. Tuttavia, anche il ritardo
di implementazione costituisce un parametro di qualit`a la cui importanza dipende
nettamente dal contesto applicativo: esso rappresenta il ritardo di tempo analogico
tra il momento in cui si inserisce il segnale di ingresso e quello in cui si osserva il
corrispondente segnale di uscita.
Per i ltri FIR la trasformata zeta H(z) della risposta impulsiva del ltro vale
H(z) =
M1

k=0
b
k
z
k
(5.1)
e dunque la relazione ingresso/uscita vale
y(n) =
M1

k=0
b
k
x(n +r k) (5.2)
c Prof. Davide Mattera. 08/12/2011
90 Realizzazione di un ltro FIR

z
1

z
1

. . . . . .

z
1

z
1

x(n) y(n)
b0
b1
b2
bM2
bM1
Figure 5.1 Prima forma diretta
dove x(n) ed y(n) rappresentano i segnali di ingresso e di uscita del sistema LTI.
Nel seguito si illustrano le principali strutture di realizzazione. Si noti il cambio
di notazione rispetto al paragrafo precedente da M ad M 1.
5.1 Realizzazione in forma diretta
Tale struttura deriva direttamente dalla (5.2). Esistono due diverse varianti ripor-
tate nelle gure 5.1 e 5.2.
Le due strutture sono equivalenti se esse sono realizzate mediante una struttura
c Prof. Davide Mattera. 08/12/2011
5.1 Realizzazione in forma diretta 91

+
z
1

z
1

. . . . . .
z
1

z
1

b0
b1
b2
bM2
bM1
x(n) y(n)
Figure 5.2 Seconda forma diretta
c Prof. Davide Mattera. 08/12/2011
92 Realizzazione di un ltro FIR
a singolo processore. In tal caso infatti sono richieste M 1 locazioni di memoria,
M 1 addizionatori ed M moltiplicatori; pertanto vanno realizzati 2M 1 ops
in ciascuna unit` a di tempo discreto. Pertanto, detto il tempo necessario a
realizzare un singolo op (tipicamente la qualit`a di un processore viene indicata
con f

= 1/, cio`e con il numero di ops che il processore pu` o realizzare in un


secondo), `e necessario che ciascuna unit` a di tempo discreto valga 1/f
c
(2M1)
da cui f
c
f

/(2M 1). Esiste pertanto una limitazione superiore alla frequenza


di campionamento a cui lelaboratore che diviene sempre pi` u restrittiva al crescere
di M.
Quando si consideri una realizzazione in cui si disponga di M processori in
parallelo, allora appare una importante dierenza tra le due strutture. Infatti la
prima struttura richiede un tempo pari a per eettuare in parallelo tutte le
moltiplicazioni; inoltre dopo un tempo pari a 2 solo la prima addizione `e stata
realizzata; dopo un tempo pari a 3 solo le prime due addizioni sono state realizzate.
Inne dopo un tempo pari ad M luscita risulta ottenuta e tutte le altre variabili
di stato hanno assunto il valore corretto. Pertanto, pu` o essere inviato limpulso che
fa commutare tutti gli elementi di ritardo, allarrivo dellimpulso essi presentano
come uscita il valore al loro ingresso. I vari impulsi vanno sincronizzati in modo da
essere leggermente sfalsati in modo che il primo registro a commutare sia quello pi` u
a destra nella struttura. Risulta pertanto che la seguente limitazione risulta valida
f
c
f

/M.
In realt` a la prima forma diretta potrebbe essere migliorata usando addizionatori
binari da utilizzarsi in una struttura gerarchica che elabori a coppie tutti gli addendi
da sommare. In tal caso, il numero di stati successivi `e circa pari a 1+log
2
(M) ed il
tempo di elaborazione diventa pari a (1+log
2
(M)): di conseguenza, la limitazione
precedente diventa meno stringente f
c
f

/(1 + log
2
(M)).
Con riferimento alla seconda struttura in gura 5.2, ancora dopo un intervallo pari
a tutte le moltiplicazioni sono realizzate in parallelo; tuttavia, dopo un tempo pari
a 2 tutte le addizioni sono state realizzate, luscita `e gi`a disponibile, tutte le altre
variabili di stato sono state correttamente calcolate. Pertanto, `e possibile inviare
limpulso che commuta alla successiva unit` a di tempo discreto. La limitazione
risulta pertanto: f
c
f

/2; al crescere di M, il vantaggio della seconda struttura


aumenta. Non appaiono altre dierenze in termini di altri parametri di qualit`a della
realizzazione. Si noti che a ciascun processore `e richiesta solo una moltiplicazione
ed una addizione (tranne che ad uno di essi) per ciascuna unit` a di tempo discreto,
pertanto `e anche possibile una implementazione che faccia uso di M moltiplicatori
ed M 1 addizionatori.
Un importante parametro di realizzazione `e anche il ritardo di implementazione.
In eetti, idealmente si vorrebbe che nello stesso istante di tempo i campioni di
ingresso e di uscita allistante discreto n siano disponibili. Tuttavia, non pu` o non
esistere un ritardo tra il momento in cui inizia lelaborazione e quello in cui `e
disponibile luscita corrispondente. Nel caso considerato tale ritardo vale (2M1)
per la struttura a singolo processore mentre vale M oppure 2 per ciascuna
delle due strutture in presenza di implementazione parallela. Si noti che quando
c Prof. Davide Mattera. 08/12/2011
5.2 Struttura a cascata 93
il ritardo di implementazione `e costante per ogni unit` a di tempo discreto, il vincolo
di tempo reale impone che esso sia inferiore alla durata 1/f
c
di ciascuna unit` a di
tempo discreto; tale condizione `e stata appena imposta per ottenere il vincolo sulla
frequenza di campionamento. In generale per`o tali concetti sono distinti; si individua
il ritardo tra listante in cui il primo ingresso viene immesso in ingresso al ltro e
quello in cui la prima uscita viene fornita in uscita dalla struttura; tale ritardo,
T

, rappresenta il ritardo di implementazione; esso rappresenta una traslazione


temporale tra lasse temporale analogico a cui si riferisce per campionamento il
segnale di ingresso e quello temporale analogico a cui si riferisce per campionamento
il segnale di uscita. In eetti, tali due assi temporali non sono introdotti ma
si continua a considerare un unico asse temporale siccome la traslazione T

`e
ridotta; tuttavia, in fase di realizzazione della struttura `e importante considerare il
parametro ottenuto per T

.
Viceversa, il tempo che trascorre tra listante in cui viene fornito ln-esimo
campione di uscita e listante in cui viene fornito l(n+1)-esimo campione di uscita
viene denotato con T
cc
; in generale `e possibile che T

T
cc
. In eetti il vincolo di
tempo reale impone che T
cc
1/f
c
e quasi sempre T
cc
1/f
c
. Pertanto specicare
la frequenza di campionamento specica il valore di T
cc
ma il valore di T

1/f
c
rappresenta un parametro dierente che specica un diverso requisito di qualit`a
della struttura e va in generale caratterizzato caso per caso. Nel caso specico
T

1/f
c
. Per apprezzare la dierenza tra i due parametri, si consideri lanalogia
tra i due parametri di qualit`a nella fornitura di un servizio di telecomunicazione:
ritardo di transito di un usso che attraversa la rete e suo ritmo binario.
5.2 Struttura a cascata
In tal caso si usa la seguente propriet` a della H(z):
H(z) = G
K

k=1
H
k
(z) (5.3)
dove K `e la parte intera di (M 1)/2
H
k
(z) = (1 z
k,1
z
1
)(1 z
k,2
z
1
) = b
k,0
+b
k,1
z
1
+b
k,2
z
2
(5.4)
dove linsieme degli zeri dei vari elementi della cascata deve coincidere con linsieme
degli zeri della struttura da realizzare. Pertanto il ltro complessivo `e realizzato
come cascata di K stadi dove ciascuno stadio pu` o essere realizzato per esempio
mediante una struttura in forma diretta.
`
E possibile fare in modo che b
k,0
sia
pari ad uno eccetto che in un solo stadio (per esempio, il primo o lultimo)
per controllare il guadagno di ampiezza G complessivo del ltro. In tal modo
ho circa due moltiplicazioni per stadio e circa M/2 stadi per cui la complessit`a
complessiva non `e signicativamente mutata e quindi la limitazione alla frequenza
di campionamento in una struttura a singolo processore non si `e signicativamente
c Prof. Davide Mattera. 08/12/2011
94 Realizzazione di un ltro FIR
modicata.
Quando si dispone di soli addizionatori e moltiplicatori reali e si sta realizzando
un ltro a coecienti reali `e opportuno distribuire in modo oculato gli zeri tra
i diversi elementi della struttura in modo che ciascun elemento della cascata sia
un ltro a coecienti reali. A tal ne, siccome il ltro `e a coecienti reali, sia z
k
che z

k
risultano zeri della struttura complessiva perch`e sono zeri di un polinonio
a coecienti reali. Si noti che se z
k
`e reale, questo non signica che lo zero reale
ha molteplicit` a doppia; tuttavia, in tal caso, il generico stadio della cascata ha
coecienti reali anche se non si usa una particolare accortezza nella scelta dei due
zeri ad esso assegnati purch`e entrambi reali; inoltre, anche un singolo zero reale pu` o
essere assegnato ad un singolo stadio - senza ledere al fatto che esso sia a coecienti
reali - e ci`o `e necessario quando il numero complessivo di zeri `e dispari. Se invece z
k
`e a valori complessi, allora assegnando z
k
e z

k
allo stesso elemento della struttura,
la trasformata zeta dello stadio a cui essi sono assegnati vale:
(1 z
k
z
1
)(1 z

k
z
1
) = 1 (z
k
+z

k
)z
1
+|z
k
|
2
z
2
= 1 2Re(z
k
)z
1
+|z
k
|
2
z
2
(5.5)
e dunque i coecienti della sua risposta impulsiva sono a valori reali.
Lo svantaggio fondamentale rispetto alla forma diretta `e nel ritardo di realiz-
zazione. Infatti, nella cascata di diverse strutture, il ritardo di implementazione
della struttura complessiva `e pari alla somma dei ritardi di implementazione dei
vari elementi della cascata mentre la frequenza di campionamento `e imposta da
quello che presenta il vincolo pi` u stringente. Nel caso specico qui considerato, cia-
scun elemento della cascata presenta un ritardo di implementazione pari a 3 se
realizzato a singolo processore e 2 se realizzato con parallelismo e lo stesso vin-
colo di tempo reale su tutti gli elementi della cascata. Pertanto, anche la cascata
presenta lo stesso vincolo di tempo reale a parit` a di soluzione adottata. Tuttavia,
il ritardo di implementazione della cascata diventa signicativamente pi` u elevato
se entrambe le soluzioni utilizzano parallelismo (infatti la struttura a cascata non
consente di trarre vantaggio da una struttura di calcolo in cui si possono realizzare
in parallelo le operazioni) mentre `e solo aumentato del 50 % in una elaborazione
a singolo processore; tale incremento di ritardo pu` o essere anche ulteriormente an-
nullato programmando in maniera oculata il software durante il transitorio iniziale,
eliminando quelle operazioni che sono rese inutili dal fatto che i registri di memoria
sono ancora nulli negli ultimi elementi della cascata. Il dettaglio della procedura
viene lasciato per esercizio.
Il vantaggio della soluzione a cascata rispetto a quella diretta (ed alle alter-
native introdotte in seguito) risulta nel miglioramento della sensibilit`a agli eetti
dellarrotondamento dei coecienti del ltro. Tale aspetto merita un esame det-
tagliato che questanno non ha trovato posto durante il corso; tale esame mostr-
erebbe che gli arrotondamenti possono spostare gli zeri del ltro, cos` come i poli di
una struttura ricorsiva e che la struttura in cascata riduce leetto di spostamento
degli zeri per eetto di un arrotondamento dei coecienti.
c Prof. Davide Mattera. 08/12/2011
5.3 Struttura con campionamento in frequenza 95
5.3 Struttura con campionamento in frequenza
In tale struttura appaiono come coecienti non i campioni b
n
della risposta
impulsiva ma quelli della sua DFT
B(k) =
M1

n=0
b
n
e
j2
kn
M
(5.6)
ovvero i campioni della trasformata di Fourier del ltro da realizzare, intercalati di
1/N nel dominio della frequenza numerica. Di conseguenza, i coecienti b
n
possono
essere scritti in termini dei coecienti B(k) attraverso lespressione della IDFT:
b
n
=
1
M
M1

k=0
B(k)e
j2
kn
M
(5.7)
La trasformata zeta del sistema FIR da realizzare si pu` o scrivere come segue:
B(z)

=
M1

=0
b

(5.8)
c Prof. Davide Mattera. 08/12/2011
96 Realizzazione di un ltro FIR
Usando la (5.7) nella (5.8) segue che
B(z) =
M1

=0
_
1
M
M1

k=0
B(k)e
j2
k
M
_
z

=
1
M
M1

k=0
B(k)
M1

=0
e
j2
k
M
z

=
1
M
M1

k=0
B(k)
M1

=0
_
e
j2
k
M
z
1
_

=
1
M
M1

k=0
B(k)
1
_
e
j2
k
M
z
1
_
M
1 e
j2
k
M
z
1
=
1
M
M1

k=0
B(k)
1 e
j2k
z
M
1 e
j2
k
M
z
1
=
1
M
M1

k=0
B(k)
1 z
M
1 e
j2
k
M
z
1
=
1 z
M
M
M1

k=0
B(k)
1 e
j2
k
M
z
1
(5.9)
Lespressione nale trovata per B(z) mostra che essa pu` o essere vista come
cascata di due termini, di cui il primo `e un ltro FIR mentre il secondo `e costituito
dal parallelo di M strutture. Ciascuna struttura `e costituita da un ltro IIR avente
la seguente risposta in frequenza
1
1 e
j2
k
M
z
1
(5.10)
e che quindi presenta il polo pari a e
j2
k
M
. Siccome la risposta nel dominio zeta `e
pari al rapporto
Y (z)
X(z)
dove si `e denotato con X(z) lingresso del sistema (5.10) ed
Y (z) la sua uscita:
Y (z)
X(z)
=
1
1 e
j2
k
M
z
1
(5.11)
che pu` o essere equivalentemente scritta nel modo seguente:
Y (z) = X(z) +e
j2
k
M
z
1
Y (z) (5.12)
La (5.12) conduce ovviamente allo schema realizzativo in gura 5.3. Utilizzando
c Prof. Davide Mattera. 08/12/2011
5.3 Struttura con campionamento in frequenza 97

z
1
e
j2
k
M
x(n) y(n)
Figure 5.3 Schema a blocchi corrispondente alla (5.12).
tale schema realizzativo per il generico elemento del parallelo, la struttura denita
dalla (5.9) diventa quella riportata in gura 5.4. Si noti che ciascun elemento del
parallelo `e costituito da un ltro ricorsivo del primo ordine, a valori complessi,
pesato da un campione della risposta in frequenza. Si noti anche che ciascun
elemento del parallelo `e instabile perch`e presenta un polo sul cerchio di raggio
unitario ma che la struttura complessiva `e stabile poich`e il primo elemento della
cascata ha M zeri e ogni zero cancella il polo in ciascun elemento del parallelo.
Infatti i diversi poli e
j2
k
M
per k {0, . . . , M1} di ciascun elemento del parallelo
rappresentano
1
proprio gli M zeri della trasformata zeta del primo stadio,
1z
M
M
.
Il vantaggio fondamentale della struttura proposta `e che essa non dipende dai
coecienti della risposta impulsiva b
n
ma dipende invece dai valori della sua DFT,
B(k). Quando il ltro da realizzare `e specicato nel dominio della frequenza, come
risultato di una qualsiasi procedura di progetto, si pu` o realizzarlo mediante la
struttura considerata usando come coecienti B(k) i campioni della risposta in
frequenza da realizzare con passo 1/M nellintervallo [0, 1) delle frequenze numeriche
F la trasformata di Fourier: F = k/M per k {0, 1, . . . , M 1}.
Se la risposta in frequenza data rappresenta la trasformata di un ltro FIR di
memoria minore o uguale a M 1, in tal caso si riesce a realizzare esattamente
la risposta in frequenza desiderata. In caso contrario, si riesce a realizzare una
struttura con una risposta in frequenza che coincide con quella desiderata nei
soli punti di campionamento mentre negli intervalli intermedi le due risposte in
frequenza sono dierenti.
`
E chiaro che aumentando M e quindi aumentando il carico computazionale
della struttura, si inttisce il campionamento (lintervallo della frequenza [0, 1] `e
campionato prendendo M campioni con passo 1/M) e quindi migliora la qualit`a
dellapprossimazione della risposta desiderata. Pertanto, tale struttura, pur essendo
generale (cio`e pu` o essere usata per realizzare un qualsiasi ltro FIR specicato
1. Si ricordi la formula di De Moivre oppure si noti che e
j2
k
M
elevato alla potenza M-
esima vale proprio uno per ogni k intero, che le quantit` a sono distinte tra loro per i diversi
k {0, 1, . . . , M 1} e che il polinomio z
M
1 non ha pi` u di M zeri.
c Prof. Davide Mattera. 08/12/2011
98 Realizzazione di un ltro FIR

z
1
e
j2
M1
M

z
1
e
j2
k
M

z
1
e
j2
0
M
+

y(n)
. . .
. . .
B(0)
B(k)
B(M 1)

z
M

1
M
x(n)

Figure 5.4 Schema a blocchi corrispondente alla (5.9).


tramite i coecienti B(k) o tramite i coecienti b
n
da cui mediante DFT si otten-
gono i coecienti della struttura), `e particolarmente indicata in corrispondenza di
un particolare problema di progetto: realizzare un ltro FIR che approssimi una
specicata risposta in frequenza. Tale vantaggio viene apprezzato pienamente solo
quando lo si possare confrontare (ed uno studente a questo punto non pu` o) con la
notevole complessit`a di altre procedure di progetto che consentono di determinare
i coecienti b
n
della risposta impulsiva del ltro FIR che costituisca una approssi-
mazione di ottima qualit`a alla risposta in frequenza desiderata.
Un ulteriore vantaggio di questa struttura `e dato dal fatto che, quando alcuni
campioni della DFT si presentano identicamente nulli (perch`e la risposta in fre-
quenza desiderata si presenta nulla su un intervallo di frequenza - si pensi al caso
in cui viene assegnata una risposta in frequenza desiderata di tipo passabasso o
passabanda), si ottiene un vantaggio computazionale perch`e il numero di rami nel
parallelo si riduce proporzionalmente alla frazione di campioni nulli nella DFT.
Siccome si procede a campionare la risposta in frequenza con passo 1/M, invece
di partire dalla frequenza zero proseguendo con passo 1/M ottenendo linsieme
di frequenze k/M per k {0, 1, . . . , M 1}, si pu` o procedere al campionamento
partendo dalla frequenza [0, 1/M), ottenendo linsieme di frequenze k/M +. I
campioni della risposta in frequenza (imposti alla struttura e coincidenti con quelli
c Prof. Davide Mattera. 08/12/2011
5.3 Struttura con campionamento in frequenza 99
della desiderata) cos` ottenuti sono
B

(k) =
_
M1

n=0
b
n
e
j2nF
_
|
F=
k
M
+
=
M1

n=0
b
n
e
j2
_
kn
M
+n
_
=
M1

n=0
_
b
n
e
j2n
_
e
j2
kn
M
= DFT
_
b
n
e
j2n
_
(5.13)
dove si `e denotato con B

(k) il campione della risposta in frequenza del ltro


realizzato per F = k/M +. Dalla (5.13) segue che
b
n
e
j2n
= IDFT[B

(k)] =
1
M
M1

k=0
B

(k)e
j2
kn
M
(5.14)
Da (5.14) segue che lespressione di b
n
in termini dei parametri B

(k) `e la seguente:
b
n
=
1
M
M1

k=0
B

(k)e
j2
_
kn
M
+n
_
=
1
M
M1

k=0
B

(k)e
j2n
_
k
M
+
_
(5.15)
c Prof. Davide Mattera. 08/12/2011
100 Realizzazione di un ltro FIR
Usando la (5.15) nella (5.8) segue che
B(z) =
M1

=0
_
1
M
M1

k=0
B

(k)e
j2(
k
M
+)
_
z

=
1
M
M1

k=0
B

(k)
M1

=0
e
j2(
k
M
+)
z

=
1
M
M1

k=0
B

(k)
M1

=0
_
e
j2(
k
M
+)
z
1
_

=
1
M
M1

k=0
B

(k)
1
_
e
j2(
k
M
+)
z
1
_
M
1 e
j2(
k
M
+)
z
1
=
1
M
M1

k=0
B

(k)
1 e
j2(k +M)
z
M
1 e
j2(
k
M
+)
z
1
=
1
M
M1

k=0
B

(k)
1 e
j2M
z
M
1 e
j2(
k
M
+)
z
1
=
1 e
j2M
z
M
M
M1

k=0
B

(k)
1 e
j2(
k
M
+)
z
1
(5.16)
Si noti come la relazione (5.16) coincide con la (5.9) quando = 0. Lo schema
diventa conseguentemente pari a quello riportato in gura 5.5.
Quando la risposta impulsiva `e a valori reali, si pu` o utilizzare la propriet` a di
simmetria hermitiana della trasformata di Fourier per dimezzare il numero di
elementi in parallelo, rendendoli tutti ltri ricorsivi a valori reali. Il prezzo da pagare
`e nel fatto che ciascun elemento del parallelo diventa del secondo ordine.
Passiamo inne al conteggio della complessit`a della struttura in gura (5.4).
Consideriamo dapprima il caso di struttura di calcolo a singolo processore: nel
primo stadio, occorre una moltiplicazione ed una sottrazione; in ciascun elemento
del parallelo occorre realizzare due moltiplicazioni ed una addizione e ci sono M
elementi nel parallelo; inne ci sono M1 addizioni nali (si tratta di una addizione
con M addendi che equivalgono ad M 1 addizioni con due addendi); inne, ce
da notare che alcuni elementi del parallelo potrebbero non essere presenti perch`e il
coeciente B(k) corrispondente potrebbe essere nullo, pertanto denotiamo con M
e
il numero di elementi non nulli nel parallelo. Complessivamente le operazioni da
svolgere sono 2+3M
e
+M
e
1 = 4M
e
2. Pertanto, la soluzione non `e competitiva
con quella diretta a meno che M
e
M/2.
Se si considera il caso di struttura di calcolo con molti processori in parallelo,
occorre attendere un tempo pari a 2 per avere il risultato in uscita dal primo stadio;
occorre ulteriormente attendere un tempo pari a 2 per avere luscita da tutti gli
elementi del parallelo. Inne occorre attendere un tempo circa pari a log
2
(M)
c Prof. Davide Mattera. 08/12/2011
5.4 Struttura a traliccio 101

z
1
e
j2(
M1
M
+)

z
1
e
j2(
k
M
+)

z
1
e
j2
+

y(n)
. . .
. . .
B(0)
B(k)
B(M 1)

z
M
e
j2M

1
M
x(n)

Figure 5.5 Schema a blocchi corrispondente alla (5.16).


per ottenere la somma nale del secondo stadio. Il tempo complessivo di attesa
risulta pari a 4 +log
2
(M
e
) e quindi la condizione da soddisfare `e f
c

f
4+log
2
(Me)
: Il
confronto `e di nuovo negativo se M
e
M. Pertanto, la struttura del campionamento
in frequenza viene preferita perch`e M
e
M oppure per semplicare il metodo di
progetto del ltro di cui `e specicata la risposta in frequenza desiderata.
5.4 Struttura a traliccio
`
E possibile usare la struttura a traliccio di cui si `e discusso ampiamente trattando la
predizione lineare. I vantaggi della struttura a traliccio sono notevoli quando si pensi
a realizzare la predizione lineare o altra applicazione per la quale vale la propriet` a
che lordine del ltro pu` o essere aggiornato aggiungendo un ulteriore stadio della
struttura senza modicare gli stadi precedentemente ssati. In generale per la gran
parte delle applicazioni tale propriet` a non vale. Inoltre, `e molto semplice invertire
un ltro quando esso sia stato realizzato con una struttura a traliccio.
5.5 Struttura basata su DFT
Per comprendere il funzionamento della struttura basata su DFT `e necessario
ricordare - ricordare per le parti gi`a studiate ed apprendere preliminarmente per
le parti non ancora studiate - il legame tra due importanti tipi di convoluzione, la
c Prof. Davide Mattera. 08/12/2011
102 Realizzazione di un ltro FIR
convoluzione lineare e la convoluzione circolare.
5.5.1 Convoluzione lineare
La convoluzione lineare tra due sequenze x(n) ed y(n) `e denita nel modo seguente:
z(n)

= x(n) y(n) =
+

m=
x(m)y(n m) =
+

m=
x(n m)y(m) (5.17)
Anch`e abbia senso la somma di convoluzione devono essere esclusi alcuni casi che
si limitano ad escludere il caso di due segnali di potenza e alcuni casi particolari
2
nel prodotto di convoluzione tra un segnale di energia ed uno di potenza.
Si dimostra che la trasformata di Fourier Z(F) del segnale z(n), denita nel modo
seguente
Z(F)

=
+

n=
z(n) exp(j2nF) (5.18)
`e pari al prodotto delle trasformate di Fourier dei due segnali x(n) ed y(n).
Infatti
Z(F)

=
+

n=
z(n) exp (j2nF)
=
+

n=
_
+

m=
x(m)y(n m)
_
exp (j2nF)
=
+

m=
x(m)
+

n=
y(n m) exp (j2nF)
=
+

m=
x(m)
+

n=
y(n) exp (j2(n +m) F)
=
+

m=
x(m) exp (j2mF)
+

n=
y(n) exp (j2nF)
=
_
+

m=
x(m) exp (j2mF)
__
+

n=
y(n) exp(j2nF)
_
= X(F)Y (F) (5.19)
2. Si immagini che uno sia un segnale di potenza e laltro di energia, in tal caso la somma
di convoluzione (in cui non `e presente lelevazione al quadrato della sequenza innitesima
come accade nella denizione di potenza) non `e garantita di convergere perch`e il segnale
di energia potrebbe convergere a zero con legge pi` u lenta - da lineare a quadratica - della
legge quadratica inversa che garantisce la convergenza della somma di convoluzione.
c Prof. Davide Mattera. 08/12/2011
5.5 Struttura basata su DFT 103
5.5.2 Convoluzione circolare
Si considerino due sequenze x(n) e y(n) che sono nulle rispettivamente esternamente
allintervallo [0, L
x
1]) ed [0, L
y
1].
Si consideri la convoluzione circolare x
c
(n) tra x(n) e y(n) denita come la
restrizione allintervallo [0, N 1] di z(n):
x
c
(n) = u
N
(n) z(n) (5.20)
in cui u
N
(n) vale uno per n {0, 1, . . . , N 1} e zero altrimenti e z(n) `e denita
come segue:
z(n)

= x
N
(n) y(n) =
_
+

k=
x(n kN)
_
y(n)
=
+

k=
[x(n kN) y(n)] =
+

k=
z(n kN) (5.21)
dove denota la convoluzione lineare e
z(n)

= x(n) y(n) =
Lx1

m=0
x(m)y(n m) =
Ly1

m=0
x(n m)y(m) (5.22)
Si noti che la convoluzione lineare z(n) `e nulla esternamente allintervallo (0, L
z
1)
dove L
z
= L
x
+L
y
1.
Il segnale z(n) `e un segnale periodico; infatti, la (5.21) mostra che esso `e ottenuto
come replicazione di passo N di un suo generatore z(n). Inoltre, la (5.22) mostra
che uno dei generatori di z(n) `e proprio la convoluzione lineare tra x(n) ed y(n).
La convoluzione circolare `e pertanto denita come la restrizione al primo pe-
riodo (ottenuta formalmente usando il fattore u
N
(n)) del segnale periodico z(n).
Pertanto, anche x
c
(n) `e un generatore di z(n).
La convoluzione lineare e la convoluzione circolare sono due generatori di uno
stesso segnale periodico. Questo ha due conseguenze importanti:
le due convoluzioni coincidono quando L
z
N: infatti, dato un segnale periodico
di periodo N, un suo generatore, la cui durata sia minore o uguale a N, coincide
necessariamente con la restrizione (del segnale periodico) al primo periodo. In caso
contrario, quando N < L
z
, la restrizione al primo periodo x
c
(n) non coincide
col generatore di lunghezza L
z
poich`e la restrizione al primo periodo `e ottenuta
sommando alcune repliche di tale generatore.
le due convoluzioni, in quanto entrambi generatori di uno stesso segnale periodico,
hanno la stessa risposta in frequenza nei multipli di 1/N. Infatti, per la formula di
Poisson, il coeciente di Fourier c
z
(k) del segnale periodico z(n) pu` o essere valutato
mediante la formula di Poisson usando uno qualsiasi dei due generatori:
c
z
(k) =
1
N
Z(F)|
F=
k
N
=
1
N
X
c
(F)|
F=
k
N
(5.23)
c Prof. Davide Mattera. 08/12/2011
104 Realizzazione di un ltro FIR
dove Z(F) e X
c
(F) denotano le trasformate di Fourier di z(n) e x
c
(n) rispettiva-
mente.
Dalla (5.23) e tenendo conto della ben nota (5.19) si ottiene che
W = X Y (5.24)
dove denota il prodotto componente per componente, W

= DFT
N
[x
c
(n)],
X = DFT
N
[x(n)], Y = DFT
N
[y(n)] e DFT
N
[] denota la DFT su N punti del
segnale x(n):
X

= [X
0
X
1
. . . X
N1
] = DFT
N
[x(n)] X
k
=
N1

n=0
x(n) exp
_
j2
k n
N
_
(5.25)
Infatti il vettore X contiene i campioni della risposta in frequenza X(F)|
F=
k
N
ed Y
i campioni della risposta in frequenza Y (F)|
F=
k
N
purch`e N sia maggiore (o uguale)
sia di L
x
sia di L
y
. Inoltre, certamente W contiene di campioni della risposta in
frequenza X
c
(F)|
F=
k
N
.
Equivalentemente, usando le ben note propriet` a della DFT
N
e della sua inversa,
si pu` o riscrivere la (5.24) nel modo seguente
x
c
(n) = IDFT
N
[X Y] (5.26)
dove IDFT
N
[X] denota la IDFT su N punti del vettore X

= [X
0
X
1
. . . X
N1
]:
x(n) = IDFT
N
[X] x(n) =
1
N
N1

k=0
X
k
exp
_
j2
k n
N
_
(5.27)
La relazione (5.26) consente di calcolare con minima complessit`a computazionale
la convoluzione circolare tra due sequenze x(n) ed y(n); inoltre, quando N L
z
e
pertanto le due convoluzioni coincidono, la (5.26) diventa un metodo per calcolare
a minima complessit`a la convoluzione lineare. Siccome N `e un parametro della
convoluzione circolare, si pu` o sempre sceglie N sucientemente elevato in modo
che le due convoluzioni coincidono e la (5.26) diventi un metodo per calcolare la
convoluzione lineare.
Una variante pi` u sosticata di tale problema `e quella in cui siamo interessati
non a calcolare tutta la convoluzione lineare ma solo i suoi valori nellintervallo
(M
a
, M
b
) dove M
a
> 0 ed M
b
< L
z
1. In tal caso, occorre vericare se
nellintervallo di interesse c`e coincidenza tra il generatore del segnale periodico (che
`e la convoluzione lineare e si estende nellintervallo [0, L
z
1]) e la sua restrizione
al primo periodo; occorre prima di tutto imporre che linstante M
b
non sia uscito
dallintervallo [0, N 1] in cui si ottiene la restrizione al primo periodo; pertanto
la prima condizione `e che M
b
N 1 ovvero N M
b
+1; inoltre `e necessario che
non ci sia sovrapposizione tra diverse repliche nellintervallo di interesse. Siccome
la prima replica occupa lintervallo [0, L
z
1], la sua replica successiva verso
destra occupa lintervallo [N, N + L
z
1] e pertanto la condizione precedente
c Prof. Davide Mattera. 08/12/2011
5.5 Struttura basata su DFT 105
M
b
N 1 implica che tale replica non incide sullintervallo desiderato. La replica
analoga verso sinistra occupa lintervallo [N, N + L
z
1] e pertanto non c`e
interferenza con lintervallo desiderato purch`e N+L
z
1 < M
a
o equivalentemente
N > L
z
M
a
1 o equivalentemente N L
z
M
a
. Pertanto, il periodo N andr` a
scelto secondo la regola seguente N max(M
b
+ 1, L
z
M
a
) o equivalentemente
N max(M
b
+ 1, L
x
+L
y
M
a
1). Si ritorna al caso generale in cui si desidera
ottenere tutta la risposta di convoluzione quando M
a
= 0 e M
b
= L
z
1, ritornando
alla regola precedente N L
z
.
Il problema duale si pone quando si vuole realizzare la convoluzione circo-
lare usando la convoluzione lineare in modo da semplicare lespressione della
DFT delluscita. In tal caso la relazione (5.21) imporrebbe di trovare prima la
convoluzione lineare x
N
(n) y(n) e successivamente nestrare tale convoluzione
allintervallo [0, N1]. Tuttavia, in vista della successiva nestrazione non `e oppor-
tuno calcolare tutta la convoluzione lineare ma solo i valori nellintervallo [0, N1].
I valori in tale intervallo non sono modicati se il primo fattore viene modicato
annullando tutti i suoi valori per n L
y
e per n N. Se N `e maggiore delle
lunghezze L
x
ed L
y
, occorre in pratica convolvere y(n) con la sequenza x(n) oppor-
tunamente riempita nellintervallo (L
y
+1, . . . , 1) dai valori (usualmente indicati
col nome di presso ciclico) che essa assume nellintervallo (N L
y
+1, . . . , N 1),
cio`e dagli ultimi L
y
1 valori assunti dal segnale x(n) nellintervallo (0, N 1).
5.5.3 Strutture veloci per il calcolo della DFT
Lalgoritmo FFT con decimazione nel tempo `e lunico algoritmo veloce per il calcolo
della DFT di cui ci occuperemo. Si consideri la sequenza x(n) con N valori diversi
c Prof. Davide Mattera. 08/12/2011
106 Realizzazione di un ltro FIR
da zero; la sua DFT si scrive come segue:
X(k) = DFT
N
[x(n)]
=
N1

n=0
x(n) exp
_
j2
nk
N
_
=
N
2
1

n=0
x(2n) exp
_
j2
2nk
N
_
+
N
2
1

n=0
x(2n + 1) exp
_
j2
(2n + 1)k
N
_
=
N
2
1

n=0
x(2n) exp
_
j2
2nk
N
_
+ exp
_
j2
k
N
_
N
2
1

n=0
x(2n + 1) exp
_
j2
2nk
N
_
=
N
2
1

n=0
x(2n) exp
_
j2
nk
N/2
_
+ exp
_
j2
k
N
_
N
2
1

n=0
x(2n + 1) exp
_
j2
nk
N/2
_
=
N
2
1

n=0
x
0
(n) exp
_
j2
nk
N/2
_
+ exp
_
j2
k
N
_
N
2
1

n=0
x
1
(n) exp
_
j2
nk
N/2
_
= DFT[x
o
(n)] + exp
_
j2
k
N
_
DFT[x
1
(n)]
= X
0
(k) + exp
_
j2
k
N
_
X
1
(k) k {0, 1, . . . , N 1} (5.28)
dove si `e denito x
0
(n)

= (2n) ed x
1
(n)

= x(2n + 1); si noti che x
0
(n) sono
le due sequenze di lunghezza N/2 ottenute decimando con passo due la sequenza
originaria. Si `e inoltre denito
X
o
(k)

=
N
2
1

n=0
x
0
(n) exp
_
j2
nk
N/2
_
= DFT[x
o
(n)] (5.29)
X
1
(k)

=
N
2
1

n=0
x
1
(n) exp
_
j2
nk
N/2
_
= DFT[x
1
(n)] (5.30)
periodiche di periodo N/2, pertanto basta calcolarne il valore per k {0, 1, . . . , N/2
1} con la DFT su N/2 punti per avere anche i valori k {N/2, . . . , N 1}. La
relazione (5.28) ci dice che si pu` o calcolare la DFT su N punti calcolando 2 DFT su
N/2 punti e facendone la combinazione specicata (5.28). Analogamente, la (5.28)
ci dice anche che si pu` o ottenere una DFT su N/2 punti facendo due DFT su N/4
punti e combinandole opportunamente. Supponendo che N sia una potenza di due
questa operazione pu` o essere reiterata no a giungere alla DFT su un solo punto,
che lascia inalterata il valore di ingresso.
Pertanto, lasciando inalterati i valori di ingresso si fanno le N DFT su singoli
punti, combinandoli a due a due tramite la (5.28) si fanno N/2 DFT su due punti,
c Prof. Davide Mattera. 08/12/2011
5.5 Struttura basata su DFT 107
mediante quella che viene denita struttura a farfalla:
_
_
_
X(k) = X
0
(k) + exp
_
j2
k
N
_
X
1
(k)
X(k +N/2) = X
0
(k) + exp
_
j2
k+N/2
N
_
X
1
(k)
k {0, 1, . . . ,
N
2
1}
(5.31)
_
_
_
X(k) = X
0
(k) + exp
_
j2
k
N
_
X
1
(k)
X(k +N/2) = X
0
(k) + exp
_
j2
k
N
_
exp
_
j2
N/2
N
_
X
1
(k)
k {0, 1, . . . ,
N
2
1}
(5.32)
_
X(k) = X
0
(k) + exp
_
j2
k
N
_
X
1
(k)
X(k +N/2) = X
0
(k) + exp
_
j2
k
N
_
exp (j) X
1
(k)
k {0, 1, . . . ,
N
2
1}
(5.33)
_

_
X(k) = X
0
(k) +W
k
X
1
(k)
X(k +N/2) = X
0
(k) W
k
X
1
(k)
W
k
= exp
_
j2
k
N
_
k {0, 1, . . . ,
N
2
1} (5.34)
In questo primo stadio ci saranno N/2 farfalle. Combinando coppie di DFT su due
punti si ottengono le N/4 DFT su quattro punti, ciascuna combinazione richiede due
farfalle e ci sono N/4 combinazioni per cui sono richieste N/2 farfalle. Combinando
coppie di DFT su quattro punti si ottengono le N/8 DFT su otto punti, ciascuna
combinazione richiede quattro farfalle e ci sono N/8 combinazioni da svolgere per cui
sono richieste N/2 farfalle. Combinando coppie di DFT su otto punti si ottengono
le N/16 DFT su sedici punti, ciascuna combinazione richiede otto farfalle e ci sono
N/16 combinazioni da svolgere per cui sono richieste N/2 farfalle.
In denitiva, ogni stadio richiede N/2 farfalle e ciascuna farfalla di ogni stadio pu` o
operare parallelamente alle altre; il numero di stadi richiesti `e pari a log
2
N: infatti
il primo stadio consente di passare dalla DFT su un punto a quelle su due punti; il
secondo stadio consente di passare da quelle su due punti a quelle su quattro punti;
il terzo stadio consente di passare da quelle su quattro punti a quelle su otto punti.
Ogni farfalla svolge esattamente tre operazioni (due addizioni ed una moltipli-
cazione) per cui il numero di operazioni da svolgere `e pari a 3(N/2) log
2
(N) =
3
2
N log
2
(N), che, assumendo 6 ops reali per ogni moltiplicazione complessa e 2
ops per ogni addizione complessa, risulta pari a (6
1
2
+2)N log
2
(N) = 5N log
2
(N).
Questo `e sostanzialmente il contributo fondamentale di Cooley e Tukey, detto oggi
radix-2, del 1965. Molte altre varianti pi` u ecienti di tale algoritmo fondamentale
sono state sviluppate in seguito. Gi`a tre anni dopo si era giunti con lalgoritmo
detto split-radix ad un coeciente 4, che per quarantanni `e rimasto insuperato ed
`e stato ridotto un paio di anni fa a 34/9 (anche se la formula si complica per la
presenza di altri fattori).
c Prof. Davide Mattera. 08/12/2011
108 Realizzazione di un ltro FIR
5.5.4 Le due strutture overlap
Il segnale di ingresso di potenza x(n) si pu` o riscrivere nel modo seguente:
x(n) =
+

k=
x
k
(nkN) x
k
(n) =
_
x(n +kN) n {0, 1, 2, . . . , N 1}
0 n / {0, 1, 2, . . . , N 1}
(5.35)
Pertanto il segnale di partenza viene scritto come la successione, al variare di k, di
tanti blocchi x
k
(n) di lunghezza N.
Luscita del nostro ltro, avente risposta impulsiva h(n) nulla per n / {0, 1, . . . , M},
si pu` o scrivere come
z(n) = x(n) h(n)
=
_
+

k=
x
k
(n kN)
_
h(n)
=
+

k=
[x
k
(n kN) h(n)]
=
+

k=
y
k
(n kN) (5.36)
dove
y
k
(n)

= x
k
(n) h(n) (5.37)
Si noti che, siccome x
k
(n) `e diversa da zero in [0, N 1] ed h(n) `e diversa da
zero in [0, M], y
k
(n) `e diversa da zero in [0, L
y
1] dove L
y
= N + M. Dunque,
y
k
(n) pu` o essere calcolata mediante trasformazione DFT di x
k
(n), moltiplicazione
componente per componente con la DFT di h(n), calcolata una volta per tutte,
ed inne IDFT del risultato. Si noti che si richiedono almeno N + M punti per le
operazioni di DFT ed IDFT per fare in modo che convoluzione circolare e lineare
coincidano; siccome il segnale di ingresso x
k
(n) ha lunghezza N, esso dovr` a essere
allungato con M zeri nella parte nale prima di operare la DFT.
A partire da y
k
(n), il segnale complessivo pu` o essere ottenuto sommando le varie
repliche, ciascuna traslata di kN. Si noti che y
k
(n) eccede di M la lunghezza N;
pertanto, la nestra di uscita di lunghezza N + M si prolunga nella successiva
nestra di ingresso di lunghezza N della quantit` a M e su di essa per i primi M
campioni si prolungano gli eetti della nestra di uscita precedente. Pertanto, la
sommatoria in (5.36) non comprende inniti termini ma un solo termine se esso non
`e tra i primi M o gli ultimi M della nestra di uscita oppure comprende solo due
addendi (la parte nale della nestra precedente e la parte iniziale della nestra
successiva). In altri termini luscita di lunghezza N + M alla nestra di ingresso
di lunghezza N non viene data tutta in uscita; la parte nale di M campioni
viene conservata per essere sommata alla parte iniziale della nestra di uscita
successiva; la parte iniziale di lunghezza M viene sommata alla porzione nale -
c Prof. Davide Mattera. 08/12/2011
5.5 Struttura basata su DFT 109
opportunamente conservata - della nestra di uscita precedente. Tale metodo viene
detto overlap & add.
Il metodo precedente richiede una memoria di ampiezza M in cui conservare la
parte nale della nestra di uscita della DFT. Una alternativa consiste nellallungare
la nestra di ingresso del segnale x
k
(n) di lunghezza N con gli M valori precedenti
del segnale di ingresso x(n), ottenendo pertanto blocchi x
k
(n) di lunghezza pari ad
N +M.
x
k
(n) =
_
x(n +kN) n {M, . . . , 1, 0, 1, . . . , N 1}
0 n / {M, . . . , 1, 0, 1, . . . , N 1}
(5.38)
Si noti che ora non vale pi` u la formula x(n) =

+
k=
x
k
(n kN).
Quando si va a calcolare
y
k
(n M)

= x
k
(n M) h(n) (5.39)
si deve notare che
il segnale x
k
(nM) `e diverso da zero solo se n {0, 1, . . . , N+M1}; i suoi valori
possono pertanto essere contenuti in una nestra di ampiezza N + M. Il segnale
x
k
(n M) h(n) ha lunghezza N +2M e pertanto pu` o essere calcolato mediante
DFT se essa opera su N+2M punti dopo aver praticato lo zero-lling di M zeri della
sequenza di N+M valori non nulli di x
k
(n); in altri termini, si resta apparentemente
costretti a fare comunque lo zero lling con gli M valori nali e si aggiungono anche,
in testa alla nestra, gli ultimi M valori della nestra di ingresso precedente. Dopo
aver calcolato il risultato nale che compare in un vettore di ampiezza N + 2M,
si ottiene il risultato nale tenendo presente che la prima componente del vettore
nale corrisponde alluscita allistante M del segnale y
k
(n), lultima componente
del vettore nale corrisponde alluscita allistante N +M 1 del segnale y
k
(n).
si noti, tuttavia, che i primi M valori della nestra duscita non contengono il
risultato esatto della convoluzione nale ma devono essere corretti per il risultato
degli ultimi M valori delluscita precedente. Pertanto, siccome la nestra di uscita
ha ora lunghezza N +2M, i primi M non sono direttamente esatti, gli N intermedi
sono gi`a corretti e non vanno corretti oltre, gli ultimi M andrebbero conservati per
correggere i primi M della nestra di uscita successiva. Tuttavia, ora le nestre di
uscita sono lunghe N + 2M ma sono sempre traslate di N tra loro; i primi M si
sovrappongono nel tempo agli ultimi M degli N gi`a corretti del blocco precedente
e gli ultimi M si sovrappongono ai primi M degli N gi`a corretti. Il risultato `e che i
blocchetti iniziali e nali da correggere si sovrappongono temporalmente a porzioni
gi`a corrette del blocco, che non hanno bisogno di essere corretti e che oltretutto non
costituiscono i blocchi adatti alla correzione. In altri termini, della nestra di uscita
di ampiezza N + 2M occorre buttare via gli M iniziali e gli M nali e conservare
come corretti e denitivi gli N centrali, ai quali seguiranno, nel segnale nale di
c Prof. Davide Mattera. 08/12/2011
110 Realizzazione di un ltro FIR
uscita, gli N centrali della nestra di uscita successiva.
siccome nella convoluzione x
k
(n M) h(n), diverso da zero per n {0, N +
2M1}, non siamo interessati ai primi M ed agli ultimi M valori della convoluzione,
si applicano i risultati stabiliti al paragrafo precedente, dove ora L
z
= N + 2M,
M
a
= M (siccome i primi M nellintervallo [0, M 1] non sono di interesse) ed
M
b
= N + M 1 (siccome gli ultimi M nellintervallo [N + M, n + 2M 1] non
sono di interesse). Come visto nel paragrafo precedente, `e dunque suciente che il
numero di punti su cui si calcola la DFT sia pari a
max(M
b
+1, L
z
Ma) = max((N +M1) +1, (N +2M) M) = N +M (5.40)
Pertanto, se `e necessario operare con la DFT su N+M punti, i blocchi di ingresso
non dovranno essere caricati con lo zero-lling di M zeri nali; inoltre, gli N+M
punti ottenuti rappresentano una restrizione al primo periodo di lunghezza N+M
della convoluzione lineare di lunghezza N+2M usato come generatore di un segnale
periodico mediante replicazione di passo N + M; pertanto, i primi M campioni
saranno la somma dei primi M campioni e degli ultimi M campioni del blocco di
uscita da N + 2M punti di cui al punto precedente si `e detto che fosse necessario
conservare solo gli N valori interni. Risulta di conseguenza che, operando con N+M
punti, basta scartare i primi M valori e conservare gli ultimi N che coincidono con
il blocco di N centrale quando si opera con la DFT su N + 2M punti.
Il vantaggio di tale struttura, detta overlap & save, `e nella drastica riduzione del
numero di ops rapportati al numero di campioni di uscita ottenuti e, quindi, in
un drastico rilassamento della limitazione alla frequenza di campionamento nella
realizzazione a singolo processore; in particolare, tale limitazione risulta non pi` u
inversamente proporzionale ad M ma al logaritmo di M. Tuttavia, a causa del
numero di operazioni accessori di trasformazione tra i due dominii, tale convenienza
non si palesa no a che il valore di M non supera il valore 64. Inoltre, tale vantaggio
non si presenta in una realizzazione con parallelismo.
Si consideri infatti il caso overalap & add, occorre caricare gli N valori di x
k
(n) in
ingresso alla DFT; pertanto, occorre attendere un tempo pari ad N/f
c
per caricare
gli ingressi della DFT. Il numero di ops richiesto per realizzare loperazione di
DFT `e pari a
3
2
(N + M) log
2
(N + M) e dunque il tempo necessario a svolgere le
tre operazioni (FFT, prodotto, IDFT) risulta pari a
(3(N +M) log
2
(N +M) +N +M)
Dopo tale tempo non pu` o essere presentato il segnale di uscita - poich`e i primi M
istanti di tempo vanno anche sommati a quelli gi`a memorizzati - e pertanto occorre
attendere un tempo ulteriore pari a M. A questo punto possono essere forniti N
campioni di uscita. Pertanto il tempo necessario a fare i calcoli necessari a fornire gli
N campioni di uscita deve essere inferiore a quello necessario a caricare i successivi
c Prof. Davide Mattera. 08/12/2011
5.5 Struttura basata su DFT 111
N campioni di ingresso:
(3(N +M) log
2
(N +M) +N +M) +M
N
f
c
(5.41)
o, equivalentemente,
f
c

N
(3(N +M) log
2
(N +M) +N +M) +M
=
f

3(1 +) log
2
(M(1 + 1/)) + 1 + 2
(5.42)
dove

=
M
N
. Occorre confrontare il risultato in (5.42) con quello trovato per la
soluzione diretta con struttura a singolo processore f
c
f

/M. Si vede come, al


crescere di M, la struttura con DFT consenta di raggiungere frequenze di campio-
namento pi` u elevate. Tuttavia, per M = 16, anche giocando con il valore di , non
si riesce a rendere il denominatore pi` u piccolo di 25 e quindi la struttura proposta
non `e migliore di quella diretta (in termini di frequenza di campionamento che riesce
a conseguire). Per M = 32, scegliendo N = 256 si ottiene un denominatore pari a
28.8; quindi, un leggero miglioramento (rendendo per`o, come descritto nel seguito)
sedici volte maggiore il ritardo massimo di implementazione); scegliendo solo N=64
(si quadruplica solo il tempo massimo di ritardo), si ottiene un denominatore pari
a 31.6.
Solo a partire da M = 64 si inizia a vedere un reale miglioramento, ssando
N=128 si ottiene un denominatore pari a 36.1 (cio`e si raddoppia quasi la frequenza
di campionamento); ssando N=256 (si incrementa di otto volte il massimo ritardo
di realizzazione), il denominatore diventa 32.07, e quindi si raddoppia la frequenza
di campionamento.
Occorre anche eettuare il confronto nel caso multiprocessore: la limitazione della
struttura in forma diretta (f
c
f

/2) `e superiore a quella con DFT. Infatti in


una struttura multiprocessore, la realizzazione della DFT richiede un tempo 2
per ognuno dei log
2
(N +M) stadi della IDFT e della DFT. Si ottiene pertanto un
tempo di elaborazione pari a (4 log
2
(N+M)+2); il vincolo di tempo reale impone
dunque
(4 log
2
(N +M) + 2)
N
f
c
(5.43)
o, equivalentemente,
f
c

N
(4 log
2
(N +M) + 2)
=
Nf

2(2 log
2
(N +M) + 1)
(5.44)
Si vede anche in questo caso il vantaggio di questa struttura siccome al crescere del
numero di punti su cui si eettua la DFT si ottiene un innalzamento della frequenza
di campionamento a cui si pu` o operare.
Lo svantaggio, che - se non erro - non appare nei testi consigliati come nella
maggior parte dei testi, `e nel fatto che il ritardo di realizzazione non appare
trarre vantaggio dalla soluzione adottata, addirittura esso nisce per incrementarsi.
Infatti, dal momento in cui viene ricevuto il primo campione della DFT, a quello
c Prof. Davide Mattera. 08/12/2011
112 Realizzazione di un ltro FIR
in cui viene fornito in uscita il blocco di N campioni, trascorre un tempo pari
a (N 1)/f
c
per memorizzare gli altri N 1 elementi della DFT, un tempo
(specicato in dettaglio prima con riferimento sia al caso di singolo processore che
multiprocessore) per realizzare le operazioni richieste dalla struttura; questo ultimo
tempo `e imposto essere minore di N/f
c
dal vincolo di tempo reale e praticamente
uguale ad N/f
c
al ne di non limitare inutilmente f
c
. Pertanto, il tempo di ritardo a
cui va incontro il primo campione che carica la DFT `e pari a (2N 1)/f
c
, lultimo
campione della DFT va incontro ad un ritardo minore pari ad N/f
c
. Pertanto,
il ritardo di implementazione cresce corrispondentemente con N; la crescita del
ritardo con N `e in parte compensata dal fatto che f
c
si incrementa al crescere
di N. Lanalisi svolta per il ritardo di implementazione `e valida sia per il caso a
singolo processore che per quello multiprocessore; cambia solo la diversa dipendenza
di f
c
da N; nel caso multiprocessore, N/f
c
`e praticamente espresso dal primo
membro della (5.43) e, nel caso a singolo processore, dal primo membro della
(5.41) siccome la disuguglianza `e tipicamente soddisfatta quasi con uguaglianza.
Si noti che mentre nel caso multiprocessore il ritardo cresce lentamente con N,
il caso a singolo processore `e molto pi` u svantaggioso siccome il ritardo presenta
un termine di crescita lineare con N. Si noti che in ogni caso, per la struttura
multiprocessore, il numero di moltiplicatori ed addizionatori richiesti (e quindi
lassorbimento energetico dellelaboratore) cresce linearmente con N.
Si lascia per esercizio svolgere lanalisi della struttura overlap & save.
c Prof. Davide Mattera. 08/12/2011
5.5 Struttura basata su DFT 113
Letture consigliate
[1] J. Proakis, Manolakis, Digital Signal Processing
[2] S. Haykin, Adaptive Filter Theory
[3] N. Wiener, I am a mathematician
[4] S. Johnson, M. Frigo, A modied split-radix FFT with fewer arithmetic
operations, IEEE Trans. on Signal Processing, vol. 55, n. 1, pagg. 111-119, 2007.