Sei sulla pagina 1di 301

Sistemi di Elaborazione per la Musica

Dispense del corso

Marzo 2000

Indice
Capitolo 1 - Musica informatica e teoria musicale
1.1 - Dalla musica elettronica alla musica informatica
1.2 - Musica informatica
1.3 - La notazione musicale

Allegati - Capitolo 1
- MIDI
- La notazione musicale tradizionale

Capitolo 2 - Elementi di acustica e di psicoacustica


2.1 - Acustica: introduzione
2.2 - Oscillazioni e onde
2.3 - Inviluppo dei suoni
2.4 - Propagazione del suono
2.5 - Intensit del suono
2.6 - Psicoacustica: introduzione
2.7 - Caratteristiche fisiche del suono e sensazioni uditive
2.8 - Lorgano delludito
2.9 - Sovrapposizione di suoni puri
2.10 - Elaborazione dello stimolo uditivo nel sistema nervoso
2.11 - Misure di intensit acustica
2.12 - Mascheramento dei suoni
2.13 - La percezione del timbro

Capitolo 3 - Modelli dellinterpretazione musicale


Allegati - Capitolo 3
- Analisi dellinterpretazione - parte I
- Analisi dellinterpretazione - parte II
- Analysis by synthesis of the expressive intentions in musical performance

Capitolo 4 - Analisi ed elaborazione del suono


4.1 - Analisi di Fourier
4.2 - Short Time Fourier Transform (STFT)
4.3 - Il modello sinusoidale
4.4 - Fondamenti matematici per lelaborazione del suono

Allegati - Capitolo 4
- Musical sound modeling with sinusoids plus noise
- Elaborazione del suono

Capitolo 5 - Sintesi dei segnali audio


5.1 - Introduzione
5.2 - Metodi di generazione diretta
5.3 - Sintesi non lineari
5.4 - Sintesi per modelli fisici
5.5 - Modelli per la sintesi dei segnali di controllo

Capitolo 6 - Effetti audio digitali


6.1 - Introduzione
6.2 - Effetti tradizionali
6.3 - Riverbero
6.4 - Spazializzazione
6.5 - Appendice: percezione di eventi spaziali

Capitolo 7 - Sintesi per modelli fisici


7.1 - Introduzione
7.2 - Elementi concentrati: modelli a tempo continuo
7.3 - Elementi concentrati: metodi numerici
7.4 - Elementi distribuiti: lapproccio waveguide
7.5 - Un esempio completo: il clarinetto

Allegati - Capitolo 7
- Physically based sound modeling
- Acoustic modeling using digital waveguides

Capitolo 1

Musica Informatica e Teoria Musicale


Alvise Vidolin
Copyright c 1999 by Alvise Vidolin. All rights reserved.

1.1
1.1.1

Dalla musica elettronica alla musica informatica


Introduzione

Sotto il termine musica elettronica vengono spesso raggruppate esperienze musicali molto diverse
fra loro: diverse come linguaggio musicale, metodologia compositiva, concezione estetica, organico di apparecchiature e strumenti impiegati, tecnica esecutiva, scelta di pubblico e funzione sociale
della musica, scelta del luogo e dello spazio di ascolto, ecc. Tali esperienze, comunque, trovano
un denominatore comune nellutilizzazione dei mezzi elettroacustici e nellaccettazione del pensiero
tecnologico-scientifico come supporto concettuale alla realizzazione dell opera per diventare talvolta
fonte di stimoli prettamente musicali. La musica elettronica, comunque, non nasce tanto per la spinta
egemonica della cultura scientifica rispetto a quella umanistica, quanto per un processo di convergenza che maturato nel corso della prima met del novecento e che ha cominciato a dare i primi frutti nel
secondo dopoguerra. Gi alla fine del secolo scorso troviamo in maniera sempre pi frequente accavallarsi visioni profetiche, dimostrazioni scientifiche, sperimentazioni musicali, innovazioni tecnologiche, esposizioni di esigenze, azzeramenti e formulazioni di nuove teorie che si possono considerare
le premesse allesperienza elettronica.

1.1.2

Musica concreta e musica elettronica

dagli anni 50, comunque, che si comincia a parlare di musica concreta, musica elettronica, tape
music. I luoghi di nascita sono Parigi, Colonia, alcuni centri dellAmerica, seguiti da numerosi altri
Studi che, spesso allinterno di emittenti radiofoniche, continuano tale esperienza apportando, com
il caso dello Studio di Fonologia della Rai di Milano, un contributo originale e determinante. A Parigi, rifacendosi alle proposte di Russolo e di Varese, si elabora elettronicamente qualsiasi materiale
sonoro preesistente, sia rumore che musica tradizionale, per costruire, con una tecnica che sa molto
del collage, opere musicali definite concrete che segnano un primo momento di rottura con il processo
evolutivo della musica occidentale, basata essenzialmente sul controllo dei parametri altezza e durata.
1.1

1.2

CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE

A Colonia viene rivolta lattenzione esclusivamente ai mezzi elettronici, con un rigore che deriva da
un lato da Schoemberg e Webern e dallaltro dalla prassi della ricerca scientifica. Pi che arrivare alla
musica attraverso una "selezione" (dal rumore), si preferito determinarla per mezzo della "costruzione", partendo dallonda sinusoidale ed agendo con una mentalit totalmente strutturalista. Queste
impostazioni opposte, e in un certo senso complementari di Colonia e Parigi, sono presenti negli studi
che sorgono negli anni successivi in Europa e nel mondo, trovando spesso anche un giusto equilibrio
e un naturale sviluppo. In questi anni il compositore lavora artigianalmente operando soprattutto con i
magnetofoni, mediante tagli di nastro, sovrapposizioni di eventi sonori con successivi missaggi, variazioni di velocita dello scorrimento del nastro, ecc. Gli elettronici puri ottengono il materiale sonoro da
pochi generatori di forme donda o dal rumore bianco. I concretisti lo ottengono soprattutto mediante
registrazione con microfono. In generale manca un sistema di notazione musicale in quanto non
necessario eseguire pi volte lopera, fissata una volta per tutte su nastro magnetico. Ci che Edgar
Varese auspicava nel 1922, "Il compositore ed il tecnico dovranno lavorare insieme", finalmente si
realizza. Inizia una ricerca interdisciplinare sia nel campo degli strumenti elettronici che nel campo
della percezione e dellacustica. Gli anni 50 sono dominati da un clima di entusiamo avvenieristico:
il superamento dello strumento meccanico e dei suoi condizionamenti storici; lapertura di infiniti
campi di indagine non pi limitati dalle dodici note del sistema temperato; il contatto diretto del compositore con il materiale sonoro; leliminazione - almeno teorica - dellesecutore e della trasmissione
del pensiero musicale attraverso un metalinguaggio quale la partitura; la fiducia nella tecnologia,nella
matematica, nella logica e nella scienza in genere.
Superato lentusiasmo iniziale, molti compositori si rendono conto che le infinite possibilit teoriche offerte dai mezzi elettronici sono notevolmente ridotte in fase di realizzazione pratica e che certe
costruzioni formali non sono assolutamente percepite da orecchi viziati da secoli di musica acustica. Le apparecchiature usate sono poco docili alla volont del musicista in quanto costruite per altre
applicazioni, e la mole di lavoro richiesta per la realizzazione dellopera molto spesso non viene ripagata dal risultato finale. Va aggiunto che il compositore si muove su un terreno a lui sconosciuto,
come daltra parte il pubblico non trova la chiave di lettura delle opere proposte, limitandosi spesso
allascolto degli aspetti pi eclatanti e marginali.

1.1.3

Dagli automatismi al sintetizzatore

Assistiamo cos negli anni 60 ad un lento ma graduale processo di integrazione fra musica elettronica
e musica strumentale ed allo sviluppo della cosiddetta musica mista caratterizzata da composizioni
per strumenti e nastro magnetico, oppure con elaborazioni dal vivo dei suoni acustici per mezzo di
apparecchiature elettroniche. Anche composizioni per un organico tradizionale risultano influenzate
dalle esperienze elettroniche e dallapprofondimento teorico sui processi musicali che ne seguito.
Coloro che rifiutano questo ritorno al "meccanico" si dedicano ad uno studio sistematico delle possibilit offerte dai mezzi elettronici, inventando nuove tecniche compositive e perfezionando quelle
gi in uso. Una innovazione tecnologica di enorme importanza si affianca alle possibilit operative
gi esistenti: il voltage control che apre la strada ai processi automatici di generazione dei suoni. Nascono i primi sintetizzatori che tendono a ragruppare le principali apparecchiature di uno Studio in
un unico strumento. Se da un lato il sintetizzatore si rivelato essere riduttivo rispetto agli insiemi
di apparecchiature specializzate, dallaltro, per le sue caratteristiche di trasportabilit ed i costi relativamente contenuti, ha permesso sia il sorgere di laboratori privati sia lesecuzione dal vivo e quindi
uninterazione pi diretta con il pubblico. Grazie a tali peculiarit, il sintetizzatore viene utilizzato
anche dal mondo della musica jazz e pop condizionandone pesantemente levoluzione, tanto che la

1.1. DALLA MUSICA ELETTRONICA ALLA MUSICA INFORMATICA

1.3

produzione industriale dei successivi modelli viene sempre pi orientata verso la simulazione degli
strumenti tradizionali acustici ovvero integrando nellorgano elettronico i pi eclatanti effetti speciali.

1.1.4

La musica elettroacustica

Negli anni 60 le vecchie diatribe fra musicisti "concreti" e puristi "elettronici" sono gi abbondantemente superate ed il termine pi appropriato per identificare la musica prodotta utilizzando sia materiali acustici che sintetici sembra essere quello di musica elettroacustica. Quando viene prodotta in
studio, ossia in tempo differito, si sopperisce alla mancanza del rapporto esecutore-pubblico inventando altre forme di spettacolo o di applicazione. Pur rimanendo sempre valida lideologia che poneva
il mezzo radiofonico come veicolo privilegiato per la diffusione di massa della musica creata in laboratorio, aumentano i rapporti con le forme artistiche della visione, quali film e video; con il teatro ed
il balletto; si compongono musiche per la sonorizzazione di specifici spazi architettonici, si inventano
forme di spettacolo concettuale con i suoni e viene recuperato il vecchio legame fra musica e poesia
anche se trasformato completamente sotto laspetto fonologico.

1.1.5

Lelaboratore elettronico

Sotto il profilo storico lelaboratore viene utilizzato in musica ancora negli anni 50 in un campo che
molto pi vicino allintelligenza artificiale che alla liuteria elettronica. Le prime ricerche, infatti,
non mirano alla produzione dei suoni bens alla generazione automatica di partiture eseguibili dagli
strumenti tradizionali. Infatti il computer, grazie alle sue capacit logiche di elaborazione dellinformazione, pu immagazzinare regole musicali e "comporre" in maniera automatica seguendo, in
genere, metodi aleatori. Nasce cos la musica stocastica e si sviluppano le ricerche nella direzione
della composizione automatica. Parallelamente si studia come rappresentare il suono in forma numerica ed avvalersi dellelaboratore nella generazione sintetica di fenomeni acustici. Verso la fine degli
anni 60 il computer diventa uno strumento musicale molto versatile in grado di produrre qualsiasi
sonorit che potesse venire descritta in termini formali. Cambia completamente il modo di pensare e
di realizzare la musica e si inizia un serio lavoro di ricerca su basi scientifiche coinvolgendo parecchie
discipline quali la fisica acustica, la psicoacustica, la matematica, la scienza dellinformazione, lelettronica digitale, ecc. Se per i pionieri della musica elettronica le sedi di sperimentazione erano gli
studi radiofonici, i ricercatori di computer music lavorano nei centri di calcolo e nei laboratori di ricerca universitari. Allapproccio artigianale delle prime esecuzioni con i mezzi analogici si contrappone
ora la rigorosa metodologia imposta dallelaboratore, per cui i compositori ricominciano a scrivere la
musica attraverso una partitura, anche se completamente diversa da quella tradizionale.

1.1.6

Il live electronics

La musica generata mediante computer con le tecnologie degli anni 70 doveva essere necessariamente registrata su nastro magnetico per lascolto in pubbico, in quanto gli elaboratori utilizzati erano di
grosse dimensioni e intrasportabili. Questo entrava in conflitto con le esigenze dello spettacolo musicale e riportava la computer music nella stessa dimensione esecutiva della musica elettronica degli
anni 50. Di conseguenza, se le potenzialit foniche dei mezzi digitali erano enormemente superiori a
quelle della precedente generazione analogica, per molti compositori lascolto di lavori per nastro solo non era assolutamente soddisfacente mentre lesecuzione di musiche miste, per strumenti e nastro,
restava vincolata dalla tirannia temporale del supporto magnetico. Il live-electronics, invece, consente
allesecutore tradizionale di interagire con il mezzo elettronico durante lesecuzione stessa per cui il

CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE

1.4

suono acustico e la sua immediata trasformazione elettroacustica diventano la base della composizione
musicale. Lesecutore, o il cantante, si trova a suonare uno strumento completamente nuovo, composto dalla parte tradizionale e dalla estensione elettronica la quale pu variare notevolmente, anche nel
corso dellesecuzione, in dipendenza dal processo di elaborazione effettuato. Viene richiesta quindi
una nuova sensibilit musicale tipicamente basata sullascolto e sulla capacit di trasformare la prassi
esecutiva in relazione al contesto elettronico. I sistemi tecnologici utilizzati nel live-electronics sono
chiamati sistemi ibridi in quanto utilizzano apparecchiature elettroniche analogiche controllate mediante processori numerici. Generalmente la parte analogica effettua le operazioni di trasformazione,
miscelazione, amplificazione e diffusione dei segnali acustici mentre la parte digitale svolge le azioni
di collegamento fra le varie apparecchiature e le variazioni automatiche di taluni parametri di controllo dei dispositivi di trattamento del suono. Nelle esecuzioni dal vivo di fondamentale importanza la
regia del suono che sovrintende lesecuzione e tutti i processi di elaborazione e spazializzazione dei
suoni.

1.1.7

Musica informatica in tempo reale

Grazie al progresso della tecnologia digitale, verso la fine degli anni 70 molte funzioni che potevano
essere realizzate con i sistemi ibridi visti in precedenza possono ora essere effettuate per via numerica
utilizzando particolari computer appositamente progettati per la composizione e lesecuzione della
musica in tempo reale. Si pu cos ottenere in tempo reale ci che con gli elaboratori in tempo differito
richiedeva un tempo dattesa pi o meno lungo, e, per di pi, si pu intervenire direttamente sul suono
nel momento stesso in cui viene generato ovvero sulla trasformazione di eventi acustici esterni. In
altre parole si pu pensare la musica senza lintermediazione del nastro magnetico e/o le limitazioni
del mezzo analogico, sfruttando, parallelamente, le possibilit del live-electronics, della generazione
numerica del suono e della intelligenza artificiale in un ambiente compositivo/esecutivo integrato.
Ovviamente questo il campo di ricerca dei nostri giorni e molti compositori si stanno muovendo in
questa direzione. Forse troppo presto per dire se questa la strada del futuro, sicuramente quella
delloggi.

1.1.8

BIBLIOGRAFIA

Testi in italiano
AA.VV., La Musica Mlettronica, a cura di Henri Pousseur, Milano, Feltrinelli, 1976.
AA.VV., Musica e Elaboratore, a cura di Alvise Vidolin, Venezia, 1980, ed. La Biennale di
Venezia; distribuzione Vallecchi, Firenze.
Branchi Walter, Tecnologia della Musica Elettronica, Cosenza, Lerici, 1977.
Gentilucci Armando, Introduzione alla Musica Elettronica, Feltrinelli, Milano, 1976.
Haus Goffredo, Elementi di Informatica Musicale, Milano, Editoriale Jackson, 1984.
Prieberg Fred, Musica ex Machina, Einaudi, Torino, 1963.
Raccolte in italiano
Atti del II Colloquio di Informatica Musicale, Milano, 1977. Richiedere a: Goffredo Haus, Istituto
di Cibernetica, via Viotti 5, 20133 Milano.
Atti del III Colloquio di Informatica Musicale, Padova, 1979. Richiedere a: Giovanni De Poli,
C.S.C. Universit di Padova, via San Francesco 11, 35100 Padova.
Atti del IV Colloquio di Informatica Musicale, Pisa, 1981. Richiedere a: Libreria del CNUCE via
S. Maria 36, 56100 Pisa.

1.2. MUSICA INFORMATICA

1.5

Atti del V Colloquio di Informatica Musicale, Ancona, 1983. Richiedere a: Luciana Martino,
Universit di Ancona, Facolt di Ingegneria, via della Montagnola, 60100 Ancona.
Atti del Convegno "Musical Grammars and Computer Analysis, a cura di M. Baroni e L. Callegari,
Firenze, Olschki, 1984. Richiedere a: Edizioni Olschki, viuzza del Pozzetto, 50100, Firenze.
Automazione e Strumentazione, rivista mensile dell ANIPLA, n.2, 1980; numero interamente
dedicato allinformatica musicale. Segreteria: viale Premuda 2, 20129 Milano.
Bibliografia nazionale di Informatica Musicale, a cura di Herold Roberto, Notiziario Musicale n.4
del CIDIM, 1984. Richiedere a: CIDIM, Via Vittoria Colonna, 18, Roma.
LIMB (Quaderni 1,2,3,4,5), bollettino del Laboratorio per lInformatica Musicale della Biennale
di Venezia, anni 1981,82,83,84,85. Richiedere a: LIMB, c/o ASAC, C Corner della Regina, S. Croce
2214, 30125 Venezia.
Informatica: Musica/Industria, Quaderni di M/R 1, Milano, UNICOPLI, 1983. Richiedere a:
Edizioni UNICOPLI, via Bonghi 4, 20141 Milano.
Numero e Suono, catalogo della International Computer Music Conference, Venezia, ed. La
Biennale di Venezia, 1982. Distribuito da: ERI - Edizioni RAI, via del Babuino 51, 00187 Roma.
Studi Musicali, pubblicazioni della Divisione Musicologica del CNUCE, via S. Maria 36, 56100
Pisa.
Testi in lingua straniera
Appleton Jhon, Perera Ronald, The Development and Practice of Electronic Music, Prentice Hall,
Englewood Cliff, N.J., 1975.
Bateman Wayne, Introduction to Computer Music, New York, John Woliey & Sons, 1980.
Chamberlain Hal, Musical Applications of Microprocessors, Rochelle Park, New Jersey, Hayden
Book Company Inc., 1981.
Chion Michael, Reibel Guy, Les Musiques Electroacoustiques, Edisud, Paris, 1976.
Eimert Herbert, Humpert Hans Ulrich, Das Lexicon der electronischen Musik, Gustav Bosse
Verlag, Resensburg, 1973.
Howe Hubert jr., Electronic Music Synthesis: concepts, facilities, and techniques, Dent & sons,
London, 1975.
Mathews Max V., The Technology of Computer Music, Cambridge, Mass., MIT Press, 1969.
Schaeffer Pierre, Trait des Objets Musicaux, Le Seuil, Paris, 1966.
Schwartz Elliott, Electronic Music: a listeners guide, Praeger, New York, 1973.
Riviste specializzate
Computer Music Journal, MIT Press, Cambridge, Mass., USA.
Interface: Journal of New Music Research, Swets Pub., Amsterdam.
Cahiers de recherche/musique, INA-GRM, 116 Avenue du President Kennedy, 75016 Paris.
Rapports IRCAM, IRCAM, 31 rue Saint Merri, 75004 Paris.
La Musica Elettronica, EDICAR, via Ortica 27, 20134 Milano.
Quaderni di Informatica Musicale, Studio Edgar Varese, via Caboto 31, 65100 Pescara.

1.2
1.2.1

Musica Informatica
Introduzione

Con lo sviluppo delle tecnologie multimediali la musica diventata una delle fonti dinformazione
trattate dallinformatica, al pari dei numeri, dei testi, della grafica e della visione. Ci ha favorito lo
sviluppo di importanti applicazioni in campo musicale e ha portato i sistemi informatici a diventare

1.6

CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE

uno "strumento" musicale di riferimento, come lo fu il pianoforte nel XIX secolo. Il termine strumento non ha qui laccezione musicale corrente, in quanto il complesso delle funzioni svolte dai sistemi
informatici molto pi ampio di quello di uno strumento tradizionale. Lelaboratore non genera solo
suoni, ma elabora tutta linformazione musicale, dal microlivello (il suono) al macrolivello (la forma).
Ci ha comportato una sostanziale trasformazione dei metodi del far m. con il coinvolgimento di tutti
i settori: della creazione alla produzione musicale, favorendo la nascita di nuove figure professionali.
Un sistema informatico completo di opportuni programmi e periferiche svolge molte funzioni musicali. strumento musicale polifonico e politimbrico; simula i suoni degli strumenti acustici oppure
diventa il mezzo per comporre nuove sonorit elettroniche; svolge le funzioni di uno studio di registrazione audio per editing, elaborazione, montaggio di suoni e di brani musicali, stampa di CD audio;
viene utilizzato nelleditoria musicale, nella ricerca musicologica, nellarchiviazione e nellesecuzione automatica di partiture. Il compositore, oltre a ci, dispone di una grande variet di strumenti di
aiuto alla composizione che lo assistono nelle varie fasi del processo creativo e realizzativo dellopera.
Inoltre, con levoluzione dei sistemi informatici multimediali, molte di queste funzioni possono essere
messe in stretta relazione con il mondo della grafica, del video, dello spettacolo, della realt virtuale
e delle telecomunicazioni per ottenere prodotti artistici e culturali multimediali. Infine, alcuni derivati
dei progetti di ricerca o dei programmi professionali trovano un ampio consenso nel vasto mondo dei
musicisti dilettanti e dellintrattenimento informatico, alimentato dallindustria dei personal computer
e dal successo di Internet. La musica informatica nasce nella seconda met degli anni 50 seguendo
allinizio due differenti linee di ricerca: una orientata al trattamento simbolico dellinformazione musicale, studia la codifica dei testi musicali, la generazione automatica di partiture per la composizione,
le tecniche informatiche di analisi musicologica; laltra (computer music), pi attenta allaspetto acustico e percettivo della m., affronta la codifica numerica dei suoni, la progettazione dei convertitori
per dotare lelaboratore di uninterfaccia audio con lesterno, e, quindi, le tecniche di analisi, sintesi
ed elaborazione dei suoni. Fino alla fine degli anni 70 le principali ricerche si svolgono in centri di
ricerca scientifica utilizzando elaboratori collettivi (mainframe) e programmi che imponevano lunghi
tempi di attesa fra la formalizzazione dellidea musicale e il suo ascolto. Nei concerti si presentavano
musiche registrate su nastro che talvolta accompagnavano solisti o piccoli ensemble di esecutori tradizionali o cantanti. La mancanza di un rapporto diretto e immediato con il suono ha in parte ostacolato
la produzione musicale mentre al contrario ha favorito lo sviluppo di solide basi teoriche e di alcuni
programmi per la sintesi dei suoni ancora oggi utilizzati in campo scientifico e musicale. Con lavvento degli elaboratori a monoutenza (minicomputer) i tempi di attesa diminuiscono e grazie ad essi
si sviluppano i primi prototipi di sintesi e trattamento dei suoni in tempo reale utilizzando periferiche
particolari. Grazie a questi nuovi sistemi in tempo reale la m. pu rientrare nella tradizione dellesecuzione dal vivo anche se al mezzo informatico viene assegnato un ruolo pi ampio e soprattutto diverso
da quello del singolo strumento. Si sviluppano i concerti di live electronics in cui i sistemi in tempo
reale generano eventi sonori complessi o trasformano dal vivo i suoni di voci o strumenti tradizionali.
Negli anni 80 due innovazioni contribuiscono alla diffusione delli. nel mondo musicale, specialmente nelle sue applicazioni pi semplici: lavvento dellelaboratore personale (personal computer) e
la definizione del codice di comunicazione MIDI. Questultimo segna lingresso dellindustria degli
strumenti musicali elettronici nel mondo della m.i.: nellarco di pochi anni i sintetizzatori analogici
della m. elettronica diventano obsoleti, nascono i campionatori, i sintetizzatori digitali e unampia
gamma di dispositivi accessori di ausilio al musicista (sequencer, multiprocessori di effetti). Grazie
al MIDI tali strumenti possono essere collegati fra loro creando una rete di apparecchiature digitali
in cui lelaboratore personale spesso il cuore del sistema. I risultati della ricerca scientifica degli
anni 70 vengono rapidamente trasferiti dallindustria su strumenti a basso costo ed offerti a unampia
utenza musicale. Nel corso degli anni 90 aumenta il predominio della tecnologia digitale nella m.,

1.2. MUSICA INFORMATICA

1.7

sia a livello professionale che amatoriale. Lelaboratore personale sempre pi potente, amichevole ed
economico viene dotato di periferiche e programmi specifici e diventa il nuovo "strumento musicale"
in grado di assistere il musicista nello svolgimento delle pi svariate attivit: dalla ricerca astratta alla
produzione commerciale. Il termine m.i. che fino alla fine degli anni 70 identificava un settore della
m. contemporanea con precisi ambiti linguistici ed estetici, a partire dagli anni 80 perde progressivamente questa identit per assumere un significato di pura connotazione tecnica, data la diffusione del
mezzo informatico in tutti i generi musicali.

1.2.2

Rappresentazione dellinformazione musicale

Linformazione tratta la musica con due principali forme di rappresentazione: audio, che codifica il
suono in sequenze discrete di numeri; simbolica, che codifica linformazione percettiva, esecutiva e
astratta prendendo come riferimento il sistema tradizionale di notazione musicale. La codifica del
suono si realizza convertendo il segnale analogico in segnale digitale, ovvero campionando la forma
donda del suono. Tale operazione si basa su due fattori caratteristici: la frequenza di campionamento
e il numero di bit con cui si rappresentano i campioni. Il primo fattore incide sulla frequenza massima
rappresentabile dal segnale digitale, mentre il secondo fissa il rapporto segnale disturbo e quindi il
tasso di rumore aggiunto nella fase di conversione. I valori di riferimento sono quelli del CD audio
(44100 c/s, 16 bit), anche se si usano valori ridotti per la codifica della voce e per i segnali di allarme,
o valori superiori per laudio professionale di qualit. Entrambi i fattori incidono sulla quantit di informazione necessaria a rappresentare il flusso sonoro della m. Per ridurre il volume dei dati musicali
si sono sviluppate efficaci forme di compressione che si basano sulle caratteristiche della percezione
uditiva umana. La codifica simbolica trova nel codice MIDI il sistema pi diffuso per rappresentare i
gesti elementari dellesecuzione musicale. Per la codifica del sistema tradizionale di notazione musicale esistono vari linguaggi simbolici o sistemi grafici di scrittura che si differenziano in base al tipo
di applicazione: editoria musicale, analisi musicologica, aiuto alla composizione.

1.2.3

Sintesi dei suoni

La sintesi dei suoni consiste nel generare mediante un procedimento di calcolo un segnale acustico e
trova due campi di applicazione musicale: la simulazione dei suoni prodotti dagli strumenti musicali
tradizionali e la generazione di suoni soggetta alle scelte estetiche del musicista in quanto atto compositivo. Anche se gli obiettivi sono diversi, in entrambi i campi si utilizzano le stesse tecniche di
sintesi poich queste si fondano su basi teoriche generali. I modelli di sintesi del suono si distinguono
in modelli di sorgente e in modelli di segnale. I primi simulano con il mezzo informatico il modello
fisico della sorgente sonora mentre i secondi la forma donda che raggiunge lascoltatore. I modelli
di segnale hanno avuto la maggiore diffusione per la loro semplicit ed efficienza computazionale.
Vediamo i principali. Il modello di segnale pi semplice il campionamento, che a rigore non un
metodo di sintesi bens una tecnica di riproduzione. Tale tecnica sta alla base degli strumenti digitali chiamati campionatori e nella simulazione di strumenti tradizionali di tipo percussivo offre buoni
risultati. I suoni di uno strumento vengono campionati nei vari registri e con le principali tecniche
esecutive (dinamica e gesto) in modo da creare un repertorio di campioni il pi completo possibile
per un dato strumento. Durante lesecuzione viene riprodotto il suono campionato pi vicino alla
nota suonata, effettuando eventuali trasformazioni, quali trasposizione di altezza, variazioni di durata (looping), inviluppo di ampiezza, filtraggio statico o dinamico, interpolazione fra pi campioni.
Alla semplicit computazionale della sintesi per campionamento corrisponde una elevata richiesta di
memoria che aumenta in funzione della qualit richiesta. La sintesi additiva si basa sul teorema di

1.8

CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE

Fourier per generare suoni complessi mediante somma di suoni sinusoidali la cui ampiezza e frequenza sono variabili nel tempo. un modello molto generale che fornisce i migliori risultati nella sintesi
di suoni pseudoarmonici con basso tasso di rumore. Alla generalit si contrappone un elevato numero
di parametri di controllo e una complessit computazionale che aumenta con la densit spettrale del
suono. La sintesi additiva, per gli evidenti legami con larmonia musicale, ha trovato molti esempi di
applicazione nella composizione astratta di suoni. La sintesi granulare, al pari di quella additiva, utilizza pi suoni elementari per costruirne uno complesso. Questo dato da una successione di suoni di
breve durata (qualche centesimo di secondo) chiamati grani. Tale tecnica ricorda il processo cinematografico in cui il movimento dato da una rapida successione di immagini statiche. I grani possono
essere porzioni di suoni acustici campionati oppure suoni astratti generati per via algoritmica. Inoltre
si distingue la sintesi granulare sincrona con il periodo del suono, da quella asincrona utilizzata per
generare tessiture sonore. La sintesi sottrattiva prevalentemente una tecnica di trasformazione di un
suono dato, il quale ha generalmente uno spettro molto ricco e pu essere campionato o generato tramite semplice algoritmo. Nella formulazione pi generale si utilizza un banco di filtri per evidenziare
o sopprimere precise zone nello spazio della frequenza del suono dato. I filtri possono essere statici
o dinamici. Nel primo caso si mantengono le caratteristiche temporali del suono dato, mentre nel
secondo si ottiene una combinazione delle due. La sintesi per modulazione di frequenza (FM) rientra
nelle tecniche non lineari di trasformazione. Nella formulazione pi semplice un oscillatore sinusoidale detto portante con frequenza p viene modulato in frequenza da un oscillatore sinusoidale, detto
modulante, di ampiezza d e frequenza m. Lo spettro risultante composto da frequenze p+k m, con k
intero che varia da -I a +I, essendo I=d/m lindice di modulazione. Questultimo determina il numero
di componenti parziali che costituiscono lo spettro risultante; mentre il rapporto p/m determina il tipo
di spettro: per rapporti interi e semplici si ottengono spettri armonici. Quindi con due soli oscillatori
possibile generare suoni complessi che possono variare nel tempo il numero di componenti spettrali
semplicemente variando il valore di I. Grazie alla semplicit di calcolo e alla efficienza sonora, la
sintesi FM ha avuto moltissime applicazioni musicali ed stata scelta nei primi sintetizzatori digitali commerciali. La sintesi per distorsione (waveshaping) anchessa una tecnica di trasformazione
non lineare in cui un suono semplice (spesso una sinusoide) viene arricchito di armonici tramite una
funzione distorcente generalmente definita come somma di polinomi di Chebishev. Anche in questo
caso, controllando lindice di distorsione possibile ottenere spettri variabili nel tempo. Per ottenere
spettri inarmonici spesso si moltiplica il suono distorto per una sinusoide (modulazione ad anello ring modulation) ottenendo una traslazione dello spettro attorno alla frequenza portante di modulazione. Vediamo ora i modelli di sorgente che rientrano nella sintesi comunemente chiamata per modelli
fisici. La maggior parte di essi si basa sullinterazione fra eccitatore (la causa della vibrazione, con
comportamento non lineare) e risonatore (il corpo dello strumento, con comportamento lineare). Linterazione pu essere feedforward quando leccitatore non riceve informazioni dal risonatore oppure
feedback quando i due interagiscono. Tali modelli si classificano in relazione al modo in cui la realt
fisica viene rappresentata, simulata, o discretizzata. Esistono inoltre dei modelli di sorgente chiamati
pseudo-fisici i quali traggono solo ispirazione da fenomeni fisici del mondo reale per simulare processi generativi arbitrari. Vediamo i principali modelli di sorgente. I modelli meccanici dividono il
sistema fisico in piccoli pezzi (normalmente elementi massa-molla) per ottenere le equazioni differenziali che ne descrivono struttura e interazione. Tali equazioni si risolvono con tecniche numeriche
che impongono successive approssimazioni e sono fonte di alti costi computazionali. Una particolare
interpretazione della scomposizione del sistema fisico in singoli elementi viene data nella sintesi modale in cui i modi di vibrazione vengono realizzati mediante la somma di oscillatori smorzati. Tale
tecnica si basa sulla scomposizione modale studiata dalla teoria dei sistemi. I modelli a guide donda
(waveguide) sono modelli computazionali che simulano, mediante linee di ritardo, il comportamento

1.2. MUSICA INFORMATICA

1.9

di unonda che si propaga allinterno di un mezzo (ad esempio un tubo o una corda). Le discontinuit
del mezzo vengono simulate con giunzioni di dispersione mentre altre strutture fisiche possono essere
simulate mediante filtri. Data la loro efficienza computazionale questi modelli hanno trovato validi
esempi di applicazioni musicali. I modelli della sorgente si sono rivelati particolarmente efficaci nella
resa dei gesti musicali tipici delle frasi ricche di spunti agogici. Si differenziano da quelli del segnale
perch si avvalgono di parametri di controllo che corrispondono alle azioni che il musicista compie
sullo strumento fisico anzich a parametri astratti quali frequenza di un oscillatore o larghezza di banda di un filtro. Ci inevitabilmente porta a due conseguenze: il modello deve disporre di controlli
gestuali potenti e il musicista deve imparare a suonare la sorgente virtuale con le tecniche tradizionali
di apprendimento musicale.

1.2.4

Elaborazione dei suoni

La elaborazione numerica dei suoni (Digital Signal Processing) si ottiene mediante un procedimento
di calcolo che trasforma il segnale. Vediamo le principali tecniche utilizzate in relazione agli effetti
che si ottengono nei parametri musicali di tempo, altezza, dinamica, timbro e spazio. La traslazione
di un suono nel tempo si ottiene mediante una linea di ritardo che produce uneco semplice. Leco
pu essere iterato se il ritardo chiuso in un anello di retroazione. Inserendo in tale anello altri elementi di trasformazione si possono ottenere ripetizioni ogni volta diverse. Se i tempi di ritardo sono
dellordine di qualche decina di secondo tale schema di ripetizione simula la struttura musicale a canone con variazione. La durata del suono pu essere variata in diversi modi e con tecniche analoghe
alla variazione di altezza. Rallentando e accelerando un suono, tramite una variazione della frequenza di campionamento, si ottiene rispettivamente unaltezza pi grave e una pi acuta. Le tecniche
di analisi/sintesi quali Phase vocoder (PV), Wavelet e Linear prediction coding (LPC) consentono di
modificare la durata in maniera indipendente dallaltezza e viceversa. Il processo di elaborazione
diviso in due fasi: la prima di analisi, dalla quale si estraggono i dati per la fase successiva, la seconda
di sintesi. Il PV analizza il suono mediante una successione (con sovrapposizione) di trasformate di
Fourier a tempo breve (STFT). Gli spettri risultanti sono utilizzati come dati per sintetizzare il suono
in sintesi additiva. Elaborando tali dati si possono ottenere compressioni o stiramenti temporali fino
al congelamento di un suono, come pure trasposizioni daltezza. Combinando opportunamente i dati
di analisi di due suoni diversi possibile creare la cosiddetta sintesi incrociata, ovvero sintetizzare un
suono ibrido dei due suoni originali. La tecnica di trasformazione Wavelet concettualmente simile
al PV, ma cambia il metodo di analisi. Diversa la tecnica LPC, nata per la codifica del parlato nelle
comunicazioni a banda limitata. La sintesi LPC non genera perci una fedele riproduzione delloriginale, ma offre diverse possibilit nella elaborazione dei suoni. In essa il suono viene considerato
come il prodotto di una funzione di eccitazione (corda vocale) il cui segnale viene sottoposto alle
trasformazioni di una cavit risonante (tratto vocale) normalmente realizzata con un filtro a soli poli
variabile nel tempo che simula i formanti della voce. Il processo di analisi determina landamento
nel tempo dei parametri del filtro ed estrae alcune caratteristiche generali per leccitazione: individua
se il suono rumoroso (consonanti) oppure ad altezza determinata (vocali), nel qual caso fornisce
la frequenza della fondamentale. Nella fase di sintesi facile alterare laltezza del segnale di eccitazione come pure accelerare o rallentare la scansione temporale dei parametri del filtro. Anche con
LPC possibile creare suoni ibridi scegliendo in modo arbitrario il suono di eccitazione che viene
plasmato dal filtro variabile seguendo i parametri estratti dallanalisi di un altro suono. Le variazioni
di altezza e di durata se effettuate su ampi valori di scala provocano rilevanti trasformazioni anche
sul piano timbrico. La dinamica del suono si modifica non solo variando lampiezza del segnale ma
anche trasformandone alcuni tratti timbrici (spettro, tramite filtraggio; transitorio di attacco, mediante

CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE

1.10

inviluppo di ampiezza) in modo da rendere il suono pi morbido per dinamiche piano e viceversa pi
aggressivo per dinamiche forti. Le tecniche pi comuni per lelaborazione del timbro, oltre a quanto si
gi detto, sono: il filtraggio (filtri passa-basso, passa-alto, passa-banda, taglia-banda; banchi di filtri
equalizzatori; filtri a pettine ricorsivi che provocano vari effetti variando il tempo di ritardo: effetto
coro, flanger, phasing); la modulazione (ad anello, che sposta lenergia del suono attorno alla frequenza della portante sinusoidale soppressa; a banda singola, che trasla il segnale in frequenza rendendo
inarmonico un suono armonico); la granulazione (che estrae piccoli grani di suono moltiplicando il
segnale per brevi inviluppi dampiezza) e la convoluzione che effettua il prodotto spettrale di due suoni. Questultima si dimostrata efficace nella simulazione di spazi sonori: se si ascolta il prodotto di
convoluzione fra un suono registrato in una sala anecoica e la risposta allimpulso di una sala, si ha la
sensazione che il suono sia stato registrato in quella sala. Questo un metodo efficace per realizzare
riverberatori che simulino precisi spazi reali. Altre tecniche di riverberazione meno onerose sul piano
computazionale prevedono lutilizzazione di gruppi di filtri a pettine, passa-tutto e la simulazione mediante linee di ritardo delle riflessioni prodotte dalle pareti di una sala. Particolarmente efficaci sono le
tecniche di simulazione delle sorgenti sonore in movimento mediante le quali si possono collocare e
far muovere i suoni nello spazio seguendo percorsi e variazioni di velocit. Nella spazializzazione dei
suoni si distinguono le tecniche di simulazione per lascolto binaurale (in cuffia o con due altoparlanti)
dai sistemi multicanale che avvolgono lascoltatore con una rete di altoparlanti. Anche nel caso dello
spazio, si distinguono i modelli che simulano la collocazione dei suoni in spazi reali e che rientrano
nelle tecniche definite di auralizzazione, dai sistemi che utilizzano la tecnologia i. per inventare spazi
sintetici frutto di scelte artistiche.

1.2.5

Sistemi MIDI

Il MIDI (Musical Instrument Digital Interface) un protocollo di comunicazione seriale a 8 bit e velocit di trasmissione di 31250 bit/s, ideato per codificare i gesti esecutivi che il musicista compie
quando suona una tastiera elettronica sensibile al tocco e trasmetterli in tempo reale ad altri dispositivi. Sulla stessa linea di comunicazione possono transitare sedici canali di dati; da un punto di vista
musicale significa poter suonare contemporaneamente sedici strumenti polifonici. I principali comandi sono: di nota, in cui viene indicato il tasto e la relativa velocit di pressione; i controlli continui,
per la variazione continua di parametri; il cambio di programma, generalmente usato per la selezione
del timbro; i controlli in tempo reale, per la sincronizzazione di pi dispositivi; i controlli esclusivi di
sistema, la cui sintassi e funzione definita dal costruttore dello strumento. Un elementare sistema
MIDI costituito da una tastiera elettronica muta (master keyboard) collegata ad uno o pi sintetizzatori di suoni (expander) e ad un elaboratore personale nel quale generalmente opera un programma
chiamato sequencer. I gesti esecutivi del musicista pilotano la generazione sonora dellexpander e
possono essere registrati nellelaboratore e, in momenti diversi, essere corretti, modificati e integrati
da successive esecuzioni sincronizzate fra loro. Il sequencer svolge una funzione analoga al registratore audio multitraccia con la differenza che questultimo registra i suoni mentre il primo registra
sequenze di comandi chiamate MIDIfiles. Esistono in Internet ampie banche dati di sequenze MIDI
che contengono i principali titoli del repertorio classico e leggero. La maggior parte dei sequencer
consente di registrare la m. anche in tempo differito con diverse interfaccie utente: una delle quali
utilizza il tradizionale sistema di notazione su pentagramma. Questo consente di passare in modo
automatico dalla partitura visualizzata sullo schermo alla sua esecuzione sonora. possibile anche il
contrario, ovvero visualizzare (e stampare) la m. che viene suonata dal vivo e trascritta in tempo reale.
Va rilevato che non esiste una corrispondenza biunivoca fra il linguaggio di notazione musicale e il
codice MIDI. Pertanto tali trascrizioni non sono una fedele riproduzione delloriginale soprattutto per

1.2. MUSICA INFORMATICA

1.11

quanto riguarda laspetto temporale. La necessit di quantizzare la scansione del tempo porta a grossolane semplificazioni oppure a eccessive suddivisioni se linterprete modula il tempo a fini espressivi.
Infatti, ad esempio, se lesecuzione non fornisce un riferimento temporale esplicito, cambi di tempo
quali accelerandi o rallentandi vengono inevitabilmente riportati in partitura non come variazioni di
metronomo, ma come alterazione delle figure ritmiche originali, rendendo complessa la notazione di
parti musicali anche molto semplici. Nonostante il MIDI sia molto lento, abbia una codifica dei dati
spesso insufficiente, e in molti casi si sia rivelato inadeguato alla trasmissione del massiccio flusso dei
dati di una esecuzione musicale, il protocollo di comunicazione universalmente adottato dallindustria degli strumenti musicali informatici. Grazie alla sua semplicit e alla vasta diffusione, il MIDI
viene utilizzato per il controllo di processi anche molto diversi da quelli per cui era stato ideato tanto
che viene adottato anche per applicazioni non prettamente musicali del mondo dello spettacolo.

1.2.6

Sistemi per lesecuzione

Come noto, lesecutore tradizionale suona strumenti codificati e stabili da secoli, impara per imitazione dal maestro e sviluppa una abilit gestuale che sfrutta lo strumento come fosse una estensione
del proprio corpo. Nel mondo della musica informatica, invece, i dispositivi si evolvono seguendo
il passo della tecnologia che in costante accelerazione. Inoltre pochi apparecchi sono autonomi,
come invece lo sono gli strumenti musicali acustici. Ognuno di essi fa parte di un insieme di apparecchiature digitali che opportunamente collegate fra loro e programmate, costituiscono lentit che
pu essere assimilata al vecchio concetto di strumento e che nel mondo tecnologico viene chiamata
sistema. Generalmente il sistema prende come ingresso i segnali audio da elaborare, dotato di dispositivi di controllo che consentono di variare i parametri di trattamento o di generazione del suono,
di visualizzare vari aspetti del segnale audio e dei parametri di controllo e infine fornisce in uscita i
segnali elaborati. Con laumento della potenza di calcolo dei processori e la miniaturizzazione dellhardware, molti elementi del sistema sono stati integrati come componenti software o come schede
aggiuntive di un solo elaboratore ottenendo cos soluzioni alquanto compatte. Per lesecuzione di un
brano il musicista informatico progetta lambiente esecutivo che gli consente di trasformare un sistema tecnologico in strumento musicale, rendendo i controlli del sistema funzionali allesecuzione, con
unit di misura sonologico-percettive o musicali e un campo di variabilit predefinito che segue una
legge determinata. Molto spesso i controlli sono multifunzionali per ottenere da un singolo gesto una
variazione contemporanea e coerente di pi parametri del sistema. Questo consente una riduzione
dei controlli dellesecutore, favorisce un accesso immediato alle principali funzioni esecutive e un
rapido apprendimento dellambiente esecutivo. Per taluni parametri, inoltre, pi efficace luso di
dispositivi di controllo gestuale con reazione, che estraggono pi informazioni da un singolo gesto e
che addirittura impongono una fatica fisica allinterprete quando cerca di raggiungere le zone estreme
di esecuzione. Infine, la tecnologia degli ambienti multimodali interattivi (AMI) consente di rilevare
e analizzare il movimento, la voce, i suoni prodotti da uno o pi esecutori per controllare in tempo
reale vari dispositivi, quali strumenti per la sintesi dei suoni, algoritmi di composizione automatica,
effetti visuali, ecc. Gli AMI sono dei "trasduttori cognitivi" che osservano, reagiscono ed espandono
la realt e pertanto sono efficaci nella costruzione di strumenti musicali virtuali (iper-strumenti).

1.2.7

Ricerche di musicologia

Linformatica ha dato un notevole impulso ad alcuni filoni di ricerca in campo musicologico per la
possibilit di verificare mediante la realizzazione di un modello informatico teorie musicali impossibili da validare con i metodi tradizionali. Il principale metodo analitico chiamato di analisi mediante

1.12

CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE

sintesi e viene applicato per lo studio delle regole compositive nei diversi periodi storici. Lo stesso
metodo si utilizza anche nello studio dellinterpretazione musicale per validare modelli che descrivono teoricamente prassi esecutive dei diversi stili. Linformatica, inoltre, contribuisce in maniera
determinante al restauro di materiali audio deteriorati dal tempo e dalla cattiva conservazione. Le
principali funzioni svolte dai programmi di restauro audio sono la riduzione del rumore di fondo e
leliminazione dei disturbi di tipo impulsivo.

1.2.8

Programmi di aiuto alla composizione

I programmi di aiuto alla composizione (CAC, Computer Aided Composition) trasformano lelaboratore in una sorta di assistente musicale che aiuta il compositore nelle varie fasi di creazione dellopera.
Essendo il processo creativo estremamente libero, tali programmi sono difficilmente di uso generale e pertanto soddisfano solo alcune fra le varie tendenze estetiche o prassi compositive: in alcuni
casi, infatti, si rivelato pi efficace ricorrere ad un linguaggio di programmazione di uso generale.
Pertanto ci troviamo davanti a un panorama molto vasto e articolato che deve soddisfare le esigenze
del compositore tradizionale che scrive per strumenti acustici come pure del musicista informatico
che compone m. elettroacustica, ma anche di compositori professionisti che operano con linguaggi
e generi musicali molto lontani fra loro, senza contare il pi vasto panorama dei musicisti dilettanti
che utilizzano lelaboratore come strumento di intrattenimento musicale personale. Va rilevato che la
m. nel corso della sua storia si spesso prestata alla sperimentazione di teorie astratte nate in campi
disciplinari diversi. Linformatica ha particolarmente rafforzato il legame fra m. e scienza per cui
sono nati programmi CAC che consentono di tradurre in fatti musicali processi generativi deterministici o stocastici. In particolare troviamo applicazioni derivate da sistemi personali di regole, teorie
del caos, grammatiche formali, intelligenza artificiale, automi cellulari, sistemi esperti, reti neurali,
ecc. I processi generativi messi in atto possono essere applicati a singoli aspetti della composizione
come a parti pi ampie per giungere nei casi estremi alla composizione automatica dellintera opera.
La maggior parte dei programmi CAC operano a livello simbolico e consentono lascolto dei risultati
via MIDI utilizzando campionatori e sintetizzatori. I programmi orientati alla composizione tradizionale trasformano innanzitutto lelaboratore in un editor di testi musicali mediante il quale viene
scritta, corretta, eseguita e stampata la partitura. Oltre alle solite funzioni di editing si possono applicare operatori o processi di trasformazione al testo musicale come pure generare algoritmicamente
parti o elementi della partitura. Anche se la m. verr suonata in concerto da musicisti tradizionali
utile per il compositore poter sperimentare e verificare diverse soluzioni compositive disponendo dei
risultati parziali sia in forma di notazione grafica che acustica. Il compositore di m. elettroacustica,
invece, ha esigenze diverse in quanto egli lavora direttamente sul suono e utilizza strumenti che gli
consentono di registrare, editare, generare, trasformare e montare i suoni. Il montaggio avviene con
laiuto di una partitura grafica che fa corrispondere alla disposizione dei simboli grafici in uno spazio
bidimensionale la collocazione dei corrispondenti segmenti sonori nel tempo. Per quanto riguarda la
sintesi e la elaborazione dei suoni esistono programmi di aiuto alla composizione che integrano la
maggior parte delle tecniche esposte in precedenza. Alcuni programmi consentono di trattare contemporaneamente linformazione simbolica e quella acustica offrendo un ambiente integrato di aiuto
alla composizione musicale. Infine esistono dei programmi di composizione algoritmica che sono
orientati alla composizione in tempo reale. Il musicista anzich suonare delle note controlla dal vivo i
parametri che gestiscono uno o pi processi di generazione automatica di eventi musicali. Tali processi possono trattare sia linformazione musicale simbolica che quella acustica e quindi essere utilizzati
autonomamente oppure per trasformare dal vivo i suoni prodotti da altri musicisti.

1.3. LA NOTAZIONE MUSICALE

1.2.9

1.13

BIBLIOGRAFIA

M. Mathews, The Technology of Computer Music, MIT Press, Cambridge, 1969


A.V.Oppenheim, R. Schafer, Digital Signal Processing, Prentice-Hall, Englewood Cliffs, 1975
M. Baroni, L. Callegari, Musical Grammars and Computer Analysis, L. Olschki, Firenze, 1984
C. Dodge, T. A. Jerse, Computer Music. Synthesis, Composition, and Performance, Schirmer
Books, New York, 1985
J. R. Pierce, La scienza del suono, Zanichelli, Bologna, 1987
C. Ames, Automated composition in retrospect: 1956-1986, in Leonardo 20(2):169-186, 1987
J. B. Barrire, Le timbre, mtaphore pour la composition, Bourgois-Ircam, Parigi, 1991
I. Xenakis, Formalized Music, Pendragon Press, Stuyvesant, 1992
C. Roads, The Computer Music Tutorial, Cambridge, 1996
J. Chadabe, Electric Sound. The Past and Promise of Electronic Music, New Jersey, 1997
C. Roads, S. T. Pope, A. Piccialli, G. De Poli, Musical Signal Processing, Swets & Zeitlinger
B.V., Lisse, 1997.

1.3
1.3.1

La notazione musicale
La notazione classica

Vedi allegato.

1.3.2

La notazione nella musica elettronica

La maggior parte delle composizioni di musica elettronica priva di partitura in quanto il compositore produce personalmente la musica nella forma acustica definitiva, memorizzata su un supporto
di registrazione, che per tradizione il nastro magnetico. Il nastro quindi contiene lidea compositiva, linterpretazione e lesecuzione musicale dellopera. Questa regola trova molte eccezioni, e di
conseguenza esistono diversi esempi di n., con tecniche di scrittura e funzioni differenti. Si possono
individuare quattro tipologie di partitura.
Partitura esecutiva - utilizzata per lesecuzione dal vivo di parti elettroniche e strumentali. Il riferimento temporale pu essere assoluto se lelettronica (generalmente registrata) guida lesecuzione,
oppure metrico se le parti registrate sono brevi e/o lelettronica realizzata in tempo reale (live electronics). La n. delle parti elettroniche, anche se si integra con la n. tradizionale delle parti strumentali,
funzionale alle azioni che lesecutore deve compiere e non tanto al risultato che si deve ottenere. Ad
esempio si veda Omaggio a Gyrgy Kurtag (1983/86) di L. Nono.
Partitura operativa - finalizzata alla realizzazione sonora dellopera (o di sue parti) memorizzata
su nastro. Il compositore definisce tecniche e processi esecutivi. Per la natura stessa della musica
elettronica, tali partiture ricorrono a forme di rappresentazione nate in ambienti scientifici che introducono in maniera implicita il concetto di modello. La partitura composta dalla definizione di un
modello e dei dati, ovvero dalla definizione dei processi di sintesi e/o di elaborazione dei suoni e dai
valori che i parametri di controllo del modello assumono nel tempo. Il modello pu essere definito in
vari modi: testo, diagramma di flusso a blocchi funzionali, formula matematica, linguaggio formale.
I dati sono spesso definiti mediante funzioni nel tempo continue o discrete, rappresentabili con un
grafico, una sequenza ordinata di valori, la traccia dellazione gestuale su un dispositivo di controllo, un procedimento algoritmico. Nella maggior parte dei casi i dati si riferiscono a parametri fisici
(tensione elettrica, frequenza di filtraggio, ecc.) e pertanto la partitura appare pi vicina alle antiche

CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE

1.14

intavolature per strumenti, che fissavano azioni esecutive, piuttosto che alle partiture tradizionali in
cui sono codificati i risultati percettivi dellesecuzione (altezza, dinamica, ecc). Ad esempio si veda
Studie II (1953) di K. Stockhausen in cui il modello definito nel testo introduttivo mentre i dati sono
stabiliti in una partitura grafica.
Partitura descrittiva - La realizzazione sonora dellopera viene indicata dal compositore notando
il risultato percettivo desiderato. Poich la musica elettronica, rispetto a quella tradizionale, utilizza
un vocabolario sonoro molto pi ampio (che comprende fra laltro suoni inarmonici e rumori che
si evolvono in uno spazio temporale continuo e offre al compositore la possibilit di creare i propri
"strumenti" virtuali e quindi le proprie sonorit) non esiste un linguaggio di n. che, analogamente
a quello tradizionale, metta in corrispondenza univoca il suono percepito con il segno o il simbolo.
Tali partiture pertanto sono poco precise e lasciano molto spazio al libero arbitrio del realizzatore.
In molti casi la partitura, se accompagna la realizzazione musicale del compositore, pu considerarsi
alla stregua di una partitura dascolto o di appunti sonori utili per mettere in luce lidea musicale e gli
elementi strutturali dellopera. Ad esempio si veda Traiettoria (1982-84) di M. Stroppa.
Partitura dascolto - Non finalizzata allesecuzione dellopera bens serve da supporto visivo e
analitico allascoltatore. Normalmente realizzata a posteriori da un musicologo basandosi sullascolto del nastro. Un primo significativo esempio la partitura di Artikulation (1958) di G. Ligeti
realizzata da R. Wehinger. Queste quattro tipologie spesso si integrano e convivono in ununica partitura. significativo il caso di Kontakte(1959/60) di K. Stockhausen che esiste in due versioni: una
elettronica con la relativa partitura operativa e laltra per pianoforte, percussioni e suoni elettronici
con la partitura esecutiva. Questultima pu essere utilizzata come partitura dascolto della versione
elettronica e in taluni punti anche partitura descrittiva. Nella musica informatica spesso la partitura
lunico mezzo per ottenere dallelaboratore il risultato sonoro. questo il caso dei programmi MUSIC
N la cui partitura un buon esempio di partitura operativa, oppure dei programmi pi recenti di aiuto
alla composizione basati su sistemi grafici.

1.3.3

BIBLIOGRAFIA

Le partiture delle opere elettroniche di K. Stockhausen: Universal, Vienna,1953-69 e Stockhausen


Verlag dal 1970
F. Evangelisti, Incontri di fasce sonore, Universal, 1957 G.M. Koenig, Essay, Universal, 1957
J. Cage, Imaginary Landscape N.5, Henmar, New York, 1961
R. Kayn, Cybernetics II, Suvini Zerboni, Milano, 1968
R. Wehinger, Ligeti, Artikulation, Schott, Mainz, 1970
M. Stroppa, Traiettoria deviata, Ricordi, Milano, 1982
P. Boulez, Dialogue de lombre double, Universal, 1985;
S. Sciarrino, Perseo e Andromeda, Ricordi, 1990
L. Nono, Omaggio a Gyrgy Kurtag, Ricordi,1983-96.

Capitolo 2

Elementi di Acustica e Psicoacustica


Carlo Drioli

Nicola Orio

c
Copyright 1999
by Carlo Drioli and Nicola Orio. All rights reserved.
versione 2004

2.1 Acustica: introduzione


La percezione sonora e` normalmente legata alle vibrazioni del timpano nellorecchio. Queste vibrazioni sono provocate da piccole variazioni di pressione nellaria. La variazione di pressione dellaria e` quindi lequivalente fisico del suono. Questo fenomeno pu`o essere visualizzato appoggiando
un foglio di carta sopra il cono di un altoparlante: quando viene emesso un suono, il foglio inizia a
vibrare. Infatti il movimento verso lesterno della membrana dellaltoparlante determina un aumento
di pressione e quindi spinge in fuori il foglio di carta. Inversamente il movimento verso linterno
della membrana determina una diminuzione di pressione ed attrae il foglio verso laltoparlante. La
membrana del timpano ha un comportamento analogo a quello del foglio di carta: un incremento di
pressione spinge la membrana del timpano verso linterno, mentre una diminuzione di pressione la
attrae verso lesterno. I movimenti del timpano sono quindi trasmessi alla coclea che li trasforma in
impulsi elettrici che vengono inviati al cervello attraverso le terminazioni nervose.

2.2 Oscillazioni e onde


Dato che il suono corrisponde a variazioni di pressione nellaria, e` naturale che le propriet`a di queste
variazioni determinino le propriet`a del suono percepito. Molti suoni musicali presentano variazioni
regolari di pressione. In particolare la regolarit`a implica che un determinato andamento della pressione
si ripeta nel tempo. Viene definita forma donda la ripetizione di tale andamento. In questo caso il
suono e` detto periodico e la durata della singola forma donda e` detta periodo, indicato con il simbolo
T e misurato in secondi. Se la funzione p(t) indica landamento della pressione nel tempo in un punto
dello spazio, per un suono periodico si ha la relazione:
p(t) = p(t + T )
Nel caso opposto, in cui landamento della pressione e` privo di qualsiasi regolarit`a, il segnale associato
viene percepito come rumore. Il rumore pu`o essere diviso di due classi principali:
2.1

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

2.2

rumore impulsivo: e` determinato da rapide variazioni di pressione circoscritte nellarco di pochi


millisecondi. Un tipico esempio di rumore impulsivo si ha quando un corpo rigido viene percosso. Va notato che il rumore impulsivo viene regolarmente generato durante la produzione di
suoni musicali, si pensi ad esempio al suono di chitarra nel quale e` chiaramente percepibile il
rumore prodotto dal plettro sulla corda; oppure al suono di pianoforte dove e` fondamentale per
il riconoscimento del timbro il rumore prodotto dal martelletto sulla corda.
rumore stazionario: ha generalmente una elevata estensione temporale ma e` comunque privo di regolarit`a. Tipici esempi di rumore stazionario sono il rumore prodotto dal vento o
quello proveniente da uno schermo televisivo in assenza di segnale (effetto neve). Per questo
genere di segnali audio si ricorre generalmente ad una descrizione statistica dellandamento
della pressione.
I suoni periodici1 sono alla base della musica occidentale e di molti altri repertori, per cui a questi
verr`a posta particolare attenzione.

2.2.1 Suoni periodici


E noto, dal teorema di scomposizione in serie di Fourier, che ogni funzione periodica pu`o essere
suddivisa nella somma di funzioni elementari. Per segnali reali, come nel caso dellandamento della
pressione in un mezzo trasmissivo, vale la relazione:

p(t) = a0 + an sin(
n=1

2nt
+ n )
T

Dalla formula risulta quindi che un suono periodico, di periodo T , e` scomponibile nella somma, pesata
dai termini an , di sinusoidi di periodo T, T /2, T /3, T /4, . . . Nella formula e` inoltre presente il termine
n che tiene conto della fase iniziale di ognuna delle sinusoidi, che in generale pu`o essere diversa per
ogni funzione elementare. Considerando che il suono solitamente si propaga in aria, ove e` gi`a presente
un termine costante dato dalla pressione atmosferica e tenendo conto che lorecchio e` sensibile alle
variazioni di pressione, il termine a0 viene usualmente trascurato. In Figura 2.1 vengono riportati
gli andamenti delle forme donda rispettivamente associate a una sinusoide, ad un segnale periodico
costituito da una somma di 16 sinusoidi in rapporto armonico tra loro e ad un segnale rumoroso
stazionario.
In campo musicale si e` soliti descrivere un suono periodico in termini di frequenza, usualmente
indicata con il simbolo f e misurata in Hertz (Hz). Il legame tra periodo T e frequenza f e` descritto
dalla formula
1
f=
T
La scomposizione di un suono periodico di frequenza f in forme donda elementari, indica che queste
avranno rispettivamente frequenze f , 2 f , 3 f , 4 f , . . . La sinusoide di frequenza f , pari alla frequenza
del suono periodico di partenza, e` detta fondamentale mentre le sinusoidi di frequenza multipla intera
di f vengono dette parziali. Si fa riferimento alle forme donda elementari che costituiscono un suono
con il termine armoniche.
La frequenza e` associata alla sensazione di altezza (pitch) di un suono: maggiore e` la frequenza,
maggiore risulta laltezza del suono, in altre parole il suono risulta pi`u acuto. Gli esseri umani sono
1 Spesso

viene compiuta dagli autori la distinzione tra suono e rumore in base alla presenza o meno di periodicit`a. In
questo contesto si `e preferito usare la terminologia alternativa suono periodico e suono aperiodico.

2.2. OSCILLAZIONI E ONDE

2.3

[a]

20

40

60

80

100
120
tempo (ms)

140

160

180

200

20

40

60

80

100
120
tempo (ms)

140

160

180

200

20

40

60

80

100
120
tempo (ms)

140

160

180

200

[b]

[c]

Figura 2.1: Andamento nel tempo di tre segnali rispettivamente con andamento: [a] sinusoidale, [b]
periodico (somma di 15 sinusoidi), [c] aperiodico
in grado di percepire suoni nellintervallo di frequenze da circa 20 Hz a circa 16 kHz, anche se alcuni
soggetti sono in grado di percepire suoni in intervalli pi`u ampi, ma comunque contenuti tra i 16 Hz
e i 20 kHz. Lestensione di un pianoforte, cos` come lestensione di unorchestra sinfonica, va da
27.5 Hz a 3729.3 Hz. Al di sotto di 15 Hz, le variazioni di pressione non vengono pi`u percepite
come un singolo suono ma come una rapida successione di impulsi. Frequenze al di sopra della
soglia di udibilit`a (ultrasuoni) non vengono percepite, quindi il filtraggio del segnale audio al di
sopra dei 20 kHz non ne altera la qualit`a percepita. E per questa ragione che, ricordando il teorema
del campionamento di Shannon, la frequenza di campionamento dei Compact Disc (44.1 kHz) e
sufficiente per una perfetta ricostruzione del segnale analogico originario dal punto di vista percettivo.

2.2.2 I suoni reali


Come si e` visto, la sinusoide e` la pi`u semplice forma donda perche non e` ulteriormente scomponibile.
I suoni prodotti dagli strumenti musicali acustici non hanno per`o mai un andamento cos` semplice. I
suoni naturali infatti sono sempre costituiti da serie di armoniche, che contribuiscono a dare ricchezza
ai suoni musicali. Si prendano come esempio i modi di vibrazione di una corda, fissata ai due estremi,
a sezione costante e lunghezza L. Si pu`o dimostrare, ricordando nozioni di fisica sul moto oscillatorio,
che la corda vibra alle frequenze:
p
i S/L
fi =
L
dove S e` la tensione della corda e L e` la massa per unit`a di lunghezza. Quindi la forma donda di
un suono prodotto da una corda e` la risultante di un insieme di sinusoidi a frequenza multipla di una
frequenza fondamentale. Analogamente, considerando i modi di vibrazione di un tubo acustico, si
pu`o dimostrare che un tubo aperto da entrambe le estremit`a pu`o vibrare alle frequenze:
fi =

ic
L

2.4

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

dove c e` la velocit`a del suono in aria e L e` la lunghezza del tubo. Da entrambi gli esempi proposti
risulta chiaro inoltre che una delle tecniche pi`u efficaci per lanalisi dei suoni e` lanalisi di Fourier,
ovvero la scomposizione dei suoni prodotti dagli strumenti musicali acustici in elementi fondamentali
(le sinusoidi).
In realt`a, i suoni prodotti dagli strumenti musicali non hanno mai un comportamento cos`i regolare. Innanzitutto le armoniche hanno un rapporto che solo approssimativamente pu`o essere espresso
come rapporto tra interi. Ad esempio la corda reale si differenzia dalla corda ideale principalmente a
causa di questa inarmonicit`a: le parziali risultano avere dei rapporti leggermente maggiori dei numeri
interi previsti dalla teoria (si dice in questo caso, usando il lessico musicale, che le parziali sono crescenti rispetto
alla fondamentale). Per esempuio nel pianoforte le frequenze delle parziali sono date da
fk = k f0 1 + B k2 dove B e` il coefficiente di inarmonicit`a, che dipende dai parametri della corda.
Alcuni suoni reali inoltre sono caratterizzati proprio dellassenza di armonicit`a; e` il caso delle
campane, nelle quali non e` nemmeno presente il termine relativo alla fondamentale e le armoniche
hanno rapporti solo approssimativamente armonici. Una seconda caratteristica dei suoni reali e` che
questi non sono mai esattamente periodici: le forme donda si ripetono nel tempo assumendo degli
andamenti simili, ma non del tutto uguali. Lorecchio percepisce quindi un andamento approssimativamente periodico, ma percepisce anche le variazioni nella forma donda, che contribuiscono a dare
dinamicit`a al suono prodotto. Infatti una delle caratteristiche dei suoni di sintesi e` appunto leccessiva
regolarit`a del loro sviluppo temporale. Questo spesso si traduce nella percezione di un suono che
rapidamente diventa poco interessante per lascoltatore.

2.3 Inviluppo dei suoni


Considerando la musica come una forma di comunicazione ottenuta attraverso lorganizzazione dei
suoni, risulta evidente che un suono perfettamente periodico in senso matematico (ovvero un suono
che si ripete indefinitamente) non consente alcuna forma di comunicazione. I suoni musicali vengono
quindi organizzati nella scala dei tempi; in particolare ogni suono ha un inizio e una fine che vengono
percepiti dallascoltatore. Grossa importanza nella comunicazione musicale ha levoluzione nel tempo
della forma donda. Come si e` visto un suono e` caratterizzato principalmente da una frequenza, legata
alla percezione del pitch, e da una ampiezza delle oscillazioni della pressione, legata alla percezione
di intensit`a. Una forma donda elementare che evolve nel tempo pu`o quindi essere espressa dalla
formula:
s(t) = A(t) sin(2 f t)
dove f e` la frequenza del suono e A(t) e` linviluppo di ampiezza del segnale. Per meglio chiarire
il concetto di inviluppo di ampiezza, prendiamo come esempio la generazione di un suono da una
corda di violino eccitata con larchetto. In condizioni di riposo la corda ha ovviamente vibrazione
nulla, e quindi non produce alcun suono. Quando il violinista inizia a sfregare larchetto sulla corda,
questa inizia a vibrare abbandonando la situazione di riposo. Esiste un periodo di tempo nel quale le
oscillazioni della corda, da nulle, si fanno sempre pi`u ampie. Questa viene definita fase di attacco e
solitamente indicata con il corrispondente termine inglese attack. Questa fase dura solitamente pochi
centesimi di secondo, in relazione al tipo di strumento musicale. La fase successiva a quella di attack e` definita con il termine inglese decay: corrisponde ad un rapido assestarsi della ampiezza ad un
valore stabile dopo una sovraelongazione a cui e` stata portata dalla fase di attack. Anche il decay e`
molto rapido. A questo punto, esaurito il transitorio di attacco, si e` realizzato un accoppiamento tra
lo sfregamento dellarchetto e le oscillazioni della corda. Questo corrisponde alla fase di sustain, che
pu`o durare anche parecchi secondi, nella quale il suono viene appunto sostenuto dal musicista, che

2.4. PROPAGAZIONE DEL SUONO

2.5

decay
sustain

attack

50

release

100

150

200
tempo (sec)

250

300

350

400

Figura 2.2: Evoluzione del segnale musicale nel tempo: sono evidenziate le parti di attack, decay,
sustain e release
continua a fornire lenergia necessaria per mantenere le vibrazioni. Lultima fase, che ha inizio nel
momento in cui il musicista smette di mantenere eccitato il sistema di vibrazione, viene denominata
release (ovvero rilascio) e corrisponde al tempo in cui il corpo vibrante (nel nostro esempio la corda
di violino) smorza lentit`a delle vibrazioni, fino a portarsi nuovamente nello stato di quite. In Figura 2.2 sono illustrate le quattro diverse fasi descritte. In questo caso la funzione inviluppo A(t) e` stata
approssimata con la successione di quattro segmenti, ma in generale pu`o assumere degli andamenti
molto pi`u complessi, solitamente seguendo una curva esponenziale. Va peraltro sottolineato che spesso, in sede di sintesi, si preferisce approssimare linviluppo con delle spezzate, poiche si e` visto che
la qualit`a sonora dei risultati non viene compromessa da questa approssimazione.

2.4 Propagazione del suono


Come detto, il suono ha natura oscillatoria: lo studio dellacustica musicale fa quindi riferimento alla
teoria delle onde. Il periodo e la frequenza sono quindi le caratteristiche principali a cui si far`a riferimento per lanalisi del comportamento di unonda acustica. Torniamo a fare riferimento al movimento
della membrana di un altoparlante, tenendo conto che considerazioni analoghe possono essere compiute, ad esempio, sul movimento oscillatorio di una colonna daria allinterno di un tubo acustico o
sulla membrana di uno strumento a percussione. Il movimento della membrana dellaltoparlante causa
compressione e rarefazione dellaria, che appunto corrispondono a variazioni di pressione acustica.
Quando la membrana si sta muovendo verso lesterno, le molecole presenti nellaria vengono compresse, determinando quindi un incremento della pressione locale. Questa incremento di pressione si
propaga agli strati daria adiacenti. Inversamente quando la membrana si muove verso linterno, si
crea una diminuzione di pressione che si propaga agli strati adiacenti. Ne risulta che le particelle daria
sono spinte leggermente in avanti e indietro nella direzione di propagazione del suono. Oscillazioni
di questo tipo vengono definite longitudinali, e sono tipiche della trasmissione del suono nellaria. Le
oscillazioni possono anche essere perpendicolari alla direzione di propagazione del suono. Ad esempio in una corda percossa la deformazione, che e perpendicolare alla corda, si propaga lungo la corda
stessa.

2.6

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

Se andiamo a misurare la pressione dellaria lungo la direzione di propagazione di un suono periodico, notiamo quindi una successione di aumenti e diminuzioni di pressione. Questa distribuzione
viene definita onda sonora. La distanza pi`u piccola tra due punti corrispondenti dellonda sonora (ad
esempio tra due massimi consecutivi) e` detta lunghezza donda. Essa e` comunemente indicata con il
simbolo . La lunghezza donda dipende dal periodo e dalla velocit`a di propagazione del suono. La
velocit`a del suono in aria viene solitamente indicata con la lettera c e, a temperatura ambiente (20 o C),
e` di circa 344 m/sec, ovvero 1238 km/h. La relazione tra periodo T , velocit`a del suono c e lunghezza
donda e`
= cT
Utilizzando la definizione di frequenza data in precedenza, si ottiene la seguente relazione:
f=

che pone in evidenza come la frequenza sia inversamente proporzionale alla lunghezza donda. Si
riconosce questa relazione in molti strumenti musicali. Ad esempio le corde corrispondenti alle note
gravi del piano sono lunghe, mentre quelle corrispondenti alle note acute sono corte. Negli organi le
note basse sono generate dalle canne pi`u lunghe. Ricordando che le frequenze udibili sono contenute
nellintervallo da 20 Hz a 16 kHz, sostituendo i valori numerici nella formula che lega frequenza e
lunghezza donda, otteniamo che le lunghezze donda dei suoni udibili vanno da circa 17 m (suono
grave) a 21 cm (suono acuto). La velocit`a del suono nellaria dipende dalla temperatura, aumenta
di circa 0.6 m/sec per grado centigrado, mentre e` indipendente dalla pressione atmosferica e dalla
frequenza del suono.
La velocit`a dipende inoltre anche dal mezzo in cui si propaga. In Tabella 2.1 vengono riportate
le velocit`a di propagazione, a 0o C, per alcuni mezzi trasmissivi. Queste differenze implicano che la
lunghezza donda di un suono ad una data frequenza vari a seconda del mezzo in cui si propaga. Ad
esempio, poiche la velocit`a di propagazione in acqua e` circa 4.35 volte maggiore di quella in aria, le
due lunghezze donda in acqua e in aria manterranno la stessa proporzionalit`a.
Mezzo trasmissivo
Gomma
Ossigeno
Aria
Azoto
Idrogeno
Acqua marina
Acciaio
Vetro

Velocita` (m/sec)
70
317
331
337
1270
1440
5050
12000 - 15000

Tabella 2.1: Velocit`a di propagazione del suono a 0o C in alcuni mezzi trasmissivi

2.4.1 Onde sferiche e onde piane


La sorgente sonora pi`u semplice da analizzare e` la sfera pulsante. Si tratta evidentemente di una
situazione ideale in cui una sfera si contrae e si espande radialmente attorno ad una posizione media.
La variazione di pressione causata dalle pulsazioni della sfera si espande con la stessa efficienza in
tutte le direzioni, dando luogo ad una onda sferica. Unaltra semplice sorgente sonora pu`o essere

2.4. PROPAGAZIONE DEL SUONO

2.7

considerato un pistone che si muove allinterno di un tubo. Se vengono trascurati gli effetti ai bordi
del tubo, il movimento del pistone causer`a una variazione di pressione solamente lungo la direzione
del movimento. Avremo in questo caso una onda piana, che si proponga in ununica direzione. A
distanze sufficientemente elevate, il raggio di curvatura di unonda sferica pu`o essere considerato
trascurabile, e anche in questo caso londa si considera piana.
In situazioni non ideali, la propagazione del suono non ha un andamento cos` semplice. In particolare, la propagazione in un mezzo non omogeneo d`a adito ad alcuni fenomeni analoghi a quelli
riscontrati nella propagazione della luce. Tra questi i principali sono la diffrazione e la riflessione.

2.4.2 Diffrazione
Nel caso di una sorgente reale, come ad esempio il cono di un altoparlante o la campana di una tromba,
lefficienza di irradiamento dipende dalla lunghezza donda. Questo effetto viene definito diffrazione.
Se la dimensione della sorgente (ad esempio il raggio dellaltoparlante) e` piccola rispetto alla lunghezza donda, la sorgente pu`o essere considerata puntiforme e irradiante in tutte le direzioni con la stessa
efficienza, generando quindi onde sferiche. Nel caso la lunghezza donda sia confrontabile con le
dimensioni della sorgente, il suono viene irradiato con efficienza diversa a seconda della direzione. In
particolare se la lunghezza donda e` minore della dimensione della sorgente vi e` un angolo al di sopra
del quale non vi e` praticamente irradiamento. In Figura 2.3 viene illustrata la diversa diffrazione nel
caso la dimensione dellapertura D sia, rispettivamente, minore o maggiore della lunghezza donda .

Figura 2.3: Effetto della diffrazione nei casi > D in [a] e < D in [b]
Un primo effetto della diffrazione e` la direzionalit`a dei suoni acuti rispetto ai suoni bassi: e` per
questo motivo che e` molto pi`u semplice identificare la posizione di una sorgente se questa emette frequenze acute. Di questo fenomeno tengono conto gli apparecchi HiFi, nei quali le basse frequenze non
necessitano di diffusione stereofonica. Inoltre e` a causa della diffrazione che le frequenze basse possono essere pi`u facilmente percepite anche in presenza di ostacoli che non consentono la propagazione
diretta del suono, come ad esempio nel caso di stanze comunicanti. Leffetto della diffrazione e` inoltre responsabile del tipo di propagazione della voce: essendo lapertura della bocca sufficientemente
piccola rispetto alle frequenze di emissione sonora, le onde sonore hanno propagazione sferica.
Inoltre la direzionalit`a della voce e` rinforzata dalleffetto di un secondo fenomeno, legato al comportamento delle onde in presenza di ostacoli (nel caso della voce lostacolo e` la testa dello stesso
parlante). Infatti quando unonda incontra un ostacolo di dimensioni piccole rispetto alla lunghezza
donda (suono grave, ostacolo piccolo), il suono viene diffratto e riesce a superare lostacolo. Nel
caso contrario (suono acuto, ostacolo grande) il suono non riesce a superare lostacolo e si crea una
zona dombra. Questo avviene perche le onde sonore sono maggiormente riflesse che diffratte. Tornando al caso della voce, questo fenomeno spiega perche e` difficile capire il parlato ponendosi dietro
ad una persona, nonostante si percepisca comunque il suono: sono le basse frequenze quelle che mag-

2.8

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

giormente riescono ad aggirare lostacolo, ma queste non sono sufficienti per rendere intelligibile il
parlato (in particolare, come si vedr`a, non vengono riconosciuti i formanti).

2.4.3 Riflessione
In generale avviene una riflessione ogni volta che cambiano le caratteristiche del mezzo trasmissivo.
La causa pi`u comune della riflessione e` la presenza di una discontinuit`a, ad esempio quando unonda
che si propaga in aria incontra un ostacolo. Ponendosi nel caso pi`u semplice, si pu`o supporre lostacolo
come una parete liscia di dimensioni sufficientemente grandi rispetto alla lunghezza donda. In questo
caso si ha che londa viene parzialmente riflessa e parzialmente assorbita, e che langolo di riflessione
e` uguale allangolo di incidenza. La percentuale di onda assorbita dipende dal tipo di materiale.
Nel caso londa si rifletta su di una superficie irregolare, ove le irregolarit`a abbiano dimensioni
paragonabili alla lunghezza donda, si ha un tipo di riflessione detta eco diffuso, dove la direzione
di propagazione varia a seconda della lunghezza donda e della forma dellostacolo. Leffetto della
riflessione e` estremamente importante nella progettazione di sale da concerto e di teatri, e lacustica
architettonica e` divenuto un ramo molto importante dellacustica. A causa della riflessione alle pareti,
allascoltatore infatti non giunge solamente il suono proveniente dagli strumenti musicali (o dalla voce
degli attori), ma anche una successione di onde riflesse che, a causa della maggiore distanza percorsa,
giungono allascoltatore con un dato ritardo. Questo fenomeno e` noto con il nome di riverberazione,
il cui controllo e` uno dei principali obiettivi dellacustica architettonica.
Sono state progettate inoltre particolari camere nelle quali la riflessione delle pareti e` resa massima
(camere ecoiche) o minima (camere anecoiche). In una camera ecoica, lelevata riflessione delle
pareti, fa si che il suono in un punto giunga con lo stessa intensit`a da tutte le direzioni: le camere
ecoiche sono quindi utilizzate per effettuare misure della potenza acustica di un sistema. Al contrario,
in una camera anecoica, la riflessione alle pareti e` pressoche nulla e quindi il suono che giunge in
un determinato punto proviene esclusivamente dalla sorgente: le camere anecoiche sono appunto
utilizzate per studiare le caratteristiche delle sorgenti sonore.

2.5 Intensit`a del suono


Si e` detto che lequivalente fisico del suono e` la variazione di pressione nellaria (la pressione si misura
in pascal, simbolo Pa). Lentit`a delle variazioni di pressione e` legata alla percezione di volume sonoro
(loudness): maggiore e` la variazione di pressione, maggiore e` il volume sonoro percepito. Spesso, pi`u
che non ai picchi nella variazione di pressione, si fa riferimento alla pressione efficace, simbolo p e f f ,
che e` la media quadratica delle variazioni di pressione. In inglese viene chiamata p rms Essa e` definita
come
s
Z t2
1
p(t)2 dt
pe f f =
t2 t1
t1
dove lintegrazione avviene su un periodo per suoni periodici e su un intervallo idealmente infinito
per suoni non periodici. Nel caso di un andamento sinusoidale della pressione del tipo
p = P0 sin(

2t
)
T

si ha pe f f = P0 / 2. La minima pressione efficace che pu`o essere percepita e` di 0.00002 Pa, mentre la
soglia del dolore varia intorno ai 20 Pa, in relazione alla frequenza del suono come vedremo in seguito
parlando di psicoacustica.

` DEL SUONO
2.5. INTENSITA

2.9

Si consideri di dover determinare il volume sonoro prodotto da una sorgente. Lesperienza comune ci dice che la pressione efficace di un suono varia in relazione alla distanza della sorgente;
inoltre, come si e` visto parlando della diffrazione, una sorgente sonora pu`o irradiare in maniera diversa in differenti direzioni. Infine il fenomeno della riflessione pu`o ulteriormente complicare la
misurazione, rendendola sensibile, non solo alla distanza e alla posizione rispetto alla sorgente, ma
anche alla presenza di ostacoli o elementi riflettenti. E per questa ragione che una sorgente sonora
viene caratterizzata in base alla propria potenza acustica, ovvero in base al lavoro prodotto nellunit`a
di tempo. Come ogni potenza, anche la potenza acustica si misura in watt (W). In Tabella 2.2 viene
riportata la potenza acustica del parlato e di alcuni strumenti musicali. Gli strumenti musicali sono
comunque caratterizzati da una bassissima efficienza, ovvero il rapporto tra i watt acustici e i watt
spesi si aggira intorno all1%.
Sorgente sonora
Parlato (normale)
Parlato (litigio)
Cantante lirico
Clarinetto
Tromba
Pianoforte
Trombone
Orchestra

Potenza (W)
105
103
0.03
0.05
0.3
0.4
6
60

Tabella 2.2: Potenza massima prodotta da alcune sorgenti sonore

Si definisce intensit`a acustica (simbolo I) la potenza media trasmessa per unit`a di superficie nella
direzione di propagazione dellonda. Si pu`o dimostrare che, per onde piane e onde sferiche, vale la
relazione:
p2e f f
I=
c
dove e` la densit`a del mezzo trasmissivo (in aria, a temperatura ambiente e a pressione atmosferica
standard = 1.21 kg/m3 ) e, al solito, pe f f e` la pressione efficace e c e` la velocit`a del suono nel mezzo.
Considerando lintervallo di valori assunti dalla pressione efficace, si nota che lintensit`a acustica
assume valori in un range molto elevato, andando da circa 10 12 W/m2 per la soglia di udibilit`a a
circa 1 W/m2 per la soglia del dolore.

2.5.1 Decibel e misure del suono


I valori di pressione, potenza e intensit`a acustica dei suoni si distribuiscono in un intervallo di valori
molto esteso. Per questa ragione queste grandezze sono comunemente espresse in scala logaritmica.
Va inoltre osservato che la scala logaritmica ha un andamento pi`u vicino a quello delle scale percettive
che verranno illustrate nel capitolo 2.11. Viene definito come livello di pressione acustica (in inglese
pressure level, con simbolo PL) il logaritmo del rapporto tra la pressione misurata e una pressione di
riferimento. In formule:
p
PL = 20 log10
pre f

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

2.10

dove si fa implicitamente riferimento alla pressione efficace. Il valore di PL e` adimensionale e


viene espresso in decibel (dB). In tabella 2.3 sono riportati alcuni valori in decibel di rapporti usati
frequentemente in acustica e in ingegneria.
decibel
rapporto

0
1/1

6.02
2/1

10
10

20
10/1

-20
1/10

40
100/1

60
1000/1

Tabella 2.3: Valori in decibel di rapporti usati frequentemente in acustica e in ingegneria.

In generale non e` necessario utilizzare una pressione di riferimento standard. Pu`o risultare comunque conveniente utilizzare come riferimento la minima pressione efficace udibile p 0 = 0.00002
Pa; in questo caso si parla di Sound Pressure Level (SPL) che viene quindi definito come:
SPL = 20 log10

p
p
= 20 log10
p0
0.00002

SPL = 20 log10 p + 94

Valori di SPL possono essere convertiti in valori di pressione acustica mediante la formula inversa
p = p0 10L p /20
Analogamente, anche la potenza e lintensit`a acustica vengono espresse in decibel utilizzando un
valore di riferimento. Il livello di potenza acustica (in inglese soundpower level, simbolo L W ) e`
definito dalla formula:
P
LW = 10 log10
Pre f
dove P e` la potenza acustica misurata in watt, e Pre f e` una potenza di riferimento, normalmente
assunta Pre f = P0 = 1 1012 [W]. Si noti il fattore 10 invece che 20 dovuto al fatto ceh le potenze
sono proporzionali al quadrato delle pressioni. Il livello di intensit a` acustica (in inglese intensity
level, simbolo IL) e` definito dalla formula:
IL = 10 log10

I
Ire f

Anche in questo caso non e` necessario scegliere un riferimento standard. Spesso si sceglie I re f = I0 =
1 1012 [W /m2 ]. Dalla formula si ricava agevolmente il raddoppiamento dellintensit`a corrisponde
ad un aumento di 10 log 2 = 3 dB.
La scelta di moltiplicare il logaritmo per un coefficiente 10 e` dovuta alla semplicit`a di notazione
che ne consegue: utilizzando come riferimento la minima intensit`a udibile, la scala in decibel assume
valori da 0 (soglia di udibilit`a) a 120 (soglia del dolore) e risulta quindi pi`u pratica della scala in Bel.
Si pone in evidenza che il fattore moltiplicativo e` diverso per la misura di pressione e di intensit`a e
rispecchia la relazione di proporzionalit`a tra lintensit`a e il quadrato della pressione precedentemente
espressa (si ricorda che lelevamento al quadrato nei logaritmi corrisponde alla moltiplicazione per 2).
In Tabella 2.4 vengono riportati i valori in dB prodotti da un orchestra a seconda delle indicazioni di
volume nella partitura e da diverse sorgenti sonore.
Anche se la soglia del dolore e` intorno a 120 dB, una prolungata esposizione a sorgenti sonore
di elevata intensit`a pu`o causare danni permanenti allorecchio. In particolare e` considerata a rischio
lesposizione a 100 dB, mentre le leggi sulla sicurezza obbligano luso di apposite cuffie negli ambienti
di lavoro nel caso di prolungata esposizione ad un livello di intensit`a superiore a 85 dB.

` DEL SUONO
2.5. INTENSITA
Indicazione

ppp
pp
p
mp
mf
f
ff
fff

2.11
Sorgente sonora
Silenzio
Spillo che cade
Sussurro a 1m
Sala vuota
Libreria
Interno auto silenziosa
Conversazione pacata
Traffico
Fabbrica
Metropolitana
Discoteca
Concerto rock
Jet in partenza a 500m

Intensita` (dB)
0
10
20
30
40
50
60
70
80
90
100
110
120

Tabella 2.4: Livello di intensit`a associato alle indicazioni di partitura (prima colonna) e prodotto da
alcune sorgenti sonore (seconda colonna)

I valori riportati in Tabella 2.4 vanno presi come puramente indicativi. In particolare le indicazioni
di partitura hanno solo una corrispondenza approssimativa con i valori in dB, poiche dipendono dalla
rumorosit`a della sala, dalla dinamica degli strumenti e dalle diverse scelte esecutive. Inoltre si e` gi`a
accennato al fatto che il valore dellintensit`a e della pressione variano con la distanza. Si prenda
ad esempio una sorgente approssimativamente puntiforme, a cui corrisponde la propagazione di un
onda sferica. Dalla definizione di intensit`a sappiamo che, a parit`a di potenza della sorgente, questa
risulta proporzionale allinverso della superficie attraversata dallonda. La dimensione della superficie
sferica S dipende dal raggio r e quindi dalla distanza dalla sorgente, secondo la relazione S = 4r 2 .
Nel caso si raddoppi la distanza la superficie risulta quadruplicata. Applicando la formula per il
calcolo del livello di intensit`a si ottiene una variazione di 6 dB. Nel caso la sorgente sia, invece,
una colonna di traffico la propagazione non e` sferica, ma cilindrica: il raddoppiamento della distanza
porta al raddoppiamento della superficie, a cui corrisponde una attenuazione di soli 3 dB. E per
questo motivo che il rumore causato dal traffico viene percepito a distanza maggiori che non il rumore
di sorgenti singole (ad esempio macchinari industriali).
Il livello di intensit`a acustica dipende evidentemente anche dal numero di sorgenti presenti. E
possibile dimostrare che, nel caso di sorgenti tra loro scorrelate, lincremento massimo del livello di
intensit`a dato dalla somma di due sorgenti e` di 3 dB e che questo si verifica quando le due sorgenti
hanno pari intensit`a. In Figura 2.4 viene illustrato landamento dellincremento del livello di intensit`a
sonora, rispetto la sorgente di intensit`a maggiore, nel caso di due sorgenti scorrelate, in funzione
dellintensit`a di una delle due sorgenti (laltra e` fissa a 60 dB). Risulta evidente che nel caso di sorgenti
con intensit`a molto diverse, leffetto della sorgente con maggiore intensit`a risulta preponderante; ad
esempio nel caso di due sorgenti a 60 dB e 70 dB la risultante e` a 70.4 dB.
In generale due suoni non coerenti, con livello di intensit`a IL 1 e IL2 rispettivamente, il livello
risultante deriva dalla somma delle potenze
ILtot = 10 log10

P1 + P2
= 10 log10 (10IL1 /10 + 10IL2 /10 )
P0

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

2.12

3.5

Incremento di IL (dB)

2.5

1.5

0.5

0
0

20

40
60
80
IL di una delle sorgenti (dB)

100

120

Figura 2.4: Incremento del livello di intensit`a, rispetto la sorgente di intensit`a maggiore, nel caso di
due sorgenti, la prima fissa a 60 dB e la seconda variabile da 0 dB a 120 dB

2.6. PSICOACUSTICA: INTRODUZIONE

2.13

2.6 Psicoacustica: introduzione


Con il termine musica si fa generalmente riferimento a un complesso di processi che vanno dalla
generazione di pattern sonori fino alla percezione e alla elaborazione del messaggio musicale da parte
di un ascoltatore. Il processo di produzione e percezione del suono si pu`o schematizzare come una
catena di tre sistemi connessi detti sorgente, mezzo e ricevitore, le cui funzioni sono riportate in
Figura 2.5.

Figura 2.5: Le funzioni dei sistemi sorgente, mezzo e ricevitore


In queste note si analizza il sistema ricevitore, cio`e come i suoni vengono elaborati ed interpretati
dal sistema uditivo e dal cervello.

2.7 Caratteristiche fisiche del suono e sensazioni uditive


Sentiamo un suono quando il timpano dellorecchio viene eccitato da unonda di pressione avente
caratteristiche fisiche ben definite (come intensit`a o periodicit`a). La conseguenza per noi e` una
percezione del fenomeno costituita da diverse sensazioni che ci permettono di distinguere quel suono
rispetto ad altri. Le tre sensazioni primarie che accompagnano lascolto di un suono sono: altezza,
intensit`a e timbro (in inglese, rispettivamente pitch, loudness e timbre). Queste sensazioni sono il
risultato della elaborazione dellorecchio e del cervello e non sono grandezze misurabili direttamente
(sono, invece, misurabili le quantit`a fisiche del suono che sono principali cause di altezza, intensit`a e
timbro). Per suoni periodici (o quasi periodici), il pitch e` determinato principalmente dalla frequenza
fondamentale (si ricorda che la frequenza fondamentale di un suono e` il numero di ripetizioni in un
secondo del pattern di vibrazione). Tra i suoni periodici si distinguono i suoni puri, formati cio`e da
una sola componente sinusoidale. Visto nel dominio della frequenza, un suono puro e` rappresentato
con una riga in corrispondenza della frequenza della sinusoide. Per un suono composto da pi`u armoniche (sinusoidi), la frequenza fondamentale e` il massimo comun divisore della serie di frequenze
che costituiscono lo spettro.

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

2.14

Lintensit`a percepita dipende dal flusso di energia che accompagna la vibrazione. Essa e` tuttavia
dipendente anche da altri fattori quali pitch, durata e presenza di altri suoni.
Il principale elemento che caratterizza il timbro e` lo spettro di energia. Come si avr`a modo di
vedere, levoluzione temporale dello spettro e` un elemento fondamentale per il riconoscimento e la
caratterizzazione dei suoni strumentali. Se un suono viene privato del proprio attacco, viene persa,
nella gran parte dei casi, la capacit`a dellascoltatore di riconoscere chiaramente lo strumento acustico.
Oltre alle sensazioni primarie appena viste, ne esistono altre che rivestono notevole importanza
nel processo percettivo. La direzionalit a` e` una sensazione legata alla percezione dei suoni, ed e` legata
alla differenza di fase con cui il suono giunge alle orecchie (differenza che e` dovuta alla direzione
di incidenza del suono). Consonanza e dissonanza sono infine due sensazioni (indotte, legate cio`e al
condizionamento culturale) provocate dalla sovrapposizione di due o pi`u suoni e dai battimenti dovuti
alla sovrapposizione (si parler`a nel seguito del fenomeno dei battimenti). Il rapporto fra le frequenze
e la frequenza di battimento determinano il grado di consonanza e dissonanza percepito.
I messaggi musicali sono composti da suoni che si avvicendano nel tempo e da pattern ritmici che
si ripetono nel tempo. Il tempo ha dunque un ruolo determinante nella costruzione di elementi essenziali del messaggio musicale come la melodia ed il ritmo. Nella Tabella 2.7 si mettono a confronto le
sensazioni delludito con le scale dei tempi relative alla loro elaborazione e con lo stadio del processo
uditivo in cui tali sensazioni sono elaborate.
SCALA
DEI
TEMPI (s)

LUOGO DI ELABORAZIONE

SENSAZIONE

6 105 6
102
0.1

orecchio interno

altezza, intensit`a, timbro


transitori,
timbro,
direzionalit`a,
identificazione,
discriminazione
ritmo, messaggio musicale
breve termine (sequenzializzazione, parlato)
lungo termine (integrazione spaziale (visiva) e temporale (uditiva))

> 0.1

collegamento nervoso
tra orecchio e corteccia
corteccia cerebrale
emisfero sinistro
emisfero destro

INFLUENZA
(Cultura,
Ambiente, Stato)
debole

forte

Tabella 2.5: Scala dei tempi e luogo di elaborazione per le sensazioni


Lindagine quantitativa sulle sensazioni appena viste e` condotta attraverso misure psicofisiche
su soggetti umani. Oggetto delle misure (i cui dati sono trattati solitamente con metodi statistici)
sono soglie, soglie differenziali, eguaglianza e scale di valori. Misure di soglia e soglia differenziale
mirano a stabilire ad esempio a quale intensit`a un suono inizia ad essere percepito o qual`e la minima
variazione di frequenza per cui la sensazione di pitch cambia; misure di uguaglianza servono a stabilire
ad esempio quando due suoni a frequenza diversa hanno uguale intensit`a; misure su scale di valori
mirano a stabilire ad esempio quando due suoni sono percepiti con altezza o intensit`a doppia o tripla.

2.8. LORGANO DELLUDITO

2.15

2.8 Lorgano delludito


Il sistema uditivo umano ha una struttura complessa e svolge funzioni notevolmente avanzate. Non
solo e` in grado di elaborare un ampio insieme di stimoli, ma pu`o identificare precisamente laltezza
o il timbro di un suono, o la direzione da cui esso proviene. Molte funzioni del sistema uditivo
vengono svolte dallorgano che chiamiamo orecchio, ma grande enfasi di recente viene attribuita alla
elaborazione che ha luogo nel sistema nervoso centrale. Per semplificarne la descrizione, lorecchio e`
spesso diviso in tre parti principali: orecchio esterno, orecchio medio ed orecchio interno (Figura 2.6).
Lorecchio esterno e` formato dalla pinna esterna e dal canale uditivo (meato). Lorecchio medio
inizia con la membrana del timpano, alla quale e` attaccato il primo dei tre ossicini (chiamati martello,
incudine e staffa) che compongono questo stadio. Il compito di questi ultimi e` quello di amplificare il
moto del timpano (essi formano un sistema di leve) e di trasferirlo ad unaltra membrana, la finestra
ovale. Con la finestra ovale inizia lorecchio interno, formato principalmente dalla coclea. La coclea
contiene i meccanismi per trasformare le variazioni di pressione in corrispondenza del timpano in
impulsi nervosi che vengono interpretati dal cervello come suono.

Figura 2.6: Le funzioni dei sistemi sorgente, mezzo e ricevitore


Nel dettaglio, vediamo come la coclea ci aiuta a percepire laltezza (pitch) di un suono puro.
Questo organo e` costituito da una cavit`a divisa in due da una membrana (membrana basilare) e contenente un liquido incomprimibile (perilinfo) che passa da una parte allaltra della membrana attraverso
unapertura (elicotrema). Le vibrazioni trasmesse dallorecchio medio alla finestra ovale si trasmettono al fluido del dotto cocleare, che a sua volta provoca un moto della membrana basilare simile a
quello di una bandiera. Lungo la membrana basilare, circa 30000 recettori nervosi (cellule ciliate)
convertono il moto della membrana in segnali che sono a loro volta trasmessi ai neuroni del nervo
acustico. E importante sottolineare che, a fronte di un suono puro di una data frequenza, il massimo

2.16

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

della ampiezza di oscillazione della membrana basilare e` localizzato in una regione ben delimitata della membrana. La posizione di questa regione dipende dalla frequenza del suono. Per ogni frequenza
c`e dunque una regione di massima sensibilit`a della membrana (regione di risonanza). Pi`u bassa e` la
frequenza e pi`u la regione di risonanza e` prossima allApex (elicotrema). Lestensione delle frequenza
udibili va da 16 Hz a 20 kHz.

Figura 2.7: Posizione della zona di risonanza sulla membrana basilare


In Figura 2.7 si pu`o osservare come la posizione x (misurata dalla base, Figura 2.6) della regione
di massima risonanza varia al variare della frequenza f di un suono puro. Dalla figura e` possibile
trarre alcune considerazioni fondamentali:
Lestensione di frequenze che va approssimativamente da 20 Hz fino a 4000 Hz copre circa i
due terzi dellestensione della membrana basilare (dai 12 ai 35 mm dalla base). La rimanente
porzione della scala di frequenze (4000 - 16000 Hz) e` compressa nel rimanente terzo. Il range
di frequenze visto corrisponde alle prime 7 ottave musicali, riconosciute come le pi`u importanti
in musica.
A fronte di un raddoppio della frequenza (salto di ottava) dello stimolo sinusoidale la regione
di risonanza subisce uno spostamento costante di 3.5-4 mm, indipendentemente dalla frequenza
di partenza. In altre parole, quando la frequenza f e` moltiplicata per un dato valore, la posizione del massimo di risonanza viene traslata di una certa quantit`a seguendo una legge di tipo
logaritmico.

2.8. LORGANO DELLUDITO

2.17

2.8.1 Percezione di altezza dei suoni puri e discriminazione del pitch (JND di frequenza)
Il pitch e` una sensazione soggettiva. In molte scale musicali si tende a considerare lottava come unit`a
fondamentale: note giudicate essere luna lottava dellaltra hanno frequenze luna il doppio dellaltra,
anche se il rapporto di 2:1 non sempre e` esatto. Tuttavia esiste una discordanza, particolarmente evidente al di sopra dei 1000 Hz, fra la frequenza reale del suono puro e laltezza mediamente percepita
dallascoltatore (Figura 2.8).

Figura 2.8: Altezza in frequenza (linea tratteggiata) e giudizio medio (linea continua)
Allo scopo di avere per il pitch una scala coerente con la curva di percezione dellaltezza, e` stata
introdotta la scala mel (Figura 2.9). Per definizione, infatti, a 1000 Hz corrispondono 1000 mel (con
pressione sonora 60 db sopra la soglia di udibilit`a a 1000 Hz) e ad ogni ottava i mel si raddoppiano (o
si dimezzano). La scala mel e` una scala psicofisica del pitch.

Figura 2.9: Scala mel


La capacit`a di distinguere tra due stimoli pressoche uguali e` spesso caratterizzata, negli studi

2.18

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

psicofisici, da una misura di minima differenza apprezzabile (just noticeable difference, JND). Due
stimoli sono giudicati uguali se differiscono per meno del JND. In psicoacustica si incontrano misure
di JND per molte delle sensazioni uditive. Gli studi sulla percezione del pitch hanno mostrato che il
JND di frequenza dipende, oltre che dal valore di frequenza iniziale dello stimolo, anche dallintensit`a
sonora, dalla durata e dalla velocit`a di variazione della frequenza (per cambiamenti improvvisi le
soglie si abbassano anche di 30 volte). La Figura 2.10 mostra il JND medio per suoni puri al variare
della frequenza. Si pu`o notare che la risoluzione di frequenza (definita come JND
fc , con f c frequenza
centrale) e` massima intorno ai 2000 Hz e raggiunge il suo minimo alle basse frequenze.

Figura 2.10: Soglia differenziale (JND) per la frequenza


La descrizione del meccanismo di discriminazione delle frequenze (noto come teoria della localizzazione) cerca di spiegare il fenomeno della percezione del pitch attraverso la conversione di una
vibrazione temporale in una vibrazione nello spazio ad opera della coclea. Questa teoria spiega alcuni
fenomeni, ma non fornisce una spiegazione completa del funzionamento della percezione dellaltezza. Non spiega, ad esempio, perch`e percepiamo suoni complessi come una sola entit`a avente una
altezza ben definita, pur risuonando la membrana basilare in corrispondenza di ogni componente del
suono. Ne spiega perch`e percepiamo laltezza corretta anche in suoni complessi nei quali la componente fondamentale sia stata eliminata (fenomeno noto come ricostruzione della fondamentale). Si
vedr`a in seguito come alla teoria spaziale ne venga affiancata unaltra, detta teoria temporale o della
periodicit`a, per cercare di spiegare questi fenomeni.

2.9. SOVRAPPOSIZIONE DI SUONI PURI

2.19

2.8.2 Pitch e intensit`a dei suoni puri


La frequenza dello stimolo sinusoidale risulta essere il parametro fondamentale nella determinazione
della sensazione di altezza. Tuttavia, esso non e` il solo. Gli esperimenti di Stevens (1937) hanno
mostrato che al crescere dellintensit`a dello stimolo da 40 a 90 db, per frequenze al di sopra dei 1000
Hz il pitch percepito subisce un incremento, mentre per frequenza al di sotto dei 1000 Hz esso subisce
un decremento rispetto allintensit`a iniziale. Per frequenze intorno ai 1000 Hz, la variazione e` quasi
nulla. Questi dati sono riassunti nel diagramma di Stevens e Wolkmann (Figura 2.11).

Figura 2.11: Diagramma di Stevens e Wolkmann (1937). Variazione del pitch di una sinusoide in fun una sinusoide di 150 Hz passando da 45 a 90 dB scende in pitch del 12%, circa
zione dellintensitEs.
di due semitoni. Una curva discendente implica che la frequenza del suono deve essere aumentata per
avere la stessa sensazione di pitch.

2.9 Sovrapposizione di suoni puri


In tutti gli esperimenti di cui si e` trattato fin ora, si e` fatto implicitamente riferimento a stimoli uditivi
composti da una sola componente sinusoidale. Si vuole vedere adesso quali sono gli effetti prodotti
dalla sovrapposizione di due suoni puri. Classificheremo gli effetti risultanti in due famiglie: gli
effetti del primo ordine e quelli del secondo ordine. Gli effetti del primo ordine sono caratterizzati
dallessere elaborati nellorecchio interno (elaborazione meccanica), mentre quelli del secondo ordine
sono caratterizzati dallessere elaborati in uno stadio successivo (elaborazione neurale).

2.9.1 Gli effetti del I ordine


Effetti del primo ordine emergono quando lo stimolo uditivo e` costituito da due suoni puri con stessa
frequenza e fase, e la frequenza di uno dei due stimoli viene fatta crescere (o decrescere) gradualmente.

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

2.20
2.9.1.1

Battimenti del I ordine

Sia f1 la frequenza del primo suono e f 2 quella del secondo e sia inizialmente f 1 = f2 . Finche i due
suoni presentano stessa frequenza e stessa fase iniziale, la membrana basilare presenta una eccitazione
in corrispondenza della posizione relativa alla frequenza comune, di ampiezza pari alla somma delle
ampiezze dei due stimoli. Quando la frequenza di uno dei due stimoli comincia a crescere ( f 2 =
f1 + f ) e fino a quando f non supera un certo valore f d , lascoltatore percepisce un unico suono
a frequenza f = ( f 1 + f2 )/2 e modulato in ampiezza. Questa modulazione di ampiezza e` chiamata
battimento del I ordine. La frequenza di battimento del primo ordine e` pari a f b = ( f 2 f1 ). La
spiegazione e` nella formula della somma di due suoni puri:
sin 1t + sin 2t = 2 sin

(1 + 2 )t
(1 2 )t
cos
2
2

(2.1)

con t = 2 f t. Si vede che largomento del seno determina laltezza del suono ( f = f1 +2 f2 = f1 + 2f ),
mentre largomento del coseno determina la frequenza di battimento f b = 2( f2 2 f1 ) = f2 f1 = f
(figg. 2.12 e 2.13).

Figura 2.12: Battimenti del I ordine: frequenza di battimento

2.9.1.2

Bande critiche

Allaumentare del modulo di f oltre i 15Hz, la sensazione di battimento scompare, lasciando il posto
a una sensazione sgradevole di ruvidit`a (roughness). Quando f supera in modulo la grandezza f D
(soglia di discriminazione) i due suoni risultano distinguibili, pur esistendo ancora la sensazione di
ruvidit`a del suono. Solo quando il modulo di f supera una seconda soglia f CB , la sensazione dei
due suoni distinti risulta netta e piacevole. La grandezza 2 f CB e` chiamata banda critica (Figura 2.14).
La Figura 2.15 mostra come la discriminazione del pitch f D e la banda critica fCB dipendono
dalla frequenza centrale. Dalla figura si pu`o vedere anche come alcuni intervalli musicali siano consonanti o dissonanti a seconda della frequenza centrale (semitono, tono e terza minore hanno rapporti di
frequenza rispettivamente pari a 16/15, 9/8 e 6/5). Si noti come lintervallo di mezzo tono e` dissonante

2.9. SOVRAPPOSIZIONE DI SUONI PURI

Figura 2.13: Battimenti del I ordine: pitch risultante ( 1 =

2.21

1
f 1 , 2

1
f2 ,

= 1f )

su tutta lestensione delle frequenze, mentre lintervallo di terza minore risulta dissonante solo al di
sotto dei 600 Hz circa.
Si pu`o notare, infine, che fra JND e bande critiche vale la relazione approssimata:
fCB = 30JND

(2.2)

Una banda critica corrisponde a circa 1.3 mm di membrana basilare e a circa 1300 ricettori.
2.9.1.3

Consonanza sensoriale

Per evitare il disturbo dei battimenti e della ruvidit`a, i due toni devono essere separati da almeno una
banda critica. Questo ci conduce alla conclusione che quando vari toni suonano simultaneamente, il
risultato pu`o essere considerato gradevole o sgradevole. Un altro modo di descrivere questa sensazione
e` consonante o dissonante. Nel contesto dello studio della percezione umana, il termine consonante
fa riferimento alla consonanza tonale o consonanza sensoriale. Questo va distinto dal corrispondente
termine usato dai musicisti, che fa invece riferimento al rapporto intervallare e alla teoria musicale.
Naturalmente ci sono relazioni tra le due definizioni. In ogni caso si noti che la udibilit`e di questa
ruvidit`a non dipende dalla preparazione musicale. Consideriamo ora leffetto di questi battimenti tra
due toni in funzione della loro separazione in frazioni di banda critica. In fig. 2.16 e` riportata la consonanza tra due toni al variare della loro separazione in frazione di larghezza di banda critica. Quando
i due toni hanno la stessa frequenza presentano la massima consonanza e quindi minima dissonanza. Quando sono distanti allincirca un quarto di banda acritica presentano la minima consonanza e
quindi massima dissonanza. Con separazione di met`a banda critica abbiamo allincirca il 60% della
consonanza massima; a tre quarti si raggiunge il 80% della consonanza; e si raggiunge completa consonanza quando sono separati da una banda critica. In pratica, toni che differiscono in frequenza nel
intervallo dal 5
Un suono musicale ha varie armoniche. Si tende perci`o a considerare dissonante un intervallo tra
due suoni musicali, quando ci sia una predominanza di armoniche vicine in frequenza la cui differenza
in frequenza sia entro mezza banda critica.

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

2.22

Figura 2.14: Sensazioni uditive al variare della differenza di frequenza


2.9.1.4

Suoni di combinazione

Tra gli effetti del primo ordine vi e` poi quello dei suoni di combinazione. Questi sono suoni che
vengono percepiti anche se non sono originariamente presenti nello stimolo, e sono il risultato di
distorsioni non lineari presenti al passaggio del segnale da orecchio esterno a orecchio interno. Lesperimento descritto in precedenza viene condotto in questo caso aumentando lintensit`a dei due suoni
e facendo variare la frequenza f 2 da f1 a 2 f1 . Sia x lo stimolo costituito da due suoni puri e sia y il segnale distorto a causa delle nonlinearit`a del passaggio fra orecchio esterno ed interno. Se esplicitiamo
la funzione nonlineare fermandoci al termine del secondo ordine otteniamo le formule:
x = k(sin 1 t + sin 2 t)
2

y = a0 + a1 x + a2 x

(2.3)
(2.4)

= k (sin 1 t + sin 2 t + 2 sin 1t sin 2 t)


1
(2.5)
= k2 [(1 cos 21 t) + (1 cos 22 t) + cos(2 1 )t cos(2 + 1 )t]
2
I suoni di combinazione percepiti avranno frequenza f 1 , f2 , f2 f1 , f1 + f2 , 2 f1 , 2 f2 . Se nello
sviluppo in serie di potenze della nonlinearit`a consideriamo termini superiori a quello del secondo
ordine, ulteriori suoni di combinazione sono calcolabili. In Figura 2.17 e` mostrato landamento dei
suoni a frequenza f c1 = f2 f1 , fc2 = 2 f1 f2 , fc3 = 3 f1 2 f2 , al variare di f 2 da f1 a 2 f1 .
Gli effetti dovuti alla nonlinearit`a vengono percepiti anche a fronte dellascolto di un solo suono
di intensit`a estremamente elevata. In questo caso saranno percepiti suoni a frequenze 2 f 1 , 3 f1 , 4 f1 , ...
(armoniche auricolari).
2

2.9. SOVRAPPOSIZIONE DI SUONI PURI

2.23

Figura 2.15: Banda critica e discrimazione del pitch al variare della frequenza centrale

2.9.2 Gli effetti del II ordine


Gli effetti del II ordine sono il risultato dellelaborazione degli stimoli da parte del sistema nervoso. Se
gli effetti del primo ordine avevano origine gi`a sulla membrana basilare a causa della sovrapposizione
di due regioni di risonanza, quelli del secondo ordine hanno la caratteristica di non derivare da simili
cause fisiche. Analisi sperimentali hanno dimostrato che non vi sono tracce di essi nei pattern di
vibrazione del liquido cocleare e che quindi essi devono avere origine in uno stadio di elaborazione
successivo.
2.9.2.1

Battimenti del secondo ordine

Il fenomeno dei battimenti del secondo ordine consiste nella sensazione di modulazione di ampiezza
che si avverte quando lo stimolo e` composto da due suoni puri che eccitano la membrana basilare in
regioni che non si sovrappongono. La frequenza f 2 sia posta inizialmente ad un valore f 2 = 2 f1 . Si
pu`o notare che per diverse differenze di fase iniziale fra le due componenti la forma donda cambia
notevolmente (Figura 2.19). Se la differenza di fase si mantiene perfettamente costante, tuttavia,
lascoltatore non percepir`a alcuna differenza. Quando la frequenza f 2 viene leggermente stonata
rispetto allottava ( f 2 = 2 f1 + ), la differenza di fase non rimane pi`u costante. Il sistema uditivo
percepisce in queste condizioni battimenti a frequenza f b = (Figura 2.18). Battimenti del secondo
ordine si ottengono anche stonando leggermente intervalli di quarta ( f 2 = 4/3 f1 ) e di quinta (3/2 f 1 ),
con frequenze di battimento rispettivamente di f b = 3 e fb = 2 Hz. Questo fenomeno mette bene
in risalto come il senso delludito sia insensibile a differenze di fase costanti nel tempo, ma sensibile
alla variazione nel tempo dello sfasamento.

2.24

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

Figura 2.16: Consonanza (e dissonanza) tra due toni al variare della loro separazione in frazione di
larghezza di banda critica.
Una importante differenza tra battimenti del primo ordine e battimenti del secondo ordine e` la
seguente: i primi presentano una modulazione di ampiezza senza mutazione della forma donda nel
tempo; i secondi, al contrario, presentano un cambiamento ciclico del pattern di vibrazione senza che
vi sia mutazione nella ampiezza totale.
2.9.2.2

Rintracciamento della fondamentale

Tra gli effetti del II ordine vi e` ancora quello del rintracciamento della fondamentale (o virtual pitch).
Consideriamo in questo caso un suono composto da numerose componenti, esattamente armoniche,
con frequenze f 1 , 2 f1 , 3 f1 , ..., n f1 . Il pitch percepito e` naturalmente il massimo comun divisore della
serie di armoniche, cio`e f 1 . Se ora viene generato uno stimolo simile al primo, ma da cui sia stata
tolta la prima armonica con frequenza f 1 (o le prime l armoniche), la sensazione di pitch risultante
dallascolto risulta uguale a quella del suono originario. Il sistema uditivo ha dunque ricostruito la
componente mancante. Questa sensazione e` pi`u netta se sono presenti le armoniche pi`u prossime alla
fondamentale (2 f 1 , 3 f1 , 4 f1 , ...), meno netta se sono presenti quelle a partire da un numero darmonica
superiore al quarto.
Il rintracciamento della fondamentale e` un fenomeno che si pu`o osservare anche con stimoli formati da due suoni puri. Ad esempio, se la coppia di suoni puri presenta rapporti di frequenze quali
f2 = (3/2) f1 o f2 = (4/3) f1 , il pattern di vibrazione risultante e` caratterizzato da periodo maggiore.
In particolare, a livello neurale viene generata la sensazione di un suono a frequenza f 0 = (1/2) f1 e
f0 = (1/3) f1 rispettivamente. In Figura 2.20 e` mostrato il pattern di vibrazione risultante nel caso
f2 = 32 f1 .
Gli effetti del II ordine sono il risultato di una elaborazione da parte del sistema nervoso centrale.
Ci`o vuol dire che, al contrario degli effetti del I ordine, essi vengono percepiti anche con ascolto
binaurale (quando, cio`e, ciascuno dei due stimoli (contemporanei) e` presentato ad un solo orecchio).

2.10. ELABORAZIONE DELLO STIMOLO UDITIVO NEL SISTEMA NERVOSO

2.25

Figura 2.17: Frequenza dei suoni di combinazione f c1 , fc2 e fc3 evocati dalla sovrapposizione di due
suoni a frequenza f 1 e f2

2.10 Elaborazione dello stimolo uditivo nel sistema nervoso


Gli effetti del secondo ordine mettono in evidenza lincompletezza della teoria della localizzazione
per spiegare molti fenomeni uditivi. La percezione dei battimenti pu`o essere spiegata se si ipotizza
un sistema di analisi dei pattern temporali della vibrazione. Il meccanismo di ricostruzione della
fondamentale, daltra parte, pu`o essere spiegato anche con un sistema di analisi dellinformazione
neurale generata dalla particolare configurazione spaziale che leccitazione della membrana basilare
assume a fronte di un suono complesso. Al fine di capire meglio le teorie proposte negli ultimi anni
sul funzionamento del processo uditivo, e` necessario introdurre alcune nozioni sul funzionamento del
sistema nervoso uditivo.
La prima funzione per il trasferimento dellinformazione localizzata sulla membrana basilare verso il sistema nervoso centrale e` espletata dalle cellule ciliate. Questi ricettori coprono la membrana
basilare per tutta la sua estensione e fanno da ponte verso le terminazioni nervose. Essi sono soggetti
a una sollecitazione meccanica ogni volta che la membrana e` eccitata nella zona corrispondente e
provocano un impulso elettrico nelle terminazioni nervose ogni volta che tale sollecitazione supera
una certa soglia. Le cellule che formano le terminazioni nervose, e che sono lelemento fondamentale
di elaborazione e trasmissione nel sistema nervoso, sono chiamate neuroni (fig 2.21). Nel neurone
si distinguono il corpo, i dentriti e gli assoni. I dentriti ed il corpo della cellula sono i ricettori dei
segnali neurali provenienti da altre cellule, mentre attraverso lassone il neurone passa limpulso elettrico ad altri neuroni nei punti di contatto con essi (sinapsi). I segnali neurali consistono in impulsi
elettrici (potenziali di azione) dellordine delle decine di millivolt e della durata di pochi millisecondi.

2.26

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

Figura 2.18: Esempio di battimenti del II ordine tra 100 e 201 Hz (frequenza di battimento 1 Hz).

Figura 2.19: Sovrapposizione di due suoni puri con diverso sfasamento costante

Vi sono sinapsi di tipo eccitatorio e di tipo inibitorio. Quando, in un certo intervallo di tempo, un
neurone riceve un numero di stimolazioni eccitatorie che supera di un certo valore di soglia il numero di stimolazioni inibitorie, esso sar indotto a produrre uno stimolo a sua volta. Questo potenziale
(eccitatorio o inibitorio a seconda della natura del neurone) verr`a trasmesso ad altre cellule nervose
mediante le sinapsi presenti sullassone del neurone. E importante notare che un neurone emette un
impulso elettrico in funzione della distribuzione temporale e spaziale dei segnali presinaptici.
Possiamo ora descrivere come il sistema nervoso riceve le informazioni dallorgano della coclea.
Quando un suono puro provoca il moto in corrispondenza di una zona di risonanza della membrana
basilare le cellule ciliate vengono sollecitate e provocano un treno di impulsi elettrici nelle fibre nervose ad esse collegate. Avviene che la densit`a temporale degli impulsi nervosi dipende dalla velocit`a
con cui la posizione della membrana passa dalla Scala Vestibuli alla Scala Timpani (Figura 2.6).
Linibizione della trasmissione si manifesta nel passaggio inverso e attivit`a minore si osserva in situazione di velocit`a minima. La Figura 2.22 mostra landamento temporale del treno di impulsi provo-

2.10. ELABORAZIONE DELLO STIMOLO UDITIVO NEL SISTEMA NERVOSO

Figura 2.20: Ricostruzione della fondamentale ( 1 =

1
f 1 , 2

1
f 2 , 0

2.27

1
f0 )

cati da unonda periodica a bassa frequenza. Da questa analisi si evince che una fibra nervosa del
nervo uditivo e` capace di trasmettere i seguenti tipi di informazioni: a) posizione della risonanza sulla membrana (ogni fibra nervosa e` associata a una zona); b) distribuzione temporale degli impulsi e
dunque periodicit`a e configurazione della forma donda.
Possiamo ora chiederci come le informazioni sulla distribuzione temporale degli impulsi nervosi
possa venire usata dal sistema nervoso per elaborare un effetto come i battimenti del secondo tipo. Se
due stimoli con frequenze a distanza di un ottava eccitano la coclea, due fibre nervose in corrispondenza delle due zone di massima risonanza saranno attivate (informazione spaziale, che non spiega la
sensazione del battimento). Tuttavia, alla particolare forma donda corrisponde un particolare pattern
periodico di impulsi nervosi. La periodicit`a di tale pattern d`a informazioni sulla frequenza di ripetizione, mentre la particolare conformazione d`a informazioni sul pattern di vibrazione. La figura 2.23
(un esempio di istogramma delle occorrenze di intervalli temporali tra spike un una fibra nervosa)
d`a uninformazione statistica legata al pattern di vibrazione. Questo tipo di analisi si ha verosimilmente per suoni a bassa frequenza, mentre alle alte frequenze linformazione dovuta al pattern diventa
confusa. Lanalisi dettagliata della distribuzione temporale degli impulsi richiede dunque un ulteriore
meccanismo, detto comunemente di autocorrelazione temporale, che mette in rilievo le caratteristiche
periodiche del pattern impulsivo e che sopprime le altre, sulla base della comparazione del treno di
impulsi attuale con treni di impulsi precedenti.
Un simile meccanismo di correlazione temporale e` responsabile della sensazione di spazializzazione del suono. Allo scopo di stabilire dei ritardi temporali e quindi per elaborare informazioni
di localizzazione della sorgente sonora, il sistema nervoso si serve della crosscorrelazione fra segnali
neurali provenienti dalle due orecchie. Un modello di crosscorrelazione neurale, in cui un neurone
e` attivato solo quando sia eccitato simultaneamente dalle due fibre nervose provenienti dalle due
orecchie, e` illustrato in figura 2.24.
I sistemi di analisi temporale e spaziale ora descritti sono modelli a cui si e` fatto ricorso per spiegare molti fenomeni percettivi, spesso legati a suoni puri o composti da componenti armoniche. Un

2.28

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

Figura 2.21: Neurone


ulteriore fenomeno uditivo fondamentale e` quello per cui lascolto di un suono spettralmente ricco
con componenti in relazione armonica fra loro produce un percetto unico avente pitch determinato
dalla componente fondamentale, anziche dare luogo alla percezione di tanti suoni separati, ognuno
con pitch legato alla frequenza della singola componente. Nessuna delle due teorie viste (temporale
e spaziale) e` in realt`a in grado di fornire una spiegazione esauriente. Per spiegare come sia possibile
assegnare ad un complesso spettrale un pitch unico, si fa allora lipotesi di esistenza di un sistema
centrale di elaborazione dellaltezza. Questo sistema agisce ad alto livello riconoscendo che strutture
sonore di natura armonica riproducono sulla membrana basilare pattern simili per propriet`a (ad esempio, al crescere dellordine della parziale le distanze fra zone di risonanza mantengono una certa
relazione definita, si veda figura 2.25). La funzione dellelaboratore di altezza e` quella di assegnare
un pitch unico a eventi di questo tipo. Attraverso criteri di matching con templates di base (sorta di
database di pattern spaziali), lelaboratore e` anche in grado di assegnare un pitch a un suono senza
fondamentale, elaborando il matching parziale.

2.10. ELABORAZIONE DELLO STIMOLO UDITIVO NEL SISTEMA NERVOSO

2.29

Figura 2.22: Treno di impulsi generato da unonda periodica

Figura 2.23: Istogramma del numero di occorrenze di dato tempo di intercorrenza fra spike successivi
nel nervo uditivo a fronte di un eccitazione composta da due suoni puri

2.30

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

Figura 2.24: Modello di individuatore di differenze temporali interaurali

Figura 2.25: Pattern spaziale sulla membrana basilare dovuto a un suono armonici

` ACUSTICA
2.11. MISURE DI INTENSITA

2.31

2.11 Misure di intensit`a acustica


Si e` visto, quando si sono descritti orecchio medio e orecchio interno, che lampiezza delloscillazione
del timpano dovuta a un suono puro determina lampiezza dello scostamento della membrana basilare.
Questa, a sua volta, determina la sensazione di intensit`a del suono. Lampiezza delloscillazione del
timpano e` in stretta relazione con i parametri fisici di variazione di pressione p e di flusso di potenza
acustica, o intensit`a, I. Lorecchio e` sensibile a un range dinamico estremamente ampio (10 12 1 mW2 )
e limpraticit`a di una scala lineare ha portato alluso della misura di livello di intensit`a (o IL), espresso
in dB. Vi sono degli evidenti vantaggi legati alluso questa scala: una scala logaritmica offre innanzitutto una notevole compressione dei valori; e` una scala relativa, i valori sono riferiti a un valore di
riferimento (soglia delludibile); lunit`a della scala ha un valore che rappresenta approssimativamente
la minima variazione percepibile di intensit`a, definita JND di intensit a` . Questo valore e` funzione della
frequenza del suono puro, e dellintensit`a di partenza. Si pu`o comunque dire che il JND di intensit`a
assume valori massimi dellordine di 1.5 dB e valori minimi intorno ai 0.3 dB (figura 2.26).

Figura 2.26: Valori di JND di intensit`a per valori diversi di IL e frequenza del suono puro
Nel paragrafo 2.5.1 e` stata introdotta una seconda scala logaritmica che definisce il livello di intensit`a acustica in funzione della pressione sonora (SPL). Sperimentalmente si osserva che suoni puri
continui, caratterizzati da stesso SPL ma a frequenze diverse, producono sensazioni diverse di intensit`a. Questo indica che lSPL non e` una buona misura dellintensit`a percepita se confrontiamo suoni
puri a frequenza diversa. E stato dunque necessario trovare sperimentalmente i valori di eguale intensit`a percepita (curve isofoniche o curves of equal loudness) al variare della frequenza considerando
come riferimento lSPL a 1000 Hz. Il risultato e` riassunto nel diagramma di figura 2.27, dovuto a
Fletcher e Munson. Si noti, ad esempio, come un suono puro con SPL di 50 dB a 1000 Hz e` considerato piano mentre e` appena udibile a 60 Hz. In altre parole, per produrre la stessa sensazione di
intensit`a alle basse frequenze e` necessaria molta pi`u energia di quella necessaria per produrre la stessa
sensazione alla frequenza di riferimento di 1000 Hz. Si pu`o notare ancora, osservando la curva che
rappresenta la soglia delludibile, che la sensibilit`a dellorecchio diminuisce notevolmente alle basse
frequenze e alle frequenza alte al di sopra dei 6000 Hz.
Per avere una misura del livello percepito del suono che sia semplice, ma che tenga anche conto
della percezione, e` stato definito il concetto di livello del suono (sound level) Esso e` una misura pesata
in frequenza, con curve che tengono conto approssimativamente della differente sensibilit`a delludito
alle varie frequenze. Sono state definite quattro differenti curve di peso, chiamate curva A, B, C, D
illustrate in figura 2.28. La curva A enfatizza leggermente le frequenze centrali e attenua le basse
e alte frequenze. Si pu`o vedere che essa e` una stima molto approssimata dellandamento (invertito)

2.32

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

Figura 2.27: Curve di eguale intensit`a percepita (Fletcher and Munson, 1933)
delle curve di egual loudness (fig. 2.27). Le altre curve sono usate raramente. Lunit`a di misura di
tutti i sound level e` il decibel come per SPL, ma e` uso chiamare le misure pesate dalla curva a con
dB(A).
In stretta relazione con le curve isofoniche e` la definizione di Phon (o Loudness Level, LL): il LL
di un suono a frequenza f e` dato dal SPL di un suono a 1000 Hz che determina la stessa percezione
di intensit`a. Dire dunque che un suono e` a 80 Phon vuol dire fornire i valori della curva di isofonia
relativa a 80 SPL per tutte le frequenze. Si noti che la scala dei Phon non e` ancora una scala soggettiva (un raddoppio dei phon non determina un raddoppio dellintensit`a percepita). Gli studi per la
determinazione di una scala soggettiva hanno portato alla definizione della scala dei Son (o subjective
loudness, L). In questa nuova scala la sonorit`a soggettiva raddoppia ogni 10 Phon. La relazione fra
scala dei Phon e scala dei Son e` illustrata in figura 2.29.
La legge che lega i Son e lintensit`
a del
p suono ( o la variazione di pressione p) si esprime con

la formula approssimata L = C1 3 I = C2 3 p2 , dove C1 e C2 sono parametri che dipendono dalla


frequenza. E possibile valutare questa relazione anche per suoni composti dalla sovrapposizione di
pi`u componenti sinusoidali. In questo caso e` importante distinguere i seguenti casi: per suoni le cui
frequenze cascano nella stessa banda
critica, lintensit`a percepita risultante e` in relazione alla somma
del
delle intensit`a individuali: L = C1 3 I1 + I2 + I3 + .... Quando le frequenze

suonocomplesso superano i limiti della stessa banda critica, la relazione diventa L = C 1 3 I1 +C2 3 I2 +C3 3 I3 + .... Quando,
infine, le componenti sono molto diverse per frequenza e intensit`a lascoltatore tende a focalizzare
lattenzione su una sola componente (quella a frequenza pi`u elevata o quella a intensit`a maggiore),
attribuendo al suono complesso altezza e intensit`a di quella singola componente.
I valori di sonorit`a soggettiva visti fanno riferimento a suoni puri di durata superiore al mezzo
secondo. Questa assunzione e` necessaria perch`e, per tempi inferiori, la durata del suono influenza la
sonorit`a soggettiva: pi`u breve e` il suono, pi`u basso risulta il livello percepito se lintensit`a del suono
e` mantenuta costante. La figura 2.30 illustra la relazione al variare della durata fra leffettiva sonorit`a
soggettiva (r) e la sonorit`a soggettiva (L) di un suono stazionario di eguale frequenza e ampiezza.

` ACUSTICA
2.11. MISURE DI INTENSITA

Figura 2.28: Curve di eguale intensit`a percepita (Fletcher and Munson, 1933)

Figura 2.29: Confronto fra le scale dei Phon e quella dei Son

Figura 2.30: Influenza della durata sulla sonorit`a soggettiva

2.33

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

2.34

2.12 Mascheramento dei suoni


Ascoltando un suono composto da due suoni puri, non sempre lascoltatore percepisce le componenti
distintamente. Quando, ad esempio, uno dei due suoni e` caratterizzato da unintensit`a molto maggiore
dellaltro, questultimo risulta inudibile o mascherato. Si definisce livello di mascheramento, ML
lintensit`a del suono mascherato alla soglia del mascheramento. In figura 2.31 sono illustrate le curve
di mascheramento per diverse coppie di suoni puri. Si noti come in corrispondenza del punto in cui i
due suoni assumono stessa frequenza (o luno frequenza doppia dellaltro), linsorgere di battimenti
del primo e del secondo ordine abbassa notevolmente la soglia. In alcuni grafici questo effetto e`
rimosso estrapolando i dati in corrispondenza dei punti critici (curve tratteggiate).

Figura 2.31: Curve del Livello di Mascheramento per coppie di suoni puri
Se I1 e` lintensit`a del suono mascherante e I2m e` lintensit`a del suono mascherato alla soglia del
mascheramento, le relazioni seguenti definiscono il valore di JND per il mascheramento:
It

= I1 + I2m = I1 (1 +

I2m
)
I1

MLIL1
I2m I0
) = I1 (1 + 10 10 )
I0 I1
ML IL1
It
)
JND = 10 log = 10 log(1 + 10
I1
10

= I1 (1 +

dove It e` lintensit`a totale del suono risultante, I0 e` la soglia di udibilit`a e ML = 10 log II2m0 e` il livello
di mascheramento.

2.13. LA PERCEZIONE DEL TIMBRO

2.35

2.13 La percezione del timbro


La parola timbro e` usata per denotare la qualit`a o il colore del suono. La definizione standard di
timbro e` quellattributo che ci permette di giudicare diversi due suoni che abbiano stessa intensit`a,
stessa altezza (e stessa durata). Questa e` una definizione in negativo; infatti dice cosa non e` timbro e
quindi lascia spazio allimmaginazione. In genere si pu`o considerare che il concetto di timbro faccia
riferimento a due differenti propriet`a del suono:
identit`a del suono ad esempio di uno strumento musicale, che differenzia un suono prodotto da uno strumento da quello prodotto da unaltro strumento. Questo concetto e` legato alla
identificazione della sorgente.
qualit`a del suono; anche se un suono mantiene la sua identit`a in differenti condizioni, la sua
qualit`a pu`o cambiare in molti modi. Ad esempio il suono di un violino in una sala di concerto
o sentito al telefono, ha qualit`a molto diversa, ma e` sempre riconosciuto come suono di violino:
mantiene cio`e la sua identit`a.
Il primo fattore e` legato ad aspetti temporali del suono, mentre il secondo e` pi`u legato ad aspetti
spettrali.
Nella visione pi`u tradizionale, il timbro e` considerato essere determinato in primo luogo dallo
spettro di potenza dello stimolo, in secondo luogo dalla forma donda (fase), dall intensit`a e dalle
caratteristiche temporali. I principali parametri associati allo spettro di un suono sono laltezza (frequenza fondamentale), lintensit`a (integrale delle ampiezze delle parziali) e timbro (configurazione
spettrale). Studi sperimentali hanno mostrato che il timbro e` determinato dalla distribuzione della
potenza acustica nelle bande critiche, non dai rapporti di intensit`a delle varie armoniche con la fondamentale. A questo scopo il range di frequenze udibili e` stato diviso in 24 bande di circa un terzo di
ottava (corrispondenti alle bande critiche)(tabella 2.13) ed e` stato poi misurato il grado di variazione
timbrica percepita in funzione del cambiamento di potenza distribuita nelle bande.
Banda critica
Frequenza centrale [Hz]
Larghezza banda [Hz]
Banda critica
Frequenza centrale [Hz]
Larghezza banda [Hz]
Banda critica
Frequenza centrale [Hz]
Larghezza banda [Hz]

1
50
100
9
1000
160
17
3400
160

2
150
100
10
1170
190
18
4000
190

3
250
100
11
1370
210
19
4800
210

4
350
100
12
1600
240
20
5800
240

5
450
100
13
1850
280
21
7000
280

6
570
120
14
2150
320
22
8500
320

7
700
140
15
2500
380
23
10500
380

8
840
150
16
2900
450
24
13500
450

Tabella 2.6: Bande critiche


Il timbro di un suono non e` tuttavia determinato esclusivamente dalla configurazione statica dello
spettro. Qualsiasi suono reale e` caratterizzato da una continua evoluzione temporale dello spettro.
La dinamicit`a dello spettro e` particolarmente accentuata nelle fasi di transitorio del suono (attack,
decay e release), particolarmente importanti per il riconoscimento timbrico e per lidentificazione
dello strumento. La fase sostenuta dei suoni strumentali e` comunque caratterizzata da variazioni
spettrali minori che conferiscono naturalezza al suono. La necessit`a di rappresentare levoluzione
temporale dello spettro di un suono, giustifica luso delle rappresentazione tempo-frequenza-ampiezza,
di cui un esempio e` dato in figura 2.32.

2.36

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

Figura 2.32: Rappresentazione tempo-frequenza-ampiezza di un suono

Si pu`o osservare che il timbro non e` una attributo mono-dimensionale, come laltezza o lintensit`a. Infatti per laltezza, dati due suoni posso stabilire quale dei due e` pi`u alto e analogamente per
lintensit`a. Ne risulta che li posso ordinare secondo lattributo altezza o intensit`a. Per il timbro non
vale una analoga propriet`a. Non posso infatti determinare quale dei due e` pi`u timbrico. Nei classici
studi di Grey e Krumhansl si e` adottato lapproccio dimensionale per definire il timbro (si veda al
proposito la definizione dimensionale di emozione nel capitolo su musica ed emozioni). Mediante
multidimensional scaling dei giudizi di similarit`a degli ascoltatori, si e` arrivati a definire che gli ascoltatori tendono a basare i loro giudizi di similarit`a secondo tre dimensioni percettive. In fig. 2.33 e`
riportato lo spazio timbrico percettivo determinato da Grey. Si e` poi tentato di determinare i parametri
acustici correlati a queste dimensioni.
Una dimensione e` legata alla qualit`a dellattaco del suono, distinguendo suoni pizzicati e percossi dai suoni dei fiati e archi. Risulta correlata con il logaritmo della durata dellattacco.
La seconda dimensione e` legata alla brillantezza del suono e distingue suoni che presentano
molta energia alle alte parziali, da quelli in cui lenergia e` concentrata nelle prime parziali.
Risulta correlata al baricentro dello spettro.
la terza e` di pi`u incerta interpretazione. Secondo alcuni sembra dipendere dalla variazione
spettrale tra parziali adiacenti, cio`e se lo spettro e` pi`u o meno frastagliato. Secondo altri dal
flusso spettrale, cio`e dalla variabilit`a temporale dellandamento delle parziali.
Questa definizione dimensionale costituisce il cosiddetto spazio timbrico e viene usato da vari compositori come mezzo per organizzare la scelta dei timbri nelle loro composizioni.

2.14. CONCETTI PRINCIPALI

2.37

Figura 2.33: Rappresentazione dimensionale del timbro [Grey 1975]. Strumenti rappresentati: BN Bassoon C1 - E flat Clarinet C2 - B flat Bass Clarinet EH - English Horn FH - French Horn FL - Flute
O1 - Oboe O2 - Oboe (different instrument and player) S1 - Cello, muted sul ponticello S2 - Cello S3
- Cello, muted sul tasto TM - Muted Trombone TP - B flat Trumpet X1 - Saxophone, played mf X2 Saxophone, played p X3 - Soprano Saxophone. Dimension I: spectral energy distribution, from broad
to narrow. Dimension II: timing of the attack and decay, synchronous to asynchronous. Dimension
III: amount of inharmonic sound in the attack, from high to none.

2.14 Concetti principali


Oscillazioni e onde
Suoni periodici e non periodici. Rumore. Rumore impulsivi e rumore stazionario. Frequenza
dei suoni periodici. Frequenza ed altezza. Armoniche e parziali.

Inviluppo dei suoni


Fasi dellinviluppo: attack, decay, sustain, release

Propagazione del suono


Oscillazioni longitudinali e trasversali. Lunghezza donda, frequenza e velocita` del suono.
Onde sferiche eonde piane. Diffrazione, riflessione, eco.

Intensita` del suono


Pressione acustica e varie misure di livello. Intensita` della somma di due o piu` suoni.

Psicoacustica
Caratteristiche fisiche e sensazioni uditive. Sensazioni uditive e scale temporali.

CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA

2.38
Organo delludito

Orecchio esterno, medio e interno. Coclea e membrana basilare. Funzionamento della coclea
e sua influenza sulla percezione.

Sensazione di altezza
`
Percezione di altezza. JND. Pitch e intensita.

Sovrapposizione di suoni
Sovrapposizione di suoni sinusoidali: battimenti del primo e secondo ordine. Bande critiche.
Suoni di combinazione. Consonanza percettiva.

Elaborazione dello stimolo acustico nel sistema nervoso


Vari tipi di cellule, neuroni e sinapsi. Modelli temporali e spaziali per spiegare i fenomeni
percettivi.

Percezione dellintensita`
` Curve isofoniche e Phon. Intensita` di suoni composti o piu` suoni.
JND di intensita.

Mascheramento
Mascheramento in frequenza e temporale. Livello di mascheramento. Suono mascherante e
suono mascherato.

Timbro
Definizione di timbro. Identita` del suono e qualita` del suono. Fattori temporali e fattori spettrali.
Le tre dimensioni del timbro e lo spazio timbrico.

2.15 Bibliografia commentata


Due classici libri che trattano questi argomenti sono [2] e [1].

Bibliografi a
[1] J. R. Pierce. La Scienza del Suono. Zanichelli, 1988.
[2] J. G. Roederer. The Physics and Psychophysics of Music. Springer Verlag, 1980.

2.39

2.40

BIBLIOGRAFIA

Indice
2 Elementi di Acustica e Psicoacustica
2.1 Acustica: introduzione . . . . . . . . . . . . . . . . . . . .
2.2 Oscillazioni e onde . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Suoni periodici . . . . . . . . . . . . . . . . . . . .
2.2.2 I suoni reali . . . . . . . . . . . . . . . . . . . . . .
2.3 Inviluppo dei suoni . . . . . . . . . . . . . . . . . . . . . .
2.4 Propagazione del suono . . . . . . . . . . . . . . . . . . . .
2.4.1 Onde sferiche e onde piane . . . . . . . . . . . . . .
2.4.2 Diffrazione . . . . . . . . . . . . . . . . . . . . . .
2.4.3 Riflessione . . . . . . . . . . . . . . . . . . . . . .
2.5 Intensit`a del suono . . . . . . . . . . . . . . . . . . . . . .
2.5.1 Decibel e misure del suono . . . . . . . . . . . . . .
2.6 Psicoacustica: introduzione . . . . . . . . . . . . . . . . . .
2.7 Caratteristiche fisiche del suono e sensazioni uditive . . . . .
2.8 Lorgano delludito . . . . . . . . . . . . . . . . . . . . . .
2.8.1 Percezione di altezza dei suoni puri e discriminazione
2.8.2 Pitch e intensit`a dei suoni puri . . . . . . . . . . . .
2.9 Sovrapposizione di suoni puri . . . . . . . . . . . . . . . .
2.9.1 Gli effetti del I ordine . . . . . . . . . . . . . . . .
2.9.1.1 Battimenti del I ordine . . . . . . . . . . .
2.9.1.2 Bande critiche . . . . . . . . . . . . . . .
2.9.1.3 Consonanza sensoriale . . . . . . . . . . .
2.9.1.4 Suoni di combinazione . . . . . . . . . .
2.9.2 Gli effetti del II ordine . . . . . . . . . . . . . . . .
2.9.2.1 Battimenti del secondo ordine . . . . . . .
2.9.2.2 Rintracciamento della fondamentale . . .
2.10 Elaborazione dello stimolo uditivo nel sistema nervoso . . .
2.11 Misure di intensit`a acustica . . . . . . . . . . . . . . . . . .
2.12 Mascheramento dei suoni . . . . . . . . . . . . . . . . . . .
2.13 La percezione del timbro . . . . . . . . . . . . . . . . . . .
2.14 Concetti principali . . . . . . . . . . . . . . . . . . . . . .
2.15 Bibliografia commentata . . . . . . . . . . . . . . . . . . .

2.41

2.1
. . . . . . . . . . . . . 2.1
. . . . . . . . . . . . . 2.1
. . . . . . . . . . . . . 2.2
. . . . . . . . . . . . . 2.3
. . . . . . . . . . . . . 2.4
. . . . . . . . . . . . . 2.5
. . . . . . . . . . . . . 2.6
. . . . . . . . . . . . . 2.7
. . . . . . . . . . . . . 2.8
. . . . . . . . . . . . . 2.8
. . . . . . . . . . . . . 2.9
. . . . . . . . . . . . . 2.13
. . . . . . . . . . . . . 2.13
. . . . . . . . . . . . . 2.15
del pitch (JND di frequenza) 2.17
. . . . . . . . . . . . . 2.19
. . . . . . . . . . . . . 2.19
. . . . . . . . . . . . . 2.19
. . . . . . . . . . . . . 2.20
. . . . . . . . . . . . . 2.20
. . . . . . . . . . . . . 2.21
. . . . . . . . . . . . . 2.22
. . . . . . . . . . . . . 2.23
. . . . . . . . . . . . . 2.23
. . . . . . . . . . . . . 2.24
. . . . . . . . . . . . . 2.25
. . . . . . . . . . . . . 2.31
. . . . . . . . . . . . . 2.34
. . . . . . . . . . . . . 2.35
. . . . . . . . . . . . . 2.37
. . . . . . . . . . . . . 2.38

Capitolo 3

Modelli dellInterpretazione Musicale


Antonio Rod

Sergio Canazza

Copyright c 1999 by Antonio Rod and Sergio Canazza. All rights reserved.

La Musica pu essere vista come un complesso mezzo per comunicare messaggi, emozioni, stati
danimo, sensazioni. Inoltre, data la sua "inafferrabilit", essa si presta ad essere plasmata in modo
sempre nuovo ed affascinante arrivando a descrivere gesti e movimenti, emozioni e paesaggi. Kendall
& Carterette (1990) hanno proposto un modello per descrivere la trasmissione delle idee musicali.
Esso coinvolge tre soggetti: il compositore, lesecutore, e lascoltatore (vedi Fig. 3.1).
Tutto parte dallidea generatrice, che il compositore deve abilmente tradurre in una partitura convenzionale, formata da note e da alcune indicazioni sulle modalit esecutive. Sar poi compito dellesecutore "interpretare" tali simboli e tradurli in vibrazioni fisiche (suoni e rumori), che verranno
percepiti dallascoltatore. Solo questultimo, infine, attribuir loro un certo significato, il quale non
necessariamente corrisponder allidea generatrice o a quella interpretata dallesecutore. Questo modello implica alcune conse-guenze. Per primo c da notare che loperazione di traduzione dellidea
musicale in una partitura eseguibile, non consente di trasmettere tutte le informazioni necessarie per
una sua univoca interpretazione. Questo problema, nel corso dei secoli, ha impegnato ed affascinato
generazioni di teorici e musicisti. La convinzione che una partitura convenzionale non consentisse
di trasmettere compiutamente il senso musicale di un brano, era gi nota nel Medioevo, quando ci
furono i primi tentativi di tradurre per iscritto qualcosa che, fino ad allora, era tramandato solo per
via diretta. Per questo, a complemento delle partiture che venivano stampate, i musicisti erano a conoscenza di una ricca prassi esecutiva, che si trasmettevano prima oralmente e poi tramite dei veri e
propri trattati teorici. Ed solo grazie ad alcuni di questi, di cui abbiamo tuttora testimonianza, che
ci possibile fornire una qualche interpretazione di musiche composte in epoche lontane dalla nostra.
Inoltre la conoscenza, anche perfetta, della sola prassi esecutiva non sarebbe sufficiente, in quanto
"quando parliamo di note, in effetti, riduciamo ad immagine puntuale una realt sonora - un microcosmo sonico-articolatorio - che invece di estrema complessit e, anche se mai teorizzato finora,
stato manipolato con grande competenza, sensibilit e fantasia dai musicisti esecutori e compositori
di ogni epoca e tradizione. Unanalisi che non tenesse conto di tutto questo si chiuderebbe alla comprensione di quei meccanismi della musicalit umana, che non sono stati teorizzati e codificati proprio
perch agiscono a un livello forse troppo profondo perch il musicista ne abbia piena consapevolezza."(Fugazzotto, 1992) Da quanto detto facile comprendere come la figura dellesecutore non possa
essere paragonata a quella di un semplice "ripetitore", bens si pu affermare che questa possieda un
3.1

3.2

CAPITOLO 3. MODELLI DELLINTERPRETAZIONE MUSICALE

Figura 3.1: un modello di comunicazione musicale. C=compositore; E=esecutore; A=ascoltatore.


proprio ruolo creativo ed artistico che, in base alla propria esperienza e sensibilit, va sia a completare
che talvolta a sovrapporsi allopera del compositore. Pu sembrare assai arduo, allora, il compito di
chi si appresti a cercare lesistenza di regole che consentano, data una partitura generica, di ricavare
automaticamente le informazioni necessarie alla sua interpretazione. Recenti studi sulle esecuzioni
musicali, per, lasciano intravedere la possibilit di definire un linguaggio che, oltrepassando le inevitabili differenze soggettive, consenta la trasmissione di messaggi espressivi univo-camente interpretabili da esecutore ed ascoltatori. Numerosi sono i modelli e le regole proposti per studiare il problema
dellinterpretazione musicale. Larticolo di G.U. Battel "Analisi dellinterpretazione: le nuove metodologie" fornisce una rassegna dei principali lavori pubblicati negli ultimi anni. In particolare, uno dei
modelli pi interessanti quello basato sul sistema di regole elaborato presso lIstituto Reale di Tecnologia (KTH) di Stoccolma, che viene esposto in dettaglio nella seconda parte dellarticolo di Battel
"Analisi dellinterpretazione: un sistema di regole quantitative per lesecuzione musicale". Il sistema
di regole del KTH in grado, partendo da una partitura generica, di fornire le informazioni necessarie
a realizzare unesecuzione musicalmente corretta. Con questo termine si intende unesecuzione che
rispetti le principali regole estetiche del fraseggio e della sintassi musicale. Questo sistema, per, non
tiene conto di un altro importante aspetto: oltre ad interpretare correttamente il fraseggio e le strutture
musicali, lesecutore in grado di agire sui suoni in modo da conferire carattere e colore alla sua
interpretazione. E questo elemento che conferisce unicit e bellezza ad ogni esecuzione. Larticolo "Analysis by synthesis of the expressive intentions in musical performance" presenta unaccurata
analisi delle intenzioni espressive trasmesse dal musicista mediante linterpretazione musicale.

Capitolo 4

Analisi ed Elaborazione del Suono


Riccardo Di Federico
Copyright c 1999 by Riccardo Di Federico. All rights reserved.

4.1

Analisi di Fourier

Lanalisi spettrale costituisce uno dei pi potenti strumenti di indagine in molti campi dellingegneria.
Il fatto di poter rappresentare segnali complessi come somma di funzioni semplici, tipicamente sinusoidi o esponenziali complessi, permette di evidenziare caratteristiche del segnale altrimenti difficili,
se non impossibili, da rilevare. Ad esempio, parametri acustici quali pitch (altezza) e timbro sono
generalmente ottenuti mediante algoritmi operanti nel dominio della frequenza. La decomposizione
in funzioni semplici di grande aiuto anche quando si deve modificare il segnale. Poter agire selettivamente su ogni singola componente permette di effettuare manipolazioni di caratteristiche del suono,
quali il timbro, impraticabili con semplici interventi sulla forma donda. Una trattazione teorica rigorosa dellanalisi spettrale al di l degli scopi di questi appunti. In questa sede ci concentreremo
pi sullinterpretazione e luso del pi comune strumento di indagine spettrale: la Short Time Fourier
Transform (STFT), definita come trasformata di Fourier dipendente dal tempo. La STFT spesso
sinonimo di analisi tempo-frequenza, locuzione con cui intendiamo uno studio congiunto delle caratteristiche temporali e spettrali del suono, cio dellevoluzione temporale dei parametri spettrali del
segnale. Per arrivare a comprendere il significato della STFT verranno richiamati alcuni elementi
teorici della trasformata di Fourier. A partire dalla serie di Fourier, definita per segnali analogici,
periodici e di lunghezza infinita, verranno introdotte come estensioni lintegrale e la trasformata di
Fourier. Rimuovendo quindi lipotesi di segnale analogico saranno definite la trasformata per segnali
a tempo discreto e la trasformata discreta (cio a tempi e frequenze discrete). Sulla base delle osservazioni fatte sulla trasformata di Fourier verranno infine discusse le principali problematiche relative
allimpiego della Short Time Fourier Transform.

4.1.1

Segnale periodico, a tempo continuo, di estensione infinita - serie di Fourier

Sia x t un segnale a tempo continuo, periodico di periodo T e di estensione infinita:


x t x t mT

4.1

(4.1)

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.2

si dimostra allora che x t pu essere rappresentato da una somma pesata (e in generale infinita) di
cosinusoidi le cui frequenze sono multiple intere di 1/T. Si ha cio:
x t

Ck cos 0 kt

k 0

2
T

(4.2)

in cui il termine k tiene conto della "posizione" della k esima cosinusoide. Una forma alternativa,
pi comoda per introdurre la trasformata di Fourier la forma complessa della serie di Fourier, che
si ottiene dalla (4.2) riscrivendo il coseno come somma di esponenziali complessi e riorganizzando i
limiti della sommatoria:

2
x t Fk e j0 kt
0
(4.3)
T
k
in cui gli Fk sono legati ai Ck attraverso la relazione:
C k jsgn k
e
k
2

Fk

(4.4)

quindi i coefficienti Fk contengono sia linformazione di fase che quella di modulo relative alla k-esima

parziale:
Fk Ck 2 Fk k
(4.5)
la determinazione di Fk si ottiene osservando che dato che tutti gli esponenziali presenti in (4.3) sono
combinazioni di seni e coseni di periodo T, il loro integrale sul periodo nullo; si ha in particolare:

e j0 nt e

j0 mt

dt

e j0 n

T
0

mt

dt

n m
n m

0
T

(4.6)

Se a e j0 nt sostituiamo x t , il valore dellintegrale diventa Fm T , pari cio al coefficiente dellunico


esponenziale di x a pulsazione 0 m. quindi diretta la derivazione della seguente formula per il
calcolo dei coefficienti della serie:
Fk

1
T

x t e

T
0

j0 kt

dt

j0 kt

dt e

(4.7)

sostituendo infine la (4.7) nella (4.3) si ottiene lidentit:


x t

4.1.2

1
T
k

x t e

T
0

j0 kt

(4.8)

Segnale aperiodico, a tempo continuo, di estensione infinita. Integrale e trasformata di Fourier

Nel caso il segnale non sia perfettamente periodico non possibile darne una rappresentazione periodica, ottenuta come somma di coseni a frequenze multiple della fondamentale. Tuttavia si pu
pensare di estendere lintervallo considerato come periodo fino a comprendere lintero asse reale. In questa operazione di limite la frequenza fondamentale tende a zero e cos anche la distanza
fra le armoniche. In pratica la somma nella (4.8) diventa un integrale con la sostituzione formale
1 T d f 2 f d 2 f e i limiti di integrazione della (4.7) diventano :
x t

1
2

x t e

jt

dt e

jt

(4.9)

4.1. ANALISI DI FOURIER

4.3

La (4.9) prende il nome di integrale di Fourier. Il termine entro parentesi quadre svolge il ruolo
dei coefficienti complessi della serie di Fourier, e pu quindi essere interpretato come lampiezza
complessa, contenente cio linformazione di modulo e fase, alla frequenza . La funzione di che
ne risulta la trasformata di Fourier:

x t e

jt

dt

(4.10)

La (4.9) ci fornisce anche la formula di inversione (trasformata inversa di Fourier):


x t

4.1.3

1
2

F e jt d

(4.11)

Segnale aperiodico, a tempo discreto, di estensione infinita. Trasformata di


Fourier a tempo discreto (DTFT)

Il calcolo numerico della trasformata di Fourier richiede il campionamento del segnale da analizzare.
Questa discretizzazione dei tempi implica la sostituzione del simbolo di integrale nella (4.10) con un
simbolo di sommatoria:

F TC

oppure, ridefinendo r

x nTC e

jnTC

(4.12)

TC (e quindi passando da rad/s a rad) e x n x nTC :

F r TC
n

x n e

jr n

(4.13)

facile osservare che F r F r 2 come era naturale attendersi dato che il campionamento
in un dominio corrisponde alla periodicizzazione nel dominio duale. La trasformata a tempi discreti
pu quindi essere definita per valori di r 0 2 . Ammesso che siano rispettate le condizioni del

teorema del campionamento (se non lo sono si pu pre-processare il segnale con un filtro antialiasing),
il segnale pu essere recuperato dalla sua trasformata applicando la (4.11) con la sostituzione della
variabile di integrazione r d dr Tc
x n

4.1.4

1
2

F r e jr n d

(4.14)

Segnale aperiodico, a tempo e frequenze discreti. Trasformata discreta di Fourier (DFT)

Come facile rendersi conto, il calcolo numerico della trasformata inversa (4.14) richiede che, oltre ai
tempi, anche le frequenze siano discretizzate. Questo passaggio si pu ottenere campionando uniformemente lasse frequenziale, e sostituendo quindi r 2 N (con k N 2 1 N 2 per N pari e

k N 1 2 N 1 2 per N dispari). Il simbolo di integrale nella (4.14) viene sostituito da una

sommatoria e dr r 2 N. Si ha quindi:

F k T
n

x n e

j2 kn
N

(4.15)

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.4

1 N 2 1
F k e
N k
N 2 1

x n

1 N 1 2
F k e
N k
N 1 2

x n

j2 kn
N

N pari

j2 kn
N

N dispari

(4.16)

(4.17)

Il campionamento nel dominio della frequenza induce sul segnale x n una periodicizzazione di periodo N. Per evitare aliasing nel tempo, cio per ricostruire in modo esatto il segnale, x n dovr
quindi avere unestensione inferiore o uguale a N, nel qual caso la somma nella (4.16) sar limitata
a n N 2 1 N 2 e quella in (4.17) a n N 1 2 N 1 2 per N dispari. I noti algo

ritmi di Fast Fourier Transform (FFT) non sono altro che implementazioni veloci della DFT, con la
limitazione che la lunghezza del segnale deve essere limitata e pari a una potenza di due.

4.2

Short Time Fourier Transform (STFT)

Nel caso si voglia usare la DTFT per analizzare le propriet tempo varianti di un segnale necessario
selezionare tratti di segnale sufficientemente corti da poter essere assunti stazionari. Una sequenza di
questi spettri a breve termine costituisce la Short Time Fourier Transform.

4.2.1

Definizioni

Sia x un segnale a tempo discreto; definiamo come Short Time Fourier Transform di x:

Xn e j
m

w n m x m e

jm

(4.18)

in cui w n m una sequenza reale di estensione finita, detta finestra di analisi, che ha la funzione
di limitare, troncandola in modo pi o meno brusco, la porzione di segnale sotto analisi. evidente
che la STFT di un segnale una funzione di due variabili: la pulsazione (normalizzata a 0 2 ), e il

campione n a cui essa valutata. La (4.18) pu essere interpretata come una trasformata che "scorre"
sul segnale (in effetti la finestra che scorre sul segnale). Una forma alternativa della (4.18) si pu
ottenere con il cambio di indice nella somma n m m:
Xn e j e

jn
m

w n x n m e jm

(4.19)

In questo caso il segnale che scorre sotto la finestra centrata intorno allorigine.

4.2.2

Interpretazione della STFT come Trasformata di Fourier e come banco di filtri

Considerando n fissato, la (4.18) si pu vedere come la trasformata a tempo discreto di x intorno


allistante n, su unestensione limitata dalla lunghezza della finestra di analisi. Applicando la formula
di trasformata inversa alla (4.18) si pu ricostruire x n a partire dalla sua STFT:
w n m x n

1
2

x n

Xn e j e jm d

1
2w 0

da cui, se w 0 0

Xn e j e jm d

(4.20)
(4.21)

4.2. SHORT TIME FOURIER TRANSFORM (STFT)

4.5

Dal punto di vista della pulsazione, fissato il valore di , Xn e j si pu interpretare come luscita di
un filtro con risposta w al cui ingresso viene immesso x n demodulato dallesponenziale e j . In
altre parole la porzione di spettro intorno alla pulsazione w viene riportata intorno allorigine e quindi
vista attraverso il filtro w n ,che ha in genere una risposta di tipo passabasso (figura 4.1).

x(n)

w(n)

Xn(exp(jwn))

exp(-jwn)

Figura 4.1: Interpretazione della STFT come banco di filtri

4.2.3

Influenza della finestra di analisi - principio di indeterminazione

Gli effetti del troncamento indotto dalla finestra di analisi possono essere evidenziati notando che,
per il teorema della convoluzione, la trasformata di Fourier di un prodotto la convoluzione delle
trasformate. La STFT calcolata allistante n la convoluzione della trasformata Wn della finestra
w n m e della trasformata del segnale X :
Xn Wn X

(4.22)

in cui, detta W la trasformata di w n e applicando le propriet sulla traslazione


e sullinversione

jn
dellasse

dei tempi,
si ha Wn W e . Dato che w reale W pari e quindi anche
Wn W . Ogni sinusoide (o esponenziale complesso) componente x dovrebbe essere rappresentato, in assenza della finestra, da un impulso ideale; leffetto della finestra di sostituire ad ognuno
di questi impulsi la sua trasformata centrata alla frequenza dellimpulso stesso (figura 4.2). La scelta
della lunghezza della finestra w va effettuata in base alle esigenze di risoluzione tempo-frequenziale.
Prendiamo come esempio la finestra rettangolare (i ragionamenti che seguono si applicano ugualmente
a tutte le finestre reali e pari che si usano normalmente nellanalisi spettrale). La trasformata di Fourier
della finestra rettangolare la funzione sinc , la cui estensione in frequenza cresce al diminuire della
estensione temporale della finestra. Supponiamo di analizzare un segnale formato da due sinusoidi
a frequenza diversa; se vogliamo una buona risoluzione temporale, lintervallo di analisi deve essere
il pi corto possibile, in modo che i parametri del segnale si possano ritenere approssimativamente
stazionari. La DTFT del segnale data dalla convoluzione delle trasformate di x e della finestra. Dato
che il segnale ha come trasformata una coppia di impulsi ideali e la finestra corrisponde a una fdt
approssimativamente passabasso in frequenza, la trasformata globale consiste essenzialmente di due
lobi centrati sulle frequenze dei seni. La larghezza di banda di questi lobi aumenta al diminuire della
estensione temporale della finestra; se questultima troppo piccola i lobi sono cos sovrapposti che
non pi possibile distinguere le due componenti. In altre parole, una maggiore risoluzione temporale (piccola estensione della finestra) si paga con una peggiore risoluzione frequenziale (lobi larghi
che si sovrappongono). Questo esempio pu essere generalizzato nella definizione di un principio di
indeterminazione secondo cui non possibile stimare con precisione arbitraria e simultaneamente i
parametri temporali e frequenziali di un segnale.

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.6
1

50
B

dB

0.5

0.5

4
tempo [s]

50

0.5

x 10

1
1.5
frequenza [Hz]

2
4

x 10

50
D

dB

0.5

0.5

4
tempo [s]

6
3

x 10

50

0.5

1
1.5
frequenza [Hz]

2
4

x 10

Figura 4.2: Effetto della finestra sulla trasformata di Fourier: a) segnale sinusoidale non troncato e b)
modulo della sua trasformata; c) segnale dopo lapplicazione di una finestra e d) sua trasformata

4.2.4

Scelta del tipo di finestra da utilizzare

La finestra pi semplice che si pu pensare di utilizzare quella rettangolare; in questo caso la porzione di segnale da analizzare viene semplicemente estratta mediante troncamento. Ci si pu chiedere
se non sia meglio in alcuni casi pesare in modo diverso linizio e la fine del frame di analisi. In effetti
la finestra rettangolare discontinua ai bordi e questo, come noto, implica un decadimento delle
code laterali della trasformata piuttosto lento. La conseguenza che linfluenza della trasformata della finestra si sente anche a considerevole distanza sullo spettro. Se consideriamo invece una finestra
che va a zero in modo dolce agli estremi, le code laterali rimangono basse, producendo uno spettro
pi pulito. Naturalmente questo miglioramento non gratuito; il prezzo da pagare in termini di
larghezza del lobo principale. In generale una finestra che permette una buona risoluzione frequenziale (lobo principale stretto) ha le code laterali alte, e viceversa. Un esempio di finestre con diverso
compromesso fra larghezza del lobo principale e altezza delle code laterali mostrato in figura 4.3.

4.2.5

Frequenze di campionamento della STFT nel tempo e in frequenza

Se risulta ovvio che il segnale debba essere campionato con una frequenza che rispetti le condizioni
del teorema del campionamento, meno banale la definizione della frequenza di campionamento della
SFTF, cio dellintervallo che deve intercorrere fra una DTFT e la successiva (hop size) affinch non
ci sia perdita di informazione, in modo cio che il segnale di ingresso possa essere ricostruito esattamente dalla sua STFT. Con riferimento allinterpretazione come banco di filtri (figura 4.1), possiamo
osservare che la banda passante della STFT (per qualunque pulsazione considerata) pari a quella
della trasformata della finestra di analisi, che definiremo B; sar quindi sufficiente porre la frequenza di campionamento Fw della STFT a un valore pari o maggiore a due volte la banda della finestra:

4.2. SHORT TIME FOURIER TRANSFORM (STFT)

4.7

Figura 4.3: Confronto fra finestre di analisi con diverso compromesso larghezza del lobo principale/altezza delle code laterali. A)finestra rettangolare e B) modulo della trasformata in dB. C) finestra
di Blackman e D) modulo della trasformata in dB.
Fw 2B 1 . Si dimostra che la finestra con banda minima, e quindi che richiede la minima frequenza di
campionamento, quella rettangolare. Finora abbiamo considerato la STFT come sequenza di spettri
continui in frequenza; questa ipotesi non pu essere rispettata nella realt degli elaboratori in cui i
calcoli devono essere effettuati su insiemi finiti (seppure molto vasti) di elementi. Dovendo quindi
campionare lasse frequenziale, sostituiamo alla DTFT la DFT. Il problema che rimane capire quale
frequenza di campionamento delle frequenze debba essere adottata. Ancora una volta, applicando il
teorema del campionamento, ma questa volta scambiando i ruoli dei domini temporale e frequenziale
si pu affermare che necessario adottare almeno N L campioni dellasse frequenziale, se L la
lunghezza temporale della finestra di analisi. In definitiva, se tutte le condizioni sul campionamento
sono soddisfatte, la STFT pu essere espressa, in termini di DFT:

Xn e j
m

che con k

2 Nk diventa:

Xn k
m

w n m x m e

w n m x m e

jk m

j2 km
N

(4.23)

(4.24)

Esempio: finestra di Hamming


Supponiamo di adottare una frequenza di campionamento del segnale pari a Fc
come finestra di analisi la finestra di Hamming a 1024 punti (L=1024):
w n
1 Le

0 54 0 46cos
0

2n
L

n L 1
altrove

44100Hz, e usare
(4.25)

finestre che si usano normalmente per la STFT hanno estensione limitata nel tempo e quindi non limitata in
frequenza. Ne consegue che qualunque sia la determinazione di B, lipotesi del teorema del campionamento solo
approssimata.

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.8

Si pu vedere che la banda B della finestra di Hamming rispetta approssimativamente la seguente


relazione:
Fc
B 2
(4.26)
L
E dovr quindi essere Fw 2B 4Fc L 4 44100 1024 173Hz
La STFT dovr essere campionata nel tempo a circa 173 Hz cio ogni Fc 173 44100 173 254
campioni del segnale. Parrebbe a questo punto corretto supporre un uso della STFT per comprimere il
segnale (Fw Fc ). Daltra parte per le considerazioni sulla frequenza di campionamento dellasse
frequenziale si ha che ogni DFT deve essere rappresentata da almeno L campioni. Ne consegue una
frequenza di campionamento totale (quantit di campioni al secondo)
SR Fw L 2BL

(4.27)

Nel caso della finestra di Hamming SR 2BL 4Fc L L 4Fc ! In generale SR


uguaglianza vale solo nel caso di finestra rettangolare.

4.2.6

Fc , e il segno di

Esempi di rappresentazione della STFT

La serie delle DFT che costituiscono la STFT pu essere visualizzata in modo da fornire unimmagine
complessiva dellevoluzione temporale dello spettro del segnale. Un importante esempio costituito
dal sonogramma (o spettrogramma), nel quale le DFT vengono accostate luna allaltra in modo che
lasse orizzontale rappresenti il tempo e lasse verticale le frequenze. Ad ogni punto del grafico viene
assegnata una sfumatura di colore legata allampiezza dello spettro. In figura 4 riportato un esempio
di sonogramma di un brano cantato. Risultano evidenti le righe corrispondenti alle armoniche delle
vocali e la localizzazione dei formanti. Si nota inoltre la distribuzione spettrale delle consonanti sorde
s e z (con andamento di tipo passa alto) che risultano prive di struttura armonica.

Ques t a s ta n z a
f [Hz]

tempo

Figura 4.4: Sonogramma delle parole "...questa stanza..." (cantate).

4.2.7

Sintesi

Posto che la fase di analisi sia condotta con le condizioni di ricostruibilit del segnale, la sintesi del
segnale a partire dalla sua STFT pu avvenire in due modi: filter bank summation (FBS) e overlap
and add (OLA).

4.2. SHORT TIME FOURIER TRANSFORM (STFT)

4.9

1
0.8
0.6
25

0.4
20
0.2
15
0
0

10
10

20

30

40

50

60

70

80

tempo (frames)

bin index (frequency)

Figura 4.5: Visualizzazione spettrografica di tipo waterfall


Filter bank summation (FBS)
Nel primo caso si considera linterpretazione della STFT a banco di filtri; ricordando che alla pulsazione k
Xn e jk e

definendo hk n wk n e

jk n
m

jk m

wk m x n m e

jk m

(4.28)

la (4.28) pu essere espressa come:

Xn e jk e

jk n
m

hk m x n m

(4.29)

hk n rappresenta la risposta allimpulso di un filtro passabanda la cui fdt risulta quella della finestra
centrata sulla pulsazione k :
(4.30)
Hk e j Wk e j k
Essa infatti la risposta della finestra traslata in frequenza (modulazione indotta dellesponenziale).
Definiamo adesso

yk n

x n

m hk m

(4.31)

luscita del filtro passabanda k-esimo; yk n pu essere ricavata dalla STFT tramite la (4.29), moltiplicando primo e secondo membro per e jk n (cio modulando). Lidea di ricavare x sommando tutti
i contributi yk . Posto uguale a N L il numero di filtri definiamo

yk n
m

yk n

(4.32)

la f.d.t. che lega y n a x n risulta essere la somma delle f.d.t. di tutti i filtri:
H e j

N 1

k 0

k 0

Hk e j W e j

N 1

(4.33)

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.10

si pu dimostrare che nellipotesi di corretto campionamento dellasse frequenziale


Nw 0 costante
e quindi

x n y n

(4.34)

Nw 0

(4.35)

da notare che la formula di sintesi non dipende dalla forma della particolare finestra impiegata.
Riassumendo, il metodo di sintesi con banco di filtri si pu esprimere tramite le seguenti relazioni:
y n
x n

N 1

Xn e j e j n

(4.36)

y n

(4.37)

k 0

Nw 0

Overlap and add


Il punto di vista duale sulla sintesi si ha adottando linterpretazione della STFT come successione
di normali DFT. In questo caso la formula di inversione ci dice che i campioni del segnale allinterno della finestra di analisi possono essere recuperati tramite, appunto, una trasformata inversa, che
produce
yn m w n m x m
(4.38)
e quindi dividendo per la finestra w n m . da ogni singola DFT possibile estrarre L valori di x,
esauriti i quali n pu essere incrementato di L e il procedimento viene iterato. In questo modo si
avrebbe un hop size pari a L; dalle considerazioni sulla giusta misura dellhop size chiaro che questo
in modo la STFT sottocampionata e quindi piuttosto sensibile a problemi di aliasing. Anche se in
linea di principio possibile estrarre i valori di x da una singola DFT, una piccola variazione dello
spettro sarebbe in questo caso una potenziale fonte di distorsione della ricostruzione. Dato che in
generale la hop size, che da ora in poi chiameremo R, generalmente inferiore alla lunghezza della
finestra, i segmenti analizzati saranno sovrapposti luno allaltro. Sia Yr e jk la STFT di x calcolata
ogni R campioni: Yr e jk XrR e jk .
Lequazione di sintesi risulta essere:
y n

N 1

1
N Yr e j e j n x n w rR n
r
r
k 0
k

x n

w rR n

(4.39)

Se R sufficientemente piccolo da evitare time aliasing, la sommatoria nellequazione precedente


circa costante al variare di n, e in particolare circa uguale a W e j0 R 2 .
Vale quindi la relazione:
y n
x n
(4.40)
W e j0 R
In generale non necessario sommare infiniti termini nella sommatoria dellultimo membro della
(34). Infatti, dato che lestensione della finestra L, baster sommare L R campioni della finestra.
Per la finestra di Hamming, ad esempio, servono 4 termini.
2 Per

dimostrare che
r

rR n

W 0 R, basta osservare che:

w rR n una versione sottocampionata di w n di un fattore R.

Se R abbastanza piccolo da rispettare la condizione di campionamento della STFT non c aliasing in frequenza.

La somma dei campioni nel tempo non altro che la componente continua W 0 moltiplicata per la lunghezza della
finestra R, cio R
r w rR n W 0

4.2. SHORT TIME FOURIER TRANSFORM (STFT)

4.2.8

4.11

Osservazioni sulluso pratico della Short Time Fourier Transform

Adattamento della lunghezza della FFT: zero padding


Uno dei problemi che si incontra spesso usando la STFT quello di svincolare la lunghezza della
finestra di analisi dal numero di punti sul quale viene calcolata la FFT. Lalgoritmo di FFT realizza
infatti una mappa di N numeri in N numeri e questo, volendo mantenere costante la granularit in
frequenza (2 f req di campionamento N), ci obbliga a usare sempre la stessa lunghezza (N) per la
finestra temporale. In certi casi pu tuttavia essere comodo poter regolare la quantit di segnale da
trasformare in base ad altre considerazioni. Ad esempio, quando si ha a che fare con segnali (quasi)
armonici, un buon compromesso fra lipotesi stazionariet del segnale e la risoluzione in frequenza
quello di usare per lanalisi tre o quattro (pseudo) periodi; la lunghezza della finestra risulta quindi funzione di una propriet tempovariante del segnale, il periodo. Per riuscire a mantenere questo
compromesso e non essere costretti a cambiare il numero di punti della FFT si pu applicare il procedimento di zero padding. Dapprima si moltiplica il segnale per la finestra prescelta di lunghezza
(tempovariante) M, quindi si aggiungono un ugual numero di zeri a sinistra e a destra in modo da
formare un frame di lunghezza N, pronto per essere trasformato mediante FFT. Non difficile vedere
che questo procedimento ha come unico effetto quello di interpolare da M a N punti lo spettro del
segnale. Infatti, se indichiamo con xM n la porzione di segnale selezionata dalla finestra di lunghezza
M e con xN n la sua versione estesa dallo zero padding:
n M
xM n w n x n
0
N 1

xN n w n x n M 1
0
M 1

1
2
2
2

2 M 1 2
n M 1 2
n M 1 2
n N 1 2

(4.41)

la trasformata di xM n , XM k uguale a quella di xN n , XN k :


XN k

N 1 2
xN m e
m N 1 2

M 1 2
xM m e
m M 1 2

j2 km
N

j2 km
N

(4.42)

N 1 N 1

(4.43)

Lasse delle frequenza rimane comunque campionato su N punti. importante notare che il
procedimento di zero padding produce un interpolazione dellasse delle frequenze ma non migliora
in alcun modo la capacit di discriminare sinusoidi con frequenze vicine, che dipende esclusivamente
dalla larghezza del lobo principale e quindi dal tipo e dalla lunghezza M della finestra di analisi w n .
Un esempio di trasformata senza e con zero padding presentato in figura 4.6.
Corretta valutazione della fase: finestre a fase nulla
In molte applicazioni della STFT interessa conoscere solo la distribuzione spettrale dellenergia di un
suono, e quindi principalmente lo spettro di ampiezza. Esistono per situazioni, come ad esempio
nel caso del phase vocoder, in cui necessario stimare con precisione anche la fase delle componenti
spettrali. Vedremo in questo paragrafo come questo problema non sia banale quando la stima debba
essere ottenuta tramite una STFT i cui frames siano ricavati mediante FFT su un numero pari di
punti (che sfortunatamente il caso pi comune). Un generico frame di STFT una DFT su N
punti. La questione della stima della fase pu quindi essere ricondotta, senza perdita di generalit,

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.12
1

40
A

20

0.5

dB

0
0

20
40

0.5
60
1

100

200

80

300

10
15
20
25
bin index (frequency)

30

40
D

20

C
0.5

dB

0
0

20
40

0.5
60
1

2000

4000

6000

8000

10000

80

200

400
600
800
bin index (frequency)

1000

Figura 4.6: Illustrazione del procedimento di zero padding. A) sinusoide moltiplicata per la finestra
di Blackman a 32 punti. B) FFT del segnale in A). C) frame di 512 punti ottenuto aggiungendo zeri a
sinistra e a destra del segnale in A). D) trasformata del segnale in C)
alla valutazione della fase di una porzione del segnale x m intorno allorigine, visto attraverso la
finestra di analisi w m . La DFT di x risulta essere
X k
X k

N 2

m N 2

w m x m e

j2 km
N

N pari

(4.44)

N 1 2
w m x m e
m N 1 2

j2 km
N

N dispari

(4.45)

Supponiamo per semplicit che x m sia un esponenziale complesso a frequenza (normalizzata)


k0 e fase :
x n e j2

k0 n
N

(4.46)

sostituendo la (4.46) nella (4.44) e nella (4.45) si ottiene:


X k
X k

N 2

m N 2

w m e j 2

k0 m
N

P
e

j2 km
N

N pari

(4.47)

k0 m
N 1 2
w m e j 2 N P e
m N 1 2

j2 km
N

N dispari

(4.48)

A questo punto bene evidenziare che w m pu avere simmetria pari solo se la sua lunghezza
dispari. Infatti, la relazione w n w n impone che esistano un ugual numero di campioni
con indice positivo e negativo; aggiungendo quindi il campione nellorigine si ottiene una lunghezza
della finestra dispari. Nel caso la lunghezza della finestra sia pari comunque valida la relazione

4.2. SHORT TIME FOURIER TRANSFORM (STFT)

4.13

w n w n 1 . Sfruttando la simmetria di w le equazioni diventano


X k

N 2

e j

w m e j2

m 1

X k

e j w 0

k0 k m
N

j2

k0 kN m 1

k0 k m
N 1 2
w m e j2 N e
m 1

N pari
j2

k0 Nk m

(4.49)
N dispari

(4.50)

N pari

(4.51)

e riorganizzando gli esponenziali


X k

e j e j2

k0 k m
N

N 2

k0 k

w m cos 2

m 1

X k

e j

N 1 2
k0 k
w m cos 2 N m
m 0

m 1 2
N dispari

(4.52)

Le sommatorie contengono solo addendi reali e producono quindi numeri reali. La fase di X k
quindi quella degli esponenziali complessi:

X k
X k

k0 k

N
N dispari

N pari

(4.53)
(4.54)
(4.55)

Entrambe le stime producono il valore corretto di fase per k0 k. Bisogna per notare che nel
caso la finestra abbia lunghezza pari presente anche un termine di fase lineare. Questo termine
introduce un errore nella stima della fase quando k0 non intero (cio quasi sempre), nel qual caso
la valutazione della DFT pu essere fatta solo sullindice appena inferiore o appena superiore a k0 .
In figura 4.7 sono riportate le risposte di fase nei due casi di N pari ed N dispari. Il problema che
si pone quindi come usare gli algoritmi di Fast Fourier Transform, che funzionano normalmente
con N pari, con finestre di lunghezza dispari. Lidea di applicare una finestra di lunghezza dispari
e quindi eliminare il campione meno significativo prima di effettuare il calcolo della FFT. Usando
una delle finestre classiche, che vanno a zero (o almeno decrescono) verso i bordi, basta eliminare
il primo o lultimo campione. Bisogna inoltre notare che la DFT definita su intervalli simmetrici
intorno allorigine ( N 1 2 N 1 2 per N dispari o N 2 1 N 2 per N pari), mentre gli

algoritmi di FFT operano sullintervallo 0 N 1 . Occorre quindi applicare una rotazione di N 2

punti del frame di analisi (di fatto uno scambio delle due met del frame) in modo da riportare il
campione centrale della finestra w m sullorigine (date le ipotesi di stazionariet e continuit al di
fuori del frame, questa operazione equivalente a uno shift del segnale indietro di mezza finestra). In
questo modo i valori di fase calcolati saranno riferiti al centro del frame. Un esempio di analisi con
finestra a fase nulla riportato nelle figure 4.8 e 4.8.

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.14

60

60

40

40

20

20

dB

dB
0

20
20

25

30

35

20
20

25

bin

30

35

30

35

bin

2.1

2.1

2.09

2.09

2.08

2.08

2.07
fase [rad]

2.07
fase [rad]

2.06

2.06

2.05

2.05

2.04
20

25

30

35

2.04
20

25

bin

bin

Figura 4.7: Risposte di fase calcolate sul segnale x m 1000e j 2 N m 2 0701P nellintorno del 26
bin. A) N=2048, B)N=2049. Si noti landamento lineare sovrapposto nel caso di N pari.
26 3256

5000

a
0

5000

0.005

0.01

0.015

0.02

0.025

tempo [s]
5000

b
0

5000

0.005

0.01

0.015

0.02

0.025

tempo [s]
5000

c
0

5000

0.005

0.01

0.015

0.02

0.025

tempo [s]

Figura 4.8: Applicazione di una finestra a fase nulla su un frame di segnale. A)Frame originale (1025
punti). B)frame dopo lapplicazione di una finestra di Blackman a 1025 punti. C) eliminazione del
1025 campione e rotazione di 512 campioni.

4.2. SHORT TIME FOURIER TRANSFORM (STFT)

4.15

60

40

dB

a
20

20

1000

2000

3000
4000
frequenza [Hz]

5000

6000

7000

1000

2000

3000
4000
frequenza [Hz]

5000

6000

7000

Figura 4.9: Diagrammi di modulo (a) e fase (b) della FFT calcolata sul segnale della figura precedente.
Si noti che mano a mano che il modulo decresce la riposta di fase risulta sempre pi disturbata dalle
interferenze laterali.

4.16

4.3

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

Il Modello Sinusoidale

E noto (vedi capitolo successivo) che la sintesi additiva uno dei metodi pi potenti per la generazione del suono. La possibilit di agire in modo indipendente sui parametri delle singole sinusoidi
(parziali) componenti permette di controllare il risultato sonoro in modo semplice e accurato. Lo
svantaggio storico di questo tipo di sintesi risiede nella sua complessit computazionale. La rapida
evoluzione dellhardware ha per portato ai personal computer odierni, che permettono di sintetizzare,
via software, anche molte centinaia di sinusoidi in tempo reale.
Il rinnovato linteresse per la sintesi additiva ha prodotto una serie di importanti risultati, fra
cui lestensione del metodo anche allelaborazione del suono. Lidea di fondo che se si possiede la descrizione del suono in termini di sinusoidi tempovarianti possibile effettuare una grande
quantit di trasformazioni, semplicemente agendo sui parametri di ampiezza frequenza e fase della
rappresentazione sinusoidale.
Nellarticolo che segue viene presentato uno dei pi recenti modelli per rappresentazione del
suono mediante sinusoidi.

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.42

4.4

Fondamenti Matematici per lElaborazione del Suono

Questi appunti richiamano brevemente alcune nozioni sui segnali numerici, con lo scopo di introdurre
gli elementi necessari alla presentazione dei fondamenti dellelaborazione numerica dei segnali.

4.4.1

Definizioni

Ricordiamo che un segnale pu essere definito come una funzione o grandezza, solitamente variabile
nel tempo, che comunica informazione. Una classificazione dei segnali pu essere la seguente:
1. segnali a tempo continuo: x t

x t

2. segnali a tempo discreto: x n

x n

3. segnali numerici: x n

x n

I segnali a tempo discreto possono essere studiati come treni di impulsi ideali a tempo continuo;
tuttavia pi pratico introdurre una rappresentazione ad hoc.
Definamo come sequenza un insieme di valori ordinato secondo un indice (che rappresenta lasse
temporale):

x n

(4.56)

Esempi notevoli di sequenze:

Sequenza sinusoidale: x n A cos 0 n

Sequenza gradino:

1 T
0

n 0
n 0

1 T
0

Sequenza impulso unitario: n

n
n

0
0

Si dimostra che 1 n nk T k e viceversa n 1 n 1 n 1 .


Per la trattazione dei segnali numerici si pu sottintendere la dipendenza dal quanto temporale di
campionamento T, ed assumere una rappresentazione normalizzata (T=1):
x nT

4.4.2

x n

(4.57)

Propriet dei segnali numerici

Periodicit. Una sequenza x n detta periodica se N : x n x n N n .


Traslazione. La traslazione in avanti di N campioni di un segnale x n si esprime mediante la seguente
relazione:
x n

x n N

(4.58)

Ogni sequenza pu essere vista come somma di impulsi unitari scalati e traslati:
x n

x n n k

(4.59)

4.4. FONDAMENTI MATEMATICI PER LELABORAZIONE DEL SUONO

4.4.3

4.43

Sistemi.

Definiamo come sistema una qualunque trasformazione univoca che mappa una sequenza x(n) in
unaltra y(n):
(4.60)
y n T x n

Linearit. Una sistema si dice lineare se, per ogni coppia di segnali x1 x2 e a1 a2
trasformazione T ad esso associata verifica la seguente relazione:
T a1 x1 n a2 x2 n a1 T x1 n a2 T x2 n a1 y1 n a2 y2 n

, la

(4.61)

Tempo invarianza. Un sistema si dice tempo invariante se la traslazione dellingresso induce la


medesima traslazione sulluscita:
y n k T x n k k

(4.62)

Risposta allimpulso. Per i sistemi lineari possibile definire la risposta allimpulso:


hk n T n k

(4.63)

La relazione ingresso/uscita del sistema


y n T x n

(4.64)

pu essere riscritta, applicando lidentit (4.59), come


y n T

x n n k

(4.65)

che, per la linearit del sistema si pu anche esprimere come

x n T n k

y n

x n hk n

(4.66)

Se il sistema anche tempo invariante, definita h n T n , si ha:

y n

hk n h n k

e quindi

x n T n k x n h n k

Convoluzione. La scrittura
y x n

(4.67)

(4.68)

x n y n k

(4.69)

detta convoluzione dei segnali x n e y n . Si pu verificare che la convoluzione unoperazione


lineare e gode della propriet commutativa.
Stabilit BIBO. Un sistema si dice stabile nel senso Bounded Input Bounded Output (BIBO) se per
ogni sequenza di ingresso limitata luscita risulta limitata. Si dimostra che la stabilit BIBO equivale
ad avere una risposta allimpulso assolutamente sommabile:

Stabilit BIBO
k

h k

(4.70)

CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO

4.44

ad esempio il sistema caratterizzato dalla risposta a scalino h n 1 n (integratore) non stabile.


Causalit. Dicamo che un sistema causale quando la sua uscita dipende solo da valori passati o
presenti dellingresso. Si dice anche che il sistema non anticipatorio. La definizione di causalit pu
essere espressa in termini di risposta impulsiva affermando che un sistema causale quando la sua
risposta impulsiva nulla per tempi negativi:
h n 0

4.4.4

(4.71)

Sistemi lineari tempo invarianti (LIT).

Tra i sistemi lineari e tempo invarianti, la classe di maggior interesse per lelaborazione numerica
dei segnali costituita dai sistemi razionali, caratterizzati dalla seguente equazione alle differenze a
coefficienti costanti, che rappresenta la relazione ingresso uscita:
N

ak y n k

br x n r

(4.72)

r 0

k 0

che pu anche essere riscritta come:


y n

ak
a0 y n k
k 1

br
a0 x n r

(4.73)

r 0

Luscita del sistema allistante n dipende dagli N valori precedenti delluscita, da M valori precedenti
dellingresso e dal valore attuale dellingresso.
I sistemi razionali possono essere di tipo Infinite Impulse Response (IIR) o di tipo Finite Impulse
Response (FIR), a seconda che sia presente o meno la dipendenza da valori precedenti delluscita:
FIR: y n

br
a0 x n r

(4.74)

r 0

IIR: y n

ak
a0 y n k
k 1

br
a0 x n r

(4.75)

r 0

Risposta in frequenza. La risposta in frequenza di un sistema definita come trasformata di Fourier


della risposta allimpulso:

(4.76)
H h n h k e jk

Propriet della convoluzione. La trasformata di Fourier della convoluzione di due sequenze il


prodotto delle trasformate delle singole sequenze:
w n x y n

W X Y

(4.77)

Dimostrazione:
w n

x n i y i
i

per la linearit:
ponendo n i k :

W n i x n i y i e

W i y i n x n i e

W i y i k x k e j k
W i y i e ji k x k e
W X Y

jn
jn

jk

4.4. FONDAMENTI MATEMATICI PER LELABORAZIONE DEL SUONO


ne viene che:

4.4.5

y n h x n

Y H Y

4.45

(4.78)

La trasformata

Definiamo trasformata di una sequenza x(n) la quantit


X z

x k z

(4.79)

Questa serie non in generale convergente per ogni sequenza x(n), n per ogni valore di z. Si
pu dimostrare che data una sequenza, la regione di convergenza una corona circolare nel piano
complesso. Infatti, se esprimiamo z in forma polare:
z re j
la (4.79) diventa

(4.80)

x k r k e

X z

jk

(4.81)

che la trasformata di Fourier del segnale x k r k . La convergenza assoluta della serie si ha quindi se

x k r

(4.82)

Quindi, se la trasformata zeta converge


in un punto z del piano complesso allora converge su tutta la

circonferenza di raggio pari a z . Notiamo ora che una qualunque sequenza pu essere scomposta in
una parte causale xc n e una parte anticausale xa n :
x n xc n xa n
xc n

x n
0

n
n

xa n

0
x n

n
n

(4.83)
0
0

(4.84)

0
0

(4.85)

verificare
che se la trasformata di una sequenza causale esiste per
Non difficile a questo punto
se la trasformata di una sequenza anticausale
z z1 allora esiste anche per z z1 . Analogamente,

esiste per z z2 allora esiste anche per z z2 . In generale quindi, la regione di convergenza della
trasformata una corona circolare del tipo
rc

ra

(4.86)

in cui rc e ra sono rispettivamente il raggio minimo della regione di esistenza della parte causale e il
raggio massimo della regione di esistenza della parte anticausale.
Propriet della trasformata
1. linearit. La trasfomata lineare (la verifica immediata)
2. teorema dello shift: x n N

zN X z

4.4. FONDAMENTI MATEMATICI PER LELABORAZIONE DEL SUONO


x y n z xq y z

Funzione di trasferimento Sia data la relazione ingresso/uscita Y z

3. trasformata della convoluzione:

4.87

H z X z . H z r

h n z

detta funzione di trasferimento del sistema.


Nel caso di sistema razionale descritto dallequazione (4.73), trasformando ambo i membri si ha:
N

ts ak y n
k 0

ak y n k

br x n r

r 0
M

k 0

ak z

r 0

br x n r

k ts

br z

Y z

X z

r 0
r
M
r 0 br z
Nk 0 ak z k

k 0

Y z
X z

H z

Osservazione Si vede subito che H e j h n . Questo conseguenza del fatto che per z

e j la trasformata coincide con la trasformata di Fourier. Dato un sistema descritto da unequazione


alle differenze quindi immediato calcolare la trasformata zeta e quindi la risposta in frequenza. Si
osserva che x n una serie di Laurant. Pertanto, la formula di inversione data da:

x n

1
2 j

X z zn 1 dz

(4.87)

dove C interna alla regione di convergenza.


Se il sistema razionale, H z pu esprimersi come:
H z

1
A M
r 1 1 cr z
N
k 1 1 dk z 1

(4.88)

dove cr sono gli zeri e dr sono i poli di H z .


Si dimostra che un sistema caratterizzato da una funzione di trasferimento razionale del tipo (4.88)
stabile se e solo se tutti i poli sono interni alla circonferenza di raggio unitario:


dk

k 1 2

(4.89)

Per la dimostrazione basta applicare la definizione di stabilit BIBO alla scomposizione in frazioni
parziali della (4.88).

Capitolo 5

Sintesi dei segnali audio


Giovanni De Poli

Carlo Drioli

Federico Avanzini

Copyright c 1999 by Giovanni De Poli, Carlo Drioli and Federico Avanzini.


All rights reserved.

5.1

Introduzione

Negli strumenti musicali tradizionali il suono e prodotto dalla vibrazione di parti meccaniche. Negli
strumenti sintetici, la vibrazione e descritta da funzioni nel tempo, dette segnali, che esprimono la
variazione nel tempo della pressione acustica.
Per costruire uno strumento musicale tradizionale e sufficiente realizzare un dispositivo che sfrutta uno dei tanti meccanismi fisici per la produzione di vibrazioni. Negli strumenti musicali sintetici,
invece, lobiettivo e di generare una piu astratta funzione nel tempo, detta segnale acustico. Allo
scopo e necessario implementare una rappresentazione semplificata ed astratta del modo di produzione del suono, detta modello. Il modello del segnale, quindi, gioca il ruolo del fenomeno fisico negli
strumenti tradizionali: esso costituisce il nucleo centrale attorno al quale si sviluppa la realizzazione
dello strumento musicale. Nel modello lastrazione ha il significato di inscrivere il meccanismo di
produzione in una classe piu generale di cui esso rappresenta un caso particolare. La semplificazione
tende a focalizzare la descrizione sugli aspetti ritenuti significativi nel caso in esame. Spesso nella
descrizione del modello si ricorre a relazioni matematiche per legare le cause con gli effetti; in questo modo, usando il modello si puo prevedere il comportamento del fenomeno in condizioni note.
Le condizioni note includono i parametri del modello, eventualmente variabili nel tempo, e lo stato
iniziale da cui procede levoluzione.
Lalgoritmo e il procedimento effettivo che consente di realizzare cio. Limplementazione dellalgoritmo su un processore consente di calcolare levoluzione del fenomeno, eventualmente nella
sua forma semplificata. In particolare algoritmi di sintesi dei segnali musicali, basati su modelli del
segnale che si focalizzano su diverse e interessanti proprieta degli stessi, consentono di ottenere levoluzione temporale del segnale. Al variare dei parametri si ottengono tutti i possibili segnali della
classe identificata dal modello; e cioe possibile esplorare linsieme dei timbri descritto dal modello.
In linea di principio qualsiasi variazione dei parametri di controllo di un algoritmo e lecita. Limpiego per scopi musicali, tuttavia, impone alcune limitazioni alla liberta di scegliere i parametri di
controllo. I parametri di controllo a loro volta possono variare nel tempo, divenendo cosi a loro volta
5.1

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.2

dei segnali (di controllo). La variazione dei segnali di controllo acquista un diverso significato secondo la scala dei tempi su cui si attua. Se il controllo si attua sulla scala di tempo della (frazione di) nota,
parliamo di controllo della dinamica spettrale. Esso infatti viene spesso interpretato in relazione alla
variazione a tempo breve dello spettro. Se il controllo si attua nella scala di tempo dellorganizzazione
delle note in frasi o entita superiori, parliamo di controllo espressivo. Ad esempio la variazione del
pitch delle note rappresenta il controllo espressivo fondamentale nella musica occidentale.
La sintesi elettronica dei suoni sembra offrire una grande liberta nella costruzione dei suoni, sia
nella imitazione di quelli naturali, che nella produzione di sonorita originali. Vi sono ormai varie
tecniche per riprodurre i suoni desiderati con la fedelta voluta. Tuttavia scopo della sintesi del suono
non e tanto la riproduzione di un segnale voluto, quanto la realizzazione di un generatore suonabile,
caratterizzato cioe da una articolazione timbrica paragonabile a quella degli strumenti classici. Il
problema si sposta quindi alle possibilita di controllo dellalgoritmo e dellarticolazione timbrica
offerte dagli strumenti sintetici.

5.1.1

Obiettivi della sintesi del suono

Tradizionalmente, nella musica occidentale, il suono e caratterizzato da altezza, intensita, durata


metrica, timbro e localizzazione spaziale. Sono questi i parametri che il musicista gestisce. La presenza del pitch presuppone un modello di segnale (quasi) periodico. Il pitch e legato alla frequenza
del suono e induce nello spettro del segnale una struttura a righe, dove cioe lenergia e concentrata
in bande ristrette (righe) a intervalli regolari sullo spettro. Non tutti i suoni hanno altezza definita; in
questi casi si parla di spettri continui, caratterizzati da assenza di regolarita nello spettro. Il loudness
e legato allenergia del segnale, la durata metrica e alla base della percezione ritmica. Lo spazio
e soprattutto il timbro sono i parametri che offrono maggiori possibilita di articolazione nei suoni
sintetici o trasformati elettronicamente.
Lesigenza di manipolare questi parametri rimane un aspetto centrale anche nella musica elettronica. Lo scopo della sintesi del suono quindi dovrebbe tendere a realizzare strumenti suonabili piu
che generatori di segnale, in modo da preservare il rapporto di causa ed effetto che sussiste tra lazione
sul controllo ed il risultato sul suono. Si dovrebbe cioe offrire al musicista uno strumento a tutti gli
effetti, inteso come entita caratterizzata da certi requisiti di coerenza interna, che si concretizzano in
suonabilita, qualita sonora, utilizzabilita allinterno di una partitura.
Lo strumento musicale e importante anche perche, oltre a rappresentare il processo di generazione, puo essere visto come astrazione di una classe di suoni caratterizzati da un timbro, un comportamento dinamico, e da certe possibilita espressive. Questo fatto puo applicarsi oltre che agli
strumenti tradizionali, anche agli strumenti sintetici. Ne risulta che si possono definire classi astratte
di suoni sintetici in base al tipo di modello (e algoritmo) usato per la sintesi e per il tipo di controllo
offerto al musicista. Una volta, la scelta dellalgoritmo di sintesi avveniva in base alla efficienza computazionale, anche a spese della sua controllabilita. Oggi, con lo sviluppo della tecnologia, questo
problema e sempre meno importante.
Acquistano quindi sempre piu importanza altri criteri di scelta, tra cui migliore metafora per
il musicista e migliore risultato acustico. Al primo criterio corrisponde il grado di suggestione che
lalgoritmo opera sul musicista-compositore; ad esempio la sintesi additiva suggerisce una visione
armonica. Al secondo criterio corrisponde lesigenza di un risultato acustico ben preciso, o di una
particolare interfaccia verso lesecutore; ad esempio la sintesi per modulazione di frequenza puo
riprodurre facilmente suoni percussivi inarmonici (campane).
Gli strumenti sintetici, al pari degli strumenti classici, sono caratterizzati dal problema dellapprendimento della tecnica di esecuzione. Si deve infatti imparare con lesperienza le relazioni tra i

5.1. INTRODUZIONE

5.3

parametri di controllo e il risultato acustico. Queste relazioni spesso non sono intuitive nel controllo
a basso livello degli algoritmi e quindi limitano di fatto la versatilita dello strumento. Si puo notare
daltra parte che la tendenza attuale e quella di incorporare lesecutore nello strumento; si cerca cioe
di realizzare uno strumento senza problemi di manualita e controllabile con informazioni di alto livello, eventualmente per mezzo di esecutori automatici (sequencer). Nellottica di questo approccio
devono quindi essere sviluppati sofisticati modelli del controllo timbrico che, a partire da poche e
sintetiche informazioni, siano in grado di produrre un ventaglio espressivo paragonabile a quello di
un esecutore umano.
Di seguito sono presentati i principali algoritmi di sintesi con riferimento ai criteri di scelta sopra
esposti. E tuttavia possibile procedere ad una classificazione degli algoritmi di sintesi basata sullanalisi della loro struttura. Si puo infatti notare che la complessita della struttura ha forti riflessi
sulla controllabilita sia timbrica che espressiva di un algoritmo. Gli algoritmi definiti da una struttura
semplice necessitano di un flusso di segnali di controllo molto articolato, in quanto caratterizzazione
ed espressivita timbrica devono essere garantiti proprio dai segnali di controllo. Invece gli algoritmi
con complessita strutturale elevata garantiscono di base una buona caratterizzazione timbrica e una
buona coerenza interna, consentendo quindi un controllo molto piu semplificato. Si possono quindi
individuare le seguenti classi di algoritmi:
generazione diretta: di questa classe fanno parte campionamento, sintesi additiva, granulare;

feed-forward: sottrattiva, modulazioni, distorsione non lineare;

feed-back: sintesi per modelli fisici

Ad esempio se prendiamo in considerazione uno strumento caratterizzato da un controllo gestuale


assai semplice come il pianoforte, si identificano i seguenti requisiti per i segnali di controllo:
- sintesi additiva: supponendo di lavorare con 100 parziali la pressione del tasto attiva 100 inviluppi temporali e altrettanti inviluppi frequenziali con andamento in funzione della velocita della
pressione del tasto.
- sintesi FM: supponendo di lavorare con un algoritmo a 6 operatori la pressione del tasto attiva
6 inviluppi temporali e altrettanti inviluppi degli indici di modulazione con andamento funzione della
velocita della pressione del tasto.
- sintesi per modelli fisici: supponendo di lavorare con un algoritmo martelletto corda, la pressione
del tasto fornisce lunico parametro (la velocita dimpatto del martelletto) allalgoritmo, che provvede
autonomamente a generare la sonorita attesa.
E possibile anche unaltra classificazione degli algoritmi di sintesi in base al tipo di modello con
cui viene rappresentato il suono. In questo caso si possono distinguere
modelli del segnale che rappresentano il suono che ci arriva allorecchio, senza far riferimento
al meccanismo fisico che sottosta alla produzione del suono. La percezione del suono e un
fenomeno complesso, che analizza il segnale sia nel tempo che nella frequenza. Anche i modelli
del segnale possono essere divisi in due classi, secondo se possono essere interpretati dallutente
in termini di caratteristiche temporali o spettrali. Possiamo quindi includere nella prima classe
il campionamento e la sintesi granulare, mentre la sintesi additiva e sottrattiva, le modulazioni
e la distorsione non lineare sono della seconda classe (meglio interpretabili nel dominio della
frequenza).

modelli della sorgente che ottengono il segnale acustico come sottoprodotto di un modello di
simulazione del meccanismo fisico di produzione del suono. Appartiene a questa categoria la
sintesi per modelli fisici.

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.4

Va infine ricordato che quando si parla di segnali musicali generalmente si intendono i segnali
sonori. Come detto pero il risultato acustico che si ottiene da un modello dipende dal controllo che
si effettua sui parametri del modello stesso. In molti casi questi parametri sono tempo varianti e si
evolvono durante lo sviluppo del singolo suono. Sono cioe essi stessi dei segnali, chiamati appunto
di controllo, che pero si differenziano dai segnali audio perche si evolvono piu lentamente. Inoltre
essi vengono percepiti seguendo la loro evoluzione temporale e non analizzandoli in frequenza, come
accade per i segnali audio. Nel seguito verranno esposti i principali algoritmi di sintesi dei segnali
audio. Talvolta essi sono utili anche per i segnali di controllo. Alla fine verra discussa la problematica
della generazione dei segnali di controllo.

5.2

Metodi di generazione diretta

In questa categoria troviamo i metodi che generano direttamente il segnale attraverso ununico modello o piu modelli che pero non si influenzano reciprocamente, nel senso che al piu si somma alla
fine il loro risultato.

5.2.1

Generatori di forme donda

Oscillatori numerici
La caratteristica di molti suoni musicali e di essere quasi periodici o armonici. E questa proprieta
che determina la sensazione di altezza di un suono. Il piu semplice metodo di sintesi consiste nel
produrre un segnale periodico mediante la continua ripetizione di una certa forma donda. Un algoritmo che realizza questo metodo si chiama oscillatore. Loscillatore piu diffuso e quello a forma
donda tabulata (table look-up oscillator). In questo caso la forma donda e memorizzata in una tabella in punti equispaziati. Per generare una forma donda periodica, basta leggere ripetutamente la
tabella mandando i suoi campioni uno dopo laltro in uscita. Se Fs e la frequenza di campionamento
e L e la lunghezza della tabella, la frequenza f del suono periodico risulta f Fs L. Se si volesse
un suono con la stessa forma donda ma di frequenza diversa, occorrerebbe una tabella contenete la
stessa forma donda ma rappresentata con un numero diverso di valori. Si vorrebbe quindi una forma
donda continua da cui prelevare di volta in volta il valore allascissa desiderata. A questo scopo si
ricorre a tabelle contenenti la forma donda in (molti) punti equispaziati e poi prelevando di volta in
volta il valore piu opportuno o mediante interpolazione tra i due punti adiacenti o usando il valore di
ascissa piu prossima a quella desiderata (interpolazione di ordine zero). Naturalmente piu fitti sono
i punti, migliore e lapprossimazione. Si usano tipicamente tabelle da 256 a 4096 punti. In questo
modo loscillatore ricampiona la tabella per generare un suono di differente frequenza.
La distanza (in numero di campioni della tabella) fra due campioni della tabella prelevati in istanti
successivi si chiama SI (sampling increment) ed e proporzionale alla frequenza f del suono prodotto.
Risulta infatti
SI Fs
f
L
Lalgoritmo che implementa loscillatore digitale e

phi = mod(phi + SI, L)


s = A * tab[phi]
dove phi rappresenta la fase istantanea (ascissa) di lettura nella tabella, A e un parametro indicante
lampiezza del segnale, s e il segnale di uscita. La funzione mod(x, L) calcola il resto della

5.2. METODI DI GENERAZIONE DIRETTA

5.5

divisione del primo operando (x) per il secondo (L) e serve per ricominciare la lettura della tabella al
punto opportuno, dopo aver scorso tutta la forma donda.
Se il passo di lettura SI e maggiore di uno, puo succedere che le frequenze delle componenti piu
alte siano maggiori della frequenza di Nyquist, dando luogo a foldover. Per evitare questo fenomeno,
bisogna limitare la banda del segnale memorizzato. Se invece il passo e minore di uno, come avviene
spesso per i segnali di controllo, inviluppi di ampiezza etc., allora il problema non si pone in quanto
la banda e gia sufficientemente limitata.
Normalmente si richiede che lampiezza del suono vari in modo continuo seguendo un inviluppo
dampiezza. Questo si puo ottenere variando istante per istante il parametro A visto precedentemente.
Similmente si puo variare istantaneamente la frequenza del suono variando il parametro SI. Si ottiene
cosi loscillatore ad ampiezza e frequenza variabile descritto dalle seguenti relazioni:

n
sn

SI n

mod L

A n tab n

La prima formula effettua lintegrazione discreta della frequenza, per trovare la fase istantanea.
Il controllo dellampiezza serve per realizzare un appropriato inviluppo del suono. Inoltre si puo
ad esempio realizzare leffetto del tremolo, che consiste in una variazione periodica o quasi periodica
dellampiezza attorno al valore medio. Il controllo della frequenza delloscillatore e utile nella produzione di variazioni di pitch come nel portamento, inflessione della frequenza del suono come puo
avvenire allinizio di una nota che parte con una frequenza leggermente inferiore raggiungendo poi ed
eventualmente sorpassando la frequenza desiderata oppure la diminuzione di frequenza che talvolta
si verifica alla fine di una nota. Spesso occorrono opportune traiettorie della frequenza per collegare
in modo non brusco note di una stessa frase melodica o per produrre ornamenti come trilli, mordenti
e acciaccature. Infine il controllo della frequenza e utile per produrre il vibrato ed altre modulazioni
di frequenza. In figura 5.1 e riportato il simbolo delloscillatore a forma donda fissa con ampiezza e
frequenza variabili.

Figura 5.1: Simbolo delloscillatore a forma donda fissa con ampiezza e frequenza variabili
I suoni ottenibili dalloscillatore numerico sono piuttosto meccanici e ripetitivi. Esso pertanto
viene usato come blocco base per costruire algoritmi piu complessi o per produrre segnali di controllo
ad andamento voluto.
Lo stesso procedimento puo essere usato per generare forme donda non ripetitive. In questo caso
la forma donda viene sempre memorizzata in una tabella. Per generare una forma donda di durata d
si puo utilizzare poi lalgoritmo precedente con passo di campionamento
SI

L
d Fs

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.6

Si puo generalizzare il procedimento generando forme donda date per punti (coppie di ascisse e
ordinate) e interpolando via via fra i punti adiacenti. Ad esempio un inviluppo dampiezza puo essere
descritto da una spezzata composta da vari punti connessi da linee rette. Se si vuole cambiare la durata
dellinviluppo, e bene modificare poco le durate dei tratti corrispondenti allattacco e decadimento
del suono, mentre si puo variare di piu il tratto di regime. In questo modo si avranno differenti
passi di lettura della tabella o distanza tra le ascisse dei punti generati a seconda di quale porzione
dellinviluppo si sta generando.
Esempio di sintesi in Matlab
Molti linguaggi orientati alla sintesi del suono (come il noto Csound ), adottano degli accorgimenti per
ottimizzare il carico computazionale al fine di ridurre i tempi di attesa dellelaborazione. Attualmente
questi tipi di linguaggi sono in grado di rispondere in tempo reale agli ingressi di controllo, attraverso
una gestione dei segnali di controllo al frame rate: un frame e una finestra temporale di durata
prestabilita (valori tipici della durata di un frame vanno dai 5 ai 50 msec). Lipotesi che generalmente
si fa sui segnali di controllo e che essi cambino ad una frequenza molto inferiore della frequenza di
campionamento audio e possano essere considerati costanti allinterno di un frame.
Il linguaggio che si e scelto per illustrare i principali algoritmi di sintesi (MATLAB) non e un
linguaggio orientato alla sintesi audio e non consente il controllo degli algoritmi in tempo reale. Si
manterra tuttavia la divisione di due assi temporali (frame rate / audio rate), in quanto elemento
comune a tutti i linguaggi piu diffusi.
Ogni sessione di simulazione necessita della definizione di alcuni parametri globali, come le frequenze di campionamento e di controllo, che saranno visti dalle funzioni che realizzano gli algoritmi.
Un esempio di tale sezione di definizione e il seguente
global Fs; %sample rate
Fs=22050
ControlW=0.01 % control window (in sec): 10 ms
global SpF; %samples per Frame
SpF=round(Fs*ControlW)
Fc=Fs/SpF %control rate

Un tipico script MATLAB per lesecuzione di un algoritmo di sintesi prevede tre fasi: unintestazione con le definizioni, una fase di generazione dei segnali di controllo e, infine, una fase di
generazione del segnale audio. Nello scrivere una funzione di sintesi si segue la convenzione per cui
la durata (in secondi) dei segnali di controllo determina la durata del suono generato dalloscillatore. Supponendo che la funzione sinosc(t0,a,f,ph0) realizzi un oscillatore sinusoidale (con t0
istante di inizio e a, f , e ph0 rispettivamente ampiezza, frequenza e fase iniziale della sinusoide), le
istruzioni seguenti generano un sinusoide di durata 2 secondi, ampiezza unitaria e frequenza 50 Hz
(con riferimento alle definizioni globali esemplificate).
a=ones(1,200); %1secondo, 100 frames
f=50*ones(1,200);
s=sinosc(0,a,f,0);

Si vuole realizzare ora loscillatore sinusoidale controllato in ampiezza e a frequenza imposta al


frame rate. Si noti come e stata curata la continuita della fase per evitare distorsioni della forma
donda a fronte di variazioni istantanee della frequenza. Si noti inoltre che per variazioni a scalino
della frequenza da f i a f i 1 , nel frame di transizione la frequenza e interpolata linearmente
1 f i
).
(con derivata costante pari a f i Sp
f

5.2. METODI DI GENERAZIONE DIRETTA

5.7

function s = sinosc(t0,a,f,phi0);
% oscillatore sinusoidale
% a e f sono al control rate
% t0 istante iniziale in sec;
global SpF; %samples per frame
global Fs; %sampling rate
Fc=Fs/SpF; %control rate
nframes=length(a); %numero di frames
if (length(f)==1) f=f*ones(1,nframes); end
if (length(f)=nframes)
error(f e a devono avere lunghezza uguale);
end
s=zeros(1,nframes*SpF);
t=0:(1/Fs):((nframes*SpF)/Fs);
lastfreq=f(1);
lastphase=0;
for (i=1:nframes)
taux=0:(1/Fs):((SpF-1)/Fs);
phase=lastphase+lastfreq*2*pi.*taux+(1/SpF)*pi*(f(i)-lastfreq).*(taux.2);
s(((i-1)*SpF+1):i*SpF)=a(i).*cos(phase);
lastfreq=f(i);
lastphase=phase(SpF);
end
s=[zeros(1,(t0*Fs-1)) s];

In ogni linguaggio di sintesi subito dopo loscillatore sinusoidale si incontra, per importanza, la
famiglia dei generatori di funzioni di controllo. Nel seguito e riportata la realizzazione di un semplice
generatore di inviluppo a segmenti di retta (si noti, tuttavia, che la funzione di interpolazione del MATLAB permette di avere facilmente interpolazioni cubiche o spline). A fronte della descrizione della
forma di inviluppo con istanti temporali (in secondi) e la relativa ampiezza, esso genera la funzione al
frame rate.
function env = envgen(t,a,method);
global SpF; %samples per frame
global Fs; %sampling rate
if (nargin<3)
method=linear;
end
frt=floor(t*Fs/SpF+1); %tempi espressi in numero del frame
nframes=frt(length(frt)); %numero totale frames
env=interp1(frt,a,[1:nframes],method);

Luso combinato dei due generatori appena visti permette di creare agevolmente suoni con inviluppo di ampiezza e curve di altezza molto articolati. Nellesempio che segue, linviluppo e un

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.8

esempio di inviluppo ADSR: landamento temporale dell ampiezza di un suono e suddiviso nelle
quattro fasi di Attack, Decay, Sustain e Release .
f=envgen([0,.2,1,2],[200,250,250,200],cubic); % curva di pitch
% curva di pitch con vibrato:
f=f+max(f)*0.05*sin(2*pi*5*(SpF/Fs)*[0:length(f)-1]).*hanning(length(f));
a=envgen([0,.2,1,1.5,2],[0,1,.8,.5,0],linear); %ADSR
% genera segnali audio
s=sinosc(0,a,f,0);

In fig. 5.2 sono illustrati i segnali di controllo e il segnale generati.


amplitude envelope

pitch

270
260

0.8

Hz

linear scale

250
0.6

240
230

0.4

220
0.2
0

210
0

0.5

1
sec

1.5

200

0.5

1
sec

1.5

waveform
1

linear scale

0.5

0.5

0.2

0.4

0.6

0.8

1
sec

1.2

1.4

1.6

1.8

Figura 5.2: Segnali di controllo e segnale ad audio rate

Generatori ricorsivi di segnali sinusoidali


I segnali sinusoidali possono essere generati, oltre che con il metodo delloscillatore a tabella, anche con metodi ricorsivi. Un primo metodo si basa sul risuonatore numerico, costituito da un filtro del secondo ordine con i poli (complessi coniugati) sul cerchio di raggio unitario. Esso e dato
dallequazione ricorrente
(5.1)
y n 1 2 cos y n y2 n 1
dove 2 f Fs . Con condizioni iniziali y 0 1 e y 1 cos il generatore produce y n
cos n; con y 0 0 e y 1 sin il generatore produce y n sin n. In generale se y 0 cos
e y 1 cos il generatore produce y n cos n . Questa proprieta puo anche essere
verificata ricordando la relazione trigonometrica cos cos 0 5 cos cos .
Unaltro metodo si basa sulla forma accoppiata decritta dalle equazioni
x n 1

cos x n sin y n

y n 1

sin x n cos y n

Con x 0 1 e y 0 0 si ha x n cos n e y n sin n ; vengono generati contemporaneamente un seno e un coseno. Questa proprita puo essere verificata considerando che se si definisce una

5.2. METODI DI GENERAZIONE DIRETTA

5.9

variabile complessa w n
xn
jy n
exp jn , risulta w n 1
exp j w n . Prendendo
la parte reale e immaginaria di questa relazione risulta la forma accoppiata.
In generale entrambi metodi hanno il problema che la quantizzazione dei coefficienti puo causare instabilita numerica e cioe i poli non sono esattamente sul cerchio unitario. Le forme donda
generate allora o tenderanno a smorzarsi o a crescere indefinitamente. A questo scopo e opportuno
periodicamente reinizializzare la ricorsione.
Generatori di rumori
Generazione di numeri aleatori Per generare un rumore si ricorre ai generatori di numeri pseudocasuali. Ci sono molti metodi e nessuno e soddisfacente sotto tutti gli aspetti. Il metodo piu diffuso
si chiama congruenziale lineare e puo generare sequenze piuttosto lunghe di numeri aleatori prima di
m, lalgoritmo
ripetersi periodicamente. Dato un valore iniziale (seme) I 0 nellintervallo 0 I 0
di generazione si basa sulla ricorrenza

I n

aI n

sn

I n m

c mod m

dove a e c sono due costanti che devono essere scelte accuratamente in relazione al valore di m,
per riuscire ad avere la sequenza di lunghezza massima. I numeri generati s n sono uniformemen1. Su questo intervallo la densita di probabilita e piatta.
te distribuiti nellintervallo 0 s n
Pertanto la media vale E u
1 2 e la varianza 2u 1 12. Per avere una sequnza a media nulla si
s n 0 5. Questa sequenza corrisponde ad un rumore bianco in quanto i numeri generafa u n
ti possono essere considerati mutualmente indipendenti e la densita spettrale di potenza e data da
S f
2u . Pertanto, essendo S f piatto, la sequenza contiene tutte le frequenza in ugual misura e
presenta parimenti variazioni lente e veloci.

Generazione di rumori a bassa frequenza Se si desidera che la sequenza vari piu lentamente, si
puo generare un nuovo numero aleatorio ogni d campioni e mantenedo il precedente nellintervallo
(holder) o facendo interpolazione lineare tra i due valori generati. In questo caso la spettro di potenza
e dato da:
2
H f 2 u
S f
d
con
sin f d Fs
H f
sin f Fs
nel caso dellholder e

1 sin f d Fs
d sin f Fs

H f

nel caso di interpolazione lineare.

Generazione di rumori 1 f Un rumore 1 f , chiamato anche rumore rosa, e caratterizzato da uno


spettro di potenza S f che decresce in frequenza secondo un andamento proporzionale a 1 f

S f

A
f

(5.2)

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.10

In genere, per evitare un valore infinito a f 0, si considera questa espressione valida per f fmin ,
dove fmin e la minima frequenza desiderata. Lo spettro (5.2) e caratterizzato da un decadimento di 3
dB per ottava, cioe quando la frequenza raddoppia, lo spettro di potenza si dimezza. Lammontare di
potenza contenuta in un intervallo di frequenza f1 f2 e

f2
f1

S f d f

A ln

f1

f2

Questo implica che lammontare di potenza contenuta in ogni intervallo di ottava e sempre la stessa.
Il rumore 1 f e presente in molti fenomeni naturali ed e legato ai fenomeni frattali. Nellaudio e
conosciuto come rumore rosa, per differenziarlo dal rumore bianco. Esso rappresenta lequivalente
psicoacustico del rumore bianco, in quanto contiene allincirca la stessa potenza per ogni banda critica.
In senso fisico esso dipende da processi che si evolvono su differenti scale temporali. Un modello per
generare rumore 1 f consiste nella somma di vari rumori bianchi, ciascuno filtrato attraverso un filtro
passa-basso del primo ordine e con costante di tempo via via crescente in progressione geometrica.
Una variante proposta da Voss consiste nel prendere la media di vari generatori yi a tenuta di numeri
aleatori con periodo di rinnovamento di 2i ; cioe
y n

1 M
yi n
M i
1

(5.3)

Lo spettro di potenza di (5.3) non ha esattamente un andamento del tipo 1 f , ma lo approssima per
frequenze f Fs 2M .

5.2.2

Campionamento

Trovare un modello matematico che imiti fedelmente un suono reale e un compito estremamente
difficile. Se pero esiste un suono di riferimento, allora e sempre possibile riprodurlo dopo averlo registrato digitalmente mediante campionamento (sampling). Tale metodo, anche se semplice nei
suoi principi, e molto usato negli strumenti musicali digitali e, appunto, nei campionatori. I campionatori infatti memorizzano una grande quantita di esempi di suoni completi, usualmente prodotti
da strumenti musicali reali. Quando si vuole sintetizzare un suono, basta scegliere uno dei suoni del
repertorio memorizzati e riprodurlo direttamente. Ne risulta quindi una alta efficienza computazionale
e una grande fedelta al suono originale.
Le possibilita di modificazione sono piuttosto ridotte e sono spesso legate alla metafora del registratore a nastro o moviola. La modificazione piu frequente consiste nel cambiare la frequenza
del suono, variando la frequenza di lettura dei campioni. Non sono consigliabili grandi variazioni di
frequenza, in quanto la compressione o espansione temporale di una forma donda produce un cambiamento inverso della scale delle frequenze e quindi unespansione o compressione dello spettro.
Tale fatto tende a produrre un risultato innaturale dal punto di vista timbrico, esattamente come accade se viene variata la velocita di lettura di un nastro magnetico. E pertanto necessario limitare le
variazioni a pochi semitoni ed avere quindi molti suoni campionati distribuiti lungo la scala musicale.
Speciale cura va posta in questo caso per non avere suoni adiacenti troppo diversi. Con un insieme
di suoni (ad esempio tre per ottava) e con la variazione di lettura dei campioni e quindi possibile
riprodurre tutta la gamma di altezze desiderate.
Spesso si vuole inoltre variare il suono anche in funzione di altri parametri, ad esempio lintensita. Per ottenere una variazione di intensita non basta infatti cambiare lampiezza del suono, ma
bisogna anche modificare timbricamente il suono. Tipicamente i suoni piu intensi sono caratterizzati

5.2. METODI DI GENERAZIONE DIRETTA

5.11

da un attacco piu rapido e da una maggiore estensione dello spettro. In tal caso o si utilizza un unico
prototipo (ad esempio registrato fortissimo) e poi lo si trasforma (ad esempio mediante filtraggio) per
ottenere le altre intensita, o si ricorre ad insiemi diversi di note registrate per differenti valori del
parametro (ad esempio con dinamica fortissimo, mezzo forte, pianissimo) e poi si procede a creare le
varie sfumature con interpolazioni e/o ulteriori trasformazioni. In definitiva questa tecnica e caratterizzata da alta efficienza computazionale e alta qualita imitativa, ma bassa flessibilita per i suoni non
inizialmente previsti nel repertorio o non facilmente riconducibili a esso con semplici trasformazioni.
Per maggior efficienza nelluso della memoria, spesso si ricorre a memorizzare solo parte del
regime stazionario del suono e a ripeterlo (looping) nella sintesi. Naturalmente la ripetizione non
deve essere di un segmento troppo breve per evitare un carattere troppo statico del suono. Ad esempio
per allungare la durata di un suono, dopo che e passato lattacco si puo ripetere ciclicamente la parte
individuata finche non si vuole terminare il suono. A quel punto si emette la parte finale del suono
memorizzato. Per creare un ciclo senza artefatti, bisogna porre molta cura nello scegliere i punti di
inizio e fine del ciclo. In genere si sceglie un numero intero di periodi inizianti con valore nullo
in modo da non avere discontinuita ne di ampiezza ne di fase. Queste discontinuita infatti sono
fastidiose allascolto.
Spesso si individuano nel regime alcuni brevi tratti significativi e nella sintesi si procede ad una
interpolazione (cross-fade) tra i successivi tratti. In questo modo levoluzione temporale lungo la
durata del suono puo essere meglio controllata.
In molti casi tale tecnica viene presentata come un mezzo per riprodurre suoni naturali ed e
valutata facendo riferimento agli strumenti originali. Per questo essa e molto usata nelle tastiere
commerciali per produrre suoni imitativi degli strumenti meccanici, come ad esempio organo o piano
elettronici. Naturalmente il metodo di campionamento non puo realizzare tutte le possibilita espressive degli strumenti originali. Daltra parte si puo notare che i suoni memorizzati possono essere
sintetici o derivare da modificazioni di altri suoni. Questo amplia le possibili applicazioni del metodo. Dal punto di vista della storia della musica, questo metodo rappresenta una versione attualizzata
della Musica Concreta. Questo tipo di musica, nata a Parigi nel 1950 per opera soprattutto di Pierre
Schaefer, inizio ad usare come materiale sonoro delle composizioni musicali suoni di qualsiasi tipo
registrati da microfono e poi eventualmente manipolati.

5.2.3

Sintesi additiva

Per avere un suono con un andamento complesso e variabile si possono usare contemporaneamente
piu elementi semplici. Per esempio unorchestra produce una sonorita piena e variabile mediante
una sovrapposizione di molti strumenti.
Nella sintesi additiva, suoni complessi sono prodotti mediante la sovrapposizione di suoni elementari, spesso sinusoidali. In certe condizioni (ad esempio se le frequenze sono multiple tra loro) i suoni
costituenti si fondono insieme e il risultato e percepito come un unico suono. Questo procedimento
e usato anche in alcuni strumenti musicali tradizionali. Ad esempio nellorgano le canne producono suoni relativamente semplici. Per ottenere suoni piu ricchi, sono usate piu canne che suonano
contemporaneamente a differenti altezze, tipicamente multiple della fondamentale.
Quando si analizza un suono reale quasi periodico prodotto da uno strumento musicale, si osserva
che lenergia spettrale si concentra attorno a poche righe strette. Queste righe corrispondono a sinusoidi, chiamate parziali, di frequenza allincirca multipla della fondamentale. Lampiezza di ciascuna
parziale non e proporzionalmente costante nel tempo rispetto alla fondamentale, ma varia secondo
un suo andamento. Ad esempio nellattacco, sono significative alcune parziali, che poi diventano
trascurabili nel regime. In generale le parziali sono componenti di uno spettro a frequenza arbitra-

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.12

ria. Le parziali cioe possono essere o non essere armoniche (multipli interi) di una fondamentale.
In un suono inarmonico (come quello di una campana) le parziali non sono in rapporti interi con la
fondamentale.

Figura 5.3: Somma di oscillatori sinusoidali con ampiezza e frequenza tempo varianti
La formula della sintesi additiva (sinusoidale) e pertanto:
s n

Ak n sin 2
k

fk n
n k
Fs

Essa si puo realizzare mediante la somma di oscillatori sinusoidali, visti precedentemente, con ampiezza Ak n e frequenza fk n tempo varianti (fig. 5.3). Nei i suoni armonici le frequenze delle
parziali sono caratterizzate da fk k f1 . Come esempio di suono inamornico, si puo ottenere una
imitazione dei suoni di campana, mediante la somma di componenti sinusoidali a frequenze non
legate armonicamente corrispondenti ai modi della campana, con inviluppo dampiezza esponenziale
decrescente, piu lungo per le componenti piu gravi che si smorzano piu lentamente. Per creare i battimenti si possono controllare ulteriormente lampiezza o aggiungere delle componenti di frequenza
prossima ad alcune di quelle esistenti.
Se scegliamo i parametri di controllo desunti dallanalisi spettrale di un suono naturale, questa
tecnica di sintesi consente un buon grado di riproduzione. La sintesi additiva fornisce anche una
buona riproduzione dei suoni non periodici o inarmonici in cui lenergia sia concentrata in poche
righe spettrali. Molto meno adatta e invece per la parte di suono che e distribuita nello spettro, come
le componenti rumorose.
La sintesi additiva e un metodo di grande generalita ma ha il problema che ha bisogno di un
gran numero di parametri di controllo per ciascuna nota. Devono essere specificate due funzioni di
controllo per ciascuna parziale (ampiezza e frequenza). Normalmente le funzioni sono diverse per
ogni nota e dipendono dalla durata e intensita della nota. Essa pertanto e spesso usata per la sintesi
basata sullanalisi. Infatti, come si vedra, le trasformazioni fatte sui parametri della sintesi additiva
(come cambiamento della scala dei tempi) sono particolarmente robuste percettivamente. Inoltre e
utile per familiarizzare i musicisti con le caratteristiche del suono e la rappresentazione in frequenza.
In conclusione si puo anche osservare che questo metodo, nato per simulare suoni reali, e
diventato per alcuni musicisti, il fondamento metaforico per una metodologia compositiva basata
sullespansione della scala temporale e la reinterpretazione dello spettro come struttura armonica.

5.2. METODI DI GENERAZIONE DIRETTA

5.13

Esempio di sintesi additiva in Matlab


Il generatore sinusoidale controllato in ampiezza e frequenza costituisce lunita fondamentale degli
algoritmi di sintesi additiva. Si pu utilizzare loscillatore realizzato nellesempio precedente per sperimentare il fenomeno dei battimenti. Lesperimento prevede due oscillatori di cui uno a frequenza
costante e laltro a frequenza crescente (o decrescente):
% genera segnali di controllo
f1=envgen([0,20],[200,200]); %sinusoide fissa
%sinusoide a frequenza crescente:
f2=envgen([0,1,5,10,15,20],[200,200,205,220,270,300]);
a=envgen([0,5,10,15,20],[1,1,1,1,1]);
% genera segnali audio
s=sinosc(0,a,f1,0)+sinosc(0,a,f2,0);

La fig. 5.4 mostra i segnali di controllo della frequenza e leffetto di inviluppo di ampiezza
caratteristico dei battimenti del primo ordine.
pitch of second tone (first tone: pitch=200 Hz)
300
280

Hz

260
240
220
200

10
sec

12

14

16

18

20

16

18

20

waveform with amplitude modulation (first order beats)


3

lin. scale

2
1
0
1
2
3

10
sec

12

14

Figura 5.4: Battimenti del primo ordine


La sintesi additiva permette di ottenere suoni di sintesi di alta qualita se i parametri di frequenza e
ampiezza delle parziali vengono estratti dalla versione campionata del suono da riprodurre attraverso
una analisi di tipo Short Time Fourier Transform (STFT) . Come e noto, questo tipo di analisi permette
di costruire le traiettorie temporali (al frame rate) di frequenza e ampiezza delle singole parziali che
costituiscono il suono. In figura 5.5 si puo osservare il risultato di un analisi di questo tipo per una
nota di sassofono.
A partire dalle due matrici contenenti i dati ora visti, e facile ottenere la risintesi del suono di
partenza con sintesi additiva:
% genera segnali di controllo
readsan; %legge file di analisi: sinan_freqs e sinan_amps
% genera segnali audio

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.14
frequences of partials

amplitude of partials

10000

8000

9000

7000

8000
6000
7000
5000

lin. scale

Hz

6000

5000

4000

4000

3000

3000
2000
2000
1000

1000

50

100
150
frames

200

250

50

100
150
frames

200

250

Figura 5.5: Analisi STFT di una nota di sassofono: frequenza (a sinistra) e ampiezza (a destra) delle
parziali nel tempo
nparz=size(sinan_amps,1);
%genera la fondamentale nel tempo
s=sinosc(0.5,sinan_amps(1,:),sinan_freqs(1,:),0);
for (i=2:nparz)
%genera le parziali superiori
s=s+sinosc(0.5,sinan_amps(i,:),sinan_freqs(i,:),0);
end

5.2.4

Sintesi granulare

La sintesi granulare condivide con la sintesi additiva lidea di comporre suoni complessi a partire da
suoni piu semplici. Mentre la sintesi additiva si basa sulla sovrapposizione temporale di sinusoidi, la
sintesi granulare invece si basa sulla successione di forme donda di breve durata (tipicamente da 1 a
100 msec) chiamate grani. Da questo punto di vista un grano e un breve evento acustico la cui durata
e prossima alle soglie di discriminazione della durata, frequenza e intensita nella percezione uditiva.
E un po come nel cinema dove la successione veloce di immagini statiche, produce la sensazione di
movimento. Questa idea base si articola poi in due casi principali a seconda della forma donda del
grano.
Granulazione di suoni
Nel primo, forme donda complesse, prese da suoni reali [Truax] o descritte come spettri, si susseguono in parte sovrapponendosi nel metodo chiamato Overlap and Add (OLA). Si possono cosi
sia riprodurre fedelmente suoni che modificarli nelle caratteristiche dinamiche. Come nella sintesi
additiva era importante la coordinazione nella scelta delle frequenze, cosi qui e importante curare

5.2. METODI DI GENERAZIONE DIRETTA

5.15

lallineamento temporale dei grani, allo scopo di evitare fenomeni di discontinuita di fase, che producono effetti acustici poco gradevoli. Questo rende spesso il controllo difficile. Un esempio duso
e nella sintesi della componente stocastica del segnale, come descritto da X. Serra[1996]; in questo
caso viene infatti solo controllata levoluzione dellinviluppo spettrale. A questo scopo per ogni frame
si ricorre alla trasformata di Fourier inversa, mediante FFT, di uno spettro il cui modulo e definito
dallinviluppo spettrale e la fase viene creata da un generatore di numeri casuali. Ogni frame viene poi
moltiplicato per una finestra prima di fare lOverLap-Add, cioe la somma dei vari frames con parziale
sovrapposizione temporale. Si puo usare questo approccio anche come metodo di trasformazione di
suoni campionati (granulazione di suoni). In questo caso i grani vengono costruiti prelevando piccole
parti di un suono, registrato precedentemente o acquisito direttamente da un convertitore D/A, e poi
applicando ad ognuna un inviluppo di ampiezza. Questi grani poi vengono emessi con ordine scelto
dal compositore, ad esempio con velocita variabile o mescolandoli con ordine casuale. I grani possono anche essere scelti da suoni diversi e poi emessi in modo interlacciato, creando quindi tessiture
intermedie (fig. 5.6).

Figura 5.6: rappresentazione grafica di sintesi granulare con grani ricavati da sorgenti diverse e
mescolati in modo aleatorio che evolve nel tempo [da Roads 91]

Sintesi
Nel secondo tipo invece si usano come grani funzioni gaussiane (o in generale di tipo passabasso)
modulate in frequenza, in modo da localizzare lenergia nel piano tempo-frequenza. Abbiamo qui
invece unanalogia con il mosaico, dove lanalogo del grano e la singola tessera monocromatica e la
giustapposizione di tessere di colori diversi fornisce unimmagine complessa. In questo caso la forma
donda delli-esimo grano e data da
gi n wi nP cos 2

fi
n i
Fs

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.16

dove wi n e una finestra di durata Ni campioni. La formula di sintesi e data da


s n

ai gi n

ni

dove ai e leventuale coefficiente di ampiezza del grano i-esimo e ni e il suo riferimento temporale.
Ogni grano da quindi un contributo di energia concentrato nel piano tempo-frequenza attorno al punto
(ni , fi ).
Quando i grani sono collocati regolarmente su una griglia nel piano tempo frequenza, essa diventa
una realizzazione della sintesi da analisi tempo-frequenza tipo STFT. In questo caso lanalogia e
limmagine a colori sullo schermo di un computer, composta da una griglia di pixel di tre colori.
Quando invece i grani sono sincroni con il periodo del segnale, si ha la cosiddetta sintesi granulare
sincrona con il periodo, che fa riferimento alla sintesi sottrattiva come filtraggio di un segnale quasi
periodico. Infatti ogni grano puo essere interpretato come la risposta allimpulso di un filtro FIR e
quindi il risultato puo essere interpretato come un treno periodico di impulsi che eccita un banco
di filtri FIR tempo varianti. Questa interpretazione fornisce anche i criteri per la scelta delle forme
donda dei grani.
Il caso piu importante e classico di sintesi granulare e quando invece i grani semplici sono distribuiti in modo irregolare[Roads 1991] (asynchronous granular synthesis). Per esempio distribuendo
casualmente i grani dentro una maschera che delimita una particolare regione nello spazio tempofrequenza-ampiezza si ottiene come risultato una nuvola di microsuoni o tessitura (texture) musicale
che varia nel tempo (fig. 5.7). Si puo inoltre controllare la densita dei grani dentro la maschera.
Vengono cosi modellati suoni articolati dove non interessa controllare esattamente la microstruttura.
Si evitano cosi i problemi del controllo dettagliato delle caratteristiche temporali dei grani. La durata
dei grani influenza la tessitura sonora: durate brevi danno un carattere scoppiettante, esplosivo, mentre
durate piu lunghe danno unimpressione molto piu sfumata. Quando i grani vengono distribuiti in
una larga regione frequenziale, la nuvola ha un carattere massiccio, mentre se la banda e stretta, ne
risulta un suono dotato di altezza propria. Densita sparse di grani danno un effetto puntiglistico.

Figura 5.7: Esempio di maschera per la sintesi granulare asincrona

5.2.5

Sintesi sottrattiva

Mentre la sintesi additiva costruisce suoni complessi sommando insieme semplici suoni sinusoidali
tempo varianti, la sintesi sottrattiva e basata sullidea complementare di passare un segnale a larga
banda attraverso un filtro tempo variante per produrre la forma donda desiderata. La sintesi sottrattiva trae la sua origine nel campo analogico, dove si usava produrre segnali a partire da forme
donda semplici, come onde quadre o a dente di sega e poi sagomare lo spettro mediante filtraggio
eventualmente variabile. Nel campo numerico si ha il vantaggio di poter controllare in modo molto
piu preciso i parametri dei filtri. Daltra parte spesso conviene generare direttamente la forma donda
voluta con altri metodi. Essa pertanto si e piu specializzata nelluso con filtri piu sofisticati o i cui
parametri possano essere stimati a partire da suoni reali. Invece i filtri sono molto usati per produrre
trasformazioni di suoni nel cosiddetto postprocessing. Mediante filtri cioe si arricchisce un segnale
sintetizzato o registrato di vari effetti, si variano le sue caratteristiche spettrali, pur mantenendo la

5.2. METODI DI GENERAZIONE DIRETTA

5.17

dinamica intrinseca del suono, si possono produrre effetti di riverberazione e spazializzazione e cosi
via.

SORGENTE

FILTRO

Figura 5.8: Sintesi sottrattiva


Linterpretazione fisica della sintesi sottrattiva consiste in una sorgente di segnale di eccitazione
che viene inviata ad un sistema risonante (fig. 5.8). Questa descrizione si adatta in prima approssimazione a vari strumenti musicali tradizionali. Ad esempio le corde vibranti di un violino sono
accoppiate attraverso il ponticello alla cassa risonante, che in questo caso si comporta come filtro
tempo invariante. Anche il suono della voce puo essere modellato come una sorgente di eccitazione,
che puo essere di tipo impulsivo data dalle vibrazioni delle corde vocali e rumorosa data dal flusso
turbolento dellaria in qualche costrizione del tratto vocale. Questa sorgente viene trasmessa attraverso il tratto vocale, la cavita orale, la cavita nasale, lapertura delle labbra che filtrano e modificano
spettralmente la sorgente, in modo approssimativamente lineare. Va osservato pero che, nel caso della voce si puo considerare la sorgente indipendente dal tratto vocale, mentre in molti strumenti, come
il violino, per ottenere un modello efficace non si puo trascurare linfluenza della risonanza sulla
sorgente. La sintesi sottrattiva si applica bene nel primo caso, mentre nel secondo e bene ricorrere
alle tecniche della sintesi per modelli fisici.
Nella sintesi sottrattiva si ha un blocco di generazione del segnale seguito in connessione senza
feedback da uno o piu blocchi, eventualmente in cascata o parallelo che lo trasformano. Questa
tecnica di sintesi consiste nel considerare la trasformazione operata da un filtro su una sorgente di
segnale, spettralmente ricca, come puo essere quella effettuata dalla cassa di risonanza di un violino
sulle vibrazioni delle corde.
I filtri lineari sono descritti dallequazione alle differenze
y n

bi x n
i

ak y n

(5.4)

dove ak e bi sono i coefficienti del filtro e x n e y n sono rispettivamente i segnali di ingresso e


uscita. Il filtro e caratterizzato da una risposta in frequenza definita da
H f Y f X f
dove X f e Y f sono gli spettri del segnale di ingresso e uscita.
A seconda dellandamento della risposta in frequenza, si puo variare landamento globale dello
spettro del segnale in ingresso, ad esempio estraendo una piccola porzione del suo spettro. Se il
filtro e statico, cioe se i parametri del filtro non variano, resta costante anche il suo effetto. Se
invece i parametri sono tempo varianti, cambia anche la risposta in frequenza del filtro. In uscita
si avra una combinazione delle variazioni spettrali nel tempo del segnale in ingresso e di quelle
del filtro. I parametri del filtro sono quindi scelti in base alla risposta in frequenza voluta e alla
dinamica timbrica desiderata. Se viene usata per la sintesi e bene che il segnale di ingresso non sia di
frequenza fissa, ma abbia ad esempio un po di tremolo. Solo in questo modo infatti viene percepita

5.18

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

la forma dellinviluppo spettrale a causa delle variazioni dampiezza delle varie parziali che seguono
linviluppo spettrale.
La scomposizione effettuata offre la possibilita di controllare separatamente le caratteristiche
della sorgente da quelle del filtro dando quindi una maggiore flessibilita nel controllo parametrico e
una migliore interpretazione dei parametri di controllo.
Esaminiamo alcune tipiche applicazioni dei filtri nel campo audio.
Il filtro passa-basso (LP) con risonanza e usato spesso per simulare leffetto di strutture risonanti; il filtro passa-alto (HP) invece per rimuovere componenti a bassa frequenza indesiderate; il filtro
passa-banda (BP) puo produrre effetti come imitazione di una linea telefonica, o la sordina in uno
strumento musicale; il filtro elimina-banda (BR) puo dividere lo spettro udibile in due bande separate
che sembrino incorrelate. Il filtro risonante puo essere usato per introdurre risonanze artificiali ad un
suono; mentre il filtro notch (che elimina tutte le frequenze in una stretta banda attorno alla frequenza
di risonanza) serve per eliminare disturbi quasi sinusoidali come ad esempio i 50 Hz dovuti allalimentazione dei dispositivi elettronici. Un insieme di filtri notch usati in combinazione sul segnale di
ingresso, puo produrre leffetto di phasing.
Va segnalato che il filtraggio puo cambiare molto lintensita del suono filtrato. Infatti il filtro puo
produrre leffetto desiderato, ma il risultato non puo poi essere usato perche diventato troppo debole
o forte. Il metodo per compensare queste variazioni si chiama normalizzazione. In genere i metodi
di normalizzazione impiegano norme del tipo L1 , L2 e L sul modulo della risposta in frequenza del
filtro. La norma L1 e usata quando il filtro non deve essere sovraccaricato in nessuna circostanza.
Spesso pero questo significa attenuare troppo il segnale. La norma L2 (normalizzazione del valore
efficace) e usata per normalizzare lintensita del segnale. Questo metodo e accurato per segnali a
larga banda e adatto in molte applicazioni musicali. La norma L normalizza la risposta in frequenza
rispetto al suo massimo ed e efficace quando il segnale da filtrare e sinusoidale o periodico.
Un banco di filtri consiste in un gruppo di filtri che sono alimentati con le stesso segnale. Ciascun
filtro e tipicamente un filtro passa-banda stretto impostato ad una propria frequenza centrale. Spesso
i segnali filtrati vengono poi sommati per produrre il suono in uscita. Quando si puo controllare il
livello di ciascun filtro il banco di filtri viene chiamato anche equalizzatore in quanto si puo usare per
compensare una risposta in frequenza non piatta del sistema di trasmissione o riproduzione.
Se si puo controllare frequenza, banda e livello di ciascun filtro, si ha un sintetizzatore a formanti
parallelo. Se le risposte dei singoli filtri non sono troppo sovrapposte, si riesce a controllare separatamente landamento dei singoli formanti. Questo puo essere usato nella sintesi della voce, dove le
transizioni tra i formanti devono essere accurate.
La tecnica vista si presta bene a sintetizzare sia gli inviluppi spettrali poco variabili nel tempo,
come le risposte acustiche ambientali, leffetto delle casse armoniche, le spazializzazioni, sia gli inviluppi spettrali rapidamente variabili, come gli effetti di sordina, la voce parlata e cantata e i suoni
caratterizzati da grande dinamica timbrica. Si osservi che il modello non e limitato da assunti sulla periodicita del segnale sorgente, ma anzi puo utilmente essere impiegato per la simulazione di
segnali non intonati, come le percussioni. Per questi ultimi sono normalmente impiegate sorgenti di
segnali rumorosi, caratterizzati da spettri continui. In questultimo caso il modello sorgente di rumore
bianco - filtro diventa un valido mezzo per descrivere i processi stocastici; esso infatti permette la caratterizzazione dellinviluppo spettrale, eventualmente considerato tempo-variante, che e il parametro
percettivamente piu significativo.
Se si possono fare ipotesi semplificative sullingresso, e possibile stimare sia i parametri della
sorgente che del filtro a partire da un suono dato. La procedura piu nota e il metodo di predizione
lineare (LPC) che usa una sorgente composta da treno di impulsi o da rumore bianco ed e usata per la
sintesi della voce. Questo metodo verra presentato piu estesamente nel paragrafo 5.2.6. Analizzando

5.2. METODI DI GENERAZIONE DIRETTA

5.19

una sequenza di segmenti di suono si ottengono parametri tempo varianti che possono essere usati
nella sintesi. Il vantaggio di avere un modello parametrico e che si puo dare uninterpretazione
fisica o spettrale a questi parametri e quindi avere un criterio di riferimento per la loro modificazione,
sintetizzando quindi varianti del suono. Per esempio la stima dei parametri LPC della voce fornisce
un filtro tempo variante che contiene landamento nel tempo dellinviluppo spettrale e quindi delle
formanti. Questi sono parametri particolarmente importanti per la percezione della voce. Per cui essi
possono essere modificati in senso spettrale cambiando il carattere della voce, o in senso temporale,
facendo quindi una compressione o espansione della scala temporale, oppure si puo cambiare il
pitch della voce senza cambiare il suo inviluppo e quindi mantenendo le caratteristiche della voce
originaria. Una possibilita usata spesso dai musicisti consiste nellusare il filtro, con parametri stimati
sul una voce parlata, applicando allingresso suoni daltro tipo ricchi spettralmente. Vengono cosi
combinate le caratteristiche tempo-frequenza dei due suoni ottenendo, ad esempio, unorchestra che
canta. Questa tecnica viene chiamata sintesi incrociata.
Dal punto di vista implementativo va detto che loperazione di filtraggio lineare puo essere realizzata con diverse strutture che realizzano lequazione alle differenze sopra vista, oppure come convoluzione con una risposta allimpulso, che di fatto descrive un filtro, o la risposta allimpulso di un
ambiente. Una maniera alternativa consiste nel fare il filtraggio in frequenza, facendo il prodotto dello
spettro del segnale, suddiviso in blocchi, con la risposta in frequenza del filtro, e antitrasformando il
risultato.
La sintesi sottrattiva fa riferimento ad una interpretazione in frequenza. Le varie tecniche di
implementazione dei filtri offrono diverse possibilita di controllo parametrico, che vanno scelte in
base alle applicazioni. Ad esempio per la sintesi di suoni vocalici e utile poter controllare la frequenza
e la banda dei formanti, dove si concentra lenergia e che caratterizza specialmente lidentita del
suono. Inoltre spesso e utile combinare sorgenti periodiche a sorgenti stocastiche.
Lo stesso tipo di trasformazioni lineari, descritte da (5.4), puo essere usato per ottenere effetti di
riverberazione e periodicizzazione. In questo caso il filtro e caratterizzato da ritardi consistenti, che
vengono meglio interpretati nel tempo, come echi, riverberi o come ripetizioni periodiche del segnale
in ingresso. Metodi che impiegano filtri caratterizzati da delay lunghi sono presentati nel capitolo
relativo alla spazializzazione.
Esempio di sintesi sottrattiva in Matlab
La sintesi sottrattiva crea suoni selezionando porzioni dello spettro di un segnale sorgente. E dunque
necessario disporre di segnali sorgente adeguati (cioe a largo spettro) e saper progettare accuratamente i filtri numerici per la modellazione dello spettro.
In linea di principio, qualsiasi segnale puo essere usato come sorgente di un algoritmo di sintesi
sottrattiva. Esistono tuttavia due generatori di segnale notevoli che, per la ricchezza spettrale dei
segnali prodotti, sono considerati particolarmente adatti a questo scopo: il generatore di rumore e
il generatore di impulsi. Il primo produce un segnale non periodico e a spettro continuo su tutta la
banda di frequenze. Il secondo produce un segnale periodico con energia distribuita uniformemente su
tutta la banda di frequenze disponibile. Ogni linguaggio dispone di una funzione per la generazione
di numeri casuali (in MATLAB e presente la funzione rand() ) che puo essere utilizzata per
generare rumore bianco. Non sempre e previsto, invece, un generatore di impulsi. Il modo piu
semplice di costruire un treno di impulsi e quello di usare la sintesi additiva per sommare tutte le
componenti armoniche, multiple di una fondamentale che definisce il pitch, comprese fra 0 e F2s . In
fig. 5.9 e illustrato il segnale nel tempo e in frequenza.
La teoria del progetto dei filtri numerici e argomento vasto e non e affrontato in questa sede. A

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.20
1.2

180

160

140
0.8
120
0.6
100
0.4
80
0.2
60
0
40
0.2

0.4

20

500

1000
t (samples)

1500

2000

100

200
f (bin)

300

400

Figura 5.9: Generatore di impulsi


titolo di esempio e invece tratto il caso notevole del progetto di celle IIR del secondo ordine. Come
esercizio e possibile realizzare le funzioni per le restanti celle FIR e IIR di primo e secondo ordine.
Le relazioni che descrivono la cella del secondo ordine sono le seguenti

yn

b1 x n

H z

a2 y n 1 a3 y n
b1
a2 z 1 a3 z 2
b1
2r cos c z 1 r2 z 2

1
1

dati B larghezza di banda, fc frequenza centrale della risonanza e c 2 fc Fs , i coefficienti del filtro
si legano con buona approssimazione a questi parametri mediante le relazioni
r

B
Fs

2r cos

a2

a3

r2

b1

2 fc
Fs
1

2r cos 2c

r2

1.
dove b1 , fattore di normalizzazione del guadagno, e calcolato ponendo H c
Per realizzare filtri lineari tempo-invarianti il MATLAB mette a disposizione la funzione filter(b,a,in), in cui i parametri b e a sono i coefficienti del filtro secondo lequazione alle differenze standard a1 y n
b1 x n b2 x n 1
bnb 1 x n nb
a2 y n 1 a3 y n 2
ana 1 y n na . Con questa funzione e dunque semplice sperimentare leffetto del filtraggio a parametri costanti. Ad esempio, si supponga di voler realizzare un sintetizzatore a formanti parallelo con
tre formanti centrati alle frequenze caratteristiche che determinano il tipo di vocale per la voce. Le
righe seguenti mostrano come usare tre celle IIR in parallelo in uno schema ad eccitazione impulsiva
e filtri in parallelo (la funzione baIIR2([f1,f2,...,fn],[B1,B2,...,Bn] restituisce due

5.2. METODI DI GENERAZIONE DIRETTA

5.21

matrici con i coefficienti delle n celle del secondo ordine descritte dai vettori di ingresso, mentre la
funzione buzz(t0,a,f) realizza il generatore di impulsi).
% genera segnali di controllo
f=envgen([0,.2,1.8,2],[200,250,250,200],linear); % curva di pitch
% vibrato:
f=f+max(f)*0.05*sin(2*pi*5*(SpF/Fs)*[0:length(f)-1]).*hanning(length(f));
amp=envgen([0,.2,1,1.8,2],[0,1,.8,1,0],linear);
%genera sorgente impulsiva
s=buzz(0,amp,f);
%inviluppo spettrale /i/
[b,a]=baIIR2([300 2400 3000],[200 200 500]);
si=filter(b(1,:),a(1,:),s)+
filter(b(2,:),a(2,:),s)+
filter(b(3,:),a(3,:),s);
%inviluppo spettrale /a/
[b,a]=baIIR2([700 1200 2500],[200 300 500]);
sa=filter(b(1,:),a(1,:),s)+
filter(b(2,:),a(2,:),s)+
filter(b(3,:),a(3,:),s);
%inviluppo spettrale /e/
[b,a]=baIIR2([570 1950 3000],[100 100 800]);
se=filter(b(1,:),a(1,:),s)+
filter(b(2,:),a(2,:),s)+
filter(b(3,:),a(3,:),s);

La funzione baIIR2 calcola i coefficienti del filtro data la frequenza centrale e banda
function [b,a]=baIIR2(fc,B);
%funzione per la valutazione di coefficienti della cella del II ordine
global Fs;
global Fc;
nfilters=length(fc);
r=exp(-(pi.*B)/Fs)
a2=-(2*r.*cos(2*pi*fc/Fs))
a3=r.2
a1=ones(nfilters,1)
%normalizzazione
b1=(1-r).*sqrt(1-2.*r.*cos(2*2*pi.*fc/Fs)+r.*r);
b1=b1;
a=[a1 a2 a3];
b=[b1 zeros(nfilters,1) zeros(nfilters,1)];

In figura 5.10 sono messi a confronto lo spettro del segnale originario con gli spettri del segnale
con inviluppo spettrale dato dalla sezione di filtri.

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.22
a) pulse signal (pitch=250 Hz)

b) II order cells configured for vowel /i/


10

50

40

10

30

20

db

60

20

30

10

40

50

10

2000

4000

6000

60

4000

6000

c) pulse wave convolved by II order cells

d) result when pulse waveform pitch=100 Hz)


50

40

40

30

30

20

20

10

10

2000
Hz

50

Hz

2000

4000

6000

2000

Hz

4000

6000

Hz

Figura 5.10: Inviluppo formantico con banco di filtri in parallelo


Il banco di filtri puo naturalmente essere applicato anche al suono campionato di uno strumento
acustico. Questo tipo di operazione e adatta, per esempio, a produrre effetti di variazione timbrica a
partire dal timbro originario di una nota dello strumento da riprodurre. Un caso tipico e la riproduzione delleffetto di una sordina su uno strumento a fiato. Di seguito e riportato un semplice esempio
di manipolazione timbrica di un file audio.
% carica file audio
s=wavread(sample.wav);
[b,a]=baIIR2([300 2400 3000],[200 200 200]);
si=filter(b(1,:),a(1,:),s)+filter(b(2,:),a(2,:),s)
+filter(b(3,:),a(3,:),s);

Nei casi in cui si vogliono ottenere cambiamenti di timbro continui nel tempo, e necessario cambiare i parametri del filtro nel tempo. Questa e una operazione non banale che da occasione di
accennare ad alcuni problemi fondamentali dei filtri tempo-varianti: il verificarsi di discontinuita e

5.2. METODI DI GENERAZIONE DIRETTA

5.23

transitori spuri nel suono di uscita a fronte di variazione a scalino dei parametri; linterpolazione lineare dei parametri non sempre basta a risolvere i problemi ed e necessario scegliere accuratamente
le strutture realizzative dei filtri che presentano maggior robustezza alle variazioni parametriche. Per
sperimentare luso dei filtri tempo-varianti si fornisce una versione con controllo al frame rate della
cella IIR del secondo ordine (IIRcell(fc,B,in) ).
function out = IIRcell(in,fc,B);
% cella MA 1 ordine
% f0 al control rate
% sin audio rate;
(...)
[b,a]=baIIR(fc,B);
initstate=zeros(1,2);
out=zeros(1,nframes*SpF);
for (i=1:nframes)
framein=in(((i-1)*SpF+1):i*SpF);
[out(((i-1)*SpF+1):i*SpF),endstate]=
=filter(b(i,:),a(i,:),framein,initstate);
initsate=endstate; %aggiornamento dello stato del filtro
end

5.2.6

Sintesi della voce per predizione lineare

Lapparato di fonazione
La voce umana e prodotta dal flusso di aria attraverso lapparato di fonazione. Esso e composto
da tre cavita principali: la cavita nasale, la cavita orale e la cavita faringale, schematizzate in fig.
5.11. La cavita nasale e principalmente ossea e quindi la sua forma e fissa. Essa puo essere isolata
dal resto dellapparato vocale se si solleva il velo palatino, o palato molle. Cosi facendo si chiude
il diaframma rinovelare che mette in comunicazione la cavita nasale con quella orale e faringale.
Quando lapparato vocale e in posizione di riposo, il velo pende giu e il diaframma e quindi aperto.
Durante la produzione della maggior parte dei suoni linguistici il velo e sollevato e il diaframma
e chiuso, ma nel caso di suoni nasali o nasalizzati esso rimane aperto, in modo che laria sfugge
attraverso la cavita nasale, conferendo al suono una caratteristica colorazione nasale.
La sommita della cavita orale e formata dalla struttura ossea del palato e dal palato molle. La
conformazione della cavita puo essere modificata in modo considerevole dal movimento della mandibola, che puo aprire o chiudere la bocca; dalle labbra, la cui disposizione puo variare dallestremo
appiattimento allestremo arrotondamento; dalla lingua che puo assumere una quantita di posizioni
diverse.
La cavita faringale si estende fino al fondo della gola. Essa puo essere compressa ritraendo
indietro la radice della lingua verso la parete della faringe. Nella sua parte inferiore essa termina con
le corde vocali, una coppia di membrane carnose che laria attraversa provenendo dai polmoni. Lo
spazio tra esse e detto glottide. Durante la produzione di un suono, essa puo essere completamente
aperta, con le corde vocali in posizione di quiete, parzialmente chiusa con le corde vocali in vibrazione
o completamente chiusa, isolando cosi la cavita faringale dai polmoni.
La forma donda del segnale vocale e quella di unonda di pressione acustica originata da movimenti fisiologici dellapparato di fonazione. Laria e spinta dai polmoni nella trachea e quindi forzata

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.24

Figura 5.11: Lapparato di fonazione


attraverso le corde vocali. Durante la generazione di suoni vocalizzati (quasi periodici), come la vocale /a/, laria spinta dai polmoni causa la vibrazione delle corse vocali e quindi la modulazione del
flusso daria ad una frequenza dipendente dalla pressione nella trachea e dalla disposizione (lunghezza, spessore, tensione) delle corde vocali. Piu grande e la tensione delle corde vocali, piu alta e
la frequenza della voce. La velocita volumetrica (portata) del flusso di aria che attraversa la glottide
definisce lingresso o eccitazione del tratto vocale.
I suoni non vocalizzati come /f/ sono generati tenendo volontariamente aperte le corde vocali,
forzando laria attraverso la glottide e quindi usando larticolazione per creare una costrizione lungo
il tratto vocale (ad esempio posando i denti superiori sul labbro inferiore per il fonema /f/). Con
contemporanea costrizione e vibrazione delle corde vocali si generano le fricative vocalizzate come
la /z/ di rosa o la /dz/ di zanzara. I suoni esplosivi come /p/ sono generati aumentando la pressione
dellaria nella bocca e facendola quindi uscire improvvisamente.
Alla produzione di ogni fonema corrisponde una certa configurazione anatomica del tratto vocale,
il quale agisce come risonatore meccanico allo scopo di modificare lo spettro delleccitazione glottale. Le frequenze di risonanza del tratto vocale vengono dette formanti. Ogni suono e caratterizzato
dal valore assunto dalle formanti che tipicamente sono in numero di quattro nellintervallo 0-4 kHz.
Nel parlato continuo, la configurazione del tratto vocale varia nel tempo, per cui levoluzione temporale delle formanti costituisce un efficace metodo di rappresentazione del segnale vocale. Inoltre,
considerando che la velocita di variazione degli organi articolatori e abbastanza lenta, e possibile
schematizzare il processo come stazionario a tempo breve (dellordine di 10 - 50 msec).
Un modello di analisi e sintesi del parlato: la predizione lineare
Come esempio di sintesi sottrattiva presentiamo ora un algoritmo semplificato per la sintesi della voce.
Un modello lineare di produzione della voce e stato sviluppato da Fant nel 1950. In esso la velocita
volumetrica che esce dalla glottide e modellata come uscita di un filtro passa-basso G z a due poli
con frequenza di taglio stimata a circa 100Hz. Lingresso u t del filtro e un treno di impulsi con
frequenza f0 per i suoni vocalizzati e rumore bianco per i suoni non vocalizzati. Il tratto vocale e
modellato con un filtro V z a soli poli, consistente in una cascata di un numero ridotto di risuonatori

5.2. METODI DI GENERAZIONE DIRETTA

5.25

(filtri) del secondo ordine. Ogni risonanza e definita come un formante con una frequenza centrale fi
e una larghezza di banda Bi . Un modello piu accurato dovrebbe comprendere un infinito numero di
risonanze, il cui effetto principale alle frequenze piu basse e di aumentare il livello spettrale. Quindi
quando si deve rappresentare accuratamente solo il funzionamento del sistema solo alle frequenza
medio-basse, (la parte piu importante per la percezione del parlato), e necessario introdurre una
correzione che rappresenti leffetto dei poli piu alti trascurati.
La forma donda della velocita volumetrica alle labbra e trasformata nella forma della pressione
acustica fuori dalle labbra per mezzo di un modello L z di radiazione delle labbra. In definitiva si ha
S z U z G z V z L z

(5.5)

dove S z e il segnale prodotto.


Il modello della glottide e della forma
G z

1
1 q exp q cr Fc zs 1 2

e il modello di radiazione delle labbra e della forma


L z 1 q zs

Il modello delli-esimo formante di frequenza fi e banda Bi e dato da


Vi z

gi
1 q 2r cos i zs

1t

r2

con i 2 fi r Fc e r exp q Bi r Fc e gi coefficiente di guadagno del filtro. Il modello cascata del


tratto vocale e dato quindi da;
V z

Vi z
i 1

Figura 5.12: Diagramma a blocchi del modello semplificato di produzione del parlato
Il modello descritto prevede come ingresso un treno di impulsi periodici o un rumore e come
parametri le frequenze e le larghezze di banda dei formanti (fig. 5.12). Nella sintesi della voce questi
parametri vengono aggiornati ogni 5-10 msec o allinizio di ogni periodo di pitch (sintesi sincrona
con il periodo). Si puo osservare che il termine al numeratore L z 1 q zs 1 quasi coincide con

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.26

un polo di G z che vale 1 exp c Fc z 1 , in quanto c Fc 1. Si puo quindi approssimare la


composizione degli effetti spettrali della radiazione, tratto vocale ed eccitazione glottale con un filtro
senza zeri e p 2K 1 poli. Esso e pertanto rappresentabile con
S z H z U z

g
1 kp

1 ak z

U z

(5.6)

Il filtro H z rappresenta le caratteristiche complessive ingresso uscita del modello. In definitiva i


parametri che definiscono il modello di produzione del parlato qui visto sono i coefficienti di A z e
i parametri dellingresso vocalizzato o non, pitch e guadagno g. Per stimarli a partire da un segnale
vocale si dovra pertanto prima decidere se usare un generatore casuale (per suoni non vocalizzati) o
periodico, poi si stimera la frequenza della fondamentale e il guadagno. Infine si stimano i coefficienti
ak tramite algoritmi predittivi, che possono essere ricondotti essenzialmente a due classi: metodo della
covarianza e metodo dellautocorrelazione. Il metodo dellautocorrelazione e quello attualmente piu
usato per lesistenza di algoritmi piu robusti e piu efficienti.
Il modello semplificato a soli poli e una rappresentazione naturale per i suoni non nasali, mentre
invece per i suoni nasali e fricativi si dovrebbe tener conto anche degli zeri. Daltra parte se lordine p e sufficientemente alto, anche il modello a soli poli produce una buona rappresentazione per
quasi tutti i suoni del parlato. Il grande vantaggio e che i parametri possono essere stimati in modo
semplice.
Dallequazione 5.6 risulta che i campioni s n sintetizzati sono legati allingresso dallequazione
s n

ak s n

k gu n

k 1

(5.7)

Lequazione 5.6 e detta modello di sintesi, in quanto applicando a questo filtro lingresso si ottiene il
suono vocale in uscita.
Per la stima dei parametri si considera sconosciuto lingresso u n . Si consideri di stimare luscita
del sistema approssimativamente da una somma pesata dei campioni precedenti. Si ha quindi un
predittore lineare di ordine p, con coefficienti ak , definito dalla relazione
s n

ak s n

k 1

(5.8)

Viene quindi definito lerrore di predizione e n (chiamato anche residuo) la differenza tra il valore
attuale s n e il valore predetto s n
e n s n s n s n

ak s n

k 1

(5.9)

Da questa relazione si vede che e n e luscita di un sistema con funzione di trasferimento


A z 1

ak z

k 1

e con ingresso i campioni del segnale vocale s n . Confrontando le equazioni 5.7 e 5.9 si vede che se
il segnale seguisse esattamente il modello di eq. 5.7 e se ak ak , allora risulterebbe
e n gu n

(5.10)

5.2. METODI DI GENERAZIONE DIRETTA

5.27

In questo caso il filtro A z di predizione dellerrore risulta coincidere con il filtro inverso del sistema
H z e cioe H z g A z .
Si stimano i parametri del modello direttamente dai campioni del segnale vocale cercando di
ottenere anche una buona stima delle proprieta spettrali del segnale ottenuto utilizzando il modello
per la sintesi (eq. 5.7). A causa della natura tempo variante del segnale vocale si fara la stima su
segmenti corti del segnale o a blocchi di campioni. Lapproccio che viene seguito si basa sul metodo
dei minimi quadrati, minimizzando quindi il quadrato dellerrore e n di predizione su un segmento
di suono
E e2 m
m

dove la somma e estesa ai campioni del segmento analizzato. I parametri risultanti sono assunti
essere i parametri della funzione del sistema H z nel modello di produzione del parlato. Ricordando
la relazione 5.10, si stima quindi g confrontando lenergia del segnale errore con quello scelto come
eccitazione mediante la relazione
m e2 m
g2
m u2 m
Per minimizzare E, si ottengono le cosiddette equazioni di Yule-Walker, che consentono di determinare i coefficienti del filtro. Si noti che la minimizzazione ai minimi quadrati di E tende a produrre
un segnale di errore con modulo dello spettro piatto (rumore bianco); per cui il filtro A z e chiamato anche whitening filter. Se il modello approssima bene il segnale vocalizzato, allora il residuo
e composto da un treno di impulsi che si ripetono alla frequenza di vibrazione delle corde vocali.
Pertanto gli errori massimi di predizione si verificheranno con frequenza uguale al pitch del segnale.
Nel dominio del tempo quindi la maggior parte dellenergia si localizza in vicinanza di questi picchi.
E interessante notare che linterpretazione in frequenza di E comporta che il metodo LPC stimato
con lautocorrelazione approssima meglio lo spettro nelle regioni di segnale ad alta energia, cioe
vicino ai picchi dello spettro rispetto alle regioni a bassa energia (valli). Un esempio e riportato in
fig. 5.13.

Figura 5.13: Spettro LPC con 28 poli confrontato con quello ottenuto da analisi mediante FFT
I parametri cosi stimati sono assunti essere i parametri del modello. Da essi si possono ricavare
altri parametri percettualmente piu significativi come la frequenza e banda dei formanti. Questo
approccio ha il vantaggio di avere metodi di stima efficienti e che si sono rivelati anche fornire una
rappresentazione accurata del segnale vocale.

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.28
Esempio di analisi e risintesi LPC in MATLAB

Per lanalisi LPC dei segnali il MATLAB mette a disposizione la funzione lpc(s,N) , dove s e il
segnale di ingresso e N e lordine del filtro predittivo. Nellesempio che segue, una frammento di
segnale vocale viene analizzato per calcolare i coefficienti del filtro. Il filtro inverso e poi usato per
ricavare leccitazione glottale e, infine, il segnale vocale di partenza e ricalcolato per filtraggio diretto
delleccitazione glottale mediante il filtro predittivo.
%legge campione audio
svoce=wavread(voce.wav);
%selezione della finestra temporale da analizzare
s=svoce(8000:10000);
% calcolo dei coefficienti di predizione lineare
Nc=10; %numero coefficienti
[a,g]=lpc(s,Nc); %a -> coefficienti, g -> gain
freqz([g 0 0],[a]); %plot della risposta del filtro
% Generazione delleccitazione glottale
% mediante filtraggio inverso del segnale vocale
u=filter([a],[g 0 0],s);
% risintesi
snew=filter([g,0,0],[a],u);

La figura 5.14 illustra la risposta in frequenza del filtro A z , leccitazione glottale e la forma
donda ottenuta mediante risintesi LPC.

abs(H)

0
20
40
60

100

200

300
freq (bin)

400

500

600

20

amp

10
0
10

500

1000

1500

2000

2500

1500

2000

2500

time
0.4

amp

0.2
0
0.2
0.4

500

1000
time

Figura 5.14: Analisi e risintesi della voce mediante LPC

5.3. SINTESI NON LINEARI

5.3

5.29

Sintesi non lineari

Le trasformazioni viste sopra non possono cambiare le frequenze delle componenti in ingresso, in
quanto sono trasformazioni lineari. Se si usano invece trasformazioni non lineari, le frequenze possono cambiare anche di molto. Ne consegue la possibilita di cambiare sostanzialmente la natura del
suono in ingresso. Queste possibilita vengono anche usate nella sintesi del suono.
Linterpretazione della sintesi non lineare non e basata sullacustica fisica, ma piuttosto deriva
dalla teoria della modulazione nelle comunicazioni elettriche, applicata ai segnali musicali. Questi
metodi sono stati molto usati nella musica elettronica analogica e sono poi stati anche sviluppati nel
digitale. Pertanto la sintesi non lineare ne eredita parzialmente linterpretazione analogica come usata
nella musica elettronica e inoltre e diventata, specie con la modulazione di frequenza, una nuova
metafora per i musicisti informatici.
Ci sono due effetti principali legati alla trasformazione non lineari: arricchimento dello spettro e
traslazione dello spettro. Il primo effetto deriva dalla distorsione non lineare di un segnale e consente
di controllare la brillantezza di un suono, mentre il secondo e dovuto alla sua moltiplicazione per una
sinusoide (portante) e sposta lo spettro attorno alla frequenza del segnale portante, alterando il rapporto armonico tra le righe del segnale modulante. La possibilita di traslare lo spettro e molto efficace
nelle applicazioni musicali. A partire da semplici componenti, si possono creare suoni armonici e
inarmonici e stabilire differenti relazioni armoniche tra le parziali.

5.3.1

Sintesi per modulazione di frequenza

I due metodi classici per larricchimento spettrale e per la traslazione dello spettro, ovverosia distorsione non lineare (vedi par. 5.3.4) e modulazione ad anello (vedi par. 5.3.3) , hanno perso progressivamente di interesse in favore del metodo della modulazione in frequenza, il quale unisce i due effetti
ed evita alcuni difetti di questi metodi. Per questa ragione, la sintesi per modulazione di frequenza,
proposta da J. Chowining nel 1973 e il piu usato fra i metodi non lineari. Questo metodo e diventato
molto popolare da quando fu usato nei sintetizzatori Yamaha tipo DX7 ed e tuttora usato anche nelle
schede audio. Questa tecnica non deriva da modelli del segnale o di produzione del suono, ma piuttosto dalle proprieta matematiche di una formula. In realta con questo nome non si intende una sola
tecnica, ma tutta una famiglia che e costituita dalla modulazione della fase o frequenza istantanea
di una sinusoide (portante) secondo landamento di un altro segnale (modulante), spesso sinusoidale.
Anche se nella computer music si usa far riferimento a questa tecnica con il nome di modulazione di
frequenza, in quanto le prime realizzazione erano di questo tipo, conviene sviluppare la teoria facendo
riferimento alla formulazione come modulazione di fase.
Il modulo di calcolo base e dato da:
s t sin 2 fc n t

(5.11)

dove t e il segnale di ingresso (modulante) e fc e la frequenza della portante (carrier). Quando


fc 0 si vede che risulta una distorsione non lineare del segnale modulante ed e pertanto da aspettarsi un arricchimento spettrale. Se invece fc 0 si puo far vedere con le formule di prostaferesi
che lespressione scritta equivale alla modulazione ad anello di una sinusoide per il segnale distorto
(traslazione dello spettro di un valore fc ).

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.30
Modulante semplice

Se la modulante e una sinusoide di ampiezza I (indice di modulazione) e frequenza fm data quindi da


t I sin 2 fm t
la modulazione di frequenza semplice da:
s t sin 2 fct I sin 2 fmt
k Jk I sin 2 fc k fm t

(5.12)

dove Jk I e la funzione di Bessel del primo tipo di ordine k. Dallequazione 5.12 si vede che
il segnale prodotto ha uno spettro a righe di frequenza fc k fm e di ampiezza data da Jk I . Pur
essendo la sommatoria estesa ad un numero infinito di termini, solo pochi di essi, attorno a k 0
sono significativi. Infatti solo le funzioni di Bessel di ordine basso sono significative per valori piccoli
dellindice di modulazione. Quando lindice I cresce, aumenta in corrispondenza anche il numero di
funzioni significative. Il numero M di frequenze laterali di ampiezza maggiore di un centesimo e
dato da M I 2 4 I 0 27 . In pratica si puo considerare M 1 5 I. In questo modo si controlla
la larghezza di banda attorno a fc . Ne risulta un effetto tipo filtro dinamico, analogo a quello che i
musicisti sperimentano nellimpiego della sintesi sottrattiva. Inoltre lampiezza di ogni funzione varia
in modo oscillante al variare dellindice. Questo fatto produce una caratteristica ondulazione delle
ampiezze delle parziali componenti quando lindice varia in modo continuo e consente di ottenere
facilmente spettri dinamici.
Nel caso
base il segnale modulante e sinusoidale e ne risulta uno spettro a righe di frequenza
fc k fm caratterizzato quindi dal rapporto tra le frequenze. Si ha quindi la possibilita di controllare
il grado di inarmonicita del segnale mediante il rapporto fc fm , come verra discusso nel paragrafo
5.3.2. Vale inoltre la proprieta che lampiezza massima e la lenergia non cambiano al variare dellindice I. Pertanto vengono evitati i problemi di normalizzazione di ampiezza che ci sono nella sintesi
per distorsione non lineare.
E interessante ora vedere lequivalente formulazione di 5.12 come modulazione di frequenza. La
frequenza istantanea di un segnale s t sin t e data da f t 1 2 d t dt . Pertanto la
frequenza istantanea fi t del segnale di eq. 5.12 vale
fi t

fc I fm cos 2 fm t

(5.13)

Essa varia quindi attorno a fc con una deviazione massima d I fm . In figura 5.15 e riportato il
caso di modulazione con portante semplice realizzato mediante oscillatore controllato in frequenza.
Si osservi infine che un cambio della differenza di fase tra portante e modulante produce solo un cambiamento delle fasi reciproche delle parziali generate. Questo normalmente non e percettualmente
significativo. Solo nel caso in cui alcune parziali coincidano in frequenza, bisogna tenere conto della
loro relazione di fase per calcolare lampiezza risultante.

Figura 5.15: Modulazione di frequenza con modulante semplice

5.3. SINTESI NON LINEARI

5.31

Esempio in Matlab E possibile realizzare gli algoritmi per la modulazione di frequenza utilizzando
la formula del modulo di calcolo base con modulante sinusoidale (equazione 5.12)1 :
Fs=22050; % frequenza di campionamento
fc=700; %portante: 700 Hz
fm=100; %modulante: 100 Hz
I=2; %indice di modulazione
t=0:(1/Fs):3; %asse temporale: 3 sec
s=sin(2*pi*fc*t+I*sin(2*pi*fm*t));

La figura 5.16 illustra lo spettro del segnale generato per tre valori diversi dellindice di modulazione. Si puo verificare come al crescere dellindice di modulazione lenergia della portante si
distribuisce progressivamente sulle bande laterali seguendo landamento previsto dalle funzioni di
Bessel.
fc=700 Hz, fm=100 Hz, I=1

fc=700 Hz, fm=100 Hz, I=2

fc=700 Hz, fm=100 Hz, I=3


50

50
45

50
45

40
40
40

35
35
30
db

db

db

30
30

25

20

20

20

15

15

10

1000
Hz

2000

25

10

10

1000
Hz

2000

1000
Hz

2000

Figura 5.16: Spettro relativo a modulazione di frequenza con portante a 700 Hz, modulante
sinusoidale a 100 Hz e indice di modulazione I crescente da 1 a 3

Portante composta
Consideriamo ora una portante periodica ma non sinusoidale.
s t

Al sin 2l fct

l 0

l t

noti che la formula s n sin 2 f c n n corrisponde in realta ad una modulazione di fase in cui la fase istantanea e i n c n . Nel caso di modulante sinusoidale ( n I sin 2 f m n ), e possibile verificare lequivalenza
tra modulazione di fase e modulazione di frequenza se in 2 f i n 2 fc f n si pone f n I fm cos 2 fm t . Limplementazione della modulazione in questa ultima forma richiede pero attenzione al problemi di continuita di fase quando la
frequenza e imposta ad ogni istante
1 Si

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.32

Se essa viene modulata, e come se ciascuna sua armonica fosse modulata dalla stessa modulante. Se
la modulante e sinusoidale, nello spettro attorno ad ogni armonica della portante saranno presenti
righe di ampiezza proporzionale allarmonica. Ne risulta uno spettro di righe a frequenza l fc k fm
e di ampiezza Al Jk I con l L e k M, essendo L il numero di armoniche significative.
s t

l 1k

Al Jk I sin 2 l fc k fm t

In generale ci possono essere varie portanti indipendenti modulate dalla stessa modulante o da
differenti modulanti (fig. 5.17). Ne risulta una specie di sintesi additiva in cui invece che addendi
sinusoidali, si hanno addendi piu complessi
s t

Al sin 2 fc ln

l 0

l t

Per esempio con portanti di frequenza multipla della frequenza della modulante fm si possono creare suoni armonici complessi di frequenza fondamentale f0 fm controllando le varie regioni dello
spettro in modo indipendente. La frequenza di ciascuna portante determina la regione che viene
influenzata e in un certo senso la posizione di un formante.

Figura 5.17: Modulazione di frequenza con N portanti modulate dalla stessa modulante

Esempio in Matlab Lesempio precedente puo essere gradualmente arricchito considerando portanti e/o modulanti via via piu complesse. Luso di una portante composta, ad esempio, puo servire per generare nello spettro dei formanti alle frequenze delle sue componenti. Listruzione di
generazione del segnale audio diventa
fc1=300; %portante 1: 300 Hz
fc2=1000; %portante 2: 1000 Hz
fc3=3000; %portante 3: 3000 Hz

5.3. SINTESI NON LINEARI

5.33

fm=100; %modulante: 100 Hz


I1=1;
I2=2;
I3=3;
theta=sin(2*pi*fm*t);
s=sin(2*pi*fc1*t+I1*theta)
+sin(2*pi*fc2*t+I2*theta)
+sin(2*pi*fc3*t+I3*theta);

fc1=300 Hz, fc2=1000 Hz, fc3=3000 Hz, fm=100 Hz, I1=1, I2=2, I3=3

50

db

40

30

20

10

500

1000

1500

2000

2500
Hz

3000

3500

4000

4500

5000

Figura 5.18: Spettro relativo a modulazione di frequenza con tre portanti e una modulante

Modulante composta
Esaminiamo ora il caso di modulante composta da due sinusoidi (fig. 5.19), ciascuna con il suo indice
di modulazione
t I1 sin 2 f1 t I2 sin 2 f2 t
Sostituendo in (5.11) risulta:
s t sin 2 fc t I1 sin 2 f1 t I2 sin 2 f2 t
Sviluppando la prima modulante si ha:
s t

Jk I1

sin 2 fc k f1 t I2 sin 2 f2 t

e poi la seconda modulante si arriva a:


s t

Jk I1 Jn I2
k

sin 2 fc k f1 n f2 t

5.34

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

Figura 5.19: Modulazione di frequenza con due modulanti


Lo spettro risultante e molto piu complicato di quello del caso di una modulante semplice. Sono
presenti tutte le parziali a frequenza fc k f1 n f2 e con ampiezza Jk I1 Jn I2 . Per interpretare
leffetto si consideri f1 f2 . Se fosse presente solo la modulante a frequenza f1 , lo spettro risultante avrebbe un certo numero di componenti di ampiezza Jk I1 e frequenza fc k f1 . Quando viene
applicato anche la modulante a frequenza f2 , queste componenti diventano a loro volta portanti con
bande laterali prodotte da f2 . Attorno a ciascuna delle componenti prodotte da f1 si avranno cioe
righe spaziate di f2 . La banda risultante e approssimativamente uguale alla somma delle due bande.
Se le frequenze hanno rapporti semplici tra loro, lo spettro e del tipo fc k fm dove ora fm e il
massimo comun divisore tra f1 e f2 . Per esempio se fc 700 Hz, f1 300 Hz 2e f2 200 Hz, le
componenti sono 700 k100 e la fondamentale 100 Hz. Pertanto scegliendo f1 e f2 multipli di fm si
ottengono suoni dello stesso tipo di quelli ottenuti con la modulazione semplice ma con una dinamica
spettrale piu ricca.

Figura 5.20: Modulazione di frequenza con N modulanti


In generale se il segnale modulante e composto da N sinusoidi (fig. 5.20) risulteranno componenti

5.3. SINTESI NON LINEARI

5.35

di frequenza fc k1 f1
kN fN con ampiezze date dal prodotto di N funzioni di Bessel. Anche
qui se i rapporti sono semplici risulta uno spettro del tipo fc k fm dove fm e il massimo comun
divisore tra le frequenze modulanti. Se i rapporti non sono semplici le righe risultanti saranno sparse
dando luogo a suoni inarmonici o anche rumorosi per alti valori degli indici.
Ad esempio Schottstaedt usa la doppia modulante per simulare il suono del piano, ponendo f1 fc
e f2 4 fc . In questo modo cerca di simulare la leggera inarmonicita delle corde del piano. Inoltre fa
diminuire gli indici di modulazione al crescere di fc e quindi della fondamentale della nota. In questo
modo le note basse sono piu ricche di armoniche di quelle alte.

Esempio in Matlab La modulante puo a sua volta essere composta da piu componenti. Il caso di
una portante sinusoidale e modulante composta si realizza ad esempio con
fc=700;
fm1=700;
fm2=2800;
I1=1;
I2=1;
s=sin(2*pi*fc*t+I1*sin(2*pi*fm1*t)+I2*sin(2*pi*fm2*t));

La figura 5.21 illustra due casi di modulazione con una portante sinusoidale a 700 Hz e una
modulante composta da due sinusoidi. Si puo osservare nella prima come i rapporti semplici delle
frequenze di modulanti e portante determinino uno spettro del tipo fc k fm dove fm 100Hz
(massimo comun divisore tra f1 300 e f2 200) e la fondamentale e a 100 Hz. Nella seconda, i
rapporti di frequenza f1 fc e f2 4 fc sono scelti in modo che la fondamentale coincide con fc e
che le parziali superiori siano in rapporto armonico con la fondamentale, essendo proprio f1 fc il
massimo comun divisore tra f1 e f2 (piano di Schottstaedt).

fc1=700 Hz, fm1=300 Hz, fm2=200 Hz, I1=1, I2=1

fc1=700 Hz, fm1=800 Hz, fm2=3200 Hz, I1=1, I2=1

50

50

45
40

40

35
30
db

db

30

25
20

20

15
10

10

5
0

1000

2000

3000
Hz

4000

5000

2000

4000
Hz

6000

Figura 5.21: Due esempi di modulazione con portante semplice e modulante composta

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.36

I rapporti semplici dellultimo esempio visto determinano uno spettro esattamente armonico. E
possibile sperimentare leffetto dellinarmonicita variando i valori di f1 e f2 in modo che siano solo
approssimativamente pari a fc e a 4 fc rispettivamente. La figura 5.22 mostra lo spettro risultante per
scostamenti progressivi di f1 e f2 dai valori proporzionali a fc .
fc1=700 Hz, fm1=705 Hz, fm2=2805 Hz

fc1=700 Hz, fm1=720 Hz, fm2=2805 Hz

40

40

30

30
db

50

db

50

20

20

10

10

2000

4000
Hz

6000

2000

4000
Hz

6000

Figura 5.22: Suoni inarmonici dovuti a rapporti non semplici tra frequenze
Anche per gli algoritmi di modulazione di frequenza e possibile pensare ad una interfaccia che
renda semplice controllare la sintesi con inviluppi di ampiezza e frequenza al frame rate. Un oscillatore FM a portante e modulante composta, ad esempio, avrebbe interfaccia FMoper(t0,a,[fc1
fc2 ... fcN],[fm1 fm2 ... fmM],[I1 I2 ... IM]) in cui tutti i parametri di ingresso possono essere rappresentati con inviluppi temporali. La realizzazione di questo operatore e
lasciata come esercizio.
Modulanti in cascata
Consideriamo ora il caso di modulante sinusoidale a sua volta modulata da unaltra sinusoide (fig.
5.23)
t I1 sin 2 f1 t I2 sin 2 f2 t
Il segnale e quindi definito da:
s t

sin 2 fct I1 sin 2 f1 t I2 sin 2 f2 t

Jk I1

sin 2 fc k f1 t kI2 sin 2 f2 t

Jk I1 Jn kI2
k

sin 2 fc k f1 n f2 t

Il risultato puo venire interpretato come se ciascuna parziale prodotta dal modulatore f1 sia a sua
volta
modulata da

f2 con indice di modulazione kI2 . Pertanto risulteranno le componenti di frequenza


fc k f1 n f2 con approssimativamente 0 k I1 e 0 n I1 I2 . La frequenza massima e

5.3. SINTESI NON LINEARI

5.37

fc I1 f1 I2 f2 . La struttura dello spettro e simile a quella prodotta da due modulanti sinusoidali,


ma con banda maggiore. Anche qui se i rapporti sono semplici lo spettro sara del tipo fc k fm dove
fm e il massimo comun divisore tra f1 e f2 .

Figura 5.23: Modulazione di frequenza con due modulanti in cascata

Feedback FM
Consideriamo infine il caso in cui si usi come modulante il valore precedente del segnale generato. Si
ha cosi la cosiddetta feedback FM. Essa e descritta in termini digitali da queste relazioni:

n
sn

s n

1
fc
sin 2 n
Fs

dove e il fattore di feedback e agisce come fattore di scala o indice di modulazione per il feedback.
Al crescere di il segnale passa da sinusoidale verso la forma donda a dente di sega in modo continuo.
Lo spettro e armonico di frequenza fc con aumento graduale del numero di armoniche. In termini di
funzioni di Bessel risulta
2
st
k Jk k sin 2k fct
k

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.38

Esempio di implementazione di modulazione di frequenza in Matlab


Per concludere, si vuole ora tornare sullosservazione fatta allinizio di questa sezione riguardo limplementazione delloscillatore modulato in frequenza. Si e detto che risulta immediato realizzare
loscillatore trasformando la modulazione di frequenza in modulazione di fase. Tuttavia, in qualche
occasione, si puo volere limposizione della frequenza istantanea allaudio rate. E utile a questo
punto chiarire come calcolare la fase della sinusoide da generare se, di volta in volta, la frequenza di
controllo e costante, imposta al frame rate o imposta allaudio rate.

f costante. In questo caso, ad ogni campione successivo, la fase cresce in modo lineare con il
tempo ed e possibile calcolare il valore di fase ad ogni istante di campionamento a partire dal
valore di fase al campione precedente:
n 1 n

2 f
Fs

f imposta a frame rate. Sia f0 la frequenza imposta al frame K, f1 la frequenza imposta al


frame K 1 e sia f n la frequenza istantanea. Si fa lipotesi che nel frame la frequenza cambi
linearmente nel tempo da f0 a f1 . Se si scrive f n f0 f n f0 , si ha
n 1 n

2 f0 2 f1 f0 1

Fs
2Sp f
Fs

dove si e indicato con SpF il numero di campioni in un frame.

f imposta ad audio rate. Sia in questo caso f n la frequenza istantanea. Laggiornamento della
fase al campione successivo e allora
n 1 n

2 f n
2 f n 1

Fs
2

f n 1
Fs

Il corpo della funzione FMosc(t0,a,f,phi0), con frequenza di controllo f ad audio rate, e


illustrato di seguito:
function s=FMosc(t0,a,f,phi0)
(...)
lastfreq=f(1);
lastphase=0;
phase=zeros(1,SpF);
for (i=1:nframes)
for(k=1:SpF)
phase(k)=lastphase+2*pi*lastfreq/Fs+pi*(f((i-1)*SpF+k)-lastfreq)*(1/Fs);
lastphase=phase(k);
lastfreq=f((i-1)*SpF+k);
end
s(((i-1)*SpF+1):i*SpF)=a(i).*sin(phase);
end

Conclusioni sulla modulazione di frequenza


In conclusione la sintesi FM e un metodo molto versatile per produrre molti tipi di suono. Daltra
parte non ci sono metodi chiusi che consentano di derivare in modo preciso i parametri di un modello

5.3. SINTESI NON LINEARI

5.39

FM analizzando un suono dato. Per riprodurre dei suoni di strumenti musicali e quindi preferibile
usare altre tecniche come la sintesi additiva o la sintesi per modelli fisici.
Non evocando questa tecnica di sintesi nessuna esperienza musicale nellesecutore, il controllo
parametrico risulta poco intuitivo e richiede quindi una rilevante dose di esperienza specifica, caratteristica questa degli strumenti innovativi. Il suo principale punto di forza, ossia lelevata dinamica
timbrica legata a pochi parametri e a basso costo computazionale, sta perdendo progressivamente terreno nei confronti di altre tecniche di sintesi, piu costose, ma controllabili in maniera piu naturale
e intuitiva. Il metodo conserva comunque la particolarita di definire un suo spazio timbrico peculiare. Esso pur non prestandosi particolarmente alla simulazione di qualita di suoni naturali, offre
comunque un grande ventaglio di sonorita originali di notevole interesse per la computer music.

5.3.2

Spettri di tipo f1

k f2

Le seguenti considerazioni valgono per i suoni prodotti mediante traslazione di spettri armonici, cioe
per suoni composti da parziali di frequenza f1 k f2 con k = 0, 1, ... . Questi spettri sono caratterizzati
dal rapporto f1 f2 . Nel caso delle modulazioni esso equivale al rapporto fc fm tra frequenza della
portante e della modulante. Quando il rapporto puo essere rappresentato con una frazione irriducibile
f1 f2 N1 N2 con N1 e N2 interi primi tra loro, il suono risultante e armonico, nel senso che tutte le
componenti sono multiple intere di una fondamentale. La frequenza fondamentale risulta

f0

f1
N1

f2
N2

Si vede che in questo caso f1 coincide con la N1 -esima armonica, infatti


f1
f2

N1 f0

N2 f0

Se N2 1, tutte le armoniche sono presenti e le componenti laterali con k negativo si sovrappongono a quello con k positivo. Se N2 2, sono presenti solo le armoniche dispari e le componenti si
sovrappongono ancora. Se N2 3, mancano le armoniche multiple di 3. In generale il rapporto N1 N2
e anche un indice dellarmonicita dello spettro. Intuitivamente il suono e piu armonioso, quando il
rapporto N1 N2 e semplice ossia quanto piu il prodotto N1 N2 e piccolo.
I rapporti possono essere raggruppati in famiglie. Tutti i rapporti del tipo f1 k f2 f2 possono
produrre le stesse componenti del rapporto f1 f2 . Cambia solo quale parziale coincide con f1 . Ad
esempio i rapporti 2/3, 5/3, 1/3, 4/3, 7/3 e cosi via appartengono alla stessa famiglia. Sono presenti
tutte le armoniche ad esclusione di quelle multiple di 3 (essendo N2 3) e f1 coincidera rispettivamente con la seconda, quinta, prima, quarta e settima armonica. Il rapporto che distingue la famiglia
si dice in forma normalizzata se e minore o uguale a 1 2. Nell esempio precedente esso e uguale
a 1 3. Ciascuna famiglia e quindi caratterizzata da un rapporto in forma normalizzata. Spettri simili possono essere ottenuti da suoni della stessa famiglia. Si vede quindi che il denominatore N2 e
caratterizzante lo spettro. In particolare per N2 5 ogni denominatore definisce una sola famiglia.
Se il rapporto e irrazionale, il suono risultante non e piu periodico. Questa possibilita viene
usata per creare facilmente suoni inarmonici. Ad esempio se f1 f2 1 2 la spettro consiste in componenti a frequenza f1 k 2. Non ce quindi nessuna fondamentale implicita. Un comportamento
simile si ottiene per rapporti non semplici come f1 f2 5 7.
Di particolare interesse e il caso in cui il rapporto f1 f2 approssimi un semplice valore, cioe

f1
f2

N1
N2

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.40

In questo caso il suono non e piu rigorosamente periodico. La fondamentale e ancora f0 f2 N2 e


le parziali sono spostate dal loro preciso valore di f2 . Pertanto un piccolo spostamento della portante non cambia laltezza del suono e lo rende molto piu vivo grazie ai battimenti tra le componenti
vicine. Si noti invece che lo stesso spostamento della modulante f2 cambia la fondamentale.

5.3.3

Sintesi moltiplicativa

La trasformazione non lineare piu semplice consiste nella moltiplicazione di due segnali. Nel campo analogico e chiamata modulazione ad anello (ring modulation) o RM ed e piuttosto difficile
da produrre in modo preciso. Nel campo numerico invece consiste in una semplice operazione di
moltiplicazione. Se x1 t e x2 t sono due segnali il segnale di uscita e dato da
s t x1 t x2 t

(5.14)

Lo spettro risultante e dato dalla convoluzione tra gli spettri dei due segnali.
Normalmente uno dei due segnali e sinusoidale di frequenza fc ed e chiamato portante c t
(carrier) e laltro e un segnale in ingresso alla trasformazione ed e chiamato modulante m t . Si ha
pertanto
s t m t c t m t cos 2 fct c
e lo spettro risultante e
S f

1
M f
2

fc e jc M f

fc e

jc

Lo spettro di s(t) e composto da due copie dello spettro di m t : una banda laterale inferiore (LSB)
e la banda laterale superiore (USB). La LSB e rovesciata in frequenza e entrambe le bande sono
centrate attorno a fc . A seconda della larghezza di banda di m t e della frequenza della portante fc ,
le bande laterali possono essere parzialmente riflesse attorno allorigine dellasse di frequenza. Se
la portante ha diverse componenti spettrali, lo stesso effetto si ripete per ogni componente. Leffetto
acustico della modulazione ad anello e relativamente facile da capire per segnali semplici. Diventa
pero piuttosto complicato da immaginare per segnali con numerose parziali. Se sia la portante che la
modulante sono sinusoidali di frequenza rispettivamente fc e fm , si sente la somma di due differenti
parziali a frequenza fc fm e fc fm . Ad esempio se fc 500 Hz e fm 400 Hz, la modulazione
ad anello produce due parziali a frequenza 900 Hz e 100 Hz. Se invece se fc 100 Hz e di nuovo
fm 400 Hz, si producono due parziali a frequenza 500 Hz e -300 Hz. Questultima ha frequenza
negativa; si ha quindi una riflessione (foldunder) attorno allo 0 con cambio di segno della fase. Infatti
cos 2100t cos 2100t . In definitiva si sentiranno due componenti a frequenza 500 Hz
e 300 Hz.
Se la portante e sinusoidale e la modulante e periodica di frequenza fm con m t Nk 1 bk cos 2k fm t
risulta
N
bk
cos 2 fc k fm t k cos 2 fc k fm t k
(5.15)
s t

k 1 2
Larmonica k-esima dara luogo a due righe, una nella LSB e laltra nella USB, a frequenza fc k fm
e fc k fm . Lo spettro risultante ha quindi righe a frequenza fc k fm con k 1 2 , dove si e usato
il valore assoluto per tenere conto delle possibili riflessioni attorno allo 0. Valgono per questi spettri
le considerazioni fatte sopra sulle famiglie di spettri fc k fm .

5.3. SINTESI NON LINEARI

5.41

Modulazione di ampiezza
La modulazione di ampiezza era piu facile da realizzare nel campo analogico e pertanto e stata usata
per molto tempo. Essa puo essere implementata come
s t 1 m t c t

(5.16)

dove si e assunto che lampiezza di picco di m t sia 1. Il coefficiente determina la profondita di


modulazione. Leffetto e massimo quando 1 e viene disattivato quando 0.
Tipiche applicazioni sono luso di un segnale audio come portante c t e un oscillatore a bassa
frequenza (LFO) come modulatore m t . Lampiezza del segnale audio varia seguendo lampiezza
di m t e cosi verra sentita. Se il modulatore e un segnale udibile e la portante una sinusoide di
frequenza fc , leffetto e simile a quello visto per il modulatore ad anello, solo che in uscita si sentira
anche la frequenza della portante fc .
Si noti che a causa del tempo di integrazione del nostro sistema uditivo, leffetto e percepito
differentemente in dipendenza del campo di frequenza dei segnali considerati. Una modulazione con
frequenza sotto 20 Hz sara sentita nel dominio del tempo (variazione di ampiezza), mentre modulazioni con frequenza superiori verranno sentite come componenti spettrali distinte (banda laterale
inferiore, portante, banda laterale superiore).

5.3.4

Sintesi per distorsione non lineare

Lidea fondamentale della sintesi per distorsione non lineare, conosciuta anche sotto il nome di waveshaping e quella di passare una sinusoide per un blocco distorcente. E noto infatti che se una
sinusoide passa per filtro lineare viene modificata la sua ampiezza e fase, ma non la forma donda. Se
invece lamplificatore e non lineare la forma donda del segnale viene modificata e vengono create
altre componenti spettrali. Questo fatto e ben noto nei segnali analogici, dove si cerca di evitarlo
o usarlo per creare effetti tipo amplificazione con tubi elettronici. Nel campo digitale si e pensato
di sfruttarlo per produrre suoni periodici di spettro variabile. Il blocco distorcente e realizzato mediante una funzione non lineare F x chiamata funzione distorcente o shaping function memorizzata
su tabella. Piu raramente la funzione viene calcolata direttamente. La funzione distorcente dipende
solo dal valore istantaneo dellingresso. Pertanto in corrispondenza ad un segnale di ingresso x t il
metodo calcola
(5.17)
s t F x t
cercando in tabella ad ogni campione il valore allascissa x t .
Questa tecnica puo essere usata come effetto audio che oer la sintesi. Nel primo caso si usa una
leggera distorsione, spesso sotto forma di saturazione, su un segnale qualsiasi per arricchire un po lo
spettro e simulare leffetto che si verifica sovente in strumenti meccanici o elettronici analogici.
Per la sintesi dei suoni normalmente si usa un ingresso sinusoidale di ampiezza I (che puo essere
variata)
x t I cos 2 f t
per cui la formula di sintesi diviene:
s t F x t

F I cos 2 f t

In figura 5.24 e riportato lo schema a blocchi della sintesi per distorsione non lineare. Con il parallelogramma viene indicato il modulo che effettua la distorsione mediante lettura da tabella del valore di
F x .

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.42

Figura 5.24: Sintesi per distorsione non lineare


In generale nella sintesi, se F x F1 x F2 x , la distorsione prodotta da F e uguale alla
somma di quelle prodotte da F1 e F2 separatamente. In particolare una funzione pari, cioe
simmetrica rispetto allasse y genera solo armoniche pari e una funzione dispari (antisimmetrica)
genera solo armoniche dispari. Normalmente una funzione distorcente produce infinite armoniche.
Se pero la funzione e un polinomio p x di grado N, vengono prodotte solo le prime N armoniche.
In questo modo si puo controllare il foldover. Se la funzione e polinomiale e anche facile calcolare
le ampiezze delle armoniche generate dalla distorsione di una sinusoide. Infatti, tenendo conto che il
polinomio di Chebyshev di ordine k e definito come Tk cos cos k , ne deriva che usandolo
come funzione distorcente di una sinusoide di ampiezza unitaria si ha

s t F I cos 2 f t

Tk cos 2 f t

cos 2k f t

Viene cioe generata larmonica k-esima. Pertanto, sviluppando il polinomio distorcente p x in serie
di polinomi di Chebyshev

F x

p x

di xi

i 0

hk Tk
k 0

si ottengono le ampiezze delle armoniche, dove hk sara lampiezza dellarmonica k-esima. Usando
quindi il polinomio p x cosi determinato come funzione distorcente di una sinusoide ad ampiezza
I 1, si ottiene

s t F cos 2 f t

hk cos 2k f t
k 0

Se varia lampiezza dellingresso I, varia anche la distorsione e lo spettro prodotto. Questo e simile
ad unespansione o contrazione della funzione, in quanto viene usato una parte maggiore o minore
della funzione. Lampiezza e lintensita del suono prodotto varia quindi con lampiezza dellingresso
e deve essere pertanto compensata con unopportuna funzione di normalizzazione. Nel caso invece
che la distorsione sia usata come effetto, questi cambiamenti spesso sono in accordo con il fenomeno
acustico che si vuole imitare e quindi non devono essere compensati.
Unaltra variazione dinamica del waveshaping che e facile implementare consiste nellaggiungere
una costante allingresso. In questo caso la funzione viene traslata orizzontalmente. Anche in questo
caso lo spettro varia, ma non e piu separabile leffetto della parte pari da quella dispari della funzione
originaria.

5.4. SINTESI PER MODELLI FISICI

5.4

5.43

Sintesi per modelli fisici

Gli algoritmi visti sopra si basano su modelli del segnale che arriva alle nostre orecchie. Essi appartengono quindi alla categoria dei modelli generativi. La sintesi per modelli fisici segue invece un
approccio alternativo, in cui si cerca di rappresentare la dinamica degli oggetti (reali o virtuali) responsabili della produzione del suono. La sintesi e` quindi basata sulluso di modelli formali di strumenti
musicali tradizionali; il suono viene generato simulando numericamente la dinamica dello strumento
che lo produce.
I modelli del segnale hanno fino ad oggi dominato la scena, in virt`u di algoritmi efficienti e flessibili. I modelli fisici di strumenti musicali, sebbene costituiscano da sempre un campo di indagine
vivo e in evoluzione, hanno invece cominciato solo di recente ad essere usati per la sintesi del suono.
I motivi sono da ricercarsi principalmente in una maggiore complessit`a degli algoritmi e nello stesso
tempo in una pi`u marcata rigidit`a delle strutture di sintesi; la maggior parte dei modelli rappresenta
infatti strumenti specifici, e raramente e` possibile trovare delle strutture che descrivano ampie classi
di strumenti musicali in maniera efficiente ed efficace.
Daltro canto, la sintesi per modelli fisici presenta alcune notevoli potenzialit`a. Innanzitutto, si
pu`o osservare che essa impiega algoritmi caratterizzati da pochi parametri di controllo, i quali hanno
quasi sempre un significato fisico. Da ci`o segue che poche ed intuitive variazioni sui parametri stessi
producono dei risultati sonori coerenti con lesperienza, anche gestuale, del musicista. In altre tecniche basate su modelli del segnale questo non accade, proprio perche tali modelli si disinteressano
dei meccanismi di generazione del suono. Questa propriet`a e` particolarmente interessante dal punto
di vista musicale; si pu`o infatti pensare al controllo dello strumento simulato in termini degli stessi
parametri usati per il controllo del corrispondente strumento reale; tali parametri possono essere forniti dallesecutore attraverso opportuni trasduttori ed attuatori, che permettano di riprodurre interventi
gestuali che fanno parte dellesperienza del musicista.
Per quanto riguarda le sonorit`a prodotte, queste sono caratterizzate da unevoluzione timbrica
naturale, analoga a quella degli strumenti acustici. In particolare, vengono conservate quelle caratteristiche di variet`a e di coerenza timbrica tipiche degli strumenti acustici e gradite allorecchio
umano.

5.4.1

Blocchi funzionali

Nello sviluppo dei modelli e` utile individuare blocchi funzionalmente distinti; ciascuno di essi pu`o
essere studiato in maniera indipendente, e la dinamica complessiva del sistema viene data dallinterazione delle parti.
Per gli strumenti musicali, un primo livello di scomposizione e` dato dallidentificazione di due
blocchi funzionali distinti: leccitatore e il risonatore. Il risonatore e` la parte dello strumento in cui la
vibrazione ha effettivamente luogo, ed e` correlato a caratteristiche sonore quali altezza ed inviluppo
spettrale. Leccitatore provoca ed eventualmente sostiene la vibrazione nel risonatore, immettendo
energia nello strumento; da esso dipendono le propriet`a di attacco del suono, fondamentali nellidentificazione del timbro. Per fare qualche esempio, sono blocchi risonatori la corda nella chitarra, nel
pianoforte, nel violino, o il tubo acustico nei legni e negli ottoni. Sono invece eccitatori il plettro nella
chitarra, larchetto nel violino, il martelletto nel pianoforte, lancia nel clarinetto. Linterazione pu`o
essere semplicemente feedforward, se leccitatore non riceve nessuna informazione di ritorno dal risonatore, oppure feedback, se i due blocchi si scambiano informazione in entrambe le direzioni. Nella
chitarra il meccanismo di eccitazione e` con buona approssimazione feedforward: il plettro pizzica

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.44

la corda fornendo le condizioni iniziali, poi il risonatore evolve in maniera libera. Strutture di tipo
feedback sono invece adatte per modellizzare strumenti persistentemente eccitati, come i fiati.
La suddivisione in blocchi pu`o essere estesa a livelli pi`u fini, soprattutto per i risonatori. In una
chitarra, il blocco del risonatore comprender`a la corda vibrante e la tavola armonica; in uno strumento a fiato, invece, esso sar`a composto da dal tubo acustico, dalla campana (la parte terminale) e dai
fori. Ad ogni stadio ci si trova davanti ad una scelta: continuare nel raffinamento, modellizzando
la fisica del sistema fino ai livelli pi`u bassi (modelli white box), oppure considerare solo le propriet`a
ingresso-uscita del blocco in esame (modelli black box). E` chiaro che un modello black box risulta pi`u
semplice nella progettazione e pi`u efficiente nellimplementazione, riducendo il blocco funzionale ad
un semplice filtro. Si rischia tuttavia di introdurre semplificazioni eccessive nel modello, e comunque
di produrre strutture i cui parametri non hanno significato fisico e sono quindi difficilmente controllabili. Dalla parte opposta, un approccio completamente white box genera modelli che possono rivelarsi
eccessivamente pesanti dal punto di vista computazionale.
Passando dalla scomposizione concettuale allo sviluppo dei modelli, i due principali blocchi dello
strumento sono rappresentati da altrettanti sistemi dinamici. Leccitatore contiene nella maggior parte
dei casi delle forti nonlinearit`a; i risonatori, descritti tipicamente dallequazione delle onde, vengono
invece modellizzati da sistemi lineari. Nelle implementazioni numeriche si deve prendere in considerazione un terzo elemento, un modulo di interazione tra i due blocchi. Lo schema risultante e` allora
quello di figura 5.25.

parametri
di controllo

ECCITATORE
(non lineare)

Interazione

RISONATORE
(lineare)

output

Figura 5.25: Schema di interazione tra eccitatore e risonatore.


Il modulo di interazione ha principalmente la funzione di adattatore, converte le variabili in arrivo
da eccitatore e risonatore e pemette di ovviare ad anomalie sorte durante il processo di discretizzazione (ad esempio la nascita di anelli senza ritardi e quindi non computabili). Questo blocco pu`o
anche essere usato per compensare alcune semplificazioni del modello; ad esempio, nel modello di
un clarinetto si pu`o introdurre nel blocco di interazione un rumore fluidodinamico, la cui ampiezza e`
modulata dal flusso daria.

5.4.2

Elementi concentrati e distribuiti

Nel costruire un modello a tempo continuo per un sistema acustico, due sono le strade che si possono
seguire. Spesso e` possibile utilizzare una schematizzazione che rappresenta loggetto in esame come
costituito da corpi rigidi connessi tra loro attraverso degli ideali elementi concentrati: molle, elementi
di attrito, e cos` via. Il modello cos` ottenuto e` allora descritto da sistemi di equazioni differenziali
ordinarie. Alternativamente, loggetto in esame pu`o venire trattato come un corpo flessibile, in cui le
forze e la materia sono distribuite in uno spazio continuo; si parla allora di elementi distribuiti, come
corde, o membrane, o ancora laria allinterno di un tubo acustico. In questo caso il modello viene
descritto da equazioni alle derivate parziali, nelle quali le quantit`a fisiche sono funzioni anche della
posizione, oltre che del tempo.

5.4. SINTESI PER MODELLI FISICI

5.45

In entrambi i casi, le equazioni usate introducono approssimazioni e semplificazioni della realt`a fisica. Un secondo livello di approssimazione viene poi dalla simulazione, dove le equazioni di partenza
devono essere risolte numericamente.
Per quanto riguarda la simulazione di equazioni differenziali ordinarie, e quindi di modelli ad
elementi concentrati, il calcolo numerico mette a disposizione una variet`a di metodi: schemi di Eulero
in avanti o allindietro, trasformazione bilineare, metodi lineari multistep, metodi di Runge-Kutta, solo
per nominare i principali.
Uno dei metodi pi`u popolari per la risoluzione numerica di equazioni alle derivate parziali e` quello
che va sotto il nome di differenze finite; in esso i dominii spaziale e temporale sono ricoperti da griglie,
e le derivate vengono sostituite da combinazioni lineari dei valori della variabile sui punti della griglia.
I principali problemi introdotti dagli schemi alle differenze finite riguardano innanzitutto la stabilit`a
delle soluzioni discrete, ed in secondo luogo lintroduzione di dissipazione e dispersione numeriche.
Si pensi ad esempio allequazione delle onde, valida in una corda o un tubo cilindrico ideali:
2
2 y
2 y
x

c
x t
(5.18)
t 2
x2
in cui c e` la velocit`a di propagazione, t ed x sono rispettivamente le variabili temporale e spaziale, e y
e` ad esempio la velocit`a trasversale della corda o la pressione nel tubo.
E` ben noto che le soluzioni della (5.18) sono forme donda che traslano rigidamente con velocit`a
c. La dissipazione numerica introduce allora delle attenuazioni (o delle amplificazioni) artificiali nelle
soluzioni approssimate, mentre la dispersione cambia la velocit`a di traslazione.
Nellambito delle equazioni iperboliche, di cui la (5.18) e` un esempio, esistono metodi standard
che permettono di valutare lefficacia di un metodo alle differenze finite in rapporto a questi problemi.
Un primo risultato e` fornito dalla condizione di Courant-Friedrichs-Lewy (CFL), che e` una condizione
necessaria (e non sufficiente) per la stabilit`a di uno schema numerico alle differenze finite; nel caso
dellequazione delle onde la condizione assume il seguente aspetto:

t
1
(5.19)
x
La condizione CFL stabilisce dunque una relazione tra i passi di integrazione in tempo e spazio, ed ha
come interessante (e non intuitiva) conseguenza che x troppo piccoli non aumentano laccuratezza
del metodo: al contrario, possono portare ad instabilit`a. Nel caso in cui c non sia una costante ma
una funzione di spazio e tempo la condizione rimane valida, a patto di sostituire la costante c con
supx t c x t .
Un potente strumento per lo studio delle propriet`a di un metodo alle differenze finite e` fornito
dallanalisi di Von Neumann. Questa utilizza gli sviluppi in serie di Fourier per trovare dei coefficienti
di amplificazione su ciascuna armonica; lo studio di tali coefficienti permette di imporre condizioni
su x e t sufficienti per la stabilit`a del metodo, e mette allo stesso tempo in luce le propriet`a di
dispersione e dissipazione del metodo stesso.
c

Oltre ai modelli alle differenze finite esaminati fino ad ora, esistono altre tecniche per modellizzare
sistemi distribuiti. Un possibile approccio alternativo e` quello di scomporre il sistema in un insieme
di particelle interagenti, modellizzando la dinamica delle particelle e definendo le leggi di interazione
tra esse. Si parla allora di modelli cellulari. Lesempio pi`u significativo fornito in questa direzione
e` il sistema CORDIS-ANIMA, introdotto da Claude Cadoz ed altri allinizio degli anni 90. Questo
modello fa riferimento ad una sequenza di masse elementari, collegate tra loro da masse ed attriti, e
si presta a simulare efficacemente corpi vibranti quali lastre, sbarre, corde o membrane. Per contro,

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.46

presenta almeno due svantaggi: innanzitutto non esistono strumenti analitici (come lanalisi di Von
Neumann nei modelli alle differenze finite) per valutare la correttezza della discretizzazione, ed in
particolare per individuare dei vincoli di stabilit`a numerica. In secondo luogo, i costi computazionali
sono molto elevati; questo perche nel modello si prende in considerazione la dinamica di tutti i punti
delloggetto, fornendo informazione ridondante rispetto a quella musicalmente importante.
Un altro importante approccio nella modellizzazione di sistemi vibranti e` quello fornito dai modelli waveguide, sviluppati principalmente da J.O. Smith. Il punto di partenza di tali modelli consiste
nel discretizzare le soluzioni dellequazione delle onde piuttosto che lequazione stessa. Questo porta
a delle strutture estremamente semplici ed efficienti, in grado di simulare efficacemente corde e tubi
acustici. Entro certi limiti e` possibile riprodurre anche fenomeni di dissipazione e di dispersione tipici
dei sistemi reali.

5.4.3

Il ruolo delle non linearit`a

La presenza di relazioni non lineari gioca un ruolo essenziale nello sviluppo di modelli di sistemi
acustici; in assenza di esse, questi si ridurrebbero a schemi di sintesi sottrattiva, in cui un segnale di
eccitazione viene sottoposto a filtraggio. Come gi`a detto le non linearit`a sono presenti in particolare
negli eccitatori e nei meccanismi di interazione di questi con i risonatori; poiche larea in cui leccitazione ha luogo e` solitamente piccola, e` naturale utilizzare modelli concentrati per rappresentarle.
Ad un primo livello di approssimazione si pu`o supporre che il meccanismo di eccitazione sia rappresentato da una funzione non lineare istantanea, la cui forma viene a volte dedotta da osservazioni
sperimentali e direttamente implementata nella simulazione. Un esempio e` dato da un modello di
corda strofinata in cui, per diversi valori della pressione e della velocit`a dellarchetto (i parametri di
controllo), la velocit`a trasversale della corda e la forza di frizione tra corda ed archetto sono legate da
una relazione altamente non lineare. Unanaloga relazione si trova tra pressione e flusso in un modello
semplificato di ancia di clarinetto.
Per realizzare simulazioni pi`u accurate, e` necessario passare da una rappresentazione mediante
non linearit`a istantanee ad una che tenga in considerazione la dinamica delleccitatore. Modelli dinamici di questo tipo esistono ad esempio per lancia di clarinetto, o per linterazione martelletto-corda
nel pianoforte. Un problema che allora sorge e` come trasportare tali modelli dinamici e non lineari in
schemi computazionali efficienti. Una struttura utilizzata con successo in molti casi e` quella illustrata
in figura 5.26.
al risonatore
controllo

NL

L
dal risonatore

Figura 5.26: Schema generale per un eccitatore dinamico.


Il modello ad elementi concentrati delleccitatore viene suddiviso in due blocchi: il primo, contrasseganto con la lettera L, contiene la dinamica del sistema ed e` lineare; il secondo, NL, e` una funzione

5.5. MODELLI PER LA SINTESI DEI SEGNALI DI CONTROLLO

5.47

non lineare istantanea delle variabili provenienti dall blocco L, e dipende anchesso dai parametri di
controllo.
Quando si discretizza un tale modello, ad esempio con una tecnica alle differenze finite, lanello
di feedback tra i due blocchi produce tipicamente loop senza ritardi e quindi non computabili. Questo
inconveniente pu`o essere superato introducendo nellanello dei ritardi fittizi, ma in tal modo si introducono errori in molti casi non accettabili. Metodi pi`u raffinati per risolvere le non computabilit`a sono
ad esempio il metodo W e il metodo K. Il primo e` un metodo locale, nel senso che mediante luso di
variabili donda permette di adattare ciascun elemento, in maniera tale da rendere computabili gli
schemi. Il secondo e` invece globale: utilizzando il teorema di funzione implicita, permette di passare
a delle nuove variabili che risultano computabili ad ogni passo.

5.5

Modelli per la sintesi dei segnali di controllo

Nei paragrafi precedenti si sono visti alcuni dei piu importanti modelli per la sintesi del suono. Essi
costituiscono il meccanismo sottostante alla produzione del suono sintetico.
Il problema del controllo nella sintesi fa riferimento a tutto quello che e necessario per passare
dalla descrizione simbolica dei suoni, come espressa nella partitura, al suono, utilizzando i modelli di
sintesi. Tradizionalmente la partitura prevede un insieme di note (simboli che descrivono un suono e le
sue proprieta a livello astratto) ed e compito dellesecutore, con laiuto di uno strumento, di tradurle
in suono. In generale possono essere distinti due livelli di astrazione nel controllo, cui corrispondono
scale dei tempi diverse:
controllo dellespressivita dello strumento

controllo della dinamica spettrale

Il primo, che riguarda lesecutore inteso come interprete, fa riferimento al passaggio da simboli
ad azioni nel tempo per scegliere e rendere gli effetti espressivi voluti. In genere esso non rappresenta
una semplice trasformazione di simbolo in simbolo, ma piuttosto determina la variazione continua di
un insieme di parametri. Esso consiste quindi nella generazione di segnali che variano sulla scala dei
tempi delle frasi. Con queste azioni il musicista dirige e da forma al fluire del suono musicale che
costituisce lopera.
Il secondo livello invece controlla la dinamica spettrale di una nota e determina il passaggio dai
parametri espressivi allalgoritmo sottostante. In questo caso i segnali variano durante levoluzione
della nota e operano sulla scala di tempo della sua durata. Al primo livello e associata la proprieta
di suonabilita, ossia la possibilita data allesecutore di interagire in maniera soddisfacente con
lo strumento; al secondo livello e associata lidea di qualita del timbro, ossia la capacita dello
strumento di produrre bei suoni. In entrambi i casi lobiettivo e comunque quello di estrarre o
sintetizzare un insieme di segnali di controllo piu semplici da gestire.
Tra esecutore e strumento tradizionale esiste uninterfaccia, ad esempio tastiera o archetto, che
determina e vincola le possibili azioni. Tra lalgoritmo di sintesi e il musicista e pure presente uninterfaccia di controllo: essa costituisce cio che il musicista conosce dello strumento e loggetto con
cui interagisce. Linterfaccia di controllo mappa linsieme delle possibili azioni dellesecutore nei
parametri dei controllo degli algoritmi sottostanti in maniera tale da presentare una coerenza e una
consequenzialita che soddisfi le aspettative del musicista. Negli strumenti commerciali, tale interfaccia e determinata dal costruttore. Invece luso del computer ha reso le interfaccie programmabili
a seconda delle esigenze dellutente, per cui esse possono essere a diversi livelli di astrazione. Si

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.48

puo andare da un controllo dettagliato dei parametri degli algoritmi di sintesi, come puo essere per
i musicisti utilizzanti programmi tipo MusicV, allesecuzione automatica di una partitura, in cui tutto
il controllo e affidato a processi automatici.
I segnali di controllo sono caratterizzati da alcune differenze fondamentali rispetto ai segnali acustici. In particolare, per la maggior parte di essi non appare significativa linterpretazione in frequenza, mancando il segnale delle caratteristiche di periodicita o formantizzazione tipiche del segnale
acustico. Sembra piu adeguata linterpretazione temporale e quindi le tecniche di analisi, sintesi e
manipolazione che fanno riferimento al tempo. Tuttavia, e possibile utilizzare le tecniche viste sopra,
opportunamente reinterpretate, per sintetizzare segnali generici, come quelli di controllo.

5.5.1

Riproduzione

Vi sono alcuni modelli di sintesi del suono che hanno degli algoritmi di analisi sufficientemente accurati. Ad esempio i metodi che adottano la rappresentazione tempo-frequenza, visti nella sintesi
additiva, possiedono algoritmi come la STFT che consentono di stimare, a partire da un suono reale,
i parametri del modello per una riproduzione accurata del suono originale. Questi parametri, come
visto, sono i segnali di controllo della frequenza e dellampiezza di ogni parziale del suono esaminato.
In questo modo si ottengono da un unico segnale a frequenza acustica, vari segnali di controllo che
variano lentamente nel tempo. Linterpretazione del loro andamento ora viene fatta essenzialmente
nel tempo, come variazione delle caratteristiche timbriche del suono.
Questi segnali di controllo vengono quindi spesso elaborati con le tipiche tecniche nel tempo,
tipo cut and paste, riscalamenti di ampiezza o cambio della scala temporale etc. In ogni caso il
punto di riferimento e che essi esprimono in dettaglio la variabilita presente nei suoni naturali.
In particolare, quando essi derivano dallanalisi del controllo espressivo mantengono caratteristiche
della gestualita del performer. Senza un modello piu preciso di questa variabilita si ricorre alla
riproduzione. Questo metodo e lanalogo della tecnica di campionamento vista per i segnali audio.
Se si controlla lo stesso parametro, si ha la risintesi, eventualmente modificata del suono originale;
altrimenti si possono controllare altri parametri del suono, ad esempio con linviluppo dampiezza
controllare la bandwidth. Un uso piu creativo del sampling e limpiego di segnali rilevati da un
timbro per il controllo di un timbro diverso. Ad esempio, le deviazioni di frequenza di una voce
possono essere usate per controllare il pitch di un violino; ne risulta quindi un suono con caratteristiche
timbriche ibride tra i due strumenti (si percepisce un violino che canta).

5.5.2

Controlli composti

Spesso e conveniente ricorrere a sovrapposizione o concatenazione di elementi semplici di controllo.


Tipico e il caso in cui si genera landamento deterministico del segnale e si sovrappongono delle variazioni aleatorie. Ad esempio se pensiamo al controllo della frequenza di un suono, si puo sommare
un segnale che fornisce landamento generale della frequenza al suo stabilirsi, con una modulazione
periodica di alcuni Hz piu una variazione aleatoria o frattale.
In un controllo timbrico inoltre si puo produrre il segnale di controllo come successione di forme
donda diverse per le diverse parti del suono, e per ogni parte si puo scegliere tra un repertorio di
andamenti tipici. Ad esempio, lADSR e un modello del segnale di controllo comunemente usato
per linviluppo dampiezza, il controllo spettrale ecc. In esso vengono giustapposte quattro fasi
temporali di evoluzione del segnale di controllo (Attacco, Decadimento, Sostenuto, Rilascio).

5.5. MODELLI PER LA SINTESI DEI SEGNALI DI CONTROLLO

5.49

Interpolazione
Una tecnica di sintesi molto utilizzata nella sintesi di segnali di controllo e quella dellinterpolazione,
sia lineare che non lineare. Nellinterpretazione che vede il processo di sintesi come un passaggio
da poche informazioni localizzate ad una variazione continua di molti parametri, linterpolazione
offre un quadro concettuale di riferimento molto efficace. Infatti, in base alla specifica di pochi punti
significativi nel segnale (ad esempio, il pitch delle note che compongono una frase) il modello consente di ricavare un segnale caratterizzato da zone di transizione smooth. Lattenzione nellimpiego
di questo modello va quindi posta nella specifica del modo in cui queste interpolazioni vanno fatte.

5.5.3

Modelli stocastici

La riproduzione dei segnali di controllo soffre degli stessi problemi visti con la riproduzione del
suono; in particolare necessita di memorizzare completamente le funzioni e ha poca versatilita. Solo
recentemente si comincia a rivolgere lattenzione a questo tipo di segnali per vedere di caratterizzarli
e porli in relazione con le proprieta acustiche dei suoni controllati. Quando queste dipendono da
molte cause concomitanti, spesso e utile usare un modello che distingue un andamento medio, dalle
variazioni che sono modellabili da un processo aleatorio. In questultimo e piu importante riprodurre
alcune proprieta statistiche piu che lesatto andamento. In questi casi si puo procedere alla sintesi
mediante un rumore bianco filtrato da un opportuno filtro lineare (ARMA); i parametri del filtro
possono essere stimati dallanalisi del segnale. Questo e applicabile in generale in tutti i casi nei
quali non si e in grado di fare specifiche ipotesi sulla struttura del controllo, ma e possibile stimare i
parametri statistici dello stesso.
Modelli frattali del segnale
In alcuni casi le variazioni sono dovute a caoticita nel generatore, come ad esempio nelle canne dorgano eccitate dal getto daria. Questa caoticita si riflette sulla natura frattale dei segnali di controllo.
Si possono quindi usare modelli frattali, stimando la dimensione frattale del segnale, eventualmente
tempo variante, e poi utilizzarla nella sintesi, ad esempio controllando un generatore di Fractional
Brownian Motion noise. Esistono vari tipi di questi generatori. In genere essi fanno riferimento alle
caratteristiche spettrali del segnale che sono del tipo 1 f dove e un opportuno esponente legato
alla dimensione frattale e cioe alla turbolenza del segnale. Essi sono realizzati o mediante filtraggio
di rumore bianco, oppure come somma di rumori filtrati con bande diverse [Voss]. Va detto che un
segnale frattale non manifesta le sue caratteristiche se ci limita a tratti di breve durata, in quanto si
perdono le relazioni sui tempi lunghi. Questo porta talvolta ad un uso improprio dei generatori di
segnali frattali.
Sono molto usate anche le mappe iterate per produrre frattali, sullesempio di quanto si fa nella
computer graphics con gli insiemi di Mandelbrot, Julia etc. . I segnali cosi prodotti non sono pero altrettanto efficaci per il controllo dei parametri musicali. Altri algoritmi, come mid-point displacement,
consentono linterpolazione frattale fra punti dati, con controllo locale della frattalita.
Linteresse dato dal modello frattale e che questo coglie unimportante aspetto temporale dei
segnali naturali e cioe della autoaffinita, che e la somiglianza statistica dellandamento temporale
se visto su scale diverse del tempo. In particolare con un unico generatore si hanno segnali che
evolvono su piu scale di tempo simultaneamente.
Si puo dire che i modelli a filtraggio ARMA risultano piu indicati per modellare lautocorrelazione sulle scale di tempo brevi, mentre i segnali frattali si possono sfruttare anche sulle scale di
tempo lunghe.

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

5.50

5.5.4

Modelli fisici

Una possibilita e di usare modelli fisici anche per la sintesi dei segnali di controllo. In questo caso il
sistema sara lentamente variabile e provvedera esso stesso a fornira una dinamica per levoluzione
del segnale. Questa possibilita e pero finora scarsamente usata, in vista invece di un controllo
diretto.
In alcuni casi si usa un approccio di questo tipo, non per modellare qualche meccanismo esistente,
ma si usa lanalogia fisica, solo come metafora descrittiva di procedimenti mentali. Ad esempio Todd
propone lanalogia delle accelerazioni di una pallina che corre su una superficie con vari buchi, per
descrivere le accelerazioni e rallentamenti espressivi del tempo musicale. Oppure Sundberg e Verrillo
propongono lanalogia del rallentamento finale di un pezzo musicale con larrestarsi del passo di una
persona. Questi modelli introdurrebbero qualcosa che viene cognitivamente percepito come plausibile
e conosciuto.

5.5.5

Sintesi basata sullapprendimento

Nel caso si desideri sintetizzare un segnale appartenente ad una classe di cui sono noti esempi rilevanti
ma non si desidera ricorrere ai metodi sopra esposti e possibile impiegare modelli generali e stimarne
i parametri mediante apprendimento sui segnali campione. Tipico esempio e limpiego di generatori basati su reti neurali feed-forward che se opportunamente addestrate dimostrano buone proprieta
di generalizzazione producendo quindi risultati plausibili anche in casi diversi da quelli previsti nelladdestramento e, in ogni caso, percepiti come appartenenti alla classe modellata. Ad esempio si
sono ottenute dinamiche spettrali per mezzo dellinterpolazione di spettri statici, mediante reti neurali
opportunamente addestrate.

5.5.6

Sistemi di regole

Fino ad ora si sono presi in esame metodi di sintesi basati sul modello del segnale. E tuttavia possibile ricorrere a modelli del generatore del segnale, ossia a modelli del controllore. Nella situazione
specifica, si tenta quindi di modellare il comportamento dellesecutore umano; una soluzione comunemente impiegata e quella dei generatori di segnali basati su regole. Questi ultimi presuppongono che
sia possibile estrarre in forma euristica un complesso di regole di comportamento del generatore in
funzione dei simboli di controllo. Queste regole possono essere fornite ad un sistema esperto, in grado
di simulare il comportamento desunto dallanalisi delle performances degli esecutori campione.
In alcune situazioni linsieme di regole risulta caratterizzato da un grado di incertezza tale da non
consentire limplementazione di regole binarie; in questi casi, si rivelano utili i controllori basati sulla
fuzzy logic. In essi vengono specificati insiemi di regole basati su variabili linguistiche (es. se
la nota e lunga...) e vengono specificate le azioni da intraprendere se le condizioni di appartenenza
risultano soddisfatte (es. ... allungala ancora un po). Mediante defuzzificazione e poi possibile
ottenere i valori numerici necessari al controllo.

5.5.7

Conclusioni sulla sintesi dei segnali di controllo

I metodi visti rappresentano casi limite dei metodi impiegati nella pratica per la sintesi dei segnali di
controllo. E infatti assai comune trovare metodi ibridi, ottenuti dalla combinazione dei metodi sopra
esposti, cercando di sfruttare le qualita peculiari di ciascuna tecnica.
Si puo osservare che la sintesi dei segnali di controllo usa modelli piuttosto semplificati. Per
quanto riguarda il controllo espressivo, cio e dovuto al fatto che la problematica del controllo non

5.5. MODELLI PER LA SINTESI DEI SEGNALI DI CONTROLLO

5.51

e stata studiata in modo approfondito, anche per mancanza di adeguati strumenti di analisi. Inoltre,
questo tipo di sintesi rappresenta il punto di incontro tra laspetto tecnico e laspetto artistico nellinformatica musicale, ed e pertanto soggetto alle scelte e alle opinioni personali degli artisti. Per
quanto riguarda il controllo della dinamica spettrale, ci sarebbero adeguati strumenti di analisi, ma
e mancato lo stimolo alla ricerca nel campo di nuovi modelli, principalmente perche la qualita dei
suoni prodotti con i modelli semplificati e spesso ritenuta piu che soddisfacente. Cio rappresenta un
indubbia conferma della validita di tali metodi; tuttavia, si puo osservare che lo sviluppo di modelli
piu pertinenti consentirebbe di lavorare ad un livello di astrazione superiore.

5.52

CAPITOLO 5. SINTESI DEI SEGNALI AUDIO

Indice
5 Sintesi dei segnali audio
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Obiettivi della sintesi del suono . . . . . . . . .
5.2 Metodi di generazione diretta . . . . . . . . . . . . . . .
5.2.1 Generatori di forme donda . . . . . . . . . . . .
5.2.2 Campionamento . . . . . . . . . . . . . . . . .
5.2.3 Sintesi additiva . . . . . . . . . . . . . . . . . .
5.2.4 Sintesi granulare . . . . . . . . . . . . . . . . .
5.2.5 Sintesi sottrattiva . . . . . . . . . . . . . . . . .
5.2.6 Sintesi della voce per predizione lineare . . . . .
5.3 Sintesi non lineari . . . . . . . . . . . . . . . . . . . .
5.3.1 Sintesi per modulazione di frequenza . . . . . .
5.3.2 Spettri di tipo f1 k f2 . . . . . . . . . . . . . .
5.3.3 Sintesi moltiplicativa . . . . . . . . . . . . . . .
5.3.4 Sintesi per distorsione non lineare . . . . . . . .
5.4 Sintesi per modelli fisici . . . . . . . . . . . . . . . . .
5.4.1 Blocchi funzionali . . . . . . . . . . . . . . . .
5.4.2 Elementi concentrati e distribuiti . . . . . . . . .
5.4.3 Il ruolo delle non linearit`a . . . . . . . . . . . .
5.5 Modelli per la sintesi dei segnali di controllo . . . . . . .
5.5.1 Riproduzione . . . . . . . . . . . . . . . . . . .
5.5.2 Controlli composti . . . . . . . . . . . . . . . .
5.5.3 Modelli stocastici . . . . . . . . . . . . . . . . .
5.5.4 Modelli fisici . . . . . . . . . . . . . . . . . . .
5.5.5 Sintesi basata sullapprendimento . . . . . . . .
5.5.6 Sistemi di regole . . . . . . . . . . . . . . . . .
5.5.7 Conclusioni sulla sintesi dei segnali di controllo .

5.53

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

5.1
5.1
5.2
5.4
5.4
5.10
5.11
5.14
5.16
5.23
5.29
5.29
5.39
5.40
5.41
5.43
5.43
5.44
5.46
5.47
5.48
5.48
5.49
5.50
5.50
5.50
5.50

Capitolo 6

Effetti nel dominio spaziotemporale


Federico Fontana
Copyright c 1999 by Federico Fontana. All rights reserved.

6.1

Introduzione

In questo Capitolo vengono analizzati quegli effetti che simulano o che traggono ispirazione da alcuni
fenomeni tipicamente avvertibili in normali condizioni dascolto, come il riverbero, leco, la colorazione del timbro causata dalle risonanze ambientali, la percezione spaziale di una sorgente sonora.
Poich detti fenomeni sono da mettersi in relazione a modificazioni del segnale acustico tipicamente riconducibili a eventi che avvengono nel dominio del tempo e dello spazio, come ad esempio la
riflessione delle onde, gli effetti qui presentati sono accomunati da tecniche progettuali decisamente
orientate al trattamento del suono come segnale temporale.
Questo approccio tanto pi motivato se si pensa che, in origine, lassenza di metodi rigorosi
di analisi del segnale costringeva i progettisti a mettere a punto per via perlopi empirica i modelli,
dai quali non di rado sono ugualmente scaturite delle apparecchiature di successo, gradite dai musicisti, dagli ingegneri del suono e dal pubblico al punto di segnare dei traguardi definitivi nella storia
degli effetti. principalmente per questo motivo che, quantunque i modelli si siano molto evoluti,
soprattutto con lavvento dellelaborazione in tempo reale del segnale numerico e dei Digital Signal
Processor (DSP), il successo di un effetto ancora oggi principalmente determinato dalle capacit del
progettista, che non di rado si affida alla propria intuizione, e soprattutto alla messa a punto definitiva
del sistema sulla base dei pareri dellascoltatore.
Nella prima parte si presentano le versioni digitali di una famiglia di effetti popolari ai musicisti,
tra cui il flanger e il chorus, tutti accomunati dal modello che sta alla base delle diverse realizzazioni.
Nella seconda parte si affronter il problema della progettazione di un riverbero. Nella terza parte, infine, si introdurr il problema della spazializzazione e della binauralizzazione di un segnale musicale,
proponendo un modello in grado di svolgere questo compito.
Si insiste sul concetto che le tecniche proposte non possono in alcun modo ritenersi esaustive,
costituendo esse solamente una base dalla quale il progettista parte per arrivare infine, grazie alla
propria esperienza e a una paziente messa a punto dei parametri del sistema, a un prodotto che possa
fregiarsi del nome di effetto. Nondimeno, le realizzazioni proposte come esempi, essendo il risultato
di tale lavoro, sono da considerarsi a tutti gli effetti come applicazioni efficacemente funzionanti.
6.1

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.2

6.2

Effetti tradizionali

La prerogativa principale degli effetti tradizionali quella di presentare alla loro uscita il segnale
musicale dingresso, pi un certo numero di ripetizioni di questo. Ci sicuramente evidente in un
echo, ma vero anche per un chorus o un flanger. A seconda del tempo che separa le ripetizioni, o
echi, le leggi della psicoacustica determineranno come viene percepito leffetto.
Una desiderabile e fondamentale propriet del sistema progettato quella di poter modulare il
tempo di ritardo, ovvero la separazione temporale tra echi successivi. Accanto a questa prerogativa ve
ne sono altre, le quali nel complesso contribuiscono a definire la caratteristica del tipo di effetto.
Il cuore del modello, come vedremo, costituito dalla linea di ritardo modulata, con la quale
si pu realizzare anche un vibrato o un doubling. Detto dispositivo un filtro tempo variante e
non si presta a una semplice analisi, anche se la comprensione di alcuni suoi aspetti fondamentale
nellambito della trattazione.

6.2.1

Un antenato elettromeccanico: Leslie

A titolo introduttivo, si richiama la modalit di funzionamento del Leslie, il quale in un certo senso
lanalogo elettromeccanico della linea di ritardo modulata1 . Esso consiste (vedi Figura 6.1) in una

1
2
3

Figura 6.1: Schema di funzionamento del Leslie. La componente della velocit dellonda acustica
calcolata lungo lasse che collega lasse di rotazione al microfono proporzionale alla lunghezza
delle frecce, in corrispondenza delle rispettive posizioni dellaltoparlante.
cassa di forma circolare, allinterno della quale gira a una velocit prestabilita un altoparlante, non
troppo direttivo ed eccentrico rispetto allasse di rotazione.
1. Lascoltatore ode dapprima il suono emesso dallaltoparlante che, ruotando eccentricamente, si
sta avvicinando a lui (onda contressagnata con 1);
2. nel momento in cui la componente della velocit misurata lungo lasse che collega lascoltatore
al diffusore nulla, ode londa contrassegnata con 2;
3. infine, quando il diffusore si sta allontando, ode londa contrassegnata con 3.
Leffetto Doppler assicura la percezione di un segnale modulato, il cui periodo di modulazione
determinato dalla velocit di rotazione, e la cui profondit di modulazione deriva dal rapporto di
eccentricit del diffusore rispetto allasse di rotazione.
Il successo ottenuto dal Leslie sicuramente dovuto alla timbrica unica impressa al suono, e al
senso di piacevolezza suscitato dalla sensazione del vibrato.
1 Nonostante

un DSP.

ci, non consigliabile invitare il possessore di un Leslie a disfarsi del proprio gioiello per sostituirlo con

6.2. EFFETTI TRADIZIONALI

6.3
(a)

z -D(n)

x[n]

x[n-D(n)]

(b)

...

...

M-1 M

x[n]
D(n)=k

x[n-k]

Figura 6.2: (a) Linea di ritardo modulata e (b) sua realizzazione mediante coda circolare.

6.2.2

La linea di ritardo modulata

La possibilit di definire una linea di ritardo modulata in un sistema a tempo discreto appare, formalmente, piuttosto semplice. Basta infatti implementare lo schema di Figura 6.2(a), dove il ritardo
regolato dalla funzione di modulazione D, per avere a tutti gli effetti creato loggetto che fa al caso
nostro. La Figura 6.2(b) evidenzia un possibile schema realizzativo, che sfrutta una coda circolare
in cui, allistante n-esimo, la testa individuata dalla freccia tratteggiata, mentre luscita posta in
corrispondenza della locazione k-esima, da cui esce la freccia a linea continua.
La dimensione della coda individua gli estremi oltre i quali la funzione D non pu assumere valori;
se dunque la coda ha dimensione uguale a M, D n dovr rispettare la condizione
0 D n M

(6.1)

Pi complessa appare lanalisi rigorosa dal punto di vista della teoria del segnale discreto. In
ogni caso loggetto, per come stato definito, sarebbe di qualche utilit solamente allinterno di un
sistema che lavori a frequenze di campionamento ben pi elevate di quelle richieste dalla banda audio.
Infatti una funzione di modulazione, il cui codominio sia contenuto negli istanti di campionamento
di un segnale campionato in banda audio, non certamente in grado di produrre una modulazione
convincente. La cosa appare ancora pi evidente dagli esempi seguenti.
Esempio: cambio di pitch. Si ha:
D n 1 pcr n
dove pcr (pitch change ratio) il rapporto di variazione del pitch tra il segnale processato dalla linea
di ritardo modulata e il segnale originale. Per pcr 2, ad esempio, si ha un raddoppio delle altezze,
infatti luscita dalla linea di ritardo modulata vale
x n D n

x pcr n

Ovviamente, per mantenere indefinitamente il cambio di pitch occorrerebbe una coda di dimensione
illimitata. Altrimenti il tempo massimo per cui leffetto pu essere mantenuto vale

M
T
1 pcr

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.4

secondi, con T periodo di campionamento del sistema.


Esempio: vibrato.
M
M
sin 2 f0 n
D n
2
2
e dunque
M M
x n D n x n
sin 2 f0 n

2
2
Considerando il segnale x, secondo lanalisi di Fourier, come la sovrapposizione lineare di componenti sinusoidali, abbiamo che la componente generica posta alla frequenza fx viene modulata a
una frequenza fm , la quale pu essere calcolata derivando rispetto al tempo largomento relativo alla
componente in esame, uguale per esempio Ax sin 2 fx n x :
fm

1
M
2 fx n
2 n
2

M
sin 2 f0 n
2

M
x fx 1 2 f0 cos 2 f0 n
2

Dunque il pcr risulta essere uguale a


fm
fx

1 2 f0

M
cos 2 f0 n
2

Si evince che il pcr non dipende dallaltezza del segnale originale; il suo periodo dipende dalla
modulante f0 , e infine la profondit di modulazione determinata da f0 e M.
Dagli esempi emerge chiaramente il limite imposto dalluso di una funzione di modulazione discretizzata sul periodo di campionamento. Se nel primo caso un tentativo di pitch change si pu
fare imponendo un valore intero per il pcr, nel secondo caso la legge che governa il vibrato salta non
appena il prodotto M 2 sin 2 f0 n sia frazionario per qualche valore di n.

6.2.3

Interpolazione

Se potessimo estendere il codominio di D a un insieme pi ampio, diciamo un certo numero di frazioni


dellunit di campionamento, riusciremmo a istituire delle efficaci funzioni di modulazione altrimenti
improbabili. La questione equivale a estendere la D a una nuova funzione Dc definita su di un codominio pi ampio. In tal caso, si pu sempre esprimere un valore assunto da Dc come la somma del
valore di D immediatamente inferiore, pi un numero , definito allinterno di un insieme di fissata
densit, compreso tra zero e uno:
Dc n D n 0 1
Detto questo, nel discreto non ha senso pensare di acquisire il campione intermedio x n D n
. Si ricorre di conseguenza allinterpolazione, ovvero al calcolo approssimato del suo valore. Allo
scopo, nel nostro sistema sar presente un interpolatore in grado di produrre un segnale y il cui valore,
secondo qualche criterio, imiti quello del campione intermedio.
Nel seguito vediamo i modelli di interpolazione pi usati.
Interpolazione lineare
Si pone
y n

L 1

k n x n

k 0

D n Nk

(6.2)

6.2. EFFETTI TRADIZIONALI

6.5

1- (n)

z -D(n)

x[n]

y[n]

z -D(n)-1

(n)

Figura 6.3: Sistema costituito da linea di ritardo modulata e interpolatore lineare.


(a)

(b)

0.9

=0
=1

0.8

=0.125
=0.875

=0.125
=0.150

0.5

0.7

=0.375

=0.150
=0.750

0.5
0.4

Phase angle

0.6

Magnitude

=0

=0.375
=0.625

0.3

=0.5
=0.625

1.5

=0.750
=0.875
=1

2.5

0.2

=0.5
0.1

3
0
0

0.05

0.1

0.15

0.2

0.25
Freq

0.3

0.35

0.4

0.45

0.5

0.05

0.1

0.15

0.2

0.25
Freq

0.3

0.35

0.4

0.45

0.5

Figura 6.4: (a) moduli della risposta in frequenza e (b) diagrammi di fase del sistema costituito da
linea di ritardo modulata pi interpolatore lineare.
con

0 k n 1 k e Nk

Il campione intermedio dunque ottenuto come combinazione lineare di L campioni. Il caso k n 1


avviene in particolare quando Dc n D n Nk , e in tal caso tutti gli altri coefficienti saranno nulli.
Ovviamente deve essere sempre rispettata la condizione
0 Nk D n M
Il caso pi semplice di interpolazione lineare, molto usato nelle applicazioni tempo reale, si ha per
L 2, N0 0 e N1 1. In tal caso il contributo dei due campioni adiacenti al campione intermedio,
distante dal campione pi recente, viene pesato da coefficienti tra loro complementari:
y n 1 n x n D n

n x n D n 1

Linerpretazione del modello piuttosto ovvia e viene lasciata come esercizio.


Il sistema complessivo costituito dalla linea di ritardo modulata pi linterpolatore lineare schematizzato in Figura 6.3, e si realizza in pratica predisponendo due punti duscita consecutivi sulla
coda circolare. La Funzione di Trasferimento (FdT) del sistema
Y z
X z

Dn

n z

(6.3)

Da questa, come noto, si possono ricavare modulo e fase della risposta del sistema. Questi sono
visualizzati rispettivamente in Figura 6.4(a) e 6.4(b), al variare del parametro . Notiamo i seguenti
fatti:

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.6

x[n]

z -D(n)

1- (n)
+

y[n]

z -D(n)-1

1- (n)

z -1

Figura 6.5: Diagrammi di fase del sistema costituito da linea di ritardo modulata pi interpolatore
allpass.

linterpolatore lineare introduce una distorsione di ampiezza, attenuando le alte frequenze nei
casi non banali 0 e 1;
linterpolatore lineare introduce una modulazione di ampiezza, e ci dovuto alla variazione
nel tempo del modulo dello spettro, il quale come detto dipende da n ;
linterpolatore lineare introduce una distorsione di fase, in quanto non un filtro a fase lineare
se non nei casi 0, 1 e 1 2. Si noti comunque la linearit della fase in bassa
frequenza dove, in pi, la pendenza delle curve proprio uguale a ;

linterpolatore lineare introduce una modulazione di fase, e ci dovuto alla variazione nel
tempo del diagramma di fase.
Lo studio rigoroso di un filtro a coefficienti tempo varianti non si esaurisce certo in una analisi
della risposta al variare dei parametri2 , e di questo dovremo tenere conto discutendo il prossimo
interpolatore. Nel caso dellinterpolatore lineare, comunque, lanalisi fatta sufficiente a comprendere
i limiti del semplice schema presentato.
Un miglioramento delle prestazioni si ottiene aumentando la complessit dellinterpolatore, ovvero aumentando il valore di L; questo, a patto di aumentare il costo del sistema. Alternativamente, in
alcuni casi si ricorre a una efficiente alternativa, desritta nel seguito.
Interpolazione allpass
In questo caso il campione in uscita dallinterpolatore viene cos calcolato:
y n 1 n x n D n x n D n 1 1 n y n 1
Loperazione complessiva di modulazione del segnale viene realizzata dallo schema di Figura 6.5, nel
quale evidente la retroazione delluscita. La FdT
Y z
z
X z

D n

1 n z 1
1 1 n z

(6.4)

dalla quale non difficile ricavare lunit del modulo della risposta a tutte le frequenze.
Diversamente, il diagramma di fase (Figura 6.6) evidenzia ancora la presenza della distorsione e
della modulazione di fase. La linearit in bassa frequenza sussiste ancora, ma la pendenza nellorigine della curva associata a non coincide col valore del parametro. Eventualmente, attraverso una
2 Il

lettore attento avr notato laporia presente nella Zeta trasformata (6.3), nella quale in effetti non sono state
trasformate le n .

6.2. EFFETTI TRADIZIONALI

6.7

=0.125
=0.150

0.5

=0.375
=0.5

Phase angle

=0.625
=0.750

1.5

=0.875
=1

2.5

3
0

0.05

0.1

0.15

0.2

0.25
Freq

0.3

0.35

0.4

0.45

0.5

Figura 6.6: Sistema costituito da linea di ritardo modulata e interpolatore allpass.


trasformazione, si pu associare al parametro il filtro il cui diagramma di fase abbia identica pendenza
nellorigine.
Linterpolazione allpass quindi, nei limiti dellanalisi condotta, risolve la questioni legate alla
distorsione e modulazione di ampiezza, irrisolte dal precedente interpolatore.
Distorsione
Applicando i due diversi interpolatori su un modello per lalterazione costante del pitch, implementato
su un sistema a 16 bit in aritmetica a virgola fissa, che campiona a 44 1 kHz, si pu calcolare la Total
Harmonic Distortion plus Noise (THD+N) delluscita effettiva rispetto a unuscita ideale. I risultati
compaiono nel diagramma di Figura 6.7, dove la THD+N viene calcolata al variare del pcr imposto.
Linterpolatore lineare (a) mantiene le proprie prestazioni pressoch costanti al variare del pcr.
Questo risultato in accordo con lanalisi fatta in precedenza, che nel complesso afferma la costanza
della distorsione armonica totale.
Linterpolatore allpass, viceversa, mostra una spiccata dipendenza della THD+N dal pcr. Questo
fatto evidenzia i limiti dellanalisi condotta sullinterpolatore, la quale in effetti resta valida solamente
per piccole variazioni nel tempo della funzione di modulazione3 , cio di .
Analoghe considerazioni emergono applicando i due diversi interpolatori su un modello per la
modulazione del pitch. In pi, in questo caso la THD+N varia nel tempo, analogamente al pcr.

6.2.4

Effetti

Quanto illustrato in precedenza ha posto le premesse per comprendere lo schema generale, mostrato in Figura 6.8, sul quale si basano gli effetti tradizionali realizzati nel dominio discreto. In esso
riconosciamo
3 Basti

pensare che, in un filtro tempo variante, levoluzione dello stato dipende a sua volta dalla variabile temporale;
ci fa s che, nel nostro caso desempio, non sia nemmeno assicurata la caratteristica allpass dellinterpolatore. Piccole
variazioni di in effetti fanno propendere per una maggiore credibilit dellanalisi semplificata fatta in precedenza.

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.8

90

(a)

80
70

(b)

dB

60
50
40
30
20
10
0
0.95

0.96

0.97

0.98

0.99

1
pcr

1.01

1.02

1.03

1.04

1.05

Figura 6.7: THD+N in un modello per lalterazione del pitch usando linterpolazione lineare (a) e
linterpolazione allpass (b).
b

x[n]

+
-

z-D C(n)
ff

y[n]

fb

Figura 6.8: Schema generale di effetto tradizionale digitale.

il complesso della linea di ritardo modulata pi linterpolatore, riassunto nel blocco di FdT
uguale a z Dc n ;
un feedback, controllato dal coefficiente fb e scelto in corrispondenza di un fissato punto della
coda, dal quale si riconvoglia allingresso un segnale avente Zeta trasformata uguale a
fbz D
X z
1 P fbz D
con D ritardo scelto per il feedback, tale che 1 D M e fb 1. In effetti retroazionare il
segnale modulato, ovvero modularlo ricorsivamente, avrebbe come risultato limpossibilit di
controllare la modulazione stessa;

luscita modulata, pesata dal coefficiente di feedforward ff;


un segnale non modulato, che viene miscelato a quello modulato ed controllato mediante il
coefficiente di blend b.
La scelta dei parametri messi a disposizione dallo schema di Figura 6.8 d gi la possibilit di
selezionare un discreto numero di effetti diversi. Requisiti di economia fisseranno di fatto la scelta
dellinterpolatore e di tutte le altre componenti critiche.

6.2. EFFETTI TRADIZIONALI

6.9

Vibrato
b

0 ff 1 fb 0 0

MT

5 ms

Eliminando feedback e blending, acquisendo dunque alluscita il solo segnale modulato, si ha un effetto vibrato. La linea di ritardo sar dimensionata per gestire un ritardo approssimativamente inferiore
a 5 ms. Un ritardo minimo, anche inferiore a 1 ms, d i migliori risultati.
Flanger
b

2 ff 1 2 fb 1 2 0

MT

10ms

Scopo del flanger sovrapporre al segnale dorigine un segnale ritardato dinamicamente, il cui ritardo
resti allinterno del periodo dintegrazione dellorecchio. Allo scopo, una linea di ritardo di 1 ms va
bene per molte applicazioni.
Una caratteristica apprezzata nel segnale risultante il frastagliamento dello spettro. I coefficienti
proposti massimizzano leffetto comb spettrale, ovvero la sagomatura dello spettro a denti di pettine.
Per quanto riguarda la scelta dellinterpolatore, essa cadr sullallpass, in quanto lattenuazione di
ampiezza imposta dallinterpolatore lineare va a discapito della presenza di denti ben definiti alle
frequenze pi alte.
Chorus standard
b

1 ff 1 2 fb 0 1

MT

30 ms

Come dice il nome, il chorus stato pensato per sovrapporre al suono originale una sua replica ritardata (5 ms vanno generalmente bene), in modo tale da generare un effetto simile a quello di un coro
aggiunto al segnale musicale.
In questo caso i denti nello spettro sono indesiderabili, sicch una semplice soluzione consiste nel
tagliare il feedback.
La trasparenza un parametro molto apprezzato da chi utilizza assiduamente il chorus, come i
chitarristi. Linterpolatore allpass, per le note nonlinearit che induce, non si presta dunque ad essere
applicato nel chorus, e tuttavia linterpolatore lineare presenta la tipica attenuazione. Una soluzione
raffinata quella adottata nei white chorus, dove si retroaziona il segnale, mantenendo il sistema
globale il pi possibilmente allpass, cio imponendo fb b. Il sistema in tal modo presenta unuscita
pi ricca in alte frequenze, pur avendo rinunciato allinterpolatore allpass. La presenza di picchi
residui nello spettro viene ulteriormente attenuata mantenendo ff b. Una scelta per i coefficienti
pu essere
b 1 2 ff 1 fb 1 2

Doubling
b

1 2 ff 1 2 fb 0 10

MT

100ms

Un effetto usato soprattutto dai cantanti quello di raddoppiare la traccia del cantato, rieseguendo la
parte che va cos a sovrapporsi quella gi esistente. Qui il margine di ritardo pu variare discretamente
(20 ms tipicamente vanno bene): una modulazione abbastanza casuale, come quella causata dal doppio
cantato, auspicabile.

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.10
Echo

1 ff

1 fb

1 MT

50 ms

Leco si distingue per la lunghezza della linea di ritardo, che dovrebbe assicurare un ritardo di almeno
80 ms, tempo al di sotto del quale non assicurata la percezione distinta di due suoni identici. I
coefficienti vengono perlopi tarati in base alla timbrica richiesta per il tipo di eco.

6.3

Riverbero

Chi non ha mai visitato una camera anecoica, non pu immaginare quanta importanza abbia il riverbero nella percezione degli eventi sonori negli ambienti chiusi. Ci si trovi in una piccola stanza o in una
sala da concerto, linsieme delle risonanze e degli echi che accompagnano il suono puro influiscono in
modo fondamentale sulla nostra percezione del timbro e dellambiente che ci circonda. Test durante i
quali a un ascoltatore, collocato al buio in un piccolo ambiente, veniva fatto ascoltare un evento sonoro
caratterizzato da un riverbero da sala da concerto, hanno dimostrato che tale effetto risultava desiderabile e ben riconoscibile fintantoch allascoltatore non veniva palesato il fatto di trovarsi allinterno
di un piccolo ambiente; a quel punto egli avvertiva quella sensazione chiamata straniamento, secondo
la quale lascoltatore si trova in una situazione sperimentale perturbata, non pi riconoscibile.
Appurata limportanza di caratterizzare levento sonoro anche mediante un corretto riverbero, bisogna considerare le opposte esigenze di chi affronta il problema della registrazione musicale. Una
registrazione condotta allinterno di un ambiente riverberante risulta pessima nella maggioranza dei
casi, e questo non solo perch il tipo di riverbero, legato alle caratteristiche dellambiente, quasi certamente non sar quello desiderato dal musicista4 , ma anche perch, non appena i musicisti siano
pi di uno, fenomeni di crosstalk tra uno strumento e laltro andranno a rimescolare le tracce registrate. Questo obbliga a rendere una sala di registrazione la pi anecoica possibile, e a minimizzare
linfluenza sulla singola traccia di qualunque segnale esterno.
Da queste opposte considerazioni appare evidente lesigenza di disporre, in sede di elaborazione
del segnale musicale, di sistemi in grado di riverberare un suono puro nel modo pi naturale possibile.
Nel proseguio vedremo dapprima brevemente il riverbero come fenomeno fisico, e alcuni effetti
percettivi che esso induce. Poi si spiegheranno le problematiche esistenti nella scelta di un modello di
rappresentazione del riverbero, e le risposte fornite dai progettisti. Infine si proporranno alcuni esempi,
in ordine di difficolt crescente. Tale ordine coincide con quello storico, per quelle considerazioni gi
fatte nellIntroduzione, sulle quali non il caso di tornare.

6.3.1

Considerazioni fisiche sul riverbero

Si supponga di sollecitare un ambiente riverberante con un segnale impulsivo. Contemporaneamente,


si acquisisca il segnale h presente in corrispondenza di un punto nellambiente conseguenza della
sollecitazione prodotta ad esempio mediante un microfono. Assumendo la linearit della catena
di misura, lecito considerare il segnale acquisito come una risposta impulsiva dellambiente. La
risposta dipende dalle posizioni relative della sorgente di segnale e del ricevitore, ed esistono tecniche
precise per lacquisizione e il calcolo di questo tipo di risposte, delle quali non ci occupiamo.
Un tipico esempio dellandamento nel tempo di una risposta impulsiva ambientale illustrato in
Figura 6.9. Lesempio si riferisce a un piccolo ambiente.
Analizziamo il segnale nel dettaglio:
4 Per

un certo tipo di musicista dobbligo togliere il quasi.

6.3. RIVERBERO

6.11
1
0.8
0.6

(Normalized amplitude)

0.4
0.2
0
0.2
0.4
0.6
0.8
1
0

0.01

0.02

0.03

0.04

0.05
(s)

0.06

0.07

0.08

0.09

0.1

Figura 6.9: Andamento nel tempo di una risposta impulsiva ambientale.

dopo circa 7 ms, prima dei quali viene solamente registrato del rumore di fondo, arriva al punto
di ricezione il segnale diretto (direct signal);

successivamente cominciano ad arrivare le prime riflessioni (early reflections), provenienti dalle


pareti riflettenti dellambiente, non tutte di ampiezza necessariamente minore a quella dellimpulso diretto5 ;

con lavanzare del tempo, alle prime riflessioni si uniscono le riflessioni di ordine superiore
o riflessioni successive (late reflections), che perdurano fintantoch le pareti dellambiente e
lattenuazione dellaria non riducono la potenza del segnale a un valore trascurabile. Si usa
anche dire che, cessato leffetto delle prime riflessioni, il campo acustico diviene diffuso.
In generale la legge di decadimento della pressione acustica e dellenergia di un segnale riverberante di tipo esponenziale. In effetti, a questa legge si attiene linviluppo del segnale di Figura 6.9.
In questo contesto, una misura particolarmente significativa delle caratteristiche riverberanti di un ambiente il tempo di riverbero ai 60 dB, denotato con RT60 , ovvero il tempo in secondi che trascorre
affinch linviluppo dellenergia della risposta impulsiva ambientale si riduca di 60 dB.
Per calcolare con precisione il tempo di riverbero ai 60 dB non necessario mediare un elevato
numero di inviluppi, dedotti rispettivamente da misure eseguite spostando la sorgente e/o il ricevitore
in pi punti. stato dimostrato che la curva di decadimento energetico RT t del segnale si ottiene
calcolando la funzione
RT t

h2 d

(6.5)

al variare del tempo t.


Si noti fin dora lelevato frastagliamento del segnale di Figura 6.9. Un modello statistico per le
riflessioni dimostra che il numero di echi Nt misurati dopo un tempo t trascorso dallemissione di un
segnale, che si generano per riflessione allinterno di un ambiente chiuso di volume V dove il segnale
5 Perch

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.12
2

10

10

(dB)

10

10

10

10

10

0.5

1.5
(Hz)

2.5
4

x 10

Figura 6.10: Modulo della trasformata di Fourier della risposta impulsiva ambientale di Figura 6.9.
si propaga a una velocit c, uguale a
4c3 3
t
(6.6)
3V
Dalla formula si vede che il numero di echi cresce nel tempo secondo una legge cubica.
Lanalisi in frequenza della risposta impulsiva ambientale fornisce delle informazioni altrettanto
interessanti. La Figura 6.10 mostra il modulo della trasformata di Fourier del segnale di Figura 6.9. In
essa si notano in particolare dei picchi in corrispondenza di determinate frequenze. A ciascun picco
associato un modo di risonanza.
La teoria afferma che i modi vanno addensandosi allaumentare della frequenza. Essi restano distinguibili nello spettro, e dunque entro certi limiti anche a livello percettivo, fino a una certa frequenza
che varia con i parametri ambientali. Al di sopra di questa frequenza i modi tendono progressivamente a sovrapporsi, rendendosi di fatto indistinguibili. Si dimostra, sempre sulla base di un modello
statistico, che il numero di modi normali N f presenti fino alla frequenza f uguale a
Nt

Nf

4V 3
f
3c3

(6.7)

Anche la (6.7) dunque, duale rispetto alla (6.6), sancisce la progressione cubica del numero dei modi
con la frequenza. In ogni caso sia la (6.7) che la (6.6), avendo validit statistica, non sono utili per
conteggiare le prime riflessioni o, dualmente, i modi in bassa frequenza.
Infine, vale la pena ricordare la formula che permette di stimare la separazione media fmax tra i
picchi spettrali, misurata (in Hz) in corrispondenza della banda dove la densit dei modi giustifica un
loro conteggio su base statistica:
4
(6.8)
fmax
RT60

6.3.2

Percezione del riverbero

Il riverbero contribuisce in modo fondamentale alla caratterizzazione di un evento sonoro. Assumiamo


fin dora di tralasciare quegli aspetti capaci di influenzare la nostra percezione spaziale, che per un

6.3. RIVERBERO

6.13

discorso di semplicit consequenziale vogliamo accorpare tutti nella Sezione successiva, nonostante
su questa scelta si possano avanzare fondate obiezioni.
Le caratteristiche dellevento sonoro che maggiormente risentono del tipo di riverbero sono:

il volume del suono diretto;


il colore del suono;
il timbro;
il tappeto acustico che si sovrappone al suono diretto, ovvero la percezione di uno sfondo al
suono diretto;

linsieme degli echi che vanno ad accodarsi al suono diretto.


La letteratura sullargomento ampia e qualche volta in disaccordo sui risultati. Generalmente, si
assume di suddividere la percezione temporale di un evento sonoro basandosi sulla costante di integrazione dellorecchio, fissata in 80 ms. In base a questo modello, valgono le seguenti considerazioni
di principio:
1. a partire dallistante di percezione del segnale diretto, tutti gli echi che giungono allorecchio
entro 80 ms vanno a caratterizzare volume, colore e timbro del suono;
2. le caratteristiche del tappeto acustico dipendono in larga parte dagli echi attenuati che giungono
dopo 80 ms. Di fatto, durante lascolto spesso il tappeto mascherato dal segnale diretto, e
viene perlopi valutato durante le pause;
3. ripetizioni del segnale diretto, che giungono dopo un tempo superiore alla costante di integrazione dellorecchio, vengono percepite come eventi distinti, o echi veri e propri.

6.3.3

Modelli

La fase pi difficile nel processo di messa a punto di un riverbero costituita dalla scelta di un modello
adeguato. I tentativi di conciliare i parametri fisici e quelli percettivi non sono generalmente andati a
buon fine, sicch una scelta decisiva va compiuta gi nella fase di approccio al modello. Nondimeno,
sono stati scoperti alcuni fondamentali legami tra le caratteristiche spettrali del segnale e la percezione
del riverbero, dei quali tratteremo nel seguito.
Lapproccio fisico
Lapproccio fisico ha il vantaggio di mettere a punto dei modelli dotati di parametri fisici accessibili,
come dimensioni e forma dellambiente, riflessivit delle pareti e attenuazione ambientale, posizioni
della sorgente e del punto di ascolto e cos via.
La soluzione pi semplice consiste nel memorizzare a bordo del riverbero tutta linformazione
relativa a un insieme di N risposte impulsive ambientali campionate h1 q q q hN , e di calcolare il segnale
riverberato y come convoluzione discreta tra il segnale musicale x e una risposta ambientale hi scelta
allinterno di un database:
y r nst hi x r n s
ovvio che questa scelta pone dei seri vincoli sulla possibilit di implementare leffetto in tempo
reale, causa lelevata quantit di memoria e di potenza di calcolo richieste da un simile modello.

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.14

In alternativa, sono stati proposti diversi modelli di propagazione del segnale allinterno di un
ambiente, con lintento di semplificarne la descrizione al fine di poter avere un guadagno in termini di
efficienza. Di questi vanno ricordati:
limage method, che deduce la direzione e il tempo di arrivo delle prime riflessioni in un punto
dellambiente, nota la sua topologia;

le tecniche di ray tracing, che modellano le riflessioni successive basandosi sul concetto di
campo diffuso;

i metodi statistici, per modellare gli echi che formano il tappeto acustico.

Lapproccio percettivo
Lapproccio percettivo presenta teoricamente un numero maggiore di desiderabili propriet rispetto a
quello precedente. Il controllo dei parametri percettivi infatti fa s che leffetto possa essere adattato
al gusto dellascoltatore. In pi, intuendo che gran parte dellinformazione presente nella risposta
impulsiva ambientale non viene utilizzata dai meccanismi uditivi, si pu ragionevolmente affermare
che un modello percettivo ha maggiori possibilit di essere realizzato efficientemente: al limite, un
modello in grado di controllare tutti i parametri percettivi pu sintetizzare qualunque riverbero.
Le difficolt sorgono nel momento in cui si cercano di riconoscere dei parametri indipendenti (o
fattori) capaci di caratterizzare la sensazione del riverbero. In questo senso sono stati fatti molti passi
avanti; il paragrafo 6.5 riassume alcune scoperte fatte di recente.
Lobiettivo dei modelli percettivi dunque lefficiente realizzazione di un algoritmo di riverbero
innanzitutto piacevole allascolto, ovvero naturale. La strada per raggiungere questobiettivo quella
di riprodurre la timbrica del suono lavorando entro la costante di integrazione dellorecchio, e di
generare un valido tappeto acustico.
Misura dei parametri percettivi
Ricondurre i parametri percettivi a dei valori quantitativi impresa spesso priva di riscontro valido, se le misure di questi valori non vengono comunque confortate dal parere qualitativo fornito dallascoltatore. Ci nonostante, esistono alcune misure cui fanno riscontro definite impressioni
percettive.
Di esse, forse la pi significativa lEnergy Decay Relief (EDR) relativo a un ambiente. LEDR
individua una funzione che indicheremo come EDR t f , la quale offre linsieme degli andamenti
delle curve di decadimento RT al variare della frequenza. Queste curve si possono grossolanamente
ottenere sollecitando lambiente di volta in volta usando segnali monofrequenziali, e valutando le
curve RT ottenute in corrispondenza di ciascuna sollecitazione.
In Figura 6.11 viene riportato landamento qualitativo di un diagramma EDR relativo a unambiente virtuale. Si noti che EDR 0 f fornisce concettualmente linviluppo della risposta in frequenza
dellambiente, anche se una misura pi significativa di questo inviluppo si ha estrapolando funzioni
EDR t0 f per valori fissati di t0 , in corrispondenza dei quali le prime riflessioni si siano esaurite.
Esperimenti, nei quali si cercato di mettere in rapporto fattori percettivi indipendenti con grandezze fisicamente misurabili, hanno dimostrato la relazione tra questi fattori e dei corrispondenti rapporti tra pendenze di curve estratte da distinte regioni dellEDR. Problemi rimasti aperti in questo
tipo di esperimenti sono lindividuazione di un numero di fattori percettivi significativi, e la scelta
di una risoluzione spaziotemporale per lEDR in grado di ottimizzare la bont e lattendibilit delle
relazioni trovate.

6.3. RIVERBERO

6.15

40
20

dB

0
20
40
60
0

2
0.5

1.5
1

1
1.5

x 10

0.5
2

frequenza (Hz)

tempo (s)

Figura 6.11: Energy Decay Relief: andamento qualitativo.

x[n]

z -d 1

z -d 2
b1

z -d N
b2
+

bN-1

bN
+

y[n]

Figura 6.12: Filtro per la simulazione delle prime riflessioni.

6.3.4

Realizzazioni

Tutte le considerazioni fatte in precedenza sulla scelta di un modello devono comunque trovare riscontro in strutture realizzabili. La natura del problema conduce essenzialmente a sistemi che fanno
uso di filtri lineari nel senso tradizionale del termine, ma non mancano in letteratura realizzazioni
pi articolate, come le |em Feedback Delay Network (FDN), cui accenneremo alla fine di questo
paragrafo.
Riproduzione delle prime riflessioni
Ritornando per un attimo alla Figura 6.9, si pu notare che le prime riflessioni possono venire modellate con ottima approssimazione da un filtro FIR. In pratica, la simulazione delle prime riflessioni
non scade troppo di qualit se si generano solamente le pi significative tra esse, a patto di spaziarle
correttamente nellasse dei tempi.
Un risultato didatticamente interessante rappresentato nella struttura di Figura 6.12. Essa consiste in un filtro di risposta impulsiva avente trasformata Zeta uguale a
H z

bi z d
i

i 1

e pu essere equivalentemente vista come un filtro FIR avente molti coefficienti uguali a 0, tra cui
in particolare il primo, o, alternativamente, come una versione generalizzata del FIR, nella quale i
ritardi unitari sono sostituiti da linee di ritardo di lunghezza generica di . Non difficile capire come,

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.16

x[n]

z -m

y[n]

g
Figura 6.13: Il filtro comb.
immettendo un segnale anecoico in questa struttura, si abbia in uscita un segnale formato dal segnale
dingresso ritardato pi un certo numero di sue ripetizioni pesate, simulanti le prime riflessioni. Il
ritardo iniziale, uguale a m1 T secondi, modella il tempo di propagazione dalla sorgente al punto di
ascolto.
In pratica, pu essere necessario ritardare una riflessione di un tempo non multiplo del periodo di campionamento. In tal caso si pu ricorrere alle tecniche di interpolazione lineare, viste al
paragrafo 6.2.3.
Riproduzione del campo diffuso
Le formula 6.6 afferma lesistenza di unelevata densit degli echi nella regione del campo diffuso.
Considerazioni di ordine percettivo confermano limportanza di conservare questa densit, pena una
percezione granulare (ovvero discreta) di questi echi.
Appare ovvio, in questo caso, lutilizzo di strutture IIR, capaci di reazionare il segnale in uscita dai
filtri. In effetti lidea pi semplice per realizzare economicamente un elevato numero di echi consiste
nel processare il segnale mediante un filtro comb.
Consideriamo dunque un filtro avente trasformata Zeta uguale a
z

H z

1 gz

con g 1 , come quella di Figura 6.13. La parte iniziale della risposta impulsiva di questo filtro
mostrata in figura 6.14(a), quando g 1 2 e M 5. In Figura 6.14(b) compare il modulo della
(a)

(b)

10

0.9
0.8
0.7
Magnitude (dB)

Magnitude

0.6
0.5
0.4

10

0.3
0.2
0.1
0
0

10

15

20
25
30
Time (samples)

35

40

45

50

10
0.5

0.4

0.3

0.2

0.1
0
0.1
Normalized frequency

0.2

0.3

0.4

Figura 6.14: (a) risposta impulsiva e (b) risposta in frequenza del filtro comb.
risposta in frequenza, avendo adoperato gli stessi valori per i parametri.
Le figure rendono conto di due propriet generali del filtro:

0.5

6.3. RIVERBERO

6.17
0.6

0.4

Magnitude

0.2

0.2

0.4

0.6

0.8
0

10

15

20
25
30
Time (samples)

35

40

45

50

Figura 6.15: Risposta impulsiva del filtro allpass.


1. li-esimo eco della risposta impulsiva di un filtro comb, di guadagno di feedback g ritardo di
feedback M, ha ampiezza uguale a gi e occorre in corrispondenza del campione im;
2. il modulo della risposta in frequenza dello stesso filtro, valutata tra la continua e la frequenza di
Nyquist, presenta m punti di estremo di quota uguale a 1 1 g e 1 1 g , alternativamente.
Le posizioni dei punti di estremo superiore, nel modulo della risposta in frequenza, sono individuate
dagli argomenti delle posizioni dei poli del filtro, ovvero dalle radici z1 zm del denominatore della
trasformata Zeta, risultanti dalla soluzione dellequazione a valori complessi

Tenendo conto della condizione imposta dalla (6.7) non difficile convincersi del fatto che imporre
una sufficiente densit degli echi ha, come controparte, leccessiva separazione dei picchi in frequenza,
nitidamente udibile come una colorazione del segnale. Vale ovviamente anche il viceversa. N risolve
il problema adottare, in luogo del comb, un filtro passatutto (o allpass, vedi Capitolo 4, allegato 2,
pag. 30) di trasformata Zeta
g z m
H z

1 gz m
la cui risposta impulsiva mostrata in Figura 6.15. Infatti il nostro orecchio sensibile alle frequenze
contenute in brevi finestre di segnale, e da questo punto di vista anche lallpass, pur contraddistinto
dalla piattezza del modulo della risposta in frequenza, colora decisamente il suo ingresso.
Si rende dunque necessario un aumento della complessit della struttura.
Consideriamo un parallelo di N filtri comb. In questo caso la densit degli echi nel tempo, e
parimenti quella dei picchi in frequenza, aumenta linearmente col valore di N. Infatti la risposta
impulsiva del parallelo di filtri comb ha trasformata Zeta uguale a
H z

i 1

z mi
gi z

mi

e dunque i poli della struttura complessiva si ricavano dalla


H z

i 1

gi zmi

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.18

sufficiente scegliere i ritardi m1


mN in modo tale che il massimo comun divisore di questi sia
unitario, per essere sicuri di disporre di un sistema la cui risposta in frequenza contiene

Df

m1

mN

picchi nella banda assegnata, e

m m
N
k 1

Dt

i 1

mk

i 1k 1 k i

echi nel periodo T Ni 1 mi . Ricordando la (6.8), si pu inizialmente dimensionare il sistema, dal punto
di vista della densit dei picchi in frequenza, secondo la

Df

B
fmax

dove B la banda di utilizzo del filtro. Per quanto riguarda la densit degli echi nel tempo, un
dimensionamento di massima va fatto empiricamente.
Affinch i modi associati a ciascun polo decadano con la stessa legge di decadimento, necessario
che tutti i poli del sistema siano equidistanti dallorigine degli assi del piano complesso. Ci si ottiene
semplicemente imponendo la condizione

mi

K i 1 N

con K costante dipendente dal tempo di riverbero ai 60 dB desiderato:


K

10

3T
RT60

Infine, ricordando la Figura 6.15, si noti che applicando P allpass in cascata al sistema appena
visto, si aumenta la densit degli echi di un ulteriore fattore proporzionale a P senza generare un
decadimento delle prestazioni in termini di densit di picchi in frequenza. Dunque, un sistema relativamente semplice ma gi in grado di produrre un apprrezzabile numero di echi e di picchi pu essere
quello rappresentato in Figura 6.16.

6.3.5

Problemi dei riverberi realizzati con filtri FIR e IIR

Quantunque un riverbero formato dal sistema di Figura 6.12 seguito in cascata da quello di Figura 6.15
presenti gi diverse pregevoli caratteristiche, in special modo con riferimento a simulazioni di riverberi
di breve durata, diversi artefatti ne limitano la qualit in termini di naturalezza. In particolare:

la risposta suona inizialmente granulare, in particolare se si devono riverberare suoni brevi e


dinamici, ovvero a caratteristica impulsiva;
sucessivamente, durante la simulazione delle riflessioni successive, il suono acquista una particolare modulazione (fluttering) e, soprattutto, un timbro colorato, metallico.

In effetti, il sistema visto non tiene conto dellandamento in frequenza del decadimento del suono,
visibile anche in Figura 6.11, principalmente dovuto alla caratteristica di assorbimento dellaria che
pi accentuata in alta frequenza. Un semplice modo per affrontare la questione consiste nel sostituire
i guadagni di feedback dei filtri comb con dei filtri passabasso. Questa soluzione riduce gli artefatti

6.3. RIVERBERO

6.19
+

x[n]

z -m 1

allpass 1

y[n]

allpass P

g1
+

z -m 2

g2
+

z -m N

gN
Figura 6.16: Un semplice sistema per la generazione di echi nel tempo e picchi in frequenza.

A
x[n]

z -m 1

z -m 2
+

y[n]

z -m N

Figura 6.17: Feedback Delay Network.


descritti, ma non li elimina del tutto. In particolare, luso di questa tecnica non permette di mettere in
relazione le caratteristiche dei passabasso con un corrispondente diagramma EDR.
Altre soluzioni, sicuramente meno giustificabili dal punto di vista teorico ma spesso efficaci, suggeriscono di sostituire le linee di ritardo con linee di ritardo modulate, da applicarsi nei modi e con le
cautele viste al paragrafo 6.2.2. In tal caso il tuning dei parametri segue considerazioni prettamente
empiriche, legate al gusto dellascoltatore e alle capacit del progettista.
Un importante passo avanti stato compiuto utilizzando le FDN, la cui comprensione offre
interessanti spunti di discussione.

6.3.6

Feedback Delay Network

Le FDN implementano con la desiderata generalit un sistema LIT. Il segnale viene fatto circolare
allinterno di un sistema formato da un filtro multicanale senza memoria e da un parallelo di linee di
ritardo, disposti come in Figura 6.17. Il filtro multicanale completamente descritto da una matrice
quadrata A di dimensione N, i cui elementi sono semplici coefficienti, detta matrice di feedback:
sN in ingresso al filtro, in
indicato con s z il vettore colonna delle trasformate Zeta dei segnali s1
uscita dallo stesso si hanno N nuovi segnali descritti dal vettore As z .

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.20

La stabilit assicurata non appena il determinante di A unitario o minore di uno. Una semplice
realizzazione prevede la scelta di una matrice contenenti elementi uguali a 1, 0 e 1, in modo tale
che il determinante sia unitario; a questa si antepone un peso g che osserva la condizione di passivit
g
1. In tal modo si assicura peraltro una notevole efficienza in sede di implementazione su di un
processore a tempo reale.
Ogni coefficiente di A non nullo fuori dalla diagonale assicura la commutazione del segnale da un
canale dingresso al filtro a un diverso canale di uscita dallo stesso. Si noti che, nel caso particolare in
cui A sia uguale alla matrice identit, la FDN si particolarizza in un parallelo di comb come quello di
Figura 6.16 (avendo tolto gli allpass), accomunati dallavere tutti lo stesso coefficiente di feedback, g.
Le propriet acustiche di questa realizzazione sono molteplici. In particolare:

non occorre realizzare la parte del sistema relativa alle prime riflessioni (vedi par. 6.3.4), potendo sostituire lazione di questo con unopportuna inizializzazione dello stato della FDN (cio
applicando dei valori iniziali opportuni sulle linee di ritardo). Con questa tecnica risultano
peraltro attenuati gli artefatti presenti allattacco nel sistema visto in precedenza;

la FDN pu prendersi carico di realizzare, oltre al riverbero, delle procedure per la spazializzazione del suono.

Col tempo, le FDN sono state migliorate e rese pi efficienti, e sono state spunto per il progetto di
modelli generalizzati ancora pi evoluti. Di questi argomenti diamo cenno nel seguito.
Evoluzioni delle strutture FDN
Il principale artefatto indesiderato di cui soffre una FDN come quella in Figura 6.17, e che abbiamo
gi incontrato nel modello di Figura 6.16, costituito dalla colorazione e dal fluttering presenti nella
coda del segnale duscita.
Per quanto riguarda il fluttering, una semplice soluzione quella di sostituire le linee di ritardo
della FDN con linee di ritardo modulate tipo quelle del paragrafo 6.2.2 le quali, come sappiamo,
richiedono una taratura empirica.
Riguardo la colorazione anche qui, come nel caso dei filtri comb, si pu pensare di applicare
dei filtri passabasso, immediatamente a valle delle linee di ritardo. In queste strutture tuttavia viene
elegantemente risolto il problema di progettare le caratteristiche di assorbimento dei filtri passabasso
sulla base di un EDR desiderato. La tecnica, di cui diamo qui un brevissimo cenno, consiste nel
progettare un prototipo FDN senza perdite (lossless prototype), ovvero una FDN con retroazione a
guadagno unitario e la cui risposta allimpulso sia essenzialmente un segnale privo di colorazione
per inciso, una FDN con queste caratteristiche si pu progettare adoperando matrici di feedback
molto efficienti dal punto di vista del carico computazionale e, successivamente, nellapplicare a
valle delle linee di ritardo dei filtri specificati in base a una funzione EDR t f desiderata. Detti filtri
peraltro risultano semplici ed efficienti. Con questa tecnica possibile raggiungere dei risultati molto
buoni in termini di naturalezza del riverbero.
I modelli FDN sono stati ulteriormente generalizzati, sostituendo il classico concetto di segnale
con quello di segnale donda (wave signal): alle linee di trasmissione del segnale (monodirezionali)
vengono sostituite delle guide donda a tempo discreto (digital waveguides, o DW), nelle quali il
segnale s viene modellato, in base alla fisica delle onde, come la sovrapposizione di due segnali
donda s e s che si propagano in opposte direzioni: le DW, dunque, trasmettono informazioni
bidirezionalmente.

6.4. SPAZIALIZZAZIONE

6.21

Figura 6.18: Propagazione di un segnale secondo lapproccio tradizionale, a sinistra, e interpretazione


della propagazione secondo il modello waveguide, facendo uso di DW e di giunzioni di scattering, a
destra.
Questa posizione permette di generalizzare la matrice di feedback in una matrice di scattering e,
pi in generale, permette di modellare tutti i punti dove un segnale viene suddiviso in pi canali o,
viceversa, dove pi segnali vengono sommati a formare unuscita, con delle giunzioni di scattering
(vedi Figura 6.18).
La struttura risultante dalla generalizzazione della FDN viene chiamata Digital Waveguide Network (DWN), e racchiude una serie di propriet pi generali di quelle proprie della FDN.

6.4

Spazializzazione

Lascolto binaurale di una sorgente monofonica fornisce allascoltatore, oltre allinformazione relativa
al messaggio sonoro emesso dalla sorgente, una serie di percezioni legate alle caratteristiche acustiche
dellambiente dascolto. Lascoltatore, in altre parole, identificher non solo il suono originale ma
anche, possibilmente, la direzione di provenienza del messaggio sonoro, le dimensioni della sorgente,
le caratteristiche dellambiente dascolto.
La complessit delle informazioni di cui si arricchisce un suono puro, durante il suo tragitto dalla
sorgente alle orecchie dellascoltatore, determina la spazializzazione che viene apportata al segnale.
In analogia a quanto visto in precedenza, scopo di questa sezione la ricerca di validi modelli per la
spazializzazione.
Appare evidente da subito che largomento spazializzazione include il riverbero, gi trattato alla
sezione 6.3. Qui ci si concentrer sui metodi per creare, da un suono puro, una coppia di segnali
che, ascoltati senza ulteriori modifiche, siano in grado di suscitare una convincente impressione di
localizzazione e di presenza di una sorgente sonora virtuale.
I sistemi in grado di assolvere a questo compito prendono il nome di binauralizzatori, e dunque a rigore sarebbe stato pi opportuno intitolare la presente sezione col nome di binauralizzazione.
Chiarito una volta per tutte che riverbero e binauralizzazione sono entrambi compendiati nella spazializzazione, la terminologia pratica predilige la scelta qui fatta, e comunque una breve trattazione di
psicoacustica della spazializzazione viene fatta alla sezione 6.5.
Nel proseguio, vedremo dapprima alcuni concetti e strumenti preliminari: il modello HRTF,
la KEMAR, le metodologie di approccio ai modelli. Successivamente si presenter un modello
strutturale per la binauralizzazione.

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.22

d= 1.4 m
= 45
left

right

Figura 6.19: Misura di HRTF. Le risposte hl e hr vengono valutate in prossimit dei punti indicati con
.

Right
1

0.8

0.8

0.6

0.6

0.4

0.4
normalized amplitude

normalized amplitude

Left
1

0.2
0
0.2

0.2
0
0.2

0.4

0.4

0.6

0.6

0.8

0.8

1
0

0.1

0.2

0.3

0.4

0.5

1
0

0.6

time (s)

0.1

0.2

0.3

0.4

0.5

0.6

time (s)

Figura 6.20: Andamenti nel tempo delle HRIR misurate nella condizione sperimentale di Figura 6.19.

6.4.1

Il modello HRTF

Si supponga di porsi in un ambiente anecoico, nei pressi di una sorgente sonora posta a una certa
distanza dalla testa. Lascolto binaurale della sorgente monofonica responsabile delle informazioni
spaziali (non legate al riverbero) presenti nel messaggio sonoro udito. Il modello HRTF attribuisce
queste informazioni alle due risposte impulsive hl e hr , denominate HRIR (Head Related Impulse
Responses), misurate dal punto di emissione del suono verso i punti di ricezione posti allinterno dei
padiglioni auricolari, rispettivamente sinistro e destro. Ovviamente la stessa informazione presente
nelle Funzioni di Trasferimento dedotte dalle HRIR rispettivamente, e denominate appunto HRTF
(Head Related Transfer Functions).
La misura delle HRTF viene schematizzata nella Figura 6.19, dove presentata una condizione
sperimentale nella quale la sorgente distante d 1 4 m dalla testa, spostata rispetto a questa sul
piano orizzontale di un azimuth 45 , e sul piano verticale di unelevazione 0 .
In Figura 6.20 si presentano gli andamenti delle HRIR misurate nelle condizioni sperimentali
relative allesempio sopra. Alcune interessanti considerazioni, peraltro necessarie per motivare il
prossimo paragrafo, sono dobbligo:

lattacco del segnale viene mascherato quasi del tutto allorecchio sinistro. Questeffetto noto
come lombra della testa (head shadow), il quale fa da filtro soprattutto per le alte frequenze,
di cui appunto ricco lattacco;

riflessioni residue del segnale, causate principalmente dal torso e dalle spalle, giungono a
entrambe le orecchie;

6.4. SPAZIALIZZAZIONE

6.23

la componente dominante di bassa frequenza, ben visibile tra 0 25 s e 0 4 s, giunge pressoch


identica a entrambe le orecchie, a meno di uno sfasamento dipendente dalla distanza interaurale.
Questo poich alle basse frequenze i fenomeni di diffrazione dellonda prevalgono su quelli di
mascheramento.

Test nei quali sono stati fatti ascoltare in cuffia segnali anecoici o preriverberati, filtrati adoperando opportune HRTF, attestano la bont del modello. In perfetta analogia con quanto detto nel caso
del riverbero (vedi paragrafo 6.3.3), la realizzazione di un binauralizzatore mediante la costituzione di
un database di HRTF, invocate magari sulla base della posizione rilevata mediante sensori della
testa, solleva problemi di costo del modello. A favore di questo approccio giocano comunque studi
recenti che hanno dimostrato la bassa sensibilit del nostro apparato uditivo al dettaglio spettrale delle
HRTF: nello specifico stato osservato come una semplificazione degli spettri, ottenuta imitandone
landamento solamente macroscopico del modulo e senza imporre alcun vincolo alla fase, produca al
pi una variazione dellelevazione della sorgente acustica virtuale.

6.4.2

IID e ITD

Le leggi fisiche dellinterferenza sulla propagazione delle onde acustiche causata da un ostacolo, riassunte per i nostri scopi dalle considerazioni fatte commentando le risposte impulsive di Figura 6.20,
unite a evidenze emerse durante esperimenti psicoacustici sulla percezione spaziale, autorizzano a postulare lesistenza, a livello neurologico, di due apparati deputati rispettivamente alla misura della differenza dintensit interaurale (interaural intensity difference, IID), nota anche come ILD (interaural
level difference), e della differenza di tempo interaurale (interaural time difference, ITD).
Il primo apparato registra la differenza delle energie nei segnali che giungono alle orecchie.
specialmente utile quando il messaggio acustico contiene alte frequenze (tipicamente al di sopra
di 1500 Hz) le quali, come abbiamo visto, risentono del mascheramento causato dalleffetto di
head shadow.

Il secondo apparato valuta le differenze di fase tra i segnali. Poich tali differenze perdono di
significato al di sopra di una certa frequenza, la misura dellITD viene eseguita specialmente
sulle componenti di bassa frequenza.

Il meccanismo di misura dellIID e dellITD pare essere alla base delle nostre facolt di discernere
la direzione di provenienza di un messaggio sonoro, assieme ad altri importanti parametri illustrati pi
diffusamente alla sezione 6.5.

6.4.3

La testa KEMAR

Il modo pi comodo per misurare le HRIR quello di adoperare una testa sintetica (dummy head),
di solito la KEMAR. In effetti, il padiglione auricolare (o pinna) altamente responsabile della nostra capacit percettiva spaziale, e dunque il suo contributo va integrato nellinformazione propria
delle HRTF. Di fatto, ogni modello per la binauralizzazione, in grado di conservare la morfologia o
quantomeno alcune propriet delle HRTF, non pu prescindere dallesigenza di modellare la pinna.
Ci implica che eventuali microfoni per la misurazione delle HRTF vanno collocati allinterno del
condotto uditivo: di qui si comprende lutilit di disporre di una testa sintetica.
Ancora, la testa KEMAR si rende utile quando si vogliano determinare le HRTF private del contributo informativo aggiunto dai padiglioni auricolari che, essendo nel caso della KEMAR rimovibili,
permettono di eseguire queste particolari misure.

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.24

6.4.4

Modelli

Come gi detto, un approccio squisitamente fisico al problema conduce a modelli molto dispendiosi
in termini di memoria e potenza di calcolo richieste. Purtroppo, a differenza del caso del riverbero, gli
studi condotti nel campo della spazializzazione non sono riusciti a determinare dei parametri percettivi
al punto di poter sviluppare, mediante questi, dei modelli efficaci, anche se la natura del problema
suggerisce che in realt pochi parametri (raggio ed eccentricit della testa, diametro della pinna ecc...)
determinano il risultato. In tal senso, una complicazione causata dallelevato grado di soggettivit
delle sensazioni spaziali: un sistema ben tarato sui parametri di un singolo ascoltatore in generale non
si pu esportare a un altro ascoltatore.
Disattesa per il momento la speranza di estrarre dei parametri percettivi dallinformazione contenuta nelle HRTF, la scelta del modello deve dunque restare sostanzialmente allinterno dellapproccio
fisico. Alcune soluzioni proposte sono elencate di seguito:
modelli zeropolo: si cerca con essi di simulare le HRTF sostanzialmente con delle FdT semplificate. Di fatto, funzioni capaci di produrre dei convincenti effetti spaziali sono in genere caratterizzate da un numero di coefficienti che non porta a realizzazioni particolarmente
efficienti;

espansioni in serie: le HRTF possono venire matematicamente rappresentate adoperando basi alternative di funzioni ortogonali, pesate da coefficienti dipendenti dalla posizione relativa
sorgentepunto dascolto. Si ottengono in questo modo modelli pi efficienti, non abbastanza tuttavia per realizzare in tempo reale spazi virtuali variabili con la posizione angolare della
testa;

modelli strutturali, i quali cercano di simulare pari pari i principali elementi che il segnale
acustico incontra durante il suo cammino dallambiente fino al condotto auricolare: spalle, testa
e pinna. Sono questi i modelli che hanno prodotto i risultati pi interessanti, permettendo buone
riproduzioni della sensazione spaziale pur rimanendo entro un contenuto costo computazionale.

Nel seguito si presenta uno di questi modelli strutturali, interessante sia per chiarezza didattica
che per efficacia.

6.4.5

Un modello strutturale

Un modello strutturale cerca di simulare il contributo informativo introdotto nel segnale da parte di
una struttura, che nel nostro caso composta dalla seguente serie di blocchi (Figura 6.21):
1. spalle (che causano la formazione di echi);
2. testa (che contribuisce con lhead shadow);
3. pinna (che causa ulteriori echi).
Il nostro modello dedurr i singoli blocchi, ne valuter limportanza in termini di contributo informativo, infine definir un sistema capace di implementare efficientemente il modello. Allo scopo
sar utile disporre di una simbologia che definisca i segnali in base ai blocchi S (spalle), T (testa)
e P (pinna) attraversati: detto x il segnale in ingresso, chiameremo ad esempio xST il segnale che
ha attraversato il blocco relativo alle spalle e quello relativo alla testa, e xSP un segnale processato
dal blocco delle spalle e da quello relativo alla pinna, privo del contributo informativo dato dallhead
shadow.

6.4. SPAZIALIZZAZIONE

x[t]

6.25
x S[t]

x ST [t]

spalle

testa

x STP[t]

pinna

Figura 6.21: Un modello di struttura per la spazializzazione.


Deconvoluzione della head shadow
La possibilit di modellare il blocco T, ovvero la head shadow, mediante un filtro a tempo continuo
HT a fase minima, caratterizzato cio dallavere una FdT i cui zeri siano tutti a parte reale negativa,
permette di deconvolvere dalle HRTF il contributo modellato dal filtro della testa. Ci si ottiene
filtrando le HRTF con linverso del filtro head shadow, 1 HT , che esiste ed stabile per la propriet
di minimalit della fase. Il contributo di questo filtraggio dunque va a elidersi con il contributo del
blocco T.
Il modello che analizziamo suppone lesistenza di tale filtro. Risolvendo il problema della diffrazione di unonda su un corpo rigido sferico, si pu dedurre un semplice filtro a fase minima del primo
ordine che, completato ponendo in cascata a esso un ritardo, simula egregiamente la soluzione esatta
al problema.
Fatti i dovuti calcoli, la FdT del filtro analogico risulta essere uguale a
HT
con

e con
T

min

0 cos 180
1 90
0 180

j 2
0

j 2
0

jT

(6.9)

min

cos
2
min

0
90

90

180

(6.10)

(6.11)

Posto
min
min
0

01

150

(6.12)

c a

con a raggio della sfera e c velocit del suono in aria, e rispettate dunque le condizioni 0 0 di
stabilit e 0 di minimalit della fase, si ottiene un filtro dipendente dallazimuth relativo alla
posizione dascolto rispetto alla sorgente che approssima in maniera soddisfacente la FdT esatta.
La dimostrazione della stabilit e della minimalit della fase del filtro HT , privato del contributo
dato dal ritardo (6.11), riportata nel paragrafo 6.4.5.
Il modello appena ottenuto viene verificato in un primo momento deconvolvendo le risposte misurate ai due condotti uditivi della testa KEMAR senza le pinne. La somiglianza delle due funzioni,
formalmente corrispondenti ai segnali xS relativi al lato sinistro e destro, sancisce lattendibilit dellinformazione fornita da queste sul contibuto del busto e soprattutto delle spalle. La loro semplicit
autorizza a valutarle osservandone solo landamento nel tempo: i grafici, che qui non vengono riportati, evidenziano abbastanza chiaramente leco dovuto al contributo delle spalle, in buona sostanza
unico, che arriva successivamente al primo picco causato dallarrivo del segnale diretto.

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.26

x[n]

HS(,S,S)

HT (,S)

HP(,S,S)

HT (,)

HP(,,)

y[n]

Figura 6.22: Modello strutturale per la percezione di eventi spaziali.


Contributo della pinna
Reinserendo le pinne, si osserva il loro contributo sotto forma di echi supplementari presenti nei
segnali xSP . Le pinne hanno interessanti conseguenze sulla percezione dellelevazione della sorgente
acustica. Infatti ruotando la KEMAR in senso verticale si registra uno spostamento degli echi dovuti
alle pinne; viceversa, il loro contributo allinformazione relativa allazimuth non appare determinante.
Dallosservazione diretta dei due segnali xSP si possono apprezzare, mediante confronto con i
rispettivi segnali xS , gli echi introdotti dalle pinne. Questi possono essere direttamente modellati
attraverso filtri FIR, che tengano almeno conto dei valori di picco dei principali echi, e delle posizioni
relative di questi. Il risultato sar un filtro avente la seguente FdT:
HP 1

i e j
L

(6.13)

n 1

dipendente dallazimuth e dallangolo di elevazione della sorgente rispetto alla testa. Si ricorrer
allinterpolazione lineare (vedere paragrafo 6.2.3) quando uno o pi ritardi i non siano multipli del
periodo di campionamento del sistema.
Struttura completa del modello
Accorpando tutte le osservazioni fatte, si pu strutturare il modello come appare in Figura 6.22. Il
suono diretto viene in primo luogo riflesso dalla spalla; questo fenomeno viene modellato ponendo in
parallelo al segnale diretto un singolo eco, descritto dalla FdT
HS S S S S S e jS S S

nella quale il pedice S nei parametri di azimuth ed elevazione tiene conto del diverso angolo di ingresso
al padiglione auricolare. Successivamente, i segnali incontrano la head shadow, formalizzata dalla
(6.9) che varia in base allazimuth. Infine, la pinna contribuisce ad un ulteriore processamento del
segnale, mediante il modello espresso dalla (6.13).
Si rammenta che la struttura vista spazializza il segnale solo se viene applicata, con le opportune
variazioni parametriche, a entrambe le orecchie. Dunque, il binauralizzatore complessivo sar costituito dal parallelo formato da due strutture come quelle di Figura 6.22, aventi un ingresso monofonico
comune.
Implementazione del modello
Ulteriori esperimenti hanno evidenziato la non assoluta necessit di modellare la riflessione dovuta alla
spalla. La possibilit di tagliare il canale ove presente la FdT HS si traduce in una semplificazione
del modello.

6.4. SPAZIALIZZAZIONE

6.27
n
1
2
3
4
5

n
0 5
1
0 5
0 25
0 25

An
1
5
5
5
5

Bn
2
4
7
11
13

Dn
0 85
0 35
0 35
0 35
0 35

Tabella 6.1: Valori numerici indicativi dei parametri del modello della pinna.
Simulazioni soddisfacenti sono state ottenute adoperando, per il calcolo del tempo darrivo dell
nesimo eco dovuto alla pinna, la seguente funzione:
n An cos

90
sin Dn

360
180

Bn n 1 L

peraltro periodica nelle variabili di azimuth ed elevazione, come sarebbe da aspettarsi. Essa d buoni
risultati per 90 90 e 90 90 .
Si anche verificata la sostanziale indipendenza dallazimuth e dallelevazione dei coefficienti di
riflessione i . Infine, si deciso di assegnare una volta per tutte il numero di echi causati dalla pinna:
L 5.
Fatte queste semplificazioni, la scelta definitiva dei parametri n , An , Bn e Dn va fatta soggettivamente. Valori di riferimento, risultati efficaci per alcuni soggetti, sono illustrati in Tabella 6.1.

Risultati e punti di discussione


Il modello strutturale visto stato testato in condizioni tali da concentrare il pi possibile lattenzione sulle sue propriet di spazializzazione. Adoperando suoni atimbrici (rumore gaussiano nel caso
particolare) si verificato che la capacit di riconoscere spazi acustici virtuali, dallascolto di suoni
filtrati da HRTF personalizzate, statisticamente non si discosta di molto dalla capacit di riconoscere gli stessi spazi quando alle HRTF venga sostituito il modello strutturale, anche questo tarato
soggettivamente.
Restano aperti alcuni punti:

il modello pare evocare esternalizzazione. Ci non deve sorprendere quando si pensi che le
HRTF non portano alcuna informazione ad esempio sotto forma di riverbero circa le caratteristiche dellambiente (si veda in particolare la sezione 6.5), e questo comporta la difficolt
non gi di percepire la direzione di provenienza di un suono, bens di collocare la sorgente
sonora allinterno di un ambiente;

gli artefatti sul timbro che il modello eventualmente apporta sono da valutare nelle diverse
condizioni dascolto;

FdT residue, come quelle esistenti tra laltoparlante di una cuffia e lingresso allorecchio,
possono in linea di principio introdurre a loro volta degli artefatti dei quali occorre eventualmente tenere conto. Una possibile soluzione a questo punto consiste nelladottare speciali auricolari
che evitano qualunque interferenza tra altoparlanti e orecchio esterno. chiaro per che una
soluzione come questa non appare praticabile specialmente quando il modello persegua degli
scopi commerciali.

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.28

Deduzione della stabilit e della minimalit della fase del filtro head shadow
Si consideri la FdT (6.9), privata della componente data dal ritardo (6.11) e nella quale siano stati
sostituiti i parametri dati dalle (6.10) e (6.12).
Conduciamo dapprima una verifica di stabilit della (6.9), ovvero stabiliamo se il suo prolungamento analitico al piano complesso definisce una funzione, nella variabile complessa s, i cui poli
giacciano nel semipiano sinistro. :

j 2
j
0

1 j 2
0

20 s
1
20 s

la quale possiede evidentemente un polo posto in s 20 . Per la (6.12), la stabilit della (6.9)
assicurata.
Per quanto riguarda la minimalit della fase, essa sussiste se e solo se lo zero della funzione
prolungata per analiticit giace sul semipiano sinistro del piano complesso. Non difficile osservare
che lo zero verifica la condizione
20
s

da cui, assunta la stabilit, discende la fase minima non appena sia verificata la condizione 0. Ci
vero quando ci si attiene alla scelta fatta in (6.10).

6.5

Appendice: percezione di eventi spaziali

Ancorch non indispensabile per la comprensione dei sistemi presentati alle Sezioni precedenti, questa
appendice completa tutta la trattazione svolta, cercando di chiarire, pur molto sinteticamente, alcuni
aspetti psicoacustici legati alla percezione spaziale. Si preferito inserire questi concetti dopo i fatti
pi tecnici in quanto essi, pur non fornendo direttamente dei parametri di progetto, devono tuttavia
completare la base di conoscenze proprie del progettista di questo genere di sistemi, siano essi un
chorus, un riverbero o un binauralizzatore.

6.5.1

Terminologia

Nel tentativo di definire le sensazioni spaziali legate alla percezione dei suoni, la vasta letteratura
esistente in materia presenta diverse terminologie, a cui fanno riscontro almeno un pari numero di
tipi di sensazioni avvertibili. Non di rado, i concetti alla base delle terminologie coniate sono entrati
in parziale sovrapposizione tra loro, rendendo ardua una definitiva classificazione delle sensazioni
spaziali. Del resto, la psicoacustica della percezione spaziale non ha fortunatamente ancora avuto la
presunzione di proporsi come una scienza esatta.
Ad ogni modo, la ricerca pare orientarsi progressivamente verso lanalisi di quattro aspetti percettivi:
1. limpressione spaziale (spatial impression, SI), ovvero la capacit di evincere uninformazione
spaziale da quella sonora (ad esempio, percepire di trovarsi in una sala da concerto o in una
stanza dufficio);
2. la spaziosit (spaciousness), conosciuta anche come inviluppo (envelopment), ovvero la percezione dellampiezza dellambiente acustico (ad esempio, percepire di trovarsi in una sala da
concerto e non in una stanza dufficio);

6.5. APPENDICE: PERCEZIONE DI EVENTI SPAZIALI

6.29

3. la dimensione apparente della sorgente (apparent source width, ASW), ovvero la percezione
delle dimensioni della sorgente sonora (ad esempio la capacit di distinguere un diffusore da
una grande orchestra);
4. la posizione relativa della sorgente sonora, ovvero la capacit, propria dellascoltatore, di collocare la posizione della sorgente sonora allinterno di uno scenario tridimensionale. Ci equivale
a individuare un angolo orizzontale (o azimuth) e un angolo verticale (o elevazione) in relazione
alla direzione di provenienza del suono.
Diversi esperimenti sono stati condotti nellintento di motivare questi aspetti sulla base di considerazioni legate ai parametri architettonici e acustici dellambiente dascolto, e alle caratteristiche
temporali e spettrali della coppia di segnali che giungono alle orecchie; dunque, cosiderazioni di tipo
fisico. Se da una parte questi esperimenti hanno spesso successo nelle perlopi semplificate condizioni sperimentali allestite durante un test, daltra parte le conclusioni che ne seguono entrano non
di rado in contraddizione con i risultati di altri esperimenti, o con evidenze riscontrabili in particolari
situazioni dascolto.
Preso atto dei limiti riscontrati in un approccio di tipo fisico al problema, la ricerca non ha tuttavia
trascurato lapproccio percettivo. Nonostante le problematiche legate allo scollamento di questapproccio da alcuni aspetti tecnicoprogettuali, in analogia con quanto illustrato al paragrafo 6.3.3, esso
conduce in generale a modelli in grado di interpretare meglio la percezione spaziale del suono.

6.5.2

Ipotesi per un modello percettivo

Uno schema accettato dalla maggior parte degli studiosi prevede che linformazione sonora, suddivisa
in bande critiche (vedi paragrafo 2.9), giunga in particolare alle sedi neurologiche preposte alla valutazione dellIID e dellITD, gi definiti al paragrafo 6.4.2. Confrontando diversi studi, pare probabile
che queste sedi siano concettualmente distinte, cio che le informazioni estratte dallIID e dallITD,
non necessariamente in accordo tra loro, vengano separatamente valutate.
A questo punto, linformazione appena acquisita (sempre suddivisa in bande) va a quantificare tre
parametri:
1. un parametro di direzionalit, legato alla provenienza dellinformazione;
2. un parametro di intensit, legato alle energie del messaggio informativo;
3. un parametro di fluttuazione spaziale, legato alle variazioni di energia e punto di provenienza
del messaggio informativo. Questo parametro discende da considerazioni legate alle caratteristiche dei segnali che giungono alle orecchie: si dimostra infatti che la sovrapposizione di un
segnale monofrequenziale diretto e di una sua riflessione vanno a formare un nuovo segnale
la cui fluttuazione spaziale angolare media attorno a un punto di provenienza (chiamata anche
fluttuazione dello pseudoangolo) varia con lenergia e con langolo dincidenza del segnale riflesso rispetto al segnale diretto. Variando la frequenza, cambia la legge che lega la fluttuazione
dello pseudoangolo allenergia e allangolo dincidenza.
Questi parametri vengono utilizzati per riconoscere nel segnale acustico degli eventi (phones),
che vengono associati alternativamente a un flusso in primo piano (foreground stream), corrispondente allinsieme dei messaggi acustici che attribuiamo essere provenienti direttamente dalla sorgente
sonora, e a un flusso di background (background stream), corrispondente a quello che il nostro senso
delludito generalmente identifica come riverbero.

CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIOTEMPORALE

6.30
direzionalita

intensita

sensore
attacchi

sensore
eventi

ESI

posizione
relativa
sorgente

fluttuazione spaziale

sensore
rilasci

CSI

ASW

BSI

SI

inviluppo

Figura 6.23: Modello psicoacustico per la percezione degli eventi spaziali.


Nel seguito cerchiamo di analizzare il senso di questa classificazione, ovvero le sensazioni spaziali
legate ai diversi flussi. La Figura 6.23 schematizza in blocchi il modello, che verr man mano chiarito
durante la trattazione. Le informazioni in ingresso al modello provengono dalle sedi preposte alla
valutazione dellIID e dellITD, e sono per quanto gi detto funzioni delle bande critiche.
Il flusso di background
Il flusso di background viene percepito in presenza di riverbero, naturale o artificiale, ed responsabile
delle impressioni spaziali di background (background spatial impression, BSI). In base al modello, le
condizioni affinch un evento sonoro venga associato al flusso di background sono le seguenti:
repentino aumento della fluttuazione dello pseudoangolo, coincidente con listante durante il
quale cessa il segnale diretto;

contemporanea diminuzione dellintensit del segnale udito

Queste condizioni vengono apprezzate dopo un certo tempo di latenza, durante il quale ludito commuta il flusso a cui associare il messaggio (almeno 120 ms dal termine di un evento associato al
flusso di primo piano). Se esse non sussistono, per esempio in quei generi musicali ove un riconoscibile tappeto di accompagnamento maschera i riverberi, e comunque ogniqualvolta ludito non viene
messo nelle condizioni di poter commutare il flusso, il BSI di fatto non si verifica.
Il ruolo principale del BSI quello di dare la percezione della distanza della sorgente acustica, che di fatto uninformazione sulla posizione, e questa implica la sensazione dellinviluppo, sia
lambiente di ascolto indifferentemente chiuso o aperto.
Il flusso in primo piano
Fornisce la maggior parte delle sensazioni, fissate dal modello in impressioni spaziali iniziali (early
spatial impression, ESI) e impressioni spaziali continue (continuous spatial impression, CSI).

6.5. APPENDICE: PERCEZIONE DI EVENTI SPAZIALI

6.31

Eventi che vengono attribuiti al flusso in primo piano determinano nei primi istanti di ascolto (fino
a circa 50 ms) la localizzazione della direzione di provenienza del suono e lASW: tanto pi precisa la prima quanto minore la seconda e viceversa, ci dipendendo dalla precisione di identificazione
dellinformazione da parte dei meccanismi di IID e di ITD, dunque dalla coerenza dellinformazione fornita dai due meccanismi nelle diverse bande critiche. Successivamente (dopo circa 50 ms) la
fluttuazione dello pseudoangolo fornisce linformazione per determinare limpressione spaziale.
Il CSI viene evocato da segnali percettivamente continui. Brevi segnali impulsivi creano stimoli
coerenti e di semplice decodifica per gli apparati IID e ITD, utili soprattutto per lidentificazione della
direzione di provenienza del suono. Passando dal carattere impulsivo a quello continuo, laumento
progressivo della fluttuazione dello pseudoangolo, dovuta alla presenza delle riflessioni del segnale
continuo, abbassa la precisione nellidentificazione della direzione di provenienza e, per quanto detto,
aumenta lASW e definisce limpressione spaziale. Si noti tuttavia come laumento della fluttuazione
non avvenga necessariamente, ci influendo sul tipo di sensazione evocata. Si noti anche la possibilit
per il CSI di assumere caratteristiche inviluppanti, non appena inizi ad assomigliare a un segnale
riverberante.
LESI viene evocata in un contesto differente da quello ove prevale il CSI, ovvero in occasione
di eventi di breve durata (dellordine di 50 ms) costituiti da un segnale e dalle sue prime riflessioni,
di ampiezza confrontabile con quella del segnale diretto. I fenomeni che avvengono in una finestra
temporale cos breve vengono raggruppati dallorecchio in un unico evento. Questo evento fornisce
tipicamente sensazioni di ASW e di SI, ma non di inviluppo, ed tipico dei piccoli ambienti.
Le fluttuazioni dello pseudoangolo legate a questi eventi producono effetti non facilmente predicibili. Solitamente un aumento della fluttuazione produce un allargamento dellASW, e modificazioni di
timbro, mentre la posizione relativa della sorgente resta di solito legata alla direzione di provenienza
del segnale diretto. Piccoli ambienti dotati di pareti altamente riflettenti costituiscono interessanti casi
particolari, in grado al limite di evocare anche sensazioni di inviluppo.

Chapter 7

Sound modeling: source-based


approaches
Federico Avanzini
c 2004 by Federico Avanzini. All rights reserved.
Copyright

7.1 Introduction: sounds, sources


It was 1971 when Hiller and Ruiz envisioned the possibility of using numerical simulations of the
wave equation for sound synthesis applications.
[. . . ] This is a completely new approach to electronic sound synthesis insofar as the starting point
is the physical description of the vibrating object [. . . ]

A decade later McIntyre, Schumacher, and Woodhouse published their classic study on the use of
non-linear maps for modeling the generation of self-sustained oscillations in musical instruments.
[. . . ] a fast minicomputer could produce results at a cycle rate in the audible range. The result
would perhaps have some novelty: an electronic musical instrument based on a mathematical
model of an acoustic instrument [. . . ]

Today the algorithms described by these authors can be easily implemented in real-time on generalpurpose hardware, and it is common practice to use the term physical modeling to refer to sound
modeling techniques in which the synthesis algorithms are designed based on a description of the
physical phenomena involved in sound generation.
Direct sound representations, that are merely based on a description of the sound waveform, do
not contain information about the way the sound has been generated and processed by the surrounding
environment before arriving to the listeners ear. Sampling in time the sound signal does not assume
any underlying structure, or process, or generative model, in sound representation. The symbolic description is extremely poor, and as a consequence very little interaction with the sound representations
is allowed. Although signal processing techniques can provide meaningful modifications (e.g. pitch
shift, time stretching), sampling is basically a static, low-level description of sound.
7.1

7.2

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

High level representations of sound signals are necessarily associated with some abstract paradigms that underlie sound production. As we have seen previously, when trying to develop a taxonomy of sound synthesis methods a first distinction can be traced between signal models and source
models. Any algorithm which is based on a description of the sound pressure signal and makes no
assumptions on the generation mechanisms belongs to the class of signal models. Additive synthesis
is a good example of a signal model: as already mentioned, one major drawback of this technique is
its enormous number of control parameters: at least one amplitude and one pitch envelopes have to be
specified for each partial. Moreover, the sound representation has not a strong semantic interpretation,
since these parameters do not have a high-level meaning. Subtractive synthesis with its source-filter
structure provides in a sense a more semantic description of sound: in certain cases the two blocks
can be given a physical interpretation in terms of an exciting action and a resonating object, respectively. As an example, in the case of LPC based speech synthesis the broadband input signal can be
interpreted as a glottal source signal, and the shaping filter represents the action of the vocal tract.
However, in many other cases this interpretation does not hold, and the control parameters in the
model (e.g., the filter coefficients) do not have a high-level meaning.
Source models aim at describing the physical objects and interactions that have generated an
acoustic event rather than the acoustic signal itself. This modeling approach often gives rise to rather
complex descriptions, that can lead to computationally expensive numerical algorithms. Several modeling paradigms and techniques are available in the literature for deriving efficient implementations
of such descriptions, including lumped/distributed modeling, waveguide structures, finite difference
methods, and so on. The following sections describe in detail a few of these approaches. Here it is
worth discussing another aspect, i.e. that of control. A direct consequence of assuming a source-based
approach is that the resulting control parameters have a straightforward physical interpretation: typical parameters in the models are associated with masses, hardness/softness characteristics, blowing
pressures, lengths: such a semantic representation can in principle allow more intuitive interaction.

7.2 Structures, functions, models


7.2.1 Functional blocks
7.2.1.1 Excitations and resonators
Musical oscillators are often strongly non-linear. A typical example is found in woodwind and brass
instruments, where self-sustained oscillations in an acoustical bore can only be explained in terms
of a non-linear, persistent excitation mechanism. More precisely, the valve (a single or double-reed,
or the players lips) at the bore termination acts as a non-linear element that injects energy into the
system. A very similar description holds for bowed string instruments, where the bow is the exciting
element. In other cases the instrument is non-linearly excited only for a limited amount of time: a
struck string or bar interacts with the hammer or mallet through a non-linear contact force. Values for
the contact time are typically a few milliseconds, and after this short excitation the system evolution
is linear. There are also examples where non-linearities are negligible: plucked string instruments can
be conveniently treated as linear systems (strings and instrument body), where the pluck is simply
described as a non-equilibrium initial condition (i.e., the pluck gives a string a non-zero displacement
distribution and a null velocity distribution).
In all of these cases, the musical instrument can be schematized by means of two main functional
blocks, as depicted in Fig. 7.1. The resonator is the part of the instrument where the oscillations
actually take place. Depending on the instrument, this can be the acoustical bore, the string, the bar.

7.2. STRUCTURES, FUNCTIONS, MODELS

Exciting
actions

7.3

EXCITER

RESONATOR

Non-linear
Dynamic
System

Linear
Dynamic
System

Out

Modulating
actions

Figure 7.1: Exciter-resonator interaction scheme for a musical instrument (compare to Fig. 7.2(b)).

It is therefore related to such sound attributes as pitch and spectral envelope, and in general to sound
quality. The exciter controls the way energy is injected into the system, thus initiating and possibly
sustaining the oscillations. It relates to properties of the transient attack, which is known to have a
primary role in defining timbre and sound identity.
The interaction between blocks can be feedforward or feedback, depending on the instrument. Persistently excited instruments such as winds are described by a feedback structure, while for plucked
string instruments a feedforward scheme can be assumed without significant loss in accuracy of the
description. A very simple yet striking demonstration of the effectiveness of the exciter/resonator
schematization is provided by mounting a clarinet mouthpiece on a flute.1 The bore boundary conditions are changed from open-open to closed-open so that it plays one octave lower, and the resulting
instrument is perceived as a bad sounding clarinet. In other words, the excitation mechanism defines
sound identity (its a clarinet), the resonator merely controls sound quality (its a bad clarinet).
Outlining such functional blocks helps the modeling process; each of them can, to a certain extent,
be modeled separately and with different representation strategies. Moreover, the block decomposition
can be refined, i.e. both the exciter and the resonator can be described by simpler and more elementary
constitutive elements. As an example, the resonating block of a wind instrument is made of a bore,
a number of tone holes and a radiating bell, and each of these can be described by their own models.
Both white-box and black-box approaches can be taken. The term white-box indicates that the
block is modeled by further decompositions in finer physical elements. The black-box approach
amounts to describe a given block according to its input-output behavior, without further assumptions
on its internal structure. As an example, the radiating bell in a wind instrument is often modeled using
a black-box approach: since the bell acts as a filtering element which reflects low frequencies and
radiates high frequencies pressure waves, the modeling problem reduces to filter design.
7.2.1.2 Analogies with speech synthesis
The functional blocks outlined so far can be defined even when we look at speech synthesis techniques. Consider Linear Prediction Coefficients (LPC) synthesis: As already discussed before, the
assumption underlying this method is that the phonatory system can be schematized as a feedforward
source-filter model, as depicted in Fig. 7.2(a). According to such a schematization, the source block
1

The author has enjoyed a live demonstration with such a flarinet, performed by Joe Wolfe while giving a seminar in
Venice, 2000.

7.4

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

EXCITATION
GENERATOR

VOCAL TRACT
MODEL

RADIATION
MODEL

V(s)

R(s)

SPEECH
OUTPUT

PARAMETERS

(a)

GLOTTAL
MODEL

VOCAL/NASAL SPEECH
TRACT MODEL

INTERACTION

NON-LINEAR

LINEAR

GLOTTAL
PARAMETERS

TRACT
AREAS

(b)

Figure 7.2: Speech synthesizers; (a) feedforward source-filter block scheme associated to LPC based
speech synthesis, (b) block scheme of an articulatory speech synthesizer (compare to Fig. 7.1).

represents the airflow at the glottis, while the linear filter accounts for the combined effects of the
vocal (and possibly nasal) tract and lip radiation.
Under this interpretation, LPC synthesis is to a certain extent a physically-based technique, since
the main blocks depicted in Fig. 7.2(a) can be given a physical and physiological interpretation. However its major assumption, i.e. a feedforward interaction between glottal source and vocal tract, holds
only as a first order approximation and is imprecise. In a real phonatory system, the vocal tract
behaves as an acoustical air column, thus providing feedback to the vocal source through its input
impedance. Detailed modeling has to take into account this acoustical interaction in order to allow for
more natural sounding output.
Speech synthesizers that are based on acoustical models are commonly referred to as articulatory
synthesizers. Figure 7.2(b) depicts a typical block scheme of an articulatory synthesizer. When compared to the scheme in Fig. 7.2(a), it appears to have a very similar structure. However in this case
the two main blocks interact in a feedback configuration. On the other hand, this scheme exhibits a
striking similarity to the exciter-resonator decomposition outlined above for musical instruments (see
Fig. 7.1). The modeling approaches adopted in articulatory speech synthesis are indeed very similar
to those used for musical instruments. The vocal tract is a non-uniform, time-varying resonator. As
a first approximation, it is described by its cross-sectional area function A(x, t) (x being the position
along the tract).
Several approaches are possible for providing excitation signals to an articulatory vocal tract.

7.2. STRUCTURES, FUNCTIONS, MODELS

7.5

Parametric models are one option. These fit a given glottal flow waveform using piecewise analytical
functions, and are therefore signal models. Alternatively, the vocal tract can be excited by a time
varying section that represents the glottis, and driving this additional section using synthesized or
measured glottal area signals. However a fully physical description has to account for the interaction
between the glottal source and the resonating vocal tract. Physical models exists that describe the
vocal folds by means of one or more masses and viscoelastic elements. Such lumped models can be
easily coupled to an articulatory vocal tract and give rise to natural interaction effects, that cannot
be obtained using simpler feedforward source-filter schemes.

7.2.2 Modeling approaches


As far as modeling paradigms are concerned, these are often grouped into two broad categories,
namely lumped and distributed models. Lumped models are used when a physical system can be
conveniently described in terms of ideal masses or rigid bodies, connected to each other with spring
and dampers, and possibly non-linear elements. The resulting systems are naturally described in the
time domain, in terms of Ordinary Differential Equations (ODEs).
Pressure-controlled valves, such as single, double or lip reeds, are typically described using the
lumped modeling paradigm. Indeed, these systems are quite complicated: a clarinet reed is a non
uniform bar clamped at one termination and free at the other one, and has many vibrational modes.
Similarly, a lip reed is made of non-homogeneous tissue and exhibits horizontal and vertical modes
of vibration. Nonetheless, these systems have been successfully modeled using lumped elements,
and it is widely accepted that such a simplified mechanical description captures the basic behavior
of pressure controlled valves. Similar remarks hold for hammers and mallets: during collision, they
are deformed and subject to internal losses and non-linear restoring forces. However, interactions
with strings and bars have been modeled and efficiently implemented in sound synthesis algorithms
by assuming the hammer/mallet to be a lumped mass and deriving empirically the corresponding
expression for the contact force.
Distributed models, as opposed to lumped ones, are more often used for describing vibrating bodies or air volumes where forces and matter depend on both time and space. These bodies are not easily
decomposed into systems of discrete masses. One-, two- and three-dimensional resonators (such as
strings, bars, acoustical bores, membranes, plates, rooms, etc.) are usually treated as distributed systems and mathematically described by means of Partial Differential Equations (PDEs). Among the
sound synthesis community, however, the most popular approach for dealing with many distributed
systems is waveguide modeling.
Section 7.3 discusses waveguide models in detail. In its simplest form the method exploits the
existence of an analytical solution to the DAlembert wave equation, which can be seen as a superposition of traveling waves (rigidly translating waveforms). Such a solution can be simulated in the discrete space-temporal domain using delay lines, and the resulting numerical algorithms are extremely
efficient and accurate. Moreover, physical phenomena such as frequency dependent losses and dispersion can be included in the models by incorporating low-pass and all-pass filters in the delay line
scheme. Again, careful design of such filters allows for very accurate and relatively low-cost simulations. Some sound synthesis algorithms based on the waveguide approach have been successfully
implemented on commercial integrated circuit.
Although waveguides are extremely successful in modeling nearly elastic mediums (where the
DAlembert equation or some of its generalizations hold), they are not equally good in dealing with
systems where rigidity has a major role and bending forces are the main source of oscillation. As an
example, oscillations in a bar are governed by the so called Euler-Bernoulli equation. No analytical

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.6

general solution is given for this fourth order PDE, and no traveling-waves schematization can be
assumed. In order to deal with such systems, finite difference or finite elements methods are the
most suitable techniques. These time-domain techniques are sometimes referred to as brute force
methods, since they are based on direct discretization of the PDEs and have high computational costs.
On the other hand, when properly used they provide stable and very accurate numerical systems.
Other approaches are available, though less popular, for dealing with distributed systems: cellular
models decompose a resonating body into a multitude of interacting particles whose dynamics is
discretized and quantized, thus giving rise to a cellular automaton. In the early nineties, Cadoz and
his coworkers have introduced CORDIS-ANIMA systems, that describe vibrating bodies as a set of
interconnected mass-spring-damper cells. Extremely high computational costs are a major drawback
of this approach. Furthermore, no analytical tools are available for assessing stability properties of the
discretized systems.

7.3 Distributed models: the waveguide approach


This section introduces the basic concepts of waveguide modeling. Discussion is focused on onedimensional resonators. No attention is devoted here to higher dimensional waveguide structures.

7.3.1 The origins: the Karplus-Strong algorithm


We start this section on waveguide models with an example which is relevant from many viewpoints.
First, the Karplus-Strong (KS hereafter) sound synthesis algorithm is a famous one and deserves to
be studied. Second, it contains many of the basic elements that are needed to provide a clear picture
of what waveguide modeling is all about, and yet it is structurally simple enough to be discussed in a
limited amount of pages. Finally, from a historical perspective it can be regarded as the first prototype
of a waveguide approach: it is true that the original formulation of the algorithm did not contain
any physical interpretation. What is unquestionable, however, is that the KS algorithm is structurally
identical to the simplest waveguide models that we are going to examine in the next sections.
7.3.1.1 The comb filter
The basic computational structure underlying the KS algorithm is the comb filter:
y(n) = x(n) + RL y(n L),

H(z) =

1
1 RL z L

(7.1)

The block structure of the filter is given in figure 7.3(a). The poles of H(z) are found from z L = RL .
Therefore the filter has L poles z = Rei2l/L for l = 0, . . . L 1, equally spaced around the circle of
radius R. The corresponding frequency response is given is figure 7.3(b). Note that the filter produces a
harmonic spectrum in which the frequency peaks are integer multiples of the fundamental frequency
0 = 2F s/L rad.
M-7.1
Find the frequency response of the comb filter (7.1) and plot magnitude and phase responses for
various values of R and L.

Figure 7.3(a) already provides us with an intuitive proto-physical interpretation: a perturbation


(a wave, as we shall see) propagates through a medium, is confined within a length L, bounces back

7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH

7.7

25

x(n)

y(n)
RL

Magnitude resp. (dB)

20
15
10
5
0
5
10

z L

15

0.5

(a)

1.5

d (rad)

2.5

(b)

Figure 7.3: A comb filter; (a) block scheme and (b) frequency response.

and forth due to some boundary conditions, has some energy dissipated at each bounce through the
coefficient RL . Note that if the sign of the wave is inverted at each reflection, the resulting filter
spectrum is affected:
y(n) = x(n) RL y(n L),

H(z) =

1
1 + RL z L

(7.2)

In this case the poles are z = Rei(2l+1)/L for l = 0, . . . L 1. This means that the corresponding
frequency peaks have all been shifted by an angle /L with respect to the previous case: now the
frequency peaks are odd integer multiples of the fundamental frequency 0 = F s/L rad. Section 7.3.5 will show that choosing a sign or another corresponds to describing two different boundary
conditions (e.g., an open termination versus a closed termination in an acoustical bore).
7.3.1.2 Refining the structure
The above observations suggest that the comb structure (7.1) may be employed to synthesize harmonic
sounds, such as those produces by a plucked guitar string. However, in order to obtain something
convincing we still have to add some refinements to the structure. Specifically, what it is missing is a
mean to control the spectral tilt of the response and to account for different decay rates for the sound
partials. Figure 7.4 shows the spectrogram of a guitar sound, from which a frequency-dependent
decay pattern can be clearly observed.
In order to account for such a frequency-dependent decay, one can insert a low-pass filter Hlp
into the feedback loop, as shown in figure 7.5(a): intuitively, at each passage the high-frequency
component are attenuated more strongly than low-frequencies component. The simplest low-pass
filter that can be employed is a 1st order FIR:
y(n) =

1
[x(n) + x(n 1)]
2

Hlp (z) =

1
1 + z 1 .
2

(7.3)

The corresponding frequency response is Hlp () = cos(/2)ei/2 , from which two remarks can be
made: first, the low-pass characteristics of this filter is easily recognized by noting that |Hlp ()| =

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.8

4000
3500
3000

f (Hz)

2500
2000
1500
1000
500
0

t (s)

Figure 7.4: . Spectrogram of a plucked A2 guitar string. Note the harmonic structure and the decay
rates, which increases with increasing frequency.

cos(/2). Second, the filter phase shows that Hlp introduces an additional half-sample delay in
the loop. As a consequence, the fundamental frequency generated by this structure is now 0 =
2F s/(L + 1/2) rad. Moreover, a closer analysis would also show that the upper partials are not
anymore integer multiples of 0 = 2F s/(L + 1/2), due to the insertion of Hlp in the loop. These
deviations are however very small, especially for the lower partials and for values of R that are close
to 1. Figure 7.5(a) shows the frequency response of the comb structure after the insertion of Hlp : the
(small) deviations from the harmonic series can also be noticed from this plot.
M-7.2
Find the frequency response of the low-pass filter (7.3). Then find the response of the complete
system given in figure 7.5 and plot magnitude and phase responses for various values of R and L.

The structure depicted so far is the core of the KS algorithm. On final remark concerns the
initial conditions (filter state) to be imposed in order to obtain satisfactory sound output. The choice
originally suggested by Karplus and Strong is that of a random initial excitation: although this choice
has hardly any physical interpretation,2 it has the benefit of providing significant initial excitation in
the high-frequency region, with a consequent perceptual effect of an initial noisy transient followed
by a harmonic steady-state signal.
M-7.3
Implement the KS algorithm: using the structure given in figure 7.5 and the filter found in M-7.2,
write an audio cycle in which the filter is initialized with random excitation and evolves freely. Plot
the signal and its spectrogram.

7.3.2 One-dimensional wave propagation


In order to provide a physical interpretation to the KS algorithm, and to fully understand the waveguide approach, we need to review some fundamentals of sound wave propagation in an ideal elastic
medium. Vibrational phenomena in such a medium are described by the DAlembert equation, whose
2

It would be like imposing initial random displacements to points of a string, as we shall see in the next sections.

7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH

7.9

25

Hlp

x(n)

y(n)

RL

Magnitude resp. (dB)

20
15
10
5
0
5
10
15

z L

0.5

(a)

1.5

d (rad)

2.5

(b)

Figure 7.5: Insertion of a low-pass element into the comb structure; (a) block scheme and (b) frequency response (the triangles mark the harmonic series l/L, l N).

one-dimensional version is written as


2y
1 2y
(x,
t)
=
(x, t).
x2
c2 t2

(7.4)

This equation holds, for instance, in an ideal string of length L, linear mass density and tension T .
In this case the variable x [0, L] stands for position alongp
string length and y stands for transversal
displacement of the string. The constant c has the value T / and has the dimensions m/s of a
velocity. A full derivation of Eq. (7.4) for the ideal string can be found in many textbooks: roughly
speaking, the two main assumptions are that (i) the infinitesimal string segment dx moves only in the
vertical direction, so that its acceleration can be computed using only the transverse component of the
tension as the acting force; and (ii) the amplitude of the vibrations is very small.
7.3.2.1 Traveling wave solution
A fundamental property of Eq. (7.4) is that it describes propagation phenomena. This statement can
by proved by factoring the equation as follows:

+
y = 0.
(7.5)
x c t
x c t
From this factorization it is easily seen that generic solutions take the form
y(x, t) = y + (ct x) + y (ct + x).

(7.6)

The two functions y describe waveforms that translate rigidly with velocity c, in the right-going and
left-going directions, respectively. Their shape is determined by the boundary conditions (in space)
and the initial conditions (in time).
Another general solution to equation (7.4) is found by noting that the complex sinusoids ej(tkx) ,
with k = /c, are particular solutions of the DAlembert equation. Depending on boundary conditions, only certain values are allowed for k (and thus for = kc). For fixed boundaries (i.e.

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.10

r
r

Figure 7.6: Illustration of cylindrical and spherical coordinates.

y(0, t) = y(L, t) = 0) these turn out to be kl = l/L with l N, i.e. the only allowed frequencies form a harmonic series. Then the Fourier theorem tells us that the general solution is a linear
combination of these sinusoids.
A n-dimensional generalization of Eq. (7.4) is found to be
2 y(x, t) =
2

1 2y
(x, t),
c2 t2

(7.7)

where the symbol 2 = x


2 + x2 + . . . + x2 stands for the n-dimensional Laplacian operator. With
n
1
2
n = 2, Eq. (7.7) describes for instance mechanical vibrations in an ideal membrane, while n = 3
is well suited for describing acoustic disturbances in an air volume. In this latter case x represents
Euclidean coordinates in space and y stands for the acoustic pressure p. As opposed to mechanical
vibrations in a string or membrane, acoustic vibrations are longitudinal rather than transversal, i.e.
the air particles are displaced in the same direction of the wave propagation. Again, simplifying
assumptions have been made for deriving Eq. (7.7) in the acoustic case. Namely, disturbances are
considered to be small so that the acoustic pressure p is related to density via a linear relation:
p = B(air )/air , where B is the linearized adiabatic
bulk modulus and air is the air equilibrium
p
density. The constant c is then given the value B/air , and again has the dimensions m/s of a
velocity.

7.3.2.2 One-dimensional propagation


There are interesting cases where acoustic disturbances can be assumed to be one-dimensional up to a
reasonable approximation. Propagation in a cylindrical tube of radius r0 is an example: by exploiting
boundary conditions and symmetries, and looking for harmonic solutions (those with time dependence
exp(jt)), the acoustic pressure can be written in cylindrical coordinates as p(r, , z, t) = exp(jt)
R(r)Z(z) and the equation is separable (see Fig. 7.6 for an illustration of cylindrical coordinates).
This leads to the coupled spatial solutions
R(r) = I0 (r),

Z(z) = ej (k

2 2 1/2 z

(7.8)

where I0 is the Bessel function of the first kind and zero order. The boundary condition on the
cylindrical surface is d/dr[I0 (r0 )] = 0, or equivalently I1 (r0 ) = 0. Therefore, only the values
for which I1 (r0 ) = 0 are allowed. The first allowed value is obviously = 0: this corresponds
to the zero-th order modes with Z(z) = exp(jkz) and R(r) 0, i.e. plane wave propagation

7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH

7.11

along z. The next allowed value corresponds to the first zero of I1 , i.e. r0 = 3.83171. If r0 =
8 103 m (the approximate radius of a clarinet bore), then = 479 m1 and the first corresponding
mode in the z direction has a cutoff frequency fc = c/2 = 26.15 kHz. Only frequencies higher
than fc do propagate, and they are well out of the range of human hearing. Therefore, for audio
applications higher order non-planar modes can be neglected and one-dimensional wave propagation
in the z direction can be conveniently described using Eq. (7.4).
Conical geometries are a second example where one-dimensional propagation can be approximately assumed. Again, by exploiting boundary conditions and symmetries and looking for harmonic
solutions, pressure can be written in spherical coordinates as p(r, , t) = exp(jt) ()R(r) and
the equation is separable (see Fig. 7.6 for an illustration of spherical coordinates). Without going
into details, analysis analogous to that outlined for cylindrical geometries shows that higher-order
modes can also be neglected in this case, and propagation in the r direction is conveniently described with zero-th
operator is expressed in spherical coordinates
2 order modes.
Since the
Laplacian

1
1
2
, the one-dimensional equation for spherical
r r + r2 sin
sin

+
as 2 = r12 r


r 2 sin2 2
wave propagation is

1
1 2R
2 R
(r, t).
r
(r,
t)
=
(7.9)
r2 r
r
c2 t2

Using the substitution R = R/r,


it is easily seen that Eq. (7.9) reduces to the one dimensional
is the sum of two traveling waves R
, and the general
DAlembert equation (7.4). Therefore R
solution for the zero-th order radial modes is
1 +
(ct + r)].
R(r, t) = [R
(ct r) + R
r

(7.10)

7.3.2.3 Wave variables


So far, only displacement y and acoustic pressure p have been considered in the wave equation. However, alternative wave variables can be used in strings and acoustical bores. As an example, the force
acting on a string section dx is defined as
+

y
y
T
T
y
f (x, t) = T
(x, t) = T
(ct x) +
(ct + x) = y + (ct x) y (ct + x).
x
x
x
c
c
Therefore, using this equation force waves f can be defined as f := Tc y . On the other hand,
the transversal velocity wave variable in the same string is given by
v(x, t) =

y
(x, t) = y + (ct x) + y (ct + x).
t

From this, velocity waves v are defined as v := y . The pair of force and velocity variables is
sometimes referred to as Kirchhoff variables, in analogy with voltage and current in electrical systems (Sec. 7.4 provides a detailed discussion of Kirchhoff variables and analogies between electrical,
mechanical and acoustic systems). From the previous equations it immediately follows that
p
f (ct x) = Z0 v (ct x),
with
Z0 = T /c = T .
(7.11)
The quantity Z0 takes the name of wave (or characteristic) impedance of the string, and its reciprocal
0 = Z01 is termed wave admittance. Note that using Z0 both the force f and the velocity v can be

7.12

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

related to the force waves f . Namely, the following relations hold:


f = f + + f ,
f

f + Z0 v
=
,
2

1 +
f f ,
Z0
f Z0 v
=
,
2

v=
f

(7.12)

that transform the pair (f, v) into the pair (f + , f ), and vice versa. Wave impedance can be defined
also in a cylindrical bore. In this case the Kirchhoff variables are taken to be pressure p and flow u
(volume velocity). These can be related through the wave impedance Z0 : p (ct x) = Z0 u (ct
x), where Z0 = air c/S and S is the constant cross-sectional area of the bore. For conical geometries,
the cross-section S is not constant and the definition of Z0 has to be generalized. The wave impedance
is then defined as a function Z0 (s) such that the relations P (r, s) = Z0 (s)U (r, s) hold in the
Laplace domain. It can be seen that Z0 (s) = air c/S [rs/(rs + c)].
Summarizing, this section has shown that vibrational phenomena in many elastic media can be
described as one-dimensional wave propagations. Furthermore, Kirchhoff and wave variables in these
media are related through wave impedance. This results provide the basis for developing 1-D waveguide structures.

7.3.3 Basic waveguide structures


7.3.3.1 Delay lines
Waveguide models exploit the existence of the solution (7.6) to the DAlembert equation and discretize
this solution instead of the differential equation itself. This remark explains to a large extent why
waveguide structures are much more efficient than finite difference methods in simulating vibrations
of elastic media, at least in the 1-D case.
Consider a pressure distribution p = p+ + p inside an ideal lossless cylindrical bore. If Ts is
the sampling period, a suitable choice for the spatial sampling step is Xs = cTs . Thus, a discretized
version of p is obtained through the variable substitution x 7 mXs and t 7 nTs (with m, n N),
and leads to
p(mXs , nTs ) = p+ (ncTs mXs ) + p (ncTs + mXs ) = p+ [(n m)cTs ] + p [(n + m)cTs ].
Removing the constant sampling steps yields:
p(m, n) = p+ (n m) + p (n + m).

(7.13)

The term p+ (n m) in Eq. (7.13) can be thought of as the output from a digital delay line of length
m, whose input is p+ (n). Analogously, the term p (n + m) can be thought of as the input of a
digital delay line with the same lenght, whose output is p (n). This remark leads to the definition of
a waveguide section as a bidirectional delay line, as depicted in Fig. 7.7(a). Note that the horizontal
direction of this structure has a straightforward physical interpretation: it corresponds to the position
x along the axis of the cylindrical bore. In the example depicted in Fig. 7.7, two observation points
have been chosen at x = 0 and x = mXs = L. At these points, the pressure signal at time n
is reconstructed by summing the corresponding pressure waves p . A very similar structure can be
outlined for numerically simulating a pressure distribution in an ideal lossless conical bore. In this
case, propagation is described by the one-dimensional equation (7.9), whose general solution is given
by Eq. (7.10). The conical waveguide is therefore defined as in Fig. 7.7(b). Observation points can be
chosen analogously to the cylindrical case.

7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH

p+(n)

7.13

p+(n-m)
z-m
p (0,n)

p (m,n)

z-m
L

p- (n)

p- (n+m)
(a)

z-m
p (0,n)

p (m,n)

r o-1

ro

(L+r o ) -1
z-m

(b)

Figure 7.7: Lossless waveguide sections with observation points at position x = 0 and x = mXs = L;
(a) cylindrical section; (b) conical section.

7.3.3.2 Boundary conditions


Looking at figure 7.7 we immediately realize that we still need a final step in order to come out
with a computational structure that describes e.g. a string with fixed ends or a cylindrical section
with open ends: boundary conditions. Ideal conditions can be immediately derived by observing
equation (7.12). Take as an example a string of length L with fixed end: these boundary conditions
mean that v(0) = v(L) = 0, from which the reflection rules f + (0) = f (0) and f (L) = f + (L)
are derived.3
Analogously, take a cylindrical bore of length L, with a closed end at x = 0 and an open end at
x = L: the first condition implies u(0) = 0 (no flow through a closed end), which in turn implies the
reflection condition p (0) = p (0); the second one implies p(L) = 0 (p matches the atmospheric
pressure at the open boundary), which in turn implies the reflection condition p (L) = p+ (L).

M-7.4
Write the WG filter of a string of length L (in meters), using a sample rate Fs = 44.1 kHz. Assume
the string is fixed at both ends.
3

Now go back to figure 7.3(b): the comb filter can be viewed as a pair of waveguide sections of length L/2 samples,
with reflection rules that correspond to fixed end conditions.

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.14

7.3.4 Modeling real world phenomena


As already mentioned, the waveguide structures introduced above describe ideal systems, i.e. ideally
elastic media, where the DAlembert equation (7.4) or its spherical version (7.9) hold. Real systems
exhibit more complex behaviors.
7.3.4.1 Dissipation
Energy dissipation occurs in any real vibrating medium. In an acoustical bore this is due to air
viscosity, thermal conduction and wall losses. Dissipation in a string comes from internal losses
related to elastic properties of the material, energy transfer through terminations, and friction with
air. For clarity, consider the pressure distribution in a cylindrical bore. In the simplest approximation,
all of the dissipation phenomena can be incorporated in the DAlembert equation by including an
additional term proportional to the first time derivative:
2
2p
p
2 p
(x,
t)
=
c
(x, t)
(x, t).
2
2
t
x
t

(7.14)

In the limit of small , Eq. (7.14) still admits a traveling wave solution, which can be digitized with
the same procedure described in the ideal case:
x

p(x, t) = e 2c p+ (ct x) + e 2c p (ct + x),

then
(7.15)

p(m, n) =

g m p+ (n

m) +

g m p (n

+ m),

with

T2s

g=e

< 1.

Thus the traveling waves are exponentially damped along the propagation direction, and this phenomenon can be easily incorporated in the waveguide structure. This is shown in Fig. 7.8(a), where
losses have been consolidated, or lumped, in a single multiplier cascaded to the delay line. The loss
factor g m summarizes the distributed losses occurring in the spatial interval [0, mXs ]. In most of real
phenomena, however, losses increase with frequency. A better approximation of dissipation phenomena can account for this frequency dependence by substituting the constant factor g with a lowpass
filter G(z). Moreover, in order to avoid frequency dependent delay, G(z) must be a zero-phase FIR
filter. Alternatively, a linear-phase filter can be used; in this case the length of the delay line has to be
reduced correspondingly, in order to obtain the desired overall delay.4
M-7.5
Add loss factors g and a low-pass dissipation filter to the WG filter of a string developed in M-7.4
(use e.g. the low-pass FIR (7.3)). Study the frequency response of this system.

7.3.4.2 Dispersion
A second important phenomenon in natural wave propagation is that of dispersion. In a string, dispersion is introduced by string stiffness. This is usually modeled in the DAlembert equation (7.4) by
introducing an additional term proportional to the fourth spatial derivative:
2p
4p
1 2p
(x,
t)
=
(x,
t)

(x, t),
c2 t2
x2
4x

(7.16)

Now go back to figures 7.3(b) and 7.5(b): the parameter RL plays the role of the loss factor g m , while the linear-phase
FIR filter Hlp plays the role of G(z) and introduces frequency-dependent dissipation.
4

7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH

7.15

where the dispersive correction term is proportional to the string Youngs modulus. If is small, its
first order effect is to increase the wave propagation speed with frequency:

2
c() = c0 1 + 2 ,
2c0

(7.17)

where c0 is now the wave travel velocity in the absence of dispersion. Equation (7.17) states that
a traveling wave is no longer a rigid shape that translate at constant speed. Instead, frequencies
disperse as they propagate with different velocities. As a consequence, the frequencies k of the
allowed partials are not harmonic, instead they are stretched onto an inharmonic series according to
the equation
p
k = k0 Ik , where Ik 1 + Bk 2 ,

and where B = 2 /L2 . The quantity Ik is usually termed index of inharmonicity. Dispersion is
particularly important in piano strings, where the lower tones exhibit significant inharmonicity.
Having a non-uniform wave velocity c() implies that it is not possible to define a sampling step
as Xs = c0 Ts . Instead, it can be said that a component with frequency travels a distance c0 Ts in
the time interval c0 Ts /c(). As a consequence, the unitary delay z 1 has to be substituted with the
all-pass filter Ha (z) = z c0 /c() , which has a unitary magnitude response but non-constant phase
delay. Similarly to dissipative low-pass filters, m all-pass delays can be lumped in a single filter Ham .
Moreover, the linear and non-linear parts of the phase response can be treated separately. Ham can
thus be written as Ham (z) = z m HA (z), where HA (z) is another all-pass filter approximating the
non-linear part of the phase response. In summary, a dispersive resonator is modeled as in Fig. 7.8(b).

7.3.4.3 Length tuning


One last improvement to the basic waveguide structure of Fig. 7.7 is provided by fractional delay lines.
It is easily verified that with a sampling rate Fs = 44.1 kHz and with a wave velocity c = 347 m/s
(sound velocity in air at 20 C ), the resulting spatial step is Xs = 7.8 103 m. This distance produces
perceivable pitch variations in a wind instrument. It is therefore necessary to design fractional delays
in order to provide fine tuning of the length of a waveguide section. Without going into details, this can
be ideally achieved by including an additional filter in the structure, with flat magnitude response (that
does not affect the overall magnitude response of the waveguide structure) and linear phase response
(that adds the desired fractional delay). Both interpolation filters (FIR) and all-pass filters (IIR) can
be used for approximating such characteristics.

7.3.5 Junctions and networks


The last section has introduced the main concepts of waveguide modeling for a signal propagating in
a uniform medium. When discontinuities are encountered, the wave impedance changes and signal
scattering occurs, i.e. a traveling wave is partially reflected and partially transmitted. Examples of
non-uniform media are a cylindrical bore where the cross-sectional area changes abruptly, or a string
where the value of the linear mass density jumps changes discontinuously. In order to model these
discontinuities, appropriate junctions have to be developed, that connect two (or more) waveguide
sections. The boundary reflection conditions that we have examined at the end of section 7.3.3 can be
regarded as special cases of junctions, as discussed in the following paragraphs.

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.16

p+(n)
z-m

gm

p (0,n)

p (m,n)

z-m
p- (n)

gm

(a)

p+(n)

HA

z-m

p (m,n)

p (0,n)

HA

z-m

p- (n)

(b)

Figure 7.8: Waveguide simulation of non-ideal media; (a) frequency independent dissipation; (b)
dispersion.

7.3.5.1 The Kelly-Lochbaum junction


1
Consider two cylindrical bores, with cross-sectional areas S1,2 and wave admittances 1,2 = Z1,2
=
S1,2 /air c, connected to each other. Analysis of this problem leads to the derivation of the well
known Kelly-Lochbaum junction. First of all, physical constraints have to be imposed on the Kirchhoff
variables p, u at the junction, namely pressures p1,2 must have the same value pJ and the flows u1,2
from the two sides must sum to zero:

u1 + u2 = 0,

p1 = p2 = pJ .

(7.18)

Using the Kirchhoff analogy p v (voltage) and u i (current), Eqs. (7.18) can be regarded as
describing a parallel junction. If pressure wave variables are introduced as in Eq. (7.12) (with p+ and
p denoting incoming and outgoing waves, respectively), and the junction pressure pJ is used, then
+
the relation p
l = pJ pl (for l = 1, 2) holds. Substitution in the first of Eqs. (7.18) yields

0 = (u+
1 + u1 ) + (u2 + u2 ) = 1 (p1 p1 ) + 2 (p2 p2 ) =
+
= 1 (2p+
1 pJ ) + 2 (2p2 pJ ).

From this, the junction pressure pJ can be expressed in terms of the incoming pressure waves p+
1,2 as
pJ = 2

+
1 p+
1 + 2 p2
.
1 + 2

7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH

7.17
-

p+

p2

1+

p1

p2

Figure 7.9: Kelly-Lochbaum junction for two cylindrical bores with different areas.

Using this latter expression, the outgoing pressure waves p


1,2 can be written as
p
= pJ p+
1
1 =

22
2 1 +
p +
p+ ,
2 + 1 1
2 + 1 2
(7.19)

p
=
2

21
2 1 +
pJ p+
p+
p .
2 =
1 +
2 + 1
2 + 1 2

If the reflection coefficient is defined as


:=

2 1
,
2 + 1

then Eqs. (7.19) become


+
p
= p+
1
1 + (1 + )p2 ,

+
+
p2 = (1 )p1 + p2 .

(7.20)

These equations describe the Kelly-Lochbaum junction. A scattering diagram is depicted in Fig. 7.9.
This junction has been extensively used in what are often termed multitube lossless models of
the vocal tract. These are basically articulatory models where the vocal tract shape is approximated
as a series of concatenated cylindrical sections. Pressure wave propagation in each section is then
described using digital waveguides, and interconnections are treated as Kelly-Lochbaum junctions.
Remarkably, the same junction can be used to describe not only acoustic, but also mechanical structures. As an example, consider two strings with different densities, connected at one point: this can be
thought of as a series junction, since the physical constraints impose that velocity (i.e., current) has
to be the same on the left and right sides, and the sum of forces (i.e., voltages) from the two sides
must be zero. Analogously to the above analysis, a series Kelly-Lochbaum junction can be derived in
this case.
Terminations of a waveguide model are an interesting particular case of junctions. Consider an
ideal cylindrical bore, closed at one end: this boundary condition corresponds to an infinite impedance
Z2 = (i.e., S2 = 0), and thus to a reflection coefficient = 1. In other words, complete
+
reflection occurs and the relation p
1 (0, t) = p1 (0, t) holds. Similarly, an ideally open end can be
seen to correspond to Z2 = 0 (i.e., S2 = ), and thus to = 1: this is a second case where complete
+
reflection occurs, namely the relation p
1 (0, t) = p1 (0, t) holds. These reflection conditions are

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.18

open

closed

z - m1

p+1

p- 2

z - m2

-1

z - m1
L1

z - m2
p- 1

L2

p+2

Figure 7.10: Example of an acoustic model implemented with waveguide sections an junctions.

identical to the ones that we have derived in section 7.3.3 (analogous considerations hold for string
terminations).
Figure 7.10 shows an example where different junctions have been used and combined into a
waveguide model. Note that in this example the scattering junction between the two cylindrical sections is not in the Kelly-Lochbaum form; instead, a one-multiply scattering junction is used, which
allows more efficient implementation of Eqs. (7.20). Open- and closed-tube terminations are modeled
according to the above remarks.
M-7.6
Realize the structure of figure 7.10. Add loss factors g and a low-pass dissipation filter to each WG
section, as done in M-7.5. Study the frequency response of this system.

7.3.5.2 N-dimensional junctions


The result expressed in Eq. (7.20) can be easily extended to higher dimensions. Consider parallel
junction of N acoustical bores. In this case a scattering matrix can be found, and Eq. (7.20) is
generalized to
p = A p+ ,
(7.21)
where p are n-dimensional vectors whose elements are the incoming and outgoing pressure waves
in the n bores. The physical constraints expressed in Eq. (7.18) are also generalized in an obvious
way, and calculations analogous to those outlined for the Kelly-Lochbaum junction lead to the result

2
2N
22
1

1,
,

J
J

N
X

21
2N
22

1,

l .
where J =
(7.22)
A=
J
J
J
,
..
..

..
l=1
.

.
.
21
J ,

22
J ,

2N
J

Note that when N = 2 Eq. (7.21) reduces to the Kelly-Lochbaum equations.


7.3.5.3 Non-cylindrical geometries
A final remark is concerned with junctions of conical elements. Generalizing the cylindrical case
is not straightforward, since the derivation of Kelly-Lochbaum equations is based on the implicit
assumption of plane wave propagation. This assumption permits imposition of the constraints (7.18)

7.4. LUMPED MODELS

7.19

Transition
volume

S1

S2

S2

(a)

S1

(b)

Figure 7.11: Boundary regions for (a) non-convex and (b) convex conical junctions.

on a flat scattering boundary, which is a wavefront for both p1 and p2 . But wavefronts in conical
sections are spherical and this circumstance makes it impossible to define a unique surface on which
boundary conditions can be applied: Fig. 7.11(a) shows that there is a region between the two spherical
wavefronts which is within neither conical segment. This ambiguity in the definition of the scattering
boundary is usually overcome by assuming that the transition volume is small and thus pressure is
constant inside the volume. Under this assumption, continuity conditions analogous to (7.18) are
imposed and the reflection coefficient is generalized to a first order filter R(s).
However, a second and more serious problem arises when one looks at the nature of R(s). This
filter turns out to be unstable (non-causal growing exponential) in the case of the convex configuration
depicted in Fig. 7.11(b). While this circumstance is physically consistent (in the continuous-time
domain the scattered waves can grow exponentially only for a limited time because they are cancelled
out by subsequent multiple reflections), in a numerical simulation the system can turn out unstable,
due to the approximations introduced by the discretization process and to round-off errors introduced
by finite-precision.

7.4 Lumped models


7.4.1 Building blocks and analogies
In a large class of systems it is possible to construct pairs of variables (hereafter defined as Kirchoff
variables) with the property that their product has the dimensions of power (Kg m2 /s3 ). In electrical systems such a pair of variables is given by (v, i), voltage and current. Integro-differential
relations can be found that relate these two variables, in particular three elementary relations define
the fundamental quantities resistance R, inductance L and capacitance C. In the Laplace domain, the
integro-differential equations are turned into simple algebraic relations:
V (s) = R I(s),

V (s) = sL I(s),

V (s) =

1
I(s).
sC

(7.23)

These are particular examples of a more general relation in linear electric circuits:
V (s) = Z(s)I(s),

(7.24)

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.20

where the quantity Z(s) is called impedance of the circuit and is defined as the ratio between the
Laplace transforms of voltage and current intensity. The inverse of Z(s) is called admittance, and it
is usually denoted as (s) = Z(s)1 .

7.4.1.1 Mechanical systems


An pair of variables analogous to voltage and current are found in mechanical systems: force f
(Kg m/s2 ) and velocity v (m/s) satisfy the same condition of voltage and current, i.e. their product
is a power. Therefore, f and v are taken as mechanical Kirchhoff variables. Again, the ratio of
these two variables in the Laplace domain is defined as (mechanical) impedance, and its inverse is the
(mechanical) admittance. Using three notable relations between f and v, it is possible to introduce
mechanical equivalents of resistance, capacitance and inductance.
The simplest relation is direct proportionality: f (t) = rv(t). This is used to define ideal linear
viscous forces, and comparison with the first of Eqs. (7.23) permits r to be regarded as a mechanical
resistance. Newtons second law of classical dynamics provides a second relation: the inertial mass m
of a non-relativistic body is defined as the ratio between the total force acting on it and its acceleration,
i.e. f (t) = ma(t) = mv(t).

In the Laplace domain this is turned into F (s) = msV (s), and from
comparison with the second equation in (7.23) m is seen to be equivalent to an inductance. Finally,
Hookes law provide an analogy to electrical capacitance: in an ideal
R t linear spring the elastic force
is proportional to the elongation of the spring: f (t) = kx(t) = k 0 v( )d . Again, in the Laplace
domain this is turned into F (s) = k/s V (s), and comparison with the third of Eqs. (7.23) shows that
the stiffness constant k of the spring corresponds to the reciprocal of a capacitance. Summarizing, the
analogies between mechanical and electrical elements are as follows:
F (s) = r V (s),

k
V (s),
s

F (s) =

r R,

F (s) = ms V (s),

1
C,
k

(7.25)

m L.

Figure 7.12(a) shows the simplest example of a series junction between these mechanical elements: a mass attached to an ideal linear spring and driven by an external force. The systems
dynamics are described by the equation
m
x(t) = kx(t) + f (t),

F (s) =

k
ms +
s

V (s).

(7.26)

The second equation (7.26) shows that the aggregate impedance Z(s) of the system is the sum of the
two elementary impedances Z1 (s) = ms and Z2 (s) = k/s.
The above discussion is the starting point for developing one-port network theory for mechanical
systems. The one port is defined as a black-box with a single pair of input/output terminals, as in
Fig. 7.12(b). A force is applied at the terminals, analogously to an electrical potential, and velocity
flows as electrical current. Instantaneous power and energy can be defined and used to characterize
passive and lossless one-ports. Connections through ports can be made using Kirchhoffs Laws, so
that series and parallel junctions are defined analogously to circuit theory. In circuit theory terminology, the two one-ports in Fig. 7.12(b) share a common velocity, thus they are connected in series.

7.4. LUMPED MODELS

7.21

F(s)
+

(s)=1/ms
1

f(t)

V(s)
+

(s)=s/k
2

x
(a)

(b)

Figure 7.12: A mass pulled by a linear spring; (a) mechanical system and (b) combination of one-ports
in series.

7.4.1.2 Acoustic systems


Acoustic systems can also be described in terms of lumped elements only, in certain situations. In
particular, when the dimensions of an acoustical element are much less than the sound wavelength,
then the acoustical pressure, p can be assumed constant. In this case, the acoustic behavior of the
element is, at least at low frequencies, very simple. Note that the acoustic pressure p (Kg/ms2 ) and
the volume velocity u (m3 /s) are such that their product is a power, and can therefore be used as a pair
of Kirchhoff variables.
Resistive phenomena are observed during the passage of acoustic airflow through a small opening.
In this case the flow behavior is dominated by viscous and thermal losses and it is reasonably assumed
to be in phase with the acoustic pressure, therefore the relation p(t) = Ru(t) holds at the opening
where the constant R is termed fluid-dynamic resistance. Fluid-dynamic inductance is defined in a
short, open tube having cross-sectional area S and length L. The air mass inside the bore is then
m = air SL (air being the air density). Suppose that an acoustic pressure p(t) is applied to one end
of the tube; then the enclosed air behaves like a lumped mass driven by the force Sp, and Newtons
law implies
air L
Sp(t) = air SL v(t),

P (s) =
sU (s),
S
where the relation u(t) = Sv(t) has been used, and v(t) indicates particle velocity. Finally, capacitance is associated with air volumes. Consider the volume V (t) of air inside a cavity; the contraction
dV (t) caused by an acoustic pressure p(t) is such that air c2 dV /V = p, where air c2 is the
bulk modulus of air at atmospheric pressure. As a consequence, a new air volume dV can enter the
cavity. By definition, this equals the integral of u(t) over time, therefore
Z t
V
air c2
dV (t) =
u(t )dt =
p(t),

P (s) =
U (s).
2
air c
Vs
0
Comparison of this relation with the last of Eqs. (7.23) is then straightforward: it is immediately seen
that the quantity air c2 /V s is the acoustical equivalent of a capacitive impedance.

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.22

Ls/S

S
u, p

V, p

c 2/Vs

L
(a)

(b)

Figure 7.13: A Helmholtz resonator driven by an external acoustic wave; (a) acoustic system and (b)
circuit representation.

Electrical

Mechanical

Acoustical

Current i (A)

Velocity v (m/s)

Flow u (m3 /s)

Voltage v (V)

Force f (N)

Pressure p (Pa)

(Resistance) R
(Capacitance)
(Inductance)

1
sC

s
L

(Damping) r

Kgm2
s

(Spring)

k
s

(Mass) m s

(Opening) R

Kg
s

(Cavity)
(Bore)

air c2
Vs

Kg
m4 s

air Ls
S

Table 7.1: Summary of analogies in electrical, mechanical and acoustical systems.


Analogously to the mechanical case, simple acoustic systems can be described as combinations of
these elementary impedances. Consider a Helmholtz resonator driven by an external sound wave, as
in Fig. 7.13(a). Both the inductive impedance associated with the tube and the resistance associated
with the opening impede the same flow u, and are therefore in series. This flow u enters the cavity, so
that the capacitance associated with the volume is in series with the other two. The resulting acoustic
circuit is depicted in Fig. 7.13(b).
Table 7.1 summarizes the main analogies between electrical, mechanical, and acoustic systems,
that we have discussed throughout this section.
7.4.1.3 Non-linearities
As mentioned previously, musical oscillators are typically non-linear: non-linearities must be present
for a system to reach stable self-sustained oscillations, as in the case of persistently excited instruments
(e.g., winds and strings). Non-linear elements may also be present in other systems in order to account

7.4. LUMPED MODELS

7.23

11

10

1.6

x 10

x 10

nonlinear
linearized

25
1.4

20

1.2

15

q [C]

C [F]

0.8

10

0.6

0.4

0.2

10

12

10

12

v [V]

v [V]

(a)

(b)

Figure 7.14: Non-linear behavior of (a) capacitance C(v) and (b) charge q(v) in the Chua-Felderhoff
circuit.

for accurate modeling of interaction mechanisms. As an example, collisions between lumped masses
are often described through a non-linear contact force.
The previous section has outlined the formal analogies between linear mechanical and electrical
systems. It is possible to extend the analogy to the non-linear case. Consider the well known ChuaFelderhoff electrical circuit: this is a RLC circuit, made of a series connection of a resistor R, an
inductor L and a capacitor C. The elements R and L are constant, while this is not the case for C.
More precisely, the characteristic of the capacitance is a function of the voltage v, so that the system
is described as follows:
1
v(q) =
2v0 C0

q
2
2
2
q + q q + 4C0 v0 ,
2

v(q) + Rq(t)
+ L
q (t) = ve (t),

C(v) = r

C0
v
1+
v0

,
(7.27)

(v > v0 ).

The variable q(t) stands for the charge on the capacitor, and ve (t) is an applied voltage. It is easily
verified that C(v) C0 when v 0, i.e. the system is a linear RLC circuit in the limit of small
oscillations. However, for larger voltage v this approximation does not hold, and C(v), q(v) behave
as depicted in Fig. 7.14(a) and (b), respectively. Note that there is no easy way to translate the nonlinear relation (7.27) into the Laplace domain, because the definition of impedance given in Sec. 7.4.1
assumes linearity of the circuit elements. The Chua-Felderhoff circuit has been extensively studied
and is one of the classical systems used for exemplifying transition to chaotic behavior: when the
peak of the voltage generator is increased, the behavior of the charge q(t) on the capacitor undergoes
successive bifurcations.
The Chua-Felderhoff circuit finds some analogous counterparts in mechanical and acoustic systems. An example of non-linear elements is provided by an idealized contact model. In this model the

7.24

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

contact restoring force is a non-linear5 elastic force of the form

f (x(t)) =

kx(t) ,

0,

x > 0,

(7.28)

x 0,

where x is the penetration and k is an elastic constant. This model has been used for describing the
compression characteristics of a piano hammer felt. The exponent depends on the local geometry
around the contact surface and typically takes values higher than 1. If the hammer is regarded as a
lumped mass m and linear dissipation r is taken into account, then the complete model is described
by the equation of motion
m
x(t) + rx(t)
+ kx(t) = fext (t),
(7.29)
where fext is any external force acting on the hammer. This is formally identical to Eq. (7.27): the
non-linear hammer is a series connection of a mechanical resistance r and inductance m with a nonlinear capacitance. One obvious structural difference with the Chua-Felderhoff circuit is given by the
different shape of the non-linearities.

7.4.2 Modal synthesis


7.4.2.1 The second-order mechanical oscillator
The simplest possible resonating mechanical system that we can obtain using the lumped elements
described in the last section is a second-order linear oscillator of the form
h
i2
x
(r) (t) + g (r) x (r) (t) + (r) x(r) (t) =

1
fext (t),
m(r)

(7.30)

where x(r) is the oscillator displacement and fext represents any external driving force, while the
parameters (r) = k/m(r) and g (r) = r/m(r) are the oscillator center frequency and damping coefficient, respectively. With the analogies introduced in section 7.4.1, one can think of Eq. (7.30) as a
series connection of the impedances m, r, k.
The resonating properties of such a one-dimensional model are summarized by its pitch (r) and
quality factor q (r) = (r) /g (r) . The parameter g (r) relates to the decay properties of the impulse
response of system (7.30): specifically, the relation te = 2/g (r) holds, where te is the 1/e decay time
of the impulse response.
M-7.7
Find the transfer function H(s) between the driving force Fext (s) (input) and the displacement X(s)
(output) in equation (7.30). Study the frequency response and the impulse response.

If we want to produce more realistic and spectrally-rich sounds, a slightly more sophisticated
model is obtained by parallel connection of N oscillators such as that of equation (7.30). By choosing
(r)
a different center frequency l (l = 1 . . . N ) for each oscillator, it is possible to account for a set
(r)
{l }N
l=1 of partials of the resonator spectrum. A set of N decoupled modal resonators excited by
5

Note that the non-linear nature of Eq.(7.28) comes not only from the exponent , but also from the conditional
formulations for x > 0 and x > 0. In other words, f is non-linear even when = 1.

7.4. LUMPED MODELS

7.25

the same external force can be described by means of a multivariable generalization of Eq. (7.30). In
matrix form, this can be written as

(r)

(r)
(r)
x1 (t)
x 1 (t)
x
1 (t)

(r) 2

..
..
..
(7.31)
= m(r) fext (t),
+

+ G(r)

.
.
.
(r)
(r)
(r)
xN (t)
x N (t)
x
N (t)
where the matrices are given by

(r) =

(r)

0
..

.
(r)

G(r) =

(r)

g1

0
..

.
(r)

gN

(r)

1/m1

..
(
r
)
m =
.

(r)

1/mN

. (7.32)

7.4.2.2 The modal description


When a distributed resonating object is modeled as a chain of N masses connected with springs
and dampers, the resulting system is composed of N coupled equations. However, the theory of
modal analysis shows that it is generally possible find a transformation matrix T = {tjl }N
j,l=1 which
diagonalizes the system and turns it into a set of decoupled equations. The transformed variables
(r)
{xl }N
l=1 are generally referred to as modal displacements. The displacement xj and velocity vj of
the resonating object at a given point j = 1 . . . N are then given by
xj =

N
X
l=1

(r)

tjl xl

and

x j =

N
X

(r)

tjl x l

(7.33)

l=1

The modal description given by Eqs. (7.31), (7.33) provides a high degree of controllability. The
(r)
damping coefficients gl control the decay times of each exponentially-decaying mode of the res(r)
onator. The frequencies l can be chosen to reproduce spectra corresponding to various geometries
of one-, two- and three-dimensional resonators. As an example, the first N resonances of a cavity can
be mapped into the modal frequencies of the N oscillators, and morphing between different shapes
can be obtained by designing appropriate trajectories for each of these resonances.
(r)
In this context the quantities ml are often referred to as modal masses, while the quantities
(r)
1/ml are referred to as modal weights. Note that by allowing the modal masses to vary for each
oscillator, the matrix m(r) can be generalized to give control on the amounts of energy provided to
each oscillator. This permits simulation of position-dependent interaction, in that different interaction
points excite the resonator modes in different ways.
Figure 7.15 shows a membrane which is displaced from its rest position in such a way that only
one single mode is set into vibration. The distance of each point of the membrane from the rest plane
is proportional to the weighting factor 1/m(r) of the mode at this position. Note that the intersections
of the modeshape with the rest plane (i.e., the nodal lines) remain fixed during the entire cycle of the
modal vibration. Therefore, the modal weights at these positions are 0 (equivalently, the modal masses
tend to infinity). Correspondingly, an external force applied at these node lines does not excite the
(r)
mode at all. In order for the resonator model (7.31) to account for such a situation, the weights 1/ml
must be made position-dependent. In other words, the (N 1) matrix m(r) must be generalized by
defining a (N N ) matrix M (r) , whose element (l, j) is the modal weight of mode l at interaction
point j.

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.26

(1,1)

(1,2)

(a)

(b)

Figure 7.15: A circular membrane displaced from its rest position according to the spatial shape of
mode(1,1) (left) and mode(1,2) (right).
In the case of a system of N point masses with linear interaction forces, modal parameters are
exactly found through standard matrix calculations. Most systems of interest of course do not fit
these assumptions. In some cases the differential equations of distributed systems can be solved
analytically, giving the modal parameters; this holds for several symmetrical problems as circular or
rectangular membranes. Alternatively, either accurate numerical simulations (e.g. wave-guide mesh
methods) or real physical measurements can be used. Impulse responses computed (or recorded)
at various interaction points then form a basis for the extraction of modal parameters. The acoustic
robustness of the modal description allows convincing approximations on the basis of microphonerecorded signals of e.g. an object struck at different points, despite all the involved inaccuracies:
spatially distributed interaction, as well as wave distribution through air, provide signals that are quite
far from impulse/frequency responses at single points.

7.4.3 Numerical methods


Unlike waveguide structures, the lumped models described so far are developed in the continuous-time
domain, and are in general described through sets of ODEs. In order to be implemented as numerical
algorithms for sound synthesis, the differential equations have to be discretized in an efficient and
effective manner. In most cases, a trade-off has to be found between accuracy of the discretization
technique and efficiency of the resulting algorithms.
7.4.3.1 Impulse invariant method
When dealing with linear systems, such as the lumped elements of Sec. 7.4.1, the most elementary numerical technique is sampling. Given the admittance (s) of a linear system (in a mechanical lumped
system, this corresponds to defining the input as the driving force and the output as the resulting velocity), its inverse Laplace transform (t) is the continuous-time impulse response. The linear system

7.4. LUMPED MODELS

7.27

can thus be digitized by defining the discrete response as d (n) := Ts (nTs ), i.e. by sampling (t).
This technique is widely used in the context of digital filter design, and it is usually termed the Impulse
Invariant Method. One quality of the method is that stability is guaranteed at any sampling rate: if
pc is a pole of the continuous-time response, the corresponding pole of the discrete-time response is
given by pd = epc Ts . This implies that if Re(pc ) < 0, then |pd | < 1, i.e. the discrete-time pole lies
inside the unit circle. On the other hand, a drawback of the method is aliasing. It is known that the
discrete-time response d is obtained as a periodization of the continuous one:
j

d (e ) =

+
X

k=

2k
j
+j
Ts
Ts

(7.34)

As a consequence, any whose bandwidth is wider than Fs /2 introduces spurious components in


d .
7.4.3.2 Mappings s-to-z
An approach alternative to sampling amounts to replacing time derivatives with finite differences,
thus turning the differential equations directly into difference equations. Since in the Laplace domain
the derivation operator is turned to a multiplication by s, and since in the Z domain the unit delay is
turned into a multiplication by z 1 , approximating derivatives with finite differences corresponds in
the frequency domain to finding appropriate s-to-z mappings. Let s = g(z) be such a mapping, then
the discrete-time response is found as d (z) = (g(z)).
The simplest possible mapping is obtained by replacing the derivative with an incremental ratio.
Let x(t) be a smooth function of time, then
x(tn ) x(tn h)
x(tn ) x(tn1 )
d
:= t x(n),
x(tn ) := lim

h0+
dt
h
Ts
1 z 1

s
:= g1 (z).
Ts

(7.35)

where tn = nTs . The mapping g1 (z) is known in numerical analysis as the backward Euler method.
The adjective backward is used because the first derivative of x at time n is estimated through
the values of x at time n and n 1. Note that the method is implicit, since it turns a generic
first-order differential equation x(t)

= f (x(t), t) into a difference equation of the form x(n) =


fd (x(n), x(n 1), n), in which x(n) depends implicitly on itself through fd . Higher-order derivatives can be estimated through iterate application of Eq. (7.35). The second derivative is computed
as
d2
x(tn ) 2x(tn1 ) + x(tn2 )
1
(7.36)
[t x(n) t x(n 1)] =
x(tn )
.
2
dt
Ts
Ts2
M-7.8
Take the mechanical oscillator (7.30) and discretize it with the Euler method g1 (z). Study the frequency response and the impulse response, compare them with those found in M-7.7.

A centered estimate is also often used in combination with the backward Euler method. In this
case the second derivative is computed as:
x(tn+1 ) 2x(tn ) + x(tn1 )
d2
x(tn )
.
2
dt
Ts2

(7.37)

7.28

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

One can verify that using this estimate on a second-order ODE leads to an explicit difference equation.
A second, widely used s-to-z mapping is provided by the bilinear transform. Like the backward
Euler method, it can be seen as a finite approximation of the time derivative, but in this case the
incremental ratio is assumed to approximate the mean value of x at time instants tn and tn1 :
x(tn ) x(tn1 )
x(t
n ) + x(t
n1 )

,
Ts
2
1 z 1
:= g2 (z).

s 2Fs
1 + z 1

(7.38)

The mapping g2 (z) is known in numerical analysis as the one-step Adams-Moulton method. Like the
backward Euler method, it is implicit.
M-7.9
Take the mechanical oscillator (7.30) and discretize it with the bilinear transform g2 (z). Study the
frequency response and the impulse response, compare them with those found in M-7.7 and M-7.8.

7.4.3.3 Accuracy, stability


A comparison between the first estimate in Eq. (7.38) and the first in Eq. (7.35), gives the intuition
that the bilinear transform provides a more accurate approximation than the Euler method. A rigorous
analysis would show that the order of accuracy of the bilinear transform is two, while that of the
backward Euler method is one.
Another way of comparing the two techniques consists in studying how the frequency axis s = j
and the left-half plane Im(s) < 0 are mapped by g1,2 into the discrete domain. This gives information
on the stability and accuracy properties of g1,2 . Figure 7.16 provides an illustration, from which two
remarks can be made. First, both the methods define one-to-one mappings from s = j, onto the two
circles plotted in Fig. 7.16 (solid lines): therefore no frequency aliasing is introduced. Second, both
the methods are stable, since the left-half s-plane is mapped inside the unit circle by both g1 and g2 .
However we also see that both the mappings introduce frequency warping, i.e. the frequency axis
is distorted. One can verify that the bilinear transform g2 maps the s = j axis exactly onto the unit
circle z = ejd , and the direct mapping d = 2 arctan() can be defined between the continuous
frequencies and the discrete frequencies d . At low frequencies, d increases almost linearly with
, while higher frequencies are progressively compressed (warped) and the Nyquist frequency Fs is
mapped to the point z = 1. Warping is the main drawback of the bilinear transform.
The Euler method maps the s = j axis onto the circle of radius 1/2 centered at z = 1/2.
Therefore no direct mapping is found from to d . The function g1 can be said to doubly warp
the frequency axis: there is a progressive warping in the direction of increasing frequency (similarly
to the bilinear transform), but there is also warping normal to the frequency axis. As far as stability
is concerned, Fig. 7.16 shows that the poles of the discrete-time system obtained with g1 are more
squeezed inside the unit circle than the ones obtained with g2 . Furthermore, it can happen that
continuous-time poles with positive real-part are turned by g1 into discrete-time poles with modulus
less than unity: in other words g1 can turn unstable continuous systems into stable discrete systems.
This numerical damping is a second major drawback of the Euler method. An example of such a
damping property of the Euler method is provided in Sec. 7.5 (see in particular figure 7.21).

7.4. LUMPED MODELS

7.29

bilinear transform
Euler method

Im(z)

0.5
=0

0.5

0.5

0
Re(z)

0.5

Figure 7.16: Images of the vertical axis s = j (solid lines) and of the left-half s-plane (gray regions)
using the backward Euler method g1 and the bilinear transform g2 .

7.4.3.4 Wave digital filters


The bilinear transform finds application in Wave Digital Filters (WDF) theory. These structures are the
digital equivalent of the lumped circuits described in Sec. 7.4. Wave digital filters are constructed in
two steps. The first step amounts to converting the continuous-time lumped circuits in wave variables.
In this context, the definition of wave variables is identical to that used for waveguides models (see
Eq. (7.12) in Sec. 7.3), namely:
f+ =

f + Z0 v
,
2

f =

f Z0 v
,
2

(7.39)

where the mechanical Kirchhoff variables force f and velocity v have been used for clarity. The only
and fundamental difference with Eq. (7.12) is that in this context Z0 is a reference impedance that can
be given any value and has no direct physical interpretation. The variables f themselves do not have
a clear physical interpretation since in a lumped model they cannot be easily interpreted as traveling
waves. Therefore in this context the Eqs. (7.39) have to be regarded as a mere change of coordinates.
Consider one of the elementary lumped elements analyzed in Sec. 7.4 and its associated impedance
Z(s). Then the new continuous-time variables f are related to each other through a reflectance R(s):
F (s) = Z(s)V (s),

F (s) = R(s)F + (s),

with

R(s) :=

Z(s) Z0
.
Z(s) + Z0

(7.40)

The second step in WDF design is the discretization of R(s). The equivalent wave digital filter
Rd (z) is then obtained using the bilinear transform: Rd (z) = R(g2 (z)). Note that since the reference
impedance Z0 can be given any value, this provides an additional degree of freedom for the design of
Rd . In particular, Z0 can be chosen such that Rd has no delay-free paths from input to output. This is
an essential requirement for guaranteeing computability when connecting more than one element. A

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.30

u2

u2

~
x

u1

b/(1-ab)

u1

(a)

(b)

Figure 7.17: A linear system; (a) delay-free path, (b) equivalent realization with no delay-free paths.

simple example will help clarify this concept: consider a mass mass m and its associated impedance
Z(s) = ms, as found in Sec. 7.4. Then, from Eq. (7.40) the corresponding reflectance is R(s) =
(ms Z0 )/(ms + Z0 ). Choosing Z0 = 2Fs m leads to the interesting result
R(s) =

s 2Fs
,
s + 2Fs

Rd (z) = z 1 ,

(7.41)

so that no delay-free path is present in the wave digital filter Rd . This simple example gives us the
intuition that lumped elements can be described using wave digital filters, and connected to each other
by adapting impedances in order to avoid the occurrence of delay-free computational loops.

7.4.4 Computability issues


The discussion of wave digital filters in the last section has addressed the problem of non-computable
loops in that particular context: wave variables rather than Kirchhoff variables are used to describe
the components of the equivalent circuit, every component is treated as a scattering element with a
reference impedance, and different components are connected to create the complete computational
structure. Wave methods can be said to be local, since non-computable paths are avoided by adapting
the reference impedances of each element. However, more severe computability problems can arise
when simulating dynamic exciters, since the linear equations used to describe the system dynamics
are tightly coupled with some non-linear map.
7.4.4.1 The delay-free loop problem
Let us start with a trivial example in order to focus the problem that we want to deal with. Consider
the system depicted in Fig. 7.17(a). It is easily verified that the discrete-time system can be written as

w(n) = w(n)

+ y(n),
with w
= u2 ,

x(n) = x
(n) + ay(n),
with x
= u1 + au2 ,
(7.42)

y(n) = b[u1 (n) + au2 (n) + ay(n)].

y(n) = f (x(n)) = bx(n),

7.4. LUMPED MODELS

Exciting
actions

u2

7.31
y

NL

to resonator

Exciting
actions

EXCITER

RESONATOR

Non-linear
Dynamic
System

Linear
Dynamic
System

Out

w
Modulating
actions

from

u1 resonator

Figure 7.18: Typical structure of a non-linear exciter.

where we have defined tilded variables w


and x
than only depend on the external inputs u1,2 , and are
therefore known at each time n. The function f is a linear map (scaling by a constant b).
Note that a delay-free computational loop connects y to x, in particular the last of Eqs. (7.42)
shows that y depends implicitly on itself. It is easy, however, to rearrange the computation in order to
solve this problem: the last of Eqs. (7.42) can be inverted, yielding

y(n) = f (x(n)),

y(n) = h(
x(n)) =

b
[u1 (n) + au2 (n)].
1 ab

(7.43)

The new map h relates y to the computable vector x


. Therefore, an equivalent realization of the
system is obtained as shown in Fig. 7.17(b). The key point in this example is that f is linear, which
allows explicit inversion of the last equation in (7.42).
This simple example is an instance of the so-called delay-free loop problem. In the linear case
the literature of digital signal processing provides techniques for the restoring computability by rearrangement of the structure. However we are here interested in the non-linear case, since non-linear
elements are almost always present in physical models. In section 7.2.1 we have stated that non-linear
elements are typically associated to excitation mechanisms. Figure 7.18 depicts a typical structure
which is found when zooming inside the excitation block of a musical instrument (cfr. Fig. 7.1).
The elements denoted by L and NL represent a linear and a non-linear block, respectively. More precisely, L contains a linear filter that accounts for the system dynamics in terms of lumped elements,
while NL contains a non-linear multiple-input, multiple-output (MIMO) map f (). Both of these
blocks take exciting actions u2 and the resonator variables u1 as inputs, and they are connected to
each other in a feedback loop. This representation does not seem to be restrictive for acoustic models.
Without any loss in generality, we assume in the following that the non-linear map f depends on
a linear combination x of its inputs (w, u1 , u2 ). Thus, the continuous-time system of Fig. 7.18 is

7.32

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

described through the equations

w(t)

= Aw(t) + Bu(t) + Cy(t),

x(t) = Dw(t) + Eu(t) + F y(t),

y(t) = f (x(t)) ,

(7.44)

where the vector u = [u1 , u2 ]T collects all the external inputs to the exciter.
When equations (7.44) are discretized using a linear numerical method (e.g. those described in
the previous section), the discrete-time system takes the form

w(n) = w(n)

+ Cy(n),

x(n) = x
(n) + Ky(n),
(7.45)

x(n) + Ky(n)) ,

y(n) = f (x(n)) = f (

where the vectors w


and x
are computable vectors, i.e. they are linear combinations of u and past
values of w and y. Note that this system generalizes the linear example (7.42).
Equations (7.45) show that if K is non null, there is a delay-free path connecting y to x with

K weighing this path. Note that explicit expressions for the vectors w,
x
and the matrices C,
K depend on what discretization method is used, but the overall system structure (7.45) remains the
same. In particular, the matrix K is always non null when an implicit linear method is used.
7.4.4.2 Approaches

It should be clear that in the non-linear case one cannot perform a rearrangement such as in (7.42),
because the last equation in (7.45) is in general not analytically invertible. The question is then how
to deal with the delay-free loop problem in the non-linear case.
One can use an explicit numerical method, that produces a system of difference equations (7.45)
and K are null. This choice solves the computational problem but can introduce
in which C
more severe artifacts in the numerical system: explicit methods have lower orders of accuracy
with respect to implicit methods, and more importantly are not unconditionally stable, i.e. are
not stable for any sampling frequency Fs and for any values of the system parameters. A sound
synthesis algorithms that explodes can be very unpleasant.
M-7.10
Take the mechanical oscillator (7.30) and discretize it with the Euler method g1 (z) in conjunction
with the centered estimate (7.37). Verify that the difference equation is explicit, study the frequency
response and the impulse response, compare them with those found in M-7.7, M-7.8, and M-7.9.
Study the poles of the digital system and veify that it can become unstable.

A rudimentary solution, that is nonetheless often met in the literature of physical modeling,
amounts to inserting a fictitious delay element in the feedback loop, or in other words to assume

7.5. A FULL EXAMPLE: THE CLARINET

7.33

that on the right-hand side of the last equation in (7.45) the approximation y(n) y(n 1)
holds. In practice this is a variant of the previous approach: instead of using an explicit method
from the beginning, one makes the computation explicit a posteriori, throug the insertion of
a z 1 element. While this trick can be acceptable at significantly high sampling rates, the
insertion of such a delay element can again deteriorate the accuracy and stability properties of
the numerical system. Even worse, in this case one cannot determine analytically the stability
range of the system.
Numerical analysis provides a plethora of iterative methods to find solutions of non-linear systems of algebraic equations: examples of such methods include fixed-point iteration and Newton
iteration, and each of them requires specific hypothesis on the non-linear system to hold. These
methods can be exploited for our problem: at each time n one knows x
(n) and can estimate
y(n) by finding a zero of g x (y) = f (
x + Ky) y. In other words, at each time n one can estimate numerically a (non-linear) function y = h(
x). If we go back and look at equation (7.43)
we see what we are doing here: since we cannot invert f analytically and find h globally (as
we did in the linear case) we estimate it locally, around a given value x
(n).
Using an iterative solver is advantageous over the previous approaches in that we can exploit the
accuracy and stability properties of an implicit method without introducing additional numerical errors in the system. One major drawback, however, is that one does not know in advance
the number of iterations that are needed for the solver to converge to the solution y(n): this can
be a problem for real-time applications, where one wants to know the time needed to compute
one sound sample.
Predictor-corrector methods are a class of numerical schemes that are well suited for solving
non-linear implicit difference equations. The basic idea is rather simple to understand: if the
starting point of the search is close enough to the solution, fixed-point iteration (or any other
iterative solver) will converge quickly. Predictor-corrector schemes then use an explicit numerical method (the predictor) to provide an initial guess of the new value; the true new value
is found using an implicit method (the corrector) and an iterative solver (typically fixed-point
iteration). Numerical analysis shows that normally a very low number of iterations provide
acceptable accuracy. These schemes are therefore a valid alternative to the previous approach,
especially because the number of iterations (usually 1 or 2) of the corrector are set in advance.
Note however that predictor-corrector schemes have been very rarely used in the literature of
physical modeling.

7.5 A full example: the clarinet


In this last section we apply the modeling approaches discussed so far to a concrete example of musical
instrument. There is a number of reasons for choosing the clarinet: it is a widely studied instrument
in the literature of musical acoustics, and much is known of its functioning; it provides a paradigmatic
example of self-sustained oscillations initiated by a non-linear persistent excitation mechanism; last
but not least, it can be modeled with relatively simple structures. All in all, the clarinet constitues
an ideal candidate for exemplifying the construction of a non-trivial physical model of a musical
instrument.
Table 7.2 summarizes the main variables and parameters used throughout this section. The instrument can be decomposed according to the general scheme summarized in figure 7.1. The exciter is
represented by the reed-mouthpiece system, that acts as a non-linear pressure-controlled valve, and

7.34

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES


quantity
Reed tip displ.
Tip rest position
Max. tip displacement
Reed tip opening
Reed mass/area
Effective reed area
Reed resonance freq.
Reed damping
Mouth pressure
Mouthpiece pressure
Pressure drop
Mouthpiece flow
Flow through the slit
Sound speed in air
Air density
Bore cross section
Bore wave impedance
Bore length
Press. wave from the bore
Press. wave to the bore

symbol
yL (t)
y0
ym
h(t) = ym yL (t)

Sd
0
g
pm
p(t)
p(t) = pm p(t)
u(t)
uf
c = 347
air = 1.14
S
Z0 = air c/S
Lbore
p (t)
p+ (t)

unit
m
m
m
m
Kg/m2
m2
rad/s
3000 s1
Pa
Pa
Pa
m3 /s
m3 /s
m/s
Kg/m3
m2
Kg/m4 s
m
Pa
Pa

Table 7.2: Symbols used throughout the section.


determines the drop p between the pressure pm inside the players mouth and the pressure p inside the mouthpiece. The resonator coincides with the acoustical bore, and can be subdivided into
sub-blocks, such as bell and holes.

7.5.1 Functional blocks


7.5.1.1 Resonator: the bore
As a first approximation, the clarinet bore can be assumed to be cylindrical. Therefore the most
basic model for the bore can be obtained using a single waveguide section, that simulates plane wave
propagation, and a perfect reflection at the open end (bell). According to this oversimplified model,
the pressure wave p entering the mouthpiece from the bore is given by
p (n) = p+ (n 2mbore )

P (z) = z 2mbore P + (z).

(7.46)

The number 2mbore of unit delays for the waveguide is related to the bore length Lbore and to the
sampling frequency Fs through the equation Lbore = c mbore /Fs .
A slightly more accurate model is obtained by taking into account the radiating properties of the
bell. The bell itself can be seen as a low-pass filter, that reflects low frequencies back inside the bore,
and radiates frequencies above its cutoff. Typical values for the cutoff frequency are around 1500 Hz.
Let Rd (z) be the transfer function of such a low-pass filter: then the pressure wave p that enters the
mouthpiece from the bore is given by
p (n) = (rd p+ )(n 2mbore )

P (z) = z 2mbore Rd (z)P + (z).

(7.47)

7.5. A FULL EXAMPLE: THE CLARINET

7.35

uf

ym

to
bore

Sr y

Reed
lip
h
x

Figure 7.19: Schematized representation of the reed-mouthpiece system.


The portion that is radiated from the bell is instead given by
pout (n) = p+ (nmbore )+(rd p+ )(nmbore )

Pout (z) = z mbore [1+Rd (z)]P + (z).


(7.48)

M-7.11
Construct the WG bore model according to equation (7.47), as a function that takes a pressure
wave p+ (n) from the mouthpiece and returns a pressure wave p (n) back to the mouthpiece.

Further refinements to this model should include losses, that can be incorporated in the model
according to the techniques described in section 7.3. Fractional-delay filters should also be incorporated in the model in order to allow for fine tuning of the bore length Lbore (note that so far we have
assumed that Lbore F s/c = mbore with mbore integer, which clearly implies a crude quantization of
Lbore ). Finally, holes can be incorporated into the model through scattering filters connected through
3-port junctions to the main waveguide structure.
7.5.1.2 Excitation: the reed
We turn now to the exciter block, which corresponds to the reed-mouthpiece system and is schematically represented in figure 7.19.
The reed dimensions are small with respect to typical wavelengths in the resonator, thus pressure
can be thought of as constant along the reed internal surface; under normal playing conditions, the first
mode of the reed-mouthpiece-lip system is well above the main frequency component of the pressure
signal that drives it; oscillations occur mainly in the vertical direction, and as a first approximation a
single degree of freedom (i.e. the reed tip vertical displacement yL ) can be assumed.
These considerations justify the choice of a lumped modeling approach for the reed. Many authors
have approximated the reed as a lumped second-order mechanical oscillator, driven by the pressure
drop p between mouth and mouthpiece:
m
yL (t) + ry L (t) + k[yL (t) y0 ] = Sd p(t),

(7.49)

7.36

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

where m, r, k are the reed mass, damping, and spring constant, respectively. The parameter Sd is an
effective driving surface on which the pressure p acts. In the Laplace domain, Eq. (7.49) can be
rewritten as
1
1
.
(7.50)
YL (s) y0 = Hr (s)P (s), with Hr (s) =
2
s + gs + 02
Therefore, Hr is the transfer function between p and the reed relative displacement. The parameter
p
= m/Sd is the effective mass/area ratio, g = r/m is the damping coefficient and 0 = k/m is
the resonance of the oscillator.
The phenomenon of reed beating (i.e. complete closure of the reed) is usually incorporated in the
lumped model in a non-physical way, by imposing a stop when the reed tip reaches its maximum
allowed displacement ym . Equation (7.49) is thus turned into

m
yL (t) + ry L (t) + k(yL (t) y0 ) = Sd p(t),
for yL < ym ,
(7.51)

yL (t) = ym and y L (t) = 0,


for yL ym .
Once the mechanical part has been modeled, the relation between the reed opening and the airflow
through the slit uf has to be found. As a first approximation, the pressure drop p can be assumed to
obey the equation
|uf (t)|
,
(7.52)
p(t) = f (uf (t), h(t)) = A sgn[uf (t)]
h(t)2

which is derived from the Bernoulli law.6


Equations (7.51) and (7.52) relate quantities at the reed slit. A third equation relates the flow uf
at the slit to the total flow u inside the instrument:

uf (t) = Z10 (p+ (t) p (t)),


(7.53)
u(t) = uf (t) + ur (t), with
ur (t) = Sr y L (t).
This equation states that the total flow inside the instrument is affected by an additional component
ur (t), induced by the reed motion and proportional to the reed tip velocity. The quantity Sr is the
effective flow surface of the reed, and is not necessarily equal to Sd .

7.5.2 The quasi-static approximation


In a single reed instrument the fundamental regime of oscillation is governed by the first resonance
frequency of the pipe, and typical values for the reed mechanical resonance 0 are well above this
pipe resonance and the frequency band of p(t).
It is therefore reasonable to assume a quasi-static approximation for the reed response, in which
the exact relation (YL (s) y0 ) = Hr (s)P (s) is substituted by the simpler
(YL (s) y0 ) = Hr (0)P (s) :=

1
P (s)
Ka

(7.54)

Since Hr (0) is a scalar rather than a filter, equation (7.54) assumes that the reed motion is in phase
and proportional to the pressure drop. The quantity Ka is usually termed reed stiffness per unit area.
One can easily verify from equation (7.50) that Ka = mu0 .
6
The Bernoulli law, which holds for incompressible non-viscous fluids and in stationary conditions, states that the
relation uf = A x p1/2 sgn(p) holds through an aperture of width x. Some authors adopt for the single reed the
generalized equation uf = [A xp1/2 sgn(p)]1/ , with an experimentally determined value = 3/2.

7.5. A FULL EXAMPLE: THE CLARINET

7.37

x 10

2000
1500

2.5

1000

p [Pa]

uf [m3/s]

500
0

1.5

500

1000

0.5
1500

1000

2000

3000

p [Pa]

4000

5000

6000

2000
2000

1500

1000

500

500

1000

1500

2000

p [Pa]

(a)

(b)

Figure 7.20: Quasi-static approximation of a single reed; (a) uf versus p and (b) rotated mapping
p+ = Rnl (p ).

Using Eq. (7.54), the reed opening h is computed as


h(t) = ym y0

p(t)
p(t)
= h0
,
Ka
Ka

where h0 = ym y0 is the rest opening of the reed tip. Substituting this relation into equation (7.52)
one finds

2/

A sgn[p(t)] |p|1/ h p(t)


for p < h0 Ka ,
0
(7.55)
uf (t) =
Ka

0,
for p h0 Ka .

Equation (7.55) provides a relation between uf and p in which the reed dynamics has been
removed. Figure 7.20(a) shows the plot of this relation. For low p values, uf increases until a
maximum at p = h0 Ka /3. Then the flow starts to drop due to reed closure, and reaches the value
uf = 0 at p = h0 Ka . Beyond this value the reed is completely closed.
The non-linear map (7.55 can be used to construct a quasi-static reed model. If wave variables p
are introduced, the non-linearity can be turned in a new one in which p+ depends on p through a
non-linear reflection function Rnl , i.e. p+ = Rnl (p ). This is depicted in Fig. 7.20(b).
M-7.12
Construct the quasi-static reed model according to equation (7.55), as a function that takes a pressure wave p (n) from the bore and returns a pressure wave p+ (n) back to the bore.

Despite its simplicity, the quasi-static model is able to capture the basic non-linear mechanisms
of self-sustained oscillations in a single reed instrument. Due to its compactness and low number of
parameters, this model has been also used for sound synthesis purposes.

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.38
M-7.13

Implement the complete quasi-static clarinet model: using the functions developed in M-7.11 and M7.12, write an audio cycle in which the system is initialized with a certain mouth pressure pm and
evolves freely. Plot the signal and its spectrogram.

7.5.3 The dynamic reed model


In order to obtain more realistic behavior from the clarinet model we want now to use the dynamic
lumped reed formulation described in section 7.5.1. The continuous-time system described by equations (7.51, 7.52, 7.53) can be restated in vector formulation as

w(t)
= Aw(t) + Bu(t) + Cp(t),

(7.56)

x(t) = Dw(t) + Eu(t) + F p(t),

p(t) = f (x(t)) ,

where the variables are given by


w=

h
h

h0
u = pm ,
p

x=

uf
h

where w is the state vector of the reed, u collects the incoming pressure wave p and external control
parameters such as mouth pressure pm and the rest opening h0 .
The matrices are

0
0 0 0
0
1
,
, C=
, B=
A=
1/
02 0 0
02 g
D=

0 Sr
1
0

E=

0 1/Z0 2/Z0
0
0
0

F =

1/Z0
0

The beating condition in Eq. (7.51) is rewritten as


w = 0,

for

h 0.

Note that system (7.56) is formally identical to the general structure (7.44) that we have studied in
section 7.4.4. Its first equation can be discretized with one of the techniques described in section 7.4.3.
We choose here the bilinear transform, and the discrete-time system is obtained through applications
of the transforms Laplace Bilinear Z 1 , where Z 1 is the inverse Z transform:
s W (s) = AW (s) + BU (s) + CP (s)

s=h

1 z 1
,
1 + z 1

h = 2Fs

w(n) = [hI A]1 {[hI + A]w(n 1) + B[u(n) + u(n 1)] + C[p(n) + p(n 1)]}

= w(n)

+ Cp(n).
(7.57)
Here the vector w(n)

is a linear combination of all the terms that are computable at time n (namely
weights the dependence of w on p(n).
u(n) and past values of w, u and p) while the vector C

7.5. A FULL EXAMPLE: THE CLARINET

7.39

M-7.14
Construct the dynamic reed model according to equation (7.57), as a functions that takes a pressure
wave p (n) from the bore and returns the computable state vector w(n).

The second equation in system (7.56) can thus be written as


+ F)
K = (D C
x
(n) = Eu(n) + D[hI A]1 {(hI + A)w(n 1)
x(n) = x
(n) + Kp(n), with

+B[u(n) + u(n 1)] + Cp(n 1)},


(7.58)

where K = (D C + F ) weights the delay-free loop connecting p to x, while the vector x


(n) has
no instantaneous dependence on p(n) and is therefore computable at each step. The discrete-time
non-linear relation is

p(n) = f (
x(n) + Kp(n)) ,

(7.59)

Note that equations (7.57, 7.58, 7.59) are formally identical to the general structure (7.45) that we
have studied in section 7.4.4. In particular, equation (7.59) emphasizes the occurrence of a delay-free
computational loop in the system, which ultimately causes p(n) to depend on itself through the
non-linear map f . We choose to solve equation (7.59) using Newton iteration: at each time n we look
for a zero of the function gx (p) = f (
x + Kp) p, using the value p(n 1) as the starting
point for the iteration.
M-7.15
Construct the non-linear pressure model according to equation (7.59), as a function that takes the
computable input x
from the bore and the reed, and returns the pressure drop p(n).

7.5.4 Properties of the model


7.5.4.1 The numerical reed
We are finally able to analyze the results provided by the discrete-time model developed so far. A first
evaluation criterion amounts to examine the reed frequency response. Consider the transfer function
Hr (s) in Eq. (7.50) and the corresponding frequency response Hr (j). The transfer function Hdr (z)
of the digital reed is obtained by substitution:

1 z 1
Hdr (z) = Hr h
,
1 + z 1

(7.60)

and the corresponding frequency response is given by Hdr (exp(jd /Fs )).
Figure 7.21 shows the two responses Hr and Hdr in the case Fs = 22.05 kHz. The response
obtained by applying the Euler method is also plotted as a term of comparison. The Euler method is
easily seen to provide poor accuracy. In particular, a noticeable numerical dissipation is introduced,
so that the resonance is strongly attenuated. Results for Hdr are in good agreement with theoretical
predictions. Both the magnitude and the phase responses exhibit frequency warping (see the discussion in Sec. 7.4.3). The original resonance 0 has shifted from 23250 rad/s to 21300 rad/s (i.e. from
3700 Hz to 3390 Hz) for Hdr .

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.40

x 10

original
Euler meth.
Bilinear tr.

F =22.05 kHz
s

original
Euler meth.
Bilinear tr.

0.5

phase (rad)

amplitude (m/Pa)

5
4
3

0.5
1
1.5
2

2.5

1
3

1000

2000

3000

4000

5000

f (Hz)

(a)

6000

7000

1000

2000

3000

4000

5000

6000

7000

f (Hz)

(b)

Figure 7.21: Reed response: comparison of the continuous-time system and the discrete-time systems
obtained using the bilinear transform and the Euler method, with Fs = 22.05 kHz; (a) magnitude
responses and (b) phase responses.
7.5.4.2 Time-domain simulations
Besides frequency-domain analyis, we can also study the output of the simulations in the time domain
by capturing relevant signals (yL , p, p , uf , . . .) from each part of the model.
M-7.16
Implement the complete dynamic clarinet model: using the functions developed in M-7.11, M-7.14,
and M-7.15, write an audio cycle in which the system is initialized with a certain mouth pressure pm
and evolves freely. Plot the signal and its spectrogram.

Figure 7.22 shows the signal p(t) when a step mouth pressure pm = 1900 Pa is applied. A rich
attack transient can be noticed, which is not obtained using simpler models such as the quasi-static
one described previously. At steady state the signal resembles the square wave which is typically
associated to the clarinet. Note however that even during steady state the quasi-static approximation
does not hold: this is shown in figure 7.23, which has been obtained by applying a step mouth pressure
pm = 2265 Pa that causes beating to initiate. The figure shows that uf and p move along a hysteretic
path, due to the presence of memory in the equations.
Another significant difference between the quasi-static and the dynamic model is concerned with
transitions to high regimes of oscillation. Both 0 and g play a role in helping transition to the
second register (clarion register), which can be produced without opening the register hole if the
reed resonance matches a low harmonic of the playing frequency and the damping is small enough.
Moreover, an extremely low damping causes the reed regime (squeaks) to be produced, i.e. the
oscillation is governed by the reed resonance. All these effects are seen to be well reproduced by
numerical simulations with the digital reed, while on the contrary the quasi-static approximation does
not allow control on such effects. Figure 7.24(a) shows an example of transition to the clarion register.
This example has been obtained by matching 0 to the seventh harmonic of the playing frequency and
by lowering g down to 1400 rad/s. Figure 7.24(b) shows a transition to the reed regime. This is
achieved by giving g a value as low as 300 rad/s. Squeaks are more easily obtained in simulations by
driving the reed with low blowing pressures.

7.41

2000

2000

1500

1500

1000

1000

500

500

p (Pa)

p (Pa)

7.6. KEY CONCEPTS

500

500

1000

1000

1500

1500

2000
0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

2000
0.38

0.385

0.39

0.395

t (s)

(a)

0.4

0.405

0.41

0.415

0.42

0.425

0.43

t (s)

(b)

Figure 7.22: Mouthpiece pressure p(t); (a) attack transient and (b) steady-state signal, with pm =
1900 Pa and Fs = 22.05 kHz.

7.6 Key concepts

Source models vs. signal models


Physical modeling techniques differ drastically from those examined in the previous chapter.
Signal-based techniques are derived and characterized by looking at the waveforms produced
by the algorithms and their features in the time-domain or in the frequency domain. Sourcebased techniques try to describe sounds in terms of the physical objects and interactions that
are responsible for sound generation.
We have pointed out the implications of this approach in terms of sound representation: a
physical model provides a highly semantic description in which the control parameters of the
final synthesis algorithms have most of thes a clear physical interpretation (e.g. the length of
a string, the stiffness of a reed, and so on), and the algorithms react in a physically consistent
way to changes in such parameters.

Structural aspects: exciters, resonators, non-linearities


In many cases an acoustic system can be represented as composed by resonating structures
connected to excitation elements. This distinction is important from the modeling point of view,
since the resonating structures (e.g. strings, membranes, bars, plates, acoustic bores, etc.)
can be assumed to be linear with good approximation. On the other hand the excitation mechanisms (e.g. impacts, frictions, pressure-controlled valves, air jets, etc.) are typically described
by non-linear equations, and determine the way energy is injected into the resonators.
Resonating and exciter blocks are typically connected in a feed-back fashion: as an example,
when a bow slides onto a violin string both the objects are subject to an interaction (friction)
force which is in turn determined by their relaTive velocity (and possibly other variables). Similar consideration apply to the system composed by a resonating bore and a reed. One case
where the coupling can be assumed feed-forward to a goof approximation is that of a plucked
string: in ideal pluck simply imposed a non-equilibrium initial displacement to the string, which

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.42

2.5

x 10

1.5

u [m /s]

0.5

1000

2000

3000

p [Pa]

4000

5000

6000

Figure 7.23: Quasi-static curve (solid line) and phase diagram obtained from simulations, with pm =
2265 Pa and Fs = 22.05 kHz.
subsequently oscillates freely.

Modeling approaches: distributed, lumped


A way of looking at physical modeling techniques is by classifying them into two main categories. Generally speaking, distributed approaches include all the modeling techniques in
which the mathematical description takes the spatial distribution of the physical system into account. A description based on a set of partial differential equations (PDEs), simulated through
finite difference/elements methods (FDM/FEM), is certainly a distributed modeling approach.
Waveguide structures are another example of distributed models: these can in general provide
more efficient algorithms with respect to FEM/FDM methods, but are less general.
The category of lumped models includes all of those modeling approaches that do not embed
a notion of spatial distribution: describing a piano hammer as an ideal point mass is a lumped
modeling approach; similarly, describing a single reed as a second order mechanical oscillator,
as we did in section 7.5 and in equation (7.49), is a lumped approach since it does not account
for the presence of higher modes of oscillation, for non even pressure distributions on the reed
surface, for propagation of vibrations inside the reed.

The Karplus-Strong (KS) algorithm


We have examined the KS algorithm as a first elementary example of waveguide structure. Its
basic building block is a comb filter, whose block scheme and magnitude response are depicted
in figures 7.3(a) and (b), respectively: this show that the comb filter structure is well suited for
representing a resonant system with a harmonic spectrum, such as an ideal string with fixed
ends. If an additional low-pass filter is inserted into the structure, as in figure 7.5(a), a more
realistic response is obtained in which the higher harmonic partials are more damped than the
lower ones (see figure 7.5(b)). The original formulation of the KS algorithm assumes that the

7.43

2000

2000

1500

1500

1000

1000

500

500

p (Pa)

p (Pa)

7.6. KEY CONCEPTS

500

500

1000

1000

1500

1500

2000
0.08

2000
0.085

0.09

0.095

0.1

0.105

0.11

0.115

0.12

t (s)

(a)

0.125

0.13

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

t (s)

(b)

Figure 7.24: Transitions to high regimes of oscillation; (a) clarion register (0 = 2 2020 rad/s,
g = 1400 rad/s, pm = 1800 Pa); (b) reed regime (0 = 2 3150 rad/s, g = 300 rad/s, pm = 1900
Pa).

state of the comb filter is initialized with random values, after which the filter evolves freely: the
resulting sounds mimic quite closely those of a guitar string.
The KS filter can be given the following proto-physical interpretation: a displacement wave
travels into the string and is reflected back each time it reaches one of the fixed ends. At
each reflection the high-frequency components are smoothed away more strongly than the
low-frequency ones, because of dissipation phenomena occurring in the string. The theory of
1-D waveguide structures provides a more formal framework to this interpretation.

1-D waveguide (WG) structures


We have seen that the starting point in the construction of basic WG structures are the DAlembert
equation and its traveling wave solution. A computational realization of such a solution can be
constructed using a pair of delay lines, which simulate wave propagation in the two directions
of a 1-D medium. The delay lines are terminated by reflection coefficients that simulate ideal
boundary conditions and. Refinements to this basic structures include the modling of dissipation and dispersion, as well as fine tuning elements. All of these are simulated by inserting additional filtering elements into the WG structure: low-pass filters account for frequency-dependent
dissipation, while all-pass filters are used to introduce frequency-dependent propagation velocity (an example where dispersion plays a relevant role are piano strings in the low register).
Fine tuning is realized through insertion of all-pass linear-phase filters: the phase characteristics of the filter is responsible for an additional fractional delay, which is used to tune the
physical length of the modeled resonator (e.g. a string).

WG networks
Waveguide sections can be connected to each other using juctions that account for impedance
discontinuities in the propagating medium (e.g., two cylindrical bore sections with different diameters, or two pieces of string with different mass densities). When such discontinuities

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

7.44

are encountered, scattering occurs, i.e. the incoming waves are partly transmitted and partly
reflected. The Kelly-Lochbaum junction is used to connect two waveguide section: its equations (7.20) are derived by imposing continuity conditions for the Kirchoff variables at the junction. We have drawn the block scheme of a KL junction in figure 7.9 and we have seen that a
reflection coefficient determines the relative amounts of reflected and transmitted waves. We
have also seen that the KL junction can be extended to the n-dimensional case.

Lumped modeling
We usually look at electrical systems using a lumped approach: current intensity i and voltage
v are measured punctually, withouth looking at propagation effects within the circuit. Circuit
elements are also described using punctual input-output relations: voltage and current through
an element are related via circuit impedances, as summarized in Eq. (7.24).
We have seen that mechanical and acoustic systems can be looked at using the same approach. Specifically, we have defined pair of variables (Kirchoff variables) that are analogous
to voltage and current: these are the pairs force-velocity and pressure-flow, in the case of
mechanical and acoustic systems, respectively. For the three classes of systems (electrical,
mechanical, acoustic) we have examined the basic impedance blocks and have pointed out
the analogies between them. These are summarized in the fundamental Table 7.1. We have
also introduced the concepts of parallel and series junctions of mechanical and acoustic elements, and have provided examples in figures 7.12 and 7.13. Finally, we have seen through an
example (the Chua-Felderhoff circuit and the non-linear hammer felt) that analogies between
classes of systems extend to the case of non-linear elements.

Modal synthesis
The second-order oscillator (7.30) is the simplest possible resonating mechanical system that
we can construct using basic impedances blocks. Simple equations relate the impedances
m, r, k to the resonator parameters: center frequency, quality factor, 1/e decay time. A set of
N oscillators driven by the same force can be used to describe a set of N resonances of a
mechanical structure: the mass m of each oscillator determines the amount of the excitation
provided by the force to the corresponding resonance.
Up to this point, modal synthesis seems little more than a variant of additive synthesis. However, we have seen that this technique does have a profound physical foundation. Given a set
of N point-masses connected through springs and dampers, there exists in general a modal
decomposition of the system, i.e. a linear transformation that turns the system into a set of decoupled second-order equations. The relation between the mass displacements and the new
modal displacements are summarized by Eq. (7.33). Finally, we have observed that by giving
the modal masses different values at each of the N points of the physical structure, one can
simulate position-dependent interaction (in particular, nodal points correspond to infinite modal
masses).

Discretization methods
WG are already in the discrete-time domain, but in general a physical model is developed in the
continuous-time domain. In particular, lumped modeling approaches describe a system as a

7.7. COMMENTED BIBLIOGRAPHY

7.45

set of ordinary differential equations (ODEs). We have briefly examined various approaches to
discretization, namely the impulse invariant method and s-to-z techniques such as the (backward) Euler method and the bilinear transform. Each of these approaches carries its own
advantages and drawbacks: some of the features that we have analyzed include frequency
aliasing and frequency warping, stability, order of accuracy, and numerical damping. We have
also defined the concepts of explicit and implicit numerical methods, and looked at the general
form of the difference equations that they produce.
Wave digital filters (WDF) can be used to describe a lumped element in the digital domain:
first, the impedance of the element is turned into a reflectance through a variable transformation, from Kirchoff to wave (as we did in equation (7.40)). Second, the bilinear transform is used
to turn such reflectance filters into their digital counterparts. Third, filtering elements are connected by adapting their reference impedances in order to avoid the occurrence of delay-free
computational loops.

Computational aspects
The delay-free loop problem deserves some discussion, due to the fact that sound physical
models typically involve the presence of non-linear elements. We have first examined the problem by looking at a simple example of a linear system, in figure 7.17. In this case the computation can be rearranged into an equivalent structure, but it is clear that such a rearrangement
can only be performed under the hypothesis of linearity: when a non-linear element is involved
in the computation, we do not know in general whether it is invertible or not.
We have listed some of the approaches that can be taken to deal with the general non-linear
case: use of explicit numerical methods, artificial introduction of delay elements in the computation, use of iterative solvers or predictor-corrector combinations. Again, each of these
approaches carries its own advantages and drawbacks.

7.7 Commented bibliography


Sound modeling techniques can be classified according to many criteria. Two general references that
address these issues are [4, 17]. Specifically, the taxonomy based on signal models and source models,
and their subclasses, proposed at the beginning of this chapter is based on [4].
Seminal ideas that eventually lead to the definition of physically-based sound modeling techniques
are to be found in research on musical instrument acoustics. Some classic papers in this area are [9,
10, 16, 14]. In particular, the two citations in section 7.2.1 are taken from [9, 14], respectively. A
book that covers the topic of musical acoustics exhaustively is [8].
A general overview on approaches and techniques used in physical modeling, with an emphasis
on structural and computational aspects, is [5]. Figure 7.1 in this chapter (typical block scheme of a
musical instrument model) is based on an analogous scheme in [5]. On the other hand, figure 7.2(b)
(typical block scheme of an articulatory synthesizer) is based on an analogous scheme in [19].
About distributed modeling approaches: finite difference schemes applied to PDE descriptions
have been used in the literature e.g. for modeling idiophones [3] and single reed systems [20]. The
theory of 1-D waveguide models is now well established. An exhaustive introduction to the topic
is [18], which provides full derivations of waveguide structures and examples of musical instrument
modeling, together with a vast bibliography. The Karplus-Strong algorithm, which we have regarded

7.46

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

as the first step toward the development of digital waveguide structures, was originally presented
in [12].
Many textbooks on digital speech processing contain discussion about multitube lossless models
of the vocal tract, which are basically cylindrical waveguide sections connected by Kelly-Lochbaum
junctions: see e.g. [6]. We have not addressed the topic of higher dimensional (2- and 3-D) waveguide
structures: seminal ideas were presented in [21].
About lumped modeling approaches: a discussion of the analogies between electrical systems and
their acoustical counterparts is found in [8]. In particular, the circuit representation of a Helmoltz
resonator given in section 7.4.1 is based on an analogous discussion in [8]. A classic presentation of
modal synthesis techniques is [1]. We have examined in section 7.5 an example of lumped element
physical model (the single reed): this model has been used extensively in the literature, see e.g. [16].
A classic example of a lumped physical model applied to voice synthesis is [11], in which the authors
describe the vocal folds by means of two lumped masses and viscoelastic elements.
About numerical and computational aspects: most of the techniques described in section 7.4.3 are
found in DSP textbooks: see e.g. [15]. A classic reference to the theory of Wave Digital Filters (WDF)
theory is [7]. In the field of numerical analysis, a comprehensive discussion on numerical methods for
ordinary differential equations is given in [13]. The example that we discussed in section 7.4.4 about
delay-free computational paths in linear systems (see figure 7.17) is adapted from [15, section 6.1.3,
Fig. 6.5]. We have seen that new problems are encountered when non-linear elements are present in
the delay-free computational path: reference [2] provides a discussion of these issues, together with a
proposed non-iterative solution (in brief, a set of hypotheses and techniques to compute a priori the
non-linear function h that we have examined in section 7.4.4), and applications to the simulation of
acoustic systems. We have followed the notation given in [2] for the matrices in equation (7.44) and
for the K matrix in equation (7.45).

Bibliography
[1] J. M. Adrien. The Missing Link: Modal Synthesis. In
G. De Poli, A. Piccialli, and C. Roads, editors, Representations of Musical Signals, pages 269297. MIT
Press, 1991.
[2] G. Borin, G. De Poli, and D. Rocchesso. Elimination
of Delay-free Loops in Discrete-Time Models of Nonlinear Acoustic Systems. IEEE Trans. Speech Audio
Process., 8(5):597606, Sep. 2000.
[3] A. Chaigne and V. Doutaut. Numerical Simulations
of Xylophones. I. Time-domain Modeling of the Vibrating Bar. J. Acoust. Soc. Am., 101(1):539557, Jan.
1997.
[4] G. De Poli. A Tutorial on Digital Sound Synthesis
Techniques. In C. Roads, editor, The Music Machine,
pages 429447. MIT Press, 1991.
[5] G. De Poli and D. Rocchesso. Physically Based Sound
Modelling. Organized Sound, 3(1):6176, 1998.
[6] J. R. Deller, J. G. Proakis, and J. H. L. Hansen.
Discrete-Time Processing of Speech Signals. Macmillan, New York, 1993.
[7] A. Fettweis. Wave Digital Filters: Theory and Practice.
Proc. IEEE, 74(2):270327, Feb. 1986.

[16] R. T. Schumacher. Ab Initio Calculations of the Oscillations of a Clarinet. Acustica, 48(2):7185, 1981.
[17] J. O. Smith III. Viewpoints on the History of Digital Synthesis. In Proc. Int. Computer Music Conf.
(ICMC91), pages 110, Montreal, Oct. 1991.
[18] J. O. Smith III. Principles of Digital Waveguide Models of Musical Instruments. In M. Kahrs and K. Brandenburg, editors, Applications of DSP to Audio and
Acoustics, pages 417466. Kluwer Academic Publishers, 1998.
[19] M. M. Sondhi and J. Schroeter. A Hybrid TimeFrequency Domain Articulatory Speech Synthesizer.
IEEE Trans. Acoust., Speech, and Sig. Process.,
35(7):955967, July 1987.
[20] S. E. Stewart and W. J Strong. Functional Model of
a Simplified Clarinet. J. Acoust. Soc. Am., 68(1):109
120, July 1980.
[21] S. A. van Duyne and J. O. Smith III. The 2-D Digital
Waveguide Mesh. In Proc. IEEE Workshop on Applications of Sig. Process. to Audio and Acoustics (WASPAA93), pages 177180, New Paltz (NY), Oct. 1993.

[8] N. H. Fletcher and T. D. Rossing. The Physics of Musical Instruments. Springer-Verlag, New York, 1991.
[9] L. Hiller and P. Ruiz. Synthesizing Musical Sounds by
Solving the Wave Equation for Vibrating Objects: Part
I. J. Audio Engin. Soc., 19(6):462470, June 1971.
[10] L. Hiller and P. Ruiz. Synthesizing Musical Sounds by
Solving the Wave Equation for Vibrating Objects: Part
II. J. Audio Engin. Soc., 19(7):542551, July 1971.
[11] K. Ishizaka and J. L. Flanagan. Synthesis of Voiced
Sounds from a Two-Mass Model of the Vocal Cords.
Bell Syst. Tech. J., 51:12331268, 1972.
[12] K. Karplus and A. Strong. Digital Synthesis of
Plucked String and Drum Timbres. Computer Music
J., 7(2):4355, 1983.
[13] J. D. Lambert. Numerical Methods for Ordinary Differential Systems. John Wiley & Sons, 1993.
[14] M. E. McIntyre, R. T. Schumacher, and J. Woodhouse.
On the Oscillations of Musical Instruments. J. Acoust.
Soc. Am., 74(5):13251345, Nov. 1983.
[15] S. K. Mitra. Digital Signal Processing. A Computer
Based Approach. Mc Graw Hill, 1998.

7.47

7.48

CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES

Contents
7 Sound modeling: source-based approaches
7.1 Introduction: sounds, sources . . . . . . . . . . . . . . .
7.2 Structures, functions, models . . . . . . . . . . . . . . .
7.2.1 Functional blocks . . . . . . . . . . . . . . . . .
7.2.1.1 Excitations and resonators . . . . . . .
7.2.1.2 Analogies with speech synthesis . . .
7.2.2 Modeling approaches . . . . . . . . . . . . . . .
7.3 Distributed models: the waveguide approach . . . . . . .
7.3.1 The origins: the Karplus-Strong algorithm . . . .
7.3.1.1 The comb filter . . . . . . . . . . . .
7.3.1.2 Refining the structure . . . . . . . . .
7.3.2 One-dimensional wave propagation . . . . . . .
7.3.2.1 Traveling wave solution . . . . . . . .
7.3.2.2 One-dimensional propagation . . . . .
7.3.2.3 Wave variables . . . . . . . . . . . . .
7.3.3 Basic waveguide structures . . . . . . . . . . . .
7.3.3.1 Delay lines . . . . . . . . . . . . . . .
7.3.3.2 Boundary conditions . . . . . . . . . .
7.3.4 Modeling real world phenomena . . . . . . . . .
7.3.4.1 Dissipation . . . . . . . . . . . . . . .
7.3.4.2 Dispersion . . . . . . . . . . . . . . .
7.3.4.3 Length tuning . . . . . . . . . . . . .
7.3.5 Junctions and networks . . . . . . . . . . . . . .
7.3.5.1 The Kelly-Lochbaum junction . . . . .
7.3.5.2 N-dimensional junctions . . . . . . . .
7.3.5.3 Non-cylindrical geometries . . . . . .
7.4 Lumped models . . . . . . . . . . . . . . . . . . . . . .
7.4.1 Building blocks and analogies . . . . . . . . . .
7.4.1.1 Mechanical systems . . . . . . . . . .
7.4.1.2 Acoustic systems . . . . . . . . . . .
7.4.1.3 Non-linearities . . . . . . . . . . . . .
7.4.2 Modal synthesis . . . . . . . . . . . . . . . . .
7.4.2.1 The second-order mechanical oscillator
7.4.2.2 The modal description . . . . . . . . .
7.4.3 Numerical methods . . . . . . . . . . . . . . . .
7.4.3.1 Impulse invariant method . . . . . . .
7.49

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

7.1
7.1
7.2
7.2
7.2
7.3
7.5
7.6
7.6
7.6
7.7
7.8
7.9
7.10
7.11
7.12
7.12
7.13
7.14
7.14
7.14
7.15
7.15
7.16
7.18
7.18
7.19
7.19
7.20
7.21
7.22
7.24
7.24
7.25
7.26
7.26

CONTENTS

7.50

7.5

7.6
7.7

7.4.3.2 Mappings s-to-z . . . . . .


7.4.3.3 Accuracy, stability . . . . . .
7.4.3.4 Wave digital filters . . . . . .
7.4.4 Computability issues . . . . . . . . . .
7.4.4.1 The delay-free loop problem
7.4.4.2 Approaches . . . . . . . . .
A full example: the clarinet . . . . . . . . . . .
7.5.1 Functional blocks . . . . . . . . . . . .
7.5.1.1 Resonator: the bore . . . . .
7.5.1.2 Excitation: the reed . . . . .
7.5.2 The quasi-static approximation . . . . .
7.5.3 The dynamic reed model . . . . . . . .
7.5.4 Properties of the model . . . . . . . . .
7.5.4.1 The numerical reed . . . . .
7.5.4.2 Time-domain simulations . .
Key concepts . . . . . . . . . . . . . . . . . .
Commented bibliography . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

7.27
7.28
7.29
7.30
7.30
7.32
7.33
7.34
7.34
7.35
7.36
7.38
7.39
7.39
7.40
7.41
7.45

Capitolo 8

Analisi dei suoni

versione 2004

8.1 Introduzione
In questo capitolo si descrivono i principali metodi di analisi del suono con lo scopo di estrarre informazione dal suono. Nei capitoli sui modelli del suono, lo scopo era quello di ottenere delle rappresentazioni che ne consentissero una auspicabilmente completa ricostruzione, almeno dal punto di
vista percettivo o operativo. Ai modelli erano quindi associati metodi di analisi, per individuare i
parametri dei modelli, che ne consentissero questa descrizione senza perdere, per quanto possibile
nessuna caratteristica acustico o timbrica del suono. Spesso infatti i modelli con i parametri individuati, vengono usati per la sintesi o trasformazione dei suoni. Ad esempio dalla rappresentazione
mediante modelli spettrale si riesce a ottenere variazioni di durata e altezza molto naturali.
Se lo scopo e` invece quello di estrarre informazione dal suono, allora si vuole scartare tutto quello
che non e` rilevante al proprio scopo. Si parla allora di estrazione di caratteristiche (feature extraction).
I passi principali per la estrazione di informazione sono pre-elaborazione del suono, selezione dei
frames mediante finestre, estrazione di caratteristiche, post-elaborazione.
La prima fase di pre-elaborazione consiste nel modificare il segnale, in modo ad facilitare gli
algoritmi di estrazione delle caratteristiche. Ad esempio, riduzione del rumore, equalizzazione,
filtraggio passa basso. Nei suoni vocali si usa spesso la pre-enfasi mediante un filtro passalto
per appiattire lo spettro, cio`e per avere una distribuzione pi`u omogenea dellenergia nelle varie
zone dello spettro. Infatti la voce ha un andamento spettrale di tipo passabasso.
Il secondo passo consiste nel dividere il segnale in blocchi (detti frames) parzialmente sovrapposti ed applicare una finestra per ogni blocco, come discusso nei modelli spettrali.
Il terzo passo consiste nel ricavare, per ogni frame un vettore di caratteristiche, con gli algoritmi
descritti nelle prossime sezioni.
Infine nella fase di post-elaborazione, si scelgono le caratteristiche pi`u significative dal vettore,
eventualmente pesandole diversamente, per dare loro maggiore o minor importanza. Ad esempio si pu`o pesare meno i primi coefficienti mel-cepstrali, se e` presente un rumore a bassa
8.1

CAPITOLO 8. ANALISI DEI SUONI

8.2

frequenza. Infine spesso i vettori delle caratteristiche sono normalizzati rispetto al tempo, in
modo ad avere media nulla. questa normalizzazione costringe i vettori ad essere nello stesso
ordine di grandezza numerica.
I metodi di analisi procedono direttamente dal segnale rappresentato nel tempo oppure derivano una
rappresentazione dello spettro. Nel secondo caso si inizia applicando le tecniche viste, quando sono
stati descritti i modelli spettrali e i loro derivati come parte armonica + parte stocastica, parte armonica
+ rumore + transitori si ottiene una rappresentazione a basso livello, che costituisce la premessa per
la estrazione di parametri e attributi a livello superiore. In questo capitolo verranno prima presentati
alcuni metodi base per la stima di parametri nel dominio temporale, poi verr`a discusso limportante
problema della stima dellinviluppo spettrale. Verranno quindi presentati vari descrittori di parametri
e attributi a vari livelli ricavabili da queste rappresentazioni e utilizzabili per la descrizione dei suoni e
per unulteriore analisi volta a separare e comprendere i suoni e la loro organizzazione. Infine verranno
presentati alcuni algoritmi base per la determinazione dellinizio (onset) degli eventi musicali,

8.2 Parametri nel dominio del tempo


Nellambito dellelaborazione del segnale e` spesso conveniente ricorrere alluso di parametri che ne
descrivano alcune caratteristiche fondamentali; ci`o e` importante in molti casi di archiviazione o trattamento del suono, perch`e elimina le ridondanze presenti nel segnale audio e permette di ottenere
una efficiente rappresentazione e quindi una semplificazione nella manipolazione dei dati. Un aspetto
importante in molte applicazioni e` la variazione dei valori di questi parametri nel tempo (per esempio
nella sintesi del parlato); nel seguito, quindi, tratteremo i metodi applicabili al segnale audio nel dominio del tempo cio`e operando direttamente sulla sua forma donda. I risultati che otterremo saranno
esemplificati mediante luso di procedure specifiche realizzate con M AT L AB e applicate a segnali per
lo pi`u vocali, anche se i risultati trovati hanno validit`a del tutto generale.
Bisogna dire fin dora che questi metodi (usati per esempio per discriminare il rumore di fondo
dal parlato, oppure per distinguere i suoni vocalizzati da quelli non vocalizzati) non danno risultati
assolutamente certi sullinformazione che il segnale porta con se e che sovente vengono usati in combinazione. Il loro vantaggio sta nella facilit`a di implementazione e nelle modeste capacit`a di calcolo
richieste.
Lipotesi che ora facciamo e` che le propriet`a del segnale audio cambino lentamente nel tempo (almeno rispetto al periodo di campionamento); questo ci permette di definire una serie di parametri nel
dominio del tempo per cui brevi segmenti di segnale (frames) vengono elaborati come se fossero suoni
con propriet`a costanti allinterno del frame. Se consideriamo per esempio il segnale vocale, questa assunzione si pu`o giustificare con il fatto che nella generazione delle parole contribuiscono sia le corde
vocali sia tutte le modificazioni dellapparato fonatorio (laringe, lingua, bocca) che avvengono con
una rapidit`a non molto elevata tanto da poterle ritenere costanti entro i 100-200ms.
Nel seguito per il calcolo dei parametri useremo alcune sequenze di campioni audio che possono
essere importate come vettori in M AT L AB direttamente da file audio in formato PCM mono (.WAV)
usando i comandi:

[s,fS]=wavread(finesunn.wav);
%

-->

vettore dei campioni del segnale

8.2. PARAMETRI NEL DOMINIO DEL TEMPO


%

fS -->

8.3

frequenza di campionamento

%
disegna s
s1=s/max(abs(s));
%
normalizza al valore massimo
tempi = (1/fS)*[1:max(size(s1))];
plot(tempi,s1); xlabel(time (s)); ylabel(s(t));
8.2.0.0.1 Windowing La finestra temporale stabilisce la durata del singolo frame; la sua scelta e`
un compromesso tra tre fattori: (1) deve essere abbastanza breve in modo che le propriet`a del suono
non cambino significativamente al suo interno; (2) deve essere abbastanza lunga da poter calcolare il
parametro che si vuole stimare (utile anche per ridurre leffetto di un eventuale rumore sovrapposto
al segnale); (3) il susseguirsi delle finestre dovrebbe coprire interamente il segnale (in questo caso
il frame rate del parametro che andiamo a calcolare deve essere come minimo linverso della durata
della finestra).
La finestra pi`u semplice e` quella rettangolare:

1 per 0 n N 1
r(n) =
(8.1)
0 altrimenti
Molte applicazioni usano finestre pi`u lunghe del necessario a soddisfare le ipotesi di stazionariet`a,
cambiandone per`o la forma per enfatizzare i campioni centrali (figura 8.1); per esempio, se un segnale
vocale e` approssimativamente stazionario su 10ms, si pu`o usare una finestra da 20ms nella quale
i campioni dei 10ms centrali pesano maggiormente rispetto ai primi e ultimi 5ms. La ragione per
pesare di pi`u i campioni centrali e` relativa alleffetto che la forma della finestra ha sui parametri di
uscita. Quando la finestra viene spostata nel tempo per analizzare frames successivi di un segnale,
ci possono essere delle grandi oscillazioni dei parametri calcolati se si usa una finestra rettangolare
(r(n)); per esempio, una semplice misura dellenergia ottenuta sommando il quadrato dei campioni
del segnale e` soggetta a grandi fluttuazioni non appena la finestra si sposta per includere o escludere,
allinizio o alla fine, campioni con grandi ampiezza. Unalternativa alla finestra rettangolare (8.1) e` la
finestra di Hamming:

0.54 0.46 cos( N2n
1 ) per 0 n N 1
(8.2)
h(n) =
0
altrimenti
Affusolando gli estremi della finestra evito di avere grandi effetti sui parametri anche se ho repentini
cambi nel segnale.
Alcuni dei parametri nel dominio del tempo possono essere rappresentati matematicamente nella
forma:

X
T [s(m)]w(n m) = T [s] w(n)
(8.3)
Q(n) =
m=

dove T [] e` una trasformazione, anche non lineare, pesata da una finestra w(n). Prima di essere
elaborato, il segnale pu`o venire eventualmente filtrato per isolare la banda di frequenze desiderata.
M-8.1
Write a M AT L AB function for a generic time domain processing.

M-8.1 Solution

CAPITOLO 8. ANALISI DEI SUONI

8.4
1

1
Rettangolare
Hamming

w(2Nn) w(3Nn) w(4Nn)

s(n)

Triangolare

Hanning
0
0

500
campioni (n)

1000

1
0

500
campioni (n)

1000

Figura 8.1: a sinistra vari tipi di finestre; a destra tre finestre sovrapposte al segnale s(n), spostate
rispetto allorigine di 2N , 3N e 4N campioni

function [Q,tempi] = st_processing(s,frame,overlap,fs,finestra)


%
Q
--> convoluzione di s con la finestra w
%
tempi
--> scala dei tempi di Q
%
%
s
--> segnale da elaborare
%
frame
--> durata in secondi di un frame
%
overlap --> percentuale di sovrapposizione dei frames
%
fs
--> frequenza di campionamento di s
%
finestra --> nome della finestra che si vuole usare
Ns = max(size(s))
Nframe = floor(fs * frame)
Ndiff = floor(Nframe * (1 - overlap/100))
L = floor((Ns-Nframe)/Ndiff);

%
%
%
%

numero
numero
numero
numero

di
di
di
di

campioni di s
campioni per frame
campioni tra frames
finestre

switch lower(finestra)
case hamming
window = hamming(Nframe);
case hanning
window = hanning(Nframe);
case bartlett
window = bartlett(Nframe);
case triangolare
window = triang(Nframe);
case rettangolare
window = ones(Nframe,1)/Nframe;
otherwise
window = ones(Nframe,1)/Nframe;
end;
for n=1:L
inizio = (n-1) * Ndiff + 1;

inizio della finestra

8.2. PARAMETRI NEL DOMINIO DEL TEMPO

8.5

tempi(n,1) = n* Ndiff/fs;
Q(n,1) = sum(s(inizio:inizio+Nframe-1,1) .* window);
end;

Nellequazione 8.3, w(n) pu`o essere sia un filtro FIR a risposta finita (per es. la finestra rettangolare o quella di Hamming) che ci permette di ridurre il frame rate risparmiando quindi calcoli, sia un
filtro IIR; un esempio di finestra a risposta infinita e`
 n
a per n 0
w(n) =
(8.4)
0 per n < 0
con 0 < a < 1; un simile filtro pu`o venire implementato utilizzando una semplice equazione alle
differenze, infatti
Q(n) = aQ(n 1) + T [s(n)]
(8.5)
che deve essere calcolato per ogni campione del segnale di ingresso.

8.2.1 Short-Time Average Energy e Magnitude


Per un segnale discreto la Short-Time Average Energy e` definita come:
1
E(n) =
N

n
X

s(i)2

(8.6)

i=nN +1

ovvero equivale a Q(n) dellequazione 8.3 ponendo T [] = ()2 . Nel caso particolare dellanalisi
della voce le sue grandi variazione temporali in ampiezza tra suoni vocalizzati e non, come pure tra
fonemi diversi, permette la segmentazione del parlato nei sistemi automatici di riconoscimento vocale:
aiuta per esempio a determinare linizio e la fine delle parole isolate (nei sistemi di trasmissione che
multiplexano molte conversazioni, delimitare le parole significa evitare di trasmettere le pause).
Un inconveniente della Short-Time Average Energy cos` come labbiamo precedentemente definita e` la sua sensibilit`a a grandi ampiezze di segnale (i campioni compaiono elevati al quadrato); un
semplice modo per alleviare questo problema e` quello di introdurre la Short-Time Average Magnitude
cos` definita
n
X
1
|s(i)|
(8.7)
M (n) =
N
i=nN +1

equivalente a porre T [] = | | nellequazione 8.3


M-8.2
Write two M AT L AB functions to compute Short-Time Average Energy e Magnitude.

M-8.2 Solution

Nframe=100;
%
Ns=max(size(s)); %

numero di campioni per frame


numero di campioni del segnale

for n=1:Ns;
%
calcola la Short-Time Average Energy
E(n,1)=sum(s(max(1,n-Nframe+1):n).*...

CAPITOLO 8. ANALISI DEI SUONI

8.6

s(t)

1
0

0.2

0.4

0.6

0.8

1.2

1.4

0.2

0.4

0.6

0.8

1.2

1.4

0.2

0.4

0.6

0.8

1.2

1.4

E(t)

0.5

0
0

M(t)

0.5

0
0

time (s)

Figura 8.2: In alto lespressione (/FINE SUNNY WEATHER/) con sotto le corrispondenti Short-Time
Average Energy e Short-Time Average Magnitude normalizzate al valore massimo, calcolate usando
finestre rettangolari da N=100 campioni e frame rate pari alla frequenza di campionamento del segnale
(8kHz).

s(max(1,n-Nframe+1):n))/Nframe;
end;
for n=1:Ns;
%
calcola la Short-Time Average Magnitude
M(n,1)=sum(abs(s(max(1,n-Nframe+1):n)))/Nframe;
end;
%
disegna E(t) e M(t)
E=E/max(E);
%
normalizza E(t)
tempi = (1/fS)*[1:max(size(E))]; subplot(2,1,1);
plot(tempi,E); xlabel(time (s)); ylabel(E(t));
M=M/max(M);
%
normalizza M(t)
tempi = (1/fS)*[1:max(size(M))]; subplot(2,1,2);
plot(tempi,M); xlabel(time (s)); ylabel(M(t));

La figura 8.2 mostra un esempio di segnale vocale con lenergia corrispondente, calcolata usando lalgoritmo appena definito, mentre la figura 8.3 mostra come la scelta della finestra influenzi la
Short-Time Average Energy del segnale; nelle figure i grafici sono normalizzati al valore massimo ma

8.2. PARAMETRI NEL DOMINIO DEL TEMPO

8.7

s(t)

0.2

0.4

0.6

0.8

1.2

1.4

Energy(t)

lunghezza finestra = 5ms


overlap = 50%

0.5

0.2

0.4

0.6

0.8

1.2

1.4

Energy(t)

lunghezza finestra = 10ms


overlap = 40%

0.5

0.2

0.4

0.6

0.8

1.2

1.4

Energy(t)

lunghezza finestra = 30ms


overlap = 20%

0.5

0.2

0.4

0.6

0.8

1.2

1.4

time (s)
Figura 8.3: In alto lespressione /FINE SUNNY WEATHER/ con sotto la Short-Time Average Energy calcolata con finestre di Hamming di diverse lunghezze, usando la funzione
st processing(s,frame,overlap,fs,finestra) ; si noti come diventi smussata per
finestre pi`u lunghe.
bisogna fare attenzione se si vuole confrontare uno stesso parametro applicato a segnali diversi, nel
qual caso leventuale normalizzazione va fatta rispetto ad un valore comune.

8.2.2 Short-Time Average Zero-Crossing Rate


Normalmente per ottenere informazioni sul contenuto spettrale della voce si ricorre alla trasformata
di Fourier; per alcune applicazioni un semplice parametro come la Zero-Crossing Rate (ZCR) d`a una
adeguata informazione spettrale ad un basso costo elaborativo. La ZCR corrisponde al numero di
passaggi per lo zero del segnale che matematicamente si esprime come il cambiamento di segno di
due campioni successivi. Per segnali a banda stretta (es. sinusoidi o la singola uscita di un banco di
filtri passa-banda), dalla ZCR si ricava la frequenza fondamentale (F0) del segnale:
F0 =

ZCR FS
2

(8.8)

CAPITOLO 8. ANALISI DEI SUONI

8.8
1

s(t)

0.5
0
0.5
1
0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.1

0.2

0.3

0.4
0.5
time (s)

0.6

0.7

0.8

ZCR/ms(t)

8
6
4
2
0
0

Figura 8.4: Zero-Crossing Rate (zero crossing al ms) dellespressione /SONO/ calcolata con una
finestra rettangolare di N=100 campioni e frame rate pari a quella del segnale (11kHz); si noti come si
riesca a discriminare la /S/ iniziale (suono non vocalizzato) dal resto della parola (suono vocalizzato).
dove FS e` la frequenza di campionamento del segnale e ZCR e` espressa in zero crossing per campione.
Matematicamente ZCR = Q(n) se nellequazione 8.3 pongo T [s(n)] = |sign(s(n))sign(s(n
1))|/2 e scalo la finestra w(n) di un fattore 1/N ; ottengo cos`:
Z(n) =

1
N

n
X

m=nN +1

|sign[s(m)] sign[s(m 1)]|


w(n m)
2

(8.9)

dove il segno di s(n) e` definito come:


sign(s(n)) =

1 per s(n) 0
1 altrimenti

M-8.3
Write a M AT L AB function for Zero Crossing Rate computation.

M-8.3 Solution

Nframe = 100;
Ns = max(size(s));

numero di campioni per frame

for n = 1+Nframe:Ns; % calcola la Short-Time Average ZCR


Z(n,1) = sum(abs(sign(s(n-Nframe+1:n))- ...
sign(s(n-Nframe:n-1)))/2)/Nframe;
end;

(8.10)

8.2. PARAMETRI NEL DOMINIO DEL TEMPO

Z=Z*fS/1000;

8.9

Zero-Crossing per ms

% disegna Z(t):
t = (1/fS)*[1:max(size(Z))];
plot(t,Z); xlabel(time (s)); ylabel(ZCR/ms(t));

Nellanalisi vocale la ZCR pu`o aiutare a determinare se il suono e` vocalizzato oppure no (vedi
figura 8.4); infatti il modello della generazione della voce suggerisce che lenergia della componente
vocalizzata e` concentrata al di sotto dei 3 kHz mentre quella della componente non vocalizzata si trova
a frequenze pi`u alte. Poich`e la ZCR e` in stretto rapporto con la distribuzione frequenziale di energia, ad
alte ZCR corrispondono suoni non vocalizzati (unvoiced speech) mentre a basse ZCR suoni vocalizzati
(voiced speech). Affiancata alla Short-Time Average Energy permette di individuare con precisione
linizio e la fine delle parole soprattutto nei casi di suoni quali /S/ (vedi linizio della parola di figura
8.4), /F/, /N/, /M/, /T/, /P/.
M-8.4
Implement a voiced-unvoiced detector as previously explained. Test it on real speech signals. Does
it also work for voice - music detection? Why?

A differenza della Short-Time Average Energy la ZCR e` molto sensibile al rumore (per es. quello
dei sistemi digitali, degli ADC ma anche dei 60Hz della rete di alimentazione) per cui nel caso di
conversione analogico-digitale diventa utile filtrare il segnale con un filtro passa-banda, invece del
solo filtro anti-aliasing.
M-8.5
Come nel caso della Short-Time Average Energy e della Short-Time Average Magnitude anche
la Zero-Crossing Rate puo` essere calcolata con una frequenza molto piu` bassa di quella di campionamento del segnale (vedi figura 8.5). Calcolare Zero-Crossing Rate ricorrendo alla funzione
st processing vista prima.

M-8.5 Solution

Ns = max(size(s));
finestra = hamming;
%
calcola la Short-Time Average Energy
[E,tE]=st_processing(s.2,0.012,50,fS,finestra);
%
calcola la Short-Time Average Magnitude
[M,tM]=st_processing(abs(s),0.012,50,fS,finestra);
%
calcola la Short-Time Average ZCR (ZC per campione)
[Z,tZ]=st_processing([0; 0.5*abs(sign(s(2:Ns))-sign(s(1:Ns-1)))],...
0.012,50,fS,rettangolare);
%
disegna i segnali
E=E/max(E)*0.8;
%
normalizza
subplot(3,1,1); plot(tE,E); xlabel(time (s)); ylabel(Energy(t));
M=M/max(M)*0.8;
%
normalizza
subplot(3,1,2); plot(tM,M); xlabel(time (s)); ylabel(Magnitude(t));
Z=Z*fS/1000;
%
ZCR per ms
subplot(3,1,3); plot(tZ,Z); xlabel(time (s)); ylabel(ZCR/ms(t));

CAPITOLO 8. ANALISI DEI SUONI

8.10

Energy(t)

0.5

Magnitude(t)

0
0
1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.1

0.2

0.3

0.4
0.5
time (s)

0.6

0.7

0.8

0.9

0.5

ZCR/ms(t)

0
0
10

0
0

Figura 8.5: Short-Time Average Energy , Short-Time Average Magnitude e Zero-Crossing Rate dellespressione /SONO/ campionata a 11kHz ed elaborata con frame di 12.5ms e overlap tra i frames del
50%; riducendo loverlap e allungando le finestre temporali (frame) i parametri nel dominio del tempo
perdono in risoluzione temporale ma conservano ugualmente le caratteristiche del segnale (vedere per
un confronto la Zero-Crossing Rate della figura 8.4).

8.2.3 Short-Time Autocorrelation Function


Il segnale che corrisponde allanti-trasformata di Fourier della densit`a spettrale di energia (C s (f )) e`
lautocorrelazione del segnale; in formule
F[(k)] = Cs (f ) = |S(f )|2

(8.11)

Per un segnale discreto e` definita come


(k) =

s(m)s(m + k)

(8.12)

m=

Lautocorrelazione conserva le informazioni che riguardano le armoniche del segnale, lampiezza


delle formanti e la loro frequenza. Dallequazione 8.12 si vede che (k) misura in un certo senso la
somiglianza del segnale con la sua versione traslata; avr`a quindi valori pi`u grandi in corrispondenza
dei ritardi k per cui s(m) e s(m + k) hanno forme donda simili. Alcune importanti propriet`a di (k)
sono le seguenti:

8.2. PARAMETRI NEL DOMINIO DEL TEMPO

8.11

s(n)

0.5
0
0.5
1
0

100

200

300

100

200

300

400
500
campioni(n)

600

700

800

600

700

800

R0(k)

0.5

0.5
0

400
k

500

Figura 8.6: Frame da 800 campioni di suono vocalizzato campionato a 8kHz e sua Short-Time
Autocorrelation Function
1. e` una funzione pari: (k) = (k)
2. per k = 0 assume il suo massimo valore: (0) |(k)|k
3. (0) corrisponde allenergia del segnale (o alla potenza media se i segnali sono periodici o non
deterministici)
4. se il segnale e` periodico con periodo P anche lautocorrelazione e` periodica con lo stesso
periodo: (k) = (k + P ) (propriet`a importante se si vuole stimare la periodicit`a del segnale)
La Short-Time Autocorrelation Function e` ottenuta dallequazione 8.12 filtrando il segnale con
delle opportune finestre temporali w(n):
Rn (k) =

s(m)w(n m)s(m + k)w(n k m)

(8.13)

m=

Con un opportuno cambio di variabili lequazione precedente pu`o essere riscritta nella forma
Rn (k) =

[s(n + m)w (m)][s(n + m + k)w (k + m)]

(8.14)

m=

dove w (n) = w(n); se ora w (n) ha durata finita N ottengo


Rn (k) =

NX
1k

[s(n + m)w (m)][s(n + m + k)w (k + m)]

m=0

M-8.6
Write a M AT L AB function for computing the Short-Time Autocorrelation Function .

(8.15)

CAPITOLO 8. ANALISI DEI SUONI

8.12
1

s(n)

0.5
0
0.5
1
0

100

200

300

100

200

300

400
500
campioni(n)

600

700

800

600

700

800

R0(k)

0.5
0

0.5
1
0

400
k

500

Figura 8.7: Frame di suono non vocalizzato /S/ campionato a 11kHz e sua Short-Time Autocorrelation
Function ; si noti come assomigli ad un rumore e come si differenzi da quella di figura 8.6.

M-8.6 Solution

Ns = max(size(s));
window = ones(Ns,1);

%
%

numero di campioni
finestra rettangolare

s_w = s.*window;
for k = 1:Ns-1;
% calcola la Short-Time Autocorrelation
R0(k) = sum(s_w(1:Ns-k).* ...
s_w(k+1:Ns));
end;
% disegna R0(k):
R0=R0/max(abs(R0));
% normalizza R0(k)
plot(1:max(size(R0)),R0); xlabel(k); ylabel(R_0(k));

La Short-Time Autocorrelation Function trova applicazione nellestrazione del pitch e nella discriminazione tra suono vocalizzato (figura 8.6) e non vocalizzato (figura 8.7). Nella determinazione
di F0, Rn (k) deve essere calcolata per diversi valori di k prossimi al numero di campioni del periodo di pitch (che dura da un minimo di 3ms per la voce femminile a un massimo di 20ms per quella
maschile); se per esempio desidero avere una risoluzione del periodo di pitch di 0.1ms con un segnale
campionato a 10kHz devo calcolare Rn (k) per 170 valori di k. In questi casi la finestra w(n) deve
avere una durata almeno doppia rispetto al periodo del segnale che si vuole stimare.

8.2. PARAMETRI NEL DOMINIO DEL TEMPO

8.13

1
0.9
0.8

AMDF(k)

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

100

200

300

400

500

Figura 8.8: Short-time Average Magnitude Difference Function del frame di suono vocalizzato di
figura 8.6.
1
0.9
0.8
0.7

AMDF(k)

0.6
0.5
0.4
0.3
0.2
0.1
0
0

50

100

150

200

250

Figura 8.9: Short-Time AMDF del frame /S/ di figura 8.7.

8.2.4 Short-Time Average Magnitude Difference Function


Unalternativa alla Short-Time Autocorrelation Function per la stima di F0 e` la Short-time Average
Magnitude Difference Function (AMDF). Per un segnale periodico di periodo P ho che la successione
d(n) = s(n) s(n k)

(8.16)

e` uguale a zero per k = 0, P, 2P, . . ., quindi invece di moltiplicare s(m) per s(m k) posso
considerare il valore assoluto della loro differenza:
n (k) =

|s(n + m)w(m) s(n + m k)w(m k)|

(8.17)

m=

dalla quale si pu`o ricavarne una pi`u semplice versione prendendo w(n) rettangolare di durata N:
AM DF (k) =

N
1
X

|s(m) s(m k)|

m=k

M-8.7
Write a M AT L AB function for Short-time Average Magnitude Difference Function computing.

(8.18)

CAPITOLO 8. ANALISI DEI SUONI

8.14
1

s(n)

0.5
0
0.5
1
1.5
0

50

100

150
200
campioni(n)

250

300

350

150

250

300

350

R0(k)

0.5
0

0.5
k =67
M

1
0

50

100

200
k

Figura 8.10: Frame del fonema /OH/ (350 valori campionati a 8kHz) e sua Short-Time Autocorrelation
Function ; il secondo massimo e` posizionato a k M = 67 da cui si pu`o ricavare la periodicit`a della
frequenza fondamentale del segnale (F0 120Hz).

M-8.7 Solution

Ns=max(size(s));

numero di campioni

window=ones(ceil(Ns/2)+1,1);

finestra rettangolare

for k=1:floor(Ns/2)-1; % calcola la Short-Time AMDF


STAMDF(k) = sum(abs(s(floor(Ns/2):Ns).* window - ...
s(floor(Ns/2)-k:Ns-k).* window));
end;
% disegna STAMDF(t):
STAMDF=STAMDF/max(STAMDF);
% normalizza STAMDF(t)
plot(1:max(size(STAMDF)),STAMDF); xlabel(k); ylabel(AMDF(k));

Le figure 8.8 e 8.9 mostrano landamento tipico della Short-Time AMDF per diversi frame: linformazione che la Short-Time Autocorrelation Function dava sulla spaziatura temporale tra i massimi, corrispondente al reciproco della frequenza fondamentale, pu`o essere ricavata ora considerando
i minimi della Short-Time AMDF. Dal punto di vista computazionale se si usa hardware a virgola
fissa il calcolo della Short-time Average Magnitude Difference Function e` pi`u veloce di quello della
Short-Time Autocorrelation Function .

8.2. PARAMETRI NEL DOMINIO DEL TEMPO

8.15

0.9

AMDF(k)

0.8

0.7

0.6

0.5

0.4
k
0.3
0

20

40

60

=66

80

100

120

140

160

180

Figura 8.11: Short-Time AMDF del frame /OH/ di figura 8.10; qui la periodicit`a si ricava andando a
cercare il secondo minimo (km = 66).

8.2.5 Stima del pitch (F0)


Determinare la frequenza fondamentale (F0) o il pitch di un segnale e` un problema in molte applicazioni. Il suono vocalizzato viene generato dalla vibrazione delle corde vocali e il pitch si riferisce
alla frequenza fondamentale di questa vibrazione. Dalla Short-Time Autocorrelation Function ricavo
linformazione sulla periodicit`a del segnale andando a trovare k M , cio`e il primo massimo dopo quello
per k = 0:
FS
(8.19)
F0 =
kM
dove FS e` la frequenza di campionamento del segnale (vedi figura 8.10). Utilizzando invece la ShortTime AMDF devo considerare il primo minimo dopo quello per k = 0 (k m nella figura 8.11).
Tipicamente uno stimatore del pitch effettua tre operazioni:
pre-processing: filtraggio e semplificazione del segnale attraverso la riduzione dei dati;
estrazione del periodo;
post-procesing: correzione di eventuali errori.
Lestrazione del periodo mediante lindividuazione dei massimi dellautocorrelazione fa uso di trasformazioni non lineari del segnale (es. center clipping).
M-8.8
Compute the pitch with Short-Time Autocorrelation Function .

M-8.8 Solution

inizio=floor(fS*0.001);
% salta il primo massimo
[massimo,kM] = max(R0(inizio:max(size(R0))));
kM=kM + inizio -1;
F0=fS/kM;

CAPITOLO 8. ANALISI DEI SUONI

8.16
M-8.9

Compute the pitch with Short-time Average Magnitude Difference Function .

M-8.9 Solution

inizio=floor(fS*0.001);
% salta il primo minimo
[minimo,km] = min(STAMDF(inizio:max(size(STAMDF))));
km=km + inizio -1;
F0=fS/km;

Bisogna tenere presente che talvolta il terzo massimo ha ampiezza maggiore del secondo nel
qual caso, con le funzioni appena definite, sbaglieremmo la stima (che sarebbe quella di unarmonica
della frequenza fondamentale); per questo motivo spesso si affiancano altri metodi per evitare errori
grossolani.

8.3 Stima dellinviluppo spettrale


Linviluppo spettrale e` considerato un elemento molto significativo nella caratterizzazione dei suoni,
specie nella voce. Esse infatti sono caratterizzate da uno spettro armonico, cui e` sovrapposto un
inviluppo. Le zone in frequenza, in cui si concentra lenergia, sono in corrispondenza con le principali
risonanze del tratto vocale (percorso del suono dalle corde vocali fino allesterno della bocca). Queste
risonanze, chiamate formanti, sono peculiari per la differenziazione e il riconoscimento delle vocali
stesse (vedi fig. 8.12). Anche le varie famiglie di strumenti musicali sono spesso distinte tra loro da
tipici inviluppi spettrali. Spesso, nelle trasformazioni del suono, si parla, anche se impropriamente, di
cambiamento dellaltezza (pitch shifting) con preservazione del timbro, quando si preserva linviluppo
spettrale.

8.3.1 Stima dellinviluppo spettrale mediante banco di filtri


Una prima maniera consiste nel fare una approssimazione, mediante segmenti, dello spettro in ampiezza. Si selezionano i massimi e si congiungono con linee rette, oppure si possono prendere punti equispaziati sullasse delle frequenze e si congiungono con segmenti. Le ascisse (frequenze) dei punti
possono anche essere scelte su una scala logaritmica o altra spaziatura percettivamente significativa. Questo metodo e` abbastanza flessibile, ma non molto preciso. Questi punti si possono ottenere
mediante luso di un banco di filtri passabanda equispaziati (a banda costante), o distribuiti logaritmicamente sullasse delle frequenze (cosidetti filtri a Q costante, dove Q e` il rapporto tra la larghezza
di banda, e la frequenza centrale del filtro). Un esempio sono i cosidetti filtri di ottava o di terza. In
alcuni casi essi sono progettati per riprodurre il comportamento della coclea. dal punto di vista computazionale i filtri possono essere realizzati mediante FFT, calcolando prima lo spettro (in modulo) e
poi sommando i contributi di ciascun bin frequenziale pesato dalla risposta in frequenza del r-esimo
filtro. Se i filtri sono passabanda rettangolari, basta sommare i contributi dei bin appartenenti alla
banda r-esima. Risulta cio`e che lenergia E r (j) per il canale r-esimo del j-esimo frame e` data da
Er (j) =

1 X
|Xj (k)|2
N
kBr

8.3. STIMA DELLINVILUPPO SPETTRALE

(a)

8.17

(b)

Figura 8.12: rappresentazione dei baricentri delle vocali nel piano descritto dalla frequenza F 1 e F 2
delle prime due formanti. Esse formano approssimativamente un triangolo (a). Frequenza delle prime
formanti delle vocali inglesi (b).

dove Br indica linsieme delle componenti spettrali appartenenti al filtro r-esimo e N la dimensione
della FFT. Talvolta il risultato e` normalizzato (diviso) per la larghezza di banda; altre volte no. Questo
dipende dalluso che poi ne viene fatto.
M-8.10
Write a M AT L AB function for the spectral envelope computing, with the filterbank approach. Try a
filterbank of frequency linearly spaced filters and logarithmic spaced filters (e.g. third octave filters).

M-8.11
Write a M AT L AB function for the spectral envelope computing, with the gamma tone filterbank approach. Look in the literature or on the web for gammatone filter definition. gamma tone filters
simulate the behaviour of the cochlea.

8.3.2 Stima dellinviluppo spettrale mediante predizione lineare (LPC)


Unaltro metodo consiste nel fare una approssimazione mediante predizione lineare (LPC) come visto
nel capitolo sulla sintesi. In questo caso si stima un filtro a soli poli che approssima lo spettro. Quando
lordine del filtro e` basso, viene solo seguito linviluppo spettrale, trascurando la struttura fine dello
spettro prodotta dalle periodicit`a del suono. Nella sezione 8.3.2.1 sono riportati alcuni esempi di
analisi mediante predizione lineare (LPC).
Di seguito sono riportati due metodi non lineari particolarmente efficaci, consistenti nel cosiddetto cepstrum e nella sua variante mel-cepstrum. Questultimo metodo fornisce la parametrizzazione
dellinviluppo spettrale pi`u efficace nel riconoscimento del parlato e degli strumenti musicali.

8.18

CAPITOLO 8. ANALISI DEI SUONI

M-8.12
Write a M AT L AB function for the spectral envelope computing, with the LPC approach. Experiment
different filter lengths p and compare with the original signal spectrum. Apply your function to
different kinds of sounds: musicals, speech and environmental noises.

M-8.13
In LPC analysis, the position of formants (resonances) is related to the poles of the estimated
transfer function. Factorize the denominator of the transfer function and estimate the frequency of
the formants. Note that if k is the argument of zk complex conjugate zero of the denominator, then
its corresponding resonant frequency fk derives from k = 2fk /Fs ; the formant bandwith Bk is
related to the zero modulus by |zk | = exp(B/Fs ).

8.3.2.1

Esempi di analisi mediante predizione lineare (LPC)

Figura 8.13: Analisi LPC della vocale /i/


Nella fig. 8.13 e` riportata lanalisi della vocale /i/ mediante predizione lineare (LPC), [tratto da
J. D. Markel, Formant Trajectory Estimation from a Linear Least Squares Inverse Filter Formulation,
Speech Communications Research Lab Monograph #7, Oct. 1971.] In fig. 8.13 (a) il frame del
segnale cui e` stata applicata la finestra di Hamming; (b) lo spettro del segnale; (c) lo spettro del filtro
inverso; (d) linviluppo spettrale stimato come reciproco dello spettro del filtro inverso; (e) il residuo
(eccitazione); (f) spettro del residuo. La frequenza di campionamento e` 10 kHz; lunghezza del frame
N = 320 (32 ms); ordine del filtro LPC p = 14. Nella fig. 8.14 e` riportata lanalisi mediante
predizione lineare (LPC) di un suono non vocalizzato (non periodico) costituito dalla consonante
fricativa /s/. Infine nella fig. 8.15 e` riportata lanalisi della vocale /ae/ al variare dellordine del filtro
LPC di predizione lineare: (a) il frame del segnale cui e` stata applicata la finestra di Hamming; (b) lo
spettro del segnale; (c-f) linviluppo stimato con p che varia da 6 a 18. La frequenza di campionamento
e` 6 kHz.

8.3.3 Stima dellinviluppo spettrale mediante cepstrum


Il metodo del cepstrum consente la separazione di un segnale y(n) = x(n) h(n), basato sul modello
sorgente-filtro, in cui la sorgente x(n) passa attraverso un filtro descritto dalla risposta allimpulso

8.3. STIMA DELLINVILUPPO SPETTRALE

8.19

Figura 8.14: Analisi LPC della fricativa /s/


h(n). Lo spettro del segnale y(n) risulta Y (k) = X(k) H(k), che e` il prodotto di due spettri; k e`
lindice per le frequenze discrete. Il primo corrisponde allo spettro della sorgente e il secondo a quello
del filtro. E difficile separare questi due spettri; pi`u facile e` separare linviluppo (reale) del filtro dal
resto dello spettro, attribuendo tutta la fase alla sorgente. Lidea del cesptrum si basa sulla propriet`a
del logaritmo log(a b) = log(a) + log(b).
Se prendiamo il logaritmo del modulo dello spettro Y (k), otteniamo
log |Y (k)| = log(|X(k) H(k)|) = log |X(k)| + log |H(k)|
Se consideriamo il grafico di log |Y (k)| come un segnale nel tempo (dimenticandoci temporaneamente
che in realt`a e` in frequenza), si possono distinguere due componenti: una oscillazione veloce, dovuta
alla struttura armonica (righe) delleccitazione, e un andamento pi`u lento corrispondente alle risonanze
del filtro (inviluppo spettrale). Si pu`o quindi ottenere una separazione delle due componenti, cio`e
componente a variazione veloce e quella a variazione lenta, mediante rispettivamente un filtro passa
alto e passa-basso, del segnale log |Y (k)| sempre interpretato come segnale nel tempo, vedi fig. 8.16
(sopra).
Un metodo per separare le due componenti, consiste nellusare la trasformata (nel nostro caso
inversa) di Fourier. Pertanto
DFT1 (log |Y (k)|) = DFT1 (log |X(k)|) + DFT1 (log |H(k)|)
La parte di DFT1 (log |Y (k)|) verso lorigine descrive linviluppo spettrale, quella distante leccitazione. In particolare si noter`a una specie di riga in corrispondenza della periodicit`a del log |Y (k)|
e quindi del periodo del suono , vedi fig. 8.16 (sotto). A questo punto si pu`o capire il gioco di parole che sta alla base del nome cesptrum. Infatti la parola ceps-trum corrisponde a spec-trum con la
prima parte letta allinverso. Analogamente si chiamiamo quefrency la ascissa di DFT 1 (log |Y (k)|)
invece che frequency. Normalmente infatti la DFT 1 produce un segnale nel tempo, ma qui invece va

8.20

CAPITOLO 8. ANALISI DEI SUONI

Figura 8.15: Analisi LPC della vocale /ae/ al variare dellordine p del filtro di predizione lineare.
interpretato come frequenza. In definitiva il cesptrum (reale) e` dato da
c(n) = DFT1 (log |Y (k)|)

(8.20)

Si noti che il cepstrum e` una funzione pari dell indice n, in quanto log |Y (k)| e` una funzione reale e
pari. Questa propriet`a consente di usare la trasformata coseno inversa per ottenere c(n) da log |Y (k)|.
Lindice n di c(n) e` chiamato quefrency, dove ad alta quefrency (variazioni rapide nello spettro in
dB) corrispondono valori di n grandi e viceversa. Pertanto si pu`o assumere che i valori bassi della
quefrency descrivano linviluppo spettrale, mentre quelli alti corrispondono alleccitazione o sorgente.
La separazione e` ottenuta moltiplicando il cepstrum per una finestra passa basso w LP (n) nel
dominio del cepstrum. Ad es.

|n| < nc
1
wLP (n) =
0.5 |n| = nc

0
|n| > nc

dove nc e` una opportuna soglia. Ad esempio per i suoni vocalizzati possiamo considerare che il
formante pi`u basso F1 di un maschio adulto sia circa F1 = 270 Hz. Le oscillazioni dello spettro
corrispondenti allinviluppo non devono avere componenti sopra la quefrency q p = 3, 7 ms = 1/270
Hz. In definitiva per suoni periodici, n c < np , con np periodo in campioni. Per una frequenza di
campionamento fS = 44.1 kHz, risulta np = fS qp = fS /F1 = 163 campioni. In pratica verr`a scelto
come soglia un valore leggermente inferiore. Si noti che per la voce femminile la separazione e` pi`u
difficile. Infatti laltezza media della voce femminile e` di circa 256 Hz, mentre il formante pi`u basso
e` a 310 Hz. Questi valori sono piuttosto vicini, e quindi meno facilmente separabili.
Linviluppo spettrale, in una scala proporzionale ai decibel, e` dato da
log H(k) = DFT[ wLP c(n) ] = DFT[wLP (n) DFT1 (log |Y (k)|) ]

(8.21)

In fig. 8.17 sono riportati esempi di analisi cepstrale per suoni vocalizzati e non vocalizzati, tratti da
[Schafer and Rabiner, System for Automatic Formant Analysis of Voiced Speech, JASA, vol. 47,
1970, p. 634] .

8.3. STIMA DELLINVILUPPO SPETTRALE

8.21

Figura 8.16: Esempio di cepstrum: sopra e` rappresentato log |Y (k)| 2 ; sotto il corrispondente cepstrum
c(n) = DFT1 (log |Y (k)|)
M-8.14
Write a M AT L AB function for the spectral envelope computing, with the cepstral approach and experiment it for different kinds of sounds. Develop a pitch estimate function based on cepstral approach.

Si noti inoltre che i massimi dellinviluppo spettrale corrispondono alle risonanze (formanti) molto
caratteristiche per differenziare le varie vocali. Essi possono quindi essere individuati dallinviluppo
spettrale, come mostrato in fig. 8.18.
M-8.15
Estimate the formants of a voice in a song and plot their position on the spectrogram.

8.3.4 Analisi mediante mel-cepstrum


Studi di psicoacustica hanno mostrato che la percezione umana del contenuto frequenziale del suono
non segue una scala lineare, ma allincirca logaritmica. Infatti per ogni tono di f, misurata in Hz,
corrisponde una altezza soggettiva misurata su una scala chiamata scala mel. Come riferimento della
scala mel, si ha che 1000 Hz corrispondono a 1000 mel. Si usa una trasformazione non lineare della
scala della frequenza per ottenere il corrispondente valore in mel (fig. 8.19), data da
(
f
 if f 1 kHz

mel(f ) =
f
if f > 1 kHz
2595 log 10 1 + 700
Per applicare la scala mel al cepstrum, si usa un banco di filtri triangolari passabanda con frequenza centrale in K valori equispaziati in mel, vedi fig. 8.20. La larghezza di banda di ciascun
filtro e` la distanza dalla frequenza centrale del filtro precedente, moltiplicata per due. Il primo filtro

CAPITOLO 8. ANALISI DEI SUONI

8.22

Figura 8.17: Esempio di analisi cepstrale per suoni vocalizzati e non vocalizzati
parte da 0. Pertanto la larghezza di banda dei filtri sotto 1000 Hz sar`a di 200 Hz; poi essa crescer`a
esponenzialmente. Pertanto i filtri saranno a banda costante fino a 1000Hz, a Q costante sopra.
Il mel-cesptrum vuole stimare linviluppo spettrale delluscita di questo banco di filtri. Sia quindi
Yn il logaritmo dellenergia in uscita dal canale n, attraverso la trasformata coseno discreta (DCT)
ottengo i coefficienti mel-cepstrali MFCC (mel frequency cepstral coefficient) mediante lequazione
 
 
N
X
1
Yn cos k n
ck =
k = 0, . . . , K
2 N
n=1
Si ricostruisce un inviluppo spettrale semplificato usando i primi K m coefficienti, con Km < K,
analogamente a quanto visto per la stima dellinviluppo con il cepstrum

C(mel)
=

Km
X
k=1

ck cos(2k

mel
)
Bm

dove Bm = e` la larghezza della banda analizzata, espressa in mel. Un tipico valore di K m usato la
caratterizzazione e classificazione della musica e` K m = 20. Si noti che il coefficiente c0 e` il valore
medio dei valori (in dB) dellenergia dei canali del banco di filtri. Pertanto esso e` in diretta relazione
con lenergia del suono. Esso pu`o servire per la stima dellenergia. Inoltre normalmente viene trascurato, quando si vuole fare un confronto della forma dellinviluppo, normalizzato in energia, di vari
suoni, ad esempio nei problemi di riconoscimento.
M-8.16
Write a M AT L AB function for the spectral envelope computing, with the mel-cepstral approach and
experiment it for different kinds of sounds. Compare the results obtained with the different spectral
envelope algorithms.

In fig. 8.21 e` mostrato un esempio di analisi con mel-cesptrum. In essa sono confrontati spettri
in decibel, rappresentati su una scala frequenziale logaritmica. Nel primo quadrante e` rappresentato

8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALLANALISI SPETTRALE

8.23

Figura 8.18: Automatically formant estimation from cepstrally smooted log Spectra [from Schaefer
Rabiner].
lo spettro del suono. Nel secondo (in alto a destra) linviluppo ottenuto mediante mel-cesptrum. Nel
terzo (in basso a sinistra) linviluppo ottenuto mediante predizione lineare. Infine nellultimo grafico,
lo spettro ottenuto usando tutti i coefficienti spettrali

8.4 Attributi a medio livello ricavabili dallanalisi spettrale


Dallanalisi spettrale del suono vengono ricavati dei parametri che danno una descrizione delle caratteristiche fisiche a basso livello del suono. In particolare si ricava lampiezza, fase e frequenza istantanee di ogni parziale. Nel modello sinusoidale pi`u rumore si puo anche ricavare una descrizione
delle caratteristiche spettrali del rumore. A partire da questi parametri a basso livello, e` possibile
ricavare una descrizione ad un livello di astrazione pi`u alto, che possa servire sia per una eventuale
trasformazione del suono stesso nella resintesi, sia per riconoscere la sorgente o per ricavare altre
informazioni da essa trasmesse.
Nel caso questi parametri vengano poi usati per la trasformazione, e` bene che siano di interpretazione intuitiva e che facciano riferimento, in qualche modo, agli attributi percettivi del suono. In
altri casi si ricavano dallo spettro ad esempio il grado di armonicit`a, la rumorisit`a, la brillantezza;
questi attributi descrivono le caratteristiche del suono e sono utili nei problemi di riconoscimento.
Oltre agli attributi istantanei del suono, spesso sono utili le loro derivate. La derivata prima descrive la tendenza dellevoluzione temporale, in quellistante; talvolta viene presa in considerazione
anche la derivata seconda, che descrive laccelerazione dellevoluzione temporale, che risulta spesso
pi`u in relazione con le scelte volontarie. Nei segnali discreti, la derivata viene sostituita dal calcolo
della differenza tra il valore corrente ed il precedente d(n) = p(n) p(n 1). Spesso per`o la stima
della derivata cos` ottenuta e` abbastanza rumorosa ed e` opportuno smussarla. A questo scopo per ogni
istante si calcola la parabola che approssima, ai minimi quadrati, il valore del parametro in tre punti
adiacenti. Si usa quindi la derivata (prima o seconda) della parabola nel punto centrale. Dallanalisi di

CAPITOLO 8. ANALISI DEI SUONI

8.24
3500

3000

2500

mel

2000

1500

1000

500

0
0

1000

2000

3000

4000

5000
Hz

6000

7000

8000

9000

10000

Figura 8.19: Trasformazione da Hz a mel


1
0.9
0.8

Transmission

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

1000

2000

3000

4000
5000
Frequency (Hz)

6000

7000

8000

Figura 8.20: Banco di filtri su scala mel


questi parametri e della loro evoluzione, viene aiutata la segmentazione del suono, cio`e la separazione
di regioni temporali con andamento omogeneo.
M-8.17
Plot the time evolution of the first mel-cesptral coefficient of the analisis of a music fragment. Is it
useful for detecting the transients and separating the notes?

M-8.18
Compute the first Km mel cepstrum coefficients of a set of notes of different instruments of the
same pitch. Are there similarities among instruments of the same kind? How they vary wth the
different dynamics (lodness) of the notes? Repeat the experiment with the sound of the same
instrument played at different pitches.

8.4.1 Attributi a basso livello


Descriviamo ora pi`u in dettaglio gli attributi pi`u significativi che si ottengono dalla rappresentazione
sinusoidale pi`u rumore (o meglio residuo). Sia il suono x(n) scomposto nelle due componenti x S (n)

8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALLANALISI SPETTRALE


Spectrum

Spectral Shape rebuild from 6 MFCC


20
Rel. Level (dB)

Level (dB)

60

40

20

100

500 1000

20

5000

100

500 1000
5000
Hz
Spectral Shape rebuild from 26 MFCC

Spectral Shape rebuild from LPC

20
Rel. Level (dB)

20
Rel. Level (dB)

8.25

20

100

500 1000
Hz

20

5000

100

500 1000
Hz

5000

Figura 8.21: Esempio di analisi del suono di un clarinetto con mel-cesptrum.


P
sinusoidale e xR (n) residuo: x(n) = xS (n) + xN (n), con xS (n) = Ii=1 ai cos[n2fi (n)/FS +
i (n)]. In questa espressione ai rappresenta lampiezza, in scala lineare, della i-esima armonica e f i
la sua frequenza. Essi sono parametri che variano nel tempo. Gli attributi qui descritti si intendono
ricavati dallanalisi di un frame e vengono in genere riferiti temporalmente al centro del frame stesso,
oppure alla fine quando lanalisi viene fatta in tempo reale. Essi sono quindi attributi istantanei del
suono in esame. I pi`u usati sono:
ampiezza totale della componente sinusoidale risultante dalla somma di tutte le parziali di un
frame espresse in decibel
!
I
X
AStot = 20 log 10
ai
i=1

dove ai e` lampiezza della parziale i-esima;


ampiezza della componente residuo, ottenuta dalla somma dei valori assoluti del residuo nel
frame
!
!
M
1
N
1
X
X
ARtot = 20 log 10
|xR (n)| = 20 log 10
|XR (k)|
n=0

k=0

ampiezza totale del suono


Atot = 20 log 10
= 20 log 10

M
1
X
n=0

I
X

N
1
X

i=1

|x(n)|

ai +

k=0

= 20 log 10

N
1
X
k=0

|XR (k)|

|X(k)|

CAPITOLO 8. ANALISI DEI SUONI

8.26

peso dellarmonica i-esima rispetto al totale della componente sinusoidale


ai
wi = PI
i=1 ai

la frequenza fondamentale (pitch), che puo essere ottenuta come media pesata delle frequenze
normalizzate di tutte le armoniche,
F0 =

I
X
fi
i=1

wi

In un suono esattamente periodico, tutte le parziali sono multiple della fondamentale. Cio`e vale
fi = iF 0. Nei suoni reali questo vale solo approssimativamente e pertanto la fondamentale
deve essere stimata con espressioni del tipo di quella sopra indicata.

8.4.2 Attributi a livello superiore


Vengono ora presentati attributi a pi`u alto livello che descrivono le caratteristiche spettrali del suono.
Questi attributi sono anchessi ricavati a livello di frame e sono quindi considerati istantanei, nel senso
precisato sopra. I pi`u usati sono:
disarmonicit`a
HD =

I
X

|fi iFo | wi

i=1

rumorosit`a (noiseness) e` il rapporto tra lenergia della parte rumorosa e lenergia totale
PM 1
|xR (n)|
N oisiness = Pn=0
M 1
n=0 |x(n)|
In Mpeg7 si chiama AudioHarmonicity ed e` un descrittore del segnale.

brillantezza, determinata come il baricentro dello spettro


PN 1
k|X(k)| FS
BR = Pk=0

N 1
N
|X(k)|
k=0

Nel caso di suono armonici, dotati cio`e di altezza, si definisce anche la brillantezza in relazione
alla fondamentale F 0 come
PI
I
i ai X
i wi
=
BRF 0 = Pi=1
I
a
i
i=1
i=1

pendenza spettrale, ottenuta dalla regressione lineare sui punti (f i , ai )


Stilt = PI

2
i=1 ti

dove

1
ti =
wi

PI

I
X
ti ai
i=1

wi

fi /wi2
fi Pi=1
I
2
i=1 1/wi

8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALLANALISI SPETTRALE

8.27

deviazione spettrale delle armoniche (Harmonic Spectral Deviation)


I

HDEV =

1X
[ ai spec env(fi ) ]
I
i=1

dove spec env(fi ) e` linviluppo spettrale stimato con un dei metodi visti sipra, vautato alla
frequenza fi della i-esima armonica. Questo parametro fa parte dei descrittori spettrali del
timbro in Mpeg7.
rapporto lenergia delle armoniche dispari e pari
P
OER = P

2
i=pari ai

2
i=dispari ai

Questo parametro e` utile per distinguere i suoni tipo clarinetti, che hanno poca energia nelle
armoniche pari, comportandosi come un tubo chiuso ad una estremit`a, da quelli tipo tromba,
che hanno energia simile nei due tipi di armoniche.
tristimulus. Questi parametri sono stati pensati per pesare differentemente le armoniche nelle
varie zone: fondamentale (T 1), dalla seconda alla quarta (T 2), le rimanenti (T 3). E definito da
PI
ai
a2 + a3 + a4
a1
P
P
T2 =
T 3 = Pi=5 = 1 T 1 T 2
T1 =
a
a
a
i i
i i
i i
In fig. 8.22(a) e` riportata la tipica rappresentazione del tristimulus dove nellasse x e` indicato

(a)

(b)

Figura 8.22: (a) Basic layout of the tristimulus diagram: T 3 vs. T 2. (b) Tristimulus diagram showing
the timbral time course of a note played on a clarinet. The numbers alongside the plot represent time
in milliseconds after the onset of the note and the white circle represents the steady state timbre, after
an initial transient. (Pollard and Jansson, 1982)
T 3 e nellasse y e` indicato T2. Pertanto i suoni con alto T1 (fonadmentale forte) sono vicino

CAPITOLO 8. ANALISI DEI SUONI

8.28

allorigine, con alto T2 (alte armniche medie) sono in alto, con alto T3 (alte armoniche superiori)
sono a destra. Inoltre il fatto che la somma di T 1 + T 2 + T 3 = 1 implica che i suoni siano
rappresentati dentro il triangolo con vertici in (0,0), (0,1) e (1,0). In fig. 8.22(b) e` rappresentata
levoluzione del tristimulus di una nota di clarinetto.
bandwidth
BW =

PN 1
k=0

ampiezza (valore efficace del suono)


amp =

|X(k)| |fk BR|


PN 1
k=0 |X(k)|
sX

X(k)2

spectral rolloff definito come la frequenza R s sotto la quale e` concentrata 85% della distribuzione di ampiezza
Rs
N
1
X
X
|X(k)|
|X(k)| = 0.85
k=1

k=1

Questa e` una altra misura della forma dello spettro.

flusso spettrale (Spectral Flux) e` definito come la distanza euclidea tra due spettri in ampiezza
di frames consecutivi
N
1
X
SF =
[Nt (k) Nt1 (k)]2
k=1

dove Nt (k) e Nt (k) sono rispettivamente le ampiezze spettrale della trasformata di Fourier del
frame allistant t e t 1. Il flusso spettrale e` una misura della quantit`a di variazione locale dello
spettro ed e` considerato, da alcuni esperimenti, essere correlato alla terza dimensione percettiva
del timbro (vedi la percezione del timbro nel capitolo 2 delle dispense).

M-8.19
Implement the feature descriptors described in this section and compare their effectiveness on
different kinds of sounds. Plot their evolution from the attack to the decay of a instrumental tone.
Plot their evolution on a singing voice (e.g. Toms Dinner by Susan Vega

8.4.3 Attributi di segmento sonoro


Quando si considera la successione temporale di un attributo nei frames successivi, si ottiene una funzione del tempo definita negli istanti di riferimento dei vari frames. temporalmente i punti saranno separati del hop size usato nellanalisi. Essi sono quindi sottocampionati rispetto al segnale. Con forme
di interpolazione o approssimazione, eventualmente smussando landamento, si possono ottenere gli
andamenti a frequenza di campionamento.
Come detto sopra, e` importante anche caratterizzare levoluzione temporale di questi parametri.
Inoltre si possono ricavare degli attributi di segmento. Con il termine segmento si intende una porzione
di suono di caratteristiche omogenee (ad esempio il regime sostenuto) o funzionalmente simili (ad
esempio il transitorio di attacco). Loperazione di segmentazione del suono consiste nel dividerlo in
segmenti e viene fatta esaminando gli attributi a livello di segnale. Le traiettoria degli attributi viene
descritta calcolando per ogni parametro par

8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALLANALISI SPETTRALE

8.29

la derivata al frame j
der(j) =

par(j) par(j 1)
H/FS

dove H e` lhop size e FS e` la frequenza di campionamento;


media pesata del parametro su tutti i frames j
P
mediapar =

par(j)amp(j)
P
j amp(j)

varianza pesata del parametro su tutti i frames j


P
2
j [par(j) mediapar ] amp(j)
P
varpar =
j amp(j)

Ci sono alcuni parametri che descrivono le caratteristiche di una nota. Essi si ottengono una volta
separata la nota dal contesto.
logaritmo del tempo di attacco (Log-Attack Time)
LAT = log10 (attack time)
dove attack time e` la durata del tempo di attacco del suono. Questo parametro e` molto importante per il riconoscimento dei timbri. Esso infatti e` correlato ad una delle dimensioni percettive
dello spazio timbrico ed e` stato inserito tra i descrittori temporali del timbro in MPEG7. Si noti
che la determinazione dellinizio e fine dellattacco, e` una operazione difficile: spesso la nota e`
preceduta da rumore o altro, che rende incerta la determinazione dell effettivo inizio. Inoltre
dallesame dellinviluppo temporale, non e` neppure facile determinare il termine. Spesso si fa
riferimento al massimo dellinviluppo; questo va bene per suoni percussivi, come il pianoforte.
Per suoni ad eccitazione sostenuta, come gli archi o i fiati, il massimo pu`o essere trovato ben
in avanti, quando il transitorio di attacco e` terminato; il musicista spesso tende a controllare
lespressivit`a del suono, mediante il controllo dellinviluppo temporale. Si usa quindi prendere
come soglie vaori percentuali dellampiezza massima, ad esempio rispettivamente 10 % e 90 %
percento del massimo.
rapporto rumore - parte armonica (Noise to Harmonic Ratio - NHR) definito come il rapporto tra
lenergia della parte rumorosa e lenergia della parte armonica per la parte del regime (sustain)
si definisce la modulazione dellenergia e la modulazione della frequenza fondamentale. na
volta separato il regime, si sottrae dallinviluppo denergia in dB la sua tendenza (lineare in
dB). Poi si calcola lo spettro dellinviluppo corretto e si seleziona il picco nellestensione [1
- 10 Hz]. Con lo stesso procedimento si determina la modulazione del periodo, sottraendo la
tendenza lineare della fondamentale durante il regime, e poi trovando il massimo nello spettro
dellinviluppo dellaltezza corretto. La frequenza del massimo corrisponder`e alla frequenza del
tremolo, normalmente tra 4 e 8 Hz.
baricentro dellinviluppo temporale (temporal centroid)
P
t inv(t) t
TC = P
t inv(t)

CAPITOLO 8. ANALISI DEI SUONI

8.30

dove inv(t) e` linviluppo temporale. Questo parametro e` molto utile per distinguere i suoni
percussivi da quelli sostenuti. Anche questo parametro e` inserito tra i descrittori temporali del
timbro in Mpeg7.
M-8.20
Implement the feature descriptors described in these sections and compare their effectiveness on
different kinds of sounds

8.4.4 Onset detection


A musical note is considered as composed of a initial attack transient phse, followed by a steadystate phase and a final decay. Attack transients are zones of short duration and fast variations of the
signal spectral content (non-stationarity), where resonances are still building up. Their perception is
caused by changes in the intensity, pitch or timbre of a sound. Because of the unpredictability of such
changes, they are difficult to model. Attack transients precede the steady state of the signal, when the
signal is stationary, thus easily predictable. Note onset is defined as the beginning of attack transient
of a note.
The boundaries between notes and different types of events are often ill-defined. The performer
can introduce variations and modulations in a given sound without implying the presence of new notes.
This can also occur as a consequence of the processing of the acoustic signal, recording conditions or
just as an expressivity feature in the musical performance (i.e. vibratos in woodwind, brass and string
instruments). Detection of onsets in polyphonic mixtures is difficult even for human listeners. Attack
transients present some typical behaviour: 1
Energy burst: in a notes energy profile, the highest concentration of energy can be found during
the attack (when a steep increase can be observed). After that, energy progressively decreases
(Fig. 8.23 (a)). The more impulsive the components of the signal are (percussive sounds as
opposed to tonal - more sinusoidal - sounds), the more sudden this increase-decrease energy
characteristic becomes.
Duration: the attack part of a note is usually very short, introducing significant changes to the signal
(Fig. 8.23). This abruptness is a trademark of transients. It is particularly acute for percussive
sounds.
Surprise: this is also related to the abruptness of transients, but from the statistical point of view.
New events are unconnected to previous events, thus cannot be predicted from these. The proliferation of elements whose values are completely unexpected is more likely during transients.
Chaotic nature: during transients, the signal includes unstable chaotic elements, which quickly stabilise when entering the steady state (see Fig. 8.23 (b)). These elements are not only highly
uncorrelated with previous and future signal values, but also within different signal elements at
a given time.
Steady-state: although obvious, an important characteristic of transients is that they are followed by
the steady-state of the note. Chaotic components followed by chaotic components can account
for noise, while a stable follow-up hints at the possible presence of a note.
1

from PhD dissertation of J. Bello 2003

8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALLANALISI SPETTRALE

8.31

Figura 8.23: A sequence of two piano notes (a) and the corresponding spectrogram (b). The energy
increase, short duration and instability related to transients can be observed as well as the stability of
the steady-state part [from Bello 2003].
8.4.4.1

Onset detection by Local energy

Despite the number of variants, practically all of them are based on the calculation of a first order
difference function of the signal amplitude envelopes and taking the maximum rising slope as an
onset or an onset component. An example is the algorithm based on the surfboard method of Schloss
(1985), which involves smoothing the signal to produce an amplitude envelope and finding peaks in
its slope using linear regression. In fig. 8.24 the effect of a simple onset detector based on Local
energy is shown. In fig. 8.24(a) the time-domain audio signal; in fig. 8.24(b) its smoothed amplitude
envelope drawn in bold over it, computed by a 40ms windowed RMS smoothing with 75% overlap
and in fig. 8.24(c) peaks in slope shown by dotted lines tangential to the envelope. This method is
lossy, in that it fails to detect the onsets of many notes which are masked by simultaneously sounding
notes. Occasional false onsets are detected, such as those caused by amplitude modulation in the
signal.
The first order difference function reflects well the loudness of an onsetting sound, but its maximum values fail to precisely mark the time of an onset. This is due to two reasons. First, especially
low sounds may take some time to come to the point where their amplitude is maximally rising, and
thus that point is crucially late from the physical onset of a sound and leads to an incorrect cross-band
association with the higher frequencies. Second, the onset track of a sound is most often not monotonically increasing, and thus we would have several local maxima in the first order difference function

CAPITOLO 8. ANALISI DEI SUONI

8.32

(a)

(b)

(c)

Figura 8.24: Example of onset detector based on local energy: time-domain audio signal (a), 40ms
windowed RMS smoothing with 75% overlap (b), peaks in slope of envelope (c).
near the physical onset.
It is possible to handles both of these problems by using the relative difference function. Let E(t)
the Short time energy as defined in sec. 8.2.1. The relative difference function is defined as
Dr (t) =

1 d
d
E(t) =
log E(t)
E(t) dt
dt

This function computes the amount of change in relation to the signal level. This is the same as differentiating the logarithm of the energy envelope. This is psycho-acoustically relevant, since perceived
increase in signal amplitude is in relation to its level, the same amount of increase being more prominent in a quiet signal. Indeed the just detectable change in intensity is approximately proportional to
the intensity of the signal, i.e. I/I, the Weber fraction, is a constant. This relationship holds for
intensities from about 20 dB to about 100 dB above the absolute threshold. Onset components are
detected by a simple peak picking operation, which looks for peaks above a global threshold in the
relative difference function Dr (t).
The relative difference function effectively solves the above mentioned problems by detecting
the onset times of low sounds earlier and, more importantly, by handling complicated onset tracks,
since oscillations in the onset track of a sound do not matter in relative terms after its amplitude has
started rising. In fig. 8.25 the absolute and relative difference functions of the onset of a piano sound,
on six different frequency band ,are plotted. Both of the benefits discussed can be seen clearly. To
improve the performance of the onset detector, first the overall loudness of the signal is normalized to
a reference level using a psychoacoustics model of loudness. Then a filterbank divides the signal into
many non-overlapping bands (often critical band are used). At each band, we detect onset components
and determine their time and intensity. In final phase, the onset components are combined to yield
onsets.
Energy-based algorithms are fast and easy to implement, however their effectiveness decreases
when dealing with non-percussive signals and when transient energy overlaps in complex mixtures.
Energy bursts related to transient information are more noticeable at higher frequencies as the tonal
energy is usually concentrated at lower frequencies, masking the effect of these variations on the
signal content. More advanced models utilize band-wise processing and a psychoacoustic model of
intensity coding to combine the results from the separate frequency bands.

8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALLANALISI SPETTRALE

8.33

Figura 8.25: Onset of a piano sound. First order absolute (dashed) and relative (solid) difference
functions of the amplitude envelopes of six different frequency bands [from Klapuri 1999].
8.4.4.2

Onset detection in frequency domain

This attack transient noise is particularly noticeable at high frequency locations, since at low frequencies, high concentrations of energy (in the bins corresponding to the first few harmonics of the played
note) mask this effect.
The High Frequency Content (HFC) function, is defined, for the jth frame, as
DH (j) =

k|Xj (k)|

where |Xj (.)| is the spectral magnitude of the jth frame. Aim of this function is to emphasize the
high frequency content of the sound and it works well for identifying percussive sounds. If compared
with energy, this HFC function has greater amplitude during the transient/attack time.
8.4.4.3

Onset detection by complex domain approach

The HFC precisely identifies percussive onsets, but is less responsive to non-percussive components.
In the complex domain approach, to cope with harmonic changes of low transient timbres, a target
k is generated as
STFT value X
k [n] = |X
k [n]|ej k [n]
X
k [n] = princarg(2k [n 1] k [n 2])

where k [n] is the estimated phase deviation. The measure of the Euclidean distance, in the complex
k and the observed STFT Xk allows the definition of a
domain, between the target STFT value X

CAPITOLO 8. ANALISI DEI SUONI

8.34

Figura 8.26: Piano signal (a), its high frequency content (b), the profile of High Frequency Content
function [from Bello 2003].
detection function
DC [n] =

1 X
||Xk [n] Xk [n]||2
N
k

The detection function still contains spurious peaks and some pre-processing and low pass filtering is
required before peak picking.
M-8.21
Implement the onset detectors described in these sections and compare their performance on
different kinds of music

8.4.5 Meter extimation algorithms


As a part of a larger project of modeling the cognition of basic musical structures, Temperley and
Sleator proposed a meter estimation algorithm for arbitrary MIDI files [Temperley99: D. Temperley and D. Sleator, Modeling Meter and Harmony: A Preference-Rule Approach, Computer Music
Journal, 23(1), 1027, Spring 1999]. The algorithm was based on implementing the preference rules
verbally described in [Lerdahl 1983], and produced the whole metrical hierarchy as output.
Dixon proposed a rule-based system to track the tactus pulse of expressive MIDI performances
[S. Dixon, Automatic Extraction of Tempo and Beat from Expressive Performances, J. New Music
Research 30 (1), 39-58, 2001]. The method works quite well for MIDI files of all types but has
problems with audio files which do not contain sharp attacks. The source codes of both Temperleys
and Dixons systems are publicly available for testing. See
http://www.link.cs.cmu.edu/music-analysis
and
http://www.oefai.at/simon/beatroot
M-8.22
The source codes of both Temperleys and Dixons systems are publicly available for testing. Test
and compare their performance on different kinds of music.

Indice
8 Analisi dei suoni
8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Parametri nel dominio del tempo . . . . . . . . . . . . . . . . . . . . .
8.2.1 Short-Time Average Energy e Magnitude . . . . . . . . . . . .
8.2.2 Short-Time Average Zero-Crossing Rate . . . . . . . . . . . . .
8.2.3 Short-Time Autocorrelation Function . . . . . . . . . . . . . .
8.2.4 Short-Time Average Magnitude Difference Function . . . . . .
8.2.5 Stima del pitch (F0) . . . . . . . . . . . . . . . . . . . . . . .
8.3 Stima dellinviluppo spettrale . . . . . . . . . . . . . . . . . . . . . . .
8.3.1 Stima dellinviluppo spettrale mediante banco di filtri . . . . . .
8.3.2 Stima dellinviluppo spettrale mediante predizione lineare (LPC)
8.3.2.1 Esempi di analisi mediante predizione lineare (LPC) .
8.3.3 Stima dellinviluppo spettrale mediante cepstrum . . . . . . . .
8.3.4 Analisi mediante mel-cepstrum . . . . . . . . . . . . . . . . .
8.4 Attributi a medio livello ricavabili dallanalisi spettrale . . . . . . . . .
8.4.1 Attributi a basso livello . . . . . . . . . . . . . . . . . . . . . .
8.4.2 Attributi a livello superiore . . . . . . . . . . . . . . . . . . . .
8.4.3 Attributi di segmento sonoro . . . . . . . . . . . . . . . . . . .
8.4.4 Onset detection . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.4.1 Onset detection by Local energy . . . . . . . . . . .
8.4.4.2 Onset detection in frequency domain . . . . . . . . .
8.4.4.3 Onset detection by complex domain approach . . . .
8.4.5 Meter extimation algorithms . . . . . . . . . . . . . . . . . . .

8.35

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

8.1
8.1
8.2
8.5
8.7
8.10
8.13
8.15
8.16
8.16
8.17
8.18
8.18
8.21
8.23
8.24
8.26
8.28
8.30
8.31
8.33
8.33
8.34

Chapter 9

Music information processing


version 13th December 2004

9.1 Models for musical analysis


A simplistic but typical flow diagram of musical information processing in the brain as used by
music cognitionists is given in figure 9.1. Here an acoustic signal is processed by the inner ear
(cochlea/filterbank) and perceptually grouped via the Gestalt principles (see sect. 9.1.3). From there,
low-level music perception detects basic musical features which are passed to high-level cognition
mechanisms analyze the structure of the song, which in turn creates the highly personal meaning and
emotion.

Figure 9.1: A music cognitionist signal flow diagram [from Scheirer 1996].

9.1.1 Cognitive processing of music information


Mc Adams. Audition: Cognitive Psychology of Music 1996
9.1

9.2

CHAPTER 9. MUSIC INFORMATION PROCESSING

When we consider the perception of large scale structures like music, we need to call into play
all kinds of relationships over very large time scales on the order of tens of minutes or even hours.
It is thus of great interest to try to understand how larger scale temporal structures, such as music,
are represented and processed by human listeners. These psychological mechanisms are necessary
for the sense of global form that gives rise to expectancies that in turn may be the basis for affective
and emotional responses to musical works. One of the main goals of auditory cognitive psychology
is to understand how humans can think in sound outside the verbal domain. The cognitive point of
view postulates internal (or mental) representations of abstract and specific properties of the musical
sound environment, as well as processes that operate on these representations. For example, sensory
information related to frequency is transformed into pitch, is then categorized into a note value in a
musical scale and then ultimately is transformed into a musical function within a given context.

Figure 9.2: Schema illustrating the various aspects of musical information processing [from McAdams
1996].
The processing of musical information may be conceived globally as involving a number of different stages (Fig. 9.2). Following the spectral analysis and transduction of acoustic vibrations in the
auditory nerve, the auditory system appears to employ a number of mechanisms (primitive auditory
grouping processes) that organize the acoustic mixture arriving at the ears into mental descriptions.
These descriptions represent events produced by sound sources and their behaviour through time.
Research has shown that the building of these descriptions is based on a limited number of acoustic
cues that may reinforce one another or give conflicting evidence. This state of affairs suggests the
existence of some kind of process (grouping decisions) that sorts out all of the available information
and arrives at a representation of the events and sound sources that are present in the environment
that is as unambiguous as possible. According to theory of auditory scene analysis, the computation

9.1. MODELS FOR MUSICAL ANALYSIS

9.3

of perceptual attributes of events and event sequences depends on how the acoustic information has
been organized at an earlier stage. Attributes of individual musical events include pitch, loudness, and
timbre, while those of musical event sequences include melodic contour, pitch intervals, and rhythmic
pattern. Thus a composers control of auditory organization by a judicious arrangement of notes can
affect the perceptual result.
Once the information is organized into events and event streams, complete with their derived
perceptual attributes, what is conventionally considered to be music perception begins.
The auditory attributes activate abstract knowledge structures that represent in long-term memory the relations between events that have been encountered repeatedly through experience in
a given cultural environment. That is, they encode various kinds of regularities experienced in
the world. Bregman (1993) has described regularities in the physical world and believes that
their processing at the level of primitive auditory organization is probably to a large extent innate. There are, however, different kinds of relations that can be perceived among events: at the
level of pitches, durations, timbres, and so on. These structures would therefore include knowledge of systems of pitch relations (such as scales and harmonies), temporal relations (such as
rhythm and meter), and perhaps even timbre relations (derived from the kinds of instruments
usually encountered, as well as their combinations). The sound structures to be found in various
occidental cultures are not the same as those found in Korea, Central Africa or Indonesia, for
example. Many of the relational systems have been shown to be hierarchical in nature.
A further stage of processing (event structure processing) assembles the events into a structured mental representation of the musical form as understood up to that point by the listener.
Particularly in Western tonal/metric music, hierarchical organization plays a strong role in the
accumulation of a mental representation of musical form. At this point there is a strong convergence of rhythmic-metric and pitch structures in the elaboration of an event hierarchy in which
certain events are perceived to be stronger, more important structurally, and more stable. The
functional values that events and groups of events acquire within an event hierarchy generate
perceptions of musical tension and relaxation or, in other words, musical movement. They also
generate expectancies about where the music should be going in the near future based both on
what has already happened and on abstract knowledge of habitual musical forms of the culture
even for pieces that one has never heard before. In a sense, we are orientedby what has been
heard and by what we know about the musical styleto expect a certain type of event to follow
at certain pitches and at certain points in time.
The expectancies drive and influence the activation of knowledge structures that affect the way
we interpret subsequent sensory information. For example, we start to hear a certain number of
pitches, a system of relations is evoked and we infer a certain key; we then expect that future
information that comes in is going to conform to that key. A kind of loop of activity is set up,
slowly building a mental representation that is limited in its detail by how much knowledge one
actually has of the music being heard. It is also limited by ones ability to represent things over
the long term, which itself depends on the kind of acculturation and training one has had. It
does not seem too extreme to imagine that a Western musician could build up a mental structure
of much larger scale and greater detail when listening to a Mahler symphony that lasts one
and half hours, than could a person who just walked out of the bush in Central Africa. The
reverse would be true for the perception of complex Pygmy polyphonic forms. However, on
the one hand we are capable of hearing and enjoying something new, suggesting that there may
be inborn precursors to musical comprehension in all human beings that makes this possible.

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.4

On the other hand, what we do hear and understand the first time we encounter a new musical
culture is most likely not what a native of that culture experiences.
The expectancies generated by this accumulating representation can also affect the grouping
decisions at the basic level of auditory information processing. This is very important because
in music composition, by playing around with some of these processes, one can set up perceptual contexts that affect the way the listener will tend to organize new sensory information.
This process involves what Bregman (1990) has called schema-driven processes of auditory
organization.
While the nature and organization of these stages are probably similar across cultures in terms of
the underlying perceptual and cognitive processing mechanisms involved, the higher level processes
beyond computation of perceptual attributes depend quite strongly on experience and accumulated
knowledge that is necessarily culture-specific.

9.1.2 Auditory grouping


Sounds and sound changes representing information must be capable of being detected by the listener.
A particular configuration of sound parameters should convey consistent percept to the user. Auditory
grouping studies the perceptual process by which the listener separates out the information from an
acoustic signal into individual meaningful sounds (fig. 9.3).

Figure 9.3: Auditory organization


The sounds entering our ears may come from a variety of sources. The auditory system is faced
with the complex tasks of:
Segregating those components of the combined sound that come from different sources.
Grouping those components of the combined sound that come from the same source.
In hearing, we tend to organise sounds into auditory objects or streams. Bregman (1990) has termed
this process Auditory Scene Analysis (fig. 9.4). It includes all the sequential and cross-spectral process which operate to assign relevant components of the signal to perceptual objects denoted auditory
streams.
The brain needs to group simultaneously (separating out which frequency components that are
present at a particular time have come from the same sound source) and also successively(deciding
which group of components at one time is a continuation of a previous group). Some processes
exclude part of the signal from a particular stream. Others help to bind each stream together.
A stream is

9.1. MODELS FOR MUSICAL ANALYSIS

9.5

Figure 9.4: Auditory scene analysis


a psychological organization with perceptual attributes that are not just the sum of the percept
of its component but are dependent upon the configuration of the stream.
a sequence of auditory events whose elements are related perceptually to one another, the stream
being segregated from other co-occurring auditory events.
A psychological organization whose function is to mentally represent the acoustic activity of a
single source.
Auditory streaming is the formation of perceptually distinct apparent sound sources. Temporal order
judgment is good within a stream but bad between steams. Examples include:
implied polyphony,
noise burst replacing a consonant in a sentence,
click superimposed on a sentence or melody.
An auditory scene is the acoustic pressure wave carrying the combined evidence from all the
sound sources present. Auditory scene analysis is the process of decoding the auditory scene, which
occurs in auditory perception.
We may distinguish analytic vs. synthetic listening. In synthetic perception the information is
interpreted as generally as possible, e.g. hearing a room full of voices. In analytic perception, the
information is used to to identify the components of the scene to finer levels, e.g. listening to a
particular utterance in the crowded room. Interpretation of environmental sounds involves combining
analytic and synthetic listening, e.g. hearing the message of a particular speaker.
Gestalt psychology theory offers an useful perspective for interpreting the auditory scene analysis
beaviour.

9.1.3 Gestalt perception


Gestalt (pronounced G - e - sh - talt) psychology is a movement in experimental psychology that
began just prior to World War I. It made important contributions to the study of visual perception and
problem solving. The approach of Gestalt psychology has been extended to research in areas such as
thinking, memory, and the nature of aesthetics. The word Gestalt means form or shape.
The Gestalt approach emphasizes that we perceive objects as well-organized patterns rather than
separate component parts. According to this approach, when we open our eyes we do not see fractional

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.6

particles in disorder. Instead, we notice larger areas with defined shapes and patterns. The whole
that we see is something that is more structured and cohesive than a group of separate particles. Gestalt
theory states that perceptual elements are (in the process of perception) grouped together to form a
single perceived whole (a gestalt).
The focal point of Gestalt theory is the idea of grouping, or how we tend to interpret a visual field
or problem in a certain way. According to the Gestalt psychologists, the way that we perceive objects,
both visual and auditory, is determined by certain principles (gestalt principles). These principles
function so that our perceptual world is organised into the simplest pattern consistent with the sensory
information and with our experience. The things that we see are organised into patterns or figures. In
hearing, we tend to organise sounds into auditory objects or streams. Bregman (1990) has termed this
process Auditory Scene Analysis.

Figure 9.5: Experiments of Proximity and Good Continuation


The most important principles are
Proximity: components that are perceptually close to each other are more likely to be grouped together. For example temporal proximity or frequency proximity. The principle of proximity
refers to distances between auditory features with respect to their onsets, pitch, and loudness.
Features that are grouped together have a small distance between each other, and a long distance
to elements of another group. Tones close in frequency will group together, so as to minimize
the extent of frequency jumps and the number of streams. Tones with similar timbre will tend
to group together. Speech sounds of similar pitch will tend to be heard from the same speaker.
Sounds from different locations are harder to group together across time than those from the
same location.
The importance of pitch proximity in audition is reflected in the fact that melodies all over the
world use small pitch intervals from note to note. Violations of proximity have been used in
various periods and genres of both Western and non-Western music for a variety of effects.
For example, fission based on pitch proximity was used to enrich the texture so that out of a

9.1. MODELS FOR MUSICAL ANALYSIS

9.7

Figure 9.6: Experiments of Closure and Common Fate


single succession of notes, two melodic lines could be heard. Temporal and pitch proximity
are competitive criteria, e.g. the slow sequence of notes A B A B . . . (figure 9.5, A1), which
contains large pitch jumps, is perceived as one stream. The same sequence of notes played very
fast (figure 9.5, A2) produces one perceptual stream consisting of As and another one consisting
of Bs. A visual example is given in figure 9.7: the arrangement of points is not seen as a set of
rows but rather a set of columns. We tend to perceive items that are near each other as groups.

Figure 9.7: Example of proximity gestalt rule


Similarity: components which share the same attributes are perceived as related or as a whole. E.g.
colour or form, in visual perception or common onset, common offset, common frequency,
common frequency modulation, common amplitude modulation in auditory perception. For
example one can follow the piano part in a group of instruments by following the sounds that
have the timbre consistent with that of a piano. One can perceptually segregate one speakers
voice from those of others by following the pitch of the voice. Similarity is very similar to
proximity, but refers to properties of a sound, which cannot be easily identified with a single
physical dimension, like timbre.
A visual example is given in figure 9.8: things which share visual characteristics such as shape,
size, color, texture, value or orientation will be seen as belonging together. In the example of
9.8(a), the two filled lines gives our eyes the impression of two horizontal lines, even though all

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.8

(a)

(b)

Figure 9.8: Example of similarity gestalt grouping principle.


the circles are equidistant from each other. In the example of 9.8(b), the larger circles appear to
belong together because of the similiarity in size.

Figure 9.9: Example of similarity gestalt grouping principle.


Another visual example is given in figure 9.9: So in the graphic on the left you probably see
an X of fir trees against a background of the others; in the graphic on the right you may see a
square of the other trees, partly surrounded by fir trees. The fact that in one we see an X and in
the other a square is, incidentally, an example of good form or pragnanz principle, stating that
psychological organization will always be as good as prevailing conditions allow. For Gestalt
psychologists form is the primitive unit of perception. When we perceive, we will always pick
out form.
Good continuation: Components that display smooth transitions from one state to another are perceived as related. Examples of smooth transitions are: proximity in time of offset of one component with onset of another; frequency proximity of consecutive components; constant glide
trajectory of consecutive components; smooth transition from one state to another state for the
same parameter. For example an abrupt change in the pitch of a voice produces the illusion that
a different speaker has interrupted the original. The perception appears to depend on whether
or not the intonation contour changes in a natural way. Sound that is interrupted by a noise that
masks it, can appear to be continuous. Alternations of sound and mask can give the illusion of
continuity with the auditory system interpolating across the mask.
In figure 9.5, B), high (H) and low (L) tones alternate. If the notes are connected by glissandi
(figure 9.5, B1), both tones are grouped to a single stream. If high and low notes remain unconnected (figure 1, B2), Hs and Ls each group to a separate stream.

9.1. MODELS FOR MUSICAL ANALYSIS

(a)

9.9

(b)

Figure 9.10: Examples of good continuation gestalt grouping principle.


A visual example is given in figure 9.10. The law of good continuation states that objects
arranged in either a straight line or a smooth curve tend to be seen as a unit. In figure 9.10(a)
we distinguish two lines, one from a to b and another from c to d, even though this graphic
could represent another set of lines, one from a to d and the other from c to b. Nevertheless, we
are more likely to identify line a to b, which has better continuation than the line from a to d,
which has an obvious turn. In figure 9.10(b) we perceive the figure as two crossed lines instead
of 4 lines meeting at the centre.
Common Fate Sounds will tend to be grouped together if they vary together over time. Differences
in onset and offset in particular are very strong grouping cues. Also, sounds that are modulated
together (amplitude or frequency modulation) tend to be grouped together. The principle common fate groups frequency components together, when similar changes occur synchronously,
e.g. synchronous onsets, glides, or vibrato.
Chowning (Fig. 9.6, D) made the following experiment: First three pure tones are played. A
chord is heard, containing the three pitches. Then the full set of harmonics for three vowels
(/oh/, /ah/, and /eh/) is added, with the given frequencies as fundamental frequencies, but without frequency fluctuations. This is not heard as a mixture of voices but as a complex sound in
which the three pitches are not clear. Finally, the three sets of harmonics are differentiated from
one another by their patterns of fluctuation. We then hear three vocal sounds being sung at three
different pitches.
Closure This principle is the tendency to perceive things as continuous even though they may be
discontinuous. If the gaps in a sound are filled in with another more intense sound, the original
sound may be perceived as being continuous. For example, if part of a sentence is replaced by
the sound of a door slam, the speakers voice may be perceived as being continuous (continuing
through the door slam). The principle of closure completes fragmentary features, which already
have a good Gestalt. E.g. ascending and descending glissandi are interrupted by rests (Fig.
9.6, C2). Three temporally separated lines are heard one after the other. Then noise is added
during the rests (Fig. 9.6 C1). This noise is so loud, that it would mask the glissando, unless
it would be interrupted by rests. Amazingly the interrupted glissandi are perceived as being
continuous. They have good Gestalt: They are proximate in frequency before and after the
rests. So they can easily be completed by a perceived good continuation. This completion can
be understood as an auditory compensation for masking.

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.10

(a)

(b)

Figure 9.11: Example of closure.


Figure / Ground It is usual to perceive one sound source as the principal sound source to which one
is attending, and relegate all other sounds to be background. We may switch our attention from
one sound source to another quite easily. What was once figure (the sound to which we were
attending) may now become ground (the background sound). An important topics in auditory
perception are attention and learning. In a cocktail party environment, we can focus on one
speaker. Our attention selects this stream. Also, whenever some aspect of a sound changes,
while the rest remains relatively unchanging, then that aspect is drawn to the listeners attention
(figure ground phenomenon). Let us give an example for learning: The perceived illusory
continuity (see Fig. 9.6, C) of a tune through an interrupting noise is even stronger, when the
tune is more familiar.

Figure 9.12: Rubin vase: example of figure/ground principle.


The Rubin vase shown in Fig. 9.12 is an example of this tendency to pick out form. We dont
simply see black and white shapes - we see two faces and a vase. The problem here is that we
see the two forms of equal importance. If the source of this message wants us to perceive a
vase, then the vase is the intended figure and the black background is the ground. The problem
here is a confusion of figure and ground. A similar everyday example is:
an attractive presenter appears with a product; she is wearing a conservative dress; eyetracking studies show substantial attention to the product; three days later, brand-name
recall is high;
an attractive presenter appears with a product; she is wearing a revealing dress; eyetracking shows most attention on the presenter; brand-name recall is low.

9.1. MODELS FOR MUSICAL ANALYSIS

9.11

Figure 9.13: Horses by M. Escher. An artistic example of figure and ground interchange.
Escher often designed art which played around with figure and ground in interesting ways. Look
at how figure and ground interchange in fig. 9.13. Do you see the white horses and riders? Now
look for the black horses and riders.
Gestalt grouping laws do not seem to act independently. Instead, they appear to influence each
other, so that the final perception is a combination of all of the Gestalt grouping laws acting together.
Gestalt theory applies to all aspects of human learning, although it applies most directly to perception
and problem-solving.
9.1.3.1

Musical examples of auditory organization

Let us consider the notional experience of part of a specific and simple piece of Western tonal
music, the first eight bars of El Noy de la Mare, a Catalan folk song arranged by Miguel Llobet (fig.
9.14). How do we understand what we hear? How do we make sense of what we hear as music? One
of the most evident features of the piece is that it has a melody - in some respects it is a melody. It
seems to exist as a succession of discrete pitches in time, yet it is likely to be heard as one thing, one
integrated entity, as pitch moving in time. The fact that a melody can be heard as pitch moving in
time when all that a listener is confronted with is a sequence of separate pitches is something that has
perplexed philosophers for centuries.
Auditory scene analysis suggests that gestalt laws are heuristics or best guesses that we employ in
parsing or making sense of our auditory environment. Bregman refers to the processes whereby we
make sense of the world of sound as Auditory Scene Analysis, a non-conscious process of guessing
about whats making the noise out there, but guessing in a way that fits consistently with the facts
of the world. Auditory Scene Analysis processes operate on sound signals, employing principles that
enable the making of valid inferences about the existence and the character of the sources of sounds
in the real world, principles that are rarely if ever breached in nature and are highly generalisable.
For example if a sound has a particular pitch, a listener will probably infer that any other sounds
made by that sound source will be similar in pitch to the first sound, as well as similar in intensity,
waveform, etc., and further infer that any sounds similar to the first are likely to come from the same
1

adapted from J. Cross, AISB Quarterly, 1999, 102, pp12-25

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.12

Figure 9.14: The first eight bars of El Noy de la Mare, a Catalan folk song arranged by Miguel Llobet.
location as the first sound. This fact can explain why we experience the sequence of pitches in El Noy
de la Mare as a melody, pitch moving in time. Consecutive pitches in this melody are very close to
each other in pitch-space, so on hearing the second pitch a listener will activate our Auditory Scene
Analysis inference mechanisms, and assign it to the same source as the first pitch.

(a)

(b)

Figure 9.15: (a) Pattern where successive notes are separated by large pitch jumps but alternate notes
are close together in pitch, is probably heard as two separate and simultaneous melodies. (b) Excerpt
from the Courante of Bachs First Cello Suite: two concurrent pitch patterns are heard.
If the distance in pitch space had been large, they might have inferred that a second sound source
existed, even although they knew that its the same instrument thats making the sound - this inferred
sound source would be a virtual rather than a real source. Hence a pattern such as shown in Figure
9.15(a), where successive notes are separated by large pitch jumps but alternate notes are close together in pitch, is probably heard as two separate and simultaneous melodies rather than one melody
leaping around. This tendency to group together, to linearise, pitches that are close together in pitchspace and in time provides us with the basis for hearing a melody as a shape, as pitch moving in time,

9.1. MODELS FOR MUSICAL ANALYSIS

9.13

emanating from a single - real or virtual - source.


J. S. Bach used them frequently to conjure up the impression of compound, seemingly simultaneous, melodies even though only one single stream of notes is presented. For example, the pattern
given in Figure 9.15(b) (from the Courante of Bachs First Cello Suite) can be performed on guitar
on one string, yet at least two concurrent pitch patterns or streams will be heard - two auditory streams
will be segregated (to use Bregmans terminology).

9.1.4 Narmours implication realization model


2

An intuition shared by many people is that appreciating music has to do with expectation. That
is, what we have already heard builds expectations on what is to come. These expectations can be
fulfilled or not by what is to come. If fulfilled, the listener feels satisfied. If not, the listener is
surprised or even disappointed. Based on this observation, Narmour proposed a theory of perception
and cognition of melodies based on a set of basic grouping structures, the Implication/Realization
model, or I/R model.

Figure 9.16: Top: Eight of the basic structures of the I/R model. Bottom: First measures of All of Me,
annotated with I/R structures.
According to this theory, the perception of a melody continuously causes listeners to generate
expectations of how the melody will continue. The sources of those expectations are two-fold: both
innate and learned. The innate sources are hard-wired into our brain and peripheral nervous system,
according to Narmour, whereas learned factors are due to exposure to music as a cultural phenomenon,
and familiarity with musical styles and pieces in particular.
The innate expectation mechanism is closely related to the gestalt theory for visual perception.
Narmour claims that similar principles hold for the perception of melodic sequences. In his theory,
these principles take the form of implications: Any two consecutively perceived notes constitute a
melodic interval, and if this interval is not conceived as complete, or closed, it is an implicative
interval, an interval that implies a subsequent interval with certain characteristics. In other words,
some notes are more likely to follow the two heard notes than others. Two main principles concern
registral direction and intervallic difference.
The principle of registral direction states that small intervals imply an interval in the same
registral direction (a small upward interval implies another upward interval, and analogous for
2

adapted from Mantaras AI Magazine 2001

9.14

CHAPTER 9. MUSIC INFORMATION PROCESSING


downward intervals), and large intervals imply a change in registral direction (a large upward
interval implies another upward interval and analogous for downward intervals).

The principle of intervallic difference states that a small (five semitones or less) interval implies
a similarly-sized interval (plus or minus 2 semitones), and a large intervals (seven semitones or
more) implies a smaller interval.
Based on these two principles, melodic patterns can be identified that either satisfy or violate the
implication as predicted by the principles. Such patterns are called structures and labelled to denote
characteristics in terms of registral direction and intervallic difference. Eight such structures are shown
in figure 9.16(top). For example, the P structure (Process) is a small interval followed by another
small interval (of similar size), thus satisfying both the registral direction principle and the intervallic
difference principle. Similarly the IP (Intervallic Process) structure satisfies intervallic difference, but
violates registral direction.
Additional principles are assumed to hold, one of which concerns closure, which states that the
implication of an interval is inhibited when a melody changes in direction, or when a small interval
is followed by a large interval. Other factors also determine closure, like metrical position (strong
metrical positions contribute to closure, rhythm (notes with a long duration contribute to closure), and
harmony (resolution of dissonance into consonance contributes to closure).
These structures characterize patterns of melodic implications (or expectation) that constitute the
basic units of the listener perception. Other resources such as duration and rhythmic patterns emphasize or inhibit the perception of these melodic implications. The use of the implication-realization
model provides a musical analysis of the melodic surface of the piece.
The basic grouping structure are shown in fig. 9.16:
P (process) structure a pattern composed of a sequence of at least three notes with similar intervallic
distances and the same registral direction;
ID (intervallic duplication) structure a pattern composed of a sequence of three notes with the same
intervallic distances and different registral direction;
D (duplication) structure a repetition of at least three notes;
IP (intervallic process) structure a pattern composed of a sequence of three notes with similar intervallic distances and different registral direction;
R (reversal) structure a pattern composed of a sequence of three notes with different registral direction; the first interval is a leap, and the second is a step;
IR (intervallic reversal) structure a pattern composed of a sequence of three notes with the same
registral direction; the first interval is a leap, and the second is a step;
VR (registral reversal) structure a pattern composed of a sequence of three notes with different
registral direction; both intervals are leaps.
In fig. 9.16 (bottom) the first three notes form a P structure, the next three notes an ID, and the
last three notes another P. The two P structures in the figure have a descending registral direction, and
in both cases, there is a duration cumulation (the last note is significantly longer).
Looking at melodic grouping in this way, we can see how each pith interval implies the next.
Thus, an interval can be continued with a similar one (such as P or ID or IP or VR) or reversed with a

9.1. MODELS FOR MUSICAL ANALYSIS

9.15

dissimilar one. That is, a step (small interval) is followed by a leap (large interval) between notes in
the same direction would be a reversal of the implied interval (another step was expected, but instead,
a leap is heard) but not a reversal of direction. Pitch motion can also be continued by moving in the
same direction (up or down) or reversed by moving in the opposite direction. The strongest kind of
reversal involves both a reversal of intervals and of direction. When several small intervals (steps)
move consistently in the same direction, they strongly imply continuation in the same direction with
similar intervals. If a leap occurs instead of a step, it creates a continuity gap, which triggers the
expectation that the gap should be filled in. To fill it, the next step intervals should move in the
opposite direction from the leap, which also tends to limit pitch range and keeps melodies moving
back toward a centre.
Basically, continuity (satisfying the expectation) is nonclosural and progressive, whereas reversal
of implication (not satisfying the expectation) is closural and segmentative. A long note duration after
reversal of implication usually confirm phrase closure.

Figure 9.17: Example of Narmour analysis of the first four bars of the second movement of Mozarts
K.311 [from Cross 1998].
Any given melody can be described by a sequence of Narmour structures. Fig. 9.17 Narmours
analysis of the first four bars of the second movement of K.311 is shows. Letters (IP, P, etc.) within
the grouping brackets identify the patterns involved, while the bs and ds in parentheses above
the top system indicate the influence of, respectively, metre and duration. The three systems show
the progressive transformation of pitches to higher hierarchical levels, and it should be noted that
the steps involved do not produce a neatly nested hierarchy of the sort that Lerdahl and Jackendoffs
theory provides.

9.16

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.1.5 Local Boundary Detection Model (LBDM)


Expressive performance of a musical work relies to a large extent on the underlying musical structure. From traditional music performance theories to contemporary computational models of musical
expression a strong link between musical structure and expression is assumed. It is commonly hypothesised that the ending of a musical group, such as a melodic phrase, is marked by a slowing down
of tempo, i.e. relative lengthening of the last notes (see sect. 3.7). For musical groups at the lowest
level, i.e. small melodic gestures of just a few notes, it is commonly assumed that the final note IOI is
lengthened and a small micropause inserted (see sect. 3.8).
In this section, a computational model (developed by Emilios Cambouropoulos 2001), that enables
the detection of local melodic boundaries will be described. This model is simpler and more general
than other models based on a limited set of rules (e.g. implication realization model seen in sect. 9.1.4
) and can be applied both to quantised score and non-quantised performance data.
The Local Boundary Detection Model (LBDM) calculates boundary strength values for each interval of a melodic surface according to the strength of local discontinuities; peaks in the resulting
sequence of boundary strengths are taken to be potential local boundaries.
The model is based on two rules: the Change rule and the Proximity rule. The Change rule is
more elementary than any of the Gestalt principles as it can be applied to a minimum of two entities
(i.e. two entities can be judged to be different by a certain degree) whereas the Proximity rule requires
at least three entities (i.e. two entities are closer or more similar than two other entities).
Change Rule (CR): Boundary strengths proportional to the degree of change between two consecutive intervals are introduced on either of the two intervals (if both intervals are identical no
boundary is suggested).
Proximity Rule (PR): If two consecutive intervals are different, the boundary introduced on the
larger interval is proportionally stronger.
The Change Rule assigns boundaries to intervals with strength proportional to a degree of change
function Si (described below) between neighbouring consecutive interval pairs. Then a Proximity
Rule scales the previous boundaries proportionally to the size of the interval and can be implemented
simply by multiplying the degree-of-change value with the absolute value of each pitch/time/dynamic
interval. This way, not only relatively greater neighbouring intervals get proportionally higher values
but also greater intervals get higher values in absolute terms - i.e. if in two cases the degree of change
is equal, such as sixteenth/eighth and quarter/half note durations, the boundary value on the (longer)
half note will be overall greater than the corresponding eighth note.
The aim is to develop a formal theory that may suggest all the possible points for local grouping
boundaries on a musical surface with various degrees of prominence attached to them rather than
a theory that suggests some prominent boundaries based on a restricted set of heuristic rules. The
discovered boundaries are only seen as potential boundaries as one has to bear in mind that musically
interesting groups can be defined only in conjunction with higher-level grouping analysis (parallelism,
symmetry, etc.). Low-level grouping boundaries may be coupled with higher-level theories so as to
produce optimal segmentations (see fig. 9.18).
In the description of the algorithm only the pitch, IOI and rest parametric profiles of a melody
are mentioned. It is possible, however, to construct profiles for dynamic intervals (e.g. velocity
differences) or for harmonic intervals (distances between successive chords) and any other parameter
relevant for the description of melodies. Such distances can also be asymmetric; for instance the
dynamic interval between p and f should be greater that between f and p.

9.1. MODELS FOR MUSICAL ANALYSIS

9.17

Figure 9.18: Beginning of Fr`ere Jacques. Higher-level grouping principles override some of the
local detail grouping boundaries (note that LBDM gives local values at the boundaries suggested by
parallelism - without taking in account articulation.
9.1.5.1

Local Boundary Detection algorithm description

A melodic sequence is converted into a number of independent parametric interval profiles P k for the
parameters: pitch (pitch intervals), ioi (interonset intervals) and rest (rests - calculated as the interval
between current onset with previous offset). Pitch intervals can be measured in semitones, and time
intervals (for IOIs and rests) in milliseconds or quantised numerical duration values. Upper thresholds
for the maximum allowed intervals should be set, such as the whole note duration for IOIs and rests
and the octave for pitch intervals; intervals that exceed the threshold are truncated to the maximum
value.
A parametric profile Pk is represented as a sequence of n intervals of size x i : Pk = [x1 , x2 , . . . xn ]
where: k is pitch, ioi, rest, xi 0 and i = 1, 2, ..., n. The degree of change r between two successive
interval values xi and xi+1 is given by:
ri,i+1 =

|xi xi+1 |
xi + xi+1

if xi xi+1 6= 0 and xi , xi+1 0; otherwise ri,i+1 = 0.


The strength of the boundary si for interval xi is affected by both the degree of change to the
preceding and following intervals, and is given by the function:
si = xi (ri1,i + ri,i+1 )
For each parameter k, a sequence S k = [s1 , s2 , . . . , sn ] is calculated, and normalised in the range
[0, 1]. The overall local boundary strength profile for a given melody is a weighted average of
the individual strength sequences S k . The suggested weights for the three different parameters are
wpitch = wrest = 0.25 and wioi = 0.50. Local peaks in this overall strength sequence indicate local
boundaries.

9.18

CHAPTER 9. MUSIC INFORMATION PROCESSING

Figure 9.19: Local Boundaries by LBDM: Opening Melody from Waltz Op.18 by Chopin

Figure 9.20: Local Boundaries by LBDM: Opening Melody from Etude Op10, No3 by Chopin.

9.1. MODELS FOR MUSICAL ANALYSIS

9.19

Figure 9.21: Examples of boundary strengths (last row) determined by the LBDM.

Figure 9.22: Examples of boundary strengths (last row) determined by the LBDM. These are ambiguous boundaries which may be resolved if higher-level organisational principles are taken into account.

9.20

CHAPTER 9. MUSIC INFORMATION PROCESSING

Figure 9.23: Examples of phenomenal accent strengths derived from the LBDM boundary strengths
by merely adding every two adjacent boundary strength values.

9.1. MODELS FOR MUSICAL ANALYSIS

9.21

9.1.6 Generative Theory of Tonal Music of Lerdahl and Jackendorf


Lerdahl and Jackendoff (1983) developed a model called Generative Theory of Tonal Music (GTTM).
This model offers a complementary approach to understanding melodies, based on a hierarchical
structure of musical cognition. According to this theory music is built from an inventory of notes and
a set of rules. The rules assemble notes into a sequence and organize them into hierarchical structures
of music cognition. To understand a piece of music means to assemble these mental structures as we
listen to the piece.
It seeks to elucidate a number of perceptual characteristics of tonal music - segmentation, periodicity, differential degrees of importance being accorded to the components of a musical passage or
work, the flow of tension and relaxation as a work unfolds - by employing four distinct analytical levels, each with its own more-or-less formal analytical principles, or production rules. These production
rules, or Well-Formedness rules, specify which analytical structures may be formed - which analytical structures are possible - in each of the four analytical domains on the basis of a given musical
score. Each domain also has a set of Preference Rules, which select between the possible analytical
structures so as to achieve a single preferred analysis within each domain.

Figure 9.24: Main components of Lerdahl and Jackendoffs generative theory of tonal music.
GTTM proposes four types of hierarchical structures associated with a piece: the grouping structure, the metrical structure, the time-span reduction structure, and the prolongational reduction structure (fig. 9.24).
The grouping structure describes the segmentation units that listeners can establish when hearing a
musical surface: motives, phrases, and sections.
The metrical structure describes the rhythm hierarchy of the piece. It assign a weight to each note
depending on the beat in which is played . In this way notes played on strong (down) beats have
higher weight than notes played on week (up) beats.
The time-span reduction structure is a hierarchical structure describing the relative structural importance of notes within the audible rhythmic units of a phrase (see Fig. 9.25). It differentiate
the essential parts of the melody from the ornaments. The essential parts are further dissected
into even more essential parts and ornament on them. The reduction continues until the melody
is reduced to a skeleton of the few most prominent notes.
The prolongational reduction structure is a hierarchical structure describing tension-relaxation relationships among groups of notes. This structure captures the sense of musical flow across
phrases, i.e. the build-up and release of tension within longer and longer passages of the piece,
until a feeling of maximum repose at the end of the piece. tension builds up as the melody
departs from more stable notes to less stable ones and is discharged when the melody returns

9.22

CHAPTER 9. MUSIC INFORMATION PROCESSING


to stable notes. tension and release are also felt as a result of moving from dissonant chords to
consonant ones, from non accented notes to accented ones and from higher to lower notes.

The four domains - Metrical, Grouping, Time-Span and Prolongational - are conceived of as partially
interdependent and at the same time as modelling different aspects of a listeners musical intuitions.

Figure 9.25: Example of a time-span tree for the beginning of the All of me ballad [from Arcos 1997].
Each of these four components consists of three sets of rules:
Well-formedness Rules which state what sort of structural descriptions are possible. These rules
define a class of possible structural descriptions.
Preference Rules which try to select from the possible structures the ones that correspond to what an
experienced listener would hear. They are designed to work together to isolate those structural
descriptions in the set defined by the well-formedness rules that best describe how an expert
listener interprets the passage given to the theory as input.
Transformational Rules that allow certain distortions of the strict structures prescribed by the wellformedness rules.
The application of their theory to the first four bars of the second movement of Mozarts K.311 is
shown in fig. 9.26 and 9.27. The Metrical analysis (shown in the dots below the piece in Figure 9.26)
appears self-evident, deriving from Well-Formedness Rules such as those stating that Every attack
point must be associated with a beat at the smallest metrical level present at that point in the piece
(although the lowest, semiquaver, level is not shown in the figure), At each metrical level, strong
beats are spaced either two or three beats apart, etc. These Well-Formedness rules are supplemented
by Preference rules, that suggest preference should be given to e.g., metrical structures in which the
strongest beat in a group appears relatively early in the group, metrical structures in which strong
beats coincide with pitch events, etc.
The Grouping structure (shown in the brackets above the piece in Figure 9.26) appears similarly
self-evident, being based on seemingly truistic Well-Formedness rules such as A piece constitutes a
group, If a group contains a smaller group it must contain all of that smaller group (thus ensuring a
strictly nested hierarchy), etc. Preference rules here specify such matters as the criteria for determining
group boundaries (which should occur at points of disjunction in the domains of pitch and time),
conditions for inferring repetition in the grouping structure, etc. Thus a group boundary is formed
between the end of bar two and the beginning of bar three both in order to ensure the symmetrical
subdivision of the first four bars (themselves specifiable as a group in part because of the repetition
of the opening of bar one in bar five) and because the pitch disjunction occurring between the G and
the C is the largest pitch interval that has occurred in the upper voice of the piece up to that moment.

9.1. MODELS FOR MUSICAL ANALYSIS

9.23

Figure 9.26: Example of GTTM analysis of the first four bars of the second movement of Mozarts
K.311: Metrical analysis (dots below the piece ) and Time-Span analysis (tree-structure above the
piece) [from Cross 1998].

Perhaps the only point of interest in the Grouping analysis is the boundary between the third quaver
of bar three and the last semiquaver of that bar, brought about by the temporal interval between the
two events (again, the largest that has occurred in the piece up to that moment). Here, the Grouping
structure and the Metrical structure are not congruent, pointing-up a moment of tension at the level of
the musical surface that is only resolved by the start of the next group at bar five.
The Time-Span analysis (tree-structure above the piece in Figure 9.26) is intended to depict the
relative salience or importance of events within and across groups. The Grouping structure serves
as the substrate for the Time-Span analysis, the Well-Formedness rules in this domain being largely
concerned with formalising the relations between Groups and Time-Spans. The Preference rules
suggest that metrically and harmonically stable events should be selected as the heads of TimeSpans, employment of these criteria resulting in the straightforward structure shown in the Figure.
This shows clearly the shift in metrical position of the most significant event in each Group or TimeSpan, from downbeat in bar one to upbeat crotchet in bars two and three to upbeat quaver in bar
four.
A similar structure is evident in the Prolongational analysis (Figure 9.27), which illustrates the
building-up and release of tension as a tonal piece unfolds. The Prolongational analysis derives in
part from the Time-Span analysis, but is primarily predicated on harmonic relations, which the WellFormedness and Preference rules specify as either prolongations (tension-producing or maintaining)
or progressions (tension-releasing).
Lerdahl and Jackendoffs theory however lack of a detailed, formal account of tonal-harmonic
relations and tend to neglect of the temporality of musical experience. Moreover it let the analyst to
make different choices that are quite difficult to formalize and implement on a computational model.
Although the authors attempt to be thorough and formal throughout the theory, they do not resolve
much of the ambiguity that exists through the application of the preference rules. There is little or no

9.24

CHAPTER 9. MUSIC INFORMATION PROCESSING

Figure 9.27: Example of GTTM analysis of the first four bars of the second movement of Mozarts
K.311: Prolongational analysis [from Cross 1998].
ranking of these rules to say which should be preferred over others and this detracts from what was
presented as a formal theory.

9.1.7 Key finding algorithm


All humans perceive a large continuum of pitch. However, the pitch systems of all cultures consist of
a limited set of pitch categories that are collected into ordered subsets called scales. In the Western
equal-tempered pitch system, all diatonic scales of seven notes (are derived from an alphabet of the 12
chromatic notes within an octave, called pitch class). The pitches of adjacent notes in the chromatic
scale are separated by a semitone which corresponds to a frequency difference of approximately 6%.
The octave is a special interval (a 2:1 frequency ratio) at which two pitches, though separated along
the pitch dimension, seem to have something in common, or are perceived to be equivalent. In all
cultures that name the pitches in scales, two pitches separated by an octave are given the same name
(e.g. do re mi fa sol la ti do or C D E F G A B C in the Western system, and Sa Re Ga Ma Pa Dha Ni
Sa in the Indian system).
A given scale is defined by the pattern of intervals between the pitch categories. A major scale
has the pattern 2212221 in numbers of semitones between scale steps (Fig. 9.28, upper panel).
One type of minor scale (called natural minor) has the pattern 2122122 (Fig. 9.28, lower
panel). Within a scale there often exists a functional hierarchy among the pitches, as well as among
chords that can be formed of the pitches. In the Western tonal pitch system, some pitches and chords,
such as those related to the first and fifth degrees of the scale (C and G are the tonic and dominant
notes of the key of C major, for example) are structurally more important than others (Fig. 9.28).
This hierarchization gives rise to a sense of key. In fact when chords are generated by playing several
pitches at once, the chord that is considered to be most stable within a key, and in a certain sense to
represent the key, comprises the first, third and fifth degrees of the scale. In tonal music, one can
establish a sense of key within a given major or minor scale and then move progressively to a new

9.1. MODELS FOR MUSICAL ANALYSIS

9.25

Figure 9.28: Piano keyboard representation of the scales of C major and C minor. Notes in each scale
are shaded. The relative importance of the first (tonic - C), fifth (dominant - G) and third (mediant E) degrees of the scale is illustrated by the length of the vertical bars. The other notes of the scale are
more or less equally important followed by the chromatic notes that are not in the scale (unshaded)
[from McAdams 1996].

key (a process called modulation) by introducing notes from the new key and no longer playing those
from the original key that are not present in the new key.
Factors other than the simple logarithmic distance between pitches affect the degree to which
they are perceived as being related within a musical system. The probe tone technique developed by
Krumhansl has been quite useful in establishing the psychological reality of the hierarchy of relations
among pitches at the level of notes, chords, and keys. In this paradigm, some kind of musical context
is established by a scale, chord, melody or chord progression, and then a probe stimulus is presented.
Listeners are asked to rate numerically either the degree to which a single probe tone or chord fits with
the preceding context or the degree to which two notes or chords seem related within the preceding
context. This technique explores the listeners implicit comprehension of the function of the notes,
chords, and keys in the context of Western tonal music without requiring them to explicate the nature
of the relations.
If we present a context, such as a C major or C minor scale, followed by a single probe tone that is
varied across the range of chromatic scale notes on a trial-to-trial basis, a rating profile of the degree
to which each pitch fits within the context is obtained. This quantitative profile, when derived from
ratings by musician listeners, fits very closely to what has been described intuitively and qualitatively
by music theorists (Fig. 9.29). Note the importance of the tonic note that gives its name to the scale,
followed by the dominant or fifth degree and then the mediant or third degree. These three notes form
the principal triad or chord of the diatonic scale. The other notes of the scale are of lesser importance
followed by the remaining chromatic notes that are not within the scale. These profiles differ for
musicians and non-musicians. In the latter case the hierarchical structure is less rich and can even be
reduced to a simple proximity relation between the probe tone and the last note of the context.

9.26

CHAPTER 9. MUSIC INFORMATION PROCESSING

Figure 9.29: C Major and C minor profiles derived with the probe-tone technique from fittingness
ratings by musician listeners.

Figure 9.30: Comparison between tonal hierarchies and statistical distribution of tones in tonal works.
It is shown the frequency of occurrence of each of the 12 chromatic scale tones in various songs and
other vocal works by Schubert, Mendelssohn, Schumann, Mozart, Richard Strauss and J. A. Hasse.
and the key profile (scaled).
Krumhansl has shown (fig. 9.30) that the hierarchy of tonal importance revealed by these profiles
is strongly correlated with the frequency of occurrence of notes within a given tonality (the tonic
appears more often than the fifth than the third, and so on). It also correlates with various measures
of tonal consonance of notes with the tonic, as well as with statistical measures such as the mean
duration given these notes in a piece of music (the tonic often having the longest duration).
These correlations are the base of the classic key finding algorithm of Krumhansl-Schmuckler
(as explained in Krumhansls book Cognitive Foundations of Musical Pitch [Oxford University Press,
1990]). Each key has a key-profile: a vector representing the optimal distribution of pitch-classes
for that key. The algorithm works as follows. The input piece is divided into segments, and within
each segment, without regard for enharmonic spellings, all pitch-classes in the passage are counted
resulting in 12 values. For example, a segment may contain 14 Cs, 2 C#s, 8 Ds, and so on. These
12 values are then correlated with the major key profile where C is deemed the tonic. Similarly, the
12 values are then correlated with the minor key profile where C is deemed the tonic. The process is
repeated for all possible tonics: C-sharp/D-flat, D, D-sharp/E-flat, E, etc. After correlations have been

9.1. MODELS FOR MUSICAL ANALYSIS

9.27

calculated for all 24 major and minor pitch-class keys, the estimated key for the passage is given by
the largest positive correlation. It is possible to handle modulation: in considering a key for a segment,
a penalty is assigned if the key differs from the key of the previous segment. In this way, it will prefer
to remain in the same key, other things being equal, but will change keys if there is sufficient reason
to do so.
In this method, the input vector for a segment represents the total duration of each pitch-class
in the segment. The match between the input vector and each key-profile is calculating using the
standard correlation formula.

Figure 9.31: Example of Krumhansl-Schmuckler key fining algorithm: opening bar of Yankee Doodle.

Figure 9.32: Example of Krumhansl-Schmuckler key fining algorithm: duration distribution of Yankee
Doodle.
For example, if we take opening bar of Yankee Doodle, as shown in fig. 9.31, we find that: the
sum of the durations of the G naturals gives .75 of a minim, the durations of the B naturals add up to
half a minim, the durations of the A naturals add up to half a minim and there is one quaver D natural.
We can then draw a graph showing the durations of the various pitch classes within the passage being
analysed, as shown in fig 9.32. The next step in the algorithm is to calculate the correlation between
this graph and each of the 24 major and minor key profiles. This table (tab. 9.1) shows the correlation
between this graph showing the durations of the various pitches in the Yankee Doodle excerpt and
each of the major and minor key profiles. The algorithm then predicts that the perceived key will be
the one whose profile best correlates with the graph showing the distribution of tone durations for the
passage. So in this case, the algorithm correctly predicts that the key of Yankee Doodle is G major.
A variation of the key finding algorithm is proposed in Temperley 2001. In this method, the input
vector for a segment simply has 1 for a pitch-class if it is present at all in the segment (the duration and
number of occurrences of the pitch-class are ignored) and 0 if it is not; the score for a key is given by
the sum of the products of key-profile values and corresponding input vector values (which amounts

9.28

CHAPTER 9. MUSIC INFORMATION PROCESSING

Table 9.1: Correlation between the graph showing the durations of the various pitches in the Yankee
Doodle excerpt and each of the major and minor key profiles.
Key
Score Key
Score
C major
0.274 C minor
-0.013
C sharp major -0.559 C sharp minor -0.332
D major
0.543 D minor
0.149
E flat major
-0.130 E flat minor
-0.398
E major
-0.001 E minor
0.447
F major
0.003 F minor
-0.431
F sharp major -0.381 F sharp minor
0.012
G major
0.777 G minor
0.443
A flat major
-0.487 A flat minor
-0.106
A major
0.177 A minor
0.251
B flat major
-0.146 B flat minor
-0.513
B major
-0.069 B minor
0.491
to summing the key-profile values for all pitch class present in the segment).

9.2 Music Information Retrieval: Issues, Problems, and Methodologies


by Nicola Orio

9.2.1 Introduction
The core problem of Information Retrieval (IR) is to effectively retrieve documents which convey
content being relevant to the users information needs. Effective and efficient techniques have been
developed to index, search, and retrieve documents from collections of hundreds of thousands, or
millions of textual items.
The most consolidated results have been obtained for collection of documents and users queries
written in textual form and in English language. Statistical and probabilistic techniques have lead to
the most effective results for basic system functions and are currently employed to provide advanced
information access functions as well. The content description of media being different from text, and
the development of different search functions are necessary steps for content-based access to Digital
Libraries (DL). This statement mainly applies to cultural heritage domain, where different media and
search functions live together.
In order to provide a content-based multimedia access, the development of new techniques for
indexing, searching, and retrieving multimedia documents have recently been the focus of many researchers in IR. The research projects in DLs, and specifically those carried out in cultural heritage
domain, have shown that the integrated management of diverse media - text, audio, image, video - is
necessary.
The problem with content-based access to multimedia data is twofold.
On the one hand, each media requires specific techniques that cannot be directly employed for
other media.

9.2. MUSIC INFORMATION RETRIEVAL

9.29

On the other hand, these specific techniques should be integrated whenever different media are
present in a individual item.
The core IR techniques based on statistics and probability theory may be more generally employed
outside the textual case and within specific non-textual application domains. This is because the underlying models, such as the vector-space and the probabilistic models, are likely to describe fundamental
characteristics being shared by different media, languages, and application domains.
9.2.1.1

Digital Music and Digital Libraries

There is an increasing interest towards music stored in digital format, which is witnessed by the
widespread diffusion on the Web of standards for audio like MP3. There are a number of reasons to
explain such a diffusion of digital music.
First of all, music is an art form that can be shared by people with different culture because it
crosses the barriers of national languages and cultural backgrounds. For example, tonal Western
music has passionate followers also in Japan and many persons in Europe are keen on classical
Indian music: all of them can enjoy music without the need of a translation, which is normally
required for accessing foreign textual works.
Another reason is that technology for music recording, digitalization, and playback, allows for
an access that is almost comparable to the listening of a live performance, at least at the level
of audio quality, and the signal to noise ratio is better for digital formats than for many analog
formats. This is not the case of other art forms, like painting, sculpture or even photography,
for which the digital format is only an approximate representation of the artwork. The access to
digitized paintings can be useful for studying the works of a given artist, but cannot substitute
the direct interaction with the real world works.
Moreover, music is an art form that can be both cultivated and popular, and sometimes it is
impossible to draw a line between the two, as for jazz or for most of ethnic music.
These reasons, among others, may explain the increasing number of projects involving the creation
of music DLs. A music DL allows for, and benefits from, the access by users from all over the world, it
helps the preservation of cultural heritage, and it is not tailored only to scholars or researchers needs.
More in general, as music is one of the most important means of expression, the organization, the
integration with other media, and the access to the digitized version of music documents becomes an
important multimedia DL component. Yet, music has some peculiarities that have to be taken into
account when developing a music DL. In figure 9.33 the architecture of a music information retrieval
system is shown.
9.2.1.2

Music Information Retrieval

Specific and effective techniques being capable of indexing and retrieving such multimedia documents
as the music ones need to be designed and implemented.
Current approaches to Music Information Retrieval (MIR) are based either on string matching
algorithms or textual bibliographic catalogue.
Sting matching approach makes content-based retrieval very difficult - indeed, retrieving textual
files using Unix grep-like commands gives poor results.

9.30

CHAPTER 9. MUSIC INFORMATION PROCESSING

Figure 9.33: Architecture of a music information retrieval system


Textual bibliographic catalogue approach makes content-based retrieval impossible since the
music content cannot be described by bibliographic catalogue.
The requirement for a content-based MIR has been stressed within the research area of music information systems as well. The developments in the representation of music suggest a need for an
information retrieval philosophy directed toward non-text searching and eventual expansion to a system that encompasses the full range of information found in multimedia documents. As IR has dealt
with the representation and the disclosure of content from its early days, it is natural to think that
IR techniques should be investigated to evaluate their application to music retrieval. According to
McLane what has been left out of this discussion, and will no doubt be a topic for future study,
is the potential for applying some of the standard principles of text information retrieval to music
representations.
If we follow the hypothesis that the use of standard principles of text information retrieval
to index and retrieve music documents is possible, then the design of ad-hoc segmentation
algorithms to produce musical lexical units like words in textual documents is required.
The concept of lexical unit may vary depending on the approach. A lexical unit can be: a fixedlength string, the incipit, a complete theme, a melodic phrase, and so on. Music is a continuous
flow of events (e.g., notes, chords, and unpitched percussive sounds) without explicit separators,
if not those perceived by listeners. Also music representation lacks of separators of lexical units,
because it conveys information only about macro-events, like changes in tonality or the presence

9.2. MUSIC INFORMATION RETRIEVAL

9.31

of repetitions. It is therefore necessary to automatically detect the perceived lexical units of a


music document to be used like words in textual documents.
Moreover, content-based MIR requires the design of normalization algorithms. Once detected,
musical lexical units occur in documents with many variants like textual words do within textual
documents. For example, a melodic pattern may occur in many music works, perhaps composed
by different authors, with small deviations of note intervals or timing. Despite these deviations,
different patterns may be perceptually similar, hence conveying the same music perception. It is
therefore necessary to detect these variants and conflate all the similar musical lexical units into
a common stem expressing the same music perception. This conflation process is analogous to
the one performed in the textual case for detecting word stems through, for example, the Porters
stemming algorithm.
To allow the integration of automatic music processing techniques with automatic IR techniques,
segmentation and normalization algorithms are applied also on music queries.
In a content-based music IR system, users may be able to interact with the system by using the
same language, that is the music language. This because content-based MIR requires users to be able
of expressing the music document content. The most natural way of express music content is singing
and playing music. This approach is often referred to as the query by example paradigm. Therefore,
users should be provided with interfaces and search functions so that they can play music and send a
music query to the system.
To make content-based music retrieval possible, query content and document content have to be
matched: Describing query content is then necessary. If we regard music queries as music documents,
segmentation and normalization can be performed also on music queries using the same algorithms
used for disclosing document content.

9.2.2 Issues of Content-based Music Information Retrieval


Music, in its different representations, can be considered as another medium together with text, image,
video, and speech. Nevertheless, there are some issues that make music different from other multimedia IR application domains. The issues we address are form, instantiation, dimension, content,
perception, user profile, and formats. The most relevant issues are describes in the following Sections.
9.2.2.1

Peculiarities of the Music Language

The same entity, i.e. a music work, can be represented in two different main forms: the notated and
the acoustic form, respectively corresponding to score and performance. Hence the communication in
music is performed at two levels:
the composer translates his intentions in a music structure (music as a composing art),
the musician translates the written score into sounds (music as a performing art).
Also users may have different needs, in particular the music scholar may look for a given composition,
while the melomane may look for a particular performance.
Each music work may have different instantiations. As musicians can interpret scores, the resulting performances may differ and therefore more performances correspond to an individual score.
Furthermore, the same music work may be transcribed into different scores, depending on the revisers
choices. As a consequence, different performances and scores may rely to the same music work.

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.32

Different dimensions characterize the information conveyed by music. Melody, harmony, rhythm,
and structure are dimensions, carried by the written score, that may be all or in part of interest for
the final user. In the case of a performance other dimensions should be added, for instance timbre,
articulation, and timing. It is likely that the dimensions of interest vary with the level of users expertise
and the specific users search task. As described in Section 9.2.2.3, different formats are able to capture
only a reduced number of dimensions. Therefore, the choice of a representation format has a direct
impact on the degree to which a music retrieval system can describe each dimension.
While text, image, video, or speech-based documents in general convey some information that
form their content, it is still unclear what type of content, if any, music works do convey. Let us
consider an example: the concept of tempest can be described with a textual document, such as the first
chapter of Shakespeares The Tempest, a painting, such as the landscape of Giorgiones The Tempest,
a video or speech, such as broadcasting news about, for instance, a tornado. All these media are able
to convey, among all the other information, the concept of tempest. There are up to forty music works
of tonal Western music whose title is related to tempests, among those the most famous probably are
Beethovens Sixth Symphony IV Movement, Rossinis Overture of William Tell, and Vivaldis Concerto
La Tempesta di Mare. These works differ in music style, form, key and time signature, and above all
the user may be not able to recognize that the work is about a tempest and not just pure music.
In principle, music language does not convey information as, for instance, text or video do. Many
composers wrote music to stir up emotions, and in general they aimed to communicate no specific
information to the listener. The final user feels emotions on listening to the music, and he interprets
some information independently from the composers and performers thought and differently from the
other users. There is a particular kind of music works, called musica a programma, in which the title
(like Vivaldis The Spring) or a lyric (like Debussys Prlude laprs-midi dun faune) suggests a meaning
to the listener; this sort of textual data would be better managed using a database system rather than
a IR system. Moreover in sung music, such as Cantatas, the accompanied text gives the work some
meaning, yet that sort of text would require ad-hoc IR techniques to be effectively managed. In general
the availability of textual material together with music documents is insufficient.
It is then important to consider how music is perceived and processed by listeners, to highlight
which kind of content is carried by this medium. A number of different theories was proposed by
musicologists, among which the most popular ones are the Generative Theory of Tonal Music (see
Sect. 9.1.6) and the Implication-Realization Model (see Sect. 9.1.4). In both cases it is stated that
listeners perceive music as structured and consisting of different basic elements. Therefore, even if
music notation and performance lack of explicit separators (like blanks or commas in text) musicians
and listeners perceive the presence of small elements which constitute the music work: we can consider these elements as the lexical units for a content-based approach to MIR. It is likely that all the
dimensions of music language can be segmented in their lexical units and be used to extract a content
from a music document.
9.2.2.2

The Role of the User

As always happens in IR, the effectiveness of techniques does strongly depend on the final user.
DL systems does indeed interact with final users of very diverse types and with different levels of
expertise in the use of the system itself. This is particularly true for music DLs, because there is a
great difference in users expertise depending on the practice of a musical instrument, the ability of
reading a score, the knowledge of harmony rules, the familiarity with composition styles, and so on.
Users may have different needs, for instance a music scholar may look on how a given cadenza is
used by different authors, while a melomane may look for a particular performance of a well-known

9.2. MUSIC INFORMATION RETRIEVAL

9.33

musician. This is a key aspect in the design of a methodology for content-based MIR, because it
affects the choice of the dimension to be used for describing a music work, that is which kind of
content has to be extracted from it.
Considering that access to DL is widely spread to users of any type, final users of a music DL
may not have a deep knowledge of music language. Therefore, melody seems to be the most suitable
dimension. In fact, almost everybody can recognize simple melodies and perform them at least by
singing or humming. In this case, lexical units can be considered the musical phrases, which may be
defined as short excerpts of the melody which constitute a single musical gesture. Moreover, melody
carries also explicit information about rhythm and implicit information about harmony.
Melody can be the most suitable evidence for content-based music retrieval, it may however be the
case that only a part of the melody can effectively be exploited as useful evidence for music document
and query description. This implies that, if phrases can be detected by means of some segmentation
algorithms, then it is likely that some of these phrases are good descriptors of the music content from
users point of view, while others can be dropped since they give little contribution to the music content
description and may negatively affect efficiency. This latter consideration leads us to contemplating
the possibility of building lists of stop phrases, that may be dropped from the index of phrases similarly
to the textual case. However, it is still unclear if stop phrases exist how users perceive them. While
one can identify a word as stop word because it has no, little, or less meaning than keywords, one
cannot identify a phrase as stop phrase because it is very difficult to say what phrase meaning does
mean, and frequency-based stop phrase list construction may be a difficult task because, for instance,
users may recall melody excerpts just because they are very frequent in a musical genre.
9.2.2.3

Formats of Music Documents

As previously mentioned, the communication in music is achieved at two levels, corresponding to two
forms: the composer translates his intentions into a musical structure, that is represented by a music
score, and the musician translates the written score into a performance, that is represented by a flow
of acoustic events. A number of different digital formats correspond to each form. It can be noted
that, as musicians can interpret scores, the resulting performances differ and therefore more than one
performance correspond to a single score. Even if the two forms can be considered as instantiations
of the same object, they substantially differ in the information that can be manually or automatically
extracted from their respective formats.
The first problem which arises in the automatic processing of music is then that a music work may
be digitally stored in different formats. The same music piece can be represented, for example,
by a reproduction of the manuscript,
by a symbolic notation of the score,
by a sequence of time-stamped events corresponding to pitched and unpitched sounds,
or by a digital recording of an acoustic performance.
Each format carries different information on the content of the document. For instance, at the stateof-the-art it is impossible to recover informations about the written score from the digital sampling,
e.g. stored in a compact disk, of a polyphonic audio signal, and the score carries no information
about the timbre, expressive timing and other performing parameters. Hence, the documents format
has to be chosen depending on the aims of the DL, which may encompass preservation, displaying,

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.34

listening, indexing, and retrieval for example, preservation requires high quality audio coding and
dissemination over the Internet requires lossy compression.
Formats for digital music documents can be divided in two classes.
The score is a structured organization of symbols, which correspond to acoustic events; the
score is a direct representation of all the dimensions of music (i.e., melody, harmony, and
rhythm) and it usually contains all the information that is relevant for classifying and cataloguing: type of movement, time and key signatures, composers notes, and so on. The symbolic
nature of the score allows for an easy representation of its content, and many proposed formats
represents score in the form of a textual markup language, for instance ABC and GUIDO.
The performance is made of a sequence of gestures performed by musicians on their musical
instruments; the result is a continuous flow of acoustic waves, which correspond to the vibration
induced on musical instruments. Even if all the dimensions of music are embedded in a performance, it requires high-level information processing to recognize them. In particular, only
experienced musicians can recognize all the dimensions of music from listening to a performance and, at the state of the art, there is no automatic system that can recognize them from
an acoustic recording, apart from trivial cases. The nature of a performance does not allow
for an easy representation of its content. The formats adopted to digitally represent performances, such as AIFF (Audio Interchange File Format, proposed by Apple Computers) or MP3
(MPEG1, Layer3), are a plain digital coding of the acoustic sound waves, with a possible data
compression.

(a)

(b)

Figure 9.34: Example of a melody


We present now an example of different representations of a melody with reference to fig. 9.34(a).
we can represent as absolute or relative values.
Absolute measure:
Absolute pitch: C5 C5 D5 A5 G5 G5 G5 F5 G5
Absolute duration: 1 1 1 1 1 0.5 0.5 1 1
Absolute pitch and duration:
(C5,1)(C5,1)(D5,1)(A5,1)(G5,1)(G5,0.5)(G5,0.5)(F5,1)(G5,1)
Relative measure:
Contour (in semitones): 0 +2 +7 -2 0 0 -2 +2
IOI (Inter onset interval) ratio: 1 1 1 1 0.5 1 2 1
Contour and IOI ratio:
(0,1)(+2,1)(+7,1)(-2,1)(0,0.5)(0,1)(-2,2)(+2,1)

9.2. MUSIC INFORMATION RETRIEVAL

9.35

In a polyphonic case (see fig. 9.34(b)) we can represent in different ways.


Keep all information of absolute pitch and duration (start time, pitch, duration)
(1,C5,1)(2,C5,1)(3,D5,1)(3,A5,1)(4,F5,4)(5,C6,1)(6,G5,0.5)(6.5,G5,0.5)...
Relative note representation: Record difference of start times and contour (ignore duration)
(1,0)(1,+2)(0,+7)(1,-4) ...
Monophonic reduction, e.g. select one note at every time step (main melody selection)
(C5,1)(C5,1)(A5,1)(F5,1)(C6,1)...
Homophonic reduction (chord reduction), e.g. select every note at every time step
(C5)(C5)(D5,A5)(F5)(C6)(G5)(G5) ...
With the aim of taking into account all the variety in which music information can be represented,
it has been proposed the Standard Music Description Language (SMDL), as an application of the
Standard ISO/IEC Hyper-media/Time-based Structuring Language. In SMDL, a music work is divided into different domains, each one dealing with different aspects, from visual to gestural, and
analytical. SMDL provides a linking mechanism to external, pre-existing formats for visual representation or storage of performances. Hence SMDL may be a useful way for music representation
standardization, but the solution is just to collect different formats rather that proposing a new one
able to deal with all the aspects of the communication in music.
A Note on MIDI A format that can be considered as a compromise between the score and the
performance forms is MIDI (Musical Instrument Digital Interface), which was proposed in 1982 for
data exchange among digital instruments. MIDI carries both information about musical events, from
which it is possible to reconstruct an approximate representation of the score, and information for
driving a synthesizer, from which it is possible to listen to a simplified automatic performance. It
seems then that MIDI draws a link between the two different forms for music representation. This
characteristics, together with the fortune of MIDI as an exchange format in the early times of the
Internet, can explain why many music DLs and most projects regarding music indexing and retrieval
refer to it. Some of the research work on music information retrieval take advantage of the availability
of MIDI files of about all the different music genres and styles. MIDI files are parsed in order to
extract a representation of the music score, and then indexed after different preprocessing.
Nevertheless, MIDI is becoming obsolete and users on the Internet increasingly prefer to exchange
digital music stored in other formats such as MP3 or RealAudio, because they allow for a good
audio-quality with a considerably small dimension of the documents size. Moreover, if the goal
of a music DL is to preserve the cultural heritage, more complete formats for storing both scores
and performances are required. Being a compromise between two different needs i.e., to represent
symbols and to be playable MIDI turns out to fit neither the needs of users who want to access to
a complete digital representation of the score, nor to users who want to listen to high-quality audio
performances.
9.2.2.4

Dissemination of Music Documents

The effectiveness of a retrieval session depends also on the ability of users to judge whether retrieved
documents are relevant to their information needs. The evaluation step, in a classical presentationevaluation cycle, for an information retrieval session of textual documents usually benefits from tools
for browsing the document (e.g., the find function), in particular when the size of documents is large.

9.36

CHAPTER 9. MUSIC INFORMATION PROCESSING

Moreover, a general overview of the textual content may help users to judge the relevance of most of
the retrieved documents.
Users of a music DL cannot take advantage of these shortcuts for the evaluation of documents
relevance, when they are retrieving music performances. This is due to the central role played by time
in the listening to music. A music performance is characterized by the organization of music events
along the time axis, which concatenates the single sounds that form the whole performance. Changing
playback speed of more than a small amount may result in a unrecognizable performance. In other
words, it requires about 20 minutes to listen to a performance that lasts 20 minutes. It may be argued
that many music works are characterized by their incipit, that is by their first notes, and hence a user
could be required to listen only to the first seconds of a performance before judging its relevance to
his information needs. Anyway, the relevant passage of a music document e.g., a theme, the refrain
may be at any position in the time axis of the performance.
A tool that is often offered by playback devices is the skip function, that allows for a fast access to a
sequence of random excerpts of the audio files, to help listeners looking for given passages. Everyone
who tried to find a particular passage in a long music performance, knows that the aid that the skip
function gives when accessing to music documents is not even comparable with the find function for
textual documents. This is partially due to the fact that auditory information does not allow a snapshot
view of the documents as visual information does. The evaluation of relevance of retrieved music
documents may then be highly time-consuming, if tools for a faster access to document content are
not provided.

9.2.3 Approaches to Music Information Retrieval


There is a variety of approaches to MIR and there are many related disciplines involved. Because of
such wide varieties, it is difficult to cite all the relevant work. Current approaches to MIR can broadly
be classified into data-based and content-based approaches. For the aims of scientific research on
multimedia IR, content-based approaches are more interesting, nevertheless the use of auxiliary textual data structures, or metadata, can frequently be observed in approaches to non-textual, e.g. image
or video document indexing. Indeed, textual index terms are often manually assigned to multimedia
documents to allow users retrieving documents through textual descriptions.
9.2.3.1

Data-based Music Information Retrieval

Data-based MIR systems allow users for searching databases by specifying exact values for predefined
fields, such as composer name, title, date of publication, type of work, etc. we actually speak about
exact match retrieval. Data-based approaches to MIR makes content-based retrieval almost impossible
since the music content cannot easily be conveyed simply by bibliographic catalogue only.
Indeed, music works are usually described with generic terms like Sonata or Concerto which are
related only to the music form and not the actual content. From an IR point of view, data-based approaches are quite effective if the user can exhaustively and precisely use the available search fields.
However, bibliographic values are not always able to describe exhaustively and precisely the content of music works. For example, the term Sonata as value of the type of work cannot sufficiently
discriminate all the existing sonatas.
Moreover, many known work titles, such as the Tchaikovskijs Pathetic, are insufficient to express
a final users query whenever he would find the title not being a good description of the music work.
The use of cataloging number, like K525 for Mozarts Eine Kleine Nachtmusic, will be effective only

9.2. MUSIC INFORMATION RETRIEVAL

9.37

if the user has a complete information on the music work, and in this case a database system will
suffice.
Searching by composer name can be very effective. However, some less known composers and
their works may not be retrieved if only because the authors are little known. Content-based MIR may
allow for the retrieval of these pieces since querying by a known melodic pattern, such as a Mozarts
one, may retrieve previously not considered or unknown composers. On the other hand, for a prolific
composer, just like Mozart, a simple query by composers name will retrieve an extremely high number
of documents, unbearable for the final user.
9.2.3.2

Content-based Music Information Retrieval

Content-based approaches take into account the music document content, such as notation or performance, and automatically extract some features, such as incipites or other melody fragments, timing
or rhythm, instrumentation, to be used as content descriptors. Typical content-based approaches are
based on the extraction of note strings from the full-score music document. If arbitrarily extracted,
note strings may be meaningless from a musical point of view because no music information is exploited to detect those strings, yet allows for a good coverage of all the possible features to be extracted.
Content-based approaches to MIR can sometimes be oriented to disclosing music document semantic content using some music information, under the hypothesis that music documents can convey
some meaning and then some fragments can effectively convey such meaning. In the latter case, some
music information is exploited to detect those strings so that the detected strings can musically make
sense if, for instance, they were played.
The research work on this area of MIR can be roughly divided in two categories:
on-line searching techniques, which compute a match between a representation of the query
and a representation of the documents each time a new query is submitted to the system;
indexing techniques, which extract off-line from music documents all the relevant information
that is needed at retrieval time and perform the match between query and documents indexes.
Both approaches have positive and negative aspects.
From the one hand, on-line search allows for a direct modelling of query errors by using, for
instance, approximate pattern matching techniques that deal with possible sources of mismatch,
e.g. insertion and/or deletion of notes. This high flexibility is balanced by high computational
costs, because the complexity is at least proportional to the size of the document collection (and,
depending on the technique, to the documents length).
From the other hand, indexing techniques are more scalable to the document collection, because
the index file can be efficiently accessed through hashing and the computational complexity
depends only on query length. The high scalability is balanced by a more difficult extraction
of document content, with non trivial problems arising in case of query errors that may cause a
complete mismatch between query and document indexes.
Both approaches had given interesting and promising results. Yet, indexing approaches need to be
investigated in more detail because of the intrinsic higher computational efficiency.
Previous work on on-line search has been carried out following different strategies. A first approach is based on the use of pattern discovery techniques, taken from computational biology, to

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.38

compute occurrences of a simplified description of the pitch contour of the query inside the collection
of documents. Another approach applies pattern matching techniques to documents and queries in
GUIDO format, exploiting the advantages of this notation in structuring information. Approximate
string matching has been used. Markov chains have been proposed to model a set of themes that
has been extracted from music documents, while an extension to hidden Markov models has been
presented as a tool to model possible errors in sung queries.
An example of research work on off-line document indexing has been presented in[8]. In that work
melodies were indexed through the use of N-grams, each N-gram being a sequence of N pitch intervals. Experimental results on a collection of folk songs were presented, testing the effects of system
parameters such as N-gram length, showing good results in terms of retrieval effectiveness, though the
approach seemed not be robust to decreases in query length. Another approach to document indexing
has been presented in[24], where indexing has been carried out by automatically highlighting music
lexical units, or musical phrases. Differently than the previous approach, the length of indexes was not
fixed but depended on the musical context. That is musical phrases were computed exploiting knowledge on music perception, in order to highlight only phrases that had a musical meaning. Phrases
could undergo a number of different normalization, from the complete information of pitch intervals
and duration to the simple melodic profile.
Most of the approaches are based on melody, while other music dimensions, such as harmony,
timbre, or structure, are not taken into account. This choice may become a limitation depending on the
way the user is allowed to interact with the system and on his personal knowledge on music language.
For instance, if the query-by-example paradigm is used, the effectiveness of a system depends on
the way a query is matched with documents: If the user may express his information need through a
query-by-humming interface, the melody is the most likely dimension that he will use. Moreover, for
non expert users, melody and rhythm (and lyrics) are the more simple dimensions for describing their
information needs.
Query processing can significantly differ within content-based approaches. After a query has
been played, the system can represent it either as a single note string, or as a sequence of smaller
note fragments. The latter can be either arbitrary note strings, such as n-grams, or fragments extracted
using melody information. Regarding the query as a single note string makes content-based retrieval
very difficult since it would be similar to retrieving textual files using Unix grep-like commands which
provides very poor results. On the contrary, extracting fragments using melody information can result
in a more effective query description. We then speak about partial match retrieval.
9.2.3.3

Music Digital Libraries

Digital library projects have been carried out for designing, implementing, and testing real MIR systems. Some of them implement data-based, content-based, or both approaches to MIR. We cite some
of the projects being most relevant to our research aims. The reader can access to the cited papers
to have a complete description of methods and systems. The VARIATIONS digital library has been
reported in [9], while the MELDEX project is reported in [4]. A project involved the University of
Milan and the Teatro alla Scala, Milan [10] to implement a multimedia object-relational database
storing the music contents of the archive, as well as catalogue data about the nights at the Teatro alla
Scala. The access to the archive is basically based on fragment extraction and approximate string
matching. A feasibility study was conducted for the ADMV (Digital Archive for the Venetian Music
of the Eighteenth century) digital library project [3]. The feasibility study allowed for defining architecture, technology, and search functions for a data and content-based MIR and database management
system. The system complexity is due to the number of inter-relationships of all the aspects being

9.2. MUSIC INFORMATION RETRIEVAL

9.39

typical of a real effective DL distributed databases, preservation, wide area networking, protection,
data management, content-based access.

9.2.4 Techniques for Music Information Retrieval


Content-based MIR is a quite new research area, at least compared to classical textual IR. For this
reason, most of the techniques applied to retrieve music documents derive from IR techniques. In this
section, after introducing some terminology typical of content-based description of music documents,
techniques for MIR and their relationship with IR techniques are described. A final example is given
on how evaluation can be carried out.
9.2.4.1

Terminology

There is a number of terms that have a special meaning for the research community on MIR.
A feature is one of the characteristics that describe subsequent notes in a score. A note feature
can be: the pitch, the pitch interval with the previous note (PIT), a quantized PIT, the duration, the
interonset interval with the subsequent note (IOI), the ratio of IOI with the previous note, and so
on. All the features can be normalized or quantized. In the example of sect. 9.2.5.4, features are
related to pitch and rhythm that, though usually correlated, can be treated independently. For example,
many songs can be guessed only by tapping the rhythm of the melody while other ones can be easily
recognized even if played with no tempo or rubato.
A string is a sequence of features. Any sequence of notes in a melody can be considered a string.
It can be noted that strings can be used as representative of a melody, which is the idea underlying
many approaches to MIR, but the effectiveness by which each string represents a document may
differ. For instance, it is normally accepted that the first notes of a melody play an important role
in recognition, or that strings that are part of the main theme or motif are good descriptors as well.
String length is an important issue: Long strings are likely to be effective descriptors, yet they may
lead to problems when the user is request to remember long parts of a melody for querying a MIR
system. Often, strings shorter than three notes can be discarded, because they can be considered not
significant descriptors.
A pattern is a string that is repeated at least twice in the score. The repetition can be due to the
presence of different choruses in the score or by the use of the same music material (e.g., motifs,
rhythmical cells) along the composition. Each pattern is defined by the string of features, by its length
n and by the number of times r it is repeated inside the score. All patterns that appear only inside
longer patterns have been discarded in the example of sect. 9.2.5.4. The computation of patterns can
be done automatically using well known algorithms for pattern discovery. Given a particular feature,
patterns can be considered as effective content descriptors of a music document. Depending on the
selected feature, patterns carry different information about document content.
It can be noted that a music documents may be directly indexed by its strings. In particular, it can
be chosen to describe a document with all its strings of a given length, usually from 3 to 5 notes, that
are called n-grams. The n-gram approach is a simple, but often effective, alternative to more complex
approaches that are based on melodic information. In the following sections, patterns are considered
as possible content descriptors, yet the discussion may be generalized to n-grams, musical phrases,
and so on. Moreover, in the following discussion, three kinds of features are considered for the pattern
selection step the interonset interval (IOI) normalized to the quarter note, the pitch interval (PIT) in
semitones, and both (BTH).

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.40

9.2.5 Document Indexing


Document indexing is a mandatory step for textual information retrieval. Through indexing, the relevant information about a collection of documents is computed and stored in a format that allows easy
and fast access at retrieval time. Document indexing is carried out only when the collection is created
or updated, when users are not yet accessing the documents, and then the problems of computational
time and efficiency are usually less restrictive. Indexing speeds up retrieval time because it is faster to
search for a match inside the indexes than inside the complete documents.
Following the terminology introduced in the previous section, each document may be indexed by
a number of patterns of different length and with different multiplicity. If it is assumed that patterns
are effective descriptors for document indexing, the first step of document indexing consists in the
automatic computation of the patterns of each document. As previously mentioned, relevant features
which are usually taken into account are IOI, PIT, and BTH. Pattern computation can be carried out
with a ad-hoc algorithms that compute exhaustively all the possible patterns, and store them in a hash
table.
An exhaustive pattern discovery approach highlights a high number of patterns that have little or
no musical meaning; for instance, a pattern that is repeated only two or three times in a document is
likely to be computed by chance just because the combination of features is repeated in some notes
combinations. Moreover, some patterns related to scales, repeated notes, or similar musical gestures,
are likely to appear in almost all documents and hence to be poor discriminants among documents.
In general, the degree by which a pattern is a good index may vary depending on the pattern and on
the document. This is a typical situation of textual information retrieval, where words may describe a
document to a different extent. For this reason it is proposed to apply the classical tf idf weighting
scheme.
The extent by which a pattern describes a document is the result of the multiplication of two terms.
The term frequency is the number of occurrences of a given pattern inside a document. Hence, the
term frequency of pattern p for document d can be computed as
tfpd = # occurrences of p d
The inverse document frequency takes into account the number of different documents in which a
patters appears. The inverse document frequency of pattern p can be computed as
idfp = log

# documents containing p
# documents

Relevant patterns of a document may have a high tf they are frequent inside the document and/or
a high idf they are infrequent across the collection.
For the aims of indexing, a document is described by a sparse array, where each element is associated to a different pattern in the collection. The value of each element is given by the tf idf value.
The index is built as an inverted file, where each term of the vocabulary is a different pattern in a given
notation (i.e., a text string). Each entry in the inverted file corresponds to a different pattern, and can
efficiently be computed in an expected time O(1) with an hashing function. Given the different sets
of features, three inverted files are built, respectively for features IOI, PIT, and BTH. Inverted files
can be efficiently stored in memory, eventually using compression, and fast accessed at retrieval time.
The size of the inverted file and the implementation of the hashing function depend on the number of
different patterns of the complete collection.
It may be useful to fix the maximum allowable pattern length to improve indexing. In fact, it
is likely that very long patterns are due to repetitions of complete themes in the score and taking

9.2. MUSIC INFORMATION RETRIEVAL

9.41

into account also them will give a quite sparse inverted file. Moreover, it is unlikely that a user will
query the system singing a complete theme. These considerations suggest that long patterns could be
truncated when they are over a given threshold.
9.2.5.1

Query Processing

For the query processing step, it can be assumed that users interact with the system according to a
query-by-example paradigm. In particular, users should be able to describe their information needs
by singing (humming or whistling), playing, or editing with a simple interface a short excerpt of the
melody that they have in mind. Pitch tracking can be applied to the users query in order to obtain
a transcription in a notation format, such as a string of notes. The string representing the translated
query needs to undergo further processing, in order to extract a number of descriptors that can be used
to match the query with potentially relevant documents. It is normally assumed that a query is likely to
contain strings that characterize the searched document, either because they appear very often inside
its theme or because they are peculiar of that particular melody. In other words, a query is likely to
contain relevant patterns of the searched document, which may have a high tf and/or idf .
The automatic detection of relevant strings cannot be carried out through pattern analysis, because
normally queries are too short to have repetitions and hence to contain patterns. A simple approach
to extract relevant strings, or potential patterns, from a query consists in computing all its possible
substrings. That is, from a query of length q notes are automatically extracted q 2 strings of three
notes, plus q 3 strings of four notes, and so on until the maximum allowable length for a pattern is
reached. This approach can be considered similar to query expansion in textual information retrieval,
which is known to increase recall at the risk of lowering precision. On the other hand, it is expected
that most of the arbitrary strings of a query will never form a relevant pattern inside the collection,
and then the negative effects on precision could be bounded.
9.2.5.2

Ranking Relevant Documents

At retrieval time, the strings are automatically extracted from the query and matched with the patterns
of each document. The computation of potentially relevant documents can be carried out computing
the distance between the vector of strings representing the query and the vector of patterns representing
each document. Hence, for each document a Retrieval Status Value (RSV) is calculated, the higher
the RSV, the closer the document with the query. A rank list of potentially relevant documents is
computed from RSVs, obtaining a different rank lists for each of features used.
In general the orderings of documents in the rank lists differ. Differences may be due to many
factors, as the diverse importance of rhythm and melodic profile for a the document collection, the
effect of errors in the query, the kind of melodic excerpt chosen by the user as a representative of his
information needs. It is expected that BTH ranking will give high scoring to the relevant documents
when the query is sufficiently long and correctly played, because BTH patterns are a closer representation of the original melody. On the other hand, IOI and PIT are robust to query errors in melodic
profile and rhythm, respectively. Moreover, simple representations as IOI and PIT are expected to be
less sensitive to query length because of the possible presence of subpatterns of relevant motifs.
It is possible to take advantage from the existence of different rank lists by fusing together the
results, in order to give the user a single rank list which takes into account the results of the three
parallel approaches. This is a typical problem of data fusion, an approach that is usually carried
out in the research area of Meta Search Engines, where the results obtained by different indexing
and retrieval methodologies are combined or fused together according to a predefined weighting

CHAPTER 9. MUSIC INFORMATION PROCESSING

9.42

Figure 9.35: The phases of a methodology for MIR: Indexing, retrieval, and data fusion
scheme. Since the RSVs of individual search engines are not known, or not comparable with others,
the classical approach to data fusion is based on the information of rank only. In the case of MIR
based on parallel features, the fusion can be carried out directly using the RSVs, because they are all
based on the same tf idf scheme. A new RSV can be computed as a weighted sum of RSVs of single
features obtaining a new rank list.
A complete methodology for MIR shown in Figure 9.35, where steps undertaken at indexing time
are shown on the left, while the operations that are performed at retrieval time are shown on the right.
From Figure 9.35 and the above discussion, it is clear that the computational complexity depends on
the query length i.e., the number of strings that are computed from the query while it is scalable on
the number of documents. This is an important characteristic given by indexing techniques, because
the time needed to reply to a query can be reasonably low also for large collections of documents.
9.2.5.3

Measures for Performances of MIR Systems

The output of almost any information retrieval system, and this applies also to MIR, is a ranked list of
potentially relevant documents. It is clear that only the final user can judge if the retrieved documents
are really relevant to his information needs. That is, the user should evaluate system performances in
terms of retrieval effectiveness. There are two main reasons why the user may not be satisfied by the
result of an information retrieval system.
the system does not retrieve documents that are relevant for the user information needs which
is usually called silence effect;
the system retrieves documents that are not relevant for the user information needs which is
usually called noise effect
All real systems for MIR try to balance these two negative effects. From the one hand, a high silence
effect may result in not retrieving all the music documents that are similar to a given query sung by

9.2. MUSIC INFORMATION RETRIEVAL

9.43

the user. From the other hand, a high noise effect may cause the user to spend great part of a retrieval
session in listening to irrelevant documents.
Even if user satisfaction plays a central role in the evaluation of performances of a MIR system,
and in general of any IR system, user studies are very expensive and time consuming. For this reason,
the IR research community usually carries out automatic evaluation of the proposed systems using
commonly accepted measures. In particular, there are two measures that are connected to the concepts
of silence and noise effects. The first measure is recall, which is related to the ability of a system to
retrieve the highest percentage of relevant documents (thus minimizing the silence effect). Recall is
defined as
# relevant retrieved
recall =
# total relevant
that is the number of relevant documents retrieved by the system divided by the total number of
relevant documents in the complete database of documents. The second measure is precision, which
is related to the ability of the system of retrieving the lowest percentage of irrelevant documents (thus
minimizing the noise effect). Precision is defined as
precision =

# relevant retrieved
# total retrieved

that is the number of relevant documents retrieved by the system divided by the total number of
retrieved documents. An ideal system retrieved only relevant documents, and hence has 100% recall
and precision. For real systems, high precision is usually achieved at the cost of low recall and
viceversa.
Both precision and recall do not take into account that a MIR system may output a rank list of
documents. For this reason it is a common practice to compute these measures also for the first
N documents (for N {5, 10, 20, . . .}) and, in particular, to compute the precision at given levels
of recall. Another approach is to summarize these measures, and the effect of the documents rank,
in a single measure. For instance, the average precision is computed as the mean of the different
precisions computed each time a new relevant document is observed in the rank list.
The evaluation of MIR systems is usually carried out on a test collection according to the Cranfield model for information retrieval, which is used at the Text REtrieval Conference (TREC). A test
collection consists in a set of documents, a set of queries, and a set of relevance judgments that match
documents to queries. The creation of a common background for evaluation is still an open issue in
the MIR community, hence each research group created its own test collection from scratch. A good
test collection should be representative of real documents and, in particular, of real users queries. The
size of the document set, as well as the way queries are collected, may deeply influence the evaluation
results. Relevance judgments should be normally given by a pool of experts in the music domain,
which is an expensive task, but they can also be automatically constructed when queries are in the
form of excerpts of a known tune. In this latter case, only the document from which the query derives
is considered as relevant.
9.2.5.4

An Example of Experimental Evaluation

In the following paragraphs, the result of an experimental evaluation of a running MIR system are
reported. The system is based on pattern analysis, based on three alternative features (IOI, PIT, and
BTH) and data fusion techniques applied to the combination of IOI and PIT, called Fuse2, and the
combination of all the three features, called Fuse3.

9.44

CHAPTER 9. MUSIC INFORMATION PROCESSING

The Test Collection A small test collection of popular music has been created using 107 Beatles
song in MIDI format downloaded from the Web. As for any test collection, documents may contain
errors. In a preprocessing step, the channels containing the melody have been extracted automatically
and the note durations have been normalized; in case of polyphonic scores, the highest pitch has been
chosen as part of the melody. After preprocessing, the collection contained 107 complete melodies
with an average length of 244 notes, ranging from 89 of the shortest melody to 564 of the longest. Even
if a number of approaches for performing automatic theme extraction has been already proposed in the
literature, the methodology relies on indexing of complete melodies, because repetitions of choruses
and verses can be taken into account by the tf idf measure.
A set of 40 queries has been created by randomly selecting 20 themes in the dataset and using
the first notes of the chorus and of the refrain. The initial note and the length of each query were
chosen to have recognizable motifs that could be considered representative of real users queries. The
queries had an average length of 9.75 notes, ranging from 4 to 21 notes. Only the theme from which
the query was taken was considered as relevant. Using this initial set of correct queries, an alternative
set has been created by adding errors on pitch, duration, and both, obtaining a new set of 120 queries.
A simple error model has been applied, because errors were uniformly distributed along the notes
in the queries, with a probability of about 13.3%. As for many approaches to approximate string
matching, an error can be considered the result of a deletion and an insertion, thus these alternative
sources of errors have not been explicitly modelled. Tests on robustness to query length were carried
out by automatically shortening the initial queries by an increasing percentage, disregarding the fact
that query would not sound musical. In this way, 160 more queries with decreasing length have been
automatically generated. For all the modified queries, only the theme of initial query was considered
as relevant. In the following, we will refer to the only relevant document with the term r-doc for all
the experiments.
Truncation of Patterns All the experimental analyses, whose results are shown in the following
sections, have been carried out after truncating patterns longer than a given threshold t. When a pattern
[f1 . . . fn ] had a length of n > t, it has been replaced (in the indexing step) by all its subpatterns of
exact length t, that is the n t + 1 subpatterns [f 1 . . . ft ], [f2 . . . ft+1 ], and so on until [fnt . . . fn ],
where some of the subpatterns may be already extracted, because they were part of other motifs.
With the aim of computing the optimal threshold for the test collection, five different thresholds
have been tested, respectively 5, 7, 10, 15, and 20 notes. The retrieval effectiveness decreased with
high values of the threshold, meaning that a compact representation of patterns can be more effective
than longer ones. The average precision was approximately constant when thresholds higher than
15 20 notes were applied, probably because the number of different patterns longer than 20 notes is
less than 8% and with a low value of r. The use of short patterns can be a useful way to control the
increase of the index when new documents are added to the collection. Due to simple combinatorial
reasons, the number of different patterns is bounded by the pattern length; on the other hand, the use of
short patterns has the drawback of a higher number of patterns that are in common among documents,
which may lower precision. It is interesting to note that data fusion approaches gave consistently
better results than single approaches. This behaviour has been found in all our experiments, which are
presented in the following sections, where results are shown only for t = 5.
Retrieval Effectiveness The first detailed analysis regarded the retrieval effectiveness with the set
of 40 correct queries. Results are shown in Table 9.2, where the average precision (Av.Prec.), the
percentage queries that gave the r-doc within the first k positions (with k {1, 3, 5, 10}), and the

9.2. MUSIC INFORMATION RETRIEVAL

9.45

ones that did not give the r-doc at all (not found), are reported as representative measures. As it can
be seen, IOI gave the poorest results, even if for 90% of the queries the r-doc were among the first
three retrieved. The highest average precision using a single feature was obtained by BTH, with the
drawback of an on-off behaviour: either the r-doc is the first retrieved or it is not retrieved at all (2.5%
of the queries). PIT gave good results, with all the queries that found the r-doc among the first three
documents.
Av.Prec.
=1
3
5
10
not found

IOI
0.74
57.5
90.0
95.0
97.5
0

PIT
0.93
87.5
100
100
100
0

BTH
0.98
97.5
97.5
97.5
97.5
2.5

Fuse2
0.96
92.5
100
100
100
0

Fuse3
0.98
95.0
100
100
100
0

Table 9.2: Retrieval effectiveness for correct queries


The best results for Fuse2 and Fuse3 have been obtained assigning equal weights to the single
ranks. When the tf idf scores had different weights an improvement was still observed in respect to
single rankings, though to a minor extent. For this reason, results for Fuse2 and Fuse3 are presented
only when equal weights are assigned.
Robustness to Errors in the Queries Users are likely to express their information needs in an
imprecise manner. The query-by-example paradigm is error prone because the example provided
by the user is normally an approximation of the real information need. In particular, when the user is
asked to sing an excerpt of the searched document, errors can be due to imprecise recall of the melody,
problems in tuning, tempo fluctuations, and in general all the problems that untrained singers have.
Moreover, transcription algorithms may introduce additional errors in pitch detection and in melody
segmentation. The robustness to errors has been tested on an experimental setup. Since indexing
is carried out on melodic contour and on rhythm patterns, the errors that may affect the retrieval
effectiveness regard the presence of notes with a wrong pitch and a wrong duration. As previously
mentioned, a set of queries with automatically added errors has been generated in order to test the
robustness of the approach in a controlled environment.
As expected, the performances of IOI dropped for queries with errors in rhythm and the same
applied to PIT for queries with errors in pitch. The same considerations apply to BTH in both cases,
with an even bigger drop in the performances. It is interesting to note that data fusion allowed for
compensating the decreases in performances of single ranks, giving for both Fuse2 and Fuse3 an
average precision equal to the one obtained without errors. In the case of errors in both pitch and
rhythm, also Fuse2 and Fuse3 had a decrease in performances, even if their average precision was
consistently higher than the one of single features.
The experimental results showed that Fuse3 gave a considerable improvement in respect to the
single rankings contribution. A query-by-query analysis showed that this behaviour is due to the fact
that the sum of tf idf scores of the single features gave always a new ranking where the r-doc was
at the same level of the best of the three separate ranks; that is, if one of the three gave the r-doc as
the most relevant document, also Fuse3 had the r-doc in first position. Moreover, for some queries,
the fused rank gave the r-doc at first position even if none of the three single ranks had the r-doc as

9.46

CHAPTER 9. MUSIC INFORMATION PROCESSING

the most relevant document. These improvements can be explained by two factors: First, when the
r-doc was retrieved at top position by one of the features, it had a very high tf idf score that gave an
important contribution to the final rank; Second, the r-doc was often retrieved with a high rank by two
or three of the features, while in general other documents were not considered as relevant by more
than one feature. Similar considerations apply, though at a minor extent, also to Fuse2.
Dependency to Query Length A final analysis has been carried out on the effects of query length
to the retrieval effectiveness. It is known that users of search engines do not express their information
needs using much information. The community of information retrieval had to face the problems
of finding relevant information also with vague or short queries. To some extent, a similar problem
applies to MIR because users may not remember long excerpts of the music documents they are
looking for. Moreover, untrained singers may not like to sing for a long time a song that they probably
do not know very well. The effects of query length on a MIR system should then be investigated.
Tests on the dependency to query length have been carried out on a set of queries that were
obtained from the original set of queries by shortening the number of notes from 90% to 60% of their
original lengths. With this approach, queries may become very short, for instance a query of two notes
cannot retrieve any document because patterns shorter than three notes are not taken into account.
Consistently with previous results, Fuse3 gave the best performances and showed a higher robustness to decrease in query length. Also in this case results showed that the data fusion approach
was enough robust to changes in the initial queries. As previously mentioned, each initial query has
been created selecting a number of notes that allowed to recognize the theme by a human listener.
Moreover, each query was made by one or more musical phrases or musical gestures or motifs
considering that a user would not stop singing his query at any note, but would end the query in a
position that have a musical sense. For this reason, tests on query length can give only a general
indication on possible changes in retrieval effectiveness.

9.2.6 Conclusions
This section present a short overview on some aspects of music IR. In particular, the issues typical of
the music language have been discussed, taking into account the problems of formats and the role of
the user. A number of approaches that have been proposed in the literature are presented, in particular
the ones related to music Digital Libraries.
There are a number of aspects that are beyond the scope of this overview. In particular, all the
research work related to audio processing that, even if not central to music IR, plays an important role
in creating tools for classification of audio files and automatic extraction of low level features, that
may be useful for expert users.

9.3 Commented bibliography


The reference book for Auditory scene analysis is [4]. The Implication realization model is described
in [12]. The Local Boundary Detection algorithm is presented in [5]. The Generative Theory of Tonal
Music is described in [9].
Research on automatic metadata extraction for MIR can be classified in two main fields, depending
on the two different classes of formats in which a music document can be represented: the automatic
extraction of relevant information from a music score, which is typically achieved through melody

9.3. COMMENTED BIBLIOGRAPHY

9.47

segmentation and indexing; the automatic categorization of a music recording, which is typically
achieved through audio classification. In this chapter we deal with the first field.
In the case of melody segmentation and indexing, the main assumption is that it is not possible to
use textual descriptors for music documents, in particular for compositions and for melodies. Since it
is not clear what kind of meaning is conveyed by a music document, the common approach is to describe a document using perceptually relevant elements, that may be in the same form of the document
itself (that is the only way to describe music is through music). Clearly, the alternative description of a
music document should be more compact and summarize the most relevant information, at least from
a perceptual point of view. The music language may be characterized by different dimensions, which
may regard the score representation e.g., melody, harmony, rhythm the recording of performances
e.g., timbre, instrumentation and high level information e.g., structure, musical form. Among the
different dimensions, melody seems to be the most suitable for describing music documents. First of
all, users are likely to remember and use, in a query-by-example paradigm, parts of the melody of
the song they are looking for. Moreover, most of the dimensions require a good knowledge of music
theory to be effectively used, reducing the number of potential users to scholars, composers, and musicians. Finally, melody can benefit from tools for string analysis and processing to extract relevant
metadata. For these reasons, most of the research work on metadata extraction focused on melody
segmentation and processing. The need for automatic melody processing for extracting relevant information to be used as alternative descriptors, arises from the fact that the melody is a continuous flow
of events. Even though listeners perceive the presence of elements in the melodic flow, which may
be called lexical units, there is no explicit separator to highlight boundaries between them. Moreover,
it is well known that there are parts of the melody e.g., the incipit, the theme, the leit-motiv, and so
on that are more relevant descriptors of a music document than others. Yet, the automatic labelling
of these relevant parts needs ad-hoc techniques.
One of the first works, probably the most cited in the early literature on MIR, is [6]. In this paper it
is proposed the use of a query-by-example paradigm, with the aim of retrieving the documents that are
more similar to the melody excerpts sung by the user: both documents and queries are transformed in
a different notation that is related to the melodic profile. An alternative approach to MIR is proposed
in [3], where metadata is automatic computed and stored in a parallel database. Metadata is in the
form of hyperlinks between documents that are judged similar by the system.
Music language is quite different from other media, because it is not clear if music conveys a
meaning and how a music document can be effectively described; this mostly because perception
plays a crucial role in the way users can describe music. The important issue of perception is faced
in [14], where a user study is presented on users melody representation. The knowledge of music
structure is exploited in [10] for extracting relevant information, where music documents and queries
are described by surrogates made of a textual description of musical lexical units. Experiments on
normalization are also reported, in order to cope with variants in musical lexical units that may describe similar documents. In [1] is proposed a multimodal description of music documents, which
encompasses the audio, a visual representation of the score, the eventual lyrics, and other metadata
that are automatically extracted from files in MIDI format.
An alternative approach to automatically compute melodic descriptors of music documents is presented in [1], which is based on the use of N-grams as musical lexical units. Alternatively, musically
relevant phrases are proposed in [11], where an hypertextual structure is automatically created among
documents and musical phrases. In this case a document is described by a set of links to similar documents and to its most relevant phrases. Musical structure is exploited in [7] for computing a set of
relevant features from a music document in a complex notation format.
Alternatively to previous works, in [2] it is proposed that a good descriptor of a music document

9.48

CHAPTER 9. MUSIC INFORMATION PROCESSING

is its set of main themes, which are units longer than N-grams or musical phrases. Themes are modelled through the use of Markov chains. An extension to hidden Markov models is presented in [13],
where possible mismatches between the representation of the query and of the documents are explicitly modelled by emission probabilities of Hidden Markov Models states. An evaluation of different
approaches is presented in [8], where the problem of efficiency is raised and discussed.

Bibliography
[1] D. Bainbridge, C.G. Nevill-Manning, I.H. Witten, L.A. Smith, and McNab R.J. Musical information retrieval using
melodic surface. In Proc. International Symposium on Music Information Retrieval, pages 161169, 1999.
[2] W.P. Birmingham, R.B. Dannenberg, G.H. Wakefi eld, M. Bartsch, D. Bykowski, D. Mazzoni, C. Meek, M. Mellody,
and W. Rand. Musart: Music retrieval via aural queries. In Proc. International Symposium on Music Information
Retrieval, pages 7382, 2001.
[3] S. Blackburn and D. DeRoure. A tool for content based navigation of music. In Proc. ACM Multimedia Conference,
pages 361368, 1998.
[4] A. S. Bregman. Auditory Scene Analysis. MIT Press, 1990.
[5] E. Cambouropoulos. The local boundary detection model (lbdm) and its application in the study of expressive timing.
In Proc. Int. Computer Music Conf., 2001.
[6] A. Ghias, J. Logan, D. Chamberlin, and B.C. Smith. Query by humming: Musical information retrieval in an audio
database. In Proceedings of ACM Digital Libraries (DL) Conference, pages 231236, 1995.
[7] H.H. Hoos, K. Renz, and M. Gorg. GUIDO/MIR - an experimental musical information retrieval system based on
guido music notation. In Proc. International Symposium on Music Information Retrieval, pages 4150, 2001.
[8] N. Hu and R.B. Dannenberg. A comparison of melodic database retrieval techniques using sung queries. In Proc.
ACM/IEEE Joint Conference on Digital Libraries, pages 301307, 2002.
[9] F. Lerdahl and R. Jackendoff. A Generative Theory of Tonal Music. The MIT Press, 1983.
[10] M. Melucci and N. Orio. Musical information retrieval using melodic surface. In Proc. 4th ACM Conference on
Digital Libraries, pages 152160, 1999.
[11] M. Melucci and N. Orio. Smile: a system for content-based musical s information retrieval environments. In Proc.
Intelligent Multimedia Information Retrieval Systems and Management (RIAO) Conference, pages 12461260, 2000.
[12] Eugene Narmour. The Analysis and cognition of basic melodic structures : the implication-realization model. University of Chicago Press, 1990.
[13] J. Shifrin, B. Pardo, C. Meek, and W. Birmingham. Hmm-based musical query retrieval. In Proc. ACM/IEEE Joint
Conference on Digital Libraries, pages 295300, 2002.
[14] A. Uitdenbogerd and J. Zobel. Manipulation of music for melody matching. In Proc. ACM Multimedia Conference,
pages 235240, 1998.

9.49

9.50

BIBLIOGRAPHY

Contents
9 Music information processing
9.1 Models for musical analysis . . . . . . . . . . . . . . . . . . . . . .
9.1.1 Cognitive processing of music information . . . . . . . . . .
9.1.2 Auditory grouping . . . . . . . . . . . . . . . . . . . . . . .
9.1.3 Gestalt perception . . . . . . . . . . . . . . . . . . . . . . .
9.1.3.1 Musical examples of auditory organization . . . . .
9.1.4 Narmours implication realization model . . . . . . . . . . .
9.1.5 Local Boundary Detection Model (LBDM) . . . . . . . . . .
9.1.5.1 Local Boundary Detection algorithm description . .
9.1.6 Generative Theory of Tonal Music of Lerdahl and Jackendorf
9.1.7 Key finding algorithm . . . . . . . . . . . . . . . . . . . . .
9.2 Music Information Retrieval . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1.1 Digital Music and Digital Libraries . . . . . . . . .
9.2.1.2 Music Information Retrieval . . . . . . . . . . . . .
9.2.2 Issues of Content-based Music Information Retrieval . . . . .
9.2.2.1 Peculiarities of the Music Language . . . . . . . .
9.2.2.2 The Role of the User . . . . . . . . . . . . . . . . .
9.2.2.3 Formats of Music Documents . . . . . . . . . . . .
9.2.2.4 Dissemination of Music Documents . . . . . . . .
9.2.3 Approaches to Music Information Retrieval . . . . . . . . . .
9.2.3.1 Data-based Music Information Retrieval . . . . . .
9.2.3.2 Content-based Music Information Retrieval . . . .
9.2.3.3 Music Digital Libraries . . . . . . . . . . . . . . .
9.2.4 Techniques for Music Information Retrieval . . . . . . . . . .
9.2.4.1 Terminology . . . . . . . . . . . . . . . . . . . . .
9.2.5 Document Indexing . . . . . . . . . . . . . . . . . . . . . . .
9.2.5.1 Query Processing . . . . . . . . . . . . . . . . . .
9.2.5.2 Ranking Relevant Documents . . . . . . . . . . . .
9.2.5.3 Measures for Performances of MIR Systems . . . .
9.2.5.4 An Example of Experimental Evaluation . . . . . .
9.2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3 Commented bibliography . . . . . . . . . . . . . . . . . . . . . . . .

9.51

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

9.1
9.1
9.1
9.4
9.5
9.11
9.13
9.16
9.17
9.21
9.24
9.28
9.28
9.29
9.29
9.31
9.31
9.32
9.33
9.35
9.36
9.36
9.37
9.38
9.39
9.39
9.40
9.41
9.41
9.42
9.43
9.46
9.46