Sei sulla pagina 1di 30

Da: Vincenzo Lombardo, Andrea Valle, Audio e multimedia (1a ed.), Milano, Apogeo 2002.

Capitolo 4
L'elaborazione digitale e l'audio
In questo capitolo ci occuperemo di alcune fondamentali operazioni di elaborazione del segnale
audio: ci proponiamo cio di fornire una panoramica orientativa sulle possibilit offerte dai software
dedicati allediting audio. Dopo una prima parte dedicata alle operazioni pi semplici, dedicheremo
un ampio spazio ai cosiddetti effetti: equalizzatori, riverberi, distorsioni sono modalit di
trasfomazione dei segnali da lunghi anni in uso nella musica elettronica, sia in quella sperimentale
che in quella pop/rock. Il sound spesso riconoscibile di uno studio di registrazione o di uno stile di
produzione dipende in molti casi proprio dal particolare uso degli effetti. Limplementazione
digitale, oltre in molti casi ad aver migliorato notevolmente la qualit dei risultati rispetto alla
originaria versione analogica, ha permesso allutente non professionista di avere a disposizione sul
suo personal computer sofisticate possibilit di elaborazione del suono grazie ai molti pacchetti
applicativi disponibili sul mercato ad un costo molto contenuto, almeno rispetto agli equivalenti
analogici. Lelaborazione audio non comunque fondamentale solo nellambito strettamente
musicale: al contrario proprio nelle applicazioni multimediali un uso opportuno delle tecniche di
elaborazione consente di sfruttare appieno il valore aggiunto offerto dallaudio: di qui la necessit di
conoscerne almeno i fondamenti.
Lediting nellaudio digitale
Un editor per laudio digitale (Digital Audio Editor; anche: Sound Editor o Sound Sample Editor)
un programma che consente di modificare un segnale audio digitale, sia esso campionato o
sintetizzato. La definizione molto ampia, poich comprende operazioni estremamente diverse fra
loro per scopi e per risultati. La caratteristica fondamentale dellediting digitale, alla base di tutte le
modificazioni possibili, di essere non-distruttivo (Roads 1996: 759): il risultato delloperazione
viene cio conservato in unarea di memoria temporanea, e solo in caso di esplicita richiesta
dellutente sostituisce il segnale originale. questa una caratteristica scontata ma particolarmente
rilevante di tutto lediting digitale (dal testo alle immagini), poich permette una grandissima libert
di sperimentazione, e non ha precedenti in ambito analogico. Vi sono molti editor per laudio
attualmente in commercio, ognuno dei quali presenta caratteristiche sue proprie. In generale i diversi
software, combinano alcune gruppi di queste operazioni, pur essendo magari specializzati in una in
particolare (ad esempio, oltre allediting generale: registrazione e missaggio multitraccia,
campionamento, noise redution, analisi, sintesi, effettistica, e cos via): perci un modulo di noise
reduction pu consentire comunque di svolgere operazioni pi generali di editing, come pure di
registrare. Lo stesso discorso vale anche i plug-in, unit autonome specializzate nello svolgere
singole operazioni di DSP (filtri, riverberi, effetti dinamici, distorsioni: cfr. pi avanti), che, una
volta installate, necessitano dellambiente di un editor per essere funzionanti e che per sono
utilizzabili in tutti gli editor che aderiscano allo standard DirectX (in precedenza, ActiveMovie) di
Windows. Con la tecnologia dei plug-in si introduce una forte modularit, che consente di espandere
notevolmente le possibilit di ogni editor: si recupera in questo modo una caratteristica
delleffettistica analogica, in cui molti moduli indipendenti di pi case produttrici possono essere
combinati, in cascata o in parallelo.

Figura 4.1. Interfaccia di un editor audio.

Sebbene ogni programma presenti una propria interfaccia specifica (cfr. Figura 4.11) vale la pena di
ricordare che tutti sfruttano la metafora del registratore analogico. Oltre alla barra dei controlli che,
come noto, probabilmente lunica interfaccia grafica del tutto standardizzata, usuale limpiego
di termini come traccia e canale, cos come la visualizzazione di fader, manopole e indicatori di
volume che riprendono il funzionamento di un mixer/registratore analogico.
Nel corso del capitolo sfrutteremo pi volte come esempio il file audio digitale.wav.
Editing di base
Si tratta delle operazioni fondamentali di gestione del file audio, che presentano strette analogie con
quanto succede negli editor per il testo e per le immagini, e spesso identica logica sottostante.

Si tratta di una elaborazione da Cool Edit Pro della Syntrillium Corporation.

Esempio
4.1a

Taglia, copia e incolla


Le operazioni pi ovvie sono quelle di selezione e successiva cancellazione o spostamento del file o
di parte di esso, al suo interno o in un altro file, cos come la possibilit di gestione di pi file in
contemporanea. Il comando incolla nel caso dellaudio indica usualmente due possibilit diverse: la
sostituzione dellarea selezionata con quanto presente in memoria temporanea (come avviene nel
testo, ad esempio); il missaggio dei due segnali (caratteristico invece dellaudio), che usualmente
permette sia la regolazione del volume dei due file, sia la dissolvenza incrociata tra loro
(crossfading).
Marcatori e regioni
Una delle comodit offerte dallediting digitale data dalla possibilit di inserire indicatori di
posizione nel file, che consentono di navigare assai velocemente nel file e di modificarne pi volte
esattamente le stesse aree: inserire un marcatore utile ad esempio nella necessit di controllare pi
volte solo lultima parte di un file, senza doverlo riascoltare tutto dallinizio o dover riposizionare il
cursore di volta in volta; definire una regione tra due marcatori permette invece di editare pi volte
un segmento isolato dal resto del file, ad esempio la sillaba di (Figura 4.22).

Figura 4.2. Definzione di regioni e marcatori in un file.

La cue list la lista di tutte le posizioni temporali che indicano punti o intervalli tra due punti,
definiti dallutente nel file. La play list invece la lista che comprende lordine di ascolto (ed altri
elementi: il numero di ripetizioni, ad esempio) delle posizioni selezionate, che ovviamente
indipendente dallordine effettivo nel file originario.
in questo modo sufficiente definire una sola volta con precisione il punto o lintervallo desiderato
ed immetterlo nella cue list, per poi richiamarlo attraverso la play list. Si cos in grado di operare
con grande precisione sempre esattamente sullo stesso segmento, e di muoversi agevolmente in un
2

Si tratta di una elaborazione da Sound Forge 4.5 della Sonic Foundry.

file che potrebbe essere di grandi dimensioni. bene ricordare che, se si impiega il formato wave di
Windows, questi dati possono essere memorizzati insieme ad altre informazioni (titolo, nome artista,
data di registrazione, copyright, commenti, ecc.) nella RIFF List info contenuta nellintestazione del
file (cfr. cap. 3), per poter essere utilizzati in altre sessioni di lavoro e/o con altri editor.
Modifica dei parametri di campionamento e salvataggio
Un altro gruppo di operazioni fondamentali riguardano le caratteristiche dli campionamento del
segnale e la scelta del formato di salvataggio. Tre sono i parametri fondamentali: la frequenza di
campionamento, la quantizzazione e il numero di canali.
Resampling
Attraverso il resampling possibile ridefinire la frequenza di campionamento di un segnale, la
risoluzione e il numero dei canali. Le frequenze usualmente predefinite dalleditor sono quelle pi
comuni (11.025, 22.050, 32.000, 44.100, 48.000: cfr. cap. 3), ma, a seconda dei software, possibile
impostare ogni valore desiderato. poi possibile variare la risoluzione del file (quantizzazione): i
formati pi comuni sono 8 e 16 bit (CD audio). Molte schede permettono di impiegare valori
superiori, ad esempio 24 o 32 bit. Non solo, ma possibile lavorare nellediting con valori di
quantizzazione superiori, che assicurano maggiore qualit, per poi riconvertire in fase di salvataggio.
Si limitano in questo modo la portata e gli effetti degli errori di arrotondamento che occorrono nelle
operazioni matematiche degli algoritmi, ottenendeno come risultato una maggiore qualit e
precisione aritmetica. Infine, per quanto concerne i canali, possibile convertire un file mono in uno
stereo e viceversa. Nel primo caso (da mono a stereo) si pu decidere quale sar il posizionamento
del segnale originale tra i due canali: da un posizionamento uniforme su entrambi, ad uno

Esempio
4.1a

Esempio
4.1b

Figura 4.3a e b. Un file mono viene convertito in stereo riversando il segnale solo sul canale destro.

spostamento di tutto il segnale su un solo canale, laltro rimanendo vuoto.


quanto avviene in Figura 4.3 (Esempi 4.1a e b): il segnale originale (4.3a) viene posizionato solo
sul canale destro (4.3b). Nel secondo caso (da stereo a mono), possibile definire il volume (o la
percentuale) di ognuno dei due canali nel segnale finale.
In accordo con quanto osservato sul processo del campionamento (in generale cfr. cap. 2), due sono
gli aspetti suscettibili di regolazione durante il resampling, in relazione alle modifiche
rispettivamente della frequenza e della quantizzazione: il filtraggio anti-aliasing e il dithering.
Come ormai noto, la massima frequenza descrivibile pari alla met della frequenza di
campionamento (teorema di Nyquist): nel caso in cui si ricampioni a una frequenza inferiore a
quella originale (per esempio, da 44.100 a 22.050), la massima frequenza descrivibile diminuisce di
conseguenza (nellesempio, da 22.100 a 11.025). Usualmente, gli editor consentono di introdurre il
filtro anti-aliasing: un filtro passa-basso che elimini le frequenze superiori alla nuova frequenza di
Nyquist.
Nel caso in cui si invece si modifichi la risoluzione, va tenuto presente che con il diminuire della
stessa diminuisce il range dinamico ed diminuisce il rapporto segnale/rumore (SNR): perci
consigliabile normalizzare il file (cfr. di seguito). Non solo: diminuendo la risoluzione, a bassi livelli
del segnale si produce una particolare forma di disturbo, il cosiddetto low level quantization noise
(cfr. cap. 2: in sostanza, la forma donda tende a diventare percepibilmente una onda quadra
periodica). allora il caso di applicare il dithering (di nuovo, cfr. cap. 2) processo che produce a
bassi livelli del segnale variazioni casuali nel segnale attraverso lintroduzione di una piccola
quantit di rumore, migliorando la qualit dellaudio: a seconda del software, possibile decidere
ampiezza e tipo di distribuzione del rumore di dithering.
Salvataggio nei diversi formati
Gli editor consentono di creare/salvare file audio di diverso formato. I tipi e il numero dei formati
disponibili (in generale, cfr. cap. 3) dipendono strettamente dalleditor in questione, sebbene WAVE
(il formato proprietario di Windows), AIFF (lo standard Apple) e AU (Next/Sun) siano i pi diffusi.
quasi sempre disponibile anche il formato RAW, senza intestazione, utile per esportare file nel
caso di indisponibilit di altri formati: si pensi alla necessit di modificare un file attraverso due
software, ognuno dei quali gestisce rispettivamente solo WAVE e solo AIFF. Esistono poi molti
formati proprietari collegati specificamente con ogni singolo editor: in questi casi possibile
memorizzare dati relativi ad operazioni esclusive delleditor in questione, che andrebbero perse in
caso di impiego di altri formati e che invece possono essere riutilizzate. Tra i formati proprietari
possono anche essere ricordati quelli relativi ad eventuali sottoprogrammi (utilities): ad esempio, il
caso dei file danalisi per la riduzione del rumore, salvabili a parte e riutilizzabili.
infine possibile esportare in formato compresso, tipicamente in Real Audio o mp3. In questultimo
caso, la qualit dellalgoritmo di compressione percettiva, e le opzioni disponibili (bitrate, frequenza
di campionamento, numero dei canali, e cos via) dipendono strettamente dal singolo editor.
Come leggere i dati
Attraverso uneditor abbiamo accesso ad una rappresentazone grafica del segnale sulla quale
operiamo. Non cos scontato il fatto che si abbia a che fare con una GUI (Graphical User
Interface). In questo modo, come duso nellediting in generale, si privilegia un controllo pi rapido
e intuitivo delle operazioni, ma va ricordato che perfettamente possibile svolgere molte delle stesse
operazioni attraverso uninterfaccia testuale: il caso ad esempio dei linguaggi di sintesi (ad

esempio, Csound) e missaggio audio (ad esempio, Cmix). Ci proponiamo qui di seguito di
approfondire le informazioni, siano esse in formato grafico o meno, offerte dagli editor.
Modalit di visualizzazione
Come gi osservato in precedenza (cfr. capp. 1 e 2), esistono diverse possibilit di rappresentare un
segnale audio. Tutto dipende dal tipo di pertinenza che si intende privilegiare: in sostanza dal tipo di
informazione sul segnale che si vuole reperire. I software per laudio consentono di optare tra le
modalit pi comuni. Conformemente a quanto avviene in acustica, queste ultime sono in sostanza
due: rappresentazione nel dominio temporale (time-domain) e rappresentazione nel dominio
frequenziale (frequency-domain). A queste se ne pu aggiungere una terza che risulta dallincrocio
delle prime due, nella quale il segnale rappresentato
sui tre piani tempo/ampiezza/frequenza.
In una rappresentazione nel dominio temporale, lasse
delle ascisse rappresenta il tempo, quello delle
ordinate lampiezza del segnale in dB (cfr. cap. 1). In
questo tipo di rappresentazione il segnale assume
usualmente una forma frastagliata pi o meno
simmetrica rispetto allasse dell ascisse. Si tratta della
visualizzazione di solito impostata come predefinita
dai programmi di editing audio: infatti quella che
abbiamo incontrato nelle figure precedenti. Siccome il
suono ha come sua dimensione fondamentale il
tempo, questa la visualizzazione pi tipica, poich
permette di controllare landamento nel tempo
dellampiezza (o, in termini pi musicali, delle
dinamiche). In questo modo si controlla agevolmente
il fenomeno della distorsione digitale che si verifica
quando lampiezza del segnale in input supera la
gamma dinamica rappresentabile (clipping). Come si
visto (cfr. cap. 2), i valori possibili per rappresentare
lampiezza sono in numero limitato: a 16 bit un valore
dampiezza superiore a 32767 o -32768 viene
rappresentato dal massimo valore possibile
(rispettivamente 32767 o -32768). Il tutto risulta in
una distorsione della forma donda: il clipping. Nelle
Figura 4.6a-c si pu osservare la distorsione del
segnale, che equivale ad un appiattimento verso lalto
della forma donda. Le unit di misura dellampiezza
sono espresse in valori normalizzati, cio compresi tra
1 e 1.
Figura 4.4a-c. Clipping.

Nellla Figura 4.4a rappresentato un un segnale sinusoidale la cui ampiezza compresa tra gli
estremi della gamma dinamica (Esempio 4.2a). Nella Figura 4.4b disegnato un segnale sinusoidale
di stessa frequenza, ma con ampiezza pari a 2 volte quella precedente. I valori dampiezza esterni

Esempio
4.2a

Esempio
4.2b

allintervallo rappresentabile vengono rappresentati dal massimo valore possibile. Il risultato una
quadratura della forma donda (Figura 4.4c), che percettivamente equivale ud una modificazione
timbrica (Esempio 4.2b). Negli editor spesso la presenza di clip agevolmente osservabile grazie a
due linee orizzontali di delimitazione che identificano il valore massimo rappresentabile.
Ricordiamo che, anche se la forma dellonda visualizzata una linea continua, nella
rappresentazione numerica ad ogni campione corrisponde un valore discreto: il che equivale a dire
che la curva in realt un insieme di punti separati. A seconda della precisione garantita dalleditor
impiegato, possibile anche operare al livello del singolo campione. Un simile livello di precisione
si pu rivelare utile quando si rimuovono manualmente dei click. il caso dello scoppiettare dei
dischi di vinile: si tratta di disturbi del segnale dalla rapida evoluzione che possono essere, se in
numero limitato, rimossi a mano proprio operando ad un simile livello di precisione.

Figura 4.5a e b. Un segnale (a) e lanalisi spettrale nellistante evidenziato dalla linea
trattegiata (b).

In una rappresentazione nel dominio frequenziale, lasse delle ascisse rappresenta la frequenza,
lasse delle ordinate lampiezza. Si tratta di una sorta di istantanea nel momento t del contenuto
frequenziale di un segnale.

Si pu immaginare di analizzare il segnale che si sviluppa nel tempo sezionandolo in t per


osservarne il contenuto frequenziale, in accordo con il teorema di Fourier, per il quale ogni segnale
complesso ricostruibile come somma di sinusoidi (cfr. cap. 1). Quanto risulta prende il nome di
spettro. Il procedimento pi usato per effettuare lanalisi nellambito dei segnali digitali viene
denominato short-time Fourier Transform e consiste nel segmentare il segnale in brevi frammenti
(di qui short-time) collegati attraverso una funzione di finestrazione (window function). Ogni
segmento finestrato in questo modo viene analizzato attraverso una FFT (Fast Fourier Transform),
un efficiente algoritmo di analisi (cfr. cap. 2). In sostanza: il segnale in questione viene suddiviso in
brevi blocchi temporali, che vengono poi analizzati separatamente. Ogni blocco di dati risultante
viene definito frame (fotogramma). Nella Figura 4.5b disegnata lanalisi spettrale del segnale di
Figura 4.5a nel punto indicato dalla linee tratteggiata3.
Come si vede in Figura 4.5b, uno degli scopi dellanalisi la stima della frequenza fondamentale per
i due canali, espressa in Hz e/o nel suo equivalente musicale (Frequency). In una analisi FFT, lFFT
Size indica la dimensione della finestra in punti (in campioni). LFFT Size un parametro di grande
importanza: infatti proporzionale alla precisione dellanalisi della frequenza, ma anche alla
complessit di calcolo richiesta. poi possibile scegliere anche il tipo di finestra, a seconda delle
necessit danalisi. Le opzioni di visualizzazione consentono di scegliere tra rappresentazione
logaritmica (usuale) e lineare, e di determinare lescursione in dB dellampiezza (asse delle
ordinate). Lopportuna combinazione dei parametri consente di ottimizzare lanalisi.
Un terzo tipo di rappresentazione del segnale combina i due tipi visti in precedenza. Essa pu
assumere due forme. Nel primo caso, si costruisce un grafo avente sullasse delle ascisse il tempo e
su quello delle ordinate la frequenza. Lampiezza invece proporzionale ad una prestabilita scala
cromatica (o dei grigi). In tal modo si descrive landamento dello spettro nel tempo. Questa
rappresentazione prende il nome di sonogramma (sonogram). In questo caso possibile anche
optare per una rappresentazione grafica in bianco e nero, spesso di pi facile lettura, perch misurata
su una scala percettivamente pi uniforme.

Figura 4.6a . Forma d'onda (in alto) e sonogramma (in basso).

Le Figura sono due elaborazioni da Cool Edit Pro.

In sostanza, come si legge un sonogramma? Prendiamo come esempio il segnale vocale audio
digitale (si tratta del file mono dellEsempio 4.1a). La Figura 4.6a mostra il sonogramma del
segnale, la cui forma donda riportata nella parte superiore4.
Lopposizione pi evidente quella tra vocali e consonanti. Le prime si presentano come insiemi di
strisce pi o meno parallele: hanno cio uno spettro armonico, formato da molte componenti
sinuosoidali equispaziate (cfr. cap 1). Lo stesso avverrebbe se analizzassimo una nota musicale nel
suo stato stazionario. Le consonanti corrispondono ai buchi nel grafico: alle aree dove non
praticamente presente il segnale. Ancora, se pronunciassimo s, potremmo osservare la
caratteristica forma di visualizzazione del rumore. Il fenomeno in parte visibile nella soluzione di
g (equivalente nel sonogramma alla punta centrale). Nessuna frequenza prominente (cio
particolarmente evidenziata dal colore): lenergia distribuita uniformemente su tutte le frequenze
indicata da una colorazione omogenea dellarea temporale occupata. In musica si pensi alla
percussione di un piatto di batteria. Infine, agevole notare la differenza tra gli attacchi percussivi,
evidenziati nel grafico da inserimenti bruschi di nuovi blocchi, e attacchi di pi lunga durata, nei
quali si nota un passaggio pi graduale.
Attenzione: un parametro fondamentale proprio per ottenere risultati leggibili la dimensione in
punti della finestra (FFT Size). Se un numero di punti troppo basso non fornisce adeguata
precisione, viceversa un numero troppo alto rischia di stirare orizzontalmente la figura, senza
evidenziare fenomeni particolari (oltre ad aumentare la complessit del calcolo). Usualmente, si
possono impiegare valori compresi tra 512 e 4096, salvo poi sperimentare di volta in volta. La
Figura 4.6b mostra un sonogramma dello stesso segnale con diverso numero di punti: in questo caso,
la visualizzazione consente invece di concentrare lattenzione sullandamento complessivo.

Figura 4.6b. Sonogramma dello stesso segnale 4.8a con diverso numero di punti.

Una seconda modalit di rappresentazione simultanea dei tre parametri li combina


tempo/frequenza/ampiezza tridimensionalmente: si ottiene un grafico detto a cascata. Il risultato
4

I sonogrammi successivi sono elaborazioni a partire da Spectrogram 5.1.6a di R. S. Horne.

una sorta di catena montuosa i cui picchi corrispondono alle ampiezze pi elevate. Ad una maggiore
sofisticatezza corrisponde una incrementata complessit di lettura. Per ovviare a questultimo fatto,
spesso possono essere a disposizione dellutente del programma due facilitazioni: la prima la
possibilit di scegliere la prospettiva da cui guardare il grafico, a seconda dellistante e dellarea
frequenziale a cui si interessati; la seconda la possibilit di associare il gradiente cromatico alla
frequenza o allampiezza, evidenziando rispettivamente landamento nel tempo della prima o la
presenza di picchi.
Le Figure 4.9a e b5 sono analisi dello stesso segnale (audio digitale), nelle quali per lintervallo
di frequenze analizzato varia tra 20 e 20.000 Hz (a) e tra 20 e 160 Hz (b). In quetultimo caso, si
notano i picchi equispaziati delle componenti armoniche.

Figura 4.7a e b. Analisi spettrali a cascata dello stesso segnale: frequenze considerate tra 20 e 20500Hz (a) e tra
20 e 160Hz (b).

Le figure sono ottenute con lopzione 3D analysis di Wavelab 2.0 della Steinberg.

Unit di misura
Pur avendo menzionato pi volte le unit di misura impiegate nei grafici, finora non ne abbiamo mai
dato una spiegazione esplicita.
Delle tre dimensioni che ci interessano (frequenza, tempo e ampiezza), solo la prima viene sempre
inequivocabilmente espressa in ununica unit di misura (Hertz: cfr. cap. 1): tempo e ampiezza
possono invece adottarne differenti. Va notato che pi modalit di misura sono sempre disponibili in
ogni editor.
Per quanto riguarda il tempo, si possono distinguere quattro categorie di misura: cronometriche,
musicali, di sincronizzazione, di formato. Le misure cronometriche sono quelle che fanno
riferimento ad una rappresentazione in termini di ore: minuti: secondi: millesimi di secondo. Di
solito si tratta della visualizzazione predefinita. Le misure musicali impiegano la suddivisione in
battute: quarti: ticks per quarto (cfr. capp. 7-8). Sono utili nel predisporre un file audio per
linserimento in brano musicale gi pronto (magari MIDI) o per creare loops di esatta durata. Come
intuibile, necessario definire i due parametri musicali implicati: il tempo di metronomo (di solito,
beats per minute) e il metro. Le misure di sincronizzazione fanno invece riferimento usualmente ai
diversi formati dellSMPTE Time Code. Si tratta di un protocollo sviluppato dalla Society of Motion
Picture and Television Engineers (SMPTE), lassociazione americana dei produttori cinematografici
e televisivi, inteso a garantire la sincronizzazione tra il video (espresso in frame: fotogrammi) e
laudio. Poich il numero di frame per secondo pu variare, esistono quattro differenti formati di
sincronizzazione: SMPTE Film sync (lo standard cinematografico: 24 fr/sec); SMPTE EBU (lo
standard televisivo europeo European Broadcasting Union: 25 fr/sec); SMPTE 29 (lo standard
televisivo americano NTSC: in realt 29.97 fr/sec); SMPTE 30 (usato nellaudio: esattamente 30
fr/sec). Tali unit di misura si rivelano utili quando si lavora con il video, o in caso di esecuzione
sincronizzata, in tempo reale, con dispositivi esterni: il segnale di sincronizzazione SMPTE viene
infatti trasmesso anche attraverso messaggi MIDI (cfr. capp. 7-8), e ci garantisce una semplice
comunicazione tra pi dispositivi digitali. Infine, le misure di formato fanno riferimento alla
dimensione del file o al numero progressivo dei campioni. Sono utili per avere un controllo minuto
sulla memoria impiegata o quando richiesta una lunghezza in campioni precisa (pu essere il caso
della sintesi per wavetable: cfr. pi avanti; si pensi eventualmente ad una sostituzione di una parte di
un file esistente).
Per quanto riguarda invece lampiezza le unit di misura impiegate sono sostanzialmente tre: valori
assoluti, dB, percentuale. Nel primo caso viene indicato direttamente il valore dellampiezza
associato al campione (come detto molte volte, a 16 bit un numero intero compreso tra 32768 e
32767). Lampiezza pu poi venire espressa in dB (cfr. cap. 1) al valore massimo (-32768; 32767)
corrispondono 0 dB, a quello minimo (0) -96 dB (come si ricorder, il range dinamico possibile a 16
bit proprio di 96db). Infine, come unit di misura di minor precisione, ma di pi immediata
lettura, vengono impiegati i valori percentuali o quelli normalizzati, cio compresi tra 1 e +1.
Statistiche e informazioni
Oltre alle informazioni visualizzate, gli editor per laudio mettono generalmente a disposizione
ulteriori strumenti di analisi, di solito rubricati sotto le voci analisi o statistiche (Figura 4.86).
Tre sono le informazioni particolarmente rilevanti: i valori minimi e massimi dellampiezza; lRMS;
il DC Offset.
6

La figura una elaborazione da Sound Forge 4.5.

Come gi notato, una delle informazioni pi utili riguarda il massimo valore dampiezza dei
campioni: si pu fornire il valore in dB e in campioni, identificandone immediatamente la posizione,
magari marcandola o spostandovi direttamente il cursore. Il valore massimo anche definito valore
di picco (peak). In alcuni editor altres possibile valutare automaticamente la presenza di valori
distorti (clipped values). Conoscere landamento dellampiezza utile per evitare distorsioni del
segnale. Tuttavia la relazione tra valore dellampiezza a volume percepito complessa. Inoltre, va
preso in considerazione anche il fenomeno del mascheramento. Un pizzicato di contrabbasso pu
presentare un picco assai elevato nellattacco, e tuttavai essere reso praticamente inudibile da una
nota tenuta di violino di ampiezza assai inferiore. Un buon indicatore del volume (spesso offerto dai
software) lRMS (Root Mean Square): facilmente ottenibile matematicamente (e senza perci
ricorrere a complesse valutazioni psicoacustiche), esso esprime il valore efficace dellampiezza.
Dunque, lRMS un indicatore (medio) del volume di un suono, o di un intero brano (in generale
sul RMS cfr. cap. 1).
Infine, il DC Offset (Direct Current Offset) una misura (percentuale o in dB) che indica lo
spostamento medio dellonda rispetto al suo asse. In pratica, pu essere introdotto dagli apparecchi
elettrici (compresa la scheda audio) impiegati durante la registrazione del suono. come se lintera
forma donda fosse spostata verso lalto o verso il basso di una costante. Il DC Offset un buon
indicatore della malfunzionamento degli apparecchi in questione. Ne pu risultare un click
percepibile, laddove si passi da un segnale simmetrico ad uno dotato di offset. Gli editor offrono la
possibilit di correggere autonomamente leventuale offset rilevato.

Figura 4.8. Finestra di informazioni statistiche.

Lelaborazione digitale dei segnali audio


Una buona definizione di che cosa sintende per elaborazione (spesso si diece processamento)
digitale del segnale la seguente: Lelaborazione digitale del segnale (Digital Signal Processing:
usualmente abbreviato in DSP) si occupa di segnali, come un suono registrato digitalmente,
rappresentati come serie di numeri; esplora i cambiamenti che possono essere effettuati in questa
serie di numeri. In questo senso, lelaborazione digitale del segnale (e la teoria che ne alla base)
pu essere ritrovata in ogni aspetto dellaudio digitale (Strawn 1985: xi). Sebbene anche le

operazioni gi incontrate in precedenza possano essere rubricate come DSP, ci proproniamo di


seguito approfondire alcuni aspetti del tutto specifici dellaudio digitale.
Come si visto nel cap. 2, la digitalizzazione rappresenta il segnale audio come sequenza numerica:
ci comporta la possibilit di modificare il segnale in questione agendo direttamente sui numeri che
ne costituiscono la rappresentazione. Una volta modificata, la sequenza numerica pu venire
nuovamente convertita in un segnale analogico, diverso rispetto a quello in entrata a seconda
dellelaborazione applicata. Come intuibile, il punto di forza di un simile trattamento sta nella
possibilit di applicare alla sequenza numerica ogni possibile operazione matematica, senza
incorrere nei limiti dei materiali analogici. Vediamo due esempi.
Quando si registra un segnale in un normale registratore a cassetta possibile aumentarne il volume
di registrazione (e quindi lampiezza del segnale stesso) solo in misura limitata: la gamma dinamica
di circa 80 dB, nelle attrezzature professionali. Non solo. Oltre una certa soglia soglia il segnale
tender progressivamente a distorcere: si avr cio una modificazione sempre pi marcata della
forma dellonda, equivalente ad unalterazione del timbro del suono. Al contrario un segnale digitale
allinterno della gamma di valori definita dalla quantizzazione (nei CD audio in commercio a 16
bit, pari a 96 dB)- ha un comportamento quasi assolutamente lineare. Vale a dire, la forma donda
del segnale in questione non risulta soggetta a nessuna modificazione.
Un secondo esempio. La possibilit di analizzare un segnale digitale attraverso una FFT (cfr. sopra)
alla base di alcune operazioni che, a differenza delle altre precedentemente incontrate, non hanno
precedenti in ambito analogico. Come noto, una volta registrato analogicamente un segnale, non
possibile scindere la frequenza dello stesso dalla sua durata. Diminuendo la velocit di lettura, si
aumenta la durata ma inevitabilmente si ha un proporzionale decremento della frequenza ( quanto
accade tipicamente ascoltando a 33 giri un disco di vinile registrato a 45). Se invece il segnale
digitale possibile dissociare le due dimensioni: allatto pratico, attraverso un procedimento basato
sulla FFT (Fast Fourier Transform: cfr. cap. 2) possibile ad esempio aumentare o diminuire la
durata di un campione audio senza alterarne la frequenza. Infatti attraverso i dati ottenuti dallanalisi
possibile procedere ad una successiva sintesi nella quale possono essere modificati alcuni dei
parametri ottenuti dallanalisi, senza per questo alterarne necessariamente altri. Ancora, a partire
dallo stesso algoritmo danalisi, possibile prendere due strade dal risultato molto diverso, ma dalla
stessa logica sottostante (De Poli 1993: 82). Possiamo cio decidere di modificare la frequenza e la
durata del segnale analizzato, o di enfatizzare/attenuare una certa regione spettrale procedendo ad
una vera e propria operazione di filtraggio: un filtraggio che consente di eliminare unarea spettrale
complessa del segnale senza rivelarsi distruttiva rispetto alla parte rimanente: il caso degli
algoritmi di rimozione del rumore.
Se in questi casi si ha a che fare con manipolazioni tipiche del solo ambito digitale, bene ricordare
che, proprio grazie al formato numerico assunto dal segnale, possibile simulare digitalmente
operazioni tipiche dellanalogico. Ci stiamo riferendo soprattutto a quel tipo di operazioni che
usualmente si definiscono effetti: equalizzazione, distorsione, ritardo (delay, flanger, chorus) e
cos via. Sono queste modificazioni del segnale la cui origine va ricercata nelle sperimentazioni
degli studi di musica elettronica (intendendo con il termine il pi generale ambito elettroacustico), e
che hanno trovato larghissima diffusione negli studi di registrazione commerciali e nella musica pop
e rock.
Nella descrizione di queste operazioni procederemo pi schematicamente, cercando di fornire una
guida veloce allutente. Al nome delloperazione, seguono tre capoversi relativi a definizione,
risultato e utilit, e parametri.

Operazioni semplici
Invert
Definizione: il segnale viene invertito intorno allasse del tempo: nella forma donda i picchi
diventano gole e viceversa. I valori positivi dellampiezza diventano negativi e viceversa.
Risultato e utilit: nessun risultato percepibile. Tuttavia la funzione pu essere utile nel modellare
la forma del segnale per missarlo o incollarlo con un altro. Ad esempio, il taglio di una parte di

Figura 4.9. Eliminazione di un click tramite Invert.

segnale (Figura 4.9a), pu risultare in un click percepibile (Figura 4.9b), risolvibile con linversione
del segnale (Figura 4.9c), che elimina la discontinuit.
Parametri: nessuno.
Reverse
Definizione: il segnale viene invertito rispetto allasse delle ordinate: inverte lordine dei campioni.
Equivale ad una lettura del file in senso contrario dalla fine allinizio.

Esempio
4.3b

Esempio
4.3a

Figura 4.10a e b. Un suono percussivo (a) ; lo stesso invertito rispetto al tempo (b).

Risultato e utilit: si ottiene il tipico effetto aspirato, dovuto allinversione dellinviluppo


dellampiezza. Se si normalmente si ha attacco, decadimento, sostegno, rilascio, invertendo rispetto
al tempo si passa dal decadimento cos via fino allattacco. Nella sillaba ta, si avr at in
crescendo con t inesploso alla fine. Si tratta di una tipica operazione da studio di musica
elettronica, poi ampiamente usata ad esempio nel pop/rock degli anni 60/70.
In Figura 4.10a e b il procedimento stato applicato ad un suono percussivo dal tipico inviluppo
senza sostegno.
Parametri: nessuno.

Esempio
4.3c

Filtri
Un filtro un dispositivo che lascia passare certe frequenze meglio di altre (Bianchini e Cipriani
1998: 37). Un filtro agisce sullo spettro, enfatizzandone o attenuandone determinate frequenze: una
modifica dello spettro determina a livello percettivo un cambiamento nel timbro del suono. I
parametri fondamentali di un filtro sono: il tipo, la frequenza di taglio/centrale, lordine. Si
riconoscono usualmente quattro tipi di filtri: passa-basso (lowpass), passa-alto (highpass), passabanda (bandpass) e elimina-banda (bandreject, o notch). I quattro tipi sono schematizzati in Figura
4.11.

Esempi
4.4a-e

Figura 4.11. Tipi di filtro.

In un filtro passa-basso o passa-alto ideali, data una frequenza di taglio, tutte le frequenze
rispettivamente superiori o inferiori a questa dovrebbero essere attenuate a 0. Allo stesso modo, in
un filtro passa-banda o elimina-banda ideali, data una banda di frequenze, tutte le frequenze
rispettivamente esterne o interne alla banda dovrebbero essere attenuate a 0. La frequenza di taglio
perci quella frequenza a partire dalla quale viene effettuato il filtraggio. Nei filtri passa- o eliminabanda si definiscono sia la larghezza di banda (bandwidth) che la frequenza centrale: data una

regione dello spettro, la prima ne misura la larghezza, la seconda la frequenza al centro. Ad


esempio, in un filtro che passa tutte le frequenza tra 100 e 110 Hz, la larghezza di banda 10 Hz, la
frequenza centrale 105 Hz. Poich i filtri che rispondano ai requisiti dellidealit (come quelli della
Figura 4.11) non esistono, si considera come frequenza di taglio quella a cui il filtro attenua di 3 dB
il livello dampiezza massimo. Se perci il passaggio tra la regione inalterata e quella attenuata dal
filtro graduale, un ultimo parametro diventa rilevante: la pendenza della curva. Questultima,
misurata in dB per ottava, definisce lordine del filtro. Ad esempio, un filtro del I ordine presenta
una attenuazione di 6 dB per ottava, uno del II di 12 dB, del III di 18 dB e cos via.
Come ricorda Roads, anche se un filtro pu essere letteralmente ogni operazione svolta su un
segnale, tuttavia con il termine ususalmente si intende un dispositivo che aumenta o attenua
lenergia connessa a certe regioni dello spettro di un suono (Roads 1996: 185). Questo tipo di
operazione tipicamente svolto dagli equalizzatori.
Equalizzatore grafico
Definizione: Un equalizzatore un banco di filtri passa-banda. Suddivide il segnale in aree spettrali
(bande) e consente di aumentare/diminuire lenergia ad esse associata (ci che si definisce
guadagno: gain). Il risultato un cambiamento dello spettro e quindi del timbro. Le frequenze
centrali tipiche dei filtri degli equalizzatori si misurano in ottave7 e nei loro sottomultipli (10 bande
= 10 ottave; 20 bande = 20*1/2 ottava; 30 bande = 30*1/3 ottava).
Risultato e utilit: si tratta di una delle operazioni pi usate. Consente di modificare il contenuto
spettrale, aumentando ad esempio le basse frequenze, che in fase di registrazione possono risultare
attenuate. Esistono poi equalizzazioni tipiche: ad esempio, a V, il cosiddetto midcut (taglio dei
medi). quanto succede in Figura 4.12, dove lequalizzatore disegna anche la curva di risposta
effettiva8. Il risultato un suono un po vuoto e pi metallico (Esempio 5.4b). Un andamento
opposto, con la sola enfatizzazione dei medi, produce invece un caratteristico timbro nasale
(Esempio 4.5c).

Esempio
4.5a - c

Figura 4.12. Equalizzatore grafico a 30 bande.


7

Per il lettore meno esperto musicalmente, ricordiamo che si definisce ottava il rapporto tra due frequenze una doppia
dellaltra (f1/f2=2). Le due note a distanza di ottava vengono percepite come uguali, ma pi gravi o pi acute. Se si
premono i tasti bianchi del pianoforte, lottavo tasto dopo quello iniziale in rapporto dottava con esso: DO re mi fa sol
la si DO re mi ecc.
8
unelaborazione da Cool Edit Pro.

Parametri: gli equalizzatori grafici presentano per ogni banda di frequenza un fader che consente di
aumentare/attenuare simmetricamente la banda in questione. Alcune volte possibile decidere
lampiezza dellescursione (range).
Equalizzatore parametrico
Definizione: In un equalizzatore grafico la larghezza di banda predeterminata. Ci che si pu fare
agire sullampiezza. In un equalizzatore parametrico possibile invece controllare in maniera
indipendente pi parametri di filtraggio: frequenza centrale, larghezza di banda e/o Q, guadagno. In
un filtro passa-banda, Q definito come freq centrale/ (freq acuta freq grave), cio come il
rapporto tra la freq centrale e la larghezza di banda. Mantenere Q costante lungo tutto lo spettro vuol
dire adeguare la larghezza di banda allaltezza percepita (allintervallo musicale). Ad esempio: se
freq centrale = 105 Hz; freq acuta = 110 Hz; freq grave = 100 Hz, allora Q = 105/(110 100) =
10.5. Se manteniamo Q costante, e incrementiamo la freq centrale del nostro filtro a 10.500 Hz,
ottieniamo come estremi del nostro filtro 11000 e 10000. La larghezza di banda incrementata da
10 Hz a 1000 Hz, conformente con la nostra percezione dellaltezza. Questo quanto avviene anche
nellequalizzatore grafico. Con lequalizzatore parametrico possiamo per decidere di far variare Q
discrezionalmente: ad esempio di aumentare tutte le frequenze medio-gravi ma di filtrare con
estrema precisione una frequenza acuta, magari risultato di un disturbo di registrazione. In Figura
4.13 un esempio di filtraggio selettivo, con Q costante9 per le tre freqeunze prescelte.

Esempio
4.6

Figura 4.13. Equalizzatore parametrico.

Risultato e utilit: come osservato, consente di operare un intervento estremamente preciso sulla
banda di frequenze desiderata. Oltre allattenuazione di frequenze indesiderate (disturbi di vario
tipo: ad esempio lhiss, il sibilo che accompagna molte registrazioni analogiche su nastro), pu
essere utile nellenfatizzare componenti spettrali precise, senza per questo modificarne altre.
possibile ad esempio simulare il filtraggio operato da un telefono o da una vecchia radio, scegliendo
una opportuna banda passante centrata sulle frequenze medie.
Parametri: gli equalizzatori parametrici presentano una visualizzazione continua dello spettro, sulla
quale compare la risposta del filtro, in funzione della frequenza centrale della banda prescelta e del

Elaborazione dal plug-in Cakewalk FX Stereo Parametric Eq della Twelve Tone Systems.

guadagno ad essa attribuito. spesso possibile scegliere pi poli (le frequenze centrali), come pure
se mantenere costante la larghezza di banda o il fattore Q.
Ritardi (delay)
Comprendiamo in questa categoria la maggior parte di quelli che vengono definiti comunemente
nella terminologia degli studi di registrazione effetti. Questo perch la maggior parte di essi ha
alla sua base una qualche forma di ritardo (delay): fondamentalmente si tratta di creare una copia del
segnale di partenza e di effettuarne una miscelazione con loriginale dopo un certo tempo (delay
time). Lalgoritmo del ritardo uno di quelli pi importanti nel processamento digitale dei segnali.
alla base degli effetti di riverbero/eco (in cui si simulano le diverse riflessioni di unonda sonora in
un ambiente), viene impiegato in quelli di chorus/flanging (dove leffetto ottenuto consiste
precisamente nelle interferenza tra le diverse copie del segnale), pu servire per costruire filtri (nel
caso limite, se aggiungo ad unonda sinusoidale la sua copia ritardata di mezzo periodo, gli
spostamenti rispetto allampiezza che descrivono le due onde si sommano annullandosi del tutto).
Chorus
Definizione: il chorus simula la presenza di pi fonti sonore insieme. il fenomeno che si verifica
(come suggerito dal nome) quando un coro canta: pi persone eseguono la stessa melodia, ma
ognuno con piccole differenze nellintonazione (frequenza) e nello sviluppo temporale (chi attacca
prima, chi dopo ecc.). Non solo, ma tali variazioni non sono necessariamente uniformi (non detto
che un cantante rispetto allaltro intoni sempre il la crescente a 441 Hz piuttosto che a 445; non
detto che attacchi sempre 5 millisecondi dopo). Unulteriore elemento dato dalla variazione
casuale tra gli esecutori del vibrato, inteso come una rapida e continua variazione nellampiezza del
segnale (percettivamente perci nel volume).
Risultato e utilit: il chorus uno dei mezzi pi semplici, ma pi efficaci (e anche di pi antica
data) per dare corpo al suono: cio per simulare le caratteristiche di pi fonti sonore in un
ambiente naturale. Ad un uso naturalistico, utile per simulare un effetto stereo in un file mono, si
pu aggiungere un uso pi sperimentale, per ottenere ad esempio rapidi vibrati, o altri effetti.
Parametri: i parametri fondamentali nelluso di un chorus dipendono dallimplementazione dello
stesso. In alcuni casi, I software consentono di introdurre dati relativi ad una vera esecuzione:
spessore della tessitura (o il numero delle voci simultanee), tempo massimo di ritardo, controllo del
vibrato, dispersione delle altezze. Si tratta di definire i parametri pertinenti nellesecuzione reale che
viene simulata dallalgoritmo (Figura 4.14a). Spesso per si possono incontrare altri parametri
(Figura 4.14b)10. Pi generalmente, con modulazione si indica il fatto che alcuni aspetti di un
segnale (portante) variano in relazione a quelli di un altro (modulante) (Roads 1996: 215). Poich,
come osservato, il chorus ottenuto aggiungendo al segnale una versione ritardata (e modulata in
frequenza) del segnale stesso, di fatto pu essere pensato come una modulazione (cfr. cap. 9) del
segnale originale operata dal segnale ritardato. Di conseguenza, tra i parametri definibili nei moduli
chorus vi spesso il controllo diretto dellampiezza e della frequenza dellonda modulante
(Modulation depth e Modulation rate).

10

Elaborazioni da Cool Edit Pro e da Sound Forge .

Esempio
4.7a-c

Figura 4.14a e b. Differenti tipi di parametri per il chorus.

Flanger
Definizione: il flanger era ottenuto negli anni 50/60 attraverso un rallentamento meccanico di una
di due bobine di nastro contenenti due tracce identiche. In questo modo al segnale inalterato veniva
sovrapposto lo stesso segnale modulato in frequenza e nel tempo a causa del rallentamento del
nastro: modulato nel tempo, perch il secondo nastro periodicamente anticipava e seguiva quello
originale; in frequenza, perch accelerazioni e decelerazioni della velocit del nastro causavano
proporzionali incrementi/decrementi della frequenza. Nella versione elettronica, il tempo di ritardo
del secondo segnale varia continuamente attraverso un oscillatore di controllo. simulabile
attraverso un chorus.
Risultato e utilit: il flanger uno degli effetti pi popolari, ed di uso comune presso i chitarristi
fin da Les Paul (che ne accreditato inventore). il responsabile delleffetto jet spesso ascoltabile
nei riff di chitarra elettrica, come pure di molti effetti spaziali, impiegati ad esempio nella dance
per le voci.
Parametri: i parametri fondamentali sono lintervallo di variazione del ritardo, e la frequenza di
variazione. In sostanza, si tratta di decidere di quanto possa variare il tempo di ritardo, e con che
frequenza possa passare dal valore minimo a quello massimo. In alcuni casi, possibile controllare

Esempio
4.8a e b
Esempio
4.9a-d

direttamente la variazione del tempo. In altri casi, i parametri riguardano le caratteristiche della
modulazione (cio, come detto, della variazione): ampiezza, frequenza, forma dellonda modulante.
Phaser
Definizione: nel phaser, come nel flanger, il segnale viene ricombinato con una sua copia, sulla
quale viene effettuato uno spostamento questa volta non del tempo, ma della fase. La copia viene
ottenuta facendo passare il segnale attraverso un banco di filtri (detti allpass), che hanno risposta in
frequenza piatta, ma che modificano la fase del segnale.
Risultato e utilit: insieme con chorus e flanger, il phaser uno degli effetti pi diffusi tra i
chitarristi. In realt, il processo di phasing pu condurre a risultati molto diversi: in alcuni casi simili
al flanger, in altri direttamente ad un effetto wah-wah. In questultima circostanza, lo spostamento
periodico di fase che opera su un certo insieme di frequenze produce di fatto un
incremento/decremento dellenergia delle frequenze in questione. Esattamente quanto avviene nel
popolare pedale wah-wah, dove il piede controlla lescursione del guadagno di un filtro con
frequenza centrale variabile.
Parametri: i parametri fondamentali sono la frequenza centrale attorno alla quale si produce
leffetto (Center frequency), il tasso di variazione (Sweeping rate, o solo Rate), la profondit,
(Depth). In sostanza, si tratta di decidere rispettivamente attorno a quale frequenza (leffetto risulta
infatti in un filtraggio), con quale periodicit e di quanto possa variare (in termini di range di
frequenze che vengono modificate dalleffetto) il phasing. La risonanza (Resonance) indica
lescursione dello spostamento della fase. Nel caso di un effetto wah-wah, Resonance controlla
direttamente la larghezza di banda del filtro.
Delay
Definizione: il delay non fa altro che aggiungere una o pi copie del segnale al segnale stesso dopo
un certo tempo (delay time). Nel caso di multiple delay (pi semplicemente un effetto eco) pi copie
vengono aggiunte con ampiezza decrescente fino a raggiungere linudibilit (attenuazione di 60 dB
o pi) dopo il tempo di decadimento (decay time). Un multitap delay un delay che ha pi linee di
ritardo autonome, di ognuna delle quali possibile determinare tempo di ritardo e loffset (il punto
della linea di ritardo da cui viene prelevato il campione ritardato). In sostanza si decidono di pi
ritardi simultanei i punti di inizio del segnale ritardato. A differenza che in chorus, flanger e phaser,
nel delay il tempo di ritardo fisso: non modula periodicamente nel tempo, ne soggetto a
variazioni progressive come nei riverberi.

Esempio
4.10a-c

In Figura 4.15 al segnale originale di Figura 4.15a viene aggiunta un copia con delay di 200 msec
(17b); in 4.17c, un multiple delay (sempre 200 msec): ogni copia ha ampiezza pari all80% della
precedente.

Esempio
4.11a-c

Figura 4.15a-c. Segnale originale (a); delay (b) e multiple delay (c).

Risultato e utilit: il delay pu produrre un vastissimo raggio di risultati. Pu introdurre una


dimensione ambientale in un segnale particolarmente asciutto, magari perch registrato in un
ambiente molto piccolo, o con attrezzature di scarso valore. Pu simulare le eco multiple percepibili
in un grande spazio riflettente come un canyon. Come effetto in s, di uso comune nella musica
rock e pop ( il caso delle caratteristiche note ribattute, sia negli strumenti intonati che nelle
percussioni), ed responsabile di molti effetti alieni (anche nellaudio cinematografico), grazie
alla riverberazione metallica che pu essere generata, ad esempio, tramite un tempo di decadimento
medio-lungo.

Esempio
4.12
Esempio
4.13
Esempio
4.14a-c

Parametri: la variet di effetti possibili dipende del tutto dal valore di due variabili: il tempo di
ritardo e quello di decadimento. I tempi di ritardo (dt) tipici sono distinguibili in brevi, medi e lunghi
(Roads 1996: 435): 1<dt<10 ms: spazializzazione del suono; 10<dt<50 ms: chorus/flanger; dt>50
ms: echi discreti. In realt, molto dipende anche dalle caratteristiche del singolo segnale. Come gi
notato, in caso di ritardi multipli (multiple delay o eco) il tempo di decadimento diventa centrale.
Poich il segnale viene reiterato in funzione del tempo di decadimento, ci pu causare (in relazione
al tipo di segnale) un accumularsi progressivo di segnali ritardati che pu anche risultare nel
clipping, nel caso si superino i valori di ampiezza consentiti. Un ritardo estremamente ridotto (di
pochi campioni, di frazioni di millesimo) produce poi un effetto di filtraggio vero e proprio, che, se
reiterato pi volte, modifica radicalmente il suono, producendo come risultato fischi o trilli. In
Figura 4.16 il sonogramma del segnale audio digitale, a cui stato applicato un multiple delay di
0,5 msec.: le nuove linee equispaziate indicano lintroduzione di frequenze multiple di 2.000 Hz11.

Esempio
4.15
Figura 4.16. Il sonogramma rivela la presenza di armoniche introdotte nel segnale da un ritardo di 0,5msec.

Quando si applica un ritardo (cos come un riverbero), si ricordi che le ripetizioni proseguono oltre
la fine del segnale originale: per evitare troncamenti indesiderati, allora opportuno aggiungere
alcuni secondi di silenzio alla fine del file prima di effettuare loperazione.
Riverbero
Definizione: Il riverbero simula attraverso limpiego di pi linee di ritardo autonome e non in fase
lambiente acustico in cui si diffonde il suono e da cui questultimo viene colorato (cio modificato
spettralmente). Un elemento centrale nellimplementazione di un riverbero dato da pi linee di
ritardo, come in un multitap delay. Tuttavia la simulazione di un ambiente acustico (sia esso naturale
o artificiale) richiede, oltre a un multitap delay, due ulteriori operazioni: un filtraggio che simuli
lassorbimento operato dagli elementi dellambiente in questione, ed un opportuno missaggio tra tre
componenti fondamentalmente diverse: segnale originale, prime riflessioni, riverberazione diffusa
(cfr. cap. 10).
11

Infatti se le copie vengono aggiunte periodicamente ogni 0,5 msec, allora la frequenza (al secondo)
1.000msec/0,5=2.000 Hz.

Risultato e utilit: il riverbero utilissimo nel simulare la presenza di un ambiente acustico. Nella
musica pop-rock viene spesso impiegato per aumentare la dimensione ambientale delle percussioni,
oltre che come effetto in s. La spazializzazione prodotta dalla riverberazione pu migliorare
radicalmente segnali di bassa qualit, sia perch registrati con attrezzature insufficienti, sia perch
magari reperiti in formato di minore definizione (22.050 Hz, 8 bit, mono) o compresso (si pensi a
file scaricati dalla rete), sia perch originati sinteticamente, e perci sprovvisti costitutivamente di
dimensione ambientale.
Parametri: il tempo totale di riverberazione il tempo necessario perch il segnale rivereberato si
attenui fino allinudibilit: proporzionale alla dimensione dello spazio simulato. Il tempo di attacco
il tempo che intercorre tra linizio del segnale originale e il momento in cui compare la
riverberazione: fondamentale nella percezione dellambiente, pi o meno proporzionale alle
dimensioni di questultimo. Si considerino analogamente anche le caratteristiche delle prime
riflessioni. Gli assorbimenti delle frequenze acute definiscono invece la caratteristiche interne
dellambiente: pi questo denso di oggetti, maggiore sar lassorbimento degli acuti.
Sono presenti in commercio unit di riverbero che, invece di simulare le riflessioni prodotte da un
ambiente attraverso la regolazione dei tempi di ritardo, forniscono un modello fisico, nel quale i
parametri da regolare sono direttamente quelli relativi alle caratteristiche acustiche di un ambiente
(dimensioni, forma, fattori di smorzamento, colore, posizione del segnale e del microfono). Infine,
alcune unit combinano i due modelli, offrendo parte di entrambi i tipi di controllo (Figura 4.1712).

Figura 4.17. Unit di riverberazione.

Operazioni sulla dinamica


Un segnale si presenta con un certo inviluppo dampiezza, a cui percettivamente corrisponde un
certo volume. Agire sulla dinamica implica operare sul segnale in modo tale da ottenere un risultato
la cui differenza rispetto alloriginale venga percepita in termini di volume, anche nel caso in cui si
in parte modificato lo spettro del segnale (e dunque, il timbro).
Amplificazione/Inviluppo
Definizione: una delle operazioni pu semplici che possono essere svolte su un segnale in forma
numerica moltiplicare il valore di tutti i campioni per una costante. Il risultato un aumento
12

Lelaborazione tratta da TC|Native Reverb della TC|Works.

Esempio
4.16

Esempio
4.17a-d

dellampiezza del segnale, che non ne modifica il contenuto spettrale, e che percettivamente risulta
in un aumento del volume. Una funzione predisposta da tutti gli editor audio proprio quella di
amplificazione che consente di operare sullampiezza del segnale: usualmente la misurazione della
variazione dellampiezza fornita in dB. Se in questo modo lintero inviluppo dellampiezza
(envelope) viene modificato unformemente, per anche possibile effettuare una regolazione
dinamicamente variabile nel tempo. Ad esempio, si pu ottenere una dissolvenza in entrata (fade in)
o in uscita (fade out): lampiezza del segnale nellarea selezionata varia linearmente da 0 al valore
originale, o viceversa. Musicalmente, equivale ad un crescendo/decrescendo dal/al niente. Come
intuibile, non necessariamente il valore di partenza/arrivo deve essere pari a zero: si pu realizzare
una progressione lineare tra due valori qualunque. Algoritmi pi sofisticati consentono poi di
controllare dinamicamente landamento dellampiezza nel tempo, cio di costruire un vero e proprio
inviluppo. Al suono percussivo di Figura 4.18a stato imposto la curva dinviluppo di Figura 4.18b:
al contrario di quanto avveniva nelloriginale, linviluppo del segnale risultante (Figura 4.18c)
presenta un attacco graduale e una fase di sostegno prolungata, come tipico di un suono tenuto.

Esempio
4.18a

Esempio
4.18b

Figura 4.18a-c. Suono percussivo (a); curva di inviluppo


(b); risultato dell'applicazione della curva (c).

Risultato e utilit: il controllo sullampiezza di un file tra le operazioni di pi ovvia utilit: si


pensi alla predisposizione dei materiali audio per un prodotto multimediale, dove sono richieste
omogeneit o variazioni funzionali nel volume percepito. Le dissolvenze costituiscono poi un
elemento tipico nella costruzione della cornice di un evento, operando tipicamente in apertura o in
chiusura dello stesso. Il controllo pi minuto sullintero inviluppo pu essere utile per due ragioni:

da un lato, in funzione di eventuali immagini, pu simulare un movimento nello spazio della fonte
sonora a cui viene attribuito (secondo lequazione percettiva vicino = forte, lontano = piano);
dallaltro, limposizione di un inviluppo in grado di fornire un notevole miglioramento ad un
segnale di sintesi, anche semplicemente sinusoidale.
Parametri: tipicamente, il valore di incremento dellampiezza (costante o di arrivo e partenza, in
caso di dissolvenza). Laddove sia possibile controllare precisamente linviluppo, usualmente
presente un grafo che presenta in ascissa il tempo e in ordinata lampiezza, sul quale si pu costruire
la spezzata che rappresenta linviluppo applicato al segnale (cio, proprio landamento
dellampiezza nel tempo).
Normalizzazione
Definizione: la normalizzazione consiste nella massima amplificazione possibile del segnale senza
che si produca distorsione digitale (il clipping). In alcuni casi, gli editor offrono la possibilit di
determinare una percentuale di amplificazione rispetto al segnale normalizzato (al 100% corrisponde
la normalizzazione vera e propria).
Risultato e utilit: spesso utile lavorare con segnali la cui ampiezza sia quella massima possibile
senza distorsione. Ad esempio, quando si intende ricampionare abbassando la quantizzazione
(magari per motivi di peso del file), proprio la parte del segnale a bassi livelli dinamici che
subisce la maggiore degradazione. Un discorso analogo vale in caso di compressione: questa infatti
produce spesso un incremento del rumore di fondo, che si traduce in una minore SNR (cfr. cap. 2).
Non solo: laumento manuale dellampiezza non consente di sapere, se non per prove ed errori, se
nel segnale risultante saranno presenti o meno dei clip. Anche qualora non si voglia ottenere
lamplificazione massima, ma non si possa immettere direttamente una percentuale damplificazione
rispetto al segnale normalizzato, allora possibile in prima istanza normalizzare il segnale, e in
secondo battuta scalare eventualmente dallampiezza massima cos ottenuta.
Parametri: il valore (in dB o in percentuale) di incremento dellampiezza, dove il valore massimo
equivale allamplificazione massima possibile non distorcente. In alcuni casi, possibile regolare
lincremento non definendolo in termini di ampiezza assoluta, ma di RMS (cfr. pi sopra): in questo
modo laumento prescelto in relazione diretta con il volume percepito. Si pensi al caso in cui si
mixano/incollano pi file: La dimensione pertinente non solo lampiezza assoluta: importanza
cruciale ha il volume relativo, che spesso non coincide con lampiezza relativa.
Panning
Definizione: con panning si intende sia il posizionamento che il movimento laterale del suono su
due (o pi) canali. Nellimmagine stereofonica, dato dal bilanciamento (costante o variabile) del
fronte tra i due altoparlanti. Costituisce con la riverberazione, uno dei due modi fondamentali di
distribuzione spaziale (reale o virtuale) del suono (Roads 1996: 452).
Risultato e utilit: la ripartizione dinamica del segnale sui due canali consente di simulare uno
spostamento nel tempo delle fonti sonore o dellascoltatore: si crea cio uno spazio sonoro virtuale.
Si pensi, come nel caso dellinviluppo, allassociazione con un oggetto visivo mobile. Oltre ad
incrementare la dimensione ambientale del segnale, il panning pu servire a costruire lillusione di
un immagine stereofonica in segnali mono: duplicato sui due canali stereo il file originario, si pu
variare la quantit del segnale sui due canali.
Parametri: tipicamente, gli editor offrono un controllo grafico sul fronte stereo. Si tratta di un
grafico che presenta in ascissa il tempo (con eventuale preview dellla forma donda del segnale) e in
ordinata ai due estremi in alto e in basso sinistra e destra (di solito). Si pu definire una spezzata che

Esempio
4.19a-e

identifica la ripartizione del segnale tra gli estremi, dove un punto che giace su una delle posizioni
estreme verticali indica un posizionamento completo del segnale su uno dei canali.
Processamento dinamico (dynamics processing)
Definizione: la funzione tipica di un processamento dinamico quello di variare il livello di uscita
di un segnale sulla base del livello dentrata.
Risultato e utilit: di solito si definiscono quattro tipi standard di processamento dinamico:
compressione, limitazione, espansione, noise gating. Nelle Figura 4.19a-d lasse delle ascisse indica
lampiezza del segnale in entrata, lasse dellordinate quella in uscita. La retta a 45 implica nessuna
alterazione dinamica del segnale (ad ampiezza x in entrata, corrisponde ampiezza y in uscita). Se la
curva sopra la retta, allora c una espansione in uscita (y>x), se sotto, viceversa, c una
compressione (y<x).

Figura 4.19a e b . Funzione di trasferimento In/Out: compressore (a) e limiter (b).

Figura 4.19c e d. Funzione di trasferimento In/Out: expander (a) e noise gate (b).

Un compressore (Figura 4.19a) riduce lescursione dinamica di un segnale: ne dimimuisce


lampiezza sopra la soglia superiore (taglia i picchi) e ne incrementa quella sotto la soglia inferiore.

Esempio
4.20a-e

Il risultato una omogeneizzazione visibile della forma donda del segnale. utile nel mantenere un
livello dinamico uniforme: si pensi ad esempio alla preparazione di un file audio come sfondo. Se il
file originale presenta troppa escursione dinamica, tender a sparire nei piano, o a risultare troppo
presente nei forte: possiamo allora comprimerne utilmente la dinamica.
Un limitatore (di solito: limiter, Figura 4.19b) si occupa di limitare la parte del segnale la cui
ampiezza supera una certa soglia. Solo quando il segnale in input supera il valore di soglia viene
riportato ad una valore inferiore. Serve per evitare i picchi (e magari il conseguente clipping), senza
per questo dover proporzionalmente diminuire lintera ampiezza del segnale. Si pensi ad un file
audio con pochi picchi di brevissima durata ma molto elevati, magari causati dallattacco di suoni
percussivi: presumibilmente la limitazione non causer alterazioni udibili, ma eviter distostorsioni
o eccessive sollecitazioni degli altoparlanti.
Un espansore (di solito: expander, Figura 4.19c) svolge una funzione opposta ad un compressore:
dilata lescursione dinamica di un segnale, aumentando lampiezza in uscita per i valori pi elevati
in entrata e diminuendola per i valori pi bassi. Dato un segnale estremamente omogeneo nelle
dinamiche (si pensi ad un file audio di bassa qualit), pu incrementarne la ridotta variet dei piani
dinamici.
Un noise gate (Figura 4.19d) agisce in modo opposto ad un limiter, diminuendo (generalmente fino
allinudibilit), la parte del segnale inferiore ad una certa soglia. utilissimo nel tagliare
completamente un rumore di fondo dampiezza costante presente in un segnale. sufficiente
diminuire pressoch a zero il valore in uscita della parte del segnale dampiezza inferiore alla soglia
definita da quella del rumore: cos possibile rendere completamente silenziosi rumori di fondo
costanti, ma udibili solo durante il silenzio (si pensi ad esempio alle pause in un discorso).
Parametri: possibile che i quattro tipi che abbiamo presentato vengano proposti dalleditor come
moduli separati. Soprattuto il noise gate spesso autonomo: il parametro fondamentale in questo
caso la frequenza di soglia sotto la quale opera la drastica riduzione dinamica. Spesso fornito un
grafo cartesiano come quelli che abbiamo riportato: la spezzata costruibile definisce landamento del
processamento e ogni alterazione rispetto alla diagonale (che rappresenta i valori inalterati) assegna
allampiezza in entrata un diverso valore in uscita. Esistono poi moduli che consentono di svolgere
le operazioni citate su una specifica banda di frequenza: lalterazione dinamica affligge solo in una
determinata area spettrale, che viene definita dallutente.

Esempio
4.21a e b

Figura 4.20a-c. La curva di processamento dinamico (a), applicata al segnale (b), produce (c).

Il primo segmento orizzontale della curva di Figura 4.20a riduce a zero la parte di segnale inferiore
al valore del suo estremo destro. Il risultato della sua applicazione al segnale di Figura 4.20b

illustrato in Figura 4.20c: un taglio completo di tutta la parte inferiore al valore di soglia. Nella
circostanza, i tempi di attacco (attack) e di rilascio (release), cio i due intervalli di tempo necessari
rispettivamente per il passaggio dal segnale non processato a quello processato e viceversa, sono
pari a 0: di qui il taglio netto visibile nella forma donda.
Distorsione
Descrizione: Con distorsione si possono intendere due diversi concetti, in realt correlati. Da un
lato, distorsione indica il fatto che la forma donda di un segnale, a causa di una qualche forma di
disturbo, possa venire modificata, con conseguente alterazione delle sue caratteristiche timbriche
originarie: quanto avviene tipicamente in caso di malfunzionamento di un altoparlante, magari per
sovraccarico. quanto si intende anche quando si parla di saturazione di un amplificatore valvolare:
la distorsione impiegata dai chitarristi sfrutta proprio questo tipo di risposta non lineare in uscita da
parte dellamplificazione al segnale in entrata. Nella computer music, si intende invece con
distorsione un metodo di sintesi (cfr. cap. 9) che, dato un segnale, mappa il valore di ogni campione
ad un altro valore attraverso una funzione distorcente. Il risultato una alterazione (distorsione)
della forma dellonda originaria che pu produrre un timbro assai diverso. Nellediting audio viene
simulato leffetto di distorsione di uso comune soprattutto nella musica rock attraverso una funzione
di distorsione, che visivamente tende a squadrare la forma dellonda.
Risultato e utilit: la distorsione ha lo scopo principale di riprodurre digitalmente il tipico effetto
chitarristico. Pi in generale, pu simulare il funzionamento di un cattivo microfono o altoparlante,
di un megafono o la presenza di disturbi di trasmissione.
Parametri: possibile trovare un pi generico controllo sul livello di distorsione (Treshold), cos
come un grafo che consente manipolazioni pi complesse. In questultimo caso, si pu assegnare ad
ogni valore dampiezza del segnale originale in entrata (asse delle ascisse) un nuovo valore in uscita
(asse delle ordinate), disegnando la funzione di distorsione.
Operazioni basate sullanalisi FFT
Modifica frequenza/durata
Descrizione: lanalisi attraverso lFFT ha come caratteristica quella di dissociare le due dimensioni
dello spazio e del tempo. Come gi osservato, una FFT produce, come risultato dellanalisi di
segmenti finestrati del segnale, una sequenza di frame (fotogrammi, come in un film), di solito in
parte sovrapposti per assicurare una pi alta precisione (overlapping): teoricamente, data la
sequenza originale dei frame, possibile procedere ad una risintesi perfettamente identica del
segnale originale. Se invece allarghiamo lo spazio tra un frame e il successivo, nulla cambia (o
quasi) nel contenuto spettrale (perci nellaltezza), ma il segnale risulta dilatato in durata. Se invece
si scalano le frequenze componenti ogni frame, si modifica la frequenza senza intaccare la durata: se
ad esempio le si moltiplica per un fattore due, si ottiene una trasposizione dottava. A differenza di
quanto avveniva con un segnale analogico, allora possibile modificare una delle due dimensioni
senza modificare necessariamente laltra.
Risultato e utilit: si tratta di due operazioni tra le pi potenti messe a disposizione dal trattamento
digitale dei segnali audio. allora possibile realizzare aggiustamenti minimi sulla frequenza e
sullaltezza, a seconda delle circostanze. Nel primo caso, si pensi alla gestione simultanea di pi
tracce: nel caso di inserimento di una traccia registrata a parte, che si rivela in fase di missaggio di
poco stonata, possibile risolvere agevolmente il problema con un trasposizione daltezza. Nel
secondo caso, si pensi piuttosto alla realizzazione di un file audio, magari un loop, che seppur di

Esempio
4.22a e b

Esempio
4.23a e b

Esempio
4.24a e b

poco non coincide con la durata del video su cui deve essere montato. Le due operazioni possono
poi essere impiegate autonomamente in se stesse come effetti sonori.
Parametri: come intuibile, la frequenza e la durata di arrivo, espresse usualmente in termini assoluti
(Hz e/o semitoni, secondi) o relativi (ratio, percentuale). Si tenga presenta che le alterazioni efficaci
sono quelle di portata ridotta. Per quanto concerne la frequenza, va ricordato che la trasposizione
modifica il contenuro complessivo dello spettro, non solo la frequenza fondamentale. Le qualit
spettrali del suono originale si mantengono pressoch inalterate solo in caso di spostamento ridotto.
Per capirci: un do3 di un fagotto spostato artificialmente di unottava sopra spettralmente (e
soprattuto percettivamente) diverso dallo stesso do direttamente suonato allottava. Lescursione
consigliata perci (salvo effetti particolari) 1 tono, e comunque dipende dalle caratteristiche
spettrali del suono modificato: la voce umana o un insieme politimbrico consentono manipolazioni
(realistiche, se questo lobiettivo) di portata molto pi ridotta, ad esempio, di una semplice
melodia di clarinetto. Per quanto concerne la durata, va rilevato che un eccessivo restringimento
pu causare una perdita delle caratteristiche dellinviluppo del suono, con conseguente innaturalit,
mentre un allungamento pu produrre buchi nel segnale, oltre a una modificazione spettrale (un
vero e proprio filtraggio). Di solito conviene mantenersi attorno ad un 20% di variazione rispetto
alla durata originale.
Riassumendo
Nel capitolo abbiamo avuto modo di osservare da vicino lelaborazione digitale dellaudio. Ci siamo
preoccupati nono solo di definire e introdurre le tecniche principali di elaborazione (filtri, ritardi, e
pi in generale i cosidetti effetti) ma anche di capire come le informazioni vengano presentate dagli
editor, sia in forma grafica che scritta. Le possibilit offerte da un editor audio sono di grande
rilevanza: comprendono la registrazione da fonti esterne come la sintesi diretta, lelaborazione come
il restauro audio. Lutilizzo di queste possibilit si rivela di fondamentale importanza non solo,
come ovvio, per il musicista, ma anche per il creatore multimediale: lanimazione di un prodotto
multimediale, nella sua accezione pi lata, passa infatti per locchio come per lorecchio. Oltre a
svolgere operazioni di utilit essenziali (come la conversione tra diversi formati, compresi quelli
compressi), un editor audio allora uno strumento indispensabile per la manipolazione sia di fonti
musicali che di fonti pi genericamente sonore: si pensi alla modificazione dellampiezza
(regolazione dei volumi, normalizzazione, realizzazione di dissolvenze di vario tipo), della
dimensione ambientale (delay, chorus, riverbero, panning), della dimensione timbrica (simulazione
di un microfoni, incremento dellenergia associata a precise regioni spettrali). Ma si pensi anche alla
creazione ex novo di suoni funzionali e ambientali (dai loop ai suoni per pulsanti) attraverso luso
congiunto di campionamento da fonti esterne o preregistrate e di elaborazione/missaggio:
unoperazione che richiede certo una comprensione dello strumento software che si sta impiegando,
ma che permette, grazie allintuivit di molte operazioni ed al controllo diretto sul risultato ottenuto,
anche a chi non ha una formazione specialistica di ottenere risultati sonori di grande interesse e
complessit.
Per approfondire
Elenco di testi, CD-ROM, e siti per lapprofondimento dei concetti illustrati nel capitolo.
Riccardo Bianchini e Alessandro Cipriani, Il Suono Virtuale, ConTempo, Roma 1998 (2 ed. prev.
dicembre 2001).

Esempio
4.25a-d
Esempio
4.26a-d

Esempio
4.27a-d

Giovanni De Poli, Audio Signal Processing by Computer, in Goffredo Haus (ed.), Music
Processing, Oxford UP, Oxford 1993.
Hans Mikelson, Modeling a Multieffects Processor in Csound, in Richard Boulanger (ed.), The
Csound Book, MIT, Cambridge, Mass. 2000.
Curtis Roads, The Computer Music Tutorial, MIT, Cambridge, Mass. 1996.
John Strawn (ed.), Digital Audio Signal Processing. An Anthology, William Kaufman, Los Altos,
Ca. 1985.
Siti:
http://www.harmony-central.com/Effects/