Sei sulla pagina 1di 14

Mauro Graziani - Audio analisi - Pensare il suono

1 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Mauro Graziani
Conservatorio E.F. Dall'Abaco - Verona
Biennio di Composizione Ind. Tecnologico/Multimediale
Modelli di analisi, rappresentazione e trattamento digitale del
suono
Modulo 3

Analisi e Rappresentazione mediante FFT


NB: per risparmiare spazio, gli esempi sonori sono stati compressi in MP3. Di conseguenza
conseguenza la loro
qualit inferiore rispetto a quelli in formato lineare distribuiti nel corso delle lezioni.

0. Introduzione
In questa figura schematizzato il passaggio dalla musica all'analisi del singolo suono. importante
osservare che, fino al riquadro b passiamo attraverso vari livelli di ingrandimento del fenomeno sonoro: da
c in poi, invece, passiamo all'analisi.

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

2 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

3 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Si tratta di questa breve nota di pianoforte (Re4) vista:


a.
b.
c.
d.
e.

come inviluppo, nella sua evoluzione temporale in ampiezza


come forma d'onda non statica ma in evoluzione nel corso della nota
come fft istantanea che, in questo punto, evidenzia le componenti armoniche e un po' di rumore
come sonogramma che delinea le componenti e il variare della loro ampiezza nel tempo
come spettrogramma in 3D che evidenzia anche l'inviluppo delle singole armoniche

La tecnica utilizzata in queste analisi la FFT (fast fourier transform: trasformata veloce di Fourier) che la
versione ottimizzata per massimizzare la velocit di calcolo su computer della DFT (discrete fourier
transform: trasformata discreta di Fourier).

1. FFT
La base della FFT il fatto che ogni segnale pu essere scomposto in una serie di sinusoidi, ciascuna delle
quali possiede una ben determinata frequenza, ampiezza e fase (teorema di Fourier).
Bisogna notare che la trasformata di Fourier non l'unica esistente. Esistono altre trasformate in grado di
scomporre un segnale in una serie di componenti dello stesso tipo. Quella di Walsh, per esempio,
scompone un segnale in una serie di onde quadre e presenta dei vantaggi dal punto di vista della sintesi
(le onde quadre sono molto pi facili da generare rispetto alle sinusoidi). La trasformata di Fourier, per,
evidenzia alcune caratteristiche interessanti:
Gli elementi base della scomposizione (le sinusoidi) sono onde prive di armonici. Possono quindi
essere considerate come "i mattoni" mediante la cui somma si crea un suono complesso.
In effetti, questa propriet verificabile in quanto, sommando le suddette sinusoidi, si ottiene il
suono di partenza, come potete sentire in questo esempio.
vero che la stessa cosa accadrebbe anche sommando le onde generate da una qualsiasi altra
trasformata, ma la scomposizione basata su Fourier ha una maggiore evidenza percettiva. pi molto
facile farsi una immagine di un suono come somma di elementi percettivamente semplici, come le
sinusoidi, rispetto alla somma di elementi complessi.
Con la FFT, quindi, possiamo analizzare lo spettro di un suono e vedere le sue componenti, siano esse
armoniche o meno, passando dalla visione della forma d'onda, con il tempo sull'asse X, alla visione in
frequenza (frequenze sull'asse X). Proprio per questo corretto dire che, con la FFT, si passa dal dominio
del tempo a quello della frequenza.
Il principale parametro di controllo della FFT la sua risoluzione che determinata dal numero di
campioni (detti "punti") su cui viene effettuata. Come vedete nella figura seguente, le componenti (o
parziali) della nota di pianoforte di cui sopra sono via via pi evidenti con l'aumentare del numero di
punti. Naturalmente un maggior numero di punti significa anche un maggior tempo di calcolo.

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

4 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Si ha, quindi, un passaggio dal dominio del tempo a quello delle frequenze. Come tale, per, la FFT una
analisi istantanea che vale solamente in quel punto del suono. Dato che il suono in evoluzione, potete
considerare una singola FFT come un fotogramma di un film.

1.1 Interpretazione della FFT


Dal punto di vista matematico la FFT un procedimento che esprime una funzione come somma di
sinusoidi.
Dal punto di vista acustico pu benissimo essere vista come un pi semplice e comprensibile banco di filtri
che suddivide l'intero spazio delle frequenze da 0 a SR/2 in tante bande quanti sono i punti diviso 2. Una
FFT a 1024 punti, quindi, equivale a suddividere il campo frequenziale in 512 bande.
Si pu quindi considerare la FFT come un sistema che misura l'energia contenuta in ognuna di queste
bande. Se, per es., si lavora con 2048 punti, come se si dividesse l'intero spazio frequenziale fra 0 e SR/2
in 2048 / 2 = 1024 parti. Di conseguenza, con SR = 44100, ogni banda sarebbe larga mediamente circa 22050
/ 1024 = 21.53 Hz.
Vedendo la cosa in questo modo, si capisce anche perch la risoluzione in frequenza aumenta con il
numero dei punti e quindi anche perch, nella figura qui sopra, con 256 punti non si isolano le componenti.
22050 / 128 = circa 172 Hz, che troppo per isolare delle singole sinusoidi. La situazione migliora con 512
punti (risoluzione circa 86 Hz), buona con 2048 (ris. circa 22 Hz) e ottima con 16384 punti (ris. circa 2.69
Hz).
La seconda cosa da ricordare che, come
gi detto, l'analisi istantanea e vale, cio,
solo per l'istante in cui stata effettuata. Il
punto di analisi quello mediano rispetto al
segmento analizzato. Se abbiamo un suono
con SR = 44100 e facciamo una analisi su
4096 punti che a 44100 corrispondono quasi
a 1/10 di sec., l'istante a cui l'analisi si
riferisce il centro di quei 4096 campioni.
Prima e dopo, il suono potrebbe essere
diverso.
quindi errato fare una analisi e pensare "in questo suono troviamo queste componenti". Il concetto esatto
"in questo suono, in questo istante, troviamo queste componenti".

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

5 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

In effetti, il segmento su cui si fa l'analisi viene dapprima isolato e poi moltiplicato per un inviluppo a
forma di campana (con il massimo al centro) e trasformato come nella figura a fianco. Questo per evitare
che il troncamento alle estremit influenzi il risultato. L'effetto della finestra quello di dare un peso
maggiore al centro del segmento e mostrare lo spettro con maggiore pulizia.
Esistono vari tipi di finestre (Hamming, Blackmann, etc) che si differenziano per la pendenza e la forma
dei lati, il cui effetto su frequenza e ampiezza ridotto, ma pi evidente sulla fase delle componenti
risultanti, quindi per il momento lo possiamo ignorare. Normalmente si usano finestre di Hamming o
Blackmann. Chi volesse una trattazione matematica rigorosa della FFT pu consultare questa dispensa in
PDF, a cura di R. Di Federico distribuita dal DEEI Un. di Padova.
Ultima considerazione: la FFT si fa su suoni monofonici. Se un suono stereo, l'unica possibilit farne
due, una per canale nello stesso punto.

1.2 Sonogramma e Spettrogramma


Ora il nostro problema : se la FFT istantanea, come si pu creare una mappa completa dell'evoluzione di
un suono nel tempo?
La risposta semplice: per poter ottene una tale mappa, occorre fare una serie di singole analisi a intervalli
regolari per tutta la durata dell'evento sonoro. Otteniamo cos un sonogramma in cui abbiamo il tempo
sull'asse X, le frequenze sull'asse Y e ogni componente rappresentata da una linea che si estende nel
tempo, il cui colore tanto pi forte quanto maggiore l'ampiezza.
Poich la rappresentazione sul piano, mentre le dimensioni da rappresentare sono 3 (frequenze, tempo e
ampiezza), per la terza si deve ricorrere al colore. Lo schema dei colori pu essere diverso, ma l'importante
che sia in grado di evidenziare le differenze di ampiezza creando con lo sfondo un contrasto tanto
maggiore quanto pi l'ampiezza elevata.

Con lo stesso procedimento si pu ottenere uno spettrogramma. Si tratta di una rappresentazione 3D in cui
abbiamo ancora le frequenze sull'asse X, il tempo sull'asse Y, mentre le ampiezze sono rappresentate come
altezze sull'asse Z. In tal modo possibile distinguere chiaramente anche l'inviluppo dei singoli armonici.
Ovviamente in quest'ultimo caso la colorazione accessoria e non del tutto necessaria, per. se sensata,
aiuta, cos come aiuta il fatto che lo spettrogramma possa essere ruotato e studiato da diverse prospettive.
Il problema della risoluzione temporale in un sonogramma
Nel caso del sonogramma, dobbiamo anche tener conto della velocit con cui il suono cambia nel tempo. I
suoni emessi dagli strumenti musicali variano abbastanza lentamente e con una certa gradualit, tranne

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

6 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

che nel momento dell'attacco in cui possono esserci anche variazioni molto veloci (i cosiddetti "transitori"
o "transienti").
In natura, per, possiamo trovare anche suoni che, nel corso della loro vita, esibiscono variazioni molto
complesse e veloci. In tal caso, a volte, la ricerca di una maggiore risoluzione in frequenza, aumentando il
numero dei punti e quindi la lunghezza del segmento su cui si fa l'analisi, pu contrastare con la visione di
variazioni temporali troppo veloci. La risoluzione in frequenza contrasta con la risoluzione temporale.
Ragioniamo: se ho un suono campionato a 44100 e la mia finestra di analisi lunga 16384 punti, essa dura
16384 / 44100 = 0.37 secondi, il che significa che ogni variazione che dura meno ha buone probabilit di
risultare malamente definita in senso temporale. La cosa mitigata solo dal fatto che, nella serie di analisi
per creare il sonogramma, le finestre delle varie analisi vengono parzialmente sovrapposte. Comunque, in
questi casi, una FFT con pochi punti seguir meglio il fenomeno rispetto a una con pi punti, anche se
quest'ultima produce risultati pi definiti in frequenza.
Ascoltate questo uccellino e osservate il sonogramma nella figura qui sotto. Fatelo varie volte in modo da
capire bene la corrispondenza fra suono e rappresentazione. Se avete Cool-Edit, andate in Spectral View in
cui potete vedere il sonogramma con la barra in movimento durante il play.
NB: nel corso del corso :-) dovrete fare questo esercizio molte volte e con molti suoni.
suoni. Pendetelo
come una specie di solfeggio timbrico e sonoro.

Il numero di punti di questo sonogramma 1024. Supponiamo di voler aumentare la risoluzione in


frequenza e aumentiamo il numero di punti a 16384. Quello che otteniamo il sonogramma seguente

Notate come le variazioni rapide siano andate quasi completamente perse. In particolare, non si vedono
pi i veloci glissati discendenti a circa 2 sec., il cui posto stato preso da masse di estensione che va dalla
frequenza superiore a quella inferiore dell'intero glissato.
Nel caso dei sonogrammi, quindi, molto importante scegliere il giusto numero di punti cercando un
compromesso fra definizione in frequenza e definizione temporale.
Curiosit finale: guardate il bellissimo paesaggio disegnato dallo spettrogramma del canto dell'uccellino.

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

7 di 14

1.2

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Analisi di suoni reali

1.2.1 Analisi istantanea


Subito un caso complesso. SIb di pianoforte. Notate l'alto numero di parziali armoniche, sia pure con
qualche piccola deviazione (la fondamentale 232.8). Notate anche che la parziale che ha maggior
ampiezza la seconda, all'8va sopra la fondamentale. Non un caso particolare. Accade spesso e dipende
dalla cassa di risonanza o dalla risonanza del corpo dello strumento (vedi CD Acustica).
Guardate sempre il numero in basso a destra, sotto l'asse orizzontale come riferimento per l'estensione
dello spettro.

SOL basso di violoncello

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

8 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

SOL di tromba qui la terza parziale ha l'ampiezza maggiore

E ora qualche suono con parziali inarmoniche


Un gong

Tam-tam (grande gong non intonato)

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

9 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Piatto (batteria)

Notate come, in questi ultimi due casi che si avvicinano molto al rumore indifferenziato (soprattutto il
piatto), non abbia pi senso parlare di parziali, ma solo di bande di rumore pi o meno estese. Nel caso del
piatto c' una banda centrata intorno ai 6000 Hz e un'altra fra i 12000 e 20000 Hz.
Ora guardate un rumore quasi totalmente indifferenziato come quello prodotto da una fontana

Come vedete, non si vedono parziali, ma solo una banda continua la cui ampiezza diminuisce verso gli
acuti.
1.2.2 Analisi nel tempo
Ora esamineremo gli stessi suoni mediante sonogramma per osservare la variazione dello spettro nel
tempo. Il link ai suoni non riportato essendo lo stesso degli esempi di cui sopra.

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

10 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Ogni sonogramma racconta una storia che in qualche caso diventa un romanzo. Bisogna saper leggere i
sonogrammi come carta stampata.
Sib di pianoforte

Notate:
il rumore della percussione (martelletto) che si vede come banda rossa nel primo 10mo di secondo.
un rumore indifferenziato che si estende ad alto volume fino a circa 7000 Hz, ma arriva anche pi in
alto.
la grande quantit di armonici nella prima parte del suono. All'istante dell'attacco si arriva fino a
circa 15000 Hz (qualcuno isolato anche oltre)
la rapida scomparsa delle componenti alte: la maggior parte gi sparita entro il primo secondo di
suono. La loro durata decresce in funzione dell'altezza seguendo una curva esponenziale
decrescente. Questo comportamento tipico dei suoni a evoluzione libera (pizzicati,
percussivi).
le componenti che vanno e vengono (linee interrotte), indice di battimenti
il blob rosso finale sui bassi lo smorzatore.
Sol basso di violoncello

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

11 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Anche qui molti armonici, ma la maggior parte piuttosto debole. Solo quelli in rosso hanno una ampiezza
chiaramente sensibile, ma tutti gli altri, sebbene singolarmente non siano cos evidenti, nel loro insieme
danno corpo al suono.
Le macchie in alta frequenza sono interpretabili (a posteriori) come il rumore dell'arco che proprio uno
sfregamento a frequenze alte.
Notate che, al momento dell'attacco, gli armonici arrivano quasi tutti insieme (con un beve ritardo), poi
rimangono in buona parte stabili per tutta la durata del suono e scompaiono in breve tempo (a cominciare
dalle componenti alte) alla fine. Questo comportamento tipico dei suoni a evoluzione controllata
(archi, fiati). In questo caso il decadimento lungo (quasi 1/2 secondo) e dipende dal fatto che la corda
riesce ancora a vibrare se l'arco viene tolto di colpo.
In entrambi questi esempi abbiamo visto molti armonici. Ci dipende dal fatto che, in entrambi i casi,
abbiamo analizzato note basse generate da corde grosse. In genere, i suoni bassi hanno una maggiore
quantit di armonici, per varie ragioni:
le strutture vibranti pi massicce possono vibrare in modo pi complesso rispetto a quelle sottili
normalmente, le strutture vibranti che emettono suoni bassi vengono trattate con maggiore violenza,
sia perch sono pi massicce, ma soprattutto per compensare l'effetto Fletcher (vedi CD Acustica:
curve di Fletcher) per cui occorre una ampiezza assoluta notevolmente maggiore per produrre suoni
percepiti allo stesso volume di quelli nella banda 500 - 2000 Hz
gli armonici di fondamentali alte escono molto prima dalla banda udibile: una fondamentale a 100
Hz ha il 200mo armonico a 20000 Hz, mentre se la fondamentale a 2000 Hz, gi il 10mo armonico
a 20000 Hz.
Sol di tromba

Due grafici per la tromba: a sin. l'inviluppo, a des. il sonogramma.


Notate come l'attacco in sfz, tipico degli ottoni e ben visibile nell'inviluppo (occorre superare una certa
soglia perch scatti la vibrazione) si rifletta nel sonogramma con componenti che all'inizio risultano pi
forti e meno precise (un po' pi sporche).
Notate anche come esista un leggero glissando al momento dell'attacco, pi visibile nelle frequenze alte. In
realt l'entit del glissando uguale, in percentuale, su tutte le componenti, ma, essendo l'asse Y lineare e
non logaritmica, si vede di pi sugli alti (se dell'1%, a 300 Hz 3 e a 3000 Hz 30).
Infine, il giallo diffuso, il rumore del soffio.
Gong

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

12 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Un suono inarmonico, come si vede bene nell'ingrandimento a des. (la distanza fra le componenti
variabile).
Per il resto, il quadro quello tipico dei suoni a evoluzione libera: percussione iniziale con parecchie
componenti che spompaiono rapidamente seguendo un pronunciato andamento esponenziale.
Tamtam

Molte componenti che vanno a riempire dapprima lo spazio sui bassi e poi si estendono verso l'alto (il
tamtam grande e impiega tempo, circa 1 sec., a entrare in vibrazione nella sua interezza). Ci avviciniamo
al rumore indistinto a banda limitata, ma esistono alcune componenti molto pronunciate (soprattutto
quella pi bassa che agisce come pseudo-fondamentale).
Il decadimento rispetta sempre la legge secondo cui gli alti se vanno prima, ma in modo meno regolare, a
causa delle grandi dimensioni e della diversa densit e spessore del materiale che lo compone.
Piatto

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

13 di 14

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Siamo al rumore indistinto. La differenziazione fra le singole componenti si perde in favore di 2 bande: la
prima arriva fino a circa 11000 Hz con centro intorno ai 6000/8000, la seconda fra 12000 e quasi 20000 Hz.
Alcune componenti della prima banda rimangono come rumore residuo (molto debole) quando il piatto
stoppato.
Fontana

Infine, la fontana: rumore statico, indifferenziato, con maggior peso sulle frequenze basse. Notate la
differenza qualitativa con l'esempio precedente: qui non c' il minimo accenno a delle righe che possano
suggerire delle componenti.
Ora, per avere un'idea della complessit dell'analisi e della ricostruzione eseguite in tempo reale dal nostro
sistema percettivo, osservate il sonogramma di un frammento musicale solistico che potete ascoltare
cliccando sul titolo.
Albenitz - Asturias (frag.)

27/10/2010 10.59

Mauro Graziani - Audio analisi - Pensare il suono

14 di 14

Index

http://www.maurograziani.org/text_pages/analisi/l03/MG...

Back

Next

27/10/2010 10.59

Potrebbero piacerti anche