Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
Mauro Graziani
Conservatorio E.F. Dall'Abaco - Verona
Biennio di Composizione Ind. Tecnologico/Multimediale
Modelli di analisi, rappresentazione e trattamento digitale del
suono
Modulo 3
0. Introduzione
In questa figura schematizzato il passaggio dalla musica all'analisi del singolo suono. importante
osservare che, fino al riquadro b passiamo attraverso vari livelli di ingrandimento del fenomeno sonoro: da
c in poi, invece, passiamo all'analisi.
27/10/2010 10.59
2 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
27/10/2010 10.59
3 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
La tecnica utilizzata in queste analisi la FFT (fast fourier transform: trasformata veloce di Fourier) che la
versione ottimizzata per massimizzare la velocit di calcolo su computer della DFT (discrete fourier
transform: trasformata discreta di Fourier).
1. FFT
La base della FFT il fatto che ogni segnale pu essere scomposto in una serie di sinusoidi, ciascuna delle
quali possiede una ben determinata frequenza, ampiezza e fase (teorema di Fourier).
Bisogna notare che la trasformata di Fourier non l'unica esistente. Esistono altre trasformate in grado di
scomporre un segnale in una serie di componenti dello stesso tipo. Quella di Walsh, per esempio,
scompone un segnale in una serie di onde quadre e presenta dei vantaggi dal punto di vista della sintesi
(le onde quadre sono molto pi facili da generare rispetto alle sinusoidi). La trasformata di Fourier, per,
evidenzia alcune caratteristiche interessanti:
Gli elementi base della scomposizione (le sinusoidi) sono onde prive di armonici. Possono quindi
essere considerate come "i mattoni" mediante la cui somma si crea un suono complesso.
In effetti, questa propriet verificabile in quanto, sommando le suddette sinusoidi, si ottiene il
suono di partenza, come potete sentire in questo esempio.
vero che la stessa cosa accadrebbe anche sommando le onde generate da una qualsiasi altra
trasformata, ma la scomposizione basata su Fourier ha una maggiore evidenza percettiva. pi molto
facile farsi una immagine di un suono come somma di elementi percettivamente semplici, come le
sinusoidi, rispetto alla somma di elementi complessi.
Con la FFT, quindi, possiamo analizzare lo spettro di un suono e vedere le sue componenti, siano esse
armoniche o meno, passando dalla visione della forma d'onda, con il tempo sull'asse X, alla visione in
frequenza (frequenze sull'asse X). Proprio per questo corretto dire che, con la FFT, si passa dal dominio
del tempo a quello della frequenza.
Il principale parametro di controllo della FFT la sua risoluzione che determinata dal numero di
campioni (detti "punti") su cui viene effettuata. Come vedete nella figura seguente, le componenti (o
parziali) della nota di pianoforte di cui sopra sono via via pi evidenti con l'aumentare del numero di
punti. Naturalmente un maggior numero di punti significa anche un maggior tempo di calcolo.
27/10/2010 10.59
4 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
Si ha, quindi, un passaggio dal dominio del tempo a quello delle frequenze. Come tale, per, la FFT una
analisi istantanea che vale solamente in quel punto del suono. Dato che il suono in evoluzione, potete
considerare una singola FFT come un fotogramma di un film.
27/10/2010 10.59
5 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
In effetti, il segmento su cui si fa l'analisi viene dapprima isolato e poi moltiplicato per un inviluppo a
forma di campana (con il massimo al centro) e trasformato come nella figura a fianco. Questo per evitare
che il troncamento alle estremit influenzi il risultato. L'effetto della finestra quello di dare un peso
maggiore al centro del segmento e mostrare lo spettro con maggiore pulizia.
Esistono vari tipi di finestre (Hamming, Blackmann, etc) che si differenziano per la pendenza e la forma
dei lati, il cui effetto su frequenza e ampiezza ridotto, ma pi evidente sulla fase delle componenti
risultanti, quindi per il momento lo possiamo ignorare. Normalmente si usano finestre di Hamming o
Blackmann. Chi volesse una trattazione matematica rigorosa della FFT pu consultare questa dispensa in
PDF, a cura di R. Di Federico distribuita dal DEEI Un. di Padova.
Ultima considerazione: la FFT si fa su suoni monofonici. Se un suono stereo, l'unica possibilit farne
due, una per canale nello stesso punto.
Con lo stesso procedimento si pu ottenere uno spettrogramma. Si tratta di una rappresentazione 3D in cui
abbiamo ancora le frequenze sull'asse X, il tempo sull'asse Y, mentre le ampiezze sono rappresentate come
altezze sull'asse Z. In tal modo possibile distinguere chiaramente anche l'inviluppo dei singoli armonici.
Ovviamente in quest'ultimo caso la colorazione accessoria e non del tutto necessaria, per. se sensata,
aiuta, cos come aiuta il fatto che lo spettrogramma possa essere ruotato e studiato da diverse prospettive.
Il problema della risoluzione temporale in un sonogramma
Nel caso del sonogramma, dobbiamo anche tener conto della velocit con cui il suono cambia nel tempo. I
suoni emessi dagli strumenti musicali variano abbastanza lentamente e con una certa gradualit, tranne
27/10/2010 10.59
6 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
che nel momento dell'attacco in cui possono esserci anche variazioni molto veloci (i cosiddetti "transitori"
o "transienti").
In natura, per, possiamo trovare anche suoni che, nel corso della loro vita, esibiscono variazioni molto
complesse e veloci. In tal caso, a volte, la ricerca di una maggiore risoluzione in frequenza, aumentando il
numero dei punti e quindi la lunghezza del segmento su cui si fa l'analisi, pu contrastare con la visione di
variazioni temporali troppo veloci. La risoluzione in frequenza contrasta con la risoluzione temporale.
Ragioniamo: se ho un suono campionato a 44100 e la mia finestra di analisi lunga 16384 punti, essa dura
16384 / 44100 = 0.37 secondi, il che significa che ogni variazione che dura meno ha buone probabilit di
risultare malamente definita in senso temporale. La cosa mitigata solo dal fatto che, nella serie di analisi
per creare il sonogramma, le finestre delle varie analisi vengono parzialmente sovrapposte. Comunque, in
questi casi, una FFT con pochi punti seguir meglio il fenomeno rispetto a una con pi punti, anche se
quest'ultima produce risultati pi definiti in frequenza.
Ascoltate questo uccellino e osservate il sonogramma nella figura qui sotto. Fatelo varie volte in modo da
capire bene la corrispondenza fra suono e rappresentazione. Se avete Cool-Edit, andate in Spectral View in
cui potete vedere il sonogramma con la barra in movimento durante il play.
NB: nel corso del corso :-) dovrete fare questo esercizio molte volte e con molti suoni.
suoni. Pendetelo
come una specie di solfeggio timbrico e sonoro.
Notate come le variazioni rapide siano andate quasi completamente perse. In particolare, non si vedono
pi i veloci glissati discendenti a circa 2 sec., il cui posto stato preso da masse di estensione che va dalla
frequenza superiore a quella inferiore dell'intero glissato.
Nel caso dei sonogrammi, quindi, molto importante scegliere il giusto numero di punti cercando un
compromesso fra definizione in frequenza e definizione temporale.
Curiosit finale: guardate il bellissimo paesaggio disegnato dallo spettrogramma del canto dell'uccellino.
27/10/2010 10.59
7 di 14
1.2
http://www.maurograziani.org/text_pages/analisi/l03/MG...
27/10/2010 10.59
8 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
27/10/2010 10.59
9 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
Piatto (batteria)
Notate come, in questi ultimi due casi che si avvicinano molto al rumore indifferenziato (soprattutto il
piatto), non abbia pi senso parlare di parziali, ma solo di bande di rumore pi o meno estese. Nel caso del
piatto c' una banda centrata intorno ai 6000 Hz e un'altra fra i 12000 e 20000 Hz.
Ora guardate un rumore quasi totalmente indifferenziato come quello prodotto da una fontana
Come vedete, non si vedono parziali, ma solo una banda continua la cui ampiezza diminuisce verso gli
acuti.
1.2.2 Analisi nel tempo
Ora esamineremo gli stessi suoni mediante sonogramma per osservare la variazione dello spettro nel
tempo. Il link ai suoni non riportato essendo lo stesso degli esempi di cui sopra.
27/10/2010 10.59
10 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
Ogni sonogramma racconta una storia che in qualche caso diventa un romanzo. Bisogna saper leggere i
sonogrammi come carta stampata.
Sib di pianoforte
Notate:
il rumore della percussione (martelletto) che si vede come banda rossa nel primo 10mo di secondo.
un rumore indifferenziato che si estende ad alto volume fino a circa 7000 Hz, ma arriva anche pi in
alto.
la grande quantit di armonici nella prima parte del suono. All'istante dell'attacco si arriva fino a
circa 15000 Hz (qualcuno isolato anche oltre)
la rapida scomparsa delle componenti alte: la maggior parte gi sparita entro il primo secondo di
suono. La loro durata decresce in funzione dell'altezza seguendo una curva esponenziale
decrescente. Questo comportamento tipico dei suoni a evoluzione libera (pizzicati,
percussivi).
le componenti che vanno e vengono (linee interrotte), indice di battimenti
il blob rosso finale sui bassi lo smorzatore.
Sol basso di violoncello
27/10/2010 10.59
11 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
Anche qui molti armonici, ma la maggior parte piuttosto debole. Solo quelli in rosso hanno una ampiezza
chiaramente sensibile, ma tutti gli altri, sebbene singolarmente non siano cos evidenti, nel loro insieme
danno corpo al suono.
Le macchie in alta frequenza sono interpretabili (a posteriori) come il rumore dell'arco che proprio uno
sfregamento a frequenze alte.
Notate che, al momento dell'attacco, gli armonici arrivano quasi tutti insieme (con un beve ritardo), poi
rimangono in buona parte stabili per tutta la durata del suono e scompaiono in breve tempo (a cominciare
dalle componenti alte) alla fine. Questo comportamento tipico dei suoni a evoluzione controllata
(archi, fiati). In questo caso il decadimento lungo (quasi 1/2 secondo) e dipende dal fatto che la corda
riesce ancora a vibrare se l'arco viene tolto di colpo.
In entrambi questi esempi abbiamo visto molti armonici. Ci dipende dal fatto che, in entrambi i casi,
abbiamo analizzato note basse generate da corde grosse. In genere, i suoni bassi hanno una maggiore
quantit di armonici, per varie ragioni:
le strutture vibranti pi massicce possono vibrare in modo pi complesso rispetto a quelle sottili
normalmente, le strutture vibranti che emettono suoni bassi vengono trattate con maggiore violenza,
sia perch sono pi massicce, ma soprattutto per compensare l'effetto Fletcher (vedi CD Acustica:
curve di Fletcher) per cui occorre una ampiezza assoluta notevolmente maggiore per produrre suoni
percepiti allo stesso volume di quelli nella banda 500 - 2000 Hz
gli armonici di fondamentali alte escono molto prima dalla banda udibile: una fondamentale a 100
Hz ha il 200mo armonico a 20000 Hz, mentre se la fondamentale a 2000 Hz, gi il 10mo armonico
a 20000 Hz.
Sol di tromba
27/10/2010 10.59
12 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
Un suono inarmonico, come si vede bene nell'ingrandimento a des. (la distanza fra le componenti
variabile).
Per il resto, il quadro quello tipico dei suoni a evoluzione libera: percussione iniziale con parecchie
componenti che spompaiono rapidamente seguendo un pronunciato andamento esponenziale.
Tamtam
Molte componenti che vanno a riempire dapprima lo spazio sui bassi e poi si estendono verso l'alto (il
tamtam grande e impiega tempo, circa 1 sec., a entrare in vibrazione nella sua interezza). Ci avviciniamo
al rumore indistinto a banda limitata, ma esistono alcune componenti molto pronunciate (soprattutto
quella pi bassa che agisce come pseudo-fondamentale).
Il decadimento rispetta sempre la legge secondo cui gli alti se vanno prima, ma in modo meno regolare, a
causa delle grandi dimensioni e della diversa densit e spessore del materiale che lo compone.
Piatto
27/10/2010 10.59
13 di 14
http://www.maurograziani.org/text_pages/analisi/l03/MG...
Siamo al rumore indistinto. La differenziazione fra le singole componenti si perde in favore di 2 bande: la
prima arriva fino a circa 11000 Hz con centro intorno ai 6000/8000, la seconda fra 12000 e quasi 20000 Hz.
Alcune componenti della prima banda rimangono come rumore residuo (molto debole) quando il piatto
stoppato.
Fontana
Infine, la fontana: rumore statico, indifferenziato, con maggior peso sulle frequenze basse. Notate la
differenza qualitativa con l'esempio precedente: qui non c' il minimo accenno a delle righe che possano
suggerire delle componenti.
Ora, per avere un'idea della complessit dell'analisi e della ricostruzione eseguite in tempo reale dal nostro
sistema percettivo, osservate il sonogramma di un frammento musicale solistico che potete ascoltare
cliccando sul titolo.
Albenitz - Asturias (frag.)
27/10/2010 10.59
14 di 14
Index
http://www.maurograziani.org/text_pages/analisi/l03/MG...
Back
Next
27/10/2010 10.59