Sei sulla pagina 1di 19

Nozioni e termini

di
fonetica acustica.

Come si analizza il segnale acustico

2
1. Definizione

La fonetica acustica è lo studio dei segnali acustici


complessi diretto a scomporli nelle loro componenti semplici.
Essa si serve principalmente della spettrografia, la tecnica di
analisi che permette la scomposizione, mediante il procedimento
matematico denominato trasformata di Fourier. Lo
spettrogramma è la rappresentazione grafica di tale procedimento.

Un’onda è detta semplice se è prodotta da un corpo che


oscilla in ogni sua parte a una stessa frequenza. In natura non
esistono sorgenti sonore in grado di produrre onde semplici;
l’unico oggetto in grado di farlo, il diapason, deve essere
appositamente costruito in modo tale che, quando messo in
vibrazione, oscilli in ogni sua parte a una e a una sola frequenza.
Anche nel caso di una corda tesa vincolata alle due estremità,
come, ad es., la corda di una chitarra, il segnale generato è un
segnale complesso, costituito dalla somma di più frequenze, una
multipla dell’altra. Tali frequenze vengono dette armoniche: la
frequenza più bassa è detta fondamentale (o prima armonica) e
corrisponde sul piano percettivo all’altezza (o tono) del suono
prodotto. Per restare all’esempio della chitarra, se si mettono in
vibrazione contemporaneamente due corde, si continuerà a sentire
un singolo suono, diverso da quello prodotto dalla vibrazione
dell’una o dell’altra corda. La ragione è che le onde sonore hanno

3
la proprietà di sommarsi tra loro. La frequenza dell’onda
complessa risultante equivale alla frequenza della sua componente
più bassa. Se alla corda vibrante si aggiunge un risonatore, come
la cassa armonica della chitarra, alle onde prodotte dalle
vibrazioni della corda si aggiungono quelle prodotte dal
risonatore, che si mette a oscillare a frequenze che dipendono
dalla sua forma e dal materiale di cui è costituito.

L’apparato fonatorio è molto più complicato di una


semplice corda vibrante accoppiata a un risonatore a volume fisso:
la sorgente sonora, costituita dalle corde (o pliche) vocali, varia
rapidamente grazie alla contrazione di alcuni muscoli laringei, in
particolare del muscolo tensore (il cricotiroideo) che tende in
misura maggiore o minore le due corde facendole vibrare a
frequenza diversa. Per quanto riguarda il risonatore, esso genera
frequenze differenti a seconda della forma assunta dalle diverse
cavità (laringale, faringale, orale, nasale), dell’elasticità dei
tessuti, della loro conformazione e dimensione.

Anche tali frequenze variano molto rapidamente nel tempo


grazie alla grande motilità degli organi articolatori e ciò comporta
significative variazioni del segnale prodotto che, anche se
dell’ordine di pochi millisecondi, risultano rilevanti sul piano
percettivo. Il risultato di tutta questa complessa attività è la voce,
un’onda sonora le cui caratteristiche variano istante per istante in
dipendenza dei movimenti articolatori.

Il tracciato spettrografico è il tentativo di rappresentare


graficamente tutto questo. L’applicazione della tecnica
spettrografica all’analisi della voce risale al 1951, anno in cui

4
viene prodotto e messo in commercio dalla Kay Electrics il primo
modello di sound spectrograph. Oggi sono disponibili vari
modelli di spettrografi, sia hardware, come il CSL (Computerized
speech lab) della Kaypentax, sia software, come il Multi-Speech,
commercializzato dalla stessa società, o il Praat, elaborato presso
l’università di Amsterdam e scaricabile dalla rete. Gli
spettrogrammi riportati nelle figure seguenti sono stati prodotti
con WaveSurfer 1.8.5, un software open source elaborato dal CTT
(Centre for speech technology) del KTH (Kungliga tekniska
Högskolan; in ingl., Royal Institute of technology) di Stoccolma.

5
2. Lo spettrogramma

Lo spettrogramma è il tracciato tridimensionale ottenuto


mediante la scomposizione del segnale complesso nelle sue varie
componenti semplici.

Sull’asse delle ascisse viene rappresentato il tempo,


sull’asse delle ordinate le frequenze. La terza dimensione è quella
dell’intensità, rappresentata dal maggiore o minore annerimento
del tracciato. A seconda del diverso procedimento utilizzato nel
filtrare il segnale complesso, lo spettrogramma assume
caratteristiche diverse (fig. 1).

I due filtri passabanda comunemente utilizzati hanno una


larghezza di 45 Hz (spettrogramma a banda stretta) e di 300 Hz
(spettrogramma a banda larga). Il primo mette in evidenza il
comportamento delle corde vocali, in quanto separa le singole
armoniche che vengono rappresentate da una serie di striature

6
orizzontali. La distanza tra due striature contigue, misurata in Hz
sulla scala delle frequenze, dà il valore della frequenza di
vibrazione della glottide o frequenza fondamentale (F0). Il
secondo mette in risalto le cosiddette formanti (frequenze di
risonanza generate dalle cavità sopralaringali) evidenziate da zone
di maggiore annerimento, senza che vengano perdute le
informazioni sul comportamento della sorgente glottidale: le
aperture e chiusure delle corde vocali sono infatti rappresentate da
striature verticali periodiche. L’altezza di una formante, misurata
nel punto centrale della banda annerita, dipende non solo dalla
forma del risonatore ma anche dalla sua dimensione: in generale si
può dire che più piccola è la cavità, più alta è la frequenza alla
quale risuona.

Sia la frequenza fondamentale che le altezze formantiche


variano in relazione alle caratteristiche fisiche del parlante. La
frequenza fondamentale di un parlato conversazionale è
mediamente compresa tra 70 e 150 Hz per una voce maschile, tra
150 e 250 Hz per una voce femminile, tra 250 e 350 Hz per una
voce di bambino. Tali differenze sono dovute alla diversa
lunghezza e al diverso spessore delle corde vocali, più lunghe e
spesse nell’uomo, più corte e sottili nella donna, ancora più corte
nel bambino. Per quanto riguarda le altezze formantiche, il canale
epilaringeo, dalla glottide alla labbra, è mediamente lungo 17,5
cm nell’uomo, più corto di circa il 15% nella donna e del 50% nel
bambino: questo comporta, a parità di conformazione, formanti
più basse nella voce maschile rispetto alla voce femminile e a
quella infantile.

7
Oltre all’analisi di tipo segmentale, lo spettrogramma
consente anche un’indagine di tipo soprasegmentale (fig. 2), in
quanto dal tracciato è possibile ricavare la durata dei singoli foni,
la loro intensità e l’andamento intonativo dell’enunciato. Infine
l’analisi spettrografica permette di evidenziare i numerosi effetti
di coarticolazione che caratterizzano il parlato.

8
3. Le vocali

Le vocali sono foni prodotti con un canale fonatorio libero,


che non presenta chiusure né restringimenti. La loro produzione è
quindi caratterizzata da una gran quantità di flusso d’aria
espiratoria per tutta la loro durata e ciò, in termini acustici,
corrisponde a un segnale molto intenso. Inoltre l’assenza di
impedimenti permette alle cavità sopralaringali di vibrare
liberamente alle proprie frequenze di risonanza, per cui le
formanti saranno, sullo spettro, ben definite e marcate.

Per l’individuazione delle vocali è sufficiente far riferimento


all’altezza delle prime due formanti (F1 e F2) la cui dislocazione
cambia a seconda della vocale: in generale si può dire che, per le
vocali anteriori, più la vocale è chiusa più le due formanti sono
distanti l’una dall’altra; per le vocali posteriori protruse, più la
vocale è chiusa più le due formanti sono basse e vicine. Nella
determinazione del grado di apertura della vocale vanno tenute
presenti le seguenti corrispondenze articolatorio-acustiche:

(b) un restringimento nella cavità faringale determina,


rispetto ai valori formantici di [ə], l’innalzamento della F1 e
l’abbassamento della F2; maggiore è la costrizione, maggiore è
l’effetto sulla formante;

9
(c) l’arrotondamento e la protrusione delle labbra
determinano l’abbassamento di tutte le formanti; maggiore è la
labializzazione, maggiore è l’effetto sulle formanti.

L’unica vocale ad avere tutte le formanti equidistanti l’una


dall’altra è la vocale centrale [ə], il cui tracciato costituisce un
utile punto di riferimento nell’operazione di lettura spettrografica.
Infatti se la distanza in Hz tra due formanti consecutive (Fn+1 – Fn)
è uguale a 1000 Hz, il canale epilaringeo è lungo 17,5 cm. Per
valori diversi di Fn+1 – Fn è possibile ricavare la lunghezza della
distanza glottide-labbra del locutore secondo la formula x = 17,5 ‧
1000 / k, dove x è la lunghezza cercata e k è la distanza Fn+1 – Fn
misurata in Hz. Avendo come riferimento la vocale centrale è
possibile determinare con precisione le caratteristiche articolatorie
dei segmenti vocalici e, in base ai valori di F1 e F2 di ciascuno di
essi, assegnare il corrispondente simbolo IPA. I valori medi di F1
e F2 delle sette vocali dell’italiano pronunciate da voce adulta
maschile e femminile sono riportati nello specchietto che segue
(ricavato da Ferrero & Magno Caldognetto 1986):

vocale F1 - F2 F1 - F2

voce maschile voce femminile

[i] 280 - 2240 320 - 2750

[e] 360 - 2040 400 - 2500

[ɛ] 560 - 1840 620 - 2400

[a] 800 - 1280 920 - 1400

10
[ɔ] 520 - 900 640 - 1200

[o] 420 - 800 400 - 920

[u] 280 - 720 360 - 760

La fig. 3 mostra i pattern formantici delle sette vocali


dell'italiano pronunciate da voce maschile.

11
4. Le consonanti

Sul piano articolatorio i parametri che individuano una


consonante sono tre: la sua natura sorda o sonora, il modo e il
luogo di articolazione.

Riguardo al primo punto, lo spettrogramma permette


immediatamente di distinguere i tratti sonori da quelli sordi: le
consonanti sonore sono caratterizzate da striature verticali
periodiche corrispondenti alle aperture e chiusure glottidali, le
consonanti sorde da assenza di periodicità del segnale. In fig. 4
sono evidenziati i tratti sordi e quelli sonori.

Per quanto riguarda il modo di articolazione consonantico, il


pattern spettrografico di ciascun modo deriva dalla meccanica
articolatoria che lo contraddistingue. Qui di seguito sono riassunte

12
le caratteristiche acustiche e spettrografiche dei singoli modi di
articolazione.

(a) consonanti occlusive

correlati acustici: silenzio per tutta la durata della


consonante seguito da forte rumore momentaneo

pattern spettrografico: spazio bianco (nel caso di occlusiva


sonora, striature periodiche alla base) seguito da striature molto
marcate di breve durata

(b) consonanti nasali

correlati acustici: mormorio nasale per tutta la durata della


consonante

pattern spettrografico: striature verticali periodiche (in


quanto sempre sonore), formanti marcate intorno ai 250 Hz e
sbiadite tra i 250 Hz e i 2000 Hz

(c) consonanti fricative

correlati acustici: fruscio per tutta la durata del fono

pattern spettrografico: striature verticali irregolari (nel caso


di fricative sonore si aggiungono striature periodiche)

(d) consonanti affricate

correlati acustici: silenzio seguito da fruscio

13
pattern spettrografico: spazio bianco seguito da un tratto
caratterizzato da striature irregolari (nel caso di affricate sonore si
aggiungono striature periodiche)

(e) consonanti vibranti

correlati acustici: rapido alternarsi di silenzio e rumore

pattern spettrografico: successione di brevi spazi bianchi e


striature verticali periodiche (le vibranti sono sempre sonore)

(f) consonanti laterali

correlati acustici: suono continuo di tipo vocalico, ma meno


intenso

pattern spettrografico: striature verticali periodiche (le


laterali sono sempre sonore) con formanti marcate e distinte

Alcuni esempi di modi consonantici sono mostrati in fig. 5.


Si notano i tratti tipici delle consonanti fricative [f] e [ʃ], della
nasale [n], dell’occlusiva [t].

14
Il luogo di articolazione delle consonanti è
spettrograficamente ricavabile dall’altezza della F2. Quando,
come nel caso delle occlusive, la F2 non è visibile, è possibile
ricavare il luogo dalle deviazioni, ascendenti o discendenti, delle
seconde formanti delle vocali a contatto (la «teoria dei loci»,
formulata per la prima volta da Delattre, Liberman & Cooper
1955, e successivamente ripresa da vari studiosi). Tali deviazioni
convergono verso un locus che rappresenta il corrispettivo
acustico del luogo articolatorio: 700 Hz per un luogo labiale, 1800
Hz per un luogo dentale o postalveolare, 2000 Hz per un luogo
palatale. Per un luogo velare vi sono due diversi loci: al di sopra
dei 2200 Hz se la vocale a contatto è aprocheila, intorno ai 700 Hz
se la vocale è procheila. Tali valori si riferiscono a una voce
maschile (per una voce femminile è sufficiente aumentarli del
15%). Infine va detto che anche la F1 varia al variare del luogo
articolatorio. Infatti se la F1 è inferiore ai 500 Hz la costrizione è
localizzata nella cavità orale, se la F1 supera i 500 Hz la
costrizione è nella cavità faringale.

In fig. 6, a titolo riassuntivo, è riportato lo spettrogramma

della frase quell’assolo di tromba. Per quanto riguarda i loci delle


consonanti occlusive si può notare come la velare iniziale [k]

15
presenti un locus al di sotto dei 1000 Hz per effetto della vocale
procheila a contatto, e come le alveolari [d] e [t] abbiano entrambe
un locus di F2 intorno ai 1800 Hz. Inoltre, il tracciato evidenzia
molti fenomeni di coarticolazione. Si nota, ad es., che le due
consonanti laterali [l] presentano una diversa F2: intorno ai 1800
Hz la prima, intorno ai 1200 Hz la seconda. L’abbassamento è
evidentemente dovuto alla labializzazione: nel primo caso la
consonante è in contesto non labializzato, nel secondo si trova a
contatto con vocali protruse e arrotondate. La labializzazione
quindi, già presente nella prima [o], per economia articolatoria
permane durante la produzione della laterale e continua nella
vocale che segue.

Effetti di coarticolazione sono visibili anche nel tratto


corrispondente alla fricativa [s]. Notiamo infatti che il segnale più
intenso si trova inizialmente nella zona compresa tra i 5 e i 7 kHz,
ma a partire da un certo istante, circa a metà del tratto, il segnale
si abbassa bruscamente. L’abbassamento di tutto il segnale indica
che anche questa volta la causa della variazione acustica va
ricercata nello spostamento delle labbra, che iniziano ad
arrotondarsi durante la consonante, anticipando la labializzazione
della vocale che segue. Tale punto segna il confine tra un’unità
articolatoria di programmazione (detta anche sillaba articolatoria)
e la successiva (su questo, cfr. Koževnikov & Chistovich 1965).
Interessante è anche il nesso [mb], in quanto si può notare come la
nasalità (caratterizzata dal segnale poco intenso ma diffuso)
continui anche durante l’occlusiva, evidentemente per un ritardo
della chiusura del diaframma rinovelare (il velo pendulo ha una
velocità intrinseca minore rispetto agli altri organi articolatori).

16
L’analisi spettrografica consente, in definitiva, di rivelare
molti dettagli articolatori che non potrebbero in alcun modo essere
individuati se non mediante tecniche di indagine più o meno
invasive (radiografiche, cineradiografiche, palatografiche), le
quali, peraltro, impediscono la spontaneità e la normalità
dell’eloquio. L’indagine spettrografica resta quindi uno strumento
essenziale per lo studio della voce e del suono linguistico.

17
Studi

Albano Leoni, Federico & Maturi, Pietro (20023), Manuale


di fonetica, Roma, Carocci (1a ed. Roma, NIS, 1995).

Borden, Gloria J., Harris, Katherine S. & Raphael,


Lawrence J. (1994), Speech science primer. Physiology, acoustics,
and perception of speech, Philadelphia, Lippincott Williams &
Wilkins.

Delattre, Pierre C. (1958), Les indices de la parole: premier


rapport, «Phonetica. International journal of phonetic science» 2,
pp. 108-118.

Delattre, Pierre C. (1962), Le jeu des transitions des


formants et la perception des consonnes. Proceedings of the
fourth international congress of phonetic sciences held at the
University of Helsinki (4-9 September 1961), edited by A.
Sovijärvi & P. Aalto, The Hague, Mouton, pp. 407-417.

Delattre, Pierre C., Liberman, Alvin M. & Cooper, Franklin


S. (1955), Acoustic loci and transitional cues for consonants,
«Journal of the Acoustical Society of America» 27, 4, pp. 769-
773.

Fant, Gunnar (2004), Speech acoustics and phonetics,


Dordrecht - London, Kluwer Academic Publishers.

18
Ferrero, Franco E. & Magno Caldognetto, Emanuela (1986),
Elementi di fonetica acustica, in Trattato di foniatria e logopedia,
a cura di L. Croatto, Padova, La Garangola, 1983-1988, 4 voll.,
vol. 3° (Aspetti fonetici della comunicazione), pp. 155-196.

Giannini, Antonella & Pettorino, Massimo (1992), La


fonetica sperimentale, Napoli, Edizioni Scientifiche Italiane.

Koževnikov, Valeriĭ R. & Chistovich, L. (1965), Speech:


articulation and perception, translated by Joint Publications
Research Service, Washington D.C.

Pickett, James M. (1980), The sounds of speech


communication. A primer of acoustic phonetics and speech
perception, Baltimore, University Park Press.

Zue, Victor W. (1989), Speech spectrogram reading (May


29 - June 2, 1989), University of Edinburgh Centre for Speech
Technology Research, Edinburgh, University of Edinburgh, 2
voll.

19